Escolar Documentos
Profissional Documentos
Cultura Documentos
Matheus L. Carrijo2
27 de fevereiro de 2023
1 Estas notas são um produto de meus estudos dos livros Bussab and Morettin (2017) e Wooldridge
(2016) e das aulas de um curso preparatório para o Exame Anpec, o Cursinho Simples. Em geral, são
anotações minhas sobre o conteúdo destas fontes, mas que podem conter alguns trechos copiados ipsis
litteris. (ESTAS NOTAS ENCONTRAM-SE AINDA EM DESENVOLVIMENTO).
2 Bacharel em Matemática Aplicada a Negócios pela Faculdade de Filosofia, Ciências e Letras de
1 Introdução 9
I Números Índices 11
2 Números Índices 13
2.1 Números Índices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.1 Índice de Laspeyres . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.2 Índice de Paasche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1.3 Índice de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Propriedades dos Números Índices . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.1 Os Índices de Laspeyres e Paasche como Médias Ponderadas . . . . . . 15
2.2.2 Critério da Circularidade (Encadeamento) . . . . . . . . . . . . . . . . 16
2.2.3 Critério da Reversão do Tempo . . . . . . . . . . . . . . . . . . . . . . 17
2.3 Exercícios ANPEC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
II Probabilidade 29
3 Introdução à probabilidade 31
3.1 Espaço Amostral, Evento e Probabilidade . . . . . . . . . . . . . . . . . . . . . 31
3.2 Probabilidade de um Evento Complementar . . . . . . . . . . . . . . . . . . . . 32
3.3 Probabilidade do ‘e’ e do ‘ou’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.4 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1
2 CONTEÚDO
6 Teoremas 111
6.1 Teorema de Tchebycheff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.2 Lei dos Grandes Números . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.3 Teorema do Limite Central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.4 Exercícios ANPEC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
7 Inferência 123
7.1 Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
7.1.1 Propriedades de um Estimador . . . . . . . . . . . . . . . . . . . . . . 124
7.1.2 Estimador da Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
7.1.3 Estimadores da Variância . . . . . . . . . . . . . . . . . . . . . . . . . 125
7.2 Teste de Hipótese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
IV Econometria 151
Bibliografia 205
5
6 LISTA DE FIGURAS
8.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
7
8 LISTA DE TABELAS
Introdução
9
10
Números Índices
11
Capítulo 2
Números Índices
Tabela 2.1: Preços e quantidades no tempo de uma economia com dois produtos.
Descreveremos para esta economia os índices de Laspeyres e Paasche, tanto para preços
quanto para quantidades. Em seguida, daremos a fórmula geral para o cálculo destes índices.
13
14 2.1. NÚMEROS ÍNDICES
Seguindo o mesmo raciocínio, o índice de Laspeyres de preço para o período 3 com base no
período 1 é:
Podemos calcular também o índice de Laspeyres para quantidade. Com raciocínio seme-
lhante, “avançamos" as quantidades no numerador multiplicadas pelos preços do período base
e com o denominador com a produção total, em termos monetários, do período base, isto é:
Da mesma forma, o índice de Laspeyres de quantidade para o período 3 com base no período
1 é dado por:
De forma geral, se uma economia tem i ∈ {1, 2, ..., n} produtos, o índice de preço de Las-
peyres para um período t com base no ano b é dado por:
Pn t b
pq
Ltp = Pni=1 bi ib .
i=1 pi qi
Aplicando estas duas fórmulas para a economia descrita pela tabela 2.1 nos períodos 2 e 3
e com base no período 1, temos que os índices de preço e quantidade de Paasche são:
2 × 20 + 40 × 2 3 × 10 + 60 × 3
p2p = = 1.2. e p3p = = 1.91.
2 × 20 + 30 × 2 2 × 10 + 30 × 3
2 × 20 + 40 × 2 3 × 10 + 60 × 3
p2q = = 0.75. e p3q = = 0.875.
2 × 20 + 40 × 3 3 × 20 + 60 × 3
Assim como o índice de Laspeyres pode ser visto como uma média, o índice de preços (quan-
tidades) de Paasche pode ser interpretado como uma média harmônica ponderada entre os
preços (quantidades) relativos, usando como pesos os valores de cada produto no período do
índice.
Sabe-se que a média harmônica (MH) ponderada entre dois números x e y é dada por
1
MH = w1 x1 +w2 y1
,
w1 +w2
1
MH = Pn
wi x1
,
i=1 i
Pn
i=1 wi
p = 1, 54 e Lp = 1, 13.
L2,1 3,2
Será que conseguimos obter o índice para o período 3 com base no período 1 a partir dos
índices anteriores? Isto é, será que L3,1
p = Lp × Lp ? Podemos ver que
2,1 3,2
Assim, dizemos que o índice de preço de Laspeyres não satisfaz o critério da circularidade (enca-
deamento).
(p2A qA1 + p2B qB1 ) (p3A qA2 + p3B qB2 ) p3A qA1 + p3B qB1
L2,1 3,2
p Lp = ̸
= = L3,1
p .
(p1A qA1 + p1B qB1 ) (p2A qA2 + p2B qB2 ) p1A qA1 + p1B qB1
Pode-se ser demonstrado que os índices de Laspeyres, de Paasche e de Fisher não satisfa-
zem o critério da circularidade.
p = 1, 54 e Lp = 0.63.
L2,1 1,2
Agora, podemos nos perguntar: será que acumulando estes dois índices, conseguimos voltar
p Lp = Lp = 1? Fazendo as contas, podemos ver que não:
ao valor unitário? Isto é, L2,1 1,2 1,1
Assim, dizemos que o índice de preço de Laspeyres não satisfaz o critério da reversão do tempo.
De forma um pouco mais geral,
Pode-se ser demonstrado que os índices de Laspeyres e de Paasche não satisfazem o cri-
tério da reversão do tempo, mas o índice de Fisher satisfaz! Para ver que o índice de Fisher
satisfaz tal critério, note que
(p2A qA1 + p2B qB1 ) (p2A qA2 + p2B qB2 ) (p1A qA2 + p1B qB2 ) (p2A qA2 + p2B qB2 )
Fp2,1 Fp1,2 = × = 1.
(p1A qA1 + p1B qB1 ) (p1A qA2 + p1B qB2 ) (p2A qA2 + p2B qB2 ) (p1A qA2 + p1B qB2 )
Questão 03/2016
A tabela abaixo mostra os preços e as quantidades vendidas de dois produtos (A e B) em
dois períodos de tempo diferentes (0 e 1).
Período 0 Período 1
Preço Quantidade Preço Quantidade
Produto
(R$/Kg) (Kg) (R$/Kg) (Kg)
A 2,0 200,0 3,0 100,0
B 1,0 100,0 1,0 200,0
Solução.
(0) Verdadeiro.
Demonstração. O índice de Laspeyres de preço do período 1 com base no período 0 é:
(1) Verdadeiro.
Demonstração. O Índice de Paasche de preço do período 1 em relação ao período 0 é
3 × 100 + 1 × 200 5
= .
2 × 100 + 1 × 200 4
(2) Falso.
2 × 100 + 1 × 200 4
= .
2 × 200 + 1 × 100 5
(3) Verdadeiro.
Demonstração. O Índice de Paasche de quantidade do período 1 em relação ao período 0 é:
3 × 100 + 1 × 200 5
= .
3 × 200 + 1 × 100 7
(4) Falso.
Demonstração. O Índice de Fisher de quantidade do período 1 com base no período 0 é:
… √
4 5 2 7
Fq1 = × =
5 7 7
Questão 01/2018
Na tabela abaixo são mostrados os preços e quantidades vendidas de 3 produtos em 2 pe-
ríodos de tempos diferentes:
Período 0 Período 1
Preço Quantidade Preço Quantidade
Produto
(R$/Kg) (Kg) (R$/Kg) (Kg)
A 1,0 20,0 1,0 30,0
B 1,0 20,0 2,0 10,0
C 3,0 20,0 5,0 10,0
Dadas essas informações, é correto afirmar que o valor de cada um dos índices abaixo para
o período 1, com base no período 0, é:
(0) O Índice de Laspeyres de preço é: 1, 6.
(1) O Índice de Laspeyres de quantidade é 0, 7..
(2) O Índice de Paasche de preço é 1, 0.
(3) O Índice de Paasche de quantidade é 0, 5.
(4) O Índice de Fisher de preço é: 1.
Solução.
(0) Verdadeiro.
Demonstração. O índice de Laspeyres de preço do período 1 com base no período 0 é:
1 × 20 + 2 × 20 + 5 × 20 160 7
= = 1, 6. .
1 × 20 + 1 × 20 + 3 × 20 100 5
(1) Verdadeiro.
Demonstração. O Índice de Laspeyres de quantidade do período 1 com base no período 0 é:
1 × 30 + 1 × 10 + 3 × 10 70
= = 0, 7.
2 × 200 + 1 × 100 100
(2) Falso.
Demonstração. O Índice de Paasche de preço do período 1 em relação ao período 0 é
1 × 30 + 2 × 10 + 5 × 10 100
= ̸= 1.
1 × 30 + 1 × 10 + 3 × 10 70
(3) Falso.
Demonstração. O Índice de Paasche de quantidade do período 1 em relação ao período 0 é:
1 × 30 + 2 × 10 + 5 × 10 100 5
= = ̸= 0, 5.
1 × 20 + 2 × 20 + 5 × 20 160 8
(4) Falso.
Demonstração. O Índice de Fisher de preço do período 1 com base no período 0 é:
… √
8 10 4 7
Fp1 = × = ̸= 1.
5 7 7
Questão 05/2019
Na tabela abaixo são mostrados os preços e quantidades vendidas de 4 produtos em 2 pe-
ríodos de tempos diferentes:
Período 1 Período 2
Preço Quantidade Preço Quantidade
Produto
(R$/Kg) (Kg) (R$/Kg) (Kg)
A 3,0 1,0 1,0 2,0
B 1,0 3,0 1,0 2,0
C 2,0 5,0 3,0 4,0
D 2,0 4,0 1,0 8,0
Usando essas informações, calcule o índice de preços de Paasche para o período 2 com base
no período 1, e multiplique o resultado por 100:
Solução.
Demonstração. O índice de preços de Paasche para o período 2 com base no período 1 é:
1×2+1×2+3×4+1×8 24 3
Pp1 = = = .
3×2+1×2+2×4+2×8 32 4
Questão 01/2020
A tabela abaixo mostra os preços (em R$/Kg) e quantidades (em Kg) vendidas de 2 produtos
em 3 períodos de tempos diferentes:
Solução.
(0) Verdadeiro.
Demonstração. O Índice de preços de Laspeyres para o período 3 com base no período 1 é
4×2+4×3
= 2.
2×2+2×3
(1) Falso.
Demonstração. O Índice de preços de Laspeyres para o período 2 com base no período 1 é
2×2+3×3 13
= = 1, 3 ̸= 1.
2×2+2×3 10
(2) Falso.
Demonstração. O Índice de preços de Laspeyres para o período 3 com base no período 2 é
4×2+4×2
= 1, 6.
2×2+3×2
(3) Verdadeiro.
Demonstração. O Índice de preços de Paasche para o período 3 com base no período 1 é
4×1+4×2
=2
2×1+2×2
(4) Verdadeiro.
Demonstração. O Índice de quantidades de Laspeyres para o período 2 com base no período 1
é
2×2+2×2
= 0, 8.
2×2+2×3
Questão 01/2022
Seja pit preço do bem i no período t, e seja qti a quantidade do bem i no período t. Consi-
derando n bens (i = 1, ..., n) e dois períodos (t = 0, 1) verifique se as afirmativas abaixo são
falsas ou verdadeiras:
(0) O Índice de Preço de Laspeyres para o período 1 com base no período 0 é dado por:
Pi=1 i i
p1 q 0
Pni=1 i i .
n p0 q 0
(1) O Índice de Quantidade de Laspeyres para o período 1 com base no período 0 é dado
por:
Pi=1 i i
n p1 q 0
Pi=1 i i
.
n p1 q 1
(2) Índice de Preço de Paasche para o período 1 com base no período 0 é dado por:
Pi=1 i i
p1 q 1
Pni=1 i i .
n p0 q 0
(3) O Índice de Quantidade de Paasche para o período 1 com base no período 0 é dado por:
Pi=1 i i
n p1 q 1
Pi=1 i i
.
n p0 q 1
(4) Sendo PL o Índice de Preço de Laspeyres para o período 1 com base no período 0 e PP o
Índice de Preço de Paasche para o período 1 com base no período 0, então o Índice de Preço de
√
Fisher para o período 1 com base no período 0 é dado por P L × P P .
Solução.
(0) Verdadeiro.
Demonstração. Esta é exatamente a fórmula dada no texto para o índice de preço de Laspeyres.
(1) Falso.
Demonstração. Vimos que o índice de quantidade de Laspeyres, neste caso para o período 1
com base no período 0, é dado por
Pi=1 i i
p0 q 1
Pni=1 i i .
n p0 q 0
(2) Falso.
Demonstração. Vimos que o índice de preço de Paasche, neste caso para o período 1 com base
no período 0, é dado por
Pi=1 i i
p1 q 1
Pni=1 i i .
n p0 q 1
(3) Falso.
Demonstração. Vimos que o índice de quantidade de Paasche, neste caso para o período 1 com
base no período 0, é dado por
Pi=1 i i
p1 q 1
Pni=1 i i .
n p1 q 0
(4) Verdadeiro.
Demonstração. Vimos no texto que o índice de Fisher é dado exatamente por esta fórmula.
Questão 01/2021
Seja pit preço do bem i no período t, e seja qti a quantidade do bem i no período t. Con-
siderando 2 bens (i = 1, 2) e dois períodos (t = 1, 2), verifique se as afirmativas abaixo são
corretas, supondo que p11 < p12 ; p21 < p22 ; q11 > q21 ; q12 > q22 :
(0) O Índice de Preço de Laspeyres do período 2 com base no período 1 é maior que um.
(1) O Índice de Preço de Paasche do período 2 com base no período 1 é maior que um.
(2) O Índice de Preço de Laspeyres do período 2 com base no período 1 é dado por:
r1 v21 + r2 v22
,
v11 + v12
Solução.
(0) Verdadeiro.
Demonstração. O índice de preço de Laspeyres do período 2 com base no período 1 é
(1) Falso.
Demonstração. O índice de preço de Paasche do período 2 com base no período 1 é:
(2) Falso.
Demonstração. Substituindo os valores de vti e ri na razão dada no enunciado temos:
(3) Falso.
Demonstração. Contraexemplo: P11 = P12 = q21 = q22 = 1 e P21 = p22 = q11 = q12 = 2 faz com
que os índices sejam iguais a 2.
(4) Verdadeiro.
Demonstração. De fato, a fórmula é uma média harmônica dos preços relativos com peso dado
pelo valor da produção no período do índice (atual). Vimos que este é precisamente o caso do
índice de Paasche.
Questão 01/2017
Com relação aos números índices, podemos afirmar:
(0) o cálculo do Índice de Preço de Laspeyres requer que as quantidades sejam apuradas em
todos os períodos.
(4) O Índice de Preços de Paasche do período h, com base no período t, é o inverso do Índice
de preços de Paasche do período t, com base no período h.
Solução.
(0) Falso.
Demonstração. O índice que apresenta esta propriedade é o índice de Paasche. O índice de
Laspeyres é um índice de cestas fixas, isto é, usa as quantidades do período base apenas —
como podemos ver pela fórmula dada no texto.
(4) Falso.
Demonstração. Vimos no texto que os índices de Paasche não satisfazem o critério da reversão
do tempo, que é o que o enunciado implicitamente afirma.
Questão 01/2015
Com relação aos números índices, é correto afirmar que:
(0) O índice de preços de Laspeyres do período t, com base no período i, é calculado ponderando-
se os preços, em t, pelas quantidades do período t;
(1) O índice de Fisher de preços é uma média geométrica dos índices de preços de Paasche
e de Laspeyres;
(2) Multiplicar o índice de preços de Laspeyres pelo índice de quantidades de Paasche for-
nece o mesmo resultado que a multiplicação do índice de preços de Paasche pelo índice de
quantidades de Laspeyres;
(3) O cálculo do índice de preços de Paasche requer os preços e as quantidades para todos
os períodos;
(4) Dentre os índices de Laspeyres, Paasche e Fisher, o único que satisfaz a condição de
reversão no tempo é o de Fisher.
Solução.
(0) Falso.
(1) Verdadeiro.
Demonstração. Vimos no texto que esta é precisamente a definição do índice de Fisher.
(2) Verdadeiro.
Demonstração.
Pn t b Pn t t Pn t t Pn t t Pn b t
i=1 pi qi i=1 pi qi i=1 pi qi pq pq
Ltp Pqt = Pn b b Pn t b = Pn b b = Pp Lq = Pni=1 bi it Pni=1 bi ib .
t t
(3) Falso.
Demonstração. Não é preciso a quantidade do período base.
(4) Verdadeiro.
Demonstração. Vimos no texto exatamente isto.
Questão 01/2005
A respeito de números-índice, é correto afirmar:
(0) O índice de quantidade de Fisher é a raiz quadrada do produto dos índices de quantidade
de Laspeyres e de Paasche.
(1) O índice de preço de Laspeyres é a média aritmética de relativos de preços ponderados
pela participação do dispêndio com cada bem na época atual.
(2) O índice de preço de Paasche é a média aritmética de relativos de preços ponderados
pelo valor de cada bem na época base.
(3) Os índices de Laspeyres e Paasche atendem ao critério de reversão do tempo.
Solução.
(0) Verdadeiro.
Demonstração. Vimos no texto que o índice de quantidade de Fisher é exatamente isto.
(1) Falso.
Demonstração. Corrigindo a frase do enunciado: o índice de preço de Laspeyres é a média
aritmética de relativos de preços ponderados pela participação do dispêndio com cada bem na
época do período base.
(2) Falso.
Demonstração. O índice de Paasche é uma média harmônica e usa o período do índice (atual).
(3) Falso.
Demonstração. Vimos no texto que o único índice que atende ao critério da reversão do tempo
é o de Fisher
Questão 02/2016
Com relação a números índices, são corretas as afirmativas:
(0) O Índice de Quantidade de Paasche é uma média harmônica ponderada da razão das
quantidades;
(1) O Índice de Quantidade de Fisher não atende à condição de encadeamento;
(3) O Índice de Preços de Paasche atende ao critério de reversão no tempo.
Solução.
(0) Verdadeiro.
Demonstração. Vimos no texto que o índice de Paasche é exatamente isto.
(1) Verdadeiro.
Demonstração. Também vimos no texto que o índice de Fisher não satisfaz o critério (ou con-
dição) do encadeamento.
(3) Falso.
Demonstração. Vimos no texto que o único índice a atender o critério da reversão no tempo é
o de Fisher.
Probabilidade
29
Capítulo 3
Introdução à probabilidade
Definição 3.1 Espaço amostral (que denotaremos por S) é o conjunto dos resultados que um certo
experimento “pode" ter.
1. P (S) = 1;
2. P (∅) = 0;
1
Por exemplo, se A = {1, 2, 3}, então P(A) = {{1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}, {1, 2, 3}, ∅}
31
32 3.2. PROBABILIDADE DE UM EVENTO COMPLEMENTAR
Retornando novamente ao exemplo do dado, observe que ({1} ∪ {2})c = {1, 2}c = {3, 4}.
Assim, P ({3, 4}) = 1 − P ({1, 2}) = 1 − 1/2 = 1/2.
ou
Proposição 3.4 Considere dois eventos quaisquer A e B. Sabendo que B ocorre, a probabilidade de
A ocorrer é
P (A ∩ B)
P (A|B) = , (3.1)
P (B)
Observação 3.6 Das duas equações (3.1)-(3.2) acima, pode-se dizer que dois eventos são indepen-
dentes se, e somente se, P (A ∩ B) = P (A)P (B).
Definição 3.7 Se considerarmos três eventos A, B e C, dizemos que eles são independentes se eles
são independentes dois a dois e
Teorema 3.8 (Teorema de Bayes) O teorema de Bayes nos permite calcular probabilidades condi-
cionais “inversas":
P (B|A)P (A)
P (A|B) = .
P (B)
Definição 4.1 Considere uma variável aleatória discreta X, que assume os valores xi , para i ∈
{1, 2, ..., n, ...}. Uma função massa de probabilidade é uma função {(xi , p(xi )), i = 1, 2, ...} que
associa a cada resultado de X um valor no intervalo [0, 1], ou seja,
Definição 4.3 Dada uma variável aleatória discreta X, chamaremos de função de distribuição acu-
mulada (fda), denotada por F (x), a função
F (x) = P (X ≤ x),
Observação 4.4 Note que o domínio de F é o conjunto dos números reais, ao passo que o contrado-
mínio é o intervalo unitário [0, 1].
35
36 4.1. MEDIDAS DE POSIÇÃO E DISPERSÃO
• E[a] = a;
• E[aX] = aE[X];
V ar[X] = E[(X − µx )2 ],
Note que:
• V ar[a] = V ar[b] = 0;
• V ar[X + a] = V ar[X];
• V ar[aX] = a2 V ar[X];
Observação 4.9 O desvio padrão (dp) de uma variável aleatória X é definido como
»
dp[X] = V ar[X].
X ∼ Ber(p).
em que nk = k!(n−k)!
n!
denota a combinação de n elementos em k posições, e dizemos que X
X ∼ b(n, p).
Proposição 4.10 Seja X uma v.a. com distribuição binomial de parâmetros p e n. Então,
E[X] = np
V ar[X] = np(1 − p).
Demonstração. Podemos representar uma variável aleatória que segue uma distribuição bino-
minal através da soma de n variáveis aleatórias, Xi , que seguem uma distribuição de Bernoulli,
isto é,
X = X1 + ... + Xn
é tal que X ∼ b(p, n) desde que Xi ∼ Ber(p), ∀i ∈ {1, ..., n}. O motivo disto é claro: por
definição, a distribuição binomial é caracterizada pela quantidade de sucessos resultantes das
n repetições do experimento de Bernoulli. Como o sucesso é representado pelo valor 1 e o
fracasso por 0, então a soma das n variáveis aleatórias de Bernoulli nos dá exatamente a quan-
tidade de sucessos em n experimentos, constituindo X como uma variável aleatória que segue
a distribuição binominal. Portanto,
Proposição 4.11 Seja X uma v.a. discreta seguindo uma distribuição geométrica com parâmetro p.
Então,
1
E[X] =
p
(1 − p)
V ar[X] = .
p2
(1 − p)E[X] = (1 − p)p + 2(1 − p)2 p + 3(1 − p)3 p + ... + n(1 − p)n p + ...
Agora, iremos subtrair o lado esquerdo da primeira equação pelo lado esquerdo da segunda.
Ainda, do lado direito iremos subtrair o segundo termo da primeira equação pelo primeiro termo
da segunda equação; o terceiro termo da primeira equação pelo segundo termo da segunda
equação, e assim por diante. Note que, como estamos em uma soma infinita, “não incluir" o
primeiro termo do lado direito da primeira equação, p, na soma não fará diferença. Assim,
Temos do lado direito, portanto, uma progressão geométrica infinita de razão 1 − p. Sabemos
então que
p 1
pE[X] = = 1 ⇔ E[X] = .
p p
Note que N − K é a quantidade de elementos com características outras que não a mesma do
grupo com K elementos. Para tornar mais concreta a explicação, podemos considerar uma urna
com N bolas, sendo K vermelhas e N − K pretas. Assim, X pode ser uma variável aleatória
representando a quantidade de retiradas de bolas vermelhas de uma urna, sem reposição.
Observe que o experimento é quase o mesmo que o da variável aleatória seguindo uma dis-
tribuição binomial. A diferença é que neste caso de distribuição binomial os experimentos são
independentes um do outro. Em oposição, os experimentos repetidos na distribuição hipergeo-
métrica possuem dependência entre eles. No caso do exemplo da retirada de bolas de uma urna,
a distribuição binomial seria uma forma de modelar os experimentos de retiradas de bolas com
reposição, enquanto que a distribuição hipergeométrica está ligada à repetição de experimentos
sem reposição.
A distribuição massa de probabilidade de X ∼ hip(N, n, K) é dada por
K N −K
k n−k
P (X = k) = N
,
k
em N − K fracassos possíveis.
e−λ λk
P (X = k) = .
k!
Além disso,
E[X] = V ar[X] = λ.
Y
0 1 2
1 1/4 1/8 0
X
2 0 1/2 1/8
diante.
Podemos querer saber também, por exemplo, as distribuições das variáveis aleatórias X e
Y , isto é, os valores de P (X = 1), P (X = 2), P (Y = 0), P (Y = 1), P (Y = 2). Para isto,
basta somar as linhas e colunas da tabela de distribuição conjunta do seguinte modo:
P (X = 1) = P (X = 1 ∧ Y = 0) + P (X = 1 ∧ Y = 1) + P (X = 1 ∧ Y = 2)
P (X = 1) = 1/4 + 1/8 = 3/8
P (X = 2) = P (X = 2 ∧ Y = 0) + P (X = 2 ∧ Y = 1) + P (X = 2 ∧ Y = 2)
P (X = 2) = 1/2 + 1/8 = 5/8
P (Y = 0) = P (X = 1 ∧ Y = 0) + P (X = 2 ∧ Y = 0)
P (Y = 0) = 1/4
P (Y = 1) = P (X = 1 ∧ Y = 1) + P (X = 2 ∧ Y = 1)
P (Y = 1) = 1/8 + 1/2 = 5/8
P (Y = 2) = P (X = 1 ∧ Y = 2) + P (X = 2 ∧ Y = 2)
P (Y = 2) = 1/8
Tais valores definem a distribuição marginal de cada uma das variáveis aleatórias. A tabela
4.2 mostra também as distribuições marginais.
Y
0 1 2 P(x)
1 1/4 1/8 0 3/8
X
2 0 1/2 1/8 5/8
P(y) 1/4 5/8 1/8
P (Y = y ∧ X = x)
P (Y = y|X = x) = . (4.1)
P (X = x)
2, são:
P (Y = 0 ∧ X = 1) 1/4
P (Y = 0|X = 1) = = = 2/3.
P (X = 1) 3/8
P (Y = 1 ∧ X = 1) 1/8
P (Y = 1|X = 1) = = = 1/3.
P (X = 1) 3/8
P (Y = 2 ∧ X = 1) 0
P (Y = 2|X = 1) = = = 0.
P (X = 1) 3/8
Observe que obtemos a distribuição condicional de Y , dado que X = 1. Com estes valores,
podemos calcular a média desta distribuição, dada por
Definição 4.12 Se temos n valores possíveis que X assume, de modo que xi representa cada valor,
para todo i = 1, ..., n, então a esperança condicional de X, dado Y = y é
n
X
E[X|Y = y] = xi P (xi |Y = y).
i=1
1/4
P (X = 1|Y = 0) = P (X = 1 ∧ Y = 0)/P (Y = 0) = = 1 ̸= P (X = 1) = 3/8
1/4
e, portanto, de acordo com a definição 3.5, as variáveis não são independentes. Em geral, temos
a seguinte definição.
P (X = xi |Y = yj ) = P (X = xi ).
Ou seja, basta que esta igualdade não se verifique para um par (xi , yj ) para que X e Y não sejam
independentes.
Observação 4.14 Da fórmula da probabilidade condicional (4.1) e pela definição acima de indepen-
dência, podemos ver que duas variáveis aleatórias X e Y são independentes se, e somente se,
P (X = xi ∧ Y = yj ) = P (X = xi )P (Y = yj ).
Para ver que isto vale na distribuição conjunta da tabela 4.2, observe primeiramente que
Como
então,
Portanto, das equações (4.3) e (4.4) vemos que (4.2) funciona para o nosso exemplo de
distribuição conjunta.
E[XY ] = E[X]E[Y ].
Demonstração. Para ver por que esta igualdade é verdadeira, podemos usar o resultado que
acabamos de ver sobre a lei das expectativas iteradas. Ou seja,
Como estamos considerando X dado (observe que estamos calculando a esperança da es-
perança de XY dado X), usando uma das propriedades do valor esperado temos que
Por fim, como E[Y ] é um número qualquer — a média da v.a. Y —, então segue que
E[XE[Y ]] = E[X]E[Y ],
como queríamos.
Y
3 7
1 3/8 1/8
X
3 1/8 3/8
Como medir a associação entre as variáveis? Uma medida possível de associação entre duas
variáveis aleatórias X e Y é a covariância.
Observação 4.18 Note da observação acima, portanto, que quando X e Y são independentes, então
E[XY ] = E[X]E[Y ] e, então, Cov(X, Y ) = 0. No entanto, se Cov(X, Y ) = 0 nada nos garante
que X e Y são independentes.
Observação 4.19 Quando Cov(X, Y ) = 0, diz-se que as variáveis X e Y são não correlacionadas.
E[XY ] = 3P (X = 1, Y = 3) + 9P (X = 3, Y = 3) + 7P (X = 1, Y = 7) + 21P (X = 3, Y = 7)
= 9/8 + 9/8 + 7/8 + 63/8 = 11.
Ainda,
• Cov(X, X) = V ar(X);
• Cov(aX + b, cY + d) = acCov(X, Y );
• Cov(X, Y ) = E[(X − µX )Y ].
Lembremos que
como queríamos demonstrar. Por fim, para a quarta igualdade, basta notar que
= E[XY − XµY − Y µX + µX µY ]
= E[XY − Y µX ] + E[µX µY − XµY ]
= E[(X − µX )Y ] + µX µY − µX µY
= E[(X − µX )Y ].
Observação 4.21 Observe da terceira igualdade da proposição anterior que quando X e Y são in-
dependentes e, portanto, Cov(X, Y ) = 0, segue que
Introduziremos agora uma medida que não depende das unidades de medida de X e Y .
Cov(X, Y )
ρ(X, Y ) = .
dp(X)dp(Y )
−1 ≤ ρ(X, Y ) ≤ 1.
Proposição 4.24 As seguintes igualdades são válias para o coeficiente de correlação entre duas va-
riáveis aleatórias X e Y :
• ρ(X + a, Y + b) = ρ(X, Y );
• ρ(aX, bY ) = ab
|ab|
ρ(X, Y ).
Questão 03/2010
Sobre a Teoria das Probabilidades e considerando A, B e C três eventos quaisquer, mas
com probabilidades de ocorrência diferentes de zero, indique as alternativas corretas e falsas:
Solução.
(0) Verdadeiro.
Demonstração. De fato,
P (A∩B)
P (A|B) P (B) P (A)
= P (A∩B)
= .
P (B|A) P (B)
P (A)
(1) Falso.
Demonstração. Se dois eventos A e B são mutuamente exclusivos, para um ocorrer o outro
não pode ocorrer e, portanto, eles são dependentes. De fato, como A ∩ B = ∅, então
(2) Falso.
Demonstração. Se três eventos A, B e C são independentes, então
(3) Verdadeiro.
Demonstração. Vimos na definição de probabilidade exatamente isto.
(4) Falso.
Demonstração. A expressão do enunciado é satisfeita com igualdade se, e somente se, os
três eventos são exclusivos. Isso significa dizer que a expressão ocorre com desigualdade se,
e somente se, os três eventos não são exclusivos. Isto não necessariamente quer dizer que os
eventos precisam ser independentes.
Questão 03/2011
Julgue as afirmativas:
(0) Três eventos A, B e C são independentes se e somente se P (A∩B∩C) = P (A)P (B)P (C).
(1) Se P (A) = (1/3) e P (B c ) = 1/5, A e B não são disjuntos.
(2) Se P (A) = 0, 4, P (B) = 0, 8 e P (A|B) = 0, 2, então P (B|A) = 0, 4.
(3) Se P (B) = 0, 6 e P (A|B) = 0, 2, então P (Ac ∪ B c ) = 0, 88.
(4) Se P (A) = 0, então A = ∅
Solução.
(0) Falso.
Demonstração. A igualdade é necessária mas não suficiente. Para que três eventos sejam
independentes eles precisam ser independentes dois a dois e satisfazem esta igualdade.
(1) Verdadeiro.
Demonstração. Note que P (B c ) = 1 − P (B) = 1/5 ⇒ P (B) = 4/5. Se A e B fossem
disjuntos, P (A ∪ B) = P (A) + P (B) = 1/3 + 4/5 > 1. Portanto, eles não podem ser
disjuntos.
(2) Verdadeiro.
Demonstração. Pelo Teorema de Bayes,
(3) Verdadeiro.
Demonstração. P (Ac ∪ B c ) = P ((A ∩ B)c ). Mas note que P (A ∩ B) = P (A|B)P (B) =
0.2 × 0.6 = 0.12. Portanto, P ((A ∩ B)c ) = 1 − 0.12 = 0.88.
(4) Falso.
Questão 04/2016
Uma determinada empresa tem três diferentes unidades (A, B e C). A tabela abaixo mostra
o número de funcionários homens e o número de funcionárias mulheres em cada uma das três
unidades:
Homens Mulheres
Unidade A 100 100
Unidade B 40 60
Unidade C 20 80
(0) Suponha que um funcionário dessa empresa escolhido aleatoriamente seja uma mulher.
A probabilidade de que essa pessoa trabalhe na unidade B é igual a 25%;
(1) A probabilidade de um funcionário escolhido aleatoriamente ser homem e trabalhar na
unidade C é igual a 12, 5%;
(2) A probabilidade de um funcionário escolhido aleatoriamente ser um homem que trabalha
na unidade A ou uma mulher que trabalha na unidade C é igual a 45%.
(3) Suponha que um funcionário da empresa escolhido aleatoriamente trabalhe na unidade
B. A probabilidade de que essa pessoa seja uma mulher é igual a 15%;
(4) Considere que um funcionário da empresa escolhido aleatoriamente seja um homem. A
probabilidade de que essa pessoa trabalhe na unidade A é igual a 25%.
Solução.
(0) Verdadeiro.
Demonstração. P (B|M ) = 60/240 = 1/4 = 25%.
(1) Falso.
Demonstração. A probabilidade de ser homem e trabalhar na empresa C é 20/400 = 1/20 =
0, 05.
(2) Verdadeiro.
Demonstração. A probabilidade de um funcionário escolhido aleatoriamente ser um homem
que trabalha na unidade A é 1/4 e a probabilidade de um funcionário escolhido aleatoriamente
ser uma mulher que trabalha na unidade C é 1/5. Assim, como os eventos não têm intersecção,
a probabilidade de um funcionário escolhido aleatoriamente ser um homem que trabalha na
unidade A ou uma mulher que trabalha na unidade C é igual a 1/4 + 1/5 = 9/20 = 0.45.
(3) Falso.
Demonstração. P (M |B) = 60/100 = 60%.
(4) Falso.
Demonstração. P (A|H) = 100/160 = 62.5%.
Questão 03/2014
A tabela abaixo oferece informações sobre uma determinada cidade. A População Econo-
micamente Ativa (PEA) de 120 habitantes que está em busca de emprego ou participando do
mercado de trabalho possui a seguinte distribuição:
Empregado Desempregado
Possui curso superior 40 10
Não possui curso superior 40 30
Solução.
(0) Falso.
Demonstração. A taxa de desemprego é 40/120 = 1/3 = 33, 3%.
(1) Verdadeiro.
Demonstração. Nosso espaço amostral, dado que o indivíduo tem curso superior, é o conjunto
das pessoas que possui curso superior. Assim, a probabilidade de um indivíduo estar desempre-
gado dado que ele tem curso superior é 10/50 = 1/5 = 20%.
(2) Falso.
Demonstração. Nosso espaço amostral, dado que o indivíduo está empregado, é o conjunto
das pessoas empregadas. Assim, a probabilidade de um indivíduo ter curso superior dado que
ele está empregado é 40/80 = 50%, que é igual à probabilidade de um indivíduo não ter curso
superior dado que ele está empregado.
(3) Falso.
Demonstração. Esta proporção é 40/80 = 1/2.
(4) Verdadeiro.
Demonstração. Nosso espaço amostral, dado que o indivíduo está desempregado, é o conjunto
das pessoas desempregadas. Assim, a probabilidade de um indivíduo não ter curso superior
dado que ele está desempregado é 30/40 = 3/4 = 75%.
Questão 03/2022
Uma pesquisa realizada com 250 estudantes de uma universidade (120 homens e 130 mu-
lheres) perguntou, de uma lista de três esportes, qual o preferido do estudante: futebol, vôlei ou
basquete (apenas uma opção era permitida). Entre os homens, 1/3 prefere basquete e metade
prefere futebol. Entre as mulheres, 60 preferem futebol e 60 preferem vôlei. Se um estudante
escolhido aleatoriamente nessa amostra tem como esporte preferido (entre as três opções apre-
sentadas) o basquete, qual a probabilidade de que seja um homem? Multiplique o resultado por
100.
Solução.
Demonstração. Se 1/3 entre os homens preferem basquete, então são 1/3×120 = 40 homens
que preferem basquete, enquanto que entre as mulheres, apenas 130 − 60 − 60 = 10 prefere
basquete. Assim, Se um estudante escolhido aleatoriamente nesta amostra tem como esporte
preferido o basquete, então nosso espaço amostral relevante é dado pelo conjunto de pessoas
que preferem basquete. Portanto, se queremos calcular a probabilidade de que tal estudante
seja homem, basta fazer:
40/50 = 4/5 = 0.8.
Questão 15/2016
Cinco (5) parafusos defeituosos foram misturados com sete (7) outros parafusos bons numa
caixa e vendidos para a instalação de um armário que precisa de quatro (4) parafusos. Qual a
probabilidade de que quatro (4) parafusos defeituosos sejam escolhidos em sequência? Multi-
plique o resultado por 1000 e considere apenas a parte inteira do resultado.
Solução.
5 4 3 2
× × × = 1/99.
12 11 10 9
Questão 15/2011
Num torneio de squash entre três jogadores, A, B e C, cada um dos competidores enfrenta
todos os demais uma única vez (isto é, A joga contra B, A joga contra C e B joga contra C).
Assuma as seguintes probabilidades:
Solução.
Demonstração. Para que A vença um número de partidas pelo menos tão grande quanto qual-
quer outro jogador, ele precisa vencer ou ao menos uma partida. As situações possíveis são:
3. A vence B e C.
Questão 12/2014
Suponha que as ocupações são agrupadas em 3 níveis: alto (A), médio (M ) e baixo (B).
Seja A1 o evento que a ocupação do pai é o nível alto, M1 o evento que a ocupação do pai é
nível médio, e B1 o evento que a ocupação do pai é nível baixo. De forma análoga, seja A2 o
evento que a ocupação do filho é o nível alto, M2 o evento que a ocupação do filho é nível médio
e B2 o evento que a ocupação do filho é nível baixo. Temos a seguinte matriz de probabilidades
condicionais:
A2 M2 B2
A1 0, 45 0, 48 0, 07
M1 0, 05 0, 70 0, 25
B1 0, 01 0, 50 0, 49
(3) Se a ocupação do pai é baixa, a probabilidade da ocupação do filho ser alta é 0, 01;
(4) A probabilidade de pai e filho ambos terem ocupações de alto nível é 0, 045.
Solução.
(0) Falso.
Demonstração. Sabemos da tabela que P (B2 |B1 ) = 0.49 e do enunciado que P (B1 ) = 0.5.
Assim, da fórmula da probabilidade condicional temos que a probabilidade de um pai e um filho
estarem ambos em ocupações de baixo nível é
(1) Falso.
Demonstração. P (A2 ) = P (A2 ∩A1 )P (A2 ∩M1 )P (A2 ∩B1 ) = P (A2 |A1 )P (A1 )+P (A2 |M1 )P (M1 )+
P (A2 |B1 )P (B1 ) = 0.45 × 0.1 + 0.05 × 0.4 + 0.01 × 0.5 = 0.005 + 0.02 + 0.045 = 0.07 ̸= 0.15.
(2) Falso.
Demonstração. Queremos achar P (A1 |A2 ). Pelo Teorema de Bayes apresentado no texto,
(3) Verdadeiro.
Demonstração. Queremos P (A2 |B1 ), que é exatamente o número 0.01 que a tabela nos dá na
primeira coluna e última linha dos valores.
(4) Verdadeiro.
Demonstração. Queremos o valor de P (A1 ∩ A2 ), que já foi calculado na resposta do item (1).
Assim, vemos que P (A1 ∩ A2 ) = 0.045.
Questão 09/2013
Uma firma de consultoria econômica possui um modelo para prever recessões. O modelo
prevê corretamente uma recessão com probabilidade de 80% quando ela realmente está a ca-
minho e com probabilidade de 10% quando ela não está a caminho. A probabilidade não con-
dicional de a economia passar por uma recessão é de 20%. Se o modelo prevê uma recessão,
qual é a probabilidade de que ela realmente esteja a caminho? Multiplique o resultado por 100
e arredonde para o número inteiro mais próximo.
Solução.
Demonstração. Seja R o evento “recessão" e P o evento “o modelo prevê a recessão". Assim,
das informações do enunciado, P r(P |R) = 0.8, P r(P |Rc ) = 0.1, e P r(R) = 0.2. Queremos
calcular P r(R|P ). Note que
Portanto,
Questão 07/2017
Com relação à Teoria da Probabilidade pode-se afirmar que:
(0) Sejam os eventos independentes A e B, então P (A ∪ B) = P (A) + P (B).
(1) Se A ⊂ B, então P (A) = P (B) + P (B − A).
(2) A, B e C eventos independentes se, e somente se, P (A ∪ B ∪ C) = P (A) + P (B) +
P (C).
(3) Considere um conjunto finito A1 , A2 , ..., An um conjunto de eventos tais que os eventos
condicionais Ai |A1 ∩ A2 ∩ ... ∩ Ai−1 tenham probabilidades positivas. Então P (∩ni=1 Ai ) =
P (A1 )P (A2 |A1 )P (A3 |A1 ∪ A2 )P (An | ∪n−1
i=1 Ai ).
(4) Se dois eventos são disjuntos, então P (A ∩ B) = P (A)P (B).
Solução.
(0) Falso.
Demonstração. Se os eventos são independentes, então temos certeza que eles possuem al-
guma intersecção. Deste modo, P (A ∪ B) = P (A) + P (B) − P (A ∩ B), de modo que
P (A ∩ B) ̸= 0. Portanto P (A ∪ B) ̸= P (A) + P (B).
(1) Falso.
Demonstração. Contraexemplo: suponha A = ∅ e B ̸= ∅, de tal modo que P (B) ̸= 0. Então
∅ ⊂ B pois caso contrário deveria existir algum elemento no conjunto vazio que não está em B,
contradizendo o fato de ele ser vazio. Então, P (A) = 0 ̸= P (B) + P (B − A), já que P (B) > 0
e P (B − A) ≥ 0. Como mostramos um caso em que a sentença não se satisfaz, segue que a
afirmação não pode ser verdadeira.
(2) Falso.
Demonstração. Tal igualdade ocorre se, e somente se, os eventos são disjuntos, o que não quer
dizer que são independentes.
(3) Falso.
Demonstração. P (∩ni=1 Ai ) = P (A1 )P (A2 |A1 )P (A3 |A2 ∩ A1 ) · · · P (An | ∩n−1
i=1 Ai ).
(4) Falso.
Demonstração. Tal igualdade é válida para eventos independentes. Eventos disjuntos satisfa-
zem P (A ∩ B) = 0 ̸= P (A)P (B).
Questão 09/2011
A variável aleatória discreta X assume apenas os valores 0, 1, 2, 3, 4 e 5. A função massa de
probabilidade de X é dada por
• P (X = 0) = P (X = 1) = P (X = 2) = P (X = 3) = a
• P (X = 4) = P (X = 5) = b
• P (X ≥ 2) = 3P (X < 2).
Solução.
(0) Falso.
Demonstração. Note que o evento X < 2 é o complementar de X ≥ 2. Portanto, P (X ≥
2) + P (X < 2) = 1. Observe que
P (X ≥ 2) = P (X = 2 ∨ X = 3 ∨ X = 4 ∨ X = 5)
= P (X = 2) + P (X = 3) + P (X = 4) + P (X = 5)
= 2a + 2b.
Note também que é necessário valer que 4a + 2b = 1, já que a soma das probabilidades
de cada evento precisa somar uma unidade. Portanto, resolvendo o sistema com estas duas
equações de a e b, podemos ver que a = 1/8 e b = 1/4, exatamente o contrário da afirmação
deste item do enunciado.
(1) Verdadeiro.
Demonstração. Com os valores de a e b estabelecidos na respostra do item anterior, temos
que
µ = E[X] = 0P (X = 0) + 1P (X = 1) + 2P (X = 2) + 3P (X = 3) + 4P (X = 4) + 5P (X = 5)
= a + 2a + 3a + 4b + 5b = 3/4 + 9/4 = 3.
(2) Falso.
Demonstração. Note que
E[X 2 ] = 02 P (X = 0) + 12 P (X = 1) + 22 P (X = 2) + 32 P (X = 3) + 42 P (X = 4) + 52 P (X = 5)
= a + 4a + 9a + 16b + 25b = 7/4 + 41/4 = 12.
Questão 07/2019
Suponha que X e Y sejam variáveis aleatórias independentes, em que X é igual a 1 com
probabilidade 0, 5 e X é igual a −1 com probabilidade 0, 5, assim como Y é igual a 1 com
probabilidade 0, 5 e Y é igual a −1 com probabilidade 0, 5. Considere também a variável Z, que
é definida como Z = XY . A partir dessas informações, é correto afirmar:
(0) V ar(X) = 1.
(1) V ar(Z) = 1
1
(2) P rob(X = 1, Z = 1) = 2
1
(3) P rob(X = 1, Y = 1, Z = 1) = 4
(4) P rob(X = 1, Y = 1, Z = 1) = P rob(X = 1) × P rob(Y = 1) × P rob(Z = 1).
Solução.
(0) Verdadeiro.
Demonstração. Note que E[X 2 ] = 1 · 0, 5 + (−1)2 · 0, 5 = 1, e µX = E[X] = 0. Então,
(1) Verdadeiro.
Demonstração. Sabemos que V ar(Z) = V ar(XY ) = E[(XY )2 ] − (E[XY ])2 . Como as
variáveis X e Y são independentes,
Do item anterior e das informações do enunciado, podemos ver que E[X 2 ] = E[Y 2 ] = 1 e
E[X] = E[Y ] = 0. Portanto, V ar[Z] = 1.
(2) Falso.
Demonstração. Note que X = 1 ∧ Z = 1 pode acontecer se, e somente se, Y = 1. Então,
(3) Verdadeiro.
Demonstração. Pela resposta do item anterior podemos ver que a afirmação é válida.
(4) Falso.
Questão 07/2014
Sejam X e Y duas variáveis aleatórias, enquanto a, b, c e d são quatro constantes diferentes
de zero. Julgue as proposições:
(0) V ar(aX + b) = a2 V ar(X).
(1) V ar(aX − cY ) = aV ar(X) + cV ar(Y ) − 2Cov(X, Y ).
(2) Cov(aX + bY, cX + dY ) = acV ar(X) + bdV ar(Y ) + (ad + bc)Cov(X, Y ).
Solução.
(0) Verdadeiro.
Demonstração. Vimos no texto que esta é uma das propriedades da variância.
(1) Falso.
Demonstração. V ar(aX − cY ) = a2 V ar(X) + c2 V ar(Y ) + 2(−ac)Cov(X, Y ).
(2) Verdadeiro.
Demonstração.
Questão 05/2012
Sejam X e Y duas variáveis aleatórias independentes com E[X] = 4, E[Y ] = 5, V ar[X] =
1 e V ar[Y ] = 2. São corretas as afirmativas:
(0) E[XY ] = 9.
(1) E[ Y1 ] = 15 .
Solução.
(0) Falso.
Demonstração. Como são independentes, E[XY ] = E[X]E[Y ] = 4 × 5 = 20.
(1) Falso.
Demonstração. Contraexemplo: seja Y uma variável aleatória tal que P (Y = 3) = 0, 5 e
P (Y = 7) = 0, 5. Note que E[Y ] = 5 e V ar[Y ] = 2, como no enunciado. No entanto,
ï ò
1 1 1 10 1
E = P (Y = 3) + P (Y = 7) = ̸= .
Y 3 7 21 5
(2) Falso.
Demonstração. Contraexemplo: seja X uma variável aleatória tal que P (X = 3) = 0, 5 e
P (Y = 5) = 0, 5. Note que E[X] = 4 e V ar[X] = 1, como no enunciado. No entanto,
E[X 2 ] = 32 P (X = 3) + 52 P (X = 5) = 34 · 0, 5 = 17 ̸= 16.
(3) Verdadeiro.
Demonstração. Cov(X, Y ) = E[XY ] − E[X]E[Y ] = 20 − 20 = 0. De fato, as variáveis são
independentes e, portanto, a covariância deve ser nula.
(4) Verdadeiro.
Demonstração. Novamente usaremos o fato de que X e Y são independentes. Note que
Como para qualquer v.a. Z, V ar[Z] = E[Z 2 ] − (E[Z])2 , então E[Z 2 ] = V ar[Z] + (E[Z])2 .
Substituindo esta igualdade na expressão acima para as variáveis aleatórias X e Y obtemos
que é, de fato, a primeira igualdade da sentença do item. Para a segunda igualdade, basta
utilizarmos os valores dados no enunciado da questão, isto é,
Questão 06/2012
Julgue as afirmativas:
(0) Suponha que X1 , X2 , ..., Xn sejam variáveis aleatórias independentes e identicamente
distribuídas com distribuição de Bernoulli com parâmetro p. Então, X = ni=1 Xi possui uma
P
Solução.
(0) Verdadeiro.
Demonstração. Vimos exatamente isto na definição da distribuição binomial, no texto.
Questão 03/2017
São corretas as afirmativas:
(0) Se X é uma variável aleatória com distribuição Binomial com parâmetros n e p, em que
n é um inteiro positivo e 0 < p < 1, então E(X) = np e V ar(X) = p(1 − p).
(1) Seja X uma variável aleatória com distribuição de Poisson. Se E(X) = λ, então a
variância de X é λ.
(2) Se X é uma variável aleatória uniformemente distribuída em [−c, c], em que c > 0, então
E(X) = 0.
(3) Seja X uma variável aleatória com distribuição de probabilidade P (X = k) = (1 −
p) p, em que 0 < p < 1 e k = 1, 2, ... . Então E(X) = kp.
k−1
Solução.
(0) Falso.
(3) Falso.
Demonstração. Trata-se de uma distribuição geométrica, como vimos no texto. Então E[X] =
1/p ̸= kp, para k = 1, ....
(4) Verdadeiro.
Demonstração. Novamente trata-se de distribuição geométrica, cuja variância é esta mesmo,
conforme visto no texto.
Questão 03/2018
Considere um indivíduo procurando emprego. Para cada entrevista de emprego (X) esse
indivíduo tem um custo linear (C) de 10,00 Reais. Suponha que a probabilidade de sucesso em
uma entrevista qualquer seja de 0, 2. Suponha também que as entrevistas sejam independentes,
e que o indivíduo continue fazendo entrevistas até que tenha o primeiro resultado de sucesso.
Calcule o custo esperado em Reais desse processo de busca até alcançar o primeiro sucesso.
Assuma que X segue uma distribuição geométrica.
Solução.
Demonstração. Sabemos que se X segue uma distribuição geométrica, então E[X] = 1/p =
1/0.2 = 5. Portanto, dado que o indivíduo possui um custo de 10 reais por entrevista, o custo
esperado em Reais desse processo de busca até alcançar o primeiro sucesso é 10 × 5 = 50.
Questão 14/2017
Suponha que as vendas (Q) do produto X são aleatoriamente distribuídas na economia e
possuem uma distribuição binomial com parâmetro p (preço), sendo n o número de vendas
observado, então:
(0) A esperança matemática de Q é E(Q) = n(1 − p);
(1) A média das vendas é dada por E(Q) = np;
Solução.
(0) Falso.
Demonstração. A esperança matemática de Q é E(Q) = np ̸= n(1 − p).
(1) Verdaeiro.
Demonstração. Visto no texto e no item anterior.
(2) Verdadeiro.
Demonstração. Visto no texto exatamente isto.
(3) Verdadeiro.
Demonstração. Note que a condição de primeira ordem nos dá
que nos dá o preço que maximiza a variância, uma vez que a função é côncava em p.
(4) Verdadeiro.
Demonstração. O preço é o parâmetro que, no problema, está representado a probabilidade.
Portanto, p ∈ [0, 1].
Questão 08/2013
Em um dia de verão, você está sentado em um parque olhando as pessoas passarem. A
probabilidade de uma pessoa estar andando de bicicleta é p, e a probabilidade de uma pessoa
estar andando a pé é 1 − p. As probabilidades dos eventos são independentes. Defina Y como
o número de pessoas andando de bicicleta até que n pessoas passem por você. Defina Z como
o número de pessoas andando de bicicleta que passam por você antes da primeira pessoa an-
dando a pé passar por você.
Com base nas informações acima, podemos afirmar que:
(0) Y tem uma distribuição binomial com parâmetros n e p.
(1) Z tem uma distribuição de Bernoulli com parâmetro p.
Solução.
(0) Verdadeiro.
Demonstração. No problema, se X é a v.a. representando o evento “andar de bicicleta" e o
sucesso é encontrar pessoas andando de bicicleta, então X segue a distribuição de Bernoulli.
Numa amostra de n indivíduos, se estamos querendo saber quantas pessoas passam andando
de bicicleta, temos que Y = X1 + ... + Xn e, portanto, Y segue uma distribuição binomial.
(1) Falso.
Demonstração. Z segue uma distribuição geométrica, uma vez que o problema quer deter-
minar os fracassos (“pessoa andando de bicicleta") até encontrar o primeiro sucesso (“pessoa
andando a pé").
Questão 10/2017
Considere a distribuição de probabilidade conjunta das variáveis aleatórias X e Y , de acordo
com a tabela abaixo.
X
0 1 2 3
1 1/4 1/8 1/8 1/4
Y
2 0 1/8 1/8 0
Solução.
(0) Verdadeiro.
Demonstração. Note que P (X = 0) = P (X = 1) = P (X = 2) = P (X = 3). Assim,
(1) Falso.
(3) Falso.
Demonstração. Temos que calcular V ar(X|Y = 2) = E[X 2 |Y = 2] − (E[X|Y = 2])2 . Note
que
Ainda,
Questão 10/2015
(x+y 2 )
Considere a seguinte função de massa de probabilidade: f (x, y) = 27
, para x ∈ {1, 2, 3}
e y ∈ {1, 2}.
Julgue as seguintes afirmativas:
Solução.
(0) Falso.
Demonstração. Note que
f (1, 1) = 2/27
f (1, 2) = 5/27
f (2, 1) = 3/27
f (2, 2) = 6/27
f (3, 1) = 4/27
f (3, 2) = 7/27.
(1) Verdadeiro.
Demonstração. E[Y ] = 1P (Y = 1) + 2P (Y = 2) = 9/27 + 2 · 18/27 = 1/3 + 4/3 = 5/3.
(2) Falso.
Demonstração. Observe que E[Y 2 ] = 12 P (Y = 1) + 22 P (Y = 2) = 9/27 + 4 · 18/27 = 3.
Então, usando também a informação da solução do item anterior, V ar[Y ] = E[Y 2 ]−(E[Y ])2 =
3 − 25/9 ̸= 3.
(4) Falso.
Demonstração. Se X e Y são independentes, então sabemos que P (X = x, Y = y) =
P (X = x)P (Y = y), para todo x ∈ {1, 2, 3} e y ∈ {1, 2}. Mas note que
Questão 13/2012
Sejam W1 e W2 variáveis aleatórias discretas independentes com a seguinte função de pro-
babilidade: f (0) = 12 , f (1) = 13 , f (2) = 61 . Seja Y = W1 + W2 .
Julgue as seguintes afirmativas:
(0) E[Y ] = 43 .
(1) V ar[Y ] = 10
9
.
(3) Usando os dados acima, obtemos que P (Y ≥ 3) = 1
36
.
(4) Y é uma variável aleatória discreta que assume os seguintes valores {0, 1, 2, 3, 4, 5}.
Solução.
(0) Verdadeiro.
Demonstração. E[Y ] = E[W1 + W2 ] = E[W1 ] + E[W2 ] = 2E[W1 ] = 2(1/3 + 1/3) = 4/3.
(1) Verdadeiro.
(3) Falso.
Demonstração. Y ≥ 3 se (W1 = 1 e W2 = 2) ∨ (W1 = 2 e W2 = 1) ∨ (W1 = 2 e W2 = 2).
Então,
(4) Falso.
Demonstração. Como Wi ∈ {1, 2} e Y = W1 + W2 , o valor máximo que a variável aleatória Y
pode atingir é, obviamente, 4.
Questão 13/2019
Sejam X e Y variáveis aleatórias independentes. Cada uma dessas duas variáveis tem dis-
tribuição de Bernoulli com parâmetro p. Sendo W = max(X, Y ), julgue as afirmativas abaixo:
Solução.
(0) Falso.
Demonstração.
(1) Falso.
Demonstração. P (W = 1) = P (X = 0, Y = 1) + P (X = 1, Y = 0) + P (X = 1, Y = 1) =
2p(1 − p) + p2 = 2p − p2 = p(2 − p).
(2) Verdadeiro.
Demonstração. Se p = 1/2, da resposta do item anterior segue que P (W = 1) = 3/4. Note
que P (W = 0) = 1 − P (W = 1) = 1 − 3/4 = 1/4. Portanto, P (W = 1) > P (W = 1).
(3) Falso.
Demonstração. E[W ] = P (W = 1) = p(2 − p).
(4) Falso.
Demonstração. Do item anterior, E[W ] = p(2 − p). Note que E[W 2 ] = 12 P (W = 1) =
p(2 − p). Lembremos que V ar[W ] = E[W 2 ] − (E[W ])2 . Então,
Questão 15/2012
Suponha que o número de vezes durante um ano que um indivíduo pega uma gripe seja
modelado por uma variável aleatória com distribuição de Poisson com esperança igual a 4. Adi-
cionalmente, suponha que uma nova droga baseada na vitamina C reduza a esperança para 2,
para 80% da população (e que a variável aleatória ainda siga uma distribuição de Poisson), mas
que não tenha nenhum efeito para os 20% restantes.
Julgue as seguintes afirmativas:
(0) A probabilidade de um indivíduo que toma a nova droga, e é parte da população que se
beneficia dela, pegar duas gripes em um ano é 8e−4 .
(1) A probabilidade de um indivíduo que não se beneficia da nova droga pegar duas gripes
em um ano é 2e−2 .
(2) A probabilidade de um indivíduo que não se beneficia da nova droga pegar no máximo
duas gripes em um ano é 12e−4 .
(3) A probabilidade de um indivíduo que toma a nova droga, selecionado aleatoriamente na
população, pegar duas gripes em um ano é 1, 6(e−2 + e−4 ).
(4) Suponha que um indivíduo escolhido aleatoriamente na população tenha pego duas
gripes durante um ano em que ele tomou a nova droga. A probabilidade de ele fazer parte da
parcela que se beneficia da nova droga é (1 + e−4 )−1 .
Solução.
(0) Falso.
Demonstração. Seja B o evento de que o indivíduo é beneficiado pela droga. Ainda, considere
X tal variável aleatória seguindo uma distribuição de Poisson. Então, E[X] = np = 4 sem a
nova droga, e E[X] = np = 2 com a nova droga. Então, a probabilidade de um indivíduo que
toma a nova droga, e é parte da população que se beneficia dela, pegar duas gripes em um ano
é
e−2 22
P (X = 2|B) = = 2e−2 .
2!
(1) Falso.
Demonstração. A probabilidade de um indivíduo que não se beneficia da nova droga pegar duas
gripes em um ano é
e−4 42
P (X = 2|B c ) = = 8e−4 .
2!
(2) Verdadeiro.
Demonstração. “Pegar no máximo duas gripes" quer dizer que o indivíduo que não se beneficia
da droga ou não pega gripe ou pega uma ou pega duas vezes a gripe em um ano. Então,
(3) Verdadeiro.
Demonstração. Selecionando o indivíduo aleatoriamente, ou ele é uma pessoa que a droga
faz efeito ou não. Seja B o evento que diz que ele é um indivíduo que se beneficia. Como os
eventos são disjuntos, temos então que a probabilidade de um indivíduo que toma a nova droga,
selecionado aleatoriamente na população, pegar duas gripes em um ano é
e−2 22 e−4 42
P (X = 2) = 0.8 × P (X = 2|B) + 0.2 × P (X = 2|B c ) = 0.8 × + 0.2 ×
2! 2!
(4) Falso.
Demonstração. Queremos calcular P (B|X = 2), isto é, a probabilidade de que o indivíduo
escolhido aleatoriamente na população tenha se beneficiado da droga, dado que ele pegou
duas gripes.
P (B e X = 2)
P (B|X = 2) = .
P (X = 2)
Questão 11/2016
Sendo X, Y e Z três variáveis aleatórias, julgue as proposições abaixo:
Solução.
(0) Verdadeiro.
Demonstração. Como o X está dado, k ≡ h(X) ∈ R e, portanto, E[h(X)|X] = E[k] = k ≡
h(X), para qualquer h(X).
(1) Falso.
Demonstração. Se Y é dado, então E[f (Y )X + g(Y )|Y ] = f (Y )E[X|Y ] + g(Y ) ̸= f (Y )X +
g(Y ).
(3) Verdadeiro.
Demonstração. Se X e Y são independentes, sempre temos que E[Y |X] = E[Y ]. Como o
item supõe que E[Y ] = 0, então deve ocorrer que E[Y |X] = 0.
(4) Verdadeiro.
Demonstração. Pela lei das expectativas iteradas, E[Y ] = E[E[Y |X]] = E[0] = 0.
Questão 05/2022
Considere a distribuição conjunta de X e Y.
X
1 2 3
1 0,1 0,15 0,20
Y 2 0,15 0,1 0
3 0,20 0 0,1
Solução.
(3) Verdadeiro.
Demonstração. Note que XY assume os valores 1, 2, 3, 4, 6, 9. Então,
Ainda,
(4) Falso.
Demonstração. Sabemos que se X e Y forem independentes, então Cov(X, Y ) = 0, Mas isto
é equivalente a dizer que Cov(X, Y ) ̸= 0 implica em X e Y serem dependentes. Como do item
anterior vimos que Cov(X, Y ) ̸= 0, então podemos concluir que X e Y são dependentes.
Questão 02/2015
Considere a distribuição de probabilidade conjunta das variáveis aleatórias X e Y:
X
-1 0 1
-1 1/5 0 1/5
Y 0 0 1/5 0
1 1/5 0 1/5
(0) E[X] = 0.
(1) A covariância entre X e Y é igual a zero;
(2) As variáveis aleatórias X e Y são independentes.
(3) Se T = X + 5, a covariância entre T e Y é maior do que zero;
(4) Defina V = 2X e Z = 3Y . Então, podemos dizer que a correlação entre V e Z é igual a
zero.
Solução.
(0) Verdadeiro.
Demonstração. E[X] = (−1)P (X = −1) + 0P (X = 0) + 1P (X = 1) = −2/5 + 2/5 = 0.
(1) Verdadeiro.
Demonstração. Como E[X] = 0, Cov(X, Y ) = E[XY ]. Note que XY ∈ {−1, 0, 1}. Então,
(2) Falso.
Demonstração. Note que
Questão 02/2020
Sejam X, Y e Z três variáveis aleatórias, e suponha que Y = a + bX em que a e b são
constantes. Julgue as afirmativas abaixo:
(0) E(XY ) = aE(X) + bE(X 2 )
(1) Cov(X, Y ) = b2 V ar(X).
(2) Sendo ρXY a correlação entre X e Y , então ρ2XY = 1.
(3) Sendo ρY Z a correlação entre Y e Z e ρXZ a correlação entre X e Z, então ρY Z = ρXZ
(4) Sendo ρXY a correlação entre X e Y , então ρXY = 1.
Solução.
(0) Verdadeiro.
Demonstração. E(XY ) = E(X(a + bX)) = E(aX + bX 2 ) = aE(X) + bE(X 2 ).
(1) Falso.
Demonstração. Cov(X, Y ) = Cov(X, a + bX) = bCov(X, X) = bV ar(X).
(2) Verdadeiro.
Demonstração. Nem precisaríamos fazer conta para responder esta pergunta. Como Y é uma
reta em função de X, então |ρXY | = 1. Mas para mostrar que isto é verdade, note que que
V ar(Y ) = V ar(a + bX) = b2 V ar(X). Então,
Cov(X, Y ) bV ar(X) b
ρXY = p =√ p = .
V ar(X)V ar(Y ) 2 2
b V ar (X) |b|
(3) Falso.
Demonstração. Considere as informações e o raciocínio desenvolvido na resposta do item an-
terior. Se c e d são constantes, poderia ocorrer de b = −1 e Z = c + dX de tal modo que d > 0
e, portanto, ρXZ = 1 ̸= ρY Z = −1.
(4) Falso.
Demonstração. Da resposta do item (2) vemos que a afirmativa é falsa.
Questão 04/2021
Sejam X, Y e Z três variáveis aleatórias. Definindo cov(A, B) como a covariância entre as
variáveis A e B, julgue as proposições:
Solução.
(1) Falso.
Demonstração. Cov(X, 2Y ) = 2Cov(X, Y ).
(2) Verdadeiro.
Demonstração. Cov(X, 4) = E[(X − µX )(4 − 4)] = 0.
(4) Falso.
Demonstração. Cov(X, T ) = Cov(X, 4 + 2Z) = 2Cov(X, Z).
Questão 02/2017
Seja X uma variável aleatória com média µX e variância σX
2
, e seja Y uma variável aleatória
com média µY e variância σX
2
. Considere que σX > 0 e σY > 0. Sendo cov(X, Y ) a covariância
entre X e Y e corr(X, Y ) a correlação entre X e Y , podemos afirmar que:
Solução.
(0) Falso.
Demonstração. Vimos no texto que Cov(X, Y ) = E[(X − µX )Y ] = E[(Y − µY )X]. Portanto,
E[(X − µX )Y ]E[(Y − µY )X] = [Cov(X, Y )]2 ̸= Cov(X, Y ).
(1) Verdadeiro.
Demonstração. Segue da fórmula Cov(X, Y ) = E[XY ] − µX µY , dada no texto.
(2) Falso.
Demonstração. Corr(X, Y ) = 0 ⇔ Cov(X, Y ) = E[XY ] − µX µY = 0. Se µX = 0 = µY ,
nada garante que E[XY ] = 0 e, portanto, pode ocorrer Corr(X, Y ) ̸= 0.
(3) Verdadeiro.
Demonstração. E[Y |X] = µY implica que X e Y são independentes. Portanto, Cov(X, Y ) =
0.
(4) Verdadeiro.
Demonstração. Vimos no texto que sempre o valor da correlação está no intervalo [−1, 1].
Como Dp(X) ≥ 0 e Dp(Y ) ≥ 0, se Cov(X, Y ) > 0, então
Cov(X, Y )
Corr(X, Y ) = ∈ (0, 1].
dp(X)dp(Y )
Questão 02/2010
Suponha que X e Y sejam variáveis aleatórias independentes, com distribuições de Ber-
noulli com parâmetros p e q, isto é,
1 com probabilidade p
X=
0 com probabilidade 1 − p
e
1 com probabilidade q
Y =
0 com probabilidade 1 − q
Solução.
(0) ?.
Demonstração.
(1) Falso.
Demonstração. V [Z] = V [aY + bX] = a2 V [Y ] + b2 V [X] = b2 p(1 − p) + a2 q(1 − q).
(2) Verdadeiro.
Demonstração. Note que Cov(X, Z) = Cov(X, aY + bX) = Cov(X, aY ) + Cov(X, bX) =
bV [X]. Ainda, V [Z] = V [aY + bX] = a2 V [Y ] + b2 V [X] = b2 p(1 − p) + a2 q(1 − q). Então,
Cov(X, Z) V [X] V [X]
Corr(X, Z) = p = bp =b
V [X]V [Z] V [X]V [Z] V [Z]
p(1 − p) b
=b 2 2
=√ .
b p(1 − p) + a q(1 − q) b + a2
2
(3) Verdadeiro.
Demonstração. Quando b = 0, Z = aY e, portanto, |Corr(Z, Y )| = 1. Como X e Y são
independentes, segue que Z e X também devem ser, já que Z determina com máxima precisão
a variável Y e vice-versa.
(4) Verdadeiro.
Demonstração. X, Y ∈ {0, 1}. Se Z = a + b = aY + bX, então X = Y = 1. Portanto,
E[Y |Z = a + b]E[1] = 1.
Questão 06/2013
Considere X, Y e Z variáveis aleatórias com distribuição conjunta caracterizada por fX,Y,Z (x, y, z)
e distribuições marginais caracterizadas por fX (x), fY (y) e fZ (z). Sejam a, b, c e d constantes.
Julgue as seguintes afirmativas:
Solução.
(1) Verdadeiro.
Demonstração. Tal igualdade é válida tanto para variáveis independentes ou não.
(2) Verdadeiro.
Demonstração. Vimos no texto que quando as variáveis são independentes, podemos “distri-
buir" o operador de variância em todas as variáveis.
(3) Falso.
Demonstração. Cov(X, aY + bZ) = aCov(X, Y ) + bCov(X, Z).
Questão 04/2020
Seja a distribuição conjunta de probabilidades das variáveis aleatórias X e Y:
Y
X 1 2 3
1 0,1 0,1 0
2 0,1 0,2 0,3
3 0,1 0,1 0
Solução.
(0) Falso.
Demonstração. E[X = 1, Y = 1] = 0.1 ̸= E[X = 1]E[Y ] = 0.3 · 0.2.
(1) Verdadeiro.
Demonstração. E[X] = 2 = E[Y ] e E[XY ] = 4 ⇒ Cov(X, Y ) = 4 − 4 = 0 ⇒
Corr(X, Y ) = 0.
(2) Verdadeiro.
Demonstração. São ambas iguais a 2.
(3) Falso.
Demonstração. E[X 2 ] = 4.4 e E[Y 2 ] = 4.6 ⇒ V ar(X) = 0.4 ∧ V ar(Y ) = 0.6.
(4) Falso.
Demonstração. P (Y = 3|X = 3) = 0.
Questão 04/2015
Em uma determinada cidade, 60% dos moradores são mulheres e 40% são homens. Entre
as mulheres, 80% estão empregadas e 20% estão desempregadas. Entre os homens, 90% estão
empregados e 10% estão desempregados. Obtenha a probabilidade de uma pessoa escolhida
aleatoriamente nessa cidade ser mulher, dado que está desempregada, e multiplique o resultado
por 100.
Solução.
Demonstração. Note que o número total de desempregados é 16 pessoas, enquanto que o
número de mulheres desempregadas é 12. Então, a probabilidade de uma pessoa escolhida
aleatoriamente nessa cidade ser mulher, dado que está desempregada, é
Questão 06/2015
Seja X uma variável aleatória com distribuição de Poisson, com função massa de probabili-
−λ x
dade dada por f (X) = e x!λ e x = 0, 1, 2, ..., λ > 0, enquanto Y é uma variável aleatória com
distribuição binomial, com função massa de probabilidade dada por: f (Y ) = ny py (1 − p)n−p .
Solução.
(0) Falso.
Demonstração. Vimos no texto que E[X] = λ.
(1) Falso.
Demonstração. Vimos no texto que V ar[X] = λ.
(2) Verdadeiro.
Demonstração. Exatamente o que vimos no texto.
(3) Verdadeiro.
Demonstração. Exatamente o que vimos no texto.
(4) Verdadeiro.
Demonstração. O correto seria V ar[Y ] = np(1 − p).
Uma variável aleatória contínua pode assumir um valor entre todos dentro de certo intervalo
de números reais. Para variáveis contínuas, falaremos sempre da probabilidade da variável alea-
tória estar em um intervalo, já que a probabilidade de um único número dentro deste intervalo
é nula.
Vamos definir a função densidade de probabilidade (fdp) tal que a área entre seu gráfico e o
eixo x represente as probabilidades. Assim, definimos do seguinte modo a maneira de calcular
a probabilidade de uma variável aleatória contínua:
R∞
Definição 5.1 Seja f uma fdp de uma variável aleatória contínua X, isto é, −∞
f (x)dx = 1. Então,
Z b
P (a ≤ X ≤ b) = f (x)dx.
a
Assim como fizemos para variáveis aleatórias discretas, podemos definir também a função
de distribuição acumulada (fda) como F (x) = P (X ≤ x), −∞ < x < ∞. Portanto, podemos
estabelecer a seguinte proposição:
Proposição 5.2 Seja F a fda de uma variável aleatória contínua X. Então, temos que
Z x
F (x) = P (X ≤ x) = f (t)dt.
−∞
81
82 5.2. DISTRIBUIÇÕES CONTÍNUAS IMPORTANTES
Observação 5.4 De modo mais geral, temos que se X é uma v.a. contínua com fdp f , o valor esperado
de uma função g(X) é Z ∞
E[g(X)] = g(x)f (x)dx.
−∞
Podemos também definir a mediana como o “valor do meio", que separa os possíveis valores
em “quantidades" iguais. Noutras palavras, a mediana é um número de modo que a v.a. tem
50% de estar “à sua esquerda" e 50% de chance de estar “à sua direita". Formalmente, temos a
seguinte definição.
Definição 5.5 Se X é uma variável aleatória contínua com fdp f , temos que a mediana m é
Z m
1
f (x)dx = .
−∞ 2
Do mesmo modo como fizemos para v.a. discreta, podemos definir a variância de uma va-
riável aleatória.
Definição 5.6 Seja X uma v.a. contínua, com fdp f . Se µX é a média, ou valor esperado, de X, então
sua variância é
Z ∞
2
V ar(X) = E[(X − µX ) ] = (x − µX )2 f (x)dx.
−∞
Observe que, como a área total tem que somar 1 — já que estamos falando de uma função
distribuição de probabilidade —, e como sabemos que a área do retângulo é o produto da base,
dado por b − a, e da altura, h, então h(b − a) = 1 ⇔ h = 1/(a − b).
Já no que se refere à função de distribuição acumulada (fda), temos que ela é dada pela se-
guinte função.
0, se x < a
x
Z
F (x) = P (X ≤ x) = f (x)dx = x−a
b−a
, se x ∈ [a, b]
−∞
se x > b.
1,
Por fim, enunciaremos e provaremos os momentos de uma v.a. seguindo esta distribuição,
ou seja, o valor esperado e a variância.
• E[X] = a+b
2
;
(b−a)2
• V ar[X] = 12
.
Para a segunda igualdade, iremos calcular V ar[X] = E[X 2 ] − (E[X])2 . Note que
b
x2
Z
2 1
b3 /3 − a3 /3
E[X ] = dx =
a b−a b−a
(b − a)(b + ab + a2 )
2
b2 + ab + a2
= =
3(b − a) 3
Portanto,
b2 + ab + a2 (a + b)2
V ar[X] = −
3 4
4(a2 + ab + b2 ) − 3(a2 + 2ab + b2 )
=
12
a2 − 2ab + b2 (b − a)2
= = .
12 12
1 2 2
f (x) = √ e−(x−µ) /2σ . (5.1)
σ 2π
0.4
0.3
0.2
0.1
−2 −1 0 1 2
• E(Z) = µ;
• V ar(Z) = σ 2 .
Quando µ = 0 e σ 2 = 1, dizemos que temos uma distribuição normal padrão, ou N (0, 1).
Portanto, podemos observer que a figura 5.2 está representando uma distribuição normal pa-
drão.
A última propriedade também é válida para três ou mais variáveis normais independentes.
Se X ∼ N (µX , σX 2
), então as propriedades anteriores nos permitem dizer que a variável
aleatória definida por
X − µX
Z= ∼ N (0, 1), (5.2)
σX
isto é, Z terá média zero e variância 1. Chamamos esta transformação acima de padroniza-
ção da variável aleatória X. Este procedimento é extremamente importante para calcularmos
probabilidades relativas a uma distribuição normal qualquer não-padrão.
Cálculo de Probabilidades
A integral acima não pode ser calculada analiticamente e, portanto, a probabilidade que
queremos somente poderá ser obtida, aproximadamente, através de integração numérica. No
entanto, para cada valor de µ e σ, teríamos de obter P (a < X < b) para diferentes valores
de a e b. Tal tarefa é facilitada pelo uso da padronização em (5.2), de maneira que somente
é necessário construir uma tabela para o cálculo de probabilidades de uma variável aleatória
seguindo a distribuição normal padrão, isto é, com µ = 0 e σ 2 = 1. Noutras palavras, quando
queremos trabalhar com probabilidades de variáveis aleatórias que não estão padronizadas, se
temos os valores das probabilidades de variáveis padronizadas, basta que façamos a padroni-
zação desta variável aleatória não-padronizada e usar os valores das probabilidades da variável
aleatória padronizada. Estas ideias ficarão mais claras na prática dos exercícios.
A distribuição Qui-Quadrado
Sejam Z1 , ..., Zn variáveis aleatórias independentes com distribuição normal padrão. Então,
a v.a. definida por
X = Z12 + ... + Zn2
tem uma distribuição qui-quadrado com n graus de liberdade. Ainda, a média de X é E[X] = n e
sua variância V ar(X) = 2n.
n=1
0.4 n=2
n=3
0.3 n=4
n=5
n=6
0.2
n=7
n=8
0.1
0
0 5 10 15
X
1
A ANPEC não costuma cobrar com tanto detalhe estas distribuições e, deste modo, a descrição dos detalhes
será deixada para um momento mais oportuno. Caso o leitor queira aprofundar-se, é recomendada a leitura do
capítulo 7 de Bussab and Morettin (2017)
A distribuição t de Student
Sejam Z e Q duas variáveis aleatórias independentes tal que Z tem distribuição normal pa-
drão e Q tem distribuição qui-quadrado com n graus de liberdade. Então, a variável aleatória
definida por
Z
X=p
Q/n
tem uma distribuição t de Student com n graus de liberdade. Ainda, a média de X é E[X] = 0 e
a variância é V ar(X) = n/(n − 2) (quando n ≥ 3). Importante: X converge para uma variável
normal padrão quando n → ∞.
0.4 n = 100
n=5
n=2
n=1
0.3
0.2
0.1
0
−6 −4 −2 0 2 4 6
A distribuição F de Snedecor
Q1 /n1
X=
Q2 /n2
(n1 , n2 ) = (1, 1)
3 (n1 , n2 ) = (100, 100)
(n1 , n2 ) = (5, 2)
0
0 1 2 3 4
e calcular P (X < 1/2, Y < 1/4). Neste caso, teremos que calcular uma integral dupla, de
modo que os intervalos de integração das variáveis x e y sejam [0, 1/2] e [0, 1/4], respecti-
vamente. Geometricamente, queremos calcular a área limitada entre o gráfico de f (x, y) e o
retângulo no plano-xy de lados 1/2 e 1/4, como ilustrado na figura 5.3. Assim, teremos o se-
guinte:
Z 1/2 Z 1/4
3
P (X < 1/2, Y < 1/4) = (x + y)dydx = .
0 0 64
R∞ R∞
Observação 5.11 −∞ −∞
f (x, y)dydx = 1 para qualquer fdp conjunta f .
Definição 5.13 A fdp condicional de X, dado que Y = y, e a fdp condicional de Y , dado que X = x,
são dadas, respectivamente, por
f (x, y)
fX|Y (x|y) = , fY > 0
fY (y)
f (x, y)
fY |X (y|x) = , fX > 0.
fX (x)
modo:
Definição 5.14 Duas v.a. X e Y , com densidade conjunta f (x, y) e marginais fX (x) e fY (y), res-
pectivamente, são independentes se
Note que no nosso exemplo anterior X e Y não são independentes uma vez que f (x, y) =
x + y não pode jamais ser escrito como um produto de funções cada uma dependendo de x
e y. Exemplos de distribuições conjuntas que são independentes são f (x, y) = x + xy ou
f (x, y) = e−(x+y) . No primeiro caso, claramente f (x, y) = x(1 + y), e no segundo f (x, y) =
e−x e−y , que são produtos de funções que dependem de x e y (pode-se demonstrar que elas são
as distribuições marginais das variáveis aleatórias e, portanto, independentes).
Questão 15/2014
Julgue as afirmativas abaixo:
(0) Suponha que X seja uma variável aleatória distribuída de acordo com a função densi-
dade: f (x) = (1/2)x, em que 0 ≤ x ≤ 2. A probabilidade de que x se situe entre 0 e 1 é igual
a 0, 5;
(1) Se X é uma variável aleatória distribuída de acordo com a função densidade f (x) =
(1/2)x, em que 0 ≤ x ≤ 2, então V ar(X) = 2/9;
(2) Suponha que Y seja uma variável aleatória distribuída de acordo com a função densi-
dade: f (y) = 2y −3 , em que y ≥ 1. Então E(Y ) = 3;
(3) Suponha que Y seja uma variável aleatória distribuída de acordo com a função densi-
√
dade: f (y) = 2y −3 , em que y ≥ 1. Então a mediana de Y é 2.
Solução.
(0) Falso.
Demonstração. A probabilidade será dada pela área de um triângulo com base 1 e altura 1/2.
Então, P (0 < x < 1) = 1·1/2
2
= 14 .
(1) Verdadeiro.
Demonstração. Sabemos que V ar(X) = E(X 2 ) − (E(X)]2 . Note que
1 2 2
Z
1 3
E(X) = x dx = (2 /3) = 4/3
2 0 2
1 2 3
Z
2 1 4
E(X ) = x dx = (2 /4) = 2.
2 0 2
(2) Falso.
Demonstração.
Z ∞
E(Y ) = y2y −3 dy = [−2y −1 ]y=∞
y=1 = 2.
1
(3) Verdadeiro.
Demonstração.
Z m
y=m
√
2y −3 dy = 1/2 ⇔ [−y −2 ]y=1 = 1/2 ⇔ 1 − 1/m2 = 1/2 ⇔ m = 2.
1
√
Note que m = − 2 é também solução da equação acima mas não é considerado porque
√
− 2 ̸∈ (1, m).
Questão 02/2018
Seja x uma variável aleatória com função densidade de probabilidade dada por:
(0) E[x] = 1.
(1) A mediana de x é √1 .
2
(2) A variância de x é 1
18
.
(3) A probabilidade de que x se situe entre 1
4
e 3
4
é igual a 0, 5;
(4) A probabilidade de que x seja menor ou igual a 12 , dado que x se situa entre 13 e 23 , é igual
a 0, 5.
Solução.
(0) Falso.
Demonstração.
Z 1
E[x] = x(2x)dx = [2x3 /3]x=1
x=0 = 2/3.
0
(1) Verdadeiro.
Demonstração. Devemos resolver para m a seguinte equação:
Z m
1 √
2xdx = 1/2 ⇔ [x2 ]x=m 2
x=0 = m = ⇔ m = 1/ 2.
0 2
√ √
Note que −1/ 2 também satisfaz a equação acima, mas f (−1/ 2) = 0.
(2) Verdadeiro.
Demonstração. Como do item acima calculamos E[X] = 2/3 e temos que
Z 1
2
E[x ] = x2 (2x)dx = 1/2,
0
(3) Verdadeiro.
Demonstração. A probabilidade de que x se situe entre 1
4
e 3
4
será
Z 3
4
2xdx = (3/4)2 − (1/4)2 = 0, 5.
1
4
(4) Falso.
Demonstração. Note, primeiramente, que P (x ≤ 12 ∧ x ∈ (1/3, 2/3)) = P ( 31 ≤ x ≤ 21 ) =
R 12 R 32
1 2xdx = 5/36. Ainda, P (1/3 ≤ x ≤ 2/3) = 1 2xdx = 1/3. Portanto,
3 3
Å ã
1 1 2 5/36
P x≤ | ≤x≤ = = 5/12.
2 3 3 1/3
Questão 03/2020
Seja X uma variável aleatória com função densidade de probabilidade dada por:
(0) E(X) = λ
(1) V ar(X) = λ2
(2) Para c > 0, P rob(X > c) = e−λc .
(3) Para x > c, P rob(X > x|X > c) = e−λ(x−c) .
(4) A função distribuição acumulada de X, dado que x > c, é representada por F (x) =
1 − e−λc .
Solução.
(0) Falso.
R∞
Demonstração. E(X) = λ 0 xe−λx . Deixe u = x e, então, du = dx. Ainda, seja dv = e−λx
e, assim, v = −e−λx /λ. Usando integração por partes, temos:
∞ ∞
1 ∞ −λx
ò Z ∞
xe−λx
Z ï Z
−λx
E(X) = λ xe =λ − + e = e−λx
0 λ 0 λ 0 0
∞
−λx
= −e /λ = 1/λ.
0
(1) Falso.
Demonstração. Lembremos sempre que V ar(X) = E(X 2 ) − [E(X)]2 . Temos o valor de E(X)
pela solução do item anterior. Agora, devemos calcular
Z ∞
2
E(X ) = λ x2 e−λx dx.
0
Note que a estratégia de solução é semelhante ao à solução do item anterior, isto é, teremos
que aplicar integral por partes mas, desta vez, por duas vezes. Realizando as contas, veremos
que
2 1 1
V ar(X) = 2 − 2 = 2 .
λ λ λ
(2) Verdadeiro.
Demonstração.
Z ∞ x=∞
λe−λx dx = −e−λx x=c = e−λc .
P rob(X ≥ c) =
c
(3) Verdadeiro.
Demonstração. Note que P (X > x, X > c) = P (X > x), já que x > c. Então,
(4) Falso.
Demonstração. Não faz nenhum sentido a distribuição acumulada ser constante.
Questão 13/2006
Seja X uma variável aleatória contínua com função densidade
1 x + k, se 0 ≤ x ≤ 3,
fx (x) = 6
0 caso contrário.
Calcule P rob(1 ≤ X ≤ 2). Multiplique o resultado por 100 e desconsidere os valores após
a vírgula.
Solução.
Demonstração. Devemos, primeiro, calcular o valor da constante k. Note que
Z 3 x=3
= (x/6 + k)dx = 1 ⇔ x2 /12 + xk x=0 = 3/4 + 3k = 1 ⇔ k = 1/12.
0
Portanto,
Z 2 2
(x/6 + 1/12)dx = x2 /12 + x/12 1 = 1/2 − 1/6 = 1/3.
P rob(1 ≤ X ≤ 2) =
1
Logo, multiplicando o resultado por 100 e desconsiderando os valores após a vírgula temos
o valor 33.
Questão 09/2007
Observe a função de distribuição acumulada F (x) abaixo e calcule a probabilidade para
x ≤ 2 e multiplique o resultado por 10.
0, se x ≤ 0,
x2 se 0 ≤ x ≤ 5
F (x) = 20 2
− x20 + 25 x − 1 se 5 ≤ x ≤ 10
1 se x ≥ 10.
Solução.
22
Demonstração. F (2) = 20
= 2/10. Portanto, a resposta final é 10 × 2/10 = 2.
Questão 03/2021
Seja X uma variável aleatória com a seguinte função densidade de probabilidade:
x2 , −1 ≤ x ≤ 2,
f (x) = 3
0, caso contrário.
Solução.
Demonstração.
2 2
x2
Z Z Å ã
4 3
E[h(X)] = (4x + 3) = x + x dx = [x4 /3 + x3 /3]x=2
2
x=−1
−1 3 −1 3
= (16/3 + 8/3) − (1/3 − 1/3) = 08.
Como h(X) é uma função linear da variável aleatória X, poderíamos, também, ter apenas
calculado o valor de 4E[X] + 3.
Questão 11/2017
Suponha que X seja uma variável aleatória distribuída de acordo com a seguinte função
densidade de probabilidade:
Solução.
Demonstração. Note primeiramente que E[Y ] = 6E[X] + 10 e E[Y 2 ] = E[36X 2 + 120X +
100] = 36E[X 2 ] + 120E[X] + 100. Como
Z 1
E[X] = 2 x(1 − x)dx = 2[x2 /2 − x3 /3]x=1
x=0 = 1/3;
Z0 1
E[X 2 ] = 2 x2 (1 − x)dx = 2[x3 /3 − x4 /4]x=1
x=0 = 1/6,
0
Questão 01/2019
(0) Uma dada variável aleatória com distribuição uniforme no intervalo [2, 5] tem média igual
a 3, 50.
(1) Uma dada variável aleatória com distribuição uniforme no intervalo [2, 5] tem variância
igual a 0, 75.
(2) Seja X uma variável aleatória com distribuição normal, com média 2 e variância 5, então
Z = X−2
5
também apresenta distribuição normal, com média 0 e variância 1.
Solução.
(0) Verdadeiro.
5+2
Demonstração. E[X] = 2
= 3, 5.
(1) Verdadeiro.
R5
Demonstração. Note que E(X 2 ) = (1/3) 2
x2 dx = 13. Portanto,
49 3
V ar(X) = E(X 2 ) − [E(X)]2 = 13 − = = 0.75.
4 4
(2) Falso.
Demonstração. O item tenta corrigir com a padronização de uma v.a. seguindo distribui-
ção normal. No entanto, o denominador da nova variável aleatória da padronização é o des-
vio padrão, não a variância. Note que, no caso deste exercício, V ar(Z) = V ar(X/5) =
(1/52 )V ar(X) = 1/5 ̸= 1.
Questão 06/2019
Seja uma variável aleatória com a seguinte função densidade de probabilidade:
1
f (x) = , para 1 ≤ x ≤ 3.
2
f (x) = 0, caso contrário.
(0) E[X] = 2.
(1) A variância de x é igual a 13 .
(2) P rob(x > 2) = 23 .
(3) Seja Y uma variável aleatória definida da seguinte maneira: Y = 2 + 2x. Então, E[Y ] =
9
2
.
(4) Seja Y uma variável aleatória definida da seguinte maneira: Y = 2 + 2x. Então, a
variância de Y é igual a 1.
Solução.
(0) Verdadeiro.
3+1
Demonstração. E[X] = 2
= 2.
(1) Verdadeiro.
R3
Demonstração. Note que E[X 2 ] = (1/2) 1
x2 dx = (1/6)[x3 ]31 = 13/3. Então, V ar(X) =
E[X 2 ] − (E[X])2 = 13/3 − 22 = 1/3.
(2) Falso.
Demonstração. P rob(x > 2) = P rob(2 ≤ x ≤ 3) = 1/2.
(3) Falso.
Demonstração. E[Y ] = E[2 + 2x] = 2 + 2E[X] = 2 + 2 · 2 = 6.
(4) Falso.
Demonstração. V ar(Y ) = V ar(2 + 2x) = 22 V ar(x) = 4/3.
Questão 03/2015
Seja X uma variável aleatória cuja função densidade de probabilidade é dada por:
1
f (x) = , em que − α ≤ x ≤ α e α > 0.
2α
Solução.
(0) Verdadeiro.
Demonstração. A variável segue uma distribuição uniforme com parâmetros (extremos do in-
tervalo) −α e α. Assim,
1
P rob(−α ≤ x ≤ −α/4) = · (α − α/4) = 3/8.
2α
(1) Verdadeiro. Fácil de ver. Como o intervalo é simétrico em zero e a distribuição é uni-
forme, a mediana tem que ser nula.
(2) Falso.
R α/2
Demonstração. Basta resolver a integral (2α)−1 −α/2 dx, que resulta em 1/2.
(3) Verdadeiro.
α/2−α/2
Demonstração. E[X] = 2
= 0.
(4) Verdadeiro.
Rα
Demonstração. Note que E[X 2 ] = (2α)−1 −α x2 dx = (6α)−1 (α3 + α3 ) = α2 /3. Então
Questão 14/2019
Seja X uma variável aleatória com distribuição uniforme no intervalo [a, b], em que b > a, e
função densidade de probabilidade dada por:
1
b−a
para a ≤ x ≤ b
f (x) =
0 para qualquer outro valor.
Solução.
(0) Verdadeiro.
Demonstração. Visto no texto.
(1) Falso.
Demonstração. O valor desta probabilidade será a área de um retângulo com base d−c e altura
1/(b − a). Portanto, P rob(c ≤ X ≤ d) = (d − c)/(b − a).
(2) Verdadeiro.
Demonstração. Visto no texto.
(3) Falso.
(b−a)2
Demonstração. Visto no texto que V ar(X) = 12
.
(4) Verdadeiro.
Demonstração. O valor desta probabilidade será a área de um retângulo com base b−c e altura
1/(b − a). Portanto, P rob(c ≤ X ≤ b) = (b − c)/(b − a).
Questão 11/2010
Suponha que você tenha três variáveis X1 , X2 e X3 independentes e identicamente distri-
buídas, cada uma com distribuição uniforme no intervalo [0, 1]. Calcule E[(X1 − 2X2 + X3 )2 ].
Multiplique o resultado por 100.
Solução.
Demonstração. Note que E[Xi ] = 1/2 e V ar[Xi ] = 1/12, ∀i ∈ {1, 2, 3}. Defina Y ≡ X1 −
2X2 + X3 . Observe que E[Y ] = E[X1 ] − 2E[X2 ] + E[X3 ] = 0. Portanto,
Questão 06/2016
Solução.
(0) Falso.
Demonstração. Foi visto no texto que tal distribuição é simétrica em torno de x = 0.
(1) Falso.
Demonstração. Foi visto no texto que a média é n e a variância igual a 2n.
(2) Verdadeiro.
Demonstração. Por definição, Z1 + Z2 é uma soma de k1 + k2 termos de normais elevadas ao
quadrado. Então, ela possui distribuição qui-quadrado com k1 + k2 graus de liberdade.
(3) Falso.
Demonstração. Seja T uma variável aleatória com distribuição t de student com k graus de
liberdade. Então, existem variáveis N e Q seguindo as distribuições normal e qui-quadrado,
respectivamente, tais que
Z
T =p .
Q/k
Então,
Z/1
T2 = .
Q/k
Portanto, como o denominador da razão acima é a divisão de uma variável qui-quadrado com 1
graus de liberdade por 1, T 2 segue uma distribuição F(1,k) .
(4) Falso.
Demonstração. Como as variáveis são independentes, V ar(X) = V ar(Y1 ) + V ar(Y2 ) = 2 ̸=
1.
Questão 07/2015
Sejam X1 e X2 variáveis aleatórias independentes, cujas distribuições são representadas por
X1 ∼ N (µ1 , σ12 ) e X2 ∼ N (µ2 , σ22 ). Considere a seguinte combinação linear: Y = aX1 + bX2 ,
em que a e b são constantes.
É correto afirmar que:
Solução.
(0) Verdadeiro.
Demonstração. Visto no texto.
(1) Verdadeiro.
Demonstração. E[Y ] = aE[X1 ] + bE[X2 ] = aµ1 + bµ2 .
(2) Falso.
Demonstração. Como Xi , i = 1, 2, são independentes, então V ar(Y ) = a2 V ar(X1 ) +
b2 V ar(X2 ) = a2 σ12 + b2 σ22 .
(3) Falso.
Demonstração. Isto ocorreria se, e somente se, µ1 = 1. Nada nos garante isso.
(4) Falso.
Demonstração. Do item (2) vemos que, neste caso, V ar(Y ) = a2 σ12 .
Questão 06/2018
Por regulamentação, a concentração de um produto químico não pode ultrapassar 10ppm.
Uma fábrica utiliza esse produto e sabe que, num dia qualquer, a concentração tem distribuição
Normal (7, 675; 1, 52 ). Qual a probabilidade de que, em um dia qualquer, a concentração do
produto exceda 10ppm? Multiplique por 100 e marque o inteiro mais próximo. (Pode ser útil a
seguinte informação: P (z < 1, 55) = 0, 9505).
Solução.
Demonstração. Se X representa a v.a. do problema, isto é, a concentração do produto químico,
sabemos que µX = 7, 675 e σX = 1, 5. Devemos calcular P (X > 10). Defina z = (X −
µX )/σX = (X − 7, 675)/1, 5. Assim,
10 − 7, 675
Å ã Å ã
2, 325
P (X > 10) = P z > =P z>
1, 5 1, 5
= P (z > 1.55) = 1 − P (z < 1.55) = 1 − 0, 9505 = 0, 0495.
Questão 08/2018
Uma empresa produz computadores de dois tipos, tipo A (mais barato) e tipo B (mais caro),
e garante a devolução do valor pago se qualquer computador apresentar defeito grave no prazo
de seis meses. O tempo para ocorrência de algum defeito grave nos computadores tem distri-
buição normal, sendo que, no tipo A, com média de 10 meses e desvio padrão de 2 meses, e no
tipo B, com média de 11 meses e desvio padrão de 3 meses. Os computadores de tipo A e B
são produzidos com lucro de R$1.200 e R$2.100, respectivamente, e, caso haja restituição, com
prejuízo de R$2.500 e R$7.000, respectivamente. Talvez sejam úteis as seguintes informações:
P (Z < 2) = 0, 9772 e P (Z < 1, 67) = 0, 9525.2
(0) A probabilidade de restituição do computador do tipo A é maior que 3%;
(1) A probabilidade de restituição do computador do tipo B é menor que 5%;
(2) O lucro esperado do computador tipo A é inferior a R$1.800, 00;
(3) O lucro esperado do computador tipo B é menor que R$1.700, 00;
(4) Baseando-se no lucro esperado, a empresa deveria incentivar as vendas do computador
tipo B.
2
Esta questão foi escrita errada na prova da ANPEC de 2018, com P (Z < 2) = 0, 9772 e P (Z < 1, 67) =
0, 9525 ao invés da forma como está escrito no enunciado. Certamente estas probabilidades não fazem sentido.
Solução.
(0) Falso.
Demonstração. Sejam XA e XB as variáveis aleatórias que representam o tempo para ocor-
rência de algum defeito grave nos computadores dos tipos A e B, respectivamente. Então, das
informações do enunciado, XA ∼ N (10, 22 ) e XB ∼ N (11, 32 ), sendo as unidades medidas
em meses. Defina ZA = (XA − 10)/2 e ZB = (XB − 11)/3 (isto é, as variáveis aleatórias XA
e XB normalizadas). Então, a probabilidade de restituição do computador do tipo A é
(1) Verdadeiro.
Demonstração. Fazendo o mesmo procedimento que no item anterior para a variável XB , te-
mos que a probabilidade de restituição do computador do tipo B é
(2) Verdadeiro.
Demonstração. Denote o lucro esperado do computador tipo A por LA . Então,
(3) Verdadeiro.
Demonstração. Denote o lucro esperado do computador tipo B por LB . Então,
(4) Verdadeiro.
Demonstração. De fato, o lucro esperado é maior para o computador do tipo B.
Questão 07/2021
Considere as principais distribuições de probabilidade e julgue as afirmativas:
(2) Seja X uma variável aleatória com distribuição Qui-quadrado com n graus de liberdade,
então Y = X 2 segue uma distribuição F(1,n) .
(4) Se W1 , ..., Wn são variáveis aleatórias independentes e identicamente distribuídas, com
distribuição Normal, então Y = ni=1 W1 tem distribuição Qui-quadrado com n graus de liber-
P
dade.
Solução.
(2) Falso.
Demonstração. Foi visto no texto que a distribuição F é dada pela divisão das razões de va-
riáveis aleatórias seguindo distribuição qui-quadrado e seus respectivos graus de liberdade.
(4) Falso.
Demonstração. Para a questão ser verdadeira, deveria estar escrito Y = Wi2 e Wi , para
Pn
i=1
qualquer i ∈ {1, ..., n}, deveriam ser variáveis normais padronizadas.
Questão 08/2014
Julgue as afirmativas abaixo:
(0) Suponha que Zi , i = 1, 2, ..., n, sejam variáveis aleatórias independentes, cada uma
delas com distribuição normal padrão, com média igual a 0 e variância igual a 1. Então, ni=1 Zi2
P
Solução.
(0) Verdadeiro.
Demonstração. Vimos no texto exatamente isso.
(1) Falso.
Demonstração. Faltou dizer que Z e X são independentes.
(2) Verdadeiro.
Demonstração. Reveja o item 3 da questão 06/2016.
(3) Falso.
Demonstração. Se X é uma qui-quadrado com n graus de liberdade, então X = Z12 + ... + Zn2 ,
em que Zi , para i ∈ {1, ..., n} são variáveis aleatórias seguindo distribuição normal. Assim,
Questão 06/2011
Sejam X1 , ..., Xn variáveis aleatórias independentes e normalmente distribuídas, com média
0 e variância σ 2 .
(0) Se σ = 1, a variável Y = (X12 + X22 )/(2X32 ) possui uma distribuição F com n1 e n2
graus de liberdade, para n1 = 1 e n2 = 2.
(1) A variável W = √ 2X1 2 possui uma distribuição t com 2 graus de liberdade.
(X1 +X3 )/2
Solução.
(0) Falso.
Demonstração. Q1 ≡ X12 + X22 é uma qui-quadrado com 2 graus de liberdade. Q2 ≡ X32 é
uma qui-quadrado com 1 grau de liberdade. Assim, a variável aleatória definida por
Q1 /2 Q1 X2 + X2
S≡ = = 1 2 2
Q2 /1 2Q2 2X3
Demonstração. Q ≡ X12 + X32 define uma variável aleatória seguindo uma distribuição qui-
quadrado. No entanto, X1 e Q claramente não são independentes. Portanto, W não pode ser
uma distribuição t com 2 graus de liberdade.
Questão 07/2011
Considere a seguinte função de densidade conjunta de duas variáveis aleatórias contínuas
X e Y dada por
kx2 y, 0 ≤ x ≤ 1, 0 ≤ y ≤ 1
fXY (x, y) =
0, caso contrário
(0) Para que fXY (x, y) satisfaça as propriedades de uma função de densidade conjunta,
k = 6.
Solução.
(0) Verdadeiro.
Demonstração. Para que fXY (x, y) satisfaça as propriedades de uma função de densidade
R∞ R∞
conjunta, −∞ −∞ fXY (x, y)dxdy = 1:
∞ ∞ 1 1 1
x2
Z Z Z Z Z
2 2
k x ydydx = 1 ⇔ x ydydx = 1/k ⇔ = 1/k
−∞ −∞ 0 0 0 2
1 1
⇔ = ⇔ k = 6.
6 k
Questão 15/2014
Julgue as afirmativas abaixo:
Solução.
(4) Falso.
Demonstração. Sabemos que Z e W seriam independentes se f (z, w) = fZ (z)fW (w). Clara-
mente f (z, w) não pode ser escrita como um produto de funções dependentes apenas de z e
w, respectivamente. Então, Z e W não podem ser independentes.
Questão 05/2015
Sejam X e Y variáveis aleatórias, com a seguinte função densidade de probabilidade con-
junta:
(0) Sendo f (x) a distribuição marginal de X, podemos dizer que f (x) = x + (1/2) para
0 ≤ x ≤ 1;
(1) P rob(0 ≤ X ≤ 0, 5) = 1/2;
(2) P rob(0, 5 ≤ X ≤ 1) = 5/8;
(3) f (y|X = 0, 5) = y.
(4) P rob(0 ≤ Y ≤ 0, 5|X = 0, 5) = 1/2.
Solução.
(0) Verdadeiro.
Demonstração.
Z 1
f (x) = (x + y)dy = [xy + y 2 /2]10 = x + 1/2, para x ∈ [0, 1].
0
(1) Falso.
Demonstração. Usando f (x) = x + 1/2,
Z 0,5
(x + 1/2)dx = [x2 /2 + x/2]0,5
0 = 3/8.
0
(2) Verdadeiro.
(3) Falso.
Demonstração.
f (1/2, y) y + 1/2
f (y|X = 0, 5) = = = y + 1/2.
fX (1/2) 1
(4) Falso.
Demonstração.
Z 0,5 Z 0,5
P rob = (0 ≤ Y ≤ 0, 5|X = 0, 5) = fY |X (y|X = 0, 5) = (0, 5 + y)dy = 0, 375.
0 0
Questão 04/2022
Seja a seguinte função de distribuição:
xy 0 ≤ x ≤ 4; 1 ≤ y ≤ 2
f (x, y) =
0 c.c
Solução.
Demonstração. Note que E[X + 3Y ] = E[X] + 3E[Y ]. Para calcular as médias de X e Y ,
precisamos das distribuições marginais. Note que elas são dadas pelas seguintes expressões:
Z 2
fX (x) = xydy = xy 2 /2 | y=2
y=1 = 3x/2.
1
Z 4
fY (y) = xydx = yx2 /2 | x=4
x=0 = 8y.
0
Então,
Z 4 Z 4
E[X] = xfX (x)dx = (3x2 /2)dx = (3/2)[x3 /3]40 = 32
0 0
Z 2 Z 2
E[Y ] = yfY (y)dy = 8y 2 dy = (8/3)[y 3 ]21 = 56/3.
1 1
Questão 13/2016
Uma lanchonete resolveu apostar no serviço de drive-thru, além do atendimento convencio-
nal. Em um dia, X é a proporção de tempo em que o drive-thru está em uso e Y é a proporção
de tempo em que o caixa convencional está em uso. Assim (X, Y ) ∈ {(x, y)|0 ≤ x ≤ 1 e 0 ≤
y ≤ 1}. O gerente, que começou a estudar estatística este ano, acredita que a função de
densidade conjunta seja dada por:
6 (x + y 2 )
5
se 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1
f (x, y) =
0 caso contrário.
Solução.
Demonstração. Queremos calcular P (X < 1/4, Y < 1/4). Então,
6 1/4 1/4
Z Z
P (X < 1/4, Y < 1/4) = (x + y 2 )dxdy
5 0 0
Z 1/4
6 1/4
Z
6 2 2 1/4
= [x /2 + y x]0 dy = (1/32 + y 2 /4)dy
5 0 5 0
Å ã
6 3 1/4 6 1 1
= [y/32 + y /12]0 = +
5 5 128 64 · 12
Å ã
6 1 1 6 7 7
= + = =
5 128 128 · 6 5 128 · 6 5 · 128
Então, 1280 × 7
5·128
= 10·7
5
= 14.
Teoremas
1
P (|X − µ| ≥ kσ) ≤ , ∀k > 0. (6.1)
k2
Observação 6.2 Note que uma forma alternativa de enunciar a igualdade acima é escrever
1
P (|X − µ| ≤ kσ) ≥ 1 − , ∀k > 0.
k2
Observação 6.3 Uma forma mais geral de enunciar o teorema acima é dizer que se X é uma variável
aleatória, então
E[(X − c)2 ]
P (|X − c| ≥ ε) ≤ , ∀c ∈ R ∧ ∀ε > 0. (6.2)
ε2
p
X̄n → µ.
111
112 6.3. TEOREMA DO LIMITE CENTRAL
d
X̄n → N (µ, σ 2 /n).
Observação 6.6 Também é comum a expressão de X̄n na convergência acima aparecer padronizada:
X̄n − µ d
√ → N (0, 1).
σ/ n
Observação 6.7 Podemos mostrar por que a média e a variância da distribuição normal para a qual
X̄n converge é µ e σ 2 /n. Note que
E[X1 + ... + Xn ] n
E[X̄] = = µ=µ
n n
1 nσ 2 σ2
V ar(X̄) = 2 [V ar(X1 ) + ... + V ar(Xn )] = 2 = .
n n n
Questão 08/2019
Seja X uma variável aleatória com média igual a zero e variância igual a 1. Pelo Teorema de
Tchebycheff, sabemos que:
Solução.
Demonstração. Como µ = 0 e σ 2 = 1, pela desigualdade 6.1 podemos ver que z = 1
52
= 1
25
.
Portanto, 100 × z = 100
25
= 04.
Questão 04/2019
Seja uma variável aleatória X, com E(X) = 5 e E(X 2 ) = 50. Qual o limite de probabilidade
para que |X − E(X)| > 10? Multiplique por 100 e marque a parte inteira.
Solução.
Demonstração. Note que V ar(X) = E(X 2 ) − [E(X)]2 = 25 e, então, σ = 5. Portanto,
P (|X − 5| > 2 · 5) ≤ 1/22 = 1/4. A resposta final é 25 = 100/4.
Questão 08/2021
Considere uma variável aleatória Y com média igual a 12 e variância igual a 4. Considere
também que, usando o Teorema de Tchebycheff, temos:
P rob(|Y − 12| < 10) ≥ c.
Calcule o valor de c e multiplique o resultado por 100.
Solução.
Demonstração. P rob(|Y − 12| < 10) = P rob(|Y − 12| < 5 · 2) =≥ 1 − 1/52 = 24/25. A
resposta final é, portanto, 100·24
25
= 96.
Questão 10/2012
São corretas as afirmativas:
Solução.
(0) Verdadeiro.
Demonstração. Como vimos no texto.
(1) Verdadeiro.
Demonstração. Como as variáveis aleatórias Xi seguem uma distribuição uniforme no intervalo
[0, 1], temos que E[X] = (1 − 0)2 /2 = 1/2 e V ar[X] = 1/12. Então,
√ » √
n((X̄ − 1/2)/ 1/12) = (X̄ − µ)/(σ/ n),
que, conforme vimos, aproxima-se de uma distribuição normal padrão à medida que n cresce.
(2) Verdadeiro.
Demonstração. Note que Yi tem uma distribuição qui-quadrado com 1 grau de liberdade. En-
√ √ √ 2
tão, E[Yi ] = 1 e V ar[Yi ] = 2. Portanto, P (|Yi − 1| > 2 · 2 = 1/ 2 = 1/2 = 0, 5.
Questão 04/2011
São corretas as afirmativas:
Solução.
(1) Verdadeiro.
Demonstração. Note que como as variáveis aleatórias Xi são independentes, temos que
E[X̄] = µ
1 nσ 2 σ2
V ar(X̄) = [V ar(X 1 ) + ... + V ar(X n )] = = .
n2 n2 n
(3) Verdadeiro.
Demonstração. Como vimos no texto.
Questão 09/2012
Julgue as seguintes afirmativas:
(4) Se Y é uma variável aleatória tal que E[Y 2 ] < ∞, então podemos afirmar que P (|Y | ≥
c) ≤ E[Y
c2
]
, para c > 0.
Solução.
(4) Falso.
Demonstração. Pela fórmula (6.2), temos que
E[Y 2 ]
P (|Y − 0| ≥ c) ≤ .
c2
Questão 14/2016
Julgue as afirmativas abaixo:
(1) Sejam X1 , X2 , ..., Xn variáveis aleatórias com distribuição de Poisson com parâmetro λ.
Definindo X̄ = ni=1 Xi /n, podemos dizer, com base na Lei dos Grandes Números, que X̄ se
P
buição normal quando n → ∞, mesmo que X1 , ..., Xn não sejam normalmente distribuídas.
Solução.
(1) Falso.
Demonstração. Xi precisam ser independentes.
(2) Falso.
Demonstração. A única coisa que está incorreta na afirmação é a variância: não é σ 2 mas sim
σ 2 /n.
(3) Verdadeiro.
Demonstração. Exatamente como foi visto no texto.
Questão 07/2022
Julgue as afirmativas abaixo:
mal quando n → ∞.
Solução.
(1) Verdadeiro.
Demonstração. Como visto no texto.
(2) Falso.
Demonstração. Xi precisam ser independentes.
(3) Falso.
Demonstração. Faltou dizer que todas as variáveis aleatórias Xi seguem a mesma distribuição.
Questão 04/2010
Responda se verdadeiro ou falso:
(3) Uma moeda justa foi jogada 300 vezes e observou-se cara em 188 destas. A Lei dos
Grandes Números justifica a afirmação: P (cara na 301ª jogada |188 caras em 300 jogadas) <
0, 5.
Solução.
(3) Falso.
Demonstração. A probabilidade deveria ser 0, 5 pois à medida que o número de lançamentos
fica grande, a média amostral deve convergir à probabilidade de o lançamento da moeda cair
cara.
Questão 07/2013
X1 , ..., Xn é uma amostra aleatória de tamanho N de uma população com E[Xi ] = θ1 e
V ar[Xi ] = θ2 . Definimos quatro estatísticas:
PN PN PN/2 PN
i=1 Xi Xi
i=1 i=1 Xi i=1 Xi
T1 = , T2 = , T3 = , T4 = .
N N −3 N N2
(1) Pela Lei dos Grandes números, T1 converge em distribuição para uma distribuição normal
com média θ1 e variância θN2 .
Solução.
(1) Falso.
Demonstração. Pelo Teorema do Limite Central, não pela Lei dos Grandes Números.
Questão 07/2020
Sejam X1 , ..., Xn variáveis aleatórias independentes,
Pn
todas com a mesma distribuição, com
i=1 Xi
média µ e variância σ . Considere que X n =
2
, Tn = ni=1 Xi , e que Sn2 seja um estima-
P
n
dor consistente para σ 2 . Quando n → ∞, é correto afirmar pelo Teorema Central do Limite:
Solução.
(0) Falso.
Demonstração. A variância correta é σ 2 /n.
(1) Verdadeiro.
Demonstração. Como visto no texto.
(2) Falso.
√
Demonstração. V ar[Yn ] = V ar[ n(X n − µ)] = nV ar[X n ] = nn σ 2 = σ 2 .
(3) Verdadeiro.
Demonstração. Estimador consistente significa que ele converge ao parâmetro quando n tende
ao infinito. Assim, substituindo Sn por σ, temos em Zn a mesma expressão que vimos no texto
para uma variável padronizada que converge a uma distribuição normal com média 0 e variância
1.
(4) Verdadeiro.
Questão 11/2013
São corretas as afirmativas:
(1) Suponha que X1 , X2 , ..., Xn sejam variáveis aleatórias independentes e identicamente
distribuídas com distribuição de Bernoulli com parâmetro p. Defina X̄ = ni=1 Xi /n. Então,
P
pelo Teorema Central do Limite, à medida que n → ∞, (X̄ − p)/ p(1 − p)/n converge para
p
Solução.
(1) Verdadeiro.
Demonstração. Para Xi arbitrário seguindo distribuição de Bernoulli, µ = p e σ 2 = p(1 − p).
Ou seja, » » √
(X̄ − p)/ p(1 − p)/n = (X̄ − µ)/ σ 2 /n = (X̄ − µ)/(σ/ n),
que converge para uma distribuição normal padrão, conforme vimos no texto.
Inferência Estatística
121
Capítulo 7
Inferência
7.1 Estimadores
Considere um grupo de muitas pessoas (uma população) e suponha que queremos saber a
renda média delas, mas não gostaríamos de perguntar isso para todas. Pegamos, assim, uma
amostra aleatória com 10 pessoas e obtemos a renda de cada uma delas. Os valores são deta-
lhados na tabela 7.1.
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
36 40 49 38 16 15 29 50 38 11
Como poderíamos estimar a renda média da população inteira? Uma tentativa seria tirar a
média amostral, isto é, somar todos os valores e dividir pelo número de valores:
X1 + ... + Xn 36 + ... + 11
X̄ = = = 32, 3.
10 10
3. Se o tamanho da nossa amostra ficasse extremamente grande, o que deve ocorrer com a
nossa estimativa?
123
124 7.1. ESTIMADORES
Com respeito à segunda questão, a resposta é que não esperamos nem errar para cima
nem para baixo. Se a nossa estimativa é boa, esperamos que acertamos na média o valor do
parâmetro populacional que queremos estimar.
No que se refere ao tamanho da amostra, é natural esperarmos que, quando ela fica extre-
mamente grande, a nossa estimativa se aproxime do verdadeiro parâmetro populacional que
estamos querendo estimar. Isto porque, no limite, estaremos com as informações de toda a
população, isto é, nossa amostra será, de fato, do tamanho da população inteira que estamos
estudando.
Por fim, a resposta da última questão é que sim, a aleatoriedade da amostra é extremamente
importante. Isto acontece porque caso não seja, poderíamos estar causando um certo viés na
seleção de pessoas. Na pesquisa de renda, por exemplo, é evidente que seria extremamente
indesejável a escolha apenas de um bairro de classe alta ou apenas de um bairro de classe baixa
para fazermos nossa pesquisa.
Ao invés de estimarmos a média populacional, poderíamos também estimar a variância ou
qualquer outro parâmetro populacional que seja de nosso interesse. Determinar se um estima-
dor é bom ou ruim é o que estudaremos a seguir.
Suponha que estimamos um valor θ através de um estimador θ̂. Gostaríamos que nosso es-
timador θ̂ acertasse na média o parâmetro populacional θ e que convergisse para ele conforme
aumentamos arbitrariamente nossa amostra. Noutras palavras, seria desejável que nosso esti-
mador cumprisse com dois requisitos: um de não viés, isto é, E[θ̂] = θ, e outro de consistência,
p
θ̂ → θ. Outra característica importante de um estimador é o que chamamos de Erro Quadrático
Médio (EQM). Definimos o EQM de forma que ele nos dê uma medida possível do quão bom
(ou ruim) é o estimador θ̂:
EQM ≡ E[(θ̂ − θ)2 ].
Observe que
em que a quarta igualdade segue-se do fato no qual E[θ̂] − θ ser um número qualquer (uma
constante) e, então,
Definição 7.2 Considere θ̂1 , ..., θ̂m diferentes estimadores de θ. Chamamos de estimador eficiente
aquele que é o melhor entre eles, isto é, aquele que é não-viesado e tem a menor variância. Ou, de
maneira alternativa, o melhor estimador é aquele com o menor Erro Quadrático Médio (EQM).
X1 + ... + Xn
X̄ = .
n
Observação 7.4 Embora estejamos procurando um estimador para a média, podemos também esti-
mar outros parâmetros populacionais.
Poderíamos nos perguntar se este estimador é não-viesado e consistente. Para ver que sim,
note que E[X̄] = E[ X1 +...+X
n
n
] = nµ
n
= µ. Ainda, temos que X̄ converge em probabilidade
para a média populacional µ. De fato, este é um resultado da Lei dos Grandes Números visto
em seções anteriores destas notas.
" n
# n
1 X 1X
E[σ̂ 2 ] = E Xi2 − X̄ 2 = E[Xi2 ] − E[X̄ 2 ]
n i=1 n i=1
n
1X
= [V ar[Xi ] + (E[Xi ])2 ] − (V ar[X̄] + (E[X̄])2 )
n i=1
n Å 2 ã
1X 2 2 σ 2
= [σ + µ ] − +µ
n i=1 n
σ2
= σ2 −
n
n−1 2
= σ ̸= σ 2 ,
n
Observação 7.5 Para cada estimador da variância, temos um estimador natural para o desvio pa-
drão:
√
σ̂ =σ̂ 2
√
S = S 2.
X̄ em nossa amostra, fazendo que rejeitemos a hipótese nula1 . O “quão longe" X̄ está de
µ0 é uma medida arbitrária e, assim, devemos estipular um valor que nos dê um padrão de
comparação para julgar o quão provável é a validade de nossa hipótese nula H0 : µ = µ0 .
Comumente, chamamos este valor de nível de significância e o denotamos por α. O valor de α
determina uma área de rejeição da hipótese nula: caso X̄ pertença a esta área determinada por
α, então rejeitamos H0 ; caso contrário, não rejeitamos H0 . Tal raciocínio é ilustrado na figura
7.1.
Observação 7.6 Para trabalharmos com este tipo de problema, devemos primeiro padronizar a nossa
variável X̄, definindo o que comumente é chamado de estatística t:
X̄ − µ0
t= √ ∼ N (0, 1).
σ/ n
Assim, poderemos usar a tabela da distribuição normal para fazer o teste de hipótese.
Da mesma forma como o valor arbitrário de α definiu uma área, a posição de X̄ no gráfico
da distribuição normal define uma área ou uma probabilidade que chamamos de p-valor. Ela é
ilustrada na figura 7.2.
Da análise das figuras 7.1 e 7.2 podemos ver o seguinte: caso o p-valor seja pequeno o
suficiente, rejeitamos a hipótese nula; caso contrário, não rejeitamos. Isto é,
Até agora analisamos o caso em que a hipótese nula era dada por uma igualdade, isto é,
µ = µ0 . Chamamos este teste de teste bicaudal. No entanto, poderia ser o caso de a hipótese
nula ser caracterizada por uma desigualdade, originando um teste monocaudal. Suponha, por
exemplo, que H0 : µ < µ0 . Nossa hipótese alternativa seria, portanto, H1 : µ ≥ µ0 . O
raciocínio para analisar este caso é semelhante ao anterior; no entanto, a região de rejeição
estaria determinada apenas na extremidade direita do gráfico da distribuição normal. De igual
modo, caso H0 : µ > µ0 , nossa hipótese alternativa seria H1 : µ < µ0 e, portanto, a região de
rejeição estaria determinada apenas na extremidade esquerda do gráfico da distribuição normal
X̄ − µ
t= √ ∼ tn−1
S/ n
√ X̄−µ
√ X̄ − µ σ/ n
t= n =» 2 . (7.2)
S S n−1
2 σ n−1
Observação 7.7 Se n for grande, então a distribuição t de Student se aproxima de uma normal pa-
drão.
Com a estatística t dada por (7.2) podemos prosseguir com o teste de hipótese exatamente
da mesma forma como no caso anterior em que conhecíamos a variância populacional.
Erro do Tipo I
Definição 7.8 Cometemos um erro do tipo I quando H0 é verdadeira mas a rejeitamos. Seja α o nível
de significância do teste. A probabilidade deste tipo de erro é:
Erro do Tipo II
Definição 7.9 Cometemos um erro do tipo II quando H0 é falsa mas não a rejeitamos. A probabili-
dade deste tipo de erro é:
Observação 7.10 A probabilidade do erro do tipo II depende do valor verdadeiro do parâmetro, que
desconhecemos. Isto torna impossível calcular tal probabilidade, que denotamos por β.
Caso tivéssemos o valor verdadeiro µ do parâmetro que estamos testando sob a hipótese
nula H0 : µ = µ0 , então poderíamos calcular o erro do tipo II através do cálculo da área (repre-
sentando uma probabilidade) amarela na figura 7.3. Note pela imagem que tal área corresponde
3
O leitor pode querer voltar algumas seções e rever a forma de uma variável seguindo distribuição t de Student.
Poder do Teste
Definição 7.11 O poder do teste é a probabilidade de rejeitar H0 quando ela é falsa. Ou seja, é o
complemento da probabilidade do erro do tipo II:
A figura 7.4 ilustra graficamente a região que nos dá o poder do teste. Observe que a soma
das áreas pintadas nas figuras 7.3 e 7.4 deve somar 1, já que são probabilidades complementa-
res.
Sejam X1 , ..., Xn n observações aleatórias para uma variável aleatória X seguindo uma dis-
tribuição normal com média desconhecida µ e variância conhecida σ 2 . Neste seção, estaremos
interessados em determinar uma constante c ∈ R de modo que tenhamos p ∈ (0, 1) de chance
de µ pertencer a ao intervalo [X̄ − c, X̄ + c]. Ou seja, queremos encontrar um c ∈ R tal que
P (X̄ − c ≤ µ ≤ X̄ + c) = p,
em que p ∈ (0, 1) é arbitrário. Uma forma equivalente e mais útil de escrever esta expressão é
dada a seguir:
P (µ − c ≤ X̄ ≤ µ + c) = p. (7.3)
Sabemos que X̄ ∼ N (µ, σ 2 /n) e, assim, podemos usar a tabela da distribuição normal
para calcular o valor de c para que a igualdade em (7.3) ocorra. No entanto, como de costume,
precisamos normalizar a variável X̄ através da definição da estatística t:
X̄ − µ
t= √ .
σ/ n
(µ − c) − µ (µ + c) − µ −c
Å ã Å ã
c
P √ ≤t≤ √ =P √ ≤t≤ √ =p
σ/ n σ/ n σ/ n σ/ n
Defina tp = c√
σ/ n
. Através da tabela da normal padrão podemos achar o valor de tp e, assim,
tp σ
c= √ . (7.4)
n
Portanto, nosso intervalo com (100 · p)% de confiança, que denotaremos por IC100·p% será
dado por
ï ò
tp σ tp σ
IC100·p% = X̄ − √ , X̄ + √ . (7.5)
n n
X̄ − µ
tp = √ ∼ tn−1 ,
s/ n
4
Lembre-se de que fazíamos um procedimento análogo a este para testar hipótese de um problema com vari-
ância populacional desconhecida. A ideia é a mesma.
Questão 15/2015
Sejam X1 , X2 , X3 e X4 variáveis aleatórias independentes e identicamente distribuídas de
uma população com média µ e variância σ 2 . Considere os seguintes estimadores para µ:
Solução.
(0) Verdadeiro.
Demonstração. É fácil ver que E(mi ) = µ, ∀i ∈ {1, 2, 3}.
(1) Falso.
Demonstração. Temos que
(2) Falso.
Demonstração. Como todos os estimadores são não-viesados, o Erro Quadrático Médio (EQM)
será equivalente às respectivas variâncias de cada estimador. Então, como vimos na resposta
do item anterior que as variâncias diferem, segue que os estimadores não são igualmente efici-
entes.
(3) Verdadeiro.
Demonstração. Vimos na resposta do item (1).
(4) Falso.
Demonstração. m2 é o estimador com maior variância dentre os três.
Questão 04/2011
São corretas as afirmativas:
Solução.
(0) Verdadeiro.
Demonstração. Visto no texto.
(2) Verdadeiro.
Demonstração. Isto vai implicar na convergência do estimador para o parâmetro da população,
conforme o tamanho da amostra tende a infinito.
Questão 09/2020
Sejam Y1 , Y2 , ..., Yn variáveis aleatórias independentes e identicamente distribuídas, com
média igual a 5 e variância igual a 100. Obtenha o Erro Quadrado Médio para o seguinte esti-
mador, para a média de Yi : T = 15 4i=1 Yi .
P
Solução.
4σ 2
Demonstração. Sabemos que EQM = V ar(T ) + viés2 (T ). Note que V ar(T ) = 25
=
4·100
25
= 16 e viés2 (T ) = (E[T ] − 5)2 = ( 4·5
5
− 5)2 = 1. Portanto
EQM (T ) = 16 + 1 = 17.
Questão 09/2019
Solução.
(0) Falso.
Demonstração. Note que E[Y ∗ ] = µ e, portanto, Y ∗ não é um estimador tendencioso (ou
viesado).
(1) Verdadeiro.
Demonstração.
(2) Verdadeiro.
Demonstração. Como ambos os estimadores são não-viesados, o Erro Quadrado Médio será
igual à variância dos estimadores. Calculamos, na resposta do item (1), a variância para Y . A
2
variância para Y ∗ será dada por V ar(Y ∗ ) = σk . Portanto, como k < n, segue que V ar(Y ) <
V ar(Y ∗ ), isto é, EQM (Y ) < EQM (Y ∗ ).
(4) Falso.
Demonstração. Vimos na resposta do item (3) que não procede tal igualdade.
Questão 07/2013
X1 , ..., Xn é uma amostra aleatória de tamanho N de uma população com E[Xi ] = θ1 e
V ar[Xi ] = θ2 . Definimos quatro estatísticas:
PN PN PN/2 PN
i=1 Xi Xi
i=1 i=1 Xi i=1 Xi
T1 = , T2 = , T3 = , T4 = .
N N −3 N N2
Solução.
(0) Verdadeiro.
Demonstração. Note que
Nµ
E(T2 ) = .
N −3
Nµ 3
viés(T2 ) = −µ= .
N −3 N −3
(3) Verdadeiro .
Demonstração. Seja
PN/2
i=1Xi
T̃3 = 2T3 = .
N/2
Pela Lei dos Grandes Números, T̃3 converge em probabilidade para θ1 . Mas isto é equivalente a
dizer que T̃3 /2 = T3 converge em probabilidade para θ1 /2.
Questão 06/2010
Suponha que Y1 e Y2 sejam variáveis aleatórias independentes, com média µ e variâncias
V (Y1 ) = 75 e V (Y2 ) = 25. O valor de µ é desconhecido e é proposto estimar µ por uma média
ponderada de Y1 e Y2 , isto é, por:
αY1 + (1 − α)Y2
Qual valor de α produz o estimador com a menor variância possível na classe dos estimado-
res não viesados? Multiplique o resultado por 100.
Solução.
Demonstração. Seja T = αY1 + (1 − α)Y2 . Note que T é um estimador não viesado, uma vez
que E[T ] = αµ + (1 − α)µ = µ. Estudemos, agora, a variância de T :
Questão 15/2015
São corretas as afirmativas:
(0) Considere dois estimadores não tendenciosos, θ̂1 e θ̂2 de um parâmetro θ. θ̂1 é eficiente
relativamente a θ̂2 se var(θ̂1 ) < var(θ̂2 )
(1) Um estimador θ̂ de um parâmetro θ é consistente se θ̂ converge em probabilidade para
θ;
(2) Um estimador θ̂ de um parâmetro θ é consistente se, e somente se, θ̂ é não viesado e a
variância de θ̂ converge para 0 à medida que o tamanho da amostra tende a infinito;
Solução.
(0) Verdadeiro.
Demonstração. Como ambos são não-viesados, os Erros Quadráticos Médios de ambos os
estimadores dependerão apenas das respectivas variâncias. Como V ar(θ̂1 ) < V ar(θ̂2 ), então
θ̂1 tem menor EQM se comparado a θ̂2 e, portanto, é eficiente relativamente.
(1) Verdadeiro.
Demonstração. Visto no texto.
(2) Falso.
Demonstração. A propriedade de consistência não depende do viés do estimador.
Questão 11/2013
São corretas as afirmativas:
Solução.
(2) Verdadeiro.
Demonstração. Para distribuição uniforme no intervalo dado pelo enunciado, temos que a
média é dada por µ = θ/2. Assim, E[2X̄] = 2E[X] = 2µ = θ. Portanto, 2X̄ é um estimador
não viesado de θ.
Questão 04/2017
Sejam X1 , X2 , ..., Xn variáveis aleatórias independentes com distribuição Normal (µ, σ 2 ),
em que µ e σ 2 são desconhecidos e σ 2 > 0. Podemos definir também X̄ = n1 ni=1 Xi e
P
Solução.
(0) Verdadeiro.
Demonstração. Visto no texto.
(1) Verdadeiro.
Demonstração. Visto no texto.
(2) Falso.
2 2
Demonstração. Note que V ar(X̄) = σn . Sabemos que E[S 2 ] = σ 2 ̸= σn , já que ele não é uma
estimador viesado. Portanto, S 2 não é um estimador não tendencioso para a variância de X̄.
(3) Verdadeiro.
Demonstração. Visto no texto.
(4) Verdadeiro.
Demonstração. Visto no texto. A Lei dos Grandes Números garante que X̄ converge em pro-
babilidade para µ.
Questão 09/2012
Julgue as seguintes afirmativas:
Solução.
(3) Verdadeiro.
Demonstração. Visto no texto.
Questão 04/2010
Responda se verdadeiro ou falso:
(2) Sejam s21 = i=1 (xi − x̄) /n e s2 = i=1 (xi ) /n. Ambos estimadores podem ser
Pn 2 2
Pn 2
Solução.
(2) Falso.
Demonstração. Vimos no texto que s21 é consistente. Devemos estudar se s22 é consistente.
Note que pela Lei dos Grandes Números, s22 converge em probabilidade para E[Xi2 ]. Como
p
sabemos que σ 2 = E[Xi2 ] − (E[Xi ])2 , então E[Xi2 ] = σ 2 + (E[Xi ])2 = µ. Portanto, s22 →
E[Xi2 ] = σ 2 ⇔ µ = 0. Nada nos garante que µ = 0 e, portanto, não necessariamente s22 será
consistente.
Questão 02/2012
Suponha que as notas de matemática dos alunos em um exame nacional aplicado a todas as
escolas do ensino médio sejam normalmente distribuídas com média 500 e variância 1000. Um
cursinho faz uma propaganda afirmando que pode melhorar as notas dos alunos em 30 pontos
caso eles frequentem um curso noturno que resolve as questões dos exames anteriores. O
órgão de defesa do consumidor quer testar se este curso noturno é de fato efetivo. O estatístico
deste órgão de defesa do consumidor formula o seguinte problema: Seja M a nota que o aluno
i obtém após frequentar o curso noturno, suponha que M é normalmente distribuído com
média desconhecida µM e variância igual a 1000. O teste de hipótese que ele gostaria de fazer
é o seguinte: H0 : µM = 500 vs H1 : µM > 500.
[Para a resolução desta questão talvez lhe seja útil saber que se Z tem distribuição normal
padrão, então P r(|Z| > 1, 645) = 0, 10 e P r(|Z| > 1, 96) = 0, 05.]
(0) O órgão de defesa do consumidor irá conduzir o estudo usando uma amostra aleatória
de 40 alunos que frequentaram este curso noturno. Se µM = 530, a distribuição do teste escore
médio deste grupo de 40 alunos é uma distribuição normal com média 530 e variância 1000.
(1) Após terminarem o curso, os 40 alunos fazem o exame nacional e obtêm na média uma
nota de 520 em matemática. Neste caso, a estatística do teste sugerido pelo estatístico é t =
√ 1000 = −2, e podemos afirmar que temos evidência para rejeitar a hipótese nula do teste
520−530
40
proposto pelo estatístico ao nível de 5% de significância.
(2) Após terminarem o curso, os 40 alunos fazem o exame nacional. Usando as notas destes
40 alunos no exame, calculamos o p-valor do teste sugerido pelo estatístico e obtemos o p-valor
de 0, 081. Neste caso, podemos rejeitar a hipótese nula ao nível de 5% de significância.
(3) Mantendo o nível de significância fixo, para diminuir o poder do teste, o estatístico pode
aumentar o tamanho da amostra.
(4) Mantendo o tamanho da amostra fixo, se o estatístico quiser aumentar o poder do teste,
ele deve aumentar o nível de significância do teste.
Solução.
(0) Falso.
Demonstração. Se µM = 530, a distribuição do teste escore médio será uma normal com
média µ = µM e variância σ 2 /n = 1000/40 = 25.
(1) Falso.
(2) Falso.
Demonstração. p-valor = 0.081 > 0, 05 = α, em que α é o nível de significância. Portanto,
não rejeitamos a hipótese nula a este nível de significância.
(3) Falso.
Demonstração. Aumentar o tamanho da amostra faz com que o estimador X̄ se aproxime mais
do parâmetro populacional µ, melhorando o poder do teste.
(4) Verdadeiro.
Demonstração. Aumentar o nível de significância aumenta a região de rejeição e, consequen-
temente, o poder do teste. Este raciocínio fica claro quando olhamos para a figura 7.4.
Questão 01/2011
Considere as seguintes afirmativas acerca de um teste de hipótese:
(3) O p-valor de um teste é a probabilidade, sob a hipótese nula, de obter um valor da esta-
tística pelo menos tão extremo quanto o valor observado.
Solução.
(3) Verdadeiro.
Demonstração. Esta é a definição de p-valor.
Questão 03/2019
Sobre teste de hipóteses, julgue como verdadeiras ou falsas as afirmativas que se seguem:
Solução.
(0) Falso.
Demonstração. O nível de significância é a probabilidade de se cometer o erro tipo I.
(1) Verdadeiro.
Demonstração. Esta é a definição do erro do tipo I, conforme visto no texto.
(3) Falso.
Demonstração. O p-valor é a probabilidade de observarmos um valor ao menos tão extremo
quanto a nossa estatística, considerando a hipótese nula verdadeira. Isto claramente é diferente
do que está sendo dito no enunciado.
(4) Verdadeiro.
Demonstração. Esta é a definição de poder do teste, conforme vimos no texto.
Questão 01/2012
Julgue as afirmativas:
(0) O erro tipo I é definido como a probabilidade de rejeitar a hipótese nula quando a hipó-
tese nula é verdadeira.
(1) O erro tipo II é definido como a probabilidade de rejeitar a hipótese nula quando a hipó-
tese nula é verdadeira.
(2) O nível de significância de um teste é a probabilidade de rejeitar a hipótese nula quando
a hipótese alternativa é verdadeira.
(3) Se o p-valor de um teste é maior do que o nível de significância adotado, rejeita-se a
hipótese nula.
(4) Suponha que o objetivo seja testar a hipótese nula de que a média populacional µ é
igual a 0. Se esta hipótese é rejeitada num teste monocaudal contra a hipótese alternativa de
que 0 > µ, ela também será rejeitada num teste bicaudal contra a hipótese alternativa de que
0 ̸= µ, adotando-se o mesmo nível de significância.
Solução.
(0) Falso.
Demonstração. Um erro de qualquer tipo não é uma probabilidade em si.
(1) Verdadeiro.
Demonstração. Visto no texto.
(2) Falso.
Demonstração. O nível de significância de um teste é a probabilidade de rejeitar a hipótese
nula quando a hipótese nula é verdadeira.
(3) Falso.
Demonstração. Rejeitamos quando ele é menor.
(4) Falso.
Demonstração. Se passamos de um teste monocaudal para um bicaudal mantendo o nível de
significância, então estamos diminuindo a região de rejeição da hipótese nula. Pode ocorrer
então de a hipótese nula não ser rejeitada no teste bicaudal.
Questão 11/2014
Duas turmas do curso de estatística fazem o mesmo exame final. Duas amostras aleatórias
de tamanho 9 e 4 são selecionadas da turma A e da turma B, respectivamente. A amostra da
turma A teve nota média amostral (X̄1 ) de 72 e variância amostral (S12 ) de 16. A amostra da
turma B teve nota média amostral (X̄2 ) de 76 e variância amostral (S22 ) de 25. Vamos assumir
que as notas da turma A têm distribuição normal com média µ1 e variância σ 2 . As notas da
turma B têm uma distribuição normal com média µ2 e variância σ 2 .
[Para a resolução desta questão talvez lhe seja útil saber que se t tem distribuição t-student,
P r(|t| > 3, 15) = 0, 05, e se Z tem uma distribuição normal padrão, P r(|Z| > 1, 96) = 0, 05].
Solução.
(0) Falso.
Demonstração. Devemos estudar a probabilidade P (X̄1 − c ≤ µ ≤ X̄1 + c) = 0, 95, em que
X̄1 = 72. Note que tal probabilidade é equivalente a
P (µ − c ≤ X̄1 ≤ µ + c) = 0, 95
Å ã
c c
⇔ P − 2 √ ≤ X̄1 ≤ 2 √ = 0, 95
S1 / n S1 / n
Note que estamos no caso em que a variância populacional é desconhecida e, desta forma,
tivemos que usar a estimativa S12 . Portanto, X̄1 seguirá uma distribuição t de Student com 9 −
1 = 8 graus de liberdade. Usando as informações do enunciado e a desigualdade desenvolvida
acima, temos que
3c 12, 6
= 3, 15 ⇔ c = = 4, 2.
4 3
Portanto, o intervalo de confiança de 95% que o professor da turma A encontrou para as
notas de sua turma é
(4) Verdadeiro.
Demonstração. A estatística de teste, utilizando os valores dados no enunciado, terá o valor
32/5 = 6, 4. Note que se t segue uma distribuição t de Student, então P r(|t| > 3, 15) =
P r(t < −3, 15) + P r(t > 3, 15) = 0, 05. Como a distribuição t de Student é simétrica,
P r(t > 3, 15) = P r(t < −3, 15). Portanto, P r(t > 3, 15) = P r(|t| > 3, 15)/2 = 0, 025.
Então,
p-valor = P r(t > 6, 4) < P r(t > 3, 15) = 0, 025 < α,
em que α denota o nível de significância de 5%. Portanto, rejeitamos a hipótese de que H0 = 60.
Questão 08/2017
Com relação aos testes de hipóteses, pode-se afirmar que:
(3) Num teste de hipóteses para a média, quando a variância populacional é desconhecida,
devemos utilizar a estatística t que tem distribuição tn , em que n é o tamanho da amostra
Solução.
(3) Falso.
Demonstração. A distribuição é t de Student mas com n − 1 graus de liberdade.
Questão 05/2018
Indique se as seguintes considerações sobre a teoria dos testes de hipótese são verdadeiras
(V) ou falsas (F):
(0) No teste de hipótese para proporções, se a variância da proporção populacional for des-
conhecida, a estatística t de Student com n − 1 graus de liberdade (n é o tamanho da amostra)
é a indicada para o teste;
(1) O erro do tipo II é definido como o erro que se comete ao se rejeitar uma hipótese nula
verdadeira;
(2) No teste de hipótese para a média (H0 : µ = b contra Ha : µ ̸= b), adotando nível de
significância α, se o intervalo de confiança com 1 − α de probabilidade contiver µ = b, não se
poderá rejeitar H0 ;
(3) A probabilidade do erro do tipo I é definida como a probabilidade de não se rejeitar uma
hipótese nula quando esta for falsa;
(4) A potência de um teste de hipótese é a probabilidade de não se cometer um erro do tipo
II.
Solução.
(0) Verdadeiro.
Demonstração. Conforme vimos no texto.
(1) Falso.
Demonstração. O erro do tipo II é definido como o erro que se comete ao não se rejeitar uma
hipótese nula falsa.
(2) Verdadeiro.
Demonstração. Lembremos que, para qualquer c ∈ R, P (X̄ − c ≤ µ ≤ X̄ + c) = P (µ − c ≤
X̄ ≤ µ+c). Das informações do enunciado, P (µ−c ≤ X̄ ≤ µ+c) = P (b−c ≤ X̄ ≤ b+c) =
1 − α, isto é, X̄ está na região de não rejeição do teste de hipótese, já que 1 − α representa
justamente a área da região de não rejeição. Neste caso, o p-valor será maior do que a área da
região de rejeição, o que indica que não devemos rejeitar a hipótese nula.
(3) Falso.
Demonstração. A probabilidade do erro do tipo I é definida como a probabilidade de se rejeitar
uma hipótese nula quando esta for verdadeira;
(4) Falso.
Demonstração. Embora o gabarito oficial da prova tenha dado verdadeiro, a sentença é falsa.
O poder do teste é a probabilidade de rejeitar a hipótese nula dado que ela é falsa.
Questão 03/2013
Suponha que o presidente de uma distribuidora de energia afirme que 80% dos seus con-
sumidores estão muito satisfeitos com o serviço que recebem. Para testar esta afirmação, um
jornal entrevista 100 consumidores em um município, utilizando uma amostra aleatória. Entre
os consumidores entrevistados, 73 afirmam que estão muito satisfeitos. (Dica: Na sequência,
assuma que o tamanho da amostra é suficientemente grande para que utilizemos a distribuição
normal.)
É correto afirmar que:
(4) Suponha que estejamos interessados em testar, a um nível de significância de 5%, se a
proporção dos consumidores que estão muito satisfeitos com o serviço é menor do que 80%. A
probabilidade do erro tipo II não dependerá do valor da proporção verdadeira de consumidores
muito satisfeitos com o serviço.
Solução.
(4) Falso.
Demonstração. A probabilidade do erro do tipo II sempre depende do valor da proporção verda-
deira de um parâmetro já que, por definição, ela é a probabilidade de não rejeitarmos a hipótese
nula dado que ela seja falsa.
Questão 14/2006
O tempo de utilização de um telefone celular durante um dia qualquer é uma variável alea-
tória normal com média desconhecida e desvio padrão de 10 minutos. Por quantos dias se deve
anotar os tempos de utilização do celular para que o intervalo de confiança de 95% para a média
tenha amplitude de 2 minutos? Transcreva para a folha de respostas apenas a parte inteira do
resultado. [Obs: se Z tem uma distribuição normal padrão, P r(|Z| > 1, 96) = 0, 05].
Solução.
Demonstração. Devemos estudar a probabilidade P (X̄ − c ≤ µ ≤ X̄ + c) = 0, 95 para c = 1.
√
Defina Z ≡ (X̄ − µ)/(σ/ n). Note que
P (X̄ − 1 ≤ µ ≤ X̄ + 1) = 0, 95
⇔ P (µ − 1 ≤ X̄ ≤ µ + 1) = 0, 95
Å ã
1 1
⇔P − √ ≤Z≤ √ = 0, 95
10/ n 10/ n
Å √ √ ã
n n
⇔P − ≤Z≤ = 0, 95
10 10
Å √ ã
n
⇔ P |Z| ≤ = 0, 95
10
Å √ ã
n
⇔ 1 − P |Z| ≥ = 0, 95
10
Å √ ã
n
⇔ P |Z| ≥ = 0, 05.
10
Como das informações do enunciado sabemos que se Z tem uma distribuição normal padrão,
P r(|Z| > 1, 96) = 0, 05, então:
√
n
= 1, 96 ⇔ n = 384, 16.
10
Questão 10/2020
Suponha que os salários em determinada firma tenham distribuição normal, com média µ
e variância conhecida igual a 400. Representando por X a média dos salários de uma amostra
retirada aleatoriamente dessa população, julgue as afirmativas abaixo:
[Para a resolução desta questão considere que se Z tem distribuição normal padrão, com
média zero e variância igual a um, então P (|Z| > 1, 645) = 0, 10, P (|Z| > 1, 96) = 0, 05 e
P (|Z| > 2, 575) = 0, 01].
5
Esta questão foi anulada pois a ANPEC somente aceita respostas em dezenas de 01 até 99.
(0) O intervalo de confiança de 95% para a média de salários da população é dado por:
î Ä ä Ä äó
X − 1, 96 × √20n , X + 1, 96 × √20n
(1) O intervalo de confiança de 99% para a média de salários da população é dado por:
X − 2, 575 × 20 20
n
, X + 2, 575 × n
(2) O intervalo de confiança de 80% para a média de salários da população é dado por:
î Ä ä Ä äó
X − 1, 645 × √20n , X + 1, 645 × √20n
î Ä ä Ä äó
(3) A probabilidade de que o intervalo aleatório X − 1, 96 × √20n , X + 1, 96 × √20n
inclua µ é igual a 95%.
(4) Sendo n = 100 e X = 120 para determinada amostra, podemos dizer que a probabili-
dade de que o intervalo [120 − (2 × 2, 575), 120 + (2 × 2, 575)] inclua µ é igual a 99%.
Solução.
(0) Verdadeiro.
Demonstração. Utilizando (7.4) e (7.5), fica fácil de ver.
(1) Falso.
Demonstração. Utilizando (7.4) e (7.5), fica fácil de ver que o intervalo de confiança de 99%
î Ä ä Ä äó
para a média de salários da população é dado por: X − 2, 575 × √20n , X + 2, 575 × √20n
(2) Falso.
Demonstração. O intervalo de confiança de 80% para a média de salários da população é dado
î Ä ä Ä äó
por: X − t × √20n , X + t × √20n , em que t é tal que P (|Z| > t) = 0, 20. O enunciado
não dá esta informação mas sabemos que P (|Z| > t) = 0, 20 > P (|Z| > 1, 645) = 0, 10, o
que implica em t < 1, 645.
(3) Verdadeiro.
Demonstração. Exatamente o significado de intervalo de confiança que vimos no texto; e, da
resposta do item (1), verificamos que o intervalo correspondente a esta probabilidade é mesmo
este dado na afirmação do item (3).
(4) Verdadeiro.
Demonstração. Utilizando o intervalo de confiança da resposta do item (1) para os valores
n = 100 e X = 120, então o intervalo resultante é exatamente este.
Econometria
151
Capítulo 8
Regressão Linear
Neste capítulo, estaremos interessados em modelar ou explicar uma variável a partir de ou-
tras(s) usando uma regressão linear. Basicamente, podemos ter uma regressão linear simples,
que utiliza apenas uma variável de explicação ou uma regressão linear múltipla, que admite mais
variáveis na explicação de uma outra. O objetivo com isso é obter uma relação causal entre duas
ou mais variáveis. Para isso, suporemos sempre que estamos em posse de uma amostra com n
observações com informações sobre a variável a ser explicada.
y i = β 0 + β 1 xi + u i . (8.1)
153
154 8.1. REGRESSÃO SIMPLES
Uma forma de encontrar valores estimados para os betas é minimizando o quadrado dos resí-
duos ûi presente nas nossas observações, definido por
ûi = yi − ŷi .
em que ŷi é dado em (8.2). A condição de primeira ordem1 nos diz que devem ser satisfeitas as
seguintes equações:
n
∂S X
= (yi − β̂0 − β̂1 xi ) = 0
∂ β̂0 i=1
n
∂S X
= (yi − β̂0 − β̂1 xi )xi = 0.
∂ β̂1 i=1
em que x̄ denota a média da variável x. Substituindo o valor de β̂0 na segunda equação, segue
que
n n
∂S X X
= (yi − β̂0 − β̂1 xi )xi = [xi yi − xi (ȳ − β̂1 x̄) − β̂1 x2i ] (8.5)
∂ β̂1 i=1 i=1
Xn n
X
= xi (yi − ȳ) + β̂1 xi (xi − x̄) = 0.
i=1 i=1
Portanto,
Pn
xi (yi − ȳ)
β̂1 = Pni=1 . (8.6)
i=1 xi (xi − x̄)
1
Note que a função é côncava e, portanto, a condição de primeira ordem é suficiente para resolver o problema.
Observação 8.1 Para chegar na expressão acima, o leitor pode querer provar a igualdade
Pn Pn
x i (y i − ȳ) (x − x̄)(yi − ȳ)
Pni=1 Pn i
= i=1 2
.
i=1 xi (xi − x̄) i=1 (xi − x̄)
P P
Para isto, tente mostrar antes que x̄ȳ = x̄yi e, portanto, que
n
X n
X
xi (yi − ȳ) = (xi − x̄)(yi − ȳ).
i=1 i=1
yi = β0 + β1 xi + ui . (8.8)
2. Amostra aleatória.
3. Variabilidade na variável x.
Há variabilidade amostral na variável explicativa. Pela fórmula de β̂1 em 8.7, caso x não
possua variabilidade, isto é, V ar(x) = 0, então β̂1 não estará bem definido.
O termo de erro tem expectativa nula quando condicionado à variável explicativa. Isto é o
mesmo que dizer que x e u são independentes, ou seja, as variáveis que ajudam a explicar
y, presentes no termo de erro u, não podem ter correlação com x.
Teorema 8.2 Se as quatro hipóteses acima são verdadeiros, então β̂1 e β̂0 são estimadores não vie-
sados, isto é,
E(β̂0 ) = β0 e E(β̂1 ) = β1 .
Então,
Pn Pn Pn Pn
i − x̄)(β0 + β1 xi + ui )
i=1 (xP i=1 (xi − x̄)β0 i=1 (xi − x̄)β1 xi (xi − x̄)ui
β̂1 = n = Pn + Pn + Pni=1
i=1 xi (xi − x̄) i=1 xi (xi − x̄) i=1 xi (xi − x̄) i=1 xi (xi − x̄)
Pn
(xi −x̄)β1 xi
Como, xi = nx̄, segue que (xi − x̄)β0 = 0. Ainda, note que = β1 .
P P
Pi=1
n
i=1 xi (xi −x̄)
Então,
Pn
(xi − x̄)ui
β̂1 = β1 + Pni=1 . (8.9)
i=1 xi (xi − x̄)
Usando a Lei das Expectativas Iteradas (ver 4.3.3), finalmente temos que E(E(β̂1 |x)) = E(β̂1 ) =
β1 .
Para mostrar a igualdade E(βˆ0 ) = E(β0 ), podemos usar a fórmula de β̂0 em (8.4) e o fato
de que ȳ = β0 + β1 x̄ + ū (basta tirar a média de y para todo i ∈ {1, ..., n} em (8.8)). Assim,
teremos que
de modo que na última igualdade usamos o fato já provado no qual E(β̂1 |x) = β1 e a nossa
hipótese na qual E(u|x) = 0. Finalmente, usando a Lei das expectativas Iteradas (ver 4.3.3), te-
mos que E(β̂0 ) = β0 . Portanto, β̂i , i ∈ {0, 1}, são estimadores não viesados, como queríamos
demonstrar.
5. Homocedasticidade.
O erro u tem a mesma variância, dado qualquer valor amostral da variável explicativa. Ou
seja,
V ar(u|x) = σ 2 .
Observação 8.3 Porque V ar(u|x) = E(u2 |x)−[E(u|x)]2 , sob a nossa hipótese 4 (média condicio-
nal nula), temos que V ar(u|x) = σ 2 = E(u2 |x). Ainda, como E(u|x) = 0, u e x são independentes
e, desta forma, σ 2 = E(u2 ) = V ar(u), isto é, σ 2 é a variância de u incondicional.
σ2
V ar(β̂1 |x) = Pn 2
. (8.10)
i=1 (xi − x̄)
Observação 8.7 Sob as Hipóteses de Gauss-Markov, os estimadores de MQO são os estimadores li-
neares não-viesados com menor variância (ou BLUE: Best Linear Unbiased Estimator).
Observe através das expressões (8.10) e (8.11) que as variâncias condicionais de β̂1 e β̂0
não são possíveis de serem calculadas, uma vez que depende da variância do erro, σ 2 , que é
desconhecida. Devemos, assim, estimá-la. Dado que sob as hipóteses usuais V ar(u|x) = σ 2 =
E[u2 ] − (E[u|x])2 = E[u2 ], uma tentativa natural de estimação seria tomar σ̂ 2 = n−1 u2i
P
viesado (embora para n grande o viés se torne arbitrariamente pequeno). A explicação para
este fato é que tal estimador não considera as duas condições de derivação do método do
MQO, dadas pela CPO em (8.5):
n
X n
X
ûi = 0, xi ûi = 0. (8.12)
i=1 i=1
Isto acaba por restringir os graus de liberdade dos resíduos: se soubéssemos os valores de
n − 2 resíduos, poderíamos sempre utilizar estes valores para obter os 2 resíduos restantes
através das equações em (8.12). Portanto, há apenas n − 2 graus de liberdade nos resíduos do
MQO — ao contrário dos n graus de liberdade dos erros.
Portanto, uma forma de contornar esta situação do estimador viesado utilizando resíduos
é dividir o somatório dos resíduos pelo número de graus de liberdade n − 2. Assim, o estimador
não viesado de σ 2 será dado por
n
2 1 X 2
σ̂ = û .
n − 2 i=1 i
Quando tiramos a raiz quadrada destas duas expressões, obtemos o que chamamos de erro
padrão do estimador da variância dos betas:
Å Pn 2 ã1/2
σ̂ 1 x
se(β̂1 ) = Pn 2 1/2
e se(β̂0 ) = σ̂ Pn i=1 i 2 .
( i=1 (xi − x̄) ) n i=1 (xi − x̄)
Observação 8.8 Note que somos capazes apenas » de calcular o erro padrão
» dos betas mas não o
desvio padrão, que seriam dados por dp(β̂1 ) = V ar(β̂1 ) ou dp(β̂0 ) = V ar(β̂0 ).
y = β0 + β1 x1 + β2 x2 + ....βk xk + u, (8.13)
Como no modelo de regressão linear simples visto anteriormente, queremos estimar os be-
tas de (8.13) a partir do método dos mínimos quadrados ordinários (MQO). Ou seja, devemos
escolher estimadores que minimizem a soma dos resíduos ao quadrado de modo a escrever a
equação amostral de regressão múltipla
A condição de primeira ordem nos diz que as seguintes k+1 equações devem ser satisfeitas:
n
X
(yi − β̂0 − β̂1 xi1 − ... − β̂k xik ) = 0 (8.14)
i=1
n
X
xij (yi − β̂0 − β̂1 xi1 − ... − β̂k xik ) = 0, ∀j ∈ {1, 2, ..., k}. (8.15)
i=1
Mostremos que
Portanto, como das condições de primeira ordem em (8.14) e (8.15) temos que o termo dentro
dos colchetes do lado direito é nulo, então provamos que SQT = SQE + SQR.
R2 ≡ SQE/SQT.
Se dividirmos ambos os lados da igualdade em (8.18) por SQT , temos então que
SQR
R2 = 1 − .
SQT
Observe que R2 ∈ [0, 1] é a medida da variação amostral da variável dependente que é explicada
pela variável independente da regressão. Noutras palavras, é uma medida de poder explicativo
da regressão. No entanto, uma das desvantagens desta medida é que ela aumenta (ou, no
máximo, fica inalterada, mesmo que as novas variáveis explicativas não tenham poder de expli-
cação da variável dependente) conforme adicionamos variáveis explicativas em nosso modelo
de regressão linear. Isto faz com que esta medida não seja apropriada para comparar modelos
com quantidades diferentes de variáveis explicativas. Uma maneira de corrigir isto é definindo
o que é chamado de R2 -ajustado:
n−1
R2 -ajustado = 1 − (1 − R2 ) .
n − (k + 1)
Com o ajuste de R2 , além de mantermos esta medida como o poder explicativo da regressão, a
vantagem é que acrescentar variáveis explicativas ao modelo que não ajudam a explicar a variá-
vel dependente não aumenta seu valor. Então, podemos usar o R2 − ajustado para comparar
modelos com quantidades diferentes de variáveis explicativas.
2. Amostra aleatória.
Os vetores que compõe a matriz X em (8.17) são linearmente independentes. Esta pro-
priedade garante que X seja uma matriz inversível e, portanto, que possamos chegar na
fórmula dada em (8.16).
O termo de erro tem expectativa nula quando condicionado às variáveis explicativas. Isto
é o mesmo que dizer que xj , j = 1, ..., k, e u são independentes, ou seja, as variáveis que
ajudam a explicar y, presentes no termo de erro u, não podem ter correlação com x.
Para estudarmos a variância dos estimadores, novamente nossa abordagem será parecida
com o caso do modelo de regressão linear simples. Acrescentaremos uma hipótese sobre a
variância do erro que permitirá que a fórmula da variância se torne mais simples.
5. Homocedasticidade.
O erro u tem a mesma variância, dado qualquer valor amostral da variável explicativa.
Noutras palavras,
V ar(u|x1 , ..., xk ) = σ 2 .
σ2 σ2
V ar(βˆj ) = Pn 2
= , ∀j ∈ {1, ..., k}. (8.19)
2
i=1 (xij − x̄j ) (1 − Rj ) SQTj (1 − Rj2 )
Observação 8.11 Note que Rj2 próximo de 1 indica que a variável xj é fortemente explicada pelas
demais variáveis explicativas. Logo, aumentos em Rj2 acaba por aumentar a variância do estimador
β̂j . Ou seja, variáveis explicativas “redundantes" prejudicam a precisão dos coeficientes estimados
para estas variáveis.
Estimando a variância
Note que a variância do erro σ 2 , componente da variância dos estimadores β̂j , é um parâ-
metro da população e, portanto, não conhecemos. Devemos então ser capazes de estimá-lo.
Assim como fizemos anteriormente, estimaremos utilizando os nossos resíduos descontados
pela quantidade de graus de liberdade de nossa regressão, que no caso da regressão linear múl-
tipla é dado por n − k − 1. Assim, um estimador não viesado para σ 2 é dado por:
Pn
2
û2j
i=1 SQR
σ̂ = = .
(n − k − 1) (n − k − 1)
8.6.3 Eficiência
Enunciaremos o Teorema de Gauss-Markov.
8.7 Consistência
Até agora, estudamos regressão linear (simples e múltipla) para o caso de amostras finitas.
Vimos que a ausência de viés sobre as hipóteses de Gauss-Markov não depende do tamanho da
amostra. Quando estudamos as propriedades assintóticas de estimadores, isto é, propriedades
para o caso em que o tamanho da amostra pode ser arbitrariamente grande, estamos interessa-
dos em garantir que eles são consistentes. Se um estimador β̂j é consistente, sua distribuição
torna-se cada vez mais próxima do parâmetro populacional βj conforme n aumenta.
Sob quais hipóteses um estimador é consistente? As hipóteses de Gauss-Markov são mais
do que suficientes para garantir a consistência de um estimador. De fato, podemos relaxar a
hipótese 4 que estabelece independência entre o termo de erro u da regressão e os regressores
xj : E(u|x1 , ..., xk ) = 0. Para a consistência, no entanto, não precisamos assumir uma hipótese
tão forte quanto a independência entre tais elementos. Para ilustrar esta ideia, estudemos o
caso de regressão linear, onde queremos estimar o modelo y = β0 + β1 xi1 + u. Vimos que o
estimador β̂1 pode ser escrito como em (8.9):
Pn
n−1 ni=1 (xi1 − x̄)ui
P
i=1 (xi1 − x̄)ui
β̂1 = β1 + Pn = β1 + −1 Pn .
i=1 xi1 (xi1 − x̄) n i=1 xi1 (xi1 − x̄)
Pela lei dos grandes números, n grande garante que os termos do numerador e do denominador
(no segundo termo do lado direito) convergem, respectivamente, para Cov(x1 , u) e V ar(x1 ).
Isto é,
Cov(x1 , u)
plim(β̂1 ) = β1 + . (8.20)
V ar(x1 )
Assim, para garantir consistência dos estimadores podemos modificar nossa hipótese 4 do
modelo de regressão linear e supor que Cov(xj , u) = 0, para todo j ∈ {1, ..., k}, uma hipótese
mais fraca.
Observação 8.13 Note que uma hipótese que estamos fazendo desde o inicío de nossos estudos em
regressão linear é que E(u) = 0. Como Cov(xj , u) = E(xj u) − E(xj )E(u), a hipótese 4 acima
pode ser anunciada como: E(u) = 0 e E(xj u) = 0, para j = 1, ..., k.
plim(β̂1 ) = β1 ,
ou seja, o estimador β̂1 é consistente. De fato, pode ser demonstrado que esta propriedade vale
para qualquer estimador β̂j , j = 1, ..., k, num modelo de regressão múltipla.
y = β0 + β1 x1 + β2 x2 + u, (8.21)
com β2 ̸= 0, e que a estimação deste modelo seja feita pela equação ỹ = β̃0 + β̃1 x1 . Ou seja,
estamos omitindo uma variável importante na explicação de y, de modo que a regressão correta
deveria ser dada por
Isto nos permite concluir que o viés de do estimador da regressão simples β̃1 é dado por
Este é o chamado viés de variável omitida: deixamos de incluir variáveis relevantes na ex-
plicação de y que estão correlacionados com alguma das variáveis explicativas contidas na re-
gressão. Observe que o viés de variável omitida existe por ferir a hipótese de média condicional
nula: E(u|x1 , ..., xk ) = 0. Ainda, por (8.23) podemos ver que o sinal do viés depende dos sinais
de β2 e δ̃1 : caso ambos tenham o mesmo sinal, o viés terá sinal positivo; caso ambos tenham sinal
diferente, o viés será negativo.
Observação 8.14 Omissão de uma variável relevante potencialmente causa viés em todos os coefici-
entes estimados.
σ2 σ2
V ar(β̃1 ) = > V ar( β̂1 ) = ,
SST1 (1 − R12 ) SST1
em que SST1 = ni=1 (x1 − x̄)2 . Ou seja, β̂1 , o estimador de x1 da regressão que não adiciona
P
variável irrelevante à regressão, é mais eficiente que β̃1 , o estimador de x1 da regressão que
adiciona variável irrelevante à regressão.
y = β0 + β1 x1 + ... + βk xk . (8.24)
Neste caso, a interpretação dos estimadores betas é a mais comum: uma variação de ∆xj ,
para j = 1, ..., k, mantendo tudo o mais constante, causa uma variação em y de β̂1 ∆xj .
Mas e se mudarmos as formas funcionais das variáveis explicadas e explicativas? O que
mudaria na regressão? Começaremos avaliando o caso em que multiplicamos ou a variável ex-
plicativa ou a explicada por uma constante e vemos como a equação acima se modifica. Depois,
enunciaremos a interpretação que devemos ter quando a variável explicada ou explicativa estão
na forma funcional de logaritmos. Por questões de simplicidade, estudaremos o caso da equa-
ção (8.24) quando k = 1, isto é, o caso de regressão linear simples. Tais resultados podem ser
expandidos para o caso geral.
Vimos que as estimações dos betas em (8.24) quando k = 1 eram dadas por
Cov(x, y)
β̂1 = e β̂0 = ȳ − β̂1 x̄.
V ar(x)
Ou seja, multiplicar a variável explicada por uma constante qualquer faz com que os estima-
dores dos betas sejam também multiplicados por esta mesma constante.
Cov(cx, y) cCov(x, y) 1 1
β̂1′ = = 2 = β̂1 e β̂0′ = ȳ − β̂1 cx
¯ = β̂0
V ar(cx) c V ar(x) c c
Ou seja, multiplicar a variável explicativa por uma constante qualquer faz com que os o
estimador β̂1 seja multiplicado pelo inverso da constante, enquanto que o estimador β̂0 fique
inalterado.
Formas funcionais
Como vimos, a interpretação deste caso é a mais comum. Dizemos que uma variação
qualquer em x1i causa uma variação em yi exatamente na magnitude de β̂1 . Ou seja,
∆y = β1 ∆x1 .
Nesta caso, dizemos que uma variação percentual de x1i causa uma variação em y na
magnitude de 100
β̂1
. Ou seja,
β̂1
∆y = (∆x1 %).
100
Neste modelo temos que uma variação em na variável explicativa x1i causa um aumento
percentual na variável explicada y na magnitude de 100 × β1 .
Neste caso, a variação percentual da variável explicativa causa uma variação percentual na
variável explicada na magnitude de β̂1 :
yi = β1 xi + ui
Portanto,
Pn
xi yi
β̂1 = Pi=1
n 2
.
i=1 xi
Pn
x E(u |x)
E(β̂1 |x) = β1 + Pni 2 i .
i=1
i=1 xi
Portanto, admitindo nossa velha hipótese E(u|x) = 0, temos que β̂1 para uma regressão
pela origem é não viesado.
Note, no entanto, que caso o modelo populacional admita um intercepto e cometemos o
erro de estimar o modelo sem levar isto em conta, ou seja, estimamos um modelo de regressão
pela origem, então teríamos o seguinte: ni=1 xi yi = ni=1 xi (β0 + β1 xi + ui ). Portanto,
P P
Pn Pn Pn
i=1 xi i=1 x1i E(ui |x) xi
E(β̂1 |x) = β0 Pn 2 + β1 + Pn 2 = β0 Pni=1 2 + β1 ,
i=1 xi i=1 xi i=1 xi
8.11 Inferência
Neste capítulo, foi estudado as hipóteses que garantiam o não viés dos estimadores de uma
regressão linear, as hipóteses que garantiam a consistência destes e, por fim, as hipóteses que
garantiam a derivação de uma fórmula simples para a variância de tais estimadores. Agora,
precisamos fazer uma última hipótese: a da normalidade do erro.
6. Normalidade do erro.
Observação 8.15 As hipóteses 1-6 (isto é, as hipóteses de Gauss-Markov mais a hipótese da norma-
lidade do erro) são conhecidas como hipóteses do modelo linear clássico.
Observação 8.16 Sob as hipóteses do modelo linear clássico, a variável explicada y condicional às
variáveis explicativas xi seguem uma distribuição normal com média β0 + ... + βk xk e variância σ 2 .
Em notação,
y|x ∼ N (β0 + ... + βk xk , σ 2 ).
Teorema 8.17 (Distribuição Amostral Normal) Sob as hipóteses do modelo linear clássico, condi-
cional aos valores amostrais das variáveis independentes, temos que
em que a variância do estimador é aquela dada em 8.10. Ademais, pode-se padronizar a variável ale-
atória, isto é,
(β̂j − βj )
∼ N (0, 1).
dp(β̂j )
Com as hipóteses e resultados anteriores, podemos realizar testes para os parâmetros po-
pulacionais.
8.11.1 Teste T
O teste t serve para fazer testes sobre um único parâmetro populacional. Sob as hipóteses
do modelo linear clássico, pode-se enunciar um resultado importante para a realização do teste
t.
(β̂j − βj )
∼ tn−k−1 .
ep(β̂j )
Note, pela expressão acima, que agora estamos usando no denominador o erro padrão e
não mais a desvio padrão. De fato, este será o caso mais comum, visto que não sabemos nor-
malmente a variância de β̂j , de modo que precisamos estimá-la.
Com estes resultados, dada uma regressão, poderemos realizar os testes sobre os valores
populacionais βj . Para isso, o procedimento já conhecido e usado no capítulo 7 nos será muito
útil. Em geral, ele consiste primeiramente em calcular a estatística t, dada por
(β̂j − βjH0 )
t= ,
ep(β̂j )
em que βjH0 denota o valor de βj sob a hipótese nula do teste que estamos fazendo. Normal-
mente a hipótese nula que estamos testando é se o valor de βj é nulo, isto é H0 : βj = 0.
Assim, a estatística t torna-se
β̂j
t= .
ep(β̂j )
Depois, o teste de hipótese é realizado da forma como foi explicado no capítulo 7, com as
regras de rejeição e não rejeição da hipótese nula seguindo a mesma lógica.
8.11.2 Teste F
Ao invés de testar o valor de um único parâmetro populacional βj , pode ser que queiramos
testar restrições lineares múltiplas, isto é, testar se diversos coeficientes são conjuntamente
significativos. Como exemplo, poderíamos querer saber se é o caso de a seguinte hipótese nula
ser verdadeira:
H0 : β3 = β4 = β5 = 0,
SQRr −SQRir
q SQRr − SQRir n − k − 1
F = SQRir
= ,
n−k−1
SQRir q
em que SQRr e SQRir é a soma dos quadrados dos resíduos do modelo restrito e irrestrito,
respectivamente.
Uma segunda forma de escrever a estatística F igualmente válida é usando o coeficiente de
ajuste R2 :
2 −R2
Rir r 2
q Rir − Rr2 n − k − 1
2 = 2
.
1−Rir 1 − Rir q
n−k−1
Um caso especial o teste F é quando o utilizamos para testar a significância geral de uma
regressão. Neste caso, se temos uma regressão com k variáveis explicativas (q = k), nossa
hipótese nula resume-se a
H0 : β1 = ... = βk = 0
R2
k R2 n − k − 1
F = 1−R2
= ,
n−k−1
1 − R2 k
homem e x3 , ..., xk as demais variáveis explicativas. Suponha, então, que estimamos o modelo
yi = β0 + β1 xm h
1i + β2 x2i + β3 x3i + ... + βk xki + u.
Lembremos que uma das hipóteses necessárias para a garantir do não viés dos estimadores
é que não tenhamos o problema de multicolinearidade perfeita. Note, no entanto, que qualquer
estimação deste modelo irá produzir tal problema. Para ver isso, basta notar que a matriz dos
coeficientes das variáveis explicativas será dada por
à í
1 xm h
11 x21 . . . xk1
1 xm h
12 x22 . . . xk2
X= .. .. .. .. . . (8.25)
. . . . ..
1 x1n xh2n
m
. . . xkn
Portanto, como xm 1j + x2j = 1, para qualquer j, então a primeira coluna será sempre uma
h
yi = β1 xm h
1i + β2 x2i + β3 x3i + ... + βk xki + u
yi = β0 + β1 xm
1i + β3 x3i + ... + βk xki + u.
Observação 8.19 Note, note entanto, que no modelo sem intercepto, pode haver o problema de viés
de variável omitida dos estimadores, caso o modelo populacional correto apresente o intercepto. Assim,
é mais comum que trabalhemos com o segundo modelo, incluindo o intercepto e excluindo uma das
variáveis dummy.
No caso do segundo modelo com a inclusão do intercepto e a exclusão de uma das variáveis
dummy (no caso, a exclusão de xh2i ), observe que
E(yi |xm
i = 1) = β̂0 + β̂1 + β̂3 x3i + ... + β̂k xki
E(yi |xm
i = 0) = β̂0 + β̂3 x3i + ... + β̂k xki .
ou seja, nosso estimador β̂1 nos dá precisamente o efeito sobre o salário y de ser mulher (em
comparação a ser homem).
Uma outra forma de variável dummy refere-se à classificação de parcela da amostra em ca-
tegorias. Poderíamos, por exemplo, diferenciar os salários entre os trabalhadores do setores de
3 representa-
serviços (S), indústria (I) e comércio (C), por exemplo. Desta forma, se xS1 , xI2 e xC
rem a classificação nos respectivos setores, podemos estudar a diferença salarial presente entre
estas áreas por uma das regressões:
y i = β 1 xC S I
1i + β2 x2i + β3 x3i + β4 x4i + ... + βk xki + u
y i = β 0 + β 1 xC S
1i + β2 x2i + β4 x4i + ... + βk xki + u.
Observação 8.20 Novamente é necessário fazer o alerta de que a estimação sem o parâmetro de
intercepto pode causar o viés dos estimadores caso o modelo populacional inclua o intercepto. Assim,
será mais comum que tratemos da estimação da última equação descrita acima, em que omitimos uma
das dummies (no caso, que categoriza o indivíduo no setor da indústria) e incluimos o intercepto.
A interpretação neste caso segue a mesma lógica que exploramos acima para o exemplo do
efeito de gênero sobre os salários: β1 e β2 , por exemplo, nos informa a diferença salarial dos
indivíduos dos setores de serviço em comparação com os indivíduos do setor da indústria.
y i = β 0 + β 1 xm m
1i + β2 x2i + β3 x1i x2i + u.
Observe que β1 continua dando o efeito da diferença salarial da mulher em relação ao ho-
mem e, agora, β2 nos dá o efeito que um ano a mais de escolaridade tem sobre o salário, en-
quanto que β0 novamente nos informa o salário de uma pessoa homem sem escolaridade. Ob-
serve, no entanto, que agora temos uma interação entre as variáveis xm
1 e x2 , dada pelo produto
entre ambas. Sendo assim, β3 está nos informando exatamente o quanto que um ano a mais
de escolaridade afeta o salário de uma mulher em relação ao mesmo ano de escolaridade a mais no
salário de um homem, que é o efeito que estávamos procurando.
8.13.1 Heterocedasticidade
Admitimos na hipótese 5 do modelo clássico de regressão linear que a variância do erro seria
constante, independentemente dos valores das observações xi da amostra. Assim, se o modelo
admite heterocedasticidade, então a variância do erro pode mudar conforme a observação, ou
seja, V ar(ui |x) = σi2 .
Como vimos anteriormente, a hipótese da homocedasticidade foi importante para escre-
vermos a variância dos estimadores de uma forma simplificada, algo que nos ajudou a estimar
tal variância e, como consequência, poder realizar testes de hipótese com estas estimativas.
Portanto, caso o modelo apresente heterocedasticidade, nossa expressão da variância, bem como sua
estimação, estará comprometida, afetando a eficiência dos estimadores e, ainda, a realização de testes
de hipótese.
8.13.3 Endogeneidade
Dizemos que o modelo é endógeno quando a hipótese 4 das hipóteses do modelo linear
clássico falha, isto é, quando existe correlação entre as variáveis explicativas e o termo de erro:
E(u|x) ̸= 0. As causas mais comuns da endogeneidade são (1) variáveis omitidas e (2) equa-
ções simultâneas.
Variáveis Omitidas
y = β0 + β1 x1 + β2 x2 + ε
y = α0 + α1 x1 + u.
Como x2 está agora incluído no termo de erro u, caso cov(x1 , x2 ) ̸= 0 então podemos dizer que
E(u|x1 ) ̸= 0, isto é, x1 é endógeno no modelo. Portanto, uma das hipóteses mais importantes
do modelo de regressão linear é violada.
Quais as consequências de estimarmos um modelo com variáveis explicativas endógenas?
Vimos que as quatro hipóteses primeiras do modelo de regressão linear clássico são importantes
para que os estimadores não possuam viés. Assim, estimar um modelo com variável endógena —
algo que viola, como dito, a hipótese 4 — pode fazer com que os estimadores sejam viesados.
Outra consequência é que não teremos mais a garantia de consistência dos estimadores, já
que 0 ̸= Cov(x, u) = E(ux) − E(u)E(x) = E(ux) (lembre-se, estamos sempre admitindo que
E(u) = 0).
Com o problema de endogeneidade, portanto, não teremos mais a garantia de que os es-
timadores MQO serão os melhores estimadores lineares não viesados (estimadores BLUE), de
modo que precisaremos pensar numa outra forma viável de estimar os parâmetros de nosso
interesse.
Quando temos o problema de endogeneidade, duas soluções são possíveis: (1) usar variá-
veis instrumentais (VI) ou (2) realizar a regressão pelo chamado Mínimos Quadrados de Dois
Estágios. Porque o Exame Anpec não cobra com tanta frequência a segunda alternativa de so-
lução, estudaremos nestas notas apenas a solução das variáveis instrumentais, de modo que
o leitor, caso queira saber mais sobre o segundo método, é convidado a conferir Wooldridge
(2016).
Assim, analisemos o caso de uso de uma variável instrumental, digamos z, na regressão
y = β0 + β1 x1 + u, (8.26)
em que x1 é uma variável endógena neste modelo. Dizemos que z é uma variável instrumen-
tal de x1 quando cov(z, x1 ) ̸= 0 (de preferência, esperamos que esta correlação seja a mais
alta possível) e que cov(z, u) = 0. Desta forma, podemos substituir x1 por z no modelo acima
para realizarmos a regressão. Note que é interessante que verifiquemos se cov(z, x1 ) ̸= 0 e se
cov(z, u) = 0. Infelizmente, testar esta igualdade não é possível, visto que o termo de erro do
z = π0 + π1 x + e,
cov(z, y)
β1 = .
cov(z, x)
Equações Simultâneas
Vimos que uma forma de causar viés e inconsistência nos estimadores é omitir variáveis
que são correlacionadas com outras variáveis explicativas da regressão. Uma outra causa deste
indesejável fenômeno é quando temos um sistema de equações simultâneas. Considere, por
exemplo, que temos as seguintes equações de oferta e demanda:
Demanda: Q =αP + γ1 X1 + e1
Oferta: P =βQ + γ2 X2 + e2 .
É comum que tais equações sejam referidas como as formas estruturais do modelo. Note que as
duas equações são “ligadas" pela presença comum das variáveis P e Q, de modo que a haverá
variáveis endógenas em cada um dos modelos e, portanto, a estimação por MQO de cada um
destes modelos acabará por nos fornecer estimadores viesados. Para observar este fato, note
que
temos que
de modo que P e Q são endógenas em cada um dos modelos estruturais. É por este motivo,
portanto, que a estimação por MQO do modelo descrito acaba por produzir, como dito, esti-
madores com viés de simultaneidade.
Uma outra forma de ver que P e Q são variáveis endógenas nos modelos estruturais acima,
é encontrando a forma reduzida destas equações, em que escrevemos P e Q em função apenas
das variáveis exógenas. Para encontrar a forma reduzida da demanda, por exemplo, basta usar
as equações de oferta e demanda acima de maneira a obtermos
Q = α(βQ + γ2 X2 + e2 ) + γ1 X2 + e1
Q(1 − αβ) = X2 (γ1 + αγ2 ) + (e1 + αe2 ).
γ1 + αγ2 e1 + αe2
Q = X2 + , desde que αβ ̸= 1.
1 − αβ 1 − αβ
Podemos ver que Q e e2 (a menos que α = 0) são relacionados, o que faz com que a equação
da oferta tenha Q como variável endógena. O mesmo raciocínio pode ser aplicado para a forma
reduzida da oferta.
Vimos que para resolver um problema de variável endógena, podemos usar variáveis instru-
mentais (VI). No entanto, para que usemos esta alternativa, devemos checar antes se o pro-
blema pode ser identificado. Neste sentido, tendo em mente o sistema acima de equações de
oferta e demanda, dizemos que a primeira equação (da demanda) está identificada se, e so-
mente se, a segunda equação (da oferta) contiver ao menos a mesma quantidade de variáveis
exógenas (com coeficiente não nulo) excluídas da primeira equação que a quantidade de variá-
veis endógenas presentes na primeira equação. Esta condição é chamada de condição de ordem
e ela é necessária e suficiente para que a equação da demanda no modelo de equações simul-
tâneas esteja identificada (o mesmo raciocínio vale para verificar se a segunda equação, a da
oferta, está identificada).
Podemos também estabelecer uma condição necessária para analisar se o sistema como
um todo pode ser identificado (este critério pode ser bem útil para sistemas com mais de duas
equações). Assim, dizemos que a condição de rank é atendida se temos no sistema de equa-
ções simultâneas ao menos o mesmo número de variáveis exógenas que o número de variáveis
endógenas totais. Caso esta condição não seja atendida, podemos de imediato concluir que
o sistema não é identificado (embora alguma equação deste sistema pode ser identificada de
modo “isolado").3
3
Este é um daqueles assuntos em que o leitor aprenderá mais na prática, olhando e fazendo os exercícios (que
podem ser conferidos abaixo) do que apenas lendo as considerações teóricas. Por isto, é altamente recomendado
a prática deste conteúdo.
Questão 04/2018
(1) y = β0 + β1 x + u.
30
X 30
X 30
X 30
X 30
X
xi = 30, yi = 120, x2i = 60, yi2 = 400 e xi yi = 180.
i=1 i=1 i=1 i=1 i=1
Com base nesses resultados, obtenha o estimador de Mínimos Quadrados Ordinários (MQO)
para β1 na equação (1).
Solução.
Demonstração. Basta utilizar (8.6) para ver que a resposta final é β̂1 = 02.
Questão 06/2017
(1) y = β0 + β1 x + u.
10
X 10
X 10
X 10
X
x̄ xi = 10, x̄ yi = 400, xi yi = 500 e x2i = 15.
i=1 i=1 i=1 i=1
Solução.
Demonstração. A equação (8.6) pode ser escrita como
Pn
yi (xi − x̄)
β̂1 = Pni=1 .
i=1 xi (xi − x̄)
Questão 01/2014
Neste exemplo, queremos prever o peso do indivíduo i usando somente sua altura,
Yi = β0 + β1 Xi + εi
Tabela 8.1
Estimando o modelo por Mínimos Quadrados Ordinários, calcule o valor da estimativa ob-
tida para β̂1 . Multiplique o resultado por 10.
Solução.
Demonstração. Utilizando as informações das duas últimas colunas na tabela acima e inserindo-
as na fórmula de β̂1 em (8.7) vemos facilmente que β̂1 = 4. Portanto, a resposta final é
10 × 4 = 40.
Questão 08/2015
Considere o modelo de regressão abaixo:
Solução.
(0) Falso.
Demonstração. Note que
Pn Pn
i=1 xi E[yi |x] xi (E[β0 + β1 xi + ui |x])
E[β̃1 |x] = Pn 2 = i=1 Pn 2
i=1 xi i=1 xi
Pn
xi (E[β0 |x] + β1 E[xi |x] + E[ui |x])
= i=1 Pn 2
i=1 xi
Pn Pn
xi (β0 + β1 xi ) xi
= i=1 P
n 2
= β0 Pni=1 2 + β1 ̸= β1 se β0 ≠ 0.
i=1 xi i=1 xi
(1) Verdadeiro.
Demonstração. Usando yi = β0 + β1 xi + ui na expressão de β̃1 , podemos ver que
Pn
n−1 ni=1 xi ui
P
i=1 xi u i
β̃1 = β1 + Pn 2 = −1 Pn 2 .
i=1 xi n i=1 xi
Então,
E(xi ui )
plim(β̃1 ) = β1 + .
E(x2i )
Como das informações do enunciado, E(ui |xi ) = 0 = E(u), então ui e xi são independentes.
Assim, E(ui xi ) = E(ui )E(xi ) = 0. Portanto, plim(β̃1 ) = β1 . Ou seja, β̃1 é um estimador
consistente de β1 .
(2) Falso.
Demonstração. Para que o estimador MQO seja consistente não fazemos hipótese nenhuma
sobre o valor de β0 .
(3) Verdadeiro.
Demonstração. Visto no texto.
(4) Falso.
Demonstração. Pela álgebra desenvolvida na resposta do item (0), temos que E[β̃1 ] > E[β̂1 ] =
β1 se e somente se β0 xi > 0, desigualdade que nada garante que será satisfeita.
P
Questão 15/2019
Considere o modelo de regressão:
Solução.
(0) Falso.
Demonstração. Visto no texto que tal estimador é não tendencioso.
(1) Verdadeiro.
Demonstração. Conforme mostrado no texto.
(2) Verdadeiro.
Demonstração. Note que este estimador é o mesmo da questão 08/2015. Vimos que quando
β0 , então o estimador será não-viesado. Como, do enunciado, queremos estimar a equação
yi = β1 xi + ui , então β0 = 0 e, portanto, o estimador é não-viesado.
(3) Verdadeiro.
Demonstração. Usando yi = β1 xi + ui na expressão de b∗1 , podemos ver que
Pn
n−1 ni=1 xi ui
P
i=1 xi u i
β̃1 = β1 + Pn 2 = −1 Pn 2 .
i=1 xi n i=1 xi
Então,
E(xi ui )
plim(β̃1 ) = β1 + .
E(x2i )
Como das informações do enunciado, E(ui |xi ) = 0 = E(u), então ui e xi são independentes.
Assim, E(ui xi ) = E(ui )E(xi ) = 0. Portanto, plim(β̃1 ) = β1 . Ou seja, b∗1 é um estimador
consistente para β1 .
(4) Falso.
Demonstração. Tendo em mente que agora yi = β1 + β1 xi e, portanto β0 = 0, podemos nova-
mente usar a álgebra desenvolvida na resposta do item (0) da questão 08/2015, substituindo
o denominador x2i por (xi − x̄)2 para chegar na expressão
P P
Pn
β1 ni=1 x2i
P
xi (β0 + β1 xi )
E[b∗∗
1 ]
i=1
= Pn 2
= Pn 2
̸= β1 .
i=1 (xi − x̄) i=1 (xi − x̄)
Questão 13/2011
Considere o seguinte modelo de regressão linear clássico em que as variáveis são expressas
como desvios em relação às respectivas médias:
yi = αxi + ui , i = 1, ..., n
Suponha, por simplicidade, que xi é um regressor escalar não estocástico. Propõe-se estimar
α através da razão entre as médias amostrais de yi e xi :
ȳ
ᾱ = .
x̄
Calcule a variância de ᾱ. Multiplique o resultado por 100. (Sabe-se que σ 2 = 100, n = 100
e i=1 xi /n = 5).
Pn
Solução.
Questão 13/2018
Considere o seguinte modelo de regressão linear múltipla:
Defina β̂0 , β̂1 e β̂2 como os estimadores de Mínimos Quadrados Ordinários (MQO) para
β0 , β1 e β2 respectivamente. Supondo que a equação acima tenha sido estimada pelo método
de MQO usando uma amostra com n observações, julgue as afirmativas:
Pn
(0) i=1 (yi − β̂0 − β̂1 x1i − β̂2 x2i ) = 0.
(1) Se zi = a0 + a1 x1i + a2 x2i , em que a0 , a1 e a2 são constantes, então: ni=1 zi (yi − β̂0 −
P
Solução.
(0) Verdadeiro.
Demonstração. Vimos no texto que uma das equações a ser satisfeita na condição de primeira
ordem é exatamente esta.
(1) Verdadeiro.
Demonstração. Note que o problema possui as condições de primeira ordem em (8.14) e em
(8.15) para k = 2. Multiplicando (8.14) por a0 , (8.15), para j = 1, por a1 , e (8.15), para j = 2,
por a2 e somando estes termos temos exatamente a expressão da afirmação do item.
(2) Falso.
Demonstração. Pela condição de primeira ordem, sempre ocorre que
n
X n
X
x2i (yi − β̂0 − β̂1 x1i − β̂2 x2i ) = x1i (yi − β̂0 − β̂1 x1i − β̂2 x2i ) = 0.
i=1 i=1
(3) Verdadeiro.
Demonstração. Nossa estimação para (1) é
(4) Verdadeiro.
Demonstração. Pela condição (8.14), devemos ter que ûi = 0. Das informações do item,
P
n
X n
X n
X n
X
ûi = (yi − ȳ) − β̂1 (x1i − x̄1 ) − β̂2 (x2i − x̄2 )
i=1 i=1 i=1 i=1
n n n n
! n n
!
X X X X X X
= yi − ȳ − β̂1 x1i − x̄1 − β̂2 x2i − x̄2
i=1 i=1 i=1 i=1 i=1 i=1
Questão 13/2020
Considere o modelo de regressão linear múltipla:
Suponha que se tenha à disposição uma amostra aleatória da população com n observações
para estimar esse modelo, sendo β̂0 , β̂1 e β̂2 os estimadores de Mínimos Quadrados Ordinários
(MQO) para β0 , β1 e β2 , respectivamente. Julgue as afirmativas abaixo:
(0) Se β̂1 > 0 e β̂2 < 0, então a correlação entre x1 e x2 na amostra deve ser negativa.
(1) Se a correlação entre x1 e x2 na amostraPé igual a zero, a variância de β̂1 condicionada
n
2 x1i
em x1 e x2 é igual a Pn (xσ1i −x )2 , em que x1 = i=1
n
.
i=1 1
σ2
(2) Se β̂2 = 0, a variância de β̂1 condicionada em x1 e x2 é igual a Pn 2, em que
Pn i=1 1i −x1 )
(x
x1i
x1 = i=1
n
.
(4) Definindo θ̂ = β̂1 +β̂2 , a variância de θ̂ condicionada em x1 e x2 é igual a V ar(β̂1 |x1 , x2 )+
V ar(β̂2 |x1 , x2 ).
Solução.
(0) Falso.
Demonstração. Nossa reta de regressão amostral ficaria y = β̂0 + β̂1 x1 + β̂2 x2 . Escrevendo x2
em termos de x1 :
y β̂0 β̂1
x2 = − − x1 .
β̂2 β̂2 β̂2
(1) Verdadeiro.
Demonstração. Se a correlação entre as variáveis x1 e x2 é nula, então o R-quadrado da regres-
são de x1 em relação a x2 também é nulo. Portanto, a fórmula (8.19) reduz-se a esta dada no
enunciado.
(2) Falso.
Demonstração. Nada nos garante que x1 e x2 não tenha correlação. Neste caso, a hipótese
4 do nosso modelo de regressão linear simples, em que E(u|x1 ) = 0, não estaria garantida.
Portanto, a fórmula da variância poderia não ser esta dada no enunciado.
(4) Falso.
Demonstração. Lembrando dos conceitos mais básicos de estatística, se X e Y são duas va-
riáveis aleatórias, então
Como não temos nenhuma garantia de que Cov(β̂1 , β̂2 ) = 0, tomando X = β̂1 e Y = β̂2 ,
então podemos ver que a afirmação do item é falsa.
Questão 12/2012
Considere o seguinte modelo de regressão:
yi = β0 + β1 x1i + εi
Em que β0 e β1 são parâmentros estimados pelo método dos mínimos quadrados ordinários e
εi representa o erro do modelo.
(0) A hipótese de que E[y|x1 ] = 0 assegura que a soma dos resíduos da regressão é igual a
zero.
(1) Nesse modelo, a soma dos quadrados total é igual a soma dos quadrados explicada mais
a soma dos quadrados dos resíduos da regressão.
(3) Neste modelo, a covariância amostral entre os valores preditos pela regressão, ŷi , e os
resíduos da regressão é sempre igual a zero.
Solução.
(0) Falso.
Demonstração. O fato de que a soma dos resíduos da regressão é nula vem da condição de
primeira ordem no problema de minimização da soma dos resíduos e não de que E[y|x1 ] = 0.
(1) Verdadeiro.
Demonstração. Conforme visto no texto.
(3) Verdadeiro.
Demonstração.
n
X n
X n
X
Cov(ŷi , ûi ) = Cov(β0 + β1 x1i , ûi ) = (β0 + β1 x1i )ûi = β0 ûi + β1 x1i ûi = 0,
i=1 i=1 i=1
onde a última igualdade segue-se das condições de primeira ordem do problema de minimização
dos resíduos ao quadrado.
Questão 15/2013
Usando uma base de dados que contém informação sobre 437 firmas, estimamos uma fun-
ção de produção Cobb-Douglas:
R2 = 0, 91
Em que Ŷi denota o produto (em logaritmo), Li representa o insumo trabalho (em logaritmo)
e Ki , o insumo capital (em logaritmo).
Solução.
(1) Falso.
Demonstração. Um aumento numa unidade de trabalho causa um aumento no produto de
0, 64%.
(4) Falso.
Demonstração. Sabemos que R2 não será menor, mas não sabemos se ele será necessaria-
mente maior.
Questão 10/2019
Considere o seguinte modelo de regressão linear simples: y = β0 + β1 x + u.
32
X 32
X 32
X
2 2
ȳ = 30, x̄ = 10, (yi − ȳ) = 90, (xi − x̄) = 60, (yi − ȳ)(xi − x̄) = 30.
i=1 i=1 i=1
A partir dessas informações, obtenha a Soma dos Quadrados dos Resíduos (SQR) correspon-
dente aos estimadores de MQO para esse modelo.
Solução.
Demonstração. Sabemos que SQR = SQT − SQE =
P32 P32
i=1 (yi − ȳ) − i=1 (ŷi − ȳi ) =
i=1 (ŷi − ȳi ). Note que ȳ = β̂0 − β̂1 x̄. Então,
90 − 32
P
32
X 32
X 32
X
2 2
SQE = (ŷi − ȳi ) = (β̂0 + β̂1 x − β̂0 − β̂1 x̄) = β̂12 (x − x̄)2 = 60β̂12 .
i=1 i=1 i=1
De (8.7) vemos que β̂1 = 30/60 = 1/2. Portanto, SQE = 60(1/2)2 = 15. Finalmente, temosq
que SQR = 90 − 15 = 75.
Questão 05/2017
Considere o modelo de regressão linear:
(0) A hipótese E(ui |x1i , x2i ) não é necessária para que o estimador de Mínimos Quadrados
Ordinários (MQO) de β1 seja consistente.
(2) Se V ar(ui |x1i , x2i ) = x1i σ 2 , o estimador de MQO de β1 é tendencioso.
(3) Se a correlação entre x1i e x2i é igual a 0,95, o estimador de MQO de β1 não é eficiente.
Solução.
(0) Verdadeiro.
Demonstração. Conforme vimos no texto, ela é suficiente mas não necessária.
(2) Falso.
(3) Falso.
Demonstração. Para que não tenhamos a garantia do não-viés de um estimador MQO qualquer,
uma das hipóteses de 1 a 4 (enunciadas no texto) deve ser violada. Mas se a correlação entre
duas variáveis explicativas é diferente de 1, então elas não são perfeitamente correlacionadas e,
portanto, a hipótese de multicolineariedade perfeita não é violada. Então, não podemos fazer a
afirmação do item.
Questão 12/2018
Considere a estimativa da função linear y = β0 +β1 x1 +β2 x2 +u, cujos parâmetros tenham
sido estimados pelo Método dos Mínimos Quadrados Ordinários. Julgue as afirmativas:
Solução.
(0) Falso.
Demonstração. Se E(u|x2 ) ̸= 0, então a hipótese 4 do modelo de regressão múltipla não é
satisfeita. Assim, não teremos a garantir de os estimadores serem não viesados.
(1) Falso.
Demonstração. Lembremos que R2 é uma medida de o quanto as variáveis explicativas expli-
cam a variável explicada. Se esta medida é nula, então x1 e x2 não explica nada de y, o que faz
com que y não possa ser escrito como combinação linear de xi .
(2) Falso.
Demonstração. Se x2 é relevante e correlacionada com x1 , ao ser tirado da regressão teremos
que E(ε|x1 ) ̸= 0 se ε é o termo de erro da regressão sem x2 . Portanto, não teremos nenhuma
garantia de que os estimadores dos parâmetros serão não viesados.
(4) Falso.
Questão 05/2011
yi = β1 + β2 xi + ui , i = 1, ..., n
e
Pn
(x − x̄)(yi − ȳ)
Pn i
β̂2 = i=1 2
i=1 (xi − x̄)
Solução.
(0) Falso.
Demonstração. Note que
Pn
β1 ni=1 xi
P Pn
i=1 x1 (β1 + β2 xi + ui ) xi u i
b2 = Pn 2 = Pn 2 + β2 + Pi=1
n 2
.
i=1 xi i=1 xi i=1 xi
Então,
β1 ni=1 xi
Pn
β1 ni=1 xi
P P
i=1 xi E(ui )
E(b2 ) = β2 + Pn 2 + Pn 2 = β2 + Pn 2 .
i=1 xi i=1 xi i=1 xi
β1 n
P
x
Portanto, o estimador b2 é viesado e seu viés é dado por Pn i=1 2 i .
i=1 xi
(1) Falso.
Demonstração. Conforme vimos no texto, β̂2 é um estimador não viesado independente de
β1 = 0.
(3) Verdadeiro.
Pn
β x
Demonstração. Vimos na resposta do item (0) que o viés do estimador b2 é dado por P
1
n 2 .
i=1 i
i=1 xi
Portanto, se x̄ = 0 então i=1 xi = 0 para n ̸= 0. Desta forma, o viés vai para zero e b2
Pn
(4) Falso.
Demonstração. O viés de b2 , conforme mostrado nos itens anteriores, não depende de ȳ.
Questão 08/2010
Considere as seguintes afirmações referentes ao modelo de regressão linear clássico com
regressores estocásticos:
Solução.
(3) Falso.
Demonstração. O estimador de mínimos quadrados ordinários de β1 somente será inconsis-
tente se as variáveis explicativas x1 e x2 tiverem correlação entre si. Nada no enunciado nos
garante isso.
Questão 02/2019
Julgue como verdadeiras ou falsas as afirmativas que se seguem:
(0) Na presença de heterocedasticidade dos erros de um modelo de regressão linear, os
estimadores de mínimos quadrados ordinários são inconsistentes.
(3) A omissão de uma variável relevante implica que os estimadores dos parâmetros de um
modelo de regressão linear serão viesados.
Solução.
(0) Falso.
Demonstração. Conforme vimos no texto, a consistência dos estimadores de mínimos quadra-
dos ordinários não possuem relação com a hipótese de homocedasticidade.
(3) Falso.
Demonstração. A omissão de uma variável relevante pode implicar que os estimadores dos
parâmetros de um modelo de regressão linear sejam viesados. Precisaríamos, para isto, que a
variável omitida tenha correlação com alguma das variáveis explicativas deixadas no modelo.
Questão 11/2020
Julgue as seguintes afirmativas como verdadeiras ou falsas:
(0) Num modelo de regressão linear múltipla, duas variáveis independentes apresentam
correlação, então os estimadores de Mínimos Quadrados dos parâmetros deste modelo serão
inconsistentes.
Solução.
(0) Falso.
Demonstração. Para consistência não podemos ter que o termo de erro tenha correlação com
uma das variáveis explicativas e não as explicativas entre si.
Questão 11/2012
Suponha que um pesquisador esteja interessado em investigar os determinantes da de-
linquência juvenil e tenha acesso aos seguintes dados provenientes de 100 cidades de um dado
país: A, o número de internações por 1000 adolescentes; P, o número de residências por 1000
domicílios na cidade com renda abaixo da linha da pobreza; S, o número de residências por 1000
domicílios na cidade com apenas um dos pais. O pesquisador estima a seguinte regressão:
A = β1 + β2 P + β3 S + u
em que u é um termo de erro que satisfaz todas as hipóteses usuais do modelo de regressão.
A correlação populacional entre P e S é 0,96.
Solução.
(1) Falso.
Demonstração. Multicolineariedade não perfeita não causa nenhum problema tanto para o viés
dos estimadores quanto para a consistência. Multicolineariedade perfeita causaria problema
para ambos.
Questão 14/2014
Considere o modelo de regressão linear simples
Yi = β0 + β1 Xi + εi ,
no qual (Yi , Xi )N
i=1 é uma amostra aleatória, Cov(εi , Xi ) ̸= 0, V ar[Xi ] > 0, E[Xi ] < ∞,
4
0 < E[u4i ] < ∞. Temos um vetor de variáveis aleatórias Zi com dimensão r × 1, com r ≥ 1,
tal que Cov(εi , Zi ) = 0. Além disso, V ar[εi |Zi ] = σ 2 .
(0) O estimador de Mínimos Quadrados Ordinários para β1 será consistente, mas inefici-
ente;
Solução.
(0) Falso.
Questão 10/2008
Julgue as afirmativas:
(3) A omissão de uma variável relevante em um modelo de regressão linear pode gerar au-
tocorrelação nos erros.
Solução.
(3) Verdadeiro.
Demonstração. Exatamente o que vimos no texto.
Questão 12/2021
Considere verdadeiro o modelo de regressão populacional yi = 5 + 10x1i + 1, 5x2i + εi e
considere que as suposições clássicas de Gauss-Markov sejam satisfeitas. No entanto, o modelo
yi = θ0 + θ1 x1i + ui foi estimado por Mínimos Quadrados Ordinários. A covariância entre x1 e
x2 é igual a 50, a variância de x1 é igual a 30 e a variância de x2 é igual a 15. Qual é o viés do
estimador θ̂1 ? Multiplique o resultado por 10 e marque a parte inteira.
Solução.
Demonstração. Primeiramente, temos que encontrar o valor do coeficiente de inclinação de
uma regressão linear simples de x2i contra x1i , isto é, devemos encontrar o valor de δ̂1 da re-
gressão x̂2i = δ̂0 + x̂1i δ̂1 . Sabemos que tal valor é
35 5
θ̂1 = β2 · δ̃1 = = .
23 2
Questão 12/2020
Suponha que um pesquisador tenha estimado os três modelos abaixo pelo método de Mí-
nimos Quadrados Ordinários (MQO), usando uma mesma amostra aleatória da população de
tamanho n:
(A) yi = β0 + β1 xi + ui
(B) yi∗ = β0∗ + β1∗ x∗i + u∗i
(C) yi∗∗ = β0 ∗∗ + β1 ∗∗xi ∗∗ + ui ∗∗
em que yi∗ = (yi + a), x∗i (xi + d), yi∗∗ = (ayi ) e x∗∗
i = (dxi ). Suponha também que a e d são
constantese e que a ̸= 0 e d ̸= 0.
Defina β̂0 e β̂1 como os estimadores MQO para os parâmetros β0 e β1 , respectivamente; β̂0∗ e
β̂1∗ como os estimadores MQO para os parâmetros β0∗ e β1∗ , respectivamente; e, finalmente, β̂0∗∗
e β̂1∗∗ como os estimadores MQO para os parâmetros β0∗∗ e β1∗∗ . São corretas as afirmativas:
(0) β̂1 = β̂1∗ .
(1) β̂0 = β̂0∗ .
(2) β̂1 = dβ̂1∗∗ .
(3) β̂0 = (1/a)β̂0∗∗
(4) Definindo ŷi∗∗ = β̂0∗∗ + β̂1∗∗ x∗∗
i e ŷi = β̂0 + β̂1 xi , temos ŷi = ŷi para todo i = 1, ..., n.
∗∗
Solução.
(0) Verdadeiro.
Demonstração.
(1) Falso.
Demonstração.
β̂0∗ = y¯∗ − β̂1∗ x¯∗ = ȳ + a − β̂1 (x̄ + d) = ȳ − β̂1 x̄ + (a − β̂1 d) = β̂0 + (a − β̂1 d) ̸= β̂0 .
(2) Falso.
Demonstração.
(3) Verdadeiro.
Demonstração.
a
β̂0∗∗ = y¯∗∗ − β̂1∗∗ x¯∗∗ = aȳ − β̂1 (dx) = a(ȳ − β̂1 x̄) = aβ̂0 .
d
(4) Falso.
Demonstração.
a
ŷi∗∗ = aβ̂0 + β̂1 (dxi ) = a(β̂0 + β̂1 xi ) = aŷi ̸= ŷi , ∀i = 1, ..., n.
d
Questão 04/2013
Um pesquisador tem dados de 50 países das seguintes variáveis: N , número médio de jor-
nais comprados durante um ano; Y , PIB per capita medido em dólares. Ele roda a seguinte
regressão (desvios padrões entre parênteses, RSS = soma dos quadrados dos resíduos, F =
estatística F para a equação, R2 = coeficiente de determinação):
Suponha que você rode a mesma regressão com Y medido em reais. Assuma, por simplicidade,
que a taxa de câmbio seja dois reais por dólar.
É correto afirmar que:
(0) A estimativa do coeficiente de Y permanecerá inalterada.
(1) A estimativa do intercepto permanecerá inalterada.
(2) RSS permanecerá inalterado.
(3) A estimativa do desvio padrão do coeficiente de Y permanecerá inalterada.
Solução.
(0) Falso.
Demonstração. Rodar a regressão com Y medido em reais é o mesmo que multiplicar a variável
explicativa por 2. Vimos no texto que, neste caso, a estimativa para o beta desta regressão em
reais será o beta da regressão original multiplicado por 1/2.
(1) Verdadeiro.
Demonstração. Denote por β̂0∗ a estimativa do intercepto na regressão em que o Y é medido
em reais. Então,
β̂1 ∗ β̂1
β̂0∗ = y¯∗ − x¯ = ȳ − 2x̄ = β̂0 ≡ 25, 0,
2 2
(2) Verdadeiro.
Demonstração. Se denotarmos com asterisco as variáveis relevantes nesta nova regressão com
a variável explicativa em reais, temos:
n n n
2
X X X
∗ ∗ ∗ ∗ ∗ 2
RSS = uˆ∗ = (N̂i − β̂0 − β̂1 Ŷ ) = (N̂i∗ − β̂0 − (1/2)β̂1 2Ŷ )2
i=1 i=1 i=1
n
X n
X
= (N̂i − β̂0 − β̂1 Ŷ )2 = û2 = RSS.
i=1 i=1
(3) Falso.
Demonstração. Denote com um asterisco os componentes da regressão em reais. Chamamos
a estimativa do desvio padrão do coeficiente de Y ∗ de erro padrão e denotamos por ep(β̂1∗ ), em
que β̂1∗ é a estimativa do coeficiente de Y ∗ . Então,
q Pn 2
» i=1 ûi
n−2
ep(β̂1∗ ) = V ˆar(β̂1∗ ) = »P .
n ∗ ¯∗ 2
i=1 (Yi − Y )
Vimos no item anterior que a soma do quadrado dos resíduos não irá ser alterada e, portanto,
o numerador da fração do erro padrão também ficará inalterado. Chequemos, agora, o denomi-
nador. Note que Y¯∗ = 2Ȳ e Yi∗ = 2Yi . Então,
à à à Ã
Xn Xn Xn Xn
(Yi∗ − Y¯∗ )2 = (2Yi − 2Ȳ )2 = 2 (Yi − Ȳ )2 =
̸ (Yi − Ȳ )2 .
i=1 i=1 i=1 i=1
Portanto, como o denominador do erro padrão será diferente para a regressão em reais, temos
que o erro padrão também será.
Questão 14/2020
Considere o seguinte modelo de regressão linear simples:
(1) yi = β0 + β1 xi + ui , i = 1, ..., n.
Para esse modelo, suponha E(ui |xi ) = 0 e E(u2i |xi ) = σ 2 .
Considere também o modelo abaixo, construído a partir das mesmas variáveis x e y do
modelo (1), mas que não tem intercepto:
(2) yi = b1 xi + ei , i = 1, ..., n.
Suponha que, usando uma mesma amostra aleatória da população de tamanho n, essas
duas equações tenham sido estimadas pelo método de Mínimos Quadrados Ordinários (MQO).
Definindo β̂1 como o estimador de MQO para o parâmetro β1 na equação (1), b̂1 como o esti-
mador de MQO para b1 na equação (2), x = n1 ni=1 xi e y = n1 ni=1 yi , é correto afirmar:
P P
Pn
i=1 yi (xi −x)
(0) β̂1 = Pn
Pn xi (xi −x)
i=1
(y −y)(xi −x)
(1) b̂1 = Pn i
i=1
2
i=1 (xi −x)
Solução.
(0) Verdadeiro.
Demonstração. Visto no texto.
(1) Falso.
Demonstração.
Pn
xi y i
b̂1 = Pi=1
n 2
.
i=1 xi
(2) Falso.
Demonstração. Visto no texto.
(3) Verdadeiro.
Demonstração. Note que
P P
xi (b1 xi + ei ) xi e i
b̂1 = P 2 = b1 + P 2 .
xi xi
Então,
ã P 2
σ2
ÅP
xi ei xi V ar(ei )
V ar(b̂1 |xi ) = V ar P 2 | xi = P 2 = .
x2i
P
xi ( x2i )
(4) Verdadeiro.
Demonstração. Note que
P P
(xi − x)(β0 + β1 xi + ui ) (xi − x)ei
β̂1 = P = β1 + P .
(xi − x)2 (xi − x)2
Então,
σ2
ÅP
(xi − x)ei
ã
V ar(β̂1 |xi ) = V ar P | x i = P .
(xi − x)2 (xi − x)2
Usando o valor de V ar(b̂1 |xi ) dado na solução do item anterior, temos que: se x = 0, então
V ar(β̂1 |xi ) = V ar(b̂1 |xi ). Caso x ̸= 0, note primeiramente que
n
X n
X n
X n
X
2
(xi − x) = (x2i − 2xi x + x ) = 2
x2i − 2x xi + nx2
i=1 i=1 i=1 i=1
Xn n
X n
X n
X n
X
x2i −x xi − x xi + nx = 2
x2i −x xi − x(nx − nx)
i=1 i=1 i=1 i=1 i=1
Xn Xn n
X n
X
x2i −x xi = x2i − nx2 < x2i .
i=1 i=1 i=1 i=1
Portanto, V ar(β̂1 |xi ) < V ar(b̂1 |xi ) caso x ̸= 0. Concluímos, finalmente, que V ar(β̂1 |xi ) ≤
V ar(b̂1 |xi ), para qualquer x ∈ R.
Questão 15/2010
Considere o seguinte modelo de equações simultâneas:
qd = α1 p + α2 z + α3 y + ε1 (demanda),
qs = β1 p + ε2 (oferta),
qd = qd = q (equilíbrio).
com
Solução.
(0) Verdadeiro.
Demonstração. Em equilíbrio, podemos escrever a equação da oferta como q/β1 − ε2 /β1 = p.
Portanto, temos um sistema de equações simultâneas com p e q se variáveis endógenas e y e
z de variáveis exógenas. Assim, os estimadores MQO de ambas as equações estruturais serão
viesados e não consistentes.
(1) Falso.
Demonstração. É justamente o contrário: a equação de oferta é a que satisfaz a condição de
ordem, enquanto que a equação da demanda não. Para ver isso, note que a oferta possui uma
variável endógena mas a equação da demanda possui duas variáveis exógenas que não estão
na da oferta. Ainda, não há variáveis exógenas excluídas da demanda que poderiam servir como
variáveis instrumentais.
(2) Verdadeiro.
Demonstração. Como dito no item (1) anterior, a equação da demanda possui duas variáveis
exógenas que podem ser usadas para identificar a oferta, enquanto que a equação da oferta
possui apenas uma endógena, evidenciando que ela é sobreidentificada. Já a equação da de-
manda possui uma variável endógena mas não existe variável exógena excluída da demanda no
sistema que pode ser usada para identificar a demanda, isto é, ela é subindentificada.
(3) Verdadeiro.
Demonstração. y não ser observado significa que α3 = 0. Quando temos apenas uma variável
instrumental para realizar a regressão, então o estimador de MQ2E será o mesmo do estimador
de variáveis instrumentais.
(4) Falso.
Demonstração. Mesmo neste caso, a equação de demanda continua claramente subidentifi-
cada pelos mesmos motivos destacados anteriormente.
Questão 02/2011
Considere o seguinte modelo de equações simultâneas:
y1 = θ1 z + u1 (1)
y2 = β1 y1 + β2 z + u2 (2)
em que
E[u1 ] = E[u2 ] = 0
E[u21 ] = σ12 , E[u22 ] = σ22 , E[u1 u2 ] = σ12 ̸= 0
E[u1 z] = E[u2 z] = 0.
Solução.
(0) Verdadeiro.
Demonstração. Das informações do enunciado, z é a única variável exógena do sistema de
equações simultâneas, enquanto que y1 e y2 são endógenas. Note que na primeira equação
não há variáveis explicativas endógenas e, portanto, a estimação de θ1 , desde que satisfeitas as
hipóteses usuais, sobretudo E[u1 z] = 0, será consistente.
(1) Falso.
Demonstração. Note que cov(y1 , u2 ) = cov(θ1 z + u1 , u2 ) = θ1 cov(z, u2 ) + cov(u1 , u2 ) =
θ1 E(zu2 ) + E(u1 u2 ) = E(u1 u2 ) = σ12 ̸= 0. Portanto, y1 é endógeno na segunda equação.
Portanto, os estimadores não serão não viesados.
(2) Falso.
Demonstração. Como o número de variáveis endógenas na primeira equação é zero e o número
de variáveis exógenas excluídas da primeira equação e presente na segunda equação é também
zero, então, de fato, a primeira equação é exatamente identificada. Já no que se refere a (2), note
que y1 é endógeno (como mostramos no item anterior) mas não existe uma variável exógena
no sistema que não esteja na segunda equação. Assim, (2) é subidentificada.
(3) Verdadeiro.
Demonstração. Neste caso, a análise para (1) continua a mesma que foi feita no item anterior.
Já no que se refere à segunda equação, note que agora não temos variáveis endógenas, assim
como o número de variáveis exógenas no sistema que não está na segunda equação é nulo.
Portanto, de fato a equação torna-se exatamente identificada.
(4) Verdadeiro.
Demonstração. De fato, temos todas as condições para que sejam consistentes, dado que
agora não há problemas de endogeneidade.
205