Notas de Probabilidade e Estatística para ANPEC

Notas de Probabilidade e Estatística1
Um estudo para a ANPEC
Matheus L. Carrijo2
27 de fevereiro de 2023
1 Estas notas são um produto de meus estudos dos livros Bussab and Morettin (2017) e Wooldridge
(2016) e das aulas de um curso preparatório para o Exame Anpec, o Cursinho Simples. Em geral, são
anotações minhas sobre o conteúdo destas fontes, mas que podem conter alguns trechos copiados ipsis
litteris. (ESTAS NOTAS ENCONTRAM-SE AINDA EM DESENVOLVIMENTO).
2 Bacharel em Matemática Aplicada a Negócios pela Faculdade de Filosofia, Ciências e Letras de
Ribeirão Preto - Universidade de São Paulo. ORCiD: 0000-0002-3429-214X. Email: matheuslcar-

rijo@gmail.com (B corresponding author).
Conteúdo
1 Introdução 9
I Números Índices 11
2 Números Índices 13
2.1 Números Índices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.1 Índice de Laspeyres . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.2 Índice de Paasche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1.3 Índice de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Propriedades dos Números Índices . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.1 Os Índices de Laspeyres e Paasche como Médias Ponderadas . . . . . . 15
2.2.2 Critério da Circularidade (Encadeamento) . . . . . . . . . . . . . . . . 16
2.2.3 Critério da Reversão do Tempo . . . . . . . . . . . . . . . . . . . . . . 17
2.3 Exercícios ANPEC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
II Probabilidade 29
3 Introdução à probabilidade 31
3.1 Espaço Amostral, Evento e Probabilidade . . . . . . . . . . . . . . . . . . . . . 31
3.2 Probabilidade de um Evento Complementar . . . . . . . . . . . . . . . . . . . . 32
3.3 Probabilidade do ‘e’ e do ‘ou’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.4 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4 Variável Aleatória Discreta 35

4.1 Medidas de Posição e Dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2 Distribuições Discretas Importantes . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2.1 Distribuição de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2.2 Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1
2 CONTEÚDO
4.2.3 Distribuição Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4.2.4 Distribuição Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . 39
4.2.5 Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.3 Distribuição Conjunta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.3.1 Distribuição Marginal e Condicional . . . . . . . . . . . . . . . . . . . 41
4.3.2 Independência de Variáveis Aleatórias . . . . . . . . . . . . . . . . . . 42
4.3.3 Lei das Expectativas Iteradas . . . . . . . . . . . . . . . . . . . . . . . 43
4.3.4 Valor Esperado do Produto . . . . . . . . . . . . . . . . . . . . . . . . 43
4.4 Covariância e Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.4.1 Propriedades da Covariância . . . . . . . . . . . . . . . . . . . . . . . 45
4.4.2 Propriedades do coeficiente de correlação . . . . . . . . . . . . . . . . 47
5 Variável Aleatória Contínua 81

5.1 Medidas de Posição e Dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.2 Distribuições Contínuas Importantes . . . . . . . . . . . . . . . . . . . . . . . 82
5.2.1 Distribuição Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.2.2 Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.2.3 Outras Distribuições Importantes . . . . . . . . . . . . . . . . . . . . . 86
5.3 Distribuição Conjunta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.3.1 Distribuição Marginal e Condicional . . . . . . . . . . . . . . . . . . . 89
5.3.2 Independência de Variáveis Aleatórias Contínuas . . . . . . . . . . . . 90
6 Teoremas 111
6.1 Teorema de Tchebycheff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.2 Lei dos Grandes Números . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.3 Teorema do Limite Central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
III Inferência Estatística 121
7 Inferência 123
7.1 Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
7.1.1 Propriedades de um Estimador . . . . . . . . . . . . . . . . . . . . . . 124
7.1.2 Estimador da Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
7.1.3 Estimadores da Variância . . . . . . . . . . . . . . . . . . . . . . . . . 125
7.2 Teste de Hipótese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
Autor: Matheus L. Carrijo

CONTEÚDO 3
7.3 Teste de Hipótese com Variância Desconhecida . . . . . . . . . . . . . . . . . 129

7.4 Tipos de Erros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
7.5 Intervalo de Confiança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
IV Econometria 151
8 Regressão Linear 153

8.1 Regressão Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
8.1.1 Mínimos Quadrados Ordinários (MQO) . . . . . . . . . . . . . . . . . 153
8.2 Ausência de Viés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
8.2.1 Hipóteses para não-viés . . . . . . . . . . . . . . . . . . . . . . . . . . 155
8.3 Variância MQO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
8.4 Modelo de Regressão Múltipla (MRM) . . . . . . . . . . . . . . . . . . . . . . . 159
8.4.1 Obtendo os estimadores do MRM . . . . . . . . . . . . . . . . . . . . 159
8.5 Ajuste da Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
8.6 Não-Viés e Eficiência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
8.6.1 Hipóteses para não-viés . . . . . . . . . . . . . . . . . . . . . . . . . . 162
8.6.2 Variância dos estimadores . . . . . . . . . . . . . . . . . . . . . . . . . 163
8.6.3 Eficiência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
8.7 Consistência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
8.8 Inclusão ou Omissão de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . 165
8.8.1 Variáveis Omitidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
8.8.2 Inclusão de variáveis irrelevantes . . . . . . . . . . . . . . . . . . . . . 166
8.9 Formas Funcionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
8.10 Regressão pela Origem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
8.11 Inferência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
8.11.1 Teste T . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
8.11.2 Teste F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
8.12 Variável Dummy e Interações . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
8.12.1 Variáveis Dummies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
8.12.2 Interações entre variáveis . . . . . . . . . . . . . . . . . . . . . . . . . 174
8.13 Problemas Relacionados ao Erro . . . . . . . . . . . . . . . . . . . . . . . . . . 175
8.13.1 Heterocedasticidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
8.13.2 Não normalidade do erro . . . . . . . . . . . . . . . . . . . . . . . . . 175
8.13.3 Endogeneidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

4 CONTEÚDO
Bibliografia 205

Lista de Figuras
5.1 Fdp da Distribuição Uniforme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

5.2 Fdp da Distribuição Normal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.3 Região de integração. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
7.1 Rejeição (ou não) da hipótese nula H0 . . . . . . . . . . . . . . . . . . . . . . . . 128

7.2 p-valor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
7.3 Erro do Tipo II. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
7.4 Poder do Teste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
5
6 LISTA DE FIGURAS

Lista de Tabelas
2.1 Preços e quantidades no tempo de uma economia com dois produtos. . . . . . 13

2.2 Tabela do exercício 03/2016 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.1 Distribuição Conjunta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.2 Distribuição Conjunta com distribuição marginal. . . . . . . . . . . . . . . . . 41
4.3 Distribuição conjunta entre X e Y. . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.8 Exercício 05/2022 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.10 Exercício 04/2020 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
7.1 Rendas para uma amostra de 10 pessoas. . . . . . . . . . . . . . . . . . . . . . 123
8.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
7
8 LISTA DE TABELAS

Capítulo 1
Introdução
Para ser escrito.
9
10

Parte I
Números Índices
11
Capítulo 2
Números Índices
2.1 Números Índices

Como os preços, como um todo, evoluem ao longo do tempo? E as quantidades? Utiliza-
remos os chamados números índices para representar os preços ou quantidades em um dado
período, de maneira que podemos estudar a evolução destas variáveis no tempo.
Considere uma economia com dois bens A e B em três períodos t = 1, 2, 3, de modo que
os preços e as quantidades produzidas de cada produto em cada período é dado pela tabela
abaixo:
Período 1 Período 2 Período 3

Produto Preço Quantidade Preço Quantidade Preço Quantidade
A 2 20 2 20 3 10
B 30 3 40 2 60 3
Tabela 2.1: Preços e quantidades no tempo de uma economia com dois produtos.
Descreveremos para esta economia os índices de Laspeyres e Paasche, tanto para preços
quanto para quantidades. Em seguida, daremos a fórmula geral para o cálculo destes índices.
2.1.1 Índice de Laspeyres

Para calcular um número índice precisamos primeiro de um período base para descrever
a evolução no tempo com base neste período. É comum utilizarmos o primeiro período para
isto. Denotando L2p o índice de Laspeyres para o período 2, qi e pi os preços e quantidades dos
produtos i ∈ {A, B}, temos:
p2A qA1 + p2B qB1 2 × 20 + 40 × 3

L2p = 1 1 1 1
= = 1.23.
pA q A + pB qB 2 × 20 + 30 × 3
13
14 2.1. NÚMEROS ÍNDICES
Seguindo o mesmo raciocínio, o índice de Laspeyres de preço para o período 3 com base no
período 1 é:
p3A qA1 + p3B qB1 3 × 20 + 60 × 3

L2p = 1 1 1 1
= = 1.85.
pA q A + pB qB 2 × 20 + 30 × 3
Podemos calcular também o índice de Laspeyres para quantidade. Com raciocínio seme-
lhante, “avançamos" as quantidades no numerador multiplicadas pelos preços do período base
e com o denominador com a produção total, em termos monetários, do período base, isto é:
p1A qA2 + p1B qB2 2 × 20 + 30 × 2

L2q = 1 1 1 1
= = 0.77.
pA qA + pB qB 2 × 20 + 30 × 3
Da mesma forma, o índice de Laspeyres de quantidade para o período 3 com base no período
1 é dado por:
p1A qA3 + p1B qB3 2 × 10 + 30 × 3

L3q = 1 1 1 1
= = 0.85.
pA qA + pB qB 2 × 20 + 30 × 3
De forma geral, se uma economia tem i ∈ {1, 2, ..., n} produtos, o índice de preço de Las-
peyres para um período t com base no ano b é dado por:
Pn t b
pq
Ltp = Pni=1 bi ib .
i=1 pi qi
Com raciocínio semelhante, o índice de Laspeyres de quantidade para um período t com

base no ano b é dado por:
Pn b t
pq
Ltq = Pni=1 bi ib .
i=1 pi qi
Normalmente, o cálculo do PIB real é feito com o índice de Laspeyres de quantidade.
2.1.2 Índice de Paasche
Enquanto os índices de Laspeyres de preço e quantidade caracterizam-se por “avançar" para

o período t, respectivamente, os preços e as quantidades do numerador, os índices de preço e
quantidade de Paasche são determinados por “atrasar" para um tempo qualquer b ∈ {t − 1, t −
2, ...}, respectivamente, os preços e as quantidades do denominador. Assim, Podemos escrever

CAPÍTULO 2. NÚMEROS ÍNDICES 15
a fórmula para o índice de preço de Paasche como:

Pn t t
pq
Ppt = Pni=1 bi it .
i=1 pi qi
O índice de quantidade de Paasche fica do seguinte modo:

Pn t t
pq
Pqt = Pni=1 ti ib .
i=1 pi qi
Aplicando estas duas fórmulas para a economia descrita pela tabela 2.1 nos períodos 2 e 3
e com base no período 1, temos que os índices de preço e quantidade de Paasche são:
2 × 20 + 40 × 2 3 × 10 + 60 × 3
p2p = = 1.2. e p3p = = 1.91.
2 × 20 + 30 × 2 2 × 10 + 30 × 3
2 × 20 + 40 × 2 3 × 10 + 60 × 3
p2q = = 0.75. e p3q = = 0.875.
2 × 20 + 40 × 3 3 × 20 + 60 × 3
A título de curiosidade, o índice de preço de Paasche é utilizado para calcular o deflator do

PIB.
2.1.3 Índice de Fisher

Os índices de Fisher de preço e quantidade não são outra coisa senão a média geométrica
dos índices de Laspeyres e Paasche de preço e quantidade. Ou seja:
» »
Fpt = Ltp × Ppt e Fqt = Ltq × Pqt .
2.2 Propriedades dos Números Índices
2.2.1 Os Índices de Laspeyres e Paasche como Médias Ponderadas

A primeira propriedade que podemos citar é que o índice de preços (quantidades) de Laspey-
res pode ser interpretado como uma média aritmética ponderada entre os preços (quantidades)
relativos, usando como pesos os valores de cada produto no período base. Para ver isso basta
notar que
Pn pti b b Pn qit b b
b pi qi i=1 q b pi qi
Pn t b Pn b t
p q i=1 p p q
Ltp = Pni=1 bi ib = Pn i b b e Ltq = Pni=1 bi ib = Pn i b b
i=1 pi qi i=1 pi qi i=1 pi qi i=1 pi qi
Assim como o índice de Laspeyres pode ser visto como uma média, o índice de preços (quan-
tidades) de Paasche pode ser interpretado como uma média harmônica ponderada entre os

16 2.2. PROPRIEDADES DOS NÚMEROS ÍNDICES
preços (quantidades) relativos, usando como pesos os valores de cada produto no período do
índice.
Sabe-se que a média harmônica (MH) ponderada entre dois números x e y é dada por
1
MH = w1 x1 +w2 y1
,
w1 +w2
em que w1 , w2 ≥ 0 são os pesos.

Se generalizarmos, a média harmônica ponderada entre n números xi , para i ∈ {1, ..., n} é:
1
MH = Pn
wi x1
,
i=1 i
Pn
i=1 wi
em que wi ≥ 0 são os pesos.

Desta forma, se escrevermos o índice de preços (quantidades) de Paasche como uma média
harmônica ponderada entre os preços (quantidades) relativos, usando como pesos os valores
de cada produto no período do índice, teremos o seguinte:
é−1 é−1
pib i i qbi i i
ÑP ÑP
n n
i=1 pit pt qt i=1 qti pt qt
Pn i i Pn i i
pq pq
Ppt = Pn i i = Pni=1 it ti e Pqt = Pn i i = Pni=1 it ti .
i=1 pt qt i=1 pb qt i=1 pt qt i=1 pt qb
2.2.2 Critério da Circularidade (Encadeamento)
Considere os preços e quantidades de dois produtos A e B de uma economia dados pela

tabela 2.1. Quanto é o índice de preços de Laspeyres para o período 2 com base no período 1?
E do período 3 com base no período 2? Se denotarmos Lt,b p o índice de Laspeyres de preço no
tempo t com período base em b, então podemos fazer as contas e encontrar que
p = 1, 54 e Lp = 1, 13.
L2,1 3,2
Será que conseguimos obter o índice para o período 3 com base no período 1 a partir dos
índices anteriores? Isto é, será que L3,1
p = Lp × Lp ? Podemos ver que
2,1 3,2
L3,1 2,1 3,2

p = 1, 85 ̸= Lp × Lp = 1, 54 × 1, 13 = 1, 73.
Assim, dizemos que o índice de preço de Laspeyres não satisfaz o critério da circularidade (enca-
deamento).

De forma um pouco mais geral,
(p2A qA1 + p2B qB1 ) (p3A qA2 + p3B qB2 ) p3A qA1 + p3B qB1
L2,1 3,2
p Lp = ̸
= = L3,1
p .
(p1A qA1 + p1B qB1 ) (p2A qA2 + p2B qB2 ) p1A qA1 + p1B qB1
Pode-se ser demonstrado que os índices de Laspeyres, de Paasche e de Fisher não satisfa-
zem o critério da circularidade.
2.2.3 Critério da Reversão do Tempo

Um outro critério importante de ser analisado para índices é o critério da reversão do tempo.
Para entendê-lo melhor, façamos como anteriormente e analisemos a economia ilustrada em
2.1. Quanto é o índice de preços de Laspeyres para o período 2 com base no período 1? E do
período 1 com base no período 2? Fazendo as contas, pode-se mostrar que
p = 1, 54 e Lp = 0.63.
L2,1 1,2
Agora, podemos nos perguntar: será que acumulando estes dois índices, conseguimos voltar
p Lp = Lp = 1? Fazendo as contas, podemos ver que não:
ao valor unitário? Isto é, L2,1 1,2 1,1
L2,1 1,2 1,1

p Lp = 1, 54 × 0, 63 = 0.96 ̸= Lp = 1.
Assim, dizemos que o índice de preço de Laspeyres não satisfaz o critério da reversão do tempo.
De forma um pouco mais geral,
(p2A qA1 + p2B qB1 ) (p1A qA2 + p1B qB2 )

L2,1 1,2
p Lp = ̸= 1 = L1,1
p .
(p1A qA1 + p1B qB1 ) (p2A qA2 + p2B qB2 )
Pode-se ser demonstrado que os índices de Laspeyres e de Paasche não satisfazem o cri-
tério da reversão do tempo, mas o índice de Fisher satisfaz! Para ver que o índice de Fisher
satisfaz tal critério, note que

(p2A qA1 + p2B qB1 ) (p2A qA2 + p2B qB2 ) (p1A qA2 + p1B qB2 ) (p2A qA2 + p2B qB2 )
Fp2,1 Fp1,2 = × = 1.
(p1A qA1 + p1B qB1 ) (p1A qA2 + p1B qB2 ) (p2A qA2 + p2B qB2 ) (p1A qA2 + p1B qB2 )

18 2.3. EXERCÍCIOS ANPEC
2.3 Exercícios ANPEC
Questão 03/2016
A tabela abaixo mostra os preços e as quantidades vendidas de dois produtos (A e B) em
dois períodos de tempo diferentes (0 e 1).
Período 0 Período 1
Preço Quantidade Preço Quantidade
Produto
(R$/Kg) (Kg) (R$/Kg) (Kg)
A 2,0 200,0 3,0 100,0
B 1,0 100,0 1,0 200,0
Tabela 2.2: Tabela do exercício 03/2016
Dadas essas informações, é correto afirmar:
(0) O Índice de Laspeyres de preço do período 1 com base no período 0 é 75 .

(1) O Índice de Paasche de preço do período 1 em relação ao período 0 é 54 .
(2) O Índice de Laspeyres de quantidade do período 1 com base no período 0 é 35 .
(3) O Índice de Paasche de quantidade do período 1 em relação ao período 0 é 75 .
(4) O Índice de Fisher de quantidade do período 1 com base no período 0 é igual a 1.
Solução.
(0) Verdadeiro.
Demonstração. O índice de Laspeyres de preço do período 1 com base no período 0 é:
3 × 200 + 1 × 100 700 7

= = .
2 × 200 + 1 × 100 500 5
(1) Verdadeiro.
Demonstração. O Índice de Paasche de preço do período 1 em relação ao período 0 é
3 × 100 + 1 × 200 5
= .
2 × 100 + 1 × 200 4
(2) Falso.

Demonstração. O Índice de Laspeyres de quantidade do período 1 com base no período 0 é
2 × 100 + 1 × 200 4
= .
2 × 200 + 1 × 100 5
(3) Verdadeiro.
Demonstração. O Índice de Paasche de quantidade do período 1 em relação ao período 0 é:
3 × 100 + 1 × 200 5
= .
3 × 200 + 1 × 100 7
(4) Falso.
Demonstração. O Índice de Fisher de quantidade do período 1 com base no período 0 é:
… √
4 5 2 7
Fq1 = × =
5 7 7
Questão 01/2018
Na tabela abaixo são mostrados os preços e quantidades vendidas de 3 produtos em 2 pe-
ríodos de tempos diferentes:
Produto
A 1,0 20,0 1,0 30,0
B 1,0 20,0 2,0 10,0
C 3,0 20,0 5,0 10,0
Dadas essas informações, é correto afirmar que o valor de cada um dos índices abaixo para
o período 1, com base no período 0, é:
(0) O Índice de Laspeyres de preço é: 1, 6.
(1) O Índice de Laspeyres de quantidade é 0, 7..
(2) O Índice de Paasche de preço é 1, 0.
(3) O Índice de Paasche de quantidade é 0, 5.
(4) O Índice de Fisher de preço é: 1.

Solução.
(0) Verdadeiro.
Demonstração. O índice de Laspeyres de preço do período 1 com base no período 0 é:
1 × 20 + 2 × 20 + 5 × 20 160 7
= = 1, 6. .
1 × 20 + 1 × 20 + 3 × 20 100 5
(1) Verdadeiro.
Demonstração. O Índice de Laspeyres de quantidade do período 1 com base no período 0 é:
1 × 30 + 1 × 10 + 3 × 10 70
= = 0, 7.
2 × 200 + 1 × 100 100
(2) Falso.
Demonstração. O Índice de Paasche de preço do período 1 em relação ao período 0 é
1 × 30 + 2 × 10 + 5 × 10 100
= ̸= 1.
1 × 30 + 1 × 10 + 3 × 10 70
(3) Falso.
Demonstração. O Índice de Paasche de quantidade do período 1 em relação ao período 0 é:
1 × 30 + 2 × 10 + 5 × 10 100 5
= = ̸= 0, 5.
1 × 20 + 2 × 20 + 5 × 20 160 8
(4) Falso.
Demonstração. O Índice de Fisher de preço do período 1 com base no período 0 é:
… √
8 10 4 7
Fp1 = × = ̸= 1.
5 7 7

Questão 05/2019
Na tabela abaixo são mostrados os preços e quantidades vendidas de 4 produtos em 2 pe-
ríodos de tempos diferentes:
Produto
A 3,0 1,0 1,0 2,0
B 1,0 3,0 1,0 2,0
C 2,0 5,0 3,0 4,0
D 2,0 4,0 1,0 8,0
Usando essas informações, calcule o índice de preços de Paasche para o período 2 com base
no período 1, e multiplique o resultado por 100:
Solução.
Demonstração. O índice de preços de Paasche para o período 2 com base no período 1 é:
1×2+1×2+3×4+1×8 24 3
Pp1 = = = .
3×2+1×2+2×4+2×8 32 4
Portanto, a resposta final é: 100 × 3/4 = 75.
Questão 01/2020
A tabela abaixo mostra os preços (em R$/Kg) e quantidades (em Kg) vendidas de 2 produtos
em 3 períodos de tempos diferentes:
Período 1 Período 2 Período 3

Produto Preço Quantidade Preço Quantidade Preço Quantidade
A 2 2 2 2 4 1
B 2 3 3 2 4 2
(0) O Índice de preços de Laspeyres para o período 3 com base no período 1 é 2.

(1) O Índice de preços de Laspeyres para o período 2 com base no período 1 é 1.
(2) O Índice de preços de Laspeyres para o período 3 com base no período 2 é 1, 2.

(3) O Índice de preços de Paasche para o período 3 com base no período 1 é 2.

(4) O Índice de quantidades de Laspeyres para o período 2 com base no período 1 é 0.8.
Solução.
(0) Verdadeiro.
Demonstração. O Índice de preços de Laspeyres para o período 3 com base no período 1 é
4×2+4×3
= 2.
2×2+2×3
(1) Falso.
2×2+3×3 13
= = 1, 3 ̸= 1.
2×2+2×3 10
(2) Falso.
4×2+4×2
= 1, 6.
2×2+3×2
(3) Verdadeiro.
Demonstração. O Índice de preços de Paasche para o período 3 com base no período 1 é
4×1+4×2
=2
2×1+2×2
(4) Verdadeiro.
Demonstração. O Índice de quantidades de Laspeyres para o período 2 com base no período 1
é
2×2+2×2
= 0, 8.
2×2+2×3

Questão 01/2022
Seja pit preço do bem i no período t, e seja qti a quantidade do bem i no período t. Consi-
derando n bens (i = 1, ..., n) e dois períodos (t = 0, 1) verifique se as afirmativas abaixo são
falsas ou verdadeiras:
(0) O Índice de Preço de Laspeyres para o período 1 com base no período 0 é dado por:
Pi=1 i i
p1 q 0
Pni=1 i i .
n p0 q 0
(1) O Índice de Quantidade de Laspeyres para o período 1 com base no período 0 é dado
por:
Pi=1 i i
n p1 q 0
Pi=1 i i
.
n p1 q 1
(2) Índice de Preço de Paasche para o período 1 com base no período 0 é dado por:
Pi=1 i i
p1 q 1
Pni=1 i i .
n p0 q 0
(3) O Índice de Quantidade de Paasche para o período 1 com base no período 0 é dado por:
Pi=1 i i
n p1 q 1
Pi=1 i i
.
n p0 q 1
(4) Sendo PL o Índice de Preço de Laspeyres para o período 1 com base no período 0 e PP o
Índice de Preço de Paasche para o período 1 com base no período 0, então o Índice de Preço de
√
Fisher para o período 1 com base no período 0 é dado por P L × P P .
Solução.
(0) Verdadeiro.
Demonstração. Esta é exatamente a fórmula dada no texto para o índice de preço de Laspeyres.
(1) Falso.
Demonstração. Vimos que o índice de quantidade de Laspeyres, neste caso para o período 1
com base no período 0, é dado por
Pi=1 i i
p0 q 1
Pni=1 i i .
n p0 q 0

(2) Falso.
Demonstração. Vimos que o índice de preço de Paasche, neste caso para o período 1 com base
no período 0, é dado por
Pi=1 i i
p1 q 1
Pni=1 i i .
n p0 q 1
(3) Falso.
Demonstração. Vimos que o índice de quantidade de Paasche, neste caso para o período 1 com
base no período 0, é dado por
Pi=1 i i
p1 q 1
Pni=1 i i .
n p1 q 0
(4) Verdadeiro.
Demonstração. Vimos no texto que o índice de Fisher é dado exatamente por esta fórmula.
Questão 01/2021
Seja pit preço do bem i no período t, e seja qti a quantidade do bem i no período t. Con-
siderando 2 bens (i = 1, 2) e dois períodos (t = 1, 2), verifique se as afirmativas abaixo são
corretas, supondo que p11 < p12 ; p21 < p22 ; q11 > q21 ; q12 > q22 :
(0) O Índice de Preço de Laspeyres do período 2 com base no período 1 é maior que um.
(1) O Índice de Preço de Paasche do período 2 com base no período 1 é maior que um.
(2) O Índice de Preço de Laspeyres do período 2 com base no período 1 é dado por:
r1 v21 + r2 v22
,
v11 + v12
em que vti = pit qti e ri = pi2 /pi1 .

(3) O Índice de Preço de Laspeyres do período 2 com base no período 1 é menor que o Índice
de Preço de Paasche do período 2 com base no período 1.
(4) O Índice de Preço de Paasche do período 2 com base no período 1 pode ser representado
por:
v21 + v22
v21 v22
,
r 1 + r 2
em que vti = pit qti e ri = pi2 /pi1 .

Solução.
(0) Verdadeiro.
Demonstração. O índice de preço de Laspeyres do período 2 com base no período 1 é
p12 q11 + p22 q12

L2p = .
p11 q11 + p21 q12
Pela informação do enunciado segundo a qual os preços de ambos os produtos aumentam

de um período para o outro, então
p12 q11 + p22 q12 p11 q11 + p21 q12

L2p = > = 1.
p11 q11 + p21 q12 p11 q11 + p21 q12
(1) Falso.
Demonstração. O índice de preço de Paasche do período 2 com base no período 1 é:
p12 q21 + p22 q22

Pp2 = .
p11 q21 + p21 q22
Pela informação do enunciado segundo a qual os preços de ambos os produtos aumentam

de um período para o outro, então claramente Pp2 > 1.
(2) Falso.
Demonstração. Substituindo os valores de vti e ri na razão dada no enunciado temos:
p12 1 1 p22 2 2 p12 1 1 p22 2 2

pq
p11 2 2
+ pq
p21 2 2
pq
p11 1 1
+ pq
p21 1 1 p12 q11 + p22 q12
̸= = .
p11 q11 + p21 q12 p11 q11 + p21 q12 p11 q11 + p21 q12
(3) Falso.
Demonstração. Contraexemplo: P11 = P12 = q21 = q22 = 1 e P21 = p22 = q11 = q12 = 2 faz com
que os índices sejam iguais a 2.
(4) Verdadeiro.
Demonstração. De fato, a fórmula é uma média harmônica dos preços relativos com peso dado
pelo valor da produção no período do índice (atual). Vimos que este é precisamente o caso do
índice de Paasche.

Questão 01/2017
Com relação aos números índices, podemos afirmar:
(0) o cálculo do Índice de Preço de Laspeyres requer que as quantidades sejam apuradas em
todos os períodos.
(4) O Índice de Preços de Paasche do período h, com base no período t, é o inverso do Índice
de preços de Paasche do período t, com base no período h.
Solução.
(0) Falso.
Demonstração. O índice que apresenta esta propriedade é o índice de Paasche. O índice de
Laspeyres é um índice de cestas fixas, isto é, usa as quantidades do período base apenas —
como podemos ver pela fórmula dada no texto.
(4) Falso.
Demonstração. Vimos no texto que os índices de Paasche não satisfazem o critério da reversão
do tempo, que é o que o enunciado implicitamente afirma.
Questão 01/2015
Com relação aos números índices, é correto afirmar que:
(0) O índice de preços de Laspeyres do período t, com base no período i, é calculado ponderando-
se os preços, em t, pelas quantidades do período t;
(1) O índice de Fisher de preços é uma média geométrica dos índices de preços de Paasche
e de Laspeyres;
(2) Multiplicar o índice de preços de Laspeyres pelo índice de quantidades de Paasche for-
nece o mesmo resultado que a multiplicação do índice de preços de Paasche pelo índice de
quantidades de Laspeyres;
(3) O cálculo do índice de preços de Paasche requer os preços e as quantidades para todos
os períodos;
(4) Dentre os índices de Laspeyres, Paasche e Fisher, o único que satisfaz a condição de
reversão no tempo é o de Fisher.
Solução.
(0) Falso.

Demonstração. O índice de preços de Laspeyres é calculado ponderando-se os preços relativos

pelo valor da produção total do período base.
(1) Verdadeiro.
Demonstração. Vimos no texto que esta é precisamente a definição do índice de Fisher.
(2) Verdadeiro.
Demonstração.
Pn t b Pn t t Pn t t Pn t t Pn b t
i=1 pi qi i=1 pi qi i=1 pi qi pq pq
Ltp Pqt = Pn b b Pn t b = Pn b b = Pp Lq = Pni=1 bi it Pni=1 bi ib .
t t
i=1 pi qi i=1 pi qi i=1 pi qi i=1 pi qi i=1 pi qi
(3) Falso.
Demonstração. Não é preciso a quantidade do período base.
(4) Verdadeiro.
Demonstração. Vimos no texto exatamente isto.
Questão 01/2005
A respeito de números-índice, é correto afirmar:
(0) O índice de quantidade de Fisher é a raiz quadrada do produto dos índices de quantidade
de Laspeyres e de Paasche.
(1) O índice de preço de Laspeyres é a média aritmética de relativos de preços ponderados
pela participação do dispêndio com cada bem na época atual.
(2) O índice de preço de Paasche é a média aritmética de relativos de preços ponderados
pelo valor de cada bem na época base.
(3) Os índices de Laspeyres e Paasche atendem ao critério de reversão do tempo.
Solução.
(0) Verdadeiro.
Demonstração. Vimos no texto que o índice de quantidade de Fisher é exatamente isto.
(1) Falso.
Demonstração. Corrigindo a frase do enunciado: o índice de preço de Laspeyres é a média
aritmética de relativos de preços ponderados pela participação do dispêndio com cada bem na
época do período base.

(2) Falso.
Demonstração. O índice de Paasche é uma média harmônica e usa o período do índice (atual).
(3) Falso.
Demonstração. Vimos no texto que o único índice que atende ao critério da reversão do tempo
é o de Fisher
Questão 02/2016
Com relação a números índices, são corretas as afirmativas:
(0) O Índice de Quantidade de Paasche é uma média harmônica ponderada da razão das
quantidades;
(1) O Índice de Quantidade de Fisher não atende à condição de encadeamento;
(3) O Índice de Preços de Paasche atende ao critério de reversão no tempo.
Solução.
(0) Verdadeiro.
Demonstração. Vimos no texto que o índice de Paasche é exatamente isto.
(1) Verdadeiro.
Demonstração. Também vimos no texto que o índice de Fisher não satisfaz o critério (ou con-
dição) do encadeamento.
(3) Falso.
Demonstração. Vimos no texto que o único índice a atender o critério da reversão no tempo é
o de Fisher.

Parte II
Probabilidade
29
Capítulo 3
Introdução à probabilidade
3.1 Espaço Amostral, Evento e Probabilidade

Considere que lancemos um dado (justo) de quatro faces, cada uma com um número en-
tre 1 e 4 escrito. Quais são as possíveis probabilidades que podemos estar interessados em
calcular? Para responder a esta pergunta, considere o conjunto de resultados possíveis do lan-
çamento dese dado, S = {1, 2, 3, 4}. Poderíamos estar interessado em calcular a probabilidade
de um evento qualquer E ∈ P(S), em que P(A) denota o conjunto potência de um conjunto
arbitrário A, isto é, a família de todos os subconjuntos possíveis do conjunto A1 . A título de
exemplo, poderíamos perguntar a probabilidade de o lançamento do dado resultar no valor 1,
ou, de forma equivalente, perguntar qual a chance do evento E ≡ {1} ocorrer. Sabemos que a
resposta é 1/4.
Com estas ideias dadas no exemplo anterior, podemos definir de maneira um pouco mais
rigorosa alguns conceitos que foram utilizados:
Definição 3.1 Espaço amostral (que denotaremos por S) é o conjunto dos resultados que um certo
experimento “pode" ter.
Definição 3.2 Um Evento (E) é um subconjunto do espaço amostral, isto é, E ∈ P(S).
Definição 3.3 Probabilidade é uma função P : P(S) → [0, 1] ⊆ R tal que
1. P (S) = 1;
2. P (∅) = 0;
3. P (E1 ∪ E2 ) = P (E1 ) + P (E2 ), se E1 ∩ E2 = ∅.
1
Por exemplo, se A = {1, 2, 3}, então P(A) = {{1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}, {1, 2, 3}, ∅}
31
32 3.2. PROBABILIDADE DE UM EVENTO COMPLEMENTAR
Utilizando estes conceitos no exemplo do dado exposto anteriormente, a probabilidade de

um lançamento resultar no número 1 ou 2 é P ({1} ∪ {2}) = P ({1}) + P ({2}) = 1/4 + 1/4 =
1/2 (note que {1} ∩ {2} = ∅).
3.2 Probabilidade de um Evento Complementar

Agora, considere um evento qualquer E ⊆ S. Se E c = S \ E é o evento complementar,
então
P (E c ) = 1 − P (E).
Retornando novamente ao exemplo do dado, observe que ({1} ∪ {2})c = {1, 2}c = {3, 4}.
Assim, P ({3, 4}) = 1 − P ({1, 2}) = 1 − 1/2 = 1/2.
3.3 Probabilidade do ‘e’ e do ‘ou’

Sejam A e B dois eventos quaisquer. Se P (A e B) = P (A ∩ B) e P (A ou B) = P (A ∪ B),
temos que:
P (A ou B) = P (A) + P (B) − P (A e B),
ou
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
3.4 Probabilidade Condicional

Considere que lancemos um dado comum de seis faces. Sabemos que o espaço amostral é
Ω ≡ {1, 2, 3, 4, 5, 6}. Seja A o evento em que o resultado do lançamento seja menor ou igual
a 3 e B o evento em que o resultado seja ímpar, isto é A = {1, 2, 3} ⊆ Ω e B = {1, 3, 5} ⊆ Ω.
Suponha, ainda, que sabemos que o lançamento resultou em um número ímpar. Pergunta:
qual a probabilidade de que o resultado tenha sido menor ou igual a 3? Se, para quaisquer dois
eventos X e Y , denotarmos por P (X|Y ) a sentença “probabilidade de X dado Y ", então nossa
pergunta pode ser reformulada como: qual o valor de P (A|B)?
Como sabemos que o lançamento resultou num número ímpar, então nosso espaço amos-
′
tral relevante é Ω ≡ {1, 3, 5}. Assim, podemos ver que a probabilidade de o número ser menor
ou igual a 3 é P (A) = 2/3. Note ainda que P (A ∩ B)/P (B) = 1/3
1/2
= 2/3 = P (A|B). De fato,
isto não foi uma coincidência.

CAPÍTULO 3. INTRODUÇÃO À PROBABILIDADE 33
Proposição 3.4 Considere dois eventos quaisquer A e B. Sabendo que B ocorre, a probabilidade de
A ocorrer é
P (A ∩ B)
P (A|B) = , (3.1)
P (B)
desde que P (B) > 0.
Definição 3.5 Dizemos que A e B são eventos independentes se
P (A|B) = P (A). (3.2)
Observação 3.6 Das duas equações (3.1)-(3.2) acima, pode-se dizer que dois eventos são indepen-
dentes se, e somente se, P (A ∩ B) = P (A)P (B).
Definição 3.7 Se considerarmos três eventos A, B e C, dizemos que eles são independentes se eles
são independentes dois a dois e
P (A ∩ B ∩ C) = P (A)P (B)P (C).
Por fim, apresentaremos um dos resultados mais importantes de probabilidade condicional

básica, o Teorema de Bayes. Note, através da fórmula (3.1), que podemos escrever P (A∩B) =
P (B|A)P (A) (já que a fórmula funciona para quaisquer eventos A e B). Portanto, temos o
seguinte.
Teorema 3.8 (Teorema de Bayes) O teorema de Bayes nos permite calcular probabilidades condi-
cionais “inversas":
P (B|A)P (A)
P (A|B) = .
P (B)

34 3.4. PROBABILIDADE CONDICIONAL

Capítulo 4
Variável Aleatória Discreta
Podemos atribuir o resultado (ainda desconhecido) de um experimento a uma variável ale-

atória. Exemplos conhecidos de variáveis aleatórias discretas são o resultado do lançamento
de um dado, o preço de uma ação no período futuro, ou quantas vezes cai cara em dez lança-
mentos de uma moeda. É comum que representemos as variáveis aleatórias que descrevem os
resultados destes eventos com as letras X, Y ou Z, por exemplo.
Definição 4.1 Considere uma variável aleatória discreta X, que assume os valores xi , para i ∈
{1, 2, ..., n, ...}. Uma função massa de probabilidade é uma função {(xi , p(xi )), i = 1, 2, ...} que
associa a cada resultado de X um valor no intervalo [0, 1], ou seja,
p(xi ) = P (X = xi ) = pi , ∀i ∈ {1, 2, ..., n, ...}.
Observação 4.2 A soma das probabilidades da variável aleatória X deve somar 1.
Definição 4.3 Dada uma variável aleatória discreta X, chamaremos de função de distribuição acu-
mulada (fda), denotada por F (x), a função
F (x) = P (X ≤ x),
ou seja, a fda nos dá as probabilidades acumuladas até um certo valor x.
Observação 4.4 Note que o domínio de F é o conjunto dos números reais, ao passo que o contrado-
mínio é o intervalo unitário [0, 1].
35
36 4.1. MEDIDAS DE POSIÇÃO E DISPERSÃO
4.1 Medidas de Posição e Dispersão

Definição 4.5 Dada uma variável aleatória (v.a) discreta, assumindo valores xi , i = 1, 2, ..., n, cha-
mamos de valor médio, comumente denotado por µ, ou esperança matemática de X, o valor
n
X n
X
µ = E(X) = x1 p1 + x2 p2 + ... + xn pn = xi P (X = xi ) = p i xi .
i=1 i=1
Observação 4.6 Se X é uma v.a. e a e b duas constantes, então
• E[a] = a;
• E[aX] = aE[X];
• E[a ± bX] = a ± bE[X].
Definição 4.7 A variância de uma variável aleatória X é dada por:
V ar[X] = E[(X − µx )2 ],
em que µx é a média da distribuição de X.
Note que:
E[(X − µX )2 ] = E[X 2 − 2XµX + µ2X ]

= E[X 2 ] − 2E[X]µX + E[µ2X ]
= E[X 2 ] − 2µ2X + µ2X
= E[X 2 ] − µ2X
Observação 4.8 Se X é uma v.a. e a e b duas constantes, então
• V ar[a] = V ar[b] = 0;
• V ar[X + a] = V ar[X];
• V ar[aX] = a2 V ar[X];
• V ar[a + bX] = b2 V ar[X].
Observação 4.9 O desvio padrão (dp) de uma variável aleatória X é definido como
»
dp[X] = V ar[X].

CAPÍTULO 4. VARIÁVEL ALEATÓRIA DISCRETA 37
4.2 Distribuições Discretas Importantes
4.2.1 Distribuição de Bernoulli
Considere um experimento com dois resultados possíveis. Com probabilidade p o resultado

é 1 (normalmente, nos referimos a este resultado como “sucesso"), e com probabilidade 1 − p
o resultado é 0 (ou “fracasso"). Dizemos que a a variável aleatória que representa o evento do
primeiro sucesso segue uma distribuição de Bernoulli com parâmetro p, ou, em notação,
X ∼ Ber(p).
É fácil ver que

E[X] = 1 × p + 0 × (1 − p) = p.
Para descobrir a variância, note que E[X 2 ] = 12 P (X = 1) + 02 P (X = 0) = E[X]. Portanto,
V ar[X] = E[X 2 ] − µ2X = p − p2 = p(1 − p).
É fácil ver também que a distribuição acumulada é




 0, se x < 0

F (x) = 1 − p, se 0 ≤ x < 1


1, se x ≥ 1.

4.2.2 Distribuição Binomial
Considere um experimento com n repetições independentes. Em cada repetição, o resul-

tado é 1 com probabilidade p, e 0 com probabilidade 1 − p. Se X é a variável que representa
quantas vezes os experimentos resultaram em 1, então
Ç å
n k
P (X = k) = p (1 − p)n−k , ∀k ∈ {1, 2, ..., n}
k
em que nk = k!(n−k)!
n!
denota a combinação de n elementos em k posições, e dizemos que X

segue uma distribuição binomial de parâmetros n e p, isto é,
X ∼ b(n, p).

38 4.2. DISTRIBUIÇÕES DISCRETAS IMPORTANTES
Proposição 4.10 Seja X uma v.a. com distribuição binomial de parâmetros p e n. Então,
E[X] = np
V ar[X] = np(1 − p).
Demonstração. Podemos representar uma variável aleatória que segue uma distribuição bino-
minal através da soma de n variáveis aleatórias, Xi , que seguem uma distribuição de Bernoulli,
isto é,
X = X1 + ... + Xn
é tal que X ∼ b(p, n) desde que Xi ∼ Ber(p), ∀i ∈ {1, ..., n}. O motivo disto é claro: por
definição, a distribuição binomial é caracterizada pela quantidade de sucessos resultantes das
n repetições do experimento de Bernoulli. Como o sucesso é representado pelo valor 1 e o
fracasso por 0, então a soma das n variáveis aleatórias de Bernoulli nos dá exatamente a quan-
tidade de sucessos em n experimentos, constituindo X como uma variável aleatória que segue
a distribuição binominal. Portanto,
E[X] = E[X1 + ... + Xn ] = E[X1 ] + ... + E[Xn ] = np;

V ar[X] = V ar[X1 + ... + Xn ] = V ar[X1 ] + ... + V ar[Xn ] = np(1 − p).
4.2.3 Distribuição Geométrica
Considere um experimento com várias repetições independentes, de forma que em cada

uma delas o resultado é 1 com probabilidade p e 0 com probabilidade 1 − p. Se X é a variá-
vel aleatória que representa o valor da quantidade de repetições necessárias para obtermos o
primeiro resultado 1 (i.e., o primeiro sucesso), então X segue uma distribuição geométrica de
parâmetro p e
P (X = k) = (1 − p)k−1 p.
Proposição 4.11 Seja X uma v.a. discreta seguindo uma distribuição geométrica com parâmetro p.
Então,
1
E[X] =
p
(1 − p)
V ar[X] = .
p2

Demonstração. Provaremos apenas a igualdade do valor esperado. Note que
E[X] = 1p + 2(1 − p)p + 3(1 − p)2 p + ... + n(1 − p)n−1 p + ...
Multiplicando ambos os lados desta igualdade por (1 − p),
(1 − p)E[X] = (1 − p)p + 2(1 − p)2 p + 3(1 − p)3 p + ... + n(1 − p)n p + ...
Agora, iremos subtrair o lado esquerdo da primeira equação pelo lado esquerdo da segunda.
Ainda, do lado direito iremos subtrair o segundo termo da primeira equação pelo primeiro termo
da segunda equação; o terceiro termo da primeira equação pelo segundo termo da segunda
equação, e assim por diante. Note que, como estamos em uma soma infinita, “não incluir" o
primeiro termo do lado direito da primeira equação, p, na soma não fará diferença. Assim,
pE[X] = p + (1 − p)p + (1 − p)2 p + ... + (1 − p)n−1 p + ....
Temos do lado direito, portanto, uma progressão geométrica infinita de razão 1 − p. Sabemos
então que
p 1
pE[X] = = 1 ⇔ E[X] = .
p p
4.2.4 Distribuição Hipergeométrica
Considere uma população de tamanho N e consideramos que K elementos desta amostra

possuem certa característica. Sorteamos ao acaso n elementos dessa população. Se X é uma
variável aleatória que representa a quantidade de retiradas de elementos com a característica
considerada, então dizemos que X segue uma distribuição hipergeométrica de parâmetros N , n
e K. Ou, em notação,
X ∼ hip(N, n, K).
Note que N − K é a quantidade de elementos com características outras que não a mesma do
grupo com K elementos. Para tornar mais concreta a explicação, podemos considerar uma urna
com N bolas, sendo K vermelhas e N − K pretas. Assim, X pode ser uma variável aleatória
representando a quantidade de retiradas de bolas vermelhas de uma urna, sem reposição.
Observe que o experimento é quase o mesmo que o da variável aleatória seguindo uma dis-
tribuição binomial. A diferença é que neste caso de distribuição binomial os experimentos são
independentes um do outro. Em oposição, os experimentos repetidos na distribuição hipergeo-

40 4.3. DISTRIBUIÇÃO CONJUNTA
métrica possuem dependência entre eles. No caso do exemplo da retirada de bolas de uma urna,
a distribuição binomial seria uma forma de modelar os experimentos de retiradas de bolas com
reposição, enquanto que a distribuição hipergeométrica está ligada à repetição de experimentos
sem reposição.
A distribuição massa de probabilidade de X ∼ hip(N, n, K) é dada por
K N −K

k n−k
P (X = k) = N
,
k
em que min{0, n − (N − K)} ≤ k ≤ max{n, K}.

Note que Kk nos dá a quantidade de maneiras que podemos ter k sucessos em K sucessos

possíveis, enquanto que Nn−k

−K
é a quantidade de maneiras que podemos ter n − k fracassos

em N − K fracassos possíveis.
4.2.5 Distribuição de Poisson

Seja X uma variável aleatória com distribuição binomial de parâmetros p e n. Se n → ∞ e
p → 0, mas de forma que λ = np > 0, dizemos que a variável aleatória segue uma distribuição
de Poisson de parâmetro λ.
Uma v.a. X que segue uma distribuição de Poisson tem função de probabilidade dada por
e−λ λk
P (X = k) = .
k!
Além disso,
E[X] = V ar[X] = λ.
4.3 Distribuição Conjunta

Considere duas variáveis aleatórias X e Y . As probabilidades de todas as combinações de
valores que podem ocorrer encontram-se na tabela a seguir:
Y
0 1 2
1 1/4 1/8 0
X
2 0 1/2 1/8
Tabela 4.1: Distribuição Conjunta.
Nesta tabela, conseguimos observar a distribuição de probabilidade conjunta das variáveis.

Assim, podemos ver que P (X = 1 ∧ Y = 0) = 1/4, P (X = 2 ∧ Y = 0) = 0, e assim em

diante.
4.3.1 Distribuição Marginal e Condicional
Podemos querer saber também, por exemplo, as distribuições das variáveis aleatórias X e
Y , isto é, os valores de P (X = 1), P (X = 2), P (Y = 0), P (Y = 1), P (Y = 2). Para isto,
basta somar as linhas e colunas da tabela de distribuição conjunta do seguinte modo:

P (X = 1) = P (X = 1 ∧ Y = 0) + P (X = 1 ∧ Y = 1) + P (X = 1 ∧ Y = 2)
P (X = 1) = 1/4 + 1/8 = 3/8

P (X = 2) = P (X = 2 ∧ Y = 0) + P (X = 2 ∧ Y = 1) + P (X = 2 ∧ Y = 2)
P (X = 2) = 1/2 + 1/8 = 5/8

P (Y = 0) = P (X = 1 ∧ Y = 0) + P (X = 2 ∧ Y = 0)
P (Y = 0) = 1/4

P (Y = 1) = P (X = 1 ∧ Y = 1) + P (X = 2 ∧ Y = 1)
P (Y = 1) = 1/8 + 1/2 = 5/8

P (Y = 2) = P (X = 1 ∧ Y = 2) + P (X = 2 ∧ Y = 2)
P (Y = 2) = 1/8
Tais valores definem a distribuição marginal de cada uma das variáveis aleatórias. A tabela
4.2 mostra também as distribuições marginais.
Y
0 1 2 P(x)
1 1/4 1/8 0 3/8
X
2 0 1/2 1/8 5/8
P(y) 1/4 5/8 1/8
Tabela 4.2: Distribuição Conjunta com distribuição marginal.
Podemos calcular as probabilidades condicionais através da fórmula
P (Y = y ∧ X = x)
P (Y = y|X = x) = . (4.1)
P (X = x)
Por exemplo, sabendo que X = 1, as probabilidades de Y ser cada um dos valores 0, 1 ou

2, são:
P (Y = 0 ∧ X = 1) 1/4
P (Y = 0|X = 1) = = = 2/3.
P (X = 1) 3/8
P (Y = 1 ∧ X = 1) 1/8
P (Y = 1|X = 1) = = = 1/3.
P (X = 1) 3/8
P (Y = 2 ∧ X = 1) 0
P (Y = 2|X = 1) = = = 0.
P (X = 1) 3/8
Observe que obtemos a distribuição condicional de Y , dado que X = 1. Com estes valores,
podemos calcular a média desta distribuição, dada por
E[Y |X = 1] = 0 · P (Y = 0|X = 1) + 1 · P (Y = 1|X = 1) + 2 · P (Y = 2|X = 1)

= 1/3.
De modo geral, temos a seguinte definição.
Definição 4.12 Se temos n valores possíveis que X assume, de modo que xi representa cada valor,
para todo i = 1, ..., n, então a esperança condicional de X, dado Y = y é
n
X
E[X|Y = y] = xi P (xi |Y = y).
i=1
Definição análoga vale para E[Y |X = x].
4.3.2 Independência de Variáveis Aleatórias
Poderíamos perguntar se as variáveis aleatórias X e Y da distribuição conjunta mostrada

na tabela 4.2 são independentes. Note que
1/4
P (X = 1|Y = 0) = P (X = 1 ∧ Y = 0)/P (Y = 0) = = 1 ̸= P (X = 1) = 3/8
1/4
e, portanto, de acordo com a definição 3.5, as variáveis não são independentes. Em geral, temos
a seguinte definição.
Definição 4.13 As variáveis aleatórias X e Y , assumindo os valores x1 , x2 , ..., e y1 , y2 , ..., respecti-

vamente, são independentes se, e somente se, para todo par de valores (xi , yj ),
P (X = xi |Y = yj ) = P (X = xi ).

Ou seja, basta que esta igualdade não se verifique para um par (xi , yj ) para que X e Y não sejam
independentes.
Observação 4.14 Da fórmula da probabilidade condicional (4.1) e pela definição acima de indepen-
dência, podemos ver que duas variáveis aleatórias X e Y são independentes se, e somente se,
P (X = xi ∧ Y = yj ) = P (X = xi )P (Y = yj ).
4.3.3 Lei das Expectativas Iteradas

A lei das expectativas iteradas afirma que dadas duas variáveis aleatórias X e Y quaisquer,
então
E[Y ] = E[E[Y |X]]. (4.2)
Para ver que isto vale na distribuição conjunta da tabela 4.2, observe primeiramente que
E[Y ] = 0 · P (Y = 0) + 1 · P (Y = 1) + 2 · P (Y = 2) = 5/8 + 2/8 = 7/8. (4.3)
Como
E[Y |X = 1] = 0 · P (Y = 0|X = 1) + 1 · P (Y = 1|X = 1) + 2 · P (Y = 2|X = 1)

1
= + 2 · 0 = 1/3.
3
E[Y |X = 2] = 0 · P (Y = 0|X = 2) + 1 · P (Y = 1|X = 2) + 2 · P (Y = 2|X = 2)
4 1
= + 2 · = 6/5.
5 5
então,
E[E[Y |X]] = E[Y |X = 1]P (X = 1) + E[Y |X = 2]P (X = 2) (4.4)

= 1/8 + 3/4 = 7/8.
Portanto, das equações (4.3) e (4.4) vemos que (4.2) funciona para o nosso exemplo de
distribuição conjunta.
4.3.4 Valor Esperado do Produto

Proposição 4.15 Se X e Y são duas variáveis aleatórias independentes, então
E[XY ] = E[X]E[Y ].

44 4.4. COVARIÂNCIA E CORRELAÇÃO
Demonstração. Para ver por que esta igualdade é verdadeira, podemos usar o resultado que
acabamos de ver sobre a lei das expectativas iteradas. Ou seja,
E[XY ] = E[E[XY |X]].
Como estamos considerando X dado (observe que estamos calculando a esperança da es-
perança de XY dado X), usando uma das propriedades do valor esperado temos que
E[E[XY |X]] = E[XE[Y |X]].
Como X e Y são, por hipótese, independentes, então
E[XE[Y |X]] = E[XE[Y ]].
Por fim, como E[Y ] é um número qualquer — a média da v.a. Y —, então segue que
E[XE[Y ]] = E[X]E[Y ],
como queríamos.
4.4 Covariância e Correlação

Considere duas variáveis aleatórias X e Y . Suponha que a distribuição conjunta delas possa
ser representada na tabela abaixo:
Y
3 7
1 3/8 1/8
X
3 1/8 3/8
Tabela 4.3: Distribuição conjunta entre X e Y.
Como medir a associação entre as variáveis? Uma medida possível de associação entre duas
variáveis aleatórias X e Y é a covariância.
Definição 4.16 Se X e Y são duas variáveis aleatórias, a covariância entre elas é
Cov(X, Y ) = E[(X − µx )(Y − µy )],
em que µx = E[X] e µy = E[Y ].

Observação 4.17 Note que
Cov(X, Y ) ≡ E[(X − µx )(Y − µy )]

= E[XY − Xµy − Y µx + µx µy ]
= E[XY ] − E[X]µy − E[Y ]µx + µx µy
= E[XY ] − 2µx µy + µx µy
= E[XY ] − E[X]E[Y ].
Observação 4.18 Note da observação acima, portanto, que quando X e Y são independentes, então
E[XY ] = E[X]E[Y ] e, então, Cov(X, Y ) = 0. No entanto, se Cov(X, Y ) = 0 nada nos garante
que X e Y são independentes.
Observação 4.19 Quando Cov(X, Y ) = 0, diz-se que as variáveis X e Y são não correlacionadas.
No nosso exemplo de distribuição dado na tabela 4.3, temos que
E[XY ] = 3P (X = 1, Y = 3) + 9P (X = 3, Y = 3) + 7P (X = 1, Y = 7) + 21P (X = 3, Y = 7)
= 9/8 + 9/8 + 7/8 + 63/8 = 11.
Ainda,
E[X] = 1P (X = 1) + 3P (X = 3) = 1/2 + 3/2 = 2

E[Y ] = 3P (Y = 3) + 7P (Y = 7) = 3/2 + 7/2 = 5.
Portanto, Cov(X, Y ) = E[XY ] − E[X]E[Y ] = 11 − 10 = 1.
4.4.1 Propriedades da Covariância

Proposição 4.20 Sejam X e Y variáveis aleatórias arbitrárias e a, b, c e d contantes quaisquer. Então,
valem as seguintes igualdades:
• Cov(X, X) = V ar(X);
• Cov(aX + b, cY + d) = acCov(X, Y );
• V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y ).
• Cov(X, Y ) = E[(X − µX )Y ].

46 4.4. COVARIÂNCIA E CORRELAÇÃO
Demonstração. A primeira igualdade segue diretamente das definições de variância e covariân-

cia. Para a segunda igualdade, note que
Cov(aX + b, cY + d) = E[(aX + b − E[aX + b])(cX + d − E[cX + d])]

= E[(aX + b − aE[X] − b)(cX + d − cE[X] − d)]
= E[(aX − aE[X])(cX − cE[X])]
= acCov(X, Y ).
Para a terceira igualdade, temos o seguinte:
V ar(X + Y ) = E[((X + Y ) − E[X + Y ])2 ]

= E[(X + Y )2 − 2(X + Y )E[X + Y ] + (E[X + Y ])2 ]
= E[(X + Y )2 − 2(X + Y )(E[X] + E[Y ]) + (E[X + Y ])2 ]
Lembremos que
V ar[X] = E[(X − E[X])2 ] = E[X 2 − 2XE[X] + (E[X])2 ],
o que certamente vale para Y também. Então, retomando a álgebra acima,
V ar(X + Y ) = E[(X + Y )2 − 2(X + Y )(E[X] + E[Y ]) + (E[X + Y ])2 ]

= E[(X 2 + 2XY + Y 2 ) − 2(X + Y )(E[X] + E[Y ]) + (E[X + Y ])2 ]
= E[(X 2 + 2XY + Y 2 ) − 2(XE[X] + XE[Y ] + Y E[X] + Y E[Y ])
+ (E[X] + E[Y ])2 ]
= E[(X 2 − 2XE[X] + (E[X])2 ) + (Y 2 − 2Y E[Y ] + (E[Y ])2 )
+ 2(XY − XE[Y ] − Y E[X] + E[X]E[Y ])]
= E[X 2 − 2XE[X] + (E[X])2 ] + E[Y 2 − 2Y E[Y ] + (E[Y ])2 ]
| {z } | {z }
Var(X) Var(Y)
+ 2 E[XY − XE[Y ] − Y E[X] + E[X]E[Y ]]

| {z }
Cov(X, Y)
= V ar(X) + V ar(Y ) + 2Cov(X, Y ),
como queríamos demonstrar. Por fim, para a quarta igualdade, basta notar que
Cov(X, Y ) = E[(X − µX )(Y − µY )]

= E[XY − XµY − Y µX + µX µY ]
= E[XY − Y µX ] + E[µX µY − XµY ]
= E[(X − µX )Y ] + µX µY − µX µY
= E[(X − µX )Y ].
Observação 4.21 Observe da terceira igualdade da proposição anterior que quando X e Y são in-
dependentes e, portanto, Cov(X, Y ) = 0, segue que
V ar(X + Y ) = V ar(X) + V ar(Y ).
Introduziremos agora uma medida que não depende das unidades de medida de X e Y .
Definição 4.22 O coeficiente de correlação entre X e Y é dado por
Cov(X, Y )
ρ(X, Y ) = .
dp(X)dp(Y )
Observação 4.23 O coeficiente de correçação entre X e Y satisfaz as desigualdades abaixo:
−1 ≤ ρ(X, Y ) ≤ 1.
4.4.2 Propriedades do coeficiente de correlação

O coeficiente de correlação é uma medida de relação linear entre as variáveis aleatórias X
e Y . Quando ρ = ±1 existe uma correlação perfeita entre X e Y , uma vez que Y = aX + b.
Se ρ(X, Y ) = 1, a > 0, e se ρ(X, Y ) = −1, a < 0. O grau de associação linear entre X e Y
varia à medida que ρ varia entre −1 e 1.
Proposição 4.24 As seguintes igualdades são válias para o coeficiente de correlação entre duas va-
riáveis aleatórias X e Y :
• ρ(X + a, Y + b) = ρ(X, Y );
• ρ(aX, bY ) = ab
|ab|
ρ(X, Y ).

Questão 03/2010
Sobre a Teoria das Probabilidades e considerando A, B e C três eventos quaisquer, mas
com probabilidades de ocorrência diferentes de zero, indique as alternativas corretas e falsas:
(0) P (A|B)/P (B|A) = P (A)/P (B);

(1) Se dois eventos A e B são mutuamente exclusivos e exaustivos, eles são independentes;
(2) P (A ∩ B ∩ C) = P (A ∩ B) + P (C) se A, B e C são independentes;
(3) Probabilidade é uma função que relaciona elementos do espaço de eventos a valores no
intervalo fechado entre zero e um.
(4) P (A ∪ B ∪ C) ≤ P (A) + P (B) + P (C), com desigualdade estrita se, e somente se,
os eventos forem independentes.
Solução.
(0) Verdadeiro.
Demonstração. De fato,
P (A∩B)
P (A|B) P (B) P (A)
= P (A∩B)
= .
P (B|A) P (B)
P (A)
(1) Falso.
Demonstração. Se dois eventos A e B são mutuamente exclusivos, para um ocorrer o outro
não pode ocorrer e, portanto, eles são dependentes. De fato, como A ∩ B = ∅, então
P (A|B) = P (A ∩ B)/P (B) = P (∅)/P (B) = 0 ̸= P (A) > 0.
(2) Falso.
Demonstração. Se três eventos A, B e C são independentes, então
P (A ∩ B ∩ C) = P (A)P (B)P (C) < P (A)P (B) + P (C),
uma vez que P (C) < 1.
(3) Verdadeiro.
Demonstração. Vimos na definição de probabilidade exatamente isto.

(4) Falso.
Demonstração. A expressão do enunciado é satisfeita com igualdade se, e somente se, os
três eventos são exclusivos. Isso significa dizer que a expressão ocorre com desigualdade se,
e somente se, os três eventos não são exclusivos. Isto não necessariamente quer dizer que os
eventos precisam ser independentes.
Questão 03/2011
Julgue as afirmativas:
(0) Três eventos A, B e C são independentes se e somente se P (A∩B∩C) = P (A)P (B)P (C).
(1) Se P (A) = (1/3) e P (B c ) = 1/5, A e B não são disjuntos.
(2) Se P (A) = 0, 4, P (B) = 0, 8 e P (A|B) = 0, 2, então P (B|A) = 0, 4.
(3) Se P (B) = 0, 6 e P (A|B) = 0, 2, então P (Ac ∪ B c ) = 0, 88.
(4) Se P (A) = 0, então A = ∅
Solução.
(0) Falso.
Demonstração. A igualdade é necessária mas não suficiente. Para que três eventos sejam
independentes eles precisam ser independentes dois a dois e satisfazem esta igualdade.
(1) Verdadeiro.
Demonstração. Note que P (B c ) = 1 − P (B) = 1/5 ⇒ P (B) = 4/5. Se A e B fossem
disjuntos, P (A ∪ B) = P (A) + P (B) = 1/3 + 4/5 > 1. Portanto, eles não podem ser
disjuntos.
(2) Verdadeiro.
Demonstração. Pelo Teorema de Bayes,
P (A|B)P (B) 0.2 × 0.8

P (B|A) = = = 0.4.
P (A) 0.4
(3) Verdadeiro.
Demonstração. P (Ac ∪ B c ) = P ((A ∩ B)c ). Mas note que P (A ∩ B) = P (A|B)P (B) =
0.2 × 0.6 = 0.12. Portanto, P ((A ∩ B)c ) = 1 − 0.12 = 0.88.
(4) Falso.

Demonstração. Considere um lançamento de um dado de seis faces numeradas de 1 a 6 cada

face. Defina o evento A = {7}. Obviamente, P (A) = 0 mas A ̸= ∅. Portanto, a implicação do
enunciado não é válida.
Questão 04/2016
Uma determinada empresa tem três diferentes unidades (A, B e C). A tabela abaixo mostra
o número de funcionários homens e o número de funcionárias mulheres em cada uma das três
unidades:
Homens Mulheres
Unidade A 100 100
Unidade B 40 60
Unidade C 20 80
Com base nessas informações, é correto afirmar:
(0) Suponha que um funcionário dessa empresa escolhido aleatoriamente seja uma mulher.
A probabilidade de que essa pessoa trabalhe na unidade B é igual a 25%;
(1) A probabilidade de um funcionário escolhido aleatoriamente ser homem e trabalhar na
unidade C é igual a 12, 5%;
(2) A probabilidade de um funcionário escolhido aleatoriamente ser um homem que trabalha
na unidade A ou uma mulher que trabalha na unidade C é igual a 45%.
(3) Suponha que um funcionário da empresa escolhido aleatoriamente trabalhe na unidade
B. A probabilidade de que essa pessoa seja uma mulher é igual a 15%;
(4) Considere que um funcionário da empresa escolhido aleatoriamente seja um homem. A
probabilidade de que essa pessoa trabalhe na unidade A é igual a 25%.
Solução.
(0) Verdadeiro.
Demonstração. P (B|M ) = 60/240 = 1/4 = 25%.
(1) Falso.
Demonstração. A probabilidade de ser homem e trabalhar na empresa C é 20/400 = 1/20 =
0, 05.

(2) Verdadeiro.
Demonstração. A probabilidade de um funcionário escolhido aleatoriamente ser um homem
que trabalha na unidade A é 1/4 e a probabilidade de um funcionário escolhido aleatoriamente
ser uma mulher que trabalha na unidade C é 1/5. Assim, como os eventos não têm intersecção,
a probabilidade de um funcionário escolhido aleatoriamente ser um homem que trabalha na
unidade A ou uma mulher que trabalha na unidade C é igual a 1/4 + 1/5 = 9/20 = 0.45.
(3) Falso.
Demonstração. P (M |B) = 60/100 = 60%.
(4) Falso.
Demonstração. P (A|H) = 100/160 = 62.5%.
Questão 03/2014
A tabela abaixo oferece informações sobre uma determinada cidade. A População Econo-
micamente Ativa (PEA) de 120 habitantes que está em busca de emprego ou participando do
mercado de trabalho possui a seguinte distribuição:
Empregado Desempregado
Possui curso superior 40 10
Não possui curso superior 40 30
Com base nessas informações, é correto afirmar que:
(0) A taxa de desemprego da PEA é de 25%;

(1) Se um indivíduo tem curso superior, a probabilidade de que esteja desempregado é igual
a 20%;
(2) Se um indivíduo está empregado, a probabilidade de que tenha curso superior é maior
do que a probabilidade de que não tenha curso superior;
(3) 1/3 dos indivíduos que participam do mercado de trabalho possuem curso superior;
(4) Se um indivíduo está desempregado, a probabilidade de que não possua curso superior
é igual a 75%.
Solução.
(0) Falso.
Demonstração. A taxa de desemprego é 40/120 = 1/3 = 33, 3%.

(1) Verdadeiro.
Demonstração. Nosso espaço amostral, dado que o indivíduo tem curso superior, é o conjunto
das pessoas que possui curso superior. Assim, a probabilidade de um indivíduo estar desempre-
gado dado que ele tem curso superior é 10/50 = 1/5 = 20%.
(2) Falso.
Demonstração. Nosso espaço amostral, dado que o indivíduo está empregado, é o conjunto
das pessoas empregadas. Assim, a probabilidade de um indivíduo ter curso superior dado que
ele está empregado é 40/80 = 50%, que é igual à probabilidade de um indivíduo não ter curso
superior dado que ele está empregado.
(3) Falso.
Demonstração. Esta proporção é 40/80 = 1/2.
(4) Verdadeiro.
Demonstração. Nosso espaço amostral, dado que o indivíduo está desempregado, é o conjunto
das pessoas desempregadas. Assim, a probabilidade de um indivíduo não ter curso superior
dado que ele está desempregado é 30/40 = 3/4 = 75%.
Questão 03/2022
Uma pesquisa realizada com 250 estudantes de uma universidade (120 homens e 130 mu-
lheres) perguntou, de uma lista de três esportes, qual o preferido do estudante: futebol, vôlei ou
basquete (apenas uma opção era permitida). Entre os homens, 1/3 prefere basquete e metade
prefere futebol. Entre as mulheres, 60 preferem futebol e 60 preferem vôlei. Se um estudante
escolhido aleatoriamente nessa amostra tem como esporte preferido (entre as três opções apre-
sentadas) o basquete, qual a probabilidade de que seja um homem? Multiplique o resultado por
100.
Solução.
Demonstração. Se 1/3 entre os homens preferem basquete, então são 1/3×120 = 40 homens
que preferem basquete, enquanto que entre as mulheres, apenas 130 − 60 − 60 = 10 prefere
basquete. Assim, Se um estudante escolhido aleatoriamente nesta amostra tem como esporte
preferido o basquete, então nosso espaço amostral relevante é dado pelo conjunto de pessoas
que preferem basquete. Portanto, se queremos calcular a probabilidade de que tal estudante
seja homem, basta fazer:
40/50 = 4/5 = 0.8.

A resposta final, portanto, é 100 × 0.8 = 80.
Questão 15/2016
Cinco (5) parafusos defeituosos foram misturados com sete (7) outros parafusos bons numa
caixa e vendidos para a instalação de um armário que precisa de quatro (4) parafusos. Qual a
probabilidade de que quatro (4) parafusos defeituosos sejam escolhidos em sequência? Multi-
plique o resultado por 1000 e considere apenas a parte inteira do resultado.
Solução.
Demonstração. A probabilidade de que quatro (4) parafusos defeituosos sejam escolhidos em

sequência é a probabilidade de tirar um parafuso defeituoso em 12 (sendo 7 bons e 5 defeituo-
sos) vezes a probabilidade de tirar um parafuso defeituoso em 11 (sendo 7 bons e 4 defeituosos)
vezes a probabilidade de tirar um parafuso defeituoso em 10 (sendo 7 bons e 3 defeituosos)
vezes a probabilidade de tirar um parafuso defeituoso em 9 (sendo 7 bons e 2 defeituosos).
Portanto, tal probabilidade é:
5 4 3 2
× × × = 1/99.
12 11 10 9
A resposta final é, portanto, 1000 × 1/99 = 10.
Questão 15/2011
Num torneio de squash entre três jogadores, A, B e C, cada um dos competidores enfrenta
todos os demais uma única vez (isto é, A joga contra B, A joga contra C e B joga contra C).
Assuma as seguintes probabilidades:
P (A vença B) = 0, 6; P (A vença C) = 0, 7; P (B vença C) = 0, 6.
Assumindo independência entre os resultados das partidas, compute a probabilidade de

que A vença um número de partidas pelo menos tão grande quanto qualquer outro jogador.
Multiplique o resultado por 100.

Solução.
Demonstração. Para que A vença um número de partidas pelo menos tão grande quanto qual-
quer outro jogador, ele precisa vencer ou ao menos uma partida. As situações possíveis são:
1. A vence B, C vence A, e B vence C;
2. A vence C, B vence A, e C vence B;
3. A vence B e C.
A probabilidade da situação 1 é 0.6 × 0.3 × 0.6 = 0.108; a probabilidade da situação 2 é

0.7 × 0.4 × 0.4 = 0.112; finalmente, a probabilidade da situação 3 é 0.6 × 0.7 = 0.42. Portanto,
a probabilidade de que A vença um número de partidas pelo menos tão grande quanto qualquer
outro jogador é
0.108 + 0.112 + 0.42 = 0.64.
A resposta final é, portanto, 100 × 0.64 = 64.
Questão 12/2014
Suponha que as ocupações são agrupadas em 3 níveis: alto (A), médio (M ) e baixo (B).
Seja A1 o evento que a ocupação do pai é o nível alto, M1 o evento que a ocupação do pai é
nível médio, e B1 o evento que a ocupação do pai é nível baixo. De forma análoga, seja A2 o
evento que a ocupação do filho é o nível alto, M2 o evento que a ocupação do filho é nível médio
e B2 o evento que a ocupação do filho é nível baixo. Temos a seguinte matriz de probabilidades
condicionais:
A2 M2 B2
A1 0, 45 0, 48 0, 07
M1 0, 05 0, 70 0, 25
B1 0, 01 0, 50 0, 49
Nesta tabela, temos as probabilidades condicionais da ocupação do filho dada à ocupação

do pai. Por exemplo, P r[A2 |A1 ] = 0, 45. Suponha que na geração de pais 10% estão em A,
40% em M e 50% em B. Julgue as seguintes afirmativas:
(0) A probabilidade de um pai e um filho estarem ambos em ocupações de baixo nível é 0, 49;
(1) A probabilidade de um filho estar em uma ocupação de alto nível é 15%;
(2) Se a ocupação do filho é A2 , a probabilidade do pai ter ocupação A1 é 0, 45;

(3) Se a ocupação do pai é baixa, a probabilidade da ocupação do filho ser alta é 0, 01;
(4) A probabilidade de pai e filho ambos terem ocupações de alto nível é 0, 045.
Solução.
(0) Falso.
Demonstração. Sabemos da tabela que P (B2 |B1 ) = 0.49 e do enunciado que P (B1 ) = 0.5.
Assim, da fórmula da probabilidade condicional temos que a probabilidade de um pai e um filho
estarem ambos em ocupações de baixo nível é
P (B1 ∩ B2 ) = P (B2 |B1 )P (B1 ) = 0.49 × 0.5 = 0.245 ̸= 0.49.
(1) Falso.
Demonstração. P (A2 ) = P (A2 ∩A1 )P (A2 ∩M1 )P (A2 ∩B1 ) = P (A2 |A1 )P (A1 )+P (A2 |M1 )P (M1 )+
P (A2 |B1 )P (B1 ) = 0.45 × 0.1 + 0.05 × 0.4 + 0.01 × 0.5 = 0.005 + 0.02 + 0.045 = 0.07 ̸= 0.15.
(2) Falso.
Demonstração. Queremos achar P (A1 |A2 ). Pelo Teorema de Bayes apresentado no texto,
P (A1 ∩ A2 ) P (A1 |A2 )P (A2 )

P (A2 |A1 ) = =
P (A1 ) P (A1 )
P (A1 )P (A2 |A1 ) 0.1 × 0.45 9 9
⇔ P (A1 |A2 ) = = = > 0.45 = .
P (A2 ) 0.07 14 20
(3) Verdadeiro.
Demonstração. Queremos P (A2 |B1 ), que é exatamente o número 0.01 que a tabela nos dá na
primeira coluna e última linha dos valores.
(4) Verdadeiro.
Demonstração. Queremos o valor de P (A1 ∩ A2 ), que já foi calculado na resposta do item (1).
Assim, vemos que P (A1 ∩ A2 ) = 0.045.

Questão 09/2013
Uma firma de consultoria econômica possui um modelo para prever recessões. O modelo
prevê corretamente uma recessão com probabilidade de 80% quando ela realmente está a ca-
minho e com probabilidade de 10% quando ela não está a caminho. A probabilidade não con-
dicional de a economia passar por uma recessão é de 20%. Se o modelo prevê uma recessão,
qual é a probabilidade de que ela realmente esteja a caminho? Multiplique o resultado por 100
e arredonde para o número inteiro mais próximo.
Solução.
Demonstração. Seja R o evento “recessão" e P o evento “o modelo prevê a recessão". Assim,
das informações do enunciado, P r(P |R) = 0.8, P r(P |Rc ) = 0.1, e P r(R) = 0.2. Queremos
calcular P r(R|P ). Note que
P r(P ) = P r(P ∩ R) + P (P ∩ Rc ) = P r(P |R)P r(R) + P r(P |Rc )P r(Rc )

= 0.8 × 0.2 + 0.1 × 0.8 = 0.24.
Portanto,
P r(P ∩ R) P r(R|P )P r(P )

P r(P |R) = =
P r(R) P r(R)
P r(R)P r(P |R) 0.2 × 0.8
⇔ P r(R|P ) = = = 2/3.
P r(P ) 0.24
A resposta final é, portanto, 100 × 2/3 = 200/3, que arredondando é 67.
Questão 07/2017
Com relação à Teoria da Probabilidade pode-se afirmar que:
(0) Sejam os eventos independentes A e B, então P (A ∪ B) = P (A) + P (B).
(1) Se A ⊂ B, então P (A) = P (B) + P (B − A).
(2) A, B e C eventos independentes se, e somente se, P (A ∪ B ∪ C) = P (A) + P (B) +
P (C).
(3) Considere um conjunto finito A1 , A2 , ..., An um conjunto de eventos tais que os eventos
condicionais Ai |A1 ∩ A2 ∩ ... ∩ Ai−1 tenham probabilidades positivas. Então P (∩ni=1 Ai ) =
P (A1 )P (A2 |A1 )P (A3 |A1 ∪ A2 )P (An | ∪n−1
i=1 Ai ).
(4) Se dois eventos são disjuntos, então P (A ∩ B) = P (A)P (B).

Solução.
(0) Falso.
Demonstração. Se os eventos são independentes, então temos certeza que eles possuem al-
guma intersecção. Deste modo, P (A ∪ B) = P (A) + P (B) − P (A ∩ B), de modo que
P (A ∩ B) ̸= 0. Portanto P (A ∪ B) ̸= P (A) + P (B).
(1) Falso.
Demonstração. Contraexemplo: suponha A = ∅ e B ̸= ∅, de tal modo que P (B) ̸= 0. Então
∅ ⊂ B pois caso contrário deveria existir algum elemento no conjunto vazio que não está em B,
contradizendo o fato de ele ser vazio. Então, P (A) = 0 ̸= P (B) + P (B − A), já que P (B) > 0
e P (B − A) ≥ 0. Como mostramos um caso em que a sentença não se satisfaz, segue que a
afirmação não pode ser verdadeira.
(2) Falso.
Demonstração. Tal igualdade ocorre se, e somente se, os eventos são disjuntos, o que não quer
dizer que são independentes.
(3) Falso.
Demonstração. P (∩ni=1 Ai ) = P (A1 )P (A2 |A1 )P (A3 |A2 ∩ A1 ) · · · P (An | ∩n−1
i=1 Ai ).
(4) Falso.
Demonstração. Tal igualdade é válida para eventos independentes. Eventos disjuntos satisfa-
zem P (A ∩ B) = 0 ̸= P (A)P (B).
Questão 09/2011
A variável aleatória discreta X assume apenas os valores 0, 1, 2, 3, 4 e 5. A função massa de
probabilidade de X é dada por
• P (X = 0) = P (X = 1) = P (X = 2) = P (X = 3) = a
• P (X = 4) = P (X = 5) = b
• P (X ≥ 2) = 3P (X < 2).
E[·] e V [·] denotam, respectivamente, esperança e variância. Julgue as seguintes afirmati-

vas:
(0) Para que a função massa de probabilidade seja válida, a = 1/4 e b = 1/8.
(1) E[X] = 3.
(2) V [X] = 12.

Solução.
(0) Falso.
Demonstração. Note que o evento X < 2 é o complementar de X ≥ 2. Portanto, P (X ≥
2) + P (X < 2) = 1. Observe que
P (X ≥ 2) = P (X = 2 ∨ X = 3 ∨ X = 4 ∨ X = 5)
= P (X = 2) + P (X = 3) + P (X = 4) + P (X = 5)
= 2a + 2b.
Assim, da igualdade P (X ≥ 2) = 3P (X < 2) e de P (X ≥ 2) + P (X < 2) = 1, temos:
2(a + b) = 3(1 − 2a − 2b) ⇔ 2a + 2b + 6a + 6b = 3 ⇔ a + b = 3/8
Note também que é necessário valer que 4a + 2b = 1, já que a soma das probabilidades
de cada evento precisa somar uma unidade. Portanto, resolvendo o sistema com estas duas
equações de a e b, podemos ver que a = 1/8 e b = 1/4, exatamente o contrário da afirmação
deste item do enunciado.
(1) Verdadeiro.
Demonstração. Com os valores de a e b estabelecidos na respostra do item anterior, temos
que
µ = E[X] = 0P (X = 0) + 1P (X = 1) + 2P (X = 2) + 3P (X = 3) + 4P (X = 4) + 5P (X = 5)
= a + 2a + 3a + 4b + 5b = 3/4 + 9/4 = 3.
(2) Falso.
Demonstração. Note que
E[X 2 ] = 02 P (X = 0) + 12 P (X = 1) + 22 P (X = 2) + 32 P (X = 3) + 42 P (X = 4) + 52 P (X = 5)
= a + 4a + 9a + 16b + 25b = 7/4 + 41/4 = 12.
Da resposta ao item anterior, µ = 3. Portanto, V [X] = 12 − 32 = 3.

Questão 07/2019
Suponha que X e Y sejam variáveis aleatórias independentes, em que X é igual a 1 com
probabilidade 0, 5 e X é igual a −1 com probabilidade 0, 5, assim como Y é igual a 1 com
probabilidade 0, 5 e Y é igual a −1 com probabilidade 0, 5. Considere também a variável Z, que
é definida como Z = XY . A partir dessas informações, é correto afirmar:
(0) V ar(X) = 1.
(1) V ar(Z) = 1
1
(2) P rob(X = 1, Z = 1) = 2
1
(3) P rob(X = 1, Y = 1, Z = 1) = 4
(4) P rob(X = 1, Y = 1, Z = 1) = P rob(X = 1) × P rob(Y = 1) × P rob(Z = 1).
Solução.
(0) Verdadeiro.
Demonstração. Note que E[X 2 ] = 1 · 0, 5 + (−1)2 · 0, 5 = 1, e µX = E[X] = 0. Então,
V ar(X) = E[X 2 ] − µ2X = 1.
(1) Verdadeiro.
Demonstração. Sabemos que V ar(Z) = V ar(XY ) = E[(XY )2 ] − (E[XY ])2 . Como as
variáveis X e Y são independentes,
V ar(Z) = V ar(XY ) = E[X 2 ]E[Y 2 ] − E[X]E[Y ].
Do item anterior e das informações do enunciado, podemos ver que E[X 2 ] = E[Y 2 ] = 1 e
E[X] = E[Y ] = 0. Portanto, V ar[Z] = 1.
(2) Falso.
Demonstração. Note que X = 1 ∧ Z = 1 pode acontecer se, e somente se, Y = 1. Então,
P [X = 1, Z = 1] = P [X = 1, Y = 1] = P [X = 1]P [Y = 1] = 1/2 × 1/2 = 1/4
(3) Verdadeiro.
Demonstração. Pela resposta do item anterior podemos ver que a afirmação é válida.
(4) Falso.

Demonstração. Das respostas dos itens anteriores, P [X = 1, Y = 1, Z = 1] = 1/4 = P [X =

1]P [Y = 1]. Mas note que
P [Z = 1] = P [XY = 1] = P [X = 1, Y = 1] + P [X = −1, Y = −1]

= P [X = 1]P [Y = 1] + P [X = −1]P [Y = −1] = 1/2 ̸= 1.
Portanto, P [X = 1, Y = 1, Z = 1] ̸= P [X = 1]P [Y = 1]P [Z = XY = 1].
Questão 07/2014
Sejam X e Y duas variáveis aleatórias, enquanto a, b, c e d são quatro constantes diferentes
de zero. Julgue as proposições:
(0) V ar(aX + b) = a2 V ar(X).
(1) V ar(aX − cY ) = aV ar(X) + cV ar(Y ) − 2Cov(X, Y ).
(2) Cov(aX + bY, cX + dY ) = acV ar(X) + bdV ar(Y ) + (ad + bc)Cov(X, Y ).
Solução.
(0) Verdadeiro.
Demonstração. Vimos no texto que esta é uma das propriedades da variância.
(1) Falso.
Demonstração. V ar(aX − cY ) = a2 V ar(X) + c2 V ar(Y ) + 2(−ac)Cov(X, Y ).
(2) Verdadeiro.
Demonstração.
Cov(aX + bY, cX + dY ) = Cov(aX, cX) + Cov(aX, dY ) + Cov(bY, cX) + Cov(bY, dY )

= acV ar(X) + (ad + bc)Cov(X, Y ) + bdV ar(Y )
Questão 05/2012
Sejam X e Y duas variáveis aleatórias independentes com E[X] = 4, E[Y ] = 5, V ar[X] =
1 e V ar[Y ] = 2. São corretas as afirmativas:
(0) E[XY ] = 9.
(1) E[ Y1 ] = 15 .

(2) E[X 2 ] = 16.

(3) Cov(X, Y ) = 0.
(4) V ar[XY ] = (E[Y ])2 V ar(X) + (E[X])2 V ar(Y ) + V ar(X)V ar(Y ) = 59.
Solução.
(0) Falso.
Demonstração. Como são independentes, E[XY ] = E[X]E[Y ] = 4 × 5 = 20.
(1) Falso.
Demonstração. Contraexemplo: seja Y uma variável aleatória tal que P (Y = 3) = 0, 5 e
P (Y = 7) = 0, 5. Note que E[Y ] = 5 e V ar[Y ] = 2, como no enunciado. No entanto,
ï ò
1 1 1 10 1
E = P (Y = 3) + P (Y = 7) = ̸= .
Y 3 7 21 5
(2) Falso.
Demonstração. Contraexemplo: seja X uma variável aleatória tal que P (X = 3) = 0, 5 e
P (Y = 5) = 0, 5. Note que E[X] = 4 e V ar[X] = 1, como no enunciado. No entanto,
E[X 2 ] = 32 P (X = 3) + 52 P (X = 5) = 34 · 0, 5 = 17 ̸= 16.
(3) Verdadeiro.
Demonstração. Cov(X, Y ) = E[XY ] − E[X]E[Y ] = 20 − 20 = 0. De fato, as variáveis são
independentes e, portanto, a covariância deve ser nula.
(4) Verdadeiro.
Demonstração. Novamente usaremos o fato de que X e Y são independentes. Note que
V ar[XY ] = E[(XY )2 ] − (E[XY ])2 = E[X 2 ]E[Y 2 ] − (E[X]E[Y ])2
Como para qualquer v.a. Z, V ar[Z] = E[Z 2 ] − (E[Z])2 , então E[Z 2 ] = V ar[Z] + (E[Z])2 .
Substituindo esta igualdade na expressão acima para as variáveis aleatórias X e Y obtemos
V ar[XY ] = (V ar[X] + (E[X])2 )(V ar[Y ] + (E[Y ])2 ) − (E[X]2 )(E[Y ]2 )

= V ar[X]V ar[Y ] + V ar[X](E[Y ])2 + V ar[Y ](E[X])2 ,

que é, de fato, a primeira igualdade da sentença do item. Para a segunda igualdade, basta
utilizarmos os valores dados no enunciado da questão, isto é,
V ar[X]V ar[Y ] + V ar[X](E[Y ])2 + V ar[Y ](E[X])2 = 2 + 52 + 2 · 42 = 59.
Questão 06/2012
(0) Suponha que X1 , X2 , ..., Xn sejam variáveis aleatórias independentes e identicamente
distribuídas com distribuição de Bernoulli com parâmetro p. Então, X = ni=1 Xi possui uma
P
distribuição binomial com parâmetros n e p.
Solução.
(0) Verdadeiro.
Demonstração. Vimos exatamente isto na definição da distribuição binomial, no texto.
Questão 03/2017
São corretas as afirmativas:
(0) Se X é uma variável aleatória com distribuição Binomial com parâmetros n e p, em que
n é um inteiro positivo e 0 < p < 1, então E(X) = np e V ar(X) = p(1 − p).
(1) Seja X uma variável aleatória com distribuição de Poisson. Se E(X) = λ, então a
variância de X é λ.
(2) Se X é uma variável aleatória uniformemente distribuída em [−c, c], em que c > 0, então
E(X) = 0.
(3) Seja X uma variável aleatória com distribuição de probabilidade P (X = k) = (1 −
p) p, em que 0 < p < 1 e k = 1, 2, ... . Então E(X) = kp.
k−1
(4) Seja X uma variável aleatória com distribuição de probabilidade P (X = k) = (1 −

p) p, em que 0 < p < 1 e k = 1, 2, ... . Então a variância de X é (1−p)
k−1
p2
.
Solução.
(0) Falso.

Demonstração. V ar(X) = np(1 − p) ̸= p(1 − p).

(1) Verdadeiro.
Demonstração. Visto no texto.
(2) ?.
Demonstração.
(3) Falso.
Demonstração. Trata-se de uma distribuição geométrica, como vimos no texto. Então E[X] =
1/p ̸= kp, para k = 1, ....
(4) Verdadeiro.
Demonstração. Novamente trata-se de distribuição geométrica, cuja variância é esta mesmo,
conforme visto no texto.
Questão 03/2018
Considere um indivíduo procurando emprego. Para cada entrevista de emprego (X) esse
indivíduo tem um custo linear (C) de 10,00 Reais. Suponha que a probabilidade de sucesso em
uma entrevista qualquer seja de 0, 2. Suponha também que as entrevistas sejam independentes,
e que o indivíduo continue fazendo entrevistas até que tenha o primeiro resultado de sucesso.
Calcule o custo esperado em Reais desse processo de busca até alcançar o primeiro sucesso.
Assuma que X segue uma distribuição geométrica.
Solução.
Demonstração. Sabemos que se X segue uma distribuição geométrica, então E[X] = 1/p =
1/0.2 = 5. Portanto, dado que o indivíduo possui um custo de 10 reais por entrevista, o custo
esperado em Reais desse processo de busca até alcançar o primeiro sucesso é 10 × 5 = 50.
Questão 14/2017
Suponha que as vendas (Q) do produto X são aleatoriamente distribuídas na economia e
possuem uma distribuição binomial com parâmetro p (preço), sendo n o número de vendas
observado, então:
(0) A esperança matemática de Q é E(Q) = n(1 − p);
(1) A média das vendas é dada por E(Q) = np;

(2) A variância das vendas por Q ou V (Q) = np(1 − p);

(3) O preço que maximiza a variância é p = 1/2;
(4) O preço está no intervalo 0 e 1.
Solução.
(0) Falso.
Demonstração. A esperança matemática de Q é E(Q) = np ̸= n(1 − p).
(1) Verdaeiro.
Demonstração. Visto no texto e no item anterior.
(2) Verdadeiro.
Demonstração. Visto no texto exatamente isto.
(3) Verdadeiro.
Demonstração. Note que a condição de primeira ordem nos dá
V ′ (p∗ ) = n − 2np∗ = 0 ⇔ p∗ = 1/2,
que nos dá o preço que maximiza a variância, uma vez que a função é côncava em p.
(4) Verdadeiro.
Demonstração. O preço é o parâmetro que, no problema, está representado a probabilidade.
Portanto, p ∈ [0, 1].
Questão 08/2013
Em um dia de verão, você está sentado em um parque olhando as pessoas passarem. A
probabilidade de uma pessoa estar andando de bicicleta é p, e a probabilidade de uma pessoa
estar andando a pé é 1 − p. As probabilidades dos eventos são independentes. Defina Y como
o número de pessoas andando de bicicleta até que n pessoas passem por você. Defina Z como
o número de pessoas andando de bicicleta que passam por você antes da primeira pessoa an-
dando a pé passar por você.
Com base nas informações acima, podemos afirmar que:
(0) Y tem uma distribuição binomial com parâmetros n e p.
(1) Z tem uma distribuição de Bernoulli com parâmetro p.

Solução.
(0) Verdadeiro.
Demonstração. No problema, se X é a v.a. representando o evento “andar de bicicleta" e o
sucesso é encontrar pessoas andando de bicicleta, então X segue a distribuição de Bernoulli.
Numa amostra de n indivíduos, se estamos querendo saber quantas pessoas passam andando
de bicicleta, temos que Y = X1 + ... + Xn e, portanto, Y segue uma distribuição binomial.
(1) Falso.
Demonstração. Z segue uma distribuição geométrica, uma vez que o problema quer deter-
minar os fracassos (“pessoa andando de bicicleta") até encontrar o primeiro sucesso (“pessoa
andando a pé").
Questão 10/2017
Considere a distribuição de probabilidade conjunta das variáveis aleatórias X e Y , de acordo
com a tabela abaixo.
X
0 1 2 3
1 1/4 1/8 1/8 1/4
Y
2 0 1/8 1/8 0
Pode-se afirmar que:
(0) E(X) = 3/2.

(1) V ar(X) = 1.
(3) V ar(X|Y = 2) = 1.
Solução.
(0) Verdadeiro.
Demonstração. Note que P (X = 0) = P (X = 1) = P (X = 2) = P (X = 3). Assim,
E[X] = 1/4(0 + 1 + 2 + 3) = 3/2.
(1) Falso.

Demonstração. Note que E[X 2 ] = 1/4(02 + 12 + 22 + 32 ) = 7/2. Sabemos que V ar(X) =

E[X 2 ] − (E[X])2 . Portanto, usando a informação da resposta do item anterior, segue que
V ar(X) = 7/2 − (3/2)2 = 5/4 ̸= 1.
(3) Falso.
Demonstração. Temos que calcular V ar(X|Y = 2) = E[X 2 |Y = 2] − (E[X|Y = 2])2 . Note
que
E[X 2 |Y = 2] = 02 P (X = 0|Y = 2) + 12 P (X = 1|Y = 2) + 22 P (X = 2|Y = 2)

+ 32 P (X = 3|Y = 2)
= 1/2 + 2 = 5/2.
Ainda,
(E[X|Y = 2])2 = (P (X = 1|Y = 2) + 2P (X = 2|Y = 2))2

= (1/2 + 1)2 = 9/4.
Portanto, V ar(X|Y = 2) = 5/2 − 9/4 = 1/4.
Questão 10/2015
(x+y 2 )
Considere a seguinte função de massa de probabilidade: f (x, y) = 27
, para x ∈ {1, 2, 3}
e y ∈ {1, 2}.
Julgue as seguintes afirmativas:
(0) A distribuição marginal de X é P r[X = 1] = 1

3
e P r[X = 2] = 23 .
(1) E[Y ] = 53 .
(2) V ar[Y ] = 3.
(4) X e Y são variáveis aleatórias independentes.
Solução.
(0) Falso.
f (1, 1) = 2/27
f (1, 2) = 5/27
f (2, 1) = 3/27

f (2, 2) = 6/27
f (3, 1) = 4/27
f (3, 2) = 7/27.
Assim, P r[X = 1] = 7/27 ̸= 1/3 e P r[X = 2] = 1/3 ̸= 2/3.
(1) Verdadeiro.
Demonstração. E[Y ] = 1P (Y = 1) + 2P (Y = 2) = 9/27 + 2 · 18/27 = 1/3 + 4/3 = 5/3.
(2) Falso.
Demonstração. Observe que E[Y 2 ] = 12 P (Y = 1) + 22 P (Y = 2) = 9/27 + 4 · 18/27 = 3.
Então, usando também a informação da solução do item anterior, V ar[Y ] = E[Y 2 ]−(E[Y ])2 =
3 − 25/9 ̸= 3.
(4) Falso.
Demonstração. Se X e Y são independentes, então sabemos que P (X = x, Y = y) =
P (X = x)P (Y = y), para todo x ∈ {1, 2, 3} e y ∈ {1, 2}. Mas note que
P (X = 1, Y = 1) = 2/27 ̸= P (X = 1)P (Y = 1) = 7/27 × 9/27 = 7/81.
Portanto, tais variáveis não são independentes.
Questão 13/2012
Sejam W1 e W2 variáveis aleatórias discretas independentes com a seguinte função de pro-
babilidade: f (0) = 12 , f (1) = 13 , f (2) = 61 . Seja Y = W1 + W2 .
(0) E[Y ] = 43 .
(1) V ar[Y ] = 10
9
.
(3) Usando os dados acima, obtemos que P (Y ≥ 3) = 1
36
.
(4) Y é uma variável aleatória discreta que assume os seguintes valores {0, 1, 2, 3, 4, 5}.
Solução.
(0) Verdadeiro.
Demonstração. E[Y ] = E[W1 + W2 ] = E[W1 ] + E[W2 ] = 2E[W1 ] = 2(1/3 + 1/3) = 4/3.
(1) Verdadeiro.

Demonstração. Como W1 e W2 são independentes e Y = W1 + W2 , então
V ar(Y ) = V ar(W1 + W2 ) = V ar(W1 ) + V ar(W2 ) = 2V ar(W1 ) = 2(E[W12 ] − (E[W1 ])2 )

= 2(1/3 + 2/3 − 4/9) = 10/9.
(3) Falso.
Demonstração. Y ≥ 3 se (W1 = 1 e W2 = 2) ∨ (W1 = 2 e W2 = 1) ∨ (W1 = 2 e W2 = 2).
Então,
P (Y ≥ 3) = 2P (W1 = 1, W2 = 2) + P (W1 = 2, W2 = 2).
Como as variáveis Wi são independentes, então
P (Y ≥ 3) = 2P (W1 = 1)P (W2 = 2) + P (W1 = 2)P (W2 = 2)

2 1 1
= + ̸= .
18 36 36
(4) Falso.
Demonstração. Como Wi ∈ {1, 2} e Y = W1 + W2 , o valor máximo que a variável aleatória Y
pode atingir é, obviamente, 4.
Questão 13/2019
Sejam X e Y variáveis aleatórias independentes. Cada uma dessas duas variáveis tem dis-
tribuição de Bernoulli com parâmetro p. Sendo W = max(X, Y ), julgue as afirmativas abaixo:
(0) A variável W tem distribuição binomial.

(1) P rob(W = 1) = p(1 − p).
(2) Se p = 21 , então P rob(W = 1) > P rob(W = 0).
(3) E(W ) = 2p.
(4) V ar(W ) = [p(1 − p)]2
Solução.
(0) Falso.
Demonstração.

(1) Falso.
Demonstração. P (W = 1) = P (X = 0, Y = 1) + P (X = 1, Y = 0) + P (X = 1, Y = 1) =
2p(1 − p) + p2 = 2p − p2 = p(2 − p).
(2) Verdadeiro.
Demonstração. Se p = 1/2, da resposta do item anterior segue que P (W = 1) = 3/4. Note
que P (W = 0) = 1 − P (W = 1) = 1 − 3/4 = 1/4. Portanto, P (W = 1) > P (W = 1).
(3) Falso.
Demonstração. E[W ] = P (W = 1) = p(2 − p).
(4) Falso.
Demonstração. Do item anterior, E[W ] = p(2 − p). Note que E[W 2 ] = 12 P (W = 1) =
p(2 − p). Lembremos que V ar[W ] = E[W 2 ] − (E[W ])2 . Então,
V ar[W ] = p(2 − p) − p2 (2 − p)2 = p(2 − p)[1 − p(2 − p)]

= p(2 − p)(1 − 2p + p2 ) = p(2 − p)(p − 1)2
̸= [p(q − p)]2 .
Questão 15/2012
Suponha que o número de vezes durante um ano que um indivíduo pega uma gripe seja
modelado por uma variável aleatória com distribuição de Poisson com esperança igual a 4. Adi-
cionalmente, suponha que uma nova droga baseada na vitamina C reduza a esperança para 2,
para 80% da população (e que a variável aleatória ainda siga uma distribuição de Poisson), mas
que não tenha nenhum efeito para os 20% restantes.
(0) A probabilidade de um indivíduo que toma a nova droga, e é parte da população que se
beneficia dela, pegar duas gripes em um ano é 8e−4 .
(1) A probabilidade de um indivíduo que não se beneficia da nova droga pegar duas gripes
em um ano é 2e−2 .
(2) A probabilidade de um indivíduo que não se beneficia da nova droga pegar no máximo
duas gripes em um ano é 12e−4 .
(3) A probabilidade de um indivíduo que toma a nova droga, selecionado aleatoriamente na
população, pegar duas gripes em um ano é 1, 6(e−2 + e−4 ).

(4) Suponha que um indivíduo escolhido aleatoriamente na população tenha pego duas
gripes durante um ano em que ele tomou a nova droga. A probabilidade de ele fazer parte da
parcela que se beneficia da nova droga é (1 + e−4 )−1 .
Solução.
(0) Falso.
Demonstração. Seja B o evento de que o indivíduo é beneficiado pela droga. Ainda, considere
X tal variável aleatória seguindo uma distribuição de Poisson. Então, E[X] = np = 4 sem a
nova droga, e E[X] = np = 2 com a nova droga. Então, a probabilidade de um indivíduo que
toma a nova droga, e é parte da população que se beneficia dela, pegar duas gripes em um ano
é
e−2 22
P (X = 2|B) = = 2e−2 .
2!
(1) Falso.
Demonstração. A probabilidade de um indivíduo que não se beneficia da nova droga pegar duas
gripes em um ano é
e−4 42
P (X = 2|B c ) = = 8e−4 .
2!
(2) Verdadeiro.
Demonstração. “Pegar no máximo duas gripes" quer dizer que o indivíduo que não se beneficia
da droga ou não pega gripe ou pega uma ou pega duas vezes a gripe em um ano. Então,
P (X ≤ 2|B c ) = P (X = 0|B c ) + P (X = 1|B c ) + P (X = 2|B c )

e−4 40 e−4 41 e−4 42
= + + = e−4 + 4e−4 + 8e−4 = 13e−4 .
0! 1! 2!
(3) Verdadeiro.
Demonstração. Selecionando o indivíduo aleatoriamente, ou ele é uma pessoa que a droga
faz efeito ou não. Seja B o evento que diz que ele é um indivíduo que se beneficia. Como os
eventos são disjuntos, temos então que a probabilidade de um indivíduo que toma a nova droga,
selecionado aleatoriamente na população, pegar duas gripes em um ano é
e−2 22 e−4 42
P (X = 2) = 0.8 × P (X = 2|B) + 0.2 × P (X = 2|B c ) = 0.8 × + 0.2 ×
2! 2!

= 0.8 × 2e−2 + 0.2 × 8e−4 = 1.6(e−2 + e−4 ).
(4) Falso.
Demonstração. Queremos calcular P (B|X = 2), isto é, a probabilidade de que o indivíduo
escolhido aleatoriamente na população tenha se beneficiado da droga, dado que ele pegou
duas gripes.
P (B e X = 2)
P (B|X = 2) = .
P (X = 2)
Mas como P (B e X = 2) = P (X = 2|B)P (B), então
P (X = 2|B)P (B) 1.6e−2

P (B|X = 2) = = = (1 + e−2 )−1 ̸= (1 + e−4 )−1 .
P (X = 2) 1.6(e−2 + e−4 )
Questão 11/2016
Sendo X, Y e Z três variáveis aleatórias, julgue as proposições abaixo:
(0) E[h(X)|X] = h(X) para qualquer função h(X);

(1) Para as funções f (Y ) e g(Y ), temos E[f (Y )X + g(Y )|Y ] = f (Y )X + g(Y );
(3) Se Y e X são independentes e E(Y ) = 0, então E(Y |X) = 0;
(4) Se E(Y |X) = 0, então E(Y ) = 0.
Solução.
(0) Verdadeiro.
Demonstração. Como o X está dado, k ≡ h(X) ∈ R e, portanto, E[h(X)|X] = E[k] = k ≡
h(X), para qualquer h(X).
(1) Falso.
Demonstração. Se Y é dado, então E[f (Y )X + g(Y )|Y ] = f (Y )E[X|Y ] + g(Y ) ̸= f (Y )X +
g(Y ).
(3) Verdadeiro.
Demonstração. Se X e Y são independentes, sempre temos que E[Y |X] = E[Y ]. Como o
item supõe que E[Y ] = 0, então deve ocorrer que E[Y |X] = 0.

(4) Verdadeiro.
Demonstração. Pela lei das expectativas iteradas, E[Y ] = E[E[Y |X]] = E[0] = 0.
Questão 05/2022
Considere a distribuição conjunta de X e Y.
X
1 2 3
1 0,1 0,15 0,20
Y 2 0,15 0,1 0
3 0,20 0 0,1
Tabela 4.8: Exercício 05/2022
Julgue as afirmativas abaixo:
(3) X e Y são negativamente correlacionadas.

(4) X e Y são variáveis aleatórias independentes.
Solução.
(3) Verdadeiro.
Demonstração. Note que XY assume os valores 1, 2, 3, 4, 6, 9. Então,
E[XY ] = 1 · P (X = 1, Y = 1) + 2(P (X = 1, Y = 2) + P (X = 2, Y = 1))

+ 3(P (X = 1, Y = 3) + P (X = 3, Y = 1)) + 4P (X = 2, Y = 2)
+ 6(P (X = 3, Y = 2) + P (X = 2, Y = 3)) + 9P (X = 3, Y = 3)
= 0, 1 + 2 · 0, 3 + 3 · 0, 4 + 4 · 0, 1 + 6 · 0 + 9 · 0, 1
= 3, 2.
Ainda,
E[X] = E[X = 1] + 2E[X = 2] + 3E[X = 1] = 0, 45 + 0, 5 + 0, 9 = 1, 85

E[Y ] = E[Y = 1] + 2E[Y = 2] + 3E[Y = 1] = 0, 45 + 0, 5 + 0, 9 = 1, 85
Como Cov(X, Y ) = E[XY ] − E[X]E[Y ], então
Cov(X, Y ) = 3, 2 − (1, 85)2 < 0.

Portanto, X e Y são negativamente relacionadas.
(4) Falso.
Demonstração. Sabemos que se X e Y forem independentes, então Cov(X, Y ) = 0, Mas isto
é equivalente a dizer que Cov(X, Y ) ̸= 0 implica em X e Y serem dependentes. Como do item
anterior vimos que Cov(X, Y ) ̸= 0, então podemos concluir que X e Y são dependentes.
Questão 02/2015
Considere a distribuição de probabilidade conjunta das variáveis aleatórias X e Y:
X
-1 0 1
-1 1/5 0 1/5
Y 0 0 1/5 0
1 1/5 0 1/5
Com base nessas informações, é correto afirmar:
(0) E[X] = 0.
(1) A covariância entre X e Y é igual a zero;
(2) As variáveis aleatórias X e Y são independentes.
(3) Se T = X + 5, a covariância entre T e Y é maior do que zero;
(4) Defina V = 2X e Z = 3Y . Então, podemos dizer que a correlação entre V e Z é igual a
zero.
Solução.
(0) Verdadeiro.
Demonstração. E[X] = (−1)P (X = −1) + 0P (X = 0) + 1P (X = 1) = −2/5 + 2/5 = 0.
(1) Verdadeiro.
Demonstração. Como E[X] = 0, Cov(X, Y ) = E[XY ]. Note que XY ∈ {−1, 0, 1}. Então,
Cov(X, Y ) = E[XY ] = (P (X = 1, Y = 1) + P (X = −1, Y = −1))

+ (−1)(P (X = 1, Y = −1) + P (X = −1, Y = 1))
= 2/5 − 2/5 = 0.

(2) Falso.
P (X = −1 ∧ Y = −1) = 1/5 ̸= P (X = −1)P (Y = −1) = 2/5 · 2/5 = 4/25.
Portanto, as variáveis aleatórias não são independentes.

(3) Falso.
Demonstração. Cov(Y, T ) = Cov(Y, X + 5) = Cov(Y, X) = 0.
(4) Verdadeiro.
Demonstração. Cov(V, Z) = Cov(2X, 3Y ) = 6Cov(X, Y ) = 0. Como Corr(V, Z) =
Cov(V, Z)/[dp(V )dp(Z)], então Corr(V, Z) = 0.
Questão 02/2020
Sejam X, Y e Z três variáveis aleatórias, e suponha que Y = a + bX em que a e b são
constantes. Julgue as afirmativas abaixo:
(0) E(XY ) = aE(X) + bE(X 2 )
(1) Cov(X, Y ) = b2 V ar(X).
(2) Sendo ρXY a correlação entre X e Y , então ρ2XY = 1.
(3) Sendo ρY Z a correlação entre Y e Z e ρXZ a correlação entre X e Z, então ρY Z = ρXZ
(4) Sendo ρXY a correlação entre X e Y , então ρXY = 1.
Solução.
(0) Verdadeiro.
Demonstração. E(XY ) = E(X(a + bX)) = E(aX + bX 2 ) = aE(X) + bE(X 2 ).
(1) Falso.
Demonstração. Cov(X, Y ) = Cov(X, a + bX) = bCov(X, X) = bV ar(X).
(2) Verdadeiro.
Demonstração. Nem precisaríamos fazer conta para responder esta pergunta. Como Y é uma
reta em função de X, então |ρXY | = 1. Mas para mostrar que isto é verdade, note que que
V ar(Y ) = V ar(a + bX) = b2 V ar(X). Então,
Cov(X, Y ) bV ar(X) b
ρXY = p =√ p = .
V ar(X)V ar(Y ) 2 2
b V ar (X) |b|

Portanto, ρXY = 1 se b > 0 e ρXY = −1 se b < 0. Segue, então, que ρ2XY = 1.
(3) Falso.
Demonstração. Considere as informações e o raciocínio desenvolvido na resposta do item an-
terior. Se c e d são constantes, poderia ocorrer de b = −1 e Z = c + dX de tal modo que d > 0
e, portanto, ρXZ = 1 ̸= ρY Z = −1.
(4) Falso.
Demonstração. Da resposta do item (2) vemos que a afirmativa é falsa.
Questão 04/2021
Sejam X, Y e Z três variáveis aleatórias. Definindo cov(A, B) como a covariância entre as
variáveis A e B, julgue as proposições:
(1) cov(X, 2Y ) = 4cov(X, Y ).

(2) cov(X, 4) = 0.
(4) Sendo T = 4 + 2Z, então cov(X, T ) = 4cov(X, Z).
Solução.
(1) Falso.
Demonstração. Cov(X, 2Y ) = 2Cov(X, Y ).
(2) Verdadeiro.
Demonstração. Cov(X, 4) = E[(X − µX )(4 − 4)] = 0.
(4) Falso.
Demonstração. Cov(X, T ) = Cov(X, 4 + 2Z) = 2Cov(X, Z).
Questão 02/2017
Seja X uma variável aleatória com média µX e variância σX
2
, e seja Y uma variável aleatória
com média µY e variância σX
2
. Considere que σX > 0 e σY > 0. Sendo cov(X, Y ) a covariância
entre X e Y e corr(X, Y ) a correlação entre X e Y , podemos afirmar que:
(0) cov(X, Y ) = E[(X − µX )Y ]E[(Y − µY )X];

(1) Se µY = 0 ou µX = 0, então cov(X, Y ) = E(XY );
(2) Se µY = 0 e µX = 0, corr(X, Y ) = 0.
(3) Se E(Y |X) = µY , então cov(X, Y ) = 0.

(4) Se cov(X, Y ) > 0, então 0 < corr(X, Y ) ≤ 1.
Solução.
(0) Falso.
Demonstração. Vimos no texto que Cov(X, Y ) = E[(X − µX )Y ] = E[(Y − µY )X]. Portanto,
E[(X − µX )Y ]E[(Y − µY )X] = [Cov(X, Y )]2 ̸= Cov(X, Y ).
(1) Verdadeiro.
Demonstração. Segue da fórmula Cov(X, Y ) = E[XY ] − µX µY , dada no texto.
(2) Falso.
Demonstração. Corr(X, Y ) = 0 ⇔ Cov(X, Y ) = E[XY ] − µX µY = 0. Se µX = 0 = µY ,
nada garante que E[XY ] = 0 e, portanto, pode ocorrer Corr(X, Y ) ̸= 0.
(3) Verdadeiro.
Demonstração. E[Y |X] = µY implica que X e Y são independentes. Portanto, Cov(X, Y ) =
0.
(4) Verdadeiro.
Demonstração. Vimos no texto que sempre o valor da correlação está no intervalo [−1, 1].
Como Dp(X) ≥ 0 e Dp(Y ) ≥ 0, se Cov(X, Y ) > 0, então
Cov(X, Y )
Corr(X, Y ) = ∈ (0, 1].
dp(X)dp(Y )
Questão 02/2010
Suponha que X e Y sejam variáveis aleatórias independentes, com distribuições de Ber-
noulli com parâmetros p e q, isto é,

1 com probabilidade p
X=
0 com probabilidade 1 − p
e

1 com probabilidade q
Y =
0 com probabilidade 1 − q
Defina Z = aY + bX, para a e b constantes.

E[] e V [] representam, respectivamente, expectativa e variância. Julgue as afirmativas abaixo:
(0) E[Z|X = 2] = ap + 2b;

(1) V [Z] = a2 q + b2 p;
(2) Se p = q, o coeficiente de correlação entre Z e X é igual a √ b
;
(a2 +b2 )
(3) Se b = 0, Z e X são independentes;
(4) E[Y |Z = a + b] = 1.
Solução.
(0) ?.
Demonstração.
(1) Falso.
Demonstração. V [Z] = V [aY + bX] = a2 V [Y ] + b2 V [X] = b2 p(1 − p) + a2 q(1 − q).
(2) Verdadeiro.
Demonstração. Note que Cov(X, Z) = Cov(X, aY + bX) = Cov(X, aY ) + Cov(X, bX) =
bV [X]. Ainda, V [Z] = V [aY + bX] = a2 V [Y ] + b2 V [X] = b2 p(1 − p) + a2 q(1 − q). Então,

Cov(X, Z) V [X] V [X]
Corr(X, Z) = p = bp =b
V [X]V [Z] V [X]V [Z] V [Z]

p(1 − p) b
=b 2 2
=√ .
b p(1 − p) + a q(1 − q) b + a2
2
(3) Verdadeiro.
Demonstração. Quando b = 0, Z = aY e, portanto, |Corr(Z, Y )| = 1. Como X e Y são
independentes, segue que Z e X também devem ser, já que Z determina com máxima precisão
a variável Y e vice-versa.
(4) Verdadeiro.
Demonstração. X, Y ∈ {0, 1}. Se Z = a + b = aY + bX, então X = Y = 1. Portanto,
E[Y |Z = a + b]E[1] = 1.

Questão 06/2013
Considere X, Y e Z variáveis aleatórias com distribuição conjunta caracterizada por fX,Y,Z (x, y, z)
e distribuições marginais caracterizadas por fX (x), fY (y) e fZ (z). Sejam a, b, c e d constantes.
(1) Se X e Y são independentes, E[aX + bY + c] = aE[X] + bE[Y ] + c.

(2) Se X, Y e Z são independentes, V ar[aX + bY + c + d + Z] = a2 V ar[X] + b2 V ar[Y ] +
V ar[Z].
(3) Cov(X, aY + bZ) = Cov(X, Y ) + Cov(X, Z).
Solução.
(1) Verdadeiro.
Demonstração. Tal igualdade é válida tanto para variáveis independentes ou não.
(2) Verdadeiro.
Demonstração. Vimos no texto que quando as variáveis são independentes, podemos “distri-
buir" o operador de variância em todas as variáveis.
(3) Falso.
Demonstração. Cov(X, aY + bZ) = aCov(X, Y ) + bCov(X, Z).
Questão 04/2020
Seja a distribuição conjunta de probabilidades das variáveis aleatórias X e Y:
Y
X 1 2 3
1 0,1 0,1 0
2 0,1 0,2 0,3
3 0,1 0,1 0
Tabela 4.10: Exercício 04/2020
Podemos afirmar que:
(0) As variáveis X e Y são independentes.

(1) A correlação entre X e Y é igual a zero.
(2) As médias de X e Y são iguais.
(3) As variâncias de X e Y são iguais.

(4) A função de probabilidade condicional de Y , em X = 3, é dada por P (Y = y|X = 3) =

1
2
Solução.
(0) Falso.
Demonstração. E[X = 1, Y = 1] = 0.1 ̸= E[X = 1]E[Y ] = 0.3 · 0.2.
(1) Verdadeiro.
Demonstração. E[X] = 2 = E[Y ] e E[XY ] = 4 ⇒ Cov(X, Y ) = 4 − 4 = 0 ⇒
Corr(X, Y ) = 0.
(2) Verdadeiro.
Demonstração. São ambas iguais a 2.
(3) Falso.
Demonstração. E[X 2 ] = 4.4 e E[Y 2 ] = 4.6 ⇒ V ar(X) = 0.4 ∧ V ar(Y ) = 0.6.
(4) Falso.
Demonstração. P (Y = 3|X = 3) = 0.
Questão 04/2015
Em uma determinada cidade, 60% dos moradores são mulheres e 40% são homens. Entre
as mulheres, 80% estão empregadas e 20% estão desempregadas. Entre os homens, 90% estão
empregados e 10% estão desempregados. Obtenha a probabilidade de uma pessoa escolhida
aleatoriamente nessa cidade ser mulher, dado que está desempregada, e multiplique o resultado
por 100.
Solução.
Demonstração. Note que o número total de desempregados é 16 pessoas, enquanto que o
número de mulheres desempregadas é 12. Então, a probabilidade de uma pessoa escolhida
aleatoriamente nessa cidade ser mulher, dado que está desempregada, é
P (M |D) = P (M ∩ D)/P (D) = 0.12/0.16 = 3/4.
Então, a resposta final é 100 × 3

4
= 75.

Questão 06/2015
Seja X uma variável aleatória com distribuição de Poisson, com função massa de probabili-
−λ x
dade dada por f (X) = e x!λ e x = 0, 1, 2, ..., λ > 0, enquanto Y é uma variável aleatória com
distribuição binomial, com função massa de probabilidade dada por: f (Y ) = ny py (1 − p)n−p .

É correto afirmar que:

(0) E[X] = eλ .
(1) V ar[X] = λ2 ;
(2) E[X] = λ
(3) E[Y ] = np
(4) V ar[Y ] = p(1 − p).
Solução.
(0) Falso.
Demonstração. Vimos no texto que E[X] = λ.
(1) Falso.
Demonstração. Vimos no texto que V ar[X] = λ.
(2) Verdadeiro.
Demonstração. Exatamente o que vimos no texto.
(3) Verdadeiro.
(4) Verdadeiro.
Demonstração. O correto seria V ar[Y ] = np(1 − p).

Capítulo 5
Variável Aleatória Contínua
Uma variável aleatória contínua pode assumir um valor entre todos dentro de certo intervalo
de números reais. Para variáveis contínuas, falaremos sempre da probabilidade da variável alea-
tória estar em um intervalo, já que a probabilidade de um único número dentro deste intervalo
é nula.
Vamos definir a função densidade de probabilidade (fdp) tal que a área entre seu gráfico e o
eixo x represente as probabilidades. Assim, definimos do seguinte modo a maneira de calcular
a probabilidade de uma variável aleatória contínua:
R∞
Definição 5.1 Seja f uma fdp de uma variável aleatória contínua X, isto é, −∞
f (x)dx = 1. Então,
Z b
P (a ≤ X ≤ b) = f (x)dx.
a
Assim como fizemos para variáveis aleatórias discretas, podemos definir também a função
de distribuição acumulada (fda) como F (x) = P (X ≤ x), −∞ < x < ∞. Portanto, podemos
estabelecer a seguinte proposição:
Proposição 5.2 Seja F a fda de uma variável aleatória contínua X. Então, temos que
Z x
F (x) = P (X ≤ x) = f (t)dt.
−∞
5.1 Medidas de Posição e Dispersão

Definição 5.3 Seja X uma v.a. contínua, com fdp f . Então, a o valor esperado de X, ou sua média,
é dado por
Z ∞
µX = E[X] = xf (x)dx.
−∞
81
82 5.2. DISTRIBUIÇÕES CONTÍNUAS IMPORTANTES
Observação 5.4 De modo mais geral, temos que se X é uma v.a. contínua com fdp f , o valor esperado
de uma função g(X) é Z ∞
E[g(X)] = g(x)f (x)dx.
−∞
Podemos também definir a mediana como o “valor do meio", que separa os possíveis valores
em “quantidades" iguais. Noutras palavras, a mediana é um número de modo que a v.a. tem
50% de estar “à sua esquerda" e 50% de chance de estar “à sua direita". Formalmente, temos a
seguinte definição.
Definição 5.5 Se X é uma variável aleatória contínua com fdp f , temos que a mediana m é
Z m
1
f (x)dx = .
−∞ 2
Do mesmo modo como fizemos para v.a. discreta, podemos definir a variância de uma va-
riável aleatória.
Definição 5.6 Seja X uma v.a. contínua, com fdp f . Se µX é a média, ou valor esperado, de X, então
sua variância é
Z ∞
2
V ar(X) = E[(X − µX ) ] = (x − µX )2 f (x)dx.
−∞
Observação 5.7 Da definição anterior, segue imediatamente que
V ar(X) = E[X 2 ] − µ2X = E[X 2 ] − (E[X])2 .
Ainda, o desvio padrão de uma v.a. contínua X é definido como

»
dp(X) = V ar(X).
5.2 Distribuições Contínuas Importantes
5.2.1 Distribuição Uniforme

Considere que a variável aleatória contínua X tem mesma chance de ser qualquer valor real
entre a e b. Dizemos que X tem uma distribuição uniforme com parâmetros a e b, e denotamos
por X ∼ U (a, b), se a função de probabilidade é dada por

 1
b−a
, se x ∈ [a, b]
f (x) =
0, caso contrário.

CAPÍTULO 5. VARIÁVEL ALEATÓRIA CONTÍNUA 83
A figura 5.1 representa graficamente a função de probabilidade dada acima.
Figura 5.1: Fdp da Distribuição Uniforme.
Observe que, como a área total tem que somar 1 — já que estamos falando de uma função
distribuição de probabilidade —, e como sabemos que a área do retângulo é o produto da base,
dado por b − a, e da altura, h, então h(b − a) = 1 ⇔ h = 1/(a − b).
Já no que se refere à função de distribuição acumulada (fda), temos que ela é dada pela se-
guinte função.


0, se x < a
x
Z 

F (x) = P (X ≤ x) = f (x)dx = x−a
b−a
, se x ∈ [a, b]
−∞ 

se x > b.

1,
Por fim, enunciaremos e provaremos os momentos de uma v.a. seguindo esta distribuição,
ou seja, o valor esperado e a variância.
Proposição 5.8 Se X ∼ U (a, b), então
• E[X] = a+b
2
;
(b−a)2
• V ar[X] = 12
.
Demonstração. Para a primeira igualdade,

Z b Z b
x 1 1 2 b
E[X] = dx = xdx =
x /2 a
a b−a b−a a b−a
1 (a + b)(b − a) a+b
= [b2 /2 − a2 /2] = = .
b−a 2(b − a) 2

Para a segunda igualdade, iremos calcular V ar[X] = E[X 2 ] − (E[X])2 . Note que
b
x2
Z
2 1
b3 /3 − a3 /3

E[X ] = dx =
a b−a b−a
(b − a)(b + ab + a2 )
2
b2 + ab + a2
= =
3(b − a) 3
Portanto,
b2 + ab + a2 (a + b)2
V ar[X] = −
3 4
4(a2 + ab + b2 ) − 3(a2 + 2ab + b2 )
=
12
a2 − 2ab + b2 (b − a)2
= = .
12 12
5.2.2 Distribuição Normal

Definição 5.9 Uma v.a. dizemos que Z tem distribuição normal com parâmetros µ e σ 2 , e denotamos
por Z ∼ N (µ, σ 2 ), com −∞ < µ < ∞ e −∞ < σ 2 < ∞, se sua fdp é dada por
1 2 2
f (x) = √ e−(x−µ) /2σ . (5.1)
σ 2π
A figura 5.2 ilustra um exemplo particular do gráfico da distribuição normal, em que µ = 0

e σ = 1.
2
0.4
0.3
0.2
0.1
−2 −1 0 1 2
Figura 5.2: Fdp da Distribuição Normal.

Proposição 5.10 (Momentos da Distribuição Normal) Se Z ∼ N (µ, σ 2 ), então
• E(Z) = µ;
• V ar(Z) = σ 2 .
Quando µ = 0 e σ 2 = 1, dizemos que temos uma distribuição normal padrão, ou N (0, 1).
Portanto, podemos observer que a figura 5.2 está representando uma distribuição normal pa-
drão.
Propriedades da Distribuição Normal
Considere duas variáveis aleatórias independentes X ∼ N (µX , σX

2
) e Y ∼ N (µY , σY2 ), e
a, b ∈ R. Então,
• aX tem distribuição normal;
• aX + b tem distribuição normal;
• aX + bY tem distribuição normal.
A última propriedade também é válida para três ou mais variáveis normais independentes.
Padronização de uma Variável Aleatória Seguindo Distribuição Normal
Se X ∼ N (µX , σX 2
), então as propriedades anteriores nos permitem dizer que a variável
aleatória definida por
X − µX
Z= ∼ N (0, 1), (5.2)
σX
isto é, Z terá média zero e variância 1. Chamamos esta transformação acima de padroniza-
ção da variável aleatória X. Este procedimento é extremamente importante para calcularmos
probabilidades relativas a uma distribuição normal qualquer não-padrão.
Cálculo de Probabilidades
Suponha que X ∼ N (µ, σ 2 ) e que queremos calcular

Z b
P (a < X < b) = f (x)dx,
a
em que f (x) é dada em (5.1).

A integral acima não pode ser calculada analiticamente e, portanto, a probabilidade que
queremos somente poderá ser obtida, aproximadamente, através de integração numérica. No
entanto, para cada valor de µ e σ, teríamos de obter P (a < X < b) para diferentes valores
de a e b. Tal tarefa é facilitada pelo uso da padronização em (5.2), de maneira que somente
é necessário construir uma tabela para o cálculo de probabilidades de uma variável aleatória
seguindo a distribuição normal padrão, isto é, com µ = 0 e σ 2 = 1. Noutras palavras, quando
queremos trabalhar com probabilidades de variáveis aleatórias que não estão padronizadas, se
temos os valores das probabilidades de variáveis padronizadas, basta que façamos a padroni-
zação desta variável aleatória não-padronizada e usar os valores das probabilidades da variável
aleatória padronizada. Estas ideias ficarão mais claras na prática dos exercícios.
5.2.3 Outras Distribuições Importantes

Abaixo enunciaremos algumas outras distribuições importantes para variáveis aleatórias
contínuas, e descreveremos brevemente algumas de suas propriedades1 .
A distribuição Qui-Quadrado
Sejam Z1 , ..., Zn variáveis aleatórias independentes com distribuição normal padrão. Então,
a v.a. definida por
X = Z12 + ... + Zn2
tem uma distribuição qui-quadrado com n graus de liberdade. Ainda, a média de X é E[X] = n e
sua variância V ar(X) = 2n.
n=1
0.4 n=2
n=3
0.3 n=4
n=5
n=6
0.2
n=7
n=8
0.1
0
0 5 10 15
X
1
A ANPEC não costuma cobrar com tanto detalhe estas distribuições e, deste modo, a descrição dos detalhes
será deixada para um momento mais oportuno. Caso o leitor queira aprofundar-se, é recomendada a leitura do
capítulo 7 de Bussab and Morettin (2017)

A distribuição t de Student
Sejam Z e Q duas variáveis aleatórias independentes tal que Z tem distribuição normal pa-
drão e Q tem distribuição qui-quadrado com n graus de liberdade. Então, a variável aleatória
definida por
Z
X=p
Q/n
tem uma distribuição t de Student com n graus de liberdade. Ainda, a média de X é E[X] = 0 e
a variância é V ar(X) = n/(n − 2) (quando n ≥ 3). Importante: X converge para uma variável
normal padrão quando n → ∞.
0.4 n = 100
n=5
n=2
n=1
0.3
0.2
0.1
0
−6 −4 −2 0 2 4 6
Observe que tal distribuição é simétrica ao redor de x = 0.
A distribuição F de Snedecor
Sejam Q1 e Q2 duas variáveis aleatórias independentes com distribuição qui-quadrado de n1

e n2 graus de liberdade, respectivamente. Então, a variável aleatória definida por
Q1 /n1
X=
Q2 /n2
tem uma distribuição F com n1 e n2 graus de liberdade.

(n1 , n2 ) = (1, 1)
3 (n1 , n2 ) = (100, 100)
(n1 , n2 ) = (5, 2)
0
0 1 2 3 4
5.3 Distribuição Conjunta
Estudamos anteriormente distribuição conjunta para variáveis aleatórias discretas. Para o

caso contínuo, o raciocínio é muito semelhante, mas os objetos matemáticos a serem trabalha-
dos diferem do caso discreto.
Primeiramente, precisaremos de uma função densidade de probabilidade conjunta para obter

informações de probabilidade para intervalos de valores de X e Y . Por exemplo, podemos tomar
a seguinte fdp conjunta

x + y, se x, y ∈ [0, 1];
f (x, y) =
0, caso contrário
e calcular P (X < 1/2, Y < 1/4). Neste caso, teremos que calcular uma integral dupla, de
modo que os intervalos de integração das variáveis x e y sejam [0, 1/2] e [0, 1/4], respecti-
vamente. Geometricamente, queremos calcular a área limitada entre o gráfico de f (x, y) e o
retângulo no plano-xy de lados 1/2 e 1/4, como ilustrado na figura 5.3. Assim, teremos o se-
guinte:
Z 1/2 Z 1/4
3
P (X < 1/2, Y < 1/4) = (x + y)dydx = .
0 0 64
R∞ R∞
Observação 5.11 −∞ −∞
f (x, y)dydx = 1 para qualquer fdp conjunta f .

5.3.1 Distribuição Marginal e Condicional

Definição 5.12 Dada duas variáveis aleatórias X e Y , com fdp conjunta f (x, y), define-se as densi-
dades marginais de X e Y , respectivamente, por
Z ∞
fX (x, y) = f (x, y)dy
Z−∞
∞
fY (x, y) = f (x, y)dx.
−∞
Figura 5.3: Região de integração.
Para o exemplo anterior, em f (x, y) = x + y se x, y ∈ [0, 1] e f (x, y) = 0 caso contrário,

temos que a distribuição marginal de Y , por exemplo, é dada por:
Z ∞ Z 1
1
fY (y) = f (x, y)dx = f (x, y)dx = + y.
−∞ 0 2
No que se refere à probabilidade condicional, temos a seguinte definição.
Definição 5.13 A fdp condicional de X, dado que Y = y, e a fdp condicional de Y , dado que X = x,
são dadas, respectivamente, por
f (x, y)
fX|Y (x|y) = , fY > 0
fY (y)
f (x, y)
fY |X (y|x) = , fX > 0.
fX (x)
No exemplo anterior, podemos calcular a fdp da v.a. X condicional em Y = 1/4 do seguinte

modo:
f (x, 1/4) x + 1/4 4x + 1

fX|Y =1/4 (x) = = = ,
fY (1/4) 1/2 + 1/4 3
em que fY (y) = 1/2 + y é a distribuição marginal de Y encontrada anteriormente.
5.3.2 Independência de Variáveis Aleatórias Contínuas

Lembremos primeiramente que duas variáveis aleatórias discretas são independentes se P (X =
x, Y = y) = P (X = x)P (Y = y). No caso contínuo, a ideia será semelhante.
Definição 5.14 Duas v.a. X e Y , com densidade conjunta f (x, y) e marginais fX (x) e fY (y), res-
pectivamente, são independentes se
f (x, y) = fX (x)fY (y), ∀(x, y).
Note que no nosso exemplo anterior X e Y não são independentes uma vez que f (x, y) =
x + y não pode jamais ser escrito como um produto de funções cada uma dependendo de x
e y. Exemplos de distribuições conjuntas que são independentes são f (x, y) = x + xy ou
f (x, y) = e−(x+y) . No primeiro caso, claramente f (x, y) = x(1 + y), e no segundo f (x, y) =
e−x e−y , que são produtos de funções que dependem de x e y (pode-se demonstrar que elas são
as distribuições marginais das variáveis aleatórias e, portanto, independentes).

Questão 15/2014
(0) Suponha que X seja uma variável aleatória distribuída de acordo com a função densi-
dade: f (x) = (1/2)x, em que 0 ≤ x ≤ 2. A probabilidade de que x se situe entre 0 e 1 é igual
a 0, 5;
(1) Se X é uma variável aleatória distribuída de acordo com a função densidade f (x) =
(1/2)x, em que 0 ≤ x ≤ 2, então V ar(X) = 2/9;
(2) Suponha que Y seja uma variável aleatória distribuída de acordo com a função densi-
dade: f (y) = 2y −3 , em que y ≥ 1. Então E(Y ) = 3;
(3) Suponha que Y seja uma variável aleatória distribuída de acordo com a função densi-
√
dade: f (y) = 2y −3 , em que y ≥ 1. Então a mediana de Y é 2.
Solução.
(0) Falso.
Demonstração. A probabilidade será dada pela área de um triângulo com base 1 e altura 1/2.
Então, P (0 < x < 1) = 1·1/2
2
= 14 .
(1) Verdadeiro.
Demonstração. Sabemos que V ar(X) = E(X 2 ) − (E(X)]2 . Note que
1 2 2
Z
1 3
E(X) = x dx = (2 /3) = 4/3
2 0 2
1 2 3
Z
2 1 4
E(X ) = x dx = (2 /4) = 2.
2 0 2
Então, V ar(X) = 2 − 16/9 = 2/9.
(2) Falso.
Demonstração.
Z ∞
E(Y ) = y2y −3 dy = [−2y −1 ]y=∞
y=1 = 2.
1
(3) Verdadeiro.

Demonstração.
Z m
y=m
√
2y −3 dy = 1/2 ⇔ [−y −2 ]y=1 = 1/2 ⇔ 1 − 1/m2 = 1/2 ⇔ m = 2.
1
√
Note que m = − 2 é também solução da equação acima mas não é considerado porque
√
− 2 ̸∈ (1, m).
Questão 02/2018
Seja x uma variável aleatória com função densidade de probabilidade dada por:
f (x) = 2x, para 0 ≤ x ≤ 1.

f (x) = 0, caso contrário.
(0) E[x] = 1.
(1) A mediana de x é √1 .
2
(2) A variância de x é 1
18
.
(3) A probabilidade de que x se situe entre 1
4
e 3
4
é igual a 0, 5;
(4) A probabilidade de que x seja menor ou igual a 12 , dado que x se situa entre 13 e 23 , é igual
a 0, 5.
Solução.
(0) Falso.
Demonstração.
Z 1
E[x] = x(2x)dx = [2x3 /3]x=1
x=0 = 2/3.
0
(1) Verdadeiro.
Demonstração. Devemos resolver para m a seguinte equação:
Z m
1 √
2xdx = 1/2 ⇔ [x2 ]x=m 2
x=0 = m = ⇔ m = 1/ 2.
0 2
√ √
Note que −1/ 2 também satisfaz a equação acima, mas f (−1/ 2) = 0.

(2) Verdadeiro.
Demonstração. Como do item acima calculamos E[X] = 2/3 e temos que
Z 1
2
E[x ] = x2 (2x)dx = 1/2,
0
então V ar[x] = E[X 2 ] − (E[X])2 = 1/2 − 4/9 = 1/18.
(3) Verdadeiro.
Demonstração. A probabilidade de que x se situe entre 1
4
e 3
4
será
Z 3
4
2xdx = (3/4)2 − (1/4)2 = 0, 5.
1
4
(4) Falso.
Demonstração. Note, primeiramente, que P (x ≤ 12 ∧ x ∈ (1/3, 2/3)) = P ( 31 ≤ x ≤ 21 ) =
R 12 R 32
1 2xdx = 5/36. Ainda, P (1/3 ≤ x ≤ 2/3) = 1 2xdx = 1/3. Portanto,
3 3
Å ã
1 1 2 5/36
P x≤ | ≤x≤ = = 5/12.
2 3 3 1/3
Questão 03/2020
Seja X uma variável aleatória com função densidade de probabilidade dada por:
f (x) = λe−λx , para x ≥ 0 e λ > 0.

Então, sendo c uma constante, é correto afirmar:
(0) E(X) = λ
(1) V ar(X) = λ2
(2) Para c > 0, P rob(X > c) = e−λc .
(3) Para x > c, P rob(X > x|X > c) = e−λ(x−c) .
(4) A função distribuição acumulada de X, dado que x > c, é representada por F (x) =
1 − e−λc .

Solução.
(0) Falso.
R∞
Demonstração. E(X) = λ 0 xe−λx . Deixe u = x e, então, du = dx. Ainda, seja dv = e−λx
e, assim, v = −e−λx /λ. Usando integração por partes, temos:
∞ ∞
1 ∞ −λx
ò Z ∞
xe−λx
Z ï Z
−λx
E(X) = λ xe =λ − + e = e−λx
0 λ 0 λ 0 0
∞
−λx

= −e /λ = 1/λ.
0
(1) Falso.
Demonstração. Lembremos sempre que V ar(X) = E(X 2 ) − [E(X)]2 . Temos o valor de E(X)
pela solução do item anterior. Agora, devemos calcular
Z ∞
2
E(X ) = λ x2 e−λx dx.
0
Note que a estratégia de solução é semelhante ao à solução do item anterior, isto é, teremos
que aplicar integral por partes mas, desta vez, por duas vezes. Realizando as contas, veremos
que
2 1 1
V ar(X) = 2 − 2 = 2 .
λ λ λ
(2) Verdadeiro.
Demonstração.
Z ∞ x=∞
λe−λx dx = −e−λx x=c = e−λc .

P rob(X ≥ c) =
c
(3) Verdadeiro.
Demonstração. Note que P (X > x, X > c) = P (X > x), já que x > c. Então,
P rob(X > x, X > c) P (X > x) e−λx

P rob(X > x|X > c) = = = −λc = e−λ(x−c) .
P rob(X > c) P rob(X > c) e
(4) Falso.
Demonstração. Não faz nenhum sentido a distribuição acumulada ser constante.

Questão 13/2006
Seja X uma variável aleatória contínua com função densidade

 1 x + k, se 0 ≤ x ≤ 3,
fx (x) = 6
0 caso contrário.
Calcule P rob(1 ≤ X ≤ 2). Multiplique o resultado por 100 e desconsidere os valores após
a vírgula.
Solução.
Demonstração. Devemos, primeiro, calcular o valor da constante k. Note que
Z 3 x=3
= (x/6 + k)dx = 1 ⇔ x2 /12 + xk x=0 = 3/4 + 3k = 1 ⇔ k = 1/12.

0
Portanto,
Z 2 2
(x/6 + 1/12)dx = x2 /12 + x/12 1 = 1/2 − 1/6 = 1/3.

P rob(1 ≤ X ≤ 2) =
1
Logo, multiplicando o resultado por 100 e desconsiderando os valores após a vírgula temos
o valor 33.
Questão 09/2007
Observe a função de distribuição acumulada F (x) abaixo e calcule a probabilidade para
x ≤ 2 e multiplique o resultado por 10.



 0, se x ≤ 0,


 x2 se 0 ≤ x ≤ 5

F (x) = 20 2
− x20 + 25 x − 1 se 5 ≤ x ≤ 10




1 se x ≥ 10.

Solução.
22
Demonstração. F (2) = 20
= 2/10. Portanto, a resposta final é 10 × 2/10 = 2.

Questão 03/2021
Seja X uma variável aleatória com a seguinte função densidade de probabilidade:

 x2 , −1 ≤ x ≤ 2,
f (x) = 3
0, caso contrário.
Encontre o valor esperado de h(X) = 4X + 3.
Solução.
Demonstração.
2 2
x2
Z Z Å ã
4 3
E[h(X)] = (4x + 3) = x + x dx = [x4 /3 + x3 /3]x=2
2
x=−1
−1 3 −1 3
= (16/3 + 8/3) − (1/3 − 1/3) = 08.
Como h(X) é uma função linear da variável aleatória X, poderíamos, também, ter apenas
calculado o valor de 4E[X] + 3.
Questão 11/2017
Suponha que X seja uma variável aleatória distribuída de acordo com a seguinte função
densidade de probabilidade:
f (x) = 2(1 − x) para 0 ≤ x ≤ 1

f (x) = 0 caso contrário.
Sendo Y = 6X + 10, obtenha a variância de Y .
Solução.
Demonstração. Note primeiramente que E[Y ] = 6E[X] + 10 e E[Y 2 ] = E[36X 2 + 120X +
100] = 36E[X 2 ] + 120E[X] + 100. Como
Z 1
E[X] = 2 x(1 − x)dx = 2[x2 /2 − x3 /3]x=1
x=0 = 1/3;
Z0 1
E[X 2 ] = 2 x2 (1 − x)dx = 2[x3 /3 − x4 /4]x=1
x=0 = 1/6,
0

então E[Y ] = 12 e E[Y 2 ] = 6 + 40 + 100 = 146. Portanto,
V ar[Y ] = E[Y 2 ] − (E[Y ])2 = 146 − 144 = 02.
Questão 01/2019
Julgue como verdadeiras ou falsas as afirmativas que se seguem:
(0) Uma dada variável aleatória com distribuição uniforme no intervalo [2, 5] tem média igual
a 3, 50.
(1) Uma dada variável aleatória com distribuição uniforme no intervalo [2, 5] tem variância
igual a 0, 75.
(2) Seja X uma variável aleatória com distribuição normal, com média 2 e variância 5, então
Z = X−2
5
também apresenta distribuição normal, com média 0 e variância 1.
Solução.
(0) Verdadeiro.
5+2
Demonstração. E[X] = 2
= 3, 5.
(1) Verdadeiro.
R5
Demonstração. Note que E(X 2 ) = (1/3) 2
x2 dx = 13. Portanto,
49 3
V ar(X) = E(X 2 ) − [E(X)]2 = 13 − = = 0.75.
4 4
(2) Falso.
Demonstração. O item tenta corrigir com a padronização de uma v.a. seguindo distribui-
ção normal. No entanto, o denominador da nova variável aleatória da padronização é o des-
vio padrão, não a variância. Note que, no caso deste exercício, V ar(Z) = V ar(X/5) =
(1/52 )V ar(X) = 1/5 ̸= 1.

Questão 06/2019
Seja uma variável aleatória com a seguinte função densidade de probabilidade:
1
f (x) = , para 1 ≤ x ≤ 3.
2
Então, podemos afirmar:
(0) E[X] = 2.
(1) A variância de x é igual a 13 .
(2) P rob(x > 2) = 23 .
(3) Seja Y uma variável aleatória definida da seguinte maneira: Y = 2 + 2x. Então, E[Y ] =
9
2
.
(4) Seja Y uma variável aleatória definida da seguinte maneira: Y = 2 + 2x. Então, a
variância de Y é igual a 1.
Solução.
(0) Verdadeiro.
3+1
= 2.
(1) Verdadeiro.
R3
Demonstração. Note que E[X 2 ] = (1/2) 1
x2 dx = (1/6)[x3 ]31 = 13/3. Então, V ar(X) =
E[X 2 ] − (E[X])2 = 13/3 − 22 = 1/3.
(2) Falso.
Demonstração. P rob(x > 2) = P rob(2 ≤ x ≤ 3) = 1/2.
(3) Falso.
Demonstração. E[Y ] = E[2 + 2x] = 2 + 2E[X] = 2 + 2 · 2 = 6.
(4) Falso.
Demonstração. V ar(Y ) = V ar(2 + 2x) = 22 V ar(x) = 4/3.
Questão 03/2015
Seja X uma variável aleatória cuja função densidade de probabilidade é dada por:
1
f (x) = , em que − α ≤ x ≤ α e α > 0.
2α


(0) A probabilidade de que x se situe entre −α e −α/4 é igual a 3/8;
(1) A mediana de X é igual a zero;
(2) A probabilidade de que x se situe entre −α/2 e α/2 é igual a 3/4;
(3) E[X] = 0;
2
(4) A variância de X é igual a α3 .
Solução.
(0) Verdadeiro.
Demonstração. A variável segue uma distribuição uniforme com parâmetros (extremos do in-
tervalo) −α e α. Assim,
1
P rob(−α ≤ x ≤ −α/4) = · (α − α/4) = 3/8.
2α
(1) Verdadeiro. Fácil de ver. Como o intervalo é simétrico em zero e a distribuição é uni-
forme, a mediana tem que ser nula.
(2) Falso.
R α/2
Demonstração. Basta resolver a integral (2α)−1 −α/2 dx, que resulta em 1/2.
(3) Verdadeiro.
α/2−α/2
= 0.
(4) Verdadeiro.
Rα
Demonstração. Note que E[X 2 ] = (2α)−1 −α x2 dx = (6α)−1 (α3 + α3 ) = α2 /3. Então
V ar(X) = E[X 2 ] − (E[X])2 = α2 /3 − 0.
Questão 14/2019
Seja X uma variável aleatória com distribuição uniforme no intervalo [a, b], em que b > a, e
função densidade de probabilidade dada por:

 1
b−a
para a ≤ x ≤ b
f (x) =
0 para qualquer outro valor.

Então, considerando que c e d são constantes, podemos afirmar:
(0) A função distribuição acumulada de X é dada por: F (x) = x−a

b−a
para a ≤ x < b e
F (x) = 1 para x ≥ b.
(1) P rob(c ≤ X ≤ d) = d−a
b−a
, em que a ≤ c ≤ d ≤ b.
(2) E(X) = a+b
2
.
(b−a)2
(3) V ar(X) = 4
(4) P rob(c ≤ X ≤ b) = b−c
b−a
, em que a ≤ c < b.
Solução.
(0) Verdadeiro.
(1) Falso.
Demonstração. O valor desta probabilidade será a área de um retângulo com base d−c e altura
1/(b − a). Portanto, P rob(c ≤ X ≤ d) = (d − c)/(b − a).
(2) Verdadeiro.
(3) Falso.
(b−a)2
Demonstração. Visto no texto que V ar(X) = 12
.
(4) Verdadeiro.
Demonstração. O valor desta probabilidade será a área de um retângulo com base b−c e altura
1/(b − a). Portanto, P rob(c ≤ X ≤ b) = (b − c)/(b − a).
Questão 11/2010
Suponha que você tenha três variáveis X1 , X2 e X3 independentes e identicamente distri-
buídas, cada uma com distribuição uniforme no intervalo [0, 1]. Calcule E[(X1 − 2X2 + X3 )2 ].
Multiplique o resultado por 100.
Solução.
Demonstração. Note que E[Xi ] = 1/2 e V ar[Xi ] = 1/12, ∀i ∈ {1, 2, 3}. Defina Y ≡ X1 −
2X2 + X3 . Observe que E[Y ] = E[X1 ] − 2E[X2 ] + E[X3 ] = 0. Portanto,
E[(X1 − 2X2 + X3 )2 ] = E[(Y − E[Y ])2 ] = V ar[Y ].

Como as variáveis Xi são independentes,
V ar[Y ] = V ar[X1 ] + V ar[−2X2 ] + V ar[X3 ] = V ar[X1 ] + 4V ar[X2 ] + V ar[X3 ]

= 1/12 + 4/12 + 1/12 = 1/2.
A resposta final é, portanto, 100 × 1/2 = 50.
Questão 06/2016
(0) De acordo com a definição de distribuição, a distribuição t é assimétrica;

(1) Seja Z uma variável aleatória com distribuição qui-quadrado com n graus de liberdade.
Então, a variável Z tem média igual a 0 e variância igual a seus graus de liberdade, n;
(2) Seja Z1 uma variável aleatória com distribuição qui-quadrado com k1 graus de liberdade,
e seja Z2 uma variável aleatória com distribuição qui-quadrado com k2 graus de liberdade. Con-
sidere também que Z2 são independentes. Então, podemos dizer que Z1 + Z2 tem distribuição
qui-quadrado com k1 + k2 graus de liberdade;
(3) O quadrado de uma variável aleatória com distribuição t de student com k graus de
liberdade possui uma distribuição qui-quadrado com k graus de liberdade;
(4) Sejam Y1 e Y2 variáveis aleatórias independentes, cada uma delas com distribuição nor-
mal padrão com média igual a 0 e variância igual a 1. Então, podemos dizer que a variável
aleatória X = Y1 + Y2 tem distribuição normal com média igual a 0 e variância igual 1.
Solução.
(0) Falso.
Demonstração. Foi visto no texto que tal distribuição é simétrica em torno de x = 0.
(1) Falso.
Demonstração. Foi visto no texto que a média é n e a variância igual a 2n.
(2) Verdadeiro.
Demonstração. Por definição, Z1 + Z2 é uma soma de k1 + k2 termos de normais elevadas ao
quadrado. Então, ela possui distribuição qui-quadrado com k1 + k2 graus de liberdade.
(3) Falso.
Demonstração. Seja T uma variável aleatória com distribuição t de student com k graus de
liberdade. Então, existem variáveis N e Q seguindo as distribuições normal e qui-quadrado,
respectivamente, tais que
Z
T =p .
Q/k

Então,
Z/1
T2 = .
Q/k
Portanto, como o denominador da razão acima é a divisão de uma variável qui-quadrado com 1
graus de liberdade por 1, T 2 segue uma distribuição F(1,k) .
(4) Falso.
Demonstração. Como as variáveis são independentes, V ar(X) = V ar(Y1 ) + V ar(Y2 ) = 2 ̸=
1.
Questão 07/2015
Sejam X1 e X2 variáveis aleatórias independentes, cujas distribuições são representadas por
X1 ∼ N (µ1 , σ12 ) e X2 ∼ N (µ2 , σ22 ). Considere a seguinte combinação linear: Y = aX1 + bX2 ,
em que a e b são constantes.
(0) Y tem distribuição normal;

(1) Y tem média igual a (aµ1 + bµ2 ).
(2) Y tem variância igual a (σ12 + σ22 ).
(3) A distribuição de X1 é simétrica em torno de zero;
(4) Se b = 0, Y tem variância igual a σ12 .
Solução.
(0) Verdadeiro.
(1) Verdadeiro.
Demonstração. E[Y ] = aE[X1 ] + bE[X2 ] = aµ1 + bµ2 .
(2) Falso.
Demonstração. Como Xi , i = 1, 2, são independentes, então V ar(Y ) = a2 V ar(X1 ) +
b2 V ar(X2 ) = a2 σ12 + b2 σ22 .
(3) Falso.
Demonstração. Isto ocorreria se, e somente se, µ1 = 1. Nada nos garante isso.
(4) Falso.
Demonstração. Do item (2) vemos que, neste caso, V ar(Y ) = a2 σ12 .

Questão 06/2018
Por regulamentação, a concentração de um produto químico não pode ultrapassar 10ppm.
Uma fábrica utiliza esse produto e sabe que, num dia qualquer, a concentração tem distribuição
Normal (7, 675; 1, 52 ). Qual a probabilidade de que, em um dia qualquer, a concentração do
produto exceda 10ppm? Multiplique por 100 e marque o inteiro mais próximo. (Pode ser útil a
seguinte informação: P (z < 1, 55) = 0, 9505).
Solução.
Demonstração. Se X representa a v.a. do problema, isto é, a concentração do produto químico,
sabemos que µX = 7, 675 e σX = 1, 5. Devemos calcular P (X > 10). Defina z = (X −
µX )/σX = (X − 7, 675)/1, 5. Assim,
10 − 7, 675
Å ã Å ã
2, 325
P (X > 10) = P z > =P z>
1, 5 1, 5
= P (z > 1.55) = 1 − P (z < 1.55) = 1 − 0, 9505 = 0, 0495.
A resposta final é, portanto, 05.
Questão 08/2018
Uma empresa produz computadores de dois tipos, tipo A (mais barato) e tipo B (mais caro),
e garante a devolução do valor pago se qualquer computador apresentar defeito grave no prazo
de seis meses. O tempo para ocorrência de algum defeito grave nos computadores tem distri-
buição normal, sendo que, no tipo A, com média de 10 meses e desvio padrão de 2 meses, e no
tipo B, com média de 11 meses e desvio padrão de 3 meses. Os computadores de tipo A e B
são produzidos com lucro de R$1.200 e R$2.100, respectivamente, e, caso haja restituição, com
prejuízo de R$2.500 e R$7.000, respectivamente. Talvez sejam úteis as seguintes informações:
P (Z < 2) = 0, 9772 e P (Z < 1, 67) = 0, 9525.2
(0) A probabilidade de restituição do computador do tipo A é maior que 3%;
(1) A probabilidade de restituição do computador do tipo B é menor que 5%;
(2) O lucro esperado do computador tipo A é inferior a R$1.800, 00;
(3) O lucro esperado do computador tipo B é menor que R$1.700, 00;
(4) Baseando-se no lucro esperado, a empresa deveria incentivar as vendas do computador
tipo B.
2
Esta questão foi escrita errada na prova da ANPEC de 2018, com P (Z < 2) = 0, 9772 e P (Z < 1, 67) =
0, 9525 ao invés da forma como está escrito no enunciado. Certamente estas probabilidades não fazem sentido.

Solução.
(0) Falso.
Demonstração. Sejam XA e XB as variáveis aleatórias que representam o tempo para ocor-
rência de algum defeito grave nos computadores dos tipos A e B, respectivamente. Então, das
informações do enunciado, XA ∼ N (10, 22 ) e XB ∼ N (11, 32 ), sendo as unidades medidas
em meses. Defina ZA = (XA − 10)/2 e ZB = (XB − 11)/3 (isto é, as variáveis aleatórias XA
e XB normalizadas). Então, a probabilidade de restituição do computador do tipo A é
P (XA < 6) = P (ZA < (6 − 10)/2) = P (ZA < −2)

= P (ZA > 2) = 1 − P (ZA < 2) = 0.0228 < 0.03.
(1) Verdadeiro.
Demonstração. Fazendo o mesmo procedimento que no item anterior para a variável XB , te-
mos que a probabilidade de restituição do computador do tipo B é
P (XB < 6) = P (ZB < (6 − 11)/3) = P (ZB < −5/3)

= P (ZB > 1.67) = 1 − P (ZB < 1.67) = 0.0475 < 0.05.
(2) Verdadeiro.
Demonstração. Denote o lucro esperado do computador tipo A por LA . Então,
LA = −0.0228 · 2500 + 0.9772 · 1200 < 1200 < 1800.
(3) Verdadeiro.
Demonstração. Denote o lucro esperado do computador tipo B por LB . Então,
LB = −0.0475 · 7000 + 0.9525 · 2100 = 1667.75 < 1700.
(4) Verdadeiro.
Demonstração. De fato, o lucro esperado é maior para o computador do tipo B.

Questão 07/2021
Considere as principais distribuições de probabilidade e julgue as afirmativas:
(2) Seja X uma variável aleatória com distribuição Qui-quadrado com n graus de liberdade,
então Y = X 2 segue uma distribuição F(1,n) .
(4) Se W1 , ..., Wn são variáveis aleatórias independentes e identicamente distribuídas, com
distribuição Normal, então Y = ni=1 W1 tem distribuição Qui-quadrado com n graus de liber-
P
dade.
Solução.
(2) Falso.
Demonstração. Foi visto no texto que a distribuição F é dada pela divisão das razões de va-
riáveis aleatórias seguindo distribuição qui-quadrado e seus respectivos graus de liberdade.
(4) Falso.
Demonstração. Para a questão ser verdadeira, deveria estar escrito Y = Wi2 e Wi , para
Pn
i=1
qualquer i ∈ {1, ..., n}, deveriam ser variáveis normais padronizadas.
Questão 08/2014
(0) Suponha que Zi , i = 1, 2, ..., n, sejam variáveis aleatórias independentes, cada uma
delas com distribuição normal padrão, com média igual a 0 e variância igual a 1. Então, ni=1 Zi2
P
tem distribuição qui-quadrado com n graus de liberdade;

(1) Suponha que Z seja uma variável aleatória com distribuição normal padrão, e que X
tenha uma distribuição qui-quadrado com n graus de liberdade. Então, T = √Z tem distri-
X/n
buição t de student com n graus de liberdade;
(2) Suponha que T seja uma variável aleatória com distribuição t de student com n graus
de liberdade. Então, o quadrado de T tem distribuição F com 1 e n graus de liberdade;
(3) Suponha que X seja uma variável aleatória com distribuição qui-quadrado com n graus
de liberdade. Então, o quadrado de X tem distribuição F com 1 e n graus de liberdade;
(4) Suponha que W e V sejam variáveis aleatórias que possuem distribuições qui-quadrado
independentes, com graus de liberdade m e k, respectivamente. Então, F = W/m V /k
tem distri-
buição F com graus de liberdade m e k.

Solução.
(0) Verdadeiro.
Demonstração. Vimos no texto exatamente isso.
(1) Falso.
Demonstração. Faltou dizer que Z e X são independentes.
(2) Verdadeiro.
Demonstração. Reveja o item 3 da questão 06/2016.
(3) Falso.
Demonstração. Se X é uma qui-quadrado com n graus de liberdade, então X = Z12 + ... + Zn2 ,
em que Zi , para i ∈ {1, ..., n} são variáveis aleatórias seguindo distribuição normal. Assim,
X 2 = (Z12 + ... + Zn2 )2 ,
que claramente não implica em uma F com 1 e n graus de liberdade.

(4) Verdadeiro.
Demonstração. Vimos no texto exatamente isso.
Questão 06/2011
Sejam X1 , ..., Xn variáveis aleatórias independentes e normalmente distribuídas, com média
0 e variância σ 2 .
(0) Se σ = 1, a variável Y = (X12 + X22 )/(2X32 ) possui uma distribuição F com n1 e n2
graus de liberdade, para n1 = 1 e n2 = 2.
(1) A variável W = √ 2X1 2 possui uma distribuição t com 2 graus de liberdade.
(X1 +X3 )/2
Solução.
(0) Falso.
Demonstração. Q1 ≡ X12 + X22 é uma qui-quadrado com 2 graus de liberdade. Q2 ≡ X32 é
uma qui-quadrado com 1 grau de liberdade. Assim, a variável aleatória definida por
Q1 /2 Q1 X2 + X2
S≡ = = 1 2 2
Q2 /1 2Q2 2X3
de fato segue uma distribuição F , mas com n1 = 2 e n2 = 1 graus de liberdade.

(1) Falso.

Demonstração. Q ≡ X12 + X32 define uma variável aleatória seguindo uma distribuição qui-
quadrado. No entanto, X1 e Q claramente não são independentes. Portanto, W não pode ser
uma distribuição t com 2 graus de liberdade.
Questão 07/2011
Considere a seguinte função de densidade conjunta de duas variáveis aleatórias contínuas
X e Y dada por

kx2 y, 0 ≤ x ≤ 1, 0 ≤ y ≤ 1
fXY (x, y) =
0, caso contrário
(0) Para que fXY (x, y) satisfaça as propriedades de uma função de densidade conjunta,
k = 6.
Solução.
(0) Verdadeiro.
Demonstração. Para que fXY (x, y) satisfaça as propriedades de uma função de densidade
R∞ R∞
conjunta, −∞ −∞ fXY (x, y)dxdy = 1:
∞ ∞ 1 1 1
x2
Z Z Z Z Z
2 2
k x ydydx = 1 ⇔ x ydydx = 1/k ⇔ = 1/k
−∞ −∞ 0 0 0 2
1 1
⇔ = ⇔ k = 6.
6 k
Questão 15/2014
(4) Considere a seguinte função densidade de probabilidade conjunta para as variáveis Z e

W : f (z, w) = 2 − z − w, 0 ≤ z ≤ 1, 0 ≤ w ≤ 1. Podemos dizer que as variáveis Z e W são
independentes.

Solução.
(4) Falso.
Demonstração. Sabemos que Z e W seriam independentes se f (z, w) = fZ (z)fW (w). Clara-
mente f (z, w) não pode ser escrita como um produto de funções dependentes apenas de z e
w, respectivamente. Então, Z e W não podem ser independentes.
Questão 05/2015
Sejam X e Y variáveis aleatórias, com a seguinte função densidade de probabilidade con-
junta:
f (x, y) = (x + y) para 0 ≤ x ≤ 1, 0 ≤ y ≤ 1, com f (x, y), caso contrário.
(0) Sendo f (x) a distribuição marginal de X, podemos dizer que f (x) = x + (1/2) para
0 ≤ x ≤ 1;
(1) P rob(0 ≤ X ≤ 0, 5) = 1/2;
(2) P rob(0, 5 ≤ X ≤ 1) = 5/8;
(3) f (y|X = 0, 5) = y.
(4) P rob(0 ≤ Y ≤ 0, 5|X = 0, 5) = 1/2.
Solução.
(0) Verdadeiro.
Demonstração.
Z 1
f (x) = (x + y)dy = [xy + y 2 /2]10 = x + 1/2, para x ∈ [0, 1].
0
(1) Falso.
Demonstração. Usando f (x) = x + 1/2,
Z 0,5
(x + 1/2)dx = [x2 /2 + x/2]0,5
0 = 3/8.
0
(2) Verdadeiro.

Demonstração. Usando f (x) = x + 1/2,

Z 1
(x + 1/2)dx = [x2 /2 + x/2]10,5 = 1 − (1/8 + 1/4) = 5/8.
0,5
(3) Falso.
Demonstração.
f (1/2, y) y + 1/2
f (y|X = 0, 5) = = = y + 1/2.
fX (1/2) 1
(4) Falso.
Demonstração.
Z 0,5 Z 0,5
P rob = (0 ≤ Y ≤ 0, 5|X = 0, 5) = fY |X (y|X = 0, 5) = (0, 5 + y)dy = 0, 375.
0 0
Questão 04/2022
Seja a seguinte função de distribuição:

xy 0 ≤ x ≤ 4; 1 ≤ y ≤ 2
f (x, y) =
0 c.c
Encontre o valor esperado de X + 3Y .
Solução.
Demonstração. Note que E[X + 3Y ] = E[X] + 3E[Y ]. Para calcular as médias de X e Y ,
precisamos das distribuições marginais. Note que elas são dadas pelas seguintes expressões:
Z 2
fX (x) = xydy = xy 2 /2 | y=2
y=1 = 3x/2.
1
Z 4
fY (y) = xydx = yx2 /2 | x=4
x=0 = 8y.
0

Então,
Z 4 Z 4
E[X] = xfX (x)dx = (3x2 /2)dx = (3/2)[x3 /3]40 = 32
0 0
Z 2 Z 2
E[Y ] = yfY (y)dy = 8y 2 dy = (8/3)[y 3 ]21 = 56/3.
1 1
Portanto, E[X] + 3E[Y ] = 32 + 56 = 88.
Questão 13/2016
Uma lanchonete resolveu apostar no serviço de drive-thru, além do atendimento convencio-
nal. Em um dia, X é a proporção de tempo em que o drive-thru está em uso e Y é a proporção
de tempo em que o caixa convencional está em uso. Assim (X, Y ) ∈ {(x, y)|0 ≤ x ≤ 1 e 0 ≤
y ≤ 1}. O gerente, que começou a estudar estatística este ano, acredita que a função de
densidade conjunta seja dada por:

 6 (x + y 2 )
5
se 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1
f (x, y) =
0 caso contrário.
Calcule a probabilidade de nenhuma das alternativas de atendimento estar ocupada em mais

de um quarto do tempo. Multiplique o resultado por 1280 e marque a parte inteira.
Solução.
Demonstração. Queremos calcular P (X < 1/4, Y < 1/4). Então,
6 1/4 1/4
Z Z
P (X < 1/4, Y < 1/4) = (x + y 2 )dxdy
5 0 0
Z 1/4
6 1/4
Z
6 2 2 1/4
= [x /2 + y x]0 dy = (1/32 + y 2 /4)dy
5 0 5 0
Å ã
6 3 1/4 6 1 1
= [y/32 + y /12]0 = +
5 5 128 64 · 12
Å ã
6 1 1 6 7 7
= + = =
5 128 128 · 6 5 128 · 6 5 · 128
Então, 1280 × 7
5·128
= 10·7
5
= 14.

Capítulo 6
Teoremas
6.1 Teorema de Tchebycheff

Teorema 6.1 Se X é uma variável aleatória com média µ e desvio padrão σ, então
1
P (|X − µ| ≥ kσ) ≤ , ∀k > 0. (6.1)
k2
Observação 6.2 Note que uma forma alternativa de enunciar a igualdade acima é escrever
1
P (|X − µ| ≤ kσ) ≥ 1 − , ∀k > 0.
k2
Observação 6.3 Uma forma mais geral de enunciar o teorema acima é dizer que se X é uma variável
aleatória, então
E[(X − c)2 ]
P (|X − c| ≥ ε) ≤ , ∀c ∈ R ∧ ∀ε > 0. (6.2)
ε2
6.2 Lei dos Grandes Números

Teorema 6.4 Sejam X1 , ..., Xn variáveis aleatórias independentes que possuem mesma distribuição
com média µ. Se X̄n = X1 +...+X
n
n
, então a Lei dos Grandes números afirma que
p
X̄n → µ.
Isto significa que, quando n → ∞, a probabilidade de X̄ estar arbitrariamente próximo de µ é de

100%.
111
112 6.3. TEOREMA DO LIMITE CENTRAL
6.3 Teorema do Limite Central

Teorema 6.5 Sejam X1 , ..., Xn variáveis aleatórias independentes que possuem mesma distribuição,
média µ e variância σ 2 . Seja, ainda, X̄n = X1 +...+X
n
n
. O Teorema do Limite Central (TLM) afirma que
a distribuição de X̄ converge para a distribuição normal com média µ e variância σ 2 /n, isto é:
d
X̄n → N (µ, σ 2 /n).
Observação 6.6 Também é comum a expressão de X̄n na convergência acima aparecer padronizada:
X̄n − µ d
√ → N (0, 1).
σ/ n
Observação 6.7 Podemos mostrar por que a média e a variância da distribuição normal para a qual
X̄n converge é µ e σ 2 /n. Note que
E[X1 + ... + Xn ] n
E[X̄] = = µ=µ
n n
1 nσ 2 σ2
V ar(X̄) = 2 [V ar(X1 ) + ... + V ar(Xn )] = 2 = .
n n n

CAPÍTULO 6. TEOREMAS 113
Questão 08/2019
Seja X uma variável aleatória com média igual a zero e variância igual a 1. Pelo Teorema de
Tchebycheff, sabemos que:
P rob(|X − µ| ≥ 5) ≤ z, em que µ é a média de X. Obtenha z e multiplique o resultado

por 100.
Solução.
Demonstração. Como µ = 0 e σ 2 = 1, pela desigualdade 6.1 podemos ver que z = 1
52
= 1
25
.
Portanto, 100 × z = 100
25
= 04.
Questão 04/2019
Seja uma variável aleatória X, com E(X) = 5 e E(X 2 ) = 50. Qual o limite de probabilidade
para que |X − E(X)| > 10? Multiplique por 100 e marque a parte inteira.
Solução.
Demonstração. Note que V ar(X) = E(X 2 ) − [E(X)]2 = 25 e, então, σ = 5. Portanto,
P (|X − 5| > 2 · 5) ≤ 1/22 = 1/4. A resposta final é 25 = 100/4.
Questão 08/2021
Considere uma variável aleatória Y com média igual a 12 e variância igual a 4. Considere
também que, usando o Teorema de Tchebycheff, temos:
P rob(|Y − 12| < 10) ≥ c.
Calcule o valor de c e multiplique o resultado por 100.
Solução.
Demonstração. P rob(|Y − 12| < 10) = P rob(|Y − 12| < 5 · 2) =≥ 1 − 1/52 = 24/25. A
resposta final é, portanto, 100·24
25
= 96.

Questão 10/2012

distribuídas, com distribuição de Bernoulli com parâmetro p. Então, pela Lei dos Grandes Nú-
meros, à medida que n → ∞, X̄ = ni=1 Xi /n converge para p.
P

distribuídas, com distribuição uniforme no intervalo [0, 1]. Seja X̄ = i=1 Xi /n. Pelo Teo-
Pn
√
rema Central do Limite, à medida que n → ∞, n((X̄ − 1/2)/ 1/12) aproxima-se de uma
p
distribuição normal padrão.

distribuídas e que Xi ∼ N (0, 1), ∀i. Então, se definirmos Yi = Xi2 , P (|Yi − 1| > 2) ≤ 0, 5.
Solução.
(0) Verdadeiro.
Demonstração. Como vimos no texto.
(1) Verdadeiro.
Demonstração. Como as variáveis aleatórias Xi seguem uma distribuição uniforme no intervalo
[0, 1], temos que E[X] = (1 − 0)2 /2 = 1/2 e V ar[X] = 1/12. Então,
√ » √
n((X̄ − 1/2)/ 1/12) = (X̄ − µ)/(σ/ n),
que, conforme vimos, aproxima-se de uma distribuição normal padrão à medida que n cresce.
(2) Verdadeiro.
Demonstração. Note que Yi tem uma distribuição qui-quadrado com 1 grau de liberdade. En-
√ √ √ 2
tão, E[Yi ] = 1 e V ar[Yi ] = 2. Portanto, P (|Yi − 1| > 2 · 2 = 1/ 2 = 1/2 = 0, 5.
Questão 04/2011

distribuídas e que Xi ∼ N (µ, σ 2 ), ∀i. Então, se definirmos X̄ = ni=1 Xi /n, P (|X̄ − µ| >
P
2
ε) ≤ σε2 , para ∀ε > 0.


distribuídas e que Xi ∼ Poisson(λ), ∀i. Seja X̄ = ni=1 Xi /n. Pela lei dos grandes números, à
P
medida que n → ∞, X̄ converge para λ.
Solução.
(1) Verdadeiro.
Demonstração. Note que como as variáveis aleatórias Xi são independentes, temos que
E[X̄] = µ
1 nσ 2 σ2
V ar(X̄) = [V ar(X 1 ) + ... + V ar(X n )] = = .
n2 n2 n
Pela fórmula (6.2), temos que
E[(X̄ − µ)2 ] V ar(X̄) σ2 σ2

P (|X̄ − µ| ≥ ε) ≤ = = 2 ≤ 2,
ε2 ε2 nε ϵ
em que a última desigualdade se usou o fato no qual n ≥ 1 (pois é o número de variáveis

aleatórias Xi ).
(3) Verdadeiro.
Demonstração. Como vimos no texto.
Questão 09/2012
(4) Se Y é uma variável aleatória tal que E[Y 2 ] < ∞, então podemos afirmar que P (|Y | ≥
c) ≤ E[Y
c2
]
, para c > 0.
Solução.
(4) Falso.
Demonstração. Pela fórmula (6.2), temos que
E[Y 2 ]
P (|Y − 0| ≥ c) ≤ .
c2

Questão 14/2016
(1) Sejam X1 , X2 , ..., Xn variáveis aleatórias com distribuição de Poisson com parâmetro λ.
Definindo X̄ = ni=1 Xi /n, podemos dizer, com base na Lei dos Grandes Números, que X̄ se
P
aproxima de λ à medida que n → ∞.

(2) Sejam X1 , X2 , ..., Xn variáveis aleatórias independentes e normalmente distribuídas
com média µ e variância σ 2 . Sendo X̄ = i=1 Xi /n, podemos dizer que X̄ se torna bem
Pn
aproximada pela distribuição normal com média µ e variância σ 2 quando n → ∞.

(3) Sejam X1 , X2 , ..., Xn variáveis aleatórias independentes e identicamente distribuídas
com média µ e variância σ 2 . Sendo X̄ = ni=1 , Xi /n, X̄ se torna bem aproximada pela distri-
P
buição normal quando n → ∞, mesmo que X1 , ..., Xn não sejam normalmente distribuídas.
Solução.
(1) Falso.
Demonstração. Xi precisam ser independentes.
(2) Falso.
Demonstração. A única coisa que está incorreta na afirmação é a variância: não é σ 2 mas sim
σ 2 /n.
(3) Verdadeiro.
Demonstração. Exatamente como foi visto no texto.
Questão 07/2022
(1) Sejam X1 , X2 , ..., Xn variáveis aleatórias independentes com distribuição de Bernoulli

com parâmetro p. Sendo X̄ = ni=1 (Xi /n), pelo Teorema do Limite Central, X̄ converge para
P
uma distribuição normal quando n → ∞.

(2) Sejam X1 , X2 , ..., Xn variáveis aleatórias com distribuição de Bernoulli com parâmetro
p. Pela Lei dos Grandes Números, X̄ = ni=1 Xi /n converge para p quando n → ∞.
P
(3) Sejam X1 , X2 , ..., Xn variáveis aleatórias independentes com média µ e variância σ 2 .

Sendo X̄ = ni=1 Xni , pelo Teorema Central do Limite, X̄ converge para uma distribuição nor-
P
mal quando n → ∞.

Solução.
(1) Verdadeiro.
Demonstração. Como visto no texto.
(2) Falso.
Demonstração. Xi precisam ser independentes.
(3) Falso.
Demonstração. Faltou dizer que todas as variáveis aleatórias Xi seguem a mesma distribuição.
Questão 04/2010
Responda se verdadeiro ou falso:
(3) Uma moeda justa foi jogada 300 vezes e observou-se cara em 188 destas. A Lei dos
Grandes Números justifica a afirmação: P (cara na 301ª jogada |188 caras em 300 jogadas) <
0, 5.
Solução.
(3) Falso.
Demonstração. A probabilidade deveria ser 0, 5 pois à medida que o número de lançamentos
fica grande, a média amostral deve convergir à probabilidade de o lançamento da moeda cair
cara.
Questão 07/2013
X1 , ..., Xn é uma amostra aleatória de tamanho N de uma população com E[Xi ] = θ1 e
V ar[Xi ] = θ2 . Definimos quatro estatísticas:
PN PN PN/2 PN
i=1 Xi Xi
i=1 i=1 Xi i=1 Xi
T1 = , T2 = , T3 = , T4 = .
N N −3 N N2
Em relação às quatro estatísticas, podemos afirmar que:
(1) Pela Lei dos Grandes números, T1 converge em distribuição para uma distribuição normal
com média θ1 e variância θN2 .

Solução.
(1) Falso.
Demonstração. Pelo Teorema do Limite Central, não pela Lei dos Grandes Números.
Questão 07/2020
Sejam X1 , ..., Xn variáveis aleatórias independentes,
Pn
todas com a mesma distribuição, com
i=1 Xi
média µ e variância σ . Considere que X n =
2
, Tn = ni=1 Xi , e que Sn2 seja um estima-
P
n
dor consistente para σ 2 . Quando n → ∞, é correto afirmar pelo Teorema Central do Limite:
(0) A variável X n se aproxima de uma distribuição normal, com média µ e variância σ 2 .

X n −µ
(1) A variável Zn = √σ
tem distribuição aproximadamente normal, com média 0 e vari-
n
ância 1.
√
(2) A variável Yn = n(X n − µ) tem distribuição aproximadamente normal, com média 0
2
e variância σn .
X n −µ
(3) A variável Zn = Sn
√
n
ância 1.
(4) A variável Wn = −nµ
Tn √
σ n
ância 1.
Solução.
(0) Falso.
Demonstração. A variância correta é σ 2 /n.
(1) Verdadeiro.
Demonstração. Como visto no texto.
(2) Falso.
√
Demonstração. V ar[Yn ] = V ar[ n(X n − µ)] = nV ar[X n ] = nn σ 2 = σ 2 .
(3) Verdadeiro.
Demonstração. Estimador consistente significa que ele converge ao parâmetro quando n tende
ao infinito. Assim, substituindo Sn por σ, temos em Zn a mesma expressão que vimos no texto
para uma variável padronizada que converge a uma distribuição normal com média 0 e variância
1.
(4) Verdadeiro.


n(X n − µ) X −µ
Wn = √ = n ,
σ n σ/n
que, como vimos, tem distribuição aproximadamente normal, com média nula e variância uni-
tária.
Questão 11/2013
distribuídas com distribuição de Bernoulli com parâmetro p. Defina X̄ = ni=1 Xi /n. Então,
P
pelo Teorema Central do Limite, à medida que n → ∞, (X̄ − p)/ p(1 − p)/n converge para
p
uma distribuição normal padrão.
Solução.
(1) Verdadeiro.
Demonstração. Para Xi arbitrário seguindo distribuição de Bernoulli, µ = p e σ 2 = p(1 − p).
Ou seja, » » √
(X̄ − p)/ p(1 − p)/n = (X̄ − µ)/ σ 2 /n = (X̄ − µ)/(σ/ n),
que converge para uma distribuição normal padrão, conforme vimos no texto.


Parte III
Inferência Estatística
121
Capítulo 7
Inferência
7.1 Estimadores
Considere um grupo de muitas pessoas (uma população) e suponha que queremos saber a
renda média delas, mas não gostaríamos de perguntar isso para todas. Pegamos, assim, uma
amostra aleatória com 10 pessoas e obtemos a renda de cada uma delas. Os valores são deta-
lhados na tabela 7.1.
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
36 40 49 38 16 15 29 50 38 11
Tabela 7.1: Rendas para uma amostra de 10 pessoas.
Como poderíamos estimar a renda média da população inteira? Uma tentativa seria tirar a
média amostral, isto é, somar todos os valores e dividir pelo número de valores:
X1 + ... + Xn 36 + ... + 11
X̄ = = = 32, 3.
10 10
Algumas questões para este estimador poderiam ser feitas:

1. Acreditamos que a renda média verdadeira da população seja realmente X̄ = 32, 2?
2. Esperamos errar “para cima" ou “para baixo"?
3. Se o tamanho da nossa amostra ficasse extremamente grande, o que deve ocorrer com a
nossa estimativa?
4. É importante que a amostra seja aleatória? Se sim, por quê?

A resposta para a primeira pergunta é obviamente não. O valor de X̄ é uma estimativa que
obtemos com base nas informações disponíveis a partir da amostra de dez pessoas. A média
verdadeira da população deve ser um valor diferente de 32, 2.
123
124 7.1. ESTIMADORES
Com respeito à segunda questão, a resposta é que não esperamos nem errar para cima
nem para baixo. Se a nossa estimativa é boa, esperamos que acertamos na média o valor do
parâmetro populacional que queremos estimar.
No que se refere ao tamanho da amostra, é natural esperarmos que, quando ela fica extre-
mamente grande, a nossa estimativa se aproxime do verdadeiro parâmetro populacional que
estamos querendo estimar. Isto porque, no limite, estaremos com as informações de toda a
população, isto é, nossa amostra será, de fato, do tamanho da população inteira que estamos
estudando.
Por fim, a resposta da última questão é que sim, a aleatoriedade da amostra é extremamente
importante. Isto acontece porque caso não seja, poderíamos estar causando um certo viés na
seleção de pessoas. Na pesquisa de renda, por exemplo, é evidente que seria extremamente
indesejável a escolha apenas de um bairro de classe alta ou apenas de um bairro de classe baixa
para fazermos nossa pesquisa.
Ao invés de estimarmos a média populacional, poderíamos também estimar a variância ou
qualquer outro parâmetro populacional que seja de nosso interesse. Determinar se um estima-
dor é bom ou ruim é o que estudaremos a seguir.
7.1.1 Propriedades de um Estimador
Suponha que estimamos um valor θ através de um estimador θ̂. Gostaríamos que nosso es-
timador θ̂ acertasse na média o parâmetro populacional θ e que convergisse para ele conforme
aumentamos arbitrariamente nossa amostra. Noutras palavras, seria desejável que nosso esti-
mador cumprisse com dois requisitos: um de não viés, isto é, E[θ̂] = θ, e outro de consistência,
p
θ̂ → θ. Outra característica importante de um estimador é o que chamamos de Erro Quadrático
Médio (EQM). Definimos o EQM de forma que ele nos dê uma medida possível do quão bom
(ou ruim) é o estimador θ̂:
EQM ≡ E[(θ̂ − θ)2 ].
Observe que
E[(θ̂ − θ)2 ] = E[(θ̂ − E[θ̂] + E[θ̂] − θ)2 ]

= E[(θ̂ − E[θ̂])2 + 2(θ̂ − E[θ̂])(E[θ̂] − θ) + (E[θ̂] − θ)2 ]
= E[(θ̂ − E[θ̂])2 ] + 2E[(θ̂ − E[θ̂])(E[θ̂] − θ)] + E[(E[θ̂] − θ)2 ]
= E[(θ̂ − E[θ̂])2 ] + E[(E[θ̂] − θ)2 ] = E[(θ̂ − E[θ̂])2 ] + (E[θ̂] − θ)2
= V ar[θ̂] + [viés(θ̂)]2 ,
em que a quarta igualdade segue-se do fato no qual E[θ̂] − θ ser um número qualquer (uma

CAPÍTULO 7. INFERÊNCIA 125
constante) e, então,
2E[(θ̂ − E[θ̂])(E[θ̂] − θ)] = 2E[(θ̂ − E[θ̂])](E[θ̂] − θ)

= 2(E[θ̂] − E[θ̂])](E[θ̂) − θ) = 0.
Observação 7.1 Quanto maior o EQM , pior é o estimador θ̂.
Definição 7.2 Considere θ̂1 , ..., θ̂m diferentes estimadores de θ. Chamamos de estimador eficiente
aquele que é o melhor entre eles, isto é, aquele que é não-viesado e tem a menor variância. Ou, de
maneira alternativa, o melhor estimador é aquele com o menor Erro Quadrático Médio (EQM).
7.1.2 Estimador da Média

Considere um conjunto de N valores (população) com média µ desconhecida. Observamos
apenas uma amostra aleatória com n < N valores. Seja X1 , ..., Xn os valores observados.
Estimamos a média populacional µ através da média amostral dada por
X1 + ... + Xn
X̄ = .
n
Observação 7.3 Este é um possível estimador da média. Poderíamos obter outros.
Observação 7.4 Embora estejamos procurando um estimador para a média, podemos também esti-
mar outros parâmetros populacionais.
Poderíamos nos perguntar se este estimador é não-viesado e consistente. Para ver que sim,
note que E[X̄] = E[ X1 +...+X
n
n
] = nµ
n
= µ. Ainda, temos que X̄ converge em probabilidade
para a média populacional µ. De fato, este é um resultado da Lei dos Grandes Números visto
em seções anteriores destas notas.
7.1.3 Estimadores da Variância

Considere um conjunto de N valores (população) com variância σ 2 desconhecida. Observa-
mos apenas uma amostra aleatória com n < N valores. Seja X1 , ..., Xn os valores observados
e X̄ a média de Xi . Podemos estimar a variância populacional σ 2 através da variância amostral
dada por
(X1 − X̄)2 + ... + (Xn − X̄)2

σ̂ 2 = .
n

126 7.1. ESTIMADORES
Mostremos que E[σ̂ 2 ] = n−1 2

n
σ e, portanto, que o estimador é viesado. Primeiramente,
observe que
n n
2 1X 1X 2
σ̂ = (Xi − X̄)2 = (X − 2Xi X̄ + X̄ 2 )
n i=1 n i=1 i
n n
1X 2 X̄ X n
= Xi − 2 Xi + X̄ 2
n i=1 n i=1 n
n n
!
1X 2 2 X
= X − X̄ 2 Xi − 1
n i=1 i nX̄ i=1
n
1X 2
= X − X̄ 2 ,
n i=1 i
em que a última igualdade seguiu-se do fato no qual X̄ = Xi . Portanto,

1
Pn
n i=1
" n
# n
1 X 1X
E[σ̂ 2 ] = E Xi2 − X̄ 2 = E[Xi2 ] − E[X̄ 2 ]
n i=1 n i=1
n
1X
= [V ar[Xi ] + (E[Xi ])2 ] − (V ar[X̄] + (E[X̄])2 )
n i=1
n Å 2 ã
1X 2 2 σ 2
= [σ + µ ] − +µ
n i=1 n
σ2
= σ2 −
n
n−1 2
= σ ̸= σ 2 ,
n
o que mostra que σ̂ 2 é um estimador viesado.

Embora não tenha a característica desejável de ser não-viesado, tal estimador é consistente.
p
De fato, a Lei dos Grandes números nos garante que σ̂ 2 → E[(Xi − E[Xi ])2 ] = σ 2 . Portanto, o
estimador σ̂ 2 é viesado mas consistente.
O fato de que E[σ̂ 2 ] = n−1
n
σ 2 nos sugere que um estimador ao mesmo tempo não viesado e
consistente para a variância populacional σ 2 pode ser calculado através da seguinte expressão:
(X1 − X̄)2 + ... + (Xn − X̄)2

S2 = . (7.1)
n−1
Observe que S 2 = n−1 n

σ̂ 2 . Neste caso, teremos que E[S 2 ] = E[ n−1
n
σ̂ 2 ] = n−1 n
E[σ̂ 2 ] =
σ = σ 2 . Portanto, o estimador S 2 é não viesado. Perceba ainda que a consistência do
n n−1 2
n−1 n
estimador se mantém para S 2 . De fato, lembrando uma vez mais que S 2 = n−1 n
σ̂ 2 , podemos
p p
ver que S 2 → σ 2 , uma vez que σ̂ 2 → σ 2 e a fração n/(n − 1) → 1 quando n → ∞.

Observação 7.5 Para cada estimador da variância, temos um estimador natural para o desvio pa-
drão:
√
σ̂ =σ̂ 2
√
S = S 2.
7.2 Teste de Hipótese

Considere X1 , ..., Xn uma amostra aleatória de uma população com média µ (desconhe-
cida) e variância σ 2 (conhecida). Suponha que queremos testar uma hipótese para o valor de
µ, que chamaremos de hipótese nula, denotada por H0 : µ = µ0 . Como queremos fazer um
teste, suporemos que esta hipótese nula é verdadeira e estudaremos as implicações desta supo-
sição. Sabendo a distribuição de X̄, podemos calcular a probabilidade de obtermos um valor X̄
a partir da nossa amostra aleatória, dado que a média populacional é µ = µ0 . Ou seja, podemos
saber o quão provável é, dado que µ = µ0 , que tenhamos obtido o valor de X̄ a partir da amostra e
do estimador considerado. Assim, se esta probabilidade for muito baixa (isto é, é altamente im-
provável que, caso µ = µ0 , tenhamos obtido X̄ a partir de uma amostra aleatória), dizemos
que rejeitamos a hipótese nula H0 e aceitamos a hipótese alternativa, definida pela negação da
hipótese nula, isto é, H1 : µ ̸= µ0 ; caso contrário, se a probabilidade não for tão baixa (isto
é, não é altamente improvável que, caso µ = µ0 , tenhamos obtido X̄ a partir de uma amostra
aleatória), então não rejeitamos a hipótese nula H0 .
Note que a média amostral, que estamos denotando por X̄, depende da nossa amostra ale-
atória. Portanto, pode-se dizer que X̄ é uma variável aleatória seguindo uma determinada distri-
buição de probabilidade. Mas qual distribuição ela seguirá? Caso todas as variáveis aleatórias da
amostra sigam uma distribuição normal com média µ e variância σ 2 , isto é, Xi ∼ N (µ, σ 2 ), ou
a amostra aleatória for grande o suficiente, então X̄ seguirá também uma distribuição normal
com média µ e variância σ 2 /n, i.e., X̄ ∼ N (µ, σ 2 /n). No primeiro caso em que todas as va-
riáveis aleatórias seguem uma distribuição normal, X̄ é apenas uma combinação linear delas e
então, como sabemos, ele também seguirá uma distribuição normal; no segundo caso, em que
a amostra é muito grande, temos a garantia de que X̄ seguirá uma distribuição normal através
do Teorema do Limite Central. Portanto, no nosso caso do teste em que supomos µ = µ0 ,
X̄ ∼ N (µ0 , σ 2 /n) se ao menos uma destas duas condições é atendida.
Na prática, o que significa “saber o quão provável é, dado µ = µ0 , que tenhamos obtido o
valor de X̄ a partir da amostra"? Bom, como neste caso X̄ ∼ N (µ0 , σ 2 /n), então podemos
ver o quão longe X̄ está da média µ0 através do gráfico da distribuição normal centrada em
µ0 e com variância σ 2 /n. Sabemos que quanto mais distante X̄ estiver de µ0 (isto é, X̄ está
localizado nas caudas da distribuição normal, ou nos extremos), mais improvável será observar

128 7.2. TESTE DE HIPÓTESE
X̄ em nossa amostra, fazendo que rejeitemos a hipótese nula1 . O “quão longe" X̄ está de
µ0 é uma medida arbitrária e, assim, devemos estipular um valor que nos dê um padrão de
comparação para julgar o quão provável é a validade de nossa hipótese nula H0 : µ = µ0 .
Comumente, chamamos este valor de nível de significância e o denotamos por α. O valor de α
determina uma área de rejeição da hipótese nula: caso X̄ pertença a esta área determinada por
α, então rejeitamos H0 ; caso contrário, não rejeitamos H0 . Tal raciocínio é ilustrado na figura
7.1.
Figura 7.1: Rejeição (ou não) da hipótese nula H0 .
Observação 7.6 Para trabalharmos com este tipo de problema, devemos primeiro padronizar a nossa
variável X̄, definindo o que comumente é chamado de estatística t:
X̄ − µ0
t= √ ∼ N (0, 1).
σ/ n
Assim, poderemos usar a tabela da distribuição normal para fazer o teste de hipótese.
Da mesma forma como o valor arbitrário de α definiu uma área, a posição de X̄ no gráfico
da distribuição normal define uma área ou uma probabilidade que chamamos de p-valor. Ela é
ilustrada na figura 7.2.
Da análise das figuras 7.1 e 7.2 podemos ver o seguinte: caso o p-valor seja pequeno o
suficiente, rejeitamos a hipótese nula; caso contrário, não rejeitamos. Isto é,
• Se p-valor < α, então rejeitamos H0 ;

1
Ou seja, dado que a média populacional é µ0 , é altamente improvável que, ao observar uma amostra aleatória,
nossa média amostral seja X̄. Assim, a média populacional não deve ser µ0 e portanto rejeitamos esta hipótese.

• Se p-valor > α, então não rejeitamos H0 .
Figura 7.2: p-valor.
Até agora analisamos o caso em que a hipótese nula era dada por uma igualdade, isto é,
µ = µ0 . Chamamos este teste de teste bicaudal. No entanto, poderia ser o caso de a hipótese
nula ser caracterizada por uma desigualdade, originando um teste monocaudal. Suponha, por
exemplo, que H0 : µ < µ0 . Nossa hipótese alternativa seria, portanto, H1 : µ ≥ µ0 . O
raciocínio para analisar este caso é semelhante ao anterior; no entanto, a região de rejeição
estaria determinada apenas na extremidade direita do gráfico da distribuição normal. De igual
modo, caso H0 : µ > µ0 , nossa hipótese alternativa seria H1 : µ < µ0 e, portanto, a região de
rejeição estaria determinada apenas na extremidade esquerda do gráfico da distribuição normal
7.3 Teste de Hipótese com Variância Desconhecida

Considere X1 , ..., Xn uma amostra aleatória de uma população com distribuição normal
de média µ e variância σ 2 ambas desconhecidas. Suponha que nossa hipótese nula seja H0 :
µ = µ0 . Anteriormente, conhecíamos a variância e conseguíamos realizar o teste de hipótese
utilizando-a. Agora, no entanto, não conhecemos a variância, de modo que teremos de usar o
estimador da variância dado por (7.1). Assim, utilizaremos a estatística t dada por
X̄ − µ
t= √ ∼ tn−1
S/ n
para realizar o teste de hipótese.

Afirmamos que ela segue uma distribuição t de Student. De fato, se assumirmos2 que (n −
2
Este resultado não será provado nestas notas.

130 7.4. TIPOS DE ERROS
2
1) Sσ2 ∼ χ2n−1 , então
√ X̄−µ
√ X̄ − µ σ/ n
t= n =» 2 . (7.2)
S S n−1
2 σ n−1
Como o numerador da expressão segue uma distribuição normal padrão e o denominador é a

raiz quadrada da razão entre uma variável aleatória seguindo uma distribuição qui-quadrado e
o número de seus graus de liberdade, então t segue uma distribuição t de Student com n − 1
graus de liberdade, como queríamos demonstrar3 .
Observação 7.7 Se n for grande, então a distribuição t de Student se aproxima de uma normal pa-
drão.
Com a estatística t dada por (7.2) podemos prosseguir com o teste de hipótese exatamente
da mesma forma como no caso anterior em que conhecíamos a variância populacional.
7.4 Tipos de Erros
Erro do Tipo I
Definição 7.8 Cometemos um erro do tipo I quando H0 é verdadeira mas a rejeitamos. Seja α o nível
de significância do teste. A probabilidade deste tipo de erro é:
P (erro tipo I) = P (rejeitar H0 | H0 é verdadeira.) = α
Erro do Tipo II
Definição 7.9 Cometemos um erro do tipo II quando H0 é falsa mas não a rejeitamos. A probabili-
dade deste tipo de erro é:
β ≡ P (erro tipo II) = P (não rejeitar H0 | H0 é falsa.).
Observação 7.10 A probabilidade do erro do tipo II depende do valor verdadeiro do parâmetro, que
desconhecemos. Isto torna impossível calcular tal probabilidade, que denotamos por β.
Caso tivéssemos o valor verdadeiro µ do parâmetro que estamos testando sob a hipótese
nula H0 : µ = µ0 , então poderíamos calcular o erro do tipo II através do cálculo da área (repre-
sentando uma probabilidade) amarela na figura 7.3. Note pela imagem que tal área corresponde
3
O leitor pode querer voltar algumas seções e rever a forma de uma variável seguindo distribuição t de Student.

à região de não rejeição da distribuição de probabilidade à esquerda (sobre a qual realizamos

nosso teste de hipótese). Mas com relação a distribuição à direita, tal região que nos dá a
probabilidade do erro do tipo II é calculada na extremidade desta distribuição após o valor que
determina uma das áreas de rejeição no teste de hipótese.
Figura 7.3: Erro do Tipo II.
Figura 7.4: Poder do Teste.

132 7.5. INTERVALO DE CONFIANÇA
Poder do Teste
Definição 7.11 O poder do teste é a probabilidade de rejeitar H0 quando ela é falsa. Ou seja, é o
complemento da probabilidade do erro do tipo II:
Poder do teste = 1 − P (erro do tipo II).
A figura 7.4 ilustra graficamente a região que nos dá o poder do teste. Observe que a soma
das áreas pintadas nas figuras 7.3 e 7.4 deve somar 1, já que são probabilidades complementa-
res.
7.5 Intervalo de Confiança
Sejam X1 , ..., Xn n observações aleatórias para uma variável aleatória X seguindo uma dis-
tribuição normal com média desconhecida µ e variância conhecida σ 2 . Neste seção, estaremos
interessados em determinar uma constante c ∈ R de modo que tenhamos p ∈ (0, 1) de chance
de µ pertencer a ao intervalo [X̄ − c, X̄ + c]. Ou seja, queremos encontrar um c ∈ R tal que
P (X̄ − c ≤ µ ≤ X̄ + c) = p,
em que p ∈ (0, 1) é arbitrário. Uma forma equivalente e mais útil de escrever esta expressão é
dada a seguir:
P (µ − c ≤ X̄ ≤ µ + c) = p. (7.3)
Sabemos que X̄ ∼ N (µ, σ 2 /n) e, assim, podemos usar a tabela da distribuição normal
para calcular o valor de c para que a igualdade em (7.3) ocorra. No entanto, como de costume,
precisamos normalizar a variável X̄ através da definição da estatística t:
X̄ − µ
t= √ .
σ/ n
Com X̄ normalizado pela definição de t, podemos reescrever a igualdade em (7.3) do se-

guinte modo:
(µ − c) − µ (µ + c) − µ −c
Å ã Å ã
c
P √ ≤t≤ √ =P √ ≤t≤ √ =p
σ/ n σ/ n σ/ n σ/ n
Defina tp = c√
σ/ n
. Através da tabela da normal padrão podemos achar o valor de tp e, assim,

como também sabemos os valores de σ e n, podemos achar o valor de c:
tp σ
c= √ . (7.4)
n
Portanto, nosso intervalo com (100 · p)% de confiança, que denotaremos por IC100·p% será
dado por
ï ò
tp σ tp σ
IC100·p% = X̄ − √ , X̄ + √ . (7.5)
n n
Observação 7.12 Quando não sabemos a variância populacional σ 2 , aplicamos um procedimento

semelhante ao descrito nesta seção, mas considerando
X̄ − µ
tp = √ ∼ tn−1 ,
s/ n
em que tn−1 denota a distribuição t de Student com n − 1 graus de liberdade.4
4
Lembre-se de que fazíamos um procedimento análogo a este para testar hipótese de um problema com vari-
ância populacional desconhecida. A ideia é a mesma.

Questão 15/2015
Sejam X1 , X2 , X3 e X4 variáveis aleatórias independentes e identicamente distribuídas de
uma população com média µ e variância σ 2 . Considere os seguintes estimadores para µ:
m1 = (X1 + 2X2 + 2X3 + X4 )/6

m2 = (X1 + 4X2 + 4X3 + X4 )/10
m3 = (X1 + X2 + X3 + X4 )/4
Com base nesses três estimadores, são corretas as afirmativas:
(0) Os três estimadores são não tendenciosos;

(1) m1 é o estimador com maior variância;
(2) Os três estimadores são igualmente eficientes;
(3) m3 é o estimador com menor variância;
(4) O estimador m2 é não tendencioso e tem menor variância do que o estimador m1 .
Solução.
(0) Verdadeiro.
Demonstração. É fácil ver que E(mi ) = µ, ∀i ∈ {1, 2, 3}.
(1) Falso.
Demonstração. Temos que
V ar(X1 ) + 4V ar(X2 ) + 4V ar(X3 ) + V ar(X4 ) 5σ 2

V ar(m1 ) = = = 0, 277...
36 18
V ar(X1 ) + 16V ar(X2 ) + 16V ar(X3 ) + V ar(X4 ) 17σ 2
V ar(m2 ) = = = 0, 34
100 50
V ar(X1 ) + V ar(X2 ) + V ar(X3 ) + V ar(X4 ) σ2
V ar(m1 ) = = = 0, 25.
16 4
Portanto, o estimador com maior variância é m2 .
(2) Falso.
Demonstração. Como todos os estimadores são não-viesados, o Erro Quadrático Médio (EQM)
será equivalente às respectivas variâncias de cada estimador. Então, como vimos na resposta
do item anterior que as variâncias diferem, segue que os estimadores não são igualmente efici-
entes.

(3) Verdadeiro.
Demonstração. Vimos na resposta do item (1).
(4) Falso.
Demonstração. m2 é o estimador com maior variância dentre os três.
Questão 04/2011

distribuídas e que Xi ∼ N (µ, σ 2 ). Então X̄ = ni=1 Xi /n é um estimador eficiente de µ.
P
(2) Se um estimador θ̂ de um parâmetro θ é não viesado e a variância de θ̂ converge para 0

à medida que o tamanho da amostra tende a infinito, então θ̂ é consistente.
Solução.
(0) Verdadeiro.
(2) Verdadeiro.
Demonstração. Isto vai implicar na convergência do estimador para o parâmetro da população,
conforme o tamanho da amostra tende a infinito.
Questão 09/2020
Sejam Y1 , Y2 , ..., Yn variáveis aleatórias independentes e identicamente distribuídas, com
média igual a 5 e variância igual a 100. Obtenha o Erro Quadrado Médio para o seguinte esti-
mador, para a média de Yi : T = 15 4i=1 Yi .
P
Solução.
4σ 2
Demonstração. Sabemos que EQM = V ar(T ) + viés2 (T ). Note que V ar(T ) = 25
=
4·100
25
= 16 e viés2 (T ) = (E[T ] − 5)2 = ( 4·5
5
− 5)2 = 1. Portanto
EQM (T ) = 16 + 1 = 17.

Questão 09/2019
Sejam Y1 , Y2 , ...., Yn variáveis aleatórias independentes e identicamente distribuídas, com

média µ e variância σ 2 . Definindo os seguintes estimadores para µ: (1) Ȳ = n1 ni=1 Yi e (2)
P
Y ∗ = k1 ki=1 Yi , em que 1 < k < n, podemos afirmar que:

P
(0) Y ∗ é um estimador tendencioso para µ.

σ2
(1) V ar(Ȳ ) = n
.
(2) O Erro Quadrado Médio é maior para o estimador Y ∗ em comparação com o estimador
Ȳ .
(4) V ar(Ȳ ) = V ar(Y ∗ ).
Solução.
(0) Falso.
Demonstração. Note que E[Y ∗ ] = µ e, portanto, Y ∗ não é um estimador tendencioso (ou
viesado).
(1) Verdadeiro.
Demonstração.
V ar(Y1 ) + ... + V ar(Yn ) nσ 2 σ2

V ar(Y ) = = = .
n2 n2 n
(2) Verdadeiro.
Demonstração. Como ambos os estimadores são não-viesados, o Erro Quadrado Médio será
igual à variância dos estimadores. Calculamos, na resposta do item (1), a variância para Y . A
2
variância para Y ∗ será dada por V ar(Y ∗ ) = σk . Portanto, como k < n, segue que V ar(Y ) <
V ar(Y ∗ ), isto é, EQM (Y ) < EQM (Y ∗ ).
(4) Falso.
Demonstração. Vimos na resposta do item (3) que não procede tal igualdade.

Questão 07/2013
X1 , ..., Xn é uma amostra aleatória de tamanho N de uma população com E[Xi ] = θ1 e
V ar[Xi ] = θ2 . Definimos quatro estatísticas:
PN PN PN/2 PN
i=1 Xi Xi
i=1 i=1 Xi i=1 Xi
T1 = , T2 = , T3 = , T4 = .
N N −3 N N2
Em relação às quatro estatísticas, podemos afirmar que:

(0) T2 é um estimador viesado para θ1 e o viés é igual a 3
θ.
N −3 1
(3) T3 é um estimador consistente para θ21 .
Solução.
(0) Verdadeiro.
Nµ
E(T2 ) = .
N −3
Portanto, o viés de T2 será
Nµ 3
viés(T2 ) = −µ= .
N −3 N −3
(3) Verdadeiro .
Demonstração. Seja
PN/2
i=1Xi
T̃3 = 2T3 = .
N/2
Pela Lei dos Grandes Números, T̃3 converge em probabilidade para θ1 . Mas isto é equivalente a
dizer que T̃3 /2 = T3 converge em probabilidade para θ1 /2.
Questão 06/2010
Suponha que Y1 e Y2 sejam variáveis aleatórias independentes, com média µ e variâncias
V (Y1 ) = 75 e V (Y2 ) = 25. O valor de µ é desconhecido e é proposto estimar µ por uma média
ponderada de Y1 e Y2 , isto é, por:
αY1 + (1 − α)Y2

Qual valor de α produz o estimador com a menor variância possível na classe dos estimado-
res não viesados? Multiplique o resultado por 100.
Solução.
Demonstração. Seja T = αY1 + (1 − α)Y2 . Note que T é um estimador não viesado, uma vez
que E[T ] = αµ + (1 − α)µ = µ. Estudemos, agora, a variância de T :
V (T ) = V (αY1 + (1 − α)Y2 ) = α2 V (Y1 ) + (1 − α)2 V (Y2 ) = α2 75 + (1 − α)2 25

= 100α2 − 50α + 25.
V (T ) é uma parábola em α com mínimo em α = 1/4. Portanto, o resultado final é 100 ×

1/4 = 25.
Questão 15/2015
(0) Considere dois estimadores não tendenciosos, θ̂1 e θ̂2 de um parâmetro θ. θ̂1 é eficiente
relativamente a θ̂2 se var(θ̂1 ) < var(θ̂2 )
(1) Um estimador θ̂ de um parâmetro θ é consistente se θ̂ converge em probabilidade para
θ;
(2) Um estimador θ̂ de um parâmetro θ é consistente se, e somente se, θ̂ é não viesado e a
variância de θ̂ converge para 0 à medida que o tamanho da amostra tende a infinito;
Solução.
(0) Verdadeiro.
Demonstração. Como ambos são não-viesados, os Erros Quadráticos Médios de ambos os
estimadores dependerão apenas das respectivas variâncias. Como V ar(θ̂1 ) < V ar(θ̂2 ), então
θ̂1 tem menor EQM se comparado a θ̂2 e, portanto, é eficiente relativamente.
(1) Verdadeiro.
(2) Falso.
Demonstração. A propriedade de consistência não depende do viés do estimador.

Questão 11/2013

distribuídas, com distribuição uniforme no intervalo [0, θ]. Defina X̄ = ni=1 Xi /n. Então 2X̄
P
é um estimador não viesado de θ.
Solução.
(2) Verdadeiro.
Demonstração. Para distribuição uniforme no intervalo dado pelo enunciado, temos que a
média é dada por µ = θ/2. Assim, E[2X̄] = 2E[X] = 2µ = θ. Portanto, 2X̄ é um estimador
não viesado de θ.
Questão 04/2017
Sejam X1 , X2 , ..., Xn variáveis aleatórias independentes com distribuição Normal (µ, σ 2 ),
em que µ e σ 2 são desconhecidos e σ 2 > 0. Podemos definir também X̄ = n1 ni=1 Xi e
P
i=1 (Xi − X̄) . Podemos afirmar:

1
Pn
S 2 = n−1 2
(0) S 2 é um estimador não tendencioso de σ 2 .

σ2
(1) A variância de X̄ é igual a n
.
(2) S 2 é um estimador não tendencioso para a variância de X̄.
(3) S 2 é um estimador consistente de σ 2 .
(4) X̄ é um estimador consistente de µ.
Solução.
(0) Verdadeiro.
(1) Verdadeiro.
(2) Falso.
2 2
Demonstração. Note que V ar(X̄) = σn . Sabemos que E[S 2 ] = σ 2 ̸= σn , já que ele não é uma
estimador viesado. Portanto, S 2 não é um estimador não tendencioso para a variância de X̄.

(3) Verdadeiro.
(4) Verdadeiro.
Demonstração. Visto no texto. A Lei dos Grandes Números garante que X̄ converge em pro-
babilidade para µ.
Questão 09/2012
(3) Seja X1 , X2 , ..., XN variáveis aleatórias independentes e identicamente distribuídas

PN
com
X
média µ e variância 0 < σ < ∞. Seja S = N i=1 (Xi − X̄) em que X̄ = i=1 . Neste
2 2 1
PN 2 i
N
caso, S é um estimador consistente para σ .
2 2
Solução.
(3) Verdadeiro.
Questão 04/2010
Responda se verdadeiro ou falso:
(2) Sejam s21 = i=1 (xi − x̄) /n e s2 = i=1 (xi ) /n. Ambos estimadores podem ser
Pn 2 2
Pn 2
demonstrados consistentes para σ 2 , supondo uma amostra aleatória de X ∼ N (µ, σ 2 ).
Solução.
(2) Falso.
Demonstração. Vimos no texto que s21 é consistente. Devemos estudar se s22 é consistente.
Note que pela Lei dos Grandes Números, s22 converge em probabilidade para E[Xi2 ]. Como
p
sabemos que σ 2 = E[Xi2 ] − (E[Xi ])2 , então E[Xi2 ] = σ 2 + (E[Xi ])2 = µ. Portanto, s22 →
E[Xi2 ] = σ 2 ⇔ µ = 0. Nada nos garante que µ = 0 e, portanto, não necessariamente s22 será
consistente.

Questão 02/2012
Suponha que as notas de matemática dos alunos em um exame nacional aplicado a todas as
escolas do ensino médio sejam normalmente distribuídas com média 500 e variância 1000. Um
cursinho faz uma propaganda afirmando que pode melhorar as notas dos alunos em 30 pontos
caso eles frequentem um curso noturno que resolve as questões dos exames anteriores. O
órgão de defesa do consumidor quer testar se este curso noturno é de fato efetivo. O estatístico
deste órgão de defesa do consumidor formula o seguinte problema: Seja M a nota que o aluno
i obtém após frequentar o curso noturno, suponha que M é normalmente distribuído com
média desconhecida µM e variância igual a 1000. O teste de hipótese que ele gostaria de fazer
é o seguinte: H0 : µM = 500 vs H1 : µM > 500.
[Para a resolução desta questão talvez lhe seja útil saber que se Z tem distribuição normal
padrão, então P r(|Z| > 1, 645) = 0, 10 e P r(|Z| > 1, 96) = 0, 05.]
Com base nos dados do problema, julgue as seguintes afirmativas:
(0) O órgão de defesa do consumidor irá conduzir o estudo usando uma amostra aleatória
de 40 alunos que frequentaram este curso noturno. Se µM = 530, a distribuição do teste escore
médio deste grupo de 40 alunos é uma distribuição normal com média 530 e variância 1000.
(1) Após terminarem o curso, os 40 alunos fazem o exame nacional e obtêm na média uma
nota de 520 em matemática. Neste caso, a estatística do teste sugerido pelo estatístico é t =
√ 1000 = −2, e podemos afirmar que temos evidência para rejeitar a hipótese nula do teste
520−530
40
proposto pelo estatístico ao nível de 5% de significância.
(2) Após terminarem o curso, os 40 alunos fazem o exame nacional. Usando as notas destes
40 alunos no exame, calculamos o p-valor do teste sugerido pelo estatístico e obtemos o p-valor
de 0, 081. Neste caso, podemos rejeitar a hipótese nula ao nível de 5% de significância.
(3) Mantendo o nível de significância fixo, para diminuir o poder do teste, o estatístico pode
aumentar o tamanho da amostra.
(4) Mantendo o tamanho da amostra fixo, se o estatístico quiser aumentar o poder do teste,
ele deve aumentar o nível de significância do teste.
Solução.
(0) Falso.
Demonstração. Se µM = 530, a distribuição do teste escore médio será uma normal com
média µ = µM e variância σ 2 /n = 1000/40 = 25.
(1) Falso.

Demonstração. Estamos testando a hipótese na qual µM = 500. Portanto, a estatística t é

dada por
520 − 500 520 − 530
t= » ̸= » .
1000 1000
40 40
(2) Falso.
Demonstração. p-valor = 0.081 > 0, 05 = α, em que α é o nível de significância. Portanto,
não rejeitamos a hipótese nula a este nível de significância.
(3) Falso.
Demonstração. Aumentar o tamanho da amostra faz com que o estimador X̄ se aproxime mais
do parâmetro populacional µ, melhorando o poder do teste.
(4) Verdadeiro.
Demonstração. Aumentar o nível de significância aumenta a região de rejeição e, consequen-
temente, o poder do teste. Este raciocínio fica claro quando olhamos para a figura 7.4.
Questão 01/2011
Considere as seguintes afirmativas acerca de um teste de hipótese:
(3) O p-valor de um teste é a probabilidade, sob a hipótese nula, de obter um valor da esta-
tística pelo menos tão extremo quanto o valor observado.
Solução.
(3) Verdadeiro.
Demonstração. Esta é a definição de p-valor.
Questão 03/2019
Sobre teste de hipóteses, julgue como verdadeiras ou falsas as afirmativas que se seguem:
(0) O nível de significância é a probabilidade de se cometer o erro tipo II.

(1) O erro tipo I é o erro de se rejeitar uma hipótese nula, sendo esta verdadeira.
(3) O valor-p é a probabilidade de a hipótese nula ser verdadeira.
(4) O poder do teste é a probabilidade de se rejeitar uma hipótese nula, quando esta for
falsa.

Solução.
(0) Falso.
Demonstração. O nível de significância é a probabilidade de se cometer o erro tipo I.
(1) Verdadeiro.
Demonstração. Esta é a definição do erro do tipo I, conforme visto no texto.
(3) Falso.
Demonstração. O p-valor é a probabilidade de observarmos um valor ao menos tão extremo
quanto a nossa estatística, considerando a hipótese nula verdadeira. Isto claramente é diferente
do que está sendo dito no enunciado.
(4) Verdadeiro.
Demonstração. Esta é a definição de poder do teste, conforme vimos no texto.
Questão 01/2012
(0) O erro tipo I é definido como a probabilidade de rejeitar a hipótese nula quando a hipó-
tese nula é verdadeira.
(1) O erro tipo II é definido como a probabilidade de rejeitar a hipótese nula quando a hipó-
tese nula é verdadeira.
(2) O nível de significância de um teste é a probabilidade de rejeitar a hipótese nula quando
a hipótese alternativa é verdadeira.
(3) Se o p-valor de um teste é maior do que o nível de significância adotado, rejeita-se a
hipótese nula.
(4) Suponha que o objetivo seja testar a hipótese nula de que a média populacional µ é
igual a 0. Se esta hipótese é rejeitada num teste monocaudal contra a hipótese alternativa de
que 0 > µ, ela também será rejeitada num teste bicaudal contra a hipótese alternativa de que
0 ̸= µ, adotando-se o mesmo nível de significância.
Solução.
(0) Falso.
Demonstração. Um erro de qualquer tipo não é uma probabilidade em si.
(1) Verdadeiro.

(2) Falso.
Demonstração. O nível de significância de um teste é a probabilidade de rejeitar a hipótese
nula quando a hipótese nula é verdadeira.
(3) Falso.
Demonstração. Rejeitamos quando ele é menor.
(4) Falso.
Demonstração. Se passamos de um teste monocaudal para um bicaudal mantendo o nível de
significância, então estamos diminuindo a região de rejeição da hipótese nula. Pode ocorrer
então de a hipótese nula não ser rejeitada no teste bicaudal.
Questão 11/2014
Duas turmas do curso de estatística fazem o mesmo exame final. Duas amostras aleatórias
de tamanho 9 e 4 são selecionadas da turma A e da turma B, respectivamente. A amostra da
turma A teve nota média amostral (X̄1 ) de 72 e variância amostral (S12 ) de 16. A amostra da
turma B teve nota média amostral (X̄2 ) de 76 e variância amostral (S22 ) de 25. Vamos assumir
que as notas da turma A têm distribuição normal com média µ1 e variância σ 2 . As notas da
turma B têm uma distribuição normal com média µ2 e variância σ 2 .
[Para a resolução desta questão talvez lhe seja útil saber que se t tem distribuição t-student,
P r(|t| > 3, 15) = 0, 05, e se Z tem uma distribuição normal padrão, P r(|Z| > 1, 96) = 0, 05].
(0) O professor da turma A encontra um intervalo de 95% de confiança para as notas da

turma de [53; 97].
(4) Suponha que o professor da turma A queira testar a seguinte hipótese: H0 : µ2 = 60
√
VS H1 : µ2 > 60. Neste caso, se ele utilizar a seguinte estatística de teste n2 (X̄2S−60)
2
, ele irá
rejeitar a hipótese nula a 5% de significância.
Solução.
(0) Falso.
Demonstração. Devemos estudar a probabilidade P (X̄1 − c ≤ µ ≤ X̄1 + c) = 0, 95, em que
X̄1 = 72. Note que tal probabilidade é equivalente a
P (µ − c ≤ X̄1 ≤ µ + c) = 0, 95
Å ã
c c
⇔ P − 2 √ ≤ X̄1 ≤ 2 √ = 0, 95
S1 / n S1 / n

Å ã
c c
⇔ P − ≤ X̄1 ≤ = 0, 95
4/3 4/3
Å ã
3c
⇔ P |X̄1 | ≤ = 0, 95
4
Å ã
3c
⇔ 1 − P |X̄1 | ≥ = 0, 95
4
Å ã
3c
⇔ P |X̄1 | ≥ = 0, 05.
4
Note que estamos no caso em que a variância populacional é desconhecida e, desta forma,
tivemos que usar a estimativa S12 . Portanto, X̄1 seguirá uma distribuição t de Student com 9 −
1 = 8 graus de liberdade. Usando as informações do enunciado e a desigualdade desenvolvida
acima, temos que
3c 12, 6
= 3, 15 ⇔ c = = 4, 2.
4 3
Portanto, o intervalo de confiança de 95% que o professor da turma A encontrou para as
notas de sua turma é
IC = [72 − 4, 2; 72 + 4, 2] = [67, 8; 76, 2].
(4) Verdadeiro.
Demonstração. A estatística de teste, utilizando os valores dados no enunciado, terá o valor
32/5 = 6, 4. Note que se t segue uma distribuição t de Student, então P r(|t| > 3, 15) =
P r(t < −3, 15) + P r(t > 3, 15) = 0, 05. Como a distribuição t de Student é simétrica,
P r(t > 3, 15) = P r(t < −3, 15). Portanto, P r(t > 3, 15) = P r(|t| > 3, 15)/2 = 0, 025.
Então,
p-valor = P r(t > 6, 4) < P r(t > 3, 15) = 0, 025 < α,
em que α denota o nível de significância de 5%. Portanto, rejeitamos a hipótese de que H0 = 60.
Questão 08/2017
Com relação aos testes de hipóteses, pode-se afirmar que:
(3) Num teste de hipóteses para a média, quando a variância populacional é desconhecida,
devemos utilizar a estatística t que tem distribuição tn , em que n é o tamanho da amostra

aleatória retirada da população de interesse.
Solução.
(3) Falso.
Demonstração. A distribuição é t de Student mas com n − 1 graus de liberdade.
Questão 05/2018
Indique se as seguintes considerações sobre a teoria dos testes de hipótese são verdadeiras
(V) ou falsas (F):
(0) No teste de hipótese para proporções, se a variância da proporção populacional for des-
conhecida, a estatística t de Student com n − 1 graus de liberdade (n é o tamanho da amostra)
é a indicada para o teste;
(1) O erro do tipo II é definido como o erro que se comete ao se rejeitar uma hipótese nula
verdadeira;
(2) No teste de hipótese para a média (H0 : µ = b contra Ha : µ ̸= b), adotando nível de
significância α, se o intervalo de confiança com 1 − α de probabilidade contiver µ = b, não se
poderá rejeitar H0 ;
(3) A probabilidade do erro do tipo I é definida como a probabilidade de não se rejeitar uma
hipótese nula quando esta for falsa;
(4) A potência de um teste de hipótese é a probabilidade de não se cometer um erro do tipo
II.
Solução.
(0) Verdadeiro.
Demonstração. Conforme vimos no texto.
(1) Falso.
Demonstração. O erro do tipo II é definido como o erro que se comete ao não se rejeitar uma
hipótese nula falsa.
(2) Verdadeiro.
Demonstração. Lembremos que, para qualquer c ∈ R, P (X̄ − c ≤ µ ≤ X̄ + c) = P (µ − c ≤
X̄ ≤ µ+c). Das informações do enunciado, P (µ−c ≤ X̄ ≤ µ+c) = P (b−c ≤ X̄ ≤ b+c) =
1 − α, isto é, X̄ está na região de não rejeição do teste de hipótese, já que 1 − α representa

justamente a área da região de não rejeição. Neste caso, o p-valor será maior do que a área da
região de rejeição, o que indica que não devemos rejeitar a hipótese nula.
(3) Falso.
Demonstração. A probabilidade do erro do tipo I é definida como a probabilidade de se rejeitar
uma hipótese nula quando esta for verdadeira;
(4) Falso.
Demonstração. Embora o gabarito oficial da prova tenha dado verdadeiro, a sentença é falsa.
O poder do teste é a probabilidade de rejeitar a hipótese nula dado que ela é falsa.
Questão 03/2013
Suponha que o presidente de uma distribuidora de energia afirme que 80% dos seus con-
sumidores estão muito satisfeitos com o serviço que recebem. Para testar esta afirmação, um
jornal entrevista 100 consumidores em um município, utilizando uma amostra aleatória. Entre
os consumidores entrevistados, 73 afirmam que estão muito satisfeitos. (Dica: Na sequência,
assuma que o tamanho da amostra é suficientemente grande para que utilizemos a distribuição
normal.)
(4) Suponha que estejamos interessados em testar, a um nível de significância de 5%, se a
proporção dos consumidores que estão muito satisfeitos com o serviço é menor do que 80%. A
probabilidade do erro tipo II não dependerá do valor da proporção verdadeira de consumidores
muito satisfeitos com o serviço.
Solução.
(4) Falso.
Demonstração. A probabilidade do erro do tipo II sempre depende do valor da proporção verda-
deira de um parâmetro já que, por definição, ela é a probabilidade de não rejeitarmos a hipótese
nula dado que ela seja falsa.
Questão 14/2006
O tempo de utilização de um telefone celular durante um dia qualquer é uma variável alea-
tória normal com média desconhecida e desvio padrão de 10 minutos. Por quantos dias se deve
anotar os tempos de utilização do celular para que o intervalo de confiança de 95% para a média

tenha amplitude de 2 minutos? Transcreva para a folha de respostas apenas a parte inteira do
resultado. [Obs: se Z tem uma distribuição normal padrão, P r(|Z| > 1, 96) = 0, 05].
Solução.
Demonstração. Devemos estudar a probabilidade P (X̄ − c ≤ µ ≤ X̄ + c) = 0, 95 para c = 1.
√
Defina Z ≡ (X̄ − µ)/(σ/ n). Note que
P (X̄ − 1 ≤ µ ≤ X̄ + 1) = 0, 95
⇔ P (µ − 1 ≤ X̄ ≤ µ + 1) = 0, 95
Å ã
1 1
⇔P − √ ≤Z≤ √ = 0, 95
10/ n 10/ n
Å √ √ ã
n n
⇔P − ≤Z≤ = 0, 95
10 10
Å √ ã
n
⇔ P |Z| ≤ = 0, 95
10
Å √ ã
n
⇔ 1 − P |Z| ≥ = 0, 95
10
Å √ ã
n
⇔ P |Z| ≥ = 0, 05.
10
Como das informações do enunciado sabemos que se Z tem uma distribuição normal padrão,
P r(|Z| > 1, 96) = 0, 05, então:
√
n
= 1, 96 ⇔ n = 384, 16.
10
A resposta final é 316.5
Questão 10/2020
Suponha que os salários em determinada firma tenham distribuição normal, com média µ
e variância conhecida igual a 400. Representando por X a média dos salários de uma amostra
retirada aleatoriamente dessa população, julgue as afirmativas abaixo:
[Para a resolução desta questão considere que se Z tem distribuição normal padrão, com
média zero e variância igual a um, então P (|Z| > 1, 645) = 0, 10, P (|Z| > 1, 96) = 0, 05 e
P (|Z| > 2, 575) = 0, 01].
5
Esta questão foi anulada pois a ANPEC somente aceita respostas em dezenas de 01 até 99.

(0) O intervalo de confiança de 95% para a média de salários da população é dado por:
î Ä ä Ä äó
X − 1, 96 × √20n , X + 1, 96 × √20n
X − 2, 575 × 20 20

n
, X + 2, 575 × n
î Ä ä Ä äó
X − 1, 645 × √20n , X + 1, 645 × √20n
î Ä ä Ä äó
(3) A probabilidade de que o intervalo aleatório X − 1, 96 × √20n , X + 1, 96 × √20n
inclua µ é igual a 95%.
(4) Sendo n = 100 e X = 120 para determinada amostra, podemos dizer que a probabili-
dade de que o intervalo [120 − (2 × 2, 575), 120 + (2 × 2, 575)] inclua µ é igual a 99%.
Solução.
(0) Verdadeiro.
Demonstração. Utilizando (7.4) e (7.5), fica fácil de ver.
(1) Falso.
Demonstração. Utilizando (7.4) e (7.5), fica fácil de ver que o intervalo de confiança de 99%
î Ä ä Ä äó
para a média de salários da população é dado por: X − 2, 575 × √20n , X + 2, 575 × √20n
(2) Falso.
Demonstração. O intervalo de confiança de 80% para a média de salários da população é dado
î Ä ä Ä äó
por: X − t × √20n , X + t × √20n , em que t é tal que P (|Z| > t) = 0, 20. O enunciado
não dá esta informação mas sabemos que P (|Z| > t) = 0, 20 > P (|Z| > 1, 645) = 0, 10, o
que implica em t < 1, 645.
(3) Verdadeiro.
Demonstração. Exatamente o significado de intervalo de confiança que vimos no texto; e, da
resposta do item (1), verificamos que o intervalo correspondente a esta probabilidade é mesmo
este dado na afirmação do item (3).
(4) Verdadeiro.
Demonstração. Utilizando o intervalo de confiança da resposta do item (1) para os valores
n = 100 e X = 120, então o intervalo resultante é exatamente este.


Parte IV
Econometria
151
Capítulo 8
Regressão Linear
Neste capítulo, estaremos interessados em modelar ou explicar uma variável a partir de ou-
tras(s) usando uma regressão linear. Basicamente, podemos ter uma regressão linear simples,
que utiliza apenas uma variável de explicação ou uma regressão linear múltipla, que admite mais
variáveis na explicação de uma outra. O objetivo com isso é obter uma relação causal entre duas
ou mais variáveis. Para isso, suporemos sempre que estamos em posse de uma amostra com n
observações com informações sobre a variável a ser explicada.
8.1 Regressão Simples

Uma regressão linear simples pode ser obtida a partir da seguinte equação:
y i = β 0 + β 1 xi + u i . (8.1)
É comum chamarmos a variável y de variável explicada ou dependente e a variável x de

variável explicativa ou independente. u é o nosso termo de erro e β0 , β1 são, respectivamente,
os coeficientes de intercepto e linear. Note que nosso objetivo é estabelecer uma equação como
em (8.1) para explicar y utilizando x. Assim, devemos encontrar uma forma de estimar os betas
da equação.
8.1.1 Mínimos Quadrados Ordinários (MQO)
No método MQO estamos interessados em usar nossas n observações de y e x para estimar

(8.1). Assim, seremos capazes de estabelecer valores de β0 e β1 tais que
ŷi = β̂0 + β̂1 xi . (8.2)
153
154 8.1. REGRESSÃO SIMPLES
Uma forma de encontrar valores estimados para os betas é minimizando o quadrado dos resí-
duos ûi presente nas nossas observações, definido por
ûi = yi − ŷi .
Ou seja, devemos resolver o problema

( n n
)
X X
min S ≡ û2i = (yi − ŷi )2 , (8.3)
β̂0 ,β̂1
i=1 i=1
em que ŷi é dado em (8.2). A condição de primeira ordem1 nos diz que devem ser satisfeitas as
seguintes equações:
n
∂S X
= (yi − β̂0 − β̂1 xi ) = 0
∂ β̂0 i=1
n
∂S X
= (yi − β̂0 − β̂1 xi )xi = 0.
∂ β̂1 i=1
Ao dividir ambos os lados da primeira equação por n, vemos facilmente que
β̂0 = ȳ − β̂1 x̄, (8.4)
em que x̄ denota a média da variável x. Substituindo o valor de β̂0 na segunda equação, segue
que
n n
∂S X X
= (yi − β̂0 − β̂1 xi )xi = [xi yi − xi (ȳ − β̂1 x̄) − β̂1 x2i ] (8.5)
∂ β̂1 i=1 i=1
Xn n
X
= xi (yi − ȳ) + β̂1 xi (xi − x̄) = 0.
i=1 i=1
Portanto,
Pn
xi (yi − ȳ)
β̂1 = Pni=1 . (8.6)
i=1 xi (xi − x̄)
Então, os valores de β̂0 e β̂1 são dados por

Pn
(x − x̄)(yi − ȳ) Cov(x, y)
Pn i
β̂1 = i=1 2
= e β̂0 = ȳ − β̂1 x̄, (8.7)
i=1 (xi − x̄) V ar(x)
1
Note que a função é côncava e, portanto, a condição de primeira ordem é suficiente para resolver o problema.

CAPÍTULO 8. REGRESSÃO LINEAR 155
em que a segunda igualdade da expressão acima advém apenas da divisão do numerador e

denominador por n, obtendo assim as fórmulas da variância e covariância. Note, portanto, que
obtendo β̂1 é fácil de obter β̂0 .
Observação 8.1 Para chegar na expressão acima, o leitor pode querer provar a igualdade
Pn Pn
x i (y i − ȳ) (x − x̄)(yi − ȳ)
Pni=1 Pn i
= i=1 2
.
i=1 xi (xi − x̄) i=1 (xi − x̄)
P P
Para isto, tente mostrar antes que x̄ȳ = x̄yi e, portanto, que
n
X n
X
xi (yi − ȳ) = (xi − x̄)(yi − ȳ).
i=1 i=1
8.2 Ausência de Viés

Vimos no capítulo 7 que um estimador β̂1 é não-viesado quando E(β̂1 ) = β̂1 , isto é, quando
ele na média “acerta" o parâmetro populacional. Esta é uma propriedade muito desejável do
estimador que nos permite, por exemplo, realizar testes de hipótese. Estudamos na seção an-
terior a derivação do estimador βˆ1 para uma regressão linear de mínimos quadrados ordinários
(MQO). Veremos, agora, em quais condições tal estimador será não-viesado.
8.2.1 Hipóteses para não-viés

1. Modelo populacional linear nos parâmetros.
O modelo populacional que dá a relação entre a variável a ser explicada y e as variáveis

explicativa e de erro é escrito como
yi = β0 + β1 xi + ui . (8.8)
2. Amostra aleatória.
Temos uma amostra aleatória de tamanho n da população de interesse.
3. Variabilidade na variável x.
Há variabilidade amostral na variável explicativa. Pela fórmula de β̂1 em 8.7, caso x não
possua variabilidade, isto é, V ar(x) = 0, então β̂1 não estará bem definido.
4. Média condicional nula, i.e., E(u|x) = 0.

156 8.2. AUSÊNCIA DE VIÉS
O termo de erro tem expectativa nula quando condicionado à variável explicativa. Isto é o
mesmo que dizer que x e u são independentes, ou seja, as variáveis que ajudam a explicar
y, presentes no termo de erro u, não podem ter correlação com x.
Teorema 8.2 Se as quatro hipóteses acima são verdadeiros, então β̂1 e β̂0 são estimadores não vie-
sados, isto é,
E(β̂0 ) = β0 e E(β̂1 ) = β1 .
Demonstração. Comecemos mostrando a segunda igualdade E(β̂1 ) = β1 . Note que a fórmula

de βˆ1 em (8.6) pode ser escrita como:
Pn
(xi − x̄)yi
β̂1 = Pni=1 .
i=1 xi (xi − x̄)
Então,
Pn Pn Pn Pn
i − x̄)(β0 + β1 xi + ui )
i=1 (xP i=1 (xi − x̄)β0 i=1 (xi − x̄)β1 xi (xi − x̄)ui
β̂1 = n = Pn + Pn + Pni=1
i=1 xi (xi − x̄) i=1 xi (xi − x̄) i=1 xi (xi − x̄) i=1 xi (xi − x̄)
Pn
(xi −x̄)β1 xi
Como, xi = nx̄, segue que (xi − x̄)β0 = 0. Ainda, note que = β1 .
P P
Pi=1
n
i=1 xi (xi −x̄)
Então,
Pn
(xi − x̄)ui
β̂1 = β1 + Pni=1 . (8.9)
i=1 xi (xi − x̄)
Sob as hipóteses 2 e 4 acima, temos que

Pn
i=1 (xi − x̄)E(u|x)
E(β̂1 |x) = β1 + P n = β1 .
i=1 xi (xi − x̄)
Usando a Lei das Expectativas Iteradas (ver 4.3.3), finalmente temos que E(E(β̂1 |x)) = E(β̂1 ) =
β1 .
Para mostrar a igualdade E(βˆ0 ) = E(β0 ), podemos usar a fórmula de β̂0 em (8.4) e o fato
de que ȳ = β0 + β1 x̄ + ū (basta tirar a média de y para todo i ∈ {1, ..., n} em (8.8)). Assim,
teremos que
β̂0 = ȳ − β̂1 x̄ = β0 + β1 x̄ + ū − β̂1 x̄ = β0 + ū + (β1 − β̂1 )x̄

⇔ E(β̂0 |x) = E(β0 |x) + E(ū|x) + x̄E(β1 − β̂1 |x) = β0 ,
de modo que na última igualdade usamos o fato já provado no qual E(β̂1 |x) = β1 e a nossa
hipótese na qual E(u|x) = 0. Finalmente, usando a Lei das expectativas Iteradas (ver 4.3.3), te-

mos que E(β̂0 ) = β0 . Portanto, β̂i , i ∈ {0, 1}, são estimadores não viesados, como queríamos
demonstrar.
8.3 Variância MQO

Vimos que a média de nossos estimadores MQO β̂0 e β̂1 equivalem aos respectivos parâ-
metros populacionais β0 e β1 , caso as 4 hipóteses vistas na seção 8.2.1 sejam satisfeitas. Além
do valor esperado destes estimadores, também é interessante saber a variância deles. A princí-
pio, conseguimos derivar esta medida de dispersão sem fazer nenhuma hipótese adicional. No
entanto, acrescentaremos uma 5ª hipótese para simplificar a expressão da variância.
5. Homocedasticidade.
O erro u tem a mesma variância, dado qualquer valor amostral da variável explicativa. Ou
seja,
V ar(u|x) = σ 2 .
Observação 8.3 Porque V ar(u|x) = E(u2 |x)−[E(u|x)]2 , sob a nossa hipótese 4 (média condicio-
nal nula), temos que V ar(u|x) = σ 2 = E(u2 |x). Ainda, como E(u|x) = 0, u e x são independentes
e, desta forma, σ 2 = E(u2 ) = V ar(u), isto é, σ 2 é a variância de u incondicional.
Observação 8.4 As hipóteses de 1 a 5 são chamadas de Hipóteses de Gauss-Markov.
Teorema 8.5 Sob as hipóteses de Gauss-Markov,
σ2
V ar(β̂1 |x) = Pn 2
. (8.10)
i=1 (xi − x̄)
Demonstração. De (8.9), segue que

Å Pn Å Pn
(xi − x̄)ui (xi − x̄)ui
ã ã
i=1 i=1
V ar(β̂1 |x) = V ar(β1 ) + V ar Pn | x = V ar Pn 2
|x
i=1 xi (xi − x̄) i=1 (xi − x̄)
Pn
(xi − x̄)2 V ar(ui |x) σ2
= i=1Pn 2 = P n 2
.
[ i=1 (xi − x̄)2 ] i=1 (xi − x̄)
Observação 8.6 De forma similar podemos mostrar que

Pn 2 Pn 2
σ2 xi x
V ar(β̂0 |x) = Pn i=1
2
= i=1 i V ar(β̂1 |x). (8.11)
n i=1 (xi − x̄) n

158 8.3. VARIÂNCIA MQO
Observação 8.7 Sob as Hipóteses de Gauss-Markov, os estimadores de MQO são os estimadores li-
neares não-viesados com menor variância (ou BLUE: Best Linear Unbiased Estimator).
Observe através das expressões (8.10) e (8.11) que as variâncias condicionais de β̂1 e β̂0
não são possíveis de serem calculadas, uma vez que depende da variância do erro, σ 2 , que é
desconhecida. Devemos, assim, estimá-la. Dado que sob as hipóteses usuais V ar(u|x) = σ 2 =
E[u2 ] − (E[u|x])2 = E[u2 ], uma tentativa natural de estimação seria tomar σ̂ 2 = n−1 u2i
P
como o estimador de σ 2 . No entanto, os erros ui são uma medida da população e, portanto,

também desconhecidos. Como conhecemos os resíduos ûi , poderíamos construir um estimador
para σ 2 através da expressão σ̂ 2 = n−1 û2i . No entanto, este estimador acabará por ser
P
viesado (embora para n grande o viés se torne arbitrariamente pequeno). A explicação para
este fato é que tal estimador não considera as duas condições de derivação do método do
MQO, dadas pela CPO em (8.5):
n
X n
X
ûi = 0, xi ûi = 0. (8.12)
i=1 i=1
Isto acaba por restringir os graus de liberdade dos resíduos: se soubéssemos os valores de
n − 2 resíduos, poderíamos sempre utilizar estes valores para obter os 2 resíduos restantes
através das equações em (8.12). Portanto, há apenas n − 2 graus de liberdade nos resíduos do
MQO — ao contrário dos n graus de liberdade dos erros.
Portanto, uma forma de contornar esta situação do estimador viesado utilizando resíduos
é dividir o somatório dos resíduos pelo número de graus de liberdade n − 2. Assim, o estimador
não viesado de σ 2 será dado por
n
2 1 X 2
σ̂ = û .
n − 2 i=1 i
Com a estimação não-viesada de σ 2 , finalmente podemos obter um estimador para a variância

dos estimadores β̂1 e β̂0 . Basta substituirmos σ̂ 2 no lugar de σ 2 nas expressões dadas em (8.10)
e (8.11):
2 2
Pn 2
σ̂ σ̂ x
V âr(β̂1 |x) = Pn 2
e V âr(β̂0 |x) = Pn i=1 i 2
i=1 (xi − x̄) n i=1 (xi − x̄)
Quando tiramos a raiz quadrada destas duas expressões, obtemos o que chamamos de erro
padrão do estimador da variância dos betas:
Å Pn 2 ã1/2
σ̂ 1 x
se(β̂1 ) = Pn 2 1/2
e se(β̂0 ) = σ̂ Pn i=1 i 2 .
( i=1 (xi − x̄) ) n i=1 (xi − x̄)

Observação 8.8 Note que somos capazes apenas » de calcular o erro padrão
» dos betas mas não o
desvio padrão, que seriam dados por dp(β̂1 ) = V ar(β̂1 ) ou dp(β̂0 ) = V ar(β̂0 ).
8.4 Modelo de Regressão Múltipla (MRM)
Vimos anteriormente que uma propriedade importante na construção de um modelo de

regressão linear que nos dá uma relação de causalidade entre as variáveis dependente e inde-
pendente é que estas (as variáveis explicativas) não tenham correlação com o erro. Caso haja
uma correlação entre a variável explicativa e o erro, então é porque existe algum outro fator ex-
plicando a variável dependente e que não consideramos no modelo. Uma forma de resolver isto,
portanto, é incluir todas estas variáveis desconsideradas no modelo, formando o que chamamos
de modelo de regressão múltipla (MRM), caso no qual se constrói uma equação para explicar
a variável dependente com base em k ∈ N variáveis independentes. O modelo de regressão
linear múltiplo pode ser escrito a partir da população da seguinte forma:
y = β0 + β1 x1 + β2 x2 + ....βk xk + u, (8.13)
em que β0 é o intercepto de nossa equação, e βi é o parametro associado à variável xi , ∀i ∈

{1, ..., k}. Costumamos a nos referir aos βi como os parâmetros de inclinação da regressão.
Note que, assim como anteriormente, u é o termo de erro.
8.4.1 Obtendo os estimadores do MRM
Como no modelo de regressão linear simples visto anteriormente, queremos estimar os be-
tas de (8.13) a partir do método dos mínimos quadrados ordinários (MQO). Ou seja, devemos
escolher estimadores que minimizem a soma dos resíduos ao quadrado de modo a escrever a
equação amostral de regressão múltipla
ŷ = β̂0 + β̂1 x1 + ... + β̂k xk .
Tal procedimento é apenas uma generalização do problema (8.3):

( n n n
)
X X X
2 2
min ûi = (yi − ŷi ) = (yi − β̂0 − β̂1 xi1 − ... − β̂k xik )2 ,
β̂0 ,β̂1 ,...,β̂k
i=1 i=1 i=1
em que xij é a i-ésima observação amostral da j-ésima variável explicativa.

160 8.5. AJUSTE DA REGRESSÃO
A condição de primeira ordem nos diz que as seguintes k+1 equações devem ser satisfeitas:
n
X
(yi − β̂0 − β̂1 xi1 − ... − β̂k xik ) = 0 (8.14)
i=1
n
X
xij (yi − β̂0 − β̂1 xi1 − ... − β̂k xik ) = 0, ∀j ∈ {1, 2, ..., k}. (8.15)
i=1
A solução deste sistema é dada na forma matricial2 :
β̂ = (X ′ X)−1 (X ′ y), (8.16)
em que β̂ = (β̂0 , ..., β̂k )′ , y = (y1 , ..., yk ) e

à í
1 x11 . . . xk1
1 x12 . . . xk2
X= .. .. .. . . (8.17)
. . . ..
1 x1n . . . xkn
8.5 Ajuste da Regressão

Defina as seguintes medidas, que funcionam tanto para regressão simples quanto múltipla:
• Soma dos Quadrados Totais: SQT = ni=1 (yi − ȳ)2 .
P
• Soma dos Quadrados Explicados: SQE = ni=1 (ŷi − ȳ)2

P
• Soma dos Quadrados dos Resíduos: SQR = ni=1 û2i .

P
Mostremos que
SQT = SQE + SQR. (8.18)
De fato, note que

n
X n
X
SQT ≡ (yi − ȳi )2 = [(yi − ŷi ) + (ŷi − ȳi )]2 =
i=1 i=1
n
X
[(yi − ŷi )2 + 2(yi − ŷi )(ŷi − ȳi ) + (ŷi − ȳi )2 ]
i=1
Xn n
X n
X
û2i +2 (yi − ŷi )(ŷi − ȳi ) + (ŷi − ȳi )2
i=1 i=1 i=1
2
Não será demonstrado aqui.

n
X
SQR + 2 ûi (ŷi − ȳi ) + SQE
"i=1n n
#
X X
SQR + 2 ûi ŷi − ûi ȳi + SQE
" i=1
n
i=1
n
#
X X
SQR + 2 ûi (β0 + β1 x1i ) − ûi ȳi + SQE
i=1 i=1
" n n n
#
X X X
SQR + 2 β0 ûi + β1 ûi x1i − ȳi ûi + SQE.
i=1 i=1 i=1
Portanto, como das condições de primeira ordem em (8.14) e (8.15) temos que o termo dentro
dos colchetes do lado direito é nulo, então provamos que SQT = SQE + SQR.
Defina agora a seguinte medida de ajuste da regressão:
R2 ≡ SQE/SQT.
Se dividirmos ambos os lados da igualdade em (8.18) por SQT , temos então que
SQR
R2 = 1 − .
SQT
Observe que R2 ∈ [0, 1] é a medida da variação amostral da variável dependente que é explicada
pela variável independente da regressão. Noutras palavras, é uma medida de poder explicativo
da regressão. No entanto, uma das desvantagens desta medida é que ela aumenta (ou, no
máximo, fica inalterada, mesmo que as novas variáveis explicativas não tenham poder de expli-
cação da variável dependente) conforme adicionamos variáveis explicativas em nosso modelo
de regressão linear. Isto faz com que esta medida não seja apropriada para comparar modelos
com quantidades diferentes de variáveis explicativas. Uma maneira de corrigir isto é definindo
o que é chamado de R2 -ajustado:
n−1
R2 -ajustado = 1 − (1 − R2 ) .
n − (k + 1)
Com o ajuste de R2 , além de mantermos esta medida como o poder explicativo da regressão, a
vantagem é que acrescentar variáveis explicativas ao modelo que não ajudam a explicar a variá-
vel dependente não aumenta seu valor. Então, podemos usar o R2 − ajustado para comparar
modelos com quantidades diferentes de variáveis explicativas.

162 8.6. NÃO-VIÉS E EFICIÊNCIA
8.6 Não-Viés e Eficiência

Faremos nesta seção o que já fizemos para o caso de regressão linear simples: enunciaremos
algumas hipóteses e, depois, mostraremos que elas garantem que os k estimadores de uma re-
gressão linear múltipla são os melhores estimadores lineares não viesados (ou, como vimos, são
BLUE), isto é, aqueles estimadores com a menor variância dentre todos os estimadores lineares
não viesados.
8.6.1 Hipóteses para não-viés

1. Modelo populacional linear nos parâmetros.
O modelo populacional que dá a relação entre a variável a ser explicada y e as variáveis

explicativas e de erro é escrito como
yi = β0 + β1 x1i + ... + βk xki + ui .
2. Amostra aleatória.
Temos uma amostra aleatória de tamanho n da população de interesse.
3. Ausência de multicolineariedade perfeita.
Os vetores que compõe a matriz X em (8.17) são linearmente independentes. Esta pro-
priedade garante que X seja uma matriz inversível e, portanto, que possamos chegar na
fórmula dada em (8.16).
4. Média condicional nula, i.e., E(u|x1 , ..., xk ) = 0.
O termo de erro tem expectativa nula quando condicionado às variáveis explicativas. Isto
é o mesmo que dizer que xj , j = 1, ..., k, e u são independentes, ou seja, as variáveis que
ajudam a explicar y, presentes no termo de erro u, não podem ter correlação com x.
Sob estas hipóteses, pode-se demontrar o seguinte resultado.
Teorema 8.9 Sob as hipóteses de 1 a 4 acima,
E(β̂j ) = βj , ∀j ∈ {1, ..., k}.
Noutras palavras, o estimador β̂j é não viesado.

8.6.2 Variância dos estimadores
Para estudarmos a variância dos estimadores, novamente nossa abordagem será parecida
com o caso do modelo de regressão linear simples. Acrescentaremos uma hipótese sobre a
variância do erro que permitirá que a fórmula da variância se torne mais simples.
5. Homocedasticidade.
O erro u tem a mesma variância, dado qualquer valor amostral da variável explicativa.
Noutras palavras,
V ar(u|x1 , ..., xk ) = σ 2 .
As hipóteses 1 a 5 acima são conhecidas como hipóteses de Gauss-Makov. Se elas são

satisfeitas, é possível demonstrar o seguinte resultado.
Teorema 8.10 Sob as hipóteses de Gauss-Markov,
σ2 σ2
V ar(βˆj ) = Pn 2
= , ∀j ∈ {1, ..., k}. (8.19)
2
i=1 (xij − x̄j ) (1 − Rj ) SQTj (1 − Rj2 )
em que SQTj é a variabilidade amostral de xj , o regressor associado a βj , e Rj2 é o R2 da regressão

de xj versus as demais variáveis explicativas.
Observação 8.11 Note que Rj2 próximo de 1 indica que a variável xj é fortemente explicada pelas
demais variáveis explicativas. Logo, aumentos em Rj2 acaba por aumentar a variância do estimador
β̂j . Ou seja, variáveis explicativas “redundantes" prejudicam a precisão dos coeficientes estimados
para estas variáveis.
Estimando a variância
Note que a variância do erro σ 2 , componente da variância dos estimadores β̂j , é um parâ-
metro da população e, portanto, não conhecemos. Devemos então ser capazes de estimá-lo.
Assim como fizemos anteriormente, estimaremos utilizando os nossos resíduos descontados
pela quantidade de graus de liberdade de nossa regressão, que no caso da regressão linear múl-
tipla é dado por n − k − 1. Assim, um estimador não viesado para σ 2 é dado por:
Pn
2
û2j
i=1 SQR
σ̂ = = .
(n − k − 1) (n − k − 1)

164 8.7. CONSISTÊNCIA
8.6.3 Eficiência
Enunciaremos o Teorema de Gauss-Markov.
Teorema 8.12 (Teorema de Gauss-Markov) Sob as hipóteses de Gauss-Markov, os estimadores de

MQO, β̂j , j = 1, ..., k, são os melhores estimadores lineares não viesados (i.e., são estimadores BLUE)
para os parâmetros βj , j = 1, ..., k.
8.7 Consistência
Até agora, estudamos regressão linear (simples e múltipla) para o caso de amostras finitas.
Vimos que a ausência de viés sobre as hipóteses de Gauss-Markov não depende do tamanho da
amostra. Quando estudamos as propriedades assintóticas de estimadores, isto é, propriedades
para o caso em que o tamanho da amostra pode ser arbitrariamente grande, estamos interessa-
dos em garantir que eles são consistentes. Se um estimador β̂j é consistente, sua distribuição
torna-se cada vez mais próxima do parâmetro populacional βj conforme n aumenta.
Sob quais hipóteses um estimador é consistente? As hipóteses de Gauss-Markov são mais
do que suficientes para garantir a consistência de um estimador. De fato, podemos relaxar a
hipótese 4 que estabelece independência entre o termo de erro u da regressão e os regressores
xj : E(u|x1 , ..., xk ) = 0. Para a consistência, no entanto, não precisamos assumir uma hipótese
tão forte quanto a independência entre tais elementos. Para ilustrar esta ideia, estudemos o
caso de regressão linear, onde queremos estimar o modelo y = β0 + β1 xi1 + u. Vimos que o
estimador β̂1 pode ser escrito como em (8.9):
Pn
n−1 ni=1 (xi1 − x̄)ui
P
i=1 (xi1 − x̄)ui
β̂1 = β1 + Pn = β1 + −1 Pn .
i=1 xi1 (xi1 − x̄) n i=1 xi1 (xi1 − x̄)
Pela lei dos grandes números, n grande garante que os termos do numerador e do denominador
(no segundo termo do lado direito) convergem, respectivamente, para Cov(x1 , u) e V ar(x1 ).
Isto é,
Cov(x1 , u)
plim(β̂1 ) = β1 + . (8.20)
V ar(x1 )
Assim, para garantir consistência dos estimadores podemos modificar nossa hipótese 4 do
modelo de regressão linear e supor que Cov(xj , u) = 0, para todo j ∈ {1, ..., k}, uma hipótese
mais fraca.
4. Média e correlação nulas.

E(u) = 0 e Cov(xj , u) = 0, para j = 1, ..., k.

Observação 8.13 Note que uma hipótese que estamos fazendo desde o inicío de nossos estudos em
regressão linear é que E(u) = 0. Como Cov(xj , u) = E(xj u) − E(xj )E(u), a hipótese 4 acima
pode ser anunciada como: E(u) = 0 e E(xj u) = 0, para j = 1, ..., k.
Com a hipótese acima, de (8.20) temos que
plim(β̂1 ) = β1 ,
ou seja, o estimador β̂1 é consistente. De fato, pode ser demonstrado que esta propriedade vale
para qualquer estimador β̂j , j = 1, ..., k, num modelo de regressão múltipla.
8.8 Inclusão ou Omissão de Variáveis
8.8.1 Variáveis Omitidas

Suponha que o modelo populacional seja dado por
y = β0 + β1 x1 + β2 x2 + u, (8.21)
com β2 ̸= 0, e que a estimação deste modelo seja feita pela equação ỹ = β̃0 + β̃1 x1 . Ou seja,
estamos omitindo uma variável importante na explicação de y, de modo que a regressão correta
deveria ser dada por
ŷ = β̂0 + β̂1 x1 + β̂2 x2 , (8.22)
com a inclusão de um estimador para β2 .

Sabemos que o coeficiente da regressão simples, β̃1 , em geral não será igual ao coeficiente
da regressão múltipla, β̂1 . Mas há uma relação simples entre ambos que nos permite fazer
algumas comparações interessantes entre tais estimadores das regressões simples e múltipla:
β̃1 = β̂1 + β̂2 δ̃1 ,
em que δ̃1 ̸= 0 é o coeficiente de inclinação de uma regressão simples de x2 sobre x1 — ou

seja, x1 e x2 possuem correlação entre si. Note que E(β̂1 ) = β1 e E(β̂2 ) = β2 , já que nosso
modelo de regressão múltipla é o mais apropriado ao modelo populacional e, desta forma, sob
as hipóteses que normalmente admitimos, produz estimadores não viesados. Assim,
E(β̃1 ) = E(β̂1 + β̂2 δ̃1 ) = E(β̂1 ) + E(β̂2 )δ̃1 = β1 + β2 δ̃1 .

166 8.8. INCLUSÃO OU OMISSÃO DE VARIÁVEIS
Isto nos permite concluir que o viés de do estimador da regressão simples β̃1 é dado por
viés(β̃1 ) = E(β̃1 ) − β1 = β2 δ̃1 . (8.23)
Este é o chamado viés de variável omitida: deixamos de incluir variáveis relevantes na ex-
plicação de y que estão correlacionados com alguma das variáveis explicativas contidas na re-
gressão. Observe que o viés de variável omitida existe por ferir a hipótese de média condicional
nula: E(u|x1 , ..., xk ) = 0. Ainda, por (8.23) podemos ver que o sinal do viés depende dos sinais
de β2 e δ̃1 : caso ambos tenham o mesmo sinal, o viés terá sinal positivo; caso ambos tenham sinal
diferente, o viés será negativo.
Observação 8.14 Omissão de uma variável relevante potencialmente causa viés em todos os coefici-
entes estimados.
8.8.2 Inclusão de variáveis irrelevantes
O que acontece quando acrescentamos variáveis irrelevantes ao modelo, isto é, variáveis

independentes que não fazem parte do modelo populacional e não ajudam a explicar a variável
dependente? Suponha que especificamos o modelo populacional por y = β0 + β1 x1 + β2 x2 + u
e que ele satisfaz as hipóteses de 1 a 4 usuais. No entanto, x2 não tem efeito sobre y quando
controlamos por x1 , i.e., β2 = 0, e portanto a estimação correta deveria ser ŷ = β̂0 + β̂1 x1 . Se
não sabemos que β2 = 0, então iremos estimar nosso modelo como ŷ = β̃0 + β̃1 x1 + β̃2 x2 . Qual
é o efeito de incluir x2 na regressão quando seu coeficiente no modelo populacional é nulo, isto
é, β2 = 0? No que se refere ao viés de β̃1 , não há efeito, já que as hipóteses usuais de 1 a 4, que
garantem o não viés do estimador, continuam satisfeitas. Com relação à consistência, nada
muda também: o estimador continuará consistente. Já a variância do estimador irá ser afetada
caso adicionemos variáveis irrelevantes ao nosso modelo.
Para ver este fato, basta notar o que aconteceria com as variâncias de β̂1 (o estimador de
β1 correto) e β̃1 caso β2 = 0 no modelo populacional. Neste caso, ambos os estimadores β̂1 e
β̃1 são não viesados. No entanto, observe que caso R12 ̸= 0,
σ2 σ2
V ar(β̃1 ) = > V ar( β̂1 ) = ,
SST1 (1 − R12 ) SST1
em que SST1 = ni=1 (x1 − x̄)2 . Ou seja, β̂1 , o estimador de x1 da regressão que não adiciona
P
variável irrelevante à regressão, é mais eficiente que β̃1 , o estimador de x1 da regressão que
adiciona variável irrelevante à regressão.

8.9 Formas Funcionais

Até agora, estudamos regressões de equações lineares tanto nas variáveis explicativas quanto
nas explicadas, isto é,
y = β0 + β1 x1 + ... + βk xk . (8.24)
Neste caso, a interpretação dos estimadores betas é a mais comum: uma variação de ∆xj ,
para j = 1, ..., k, mantendo tudo o mais constante, causa uma variação em y de β̂1 ∆xj .
Mas e se mudarmos as formas funcionais das variáveis explicadas e explicativas? O que
mudaria na regressão? Começaremos avaliando o caso em que multiplicamos ou a variável ex-
plicativa ou a explicada por uma constante e vemos como a equação acima se modifica. Depois,
enunciaremos a interpretação que devemos ter quando a variável explicada ou explicativa estão
na forma funcional de logaritmos. Por questões de simplicidade, estudaremos o caso da equa-
ção (8.24) quando k = 1, isto é, o caso de regressão linear simples. Tais resultados podem ser
expandidos para o caso geral.
Multiplicando y por uma constante c
Vimos que as estimações dos betas em (8.24) quando k = 1 eram dadas por
Cov(x, y)
β̂1 = e β̂0 = ȳ − β̂1 x̄.
V ar(x)
Se a variável explicada passa a ser cy, então teremos:
Cov(x, cy) cCov(x, y)

β̂1′ = = = cβ̂1 e β̂0′ = cy
¯ − (cβ̂1 )x̄ = c(ȳ − β̂1 x̄) = cβ̂0 .
V ar(x) V ar(x)
Ou seja, multiplicar a variável explicada por uma constante qualquer faz com que os estima-
dores dos betas sejam também multiplicados por esta mesma constante.
Multiplicando x1 por uma constante c
Se a variável explicativa passa a ser cx1 , então teremos:
Cov(cx, y) cCov(x, y) 1 1
β̂1′ = = 2 = β̂1 e β̂0′ = ȳ − β̂1 cx
¯ = β̂0
V ar(cx) c V ar(x) c c
Ou seja, multiplicar a variável explicativa por uma constante qualquer faz com que os o
estimador β̂1 seja multiplicado pelo inverso da constante, enquanto que o estimador β̂0 fique
inalterado.

168 8.10. REGRESSÃO PELA ORIGEM
Formas funcionais
Podemos resumir os tipos de modelos de regressão baseados em quatro formas funcionais

diferentes:
• nível-nível: yi = β0 + β1 x1i + ... + βk xk1 + ui .
Como vimos, a interpretação deste caso é a mais comum. Dizemos que uma variação
qualquer em x1i causa uma variação em yi exatamente na magnitude de β̂1 . Ou seja,
∆y = β1 ∆x1 .
• nível-log: yi = β0 + β1 ln(x1i ) + ... + βk xk1 + ui .
Nesta caso, dizemos que uma variação percentual de x1i causa uma variação em y na
magnitude de 100
β̂1
. Ou seja,
β̂1
∆y = (∆x1 %).
100
• log-nível: ln(yi ) = β0 + β1 x1i + ... + βk xk1 + ui .
Neste modelo temos que uma variação em na variável explicativa x1i causa um aumento
percentual na variável explicada y na magnitude de 100 × β1 .
∆y% = 100β̂1 ∆x1 .
• log-log: ln(yi ) = β0 + β1 ln(x1i ) + ... + βk xk1 + ui .
Neste caso, a variação percentual da variável explicativa causa uma variação percentual na
variável explicada na magnitude de β̂1 :
∆y% = β̂1 (∆x1 %).
8.10 Regressão pela Origem

Suponha que o modelo populacional seja dado por
yi = β1 xi + ui

e queremos estimar o parâmetro β1 . Novamente, nosso procedimento será minimizar a soma

dos resíduos ao quadrado, isto é,
n
X n
X
min û2i = (yi − β̂1 xi )2 .
β̂1
i=1 i=1
Da condição de primeira ordem, teremos

n
X
(yi − β̂1 xi )xi = 0
i=1
Portanto,
Pn
xi yi
β̂1 = Pi=1
n 2
.
i=1 xi
O estimador β̂1 é viesado? Note que xi (β1 xi + ui ). Então,

Pn Pn
i=1 xi y i = i=1
Pn
x E(u |x)
E(β̂1 |x) = β1 + Pni 2 i .
i=1
i=1 xi
Portanto, admitindo nossa velha hipótese E(u|x) = 0, temos que β̂1 para uma regressão
pela origem é não viesado.
Note, no entanto, que caso o modelo populacional admita um intercepto e cometemos o
erro de estimar o modelo sem levar isto em conta, ou seja, estimamos um modelo de regressão
pela origem, então teríamos o seguinte: ni=1 xi yi = ni=1 xi (β0 + β1 xi + ui ). Portanto,
P P
Pn Pn Pn
i=1 xi i=1 x1i E(ui |x) xi
E(β̂1 |x) = β0 Pn 2 + β1 + Pn 2 = β0 Pni=1 2 + β1 ,
i=1 xi i=1 xi i=1 xi
e o viés do estimador seria

Pn
xi
E(β̂1 ) − β1 = β0 Pni=1 2 .
i=1 xi
8.11 Inferência
Neste capítulo, foi estudado as hipóteses que garantiam o não viés dos estimadores de uma
regressão linear, as hipóteses que garantiam a consistência destes e, por fim, as hipóteses que
garantiam a derivação de uma fórmula simples para a variância de tais estimadores. Agora,
precisamos fazer uma última hipótese: a da normalidade do erro.
6. Normalidade do erro.

170 8.11. INFERÊNCIA
O termo de erro populacional é independente das variáveis explicativas x1 , ..., xk e se

distribui seguindo uma normal com média 0 e variância σ 2 , isto é, u ∼ N (0, σ 2 ).
Observação 8.15 As hipóteses 1-6 (isto é, as hipóteses de Gauss-Markov mais a hipótese da norma-
lidade do erro) são conhecidas como hipóteses do modelo linear clássico.
Observação 8.16 Sob as hipóteses do modelo linear clássico, a variável explicada y condicional às
variáveis explicativas xi seguem uma distribuição normal com média β0 + ... + βk xk e variância σ 2 .
Em notação,
y|x ∼ N (β0 + ... + βk xk , σ 2 ).
Com estas hipóteses e o resultado acima, podemos enunciar o seguinte resultado.
Teorema 8.17 (Distribuição Amostral Normal) Sob as hipóteses do modelo linear clássico, condi-
cional aos valores amostrais das variáveis independentes, temos que
β̂j ∼ N (βj , V ar(β̂j )), ∀j ∈ {1, ..., k},
em que a variância do estimador é aquela dada em 8.10. Ademais, pode-se padronizar a variável ale-
atória, isto é,
(β̂j − βj )
∼ N (0, 1).
dp(β̂j )
Com as hipóteses e resultados anteriores, podemos realizar testes para os parâmetros po-
pulacionais.
8.11.1 Teste T
O teste t serve para fazer testes sobre um único parâmetro populacional. Sob as hipóteses
do modelo linear clássico, pode-se enunciar um resultado importante para a realização do teste
t.
Teorema 8.18 Sob as hipóteses do modelo linear clássico, temos que
(β̂j − βj )
∼ tn−k−1 .
ep(β̂j )
Ou seja, o parâmetro padronizado distribui-se seguindo uma t de Student com n − k − 1 graus

de liberdade quando usamos o erro padrão do estimador (ao invés da variância teórica).

Note, pela expressão acima, que agora estamos usando no denominador o erro padrão e
não mais a desvio padrão. De fato, este será o caso mais comum, visto que não sabemos nor-
malmente a variância de β̂j , de modo que precisamos estimá-la.
Com estes resultados, dada uma regressão, poderemos realizar os testes sobre os valores
populacionais βj . Para isso, o procedimento já conhecido e usado no capítulo 7 nos será muito
útil. Em geral, ele consiste primeiramente em calcular a estatística t, dada por
(β̂j − βjH0 )
t= ,
ep(β̂j )
em que βjH0 denota o valor de βj sob a hipótese nula do teste que estamos fazendo. Normal-
mente a hipótese nula que estamos testando é se o valor de βj é nulo, isto é H0 : βj = 0.
Assim, a estatística t torna-se
β̂j
t= .
ep(β̂j )
Depois, o teste de hipótese é realizado da forma como foi explicado no capítulo 7, com as
regras de rejeição e não rejeição da hipótese nula seguindo a mesma lógica.
8.11.2 Teste F
Ao invés de testar o valor de um único parâmetro populacional βj , pode ser que queiramos
testar restrições lineares múltiplas, isto é, testar se diversos coeficientes são conjuntamente
significativos. Como exemplo, poderíamos querer saber se é o caso de a seguinte hipótese nula
ser verdadeira:
H0 : β3 = β4 = β5 = 0,
de modo que a hipótese alternativa é a negação de H0 , isto é, se ao menos um dos coeficientes

é diferente de zero.
Diz-se que neste tipo de teste estamos comparando dois modelos: modelo restrito e modelo
irrestrito. Tendo a hipótese nula acima em mente, o modelo irrestrito é definido como o modelo
sem x3 , x4 e x5 , ou seja, sob H0 em que β3 = β4 = β5 = 0. Já o modelo irrestrito é o modelo
completo considerando a presença de x3 , x4 e x5 .
O procedimento geral do teste F é muito semelhante ao do teste t. No entanto, o que
muda é a hipótese nula, como destacado acima, e também o cálculo da estatística de teste. No
teste F , supondo que queiramos fazer um teste de exclusão de q parâmetros, então teremos a

172 8.12. VARIÁVEL DUMMY E INTERAÇÕES
estatística F dada por
SQRr −SQRir
q SQRr − SQRir n − k − 1
F = SQRir
= ,
n−k−1
SQRir q
em que SQRr e SQRir é a soma dos quadrados dos resíduos do modelo restrito e irrestrito,
respectivamente.
Uma segunda forma de escrever a estatística F igualmente válida é usando o coeficiente de
ajuste R2 :
2 −R2
Rir r 2
q Rir − Rr2 n − k − 1
2 = 2
.
1−Rir 1 − Rir q
n−k−1
Um caso especial o teste F é quando o utilizamos para testar a significância geral de uma
regressão. Neste caso, se temos uma regressão com k variáveis explicativas (q = k), nossa
hipótese nula resume-se a
H0 : β1 = ... = βk = 0
e a estatística F pode ser escrita como
R2
k R2 n − k − 1
F = 1−R2
= ,
n−k−1
1 − R2 k
em que R2 vem da regressão completa de y em x1 , ..., xk .

Depois da definição da hipótese nula e do cálculo da estatística F , o procedimento restante
do teste de hipótese é o mesmo que o teste t e os demais testes explicados no capítulo 7.
8.12 Variável Dummy e Interações
8.12.1 Variáveis Dummies

Dizemos que uma variável é dummy se ela assume apenas dois valores, geralmente 0 ou 1.
Normalmente, tais variáveis são usadas para identificar uma característica específica da amos-
tra, como, por exemplo, o gênero de uma pessoa, ou também para classificar ou categorizar
uma certa característica, como por exemplo a a faixa salarial ou o setor da economia de uma
parcela da amostra.
Como incluir uma variável dummy identificadora de gênero, por exemplo, na regressão? Seja
yi o salário da pessoa i, xm
1i e x2i as variáveis dummies que identificam se o indivíduo é mulher ou
h

homem e x3 , ..., xk as demais variáveis explicativas. Suponha, então, que estimamos o modelo
yi = β0 + β1 xm h
1i + β2 x2i + β3 x3i + ... + βk xki + u.
Lembremos que uma das hipóteses necessárias para a garantir do não viés dos estimadores
é que não tenhamos o problema de multicolinearidade perfeita. Note, no entanto, que qualquer
estimação deste modelo irá produzir tal problema. Para ver isso, basta notar que a matriz dos
coeficientes das variáveis explicativas será dada por
à í
1 xm h
11 x21 . . . xk1
1 xm h
12 x22 . . . xk2
X= .. .. .. .. . . (8.25)
. . . . ..
1 x1n xh2n
m
. . . xkn
Portanto, como xm 1j + x2j = 1, para qualquer j, então a primeira coluna será sempre uma
h
combinação linear das colunas 2 e 3, o que causa exatamente o problema de multicolinearidade

perfeita, visto que a inversa de X não existirá e a estimação dos estimadores será impossível
de ser feita. Portanto, ao estimarmos um modelo com variável dummy, o mais recomendado é
incluir ambas as variáveis dummies e excluir o intercepto da regressão β0 ou incluir apenas uma
variável dummy. Ou seja, devemos estimar um dos seguintes modelos abaixo:
yi = β1 xm h
1i + β2 x2i + β3 x3i + ... + βk xki + u
yi = β0 + β1 xm
1i + β3 x3i + ... + βk xki + u.
Observação 8.19 Note, note entanto, que no modelo sem intercepto, pode haver o problema de viés
de variável omitida dos estimadores, caso o modelo populacional correto apresente o intercepto. Assim,
é mais comum que trabalhemos com o segundo modelo, incluindo o intercepto e excluindo uma das
variáveis dummy.
No caso do segundo modelo com a inclusão do intercepto e a exclusão de uma das variáveis
dummy (no caso, a exclusão de xh2i ), observe que
E(yi |xm
i = 1) = β̂0 + β̂1 + β̂3 x3i + ... + β̂k xki
E(yi |xm
i = 0) = β̂0 + β̂3 x3i + ... + β̂k xki .
Desta forma, podemos ver que
βˆ1 = E(yi |xm m

i = 1) − E(yi |xi = 0),

174 8.12. VARIÁVEL DUMMY E INTERAÇÕES
ou seja, nosso estimador β̂1 nos dá precisamente o efeito sobre o salário y de ser mulher (em
comparação a ser homem).
Uma outra forma de variável dummy refere-se à classificação de parcela da amostra em ca-
tegorias. Poderíamos, por exemplo, diferenciar os salários entre os trabalhadores do setores de
3 representa-
serviços (S), indústria (I) e comércio (C), por exemplo. Desta forma, se xS1 , xI2 e xC
rem a classificação nos respectivos setores, podemos estudar a diferença salarial presente entre
estas áreas por uma das regressões:
y i = β 1 xC S I
1i + β2 x2i + β3 x3i + β4 x4i + ... + βk xki + u
y i = β 0 + β 1 xC S
1i + β2 x2i + β4 x4i + ... + βk xki + u.
Observação 8.20 Novamente é necessário fazer o alerta de que a estimação sem o parâmetro de
intercepto pode causar o viés dos estimadores caso o modelo populacional inclua o intercepto. Assim,
será mais comum que tratemos da estimação da última equação descrita acima, em que omitimos uma
das dummies (no caso, que categoriza o indivíduo no setor da indústria) e incluimos o intercepto.
A interpretação neste caso segue a mesma lógica que exploramos acima para o exemplo do
efeito de gênero sobre os salários: β1 e β2 , por exemplo, nos informa a diferença salarial dos
indivíduos dos setores de serviço em comparação com os indivíduos do setor da indústria.
8.12.2 Interações entre variáveis

Podemos estar interessados muitas vezes em como a interação entre variáveis explicativas
pode afetar e influenciar a variável explicada, y. Suponha que queremos saber se um ano a mais
de escolaridade oferece um retorno salarial diferente entre homens e mulheres. Seja y o salário,
1 uma variável dummy que indica se o indivíduo da amostra é mulher e x2 uma variável comum
xm
de anos de escolaridade. Então, para responder a esta pergunta, podemos estimar o seguinte
modelo:
y i = β 0 + β 1 xm m
1i + β2 x2i + β3 x1i x2i + u.
Observe que β1 continua dando o efeito da diferença salarial da mulher em relação ao ho-
mem e, agora, β2 nos dá o efeito que um ano a mais de escolaridade tem sobre o salário, en-
quanto que β0 novamente nos informa o salário de uma pessoa homem sem escolaridade. Ob-
serve, no entanto, que agora temos uma interação entre as variáveis xm
1 e x2 , dada pelo produto
entre ambas. Sendo assim, β3 está nos informando exatamente o quanto que um ano a mais
de escolaridade afeta o salário de uma mulher em relação ao mesmo ano de escolaridade a mais no
salário de um homem, que é o efeito que estávamos procurando.

8.13 Problemas Relacionados ao Erro

Nesta seção, trataremos de alguns problemas relacionados ao erro que podem fazer com
que haja falhas nas hipóteses comumente feitas (vistas nas seções anteriores) para assegurar
que os estimadores sejam não viesados, que a variância dos regressores esteja bem definida ou
mesmo para realizarmos teste de hipóteses. Começaremos analisando falha da homocedastici-
dade no modelo (ou, de modo alternativo, a presença de heterocedasticidade, o que violaria a
nossa hipótese 5) e depois será tratado sobre a possibilidade de não normalidade do erro (isto
é, falha da hipótese 6) e, por fim, a presença de endogeneidade do modelo, caracterizada pela
correlação não nula do termo de erro com as variáveis explicativas.
8.13.1 Heterocedasticidade
Admitimos na hipótese 5 do modelo clássico de regressão linear que a variância do erro seria
constante, independentemente dos valores das observações xi da amostra. Assim, se o modelo
admite heterocedasticidade, então a variância do erro pode mudar conforme a observação, ou
seja, V ar(ui |x) = σi2 .
Como vimos anteriormente, a hipótese da homocedasticidade foi importante para escre-
vermos a variância dos estimadores de uma forma simplificada, algo que nos ajudou a estimar
tal variância e, como consequência, poder realizar testes de hipótese com estas estimativas.
Portanto, caso o modelo apresente heterocedasticidade, nossa expressão da variância, bem como sua
estimação, estará comprometida, afetando a eficiência dos estimadores e, ainda, a realização de testes
de hipótese.
8.13.2 Não normalidade do erro

A sexta e última das hipóteses do modelo linear clássico, de que o termo de erro independe
das variáveis explicativas e segue uma distribuição normal com média nula e variância σ 2 , isto é,
u ∼ N (0, σ 2 ) foi muito importante para podermos estabelecer que os estimadores β̂j seguiam
também uma distribuição normal: β̂j ∼ N (βj , V ar(β̂j )). Portanto, caso esta hipótese não seja
atendida, não conseguimos mais realizar teste de hipótese sobre os parâmetros estimados β̂j .
8.13.3 Endogeneidade
Dizemos que o modelo é endógeno quando a hipótese 4 das hipóteses do modelo linear
clássico falha, isto é, quando existe correlação entre as variáveis explicativas e o termo de erro:
E(u|x) ̸= 0. As causas mais comuns da endogeneidade são (1) variáveis omitidas e (2) equa-
ções simultâneas.

176 8.13. PROBLEMAS RELACIONADOS AO ERRO
Variáveis Omitidas
Suponha que o modelo populacional de uma regressão seja dado por
y = β0 + β1 x1 + β2 x2 + ε
mas o econometrista decide estimar o modelo sem a variável explicativa x2 , isto é,
y = α0 + α1 x1 + u.
Como x2 está agora incluído no termo de erro u, caso cov(x1 , x2 ) ̸= 0 então podemos dizer que
E(u|x1 ) ̸= 0, isto é, x1 é endógeno no modelo. Portanto, uma das hipóteses mais importantes
do modelo de regressão linear é violada.
Quais as consequências de estimarmos um modelo com variáveis explicativas endógenas?
Vimos que as quatro hipóteses primeiras do modelo de regressão linear clássico são importantes
para que os estimadores não possuam viés. Assim, estimar um modelo com variável endógena —
algo que viola, como dito, a hipótese 4 — pode fazer com que os estimadores sejam viesados.
Outra consequência é que não teremos mais a garantia de consistência dos estimadores, já
que 0 ̸= Cov(x, u) = E(ux) − E(u)E(x) = E(ux) (lembre-se, estamos sempre admitindo que
E(u) = 0).
Com o problema de endogeneidade, portanto, não teremos mais a garantia de que os es-
timadores MQO serão os melhores estimadores lineares não viesados (estimadores BLUE), de
modo que precisaremos pensar numa outra forma viável de estimar os parâmetros de nosso
interesse.
Quando temos o problema de endogeneidade, duas soluções são possíveis: (1) usar variá-
veis instrumentais (VI) ou (2) realizar a regressão pelo chamado Mínimos Quadrados de Dois
Estágios. Porque o Exame Anpec não cobra com tanta frequência a segunda alternativa de so-
lução, estudaremos nestas notas apenas a solução das variáveis instrumentais, de modo que
o leitor, caso queira saber mais sobre o segundo método, é convidado a conferir Wooldridge
(2016).
Assim, analisemos o caso de uso de uma variável instrumental, digamos z, na regressão
y = β0 + β1 x1 + u, (8.26)
em que x1 é uma variável endógena neste modelo. Dizemos que z é uma variável instrumen-
tal de x1 quando cov(z, x1 ) ̸= 0 (de preferência, esperamos que esta correlação seja a mais
alta possível) e que cov(z, u) = 0. Desta forma, podemos substituir x1 por z no modelo acima
para realizarmos a regressão. Note que é interessante que verifiquemos se cov(z, x1 ) ̸= 0 e se
cov(z, u) = 0. Infelizmente, testar esta igualdade não é possível, visto que o termo de erro do

modelo populacional não é observável. No entanto, podemos verificar se cov(z, x) ̸= 0 reali-

zando uma regressão de z versus x e testando se o coeficiente de x estimado é estatisticamente
significante. Ou seja, rodamos uma regressão
z = π0 + π1 x + e,
e devemos ser capazes de rejeitar a hipótese nula H0 : π1 = 0, de modo que concluímos

que cov(z, x) ̸= 0. Utilizando 8.26 podemos identificar β1 , isto é, escrevê-lo em termos de
momentos populacionais que possam ser estimados usando uma amostra de dados:
Cov(z, y) = β1 cov(z, x) + cov(z, u).
Com a nossa suposição de que cov(z, u) = 0 e cov(z, x) ̸= 0, temos que
cov(z, y)
β1 = .
cov(z, x)
Equações Simultâneas
Vimos que uma forma de causar viés e inconsistência nos estimadores é omitir variáveis
que são correlacionadas com outras variáveis explicativas da regressão. Uma outra causa deste
indesejável fenômeno é quando temos um sistema de equações simultâneas. Considere, por
exemplo, que temos as seguintes equações de oferta e demanda:
Demanda: Q =αP + γ1 X1 + e1
Oferta: P =βQ + γ2 X2 + e2 .
É comum que tais equações sejam referidas como as formas estruturais do modelo. Note que as
duas equações são “ligadas" pela presença comum das variáveis P e Q, de modo que a haverá
variáveis endógenas em cada um dos modelos e, portanto, a estimação por MQO de cada um
destes modelos acabará por nos fornecer estimadores viesados. Para observar este fato, note
que
cov(P, e1 ) = cov(βQ + γ2 X2 + e2 , e1 ) = βcov(Q, e1 ) + γ2 cov(X2 , e1 ) + cov(e2 , e1 )

cov(Q, e2 ) = cov(αP + γ1 X1 + e1 , e2 ) = αcov(P, e2 ) + γ1 cov(X1 , e2 ) + cov(e2 , e1 )
Normalmente, é assumido que cov(e2 , e1 ) = cov(X1 , e2 ) = cov(X2 , e1 ) = 0. Mas, pelas

próprias equações de demanda e oferta, claramente cov(Q, e1 ) ̸= 0 e cov(P, e2 ) ̸= 0. Assim,

178 8.13. PROBLEMAS RELACIONADOS AO ERRO
temos que
cov(P, e1 ) = cov(βQ + γ2 X2 + e2 , e1 ) = βcov(Q, e1 ) ̸= 0

cov(Q, e2 ) = cov(αP + γ1 X1 + e1 , e2 ) = αcov(P, e2 ) ̸= 0,
de modo que P e Q são endógenas em cada um dos modelos estruturais. É por este motivo,
portanto, que a estimação por MQO do modelo descrito acaba por produzir, como dito, esti-
madores com viés de simultaneidade.
Uma outra forma de ver que P e Q são variáveis endógenas nos modelos estruturais acima,
é encontrando a forma reduzida destas equações, em que escrevemos P e Q em função apenas
das variáveis exógenas. Para encontrar a forma reduzida da demanda, por exemplo, basta usar
as equações de oferta e demanda acima de maneira a obtermos
Q = α(βQ + γ2 X2 + e2 ) + γ1 X2 + e1
Q(1 − αβ) = X2 (γ1 + αγ2 ) + (e1 + αe2 ).
γ1 + αγ2 e1 + αe2
Q = X2 + , desde que αβ ̸= 1.
1 − αβ 1 − αβ
Podemos ver que Q e e2 (a menos que α = 0) são relacionados, o que faz com que a equação
da oferta tenha Q como variável endógena. O mesmo raciocínio pode ser aplicado para a forma
reduzida da oferta.
Vimos que para resolver um problema de variável endógena, podemos usar variáveis instru-
mentais (VI). No entanto, para que usemos esta alternativa, devemos checar antes se o pro-
blema pode ser identificado. Neste sentido, tendo em mente o sistema acima de equações de
oferta e demanda, dizemos que a primeira equação (da demanda) está identificada se, e so-
mente se, a segunda equação (da oferta) contiver ao menos a mesma quantidade de variáveis
exógenas (com coeficiente não nulo) excluídas da primeira equação que a quantidade de variá-
veis endógenas presentes na primeira equação. Esta condição é chamada de condição de ordem
e ela é necessária e suficiente para que a equação da demanda no modelo de equações simul-
tâneas esteja identificada (o mesmo raciocínio vale para verificar se a segunda equação, a da
oferta, está identificada).
Podemos também estabelecer uma condição necessária para analisar se o sistema como
um todo pode ser identificado (este critério pode ser bem útil para sistemas com mais de duas
equações). Assim, dizemos que a condição de rank é atendida se temos no sistema de equa-
ções simultâneas ao menos o mesmo número de variáveis exógenas que o número de variáveis
endógenas totais. Caso esta condição não seja atendida, podemos de imediato concluir que
o sistema não é identificado (embora alguma equação deste sistema pode ser identificada de

modo “isolado").3
3
Este é um daqueles assuntos em que o leitor aprenderá mais na prática, olhando e fazendo os exercícios (que
podem ser conferidos abaixo) do que apenas lendo as considerações teóricas. Por isto, é altamente recomendado
a prática deste conteúdo.

Questão 04/2018
Considere o seguinte modelo de regressão linear simples:
(1) y = β0 + β1 x + u.
Para uma amostra com 30 observações, foram verificados os seguintes resultados:
30
X 30
X 30
X 30
X 30
X
xi = 30, yi = 120, x2i = 60, yi2 = 400 e xi yi = 180.
i=1 i=1 i=1 i=1 i=1
Com base nesses resultados, obtenha o estimador de Mínimos Quadrados Ordinários (MQO)
para β1 na equação (1).
Solução.
Demonstração. Basta utilizar (8.6) para ver que a resposta final é β̂1 = 02.
Questão 06/2017
(1) y = β0 + β1 x + u.
Para uma amostra com 10 observações são encontrados os seguintes resultados:
10
X 10
X 10
X 10
X
x̄ xi = 10, x̄ yi = 400, xi yi = 500 e x2i = 15.
i=1 i=1 i=1 i=1
Sendo β1 o estimador de Mínimos Quadrados Ordinários de β1 calcule o valor da estimativa

β1 usando os resultados dessa amostra.

Solução.
Demonstração. A equação (8.6) pode ser escrita como
Pn
yi (xi − x̄)
β̂1 = Pni=1 .
i=1 xi (xi − x̄)
Assim, usando os valores do enunciado, β̂1 = 20.
Questão 01/2014
Neste exemplo, queremos prever o peso do indivíduo i usando somente sua altura,
Yi = β0 + β1 Xi + εi
no qual Y é o peso do indivíduo e X a altura. Assumimos que (Yi , Xi )N

i=1 é uma amostra ale-
atória, E[εi |Xi ] = 0, V ar[Xi ] > 0, E[Xi ] < ∞, 0 < E[ui ] < ∞ e V ar[εi |Xi ] = σε2 . Após
4 4
coletar a informação de peso e altura de 100 indivíduos, obtemos a seguinte tabela:

PN PN PN PN PN
i=1 Yi i=1 Xi i=1 (Yi − Ȳ )2 i=1 (Xi− X̄)2 i=1 (Xi − X̄)(Yi − Ȳ )
18 8 95 1200 4800
Tabela 8.1
Estimando o modelo por Mínimos Quadrados Ordinários, calcule o valor da estimativa ob-
tida para β̂1 . Multiplique o resultado por 10.
Solução.
Demonstração. Utilizando as informações das duas últimas colunas na tabela acima e inserindo-
as na fórmula de β̂1 em (8.7) vemos facilmente que β̂1 = 4. Portanto, a resposta final é
10 × 4 = 40.
Questão 08/2015
Considere o modelo de regressão abaixo:
yi = β0 + β1 xi + ui , i = 1, ..., n, em que E[ui |xi ] = 0 e V ar[ui |xi ] = σ 2 .

Considere os seguintes estimadores de β1 :

Pn Pn n
(xi − x̄)(yi ) xi y i X
i=1
β̂1 = Pn e β̃1 = Pi=1
n 2
, em que x̄ = n−1
xi .
i=1 (xi − x̄)xi i=1 xi i=1
(0) β̃1 é um estimador não tendencioso de β1 ;

(1) Se β0 = 0, β̃1 é um estimador consistente de β1 .
(2) Se β0 = 0, β̂1 não é um estimador consistente de β1 .
(3) β̂1 é um estimador não tendencioso de β1 ;
(4) Se β0 > 0, E[β̃1 ] > E[β̂1 ].
Solução.
(0) Falso.
Pn Pn
i=1 xi E[yi |x] xi (E[β0 + β1 xi + ui |x])
E[β̃1 |x] = Pn 2 = i=1 Pn 2
i=1 xi i=1 xi
Pn
xi (E[β0 |x] + β1 E[xi |x] + E[ui |x])
= i=1 Pn 2
i=1 xi
Pn Pn
xi (β0 + β1 xi ) xi
= i=1 P
n 2
= β0 Pni=1 2 + β1 ̸= β1 se β0 ≠ 0.
i=1 xi i=1 xi
Portanto, o estimador é viesado.
(1) Verdadeiro.
Demonstração. Usando yi = β0 + β1 xi + ui na expressão de β̃1 , podemos ver que
Pn
n−1 ni=1 xi ui
P
i=1 xi u i
β̃1 = β1 + Pn 2 = −1 Pn 2 .
i=1 xi n i=1 xi
Então,
E(xi ui )
plim(β̃1 ) = β1 + .
E(x2i )
Como das informações do enunciado, E(ui |xi ) = 0 = E(u), então ui e xi são independentes.
Assim, E(ui xi ) = E(ui )E(xi ) = 0. Portanto, plim(β̃1 ) = β1 . Ou seja, β̃1 é um estimador
consistente de β1 .
(2) Falso.

Demonstração. Para que o estimador MQO seja consistente não fazemos hipótese nenhuma
sobre o valor de β0 .
(3) Verdadeiro.
(4) Falso.
Demonstração. Pela álgebra desenvolvida na resposta do item (0), temos que E[β̃1 ] > E[β̂1 ] =
β1 se e somente se β0 xi > 0, desigualdade que nada garante que será satisfeita.
P
Questão 15/2019
Considere o modelo de regressão:
yi = β1 xi + ui , i = 1, ..., n, em que E[ui |xi ] = 0 e V ar[ui |xi ] = σ 2 .
Considere três estimadores para β1 :

Pn Pn Pn n
(xi − x̄)(yi − ȳ) ∗ xi yi ∗∗ i=1 xi yi 1X
b1 = i=1
P n 2
, b1 = Pi=1
n 2
, b1 = em que x̄ = xi .
i=1 (xi − x̄) i=1 xi (xi − x̄)2 n i=1
(0) b1 é um estimador tendencioso de β1 ;

(1) b1 é um estimador consistente para β1 .
(2) b∗1 é um estimador não tendencioso de β1 ;
(3) b∗1 é um estimador consistente para β1 .
1 é um estimador não tendencioso de β1 .
(4) b∗∗
Solução.
(0) Falso.
Demonstração. Visto no texto que tal estimador é não tendencioso.
(1) Verdadeiro.
Demonstração. Conforme mostrado no texto.
(2) Verdadeiro.
Demonstração. Note que este estimador é o mesmo da questão 08/2015. Vimos que quando
β0 , então o estimador será não-viesado. Como, do enunciado, queremos estimar a equação
yi = β1 xi + ui , então β0 = 0 e, portanto, o estimador é não-viesado.

(3) Verdadeiro.
Demonstração. Usando yi = β1 xi + ui na expressão de b∗1 , podemos ver que
Pn
n−1 ni=1 xi ui
P
i=1 xi u i
β̃1 = β1 + Pn 2 = −1 Pn 2 .
i=1 xi n i=1 xi
Então,
E(xi ui )
plim(β̃1 ) = β1 + .
E(x2i )
Como das informações do enunciado, E(ui |xi ) = 0 = E(u), então ui e xi são independentes.
Assim, E(ui xi ) = E(ui )E(xi ) = 0. Portanto, plim(β̃1 ) = β1 . Ou seja, b∗1 é um estimador
consistente para β1 .
(4) Falso.
Demonstração. Tendo em mente que agora yi = β1 + β1 xi e, portanto β0 = 0, podemos nova-
mente usar a álgebra desenvolvida na resposta do item (0) da questão 08/2015, substituindo
o denominador x2i por (xi − x̄)2 para chegar na expressão
P P
Pn
β1 ni=1 x2i
P
xi (β0 + β1 xi )
E[b∗∗
1 ]
i=1
= Pn 2
= Pn 2
̸= β1 .
i=1 (xi − x̄) i=1 (xi − x̄)
Portanto, o estimador é viesado.
Questão 13/2011
Considere o seguinte modelo de regressão linear clássico em que as variáveis são expressas
como desvios em relação às respectivas médias:
yi = αxi + ui , i = 1, ..., n
E[ui ] = 0, E[u2i ] = σ 2 , E(ui , uj ) = 0 para todo i ̸= j
Suponha, por simplicidade, que xi é um regressor escalar não estocástico. Propõe-se estimar
α através da razão entre as médias amostrais de yi e xi :
ȳ
ᾱ = .
x̄

Calcule a variância de ᾱ. Multiplique o resultado por 100. (Sabe-se que σ 2 = 100, n = 100
e i=1 xi /n = 5).
Pn
Solução.

P P P
yi (αxi + ui ) ui
ᾱ = P = P =α+ P .
xi xi xi
Assim, tendo em mente que σ 2 = 100 = n e x̄ = 5, então

ÅP ã Å P ã
ui ( ui )/n 1 X 1 X
V ar(ᾱ) = V ar P = V ar P = V ar( ui ) = V ar(ui )
xi ( xi )/n 25n2 25n2
1 X 2 1 1
= σ = × 100000 = .
250000 250000 25
A resposta final, portanto, é 100 × 1

25
= 04.
Questão 13/2018
Considere o seguinte modelo de regressão linear múltipla:
(1) yi = β0 + β1 x1i + β2 x2i + ui .
Defina β̂0 , β̂1 e β̂2 como os estimadores de Mínimos Quadrados Ordinários (MQO) para
β0 , β1 e β2 respectivamente. Supondo que a equação acima tenha sido estimada pelo método
de MQO usando uma amostra com n observações, julgue as afirmativas:
Pn
(0) i=1 (yi − β̂0 − β̂1 x1i − β̂2 x2i ) = 0.
(1) Se zi = a0 + a1 x1i + a2 x2i , em que a0 , a1 e a2 são constantes, então: ni=1 zi (yi − β̂0 −
P
β̂1 x1i − β̂2 x2i ) = 0.

(2) Se ni=1 x2i > ni=1 x1i , então ni=1 x2i (yi − β̂0 − β̂1 x1i − β̂2 x2i ) > ni=1 x1i (yi −
P P P P
β̂0 − β̂1 x1i − β̂2 x2i ).

(3) ȳ = β̂0 + β̂1 x̄1 + β̂2 x̄2 .
(4) Sendo ûi = yi − β̂0 − β̂1 x1i − β̂2 x2i , temos:
Pn Pn Pn
i=1 ûi = i=1 (yi − ȳ) − β̂1 i=1 (x1i −
x̄1 ) − β̂2 ni=1 (x2i − x̄2 ).
P

Solução.
(0) Verdadeiro.
Demonstração. Vimos no texto que uma das equações a ser satisfeita na condição de primeira
ordem é exatamente esta.
(1) Verdadeiro.
Demonstração. Note que o problema possui as condições de primeira ordem em (8.14) e em
(8.15) para k = 2. Multiplicando (8.14) por a0 , (8.15), para j = 1, por a1 , e (8.15), para j = 2,
por a2 e somando estes termos temos exatamente a expressão da afirmação do item.
(2) Falso.
Demonstração. Pela condição de primeira ordem, sempre ocorre que
n
X n
X
x2i (yi − β̂0 − β̂1 x1i − β̂2 x2i ) = x1i (yi − β̂0 − β̂1 x1i − β̂2 x2i ) = 0.
i=1 i=1
(3) Verdadeiro.
Demonstração. Nossa estimação para (1) é
(1) yi = β̂0 + β̂1 x1i + β̂2 x2i + ui .
Somando os dois lados para i = 1 até i = n e dividindo por n teremos exatamente a

expressão enunciada no item.
(4) Verdadeiro.
Demonstração. Pela condição (8.14), devemos ter que ûi = 0. Das informações do item,
P
n
X n
X n
X n
X
ûi = (yi − ȳ) − β̂1 (x1i − x̄1 ) − β̂2 (x2i − x̄2 )
i=1 i=1 i=1 i=1
n n n n
! n n
!
X X X X X X
= yi − ȳ − β̂1 x1i − x̄1 − β̂2 x2i − x̄2
i=1 i=1 i=1 i=1 i=1 i=1
= nȳ − nȳ − β̂1 (nx¯1 − nx¯1 ) − β̂2 (nx¯2 − nx¯2 ) = 0,
o que confirma que

P
ûi = 0.

Questão 13/2020
Considere o modelo de regressão linear múltipla:
y = β0 + β1 x1 + β2 x2 + u, em que E(u|x1 , x2 ) = 0 e V ar(u|x1 , x2 ) = σ 2 .
Suponha que se tenha à disposição uma amostra aleatória da população com n observações
para estimar esse modelo, sendo β̂0 , β̂1 e β̂2 os estimadores de Mínimos Quadrados Ordinários
(MQO) para β0 , β1 e β2 , respectivamente. Julgue as afirmativas abaixo:
(0) Se β̂1 > 0 e β̂2 < 0, então a correlação entre x1 e x2 na amostra deve ser negativa.
(1) Se a correlação entre x1 e x2 na amostraPé igual a zero, a variância de β̂1 condicionada
n
2 x1i
em x1 e x2 é igual a Pn (xσ1i −x )2 , em que x1 = i=1
n
.
i=1 1
σ2
(2) Se β̂2 = 0, a variância de β̂1 condicionada em x1 e x2 é igual a Pn 2, em que
Pn i=1 1i −x1 )
(x
x1i
x1 = i=1
n
.
(4) Definindo θ̂ = β̂1 +β̂2 , a variância de θ̂ condicionada em x1 e x2 é igual a V ar(β̂1 |x1 , x2 )+
V ar(β̂2 |x1 , x2 ).
Solução.
(0) Falso.
Demonstração. Nossa reta de regressão amostral ficaria y = β̂0 + β̂1 x1 + β̂2 x2 . Escrevendo x2
em termos de x1 :
y β̂0 β̂1
x2 = − − x1 .
β̂2 β̂2 β̂2
Ou seja, variações em x1 levam a mudanças positivas em x2 . Portanto, ambos devem ser

positivamente correlacionados.
(1) Verdadeiro.
Demonstração. Se a correlação entre as variáveis x1 e x2 é nula, então o R-quadrado da regres-
são de x1 em relação a x2 também é nulo. Portanto, a fórmula (8.19) reduz-se a esta dada no
enunciado.
(2) Falso.
Demonstração. Nada nos garante que x1 e x2 não tenha correlação. Neste caso, a hipótese
4 do nosso modelo de regressão linear simples, em que E(u|x1 ) = 0, não estaria garantida.
Portanto, a fórmula da variância poderia não ser esta dada no enunciado.
(4) Falso.

Demonstração. Lembrando dos conceitos mais básicos de estatística, se X e Y são duas va-
riáveis aleatórias, então
V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y ).
Como não temos nenhuma garantia de que Cov(β̂1 , β̂2 ) = 0, tomando X = β̂1 e Y = β̂2 ,
então podemos ver que a afirmação do item é falsa.
Questão 12/2012
Considere o seguinte modelo de regressão:
yi = β0 + β1 x1i + εi
Em que β0 e β1 são parâmentros estimados pelo método dos mínimos quadrados ordinários e
εi representa o erro do modelo.
(0) A hipótese de que E[y|x1 ] = 0 assegura que a soma dos resíduos da regressão é igual a
zero.
(1) Nesse modelo, a soma dos quadrados total é igual a soma dos quadrados explicada mais
a soma dos quadrados dos resíduos da regressão.
(3) Neste modelo, a covariância amostral entre os valores preditos pela regressão, ŷi , e os
resíduos da regressão é sempre igual a zero.
Solução.
(0) Falso.
Demonstração. O fato de que a soma dos resíduos da regressão é nula vem da condição de
primeira ordem no problema de minimização da soma dos resíduos e não de que E[y|x1 ] = 0.
(1) Verdadeiro.
Demonstração. Conforme visto no texto.
(3) Verdadeiro.
Demonstração.
n
X n
X n
X
Cov(ŷi , ûi ) = Cov(β0 + β1 x1i , ûi ) = (β0 + β1 x1i )ûi = β0 ûi + β1 x1i ûi = 0,
i=1 i=1 i=1

onde a última igualdade segue-se das condições de primeira ordem do problema de minimização
dos resíduos ao quadrado.
Questão 15/2013
Usando uma base de dados que contém informação sobre 437 firmas, estimamos uma fun-
ção de produção Cobb-Douglas:
Ŷi = 0, 99 + 0, 64Li + 0, 45Ki

(0,003) (0,035) (0,023)
R2 = 0, 91
Em que Ŷi denota o produto (em logaritmo), Li representa o insumo trabalho (em logaritmo)
e Ki , o insumo capital (em logaritmo).
Os números entre parênteses representam o erro-padrão associado a cada coeficiente.
Baseado no resultado acima, julgue as afirmativas:
(1) Mantendo o capital em dado nível, um aumento de 10 para 11 unidades de trabalho

causa um aumento no produto de 0, 99 + 0, 64 = 1, 63.
(4) Suponha que estimamos uma nova função de produção que relaciona o produto com
capital, trabalho e uma medida das condições climáticas enfrentadas por cada firma. Podemos
afirmar que R2 deste modelo será maior que 0,91.
Solução.
(1) Falso.
Demonstração. Um aumento numa unidade de trabalho causa um aumento no produto de
0, 64%.
(4) Falso.
Demonstração. Sabemos que R2 não será menor, mas não sabemos se ele será necessaria-
mente maior.
Questão 10/2019
Considere o seguinte modelo de regressão linear simples: y = β0 + β1 x + u.

Para uma amostra com 32 observações são observados os seguintes resultados:
32
X 32
X 32
X
2 2
ȳ = 30, x̄ = 10, (yi − ȳ) = 90, (xi − x̄) = 60, (yi − ȳ)(xi − x̄) = 30.
i=1 i=1 i=1
A partir dessas informações, obtenha a Soma dos Quadrados dos Resíduos (SQR) correspon-
dente aos estimadores de MQO para esse modelo.
Solução.
Demonstração. Sabemos que SQR = SQT − SQE =
P32 P32
i=1 (yi − ȳ) − i=1 (ŷi − ȳi ) =
i=1 (ŷi − ȳi ). Note que ȳ = β̂0 − β̂1 x̄. Então,
90 − 32
P
32
X 32
X 32
X
2 2
SQE = (ŷi − ȳi ) = (β̂0 + β̂1 x − β̂0 − β̂1 x̄) = β̂12 (x − x̄)2 = 60β̂12 .
i=1 i=1 i=1
De (8.7) vemos que β̂1 = 30/60 = 1/2. Portanto, SQE = 60(1/2)2 = 15. Finalmente, temosq
que SQR = 90 − 15 = 75.
Questão 05/2017
Considere o modelo de regressão linear:
yi = β0 + β1 x1i + β2 x2i + ui , i = 1, ...n, em que E(ui |x1i , x2i ) = 0.
Com base nesse modelo, é correto afirmar:
(0) A hipótese E(ui |x1i , x2i ) não é necessária para que o estimador de Mínimos Quadrados
Ordinários (MQO) de β1 seja consistente.
(2) Se V ar(ui |x1i , x2i ) = x1i σ 2 , o estimador de MQO de β1 é tendencioso.
(3) Se a correlação entre x1i e x2i é igual a 0,95, o estimador de MQO de β1 não é eficiente.
Solução.
(0) Verdadeiro.
Demonstração. Conforme vimos no texto, ela é suficiente mas não necessária.
(2) Falso.

Demonstração. O viés de um estimador não depende de nenhuma hipótese sobre a variância

do erro, conforme vimos no texto.
(3) Falso.
Demonstração. Para que não tenhamos a garantia do não-viés de um estimador MQO qualquer,
uma das hipóteses de 1 a 4 (enunciadas no texto) deve ser violada. Mas se a correlação entre
duas variáveis explicativas é diferente de 1, então elas não são perfeitamente correlacionadas e,
portanto, a hipótese de multicolineariedade perfeita não é violada. Então, não podemos fazer a
afirmação do item.
Questão 12/2018
Considere a estimativa da função linear y = β0 +β1 x1 +β2 x2 +u, cujos parâmetros tenham
sido estimados pelo Método dos Mínimos Quadrados Ordinários. Julgue as afirmativas:
(0) Se E(u|x1 ) = 0 e E(u|x2 ) ̸= 0, então os estimadores não são viesados;

(1) Se o R2 = 0, então y é uma combinação linear de x1 e x2 ;
(2) Suponha que x2 seja relevante e correlacionada com x1 . Se omitirmos x2 da regressão,
considerando que E(u|x1 ) = 0, os estimadores de β0 e β1 não serão viesados;
(4) Se V (u|x1 , x2 ) = θ0 , então serão tendenciosos os estimadores de mínimos quadrados
da variância de β̂0 , β̂1 , β̂2 .
Solução.
(0) Falso.
Demonstração. Se E(u|x2 ) ̸= 0, então a hipótese 4 do modelo de regressão múltipla não é
satisfeita. Assim, não teremos a garantir de os estimadores serem não viesados.
(1) Falso.
Demonstração. Lembremos que R2 é uma medida de o quanto as variáveis explicativas expli-
cam a variável explicada. Se esta medida é nula, então x1 e x2 não explica nada de y, o que faz
com que y não possa ser escrito como combinação linear de xi .
(2) Falso.
Demonstração. Se x2 é relevante e correlacionada com x1 , ao ser tirado da regressão teremos
que E(ε|x1 ) ̸= 0 se ε é o termo de erro da regressão sem x2 . Portanto, não teremos nenhuma
garantia de que os estimadores dos parâmetros serão não viesados.
(4) Falso.

Demonstração. Estamos no caso de homocedasticidade e, portanto, a variância estimada dos

estimadores MQO não é viesada.
Questão 05/2011
Considere o seguinte modelo de regressão:
yi = β1 + β2 xi + ui , i = 1, ..., n
Suponha que xi é não estocástico e que
E[ui ] = 0, E[u2i ] = σ 2 , E(ui , uj ) = 0 para todo i ̸= j
Considere os dois estimadores alternativos de β2 :

Pn
xi yi
b2 = Pi=1
n 2
i=1 xi
e
Pn
(x − x̄)(yi − ȳ)
Pn i
β̂2 = i=1 2
i=1 (xi − x̄)
Onde x̄ = n−1 ni=1 xi e ȳ = n−1 yi são as médias amostrais de x e y respectivamente. É

P
correto afirmar que:
(0) b2 em geral é um estimador não viesado de β2 .

(1) β̂2 é um estimador não viesado de β2 se e somente se β1 = 0.
(3) b2 é um estimador não viesado de β2 se, para qualquer amostra de tamanho n, x̄ = 0.
(4) b2 é um estimador não viesado de β2 se, para qualquer amostra de tamanho n, ȳ = 0.
Solução.
(0) Falso.
Pn
β1 ni=1 xi
P Pn
i=1 x1 (β1 + β2 xi + ui ) xi u i
b2 = Pn 2 = Pn 2 + β2 + Pi=1
n 2
.

Então,
β1 ni=1 xi
Pn
β1 ni=1 xi
P P
i=1 xi E(ui )
E(b2 ) = β2 + Pn 2 + Pn 2 = β2 + Pn 2 .
β1 n
P
x
Portanto, o estimador b2 é viesado e seu viés é dado por Pn i=1 2 i .
i=1 xi
(1) Falso.
Demonstração. Conforme vimos no texto, β̂2 é um estimador não viesado independente de
β1 = 0.
(3) Verdadeiro.
Pn
β x
Demonstração. Vimos na resposta do item (0) que o viés do estimador b2 é dado por P
1
n 2 .
i=1 i
i=1 xi
Portanto, se x̄ = 0 então i=1 xi = 0 para n ̸= 0. Desta forma, o viés vai para zero e b2
Pn
torna-se não viesado.
(4) Falso.
Demonstração. O viés de b2 , conforme mostrado nos itens anteriores, não depende de ȳ.
Questão 08/2010
Considere as seguintes afirmações referentes ao modelo de regressão linear clássico com
regressores estocásticos:
yi = β0 + β1 x1i + β2 x2i + εi , i = 1, ..., n,
em que E[ε|x1 , x2 ] = 0 e V ar[ε|x1 , x2 ] = σ 2
(3) Se omitirmos x2i da regressão, o estimador de mínimos quadrados ordinários de β1 será

necessariamente inconsistente;
Solução.
(3) Falso.
Demonstração. O estimador de mínimos quadrados ordinários de β1 somente será inconsis-
tente se as variáveis explicativas x1 e x2 tiverem correlação entre si. Nada no enunciado nos
garante isso.

Questão 02/2019
Julgue como verdadeiras ou falsas as afirmativas que se seguem:
(0) Na presença de heterocedasticidade dos erros de um modelo de regressão linear, os
estimadores de mínimos quadrados ordinários são inconsistentes.
(3) A omissão de uma variável relevante implica que os estimadores dos parâmetros de um
modelo de regressão linear serão viesados.
Solução.
(0) Falso.
Demonstração. Conforme vimos no texto, a consistência dos estimadores de mínimos quadra-
dos ordinários não possuem relação com a hipótese de homocedasticidade.
(3) Falso.
Demonstração. A omissão de uma variável relevante pode implicar que os estimadores dos
parâmetros de um modelo de regressão linear sejam viesados. Precisaríamos, para isto, que a
variável omitida tenha correlação com alguma das variáveis explicativas deixadas no modelo.
Questão 11/2020
Julgue as seguintes afirmativas como verdadeiras ou falsas:
(0) Num modelo de regressão linear múltipla, duas variáveis independentes apresentam
correlação, então os estimadores de Mínimos Quadrados dos parâmetros deste modelo serão
inconsistentes.
Solução.
(0) Falso.
Demonstração. Para consistência não podemos ter que o termo de erro tenha correlação com
uma das variáveis explicativas e não as explicativas entre si.
Questão 11/2012
Suponha que um pesquisador esteja interessado em investigar os determinantes da de-
linquência juvenil e tenha acesso aos seguintes dados provenientes de 100 cidades de um dado

país: A, o número de internações por 1000 adolescentes; P, o número de residências por 1000
domicílios na cidade com renda abaixo da linha da pobreza; S, o número de residências por 1000
domicílios na cidade com apenas um dos pais. O pesquisador estima a seguinte regressão:
A = β1 + β2 P + β3 S + u
em que u é um termo de erro que satisfaz todas as hipóteses usuais do modelo de regressão.
A correlação populacional entre P e S é 0,96.
(1) Multicolineariedade não torna viesados os estimadores de mínimos quadrados ordiná-

rios dos coeficientes, mas faz com que eles sejam inconsistentes.
Solução.
(1) Falso.
Demonstração. Multicolineariedade não perfeita não causa nenhum problema tanto para o viés
dos estimadores quanto para a consistência. Multicolineariedade perfeita causaria problema
para ambos.
Questão 14/2014
Considere o modelo de regressão linear simples
Yi = β0 + β1 Xi + εi ,
no qual (Yi , Xi )N
i=1 é uma amostra aleatória, Cov(εi , Xi ) ̸= 0, V ar[Xi ] > 0, E[Xi ] < ∞,
4
0 < E[u4i ] < ∞. Temos um vetor de variáveis aleatórias Zi com dimensão r × 1, com r ≥ 1,
tal que Cov(εi , Zi ) = 0. Além disso, V ar[εi |Zi ] = σ 2 .
Baseando-se nas informações acima, julgue as seguintes afirmativas:
(0) O estimador de Mínimos Quadrados Ordinários para β1 será consistente, mas inefici-
ente;
Solução.
(0) Falso.

Demonstração. Do enunciado, Cov(εi , Xi ) ̸= 0. Portanto, nada garante que β1 será consis-

tente.
Questão 10/2008
(3) A omissão de uma variável relevante em um modelo de regressão linear pode gerar au-
tocorrelação nos erros.
Solução.
(3) Verdadeiro.
Questão 12/2021
Considere verdadeiro o modelo de regressão populacional yi = 5 + 10x1i + 1, 5x2i + εi e
considere que as suposições clássicas de Gauss-Markov sejam satisfeitas. No entanto, o modelo
yi = θ0 + θ1 x1i + ui foi estimado por Mínimos Quadrados Ordinários. A covariância entre x1 e
x2 é igual a 50, a variância de x1 é igual a 30 e a variância de x2 é igual a 15. Qual é o viés do
estimador θ̂1 ? Multiplique o resultado por 10 e marque a parte inteira.
Solução.
Demonstração. Primeiramente, temos que encontrar o valor do coeficiente de inclinação de
uma regressão linear simples de x2i contra x1i , isto é, devemos encontrar o valor de δ̂1 da re-
gressão x̂2i = δ̂0 + x̂1i δ̂1 . Sabemos que tal valor é
δ̂1 = Cov(x1i , x2i )/V ar(x1i ) = 50/30 = 5/3.
Então, usando (8.23), o viés do estimador é
35 5
θ̂1 = β2 · δ̃1 = = .
23 2
Portanto, a resposta final é 10 × 5/2 = 25.

Questão 12/2020
Suponha que um pesquisador tenha estimado os três modelos abaixo pelo método de Mí-
nimos Quadrados Ordinários (MQO), usando uma mesma amostra aleatória da população de
tamanho n:
(A) yi = β0 + β1 xi + ui
(B) yi∗ = β0∗ + β1∗ x∗i + u∗i
(C) yi∗∗ = β0 ∗∗ + β1 ∗∗xi ∗∗ + ui ∗∗
em que yi∗ = (yi + a), x∗i (xi + d), yi∗∗ = (ayi ) e x∗∗
i = (dxi ). Suponha também que a e d são
constantese e que a ̸= 0 e d ̸= 0.
Defina β̂0 e β̂1 como os estimadores MQO para os parâmetros β0 e β1 , respectivamente; β̂0∗ e
β̂1∗ como os estimadores MQO para os parâmetros β0∗ e β1∗ , respectivamente; e, finalmente, β̂0∗∗
e β̂1∗∗ como os estimadores MQO para os parâmetros β0∗∗ e β1∗∗ . São corretas as afirmativas:
(0) β̂1 = β̂1∗ .
(1) β̂0 = β̂0∗ .
(2) β̂1 = dβ̂1∗∗ .
(3) β̂0 = (1/a)β̂0∗∗
(4) Definindo ŷi∗∗ = β̂0∗∗ + β̂1∗∗ x∗∗
i e ŷi = β̂0 + β̂1 xi , temos ŷi = ŷi para todo i = 1, ..., n.
∗∗
Solução.
(0) Verdadeiro.
Demonstração.
Cov(x∗ , y ∗ ) Cov(x + d, y + a) Cov(x, y)

β̂1∗ = ∗
= = = β̂1 .
V ar(x ) V ar(x + d) var(x)
(1) Falso.
Demonstração.
β̂0∗ = y¯∗ − β̂1∗ x¯∗ = ȳ + a − β̂1 (x̄ + d) = ȳ − β̂1 x̄ + (a − β̂1 d) = β̂0 + (a − β̂1 d) ̸= β̂0 .
(2) Falso.
Demonstração.
Cov(x∗∗ , y ∗∗ ) Cov(dx, ay) a

β̂1∗∗ = = = β̂1 .
V ar(x∗∗ ) V ar(dx) d

(3) Verdadeiro.
Demonstração.
a
β̂0∗∗ = y¯∗∗ − β̂1∗∗ x¯∗∗ = aȳ − β̂1 (dx) = a(ȳ − β̂1 x̄) = aβ̂0 .
d
(4) Falso.
Demonstração.
a
ŷi∗∗ = aβ̂0 + β̂1 (dxi ) = a(β̂0 + β̂1 xi ) = aŷi ̸= ŷi , ∀i = 1, ..., n.
d
Questão 04/2013
Um pesquisador tem dados de 50 países das seguintes variáveis: N , número médio de jor-
nais comprados durante um ano; Y , PIB per capita medido em dólares. Ele roda a seguinte
regressão (desvios padrões entre parênteses, RSS = soma dos quadrados dos resíduos, F =
estatística F para a equação, R2 = coeficiente de determinação):
N̂ = 25, 0 + 0, 020Y R2 = 0, 06 RSS = 4000 F = 4, 00

(10,0) (0,010)
Suponha que você rode a mesma regressão com Y medido em reais. Assuma, por simplicidade,
que a taxa de câmbio seja dois reais por dólar.
(0) A estimativa do coeficiente de Y permanecerá inalterada.
(1) A estimativa do intercepto permanecerá inalterada.
(2) RSS permanecerá inalterado.
(3) A estimativa do desvio padrão do coeficiente de Y permanecerá inalterada.
Solução.
(0) Falso.
Demonstração. Rodar a regressão com Y medido em reais é o mesmo que multiplicar a variável
explicativa por 2. Vimos no texto que, neste caso, a estimativa para o beta desta regressão em
reais será o beta da regressão original multiplicado por 1/2.

(1) Verdadeiro.
Demonstração. Denote por β̂0∗ a estimativa do intercepto na regressão em que o Y é medido
em reais. Então,
β̂1 ∗ β̂1
β̂0∗ = y¯∗ − x¯ = ȳ − 2x̄ = β̂0 ≡ 25, 0,
2 2
em que as variáveis sinalizadas com asterisco denota os componentes da regressão em reais e

as variáveis sem asterisco denota os componentes da regressão em dólares.
(2) Verdadeiro.
Demonstração. Se denotarmos com asterisco as variáveis relevantes nesta nova regressão com
a variável explicativa em reais, temos:
n n n
2
X X X
∗ ∗ ∗ ∗ ∗ 2
RSS = uˆ∗ = (N̂i − β̂0 − β̂1 Ŷ ) = (N̂i∗ − β̂0 − (1/2)β̂1 2Ŷ )2
i=1 i=1 i=1
n
X n
X
= (N̂i − β̂0 − β̂1 Ŷ )2 = û2 = RSS.
i=1 i=1
(3) Falso.
Demonstração. Denote com um asterisco os componentes da regressão em reais. Chamamos
a estimativa do desvio padrão do coeficiente de Y ∗ de erro padrão e denotamos por ep(β̂1∗ ), em
que β̂1∗ é a estimativa do coeficiente de Y ∗ . Então,
q Pn 2
» i=1 ûi
n−2
ep(β̂1∗ ) = V âr(β̂1∗ ) = »P .
n ∗ ¯∗ 2
i=1 (Yi − Y )
Vimos no item anterior que a soma do quadrado dos resíduos não irá ser alterada e, portanto,
o numerador da fração do erro padrão também ficará inalterado. Chequemos, agora, o denomi-
nador. Note que Y¯∗ = 2Ȳ e Yi∗ = 2Yi . Então,
Ã Ã Ã Ã
Xn Xn Xn Xn
(Yi∗ − Y¯∗ )2 = (2Yi − 2Ȳ )2 = 2 (Yi − Ȳ )2 =
̸ (Yi − Ȳ )2 .
i=1 i=1 i=1 i=1
Portanto, como o denominador do erro padrão será diferente para a regressão em reais, temos
que o erro padrão também será.

Questão 14/2020
(1) yi = β0 + β1 xi + ui , i = 1, ..., n.
Para esse modelo, suponha E(ui |xi ) = 0 e E(u2i |xi ) = σ 2 .
Considere também o modelo abaixo, construído a partir das mesmas variáveis x e y do
modelo (1), mas que não tem intercepto:
(2) yi = b1 xi + ei , i = 1, ..., n.
Suponha que, usando uma mesma amostra aleatória da população de tamanho n, essas
duas equações tenham sido estimadas pelo método de Mínimos Quadrados Ordinários (MQO).
Definindo β̂1 como o estimador de MQO para o parâmetro β1 na equação (1), b̂1 como o esti-
mador de MQO para b1 na equação (2), x = n1 ni=1 xi e y = n1 ni=1 yi , é correto afirmar:
P P
Pn
i=1 yi (xi −x)
(0) β̂1 = Pn
Pn xi (xi −x)
i=1
(y −y)(xi −x)
(1) b̂1 = Pn i
i=1
2
i=1 (xi −x)
(2) Para x = 0, b̂1 é um estimador não tendencioso para o parâmetro β1 .

2
(3) A variância de b̂1 condicionada em xi é dada por: V ar(b̂1 |xi ) = Pσn x2 .
i i
(4) A variância de b̂1 condicionada em xi é menor ou igual a variância de β̂1 condicionada

em xi , ou seja, V ar(b̂1 |xi ) ≤ V ar(β̂1 |xi )
Solução.
(0) Verdadeiro.
(1) Falso.
Demonstração.
Pn
xi y i
b̂1 = Pi=1
n 2
.
i=1 xi
(2) Falso.
(3) Verdadeiro.
P P
xi (b1 xi + ei ) xi e i
b̂1 = P 2 = b1 + P 2 .
xi xi

Então,
ã P 2
σ2
ÅP
xi ei xi V ar(ei )
V ar(b̂1 |xi ) = V ar P 2 | xi = P 2 = .
x2i
P
xi ( x2i )
(4) Verdadeiro.
P P
(xi − x)(β0 + β1 xi + ui ) (xi − x)ei
β̂1 = P = β1 + P .
(xi − x)2 (xi − x)2
Então,
σ2
ÅP
(xi − x)ei
ã
V ar(β̂1 |xi ) = V ar P | x i = P .
(xi − x)2 (xi − x)2
Usando o valor de V ar(b̂1 |xi ) dado na solução do item anterior, temos que: se x = 0, então
V ar(β̂1 |xi ) = V ar(b̂1 |xi ). Caso x ̸= 0, note primeiramente que
n
X n
X n
X n
X
2
(xi − x) = (x2i − 2xi x + x ) = 2
x2i − 2x xi + nx2
i=1 i=1 i=1 i=1
Xn n
X n
X n
X n
X
x2i −x xi − x xi + nx = 2
x2i −x xi − x(nx − nx)
i=1 i=1 i=1 i=1 i=1
Xn Xn n
X n
X
x2i −x xi = x2i − nx2 < x2i .
i=1 i=1 i=1 i=1
Portanto, V ar(β̂1 |xi ) < V ar(b̂1 |xi ) caso x ̸= 0. Concluímos, finalmente, que V ar(β̂1 |xi ) ≤
V ar(b̂1 |xi ), para qualquer x ∈ R.
Questão 15/2010
Considere o seguinte modelo de equações simultâneas:
qd = α1 p + α2 z + α3 y + ε1 (demanda),
qs = β1 p + ε2 (oferta),
qd = qd = q (equilíbrio).
com

E[ε1 |z, y] = E[ε2 |z, y] = 0

E[ε21 |z, y] = σ12 , E[ε22 |z, y] = σ22 , E[ε1 ε2 |z, y] = σ12 ̸= 0.
(0) Os estimadores de mínimos quadrados ordinários dos parâmetros das equações de

oferta e de demanda são inconsistentes;
(1) A equação de demanda satisfaz a condição de ordem para identificação, ao contrário da
equação de oferta;
(2) A equação de oferta é sobreidentificada e a equação de demanda é subidentificada;
(3) O estimador de mínimos quadrados de dois estágios de β1 coincide com o estimador de
variáveis instrumentais de β1 , quando y não for observado;
(4) Suponha que a2 = 0. Então, tanto os parâmetros da equação de demanda, quanto da
equação de oferta, podem ser estimados consistentemente.
Solução.
(0) Verdadeiro.
Demonstração. Em equilíbrio, podemos escrever a equação da oferta como q/β1 − ε2 /β1 = p.
Portanto, temos um sistema de equações simultâneas com p e q se variáveis endógenas e y e
z de variáveis exógenas. Assim, os estimadores MQO de ambas as equações estruturais serão
viesados e não consistentes.
(1) Falso.
Demonstração. É justamente o contrário: a equação de oferta é a que satisfaz a condição de
ordem, enquanto que a equação da demanda não. Para ver isso, note que a oferta possui uma
variável endógena mas a equação da demanda possui duas variáveis exógenas que não estão
na da oferta. Ainda, não há variáveis exógenas excluídas da demanda que poderiam servir como
variáveis instrumentais.
(2) Verdadeiro.
Demonstração. Como dito no item (1) anterior, a equação da demanda possui duas variáveis
exógenas que podem ser usadas para identificar a oferta, enquanto que a equação da oferta
possui apenas uma endógena, evidenciando que ela é sobreidentificada. Já a equação da de-
manda possui uma variável endógena mas não existe variável exógena excluída da demanda no
sistema que pode ser usada para identificar a demanda, isto é, ela é subindentificada.
(3) Verdadeiro.

Demonstração. y não ser observado significa que α3 = 0. Quando temos apenas uma variável
instrumental para realizar a regressão, então o estimador de MQ2E será o mesmo do estimador
de variáveis instrumentais.
(4) Falso.
Demonstração. Mesmo neste caso, a equação de demanda continua claramente subidentifi-
cada pelos mesmos motivos destacados anteriormente.
Questão 02/2011
Considere o seguinte modelo de equações simultâneas:
y1 = θ1 z + u1 (1)
y2 = β1 y1 + β2 z + u2 (2)
em que
E[u1 ] = E[u2 ] = 0
E[u21 ] = σ12 , E[u22 ] = σ22 , E[u1 u2 ] = σ12 ̸= 0
E[u1 z] = E[u2 z] = 0.
(0) O estimador de mínimos quadrados ordinários de θ1 na equação (1) é consistente.

(1) Os estimadores de mínimos quadrados ordinários de β1 e β2 na equação (2) são não
viesados.
(2) A equação (1) é exatamente identificada e a equação (2) é sobreidentificada.
(3) Se σ12 = 0, tanto a equação (1) quanto a equação (2) são exatamente identificadas.
(4) Se σ12 = 0, os estimadores de mínimos quadrados ordinários de β1 e β2 na equação (2)
são consistentes.
Solução.
(0) Verdadeiro.
Demonstração. Das informações do enunciado, z é a única variável exógena do sistema de
equações simultâneas, enquanto que y1 e y2 são endógenas. Note que na primeira equação
não há variáveis explicativas endógenas e, portanto, a estimação de θ1 , desde que satisfeitas as
hipóteses usuais, sobretudo E[u1 z] = 0, será consistente.

(1) Falso.
Demonstração. Note que cov(y1 , u2 ) = cov(θ1 z + u1 , u2 ) = θ1 cov(z, u2 ) + cov(u1 , u2 ) =
θ1 E(zu2 ) + E(u1 u2 ) = E(u1 u2 ) = σ12 ̸= 0. Portanto, y1 é endógeno na segunda equação.
Portanto, os estimadores não serão não viesados.
(2) Falso.
Demonstração. Como o número de variáveis endógenas na primeira equação é zero e o número
de variáveis exógenas excluídas da primeira equação e presente na segunda equação é também
zero, então, de fato, a primeira equação é exatamente identificada. Já no que se refere a (2), note
que y1 é endógeno (como mostramos no item anterior) mas não existe uma variável exógena
no sistema que não esteja na segunda equação. Assim, (2) é subidentificada.
(3) Verdadeiro.
Demonstração. Neste caso, a análise para (1) continua a mesma que foi feita no item anterior.
Já no que se refere à segunda equação, note que agora não temos variáveis endógenas, assim
como o número de variáveis exógenas no sistema que não está na segunda equação é nulo.
Portanto, de fato a equação torna-se exatamente identificada.
(4) Verdadeiro.
Demonstração. De fato, temos todas as condições para que sejam consistentes, dado que
agora não há problemas de endogeneidade.

Bibliografia
W. de O. Bussab and P. A. Morettin. Estatística Básica. Saraiva, 2017. 9ª edição.
J.M. Wooldridge. Introductory Econometrics: A Modern Approach. Cengage Learning, 2016. 6ª

edition.
205

Notas de Probabilidade e Estatística para ANPEC

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Notas de Probabilidade e Estatística para ANPEC

Enviado por

Direitos autorais:

Formatos disponíveis

Notas de Probabilidade e Estatística1

Um estudo para a ANPEC

Ribeirão Preto - Universidade de São Paulo. ORCiD: 0000-0002-3429-214X. Email: matheuslcar-

4 Variável Aleatória Discreta 35

4.2.3 Distribuição Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . 38

5 Variável Aleatória Contínua 81

III Inferência Estatística 121

Autor: Matheus L. Carrijo

7.3 Teste de Hipótese com Variância Desconhecida . . . . . . . . . . . . . . . . . 129

8 Regressão Linear 153

Autor: Matheus L. Carrijo

Autor: Matheus L. Carrijo

5.1 Fdp da Distribuição Uniforme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

7.1 Rejeição (ou não) da hipótese nula H0 . . . . . . . . . . . . . . . . . . . . . . . . 128

Autor: Matheus L. Carrijo

2.1 Preços e quantidades no tempo de uma economia com dois produtos. . . . . . 13

4.1 Distribuição Conjunta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

7.1 Rendas para uma amostra de 10 pessoas. . . . . . . . . . . . . . . . . . . . . . 123

Autor: Matheus L. Carrijo

Para ser escrito.

Autor: Matheus L. Carrijo

2.1 Números Índices

Período 1 Período 2 Período 3

2.1.1 Índice de Laspeyres

p2A qA1 + p2B qB1 2 × 20 + 40 × 3

p3A qA1 + p3B qB1 3 × 20 + 60 × 3

p1A qA2 + p1B qB2 2 × 20 + 30 × 2

p1A qA3 + p1B qB3 2 × 10 + 30 × 3

Com raciocínio semelhante, o índice de Laspeyres de quantidade para um período t com

Normalmente, o cálculo do PIB real é feito com o índice de Laspeyres de quantidade.

2.1.2 Índice de Paasche

Enquanto os índices de Laspeyres de preço e quantidade caracterizam-se por “avançar" para

Autor: Matheus L. Carrijo

a fórmula para o índice de preço de Paasche como:

O índice de quantidade de Paasche fica do seguinte modo:

A título de curiosidade, o índice de preço de Paasche é utilizado para calcular o deflator do

2.1.3 Índice de Fisher

2.2 Propriedades dos Números Índices

2.2.1 Os Índices de Laspeyres e Paasche como Médias Ponderadas

Autor: Matheus L. Carrijo

em que w1 , w2 ≥ 0 são os pesos.

em que wi ≥ 0 são os pesos.

2.2.2 Critério da Circularidade (Encadeamento)

Considere os preços e quantidades de dois produtos A e B de uma economia dados pela

L3,1 2,1 3,2

Autor: Matheus L. Carrijo

De forma um pouco mais geral,

2.2.3 Critério da Reversão do Tempo

L2,1 1,2 1,1

(p2A qA1 + p2B qB1 ) (p1A qA2 + p1B qB2 )

Autor: Matheus L. Carrijo

2.3 Exercícios ANPEC

Tabela 2.2: Tabela do exercício 03/2016

Dadas essas informações, é correto afirmar:

(0) O Índice de Laspeyres de preço do período 1 com base no período 0 é 75 .

3 × 200 + 1 × 100 700 7

Autor: Matheus L. Carrijo

Demonstração. O Índice de Laspeyres de quantidade do período 1 com base no período 0 é

Tabela 2.3: Tabela do exercício 01/2018

Autor: Matheus L. Carrijo

Autor: Matheus L. Carrijo

Tabela 2.4: Tabela do exercício 05/2019

Portanto, a resposta final é: 100 × 3/4 = 75.