Lista 0 MR

Universidade Federal do Ceará
Departamento de Estatı́stica e Matemática Aplicada

Prof. : Juvêncio S. Nobre
CC290 - Modelos de Regressão I - 2022.2
Lista de exercı́cios (de boas vindas) # 0: Revisão de teoria das matrizes,
probabilidade e inferência
Distribuição: 17/08/2022
Entrega: ℵ1
Parte 1: Teoria das Matrizes
1. Considere x = (x1 , . . . , xn )⊤ um vetor de dimensão n × 1. Podemos definir a norma do vetor

x por
v
√ u n
uX
kxk = x x = t x2i .
⊤
i=1
Mostre que:
i) kxk ≥ 0, ∀x ∈ Rn .
ii) kxk = 0 ⇔ x = 0.
iii) kcxk = |c| kxk.
iv) kx + yk ≤ kxk + kyk, ∀x, y ∈ Rn .
2. Considere x e y dois vetores reais de dimensão n×1. Prove a desigualdade de Cauchy-Scharwz:
(x⊤ y)2 ≤ (x⊤ x)(y⊤ y).
Em que ocasiões a igualdade é válida?

Sugestão: Use o fato de que kx + λyk ≥ 0, ∀x, y ∈ Rn , λ ∈ R.
3. O traço de uma matriz quadrada A de ordem n, denotado por tr(A), é definido como a soma
dos elementos da diagonal principal de A, isto é,
n
X
tr(A) = aii .
i=1
Considere A e B duas matrizes quadradas de ordem n e C e D duas matrizes de ordens m × n e

n × m, respectivamente. Mostre que:
i) tr(A⊤ ) = tr(A).
ii) tr(A + B) = tr(A) + tr(B).
iii) tr(CD) = tr(DC).

Pn Pn
iv) tr(A⊤ A) = tr(AA⊤ ) = i=1
2
j=1 aij .
v) Considerando x um vetor de dimensão n × 1, mostre que kxk2 = tr(xx⊤ ).
4. Faça um resumo sobre:
i) Decomposição espectral.
ii) Decomposição de Cholesky.
iii) Decomposição em valor singular (decomposição SVD).
iv) Decomposição de Schur.
Adicionamente, mostre que as decomposições espectral, de Cholesky e SVD são casos particu-
lares da decomposição de Schur. Apresente os comandos no R (com exemplos), para obter tais
decomposições.
5. Considere A uma matriz quadrada de ordem n cujos respectivos auto-valores são dados por
λ1 , . . . , λn . Prove que
n
X n
Y
tr(A) = λi e |A| = λi .
i=1 i=1
Sugestão: Utilize a decomposicão de Schur da matriz A.
6. Uma matriz quadrada A é dita ser idempotente se A2 = A. Considere A uma matriz

idempotente. Mostre que:
i) |A| = 0 ou 1.
ii) Os autovalores de A são iguais a zero ou 1.
iii) In − A é idempotente e A(In − A) = (In − A)A = 0n , em que In e 0n representam,

respectivamente a matriz identidade de ordem n e a matriz quadrada de ordem n com todos
elementos iguais a zero.
iv) Prove que:
a) posto(A) = tr(A).
b) Se posto(A) = n, então A = In .
Sugestão: Utilize a decomposicão de Schur da matriz A.
7. Mostre que se A⊤ A = A, então A é simétrica e idempotente.
8. Considere A e B duas matrizes de ordens n × m e p × q, respectivamente. O produto de

Kronecker entre as matrizes A e B, denotado por A ⊗ B, é dado pela seguinte matriz de ordem
np × mq:
 
a11 B a12 B · · · a1m B
 
 .. .. .. .. 
A⊗B= . . . . .
 
an1 B an2 B · · · anm B
Mostre que (assuma que as ordens das matrizes são tais que as operações sejam bem definidas) :
i) (aA) ⊗ (bB) = ab(A ⊗ B), para quaisquer escalares a, b.
ii) (A + C) ⊗ B = A ⊗ B + C ⊗ B.
iii) (A ⊗ B) ⊗ C = A ⊗ (B ⊗ C)
iv) (A ⊗ B)⊤ = A⊤ ⊗ B⊤ .
v) (A ⊗ B)(C ⊗ D) = AC ⊗ BD.
vi) Para matrizes quadradas A e B: tr(A ⊗ B) = tr(A)tr(B).
vii) Se A e B são duas matrizes quadradas de ordens n e m, respectivamente, mostre que

|A ⊗ B| = |A|m |B|n .
Pn
9. A soma direta de matrizes Ai , com dimensão (ni × mi ), i = 1, . . . , n é a matriz ( i=1 ni ×
Pn
i=1 mi ) definida por:
 
 A1 0 . . . 0 
 
Mn  0 A2 . . . 0 
 
Ai =  . .. .. ..  .
 .
i=1  . . . . 

 
0 0 . . . An
Mostre que:
L
i) tr (A B) = tr(A) + tr(B), com A e B representando matrizes quadradas de mesma
dimensão.
n
! n
! n
M M M
ii) Ai Bi = Ai Bi , com Ai e Bi representando matrizes de mesma dimensão.
i=1 i=1 i=1
k
M
iii) Ik ⊗ A = A.
i=1
L
iv) |A B| = |A||B|.
10. A operação de vetorização de uma matriz A = (a1 . . . an ), denotada por vec(A), consiste em
“empilhar” seus elementos na forma de um vetor
vec(A) = (a⊤ ⊤ ⊤
1 , . . . , an ) .
Para uma matriz simétrica A, o operador vech(A) consiste em empilhar todos os elementos
distintos de A em um vetor.
Sejam A, B matrizes de mesma dimensão e a e b vetores de ordens n × 1 e m × 1, respecti-
vamente. Prove as seguintes propriedades:
i) vec(a⊤ ) = vec(a).
ii) vec(ab⊤ ) = b ⊗ a.
iii) tr(A⊤ B) = vec(A)⊤ vec(B).
iv) Considere A uma matriz simétrica 3 × 3, com elementos a11 , · · · , a33 . Obtenha vec(A) e
vech(A).
11. Considere A uma matriz simétrica de ordem n. A norma de Frobenius (também denotada
por norma de Hilbert−Schmidt) da matriz A, denotada por kAkF , é definida por
v
uX
u n X
n
kAkF =t a2ij .
i=1 j=1
Mostre que
q
kAkF = kvec(A)k = tr(A⊤ A).
12. Considere A e B duas matrizes simétricas de ordem n e c um escalar. Mostre que:
i) kAkF ≥ 0, ∀A ∈ MR (n, n) := MR (n).
ii) kAkF = 0 ⇔ A = 0.
iii) kcAkF = |c| kAkF .
iv) kA + BkF ≤ kAkF + kBkF , ∀A, B ∈ MR (n).
13. Considere A uma matriz quadrada de ordem n. A matriz A é dita ser positiva (não-negativa)
definida, denotada por A ≻ ()0, se
x⊤ Ax > (≥)0, ∀x 6= 0.
Considere X uma matriz n × p (n ≤ p) de posto completo. Mostre que
i) X⊤ X é simétrica.
ii) X⊤ X é positiva definida.
iii) Usando o fato de que uma matriz é positiva definida, se e somente se, todos seus autovalores
são positivos, mostre que X⊤ X é inversı́vel.
iv) H = X(X⊤ X)−1 X⊤ é simétrica e idempotente.
v) In − H é simétrica e idempotente.
vi) posto(In − H) = n − p.
14. Considere a matriz

 
X 1
A= .
1 X
i) Considerando X um escalar, determine para quais valores de X a matriz A é positiva

definida.
ii) Se X ∼ U (−2, 2), calcule a probabilidade da matriz A ser positiva definida.
iii) Repita o item ii), considerando que X ∼ N (0, 1).

15. Considere f (X) : Rm×n → R uma função real de uma matriz X = (xij ) de dimensão n × m.
A derivada de f com respeito a X é definida como sendo a matriz n × m de derivadas ∂f /∂xij ,
i.e.,
 
∂f (X) ∂f (X) ∂f (X)
∂x11 ∂x21 ··· ∂x1m
∂f (X)  
 .. .. .. .. 
:=  . . . . .
∂X  
∂f (X) ∂f (X) ∂f (X)
∂xn1 ∂xn2 ··· ∂xnm
Considere x = (x1 , . . . , xn )⊤ e a = (a1 , . . . , an )⊤ vetores reais de dimensão n × 1 e A uma matriz

quadrada de ordem n. Prove que
∂a⊤ x ∂x⊤ a
= =a
∂x ∂x
⊤
∂x Ax
= (A + A⊤ )x
∂x

∂ exp(− 12 x⊤ Ax) 1
= − exp − x⊤ Ax Ax , se A é simétrica.
∂x 2
16. Considere a função
g(β) = (y − Xβ)⊤ V−1 (y − Xβ),
em que y e β são vetores de dimensões n × 1 e p × 1 (n > p), respectivamente, X uma matriz

de dimensão n × p de posto completo e V uma matriz simétrica de ordem n positiva definida
funcionalmente independente de β. Obtenha:
∂g(β )
i) ∂β
.
∂ 2 g(β )
ii) ⊤ .
∂β∂β
17. Mostre que a matriz In − Jn /n é simétrica, idempotente e não-negativa definida.
18. Faça um resumo sobre matriz de projeção.
19. Considere X uma matriz n × p (n ≤ p) de posto completo e considere a matriz de projeção

H = X(X⊤ X)−1 X⊤ com elementos denotados por hij , i, j ∈ {1, ..., n}. Mostre que para i =
1, · · · , n:
X
i) hii = h2ii + h2ij .
j6=i
ii) 0 ≤ hii ≤ 1.
20. Considere a matriz X definida por
 
1 1 ··· 1
X⊤ =  
x1 x2 · · · xn
e a matriz de projeção H definida na questão anterior.
i) Que condição deve ser satisfeita para que a matriz X seja de posto completo?
ii) Obtenha algebricamente o valor de hij , i, j = 1, · · · , n.
iii) Com base no item ii), mostre que n−1 ≤ hii ≤ 1, i = 1, · · · , n
21. Considere x = (x1 , . . . , xn )⊤ um vetor de n observações. Mostre que a média amostral e a

variância amostral podem escritas na seguinte forma matricial:
n
1X 1
x̄ = xi = 1⊤ x
n i=1 n n
n
1 X 1
Sx2 = (xi − x̄)2 = (x − 1n x̄)⊤ (x − 1n x̄)
n − 1 i=1 n−1
1
= x⊤ (In − Jn )x,
n−1
em que 1n representa um vetor de dimensão n × 1 com todos elementos iguais a 1 e Jn = 1n 1⊤
n.
22. Mostre que a variância amostral pode ser reescrita como uma forma quadrática (Questão #
21).
23. Mostre que a covariância amostral pode ser reescrita como uma forma bilinear.
24. Faça um resumo sobre o método dos multiplicadores de Lagrange.
25. Apresente dois exemplos de aplicação do método dos multiplicadores de Lagrange.
Sugestões de referências:
1. Aggarwal, C.C. (2020). Linear Algebra and Optimization for Machine Learning. New York:
Springer.
2. Banerjee, S. and Roy, A. (2014). Linear Algebra and Matrix Analysis for Statistics. Boca
Raton: CRC Press.
3. Gentle, J.A. (2017). Matrix Algebra: Theory, Computations and Applications in Statistics,
2nd edition. New York: Springer.
4. Harville, D.A. (2000). Matrix Algebra from Statistician’s Perspective. New York: Springer.
5. Harville, D.A. (2018). Linear Models and the Relevant Distributions and Matrix Algebra.
Boca Raton: CRC Press.
6. Magnus, J.R. and Neudecker, H. (1999). Matrix Differential Calculus with Applications in
Statistics and Econometrics, 2nd Edition. New York: John Wiley & Sons.
7. Puntanen, S., Styan, G.P.H. and Isotalo, J. (2011). Matrix Tricks for Linear Statistical
Models: Our Personal Top Twenty. New York: Springer.
8. Rao, C.R. and Rao, M.B. (1998). Matrix Algebra and Its Applications to Statistics and
Econometrics. New York: World Scientific.
9. Schott, J.R. (2017). Matrix Analysis for Statistics, 3rd edition. New York: John Wiley &
Sons.
10. Searle, S.R. and Khuri, A. I. (2017). Matrix Algebra Useful for Statistics, 2nd edition. New
York: John Wiley & Sons.
Parte 2: Probabilidade e Inferência
26. Considere X1 e X2 V.A’s independentes. Encontre a distribuição condicional de X1 |X1 +X2 =

y, quando:
i) Xi ∼ P(λi ), i = 1, 2;
ii) Xi ∼ B(ni , p), i = 1, 2;
27. Usando o resultado da questão anterior e as propriedades da esperança e variância condicional,

determine E[X1 ] e Var[X1 ].
28. Um mineiro está preso numa mina contendo 3 portas. A porta 1 o conduz à saı́da após 2
horas de caminhada. A porta 2 o conduz a um túnel que o retorna ao mesmo lugar da mina após
3 horas. A porta 3 o conduz a um túnel que o retorna ao mesmo lugar após 5 horas. Se o mineiro
escolhe qualquer porta aleatoriamente todas as vezes, qual é o tempo esperado que ele vai levar
para sair da mina? Calcule a variância desse tempo de saı́da.
29.(Soma aleatória de variáveis aleatórias) Considere {Xn }n≥1 uma sequencia de variáveis aleatórias
iid e N uma variável aleatória discreta não-negativa, independente de Xi , ∀i ∈ N. Defina
N
X
SN := Xi . Mostre que
i=1
E[SN ] = E[N ]E[X1 ] e Var[SN ] = Var[X1 ]E[N ] + (E[X1 ])2 Var[N ].
30. Considere X1 , . . . , Xn variáveis aleatórias definidas em um mesmo espaço de probabilidades

e Cov(·, ·) o operador covariância. Prove que:
i) Cov(Xi , Xi ) = Var[Xi ].
ii) Cov(Xi , Xj ) = Cov(Xj , Xi ).
iii) Cov(aXi , bXj ) = abCov(Xi , Xj ), para quaisquer constantes a e b.
iv) Para qualquer constante a, Cov(Xi , a) = 0.
v) Cov(X1 , X3 + X4 ) = Cov(X1 , X3 ) + Cov(X1 , X4 ).
vi) Cov(X1 + X2 , X3 + X4 ) = Cov(X1 , X3 ) + Cov(X1 , X4 ) + Cov(X2 , X3 ) + Cov(X2 , X4 ).
vii) Var(X1 + X2 ) = Var(X1 ) + Var(X2 ) + 2Cov(X1 , X2 ).

 
n
X n
X n X
X n
viii) Cov  ai Xi , bj Yj  = ai bj Cov(Xi , Yj ).
i=1 j=1 i=1 j=1
31. Exiba um vetor aleatório discreto (X1 , X2 ) tal que:
i) Cov(X1 , X2 ) = 2022.
ii) Cov(X1 , X2 ) = 2022, com a restrição de que de Xi só assuma dois valores (com probabilidade
positiva), i = 1, 2.
32. Seja X = (X1 , X2 , X3 ) um vetor aleatório cujas componentes são iids com distribuição
N (µ, σ 2 ). Defina Y = (Y1 , Y2 ) em que Y1 := X2 − X1 e Y2 := X3 − X1 . Determinar a covariância
e o coeficiente de correlação das componentes de Y.
33. Forneça um exemplo de um vetor aleatório absolutamente contı́nuo bivariado com compo-
nentes dependentes e não correlacionadas.
34. Forneça um exemplo em que correlação nula implica independência.

35. Considere um vetor aleatório X = (X1 , X2 ) cuja respectiva função geradora de momentos é
dada por !n
2
X 2
X
MX (t) = 1 − pi + pi eti .
i=1 i=1
i) Identifique as marginais de X1 e X2 .
ii) Usando MX (t), MX1 (t1 ) e MX2 (t2 ), discuta a independência das componentes de X.
iii) Calcule ρ12 e o interprete.
36. Considere um vetor aleatório X = (X1 , X2 ) cuja respectiva função geradora de momentos é
dada por
1 2 2
MX (t) = exp µ1 t1 + µ2 t2 + σ1 t1 + σ22 t22 + 2ρσ1 σ2 t1 t2 ,
2
com µ1 , µ2 ∈ R, σ1 , σ2 ∈ R+ e ρ ∈ (−1, 1).
i) Identifique as marginais de X1 e X2 .
ii) Usando MX (t), MX1 (t1 ) e MX2 (t2 ), discuta a independência das componentes de X.
iii) Forneça uma condição necessária e suficiente para garantir a independência das componentes
de X.
iv) Calcule ρ12 := Corr(X1 , X2 ) e o interprete.
37. Considere X = (X1 , X2 ) um vetor aleatório absolutamente contı́nuo com densidade dada por
1
f(X1 ,X2 ) (x1 , x2 ) = x1 x2 1(0,2) (x1 )1(0,x1 ) (x2 ).
2
i) Encontre as marginais de X1 e X2 .
ii) As variáveis X1 e X2 são independentes?
ii) Determine Cov(X1 , X2 ).
38. Considere U ∼ U (0, 1) e Z ∼ exp(1), independentes. Mostre que

√
X = 2Z cos(2πU )
√
Y = 2Zsen(2πU ),
são iid com distribuição N (0, 1).
39. Considere X = (X1 , X2 ) ∼ N2 (0, 0, 1, 1, 1/2). Encontre a distribuição conjunta de Y1 :=
X1 + X2 e Y2 = X1 − X2 .
40. Seja X = (X1 , X2 ) ∼ N2 (3, 1, 16, 25, 6/10). Determinar:
i) P(3 ≤ X2 ≤ 8).
ii) P(3 ≤ X2 ≤ 8|X1 = 7).
iii) P(−3 ≤ X1 ≤ 3).
iv) P(−3 ≤ X1 ≤ 3|X2 = −4).
v) Obtenha as distribuições condicionais de X2 dado X1 e de X1 dado X2 .
vi) Obtenha a distribuição conjunta de Y1 = 2X1 − X2 e Y2 = −X1 + 3X2 .
41. Considere X ∼ N2 (µ, Σ).
i) Mostre que fX (x) é uma legı́tima fdp.
ii) Usando fX (x), determine as distribuições marginais.
iii) Obtenha as distribuições condicionais.
iv) Prove que ρ = Corr(X1 , X2 ) = 0 é uma condição necessária e suficiente para garantir a
independência das componentes de X.
v) Encontre MX (t), ∀t ∈ R2 .
42. Usando um software de sua preferência, plote a função densidade de probabilidade e a

respectiva curva de nı́vel (mapa de contorno) da N2 (0, 0, 1, 1, ρ), para ρ = 0, ±0.1, ±0.5, ±0.9.
Interprete os gráficos.
43. Apresente as 3 definições equivalentes da distribuição normal multivariada (sem a necessidade

da fdp) e suas propriedades apresentadas de forma matricial.
44. Faça um breve ensaio sobre distribuição t-Student multivariada e suas propriedades apresen-
tadas de forma matricial.
45. Usando um software de sua preferência, plote a função densidade de probabilidade e a respec-
tiva curva de nı́vel (mapa de contorno) da tν (µ, Σ), para µ = 0, Σ = ρI2 , ρ = 0, ±0.1, ±0.5, ±0.9
e ν = 1, 2, 10, 30 e 100. Interprete os gráficos.
46. Apresente um resumo sobre:
i) Distribuições χ2 e F não centrais.
ii) Distribuições de formas lineares e quadráticas (sob suposição de normalidade).
47.(Famı́lia de localização/posição) Seja Fθ = {f (·; θ), θ ∈ R} uma famı́lia de densidades. O

parâmetro θ é definido ser um parâmetro de localização/posição se e somente se a densidade f (x; θ)
poder ser escrita da forma f (x; θ) = g(x−θ), com g uma função conhecida, denominada de função
geradora. Adicionalmente, diz-se que a densidade f (·; θ) (ou a V.A. associada) é um membro
da famı́lia de localização. Mostre que as seguintes V.A’s pertencem à famı́lia de localização,
identificando o parâmetro de localização e a respectiva função geradora:
i) X ∼ N (µ, σ 2 ), com σ conhecido.
ii) X ∼ Cauchy(µ, σ), com σ conhecido, i.e.,

σ
fX (x) = 1R (x).
π [σ 2 + (x − µ)2 ]
iii) X ∼ tk (µ, σ), com k e σ conhecidos, i.e.,

 −(k+1)/2
x−µ 2
1  σ 
fX (x) = √ 1 +  1R (x).
kB(1/2, k/2)σ k
iv) X ∼ Laplace(µ, σ), com σ conhecido, i.e.,

1 − |x−µ|
fX (x) = e σ 1R (x).
2σ
48.(Famı́lia de escala) Seja Fθ = {f (·; θ), θ ∈ R} uma famı́lia de densidades. O parâmetro

θ é definido ser um parâmetro de escala se e somente se a densidade f (x; θ) poder ser escrita
da forma f (x; θ) = θ −1 g(x/θ), com g uma função conhecida, denominada de função geradora.
Adicionalmente, diz-se que a densidade f (·; θ) (ou a V.A. associada) é um membro da famı́lia de
escala. Mostre que as seguintes V.A’s pertencem à famı́lia de escala, identificando o parâmetro
de escala e a respectiva função geradora:
i) X ∼ U (−θ, θ).
ii) X ∼ exp(λ).
iii) X ∼ N (µ, σ 2 ), com µ conhecido.
iv) X ∼ tk (µ, σ), com k e µ conhecidos.
v) X ∼ Laplace(µ, σ), com µ conhecido.
49.(Famı́lia de localização-escala) Seja Fθ = {f (·; θ1 , θ2 ), θ1 ∈ R, θ2 > 0} uma famı́lia de densi-

dades. Os parâmetros θ1 e θ2 são definidos, respectivamente, parâmetros de localização e de escala
se e somente se a densidade f (x; θ1 , θ2 ) poder ser escrita da forma f (x; θ) = θ2−1 g((x − θ1 )/θ2 ),
com g uma função conhecida, denominada de função geradora. Adicionalmente, diz-se que a den-
sidade f (·; θ1 , θ2 ) (ou a V.A. associada) é um membro da famı́lia de localização-escala. Mostre
que as seguintes V.A’s pertencem à famı́lia de localização-escala, identificando os parâmetros de
localização e de escala, e a respectiva função geradora:
i) X ∼ N (µ, σ 2 ).
ii) X ∼ tk (µ, σ), com k conhecido.
iii) X ∼ Laplace(µ, σ).
iv) X ∼ Logı́stica(µ, σ), i.e.,

x−µ
e−( σ )
fX (x) = n x−µ o2 1R (x)
σ 1 + e−( σ )
50.(Distribuições simétricas) Considere X uma variável aleatória com suporte em R, com parâmetro
de localização µ ∈ R e de escala φ > 0. Dizemos que X pertence a famı́lia de distribuições
simétricas, se sua densidade é escrita da seguinte forma
( )
1 (x − µ)2
fX (x) = √ g 1R (x),
φ φ
para alguma função g(·) denominada função geradora de densidades, com g(u) > 0 se u > 0
R∞
e 0 u−1/2 g(u)du = 1. Mostre que as seguintes V.A’s pertencem à famı́lia de de distribuições
simétricas, identificando o parâmetro de localização o de escala e a respectiva função geradora:
i) X ∼ N (µ, σ 2 ).
ii) X ∼ Cauchy(µ, σ).
iii) X ∼ tk (µ, σ), com k conhecido.
iv) X ∼ Logı́stica(µ, σ).
Sugestão de leitura: Para maiores detalhes sobre esta classe de distribuições, bem como de
aplicações em modelos de regressão veja: Cysneiros, F.J., Paula, G.A. e Galea, M. (2007). Modelos
simétricos aplicados. ABE, 9a Escola de Modelos de Regressão, Águas de São Pedro-SP, Brasil.
51.(Famı́lia exponencial) Considere X uma variável aleatória com suporte em A ⊂ R funcional-

mente independente de θ. Dizemos que X pertence a famı́lia exponencial unidimensional de
parâmetro θ , denotada por X ∼ FE(θ), se sua densidade é escrita da seguinte forma
fX (x; θ) = exp{η(θ)T (x) − A(θ)}h(x)1X (x),
em que X não depende de θ e η(θ) e T (x) são funções contı́nuas não-triviais. Mostre que as
seguintes variáveis aleatórias pertencem à famı́lia exponencial, identificando o parâmetro θ e as
funções T (x), A(θ) e h(x):
i) X ∼ B(p), 0 < p < 1.
ii) X ∼ B(n, p) com n ∈ N conhecido e 0 < p < 1.
iii) X ∼ P(λ), λ > 0.
iv) X ∼ G(p), 0 < p < 1.
v) X ∼ BN(r, p) com n ∈ N conhecido e 0 < p < 1.
vi) X ∼ Logarı́tmica(p) com 0 < p < 1, i.e., com respectiva função de probabilidade
px
P(X = x) = 1 (x).
− log(1 − p)x {1,2,...}
vii) X ∼ Γ(r, λ) com r, λ > 0, r conhecido.
viii) X ∼ N (µ, 1) com µ ∈ R e σ > 0 conhecido.
ix) X ∼ N (µ, σ 2 ) com µ ∈ R conhecido e σ > 0.
x) X ∼ β(a, b) com um dos parâmetros conhecido.

xi) X ∼ Weibull(b, a), com a > 0 e b > 0 conhecido, i.e., com respectiva densidade
b
fX (x) = abxb−1 e−ax 1R+ (x).
xii) X possuindo distribuição secante hiperbólica generalizada de parâmetro θ > 0, i.e., com
respectiva densidade

1 πx
fX (x) = exp(θx + ln cos(θ)) cosh 1R (y).
2 2
∂A(η(θ)) ∂ 2 A(η(θ))
52. Mostre que se X ∼ FE(θ), então E[T (X)] = ∂η(θ) e Var[T (X)] = ∂ 2 η(θ)
.
Sugestão: Usando o fato que fX (x; θ) é uma legı́tima função densidade de probabilidade, i.e.:
Z
exp{η(θ)T (x) + c(x)}dx = exp{A(θ)} = exp{A(η(θ))},
A
e use essa identidade para mostrar que a função geradora de momentos (sob condições de regu-
laridade) de Y = T (X) é dada por
MY (t) = exp{A(η(θ) + t) − A(η(θ))}.
53. Os dados abaixo referem-se a resistência à flexão (MPa) de 27 vigas de um tipo de concreto
de alto desempenho obtidos pela utilização de superplásticos e determinados adesivos.
Tabela 1: Resistência à flexão (em MPa) de 27 vigas.

5,9 7,2 7,3 6,3 8,1 6,8 7,0
7,6 6,8 6,5 7,0 6,3 7,9 9,0
8,2 8,7 7,8 9,7 7,4 7,7 9,7
7,8 7,7 11,6 11,3 11,8 10,7
i) Defina a variável de interesse (X).
ii) Calcule uma estimativa pontual do valor médio (µ) da resistência para a população con-
ceitual de todas as vigas fabricadas dessa forma e diga qual estimador você utilizou.
iii) Calcule uma estimativa pontual do valor da resistência que separa as 50% mais fracas de
todas as vigas 50% mais fortes (µ
e) e diga qual estimador você utilizou.
iv) Calcule e interprete uma estimativa pontual do desvio-padrão da população σ. (Sugestão:
P27 2
i=1 xi = 1860, 94.)
v) Calcule uma estimativa pontual da proporção de todas as vigas cuja resistência à flexão
exceda a 10 MPa.
vi) Calcule uma estimativa pontual do coeficiente de variação σ/µ da população e diga qual
estimador você utilizou.
54. Os pesos das peças produzidas por uma máquina (produção de 5.000 peças/dia) seguem
distribuição normal com uma média de 22g e desvio padrão de 1,25g. Foi coletada 50 amostras,
de 16 peças cada uma.
i) Determine a média e o desvio padrão da distribuição das médias amostrais.
ii) Em quantas amostras pode-se esperar que a média se encontre entre 19,3 e 20,5g? e abaixo
de 19g?
iii) Qual a probabilidade de encontrarmos uma peça escolhida dessa produção com dimensão
entre 19,3g e 20,5g?
55. Considere X uma variável aleatória com distribuição normal, com média 100 e desvio-padrão
10.
i) Qual a P(90 < X < 110)?
ii) Se X representar a média de uma amostra aleatória de 16 elementos retirados dessa po-
pulação, calcule P(90 < X < 110).
2 , calcule E[S 2 ].
iii) Denotando a variância amostral por SX X
iv) Represente, num único gráfico, as distribuições de X e X̄.
v) Que tamanho deveria ter a amostra para que P(90 < X < 110) = 0, 95?
56. Encontre a distribuição amostral da diferença de médias nas seguintes situações:
i) Populações normais com variâncias desconhecidas iguais e amostras independentes.
ii) Populações normais com variâncias desconhecidas diferentes e amostras independentes.

iii) Populações normais com variâncias desconhecidas diferentes e amostras dependentes.
57. Considere dois estimadores (θ̂1 e θ̂2 ) para um determinado parâmetro populacional θ. Para
ajudar a escolher o melhor, simulou-se uma situação em que θ = 100. Dessa população retiraram-
se 1.000 amostras de dez unidades cada uma, e obtemos ambas as estimativas usando às dez
unidades de cada amostra. Desse modo obtêm-se 1.000 estimativas baseadas em θ̂1 e outras 1.000
estimativas baseadas em θ̂2 , cujos estudos descritivos estão resumidos abaixo. Qual dos dois
estimadores você acha mais conveniente para estimar θ. Por quê?
θ̂1 θ̂2
Média 102 100
Variância 5 10
Mediana 100 100
Moda 98 100
58. Um pesquisador está em dúvida sobre dois possı́veis estimadores θ̂1 e θ̂2 , para um parâmetro
θ. Assim, ele decidiu usar simulação para uma situação hipotética, procurando encontrar pistas
que o ajudassem a decidir qual o melhor estimador. Partindo de uma população fictı́cia, em que
θ = 10, ele retirou 1000 amostras de 20 elementos, e para cada amostra calculou o valor das
duas estimativas. Em seguida, construiu a distribuição de frequências, segundo o quadro abaixo.
Com base nesses resultados, escolha (justificando o motivo) qual dos dois estimadores deve ser
preferı́vel.
Classes % de θ̂1 % de θ̂2

[5, 7) 10 5
[7, 9) 20 30
[9, 11) 40 35
[11, 13) 20 25
[13, 15) 10 5
59. Sejam X1 , . . . , Xn uma amostra aleatória de tamanho n da distribuição de uma variável

aleatória X ∼ U (0, θ), θ > 0. Considere os estimadores θ̂1 = c1Xn e θ̂2 = c2 X(n) , em que
X(n) := max{X1 , · · · , Xn }.
i) Determine o espaço paramétrico referente ao modelo estatı́stico em questão.

ii) Encontre c1 e c2 que tornam os estimadores não viciados.
iii) Considere a seguinte amostra aleatória de tamanho 20: 3.59,3.13,3.30,0.30,1.54,0.40,

3.94,1.33,3.36,0.18,3.29,1.50,0.32,1.03,0.95,0.37,3.65,3.44,1.05,2.60. Basea-
do nos estimadores não viciados obtidos no item ii), obtenha as estimativas pontuais e dos
seus respectivos erros-padrão.
60. Para estimar a média µ de uma população, foram propostos dois estimadores não-viesados
independentes µ̂1 e µ̂2 , de tal sorte que Var[µ̂1 ] = Var[µ̂2 ]/3. Considere os seguintes estimadores
ponderados de µ:
µ̂1 +µ̂2
a) T1 = 2 .
4µ̂1 +µ̂2
b) T2 = 5 .
c) T3 = µ̂1 .
i) Quais estimadores são não-viesados?
ii) Dispor esses estimadores em ordem de eficiência.
iii) Considerando a consistência de que µ̂1 e µ̂2 são estimadores consistentes, mostre que os 3
estimadores acima também são.
61. Considere X ∼ P(θ) e φ(θ) = exp(−3θ). Mostre que T = (−2)X é um estimador não viciado
para φ(θ). Ele é um bom estimador?
62. Para estimar a média µ de uma população, foram propostos dois estimadores não-viesados
µ̂1n e µ̂2n , de tal sorte que Var[µ̂1n ] = Var[µ̂2n ]/2 e Cov(µ̂1n , µ̂2n ) = (2n)−1 . Considerando que
µ̂2n é um estimador consistente de µ.
i) Mostre que o estimador µ̂1n também é consistente para µ.
ii) Mostre que o estimador Tn (α) = αµ̂1n + (1 − α)µ̂2n , α ∈ (0, 1), é consistente para µ.
iii) Determine o EQM(Tn (α)) e desenhe o seu gráfico em função de α e encontre o valor de α
que minimiza EQM(Tn (α)).
63. Seja X1 , . . . , Xn uma a.a. de uma variável aleatória a.c. que possui densidade simétrica em
torno de µ. É possı́vel mostrar que a distribuição assintótica da mediana amostral X̃n é tal que

1
X̃n ∼ AN µ, . (1)
4n{f (µ)}2
i) Compare Var(Xn ) e Var(X̃n ) quando a distribuição subjacente for a normal. Você esperava
este resultado? Comente.
ii) Quando a distribuição subjacente for a Cauchy, a média amostral será um bom estimador?
Quanto vale a variância assintótica de X̃n ?
64. Através de um estudo de simulação, verifique a validade, variando o tamanho da amostra, do

resultado (1) para as distribuições: Normal, Cauchy, t-Student (variando os g.l.) e Laplace.
iid
65. Considere X1 , . . . , Xn ∼ X. Obtenha as distribuições assintóticas da média e mediana
amostrais, quando:
i) X ∼ N (µ, σ 2 ).
ii) X ∼ tk (µ, σ), com k > 2 conhecido.
iii) X ∼ Laplace(µ, σ).
iv) X ∼ Logı́stica(µ, σ).
Para cada um dos itens acima, discuta qual estimador deve ser preferı́vel para estimar o parâmetro
de localização.
iid
66. Sejam X1 , . . . , Xn ∼ P(θ). Sabemos que Xn e Sn2 são dois estimadores não viciados para θ.
Encontre um outro estimador não viciado para θ que seja função de Xn e Sn2 simultaneamente.
67*. Sejam (X1 , Y1 ) . . . , (Xn , Yn ) uma a.a. de uma distribuição normal bivariada com parâmetros
µ1 , µ2 , σ12 , σ22 e ρ. Assuma que µ1 = µ2 = µ e considere a seguinte classe de estimadores
µ̂(α) := αXn + (1 − α)Y n .
i) O estimador µ̂(α) é consistente?
ii) Determine o valor α = α0 que minimiza a variância do estimador µ̂(α) e considere o esti-
mador
µ̂(α0 ) := α0Xn + (1 − α0 )Y n .
Mostre que se σ1 = σ2 , o BLUE (melhor estimador linear não viciado ) de µ é dado por
Xn + Y n
µ̂ = .
2
iid
68. Sejam X1 , . . . , Xn ∼ (µ, σ 2 ). Mostre que o desvio-padrão amostral é um estimador viciado
de σ. Note que é preciso apenas mostrar que E[Sn ] 6= σ, não importando o valor exato.
69. Considere X1 , . . . , Xn uma a.a. da distribuição exponencial truncada à esquerda de θ
fX (x) = e−(x−θ) 1[θ,∞)(x).
Mostre que X(1) = min{X1 , . . . , Xn } é um estimador consistente de θ.
70. Considere a questão anterior. Determine um estimador não viciado de θ que seja função de
X(1) .
71. Sejam X1 , . . . , Xn uma amostra aleatória de tamanho n da distribuição N (0, σ 2 ). Seja

n
X
2 :=
Sn∗ Xi2 . Considere os estimadores da forma:
i=1
σ̂c2 := cSn∗
2
.

2
Sn∗
ii) Mostre que σ2 ∼ χ2n .
iii) Encontre o EQM(σ̂c2 ) .
iv) Encontre o valor de c que minimiza o EQM em iii).
72. Sejam X1 , . . . , Xn uma amostra aleatória de tamanho n da distribuição N (µ, σ 2 ). Seja

n
X n
X
2
Sn2 := (Xi − X̄n ) , em que X̄n = n−1 Xi . Considere os estimadores da forma:
i=1 i=1
σ̂c2 := cSn2 .
ii) Encontre o EQM(σ̂c2 ) .
iii) Encontre o valor de c que minimiza o EQM em ii).

73*. Sejam Y1 , . . . , Yn variáveis aleatórias independentes, tais que Yi ∼ N (α + βxi , σ 2 ), em que
n
X
os valores de xi não são estocásticos, satisfazendo (xi − x̄n )2 > 0.
i=1
i) Mostre que
n
X
(xi − xn )Yi
i=1
β̂ = n e α̂ = Y n − β̂xn .
X
2
(xi − xn )
i=1
são estimadores não viciados de β e α, respectivamente.
ii) Mostre que α̂ pode ser reescrito como uma combinação linear das variáveis Yi′ s, i.e.
n
X
α̂ = ci Yi .
i=1
iii) Sob a suposição de normalidade, encontre a distribuição conjunta dos estimadores.
iv) Mostre que β̂(α̂) é o BLUE de β(α).
v) Forneça uma condição suficiente para que os estimadores α̂ e β(α) sejam consistentes.
iid
74. Considere X1 , . . . , Xn ∼ (µ, σ 2 ). Mostre que
Xn
2
µ̂ := iXi ,
n(n + 1) i=1
é um estimador não viciado e fracamente consistente de µ.

iid
75. Seja X1 , . . . , Xn ∼ X, em que
fX (x) = e−(x−θ) 1(θ,∞) (x).
Considere a classe dos estimadores
Tb (X(1) ) = X(1) + b, b ∈ R.
Mostre que o estimador que possui o menor EQM nesta classe é T ∗ = X(1) − 1/n.
76. Considere que x1 , . . . , xn são valores fixos e que as observações de interesse y1 , . . . , yn seguem
o seguinte modelo de regressão: yi = β0 + β1 xi + ei , i = 1, . . . , n com e1 , . . . , en representando uma
amostra aleatória da distribuição N (0, σ 2 ). Determine o espaço paramétrico e vetor de estatı́sticas
suficientes para os parâmetros do modelo, quando:
i) σ é conhecido.
ii) σ é desconhecido.
iid
77. Seja X1 , . . . , Xn ∼ X, com X representando uma variável aleatória com média µ e variância
σ2 .
" n
#
X
i) Mostre que E ai Xi = µ, para quaisquer conjunto de constantes {a1 , . . . , an }, satis-
i=1
n
X
fazendo ai = 1.
i=1
n
" n #
X X
ii) Se ai = 1, mostre que Var ai Xi é minimizada quando ai = 1/n, i = 1, . . . , n, i.e.,
i=1 i=1
X̄n é o ENVVUM de µ.
n
X n
X n
X
Sugestão: Mostre que a2i = (ai − 1/n)2 + 1/n quando ai = 1.
i=1 i=1 i=1
iid iid
78. Sejam X1 , . . . , Xn e Y1 , . . . , Ym variáveis aleatórias independentes com Xi ∼ N (θ, σ 2 ) e Yj ∼ N (λ, τ 2 ),
θ, λ ∈ R, σ, τ > 0. Encontre estatı́sticas suficientes minimais para os casos abaixo:
i) Todos os parâmetros desconhecidos.
ii) θ = λ e σ, τ são desconhecidos.
iii) σ = τ e θ, λ são desconhecidos.
iv) θ = λ e σ = τ são desconhecidos.
Em quais das situações acima a estatı́stica encontrada também é completa?
79. Admita que (X1 , Y1 ), . . . (Xn , Yn ) são vetores aleatórios iid com distribuição normal bivariada
com E[X1 ] = E[Y1 ] = 0, Var[X1 ] = Var[Y1 ] = 1 e Cov(X1 , Y1 ) = ρ.
i) Encontre uma estatı́stica suficiente minimal para o modelo.
ii) Mostre que as estatı́sticas T1 = Xn e T2 = Y n são ancilares, mas o vetor (T1 , T2 )⊤ não é.
aa
80. Considere X1 , . . . , Xn ∼ U (0, θ), θ > 0. Considere X(n) = max{X1 , . . . , Xn }.
i) Dentre todos os estimadores da forma aX(n) , com a representando uma constante que pode
depender de n, determine o estimador que possui o menor EQM.
ii) Encontre o ENVVUM de θ. Nesse caso, o ENVVUM de θ pode ser eficiente? Justifique.
iii) Qual dos dois estimadores deve ser preferı́vel? Justifique.
aa 2x
81. Considere X1 , . . . , Xn ∼ X, tal que fX (x) = 1
θ 2 (0,θ)
(x), Θ = R+ .
i) Encontre uma estatı́stica suficiente e completa para θ.
ii) Existe alguma função de θ para o qual existe um estimador não viciado cuja variância
coincide com o LICR(θ)?
iii) Determine LICR(θ).
Sugestão: Verifique se as condições de regularidade são válidas para esse modelo.
iv) Determine o ENVVUM de θ.
aa
82. Considere X1 , . . . , Xn ∼ X, com X representando uma variável aleatória qualquer. Considere
que o interesse é estimar a função de distribuição de X em um ponto x ∈ R, i.e., estimar FX (x).
Mostre que
n
X
1
i) A função distribuição empı́rica, F̂n (x) := n 1(Xi ≤ x) é tal que E[F̂n (x)] = FX (x),
i=1
∀x ∈ R.
ii) Assuma que a estatı́stica T (x) = (X(1) , . . . , X(n) ) é suficiente e completa para o modelo em
2 é
questão. Prove que F̂n (x) é o ENVVUM de FX (x), Xn é o ENVVUM de µ = E[X] e SX
o ENVVUM de σ 2 = Var[X].
83. Sejam (X1 , Y1 ), . . . , (Xn , Yn ) uma amostra aleatória das distribuições consideradas a seguir.
Encontre estatı́sticas suficientes não triviais para os parâmetros indicados.
i) (X, Y ) ∼ Trinomial(n, p1 , p2 ), i.e.,

!
n
P(X = x, Y = y) = px py (1 − p1 − p2 )n−x−y 1{0,...,n} (x)1{0,...,n−x} (y),
x, y 1 2
n n!
n ∈ N conhecido, 0 < p1 , p2 < 1 e 0 < p1 + p2 < 1, em que x,y = x!y!(n−x−y)! .
β α+γ α−1 (y
ii) f (x, y/θ) = Γ(α)Γ(γ) x − x)γ−1 e−βy 1(0 < x < y), θ = (α, β, γ).
iii) (X, Y ) ∼ Dirichlet(α1 , α2 , α3 ), i.e.,
3
!
X
Γ αi
i=1
f (x, y/α1 , α2 , α3 ) = 3
xα1 −1 y α2 −1 (1 − x − y)α3 −1 1(0,1) (x)1(0,1−x) (y),
Y
Γ(αi )
i=1
αi > 0, i = 1, 2, 3.
iv) (X, Y ) ∼ N2 , i.e.,
( " 2
1 1 x − µ1 x − µ1
f (x, y/θ) = p exp − − 2ρ
2πσ1 σ2 1 − ρ2 2(1 − ρ2 ) σ1 σ1
2 #)
y − µ2 y − µ2
× + 1R2 (x, y),
σ2 σ2
em que θ = (µ1 , µ2 , σ1 , σ2 , ρ)⊤ .
84. Considere que x1 , . . . , xn são valores fixos e que as observações de interesse y1 , . . . , yn seguem
o seguinte modelo de regressão: yi = β0 + β1 xi + ei , i = 1, . . . , n com e1 , . . . , en representando uma
amostra aleatória da distribuição N (0, σ 2 ). Determine o espaço paramétrico e vetor de estatı́sticas
suficientes minimais e completas para os parâmetros do modelo, quando:
i) σ é conhecido.
ii) σ é desconhecido.
85. Faça um resumo sobre o método dos momentos (MM) e o método de máxima verossimilhança
(MV), evidenciando vantagens e desvantagens, além das principais propriedades. Por qual razão
o EMV é o mais utilizado?
aa
86. Considere X1 , . . . , Xn ∼ N (0, θ), θ ∈ R++ .
i) Calcule IF (θ).
ii) Mostre que o EMV de θ é eficiente.
87. (Prova seleção IME-USP, 2016) Considere X uma v.a. a.c. com função densidade de proba-
bilidade dada por
θ
fX (x|θ) = 1 (x), θ > 0,
x2 [θ,∞)
iid
e assuma que X1 , . . . , Xn ∼ X.
i) Determine uma estatı́stica suficiente minimal para θ.
ii) Determine o EMM e EMV de θ.
iii) Qual dos dois estimadores deve ser preferido? Justifique.
iv) Existe alguma função de θ para o qual existe um estimador não viciado cuja variância
coincide com o LICR ? Justifique sua resposta.
88. Considere X1 , . . . , Xn uma a.a. da distribuição N (µ, 1), µ ≥ 0. Encontre o EMV de µ.
89. Considere X1 , . . . , Xn uma a.a. da distribuição N (µ, σ 2 ).
i) Mostre que os parâmetros são ortogonais. O que isso facilita no processo de estimação?
ii) Determine a distribuição assintótica conjunta de (µ̂, σ̂ 2 )⊤ , com θ̂ representando o EMV de

θ.
90. Considere Y1 , . . . , Yn independentes, tais que Yi ∼ N (βxi , σ 2 ), xi conhecido.
i) Determine os EMV de β e σ 2 .
ii) Os parâmetros são ortogonais? Você esperaria esse resultado? Justifique.
ii) Determine a distribuição assintótica conjunta de (β̂, σ̂ 2 )⊤ .
91*. Admita que (X1 , Y1 ), . . . (Xn , Yn ) são vetores aleatórios iid com distribuição normal bivariada
com E[X1 ] = E[Y1 ] = 0, Var[X1 ] = Var[Y1 ] = 1 e Cov(X1 , Y1 ) = ρ.
i) Determine o EMM e o EMV de ρ.
ii) Repita o item i) considerando uma amostra de vetores aleatórios iid com distribuição normal
bivariada de vetor de média µ e matriz de variância covariância Σ.
92. Defina:
i) Estatı́stica, estimador, estimativa, estimação e parâmetro.

ii) Faça uma comparação entre intervalo de confiança e teste de hipóteses, abordando os obje-
tivos de cada técnica. Qual a grande vantagem de se fazer um teste de hipóteses com relação
a construção de um IC?
93. Faça um breve resumo sobre:
i) O método da quantidade pivotal para obtenção de intervalos de confiança.
ii) A obtenção de intervalos de comprimento mı́nimo.
94. Considere X1 , . . . , Xn uma a.a. de uma densidade f (·). Mostre que se f (·) pertence a famı́lia
de:
i) Localização, então T = X − θ é uma quantidade pivotal.
ii) Escala, então T = X/θ é uma quantidade pivotal.
iii) Localização (θ1 ) e escala (θ2 ), então T = (X − θ1 )/θ2 é uma quantidade pivotal.
95. Sejam X1 , . . . , Xn uma amostra aleatória da distribuição exponencial de média θ, θ > 0.

n
X
i) Usando o fato de que Y = 2θ −1 Xi ∼ χ2(2n) , construa um intervalo de confiança para θ
i=1
com coeficiente de confiança 1 − α (0 < α < 1) baseado na quantidade pivotal Y .
ii) Mostre que
√ √ !
nX̄n nX̄n
√ ,√ ,
n + z1−α/2 n − z1−α/2
é um intervalo de confiança assintótico para θ com coeficiente de confiança aproximadamente
igual a 1 − α (0 < α < 1). Aqui, z1−α/2 representa o quantil de ordem 1 − α/2 da normal
padrão, i.e., z1−α/2 = Φ−1 (1 − α/2).
96. Os dados abaixo referem-se as notas de uma amostra de 45 estudantes da aprazı́vel disciplina
de Inferência II no ano de 2017.
i) Faça uma análise descritiva dos dados.
ii) Construa um intervalo de confiança de 95% para a nota mediana da turma.

Tabela 2: Notas de Introdução à Estatı́stica.
5,70 5,60 3,00 2,40 1,90 2,60 3,20 1,30 3,00 6,70
2,40 1,20 5,90 9,00 3,30 3,40 2,90 1,70 5,60 2,70
5,50 8,70 1,90 0,80 1,50 1,80 5,80 1,50 3,50 3,30
1,90 5,80 2,20 2,90 0,80 4,30 1,00 1,70 2,60 2,80
2,70 1,00 5,50 4,60 4,80
iii) Obtenha e desenhe o gráfico da função distribuição empı́rica das notas.
iv) Construa um intervalo de confiança para a probabilidade do aluno não ser reprovado direto,
i.e., tenha nota maior ou igual a 4.
v) Através do gráfico de quantis-quantis, verifique se é razoável supor normalidade (use a média

e a variância amostral, como os verdadeiros parâmetros da distribuição normal).
vi) Para responder os itens ii) e iv) você fez alguma suposição? Caso tenha feito, é razoável
considerá-la verdadeira para o problema em questão? Discuta.
iid
97. Considere X1 , . . . , Xn ∼ N (µ, σ 2 ), com σ > 0 conhecido. Encontre o melhor IC de nı́vel
(1 − α) usando o método da quantidade pivotal.
98. Repita o exercı́cio anterior na situação em que σ é desconhecido.

iid
99. X1 , . . . , Xn ∼ N (µ, σ 2 ), com σ > 0 desconhecido. Encontre um IC para σ 2 de nı́vel (1 − α)
usando o método da quantidade pivotal quando:
i) µ é conhecido.
ii) µ é desconhecido.
100. Sejam Xi1 , . . . , Xini observações independentes de distribuições normais de médias µi e

variância σi2 , para i = 1, 2, µ1 , µ2 ∈ R, σ1 , σ2 > 0. Obtenha o intervalo de confiança de compri-
mento mı́nimo para µ1 − µ2 com coeficiente de confiança confiança γ (0 < γ < 1) supondo que as
variâncias são conhecidas.
101. Na questão anterior, considerando que as variâncias são desconhecidas, obtenha um intervalo
de confiança para σ12 /σ22 com coeficiente de confiança confiança γ (0 < γ < 1).
102. Repita o Exercı́cio 100 supondo agora que as variâncias são desconhecidas mas iguais, i.e.
σ12 = σ22 = σ 2 .
103. Sejam X1 , . . . , Xn observações independentes de distribuições exponenciais de médias αβ i ,i =

1, . . . , n, respectivamente, α, β > 0.
Xi
i) Mostre que αβ i
∼ exp(1).
ii) Supondo que β é conhecido, construa um intervalo de confiança para α com coeficiente de
confiança confiança γ (0 < γ < 1).
104. Sejam X1 , . . . , Xn observações independentes de distribuições uniformes no intervalo [0, θ],

em que θ > 0.
X(n)
i) Mostre que θ é uma quantidade pivotal.
ii) Mostre que

X(n) X(n)
1/n
, ,
(1 − α/2) (α/2)1/n
é um intervalo de confiança para θ com coeficiente de confiança 1 − α (0 < α < 1).
iii) Encontre o IC ótimo para θ de nı́vel (1 − α) usando o método da quantidade pivotal com
base na estatı́stica suficiente completa e minimal X(n) .
105. Considere X uma única observação da densidade
fX (x; θ) = θxθ−1 1(0,1) (x), θ > 0.
i) Determine uma quantidade pivotal e com base nela, determine um IC para θ com coeficiente
de confiança 1 − α (0 < α < 1).
ii) Considere Y := −1/ ln X. Mostre que (Y /2, Y ) é um intervalo de confiança para θ. Deter-
mine o coeficiente de confiança associado a este intervalo.
iii) Encontre o IC ótimo para θ de nı́vel (1 − α) com base em Y .
iid
106. X1 , . . . , Xn ∼ Cauchy(µ, 1). Encontre um IC para µ de nı́vel (1 − α):
28
i) Baseado na distribuição exata de Xn . Neste caso, encontre o intervalo de comprimento
mı́nimo exato.
ii) Baseado na distribuição assintótica do EMV de µ, encontrando o intervalo de comprimento

mı́nimo assintótico.
iii) Em que situação cada intervalo deve ser preferı́vel ao outro? Por quê?
iv) Realize um estudo de simulação para ajudar a responder a pergunta do item anterior.
107. Explique os erros tipo I e tipo II que podem ocorrer nas seguinte situações:
i) Um júri decide condenar ou não o réu.
ii) O juiz marcou penalidade máxima contra o time azul.
108. (Gráfico do poder do teste) Define-se como gráfico do poder do teste para um deter-
minado teste de hipóteses, a curva que expressa o comportamento do poder (1 − β) em função
das diversas hipóteses alternativas H1 , fixando-se o nı́vel de significância α. Desenhe o gráfico do
poder do teste para H0 : µ = 10 versus H1 : µ 6= 10, em que n = 9, σ 2 = 4 e α = 0, 05. Para
simplificar, assuma normalidade da população e admita: 7,0; 7,5; 8,0; 8,5; 9,0; 9,5; 10,00; 10,5;
11,0; 11,5; 12,0; 12,5 e 13,0 como possı́veis valores de µ.
109. Refaça a questão anterior, considerando diferentes tamanhos de amostras, por exemplo,
n = 20 e n = 30. Desenhe as três curvas em um mesmo gráfico e comente.
110. Considere X1 , . . . , Xn uma a.a. da distribuição Laplace(µ, 1). Obtenha o teste da razão de
verossimilhanças generalizada para H0 : µ = 0 vs H1 : µ 6= 0 ao nı́vel α. Estime empiricamente o
tamanho e o poder do teste utilizando os valores µ = 0, ±0.2, ±0.4, ±0.6, ±0.8, ±1.2, ±1.4, ±1.6, ±1.8.
Plote a curva da função poder empı́rica. Considere n = 5, 10, 15, 20, 30 e 50 e discuta os resultados.
111. Considere que o interesse é testar a hipótese H0 : µ = µ0 , com σ conhecido e sob suposição
de normalidade. Mostre que a probabilidade do erro tipo II para um teste de nı́vel α, para os
diferentes tipos de hipóteses alternativas, são dadas por:
Hipótese Probabilidade do erro tipo II

′

µ0 −µ
H1 : µ = µ′ > µ0 Φ zα + σ/
√
n
′

H1 : µ = µ′ < µ0 1 − Φ −zα + µσ/0 −µ √
n
′
′

H1 : µ = µ′ 6= µ0 Φ zα/2 + µσ/0 −µ
√
n
− Φ −z α/2 + µ0 −µ
√
σ/ n
,
em que Φ(z) = P(Z ≤ z) e zα = Φ−1 (α) representam, respectivamente, a função distribuição
acumulada e o quantil de ordem α ∈ (0, 1) da distribuição N (0, 1). Adicionalmente, mostre que
limn→∞ β(µ′ ) = 0, ∀µ′ 6= µ0 . Você consegue explicar este resultado?
112. De forma análoga a questão anterior, encontre a probabilidade do erro tipo II, quando o
interesse é testar H0 : µ = µ0 , com σ desconhecido e sob suposição de normalidade. Deixe a
resposta em termos da função distribuição acumulada da distribuição t com k graus de liberdade:
Φk (·).
113.(Determinação do tamanho da amostra) Em situações práticas é desejável controlar a proba-

bilidade de se cometer ambos os tipos de erros. Fixado α, temos que a probabilidade de se cometer
o erro tipo II é uma função decrescente do tamanho da amostra (Questões # 31 e # 32). Baseado
no resultado que você obteve na Questão # 33, mostre que o tamanho da amostra para o qual
um teste de nı́vel α possui probabilidade tipo II igual a β(µ′ ) (perceba que usamos o valor µ′
especificado) é dado por
Hipótese Tamanho da amostra

σ(zα +zβ ) 2
H1 : µ = µ′ > µ0 (µ′ < µ0 ) n= µ0 −µ ′ ,
em que ⌊x⌋, representa o menor número inteiro maior ou igual a x.

114. Para investigar a influência do tipo de ensino (Particular e Público, referente ao ultimo ano
do ensino médio) sobre a média no curso de Introdução à Estatı́stica de recém-ingressos na UFC,
obteve-se a seguinte amostra:
Tabela 3: Notas de 20 alunos no curso de Introdução à Estatı́stica.
Particular Público
2,5 8,0
7,8 4,2
3,5 7,4
8,3 4,0
5,0 4,1
3,9 5,6
6,0 5,5
10,0 6,0
9,1 5,2
2,5 3,3
i) Denotando as notas dos estudantes oriundos de escolas particulares (públicas) por x1 , . . . , x10
(y1 , · · · , y10 ) obtenha x̄, ȳ, s2x e s2y .
ii) Calcule σ̂ 2 = ((nx − 1)s2x + (ny − 1)s2y )/(nx + ny − 2), em que nx e ny , representam,
respectivamente, o número de alunos na amostra oriundos de escolas particulas e públicas.
iii) Recalcule x̄, ȳ, s2x , s2y e σ 2 , usando as formas matriciais apresentadas na Questão # 21.
iv) Considerando válida as suposições de Normalidade, independência e igualdade de variâncias,

utilize o teste t para verificar se existe evidência a favor da hipótese de que os alunos oriundos
de escolas particulares apresentam um melhor desempenho na disciplina.
115. (Uso de simulação para avaliar um teste de hipóteses) As seguintes hipóteses sobre a média
são consideradas H0 : µ = 1 vs H1 : µ 6= 1. Fixado um nı́vel de significância α, o teste irá a
rejeitar a hipótese nula α% das vezes, quando esta for verdadeira. Para estimar α empiricamente,
utilize o seguinte procedimento de simulação:
i) Gerar 10.000 amostras de tamanho 20 da distribuição N (1, 2).
ii) Para cada amostra gerada determinar as estatı́sticas apropriadas para o teste e realizar o
teste usando α = 0.05. Determine se a hipótese nula é ou não rejeitada.
iii) Determinar a porcentagem de amostras em que a hipótese nula é rejeitada, digamos α̂) e
comparamos com o verdadeiro valor α.
Você espera que α̂ = 0.05? Justifique.

Adicionalmente, para avaliar a função poder do teste no ponto µ 6= 1, você pode repetir o
processo acima, trocando o item i) por
i’) Gerar 10.000 amostras de tamanho 100 da distribuição N (µ′ , 2).
Estime empiricamente o poder do teste para µ = 0.2, 0.4, 0.6, 0.8, 1.2, 1.4, 1.6, 1.8. Comente os
resultados.
116. Estime empiricamente o nı́vel de significância do teste de hipóteses H0 : µ = 1 vs H1 : µ 6= 1,

quando você gera valores de uma distribuição χ21 (média 1 e variância 2) e use o teste obtido sob
normalidade. Comente os resultados.

Lista 0 MR

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Lista 0 MR

Enviado por

Direitos autorais:

Formatos disponíveis

Universidade Federal do Ceará

Departamento de Estatı́stica e Matemática Aplicada

Parte 1: Teoria das Matrizes

1. Considere x = (x1 , . . . , xn )⊤ um vetor de dimensão n × 1. Podemos definir a norma do vetor

iii) kcxk = |c| kxk.

iv) kx + yk ≤ kxk + kyk, ∀x, y ∈ Rn .

2. Considere x e y dois vetores reais de dimensão n×1. Prove a desigualdade de Cauchy-Scharwz:

(x⊤ y)2 ≤ (x⊤ x)(y⊤ y).

Em que ocasiões a igualdade é válida?

Considere A e B duas matrizes quadradas de ordem n e C e D duas matrizes de ordens m × n e

ii) tr(A + B) = tr(A) + tr(B).

iii) tr(CD) = tr(DC).

v) Considerando x um vetor de dimensão n × 1, mostre que kxk2 = tr(xx⊤ ).

4. Faça um resumo sobre:

ii) Decomposição de Cholesky.

iii) Decomposição em valor singular (decomposição SVD).

iv) Decomposição de Schur.

Sugestão: Utilize a decomposicão de Schur da matriz A.

6. Uma matriz quadrada A é dita ser idempotente se A2 = A. Considere A uma matriz

ii) Os autovalores de A são iguais a zero ou 1.

iii) In − A é idempotente e A(In − A) = (In − A)A = 0n , em que In e 0n representam,

Sugestão: Utilize a decomposicão de Schur da matriz A.

7. Mostre que se A⊤ A = A, então A é simétrica e idempotente.

8. Considere A e B duas matrizes de ordens n × m e p × q, respectivamente. O produto de

i) (aA) ⊗ (bB) = ab(A ⊗ B), para quaisquer escalares a, b.

vi) Para matrizes quadradas A e B: tr(A ⊗ B) = tr(A)tr(B).

vii) Se A e B são duas matrizes quadradas de ordens n e m, respectivamente, mostre que

iii) tr(A⊤ B) = vec(A)⊤ vec(B).

i) kAkF ≥ 0, ∀A ∈ MR (n, n) := MR (n).

iii) kcAkF = |c| kAkF .

iv) kA + BkF ≤ kAkF + kBkF , ∀A, B ∈ MR (n).

Considere X uma matriz n × p (n ≤ p) de posto completo. Mostre que

ii) X⊤ X é positiva definida.

iv) H = X(X⊤ X)−1 X⊤ é simétrica e idempotente.

14. Considere a matriz

i) Considerando X um escalar, determine para quais valores de X a matriz A é positiva

ii) Se X ∼ U (−2, 2), calcule a probabilidade da matriz A ser positiva definida.

iii) Repita o item ii), considerando que X ∼ N (0, 1).

Considere x = (x1 , . . . , xn )⊤ e a = (a1 , . . . , an )⊤ vetores reais de dimensão n × 1 e A uma matriz

16. Considere a função

g(β) = (y − Xβ)⊤ V−1 (y − Xβ),

em que y e β são vetores de dimensões n × 1 e p × 1 (n > p), respectivamente, X uma matriz

17. Mostre que a matriz In − Jn /n é simétrica, idempotente e não-negativa definida.

18. Faça um resumo sobre matriz de projeção.

19. Considere X uma matriz n × p (n ≤ p) de posto completo e considere a matriz de projeção

e a matriz de projeção H definida na questão anterior.

ii) Obtenha algebricamente o valor de hij , i, j = 1, · · · , n.

iii) Com base no item ii), mostre que n−1 ≤ hii ≤ 1, i = 1, · · · , n

21. Considere x = (x1 , . . . , xn )⊤ um vetor de n observações. Mostre que a média amostral e a

24. Faça um resumo sobre o método dos multiplicadores de Lagrange.

25. Apresente dois exemplos de aplicação do método dos multiplicadores de Lagrange.

Parte 2: Probabilidade e Inferência

26. Considere X1 e X2 V.A’s independentes. Encontre a distribuição condicional de X1 |X1 +X2 =

ii) Xi ∼ B(ni , p), i = 1, 2;

27. Usando o resultado da questão anterior e as propriedades da esperança e variância condicional,

E[SN ] = E[N ]E[X1 ] e Var[SN ] = Var[X1 ]E[N ] + (E[X1 ])2 Var[N ].

30. Considere X1 , . . . , Xn variáveis aleatórias definidas em um mesmo espaço de probabilidades

ii) Cov(Xi , Xj ) = Cov(Xj , Xi ).

iii) Cov(aXi , bXj ) = abCov(Xi , Xj ), para quaisquer constantes a e b.

iv) Para qualquer constante a, Cov(Xi , a) = 0.

v) Cov(X1 , X3 + X4 ) = Cov(X1 , X3 ) + Cov(X1 , X4 ).

vi) Cov(X1 + X2 , X3 + X4 ) = Cov(X1 , X3 ) + Cov(X1 , X4 ) + Cov(X2 , X3 ) + Cov(X2 , X4 ).

vii) Var(X1 + X2 ) = Var(X1 ) + Var(X2 ) + 2Cov(X1 , X2 ).