Você está na página 1de 30

Módulo II: Revisão

1. Distribuição Amostral

1.1 Distribuição Amostral da Média

Seja uma população identificada pela variável aleatória X, cujos parâmetros


média populacional 𝜇 = 𝐸(𝑋) e variância populacional 𝜎 2 = 𝑉𝑎𝑟(𝑋) são
supostamente conhecidos. Retira-se todas as amostras possíveis de tamanho
̅.
𝑛 dessa população e para cada uma delas, calcular a média X

Supõe-se a seguinte população {2, 3, 4, 5} com média 𝜇 = 3,5 e variância 𝜎 2 =


1,25. Vamos relacionar todas as amostras possíveis de tamanho 2, com
reposição, desta população.

(2,2) (2,3) (2,4) (2,5)

(3,2) (3,3) (3,4) (3,5)

(4,2) (4,3) (4,4) (4,5)

(5,2) (5,3) (5,4) (5,5)

Agora, calcula-se a média de cada amostra. Tem-se:

2,0 2,5 3,0 3,5

2,5 3,0 3,5 4,0

3,0 3,5 4,0 4,5

3,5 4,0 4,5 5,0

Por fim, vamos calcular a média das médias, ou seja,

2,0 + 2,5 + ⋯ + 5,0


𝐸(𝑋̅) = = 3,5
16

1
Agora, calcula-se a variância:
𝑛
1 1
𝑉𝑎𝑟(𝑋̅) = ∑(𝑋𝑖 − 𝑋̅)2 = (𝑋1 − 𝑋̅)2 + (𝑋1 − 𝑋̅)2 + ⋯ + (𝑋𝑛 − 𝑋̅)2
𝑛 𝑛
𝑖=1

1
𝑉𝑎𝑟(𝑋̅) = [(2,0 − 3,5)2 + (2,5 − 3,5)2 + ⋯ + (5,0 − 3,5)2 ]
𝑛

𝑉𝑎𝑟(𝑋̅) = 0,625

𝑉𝑎𝑟(𝑋)
Sendo assim, 𝑉𝑎𝑟(𝑋̅) = 𝑛 , em que 𝑛 é o tamanho das amostras retiradas

da população. No nosso exemplo,

𝑉𝑎𝑟(𝑋) 1,25
𝑉𝑎𝑟(𝑋̅) = = = 0,625
𝑛 2

Seja o caso de uma população Normal, isto é, a variável de interesse é


𝑋~𝑁𝑜𝑟𝑚𝑎𝑙(μ, σ2 ). Portanto, tem-se que (𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 ) representa uma amostra
aleatória cujos elementos são independentes, e identicamente distribuídos,
com densidade Normal de média μ e variância 𝜎 2 , ou seja:

𝑋𝑖 ~𝑁𝑜𝑟𝑚𝑎𝑙(𝜇, 𝜎 2 ), 𝑖 = 1, ⋯ , 𝑛;

𝑋𝑖 é 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑡𝑒 𝑑𝑒 𝑋𝑗 , 𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑜 𝑖 ≠ 𝑗.

Sabe-se que para quaisquer constantes 𝑎1 , 𝑎2 , ⋯ , 𝑎𝑛 , a combinação linear


∑𝑛𝑖=1 𝑎𝑖 também tem distribuição de probabilidade dada pelo modelo Normal. A
distribuição da média amostral segue diretamente deste resultado ao utilizar-se
1
𝑎𝑖 = 𝑛, para 𝑖 = 1, ⋯ , 𝑛. Assim, 𝑋̅~𝑁𝑜𝑟𝑚𝑎𝑙(μ𝑋̅ , σ𝑋2̅ ), e, com o auxílio das

propriedades da esperança e variância tem-se que:

μ𝑋̅ = 𝐸[𝑋̅] = μ;

1 2
σ𝑋2̅ = 𝑉𝑎𝑟[𝑋̅] = σ .
𝑛

Conclui-se que para uma coleção de variáveis aleatórias independentes com


uma mesma distribuição de probabilidade, dada por um modelo Normal com

2
média 𝜇 e variância 𝜎 2 , a média amostral 𝑋̅ também terá distribuição Normal,
𝜎2
com média 𝜇 e variância . Ou seja:
𝑛

𝜎2 𝑋̅ − 𝜇
𝑋̅~𝑁𝑜𝑟𝑚𝑎𝑙 (𝜇, ) ⟹ 𝑍 = 𝜎 ~𝑁𝑜𝑟𝑚𝑎𝑙(0, 1).
𝑛
√𝑛

Observação: Se a população é finita e de tamanho 𝑁 conhecido, e se a


amostra de tamanho 𝑛 dela retirada é sem reposição, então:

𝜎 𝑁−𝑛
σ𝑋2̅ = √ .
√𝑛 𝑁 − 1

𝑁−𝑛
Onde √𝑁−1 é o fator de correção para população finita.

Exemplo: Seja 𝑋1 , 𝑋2 , ⋯ , 𝑋25 uma amostra aleatória de uma variável aleatória 𝑋


tal que 𝑋~𝑁𝑜𝑟𝑚𝑎𝑙(80, 26). Calcule:

a. 𝑃(𝑋̅ > 83) = 0,001641;


b. 𝑃(𝑋̅ < 82) = 0,975002;
c. 𝑃(μ𝑋̅ − 2 σ𝑋̅ < 𝑋̅ < μ𝑋̅ + 2 σ𝑋̅ ) = 0,954500.

Exercício 1 (Lista 1): Seja 𝑋1 , 𝑋2 , ⋯ , 𝑋20 uma amostra aleatória de uma


variável aleatória 𝑋 tal que 𝑋~𝑁𝑜𝑟𝑚𝑎𝑙(100, 85). Calcule:

a. 𝑃(95 < 𝑋̅ < 105);


b. 𝑃(98 < 𝑋̅ < 102);

c. 𝑃 (μ𝑋̅ − Z𝛼⁄2 σ𝑋̅ < 𝑋̅ < μ𝑋̅ + Z𝛼⁄2 σ𝑋̅ ) = 0,95.

1.2. Teorema Central do Limite – TCL

Seja 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 uma amostra aleatória simples de tamanho 𝑛 de uma


população com média 𝜇 e variância 𝜎 2 (note que o modelo da variável aleatória

3
não é especificado), então a média amostral 𝑋̅ também terá distribuição
σ2
Normal, com média 𝜇 e variância , ou seja:
𝑛

𝜎2 𝑋̅ − 𝜇
𝑋̅~𝑁𝑜𝑟𝑚𝑎𝑙 (𝜇, ) ⟹ 𝑍 = 𝜎 ~𝑁𝑜𝑟𝑚𝑎𝑙(0, 1).
𝑛
√𝑛

Assista os seguintes vídeos para um melhor entendimento do TCL:


https://www.youtube.com/watch?v=XAuMfxWg6eI e
http://onlinestatbook.com/2/sampling_distributions/clt_demo.html .

Vídeo 1:

4
Vídeo 2:

Exercício 2 (Lista 1): Supõe-se que o consumo mensal de água por residência
em um certo bairro mineiro tem distribuição normal com média 10 e desvio
padrão 2 (em 𝑚3 ). Para uma amostra de 25 dessas residências, qual é a
probabilidade de a média amostral não se afastar da verdadeira média por
mais de 1 𝑚3 ?

Exercício 3 (Lista 1): Um fabricante afirma que produz em média 75


componentes por dia com desvio padrão de 10 componentes por dia. Para uma
amostra de 1 mês (25 dias úteis), qual a probabilidade de a média amostral
ficar entre 70 e 80 componentes dia? Se o fabricante estabelecer uma meta
média mensal de 80 componentes por dia, qual a probabilidade de ser
alcançada?

5
1.3. Distribuição Amostral da Proporção

Uma aplicação importante do TCL relaciona-se com a distribuição da proporção


amostral, que é definida como a fração dos indivíduos com uma dada
característica em uma amostra de tamanho 𝑛, isto é:

𝑛𝑜 𝑑𝑒 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜𝑠 𝑛𝑎 𝑎𝑚𝑜𝑠𝑡𝑟𝑎 𝑐𝑜𝑚 𝑑𝑎𝑑𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎


𝑝̂ = .
𝑛

Seja a proporção de indivíduos com a dada característica na população é 𝑝 e


que os indivíduos são selecionados aleatóriamente, tem-se assim que
𝑌1 , 𝑌2 , ⋯ , 𝑌𝑛 formam uma sequência de variáveis aleatórias independentes com
distribuição de Bernoulli, ou seja, 𝑌𝑖 ~𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖(𝑝). Desta forma:

𝑌𝑖 = 1 𝑠𝑒 𝑜 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜 𝑑𝑎 𝑝𝑜𝑝𝑢𝑙𝑎çã𝑜 𝑡𝑒𝑚 𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎


{
𝑌𝑖 = 0 𝑠𝑒 𝑜 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜 𝑑𝑎 𝑝𝑜𝑝𝑢𝑙𝑎çã𝑜 𝑛ã𝑜 𝑡𝑒𝑚 𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎

Logo, 𝑃(𝑌𝑖 = 1) = 𝑝, 𝑃(𝑌𝑖 = 0) = 1 − 𝑝, 𝐸[𝑌𝑖 ] = 𝑝, 𝑉𝑎𝑟[𝑌𝑖 ] = 𝑝(1 − 𝑝).

Pode-se reescrever a proporção amostral como:

𝑌1 + 𝑌2 + ⋯ + 𝑌𝑛 ∑𝑛𝑖=1 𝑌𝑖
𝑝̂ = = = 𝑌̅.
𝑛 𝑛

Logo, a proporção amostral é a média de variáveis aleatórias


convenientemente definidas. Calculando a esperança e variância de 𝑝̂ tem-se
que:

μ𝑝̂ = 𝐸[𝑝̂ ] = 𝑝;
𝑝(1 − 𝑝)
σ2𝑝̂ = 𝑉𝑎𝑟[𝑝̂ ] = ;
𝑛

Desta forma, pelo TCL:

𝑝(1 − 𝑝) 𝑝̂ − 𝑝
𝑝̂ ~𝑁𝑜𝑟𝑚𝑎𝑙 (𝑝, )⟹𝑍= ~𝑁𝑜𝑟𝑚𝑎𝑙(0, 1).
𝑛 𝑝(1−𝑝)

𝑛

Observação: Quando 𝑝 é desconhecida e a amostra com reposição é grande,


𝑥 𝑝̂(1−𝑝̂)
determina-se 𝑝̂ = 𝑛 e σ𝑝̂ ≈ √ . Para alguns autores e estatísticos, uma
𝑛

amostra é suficientemente grande quando 𝑛𝑝 ≥ 5 e 𝑛(1 − 𝑝) ≥ 5.

6
Exemplo: Em uma população, a proporção de pessoas favoráveis a uma
determinada lei é de 40%. Retira-se uma amostra de 300 pessoas dessa

população. Determine 𝑃 (𝑝 − Z𝛼⁄2 σ𝑝̂ < 𝑝̂ < 𝑝 + Z𝛼⁄2 σ𝑝̂ ) = 0,95.

𝑝(1−𝑝) 0,40(1−0,40)
Dado que 𝑛 = 300 e 𝑝 = 0,40, então σ𝑝̂ = √ =√ = 0,0283. Tem-
𝑛 300
se que Z2,5% = 1,96, então:

𝑃(0,4 − 1,96 × 0,0283 < 𝑝̂ < 0,4 + 1,96 × 0,0283) = 0,95

⟹ 𝑃(0,4 − 0,0555 < 𝑝̂ < 0,4 + 0,0555) = 0,95

⟹ 𝑃(0,3445 < 𝑝̂ < 0,4555) = 0,95

⟹ 𝑃(34,45% < 𝑝̂ < 45,55%) = 0,95

Exemplo: Deseja-se obter a proporção de estudantes de Economia e


Administração portadores de habilidades intrínsecas de gestão e liderança.
Retira-se uma amostra de 400 estudantes, obtendo-se 8 portadores de tais
habilidades. Determine um intervalo de confiança de 99% para a proporção
populacional.

𝑃 (𝑝̂ − Z𝛼⁄2 σ𝑝̂ < 𝑝 < 𝑝̂ + Z𝛼⁄2 σ𝑝̂ ) = 0,99

𝑥 8 𝑝̂(1−𝑝̂) 0,02(1−0,02)
Dado que 𝑛 = 400 e 𝑝̂ = 𝑛 = 400 = 0,02, então σ𝑝̂ ≈ √ =√ =
𝑛 400
0,007. Tem-se que Z0,5% = 2,57, então:

𝑃(0,02 − 2,57 × 0,007 < 𝑝 < 0,02 + 2,57 × 0,007) = 0,99

⟹ 𝑃(0,02 − 0,018 < 𝑝 < 0,02 + 0,018) = 0,99

⟹ 𝑃(0,002 < 𝑝̂ < 0,038) = 0,99

⟹ 𝑃(0,2% < 𝑝̂ < 3,8%) = 0,99.

7
1.4. Distribuição t-Student

O trabalho desenvolvido por W. S. Gosset (que o divulgou sob o pseudônimo


de 𝑆𝑡𝑢𝑑𝑒𝑛𝑡), no começo dos anos 1900 resultou na distribuição 𝑡 − 𝑆𝑡𝑢𝑑𝑒𝑛𝑡, ou
mais simplesmente a distribuição 𝑡.

Definição. Seja 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 uma amostra aleatória de uma distribuição


𝑋̅ −𝜇 𝑠
𝑋~𝑁𝑜𝑟𝑚𝑎𝑙(𝜇, 𝜎 2 ). A quandidade 𝑠 , σ̂𝑋̅ = , tem distribuição 𝑡 − 𝑆𝑡𝑢𝑑𝑒𝑛𝑡,
√𝑛
√𝑛

com 𝑛 − 1 graus de liberdade. Ou seja:

𝑋̅ − 𝜇
𝑠 ~𝑡𝑛−1
√𝑛

Pode-se verificar que:

√𝑛(𝑋̅ −𝜇) √𝑛(𝑋̅ −𝜇) √𝑛(𝑋̅ −𝜇)


𝑋̅ − 𝜇 √𝑛(𝑋̅ − 𝜇) 𝜎 𝜎 𝜎 𝑁(0; 1)
𝑠 = = 𝑠 = = =
𝑠 𝑠2 (𝑛−1)𝑠2 1 𝜒2
𝑛−1
√𝑛 𝜎 √ √ √(𝑛−1)
𝜎2 𝜎2 (𝑛−1)

𝑋̅ − 𝜇
⟹ 𝑠 ~𝑡𝑛−1 .
√𝑛

A função de densidade de probabilidade de uma variável aleatória 𝑇 que tem


distribuição 𝑡 − 𝑆𝑡𝑢𝑑𝑒𝑛𝑡 com 𝑝 graus de liberdade (denota-se por 𝑇~𝑡𝑝 ) é:

𝑝+1
𝛤( 1) 1
2
𝑓𝑇 (𝑡) = 𝑝 1⁄2 2 (𝑝+1)⁄2
, −∞ ≤ 𝑡 < ∞.
𝛤 (2) (𝑝𝜋) (1 + 𝑡 ⁄𝑝)

Características da distribuição 𝑡 − 𝑆𝑡𝑢𝑑𝑒𝑛𝑡:


✓ Simétrica em relação a media;
✓ Forma de sino;
✓ Quando 𝑛 → ∞, a distribuição 𝑡 − 𝑆𝑡𝑢𝑑𝑒𝑛𝑡 se torna equivalente a
distribuição Gaussiana, conforme pode-se ver pela figura abaixo.

8
Observação: A distribuição de Cauchy é um caso particular da distribuição 𝑡 −
𝑆𝑡𝑢𝑑𝑒𝑛𝑡.

Exemplo: Calcule as probabilidades por meio da tabela da distribuição 𝑡 −


𝑆𝑡𝑢𝑑𝑒𝑛𝑡.

a. 𝑃(𝑡10 > 2,2281) = 0,025;


b. 𝑃(𝑡10 < −2,2281) = 0,025;
c. 𝑃(𝑡100 > 1,9759) = 0,025;
d. 𝑃(𝑡100 < −1,9759) = 0,025;
e. 𝑃(𝑡100 > 1,9600) = 0,025;
f. 𝑃(𝑡100 < −1,9600) = 0,025;
g. 𝑃(𝑡7 > 1,4149) = 0,100;
h. 𝑃(𝑡7 < −1,4149) = 0,100;
i. 𝑃(𝑡7 > 1,8949) = 0,050;
j. 𝑃(𝑡7 < −1,8949) = 0,050;
k. 𝑃(𝑡7 > 2,3646) = 0,025;
l. 𝑃(𝑡7 < −2,3646) = 0,025;
m. 𝑃(𝑡7 > 2,9980) = 0,010;
n. 𝑃(𝑡7 < −2,9980) = 0,010;
o. 𝑃(𝑡7 > 3,4995) = 0,005;
p. 𝑃(𝑡7 < −3,4995) = 0,005.

9
Exemplo: Seja 𝑋1 , 𝑋2 , ⋯ , 𝑋25 uma amostra aleatória de uma variável aleatória 𝑋
tal que 𝑋~𝑁𝑜𝑟𝑚𝑎𝑙(80, σ2 ). Dada a variância amostral 𝑆 2 = 26 e por meio da
distribuição 𝑡 − 𝑆𝑡𝑢𝑑𝑒𝑛𝑡 pode-se calcular:

83−80
a. 𝑃(𝑋̅ > 83) = 𝑃 (𝑡24 > 26 ) = 𝑃(𝑡24 > 2,94) = 0,003577 (𝐸𝑥𝑐𝑒𝑙);

25

82−80
b. 𝑃(𝑋̅ < 82) = 𝑃 (𝑡24 < 26 ) = 𝑃(𝑡24 < 1,96) = 0,969147 (𝐸𝑥𝑐𝑒𝑙);

25

26 26
c. 𝑃(μ𝑋̅ − 2 σ̂𝑋̅ < 𝑋̅ < μ𝑋̅ + 2 σ̂) ̅
𝑋̅ = 𝑃 (80 − 2√25 < 𝑋 < 80 + 2 √25)

77,96 − 80 82,04 − 80
⟹ 𝑃(77,96 < 𝑋̅ < 82,04) = 𝑃 < 𝑡24 <
26 26
√ √
( 25 25 )

⟹ 𝑃(−2 < 𝑡24 < +2) = 0,943060 (𝐸𝑥𝑐𝑒𝑙).

Exercício 4 (Lista 1): Por meio da tabela da distribuição𝑡 − 𝑆𝑡𝑢𝑑𝑒𝑛𝑡:

a. Calcule 𝑃(𝑡21 > 0,6864);


b. Calcule 𝑃(𝑡36 < −2,4345);
c. Obtenha 𝑎 tal que 𝑃(𝑡5 > 𝑎) = 0,250;
d. Obtenha 𝑐 tal que 𝑃(𝑡40 > 𝑐) = 0,050;
e. Obtenha 𝑑 tal que 𝑃(𝑡97 < −𝑑) = 0,010;
f. Obtenha 𝑒 tal que 𝑃(𝑡120 < −𝑒) = 0,005;

Exercício 5 (Lista 1):Seja 𝑋1 , 𝑋2 , ⋯ , 𝑋20 uma amostra aleatória de uma variável


aleatória 𝑋 tal que 𝑋~𝑁𝑜𝑟𝑚𝑎𝑙(100, σ2 ). Dada a variância amostral 𝑆 2 = 85,
calcule:

a. 𝑃(95 < 𝑋̅ < 105);


b. 𝑃(98 < 𝑋̅ < 102);

c. 𝑃 (μ𝑋̅ − 𝑡𝛼⁄2 σ̂𝑋̅ < 𝑋̅ < μ𝑋̅ + 𝑡𝛼⁄2 σ̂)


𝑋̅ = 0,95.

10
2. Métodos de Estimação
Métodos de estimação são métodos constituídos para se obter estimadores
para os parâmetros. Desta forma, define-se como estimadores e parâmetros:

Definição. As quantidades da população, em geral desconhecidas, sobre as


quais tem-se interesse, são denominadas parâmetros e, usualmente,
representadas por letras gregas tais como α, β, γ, θ,μ, λ, π, ρ, σ, φ, dentre
outras.

Definição. À combinação dos elementos da amostra, construída com a


finalidade de representar, ou estimar, um parâmetro de interesse na população,
denomina-se estimador ou estatística. Denota-se os estimadores por símbolos
̂, β̂, γ̂, θ̂,μ̂, λ̂, π
com o acento circunflexo, tais como α ̂, ρ̂, σ
̂, φ
̂ , dentre outras.

2.1. Método dos Momentos

Esse método é um dos métodos de estimação mais simples e antigo (utilizado


desde o século XVIII).

Definição: Seja 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 uma amostra aleatória de uma população com


função densidade de probabilidade 𝑓(𝑥|𝜃1 , ⋯ , 𝜃𝑘 ). Seja
𝑛
1
𝑚𝑟 = ∑ 𝑋𝑖𝑟 , 𝑟 = 1, ⋯ , 𝑘;
𝑛
𝑖=1

𝜇𝑟 = 𝐸[𝑋𝑖𝑟 ];

onde 𝑚𝑟 e 𝜇𝑟 são o 𝑟 − é𝑠𝑖𝑚𝑜 momento amostral e populacional,


respectivamente. O método dos momentos consiste na obtenção dos
estimadores de 𝜃 = (𝜃1 , ⋯ , 𝜃𝑘 ) resolvendo as equações:

𝜇𝑟 = 𝑚𝑟 .

Observação: Importante lembrar que:


11
𝑉𝑎𝑟[𝑋] = 𝐸[𝑋 2 ] − 𝐸 2 [𝑋] ⟹

𝐸[𝑋 2 ] = 𝑉𝑎𝑟[𝑋] + 𝐸 2 [𝑋].

Exemplo: Seja {𝑋𝑖 }𝑛𝑖=1 ~𝑁(𝜃; 𝜎 2 ), quer dizer, seja 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 uma amostra
aleatória de uma população Normal com média 𝜃 e variância 𝜎 2 . Tem-se ainda
que 𝐸[𝑋] = 𝜃 e 𝑉𝑎𝑟[𝑋] = 𝜎 2 . Pelos métodos dos momentos, os estimadores de
1
𝜃 e 𝜎 2 são, respectivamente, 𝑋̅ e 𝑛 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2 .

Exercício: Seja {𝑋𝑖 }𝑛𝑖=1 ~𝐸𝑥𝑝𝑜𝑛𝑒𝑛𝑐𝑖𝑎𝑙(𝛽), quer dizer, seja 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 uma


amostra aleatória de uma população Exponencial com parâmetro 𝛽 e função de
densidade de probabilidade:

1 −𝑥⁄𝛽
f(𝑥|𝛽) = 𝑒 ; 0 ≤ 𝑥 < ∞; 𝛽 > 0.
𝛽

Tem-se ainda que 𝐸[𝑋] = 𝛽 e 𝑉𝑎𝑟[𝑋] = 𝛽 2 . Encontre o estimador de


momentos para 𝛽.

Exercício: Seja {𝑋𝑖 }𝑛𝑖=1 ~𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆), quer dizer, seja 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 uma amostra
aleatória de uma população Poisson com parâmetro 𝜆 e função de
probabilidade:

𝑒 −𝜆 𝜆𝑥
P(𝑋 = 𝑥|𝜆) = ; 𝑥 = 0, 1, ⋯ ; 0 ≤ 𝜆 < ∞.
𝑥!

Tem-se ainda que 𝐸[𝑋] = 𝜆 e 𝑉𝑎𝑟[𝑋] = 𝜆. Logo,


𝑛
1
𝑚 = ∑ 𝑋𝑖 = 𝑋̅; 𝜇 = 𝐸[𝑋];
𝑛
𝑖=1

Portanto, o estimador de momentos para o parâmetro 𝜆 é:

𝜇 = 𝑚 ⇒ 𝜆̂ = 𝑋̅;

Exercícios 6 (Lista 1): Seja {𝑋𝑖 }𝑛𝑖=1 ~𝐺𝑎𝑚𝑎(𝛼; 𝛽), quer dizer, seja 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛
uma amostra aleatória de uma população Gama com parâmetro de forma 𝛼 e
parâmetro de escala 𝛽 e função de densidade de probabilidade:

12
1
f(𝑥|𝛼, 𝛽) = 𝑥 α−1 𝑒 −𝑥⁄𝛽 ; 0 ≤ 𝑥 < ∞; α, 𝛽 > 0.
Γ(α)𝛽α

Tem-se ainda que 𝐸[𝑋] = 𝛼𝛽 e 𝑉𝑎𝑟[𝑋] = 𝛼𝛽 2 . Encontre o estimador de


momentos para 𝛼 e 𝛽.

Exercício 7 (Lista 1): Seja {𝑋𝑖 }𝑛𝑖=1 ~𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙(𝑛; 𝑝), quer dizer, seja 𝑋1 ,
𝑋2 , ⋯ , 𝑋𝑛 uma amostra aleatória de uma população Binomial com parâmetros 𝑛
e 𝑛 e função de probabilidade:
𝑛
P(𝑋 = 𝑥|𝑛, 𝑝) = ( ) 𝑝 𝑥 (1 − 𝑝)𝑛−𝑥 ; 𝑥 = 0, 1, ⋯ , 𝑛; 0 < 𝑝 < 1.
𝑥

Tem-se ainda que 𝐸[𝑋] = 𝑛𝑝 e 𝑉𝑎𝑟[𝑋] = 𝑛𝑝(1 − 𝑝). Encontre o estimador de


momentos para 𝑛 e 𝑝.
Exercícios 8 (Lista 1): Acredita-se que o tempo de atendimento seja uma
distribuição adequada para descrever o tempo de atendimento de clientes no
caixa de um supermercado. Uma amostra aleatória de n = 20 atendimentos foi
obtida. Os tempos são os seguintes:
2.34, 4.03, 4.85, 5.68, 7.41, 2.39, 4.04, 4.90, 5.76, 7.48, 2.96, 4.17, 5.20, 5.88,
7.64, 3.30, 4.61, 5.24, 6.62, 8.62

a) Estime os parâmetros da distribuição Gama pelo método dos momentos.

b) Construa um gráfico da distribuição acumulada empírica com os dados de


tempo de atendimento no caixa. Sobrepõe ao gráfico da distribuição empírica a
curva da função de distribuição Gama com os parâmetros estimados.

2.2. Estimador da Máxima Verossimilhança – EMV

Definição: Seja 𝑋1 , ⋯ , 𝑋𝑛 uma amostra aleatória de tamanho 𝑛 de uma variável


aleatória 𝑋 com função densidade (ou de probabilidade) 𝑓(𝑥|𝜃), com 𝜃 ∈ Θ,
onde Θ é o espaço paramétrico. A função de verossimilhança de 𝜃 corresponde
à amostra aleatória observada é dada por:
𝑛

𝐿(𝜃; 𝒙) = ∏ 𝑓(𝑥𝑖 |𝜃).


𝑖=1

13
Definição: O EMV de 𝜃 é o valor 𝜃̂ ∈ Θ que maximiza a função de
verossimilhança 𝐿(𝜃; 𝒙). O logarítmo natural da função de verossimilhança de 𝜃
é denotado por:

𝑙(𝜃; 𝒙) = 𝑙𝑛𝐿(𝜃; 𝒙).

É fácil ver que o valor de 𝜃 que maximiza a função de verossimilhança 𝐿(𝜃; 𝒙),
também maximiza 𝑙(𝜃; 𝒙).

Para o caso uniparamétrico onde Θ é um intervalo da reta e 𝑙(𝜃; 𝒙) é derivável,


o EMV pode ser encontrado como a raiz da equação de verossimilhança:

𝜕𝑙(𝜃; 𝒙)
𝑙 ′ (𝜃; 𝒙) = = 0.
𝜕𝜃

Denota-se por função escore a 𝑙 ′ (𝜃; 𝒙). Para se concluir que a solução dessa
equação é ponto de máximo, é necessário verificar se:

̂ ;𝒙)
′ ′(𝜃
𝜕 2 𝑙(𝜃; 𝒙)
𝑙 = | < 0.
𝜕𝜃 2 𝜃=𝜃̂

Observações:

1. Nas situações em que não há tratabilidade analítica na solução da


equação proposta, portanto, obtém-se a solução somente por meio de
procedimentos numéricos.
2. Nas situações em que Θ é discreto, ou o suporte da distribuição de 𝑋
depende de 𝜃, ou em que o máximo de 𝑙(𝜃; 𝒙) ocorre na fronteira de Θ, o
EMV pode ser obtido a partir da inspeção da função de verossimilhança.

Exemplo: Seja 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 uma amostra aleatória da variável aleatória


𝑋~𝑁𝑜𝑟𝑚𝑎𝑙(𝜃; 1). A função de verossimilhança é dada por:
𝑛 𝑛
1 1
𝐿(𝜃; 𝒙) = ∏ 𝑓(𝑥𝑖 |𝜃) = ∏ 𝑒𝑥𝑝 {− (𝑥𝑖 − 𝜃)2 }
√2𝜋 2
𝑖=1 𝑖=1
𝑛 𝑛
1 1
=( ) 𝑒𝑥𝑝 {− ∑(𝑥𝑖 − 𝜃)2 },
√2𝜋 2
𝑖=1

onde Θ = {𝜃: −∞ < 𝜃 < +∞}. Logo:

14
𝑛
1
𝑙(𝜃; 𝒙) = 𝑙𝑛𝐿(𝜃; 𝒙) = −𝑛𝑙𝑛√2𝜋 − ∑(𝑥𝑖 − 𝜃)2 ,
2
𝑖=1

𝑛 𝑛
𝜕𝑙(𝜃; 𝒙)
𝑙 ′ (𝜃; 𝒙) = = 0 ⟹ ∑(𝑥𝑖 − 𝜃̂) = 0 ⟹ ∑ 𝑥𝑖 = 𝑛𝜃̂ ⟹ 𝜃̂ = 𝑋̅.
𝜕𝜃
𝑖=1 𝑖=1

2
𝜕 𝑙(𝜃;𝒙)
Dado que 𝑙′′(𝜃̂; 𝒙) = 𝜕𝜃2 | = −𝑛 < 0, pode-se concluir que 𝜃̂ = 𝑋̅ é o EMV
̂
𝜃=𝜃

de 𝜃.

Exemplo: Seja 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 uma amostra aleatória da variável aleatória


𝑋~𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖(𝜃). A função de verossimilhança é dada por:
𝑛 𝑛
𝑛 𝑛
𝐿(𝜃; 𝒙) = ∏ 𝑓(𝑥𝑖 |𝜃) = ∏ 𝜃 𝑥𝑖 (1 − 𝜃)1−𝑥𝑖 = 𝜃 ∑𝑖=1 𝑥𝑖 (1 − 𝜃)𝑛−∑𝑖=1 𝑥𝑖 ,
𝑖=1 𝑖=1

onde Θ = {𝜃: 0 < 𝜃 < 1}. Logo:


𝑛 𝑛

𝑙(𝜃; 𝒙) = 𝑙𝑛𝐿(𝜃; 𝒙) = ∑ 𝑥𝑖 𝑙𝑛𝜃 + (𝑛 − ∑ 𝑥𝑖 ) 𝑙𝑛(1 − 𝜃),


𝑖=1 𝑖=1

𝜕𝑙(𝜃; 𝒙) ∑𝑛𝑖=1 𝑥𝑖 (𝑛 − ∑𝑛𝑖=1 𝑥𝑖 )


𝑙 ′ (𝜃; 𝒙) = =0⟹ − =0
𝜕𝜃 𝜃̂ 1 − 𝜃̂
(1 − 𝜃̂) ∑𝑛𝑖=1 𝑥𝑖 − 𝜃̂(𝑛 − ∑𝑛𝑖=1 𝑥𝑖 )
⟹ = 0 ⟹ 𝜃̂ = 𝑋̅,
𝜃̂(1 − 𝜃̂)

2
𝜕 𝑙(𝜃;𝒙)
Dado que 𝑙′′(𝜃̂; 𝒙) = 𝜕𝜃2 | < 0, pode-se concluir que 𝜃̂ = 𝑋̅ é o EMV de 𝜃.
̂
𝜃=𝜃

2.2.1. Propriedades dos EMV

Antes de apresentar a 1ª propriedade dos EMV faz-se necessário definir uma


estatística suficiente.

Definição: A estatística 𝑇 = 𝑇(𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 ) é suficiente para 𝜃, quando a


distribuição condicional de 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 dado 𝑇 for independente de 𝜃.

Propriedade 1 (Teorema – EMV é função de estatística suficiente)

15
Sejam 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 uma amostra aleatória da variável aleatória 𝑋 com função
de densidade (ou de probabilidade) 𝑓(𝑥|𝜃),com 𝜃 ∈ Θ. Seja 𝑇 = 𝑇(𝑋1 ,
𝑋2 , ⋯ , 𝑋𝑛 ) uma estatística suficiente para 𝜃. Então o EMV 𝜃̂ (se existir) é função
de 𝑇.

Propriedade 2 (Teorema – Princípio da invariância do EMV)

Sejam 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 uma amostra aleatória da variável aleatória 𝑋 com função


de densidade (ou de probabilidade) 𝑓(𝑥|𝜃),com 𝜃 ∈ Θ. Se 𝜃̂ é um EMV de 𝜃.
Então 𝑔(𝜃̂) é o EMV de 𝑔(𝜃).

Exemplo: Seja 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 uma amostra aleatória da variável aleatória


𝑋~𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖(𝜃). Dado que 𝜃̂ = 𝑋̅ é o EMV de 𝜃 e se 𝑔(𝜃) = √𝜃(1 − 𝜃), tem-se

que, pelo princípio de invariância, 𝑔(𝜃̂) = √𝑋̅(1 − 𝑋̅) é o EMV de 𝑔(𝜃).

Exemplo: Seja 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 uma amostra aleatória da variável aleatória


𝑋~𝑁𝑜𝑟𝑚𝑎𝑙(𝜃; 1). Dado que 𝜃̂ = 𝑋̅ é o EMV de 𝜃 e se 𝑔(𝜃) = 𝑃𝜃 (𝑋 ≤ 0) =
Φ(−𝜃), tem-se que, pelo princípio de invariância, 𝑔(𝜃̂) = Φ(−𝑋̅) é o EMV de
𝑔(𝜃).

Propriedade 3 (Teorema – Distribuição assintótica do EMV)

Sejam 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 uma amostra aleatória da variável aleatória 𝑋 com função


de densidade (ou de probabilidade) 𝑓(𝑥|𝜃),com 𝜃 ∈ Θ. Para grandes amostras,
e satisfeitas as condições de regularidade, tem-se que:

1
√𝑛(𝜃̂ − 𝜃)~𝑁𝑜𝑟𝑚𝑎𝑙 (0, ),
𝐼𝐹 (𝜃)
2
(𝑔′(𝜃))
√𝑛 (𝑔(𝜃̂) − 𝑔(𝜃)) ~𝑁𝑜𝑟𝑚𝑎𝑙 (0, ) (𝑀é𝑡𝑜𝑑𝑜 𝐷𝑒𝑙𝑡𝑎),
𝐼𝐹 (𝜃)

𝜕𝑙(𝜃;𝒙) 2 𝜕2 𝑙(𝜃;𝒙)
onde 𝐼𝐹 (𝜃) = 𝐸 [( ) ] = 𝐸 [− ].
𝜕𝜃 𝜕𝜃2
16
𝜕𝑓(𝑥 |𝜃 ) 𝜕2 𝑓(𝑥 |𝜃 )
As condições de regularidade são: As funções e existem em
𝜕𝜃 𝜕𝜃2

quase toda parte e são tais que:

𝜕𝑓(𝑥 |𝜃 ) 𝜕2 𝑓(𝑥 |𝜃 )
a. | | ≤ 𝐻1 (𝑥) e | | ≤ 𝐻2 (𝑥), onde ∫ℝ 𝐻𝑗 (𝑥)𝑑𝑥 < ∞ , 𝑗 = 1,2;
𝜕𝜃 𝜕𝜃2

2
𝜕𝑙𝑛𝑓(𝑥 |𝜃 ) 𝜕2 𝑙𝑛𝑓(𝑥 |𝜃 )
b. 0 < 𝐼𝐹 (𝜃) = 𝐸 [( ) ] = 𝐸 [− ] < ∞;
𝜕𝜃 𝜕𝜃2

𝜕2 𝑙𝑛𝑓(𝑥 |𝜃 + ℎ) 𝜕2 𝑙𝑛𝑓(𝑥 |𝜃 )
c. 𝐸 {𝑠𝑢𝑝{ℎ:|ℎ|≤𝛿} | − |} = 𝜓𝛿 → 0.
𝜕𝜃2 𝜕𝜃2 𝛿⟶0

Exemplo: Seja 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 uma amostra aleatória da variável aleatória


𝑋~𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜃). Dado que 𝜃̂ = 𝑋̅ é o EMV de 𝜃 e se 𝑔(𝜃) = 5𝜃, tem-se que, pelo
princípio de invariância, 𝑔(𝜃̂) = 5𝑋̅ é o EMV de 𝑔(𝜃). A informação de fisher é:

𝜕 2 𝑙(𝜃; 𝒙) 𝜕2 𝑒 −𝜃 𝜃 𝑥 𝜕 𝑥 𝑥
𝐼𝐹 (𝜃) = 𝐸 [− 2
] = 𝐸 [− 2
𝑙𝑛 ( )] = 𝐸 [− (−1 + )] = 𝐸 [ 2 ]
𝜕𝜃 𝜕𝜃 𝑥! 𝜕𝜃 𝜃 𝜃
1
= .
𝜃

Tem-se pela distribuição assintótica do EMV que as distribuições de 𝜃̂ e 𝑔(𝜃̂)


são:

√𝑛(𝑋̅ − 𝜃)~𝑁𝑜𝑟𝑚𝑎𝑙(0, 𝜃),

√𝑛(5𝑋̅ − 5𝜃)~𝑁𝑜𝑟𝑚𝑎𝑙(0, 25𝜃).

Exercício 9 (Lista 1): Seja 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 uma amostra aleatória da variável


aleatória 𝑋~𝑁𝑜𝑟𝑚𝑎𝑙(𝜃; 1). Encontre a distribuição assintótica de de 𝜃̂ e 𝑔(𝜃̂).

2.3. Método dos Mínimos Quadrados Ordinários – MQO

Definição: Seja 𝒀 um vetor aleatório expresso por 𝒀 = 𝑓(𝑿, 𝜷) + 𝜺, onde 𝑓(𝑿, 𝜷)


são funções conhecidas e 𝜺 é um vetor aleatório denotado por erro e segue
uma distribuição Normal com 𝐸[𝜺] = 0 e 𝑉𝑎𝑟[𝜺] = 𝜎𝜀2 . O estimador de mínimos
quadrados ordinários do vetor de parâmetros 𝜷 minimiza o somatório dos
quadrados dos erros, ou seja:
17
𝑛 𝑛
2
𝑀𝑖𝑛𝜷 ∑ 𝜀𝑖2 = 𝑀𝑖𝑛𝜷 ∑(𝑌𝑖 − 𝑓𝑖 (𝑿, 𝜷)) .
𝑖=1 𝑖=1

Exemplo: Seja 𝑌1 , 𝑌2 , ⋯ , 𝑌𝑛 uma amostra aleatória da variável aleatória


𝑌𝑖 ~𝑁𝑜𝑟𝑚𝑎𝑙(𝛽0 + 𝛽1 𝑥𝑖 ; 𝜎 2 ), onde 𝑥𝑖 é conhecido, 𝑖 = 1, 2, ⋯ , 𝑛. Pode-se
reescrever 𝑌𝑖 da seguinte forma:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 ; 𝜀𝑖 ~𝑁𝑜𝑟𝑚𝑎𝑙(0; 𝜎 2 ).

O estimador de mínimos quadrados ordinários do vetor de paramêtros 𝛽 =


(𝛽0 ; 𝛽1 ) minimiza o somatório dos quadrados dos erros, ou seja:
𝑛 𝑛

𝑀𝑖𝑛𝜷 ∑ 𝜀𝑖2 = 𝑀𝑖𝑛𝜷 ∑(𝑌𝑖 − 𝛽0 + 𝛽1 𝑥𝑖 )2 .


𝑖=1 𝑖=1

Portanto, o EMQO para o vetor de parâmetros 𝛽 = (𝛽0 ; 𝛽1 ) é obtido por meio da


solução das equações:
𝑛
𝜕 2
∑(𝑌𝑖 − (𝛽0 + 𝛽1 𝑥𝑖 )) = 0
𝜕𝛽0
𝑖=1

𝑛
𝜕 2
∑(𝑌𝑖 − (𝛽0 + 𝛽1 𝑥𝑖 )) = 0
𝜕𝛽1
𝑖=1

Realizando estes cálculos tem-se que:


𝑛 𝑛
𝜕 2
̂0 + 𝛽
∑(𝑌𝑖 − (𝛽0 + 𝛽1 𝑥𝑖 )) = 0 ⟹ 2 ∑ (𝑌𝑖 − (𝛽 ̂1 𝑥𝑖 )) (−1) = 0
𝜕𝛽0
𝑖=1 𝑖=1

𝑛 𝑛
𝜕 2
̂0 + 𝛽
∑(𝑌𝑖 − (𝛽0 + 𝛽1 𝑥𝑖 )) = 0 ⟹ 2 ∑ (𝑌𝑖 − (𝛽 ̂1 𝑥𝑖 )) (−𝑥𝑖 ) = 0
𝜕𝛽1
𝑖=1 𝑖=1

Portanto:

∑𝑛𝑖=1 𝑌𝑖 (𝑥𝑖 − 𝑥̅ )
̂1 =
𝛽 ̂0 = 𝑌̅ − 𝛽
;𝛽 ̂1 𝑋̅.
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2

Esta solução é sempre viável e única condicionada a ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 ≠ 0.

18
Ressalta-se que a estimativa do parâmetro 𝜎 2 não pode ser obtida por este
método e o estimador utilizado é:
𝑛
̂2 = 1 2
𝜎 ̂0 + 𝛽
∑ (𝑌𝑖 − (𝛽 ̂1 𝑥𝑖 )) .
𝑛−2
𝑖=1

Exercício 10 (Lista 1): Seja 𝑌1 , 𝑌2 , ⋯ , 𝑌𝑛 uma amostra aleatória da variável


aleatória 𝑌𝑖 ~𝑁𝑜𝑟𝑚𝑎𝑙(10𝛽𝑥𝑖 ; 𝜎 2 ), onde 𝑥𝑖 é conhecido, 𝑖 = 1, 2, ⋯ , 𝑛. Pode-se
reescrever 𝑌𝑖 da seguinte forma:

𝑌𝑖 = 10𝛽𝑥𝑖 + 𝜀𝑖 ; 𝜀𝑖 ~𝑁𝑜𝑟𝑚𝑎𝑙(0; 𝜎 2 ).

Encontre o estimador de mínimos quadrados ordinários do parâmetro 𝛽.

3. Métodos de Avaliação dos Estimadores

Baseado nos diversos métodos de estimação – Métodos dos Momentos,


Método da Máxima Verossimilhança, Método dos Mínimos Quadrados
Ordinários, Métodos Bayesianos – obtem-se diversos estimadores para um
determinado parâmetro. Logo, a questão a ser respondida é: “Qual é o melhor
estimador? ”.
A fim de responder a esta questão deve-se utilizar métodos de avaliação dos
estimadores, e desta forma, utilizar-se-á aquele que apresentar as melhores
avaliações de acordo com os diversos critérios existentes para avaliar os
estimadores.

3.1. Estimador Não Viciado ou Não viesado

Um estimador θ̂ é não viciado ou não viesado para um parâmetro θ se:


𝐸[θ̂] = θ.
Ou seja, um estimador é não viciado se o seu valor esperado é exatamente o
valor do parâmetro.
Um estimador θ̂ é não viciado assintoticamente ou não viesado
assintoticamente para um parâmetro θ se:

19
𝐿𝑖𝑚𝑛→∞ 𝐸[θ̂] = θ.

Exemplo: Seja 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 uma amostra aleatória de uma variável aleatória


𝑋~𝑁𝑜𝑟𝑚𝑎𝑙(𝜇; 𝜎 2 ), então:

1 1
𝑓(𝑥|𝜇, 𝜎 2 ) = 𝑒𝑥𝑝 {− 2
(𝑥 − 𝜇)2 } ; −∞ ≤ 𝑥 < +∞; −∞ < 𝜇 < +∞; 𝜎 2
√2𝜋𝜎 2 2𝜎
> 0; 𝐸[𝑋] = 𝜇; 𝑉𝑎𝑟[𝑋] = 𝜎 2 .

Sabe-se que os estimadores de Momentos e de Máxima Verossimilhança de 𝜇


1 ̂2 = 1 ∑𝑛 (𝑋𝑖 − 𝑋̅)2 . Deseja-se verificar se estes
e 𝜎 2 são 𝜇̂ = 𝑋̅ = 𝑛 ∑𝑛𝑖=1 𝑋𝑖 e 𝜎 𝑛 𝑖=1
𝑋(1) +𝑋(𝑛)
estimadores são não viciados. Verifique ainda e os estimadores PM = 2
1
e 𝑆2 = ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2 são não viciados para 𝜇 e 𝜎 2 , respectivamente.
𝑛−1
𝑛 𝑛 𝑛 𝑛
1 1 1 1 1
𝐸[𝑋̅] = 𝐸 [ ∑ 𝑋𝑖 ] = 𝐸 [∑ 𝑋𝑖 ] = ∑ 𝐸[𝑋𝑖 ] = ∑ μ = 𝑛μ = μ;
𝑛 𝑛 𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1 𝑖=1

Portanto 𝑋̅ é não viciado com respeito a μ.


𝑋(1) + 𝑋(𝑛) 1 1 1 1 1
𝐸[PM] = 𝐸 [ ] = 𝐸[𝑋(1) + 𝑋(𝑛) ] = 𝐸[𝑋(1) ] + 𝐸[𝑋(𝑛) ] = 𝜇 + 𝜇 = 𝜇;
2 2 2 2 2 2
Portanto PM é não viciado com respeito a μ.
𝑛 𝑛
̂2 ] = 𝐸 [1 ∑(𝑋𝑖 − 𝑋̅)2 ] = 1 𝐸 [∑(𝑋𝑖 − μ + μ − 𝑋̅)2 ]
𝐸[𝜎
𝑛 𝑛
𝑖=1 𝑖=1
𝑛 𝑛
1 2 1 2
= 𝐸 [∑((𝑋𝑖 − μ) − (𝑋̅ − μ)) ] = ∑ 𝐸 [((𝑋𝑖 − μ) − (𝑋̅ − μ)) ]
𝑛 𝑛
𝑖=1 𝑖=1
𝑛 𝑛 𝑛 𝑛
1 1 1 1 𝜎2
2] ̅ 2] 2
= ∑ 𝐸[(𝑋𝑖 − μ) − ∑ 𝐸[(𝑋 − μ) = ∑ 𝜎 − ∑
𝑛 𝑛 𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1 𝑖=1
2 2 2 2
1 2 1 𝜎 𝜎 𝑛𝜎 − 𝜎 𝑛−1 2
=
𝑛𝜎 − 𝑛 = 𝜎2 − = = 𝜎 ;
𝑛 𝑛 𝑛 𝑛 𝑛 𝑛
Portanto, conclui-se que 𝜎̂2 é um estimador viciado com respeito a 𝜎 2 .

Entretanto, pode-se verificar que:

𝐿𝑖𝑚𝑛→∞ 𝐸[𝜎̂2 ] = 𝐿𝑖𝑚𝑛→∞ 𝑛 − 1 𝜎 2 = 𝐿𝑖𝑚𝑛→∞ (𝑛 − 1) 𝜎 2 = 𝜎 2 ;


𝑛 𝑛 𝑛
Portanto, conclui-se que 𝜎̂2 é um estimador não viciado assintoticamente com

respeito a 𝜎 2 .
20
𝑛 𝑛
1 𝑛 1
𝐸[𝑆 2]
= 𝐸[ ∑(𝑋𝑖 − 𝑋̅)2 ] = 𝐸 [ ∑(𝑋𝑖 − 𝑋̅)2 ]
𝑛−1 𝑛𝑛 −1
𝑖=1 𝑖=1
𝑛 𝑛
𝑛 1 𝑛 1
= 𝐸[ ∑(𝑋𝑖 − 𝑋̅)2 ] = 𝐸 [ ∑(𝑋𝑖 − 𝑋̅)2 ]
𝑛 − 1𝑛 𝑛−1 𝑛
𝑖=1 𝑖=1
𝑛 𝑛−1 2
= 𝜎 = 𝜎2;
𝑛−1 𝑛
Portanto, conclui-se que 𝑆 2 é um estimador não viciado com respeito a 𝜎 2 .

3.2. Estimador Consistente


Um estimador θ̂ é consistente para estimar θ se duas condições são
satisfeitas:
𝑖) 𝐿𝑖𝑚𝑛→∞ 𝐸[θ̂] = θ;
𝑖𝑖) 𝐿𝑖𝑚𝑛→∞ 𝑉𝑎𝑟[θ̂] = 0.
Ou seja, se, à medida que o tamanho da amostra aumenta, seu valor esperado
converge para o parâmetro e sua variância converge para zero.
Utilizando-se de maior formalidade, diz-se que um estimador θ̂ é consistente
para estimar θ se:
𝐿𝑖𝑚𝑛→∞ 𝑃[|θ̂ − θ| > 𝜀] = 0, ∀ 𝜀 > 0.

Teorema (Desigualdade de Chebyshev). Seja uma variável aleatória 𝑋 com


função de densidade ou função de probabilidade 𝑓𝑋 (𝑥), com 𝐸[𝑋] = μ e
𝑉𝑎𝑟[𝑋] = σ2 , então:
σ2
𝑃[|𝑋̅ − μ| > 𝜀] ≤ , ∀ 𝜀 > 0.
𝜀2

Exemplo: Considerando os dados do exemplo anterior, verifique se os


1 𝑋(1) +𝑋(𝑛)
estimadores 𝑋̅ = 𝑛 ∑𝑛𝑖=1 𝑋𝑖 e PM = são consistentes.
2

Verificou-se anteriormente que 𝐸[𝑋̅] = μ e 𝐸[PM] = μ, então, para 𝑋̅ e PM


serem consistentes é necessário apenas verificar se 𝐿𝑖𝑚𝑛→∞ 𝑉𝑎𝑟[𝑋̅] = 0 e
𝐿𝑖𝑚𝑛→∞ 𝑉𝑎𝑟[PM] = 0. Logo:

21
𝑛 𝑛 𝑛 𝑛
1 1 1 1 1
𝑉𝑎𝑟[𝑋̅] = 𝑉𝑎𝑟 [ ∑ 𝑋𝑖 ] = 2 𝑉𝑎𝑟 [∑ 𝑋𝑖 ] = 2 ∑ 𝑉𝑎𝑟[𝑋𝑖 ] = 2 ∑ σ2 = 2 𝑛σ2
𝑛 𝑛 𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1 𝑖=1
1 2
= σ ⟹ 𝐿𝑖𝑚𝑛→∞ 𝑉𝑎𝑟[𝑋̅] = 0;
𝑛
Portanto, conclui-se que 𝑋̅ é um estimador consistente.
Pode-se demonstrar, por meio da Desigualdade de Chebyshev, que 𝑋̅ é um
estimador consistente:
σ2⁄ σ2 σ2
𝑛
𝑃[|𝑋̅ − μ| > 𝜀] ≤ 2 = 2 ⟹ 𝐿𝑖𝑚𝑛→∞ 2 = 0 ⟹ 𝐿𝑖𝑚𝑛→∞ 𝑃[|𝑋̅ − μ| > 𝜀] = 0.
𝜀 𝑛𝜀 𝑛𝜀
Portanto, conclui-se, mais uma vez, que 𝑋̅ é um estimador consistente.
𝑋(1) + 𝑋(𝑛) 1 1 1
𝑉𝑎𝑟[PM] = 𝑉𝑎𝑟 [ ] = 2 𝑉𝑎𝑟[𝑋(1) + 𝑋(𝑛) ] = 𝑉𝑎𝑟[𝑋(1) ] + 𝑉𝑎𝑟[𝑋(𝑛) ]
2 2 4 4
1 1 1
= 𝜎 2 + 𝜎 2 = 𝜎 2 ⟹ 𝐿𝑖𝑚𝑛→∞ 𝑉𝑎𝑟[PM] ≠ 0;
4 4 2
Portanto, conclui-se que PM não é um estimador consistente.

3.3. Estimador Eficiente


Dado dois estimadores θ̂1 e θ̂2 , não viciados em relação à θ, diz-se que θ̂1 é
mais eficiente que ̂θ2 se:
𝑉𝑎𝑟[θ̂1 ] < 𝑉𝑎𝑟[θ̂2 ].
Para se comparar estimadores que não são da mesma classe (viesados e não
viesados), pode-se utilizar o Erro Quadrático Médio:
2 2
𝐸𝑀𝑄(θ̂) = 𝐸 [(θ̂ − θ) ] = [𝑉𝐼É𝑆(θ̂)] + 𝑉𝑎𝑟(θ̂).

Exemplo: Considerando os dados dos exemplos anteriores, verifique qual


1 𝑋(1) +𝑋(𝑛)
estimador é eficiente considerando 𝑋̅ = 𝑛 ∑𝑛𝑖=1 𝑋𝑖 e PM = .
2

Tem-se que 𝐸[𝑋̅] = 𝜇 e 𝐸[PM] = 𝜇, então, é necessário verificar apenas qual


estimador possue menor variância.
1 1
Tem-se que 𝑉𝑎𝑟[PM] = 2 𝜎 2 e 𝑉𝑎𝑟[𝑋̅] = 𝑛 σ2 , então, é fácil ver que:

𝑉𝑎𝑟[𝑋̅] < 𝑉𝑎𝑟[PM], ∀ 𝑛 > 2;


Portanto, conclui-se que 𝑋̅ é o estimador eficiente.

22
Teorema (Desigualdade de Cramér Rao)1. Quando as condições de
regularidade estão satisfeitas, a variância de qualquer estimador não viciado θ̂
do parâmetro θ satisfaz a desigualdade:
1
𝑉𝑎𝑟[θ̂] ≥ ;
𝑛𝐼𝐹 (θ)
𝜕𝑙(𝜃;𝒙) 2 𝜕2 𝑙(𝜃;𝒙)
Onde 𝐼𝐹 (𝜃) = 𝐸 [( ) ] = 𝐸 [− ].
𝜕𝜃 𝜕𝜃2

Definição. Um estimador θ̂∗ é o melhor estimador não viciado de 𝜏(𝜃) se


satisfaz 𝐸[θ̂∗ ] = 𝜏(𝜃), para todo 𝜃 e, para qualquer outro estimador θ̂ com
𝐸[θ̂] = 𝜏(𝜃), tem-se que 𝑉𝑎𝑟[θ̂∗ ] ≤ 𝑉𝑎𝑟[θ̂]. Denota-se θ̂∗ por estimador não
viciado de variância mínima uniformemente – ENVVMU de 𝜏(𝜃).

Teorema2. Se ̂θ∗ é o ENVVMU de 𝜏(𝜃), então θ̂∗ é único.

São conhecidos na literatura, e apresentados na tabela abaixo, os seguintes


ENVVMU:
Distribuição ENVVMU

𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖(𝜃) θ̂ = 𝑋̅
𝑛
1
𝑁𝑜𝑟𝑚𝑎𝑙(𝜇; 𝜎 2 ) 𝜇̂ = 𝑋̅; 𝑆 2 = ∑(𝑋𝑖 − 𝑋̅)2
𝑛−1
𝑖=1

𝑛+1
𝑈𝑛𝑖𝑓𝑜𝑟𝑚𝑒(𝜃) θ̂ = 𝑚𝑎𝑥(𝑋𝑖 )
𝑛

𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆) 𝜆̂ = 𝑋̅

𝐸𝑥𝑝𝑜𝑛𝑒𝑛𝑐𝑖𝑎𝑙(𝛽) 𝛽̂ = 𝑋̅

3.4. Estimador Linear3


Um estimadores θ̂ é linear em relação a θ se é uma função linear das
observações da amostra. Um exemplo simples é a média amostral 𝑋̅.

1
Não é necessário.
2
Não é necessário.
3
Não é necessário.
23
Um estimador θ̂ é denotado Best Linear Unbiased Estimator – BLUE se for um
estimador linear e ENVVMU.

Exercício 11 (Lista 1): Suponha que você vai realizar um levantamento para
estimar a proporção de crianças matriculadas em um programa de saúde
infantil em uma determinada comunidade.

a. Usando o critério da viabilidade, defina a população-objetivo e uma


possível população de estudo.
b. Defina o elemento e as possíveis unidades amostrais.
c. Defina a variável a ser observada em cada elemento.
d. Defina o valor populacional que sintetiza a informação desejada.
e. Por sorteio, com reposição, tome uma amostra de três elementos da
população hipotética listada a seguir:

Criança Matriculada Y
1 Não 0
2 Sim 1
3 Sim 1
4 Não 0
5 Não 0
6 Sim 1

f. Use a amostra sorteada para estimar o valor populacional definido no


item (d).
g. Avalie seu resultado.

4. Estimação intervalar

4.1. Intervalo de Confiança (uma população)

Em todas as áreas do conhecimento existe a necessidade de se obter


conclusões a respeito dos parâmetros de uma população. A estimação destes

24
parâmetros pode ser realizada por meio de estimação pontual ou estimação
por intervalo.

Estimação Intervalar
É intervalar quando se estabelece um intervalo que contém, com uma
determinada probabilidade pré-estabelecida, o verdadeiro valor do parâmetro
desconhecido.

Uma maneira de se expressar a precisão da estimação é estabelecer limites da


forma [𝑎, 𝑏]1−𝛼 , que, probabilidade 1 − 𝛼, incluam o verdadeiro valor do
parâmetro de interesse. Sendo assim, a estimação por intervalo consiste na
fixação de dois valores, 𝑎, e 𝑏, tais que (1 − 𝛼) seja a probabilidade de que o
intervalo, por eles determinado, contenha o real valor de 𝜃.
O intervalo [𝑎, 𝑏] pode ser constituído a partir das distribuições amostrais. Ou
seja, utilizando as distribuições de amostragem, pode-se obter expressões do
tipo:
𝑃(𝑎 < 𝜇 < 𝑏) = 1 − 𝛼
𝑃(𝑎 < 𝑝 < 𝑏) = 1 − 𝛼
𝑃(𝑎 < 𝜎 2 < 𝑏) = 1 − 𝛼
Assim, pode-se interpretar sob as expressões acima que existe 100(1 − 𝛼)%
de confiança que o verdadeiro valor de 𝜇, 𝑝 e 𝜎 2 esteja contido no intervalo
[𝑎, 𝑏]. Em outras palavras, [𝑎, 𝑏] é uma estimativa para 𝜇, 𝑝 e 𝜎 2 em que a
probabilidade (1 − 𝛼) ou 100(1 − 𝛼)% expressa o grau de confiança que se
tem na estimação.
Se [𝑎, 𝑏] é uma estimativa com 100(1 − 𝛼)% de confiança para 𝜃, então,

25
✓ O intervalo [a, b] é chamado intervalo de confiança para θ.
✓ a e b são chamados “limite inferior” e “limite superior” do intervalo de
confiança para θ.
✓ A probabilidade (1 − α) = 100(1 − α)% é chamada coeficiente de
confiança.
✓ A probabilidade α é chamada nível de significância.

4.2. Método da quantidade pivotal

As distribuições amostrais podem ser usadas para a construção de


intervalos de confiança via o método da quantidade pivotal, que é muito usado.
Veja os dois exemplos abaixo.

Exemplo: Em uma população, a proporção de pessoas favoráveis a uma


determinada lei é de 40%. Retira-se uma amostra de 300 pessoas dessa

população. Determine 𝑃 (𝑝 − Z𝛼⁄2 σ𝑝̂ < 𝑝̂ < 𝑝 + Z𝛼⁄2 σ𝑝̂ ) = 0,95.

𝑝(1−𝑝) 0,40(1−0,40)
Dado que 𝑛 = 300 e 𝑝 = 0,40, então σ𝑝̂ = √ =√ = 0,0283. Tem-
𝑛 300
se que Z2,5% = 1,96, então:

𝑃(0,4 − 1,96 × 0,0283 < 𝑝̂ < 0,4 + 1,96 × 0,0283) = 0,95

⟹ 𝑃(0,4 − 0,0555 < 𝑝̂ < 0,4 + 0,0555) = 0,95

⟹ 𝑃(0,3445 < 𝑝̂ < 0,4555) = 0,95

⟹ 𝑃(34,45% < 𝑝̂ < 45,55%) = 0,95

Exemplo: Deseja-se obter a proporção de estudantes de Economia e


Administração portadores de habilidades intrínsecas de gestão e liderança.
Retira-se uma amostra de 400 estudantes, obtendo-se 8 portadores de tais
habilidades. Determine um intervalo de confiança de 99% para a proporção
populacional.

𝑃 (𝑝̂ − Z𝛼⁄2 σ𝑝̂ < 𝑝 < 𝑝̂ + Z𝛼⁄2 σ𝑝̂ ) = 0,99

26
𝑥 8 𝑝̂(1−𝑝̂) 0,02(1−0,02)
Dado que 𝑛 = 400 e 𝑝̂ = 𝑛 = 400 = 0,02, então σ𝑝̂ ≈ √ =√ =
𝑛 400
0,007. Tem-se que Z0,5% = 2,57, então:

𝑃(0,02 − 2,57 × 0,007 < 𝑝 < 0,02 + 2,57 × 0,007) = 0,99

⟹ 𝑃(0,02 − 0,018 < 𝑝 < 0,02 + 0,018) = 0,99

⟹ 𝑃(0,002 < 𝑝̂ < 0,038) = 0,99


⟹ 𝑃(0,2% < 𝑝̂ < 3,8%) = 0,99.

4.3. Intervalo de confiança para a média populacional 𝝁

Intervalo de confiança para a média populacional 𝜇 com variância


populacional 𝜎 2 conhecida.

𝜎 2 𝑋̅ −𝜇
Pelo TCL tem-se que 𝑋̅~𝑁𝑜𝑟𝑚𝑎𝑙 (𝜇, 𝑛 ) ⟹ 𝑍 = 𝜎 ~𝑁𝑜𝑟𝑚𝑎𝑙(0, 1), então:
√𝑛

𝑃(−𝑧𝛼⁄2 ≤ 𝑍 ≤ +𝑧𝛼⁄2 ) = 1 − 𝛼

𝑋̅ − 𝜇
𝑃 (−𝑧𝛼⁄2 ≤ ≤ +𝑧𝛼⁄2 ) = 1 − 𝛼
𝜎 ⁄ √𝑛

𝜎
𝑃 (−𝑧𝛼⁄2 − 𝑋̅ ≤ −𝜇
√𝑛
𝜎
≤ +𝑧𝛼⁄2 − 𝑋̅)
√𝑛
=1−𝛼

𝜎 𝜎
𝑃 (𝑋̅ − 𝑧𝛼⁄2 ≤ 𝜇 ≤ 𝑋̅+𝑧𝛼⁄2 )
√𝑛 √𝑛
= 1−𝛼

Sendo assim, o intervalo com (1 − α) = 100(1 − α)% de confiança para 𝜇 com


𝜎 2 conhecida é:
𝜎 𝜎
𝐼𝐶(1−𝛼) (𝜇) = [𝑋̅ − 𝑧𝛼⁄2 ; 𝑋̅ + 𝑧𝛼⁄2 ].
√𝑛 √𝑛

27
Observação:
𝜎
1. Denota-se 𝐸 = 𝑋̅ − 𝜇 = 𝑧𝛼⁄2 por erro padrão ou erro de estimação;
√𝑛

2. Os níveis de confiança de confiança mais usados são:


1 − α = 0,90 ⟹ 𝑧𝛼⁄2 = 𝑧5,0% = ±1,64;

1 − α = 0,95 ⟹ 𝑧2,5% = ±1,96;


1 − α = 0,99 ⟹ 𝑧0,5% = ±2,58.

Exemplo: A especificação de uma peça é uma variável aleatória 𝑋 com 𝜎 2 = 9.


O setor de controle de qualidade extraiu uma amostra de tamanho 25 e obteve
∑25
𝑖=1 𝑋𝑖 = 152. Deseja-se determinar o intervalo de confiança de 90% e o erro

de estimação para a média populacional da especificação da peça.


25
1
𝑋̅ = ∑ 𝑋𝑖 = 6,08
25
𝑖=1
𝜎 3
σ𝑋̅ = = = 0,60
√𝑛 √25
𝑧5,0% = ±1,64
𝜎 𝜎
𝑃 (𝑋̅ − 𝑧𝛼⁄2 ≤ 𝜇 ≤ 𝑋̅+𝑧𝛼⁄2 )=1−𝛼
√𝑛 √𝑛
𝑃(6,08 − 1,64 × 0,60 ≤ 𝜇 ≤ 6,08 + 1,64 × 0,60) = 0,90
𝑃(5,096 ≤ 𝜇 ≤ 7,064) = 0,90
𝐼𝐶90% (𝜇) = [5,096; 7,064]
𝜎
𝐸𝑟𝑟𝑜 𝑝𝑎𝑑𝑟ã𝑜 = 𝑧𝛼⁄2 = 1,64 × 0,60 = 0,984.
√𝑛

Exercício 12 (Lista 1): Obtenha os intervalos de confiança de 95% e 99% e o


erro de estimação para a média populacional da especificação da peça do
exemplo anterior.

Exemplo: De uma população de 1000 elementos com distribuição


aproximadamente Normal com 𝜎 2 = 400, tira-se uma amostra de 25 elementos,
obtendo-se 𝑋̅ = 150. Obtenha o intervalo de confiança para um nível de
significância de 𝛼 = 5%.

28
𝜎 𝑁 − 𝑛 √400 1000 − 25
σ𝑋̅ = √ = √ = 3,95
√𝑛 𝑁 − 1 √25 1000 − 1
𝑧2,5% = ±1,96

𝜎 𝑁−𝑛 𝜎 𝑁−𝑛
𝑃 (𝑋̅ − 𝑧𝛼⁄2 √ ≤ 𝜇 ≤ 𝑋̅+𝑧𝛼⁄2 √ )= 1−𝛼
√𝑛 𝑁 − 1 √𝑛 𝑁 − 1

𝑃(150 − 1,96 × 3,95 ≤ 𝜇 ≤ 150 + 1,96 × 3,95) = 0,95


𝑃(142,25 ≤ 𝜇 ≤ 157,75) = 0,95
𝐼𝐶95% (𝜇) = [142,25; 157,75]

𝜎 𝑁−𝑛
𝑀𝑎𝑟𝑔𝑒𝑚 𝑑𝑒 𝐸𝑟𝑟𝑜 = 𝑧𝛼⁄2 √ = 1,96 × 3,95 = 7,742.
√𝑛 𝑁 − 1

Exercício 13 (Lista 1): Obtenha os intervalos de confiança de 90% e 99% para


a média populacional e o erro de estimação dos dados do exemplo anterior.

Exercício 14 (Lista 1): Uma fábrica de peças especifica em suas embalagens


que a proporção de defeitos é de 4%. Um cliente dessa fábrica inspeciona uma
amostra de 200 peças e constata que 12 são defeituosas. Determine um
intervalo de confiança de 95% para a proporção populacional e verifique se a
afirmação da empresa está correta.

OBS.: Mais exercícios podem ser encontrados nos livros de Triola (1999) e
Bussab e Morettin (2010).

BIBLIOGRAFIA

BOLFARINE, H., & SANDOVAL, M. C. (2001). Introdução à inferência


estatística (Vol. 2). SBM.

CASELLA, G., & BERGER, R. L. (2002). Statistical inference (Vol. 2). Pacific
Grove, CA: Duxbury.

SHELDON, Ross et al. (2002) A first course in probability. Pearson Education


India.

29
BUSSAB, W. e MORETTIN, P. (2010) Estatística Básica. Editora Saraiva.

TRIOLA, M.F. (1999) Introdução à Estatística, Editora LTC.

30

Você também pode gostar