Escolar Documentos
Profissional Documentos
Cultura Documentos
CAPÍTULO IV
ESTIMAÇÃO DE PARÂMETROS
1 ESTIMAÇÃO PONTUAL
1
ii) Estimador ˆ consistente: A sequência de estimadores ˆn do parâmetro θ é consistente se:
a) lim E(ˆ) = ;
n→
b) lim Var(ˆ) = 0 .
n→
iii) Estimador ˆ eficiente: sejam ˆ1 e ˆ2 dois estimadores de um mesmo parâmetro θ, então, ˆ1
será mais eficiente que ˆ2 quando Var ( ˆ1 ) < Var ( ˆ2 ).
Exemplo: Seja x1, x2, ..., xn uma amostra aleatória de uma distribuição de probabilidade normal,
com média e variância 2. Sejam x e S2 os estimadores da média e da variância, respectivamente.
Mostre que x é um estimador justo (não-tendencioso) e consistente para
1 1
E ( x ) = E xi = E (xi ) = = (n ) = ;
1 1
•
n n n n
lim E( x ) = lim = .
n→ n→
• Var( x ) = Var 1
xi = 2 Var(xi ) = 2 2 = 2 n 2 = 2 .
1 1 1 1
n
n n n n
1 2
lim Var( x ) = lim = 0.
n→ n→ n
2
O estimador de máxima verossimilhança de θ, chamado de 𝜃̂, é o valor que
maximiza 𝐿(𝜃; 𝑥1 , … , 𝑥𝑛 ).
Em muitos casos, o estimador de máxima verossimilhança pode ser encontrado seguindo
os passos abaixo:
i) Encontrar a função de verossimilhança;
ii) Aplicar a função ln (logarítmica);
iii) Derivar em relação ao parâmetro θ (ou vetor de parâmetros θ);
iv) Encontrar 𝜃̂ igualando o resultado a zero;
v) Verificar que este estimador é ponto de máximo.
Exemplo: Seja X uma variável aleatória com distribuição Normal, com média μ e variância σ2.
Tomemos uma amostra aleatória independente e igualmente distribuída X1, X2, ..., Xn de X. Qual
o estimador de máxima verossimilhança para o vetor de parâmetros 𝜃 = (𝜇, 𝜎 2 )𝑇 ?
Solução:
Exercício: Seja X uma variável aleatória com distribuição de Poisson, de parâmetro λ.
Tomemos uma amostra aleatória X1, X2, ..., Xn independente e igualmente distribuída de X. Qual
é o estimador de máxima verossimilhança para λ?
i) O intervalo a ≤ θ ≤ b (ou [a, b]) é denominado de intervalo com 100(1 – α)% de confiança
para o parâmetro θ;
ii) Os extremos desse intervalo (a e b) são chamados de limite inferior e superior de confiança;
iii) A probabilidade conhecida (1 – α) é chamada de nível de confiança, em que α é chamado de
nível de significância.
3
A escolha do nível de confiança depende da precisão com que se deseja estimar o
parâmetro. É comum a utilização dos níveis de 90% (i.e, 100(1– 0,10)%), 95% e 99%. Quanto
maior o nível de confiança, maior será a amplitude o intervalo. Dado um nível de confiança,
quanto maior for o intervalo, menos informação teremos sobre o verdadeiro valor de θ.
A interpretação de um intervalo de confiança é que se um número grande de amostras
aleatórias for coletado e um intervalo com 100(1– α)% de confiança para θ for calculado para
cada amostra, então o verdadeiro valor de θ pertencerá a 100(1– α)% desses intervalos.
Assim, dizemos que o verdadeiro valor do parâmetro θ (μ, σ2, ρ, etc) pertence ao
intervalo [a, b], com 100(1– α)% de confiança.
Teorema (TLC): Seja X1, X2, ..., Xn é uma amostra aleatória independente e identicamente distribuída,
extraída de uma população com distribuição qualquer (por exemplo: binomial, exponencial, ...) de média
μ e variância σ2. Então a distribuição das médias das amostras será aproximadamente normal com a
mesma média da população e com variância n vezes menor que a variância da população. Ou seja, para
n grande (n ≥ 30), 𝑋̅ terá uma distribuição aproximadamente N(μ, σ2/n). Isto é:
i) a média da distribuição amostral de médias é: E ( X ) = X = ;
2
ii) a variância da distribuição amostral de médias é: Var (X ) = 2 = .
x
n
Exemplo: Para ilustrar o TLC, foram simulados dados a partir de uma distribuição Exponencial (que é
assimétrica), com parâmetro λ=1/3. Desta população, para diferentes tamanhos de amostras (n=1, 2, 3,
4
4, 5, 6, 10, 15 e 20), foram simuladas 200 amostras e calculadas as médias de cada uma, resultado nos
gráficos das distribuições de médias apresentados na figura abaixo, para cada tamanho da amostra.
Seja uma população caracterizada pela distribuição de uma variável aleatória X com
E(X) = e Var(X) = 2. Sabe-se que x (média amostral) tem distribuição normal de média
(
(média das médias) e variância σ 2 n , ou seja, X ~ N ,
2
.
n
)
Portanto, à distribuição de x , podemos associar uma distribuição Z, tal que
x− x−
Z= = tenha uma distribuição normal, com média igual a zero e variância igual a
x
n
um, ou seja, Z ~ N(0,1).
x−
P − Z Z Z = 1 − , e substituindo Z = , tem-se:
2 2 x
x−
P − Z Z = 1 − , isolando μ na inequação:
2 x 2
P − Z . x x − Z . x = 1 −
2 2
P x − Z . x x + Z . x = 1 − .
2 2
P x − Z . x x + Z . x = 1 −
2 2
P(346 − 1,96. 0,671 346 + 1,96. 0,671) = 1 − 0,05
P(346 − 1,315 346 + 1,315 ) = 0,95
P(344,685 347,315) = 0,95
Ou, IC ( , (100 − )%) = x Z . x
2
Conclusão: Pode-se dizer, com 95% de confiança, que o verdadeiro valor da média populacional
pertence ao intervalo [344,685; 347,315]. Isso mostra que, estatisticamente, houve alteração
na média do processo, pois o valor da média antiga (350 ml) não pertence ao intervalo.
6
Exercício: Testes de compressão foram aplicados em certo tipo de peça da marca A para avaliar
sua resistência. Uma amostra de 13 peças apresentou média de 33,8 MPa. Supondo que a
variância seja conhecida e igual a 9,0 MPa2, construa um intervalo de 99% de confiança para a
resistência à compressão média e interprete-o. (Resposta: [31,9; 35,7])
Exercício: Levando em conta simultaneamente as respostas dadas por 200 clientes de uma
empresa a todos os itens de um questionário, foi calculado um índice de satisfação global
correspondente a cada entrevistado. Ele pode variar desde 0 (totalmente insatisfeito) até 100
(totalmente satisfeito). Com respeito a esse índice de satisfação, foi construído um Intervalo de
Confiança a 95% para a sua média populacional, que vai desde 43,5 até 63,9. Quais das seguintes
afirmações estão corretas e quais não estão? Por que?
a) A probabilidade de que a verdadeira média do índice de satisfação esteja entre 43,5 e 63,9 é
95%;
b) Se fossem extraídas 100 amostras, todas elas com 200 clientes, e (usando o mesmo
procedimento que deu origem ao intervalo de 43,5 a 63,9) fosse construído um Intervalo de
Confiança a 95% para cada uma delas, cerca de 95 desses intervalos conteriam dentro de si a
verdadeira média populacional;
c) O desvio padrão populacional do índice de satisfação é aproximadamente igual a 5,1;
d) Todos os entrevistados têm seus índices de satisfação entre 43,5 e 63,9.
Quando o parâmetro 2 é desconhecido, devemos estimar seu valor com base numa
amostra. Neste caso, calcula-se a estimativa do parâmetro 2, por meio de S2:
2
1 n
S2 = (xi − x ) S = S 2
n − 1 i=
Como o desvio padrão (S) é uma variável aleatória, a substituição simples e pura do
parâmetro por S somente poderá ser feita para amostras grandes, ou seja, n 30.
Quando se trabalha com amostras pequenas (n < 30) e variância populacional
desconhecida, introduz-se uma correção, a qual consiste em usar a variável t de Student com
n-1 graus de liberdade (g.l.) ao invés de Z, pois, nestas condições, não podemos afirmar que x
segue distribuição normal.
A distribuição t de Student é semelhante à Normal: é simétrica em relação à zero, mas
apresenta caudas mais alongadas que a Normal, ou seja, apresenta maior variância. Aumentando
o tamanho n da amostra, t de Student tende a uma Normal.
7
x−
Considere a variável aleatória: tn−1 = , em que S x = S .
Sx n
Então, P − t t t = 1 − , substituindo a variável t, tem-se:
2 2
x−
P − t t = 1 −
2 sx 2
P − t . s x x − t . s x = 1 −
2 2
P x − t . s x x + t . s x = 1 −
2 2
Portanto, o intervalo x − t . s x x + t . S x ou IC ( , (100 − )%) = x t . S x contém o
2 2 2
Exemplo: Retirou-se uma amostra de tamanho 25 de uma população com distribuição normal,
com média igual a 38 e desvio padrão da amostra igual a 0,5. Construir um intervalo de confiança
para a média com nível de 5% de significância.
Solução: Como n = 25, os graus de liberdade são n – 1 = 24, então, na tabela da distribuição t
de Student, t1− / 2 com n – 1=24 é t0,975 = 2,064
8
P x − t . s x x + t . s x = 1 −
2 2
P(38 − 2,064. 0,1 38 + 2,064. 0,1) = 1 − 0,05
P(38 − 0,2064 38 + 0,2064) = 0,95
P(37,79 38,21) = 0,95
Conclusão: Pode-se dizer que, em 95% das vezes, o intervalo [37,79; 38,21] contém o
verdadeiro valor da média populacional .
Exercício: Uma indústria precisa desenvolver uma formulação química de tal forma que os
polímeros fabricados apresentem uma resistência média igual a 3,4 MPa. Após alguns estudos,
chegou-se a uma formulação e acredita-se que ela cumpre a exigência de resistência. Para
verificar se a nova formulação está de acordo, coletou-se uma amostra de dez polímeros e a
resistência foi medida, resultando em:
4,4; 3,7; 2,2; 3,5; 4,9; 3,2; 3,3; 5,8; 4,6; 3,6.
Supondo que a resistência segue uma distribuição normal, construa um IC com 95% de
confiança. O que você conclui?
Vamos considerar a seguinte variável: X: nº de sucessos (faces cara, peças com defeito,
etc) em n tentativas. Suponha que X tenha distribuição binomial, ou seja, X ~ B(n, ).
Da mesma forma que ocorre com a distribuição amostral da média, para n grande, a
distribuição amostral da proporção p (estatística da proporção) também se aproxima de uma
distribuição normal, com:
(1 − )
Denotaremos por p = o desvio padrão da distribuição amostral de p, ou
n
também chamado de erro padrão de p.
OBS: Como na prática não conhecemos o valor de substitui-se pelo seu estimador, p, e
(1 - ) por (1 – p).
9
Para construirmos um intervalo de confiança para a proporção a favor de uma
determinada característica, consideramos a variável Z normalizada:
p−
Z= ~ N (0,1) ,
p(1 − p)
n
P − Z Z Z = 1 −
2 2
p−
P − Z Z = 1 −
2
2 pq n
pq pq
P p − Z . p + Z . =1−
2 n 2 n
Portanto, o verdadeiro valor da proporção populacional pertence ao intervalo
pq pq
p − Z . p + Z . ou IC ( , (100 − )%) = p Z . p , com nível de confiança de
2 n 2 n 2
(100– α)%.
x 53
Solução: Tem-se que: n = 98 p= = = 0,54 q = 1 − 0,54 = 0,46
n 98
pq pq
P p − Z . p + Z . =1−
2 n 2 n
(0,54)(0,46) (0,54)(0,46)
P 0,541 − 1,96. 0,54 + 1,96. = 1 − 0,05
98 98
P(0,54 − 0,11 0,54 + 0,11) = 0,95
P(0,43 0,65) = 0,95
Conclusão: É possível concluir, com 95% de confiança, que o intervalo [0,43; 0,65] contém a
verdadeira proporção de pessoas contaminadas.
10
Exercício: O exame de uma amostra de 50 peças vindas de uma linha de produção mostrou que
8 delas eram defeituosas. Como este número foi considerado alto pelo engenheiro responsável,
foi feito um ajuste no processo afim de melhorar a qualidade. Uma amostra de 60 peças
fabricadas pelo novo processo apresentou 3 defeituosas.
a) Determine um intervalo de confiança, a 95%, para a verdadeira proporção de peças
defeituosas em cada um dos processos;
b) A partir dos resultados do item a), podemos afirmar que houve melhora significativa na
qualidade do segundo processo em relação ao primeiro?
BIBLIOGRAFIA:
MONTGOMERY, D. C.; RUNGER, G. C. Estatística aplicada e probabilidade para engenheiros. 2 ed. LTC. 2003.
BUSSAB, Wilton O.; MORETTIN, Pedro A. Estatística Básica: métodos quantitativos. 4a ed. São Paulo: Atual,
1987, 321p.
11
12