Você está na página 1de 12

UTFPR – Universidade Tecnológica Federal do Paraná/ Câmpus Londrina

Disciplina: Probabilidade e Estatística


Curso: MA92B- EM21 – Engenharia de Materiais
Professor: Joelmir André Borssoi

CAPÍTULO IV

ESTIMAÇÃO DE PARÂMETROS

Devido a fatores como tempo e custo, as características de uma população são


frequentemente estudadas com base em uma amostra. Uma determinada população pode ser
descrita através de um modelo probabilístico, que depende de parâmetros. Muitas vezes estes
parâmetros são desconhecidos e há interesse em estimá-los para obter um melhor conhecimento
sobre a população. Assim, retira-se uma amostra aleatória da população e através das técnicas
de estimação de parâmetros procura-se obter uma estimativa do parâmetro de interesse. A
estimação de parâmetros é uma subdivisão da Inferência Estatística, que consiste em fazer
afirmações sobre a população a partir de uma amostra aleatória da mesma. A outra grande
subdivisão constitui os Testes de Hipóteses.
Os testes de hipóteses são utilizados para decidir, entre duas afirmações sobre um
parâmetro, qual é a correta.

Neste capítulo será abordada a estimação de parâmetros, podendo-se distinguir dois


casos: por ponto e por intervalo (de confiança). No primeiro caso, procedemos à estimativa do
parâmetro populacional por meio de um único valor estimado, ao passo que, no segundo,
construiremos um intervalo ao qual o verdadeiro valor do parâmetro pertença, com probabilidade
conhecida.
Há um inconveniente ao realizarmos estimativas pontuais. Em geral, não podemos
julgar qual a possível magnitude do erro que estamos cometendo, o que não acontece para
estimativas por meio de intervalos.

1 ESTIMAÇÃO PONTUAL

Primeiramente, definimos θ como um parâmetro populacional qualquer, que pode ser


média μ, variância σ2, etc.

Definição: Um estimador pontual de um parâmetro θ (que chamamos 𝜃̂ ) é um único número


que pode ser considerado sensato para θ.

As qualidades de um estimador são:


i) Um estimador ˆ é dito justo ou não-tendencioso se E( ˆ )= θ.
Exemplos: x é um estimador não-tendencioso de µ, pois E( x )=µ;
S2 é um estimador não-tendencioso de σ2, pois E(S2)= σ2.

1

ii) Estimador ˆ consistente: A sequência de estimadores ˆn do parâmetro θ é consistente se:
a) lim E(ˆ) =  ;
n→ 
b) lim Var(ˆ) = 0 .
n→ 

iii) Estimador ˆ eficiente: sejam ˆ1 e ˆ2 dois estimadores de um mesmo parâmetro θ, então, ˆ1
será mais eficiente que ˆ2 quando Var ( ˆ1 ) < Var ( ˆ2 ).

Exemplo: Seja x1, x2, ..., xn uma amostra aleatória de uma distribuição de probabilidade normal,
com média  e variância 2. Sejam x e S2 os estimadores da média e da variância, respectivamente.
Mostre que x é um estimador justo (não-tendencioso) e consistente para 
1  1
E ( x ) = E  xi  =  E (xi ) =   = (n ) =  ;
1 1

n  n n n
lim E( x ) = lim  =  .
n→  n→ 

• Var( x ) = Var  1
xi  = 2 Var(xi ) = 2  2 = 2 n 2 =  2 .
1 1 1 1
n
  n n n n
1 2
lim Var( x ) = lim  = 0.
n→  n→  n

Portanto, x é um estimador justo e consistente para 

Os conceitos de tendência e eficiência são bem ilustrados através da figura abaixo, em


que T1 e T2 são rifles não tendenciosos e T3 é tendencioso. Embora T1 e T2 sejam não-
tendenciosos, T1 é mais eficiente do que T2.

1.1 Método de estimação: máxima verossimilhança

O princípio de máxima verossimilhança é um dos procedimentos usados para se obter


estimadores.
Consideremos uma população e uma variável aleatória X, relacionada a essa população,
com função de probabilidade (se X é uma variável aleatória discreta) ou função densidade de
probabilidade (se X é uma variável aleatória contínua) 𝑓(𝑥, 𝜃), sendo θ o parâmetro
desconhecido. Retiremos uma amostra aleatória simples de X, independente e identicamente
distribuída, de tamanho n, X1, X2, ..., Xn, e sejam x1, x2, ..., xn os valores efetivamente observados.
A função de verossimilhança L é definida por
𝐿(𝜃; 𝑥1 , … , 𝑥𝑛 ) = 𝑓(𝑥1 ; 𝜃 ) ∙ … ∙ 𝑓 (𝑥𝑛 ; 𝜃 ) = ∏𝑛𝑖=1 𝑓 (𝑥𝑖 ; 𝜃 ).

2
O estimador de máxima verossimilhança de θ, chamado de 𝜃̂, é o valor que
maximiza 𝐿(𝜃; 𝑥1 , … , 𝑥𝑛 ).
Em muitos casos, o estimador de máxima verossimilhança pode ser encontrado seguindo
os passos abaixo:
i) Encontrar a função de verossimilhança;
ii) Aplicar a função ln (logarítmica);
iii) Derivar em relação ao parâmetro θ (ou vetor de parâmetros θ);
iv) Encontrar 𝜃̂ igualando o resultado a zero;
v) Verificar que este estimador é ponto de máximo.

Exemplo: Seja X uma variável aleatória com distribuição Normal, com média μ e variância σ2.
Tomemos uma amostra aleatória independente e igualmente distribuída X1, X2, ..., Xn de X. Qual
o estimador de máxima verossimilhança para o vetor de parâmetros 𝜃 = (𝜇, 𝜎 2 )𝑇 ?

Solução:
Exercício: Seja X uma variável aleatória com distribuição de Poisson, de parâmetro λ.
Tomemos uma amostra aleatória X1, X2, ..., Xn independente e igualmente distribuída de X. Qual
é o estimador de máxima verossimilhança para λ?

2 ESTIMAÇÃO POR INTERVALOS DE CONFIANÇA

Normalmente, no processo de investigação de um parâmetro θ, necessitamos ir além da


sua estimativa pontual 𝜃̂. O fato de não se conhecer o valor de θ pode causar uma “insegurança”
e levar a um questionamento:
Quão próximo estamos do valor real de θ quando obtemos sua estimativa?

A resposta depende da precisão (ou variância) do estimador e, também, do valor real do


parâmetro. Uma maneira de contornar esse problema consiste em se encontrar um intervalo em
torno de 𝜃̂ que tenha alta probabilidade de englobar θ.

Considere, agora, o parâmetro θ, tal que P(a ≤ θ ≤ b) = 1 – α .

i) O intervalo a ≤ θ ≤ b (ou [a, b]) é denominado de intervalo com 100(1 – α)% de confiança
para o parâmetro θ;
ii) Os extremos desse intervalo (a e b) são chamados de limite inferior e superior de confiança;
iii) A probabilidade conhecida (1 – α) é chamada de nível de confiança, em que α é chamado de
nível de significância.
3
A escolha do nível de confiança depende da precisão com que se deseja estimar o
parâmetro. É comum a utilização dos níveis de 90% (i.e, 100(1– 0,10)%), 95% e 99%. Quanto
maior o nível de confiança, maior será a amplitude o intervalo. Dado um nível de confiança,
quanto maior for o intervalo, menos informação teremos sobre o verdadeiro valor de θ.
A interpretação de um intervalo de confiança é que se um número grande de amostras
aleatórias for coletado e um intervalo com 100(1– α)% de confiança para θ for calculado para
cada amostra, então o verdadeiro valor de θ pertencerá a 100(1– α)% desses intervalos.

Assim, dizemos que o verdadeiro valor do parâmetro θ (μ, σ2, ρ, etc) pertence ao
intervalo [a, b], com 100(1– α)% de confiança.

OBS: 95% de confiança, escreve-se 0,95; pois 1 – α = 1 – 0,05 = 0,95.

Teorema do Limite Central (TLC)

Os métodos de estimação por intervalos estão na maioria das vezes baseados no


pressuposto de que a distribuição amostral das estatísticas (𝑥̅ , 𝑝, por exemplo) seguem a
distribuição normal de probabilidades. Este pressuposto é garantido pelo teorema do limite
central.

Teorema (TLC): Seja X1, X2, ..., Xn é uma amostra aleatória independente e identicamente distribuída,
extraída de uma população com distribuição qualquer (por exemplo: binomial, exponencial, ...) de média
μ e variância σ2. Então a distribuição das médias das amostras será aproximadamente normal com a
mesma média da população e com variância n vezes menor que a variância da população. Ou seja, para
n grande (n ≥ 30), 𝑋̅ terá uma distribuição aproximadamente N(μ, σ2/n). Isto é:
i) a média da distribuição amostral de médias é: E ( X ) =  X =  ;
2
ii) a variância da distribuição amostral de médias é: Var (X ) =  2 = .
x
n

Exemplo: Para ilustrar o TLC, foram simulados dados a partir de uma distribuição Exponencial (que é
assimétrica), com parâmetro λ=1/3. Desta população, para diferentes tamanhos de amostras (n=1, 2, 3,
4
4, 5, 6, 10, 15 e 20), foram simuladas 200 amostras e calculadas as médias de cada uma, resultado nos
gráficos das distribuições de médias apresentados na figura abaixo, para cada tamanho da amostra.

Podemos observar que, à medida que aumentamos o tamanho n da amostra, a distribuição


amostral da média tende para uma normal, com mesma média da população (exponencial) e a
variabilidade diminui, tendendo à Var(X)/n.

2.1 Intervalo de confiança para a média () – variância 2 conhecida

Seja uma população caracterizada pela distribuição de uma variável aleatória X com
E(X) =  e Var(X) = 2. Sabe-se que x (média amostral) tem distribuição normal de média 
(
(média das médias) e variância σ 2 n , ou seja, X ~ N  , 
2
.
n
)
Portanto, à distribuição de x , podemos associar uma distribuição Z, tal que
x− x−
Z= = tenha uma distribuição normal, com média igual a zero e variância igual a
 x
n
um, ou seja, Z ~ N(0,1).

x =  é chamado de erro padrão, ou desvio padrão da distribuição amostral da média.


n
5
Para chegarmos ao intervalo de confiança que contém o verdadeiro valor da média
populacional μ, calculamos a probabilidade de Z, com 100(1 – α)% de confiança, que em termos
de probabilidade escreve-se 1 – α, ou seja, definindo qual a confiança desejada, como é descrito
a seguir:

x−
P − Z  Z  Z  = 1 −  , e substituindo Z = , tem-se:
 2 2 x

 x− 
P − Z   Z  = 1 −  , isolando μ na inequação:
 2 x 2

P − Z .  x  x −   Z .  x  = 1 − 
 2 2 

P x − Z .  x    x + Z .  x  = 1 −  .
 2 2 

Portanto, com nível de confiança de 100(1 – α)%, o verdadeiro valor da média


populacional μ pertença ao intervalo x − Z .  x    x + Z .  x .
2 2

Exemplo: Em uma indústria de cerveja, a quantidade de cerveja inserida em latas tem-se


comportado como uma variável aleatória com média 350 ml e desvio padrão de 3 ml. Após
alguns problemas na linha de produção, suspeita-se que houve alteração na média. Uma amostra
de 20 latas acusou média de x = 346 ml . Construa um intervalo de confiança para o novo valor
da quantidade média μ de cerveja inserida em latas, com nível de confiança de 95%, supondo
que não tenha ocorrido alteração no desvio padrão do processo.

Solução: Dados: x = 346 ml  = 3 ml x =  = 3 = 0,671


n 20
1 – α = 0,95 ⟹ Z = Z 0,05 = Z 0,025 = 1,96
2 2

P x − Z .  x    x + Z .  x  = 1 − 
 2 2 
P(346 − 1,96. 0,671    346 + 1,96. 0,671) = 1 − 0,05
P(346 − 1,315    346 + 1,315 ) = 0,95
P(344,685    347,315) = 0,95
Ou, IC ( , (100 −  )%) = x  Z  .  x
2

IC ( ,95%) = 346  1,96. 0,671

IC ( ,95 %) = 346  1,315

Conclusão: Pode-se dizer, com 95% de confiança, que o verdadeiro valor da média populacional
 pertence ao intervalo [344,685; 347,315]. Isso mostra que, estatisticamente, houve alteração
na média do processo, pois o valor da média antiga (350 ml) não pertence ao intervalo.

6
Exercício: Testes de compressão foram aplicados em certo tipo de peça da marca A para avaliar
sua resistência. Uma amostra de 13 peças apresentou média de 33,8 MPa. Supondo que a
variância seja conhecida e igual a 9,0 MPa2, construa um intervalo de 99% de confiança para a
resistência à compressão média e interprete-o. (Resposta: [31,9; 35,7])

Exercício: Levando em conta simultaneamente as respostas dadas por 200 clientes de uma
empresa a todos os itens de um questionário, foi calculado um índice de satisfação global
correspondente a cada entrevistado. Ele pode variar desde 0 (totalmente insatisfeito) até 100
(totalmente satisfeito). Com respeito a esse índice de satisfação, foi construído um Intervalo de
Confiança a 95% para a sua média populacional, que vai desde 43,5 até 63,9. Quais das seguintes
afirmações estão corretas e quais não estão? Por que?
a) A probabilidade de que a verdadeira média do índice de satisfação esteja entre 43,5 e 63,9 é
95%;
b) Se fossem extraídas 100 amostras, todas elas com 200 clientes, e (usando o mesmo
procedimento que deu origem ao intervalo de 43,5 a 63,9) fosse construído um Intervalo de
Confiança a 95% para cada uma delas, cerca de 95 desses intervalos conteriam dentro de si a
verdadeira média populacional;
c) O desvio padrão populacional do índice de satisfação é aproximadamente igual a 5,1;
d) Todos os entrevistados têm seus índices de satisfação entre 43,5 e 63,9.

2.2 Intervalo de confiança para a média () – variância 2 desconhecida

Quando o parâmetro 2 é desconhecido, devemos estimar seu valor com base numa
amostra. Neste caso, calcula-se a estimativa do parâmetro 2, por meio de S2:
2
1 n
S2 =  (xi − x )  S = S 2
n − 1 i=
Como o desvio padrão (S) é uma variável aleatória, a substituição simples e pura do
parâmetro  por S somente poderá ser feita para amostras grandes, ou seja, n  30.
Quando se trabalha com amostras pequenas (n < 30) e variância populacional
desconhecida, introduz-se uma correção, a qual consiste em usar a variável t de Student com
n-1 graus de liberdade (g.l.) ao invés de Z, pois, nestas condições, não podemos afirmar que x
segue distribuição normal.
A distribuição t de Student é semelhante à Normal: é simétrica em relação à zero, mas
apresenta caudas mais alongadas que a Normal, ou seja, apresenta maior variância. Aumentando
o tamanho n da amostra, t de Student tende a uma Normal.

7
x−
Considere a variável aleatória: tn−1 = , em que S x = S .
Sx n
Então, P − t  t  t  = 1 −  , substituindo a variável t, tem-se:
 2 2

 x− 
P − t   t  = 1 − 
 2 sx 2

P − t . s x  x −   t . s x  = 1 − 
 2 2 
P x − t . s x    x + t . s x  = 1 − 
 2 2 
Portanto, o intervalo x − t . s x    x + t . S x ou IC ( , (100 −  )%) = x  t . S x contém o
2 2 2

verdadeiro valor da média populacional μ, com nível de confiança de (100 – α)%.

Faremos uso da tabela da distribuição t de Student (anexo), na qual buscamos o valor


correspondente a:
t(n−1;1− / 2 )
em que: n – 1 são os graus de liberdade, que devemos procurar nas linhas da tabela; e 1-/2 é o
valor correspondente ao nível de confiança, que devemos buscar nas colunas.

Exemplo: Se a amostra tem 20 elementos e considerarmos um nível de 5% de significância,


procuraremos pelo valor tabelado: t(20−1;1−0,05 / 2 ) = t(19;0,975) .

Então, na linha da tabela procuramos o valor correspondente a 19 e na coluna o valor


correspondente a 1 – /2 = 1 – 0,025 = 0,975. Assim, t(19;0,975) = 2,093

Exemplo: Retirou-se uma amostra de tamanho 25 de uma população com distribuição normal,
com média igual a 38 e desvio padrão da amostra igual a 0,5. Construir um intervalo de confiança
para a média  com nível de 5% de significância.

Solução: Como n = 25, os graus de liberdade são n – 1 = 24, então, na tabela da distribuição t
de Student, t1− / 2 com n – 1=24 é t0,975 = 2,064

8
P x − t . s x    x + t . s x  = 1 − 
 2 2 
P(38 − 2,064. 0,1    38 + 2,064. 0,1) = 1 − 0,05
P(38 − 0,2064    38 + 0,2064) = 0,95
P(37,79    38,21) = 0,95
Conclusão: Pode-se dizer que, em 95% das vezes, o intervalo [37,79; 38,21] contém o
verdadeiro valor da média populacional .

Exercício: Uma indústria precisa desenvolver uma formulação química de tal forma que os
polímeros fabricados apresentem uma resistência média igual a 3,4 MPa. Após alguns estudos,
chegou-se a uma formulação e acredita-se que ela cumpre a exigência de resistência. Para
verificar se a nova formulação está de acordo, coletou-se uma amostra de dez polímeros e a
resistência foi medida, resultando em:

4,4; 3,7; 2,2; 3,5; 4,9; 3,2; 3,3; 5,8; 4,6; 3,6.

Supondo que a resistência segue uma distribuição normal, construa um IC com 95% de
confiança. O que você conclui?

2.3 Intervalo de Confiança para a proporção ()

Em muitas situações, o parâmetro de interesse é uma proporção (). Por exemplo:


• a proporção de itens defeituosos em uma linha de produção;
• a proporção de consumidores que vão comprar certo produto;
• a proporção de sementes que devem germinar, etc.

Vamos considerar a seguinte variável: X: nº de sucessos (faces cara, peças com defeito,
etc) em n tentativas. Suponha que X tenha distribuição binomial, ou seja, X ~ B(n, ).

Da mesma forma que ocorre com a distribuição amostral da média, para n grande, a
distribuição amostral da proporção p (estatística da proporção) também se aproxima de uma
distribuição normal, com:

E(p) =  e Var(p) = ( − )n,


𝑥
em que 𝑝 = é o estimador da verdadeira proporção , baseado em uma amostra.
𝑛

 (1 −  )
Denotaremos por  p = o desvio padrão da distribuição amostral de p, ou
n
também chamado de erro padrão de p.

OBS: Como na prática não conhecemos o valor de  substitui-se  pelo seu estimador, p, e
(1 - ) por (1 – p).
9
Para construirmos um intervalo de confiança para a proporção  a favor de uma
determinada característica, consideramos a variável Z normalizada:

p−
Z= ~ N (0,1) ,
p(1 − p)
n

Então, o intervalo de confiança para a verdadeira proporção  é dado por:

P − Z  Z  Z  = 1 − 
 2 2

 p− 
P − Z    Z  = 1 − 
 2
 2 pq n 
 pq pq 
P p − Z .    p + Z .  =1−

 2 n 2 n 
Portanto, o verdadeiro valor da proporção populacional  pertence ao intervalo
pq pq
p − Z .    p + Z . ou IC ( , (100 −  )%) = p  Z .  p , com nível de confiança de
2 n 2 n 2

(100– α)%.

Exemplo: Examinou-se uma amostra de 98 pessoas, encontrando-se 53 contaminadas por


Chumbo (Pb). Construa um intervalo de 95% de confiança para proporção populacional
(verdadeira proporção) de pessoas contaminadas.

x 53
Solução: Tem-se que: n = 98 p= = = 0,54 q = 1 − 0,54 = 0,46
n 98

Pela tabela normal padrão:  =0,05  Z2 = 1,96

 pq pq 
P p − Z .    p + Z .  =1−

 2 n 2 n 
 (0,54)(0,46) (0,54)(0,46) 
P 0,541 − 1,96.    0,54 + 1,96.  = 1 − 0,05

 98 98 
P(0,54 − 0,11    0,54 + 0,11) = 0,95
P(0,43    0,65) = 0,95

Ou, IC ( , (100 −  )%) = p  Z .  p


2

IC ( ,95%) = 0,54  1,96. 0,055

IC ( ,95%) = 0,54  0,11

Conclusão: É possível concluir, com 95% de confiança, que o intervalo [0,43; 0,65] contém a
verdadeira proporção de pessoas contaminadas.

10
Exercício: O exame de uma amostra de 50 peças vindas de uma linha de produção mostrou que
8 delas eram defeituosas. Como este número foi considerado alto pelo engenheiro responsável,
foi feito um ajuste no processo afim de melhorar a qualidade. Uma amostra de 60 peças
fabricadas pelo novo processo apresentou 3 defeituosas.
a) Determine um intervalo de confiança, a 95%, para a verdadeira proporção de peças
defeituosas em cada um dos processos;
b) A partir dos resultados do item a), podemos afirmar que houve melhora significativa na
qualidade do segundo processo em relação ao primeiro?

BIBLIOGRAFIA:
MONTGOMERY, D. C.; RUNGER, G. C. Estatística aplicada e probabilidade para engenheiros. 2 ed. LTC. 2003.
BUSSAB, Wilton O.; MORETTIN, Pedro A. Estatística Básica: métodos quantitativos. 4a ed. São Paulo: Atual,
1987, 321p.

11
12

Você também pode gostar