Você está na página 1de 4

18

Inferência Estatística - Estimação


A Inferência Estatística visa estudar uma população por meio das evidências fornecidas por amostras.
Mas amostras diferentes de uma população podem apresentar resultados diferentes. Quanta confiança
podemos ter de resultados que podem ser variáveis?

Exemplos:
1. Considere a variável peso de bebês de 3 meses de idade no Brasil. Qual o valor médio? Qual a
variância? A distribuição Normal modela esta variável?
Dificilmente pode-se ter todos dados no problema dado. Pode-se entretanto ter acesso a uma amostra de n
crianças. Como obter as respostas às perguntas com os dados desta amostra? Com que segurança os dados
da amostra respondem às perguntas? Como deve ser escolhida a amostra?
2. Deseja-se saber como está indo uma campanha eleitoral. A consulta a todos N eleitores porém, será
feita apenas no dia da eleição e não é praticável fazer a consulta a todos durante a campanha. Como
escolher um certo número k de eleitores para pesquisar sua intenção de voto. Se 53% dos k eleitores da
amostra dizem que vão votar no candidato C, com que certeza podemos afirmar que o candidato C terá
53% de votos no dia da eleição? Qual a faixa de incerteza? O que quer dizer esta faixa de incerteza? Há
uma relação entre k e N e a faixa de incerteza?

Estas questões e várias outras constituem a inferência estatística. Nesta parte vamos começar estudar estas
questões.

Parâmetros, Estimadores e Estimativas


Parâmetro: são as quantidades da população, em geral desconhecidas e sobre as quais temos interesse.
Serão representadas em geral por letras gregas tais como θ , µ , σ , etc.
Estimador: uma função de elementos da amostra para determinar uma estimativa de um parâmetro da
população. Serão representados por símbolos com acento circunflexo tais como θ̂, µ̂, σ̂ .
Estimativa: valor numérico assumido por um estimador.
Note-se que o estimador é uma função das variáveis aleatórias da amostra, θˆ = f ( X 1 , X 2 , X k )
sendo portanto também uma variável aleatória. A distribuição de probabilidade do estimador constituirá a
base das argumentações probabilísticas utilizadas na extrapolação da informação da amostra para os
parâmetros da população.

Exemplo: Estamos interessados no peso médio de bebês de 3 meses do sexo masculino numa determinada
região. Não tendo acesso a todos bebês da região sorteamos 10 deles obtendo os seguintes pesos em kg:
5,8 7,4 5,4 5,1 4,8 5,7 6,0 5,3 6,5 5,0
Vários procedimentos podem ser feitos para obter uma estimativa da média de peso da população:
Média do menor e maior valor de peso da amostra
O primeiro valor sorteado da amostra
A média aritmética dos 10 valores da amostra
Cada um destes procedimentos é um possível estimador da média. As estimativas obtidas seriam
respectivamente 6,1; 5,8 e 5,7. Qual destes estimadores é melhor? Para determinar isto deve-se estudar as
propriedades de cada estimador.

Propriedades dos estimadores


Vício: Um estimador é não viciado se seu valor esperado coincide com o valor do parâmetro de interesse.
Consistência: Um estimador é consistente, se à medida que o tamanho da amostra aumenta, seu valor
esperado converge para o parâmetro de interesse e sua variância converge para zero.
Eficiência: Dados dois estimadores não viciados par um parâmetro, o mais eficiente é aquele cuja
variância é menor.

Pode-se mostrar que os parâmetros média de uma quantidade µ , proporção de uma característica p e
variância σ 2 de uma quantidade de uma determinada população os estimadores mais adequados (não
viciados e consistentes) são dados na tabela:

Resumo baseado em Noções de Probabilidade e Estatística de Marcos Nascimento Magalhães e Antonio Carlos Pedroso de Lima
Exercícios da mesma obra.
19

Parâmetro Estimador
µ X1 + X 2 +  + X n
X = - Média dos dados da amostra
n
p freqüência amostral com a caracterís tica
pˆ =
n
σ 2
1 n
σ2 = ∑ ( X i − X ) 2 - variância amostral
n − 1 i =1

Distribuições amostrais
Já foi mencionado que os estimadores, sendo funções de variáveis aleatórias, são também variáveis
aleatórias. Como é a distribuição de probabilidade dos estimadores mais utilizados? Este é um importante
problema, muitas vezes difícil (exige bom conhecimento de matemática). Seguem alguns resultados
importantes.

Para uma população cuja variável de interesse é X ∼ N(µ , σ 2), seja (X1, X2, ... , Xn) uma amostra
aleatória com elementos independentes. Pode-se mostrar que a média amostral X tem média µ e
variância σ 2/n. Portanto quanto maior a amostra maior a probabilidade de a média amostral estar na
vizinhança da média populacional.

Exemplo: Suponha que a aceitação de um lote de 1000 peças ocorre apenas se o comprimento médio de
10 peças retiradas aleatoriamente do lote, estiver entre 5 e 10cm. Sabe-se que o comprimento das peças é
uma variável aleatória com distribuição Normal de média 7,5 cm e variância 20 cm2. O que podemos
dizer a respeito da aceitação do lote?
Do exposto acima esperamos que a média das medidas das amostras X tenham distribuição normal
com média µ = 7,5 cm e variância σ 2
= 20/10 = 2 cm2.

Primeiro convertemos o intervalo de aceitação de X = [5, 10] num intervalo da variável z =


( X − µ)
σ
Substitua primeiramente X = 5 e depois X = 10 na fórmula, obtendo o intervalo de z = [-1,77;
+1,77].
Com o auxílio da tabela de áreas sob a curva normal encontre a área sob o intervalo [-1,77; +1,77]. O
resultado é a probabilidade de encontrarmos uma amostra cuja média de comprimentos está entre 5 e 10.

Teorema Central do Limite


Em geral não conhecemos o modelo de distribuição da população e muitas vezes não é uma distribuição
normal. Apesar disto o Teorema Central do Limite garante que qualquer que seja a distribuição da
população, se a média de uma variável aleatória da população é µ e sua variância é σ 2, e se o número
de elementos da amostra n é grande, então a média amostral segue uma distribuição normal de média µ
e variância σ 2/n.
X − µ n→ ∞
  → Z
Em símbolos σ , com Z ∼ N(0, 1).
n
O seguinte experimento não prova o teorema Central do Limite, mas pode ajudar a entender seu
conteúdo. A tabela de números consiste nas notas de um grupo de 90 pessoas em um concurso.
1 1,62
Sorteie (com reposição) uma amostra de 10 notas. Calcule a média X da amostra. Esta
2 2,00
3 2,08 média é uma estimativa da média das notas. Compare o resultado com a média conhecida da
4 2,15
5 2,15
amostra que é µ = 3,208. Repita o procedimento ou colete os resultados de um experimento
6 2,31 similar feito pelos colegas. Com o conjunto de médias das amostras calcule a média e a
7 2,31 variância das médias amostrais. Pelo teorema Central do Limite esta média deve ser igual à
8 2,31
9 2,31 média da população e a variância das médias amostrais deve ser a variância da população
10 2,31
dividida pelo tamanho da amostra. Compare os resultados com µ = 3,208 e σ 2/n = 0,640/10,
11 2,38
12 2,46 onde σ = 0,640 é a variância dos dados da população de 90 pessoas.

Resumo baseado em Noções de Probabilidade e Estatística de Marcos Nascimento Magalhães e Antonio Carlos Pedroso de Lima
Exercícios da mesma obra.
20

13
14
2,46
2,46
Estimação por Intervalo
15 2,46
16
17
2,46
2,54
Do exposto até aqui vimos que quando colhemos uma amostra de tamanho n, podemos fazer
18 2,62 uma estimativa da média µ ou de uma proporção p por meio dos estimadores X ou p̂
19 2,62
20 2,62 respectivamente. Mas qual a certeza ou incerteza de que os estimadores estão próximos dos
21 2,62 parâmetros da população?
Se a variância σ 2 de uma população é conhecida pode-se determinar o intervalo em torno da
22 2,62
23 2,62
24
25
2,62
2,62
média µ ou da proporção p para o qual haja uma certa probabilidade de que os estimadores
26 2,69 X ou p̂ se encontrem. Este intervalo dá uma idéia da margem de erro da estimativa. Para
27 2,69
28 2,69 calcular este intervalo fixa-se um coeficiente de confiança 0 < γ < 1. Se γ = 0,9 o
29 2,69 intervalo obtido será o intervalo em torno da média dentro do qual esperamos encontrar 90%
30 2,69
31 2,77 das médias amostrais de um conjunto de amostras colhidas aleatoriamente na população. Para
32 2,77 calcular este intervalo devemos lembrar que a média amostral deve ter uma distribuição
Normal com média µ e variância σ / n . Pelo Teorema Central do Limite esta afirmação é
33 2,77 2
34 2,85
35 2,85
válida se n for grande.
36 2,85
37 2,85
38 2,92 Exemplo: Um estudo das dimensões de uma peça mostrou que a variância do comprimento da
39 2,92
40 2,92
mesma é 0,01cm2. Uma amostra de 10 peças apresentou um comprimento médio igual a 5,6
41 2,92 cm. Em que intervalo devemos esperar encontrar 95% das médias de amostras de 10 peças?
42
43
3,00
3,00
Para resolver isto procura-se na tabela de áreas da curva normal o valor de z para o qual a área
44 3,00 é 0,95/2 = 0,475. (zγ /2 = z0,475 = 1,96 ou seja a área sob a curva Normal(0, 1) entre –1,96 e
45
46
3,08
3,08
+1,96 é 0,95) Converte-se o valor de ± zγ /2 encontrado para X usando a mudança de variáveis
X −X σ
. Temos no exemplo, X = 5,6 ± 1,96 0,01 .
47 3,08
48 3,08 z= , ou X = X ± zγ / 2
49 3,08 σ n n 10
50 3,15
51 3,15
Dizemos então que o intervalo de confiança com coeficiente de confiança 0,95 é [5,54; 5,66].
52 3,15  σ σ 
Uma notação utilizada é IC(µ , 95%) ≈  X − zγ / 2 ; X + zγ / 2
n 
53 3,15 =
54 3,23  n
55 3,23
56 3,31 0,01 0,01
57 3,31 = [5,6 – 1,96 .; 5,6 + 1,96 ] = . [5,54; 5,66].
58 3,31 10 10
Como ficaria este intervalo de confiança se usássemos γ = 0,8?
59 3,31
60 3,31
61
62
3,38
3,38
Como ficaria este intervalo de confiança se mantemos γ = 0,95 mas usamos uma amostra
63 3,38 maior n = 36?
64 3,46
65 3,46
66 3,54 Exemplo: Um medicamento está na fase de teste em seres humanos. Pretende-se estimar a
67 3,54
proporção p de cura em pacientes tratados com o medicamento. Foi selecionada uma amostra
68 3,62
69 3,62 de 200 pacientes para o teste sendo que 160 deles foram curados. Que podemos dizer da
70 3,69 proporção p na população em geral?
71 3,77
72 3,85 A estimativa pontual para p é p̂obs = 160/200 = 0,8. Qual o intervalo de confiança desde
73 3,85
74 4,08 valor com coeficiente aproximado γ = 0,95?
75 4,15
Considerando que a amostra é “grande” podemos aproximar a proporção amostral por uma
76 4,23
77 4,23 distribuição Normal com média p e variância p(1 – p)/n.
78 4,23
79 4,31 Da tabela de áreas sob a curva normal obtemos zγ .2 = 1,96.
80 4,31
 p (1 − p ) p (1 − p ) 
81 4,31
Então IC(p, 95%) ≈  pˆ − zγ / 2 ; pˆ + zγ / 2 =
82 4,38
 n n 
83 4,38

p (1 − p ) p (1 − p ) 
84 4,46

= 0,8 − zγ / 2 ;0,8 + zγ / 2
85 4,85
86 4,92  . Como o valor de p é desconhecido,
87 5,08  n n 
88 5,15
89 5,23
usamos duas possíveis estratégias:
90 5,31 a) Otimista – fazemos p = p̂ = 0,8. Então IC(p, 95%) = [0,745; 0,855].

Resumo baseado em Noções de Probabilidade e Estatística de Marcos Nascimento Magalhães e Antonio Carlos Pedroso de Lima
Exercícios da mesma obra.
21

b) Conservadora – como o maior valor da expressão p(1 – p) é 1/4, quando p = 0,5, substituímos
p(1 – p) por 1/4. Então IC(p, 95%) = [0,731; 0,869].
Na “linguagem” dos noticiários de pesquisa eleitoral diríamos que a margem de erro conservadora é de 7
pontos percentuais para mais ou para menos. A margem de erro otimista é de 5,5 pontos percentuais.

Exercícios
1) A duração do “tonner” de uma máquina de fotocópias pode ser modelado como Normal com média
15 e desvio padrão 2 (em milhares de cópias). Para uma amostra de 12 fotocopiadoras a duração do
“tonner” será observada e pergunta-se a probabilidade de, em média, durar:
a) Menos de 16 mil cópias.
b) Mais de 13 mil cópias.
c) Entre 12 e 14 mil cópias.
2) Num grupo de pacientes o nível de colesterol é uma variável aleatória com distribuição Normal, de
média desconhecida e variância 64 (mg/ml)2.
a) Para uma amostra de 46 indivíduos que forneceu nível médio de colesterol de 120 mg/ml,
construa o intervalo de confiança de 88%.
b) Se você desejasse diminuir a amplitude do intervalo encontrado em (a) quais seria suas
alternativas?
3) Desejamos coletar uma amostra de uma variável aleatória X com distribuição Normal de média
desconhecida e variância 30. Qual deve ser o tamanho da amostra para que, com probabilidade 0,92,
a média amostral não difira da média da população por mais de 3 unidades?
4) O intervalo [35,21; 35,99] é o intervalo de confiança 95%, construído a partir de uma amostra de
tamanho 100, para a média µ de uma população Normal com desvio padrão igual a 2.
a) Qual o valor encontrado para a média dessa amostra?
b) Se utilizássemos essa mesma amostra, mas com uma confiança de 90%, qual seria o novo
intervalo de confiança?
5) Antes de uma eleição, um determinado candidato está interessado em estimar a proporção p de
eleitores favoráveis ao seu candidato. Uma amostra piloto de tamanho 100 revelou que 60% dos
eleitores eram favoráveis ao candidato.
a) Utilizando a informação da amostra piloto, determine o tamanho da amostra para que, com 0,8
de probabilidade, o erro cometido na estimação seja no máximo 0,05.
b) Se na amostra final, como o tamanho obtido em (a), observou-se que 51% dos eleitores eram
favoráveis ao candidato, construa um intervalo de confiança para p, com confiança 95%.

Resumo baseado em Noções de Probabilidade e Estatística de Marcos Nascimento Magalhães e Antonio Carlos Pedroso de Lima
Exercícios da mesma obra.