Escolar Documentos
Profissional Documentos
Cultura Documentos
Inferencia Estatistica
Inferencia Estatistica
2
amostral recebe o smbolo s ; s
(usa-se n - 1 no denominador quando se
n 1
1
A reposio garante que as probabilidades de selecionar um determinado elemento permanecem constantes, uma vez
que o espao amostral permanece o mesmo. Quando o tamanho da amostra menor ou igual a 5% do tamanho da
populao, mesmo que no haja reposio supe-se que as probabilidades no se modificam substancialmente.
2
Este item foi visto com grande profundidade no Captulo 2.
trata de uma amostra)3. O desvio padro a raiz quadrada positiva da varincia, tendo portanto
uma unidade que igual unidade da mdia, sendo muitas vezes preferida para efeito de
mensurao da disperso.
Proporo: consiste em calcular a razo entre o nmero de ocorrncias do valor de interesse de
uma varivel qualitativa e o nmero total de ocorrncias registradas no conjunto (de todos os
valores que a varivel pode assumir); quando uma proporo populacional recebe o smbolo ;
quando uma proporo amostral recebe o smbolo p.
Os valores das medidas de sntese, alm de resumirem o conjunto de dados, constituem uma
indicao dos provveis valores dos parmetros. Assim, em estudos baseados em amostras,
comum utilizar tais medidas de sntese como estatsticas que sero utilizadas para estimar os
parmetros do modelo probabilstico que descreve a populao.
H uma razo matemtica para isso: garantir que o valor amostral seja um estimador no viciado do valor
populacional (maiores detalhes no item Estimao por Ponto).
Por hora, basta conhecer as distribuies amostrais das estatsticas mdia de uma varivel
quantitativa qualquer, e proporo de um dos dois nicos resultados de uma varivel qualitativa.
Exemplo 9.14- Suponha uma varivel quantitativa cujos valores constituem uma populao com os
seguintes valores: (2, 3, 4, 5)
Para esta populao, que tem uma distribuio uniforme, podemos observar que os parmetros so:
2
= 3,5
= 1,25 (usou-se n no denominador por ser uma populao)
Se retirarmos todas as amostras aleatrias de 2 elementos (com reposio) possveis desta
populao (n = 2), teremos os seguintes resultados5:
(2, 2)
(2, 3)
(2, 4)
(2, 5)
(3, 2)
(3, 3)
(3, 4)
(3, 5)
(4,2)
(4, 3)
(4, 4)
(4, 5)
(5, 2)
(5, 3)
(5, 4)
(5, 5)
(2,0)
_ ( 2,5)
X
(3,0)
(3,5)
(3,5)
(3,0) (3,5) (4,0)
(2,5) (3,0)
Se forem calculados a mdia e a varincia das mdias de todas as amostras o resultado ser:
_
1,25 2
V( x ) 0,625
X 56 / 16 3,5
2
n
Observe como a distribuio das mdias amostrais da varivel pode ser aproximada por uma
distribuio normal (no obstante a distribuio da varivel na populao no ser normal), e que o
4
5
valor esperado das mdias amostrais (mdia das mdias) IGUAL ao valor da mdia populacional
da varivel e a varincia das mdias amostrais IGUAL ao valor da varincia populacional da
varivel dividida pelo tamanho da amostra6. Quanto maior o tamanho da amostra (quanto maior n)
mais o histograma acima aproximar-se- de uma distribuio normal, independentemente do
formato da distribuio da varivel na populao.
Vamos ver outro exemplo.
Frequency
Exemplo 9.2 - Na Figura 3 abaixo temos a distribuio populacional de uma varivel quantitativa
qualquer de interesse. Ela apresenta mdia populacional () igual a 416,99, e varincia populacional
(2) igual a 89554,51264.
Observe que a distribuio ASSIMTRICA,
ou seja, no normal! Vamos imaginar que
seja possvel retirar vrias amostras aleatrias
70
(com reposio) desta populao, medir os
60
valores da varivel e calcular a mdia da
50
varivel em cada amostra. Posteriormente
40
construiremos um histograma das mdias das
30
amostras, e calcularemos a mdia das mdias e
20
a varincia das mdias.
10
0
0
Dados 2
Frequency
20
10
0
0
250
500
750
1000
Mdias amostras n =2
Obviamente o tamanho da amostra utilizada (2 elementos) ainda no foi grande o bastante para
levar aos resultados obtidos no Exemplo 9.1 (provavelmente porque a distribuio da populao
assimtrica). Vamos agora ver os resultados obtidos para 40 amostras aleatrias de 4 elementos
cada. O histograma das mdias est na Figura 5.
6
7
Voltaremos a analisar o significado destes resultados quando estudarmos a Estimao por Ponto.
A retirada das amostras foi efetuada atravs do pacote estatstico Minitab.
Frequency
20
10
0
200
350
500
650
800
Mdias amostras n= 4
Novamente o tamanho da amostra utilizada (4 elementos) ainda no foi grande o bastante para levar
aos resultados obtidos no Exemplo 9.1 Vamos agora ver os resultados obtidos para 40 amostras
aleatrias de 16 elementos cada. O histograma das mdias est na Figura 6.
Frequency
10
0
260
320
380
440
500
70
60
Frequency
50
40
30
20
10
0
300
360
420
480
540
(,)
(,)
(,)
(, )
(,)
(,)
(,)
(,)
(, )
(,)
(,)
(,)
(,)
(, )
(,)
(,)
(,)
(,)
(, )
(, )
(, )
(, )
(, )
(, )
Observe que se definirmos a varivel como o nmero de sucessos (nmero de ) esta ter
uma distribuio binomial: h apenas dois resultados possveis para cada realizao, h um nmero
limitado de realizaes (n = 2 no caso), e cada realizao independe da outra (porque a amostra
aleatria com reposio).
Calculando a proporo de em cada uma das amostras, e chamando esta proporo
amostral de p, teremos os seguintes resultados:
Este suficientemente grande varia de distribuio para distribuio, como foi visto uma distribuio uniforme
precisa de uma amostra pequena (n =2 no caso) para que a aproximao seja possvel, outras distribuies precisam de
amostras maiores. Alguns autores costumam chamar de grandes amostras aquelas que possuem mais de 30 elementos,
a partir deste tamanho a aproximao poderia ser feita sem maiores preocupaes.
9
Elaborado pela professora Carmen Dolores de Freitas de Lacerda.
10
H 25 amostras possveis.
(0)
(0)
(0)
(0)
(1 / 2)
(0)
(0)
(0)
(0)
(1 / 2)
p (0)
(0)
(0)
(0)
(1 / 2)
(0)
(0)
(0)
(0)
(1 / 2)
(1 / 2) (1 / 2) (1 / 2) (1 / 2)
(1)
X E ( p)
5
2
n
Observe que o valor esperado (mdia) das propores amostrais IGUAL ao valor da
proporo populacional de , e que a varincia das propores amostrais IGUAL ao produto da
proporo populacional de por seu complementar, dividido pelo tamanho da amostra11.
Lembrem-se de que uma distribuio binomial pode ser aproximada por uma distribuio
normal se algumas condies forem satisfeitas: se o produto do nmero de realizaes pela
probabilidade de sucesso (n x p) E o produto do nmero de realizaes pela probabilidade de
fracasso (n x [1 - p]) forem ambos maiores ou iguais a 512. E esta distribuio normal teria mdia
igual a n x p e varincia igual a n x p x (1 - p). Se estamos interessados apenas na proporo
(probabilidade de sucesso) e no no nmero de sucessos as expresses anteriores podem ser
divididas por n (o tamanho da amostra): mdia igual a p e varincia igual a [p x (1- p) / n].
Por causa do Teorema do Limite Central que a distribuio normal to importante.
claro que ela representa muito bem uma grande variedade de fenmenos, mas devido sua
utilizao generalizada em Inferncia Estatstica que o seu estudo imprescindvel. Ressalte-se,
porm que a sua aplicao costuma resumir-se ao que se chama de Inferncia Paramtrica,
inferncias sobre os parmetros dos modelos probabilsticos que descrevem as variveis na
populao. Para fazer inferncias sobre outros aspectos que no os parmetros, ou quando as
amostras utilizadas no forem suficientemente grandes para se assumir a validade do Teorema do
Limite Central, preciso usar tcnicas de Inferncia No Paramtrica (que ns no veremos nesta
disciplina).
11
12
Voltaremos a analisar o significado deste resultado quando estudarmos Estimao por Ponto.
Isto tambm decorrncia do Teorema Central do Limite.
Como os parmetros sero estimados atravs das estatsticas (estimadores) de uma amostra
aleatria, e como para cada amostra aleatria as estatsticas apresentaro diferentes valores, os
estimadores tambm tero valores aleatrios. Em outras palavras um Estimador uma varivel
aleatria que segue uma distribuio de probabilidades.
Naturalmente haver vrias estatsticas T que podero ser usadas como estimadores de um
parmetro . Como escolher qual das estatsticas ser o melhor estimador para o parmetro?
H basicamente trs critrios para a escolha de um estimador: o estimador precisa ser justo,
consistente e eficiente13.
Um Estimador T um estimador justo (no tendencioso) de um parmetro quando o valor
esperado de T igual ao valor do parmetro a ser estimado: E(T) =
Na realidade h mais critrios, mas estes so os mais importantes, maiores detalhes em COSTA NETO, P.O.
Estatstica, Ed. Edgard Blcher, 1978.
14
Ambas exigem que experimento seja um experimento de Bernoulli: que tenha (ou possa ser reduzido) a apenas 2
resultados possveis complementares.
uma faixa de possveis valores, e a probabilidade de que esta faixa realmente contenha o valor real
do parmetro. A probabilidade de que o Intervalo de Confiana no contenha o valor real do
parmetro chamada de Nvel de Significncia (), e o valor desta probabilidade ser o
complementar do Nvel de Confiana. comum definir o Nvel de Significncia como uma
probabilidade mxima de erro, um risco mximo admissvel.
A determinao do Intervalo de Confiana para um determinado parmetro resume-se
basicamente a definir o Limite Inferior e o Limite Superior do intervalo, supondo um determinado
Nvel de Confiana (ou Significncia). A definio dos limites depender tambm da distribuio
amostral da estatstica usada como referncia para o intervalo e do tamanho da amostra utilizada.
Para os dois parmetros em que temos maior interesse (mdia populacional e proporo
populacional ) a distribuio amostral dos estimadores (mdia amostral x e proporo amostral p,
respectivamente) pode ser aproximada por uma distribuio normal: o Intervalo de Confiana ser
ento simtrico em relao ao valor calculado da estimativa (mdia ou proporo amostral), com
base na amostra aleatria coletada:
16
Foram colocados entre aspas porque os valores dependero dos parmetros sob anlise e de outros fatores.
normal com mdia igual a zero (lembrando que a distribuio normal simtrica em relao
mdia) os valores de Z1 e Z2 sero iguais em mdulo (Z1 ser negativo e Z2 positivo):
=>
2
, e, por conseguinte, o desvio padro ser desvio padrao
V( x )
n
n
17
n
Bastar ento fixar o Nvel de Confiana (ou de Significncia) para obter Zcrtico e calcular e0.
e0 Zcritico
E e0 ser:
18
Esta a correo propriamente dita, pois ao usar pequenas amostras o risco de que a varincia amostral da varivel
seja diferente da varincia populacional maior, podendo levar a intervalos de confiana que no correspondem
realidade. A no utilizao desta correo foi a fonte de muitos erros no passado, e, infelizmente, de ainda alguns erros
no presente.
19
Para tamanhos de amostra maiores do que 30 supe-se que a varincia de t igual a 1: por isso a aproximao do
item b.1.
e 0corrigido e 0
Nn
N 1
(1 )
. Novamente, como desconhecido,
n
usaremos a proporo amostral p como aproximao.
E o valor do desvio padro ser igual a
p (1 p)
n
Bastar ento fixar o Nvel de Confiana (ou de Significncia), Zcrtico e calcular e0.
Ento e0 ser:
e0 Zcritico
e 0corrigido e 0
Nn
N 1
isolando n:
e0 Zcritico
n critico
e0
n
Neste caso basta especificar o valor de e0 (na mesma unidade do desvio padro populacional
), e o Nvel de Confiana (que ser usado para encontrar o Zcrtico) e calcular o tamanho mnimo
de amostra.
b) Varincia populacional desconhecida
2
s
t
s
isolando n:
e0 t n 1, critico
n n 1, critico
e0
n
O procedimento neste caso seria semelhante exceto por um pequeno problema: se estamos
calculando o tamanho da amostra como podemos conhecer n - 1 e o desvio padro amostral s?
Quando a varincia populacional da varivel desconhecida o usual retirar uma amostra
piloto com um tamanho n* arbitrrio. A partir dos resultados desta amostra so calculadas as
estatsticas (entre elas o desvio padro amostral s) que so substitudas na expresso acima.
Se n n* ento a amostra piloto suficiente para o Nvel de Confiana e a preciso
exigidos.
Se n > n* ento a amostra piloto insuficiente para o Nvel de Confiana e a preciso
exigidos, sendo ento necessrio retornar populao e retirar os elementos para completar o
tamanho mnimo de amostra. O processo continua at que a amostra seja considerada suficiente.
9.5.2 - Tamanho Mnimo de Amostra para Estimao por Intervalo da proporo
populacional
Para a proporo populacional teremos:
p (1 p)
e0 Zcritico
n
isolando n:
n critico p (1 p)
e0
necessrio especificar o Nvel de Confiana (ou de Significncia) que ser usado para
encontrar o Zcrtico, e o valor de e0 (tomando o cuidado de que tanto e0 quanto p e 1- p estejam
todos como propores adimensionais ou como percentuais) para que seja possvel calcular o valor
do tamanho mnimo de amostra.
Da mesma forma que no caso da Estimao da mdia quando a varincia populacional
desconhecida teremos que recorrer uma amostra piloto, procedendo de forma semelhante letra b)
do item 9.5.1. No clculo do tamanho mnimo de amostra para a Estimao por Intervalo da
proporo populacional h, porm uma soluo alternativa: utiliza-se uma estimativa exagerada20 da
amostra, supondo o mximo valor possvel para o produto p (1 - p), que ocorrer quando ambas
as propores forem iguais a 0,5 (50%).
20
Esta soluo somente usada quando a natureza da pesquisa tal que no possvel retirar uma amostra piloto: a
retirada de uma amostra piloto e a eventual retirada de novos elementos da populao poderiam prejudicar muito o
resultado da pesquisa. Paga-se ento o preo de ter uma amostra substancialmente maior do que talvez fosse necessrio.
1,168kg
n
4
LS x e0 8,2 1,168 9,368kg
LI x e0 8,2 1,168 7,032kg
7) Ento o intervalo de 99% de confiana para a mdia populacional da dimenso
[7,032;9,368] kg.
Interpretao: h 99% de probabilidade de que a verdadeira mdia populacional do peso
de corte esteja entre 7,032 e 9,368 kg.
b) Como a varincia populacional DESCONHECIDA, e o tamanho da amostra menor do que
30 elementos, no obstante a populao ter distribuio normal, a distribuio amostral da mdia
ser t de Student, e a varivel de teste ser tn-1. Assim ser usada a seguinte expresso para
calcular o tamanho mnimo de amostra para a estimao por intervalo da mdia populacional.
21
Este valor pode ser arbitrado pelo usurio ou pode ser uma exigncia do problema sob anlise, ou at mesmo uma
exigncia legal. Os nveis de significncia mais comuns so de 1%, 5% ou mesmo 10%.
s
t
n n 1, critico
e0
O nvel de significncia o mesmo do item a. Sendo assim, o valor crtico continuar sendo o
mesmo: tn-1,crtico = 5,84. O desvio padro amostral vale 0,4 kg, e o valor de e0, a preciso, foi
fixado em 0,2 kg. Basta ento substituir os valores na expresso:
2
s 5,84 0,4
t
n n 1, critico
136,42 137 elementos
e0
0,2
Observe que o tamanho mnimo de amostra necessrio para atender a 1% de significncia e
preciso de 0,2 kg deveria ser de 137 elementos. Como a amostra coletada possui apenas 4
elementos ela INSUFICIENTE para a significncia e preciso exigidas. Recomenda-se o retorno
populao para a retirada aleatria de mais 133 espcimes.
2
Exemplo 9.5 - Retirou-se uma amostra aleatria de 1000 peas de um lote. Verificou-se que 35
eram defeituosas.
a) Determinar um intervalo de confiana de 95% para a proporo peas defeituosas no lote.
b) Supondo 99% de confiana e preciso de 1%, esta amostra suficiente para estimar a proporo
populacional
a) Seguindo o roteiro do Apndice:
1) O parmetro de interesse a proporo populacional de peas defeituosas.
2) Adotou-se um nvel de significncia de 5%, ento = 0,05 e 1 - = 0,95
3) As estatsticas so: proporo amostral de peas defeituosas p = 35/1000 n = 1000
elementos.
4) Definio da varivel de teste: precisamos verificar se possvel fazer a aproximao
pela normal, ento n x p = 1000 x 0,035 = 35 > 5 e n x (1- p) = 1000 x 0,965 = 965 > 5.
Como ambos os produtos satisfazem as condies para a aproximao podemos usar a
varivel Z da distribuio normal padro
5) Encontrar o valor de Zcrtico : como o Intervalo de Confiana para a mdia bilateral,
teremos uma situao semelhante da figura abaixo:
Para encontrar o valor crtico
devemos procurar na tabela da
distribuio normal padro pela
probabilidade 0,975 (0,95+0,025) O
valor da probabilidade pode ser
visto na figura ao lado: os valores
crticos sero Z0,025 e Z0,975 os quais
sero iguais em mdulo. E o valor
de Zcrtico ser igual a 1,96 (em
mdulo).
6) Passa-se agora a determinao dos limites do intervalo, atravs da expresso abaixo
(cujo resultado ser somado e subtrado da proporo amostral de peas defeituosas) para
determinar os limites do intervalo:
p (1 p)
0,035 0,965
1,96
0,0114
n
1000
LS p e0 0,035 0,0114 0,0464
LI p e0 0,035 0,0114 0,0236
e0 Zcritico
n critico p (1 p)
e0
Os valores de p e 1 - p j so conhecidos: p = 0,035
1 - p = 0,965
O nvel de confiana exigido de 99%: para encontrar o valor crtico devemos procurar na tabela
da distribuio normal padro pela probabilidade 0,995 (0,99+0,005); os valores crticos sero
Z0,005 e Z0,995 os quais sero iguais em mdulo. E o valor de Zcrtico ser igual a 2,58 (em mdulo).
A preciso foi fixada em 1% (0,01). Substituindo os valores na expresso acima:
2
2,58
n critico p (1 p)
0,035 0,965 2248,14 2249
0,01
e0
Observe que o tamanho mnimo de amostra necessrio para atender a 99% de confiana e preciso
de 1% deveria ser de 2249 elementos. Como a amostra coletada possui apenas 1000 elementos ela
INSUFICIENTE para a confiana e preciso exigidas. Recomenda-se o retorno populao para
a retirada aleatria de mais 1249 peas.
2
"EMPATE TCNICO"
Estamos acostumados a ouvir declaraes do tipo "os candidatos A e B esto tecnicamente
empatados na preferncia eleitoral". O que significa isso? Geralmente as pesquisas de opinio
eleitoral consistem em obter as propores de entrevistados que declara votar neste ou naquele
candidato, naquele momento. Posteriormente as propores so generalizadas estatisticamente para
a populao, atravs do clculo de intervalos de confiana para as propores de cada candidato. Se
os intervalos de confiana das propores de dois ou mais candidatos apresentam grandes
superposies declara-se que h um "empate tcnico": as diferenas entre eles devem-se
provavelmente ao acaso, e para todos os fins esto em condies virtualmente iguais, naquele
momento.
Exemplo 9.6 - Imagine que uma pesquisa de opinio eleitoral apresentasse os seguintes resultados
(intervalos de confiana para a proporo que declara votar no candidato) sobre a prefeitura do
municpio de Tapioca. Quais candidatos esto tecnicamente empatados?
Opinio
Limite inferior %
Limite superior %
Godofredo Astrogildo
31%
37%
Filismino Arquibaldo
14%
20%
Urraca Hermengarda
13%
19%
Salustiano Quintanilha
22%
28%
Indecisos
11%
17%
Filismino e Urraca esto tecnicamente empatados, pois seus intervalos de confiana apresentam
grande sobreposio. Godofredo est muito na frente, pois o limite inferior de seu intervalo
maior do que o limite superior de Salustiano, que est em segundo lugar. importante ressaltar
que o nmero de indecisos razovel, variando de 11 a 17%, quando eles se decidirem podero
mudar completamente o quadro da eleio, ou garantir a vitria folgada de Godofredo.