Você está na página 1de 57

1

AULA 04
Estimativas e
Tamanhos Amostrais
Ernesto F. L. Amaral

27 de agosto de 2012

Faculdade de Filosofia e Cincias Humanas (FAFICH)


Universidade Federal de Minas Gerais (UFMG)

Fonte:
Triola, Mario F. 2008. Introduo estatstica. 10 ed. Rio de Janeiro: LTC. Captulo 7 (pp.250-303).
2

ESQUEMA DA AULA
Estimao da proporo populacional.

Estimao da mdia populacional: conhecido.

Estimao da mdia populacional: desconhecido.

Estimao da varincia populacional.


3

OBJETIVO DO CAPTULO
Neste captulo, so usados dados amostrais para obter
estimativas de parmetros populacionais, o que a essncia
da inferncia estatstica.
As duas principais aplicaes da inferncia estatstica
envolvem o uso de dados amostrais para:
Estimar o valor de um parmetro populacional
(propores, mdias, varincias).
Testar alguma afirmao (ou hiptese) sobre uma
populao.
So ainda apresentados mtodos para determinao dos
tamanhos amostrais necessrios para estimar esses
parmetros.
4

ESTIMAO DA PROPORO POPULACIONAL


5

ESTIMAO DA PROPORO POPULACIONAL


A inteno de usar uma proporo amostral para estimar o
valor de uma proporo populacional com um intervalo de
confiana.
So apresentados mtodos para encontrar o tamanho da
amostra necessrio para estimar a proporo populacional.
importante:
Entender o que so, o que fazem e por que so
necessrios os intervalos de confiana.
Desenvolver a habilidade de construir estimativas de
intervalos de confiana de propores populacionais.
Aprender como interpretar corretamente um intervalo de
confiana.
6

REQUISITOS
Sero considerados casos em que distribuio normal pode
ser usada para aproximar distribuio amostral de
propores amostrais.
Requisitos para mtodos de estimao de propores:
utilizada amostra aleatria simples.
Condies para distribuio binomial so satisfeitas: (1)
nmero fixo de tentativas; (2) tentativas independentes; (3)
duas categorias de resultados; e (4) probabilidades
permanecem constantes para cada tentativa.
H pelo menos 5 sucessos e pelo menos 5 fracassos.
Essa exigncia uma forma de garantir que np5 e nq5,
permitindo usar distribuio normal como aproximao
para a distribuio binomial.
7

NOTAO PARA PROPORES


p = proporo populacional.

= proporo amostral de x sucessos em uma


amostra de tamanho n.

= proporo amostral de fracassos em uma


amostra de tamanho n.

Esta seo se concentra na proporo populacional p, que


o mesmo que trabalhar com probabilidades e porcentagens.

Expresse porcentagens em forma decimal.


8

ESTIMATIVA PONTUAL
Se desejamos estimar proporo populacional com nico
valor, a melhor estimativa (estimativa pontual).
Estimativa pontual um nico valor usado para aproximar
um parmetro populacional.
Proporo amostral a melhor estimativa pontual da
proporo populacional p.
A estimativa pontual usada porque no-viesado e o
mais consistente dos estimadores que poderiam ser usados:
Distribuio das propores amostrais tende a centralizar
em torno do valor de p.
Propores amostrais no subestimam/superestimam p.
Desvio padro das propores amostrais tende a ser
menor do que desvios padres de outros estimadores.
9

POR QUE USAR INTERVALOS DE CONFIANA?


Como a estimativa pontual no diz o quo precisa ela , os
estatsticos desenvolveram o intervalo de confiana
(estimativa intervalar).
Intervalo de confiana (IC) uma faixa (ou intervalo) de
valores usada para estimar o verdadeiro valor de um
parmetro populacional.
A um intervalo de confiana associado um nvel de
confiana, por exemplo, 0,95 (ou 95%).
O nvel de confiana (NC) apresenta a taxa de sucesso do
procedimento usado para construir o intervalo de confiana.
Nvel de confiana expresso como probabilidade ou rea
(1), em que o complemento do nvel de confiana.
Quanto maior o NC, maior o IC.
10

NVEL DE CONFIANA
Nvel de confiana (grau de confiana ou coeficiente de
confiana) a proporo de vezes que o intervalo de
confiana realmente contm o parmetro populacional,
supondo que processo seja repetido vrias vezes.
As escolhas mais comuns para nvel de confiana so 90%
( = 0,10), 95% ( = 0,05) e 99% ( = 0,01).
Escolha de 95% mais comum porque resulta em bom
equilbrio entre preciso (largura do intervalo de confiana)
e confiabilidade (nvel de confiana).
Preciso (exatido) a qualidade de que o resultado da
amostra reflita o mundo real.
Confiabilidade a qualidade de uma determinada tcnica
produzir os mesmos resultados em vrias aplicaes.
11

INTERPRETAO DE INTERVALO DE CONFIANA


Por exemplo: n = 280; 0,381 < p < 0,497.
Correto: estamos 95% confiantes de que o intervalo de
0,381 a 0,497 realmente contm o verdadeiro valor de p.
Se selecionssemos muitas diferentes amostras de
tamanho 280 e construssemos os intervalos de confiana
correspondentes, 95% deles realmente conteriam o valor
da proporo populacional p.
O nvel de 95% se refere taxa de sucesso do processo
em uso para se estimar a proporo populacional, e no
se refere prpria proporo populacional.
Errado: como o valor de p fixo, incorreto dizer que h
uma chance de 95% de que o verdadeiro valor de p esteja
entre 0,381 e 0,497.
12

INTERPRETAO DE INTERVALO DE CONFIANA


Em qualquer ponto no tempo, h um valor de p fixo e
constante, e um intervalo de confiana construdo a partir de
uma amostra que inclui ou no inclui p.

O valor de p fixo, de modo que os limites do intervalo de


confiana ou contm ou no contm p, e por isso que
errado dizer que h uma chance de 95% de que p esteja
entre valores como 0,381 e 0,497.

Um nvel de confiana de 95% diz que o processo resultar,


a longo prazo, em limites de intervalo de confiana que
contenham a verdadeira proporo populacional 95% das
vezes.
13

EXEMPLO DE INTERVALOS DE CONFIANA


Intervalos de confiana a partir de 20 amostras diferentes.
Com 95% de confiana, esperamos que 19 das 20 amostras
resultem em intervalos de confiana que realmente
contenham o verdadeiro valor de p.
14

VALORES CRTICOS
O escore padro z ou valor crtico (z/2) separa propores
amostrais que tm chance de ocorrer das que no tm.

Os valores crticos se baseiam nestas observaes:


A distribuio amostral das propores amostrais pode
ser aproximada por uma distribuio normal.
Propores amostrais tm uma chance relativamente
pequena de cair em uma das caudas da curva normal.
Representando cada cauda por /2, h uma
probabilidade total de que uma proporo amostral caia
em uma das duas caudas.
H uma probabilidade de 1 de que uma proporo
amostral caia na regio entre os pontos crticos (+ e ).
15

VALORES CRTICOS NA DISTRIBUIO NORMAL PADRO


Valor crtico um nmero que separa estatsticas amostrais
que tm chance de ocorrer daquelas que no tm.
O nmero z/2 um valor crtico que separa uma rea /2 na
cauda direita da distribuio normal padronizada.
16

MAIS SOBRE VALORES CRTICOS


O valor de z/2 est na fronteira da cauda direita e o valor de
z/2 est na fronteira da cauda da esquerda.
Encontrando z/2 para um nvel de confiana especfico...
Valor
Nvel de
crtico
confiana
z/2
90% 0,10 1,645
95% 0,05 1,96
99% 0,01 2,575
17

MARGEM DE ERRO
Quando coletamos um conjunto de dados amostrais,
podemos calcular a proporo amostral, a qual tipicamente
diferente da proporo populacional.

A margem de erro (E) a diferena mxima provvel entre


a proporo amostral observada e o verdadeiro valor da
proporo populacional:
Isso ocorre quando dados de amostra aleatria simples
so usados para estimar uma proporo populacional.
tambm chamada de erro mximo da estimativa.
encontrada pela multiplicao do valor crtico pelo
desvio padro das propores amostrais.
18

MARGEM DE ERRO E INTERVALO DE CONFIANA


Margem de erro para propores calculada por:

H uma probabilidade de que a proporo amostral tenha


erro maior do que E.
Ou seja, ter probabilidade de 1 de estar a:
de p.
Intervalo de confiana para proporo populacional
representado por:
19

CONSTRUO DE INTERVALO DE CONFIANA


Verifique se requisitos so satisfeitos: (1) amostra aleatria
simples; (2) condies para distribuio binomial (tentativas
fixas, independentes, duas categorias, probabilidade
constante); e (3) h pelo menos 5 sucessos e 5 fracassos.
Ache o valor crtico que corresponde ao nvel de confiana
desejado. Se nvel de confiana 95%, z/2 = 1,96.
Calcule a margem de erro:

Use o valor da margem de erro e o valor da proporo


amostral para encontrar o intervalo de confiana:

Arredonde os limites do intervalo de confiana.


20

EXEMPLO DE CLCULO
Por exemplo, em 280 tentativas, houve 123 acertos:
n = 280
= 123/280 = 0,439286
= 1 0,439286 = 0,560714

A taxa de sucesso de 44%, com margem de erro de mais


ou menos 6% e nvel de confiana de 95% (geralmente
resultados eleitorais omitem o nvel de confiana).
21

FUNDAMENTOS PARA MARGEM DE ERRO


Distribuio amostral das propores aproximadamente
normal (np5 e nq5).
Parmetros da mdia e desvio padro so relativos a n
tentativas e so convertidos para a base por 1 tentativa pela
diviso por n.
Mdia das propores amostrais:

Desvio padro das propores amostrais:


22

COMO DEFINIR O TAMANHO AMOSTRAL?


Utilizando a frmula da margem de erro, chegamos a:

Se no conhecemos qualquer estimativa :

Se o tamanho amostral calculado no for um nmero inteiro,


arredonde-o para o inteiro maior mais prximo.
Quando a amostragem sem reposio, a partir de uma
populao finita relativamente pequena, utilize:
23

TAMANHO DA POPULAO
Para o clculo do tamanho da amostra, o tamanho da
populao usado somente em casos em que fazemos
amostragem sem reposio a partir de uma populao
relativamente pequena.

Outras observaes:
Se margem de erro desejada igual a 5%, E=0,05.
Se nvel de confiana desejada de 95%, z/2=1,96.
Assim:
24

DETERMINAO DE ESTIMATIVA PONTUAL E DE E


Se conhecemos os limites do intervalo de confiana, a
proporo amostral e a margem de erro podem ser
encontradas desta forma:

Estimativa pontual de p:

Margem de erro:
25

INTERVALO DE CONFIANA AJUSTADO DE WALD


O intervalo de confiana ajustado de Wald tem um melhor
desempenho por ter maior probabilidade de conter a
verdadeira proporo populacional.
Acrescente 2 ao nmero de sucessos x, acrescente 2 ao
nmero de fracassos e, ento, calcule o intervalo de
confiana.
Se x=10 e n=20:
Intervalo usual: 0,281 < p < 0,719
Intervalo ajustado de Wald com x=12 e n=24:
0,300 < p < 0,700
A chance de que o intervalo 0,300<p<0,700 contenha p
mais prxima de 95% do que a chance de 0,281<p<0,719.
26

INTERVALO DE CONFIANA DO ESCORE DE WILSON


Limite inferior do intervalo de confiana:

O limite superior do intervalo de confiana se expressa pela


mudana do sinal negativo pelo sinal positivo:

Usando x=10 e n=20, o intervalo de confiana do escore de


Wilson 0,290<p<0,701.
27

ESTIMAO DA MDIA POPULACIONAL:


CONHECIDO
28

ESTIMAO DA MDIA POPULACIONAL: CONHECIDO


Aqui so apresentados mtodos para usar dados amostrais
para se encontrar estimativa pontual e intervalo de confiana
para uma mdia populacional.
Requisitos:
Amostra aleatria simples (todas amostras de mesmo
tamanho tm igual chance de serem selecionadas).
Valor do desvio padro populacional () conhecido.
Uma ou ambas as condies seguintes so satisfeitas:
populao normalmente distribuda ou n>30.
Se n30, a populao no precisa ter uma distribuio
exatamente normal, mas deve ser prxima da normal.
Os mtodos dessa seo so robustos, no sendo
fortemente afetados por afastamentos da normalidade.
29

SUPOSIO DE TAMANHO AMOSTRAL REQUERIDO


Distribuio normal utilizada como distribuio das mdias
amostrais.
Se populao original no normalmente distribuda, as
mdias de amostras com n>30 tm uma distribuio prxima
da normal.
No possvel identificar tamanho amostral mnimo que
seja suficiente para todos casos.
Tamanho amostral mnimo depende de como distribuio
populacional se afasta de uma normal.
utilizado o critrio simplificado de n>30 como justificativa
para tratar distribuio das mdias amostrais como
distribuio normal.
30

MELHOR ESTIMATIVA DA MDIA POPULACIONAL


A mdia amostral a melhor estimativa pontual da mdia
populacional .

Para todas populaes, a mdia amostral um estimador


no-viesado da mdia populacional.
A distribuio das mdias amostrais tende a se
centralizar em torno do valor da mdia populacional.
Mdias amostrais no tendem a superestimar ou
subestimar o valor populacional.

Para muitas populaes, a distribuio das mdias


amostrais tende a ser mais consistente (menos variao) do
que as distribuies de outras estatsticas amostrais.
31

INTERVALO E NVEL DE CONFIANA, MARGEM DE ERRO


O intervalo de confiana permite compreender melhor a
preciso da estimativa da mdia amostral.
Este intervalo est associado a um nvel de confiana, o
qual indica a taxa de sucesso do procedimento usado para
construo do intervalo (confiabilidade).
Diferena entre a mdia amostral e a mdia populacional
um erro.
Margem de erro para a mdia, baseada em conhecido:

Com isso, calculamos os limites do intervalo de confiana:


ou ou
32

CONSTRUO DE INTERVALO DE CONFIANA


Verifique se: (1) temos uma amostra aleatria simples; (2)
conhecido; e (3) populao parece ser normal ou n>30.
Encontre o valor crtico z/2 que corresponde ao nvel
desejado de confiana (se nvel de confiana=95%, z=1,96).
Calcule margem de erro: E = z/2 * /n
Com valor da margem de erro e valor da mdia, ache
valores dos limites do intervalo de confiana:

Ao usar o conjunto original de dados, arredonde limites do


intervalo para uma casa decimal a mais do que as originais.
Ao usar estatsticas-resumo, arredonde limites para mesmo
nmero de casas decimais usados na mdia amostral.
33

INTERPRETANDO UM INTERVALO DE CONFIANA


Se temos 72,4<<80,2 com intervalo de confiana de 95%:
Correto:
Estamos 95% confiantes de que o intervalo de 72,4 a
80,2 realmente contenha o verdadeiro valor de .
Se selecionamos muitas amostras diferentes de mesmo
tamanho e construmos os intervalos de confiana
correspondentes, 95% deles realmente contero .
Essa a taxa de sucesso do processo usado para
estimar mdia populacional.
Errado:
Como constante fixa, errado dizer que h uma
chance de 95% de que esteja entre 72,4 e 80,2.
95% das mdias amostrais esto entre 72,4 e 80,2.
34

DISTRIBUIO DE MDIAS AMOSTRAIS


Distribuio de mdias amostrais com conhecido.
35

FUNDAMENTOS PARA INTERVALO DE CONFIANA


Construo de intervalos de confiana est baseada no
teorema central do limite, que diz que:
ao coletar amostras aleatrias simples de mesmo
tamanho de uma populao distribuda normalmente...
... as mdias amostrais so normalmente distribudas
com mdia e desvio padro /n.
Formato do intervalo de confiana vem de equao do TCL:
Utilize: ; ; .
Para obter: .
O uso de valores positivo e negativo de z resulta nos limites
do intervalo de confiana com que estamos trabalhando.
Com NC=95%, h probabilidade de 0,05 da mdia amostral
estar a mais ou a menos de 1,96 DP da mdia populacional.
36

TAMANHO AMOSTRAL PARA ESTIMAR MDIA


Determinao do tamanho de amostra aleatria simples
importante, porque amostras grandes gastam tempo e
dinheiro, e amostra pequenas levam a resultados imprecisos.
Frmula do tamanho amostral no depende do tamanho da
populao (N):

z/2 = escore z crtico com base no nvel de confiana.


E = margem de erro desejada.
= desvio padro populacional.
Caso de amostra sem reposio de populao finita:
37

LIDANDO COM DESCONHECIDO


Geralmente o desvio padro populacional desconhecido.
Use a regra emprica da amplitude para estimar o desvio
padro ( amplitude/4).
Esse valor maior ou igual ao real pelo menos 95%
das vezes.
Realize estudo piloto: comece processo de coleta da
amostra e com base nos primeiros valores, calcule o desvio
padro amostral (s) e use-o no lugar de .
Esse valor pode ser melhorado medida que mais
dados so obtidos.
Estime valor de com resultados de estudos anteriores.
Ao calcular n, erros devem ser conservadores, no sentido
de aumentar tamanho amostral em vez de diminuir.
38

ESTIMAO DA MDIA POPULACIONAL:


DESCONHECIDO
39

ESTIMAO DA MDIA POPULACIONAL: DESCONHECIDO


So apresentados mtodos para determinar intervalo de
confiana de mdia populacional quando o desvio padro da
populao no conhecido.
Requisitos:
Amostra aleatria simples (todas amostras de mesmo
tamanho tm igual chance de serem selecionadas).
Amostra provm de populao normalmente distribuda
ou n>30.
Uma populao pode ser considerada normalmente
distribuda se dados amostrais no tiverem valores extremos
(outliers) e histograma for prximo de normal.
O tamanho da amostra depende de quanto a distribuio se
afasta de uma distribuio normal.
40

MELHOR ESTIMATIVA DA MDIA POPULACIONAL


A mdia amostral continua sendo a melhor estimativa
pontual da mdia populacional .

Se no conhecido, mas requisitos so satisfeitos,


usamos distribuio t de Student (em vez de distribuio
normal).

O valor de estimado com o valor do desvio padro


amostral (s), mas isso introduz fonte de no-confiabilidade,
principalmente quando amostras so pequenas.

Isso compensado fazendo o intervalo de confiana um


pouco mais largo, com os valores crticos t/2 que so
maiores do que os valores crticos z/2.
41

DISTRIBUIO t DE STUDENT
Se uma populao tem distribuio normal, ento a
distribuio t de Student para todas amostras de tamanho n
representada por:

Para encontrar o valor crtico de t/2, precisamos saber o


nmero apropriado de graus de liberdade.
O nmero de graus de liberdade para um conjunto de
dados amostrais o nmero de valores amostrais que
podem variar depois que certas restries (como a mdia)
tiverem sido impostas aos dados amostrais:
graus de liberdade = n 1
42

MARGEM DE ERRO E INTERVALO DE CONFIANA


Para calcular margem de erro E para estimativa de com
desconhecido, onde t/2 tem n1 graus de liberdade:

Intervalo de confiana para estimativa de com


desconhecido:
43

CONSTRUO DE INTERVALO DE CONFIANA


Verifique se os requisitos so satisfeitos: (1) amostra
aleatria simples; e (2) populao prxima de distribuio
normal ou n>30.
Usando n1 graus de liberdade, ache valor crtico t/2,
correspondente ao nvel de confiana.
Calcule margem de erro:
Use valor da margem de erro e valor da mdia amostral e
ache os valores dos limites do intervalo de confiana:

Arredonde os limites do intervalo de confiana resultante.


44

DISTRIBUIO t DE STUDENT PARA n=3 E n=12


Distribuio t de Student tem a mesma forma geral da
distribuio normal padro, mas reflete a maior variabilidade
que se espera com amostras pequenas.
45
ESCOLHA DA DISTRIBUIO APROPRIADA

Mtodos no-paramtricos e bootstrap no fazem


suposies sobre populao original.
46

DETERMINAO DE ESTIMATIVA PONTUAL E DE E


Se conhecemos os limites do intervalo de confiana, a
mdia amostral e a margem de erro podem ser encontradas
desta forma:

Estimativa pontual de :

Margem de erro:
47

USO DE INTERVALOS DE CONFIANA


Intervalo de confiana pode ser usado para:
Estimar o valor de um parmetro populacional.
Descrever, explorar ou comparar conjuntos de dados.
. proportion x001

Proportion estimation Number of obs = 79946

Proportion Std. Err. [95% Conf. Interval]

x001
male .4969604 .0017683 .4934945 .5004264
female .5030396 .0017683 .4995736 .5065055

Porm, intervalos de confiana no devem ser usados para


se tirarem concluses finais sobre igualdade de mdias.
48

ESTIMAO DA VARINCIA POPULACIONAL


49

ESTIMAO DA VARINCIA POPULACIONAL


So apresentados mtodos para:
Encontrar intervalo de confiana para um desvio padro
ou varincia populacional.
Determinar tamanho amostral necessrio para estimativa
do desvio padro () ou varincia populacional (2).
Requisitos:
Amostra aleatria simples.
Populao deve ter valores normalmente distribudos,
mesmo que amostra seja grande.
Afastamento da distribuio normal pode levar a erros
grosseiros.
Distribuio qui-quadrado usada para encontrar intervalo
de confiana para ou 2.
50

DISTRIBUIO QUI-QUADRADO
Suponha que populao:
Seja normalmente distribuda.
Tenha varincia populacional (2).
Desta populao:
So selecionadas amostras aleatrias independentes de
tamanho n.
So calculadas a varincia amostral (s2).
Esta estatstica amostral tem distribuio qui-quadrado:

A distribuio (2) determinada pelos graus de liberdade,


por enquanto, calculada como n 1.
51

PROPRIEDADES DA DISTRIBUIO QUI-QUADRADO


52

MAIS PROPRIEDADES
medida que graus de liberdade aumentam, distribuio
qui-quadrado se aproxima de distribuio normal
53

VALORES CRTICOS DA DISTRIBUIO QUI-QUADRADO


Na Tabela A-4, cada valor crtico de 2 corresponde rea
acumulada direita do valor crtico (ex.: n=10; rea=0,025).

Para amostra de
tamanho n=10,
extrada de
populao
normalmente
distribuda, a
estatstica 2 tem
probabilidade 0,95
de estar entre
valores crticos de
2,700 e 19,023.
54

ESTIMADORES DE 2 E
A varincia amostral s2 a melhor estimativa pontual da
varincia populacional.
Intervalo de confiana para varincia populacional:

O desvio padro amostral s comumente usado como


estimativa pontual de , mesmo sendo estimador viesado.
Intervalo de confiana para desvio padro populacional:

Sendo: 2E (valor crtico da cauda esquerda) e 2D (valor


crtico da cauda direita).
55

DISTRIBUIO QUI-QUADRADO
Valores crticos 2E e 2D separam reas extremas que
correspondem s varincias amostrais que so improvveis,
com probabilidade .
56

CONSTRUO DE INTERVALO DE CONFIANA


Verifique se requisitos so satisfeitos: (1) amostra aleatria
simples; e (2) histograma ou grfico dos quantis normais
sugere populao muito prxima da distribuio normal.
Usando n 1, ache valores crticos 2E e 2D, que
correspondem ao nvel de confiana desejado.
Calcule os limites superior e inferior do intervalo de
confiana:

Faa o mesmo para o desvio padro (raiz quadrada).


Arredonde limites do intervalo de confiana resultantes.
Superposio de intervalos de confiana no deve ser
usada para tirar concluses sobre igualdade de varincias.
57

TAMANHO AMOSTRAL