Escolar Documentos
Profissional Documentos
Cultura Documentos
Estratificada
9.1. Introdução
com
2
Portanto, com o mesmo tamanho da amostra consegue-se diminuir a
variância do estimador em mais da metade.
Finalmente,
com
3
Exemplo:
Uma região possui 60 municípios e deseja fazer uma amostragem para atualizar
a estimativa do total de sua população. Para isso foi decidido pesquisar 20
cidades e deseja-se saber qual seria o mais eficiente para o caso: uma
amostra aleatória simples (AAS), uma amostra aleatória estratificada (AAE)
com alocação proporcional ou uma AAE com alocação igual. As cidades
foram agrupadas em dois estratos segundo a população apurada no último
Censo (cidades grandes: mais de 300 mil habitantes; e cidades pequenas:
menos de 300 mil habitantes). A tabela mostra essa estratificação e as
populações, no censo, em milhares de habitantes.
(9.1)
4
características populacionais e algumas funções paramétricas populacionais
através da Tabela 9.1.
5
de modo que a média global é a média ponderada dos estratos. Um
resultado bastante importante e também conhecido, envolvendo formas
quadráticas, estabelece que (veja o Exercício 4.30)
(9.3) ,
que permite escrever
(9.4) ,
ou ainda
onde
6
ou para estratos relativamente grandes,
onde 𝑆𝑑2 = ∑𝐻 2
ℎ=1 𝑊ℎ 𝑆ℎ . Convém observar que quando todos os estratos têm a
mesma média, ou seja, 𝜇ℎ = 𝜇, ℎ = 1, . . . , 𝐻, a variância populacional 𝜎 2
coincide com 𝜎𝑑2 .
Quanto maior for 𝜎𝑒2 , maior é a diferença 𝜎 2 − 𝜎𝑑2 .
Para se obter informação sobre as funções paramétricas de interesse, uma
amostra 𝒔𝒉 é selecionada do estrato 𝒉, 𝒉 = 𝟏, . . . , 𝑯, de acordo com algum
plano amostral especificado 𝑨𝒉 , 𝒉 = 𝟏, . . . , 𝑯. Como no caso da AAS (ver
Definição 2.6), tem-se associado com a seleção da amostra no h-ésimo
estrato as variáveis aleatórias
(9.5)
que assumem os valores 𝑌ℎ1 , … , 𝑌ℎ𝑁ℎ com probabilidades dependendo do plano
amostral utilizado.
tem-se que
7
Antes de terminar é importante lembrar algumas propriedades de variáveis
aleatórias (ver Bussab e Morettin, 2004, Capítulo 8). Se 𝑋1 , . . . , 𝑋𝐻 são variáveis
aleatórias independentes, então para
(9.6)
e
(9.7)
8
é um estimador não viesado da média populacional 𝝁 e
Corolário 9.2 Considere agora que, dentro de cada estrato, a amostra foi
sorteada por um processo AASc e que 𝝁 ̅𝒉 . Então, tem-se para as duas
̂𝒉 = 𝒚
situações acima as seguintes fórmulas:
9
Considere também uma primeira situação em que em ambos os estratos
usou-se AASs, com 𝒏𝟏 = 𝟏 e 𝒏𝟐 = 𝟐 (alocação 𝑨𝑳𝟏 ), ou seja, 𝒏 = 𝟑.
Usando os resultados do Teorema 4.1 tem-se
(9.8)
,
que é estimado por
10
Prova. Partindo da média 𝑦̅𝑒𝑠 e da expressão (9.8) tem-se
E que
(9.9)
Como dentro de cada estrato, 𝒔𝟐𝒉 é um estimador não viesado para 𝝈𝟐𝒉 ,
então
11
OBS.: 𝒌 = 𝒏/𝑯.
Prova. Basta aplicar as especificações acima nos resultados do Corolário 9.2.
(9.10)
onde 𝑐0 denota o custo inicial, 𝑐ℎ o custo por unidade observada no estrato ℎ e
𝐶 ′ o custo variável. De acordo com o Teorema 9.2, escreve-se
Teorema 9.3 Na AE com a função de custo linear, temos que 𝑽𝒆𝒔 é mínimo para
𝑪′ fixado ou 𝑪′ é mínimo para 𝑽𝒆𝒔 fixado se
(9.12)
Corolário 9.4
i. Para 𝐶′ fixado, o tamanho ótimo da amostra é dado por
(9.18)
12
(9.19)
onde 𝑊ℎ = 𝑁ℎ /𝑁, como antes.
Corolário 9.5 Para o caso em que o custo (uniforme) por unidade observada
em todos os estratos seja fixado em 𝒄, isto é,
(9.20)
ℎ = 1, . . . , 𝐻.
(9.21)
Onde 𝜎̅ = ∑𝐻 𝑊
ℎ=1 ℎ ℎ𝜎 é um desvio padrão médio dentro de cada estrato. A
alocação (9.20) é usualmente conhecida por alocação ótima de Neyman.
Neste caso, o número de unidades a serem observadas no estrato 𝒉 é
proporcional a 𝑵𝒉 𝝈𝒉 .
(9.22)
corresponde à AE com alocação proporcional. E para a alocação ótima com 𝑛
fixo, temos a variância 𝑉𝑜𝑡 dada por (9.21).
13
Prova. De acordo com (9.4), tem-se que
(9.23)
Então, 𝜎 2 em (9.23) pode ser escrita como
Consequentemente, escreve-se
Por construção, sabe-se que 𝑉𝑜𝑡 ≤ 𝑉𝑝𝑟 . Por outro lado, (veja o Exercício 4.31)
(9.24)
(9.25)
14
Ou seja, se 𝟏/𝐍𝐡 for desprezível, o plano estratificado proporcional produz
variâncias sempre menores que aquelas produzidas por uma AASc de
mesmo tamanho, e este ganho é maior quanto maior for 𝛔𝟐𝐞 , isto é, quanto
maior for a diferença entre as médias dos estratos. Para amostras muito
grandes, o lucro desaparece.
(9.26)
(9.27) ,
onde 𝑤ℎ = 𝑛ℎ /𝑛, ℎ = 1, . . . , 𝐻. Observando-se a expressão acima verifica-se
a dificuldade em se concluir se a mesma é maior ou menor do que 1.
Usualmente o processo de estratificação leva a uma maior
homogeneização dos dados, de modo que 𝝈𝒉 /𝝈 < 𝟏 e por estar elevado ao
quadrado poderia anular situações onde 𝑾𝒉 /𝒘𝒉 > 𝟏, o que levaria ao
15
somatório acima ser menor do que 1, ou seja, a variância da AE seria menor
do que a variância obtida com o plano AASc. Entretanto é possível construir
contra-exemplos onde isso não se verifica (ver Exercício 4.34).
(9.28)
(9.29)
Como 𝝈𝟐𝒉 não é conhecido nas expressões (9.28) e (9.29), ele é substituído
por seu estimador não viciado 𝒔𝟐𝒉 , considerado na Seção 9.1. Usando o
mesmo enfoque da Seção 3.2.4, temos que um intervalo de confiança para 𝝁
com coeficiente de confiança aproximadamente igual a 𝟏 − 𝜶 é dado por
onde
(9.30)
16
(8.31)
2
onde 𝐷 = 𝐵 /𝑧𝛼2
, como antes. A correspondente expressão para 𝑛 no caso da
estimação do total populacional é considerada no Exercício 4.28. OBS.: Para
𝑛𝑊 𝑛
AASs, basta considerar o fator (1 − 𝑓ℎ ) = (1 − 𝑁 ℎ ) = (1 − 𝑁ℎ ).
ℎ ℎ
Logo,
𝝈𝟐𝒉
∑𝑯 𝟐
𝒉=𝟏 𝑾𝒉 𝒂𝒉
𝑛= .
𝟏
𝑉 + ∑𝑯 𝑾 𝝈𝟐
𝑵 𝒉=𝟏 𝒉 𝒉
𝑊ℎ 𝜎ℎ /√𝑐ℎ
Proporcional: 𝑎ℎ = 𝑊ℎ . Uniforme: 𝑎ℎ = 1/𝐻 Ótima: 𝑎ℎ = ∑𝐻 .
ℎ=1 𝑊ℎ 𝜎ℎ /√𝑐ℎ
17
𝑁ℎ
Sendo 𝜏ℎ = ∑𝑖=1 𝑌ℎ𝑖 , o número de elementos que possuem a característica no
estrato ℎ, tem-se que
onde
(9.32)
18
onde 𝑄̂ℎ = 1 − 𝑃̂ℎ .
(9.33) .
9.7 Pós-estratificação
APLICAÇÕES
Áreas 𝑾𝒉 𝒏𝒉 ̅𝒉
𝒚 𝒔𝒉
A 0,50 20 33,9 5,95
B 0,20 8 25,12 15,25
Rural 0,30 12 19 9,36
Nesse caso, uma estimativa não viciada para o número médio de horas por
semana que os moradores assistem televisão será:
(1 − 40/310)
̂ (𝑦̅𝑒𝑠 ) =
𝑉𝑎𝑟 [0,50(5,952 ) + 0,20(15,252 ) + 0,30(9,362 )] = 1,9695.
40
Com o erro-padrão estimado igual a:
21
Sint Ferro 4 – 22800 ton.
Usando o software R:
N=60000
w1=c(13800,23400,22800)
w=w1/sum(w1)
sig2=c(1.4,1.2,1.1)
sig2d=sum(w*(sig2^2))
V=0.02
n=sig2d/(V+(sig2d/N))
round(n)
nh=w*n
round(nh)
Resultado:
22
EXEMPLOS EM R
23
Neste exemplo, temos 27,675 como estimativa para o número médio de horas
por semana que cada morador da cidade assistem televisão, tendo um desvio-
padrão estimado por 1,40339 (usa-se 𝑛 − 1!), sendo que com 95% de confiança
o verdadeiro valor médio populacional de horas assistidas está entre 24,7559 e
30,5940.
Para o total de horas por semana assistida por todos os moradores, temos como
estimativa o valor 8579,25, tendo um desvio-padrão estimado por 435,0526,
sendo que com 95% de confiança o verdadeiro valor total está entre 7674,3404
e 9484,1595 horas por semana.
Dados:
require("survey")
areas=read.table("AE-AASs2.csv",dec=",",sep=";",header=T)
N=310
n=40
fpc.es <- areas$N
des.es <- svydesign(id=~1,strata=~Area,data=areas,fpc=~N)
svymean(~y, des.es, deff="replace")
confint(svymean(~y,design=des.es),level=0.95)
svytotal(~y,des.es)
confint(svytotal(~y,design=des.es),level=0.95)
Os resultados estão abaixo:
24
Selecione uma amostra AE de tamanho 𝑛 = 40 de uma população de tamanho
𝑁 = 310, usando o software R. Digite os seguintes comandos no software R.
install.packages('plyr')
library(plyr)
set.seed(1)
N=310
n=40
f=n/N
dat <- data.frame(
id = 1:N,
Category = sample(LETTERS[1:3], N, replace=TRUE, prob=c(0.5, 0.2,
0.3))
)
Resultado:
25
Exemplo 2 (Empresas, AE-AS): Um instituto de pesquisas de mercado foi
contratado para estimar a quantidade de dinheiro gasta por empresas da região
sudeste com investimentos em cultura no primeiro semestre do ano. Baseando-
se na renda declarada no ano passado, 300 empresas foram alocadas em três
categorias; 60 na A, 100 na B e 140 na C. Para cada uma delas foi montada uma
lista em ordem alfabética e através do procedimento de amostragem sistemática
foram selecionadas 20 empresas da categoria A, 24 da categoria B e 50 da C.
As empresas sorteadas receberam a visita de um coordenador que coletou as
informações necessárias.
26
Análise usando o pacote Easy Sampling (AE-AS):
27
Para o total populacional temos uma estimativa de 7954856,7 unidades
monetárias gastas pelas empresas da região sudeste com investimentos em
cultura no primeiro semestre do ano.
#Empresas
require("survey")
empresas=read.table("AE-ASIS2.csv",dec=",",sep=";",header=T)
N=300
n=94
fpc.es <- empresas$N
des.es <- svydesign(id=~1,strata=~Cat,data=empresas,fpc=~N)
svymean(~y, des.es, deff="replace")
confint(svymean(~y,design=des.es),level=0.95)
svytotal(~y,des.es)
confint(svytotal(~y,design=des.es),level=0.95)
Os resultados estão abaixo:
28
BIBLIOGRAFIA
29