Você está na página 1de 193

Tcnicas de Amostragem (parte 2)

(2averso)

Zlia Magalhes Bianchini

Agosto/2003
2
Contedo

1 Estimadores Especiais 1
1.1 Informaes auxiliares em amostragem . . . . . . . . . . . . . 1
1.2 Estimao de uma razo . . . . . . . . . . . . . . . . . . . . . 1
1.2.1 Propriedades do estimador de uma razo . . . . . . . . 3
1.2.2 Varincia do estimador de uma razo . . . . . . . . . . 9
1.2.3 Estimao da varincia do estimador de uma razo . . 14
1.2.4 Preciso do estimador de uma razo . . . . . . . . . . . 14
1.3 Estimadores de razo para o total e a mdia . . . . . . . . . . 16
1.3.1 Varincias dos estimadores de razo para o total e a
mdia . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.3.2 Estimao das varincias dos estimadores de razo para
o total e a mdia . . . . . . . . . . . . . . . . . . . . . 19
1.3.3 Comparao da preciso do estimador de razo com a
do estimador simples em amostragem aleatria simples 19
1.4 Estimadores de razo em amostragem estratificada . . . . . . 20
1.4.1 Estimador de razo combinada . . . . . . . . . . . . . 20
1.4.2 Estimador de razo separada . . . . . . . . . . . . . . . 26
1.4.3 Comparao dos estimadores de razo separada e com-
binada . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.4.4 O uso de estimadores de razo . . . . . . . . . . . . . . 32
1.5 Estimadores de Regresso . . . . . . . . . . . . . . . . . . . . 33
1.5.1 Comparao dos estimadores de regresso, razo e sim-
ples da mdia sob amostragem aleatria simples . . . . 36
1.5.2 O uso de estimadores de regresso . . . . . . . . . . . . 37
1.6 Ps-estratificao . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.6.1 Estimao do total e da mdia . . . . . . . . . . . . . . 39
1.6.2 Preciso dos estimadores com ps-estratificao . . . . 40
1.7 O uso de informaes auxiliares na estimao . . . . . . . . . . 43
1.8 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3
4 CONTEDO

2 Amostragem de Conglomerados 53
2.1 Conceituao Bsica . . . . . . . . . . . . . . . . . . . . . . . 53
2.2 Amostragem de reas . . . . . . . . . . . . . . . . . . . . . . 55
2.3 Conglomerados em 1 estgio . . . . . . . . . . . . . . . . . . 56
2.3.1 Probabilidades iguais de seleo . . . . . . . . . . . . . 56
2.3.2 Estimao de propores na Ac1 . . . . . . . . . . . . 65
2.3.3 Coeficiente de Correlao Intraclasse . . . . . . . . . . 69
2.3.4 Estimao do coeficiente de correlao intraclasse . . . 75
2.3.5 Eficincia da Ac1 em relao AAS com conglomera-
dos de tamanhos iguais . . . . . . . . . . . . . . . . . . 77
2.4 Controle na variao de tamanho . . . . . . . . . . . . . . . . 82
2.5 Probabilidades desiguais de seleo . . . . . . . . . . . . . . . 83
2.5.1 Seleo dos conglomerados com probabilidades desiguais
e com reposio . . . . . . . . . . . . . . . . . . . . . . 83
2.6 Estratificao de conglomerados . . . . . . . . . . . . . . . . . 93
2.6.1 Estimadores e respectivas precises . . . . . . . . . . . 94
2.7 Estimador de razo . . . . . . . . . . . . . . . . . . . . . . . . 97
2.7.1 Estimador de razo baseado no tamanho dos conglom-
erados . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
2.7.2 Estimador de razo baseado em uma caracterstica que
no seja o tamanho do conglomerado . . . . . . . . . . 101
2.8 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

3 Conglomerados em 2 estgios 109


3.1 Probabilidades iguais de seleo . . . . . . . . . . . . . . . . . 109
3.1.1 Introduo e definies bsicas . . . . . . . . . . . . . . 109
3.1.2 Parmetros da caracterstica y . . . . . . . . . . . . . . 112
3.1.3 Estatsticas da amostra em cada estgio . . . . . . . . 113
3.1.4 Estimadores de total e mdias e respectivas varincias . 114
3.1.5 Estimadores das varincias dos estimadores de total e
mdias . . . . . . . . . . . . . . . . . . . . . . . . . . 119
3.1.6 Amostra autoponderada . . . . . . . . . . . . . . . . . 123
3.1.7 Dimensionamento da amostra de conglomerados em 2
estgios . . . . . . . . . . . . . . . . . . . . . . . . . . 127
3.1.8 Efeito de conglomerao . . . . . . . . . . . . . . . . . 135
3.2 Controle de variao de tamanho das UPAs . . . . . . . . . . 137
3.2.1 Probabilidades desiguais de seleo das unidades primrias138
3.2.2 Estratificao das unidades primrias e seleo com
probabilidades desiguais de seleo . . . . . . . . . . . 147
3.2.3 Estimador de razo . . . . . . . . . . . . . . . . . . . . 149
3.3 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
CONTEDO i

4 Conglomerados em 3 estgios 161


4.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
4.2 Seleo com probabilidades desiguais . . . . . . . . . . . . . . 161
4.2.1 Estimador no viciado de Y . . . . . . . . . . . . . . . 162
4.3 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

5 Estimao de varincias 165


5.1 Porque importante estimar varincias? . . . . . . . . . . . . 165
5.2 Problemas para estimar varincias . . . . . . . . . . . . . . . 165
5.3 Mtodos para estimar varincias . . . . . . . . . . . . . . . . . 166
5.3.1 Mtodo de Linearizao de Taylor ou -mtodo . . . . 166
5.3.2 Mtodo do Conglomerado Primrio (Ultimate Cluster
- Hansen et al, 1953) . . . . . . . . . . . . . . . . . . . 168
5.3.3 Mtodos de Replicao . . . . . . . . . . . . . . . . . . 170
5.4 Sistemas para estimao de varincias . . . . . . . . . . . . . . 172

6 Dupla amostragem 175


6.1 Descrio da tcnica . . . . . . . . . . . . . . . . . . . . . . . 175
6.2 Consideraes sobre o custo . . . . . . . . . . . . . . . . . . . 176
6.3 Dupla amostragem para estratificao. . . . . . . . . . . . . . 177
6.3.1 Estimador no viciado para V y d,est . . . . . . . . . . 180
6.3.2 Estimao de uma proporo na dupla amostragem
para estratificao . . . . . . . . . . . . . . . . . . . . 180
6.4 Dupla amostragem para estimadores de razo . . . . . . . . . 181
6.5 Dupla amostragem para probabilidades desiguais . . . . . . . 183

Prefcio
Estas notas de aula vm sendo ministradas na disciplina de Tecnologia da
Amostragem II do Curso de Graduao em Estatstica da Escola Nacional
de Cincias Estatsticas - ENCE. Trata-se da apresentao da teoria e apli-
cao de estimadores especiais e das tcnicas de seleo e de estimao em
amostras de conglomerados em um ou mais estgios e de dupla amostragem.
As notas de aula preparadas por Pedro Luis do Nascimento Silva quando
de sua atuao como professor no referido curso, bem como as referncias
bibilogrficas bsicas, serviram como base para a elaborao deste material.
ii CONTEDO

Cabe esclarecer que inteno incorporar num mesmo volume o contedo


da disciplina de Tecnologia de Amostragem I, que corresponde aos funda-
mentos e tcnicas bsicas para selecionar amostras e realizar estimao em
pesquisas por amostragem: conceitos bsicos de amostragem, amostragem
aleatria simples com e sem reposio, distribuies amostrais e erro amostral,
estimao de propores e domnios, clculo de tamanhos de amostra, amostra-
gem sistemtica, amostragem estratificada e amostragem com probabilidades
desiguais.
A realizao deste trabalho deve-se em grande parte ao incentivo de Pedro
Luis do Nascimento Silva para a preparao de um livro de amostragem em
portugus com o objetivo de facilitar o aprendizado dos alunos de graduao
em Estatstica na aplicao de tcnicas para selecionar amostras e realizar
estimao em pesquisas por amostragem.
Uma primeira verso dessas notas vinha sendo utilizada no curso de Gra-
duao da ENCE no 6o perodo, desde o 2o semestre de 1999. Agradeo aos
alunos pelas indicaes de correes efetuadas, em especial a Adrian Heringer
Pizzinga, Ralph dos Santos Silva e Rodrigo Lage de Sousa, do 6o perodo do
2o semestre de 1999.
Agradeo a Waldecir Bianchini pela colaborao no aprendizado para a
utilizao do processador de texto Scientific Workplace e pela sua compreen-
so e de nossos filhos (Renata, Fernanda e Henrique) das inmeras horas
extraordinrias de trabalho desviadas do convvio familiar para a realizao
desta empreitada para a primeira verso.
Esta verso ainda passar por outras revises e quaisquer sugestes sobre
eventuais falhas e omisses e sobre a incorporao de novos temas so bem
vindas em busca do aprimoramento do texto, do uso adequado da teoria e
aplicaes em amostragem e da prepararao do profissional de Estatstica
para os desafios que a carreira certamente lhe proporcionar.

Zlia Magalhes Bianchini

Rio de Janeiro, agosto de 2003.


Captulo 1

Estimadores Especiais

1.1 Informaes auxiliares em amostragem


Alm da varivel de interesse yi , uma ou mais variveis xi podem estar
associadas com a i-sima unidade da populao. Por exemplo, se a varivel
de interesse o nmero de cabeas de gado em uma determinada fazenda,
variveis auxiliares pode incluir a rea da fazenda, o tipo de vegetao, etc.
Em algumas situaes, os valores para a caracterstica x so conhecidos
para toda a populao, enquanto que em outras situaes os valores de x so
conhecidos s para as unidades da amostra. Em muitas pesquisas, o valor
da varivel de interesse de um censo anterior pode servir como uma varivel
auxiliar.
Informaes auxiliares podem ser usadas no desenho amostral ou na es-
timao. Variveis usadas na estratificao, ou como medidas de tamanho
para a seleo com probabilidades proporcional ao tamanho, representam o
uso de informaes auxiliares no desenho amostral.
Na estimao de total ou de mdia de uma caracterstica y, a relao entre
yi e xi pode muitas vezes ser aproveitada para produzir estimativas mais
precisas do que estimativas que utilizam apenas as informaes dos dados da
caracterstica y. Estimadores de razo, de regresso e de ps-estratificao
so exemplos do uso de informaes auxiliares na estimao.

1.2 Estimao de uma razo


Freqentemente na prtica de pesquisas por amostragem, o valor a ser esti-
mado com a amostra uma razo entre duas variveis que varia de unidade
para unidade da populao.
Um exemplo, que pode ser citado, a necessidade de se estimar a razo

1
2 CAPTULO 1. ESTIMADORES ESPECIAIS

entre os gastos das famlias com alimentao e a renda das famlias. Outro
exemplo seria a razo entre a quantidade colhida de certo produto pela rea
plantada, medindo a produtividade da lavoura. Ainda outro exemplo se-
ria a razo entre o salrio dos trabalhadores da indstria e o nmero de
trabalhadores da indstria, medindo o salrio mdio dos trabalhadores da
indstria.
Em todos estes exemplos, o que se procura conhecer o valor de uma
Y
razo R onde R = .
X
Considere-se a populao PN = {U1 , U2 , , UN }, onde sero investigadas
duas caractersticas, x e y, gerando uma populao-matriz bivariada
PN (x, y) = {(X1 , Y1 ), (X2 , Y2 ), , (XN , YN )} ,
onde:
XI = x(UI )
I {1, 2, , N}

YI = y(UI )
Pode-se ento definir o parmetro razo na populao, R, de forma
que:
P
N
YI
Y I=1 Y
R= = N =
X P X
XI
I=1
Ponha-se ento, o problema de estimar a razo R a partir de uma amostra
aleatria simples sem reposio de n unidades de PN ,{u1 , u2 , , un }, onde
sero investigadas as caractersticas x e y, fornecendo
{(x1 , y1 ), (x2 , y2 ), , (xn , yn )} .
Note-se que:

1
i {1, 2, , n} e I {1, 2, , N} .
P [(xi , yi ) = (XI , YI )] =
N
Conclui-se que os vetores (xi , yi ), i {1, 2, , n}, so identicamente
distribudos e que no so independentes, devido se tratar de amostragem
sem reposio.
Como R = Y / X = Y / X , um estimador intuitivamente razovel para
R dado por:

1X 1X
n n
b= y
R onde y= yi e x = xi .
x n i=1 n i=1
1.2. ESTIMAO DE UMA RAZO 3

1.2.1 Propriedades do estimador de uma razo


Como verificar se R b um estimador razovel? Em primeiro lugar, nota-
se que Rb deve ser um estimador viciado de R, porm se pode mostrar que
b
R assintoticamente no viciado; pode-se mostrar tambm que R b um
estimador consistente de R.
Para provar que R b um estimador consistente de R, necessrio intro-
duzir a definio de consistncia.
Diz-se que um estimador b n baseado numa amostra sem reposio de
tamanho n da populao
h consistente
i para o parmetro se e somente se
N = , isto , se P b
b N = = 1.
Assim, a prova de que R b consistente para R imediata devido x se
igualar a X e y a Y quando a amostra cobrir todas as unidades da populao.
Alm disto,

1X 1 X 1X
n n n

y= yi = Y + i = Y + =Y +
n i=1 n i=1 n i=1 i

onde:
1X
n
=
n i=1 i
De modo anlogo se tem que:

1X
n
x = X + onde = .
n i=1 i

Sabe-se ainda que:

N n Sy2 2 2 2
= V ( y ) = V (Y + ) = V ( ) = E( ) E() = E( )
N n
pois, E() = 0.

Analogamente,
2 N n Sx2
E( ) = V ( ) =
N n
Note-se que:

1 X 1 X
N N
2 2
Sx2 = XI X e Sy2 = YI Y .
N 1 I=1 N 1 I=1
4 CAPTULO 1. ESTIMADORES ESPECIAIS

Desta forma, se pode escrever:




Y 1+ 1
b= y Y + Y
R = = =R 1+ 1+
x X + Y X
X 1+
X


Suponha-se que Y 6= 0 e X 6= 0. Suponha-se, ainda que < 1, isto ,
X
que a amostra foi dimensionada de forma que se pode esperar que < X

ou x X < X.
1

Ento, desenvolvendo-se o fator 1 + como srie de potncias de
X
, vem:
1 2 3
!
b = R 1+
R 1+ =R 1+ 1 + +
Y X Y X X2 X3
( 2 3
! 2
!)
b = R
R 1 + + + +
X X2 X3 Y Y X Y X2
Desprezando-se na expresso entre parnteses todos os termos com grau
b
superior a 2, obtm-se uma aproximao para o valor de R.
2
!
b
R =R 1 + +
X X2 Y Y X
b vem:
Agora calculando-se o valor esperado de R
2
!!
b
E(R) = E R 1 + + 2
X Y X Y X
2
!!

= R E 1 + + 2
X Y X Y X
2! !

= R 1E +E +E 2 E
X Y X Y X
2
1 1
= R 1 + 2E E
X Y X
No entanto: 2 N n Sx2
E = V ( ) =
N n
1.2. ESTIMAO DE UMA RAZO 5

Por outro lado:

N n Sxy
E = E y Y x X = COV ( x, y) =
N n

onde:

1 X
N

Sxy = XI X YI Y
N 1 I=1

b dada aproximada-
De qualquer forma, a tendenciosidade do estimador R
mente por:

2
1 1
b b
T (R) = E(R) R = R 1 + 2 E E R
X Y X

1 1
= R 2V COV ( x, y)
X Y X

ou ainda:


b 1 N n Sx2 1 N n Sxy
T (R) = R 2
X N n Y X N n
2
N n 1 Sx Sxy
= R 2
N n X Y X

Agora note-se que a correlao entre x e y na populao, (x, y),


definida por:

E xi X yi Y
(x, y) = p =
V (xi ) V (yi )
6 CAPTULO 1. ESTIMADORES ESPECIAIS

1 PN
XI X YI Y
N I=1
(x, y) = s
1 PN 2 1 PN 2
XI X YI Y
N I=1 N I=1
N
P
XI X YI Y
I=1
= s
N
P 2 N
P 2
XI X YI Y
I=1 I=1

1
P
N
XI X YI Y
N 1 I=1
= s
1 P N 2 1 P N 2
XI X YI Y
N 1 I=1 N 1 I=1
Sxy Sxy
(x, y) = p 2 2 =
Sx Sy Sx Sy

Denotando-se ento (x, y) simplesmente por , vem:

Sxy = Sx Sy

Ento:

b N n 1 Sx2 1
T (R) = R Sx Sy
N n X2 Y X
N n 1 2
= R Cx Cx Cy
N n

onde Cx2 a varincia relativa de caracterstica x na populao.


Agora, imediato provar que lim T (R) b =0
nN
b nos mostra que T (R)
No entanto, uma anlise de expresso de T (R) b se
anula exatamente quando:

Cx2 Cx Cy = 0

Isto , quando:
Sx2 Sx Sy
2 =
X X Y
1.2. ESTIMAO DE UMA RAZO 7

Ou melhor, quando:
Sx Sy

Y = X = Sy X
Sx2 Sx
2
X
Assim, a condio para que R b seja um estimador no viciado de R que
Y = ( Sy /Sx ) X, que a condio para a reta de regresso entre y e x
passar pela origem, com coeficiente angular ( Sy /Sx ) .
Foi verificado que, quando a condio anterior no satisfeita, R b um
estimador tendencioso, embora com tendncia que tende a se anular quando
o tamanho n da amostra for grande.
Com o objetivo de calcular uma medida da preciso do estimador R, b ser
estabelecida uma cota superior a tendenciosidade de R b que permitir tambm
a determinao do tamanho de amostra necessrio para tomar desprezvel a
tendenciosidade.
Inicialmente, quando se trata de um estimador viciado, a medida de sua
preciso deve ser o seu erro quadrtico mdio, dado por:
2
b b
EQM(R) = E(R R) = E 2 b b b
R E(R) + E(R) R
2 2
= E b E(R)
R b + E R bR

b b
2 E(R) R E R E(R) b
h i2
b b
= V (R) + T (R) .

Note-se que se a tendenciosidade se anula, isto , se o estimador for no


viciado, ento o erro quadrtico mdio igual varincia do estimador.
Note-se, ainda, que a expresso de EQM pode ser escrita como:
h i2
h i2 T ( b
R)
EQM (R)b = V (R)b + T (R)b b
= V (R) 1 +


b
V (R)

Analisando-se a expresso acima, note-se que:


b
V (R) b
= EQM(R)
quando: h i2
b
T (R)

=0
b
V (R)
8 CAPTULO 1. ESTIMADORES ESPECIAIS

Um critrio prtico para avaliar quo prximos esto V (R) b


b e EQM(R)
consiste em verificar se: h i2
b
T (R)
0, 01
b
V (R)
Ora. isto eqivale a verificar se:

b b
T (R) E(R) R
q 0, 10 ou q 0, 10
b
V (R) b
V (R)

Por outro lado, note-se que:


b x) = E(R
COV (R, b x) E(R
b ) E(x)
= E( y) E(Rb)X
b)X
= Y E(R

Donde:
b x)
COV (R, Y
= b)
E(R
X X
ou seja:
Y b x)
COV (R, b x)
COV (R,
b) =
E(R =R
X X X
ou ainda:
b
b ) = E(R
T (R b ) R = COV (R, x)
X
b
Seja (R, x) = o coeficiente de correlao entre Rb e x. Logo:
q p
b
COV (R, x) = b
V (R) V (x)

Substituindo na expresso anterior, segue-se que:


q p
b ) = V (R) b V (x)
T (R
X
p
b)
T (R V (x)
q =
b
V (R) X

ou ainda:

b)
T (R
q = | | CV (x)

V (R)b
1.2. ESTIMAO DE UMA RAZO 9

Lembrando a condio de | | 1 segue-se que:




T (Rb)
q CV (x).

V (R)b

Considere a expresso do tamanho de uma amostra aleatria simples


dada por:

2 Sx2
N z/2 2
N z/2 Cx2
X
2 Cx2
n= = =
Sx2 2
N z/2 (CV (x))2 + z/2
2
Cx2 Cx2
2
N d2r + z/2 2 (CV (x))2 +
X N

j que a preciso relativa da mdia amostral pode ser escrita como:


2
dr = z/2 CV (x) e Cx2 = Sx2 /X a varincia relativa da caracterstica x
na populao (ou coeficiente de variao da populao ao quadrado da car-
acterstica x).
b
Assim, para se ter tendenciosidade desprezvel no estimador de razo R,
deve-se ter:
CV (x) 0, 10
Sendo assim, basta tomar n tal que:

Cx2
n
Cx2
0, 01 +
N
Por exemplo, se Cx = 0, 4 e N = 5.000, ento n 16 bastaria para tornar
b
desprezvel a tendenciosidade do estimador de razo R.

1.2.2 Varincia do estimador de uma razo


Agora o objetivo obter uma expresso para a varincia do estimador de
b que seja adequada para medir sua preciso. De fato, isto s tem
razo R, q
b b < 0, 10, isto , quando
sentido quando se puder admitir que T (R) / V (R)
b for pequeno.
o vcio de R
Ora, j foi visto na demonstrao anterior que:
2 !
b
R = R +R +R 2
Y X X Y X
10 CAPTULO 1. ESTIMADORES ESPECIAIS

e que: !
2
b
E(R) = R +R E 2
X Y X
logo,
2
! 2
!
b E(R)
b
R =R +R 2 R E 2
Y X X Y X X Y X

b dada por:
Da, a varincia de R
2
b = E R
V (R) b E(R)
b
" 2 ! 2 !#2

= E R +R 2 RE 2
Y X X Y X X Y X

Nesta ltima expresso, desprezar todos os termos com grau superior a


2. Ento:
2 !
b
V (R) = R2 E
Y X
2! 2! !

= R2 E 2 +E 2 2E
Y X Y X

2 1 1 2
= R 2 V (y) + 2 V (x) Cov(x, y)
Y X Y X
2
2 N n1
Sy Sx2 Sxy
= R + 2
N n Y 2 X2 Y X
2 2

N n1 S
2 y 2 Sx 2 Sxy
= R 2 + R 2 2R
N n Y X Y X
N n 1 2 2 2

= 2 Sy + R Sx 2 R Sxy
N nX
ou ainda:
b N n 1 2 2 2

V (R) = Sy + R Sx 2 R Sx Sy
N n X2
H outra maneira de escrever a expresso da varincia de R,b certas vezes
mais conveniente para fins de clculo que as expresses j apresentadas:

1 X
N
b N n 1
V (R) = (YI R XI )2
N n X 2 N 1 I=1
1.2. ESTIMAO DE UMA RAZO 11

Exemplo 1.1
O vcio e erro quadrtico mdio do estimador de uma razo, sob amostragem
aleatria simples, pode ser ilustrado imaginando a aplicao de amostragem
em uma populao muito pequena e examinando o espao amostral, isto ,
o conjunto de todas as possveis amostras. Suponha que os valores de duas
variveis x e y nas 4 unidades da populao so:

Ui Yi Xi
U1 1 1
U2 2 3
U3 3 4
U4 4 6

Y
(a) Calcule o valor da razo populacional X , obtenha todas as possveis
amostras de tamanho 2, a serem selecionadas aleatoriamente e sem
reposio e estime essa razo para cada possvel amostra.

(b) Calcule os valores exatos do vcio, do erro quadrtico mdio e da var-


incia desse estimador.

(c) Calcule os valores aproximados do vcio e da varincia desse estimador.

(d) Compare os resultados obtidos em (b) com os resultados obtidos em


(c).

Soluo:
a) A razo populacional dada por:

P
N
Yi
Y 10 5
R= = i=1 = =
X PN 14 7
Xi
i=1

O nmero de possveis amostras dado por:



N 4 4!
= = =6
n 2 2!(4 2)!
12 CAPTULO 1. ESTIMADORES ESPECIAIS

P
n P
n
b= y
Amostras possveis Probabilidades y = yi x= xi R
i=1 i=1 x
1 3
U 1 U2 6
3 4 4

1 4
U1 U3 6
4 5 5

1 5
U1 U4 6
5 7 7

1 5
U2 U3 6
5 7 7

1 6
U2 U4 6
6 9 9

1 7
U3 U4 6
7 10 10

b) Os valores exatos do vcio e do erro quadrtico mdio deste estimador


podem ser obtidos a partir da distribuio de todas as possveis amostras:

b 1 3 4 5 5 6 7 365
E(R) = + + + + + =
6 4 5 7 7 9 10 504

b dado por:
o valor exato do vcio de R

b R = 365 5 = 5 = 0, 0099
b = E(R)
T (R)
504 7 504
O erro quadrtico mdio dado por:

b 2 1 3 5 2 4 5 2 6 5 2 7 5 2
E(R R) = ( ) + ( ) + ( ) + ( ) = 0, 00185
6 4 7 5 7 9 7 10 7

e a varincia dada por:

h i2
b = E(R
V (R) b R)2 T (R)
b = 0, 00185 0, 0000009 = 0, 0018491

c) O vcio aproximado dado por:


b N n 1 Sx2 Sxy 1f
T (R) =R 2 = 2 R Sx2 Sxy
N n X Y X nX
1.2. ESTIMAO DE UMA RAZO 13

1 7
sendo: f = n=2 X=
2 2
P
N 2
Xi2 N X
I=1 62 49 13
Sx2 = = =
N 1 3 3

P
N
Xi Yi N X Y
I=1 43 35 8
Sxy = = =
N 1 3 3

1
b 1f 2 5 13 8 3
T (R) = 2 R Sx2 Sxy = 2 = = 0, 0087
nX 7 7 3 3 343
2
2

com respeito varincia aproximada tem-se:

b N n 1 2 2 2

V (R) = 2 Sy + R Sx 2 R Sxy
N nX
1f 2 2 2

= 2 Sy + R Sx 2 R Sxy
nX
sendo:
P
N 2
Yi2 N Y
I=1 30 25 5
Sy2 = = =
N 1 3 3
portanto:

b 1f 2 2 2

V (R) = 2 Sy + R Sx 2 R Sxy
nX
1 2 !
2 5 5 13 5 8
= 2 + 2 = 0, 00139
7 3 7 3 7 3
2
2

d) Observe que o vcio aproximado subestima ligeiramente o valor ver-


dadeiro do vcio e a varincia aproximada subestima ligeiramente o valor
verdadeiro da varincia.
14 CAPTULO 1. ESTIMADORES ESPECIAIS

1.2.3 Estimao da varincia do estimador de uma razo


b quando X for conhecido, dado por:
Um estimador consistente para V (R),

b = N n 1
v1 (R) s2
+ b
R 2 2
s 2 b
R sxy
N n X2 y x

onde:

1 X
n
s2y = (yi y)2
n 1 i=1
1 X
n
s2x = (xi x)2
n 1 i=1
1 X
n
sxy = (xi x)(yi y)
n 1 i=1

que so estimadores no viciados de Sy2 , Sx2 e Sxy , respectivamente.


Um estimador para V (R),b quando X for conhecido, expresso de outra
forma dado por:

1 X
n
b = N n 1 b xi )2
v1 (R) 2 (yi R
N n X n 1 i=1

b
Quando X no for conhecido, um estimador alternativo para V (R)
dado por:

b = N n 1 s2y + R
v2 (R) b2 s2x 2 R
b sxy
N n x2
ou
1 X
n
b = N n 1
v2 (R) b xi )2 .
(yi R
N n x2 n 1 i=1

1.2.4 Preciso do estimador de uma razo


A preciso do estimador de uma razo depende da distribuio de probabil-
idades do estimador R,b que se verificou ser bastante intratvel e intrincada,
devido ao fato de tanto os xi como os yi variarem de amostra para amostra.
Os resultados tericos conhecidos se distanciam muito do que seria desejvel
e necessrio possuir nas aplicaes prticas.
Assim, os principais resultados sero aqui apresentados sem demonstrao.
1.2. ESTIMAO DE UMA RAZO 15

Inicialmente, j foi demonstrado que o estimador de razo consistente.


Alm disso, se viu tambm que ele viciado, exceto para certos tipos especiais
de populao, embora o vcio seja desprezvel para amostras grandes.
Outro aspecto que a distribuio assinttica do estimador de razo
normal para amostras bastantes grandes, sujeito apenas a restries muito
fracas quanto ao tipo de populao de que se esteja selecionando a amostra.
Em amostras de tamanhos moderados, a distribuio de R b mostra certa
tendncia a uma assimetria positiva para os tipos de populao para as quais
o mtodo comumente usado.
Estes resultados indicam que no h problemas para calcular a preciso
ou a preciso relativa do estimador de razo quando:
a) a distribuio de Rb for aproximadamente normal;
b) a frmula para estimao da varincia de R b possa ser utilizada.
Em termos prticos, as hipteses a) e b) podem ser assumidas sem risco
aprecivel para amostras de no mnimo 30 unidades, suficientemente grandes
para que se tenha CV (x) < 0, 10 e CV (y) < 0, 10, isto , o tamanho n da
amostra deve ser tal que:




Cx2 Cy2
n max 30; ;

C2 C2
0, 01 + x 0, 01 + y
N N
Nestas condies, se pode afirmar que:
bR
R
q
= N(0, 1)
b
V (R)

Da segue-se que:


q
RbR
P q z/2 = 1 = P R

b R z/2 V (R)
b = 1
V (R)
b

onde:
z/2 a abscissa da distribuio Normal padro tal que

b
RR
P q > z/2 =
b 2
V (R)

e o nvel de significncia.
16 CAPTULO 1. ESTIMADORES ESPECIAIS

Portanto, q
D(R)b = z/2 V (R) b e
b a preciso do estimador R;

e
b = z/2 V (R)
Dr (R) b a preciso relativa do estimador R;
= z/2 CV (R) b
R
Pode-se utilizar como estimador da preciso do estimador de R, b o valor
b
d(R) tal que:
q
b = z/2 v(R)
d(R) b

com v(R) b ou v2 (R)


b dado por v1 (R) b conforme a convenincia.
b o valor dr (R)
O estimador da preciso relativa do estimador de R, b tal
que:
q
b
v(R)
b
dr (R) = z/2 b
= z/2 cv(R)
b
R
Estas informaes podem ser utilizadas para a construo de intervalos
de confiana para R.
A esse respeito, consultar Fieller (1932) e Paulson (1942), caso as condies
para aproximao pela normal no sejam satisfeitas.

1.3 Estimadores de razo para o total e a m-


dia
Uma forma usualmente eficaz de aproveitar o conhecimento de informaes
existentes sobre a populao, com o objetivo de melhorar a qualidade das
estimativas de uma amostra, a utilizao de estimadores de razo.
Se para determinada caracterstica x, correlacionada com a caracterstica
de interesse y so conhecidos:
i) o valor verdadeiro da mdia ou total da populao; e
ii) os valores observados na amostra.
Ento possvel construir estimadores cuja preciso deve ser melhor que
a dos estimadores simples ou naturais j apresentados. A dia bsica
aproveitar a interdependncia de x e y e a existncia de informaes sobre x
livres de erro de amostragem para conseguir estimativas mais precisas.
Muitas vezes, desejvel incorporar informao de fontes externas in-
dependentes para aumentar a confiabilidade das estimativas da pesquisa e
tambm para promover consistncia nos resultados publicados por diferentes
pesquisas.
1.3. ESTIMADORES DE RAZO PARA O TOTAL E A MDIA 17

As tcnicas que foram apresentadas para estimao de uma razo podem


ser adaptadas e utilizadas para melhorar as estimativas da mdia e total
de uma dada caracterstica y, bastando que seja conhecido o total popula-
cional (X) ou a mdia (X) da caracterstica x na populao, sem erro de
amostragem.
Ora, se X for conhecido, tem-se:
Y b= y
R = e R
X x
Y
Y = X = R X = YbR = R
bX
X
Y b
Y = b X = YR
X = R X = y R = R
X N
sendo:
YbR o estimador de razo para estimar o total da caracterstica y; e
y R o estimador de razo para estimar a mdia da caracterstica y.
Em pesquisas domiciliares, por exemplo, prtica corrente no IBGE o uso
de estimadores de razo para estimar o total, utilizando como varivel auxil-
iar a estimativa da populao residente, obtida pela projeo de populao.
Neste caso feito um ajuste das estimativas provenientes da amostra de tal
modo que os totais da populao estimados coincidam com os resultados da
populao projetada que o IBGE elabora e divulga. O estimador do total
de uma caracterstica y qualquer, para uma determinada rea da Pesquisa
Nacional por Amostra de Domiclios (PNAD) pode ser escrito genericamente
como um estimador de razo da forma:

P
n
wi yi Xn Xn Xn
b b Yb i=1
YP NAD = R Xp = X = n Xp = wi yi = ( wi ) yi = i yi
Xb p P
wi xi i=1 i=1 i=1
i=1

onde:
YbP NAD o estimador de razo para o total da caracterstica y ajustado
pela projeo de populao, utilizado na PNAD, para a rea em questo;
Yb o estimador de total da caracterstica y, obtido considerando os pesos
simples da amostra;
Xb o estimador de total da populao residente, obtido considerando os
pesos simples da amostra;
Xp a estimativa da populao residente, obtida pela projeo de popu-
lao.
18 CAPTULO 1. ESTIMADORES ESPECIAIS

wi o peso amostral associado ao i-simo domiclio da amostra, obtido


considerando os pesos simples da amostra;
n o nmero de domiclios na amostra da PNAD, para a rea em questo;
yi o valor da caracterstica y associado ao i-simo domiclio da amostra,
para a rea em questo;
xi o total de pessoas associado ao i-simo domiclio da amostra, para a
rea em questo;
Xp
= o fator de ajuste dos pesos simples wi ;
Xb
i = i o peso final ajustado associado ao i-simo domiclio da
amostra.
A ttulo de ilustrao, o valor do fator de ajuste dos pesos da PNAD
95 para Sergipe de = 1, 05, que corresponde razo entre a populao
residente projetada para a data da pesquisa (1.611.711) e o valor da estima-
tiva do total da populao residente obtida considerando os pesos simples da
amostra para a rea em questo (1.535.111).

1.3.1 Varincias dos estimadores de razo para o total


e a mdia
Todas as tcnicas para estimao da preciso anteriormente apresentadas
foram feitas supondo que o desenho da amostra era com seleo aleatria
simples sem reposio. Para esse mesmo desenho amostral, as expresses so
adaptadas e utilizadas, bastando notar que YbR igual a R
b vezes a constante
X.
Dessa forma, tem-se:

b b b
E(YR ) YR = X E(R) R b

N n 1 2
b
V (YbR ) = X 2 V (R) = X2 Sy + R 2 2
Sx 2 R Sxy
N n X2
N n 2
= N Sy + R2 Sx2 2 R Sxy
n
ou
N n 1 X
N
V (YbR ) = N (YI R XI )2
n N 1 I=1
De modo anlogo, para a mdia y R tem-se:

E(y R ) y R = X E(R)b R
b
1.3. ESTIMADORES DE RAZO PARA O TOTAL E A MDIA 19

YbR N n 1 2
V (y R ) = V ( )= Sy + R2 Sx2 2 R Sxy
N N n
ou
N n1 1 X
N
V (y R )
= (YI R XI )2
N n N 1 I=1

1.3.2 Estimao das varincias dos estimadores de razo


para o total e a mdia
Um estimador para V (YbR ) dado por:

b 2 b N n h 2 b2 2 b
i
v(YR ) = X v(R) = N sy + R sx 2 R sxy
n
ou
N n 1 X
n
v(YbR ) = X 2 v(R)
b =N b xi )2
(yi R
n n 1 i=1
e um estimador para V (y R ) dado por:

2
b = N n 1 h 2 b2 2 b sxy
i
v(y R ) = X v(R) sy + R sx 2 R
N n
ou
N n1 1 X
n
v(y R ) = b xi )2
(yi R
N n n 1 i=1

1.3.3 Comparao da preciso do estimador de razo


com a do estimador simples em amostragem aleatria
simples
A partir de uma amostra aleatria simples sem reposio de n unidades se
conhece expresses para as varincias do estimador simples e do estimador
de razo para estimar o total (ou a mdia). Portanto, possvel comparar a
preciso alcanada com cada um atravs da comparao entre suas varincias.
Sendo assim, para o caso do estimador de total, sabe-se que:

N n Sy2
V (Yb ) = N 2
N n
N n 1 2
V (YbR ) = X 2 2 2
2 Sy + R Sx 2 R Sxy
N nX
N n 1 2
= N2 Sy + R2 Sx2 2 R Sxy
N n
20 CAPTULO 1. ESTIMADORES ESPECIAIS

Note-se que:

V (YbR ) < V (Yb ) Sy2 + R2 Sx2 2 R Sx Sy < Sy2


R Sx
R2 Sx2 < 2 R Sx Sy >
2 Sy
Y Sx Sx /X 1 Cx
> > = >
2 X Sy 2 Sy /Y 2 Cy

Na prtica, esta relao pode ser utilizada para verificar, quando conve-
niente o uso do estimador de razo ao invs do estimador simples do total ou
da mdia, j que muitas vezes possvel conhecer aproximadamente o valor
de = (x, y) e tambm a relao entre Cx e Cy .

1.4 Estimadores de razo em amostragem es-


tratificada
Nas seo 1.3 foi tratado o caso de utilizao do estimador de razo para
estimar o total populacional (Y ) a partir de uma amostra aleatria simples
sem reposio de tamanho n. No caso de uma amostra estratificada, h dois
estimadores de razo para estimar o total populacional (Y ):

estimador de razo combinada; e

estimador de razo separada.

1.4.1 Estimador de razo combinada


Considere ento, o problema de estimar o total Y a partir de uma amostra
aleatria estratificada selecionada de uma populao com L estratos de tamanho
Nh (h = 1, 2, , L), tendo sido selecionadas nh unidades e investigadas as
caractersticas x e y em cada unidade da amostra de cada estrato. Suponha
que seja tambm conhecido o total populacional para a caracterstica x. O
estimador de razo combinada YbRC para estimar o total populacional (Y )
definido por:
Ybest y
YbRC = X = est X
Xbest xest
onde:
P
L
Ybest = Nh y h o estimador simples do total da caracterstica y na
h=1
amostra estratificada;
1.4. ESTIMADORES DE RAZO EM AMOSTRAGEM ESTRATIFICADA21

best = P Nh xh o estimador simples do total da caracterstica x na


L
X
h=1
amostra estratificada;
X o total da caracterstica x, conhecido de alguma fonte externa a
amostra, livre de erros de amostragem;1
Ybest
y est = o estimador simples da mdia da caracterstica y na amostra
N
estratificada; e

Xbest
xest = o estimador simples da mdia da caracterstica x na amostra
N
estratificada.

O estimador de razo combinada YbRC consistente para o total Y .


Isto ,
YbRC |n=N = Y
Prova: se n = N com nh = Nh h = 1, 2, , L vem:

X
L X
L
Ybest = Nh y h = Nh Y h = Y
h=1 h=1
X
L X
L
best =
X Nh xh = Nh X h = X
h=1 h=1

donde:
Y
YbRC |n=N = X=Y
X
sabido que os estimadores de razo so viciados exceto se a populao
for de um tipo muito especial em termos de relao entre x e y.
Apesar disso, temse afirmado que em muitos casos o estimador de razo
prefervel ao estimador natural (simples) por que d melhor preciso. Entre-
tanto, esta afirmao s verdadeira, quando se consegue tornar desprezvel
o vcio ou tendenciosidade do estimador de razo.
Acontece que, como YRC um estimador de razo se pode demonstrar
que:
| E(YbRC Y | best ) = CV (xest )
q CV (X
V (YbRC )

1
O estimador YbRC depende apenas do conhecimento do total X, e no dos totais Xh
dos estratos.
22 CAPTULO 1. ESTIMADORES ESPECIAIS

usual considerar a tendensiosidade desprezvel quando


best ) = CV (xest ) 0, 10.
CV (X
Assim ao dimensionar a amostra para estimar Y indispensvel garantir
um tamanho mnimo tal que se tenha CV (xest ) 0, 10
Isto significa em:
L !
V (xest ) 1 X 2 2
Nh Sh (x) XL 2 2
Nh Sh (x)
2 0, 01 2 2
0, 01
X X h=1
N n h h=1
N 2 Nh

X
L
N 2 S 2 (x) 2 X
L
N 2 Sh (x)
h h h
0, 01 X +
h=1
N2 n h h=1
N 2 Nh
PL S 2 (x) N 2
h h
2
h=1 h N
n
2 P L N 2 S 2 (x)
h h
0, 01 X + 2 N
h=1 N h
onde:
nh
h = depende do critrio de alocao da amostra em cada estrato;
n
1 Nh
P 2
Sh2 (x) = Xhj X h
Nh 1 j=1
Xhj o valor da caracterstica x associada unidade j do estrato h.
Esta condio quanto preciso na estimao de X ser tambm usada no
estabelecimento de uma expresso aproximada para a varincia do estimador
de razo combinada.
Alm disto, h que notar a equivalncia de fixar um coeficiente de variao
de 10% para xest e de admitir um erro mximo de 20% na estimao de X
com 95% de confiana.
No se dispe de uma expresso exata para a varincia do estimador de
razo combinada. Porm, se a amostra de tamanho suficientemente grande
para tornar desprezvel a tendenciosidade do estimador, podese obter uma
expresso aproximada para a varincia:
2 !
2 y
V (YbRC ) = E YbRC Y = E est
X Y
xest
2 ! 2
y est Y X X 2
= E X xest =E (y R xest )
xest X xest x2est est
2 !
X
= N 2E (y R xest )2
x2est est
1.4. ESTIMADORES DE RAZO EM AMOSTRAGEM ESTRATIFICADA23

supondose n grande, tem se

X
=1
xest

Da

V (YbRC ) 2
= N 2 E (y est R xest ) = N 2 E y 2est + R2 x2est 2R y est xest

Porm:
2
E(y 2est ) = V (y est ) + [E(y est )]2 = V (y est ) + Y
2
E(x2est ) = V (xest ) + X
E(xest y est ) = COV (xest , y est ) + E(xest )E(y est ) = COV (xest , y est ) + X Y

Da

V (YbRC )
= N 2 [V (y est ) + R2 V (xest ) 2 R COV (xest , y est )]
2 2
+N 2 [Y + R2 X 2RX Y ]

como:
2 2
Y + R2 X 2RX Y = (Y RX)2 = 02 = 0

V (YbRC )
= N 2 [V (y est ) + R2 V (xest ) 2R COV (xest , y est )]

agora:
X
L
N 2 Nh nh S 2 (y)
h h
V (y est ) =
h=1
N2 Nh nh

X
L
N 2 Nh nh S 2 (x)
h h
V (xest ) =
h=1
Nh Nh nh

onde:
N
1 X h

Sh2 (y) = (Yhj Y h )2


Nh 1 j=1

N
1 X h

Sh2 (x) = (Xhj X h )2


Nh 1 j=1
24 CAPTULO 1. ESTIMADORES ESPECIAIS

e finalmente:

COV (xest , y est ) = E[xest X)(y est Y )]


" L ! L !#
X Nh XL
Nh X Nh XL
Nh
= E xh Xh y Yh
h=1
N h=1
N h=1
N h h=1 N
(" L #" L #)
X Nh X Nh
= E (xh X h ) (y Y h )
h=1
N h=1
N h
" L #
X N2
h
= E 2
(xh X h )(y h Y h )
h=1
N

X L X L
Nh Nk

+E (xh X h )(y k Y k )
N N
h=1 k=1
k6=h

X
L
Nh2
= E(xh X h )(y h Y h ) + 0
h=1
N2
XL
Nh2
= COV (xh , y h )
h=1
N2

Lembrandose que a amostra dentro de cada estrato aleatria simples,


vem:
Nh nh Sh (x, y)
COV (xh , y h ) =
Nh nh
onde
N
1 X h

Sh (x, y) = (Xhj X h )(Yhj Y h )


Nh 1 j=1

Ento finalmente:

X
L
N 2 Nh nh Sh (x, y)
h
COV (xest , y est ) =
h=1
N2 Nh nh

Da, obtm-se:

XL
Nh2 Nh nh 1 2
V (YbRC )
= N2 2
[Sh (y) + R2 Sh2 (x) 2 R Sh (x, y)]
h=1
N N h n h
1.4. ESTIMADORES DE RAZO EM AMOSTRAGEM ESTRATIFICADA25

Substituindo-se nesta expresso os valores de Sh2 (y), Sh2 (x) e Sh (x, y) vem:
X
L
Nh2 Nh nh 1
V (YbRC )
=
h=1
Nh 1 Nh nh
"N #
Xh

(Yhj Y h )2 + R2 (Xhj X h )2 2R(Xhj X h )(Yhj Y h )


j=1
(N )
X
L
Nh Nh nh Xh

V (YbRC )
= [(Yhj Y h ) R(Xhj X h )]2

h=1
Nh 1 nh j=1

Um estimador de V (YbRC ) dado por:

X (Nh nh ) h 2 i
L
v(YbRC ) = Nh b 2 2 b
sh (y) + Rest sh (x) 2 Rest sh (x, y)
h=1
nh
onde:
best = y est
R
xest
e sh (y), sh (x) e sh (x, y) so estimadores no viciados de Sh2 (y), Sh2 (x) e
2 2

Sh (x, y), respectivamente, ou seja:


n
1 X h

s2h (y) = (yhj y h )2


nh 1 j=1
n
1 X h

s2h (x) = (xhj xh )2


nh 1 j=1
n
1 X h

sh (x, y) = (xhj xh )(yhj y h )


nh 1 j=1

O estimador de razo combinada para estimar a mdia Y dado por:

YbRC
y RC =
N
Neste caso a varincia V (y RC ) dada por:
1
V (y RC ) = 2 V (YbRC )
N
e um estimador de V (y RC ) dado por:
1
v(y RC ) = 2 v(YbRC )
N
26 CAPTULO 1. ESTIMADORES ESPECIAIS

1.4.2 Estimador de razo separada


Uma outra forma de utilizar estimadores de razo para conseguir maior pre-
ciso na amostragem estratificada o chamado estimador de razo separada.
X
L
yh X
L
y X
L
YbRS = Xh = h
Xh = b h Xh
R
h=1
xh h=1
xh h=1

Notese que necessrio conhecer os totais por estrato Xh da caracterstica


auxiliar x.
A principal diferena do estimador de razo separada para o estimador
de razo combinada est no nvel em que se faz uso da estimao por razo:
no estimador de razo separada so feitas razes em cada um dos estratos,
enquanto que no estimador de razo combinada uma nica razo feita para
os estimadores de total disponveis.
O estimador de razo separada YbRS consistente para o total Y . Isto
:
YRS |n=N = Y
Prova: se n = N com nh = Nh = y h = Y h

X
L
y XL
Yh XL
YbRS |n=N = h
Xh = Xh = Nh Y h = Y
h=1
xh h=1
X h h=1

Quanto tendendiosidade, este estimador precisa ser analisado com


maior cuidado, porque depende de razes constudas em cada um dos es-
tratos.
y
Definindo YbhR = h Xh
xh
Vem:
XL
b
YRS = YbhR
h=1

Em cada estrato, sabese que:

| E(YbhR ) Yh |
q CV (xh ) h = 1, 2, , L
b
V (YhR )

Se os nh forem todos suficientemente grandes, podese admitir que o


vcio de YbRS desprezvel. Caso isto no acontea o uso deste estimador
no aconselhvel, pois o vcio do estimador pode ser significativo impedindo
mesmo o clculo de uma estimativa da preciso como ser visto mais adiante
Para ver porque isto ocorre, basta um raciocnio intuitivo:
1.4. ESTIMADORES DE RAZO EM AMOSTRAGEM ESTRATIFICADA27

Suponha que o vcio tenha o mesmo nvel em todos os estratos, como


pode ocorrer, e ento o vcio de YbRS ser aproximadamente L vezes o
vcio em YbhR . Porm, o erro padro de YRS apenas da ordem de L
b
vezes o erro padro de YhR . Logo:

| E(YbRS ) Y |
q
V AR(YbRS )

poderia ser to grande quanto L CV (xh )
Exemplo: Se tivermos 50 estratos com CV (xh ) = 0, 1 em cada estrato,
o vcio de YbRS poderia ser da ordem de 0,7 vezes seu erro padro.
Uma regra prtica aadotar contra-indica o uso do estimador de razo
separada a menos que: L(CV (xh ) < 0, 20 L = 1, 2, , L.
Talvez esta regra seja conservadora demais pois o vcio pode ser bem
menor que o limite superior conhecido; mas a menos que haja forte evidncia
disso no se deve usar o estimador de razo separada.
Tambm no existe uma expresso exata para a varincia de YbRS . Ser
obtida uma expresso aproximada no caso em que os nh so suficientemente
grandes para tornar desprezvel o vcio em cada um dos estratos. Caso esta
condio no se verifique, a expresso obtida para a varincia no confivel,
e o estimador de razo separada no deve ser usado.
Supondo os nh suficientemente grandes, vem:
!2
XL X
L
V (YbRS )
= E[(YbRS Y )2 ] = E YbhR Yh
h=1 h=1
!2
XL
y
= E ( h Xh Yh )
h=1
xh
" 2 #
XL
yh
= E Xh Yh +
h=1
xh
X L XL
yh yk
+ E Xh Yh Xk Yk
h=1 k=1
xh xk
k6=h

X
L

= V (YbhR ) + 0
h=1
X
L
Nh nh 1 2
= Nh2 Sh (y) + Rh2 Sh2 (x) 2Rh Sh (x, y)
h=1
Nh nh
28 CAPTULO 1. ESTIMADORES ESPECIAIS

Yh
onde: Rh = e Sh2 (y), Sh2 (x) e Sh (x, y) so como definidos anteriormente.
Xh
Esta varincia pode ainda ser escrita:
(N )
X L
N 2
N n 1 X h

V (YbRS ) h h h
= [(Yhj Y h ) Rh (Xhj X h )]2
h=1
Nh1 N h nh j=1

Um estimador de V (YbRS ) dado por:

X (Nh nh ) h 2 i
L
v(YbRS ) = Nh b 2 2 b
sh (y) + Rh sh (x) 2 Rh sh (x, y)
h=1
nh

onde: Rbh = y h = yh e s2 (y), s2 (x) e sh (x, y) so como definidos anterior-


h h
xh xh
mente.

O estimador de razo separada para estimar a mdia Y dado por:

YbRS
y RS =
N

Neste caso a varincia V (y RS ) dada por:


1
V (y RS ) = V (YbRS )
N2
e um estimador de V (y RS ) dado por:
1 b
v(y RS ) = v(YRS )
N2
X Nh (Nh nh )
v(y RS ) = bh2 s2h (x) 2R
[s2h (y) + R bh sh (x, y)]
N2 nh

1.4.3 Comparao dos estimadores de razo separada


e combinada
Em geral, para amostras de tamanho idntico, o estimador de razo combi-
nada deve ter vcio bem menor que o estimador de razo separada.
No uso do estimador de razo separada, h que verificar sempre se

LCV (xh ) 0, 20 h
1.4. ESTIMADORES DE RAZO EM AMOSTRAGEM ESTRATIFICADA29

Em ambos os casos, os tamanhos de amostra que garantem uma tendenciosi-


dade desprezvel podem ser determinados.
Atravs da comparao das varincias feita a avaliao da melhor pre-
ciso alcanada entre os estimadores de razo em amostragem estratificada:

X
L
Nh nh 1 2
V (YbRC ) V (YbRS )
= Nh2 [Sh (y) + R2 Sh2 (x) 2R Sh (x, y)]
h=1
Nh nh
X
L
Nh nh 1 2
Nh2 [Sh (y) + Rh2 Sh2 (x) 2Rh Sh (x, y)]
h=1
Nh nh
X
L
Nh nh

= Nh [(R2 Rh2 )Sh2 (x) 2(R Rh )Sh (x, y)]
h=1
nh

Os dois estimadores sero igualmente precisos se Rh = R ou Yh /Xh =


Y /X para todos os estratos.
A medida que os Rh sejam mais distantes de R, o estimador da razo
separada tende a dar maior preciso, inclusive por se basear num conheci-
mento mais detalhado dos dados do universo da caracterstica x.

Exemplo 1.2 (Cochran (1977), pg.167)


Os dados so provenientes do Censo Agropecurio de todas as fazendas
do municpio de Jeerson em Iowa. A varivel y investigada em cada fazenda
a rea (em acres) com plantao de milho e a varivel x a rea de cada
fazenda. A populao dividida em 2 estratos, sendo que o primeiro contm
as fazenda com menos de 160 acres. Suponha que se deseja selecionar uma
amostra de 100 fazendas, sendo que 70 sero selecionadas do estrato 1 e 30
do estrato 2. A idia comparar a preciso de estimadores alternativos para
estimar a mdia da rea com plantao de milho por fazenda.
Calcule a varincia do estimador da mdia segundo cada uma das 5 es-
tratgias:
1 - estimador simples, supondo que a amostra ser aleatria simples sem
considerar a estratificao;
2 - estimador de razo, supondo que a amostra ser aleatria simples sem
considerar a estratificao;
3 - estimador simples da amostragem estratificada, supondo que em cada
estrato a amostra ser aleatria simples;
4 - estimador de razo combinada da amostragem estratificada, supondo
que em cada estrato a amostra ser aleatria simples;
5 - estimador de razo separada da amostragem estratificada, supondo
que em cada estrato a amostra ser aleatria simples;.
30 CAPTULO 1. ESTIMADORES ESPECIAIS

Os dados so apresentados na tabela a seguir:

T amanho
Estratos (acres)
Nh Yh Xh Sh2 (y) Sh2 (x) Sh (x, y) Rh

1 160 1580 19,40 82,56 312 2055 494 0,2350

2 > 160 430 51,63 244,85 922 7357 858 0,2109

Total - 2010 26,30 117,28 620 7619 1453 0,2242

Os fatores de correo de populao finita podem ser ignorados, ou seja,


N n Nh nh
considerar =1e = 1, h = 1 e 2.
N Nh
Nh2 1
Considere Qh = 2 e que Q1 = 0,008828 e Q2 =0,001525.
N nh
Compare os resultados e comente.
Soluo:
1P n
1 - Amostra aleatria simples (AAS): y = yi o estimador simples
n i=1
da mdia da rea com plantao de milho por fazenda
N n Sy2 Sy2 620
V (y) = = = = 6, 20
N n n 100
y
2 - Amostra aleatria simples (AAS): y R = X o estimador de razo
x
da mdia da rea com plantao de milho por fazenda

N n1 2 1 2
V (y R )
= Sy + R2 Sx2 2 R Sxy = Sy + R2 Sx2 2 R Sxy
N n n
1
= [620 + (0, 2242)2 (7619) 2(0, 2242)(1453)] = 3, 51
100
PL N
h
3 - Amostra aleatria estratificada (AAE): y est = y h o estimador
h=1 N
simples da mdia da rea com plantao de milho por fazenda

X
L
N 2 Nh nh S 2 (Y ) X
L
N 2 S 2 (y)
V (y est ) = h h
= h h

h=1
N2 Nh nh h=1
N 2 nh
X
L
= Qh Sh2 (y) = (0, 008828)(312) + (0, 001525)(922) = 4, 16
h=1
1.4. ESTIMADORES DE RAZO EM AMOSTRAGEM ESTRATIFICADA31

y est
4 - Amostra aleatria estratificada (AAE): y RC = X o estimador
xest
de razo combinada da mdia da rea com plantao de milho por fazenda

XL
Nh2 Nh nh 1 2
V ( y RC )
= 2
Sh (y) + R2 Sh2 (x) 2R Sh (x, y)
h=1
N Nh nh
X
L


= Qh Sh2 (y) + R2 Sh2 (x) 2R Sh (x, y)
h=1
= (0, 008828)(312) + (0, 001525)(922) + (0, 008828)(0, 2242)2 (2055) +
+(0, 001525)(0, 2242)2 (7357) 2(0, 008828)(0, 2242)(494) +
2(0, 001525)(0, 2242)(858)
= 3, 10

1 PL y
h
5 - Amostra aleatria estratificada (AAE): y RS = Xh o es-
N h=1 xh
timador de razo separada da mdia da rea com plantao de milho por
fazenda

XL
Nh2 Nh nh 1 2
V ( y RS )
= 2
Sh (y) + Rh2 Sh2 (x) 2Rh Sh (x, y)
h=1
N Nh nh
X
L


= Qh Sh2 (y) + Rh2 Sh2 (x) 2Rh Sh (x, y)
h=1
= (0, 008828)(312) + (0, 001525)(922) + (0, 008828)(0, 2350)2 (2055) +
+(0, 001525)(0, 2109)2 (7357) 2(0, 008828)(0, 2350)(494) +
2(0, 001525)(0, 2109)(858)
= 3, 06
32 CAPTULO 1. ESTIMADORES ESPECIAIS

Resumo e comentrios:
Desenho M etodo de Ganhos de
Estrategia amostral estimaao
V ariancias precisao

1 AAS simples V (y) = 6, 20 -


V (y)
2 AAS razo V (y R ) = 3, 51 V (y R )
= 1, 77
V (y)
3 AAE simples V (y est ) = 4, 16 V (y est )
= 1, 49

V (y)
4 AAE razo combinada V ( y RC ) = 3, 10 V ( y RC )
= 2, 00

V (y)
5 AAE razo separada V ( y RS ) = 3, 06 V ( y RS )
= 2, 03

Os resultados mostram que h ganhos de preciso com as estratgias 2 a


5 quando comparadas com a estratgia 1. Verifica-se que o ganho de preciso
quando utilizar o estimador de razo com amostragem aleatria simples de
77%, enquanto que ao utilizar o estimador de razo separada em relao ao
estimador simples da amostragem aleatria simples de 103%. Porm, pode-
se verificar que ao se adotar amostragem estratificada, o ganho de preciso
ao utilizar o estimador de razo separada em relao ao estimador simples
da amostragem estratificada de apenas 36%, pois: V (y est ) / V ( y RS ) =
4, 16 / 3, 06 = 1, 36. Isto ocorre porque a varivel de estratificao (tamanho
da rea) a mesma varivel auxiliar utilizada no estimador de razo.

1.4.4 O uso de estimadores de razo


No planejamento das pesquisas a deciso entre utilizar uma determinada
varivel na estratificao ou na estimao depende de uma srie de circuns-
tncias. Alguns pontos relevantes so:

Fatores como localizao geogrfica, so mais fceis de serem introduzi-


dos na estratificao do que no mtodo de estimao.
A deciso depende da natureza da relao entre x e y.Todos os mtodos
de estimao de razo estudados dependem da efetividade da propor-
cionalidade da relao entre os xi e yi . Com relaes complexas ou
discontnuas, a estratificao pode ser mais eficiente.
Se para algumas variveis da pesquisa existir uma relao proporcional
com a varivel xi e para outras variveis existir uma relap propor-
cional a uma outra varivel zi , ento, melhor utilizar xi e zi como
1.5. ESTIMADORES DE REGRESSO 33

variveis auxiliares em estimadores de razo do que estratificar por uma


delas.

Algumas restries devem ser consideradas ao tomar a deciso de usar


estimadores de razo:

Os tamanhos de amostra devem satisfazer s condies para tornar


desprezvel o vcio do estimador empregado.

Quanto maior a associao entre a caractertica auxiliar x e a car-


acterstica de interresse y maior o ganho de preciso no uso de esti-
madores de razo.

No existem frmulas exatas para o vcio nem para a varincia dos es-
timadores, embora as aproximaes da varincia existentes sejam sat-
isfatrias para amostras cujo tamanho satisfaz a condio de tornar
desprezvel o vcio.

1.5 Estimadores de Regresso


O estimador de regresso tem sua definio baseada num modelo de regresso
usado para representar a distribuio condicional da varivel de interesse y
dada a varivel auxiliar x.
Assim como o estimador de razo, o estimador de regresso utilizado
para melhorar a preciso atravs do uso de uma varivel auxiliar x que
correlacionada com y. Quando a relao entre y e x examinada, pode ser
notado que embora haja uma relao linear, a reta no necessariamente passa
pela origem. Neste caso sugere-se a utilizao de um estimador baseado na
regresso linear de y e x.
O papel do modelo o de descrever a disperso condicional da varivel
de interesse y dada a varivel auxiliar x na populao finita. Espera-se que
o modelo represente bem a relao de y e x. A idia pensar que os valores
populacionais poderiam ter sido gerados pelo modelo. Entretanto, no
necessrio supor que os valores populacionais foram de fato gerados pelo
modelo.
Suponha que seja selecionada uma amostra aleatria simples de tamanho
n, que sejam investigados os valores da caracterstica de interesse y e da
caracterstica x, cuja mdia populacional (X) seja conhecida. O estimador
de regresso linear de Y definido por:

y reg = y + b(X x)
34 CAPTULO 1. ESTIMADORES ESPECIAIS

onde:
b o estimador usual de mnimos quadrados baseado na amostra.
P
n
(yi y)(xi x)
sxy i=1
b= 2 = P
n
sx
(xi x)2
i=1

O papel desempenhado pelo modelo ser essencialmente de sugerir um


estimador adequado b para usar no estimador de regresso.
possvel demonstrar que o estimador de regresso y reg consistente e
1
tem vcio de ordem .
n
Sua varincia pode ser aproximada por:
N n1 2
V (y reg )
= S (1 2xy )
N n y
onde: xy = (x, y) a correlao entre as variveis x e y na populao.
Esta varincia pode ser estimada usando:

N n 1 n1 2
v(y reg ) = sy + b2 s2x 2bsxy
N n n2
1 1 X
n
N n
= [(yi y) b(xi x)]2
N n n 2 i=1

Outros estimadores de varincia podem ser usados, oferecendo melhor


desempenho.
O estimador de regresso para estimar o total Y dado por:

Ybreg = N y reg

Neste caso, a varincia aproximada por:


N n1 2
V (Ybreg )
= N2 S (1 2xy )
N n y
e a varincia pode ser estimada por:

N n1 1 X
n
v(Ybreg ) = N 2 [(yi y) b(xi x)]2
N n n 2 i=1

Exemplo 1.3 (Thompson (1992), pg. 80)


1.5. ESTIMADORES DE REGRESSO 35

Para estimar a produo total de uma plantao numa regio com N =


100 reas, foram selecionadas aleatoriamente 4 reas e medida a quantidade
yi da produo de cada rea da amostra. A produo de uma rea depende
da quantidade xi de fertilizante aplicada na rea, que conhecida para cada
rea da regio, resultando numa mdia populacional 100.
Os 4 pares de valores (xi , yi ) da amostra so: (50, 1410), (100, 1690),
(150, 1680) e (200, 1850).
As mdias amostrais so: y = 1657, 5 e x = 125 e
b o estimador usual de mnimos quadrados baseado na amostra:
P
n
(yi y)(xi x)
i=1
b = P
n
(xi x)2
i=1
(50 125)(1410 1657, 5) + + (200 125)(1850 1657, 5)
=
(50 125)2 + + (2200 125)2
32750
= = 2, 62
12500
A estimativa da produo total da referida plantao, obtida atravs do
estimador de regresso, dada por:


Ybreg = N y reg = N y + b(X x)
= 100 (1657, 5 + 2, 62 (100 125))
= 100 (1592) = 159 200

Para obter a estimativa da varincia, vamos considerar o valor da linha


de regresso ajustada para a i-sima unidade da amostra estimada por:

ybi = a + bxi
onde: a = y bx = 1675, 5 2, 62 (125) = 1330.
Neste caso, tem-se:

yb1 = 1330 + 2, 62 (50) = 1461

yb2 = 1330 + 2, 62 (100) = 1592


yb3 = 1330 + 2, 62 (150) = 1723
yb4 = 1330 + 2, 62 (200) = 1854
36 CAPTULO 1. ESTIMADORES ESPECIAIS

N (N n) 1 X
n
v(Ybreg ) = N 2 v(y reg ) = [(yi y) b(xi x)]2
n n 2 i=1
N (N n) X
n
= (yi ybi )2
n (n 2) i=1
100 (100 4)
= (1410 1461)2 + + (1850 1854)2
4 (4 2)
100 (96)
= (7035) = 16 884 000
4
q
cujo desvio padro estimado por: v(Ybreg ) = 4 109.

Por outro lado, a estimativa da produo total da referida plantao,


obtida atravs do estimador simples da amostragem aleatria simples, dada
por:

Yb = N y = 100 (1657, 5) = 165 750


e a respectiva estimativa da varincia dada por:

N (N n) X
4
v(Yb ) = N 2 v(y) = (yi y)2
n i=1
100 (96)
= (33292) = 79 900 000
4
q
cujo desvio padro estimado por: v(Yb ) = 8 939.

Portanto, o estimador de regresso mais preciso que o estimador simples


no exemplo com essa pequena amostra. Isto ocorre em funo da pequena
variao dos resduos sobre a reta de regresso ajustada.

1.5.1 Comparao dos estimadores de regresso, razo


e simples da mdia sob amostragem aleatria
simples

N n1 2
V (y reg )
= Sy (1 2xy )
N n
N n1 2
V (y R )
= Sy + R2 Sx2 2 R Sxy
N n
1.5. ESTIMADORES DE REGRESSO 37

N n1 2
V (y) = S
N n y
Examinando as expresses acima, imediato notar que o estimador de
regresso mais preciso que o estimador simples da mdia a no ser xy = 0,
caso em que os estimadores so igualmente precisos.
O estimador de regresso prefervel ao estimador de razo quando:

2xy Sy2 < R2 Sx2 2 R Sxy

ou, equivalentemente quando:

2xy Sy2 < R2 Sx2 2 R xy Sy Sx


2
2 xy Sy Sx
xy Sy R Sx > 0 = R >0
Sx2
isto , quando: 2
Sxy
R > 0 = (B R)2 > 0
Sx2
B corresponde ao ajuste populacional (hipottico) do modelo aos dados da
populao.
Logo, o estimador de regresso mais preciso que o estimador de razo
a menos que B = R, o que ocorre somente quando a regresso entre y e x
linear passando pela origem.

1.5.2 O uso de estimadores de regresso


O estimador de regresso til por pelo menos trs motivos:

oferece calibrao na varivel auxiliar, isto , se aplicado a varivel


auxiliar replica exatamente seu total conhecido na populao;

oferece ganhos de eficincia em relao ao estimador simples;

tem grande flexibilidade, podendo ser utilizado com um vetor de var-


iveis auxiliares e ser facilmente generalizado para o uso em desenhos
amostrais complexos.

Algumas desvantagens e problemas devem ser consideradas ao tomar a


deciso de usar estimadores de regresso:

o vcio pode ser no desprezvel com pequenas amostras;


38 CAPTULO 1. ESTIMADORES ESPECIAIS

os pesos podem ser negativos ou menores que 1, o que indesejvel.

a preciso pode no ser boa caso o modelo linear no se ajuste bem.

maior complicao na estimao da varincia.

quando h mais de uma varivel auxiliar, necessrio usar mtodo


para escolha das que vo ser incorporadas na estimao. Acrescentar
variveis auxiliares nem sempre traz bom resultado.

usar pesos diferentes para diferentes variveis de interesse da pesquisa


uma tentao, mas aumenta a complexidade e cria dificuldades prticas.

1.6 Ps-estratificao
muito comum na prtica a ocorrncia de situaes onde a tcnica de estrat-
ificao poderia ser aplicada para melhorar a qualidade da amostra, porm
no se dispe de uma lista completa das unidades da populao com os re-
spectivos valores da caracterstica a ser usada na estratificao, ou seja, o
estrato para o qual a unidade pertence no conhecido at que os dados da
amostra sejam coletados. Caractersticas de pessoas, tais como: idade, sexo,
raa e nvel educacional so exemplos prticos dessa aplicao.
Nestes casos, quando forem conhecidos os limites dos estratos, e os seus
respectivos tamanhos (atravs de um censo anterior, por exemplo), possvel
fazer uso da estratificao para melhorar a qualidade das estimativas, atravs
da tcnica de ps-estratificao que consiste no seguinte:
i) selecionase uma amostra aleatria simples sem reposio de tamanho
n da populao N (sem considerar a estratificao);
ii) observase para cada unidade selecionada o valor da caracterstica de
estratificao x;
iii) de acordo com os valores observados de x, distribui-se a amostra em
L estratos previamente delimitados;
iv) considera-se a parte da amostra em cada um dos estratos como uma
amostra aleatria simples sem reposio do estrato (vide estimao em sub-
populaes), de tal forma que n1 + n2 + + nL = n
Neste caso n1 , n2 , nL so variveis aleatrias. A amostra em cada
estrato considerada como uma amostra aleatria simples sem reposio da
subpopulao formada pelas unidades pertencentes ao estrato.
Assim sendo, a maneira de estimar ser derivada da teoria apresentada
para estimao em subpopulaes.
1.6. PS-ESTRATIFICAO 39

1.6.1 Estimao do total e da mdia


De acordo com o que foi visto no estudo de estimao em subpopulaes um
estimador no tendencioso para o total y da populao com ps-estratificao
dado por:
X X nh
Nh X
L L
b
Ypos = Nh y h = yhj
h=1 h=1
nh j=1

Note que em termos de expresso, o estimador Ybpos idntico ao esti-


mador Ybest . A diferena existente entre ambos que no caso de Ybest as
mdias amostrais nos estratos (y h ) so calculadas com amostras de taman-
hos nh conhecidos a priori, enquanto que no caso de Ybpos estes tamanhos
so variveis aleatrias dependendo da particular amostra selecionada.
A seguir, ser demonstrada a afirmao de que Ybpos estimador no
viciado para Y .
Inicialmente, devese recordar que, se Z e T so variveis aleatrias,
ento:
E(Z) = ET [E(Z/T )]
Neste caso conveniente considerar internamente a esperana condi-
cionada quando se fixa uma dada seleo de amostra de tamanhos n1 , n2 , , nL ,
e depois a esperana sobre todas as possveis selees de amostra. Verificase
que:
nh
!
1 X
E(y h ) = E yhj
nh j=1
nh
1 X
= En1 ,n2 , ,nL [E yhj | n1 , n2 , , nL ]
nh j=1
= En1 ,n2 , ,nL [Y h ] = Y h h = 1, 2, , L

Seguindose imediatamente que:


" L #
X X
L X
L
E(Ybpos ) = E Nh y h = Nh E(y h ) = Nh Y h = Y
h=1 h=1 h=1

Uma consequncia imediata disto que um estimador no tendencioso da


mdia y dado por :
1 b X Nh
L
y pos = Ypos = yh
N h=1
N
40 CAPTULO 1. ESTIMADORES ESPECIAIS

Na psestratificao, concluise ento que, os estimadores do total e da


mdia so obtidos da mesma forma que na estratificao comum, uma vez
selecionada a amostra. O que ser diferente a preciso resultante deste
processo de estimao, como ser visto adiante.

1.6.2 Preciso dos estimadores com ps-estratificao


Nosso objetivo aqui o clculo das medidas da preciso dos estimadores com
psestratificao, e a comparao dessa preciso com aquela resultante da
aplicao convencional da estratificao.
Inicialmente vale notar que no se dispe de expresso exata para a var-
incia de Ybpos ou de y pos . Isto se deve ao fato de ambas dependerem da
razo n1h onde agora nh varivel aleatria. Mas vamos ao problema,
calculando uma aproximao para V (y pos ).
Varincia aproximada de y pos .
Se Z e T so variveis aleatrias pode se escrever:

V (Z) = ET (V (Z/T )) + VT [E(Z/T )]

Ento:

V (y pos ) = En1 ,n2 , ,nL V (y pos | n1 , n2 , , nL +
+Vn1 ,n2 , ,nL [E(y pos | n1 , n2 , , nL ]

Mas:
E(y pos | n1 , n2 , , nL ) = Y
Donde:

Vn1 ,n2 , ,nL [E(y pos | n1 , n2 , , nL ] = Vn1 ,n2 , ,nL (Y ) = 0

Logo:

V (y pos ) = En1 ,n2 , ,nL V (y pos | n1 , n2 , , nL
L !
X N2 1 1 2
h
= En1 ,n2 , ,nL ( )S
h=1
N 2 nh Nh h

Da:
X
L
N2 1 XL
Nh2 Sh2
h
V (y pos ) = 2
E( )Sh2
h=1
N nh h=1
N 2 Nh
1.6. PS-ESTRATIFICAO 41

Para calcular E( n1h ) vamos usar a aproximao em srie de Taylor em


torno do ponto E(nh ) da funo n1h . Esta funo pode ser escrita como:

1 1 E(nh ) 1 1 1 1
= = nh = E(n )
nh E(nh ) nh E(nh ) h nh E(nh )
E(nh ) 1+
E(nh )

agora sabese que:


1 .
= 1 + 2 = 1 + 2
1+
Para
nh E(nh )
=
E(nh )
vem: 2
1 nh E(nh ) nh E(nh )
=1 +
nh E(nh ) E(nh ) E(nh )
1+
E(nh )
Donde: " 2 #
1 1 nh E(nh ) nh E(nh )
= 1 +
nh E(nh ) E(nh ) E(nh )
Tomando expectncias nos 2 membros vem:
2

1 1 E(n h E(nh )) E[(nh E(n h )) ]
E( ) = 1 +
nh E(nh ) E(nh ) [E(nh )]2

1 V (nh )
= 1+
E(nh ) [E(nh )]2

Agora nh /n um estimador no viciado da proporo Nh /N de unidades


pertencentes ao estrato h.
Logo:
n
h N n1 N Nh Nh
V = 1
n N n N 1 N N

N n 1 Nh Nh
= 1
N n N N

Tambm: hn i
h Nh
E =
n N
42 CAPTULO 1. ESTIMADORES ESPECIAIS

Logo:
Nh
E(nh ) = n
N
2N n 1 Nh Nh
V (nh ) = n 1
N n N N
Isto :
Nh
E(nh ) = n
N
(N n) Nh Nh
V (nh ) = n 1
N N N
1
Levando na expresso de E( ) vem:
nh

(N n) Nh Nh
n 1
1 1 N N N
E( ) = 1+ 2
nh Nh N
n n2 h2
N
N
1 (N n) 1 1
=
Nh
1+ N 1
N n h
n
N N
1 (N n) 1 Nh
= 1+ 1
Nh N n N
n
N
Substituindo, finalmente, na expresso de V (y pos ), vem:

XL XL
Nh2 N N n1 N Nh2 Sh2
V (y pos )
= 1 + 1 Sh
2

h=1
N 2 n Nh N n Nh h=1
N 2 Nh
XL XL
Nh2 N 1 2 Nh2 N N n 1 N
= 2
Sh + 2
1 Sh2
h=1
N nNh Nh h=1
N n Nh N n Nh

N n 1 X Nh 2 N n 1 X
L L
Nh 2
= Sh + (1 )S
N n h=1 N 2
N n h=1 N h

Da:
N n 1 X
L
Nh 2
V (y pos )
(p)
= V (y est ) + (1 )S
2
N n h=1 N h
1.7. O USO DE INFORMAES AUXILIARES NA ESTIMAO 43

(p)
onde: V (y est ) a varincia do estimador da mdia no desenho de amostragem
estratificada com alocao proporcional.
medida que n cresce, a segunda parcela de V (y pos ) tende a zero.
(p)
V (y pos ) V (y est )

Seguese que, para amostras grandes, a eficincia da ps-estratificao em


relao amostragem aleatria simples equivale alocao proporcional. Um
critrio habitualmente empregado na prtica para ter uma ps estratificao
efeciente tornar cada nh 20, este pode ser obtido de 2 maneiras, a saber:
i) dimensionar a amostra aleatria simples de tal sorte que esta condio
ocorra com elevada probabilidade;
ii) utilizar um esquema de amostragem por cotas, onde os tamanhos de
amostra em cada um dos estratos seriam previamente fixados por alocao
proporcional e as unidades de populao iriam sendo selecionadas por AAS
e alocadas nos estratos respectivos, at preencher a cota de cada estrato;
cada nova unidade selecionada um estrato j com a cota preenchida seria re-
jeitada, e uma nova unidade deveria ser selecionada, repetindose o processo
at satisfazer as cotas fixadas para todos os estratos.
A desvantagem deste esquema de amostragem por cotas o aumento do
custo da pesquisa, em funo da seleo, investigao e posterior rejeio de
unidades pertencentes a estratos j completos.
Devese enfatizar que a adoo deste esquema s vlida se o proced-
imento da seleo das unidades da amostra for realmente o de uma AAS
sem reposio.

1.7 O uso de informaes auxiliares na esti-


mao
Silva (1996a) nos aponta que o aproveitamento de informaes populacionais
auxiliares para estimao em pesquisas por amostragem uma das partes
da teoria de amostragem que mais progrediu desde os anos 70. O livro que
representava o estado da arte da amostragem at ento (Cochran (1977))
contempla o uso de informaes auxiliares atravs de estimadores de razo
ou de regresso simples (ambos incorporando apenas uma varivel auxiliar)
ou de ps-estratificao. Entretanto, essas tcnicas eram apresentadas como
ferramentas separadas, sem uma ligao comum.
O livro que corresponde ao estado da arte da amostragem no incio
dos anos 90 (Srndal, Swensson e Wretman (1992)) apresenta as tcnicas de
ps-estratificao, estimao de razo e de regresso como casos particulares
44 CAPTULO 1. ESTIMADORES ESPECIAIS

do estimador de regresso generalizado, o qual fornece uma estrutura flexvel


e eficiente para incorporar informaes auxiliares na etapa de estimao.
Neste livro enfatizada uma abordagem model assisted, em que o modelo
de regresso usado para motivar o estimador, mas em que as propriedades
do mesmo so avaliadas com respeito distribuio gerada por repetidas
aplicaes do processo de seleo da amostra.
Tambm recentemente, Deville e Srndal (1992) identificaram o estimador
de regresso como um dos membros de uma famlias de estimadores de cali-
brao, em que os pesos so ajustados, cujos os fatores de ajuste so obtidos
de forma a minimizar uma funo de distncia sujeita a restries que so
funes das variveis auxiliares. Empregando-se distintas funes de dis-
tncia se gera uma ampla famlia de estimadores que inclui raking ratio
estimators, estimadores de regresso, de razo, de ps-estratificao e out-
ros.
O IBGE j adquiriu larga experincia e tem feito uso efetivo dos desen-
volvimentos recentes da teoria. Para corroborar essa afirmao apresentada
a aplicao de estimadores especiais para a obteno dos fatores de expanso
das amostras utilizadas na coleta de Censos Demogrficos brasileiros.
O IBGE, desde 1960, tem usado dois modelos de questinrios na coleta
das informaes dos Censos Demogrficos: um questionrio bsico, que con-
tm os quesitos necessrios ao conhecimento de certas caractersticas bsi-
cas da populao e dos domiclios, referentes a 100% da populao, e um
questionrio de amostra (ampliado) que contm, alm dos quesitos bsicos
que tambm constam do questionrio bsico, outos quesitos mais detalhados
sobre caractersticas dos domiclios e das pessoas, tais como religio, cor,
migrao, escolaridade, fecundidade, mo-de-obra, rendimento, etc.
O conhecimento de totais da populao para um subconjunto de car-
actersticas investigadas (as quais so pesquisadas a 100%) torna vivel a
aplicao de estimadores especiais.
Nos censos demogrficos de 1960 e 1970 foram utilizados estimadores
de ps-estratificao, com 46 ps-estratos em 1970, aplicado separadamente
para cada municpio. Cada ps-estrato era formado por combinaes de
valores das variveis auxiliares, as quais foram investigadas a 100% atravs
do questionrio bsico.
Na expanso da amostra do Censo Demogrfico de 1980 foi adotado raking
ratio estimator aqui denominado Processo Iterativo de Estimao por Totais
Marginais - PIETOM (IBGE (1983)) aplicado separadamente para cada uma
das 4219 reas de ponderao.2 Esse mtodo consistia em definir uma tabela
2
rea de ponderao a menor rea para a qual se calculava estimativas, e coincidia
na maior parte das vezes com um municpio, podendo ser subdiviso deste nos de maior
1.7. O USO DE INFORMAES AUXILIARES NA ESTIMAO 45

(ou matriz) de ps-estratificao de dupla entrada, cujas linhas e colunas


eram dadas por combinaes de valores das variveis auxiliares, as quais
foram investigadas a 100% atravs do questionrio bsico. Eram portanto
conhecidos os totais populacionais das celas, linhas e colunas dessa tabela.
Os pesos amostrais para unidades em cada cela eram calculados por um
processo iterativo de ajuste dos pesos iniciais, de tal forma que as estimativas
amostrais eram sucessivamente calibradas nos totais das linhas e depois das
colunas, at que fosse observada convergncia dos pesos.
O uso dese mtodo permitiu ampliar bastante o nmero de variveis aux-
iliares consideradas para a calibrao das estimativas amostrais: a tabela de
ps-estratificao empregada no censo de 1980 tinha 720 celas, em compara-
o com os 46 ps-estratos adotados no Censo de 70.
A metodologia adotada para a expanso da amostra do Censo de 1991 foi
baseada no ajuste de um modelo linear generalizado sujeito a restries, en-
tendidas como condies que buscam igualar estimativas dos valores conheci-
dos do universo para um conjunto de variveis auxiliares comuns amostra
e toda populao de cada rea de ponderao. Essa metodologia baseada
num dos membros da famlia de estimadores de calibrao identificada por
Deville e Srndal (1992), identificada por estimao de mnimos quadrados
generalizados em duas etapas - MQG2 (Silva, Bianchini e Albieri (1993);
Albieri e Dias (1994)).
Essa metodologia foi desenvolvida por tcnicos do Statistics Canada e
aplicada na expanso da amostra do Censo de Populao canadense de 91e 96,
que parecido com o Censo Demogrfico brasileiro. Foi possvel contar com
programas cedidos ao IBGE pelo Statistics Canada para a implementao do
mtodo para uso no censo brasileiro.
A metodologia MQG2 adotada para expandir a amostra do Censo De-
mogrfico de 1991 permite incorporar grande nmero de variveis auxiliares,
mas no oferece uma teoria para a escolha tima das mesmas. Esse um dos
aspectos do emprego de estimadores de regresso que tem merecido ateno
da comunidade de pesquisa recentemente. Em particular, Silva e Skinner
(1996) apresentam um mtodo para seleo de variveis auxiliares quando se
utiliza estimadores de regresso cuja eficincia para estimar a mdia de uma
varivel resposta especificada foi maior que a de vrios competidores. Silva
e Skinner (1996) apontam ainda uma perda de preciso deo estimador de
regresso quando o nmero de variveis auxiliares cresce demasiadamente,
alertando para a necessidade de establecer um compromisso entre a cali-
brao no maior nmero possvel de variveis auxiliares sem impor grande
perda de eficincia no estimador.

populao.
46 CAPTULO 1. ESTIMADORES ESPECIAIS

Na rea de estimao em amostragem h hoje em dia vrias opes de


sistemas genricos: SUDAAN - SUrvey DAta ANalysis (Shah et al. (1992)),
GES - Generalized Estimation System (Estevao, Hidiroglou e Srndal (1995)),
CLAN (Andersson e Nordberg (1994)), WESVARPC (Westat (1995)). Todos
esses sistemas so capazes de calcular estimativas de totais e mdias, e re-
spectivas medidas de preciso para uma ampla gama de desenhos amostrais
e tipos de estimadores. Em particular, o sistema GES desenvolvido pelo
Statistics Canada implementa a metodologia de estimadores de regresso
generalizados tal como descrita no livro de Srndal, Swensson e Wretman
(1992).
1.8. EXERCCIOS 47

1.8 Exerccios
1.8.1 (Thompson (1992), pg. 76) Numa cidade com 75.000 habitantes,
uma amostra aleatria simples de 4 domiclios selecionada dos 25.000
domiclios da cidade para estimar o custo mdio de alimentao por
domiclio em uma semana. O primeiro domiclio selecionado tinha 4
pessoas e gastou R$150,00 com alimentao naquela semana. O se-
gundo domiclio tinha 2 pessoas e gastou R$100,00. O terceiro, com 4
pessoas, gastou R$200,00. O quarto, com 3 pessoas, gastou R$140,00.

N n
Considere: =1 s2y = 1691, 70 s2x = 0, 9166 sxy = 37, 5
N

a) Identifique as unidades de amostragem, a varivel de interesse, e


alguma informao auxiliar associada com as unidades.
b) Descreva dois tipos de estimadores para estimar a despesa m-
dia por domiclio para a alimentao por uma semana na cidade.
Sumarize algumas propriedades de cada estimador.
c) Estime a despesa mdia por domiclio usando o primeiro estimador
e estime a varincia do estimador.
d) Estime a despesa mdia por domiclio usando o segundo estimador
e estime a varincia do estimador.
e) Baseado nos dados, qual estimador prefervel nesta situao?

1.8.2 Seja {u1 , u2 , , un }uma amostra aleatria simples sem reposio da


populao N , onde so observadas as caractersticas x e y. Mostre
que a covarincia amostral

1 X
n
sxy = (xi x)2
n 1 i=2

um estimador no viciado para a covarincia populacional

1 X
N
Sxy = (XI X)(YI Y )
N 1 I=1

1.8.3 De uma populao com 40 domiclios foi selecionada uma amostra


aleatria simples sem reposio de tamanho n = 4 que proporciona
48 CAPTULO 1. ESTIMADORES ESPECIAIS

os seguintes valores semanais expressos em reais.

Gastos com alimentao Gastos total


(yi ) (xi )
125 250
135 300
70 200
158 350

P
4 P
4
yi = 488 xi = 1.100
i=1 i=1

P
4 P
4 P
4
yi2 = 63.714 x2i = 315.000 xi yi = 141.050
i=1 i=1 i=1

Estime a porcentagem de gasto com alimentao e o respectivo erro


amostral medido pelo coeficiente de variao.

1.8.4 O objetivo estimar o total de despesa com gastos sociais das prefeituras
de uma regio que abrange 281 municpios. Foi selecionada uma amostra
aleatria sem reposio de 50 municpios. Sabe-se que a populao to-
tal da regio de 6.818 (em milhares). Calcule a estimativa de total
da caracterstica y, que representa a despesa com gastos sociais, e o re-
spectivo intervalo com 95% de confiana para essa estimativa de total
baseada em cada um dos seguintes estimadores:

a) Estimador simples.

b) Estimador de razo, utilizando como varivel auxiliar a populao,


representada pela caracterstica x.
c) Comente os resultados.

So dadas as seguintes informaes provenientes da amostra:

P
50 P
50
yi = 128.080 xi = 1.067
i=1 i=1

s2y = 6.244.516 s2x = 454, 51 sxy = 45.399


Obs: Tanto os valores de x com de y esto representados em milhares.
1.8. EXERCCIOS 49

1.8.5 Defina estimadores consistentes e suas respectivas varincias aproxi-


madas para a mdia de Y baseados em:

a) estimador de razo simples;


b) estimador de razo combinada;
c) estimador de razo separada.

Quando razovel a utilizao de estimadores de razo, luz das re-


stries existentes para esse tipo de estimador? e

A partir das frmulas aproximadas para as varincias dos estimadores


de (a), (b) e (c), obtenha estimadores consistentes que possam ser cal-
culados a partir da amostra.

1.8.6 Uma pesquisa piloto, onde foram selecionados aleatoriamente 21 domi-


clios (di i = 1, 2, , 21), forneceu os seguintes dados para o nmero
de pessoas no domiclio (x), nmero de crianas (y1 ), nmero de carros
(y2 ) e nmero de televisores (y3 ).

di x y1 y2 y3 di x y1 y2 y3 di x y1 y2 y3
d1 5 3 1 3 d8 2 0 0 1 d15 6 3 2 0
d2 2 0 1 1 d9 3 1 1 1 d16 4 2 1 1
d3 4 1 2 0 d10 2 0 2 0 d17 4 2 1 1
d4 4 2 1 1 d11 6 4 2 1 d18 3 1 0 1
d5 6 4 1 1 d12 3 1 0 0 d19 2 0 2 1
d6 3 1 1 2 d13 4 2 1 1 d20 4 2 1 1
d7 5 3 1 1 d14 5 3 1 1 d21 3 1 1 1

Assumindo que a populao total X conhecida, voc recomendaria


que os estimadores de razo fossem utilizados ao invs do estimador
simples para estimar o total de crianas, carros e televisores?

1.8.7 Em uma determinada localidade de 500 famlias se deseja fazer um


estudo sobre o hbito de fumar entre as pessoas maiores de 16 anos.
A populao foi estratificada em 2 estratos: famlias com renda alta
(estrato 1), onde foram classificadas 200 famlias; e famlias com renda
mais baixa (estrato 2), onde foram classificadas as outras 300 famlias.
conhecido que o nmero de pessoas com mais de 16 anos no estrato 1
520 e no estrato 2 1230. De cada um dos estratos foi selecionada uma
amostra aleatria de 5 famlias, apresentando os seguintes resultados:
50 CAPTULO 1. ESTIMADORES ESPECIAIS

Estrato 1
Famlias na amostra 1 2 4 4 5
Pessoas com mais de 16 anos 4 3 2 1 2
Fumantes com mais de 16 anos 1 1 0 1 1
Estrato 2
Famlias na amostra 1 2 4 4 5
Pessoas com mais de 16 anos 5 6 4 4 3
Fumantes com mais de 16 anos 3 3 1 2 2
Estimar o total de fumantes entre as pessoas maiores de 16 anos na
localidade, utilizando:

a) o estimador simples da amostragem estratificada;


b) o estimador de razo combinada; e
c) o estimador de razo separada.

Calcule os intervalos com 95% de confiana para estimar os totais de fu-


mantes entre as pessoas maiores de 16 anos na localidade, considerando
os estimadores utilizados em (a), (b) e (c).
Comente os resultados.

1.8.8 Considere uma populao de pomares de plantio de pssegos. A var-


ivel y a produo de pssegos e a varivel auxiliar x o nmero de
ps de pssego do pomar.
A idia comparar a preciso dos estimadores alternativos da produo
total de pssegos na populao, que tem 256 pomares, com base numa
amostra aleatria de 100 pomares.
Os dados bsicos obtidos de um censo anterior so:
Sy2 = 6.409 Sx2 = 3.898 Sxy = 3.898 e R = 1, 270

Calcule a varincia do estimador de total segundo cada uma das es-


tratgias: estimador simples, razo e regresso. Comente o resultado.
1.8.9 De um Censo Agropecurio foram obtidas 1 200 000 fazendas e a rea
(x) de cada fazenda foi investigada fornecendo uma mdia de 31,25
acres por fazenda. Uma amostra aleatria simples de 2 055 fazendas foi
selecionda e foram obtidas as seguintes informaes sobre o nmero de
cabeas de gado (y) em cada fazenda e a rea de cada fazenda.
1.8. EXERCCIOS 51

P
2.055 P
2.055
yi = 25. 751 xi = 62. 989
i=1 i=1
s2y =
1.334, 470 s2x = 490, 4300 b = 0, 354585
N n
(Considere = 1)
N

a) Calcule as estimativas do total de cabeas de gado utilizando o


estimador simples, de razo e de regresso.
b) Calcule a estimativa da varincia de cada estimativa obtida em
(a).
c) Obtenha o intervalo com 95% de confiana para cada uma das
estimativas obtida em (a).
d) Comente os resultados.

1.8.10 Para estimar o total de cabeas de gado em uma determinada regio, foi
selecionada aleatoriamente uma amostra de 24 fazendas dentre as 1.238
fazendas daquela regio. O nmero de cabeas de gado de cada fazenda
da amostra foi coletado (caracterstica y) e alm disso dispunha-se do
correspondente nmero de cabeas de gado obtido no ltimo Censo
Agropecurio. Usando como varivel auxiliar (x) a informao do
nmero de cabeas de gado coletado no ltimo censo e sabendo-se que:

P
24 P
24
yi = 13.646 xi = 13.638 s2y = 256.154, 86
i=1 i=1

s2x = 278.836, 89 sxy = 256.262, 02

a) Compare a eficincia do estimador de regresso em relao ao


estimador simples.

b) Compare a eficincia do estimador de regresso em relao ao


estimador de razo.

1.8.11 Uma amostra aleatria simples de 546 domiclios foi selecionada de


uma rea que continha 2 097 domiclios. As caractersticas tamanho
do domiclio e idade do chefe foram investigadas em todo universo e
a varivel sexo do chefe do domiclio foi investigada apenas atravs da
amostra, fornecendo os seguintes resultados.
52 CAPTULO 1. ESTIMADORES ESPECIAIS

Nmero de domiclios no universo


Tamanho do Idade do chefe
domiclio 0 a 39 anos 40 e mais Total
1 a 3 moradores 303 464 767
4 e 5 moradores 426 339 765
6 e mais moradores 171 394 565
Total 900 1197 2097

Nmero de domiclios na amostra


Tamanho do Idade do chefe
domiclio 0 a 39 anos 40 e mais Total
1 a 3 moradores 103 154 257
4 e 5 moradores 120 80 200
6 e mais moradores 32 57 89
Total 255 291 546

Nmero de domiclios na amostra, cujo chefe mulher

Tamanho do Idade do chefe


domiclio 0 a 39 anos 40 e mais Total
1 a 3 moradores 1 8 9
4 e 5 moradores 1 3 4
6 e mais moradores 0 3 3
Total 2 14 16

Estimar o nmero de domiclios cujo chefe mulher

a) usando o estimador simples.


b) usando o estimador de ps-estratificao, considerando como ps-
estrato a varivel idade do chefe.
c) usando o estimador de ps-estratificao, considerando como ps-
estrato o tamanho do domiclio.
d) usando o estimador de ps-estratificao, considerando como ps-
estrato a varivel idade do chefe cruzada com o tamanho do domiclio.
Captulo 2

Amostragem de Conglomerados

2.1 Conceituao Bsica


O objetivo pretendido com a aplicao da tcnica de amostragem a obteno
de estimativas para certos parmetros da populao a partir de uma amostra
de unidades dessa populao, cuja preciso seja conhecida e satisfatria.
As unidades dessa amostra podem ser obtidas selecionando-se direta-
mente unidades na populao com probabilidades conhecidas. Elas podem
ainda ser obtidas por um outro esquema de amostragem onde grupos de
unidades so selecionados com probabilidades conhecidas.
A amostragem de conglomerados (cluster sampling) consiste num es-
quema de amostragem em estgios, sendo que em cada estgio a unidade
amostral, para a qual atribuda a probabilidade de seleo, grupada em
um subconjunto (CONGLOMERADO) de unidades populacionais.
O termo unidade populacional usado para denotar um membro de uma
particular populao para a qual as anlises dos resultados do levantamento
so feitas.1
A formao dos conglomerados pode ser:
- natural (exemplos: um cacho de uvas, uma turma de alunos, um edifcio,
um quarteiro, um municpio); ou
- artificial, construdo pelo estatstico de acordo com o objetivo da pesquisa
(exemplos: conglomerados de seis pessoas, de dez peas industriais do mesmo
tipo, de cinco domiclios do mesmo edifcio).
1
Nos esquemas de amostragem at ento apresentados (amostragem aleatria simp-
ples, amostragem estratificada e amostragem sistemtica) a unidade amostral era igual a
unidade de anlise.

53
54 CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOS

A unidade populacional depende da anlise que est sendo feita e de-


terminada pelo propsito do levantamento e no pelo plano amostral. Pode
acontecer de mais de uma unidade populacional estar envolvida no levanta-
mento, quando por exemplo, caractersticas de domiclios e de pessoas so
investigadas no mesmo levantamento.
No h uma nica definio possvel para os conglomerados. Por exemplo,
a turma tanto pode ser uma unidade populacional (se estivermos interessados
em investigar o nmero de alunos por turma), como pode ser um conglom-
erado de alunos (se estivermos interessados em investigar o aproveitamento
dos alunos).
A fim de exemplificar, seguem-se algumas ilustraes de possveis con-
glomerados associados com a populao, a varivel de interesse e a unidade
de referncia para anlise.

Populao Variveis de Unidade de Conglome-


Interesse Referncia rados

Turmas de Alunos por turma Turma Escolas


alunos

Estudantes de Aproveitamento Estudante Turmas


escolas de 2o grau dos estudantes

Visitantes de Facilidades do Visitante de Veculos que


parques parque parque entram no
nacionais nacional parque

Passageiros Propsito da Passageiro de Lotaes de


de avio Viagem avio passageiros

Domiclios Caractersticas Domiclio Setores


de domiclios

Moradores Caractersticas Morador de Domiclios


em favelas de pessoas favela em favelas
do Rio do Rio do Rio
Cabe lembrar que os vrios esquemas de amostragem: amostragem aleat-
ria simples (AAS), amostragem estratificada e amostragem sistemtica dis-
cutidos anteriormente podem ser aplicados a amostragem de conglomerados,
onde os conglomerados so as unidades amostrais.
2.2. AMOSTRAGEM DE REAS 55

2.2 Amostragem de reas


O cadastro ou marco de referncia a fonte de materiais que serve de guia e
permite identificar a populao a ser coberta para a seleo de amostras.
Os esquemas probabilsticos propostos para seleo de amostras pres-
supem a existncia de uma lista completa das unidades da populao a ser
pesquisada. Porm, uma lista pode no estar disponvel, ou estar desatual-
izada, ou o custo de preparar uma lista atualizada pode ser proibitivo. Alm
disso, uma amostra selecionada de uma populao dispersa geograficamente
provavelmente ser muito dispersa tambm.
Para reduzir custos muito freqente o uso de amostragem de conglom-
erados definidos por reas geogrficas com limites naturais ou artificiais bem
definidos, Neste caso a amostra resultante pode ser concentrada dentro de
um nmero de reas geogrficas.
Portanto, a utilizao de amostras de reas se d quando no existe um
cadastro de boa qualidade disponvel e/ou quando a populao for muito
dispersa e o fator custo de deslocamento for preponderante. Neste caso a
necessidade de uma lista atualizada das unidades para as quais se requer a
informao restrita s reas que forem selecionadas para a amostra.
A grande vantagem da amostra de conglomerados a sua convenincia
operacional vinculada a possveis redues no custo.
Num levantamento de populao, por exemplo, operacionalmente mais
conveniente pesquisar todas as pessoas numa amostra de domiclios do que
selecionar o mesmo nmero de pessoas espalhadas por toda a populao ou
mesmo pesquisar todos os domiclios de uma amostra de reas (por exemplo,
setores) do que selecionar uma amostra do mesmo nmero de domiclios
selecionados aleatoriamente de uma lista de todos os domiclios. Tal lista
nem sempre disponvel e o seu preparo torna a pesquisa bem mais cara.
Suponha-se que uma AAS de n=400 domiclios deva ser selecionada de
uma populao de N=10.000 domiclios de uma cidade. Como no dispomos
de uma lista atualizada com todos os domiclios, optamos por uma amostra
de domiclios localizados dentro de uma amostra de quarteires. Isto pode
ser feito dividindo a rea toda da cidade em quarteires e selecionando 1/25
quarteires. A probabilidade de selecionar um domiclio na cidade a prob-
abilidade de selecionar um quarteiro, ou seja, 1/25=400/10.000.
Portanto, as unidades amostrais so quarteires selecionados de uma lista
completa. A seleo da amostra de quarteires determina a seleo dos
domiclios que esto localizados nos quarteires.
Mesmo se a lista de todos os domiclios fosse disponvel, consideraes na
reduo do custo pode ser observada na amostra de conglomerados. Pois a
56 CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOS

localizao e identificao dos 400 domiclios espalhados aumentaria o custo


com gastos com transporte, bem como um maior tempo para a coleta em
comparao com a localizao dos quarteires e visita a todos os domiclios
nestes quarteires.
Mas para um dado tamanho de amostra, uma unidade menor em geral
d resultados mais precisos do que uma unidade maior.
Portanto, se compararmos uma amostra de conglomerados com uma amostra
de unidades elementares compreendida do mesmo nmero de elementos, em
geral na amostra de conglomerados tem-se:
- o custo por unidade elementar mais baixo, devido ao mais baixo custo
da listagem ou da localizao, ou de ambos;
- a varincia amostral mais alta dependendo da homogeneidade dos
elementos nos conglomerados.
Entretanto, levando em conta os aspectos operacionais e a reduo de
custos (devido ao possvel ganho no tempo de coleta, identificao, contato,
etc.) que a amostragem de conglomerados proporciona, em muitas situaes
prticas a perda na eficincia amostral balanceada com essas vantagens.

2.3 Conglomerados em 1 estgio


2.3.1 Probabilidades iguais de seleo
Definies bsicas e notao
Seja N a populao, com suas N unidades grupadas em M conglomerados
disjuntos. Seleciona-se uma amostra aleatria simples sem reposio de m
desses M conglomerados. As unidades de N pertencentes aos m conglom-
erados selecionados formam a amostra de conglomerados em 1 estgio de
N (Ac1).
Se a caracterstica y observada nas unidades da amostra, tem-se uma
amostra de conglomerados em 1 estgio de y.
Pode-se representar esquematicamente a populao por:

C1 C2 CM
U11 Y11 U21 Y21 ... UM1 YM1
U12 Y12 U22 Y22 ... UM2 YM2
.. .. .. .. .. ..
. . . . . .
U1N1 Y1N1 U2N2 Y2N2 . . . UMNM YMNM

onde:
2.3. CONGLOMERADOS EM 1 ESTGIO 57

Uij a j-sima unidade de N no i-simo conglomerado Ci ;


i {1, 2, ..., M } e j {1, 2, ..., Ni } ;
Yij o valor da caracterstica y associada a Uij ;
PM
Ni o tamanho do conglomerado Ci ; Ni = N
i=1
Selecionando-se atravs de amostragem aleatria simples sem reposio
m conglomerados dentre os M existentes, pode-se representar esquematica-
mente a amostra por:

C10 C20 0
Cm
0
U11 Y110 0
U21 Y210 ... 0
Um1 0
Ym1
0
U12 Y120 0
U22 Y220 ... 0
Um2 0
Ym2
.. .. .. .. .. ..
. . . . . .
0 0 0 0 0 0
U1N 0 Y1N 0 U2N 0 Y2N 0 . . . UmNm
0 YmNm
0
1 1 2 2

Note-se que como os conglomerados so selecionados por amostragem


aleatria simples:
Ci0 pode ser qualquer um dos conglomerados C1 , C2 , , CM .
Ni0 o tamanho do conglomerado selecionado Ci0 e pode ser qualquer um
dos valores N1 , N2 , , NM .
Consequentemente os Yij0 (i = 1, 2, ..., m e j = 1, 2, ..., Ni0 ) e os Ni0
(i = 1, 2, ..., m) so variveis aleatrias.
A amostra constituda pelas unidades:
n o
0 0 0 0
U11 , ..., U1N1
0 ; ...; Um1 , ..., UmN 0
m

e os valores da caracterstica y associados s unidades da amostra so:


n o
0 0 0 0
Y11 , ..., Y1N10 ; ...; Ym1 , ..., YmNm0

P
m
O tamanho total da amostra : n = Ni0 que uma varivel aleatria,
i=1
cujos valores dependem dos conglomerados selecionados.

Pode-se calcular o valor esperado de n, n que ser dado por:

m ! P
M

X X
m Ni
i=1
n = E Ni0 = E(Ni0 ) =m
i=1 i=1
M
N m
= m = N = f1 N
M M
58 CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOS

m
sendo: f1 = , a frao de amostragem do primeiro estgio.
M
A figura 2.1 apresenta uma ilustrao da seleo das unidades de uma
amostra de conglomerados em 1 estgio.

Figura 2.1: Ilustrao da seleo das unidades de uma Ac1

A amostragem de conglomerados em 1 estgio caracterizada pelos seguintes


fatos:

Pertencem amostra todas as unidades dos conglomerados seleciona-


dos.

S necessrio listar as unidades da populao nos m conglomera-


dos selecionados para a amostra. Isto acarreta evicente economia de
tempo e custo quando comparado amostragem aleatria simples ou
amostragem estratificada, nas quais so listadas todas as unidades da
populao.

O tamanho da amostra no pode ser exatamente prefixado, pois de-


pender dos conglomerados selecionados.

Cada unidade da populao tem a mesma probabilidade de participar


da amostra, e esta probabilidade igual frao de amostragem no
m
primeiro estgio .
M
Mais adiante se ver que em muitas ocasies, a preciso da amostragem
de conglomerados inferior preciso da amostragem aleatria simples.
2.3. CONGLOMERADOS EM 1 ESTGIO 59

Entretanto, a vantagem do menor custo e tempo pode compensar a


perda de preciso.

Parmetros da caracterstica y
Total da caracterstica y no conglomerado Ci :

Ni
X
Yi = Yij
j=1

Mdia da caracterstica y no conglomerado Ci :

Yi
Yi =
Ni

Varincia da caracterstica y em Ci :

N
1 X i

Si2 = (Yij Y i )2
Ni 1 j=1

Total da caracterstica y em toda populao:

X
M
Y = Yi
i=1

Mdia da caracterstica y por unidade da populao:

Y
Y =
N

Mdia da caracterstica y por conglomerado:

Y
Y =
M

Varincia da caracterstica y em toda populao:

N
1 XX
M i

S2 = (Yij Y )2
N 1 i=1 j=1
60 CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOS

Estatsticas da amostra em cada conglomerado selecionado


Como resultado da amostragem de conglomerados tem-se as seguintes es-
tatsticas:
Total da caracterstica y no i-simo conglomerado selecionado Ci0 :
0
Ni
X
Yi0 = Yij0
j=1

Mdia da caracterstica y no conglomerado Ci0 :


0 Yi0
Yi =
Ni0
Varincia da caracterstica y em Ci0 :
N0
02 1 X i
0
Si = 0 (Yij0 Y i )2
Ni 1 j=1

Estimadores do total e da mdia na Ac1


Quando os conglomerados so selecionados por amostragem aleatria simples
sem reposio, um estimador no viciado do total Y dado por:

MX 0
m
b
YAc1 = Y
m i=1 i
Prova:
MX MX
m m
b
E(YAc1 ) = 0
E(Yi ) = E(Yi0 )
m i=1 m i=1
M ! M !
MX 1 X Mm X
m
= Yk = Yk
m i=1 M k=1 m M k=1
X
M
= Yk = Y
k=1

Conseqentemente, um estimador no viciado de Y , mdia por unidade


da populao, dado por:

1MX 0 1 X 0
m m
YbAc1
y Ac1 = = Yi = Yi
N N m i=1 m N i=1
2.3. CONGLOMERADOS EM 1 ESTGIO 61

N
onde: N = o tamanho mdio por conglomerado.
M

!
YbAc1 1 b 1
E y Ac1 = E = E YAc1 = Y =Y
N N N

E um estimador no viciado de Y , mdia por conglomerado dado por:

1 X 0
m
YbAc1
y Ac1 = = Y
M m i=1 i

!
YbAc1 1 b Y
E (y Ac1 ) = E = E YAc1 = =Y
M M M
62 CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOS

Varincias dos estimadores do total e da mdia na Ac1

! !2
M X
m
M X
m
V (YbAc1 ) = V Y0 =E Y0Y
m i=1 i m i=1 i
2
Pm
0 m !2
M i=1 Yi mY 2 X
= E = E M Yi0 mY
m m2
i=1

!2 !2
M 2 X m
M 2 X m
0
= 2
E Yi0 mY = 2 E Yi Y
m i=1
m i=1

M2 Xm
0 2 X m X m
0 0
= E Y Y + Y Y Y Y
m2 i=1 i
i=1 k=1
i k
i6=k

M2 Xm
0 2 X
m X
m

= E Yi Y + E Yi0 Y Yk0 Y
m2
i=1 i=1 k=1
i6=k

m X m(m 1) X X 0
M M M
M2

2 0

= Y Y + Y Y Y Y
m2 M i=1
i i k
M(M 1) i=1 k=1
i6=k

MXM
2 (m 1) XM X M
0
= Yi Y + Yi Y Yk0 Y

m i=1 (M 1) i=1 k=1
i6=k

fazendo:

1 X
M
2
Se2 = Yi Y
M 1 i=1
2.3. CONGLOMERADOS EM 1 ESTGIO 63

e notando que:
M !2
X
M
X
0 = Yi Y = Yi Y
i=1 i=1
XM
2 XX
M M

= Yi Y + Yi Y Yk Y
i=1 i=1 k=1
i6=k

X
M X
M
X
M
2
= Yi Y Yk Y = Yi Y
i=1 k=1 i=1
i6=k

Segue-se que:
" #
M (m 1) X M
2
V (YbAc1 ) = 2
(M 1) Se Yi Y
m (M 1) i=1
M
= (M 1) Se2 (m 1) Se2
m
M(M m) 2 M 2 (M m) Se2
= Se =
m M m

Observe que a varincia do estimador YbAc1 depende somente da frao


de amostragem do primeiro estgio e da variabilidade entre os totais dos
conglomerados. Em termos de expresso, a varincia de YbAc1 idntica
varincia do estimador de total com amostragem aleatria simples.

Estimador da varincia do estimador de total na Ac1

Agora que se conhece a expresso da varincia do estimador YbAc1 , trata-se da


obteno de um estimador para essa varincia. Isto feito usando a teoria j
conhecida da amostragem aleatria simples e supondo que os conglomerados
so as unidades investigadas.
Assim,
1 X 0
m
2 2
se = (Yi y Ac1 )
m 1 i=1

deve ser um estimador no viciado de Se2 .


64 CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOS

Para verificar este fato, note-se que:


1 X 0
m
2
s2e = (Y y Ac1 )
m 1 i=1 i
1 X 0
m
2
= Yi Y ) (y Ac1 Y
m 1 i=1
1 X 0
m

= Yi Y )2 2(y Ac1 Y (Yi0 Y ) + (y Ac1 Y )2
m 1 i=1
" m #
1 X Xm Xm
0 2 2 0
= (Y Y ) + (y Ac1 Y ) 2(y Ac1 Y ) (Yi Y )
m 1 i=1 i i=1 i=1
" m #
1 X
s2e = 0 2 2
(Y Y ) + m(y Ac1 Y ) 2m(y Ac1 Y ) 2
m 1 i=1 i
" m #
1 X
0 2 2
= (Y Y ) m(y Ac1 Y )
m 1 i=1 i
da pode-se obter:
( " m #)
1 X
E(s2e ) = E (Y 0 Y )2 m(y Ac1 Y )2
m 1 i=1 i
(m )
1 X
= E(Yi0 Y )2 mE(y Ac1 Y )2
m 1 i=1
( )
mX
M
1
= (Yi Y )2 mV (y Ac1 )
m 1 M i=1

1 m 2 (M m) Se2
= (M 1) Se m
m1 M M m
2

m 1 S
= M Se2 Se2 (M m) e
M m1 m
m 1 1
= M(1 ) Se2
M m1 m
m 1 m1 2
= M( ) Se = Se2
M m1 m
Conseqentemente, um estimador no viciado para V (YbAc1 ) dado por:

b M 2 (M m) s2e
v(YAc1 ) =
M m
2.3. CONGLOMERADOS EM 1 ESTGIO 65

2.3.2 Estimao de propores na Ac1


Considere-se a populao dividida em 2 classes A e A e (no A), de acordo
com algum atributo associado s unidades da populao N .
Ento, se a populao grupada em M conglomerados disjuntos, cada
conglomerado pode ser dividido nas classes A e A. e
uma caracterstica y tal que:
Definindo
1 se Uij A
Yij = i = 1, 2, , M e j = 1, 2, , Ni

0 se Uij A

Sejam Ai e Aei o nmero de unidades de N em A e A, e respectivamente,


no conglomerado i.
Ai pode assumir os valores 0, 1, 2, , Ni e se tem:

ei = Ni
Ai + A

Segue-se que:
P
Ni
Ai = Yi = Yij o nmero de unidades em A, do conglomerado i;
j=1
Ai Yi
PA i = = = Y i a proporo de unidades em A, do conglomerado
Ni Ni
i.
Assim, a proporo global de unidades em A na populao N dada
por:

P
M P
M
Ai Yi
i=1 i=1 Y
PA = = = =Y
PM P
M N
Ni Ni
i=1 i=1

ou ainda,
P
M
Ai X
M
i=1 Ni
PA = = PA i
N i=1
N
Em vista dessas expresses, e considerando a teoria j apresentada para
obteno dos parmetros de N , imediata a obteno de estimadores no
viciados para a proporo PA :

M X Ni0 0 1 X 0 0 1 X 0
m m m
pAc1 = PA i = Ni PA i = Ai
m i=1 N mN i=1 mN i=1
66 CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOS

onde: 0
Ni
P
A0i = Yi0 = Yij0 o nmero de unidades em A, do i-simo conglomerado
i=1
selecionado;
A0 Y0 0
PA0 i = i0 = i0 = Y i a proporo de unidades em A, do i-simo
Ni Ni
conglomerado selecionado.

Alm disto, a varincia de pAc1 dada por:


2
M m Se 1 M m Se2
V (pAc1 ) = = 2
M m N M m
onde:
M 2
1 X Yi 1 X 1
M
2 2
Se = PA = 2 Ni PA i N PA
M 1 i=1 N M 1 i=1 N

1 X 2 2
M
1 2 2
= Ni PA i 2NNi PA i PA + N PA
M 1 N 2 i=1
(M )
1 1 X XM XM
2 2
2 2
= 2 Ni PA i 2NPA Ni PA i + N PA
N M 1 i=1 i=1 i=1
(M )
1 1 X 2
= 2 Ni2 PA2 i 2NPA NPA + MN PA2
N M 1 i=1
(M )
1 1 X 2
= 2 Ni2 PA2 i MN PA2
N M 1 i=1
(M ) (M )
1 1 X N 2
1 1 X Y 2
= 2 Yi2 M 2 PA2 = 2 Yi2 M 2
N M 1 i=1
M N M 1 i=1
M
(M )
1 1 X 2 1 1 X
M
2 1
2
= 2 Y i MY = 2 Yi Y = 2 Se2
N M 1 i=1 N M 1 i=1 N
Esta varincia pode ser estimada por:

M m s2e 1 M m s2e
v(pAc1 ) = = 2
M m N M m
com:
m 2
1 X Yi0
s2e = pAc1
m 1 i=1 N
2.3. CONGLOMERADOS EM 1 ESTGIO 67

e
!2
1 Xm
1 Xm
s2e = Yi0 Y0
m 1 i=1 m i=1 i

mas:

1 X
m
0 2
s2e = 2 Yi N pAc1
N (m 1) i=1
!2
1 X
m
N Xm
= 2 Yi0 Yi0
N (m 1) i=1 mN i=1
!2
1 Xm
1 X 0
m
0
= Yi Y
2
N (m 1) i=1 m i=1 i
m !2
1 Xm
1 X 1
= Yi02 Yi0 = 2 s2e
2
N (m 1) i=1 m i=1 N

conseqentemente:

m !2
1 M m 1 1 Xm
1 X
v(pAc1 ) = 2 Yi02 Yi0
N M m (m 1) i=1 m i=1

Exemplo 2.1
Com o objetivo de avaliar a proporo de fumantes, entre os alunos da 3a
srie do 2o grau da rede de ensino publico de certa localidade, foram formados
conglomerados a partir de uma relao de 3500 turmas existentes, grupando-
se cada 5 turmas em aproximadamente 150 alunos, supondo uma base de 30
alunos por turma.
Uma amostra de 10 conglomerados foi selecionada, observando-se:
68 CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOS

Conglomerados Nmero de Nmero de alunos


da amostra alunos (Ni0 ) fumantes (A0i )
1 162 50
2 170 63
3 145 47
4 151 48
5 166 68
6 162 59
7 145 36
8 148 45
9 171 71
10 178 75
Soma 1592 562
M = 700, N = 150 e m = 10
Uma estimativa da proporo de alunos fumantes dada por:

1 X 0
m
1
pAc1 = Ai = 562 = 0, 375 ou 37, 5%
mN i=1 10 (150)

Uma estimativa da varincia dada por:


1 M m s2e
v(pAc1 ) = 2
N M m
sendo:
m !2
1 X m
1 X
s2e = A02
i A0
m 1 i=1 m i=1 i
!
1 (562)2
= 33074 = 165, 51
9 10

ento:
1 M m s2e 1 700 10 165, 51
v(pAc1 ) = 2 =
N M m (150)2 700 10
= 0, 000725

Uma estimativa do erro padro dada por:


p p
v(pAc1 ) = 0, 000725 = 0, 0269 = 2, 69%
2.3. CONGLOMERADOS EM 1 ESTGIO 69

e uma estimativa do coeficiente de variao pode ser obtida atravs da ex-


presso: p
v(pAc1 )
cv(pAc1 ) =
pAc1

0, 000725
cv(pAc1 ) = = 0, 0717 = 7, 17%
0, 375

2.3.3 Coeficiente de Correlao Intraclasse


O objetivo neste item comparar a eficincia da amostragem por conglo-
merados com a da amostragem aleatria simples. Inicialmente, ser estudado
o caso em que os conglomerados so de tamanhos iguais. Ocorre que para
comparar a preciso da amostragem de conglomerados em 1 estgio com a
amostrgem aleatria simples muito til a introduo do coeficiente de
correlao intraclasse.
Seja a populao N distribuda em M conglomerados de tamanho N =
N
cada um.
M
Imagine o seguinte experimento aleatrio:

Seleciona-se aleatoriamente 1 entre os M conglomerados.

Seleciona-se aleatoriamente sem reposio 2 unidades dentro deste con-


glomerado.

Sejam Yij0 e Yik0 as variveis aleatrias resultantes da observao nas 2


unidades selecionadas da caracterstica y.
possvel calcular a correlao entre essas 2 variveis aleatrias:

0 0
E Yij0 E(Yij0 ) (Yik0 E(Yik0 ))
(Yij , Yik ) = r h
0 2 i 0
E Yij E(Yij ) E (Yik E(Yik0 ))2
0

Agora, notando que:

XM
1 X 1
N
1 XX
M N
E(Yij0 ) = Yij = Yij = Y
i=1
M j=1 N M N i=1 j=1

E(Yik0 ) = Y
h 2 i XM X
N
1 2 MN 1
0 0
E Yij E(Yij ) = Yij Y = S2
i=1 j=1
MN MN
70 CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOS

1 XX
M N 2
S2 = Yij Y
MN 1 i=1 j=1
Donde tambm:
h i MN 1
2
E (Yik0 E(Yik0 )) = S2
MN
Finalmente:

XM X N X N Y ij Y Yik Y
E Yij0 E(Yij0 ) (Yik0 E(Yik0 )) =
i=1 j=1 k=1
MN N 1
j6=k

Logo, esta correlao ser:

1 P
M P N P N
Yij Y Yik Y
M N N 1 i=1 j=1 k=1
j6=k
(Yij0 , Yik0 ) =
MN 1 2
S
MN
Esta correlao expressa uma medida de homogeneidade dentro dos con-
glomerados da populao, e ser denominada coeficiente de correlao
intraclasse e denotada por :

1 P
M P N P N
Yij Y Yik Y
M N N 1 i=1 j=1 k=1
j6=k
= (Yij0 , Yik0 ) =
MN 1 2
S
MN

Agora ser tratado o problema de obter uma expresso adequada para o


coeficiente de correlao intraclasse, que permita visualizar este coeficiente
como uma medida de homogeneidade dentro dos conglomerasdos.
Note-se que:

1 P
M P N P N
Yij Y Yik Y
M N N 1 i=1 j=1 k=1
j6=k
=
MN 1 2
S
MN
2.3. CONGLOMERADOS EM 1 ESTGIO 71

Ento pode-se escrever:

X
M X N
N X
Yij Y Yik Y =
i=1 j=1 k=1
j6=k

X
M X N
N X
= Yij Y i + Y i Y Yik Y i + Y i Y
i=1 j=1 k=1
j6=k

X
M X N
N X 2

= Yij Y i (Y ik Y i ) + Y i Y
i=1 j=1 k=1
j6=k

X
M X
N X
N M
X 2

= Yij Y i (Y ik Y i ) + N(N 1) YiY
i=1 j=1 k=1 i=1
j6=k
2
X
M XN X
M X
N M
X 2
2
= Yij Y i Yij Y i + N(N 1) YiY
i=1 j=1 i=1 j=1 i=1

Note que:
X
N

Yij Y i = 0
j=1

Lembrando que:
1 X
N
2
Si2 = Yij Y i
N 1 j=1

e fazendo:
1 X 2
M
Sd2 = S
M i=1 i

Segue-se que:

X
M X N
N X X
M M
X 2
2
Yij Y Yik Y = N 1 Si +N(N 1) YiY
i=1 j=1 k=1 i=1 i=1
j6=k
72 CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOS

Como tambm:
1 X 2
M
2
Se = YiY
M 1 i=1
vem:
X
M X N
N X 2
Yij Y Yik Y = N 1 M Sd2 +N(N 1) (M 1) S e
i=1 j=1 k=1
j6=k

Assim pode-se escrever:


1 h 2 i
N(N 1) (M 1) S e N 1 M Sd2
MN N 1
=
MN 1 2
S
MN
2
(M 1) S e 1 2
Sd
= M N
MN 1 2
S
MN
Se o nmero de conglomerados M for grande, vem:
2 1 2
Se Sd

= N
S2
Para compreender melhor o significado desta expresso, deve-se notar que:

X N
M X 2
2
MN 1 S = Yij Y
i=1 j=1

X N
M X 2
= Yij Y i + Y i Y
i=1 j=1

X N h
M X i
2
MN 1 S = (Yij Y i )2 + 2(Yij Y i )(Y i Y ) + (Y i Y )2
i=1 j=1

X
M X
N X
M X
N X
M
2
= (Yij Y i ) + 2 (Y i Y ) (Yij Y i ) + N (Y i Y )2
i=1 j=1 i=1 j=1 i=1

X
M X
M
= (N 1)Si2 + N (Y i Y )2
i=1 i=1
2
= (N 1) M Sd2 + N (M 1) S e
2.3. CONGLOMERADOS EM 1 ESTGIO 73

ou seja:
2
2 (N 1) M Sd2 + N (M 1) S e
S =
MN 1
Assim estamos agora em posio para analisar melhor a influncia na
variao de da maior homogeneidade dos conglomerados.
Supondo que os conglomerados fossem homogneos devemos ter:

Sd2 = 0

portanto:
2 2
(M 1) S e 1 2 (M 1) S e
Sd
= M N = M
2 = 1
MN 1 2 N (M 1) S e
S
MN MN
Logo, quando h homogeneidade mxima dentro dos conglomerados =
= 1.
Por outro lado, se h heterogeneidade dentro dos conglomerados com
homogeneidade entre eles, o valor de deve diminuir. Se admitirmos que
2
S e = 0 vem:

MN 1 S 2 = (N 1) M Sd2
donde:

1 2
Sd 1
= N =
2
(N 1) M Sd (N 1)
MN
Logo, conclui-se que:

1
;1
(N 1)

Assim uma medida de homogeneidade ou heterogeneidade dentro dos


conglomerados.

Exemplo 2.2
74 CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOS

Seja uma populao com exatamente 6 unidades.

U1 U2 U3 U4 U5 U6

Y1 Y2 Y3 Y4 Y5 Y6
q q q q q q
3 5 3 7 2 8

Essas unidades sero grupadas em 2 conglomerados para o clculo do co-


eficiente de correlao intraclasse. A conglomerao ser feita de de 2 modos
diferentes a fim de medir a variao do coeficiente de correlao intraclasse
em funo da maior ou menor homogeneidade dos conglomerados.
1a tentativa: conglomerados homogneos

C1 C2
U1 3 U2 5
U3 3 U4 7
U5 2 U6 8

M =2 N = 3 Y 1 = 2, 66667 Y 2 = 6, 66667 Y = 4, 66667


1 2
Sd2 = (0, 3333 + 2, 3333) = 1, 3333 Se = 4+4=8
2
2
(M 1) S e 1 2
Sd 3, 5556
= M N = = 0, 7273
2
M(N 1) Sd2 + N (M 1) S e 4, 8889
MN
a
2 tentativa: conglomerados heterogneos

C1 C2
U2 5 U1 3
U5 2 U3 3
U6 8 U4 7

M =2 N =3 Y 1 = 5, 0000 Y 2 = 4, 3333 Y = 4, 66667


1 2
Sd2 = (9 + 5, 3333) = 7, 16667 S e = 0, 1111 + 0, 1111 = 0, 2222
2
2
(M 1) S e 1 2
Sd 2, 2778
= M N = = 0, 4659
2
M(N 1) Sd2 + N (M 1) S e 4, 8889
MN
2.3. CONGLOMERADOS EM 1 ESTGIO 75

1 1
Note-se que: = = 0, 50
N 1 2
Portanto, est bem prximo do valor mnimo que pode assumir, indi-
cando alto grau de heterogeneidade.

2.3.4 Estimao do coeficiente de correlao intraclasse


Um problema que falta solucionar o da estimao do coeficiente de corre-
lao intraclasse atravs de uma amostra de conglomerados.
Para tanto, basta considerar a expresso de :
2
(M 1) S e 1 2
Sd
= M N
2
M(N 1) Sd2 + N (M 1) S e
MN
Agora, lembrando que:

1 X 0 2
m
s2e = Y i y Ac1
m 1 i=1

2
um estimador no viciado para S e , e notando que:

1 X 02
m
s2d = S
m i=1 i
um estimador no viciado para Sd2 , basta substituir estes estimadores na
expresso de para obter um estimador consistente para .

(M 1) s2e 1 2
sd
b= M N
M(N 1) s2d + N (M 1) s2e
MN
Alm disso, notando-se que:
2
MN 1 2 M(N 1) Sd2 + N (M 1) S e
S =
MN MN
Segue-se que um estimador no viciado para S 2 dado por:

2 M(N 1) s2d + N (M 1) s2e


s =
MN 1
76 CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOS

e conseqentemente, que b
pode ser escrito:
(M 1) s2e 1 2
sd
b
= M N
MN 1 2
s
MN
ou ainda, para M muito grande:
1 2
s2e sd
b
= N
s2
Exemplo 2.3 (Nascimento (1981), pg.32)
Tem-se um fichrio de 20.000 segurados de uma Companhia de Seguros,
em um plano A. As 20.000 fichas esto dispostas em 400 gavetas, com 50
fichas cada.
Considerando as gavetas como conglomerados, tem-se:
M = 400 e N = 50
Selecionou-se uma amostra aleatria sem reposio de 10 gavetas, correspon-
dendo a 500 fichas. Nas gavetas selecionadas foram calculadas as reservas
tcnicas de todas as fichas, obtendo-se:

Gavetas da Reserva Varincia das


amostra total (Yi0 ) reservas (Si02 )
1 321 25
2 170 17
3 610 30
4 405 32
5 350 35
6 155 20
7 254 40
8 328 18
9 652 25
10 269 35
Soma 3.514 277
O objetivo estimar a mdia por ficha da reserva tcnica do plano A e o
coeficiente de correlao intraclasse.
Estimativa de Y
1 X 0
m
3.514
y Ac1 = Yi = = 7, 028
mN i=1 10 (50)
2.3. CONGLOMERADOS EM 1 ESTGIO 77

Estimativa de Sd2

1 X 0 2 277
m
s2d = S = = 27, 7
m i=1 i 10
2
Estimativa de S e

1 X 0
m
1 2
s2e = (Y y Ac1 )
m 1 N 2 i=1 i
m 2
P 0
Xm Yi
1 1 02 i=1
= 2 Yi
m 1 N i=1 m

" #
2
1 (3.514)
= 2 1.484.156 = 11, 082
9 (50) 10

Estimativa de S 2
M(N 1) s2d + N (M 1) s2e
s2 =
MN 1
400(50 1) (27, 7) + 50 (399) (11, 082)
= = 38, 20
20.000 1
Estimativa do coeficiente de correlao intraclasse
1 2
s2e sd 11, 0832 0, 554
b
= N = = 0, 276
s2 38, 20

2.3.5 Eficincia da Ac1 em relao AAS com con-


glomerados de tamanhos iguais
Para comparar a preciso de um estimador, obtido atravs de um plano
amostral proveniente de uma amostra de conglomerados em 1 estgio (Ac1),
com a de outro estimador, obtido atravs de uma amostra aleatria simples
(AAS), vamos definir uma medida de eficincia baseada nas varincias dos
estimadores de Y com os dois desenhos. Assim:

V (y AAS )
Ef =
V (y Ac1 )
78 CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOS

onde:
y o estimador de Y na AAS; e
y Ac1 o estimador de Y na Ac1.
A eficincia Ef > 1 se V (y Ac1 ) < V (y AAS ).
Mas:

M m 1 Se2
V (y Ac1 ) =
M N2 m
e:
N n S2
V (y AAS ) = aqui N = MN
N n
onde:

1 X
M
2
Se2 = Yi Y
M 1 i=1

1 XX M N 2
S2 = Yij Y
M N 1 i=1 j=1

sob a hiptese de conglomerados de tamanhos iguais.


Supondo que todos os conglomerados tenham o mesmo tamanho N, o
tamanho n da AAS equivalente Ac1 com m conglomerados na amostra
dado por : n = mN.
Assim, pode-se escrever:

MN mN S 2 M m S2
V (y AAS ) = =
MN mN M mN

logo, tem-se:

M m S2
2
Ef = M mN = N S
M m 1 Se2 Se2
M N2 m

Agora, notando que:


2.3. CONGLOMERADOS EM 1 ESTGIO 79

2
X
M
2 X
M XN
Yi Y = Yij N Y
i=1 i=1 j=1

X N
M X 2 X
M X N
N X
= Yij Y + Yij Y Yik Y
i=1 j=1 i=1 j=1 k=1
j6=k

= M N 1 S 2 + N 1 MN 1 S 2

como:
X
M
2
Yi Y = (M 1) Se2
i=1
vem:
MN 1 2 MN 1
Se2 = S + N 1 S2
M 1 M 1
MN 1 2
= S 1+ N 1
M 1
Da segue-se que:

N S2
Ef =
MN 1 2
S 1+ N 1
M 1
= M e MN 1
supondo: M 1 = MN vem:
1
Ef
=
1+ N 1


Ef > 1 1 + N 1 < 1 N 1 < 0 < 0

O termo 1 + N 1 mostra quanto a varincia afetada pelo uso
de conglomerado ao invs de um elemento como unidade amostral. Kish
(1965) define este fator como o efeito de desenho de uma amostra de
conglomerados de tamanho N ou efeito de conglomerao. Este fator
mede a influncia da conglomerao na preciso do estimador.
Portanto:

Se > 0 Ef < 1 ento V (y Ac1 ) > V (y AAS ), a amostra de conglomerados


menos eficiente que a AAS.
80 CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOS

Se = 0 Ef = 1 ento V (y Ac1 ) = V (y AAS ), a amostra de conglomerados


equivalente a AAS.

Se < 0 Ef > 1 ento V (y Ac1 ) < V (y AAS ), a amostra de conglomerados


mais eficiente que a AAS.

1
Como ; 1 , isto indica que os valores negativos de so
(N 1)
1
raros, uma vez que limN + = 0, isto , medida que o
(N 1)
tamanho N cresce, diminui a eficincia da Ac1 em relao AAS.
Lembrando que:

V (y AAS ) 1
Ef = =
V (y Ac1 ) 1+ N 1
vem:
1
Ef ; +
N
e
V (y Ac1 )
= V (y AAS ) 1 + N 1
isto , a varincia do estimador da mdia
naAc1
a varincia do estimador
da mdia na AAS vezes o fator 1 + N 1 .
Para o caso de conglomerados de mesmo tamanho, se estivermos inte-
ressados na mesma preciso, qual dever ser o tamanho da amostra de con-
glomerados?
V (y Ac1 ) equivale a V (y AAS ) quando:

V (y Ac1 )

= V (y AAS )
1+ N 1

ou seja, quando:

1 Se2 S2
2
=
N m 1+ N 1 mN
2
S S2
e =
m 1+ N 1 mN

o que implica que o nmero de conglomerados na amostra equivale a



m 1+ N 1
2.3. CONGLOMERADOS EM 1 ESTGIO 81

e, portanto, haver um acrscimo de m N 1 conglomerados na amostra.
Conseqentemente, o nmero de unidades populacionais na amostra equivale
a:
m 1 + N 1 N = mN + mN N 1

ou seja, haver um acrscimo de mN N 1 unidades em relao a
AAS sem reposio.
Exemplo 2.4 (Nascimento (1981), pg. 34)
Considere as informaes do exemplo 2.3 e calcule o nmero de conglom-
erados necessrios na amostra, para dar a mesma preciso de uma amostra
aleatria simples ao estimar a mdia por ficha da reserva tcnica do plano A.
Nesste caso, o efeito de conglomerao :

1 + N 1 = 1 + 49 (0, 276) = 14, 524
O tamanho da amostra de conglomerados para dar a mesma preciso de
uma amostra aleatria simples :

m 1 + N 1 = 10 (14, 524) = 145 conglomerados
O elevado efeito de conglomerao, mostra que o desenho amostral de
conglomerados em 1 estgio que considera a gaveta com 50 fichas como con-
glomerado pouco eficiente.
Ilustraes
A seguir, so apresentadas algumas ilustraes para mostrar que mede
homogeneidade e como afeta a varincia por unidades amostrais elementares
ou por conglomerados.
a) Suponha que se deseja analisar a composio da populao em relao
a renda e que o conglomerado seja o setor censitrio. Suponha que a
maioria das pessoas em certos setores tm uma renda alta e a maioria
das pessoas em outros setores tm renda baixa. Neste caso a varincia
entre as mdias dos setores ser relativamente grande e a correlao en-
tre as pessoas dentro do setor ser alta e positiva. Assim uma amostra
aleatria simples de setores consistindo de todas pessoas dos setores
dar pouca informao com relao composio da renda da popu-
lao.
b) Agora, um caso extremo onde a composio da renda exatamente
a mesma em cada setor. Neste caso, a varincia entre as mdias dos
setores ser zero e a correlao entre as pessoas de mesmo setor ser
negativa. Neste caso, uma amostra aleatoria simples de setores con-
sistindo de todas as pessoas no setor daria uma completa informao
com relao composio da renda da populao.
82 CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOS

c) Finalmente, suponha que a composio da renda difira de setor para


setor e que a varincia entre as mdias dos setores seja aproximada-
mente a varincia entre as mdias amostrais baseada numa amostra
aleatria simples. A correlao entre as pessoas de um mesmo setor
ser nula. Uma amostra aleatria de setores consistindo de todas as
pessoas no setor daria informaes com respeito composio da renda
da populao da mesma forma que uma amostra aleatria simples de
mesmo tamanho selecionada sem considerar o conglomerado setor.
Em geral, os conglomerados so definidos por populaes geogrficas con-
tiguas.
O coeficiente de correlao em geral positivo e diminui com o aumento
do tamanho do conglomerado, pois se as unidades includas na amostra so
poucas e imediatamente contiguas, haver uma correlao mais alta entre as
unidades dentro de um conglomerado do que quando os conglomerados so
maiores e h portanto, um maior espalhamento entre as unidades dentro do
conglomerado.

2.4 Controle na variao de tamanho


M 2 (M m) Se2 N S2
Observe que a V (YbAc1 ) = aumenta e a Ef = diminui
M m Se2
quando Se2 aumenta. Mas de acordo com a expresso:

1 X
M
2
Se2 = Yi Y
M 1 i=1
o aumento de Se2 tanto maior quanto mais diferentes forem os totais dos
conglomerados. Em geral, os totais de uma caracterstica y tendem a crescer
quando os tamanhos dos conglomerados crescem. Ento, usual controlar a
variao de tamanho dos conglomerados na expectativa de reduo da varin-
cia e de aumento da eficincia com o uso da amostragem de conglomerados.
Os processos usuais de controle do tamanho dos conglomerados so:
a) selecionar os conglomerados com probabilidades proporcionais ao tamanho
dos conglomerados;
b) estratificar os conglomerados, de modo que a caracterstica de estrati-
ficao seja o tamanho; e
c) usar um estimador de razo, com caracterstica auxiliar definida pelo
tamanho do conglomerado.
2.5. PROBABILIDADES DESIGUAIS DE SELEO 83

2.5 Probabilidades desiguais de seleo


Como vimos anteriormente, a ocorrncia de variabilidade nos tamanhos dos
conglomerados causa acentuada perda de preciso nos estimadores at agora
abordados com amostragem de conglomerados em 1 estgio.
Na prtica, a formao de conglomerados com tamanhos iguais para con-
trolar a variao de tamanho na varincia do estimador, e tambm na vari-
ao do tamanho final da amostra nem sempre possvel, sendo que a ocor-
rncia de conglomerados de tamanhos iguais pouco comum.
Assim, ao invs de tentar controlar artificialmente os tamanhos dos con-
glomerados, procura-se uma sada diferente: mantendo os conglomerados
com os tamanhos desiguais, estuda-se uma forma de seleo da amostra de
conglomerados com probabilidades desiguais (Probabilidades Proporcionais
a uma medida de Tamanho - PPT).
Com o objetivo de manter a simplicidade da exposio ser tratada primei-
ramente a seleo da amostra de conglomerados com probabilidades desiguais
e com reposio.

2.5.1 Seleo dos conglomerados com probabilidades


desiguais e com reposio
As unidades de N so grupadas em M conglomerados, que podem ter taman-
hos desiguais.
Ci
Ui1 Yi1
Ui2 Yi2
.. ..
. .
UiNi YiNi
i = 1, 2, , M.
P
M
Seja Pi a probabilidade de seleo do conglomerado i com Pi = 1.
i=1
Seleciona-se uma amostra com reposio de m conglomerados de acordo
com as probabilidades Pi .
0
Ci
0 0
Ui1 Yi1
0 0
Ui2 Yi2
.. ..
. .
0 0
UiN 0 YiN 0
i i
84 CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOS

i = 1, 2, , m.
A partir dos conglomerados selecionados pode-se calcular as seguintes
estatsticas:
0
Ni
X
Yi0 = Yij0
j=1

Mdia da caracterstica y no conglomerado Ci0 :

0 Yi0
Yi =
Ni0

Varincia da caracterstica y em Ci0 :

N0
02 1 X i
0
Si = 0 (Yij0 Y i )2
Ni 1 j=1

Agora, para obter um estimador no viciado do total Y da populao


basta tomar:

1 X Yi0
m
b P
YAc1 =
m i=1 Pi0

onde: Pi0 a probabilidade de seleo associada ao i-simo conglomerado


selecionado. Pi0 igual a algum dos Pk (k = 1, 2, , M).
Para mostrar que YbAc1
P
no viciado, basta mostrar que:
! 0
1 X Yi0
m
1 X
m
Yi
E YbAc1
P
= E 0
= E
m i=1 Pi m i=1 Pi0
"M #
1 Xm X Yk XM
= Pk = Yk = Y
m i=1 k=1 Pk k=1

Assim, um estimador no viciado da mdia Y dado por:

1 X Yi0
m
P
y Ac1 =
m N i=1 Pi0

Varincia do estimador de total


2.5. PROBABILIDADES DESIGUAIS DE SELEO 85

2
V YbAc1 = E
P
YbAc1
P
Y2
!2
1 X m 0
Yi
= E 0
Y2
m i=1 Pi

Xm 0 2 Xm X m
1 Yi Yi0 Yk0
Y2
= E +
m2 i=1 Pi0 P 0
i=1 k=1 i k
P 0

i6=k
X
m
0 2 XX
m m
1 Yi 1 Yi0 Yk0
= E + 2 E Y2
m2 i=1
Pi0 m i=1 k=1
Pi0 Pk0
i6=k
M 2 0 0
1 X Yi 1 Yi Yk
= 2
m Pi + 2 m(m 1)E 0
E 0
Y2
m i=1
Pi m Pi Pk

1 X Yi2 (m 1) 2
M
= + Y Y2
m i=1 Pi m

1 X Yi2 Y 2
M
=
m i=1 Pi m
M !
1 X Yi2
= Y2
m i=1 Pi

Porm, notando que:

X
M
Y2 X
M
Y2
i 2 i
Y = Pi 2Y 2 + Y 2
i=1
Pi i=1
Pi2
M !
XM
Yi2 X Yi XM
2
= P 2
2 i
Pi Y + Y Pi
i=1
Pi i=1
Pi i=1
XM 2
Yi Yi
= 2
2 + Y 2 Pi
i=1
Pi Pi
XM 2
Yi 2
= Y Pi = SeP
i=1
P i
86 CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOS

Segue-se que:
S2
V YbAc1
P
= eP
m

e um estimador no viciado de V YbAc1
P
obtido por:
s2
v YbAc1
P
= eP
m
onde:
m 0 2
1 X Yi b
s2eP
= P
0 YAc1
m 1 i=1 Pi

Para mostrar que v YbAc1
P
no viciado para V YbAc1
P
, escreve-se:

Xm 0 2
1 Yi
v YbAc1
P
= b P
0 YAc1
m (m 1) i=1 Pi
" m 0 2 #
1 X Y 2
= i
0 m YbAc1
P
m (m 1) i=1 Pi

Da, segue-se que:


m 0 2 !
h i 1 X Yi
E v YbAc1
P
= E bP
0 YAc1
m (m 1) i=1 Pi
m !
1 X Y 0 2 2
= E i
0 mE YbAc1 P
m (m 1) i=1 Pi
M !
1 X Yi 2 2
= m Pi m V YbAc1 P
+ E YbAc1
P
m (m 1) i=1
P i
M !
1 X Yi
2
= Pi V YbAc1
P
Y2
(m 1) i=1 Pi
M ! !
1 XY2
= i
Y 2 V YbAc1 P
(m 1) i=1
P i

1
= mV YbAc1
P
V YbAc1P
(m 1)

= b
V YAc1P
2.5. PROBABILIDADES DESIGUAIS DE SELEO 87

Probabilidades proporcionais a uma medida de tamanho


At agora tratamos de um desenho onde a seleo dos conglomerados feita
com probabilidades desiguais, sem preocupao a respeito do clculo dessas
probabilidades.
Agora vamos atentar para esse problema e procurar um conjunto de prob-
abilidades que traga uma estimao eficiente. Para tanto consideremos:
XM 2
1 Y
V YbAc1 =
P i
Y Pi
m i=1 Pi
Nesta expresso, se tomarmos:
Yi
Pi =
Y
segue-se que: 2
1 X Yi
M

V YbAc1
P
= Y Y Pi = 0
m i=1 i
Y
Logo, se as probabilidades Pi fossem exatamente proporcionais aos totais
Yi dos conglomerados, o estimador YbAc1P
teria varincia zero.
Acontece que os totais Yi so desconhecidos e no podem ser utilizados
para determinao das probabilidades de seleo.
Assim que ser necessrio definir as Pi a partir de outra forma, porm
tentando fazer com que elas tenham valores aproximadamente iguais queles
sugeridos pela definio anterior. Isto , as Pi devem ser aproximadamente
proporcionais aos totais dos conglomerados.
Fundamentalmente, existem 3 maneiras para fazer isto:
1. Fazer as probabilidades Pi proporcionais aos tamanhos Ni dos conglom-
Ni
erados. Pi = (i = 1, 2, , M). Esta soluo boa quase sempre,
N
entretanto no sempre vivel pois em certas situaes os tamanhos
Ni tambm no so conhecidos para todos os conglomerados.
2. Fazer as probabilidades Pi proporcionais a uma medida de tamanho
dos conglomerados, x, conhecida para todos os conglomerados e cor-
relacionada com a caracterstica y de interesse:
Xi
Pi = (i = 1, 2, , M)
X
P
M
onde: X = Xi .
i=1
88 CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOS

Exemplo: se o conglomerado uma partio geogrfica, usar a rea total


x do conglomerado como medida de tamanho.

3. Fazer as probabilidades Pi exatamente proporcionais aos valores da


mesma caracterstica y observadas num censo anterior.

O estatstico examina a situao e recomenda o uso de probabilidades pro-


y
porcionais a x sempre que os valores puderem ser admitidos aproximada-
x
mente constantes, pois neste caso a varincia de YbAc1
P
dever ser pequena.
Deve ser enfatizado que o sucesso da adoo da alternativa da amostragem
com probabilidades proporcionais ao tamanho depende fortemente do acerto
na escolha da medida de tamanho. Se esta for ruim, no sentido de que
no h proporcionalidade entre y e x, este desenho no deve ser melhor que
amostragem com equiprobabilidades. Pode ser demonstrado que em certas
condies, este desenho pode ser pior que amostragem com equiprobabili-
dades.

Algoritmo para seleo da amostra com probabilidade proporcional


ao tamanho (mtodo dos totais cumulativos - seleo aleatria)

1. Calcular os totais parciais acumulados Tk dados por:

X
K
Tk = Xi K {1, 2, , M}
i=1
X
M
T0 = 0 e X = Xi
i=1

2. Selecionar um nmero aleatoriamente no intervalo [1, X]. Seja u o


nmero selecionado.

3. Verificar em que intervalo (Tk , Tk+1 ] , K {1, 2, , M} , o nmero


selecionado caiu. Caso u (Tk , Tk+1 ] ento incluir na amostra o con-
glomerado k + 1. Caso a amostra no tenha sido completada, repetir
o processo a partir da etapa 2. Caso contrrio, a amostra est sele-
cionada.

Note-se que o procedimento com reposio, donde se pode obter uma


amostra contendo vrias repeties de uma mesma unidade da populao.

Exemplo 2.5
2.5. PROBABILIDADES DESIGUAIS DE SELEO 89

Suponha-se que os conglomerados so quarteires e que desejamos amostrar


os domiclios. Numa populao de 10 quarteires, selecionar uma amostra
de 5 quarteires com probabilidade proporcional ao nmero de domiclios no
quarteiro.

Seleo dos quarteires da amostra


o
n do medidas medida designao
quarteiro de tamanho acumulada da amostra
1 50 50 x
2 12 62
3 20 82 x
4 31 113
5 10 123
6 60 183
7 55 238 xx
8 13 251
9 30 281
10 20 301 x

Selecionar aleatoriamente um nmero entre 1 e 301. (Cochran pg. 19,


linha 1 e coluna 17). O nmero selecionado 226, ento o primeiro con-
glomerado a ser selecionado o nmero 7. Os nmeros aleatrios seguintes
menores ou iguais a 301 so: 15, 218, 79 e 294. Logo, os conglomerados 1, 3,
7 e 10 esto tambm designados para a amostra.
Observe que o conglomerado 7 foi selecionado duas vezes.
Se M grande, a probabilidade de um conglomerado ser selecionado mais
de uma vez muito pequena e, como aproximao, pode-se usar a seleo
sistemtica.

Algoritmo para seleo da amostra com probabilidade proporcional


ao tamanho (mtodo dos totais cumulativos - seleo sistemtica)

Se a seleo proporcional a uma medida de tamanho, a probabilidade de


incluso do conglomerado i na amostra :
Xi Xi
m =
X X
m
X
1. Divide-se X em partes sendo o intervalo da amostra para fins de
m
seleo sistemtica.
90 CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOS

X
2. Seleciona-se aleatoriamente um ponto de partida no intervalo 1, ;
m
ponto esse que vai determinar o 1o conglomerado da amostra.
3. Somando-se ao ponto de partida o intervalo vai determinar o 2o con-
glomerado da amostra; e assim por diante at selecionar os m conglom-
erados.
X
No exemplo anterior = 60, 2. Se o nmero aleatrio 22,5, os con-
m
glomerados selecionados so aqueles cujos totais cumulativos so: 22,5; 60,2
+ 22,5 = 82,7; 82,7 + 60,2 = 142,9; 142,9 + 60,2 = 213,1; 213,1 +60,2 =
273,3, que correspondem respectivamente, aos conglomerados 1, 4, 6, 7 e 9.

Seleo dos conglomerados com probabilidades desiguais e sem


reposio
Suponha agora que a amostra de m conglomerados tenha sido selecionada me-
diante algum procedimento aleatrio sem reposio, tal que a probabilidade
de que o conglomerado i, Ci , pertena a amostra seja i , e a probabilidade de
que o par de conglomerados (Ci , Cj ) pertena a amostra em qualquer ordem
seja ij , i = 1, 2, , m e j = 1, 2, , m, com i 6= j.
Horvitz e Thompson (1952) desenvolveram uma teoria geral de amostragem
com probabilidades desiguais de seleo e sem reposio, baseada no uso
de um estimador no viciado de total populacional, dado pela seguinte ex-
presso:
X m
Yi0
b
YHT =
i=1
0i
com 0i igual a algum dos k , k > o, k = 1, 2, , M.
m
Caso particular de equiprobabilidade: i = i = 1, 2, , M.
M
A varincia de YbHT dada pela seguinte expresso:
X M
(1 i ) 2 X X (ij i j )
M M
b
V YHT = Yi + Yi Yj
i=1
i i=1 j=1
ij
i6=j

Prova: Seja ti a indicadora se o conglomerado i a amostra:



1 se Ci a amostra
ti = i {1, 2, , M}

0 se Ci no a amostra
2.5. PROBABILIDADES DESIGUAIS DE SELEO 91

Ento, ti tem distribuio binomial para uma amostra de tamanho m,


com probabilidade i .
Assim,

E (ti ) = i

V (ti ) = i (1 i )

COV (ti , tj ) = E (ti tj ) E (ti ) E (tj ) = ij i j

Logo:

X
m
Y0 X
M
Yi
YbHT = i
0
= ti
i=1
i i=1
i

X M
Yi XM
Yi XM
b
E YHT = E (ti ) = i = Yi = Y

i=1 i

i=1 i i=1

M !
X Yi XM
Yi2 XM X M
Yi Yj
b
V YHT = V ti = V (ti ) + COV (ti , tj )
2

i=1 i i=1
i
i=1 j=1 i j
i6=j

X
M
Y2 X
M X
M
Yi Yj
i
= 2
i (1 i ) + ( ij i j )
i=1
i i=1 j=1
ij
i6=j

X
M
Y2 X
M X
M
Yi Yj
i
= (1 i ) + (ij i j )
i=1
i i=1 j=1
i j
i6=j


Um estimador no viciado da V YbHT dado por:

X m Xm X m 0
(1 0
) ij 0i 0j 0 0
v YbHT = i 02
Yi + Yi Yj
i=1
0i i=1 j=1
0i 0j
i6=j

com 0ij igual a algum dos kl , kl > o, k = 1, 2, , M; l = 1, 2, , M e


l 6= k.
92 CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOS

Grande parte dos procedimentos de seleo com probabilidades desiguais


e sem reposio que aparecem na literatura de amostragem apresentam ex-
presses complexas ou aproximadas para os estimadores da varincia, con-
siderando o tamanho da amostra de conglomerados fixo. Este fato jus-
tificado pelas dificuldades matemticas encontradas na avaliao dos ij -
probabilidade de incluso conjunta da i-sima e j-sima unidades na amostra.
Hanif e Brewer (1980) apresentam uma lista de vrios procedimentos
de seleo com probabilidades desiguais sem reposio. Estes procedimen-
tos podem ser classificados por diferentes modos, tais como: classificao na
maneira da seleo, classificao por classe de equivalncia (os procedimentos
pertencem a mesma classe de equivalncia quando as probabilidades de se-
leo conjunta de todas as combinaes possveis so idnticas), classificao
por tipo de estimador apropriado.
Dentre os procedimentos apresentados destaca-se o mtodo dos Grupos
Aleatrios de Rao Hartley e Cochran (1962). Uma descrio e compara-
es deste mtodo com mtodos de seleo com probabilidades desiguais sem
reposio pode ser vista em Lima (1985).

Mtodo dos Grupos Aleatrios de Rao Hartley e Cochran


Propriedades:
1. Permite a computao de um estimador para o total populacional que
tem varincia sempre inferior ao estimador padro da amostragem com
probabilidades desiguais com reposio.

2. No acarreta computao rdua para seleo ou para computaodo


estimador da varincia e da respectiva estimativa.
3. Fornece frmula exata da varincia para qualquer tamanho de
populao e de amostra fixa.
4. Encontra-se disponvel um estimador no viciado e sempre no
negativo para a varincia amostral do estimador do total, quais-
quer que sejam os tamanhos de amostra e da populao.

Algoritmo
1. Divide-se a populao composta de M conglomerados, aleatoriamente,
em m grupos de tamanhos M1 , M2 , , Mm ;
X
m
M= Mi
i=1

onde m o tamanho da amostra.


2.6. ESTRATIFICAO DE CONGLOMERADOS 93

2. Selecionar um conglomerado de cada um dos m grupos, independente-


mente, com probabilidade proporcional probabilidade de seleo Pt
da t-sima unidade. Se a t-sima unidade cair no grupo i, ento a
Pt P
probabilidade real da seleo desta unidade ,onde: i = Pi .
i grupo i

Se estiver sendo usada probabilidade proporcional ao tamanho Xi , ento:


Xt
Pt = .
X
Neste caso, o estimador do total populacional dado por:
X
m
i
YbRHC = Yi0
i=1
Pi
onde: Yi0 o valor da caracterstica y no i-simo grupo.
A varincia de YbRHC dada por:
m
P 2
Mi M X M 2
!
Y
V YbRHC = i=1 i
Y2
M (M 1) i=1
P i

e um estimador de v YbRHC dado por:

m
P
Mi2 M X
m 0 2
Yi
v YbRHC = i=1
i YbRHC
M (M 1) i=1
Pi0

2.6 Estratificao de conglomerados


Uma outra forma de controlar a variao dos tamanhos dos conglomerados
estratific-los segundo alguma caracterstica que mea seu tamanho, isto
grupar os conglomerados em estratos homogneos segundo alguma medida
de tamanho.
Esta alternativa praticamente equivalente seleo dos conglomerados
com proporcionais ao tamanho, pois indispensvel conhecer, para todos os
M conglomerados da populao, o valor de uma medida de tamanho que
permita separar os conglomerados em estratos homogneos, para poder ento
selecionar a amostra.
Em termos de eficincia em relao seleo dos conglomerados com
probabilidades proporcionais ao tamanho, no parece haver vantagem ntida
94 CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOS

de qualquer das duas alternativas, sendo bastante semelhante os resultados


obtidos com ambas as tcnicas em termos da preciso final das alternativas.

2.6.1 Estimadores e respectivas precises


Inicialmente, suponhamos que os M conglomerados so grupados em L es-
tratos E1 , E2 , , EL , tendo-se associado a cada conglomerado o total da
caracterstica y:

E1 EL
C11 Y11 CL1 YL1
C12 Y12 CL2 YL2
.. .. .. ..
. . . .
C1M1 Y1M1 CLML YLML
Denotando por Eh um estrato genrico (h = 1, 2, , L), segue-se que:
Mh o nmero de conglomerados no estrato h;
Ph
M
Yh = Yhi o total da caracterstica y no estratro h;
i=1
Yh
Yh = o total mdio por conglomerado do estrato h;
Mh
2 1 Ph
M
She = (Yhi Y h )2 a varincia entre os totais dos conglomerados
Mh 1 i=1
dentro do estrato h.
Agora, selecionando-se em cada um dos L estratos amostras aleatrias
simples de conglomerados, sem reposio de tamanhos m1 , m2 , , mL e
investigando-se todas as unidades pertencentes aos conglomerados da amostra
tem-se:

E1 EL
0 0 0 0
C11 Y11 CL1 YL1
0 0 0 0
C12 Y12 CL2 YL2
.. .. .. ..
. . . .
0 0 0 0
C1m1 Y1m1 CLmL YLm
L

Como as amostras nos estratos so amostras de conglomerados em 1 es-


tgio, pode-se estimar os totais dos estratos por:
mh
Mh X
Ybh.Ac1 = Y 0 h = 1, 2, , L
mh i=1 hi
2.6. ESTRATIFICAO DE CONGLOMERADOS 95

e tem-se que:

Mh2 (Mh mh ) She


2
V (Ybh.Ac1 ) = h = 1, 2, , L
Mh mh
e a estimao no viciada de V (Ybh.Ac1 ) pode ser feita por:

Mh2 (Mh mh ) s2he


v(Ybh.Ac1 ) = h = 1, 2, , L
Mh mh
onde: m
1 X h
2
s2he = (Y 0 y h.Ac1 )
mh 1 i=1 hi
sendo: mh
1 X Ybh.Ac1
y h.Ac1 = Yhi0 =
mh i=1 Mh
Assim pode-se estimar o total Y da populao por:

X X mh
Mh X
L L
YbAc1
est
= Ybh.Ac1 = Yhi0
h=1 h=1
mh i=1

com:
X
L XL
b est
E YAc1 = b
E Yh.Ac1 = Yh = Y
h=1 h=1

Alm disto,

X
L XL
Mh2 (Mh mh ) She
2
V (YbAc1
est
)= V (Ybh.Ac1 ) =
h=1 h=1
Mh mh

e esta varincia pode ser estimada por:

X
L XL
Mh2 (Mh mh ) s2he
v(YbAc1
est
)= v(Ybh.Ac1 ) =
h=1 h=1
Mh mh

mh
Se a frao de amostragem (h = 1, 2, , L) for constante e igual
Mh
a f nos estratos (equivalendo a uma alocao proporcional nos estratos),
obtm-se:
mh
= f (h = 1, 2, , L)
Mh
96 CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOS

L mh
b est 1 XX
YAc1 = Yhi0
f h=1 i=1

1f X
L
b est
V (YAc1 ) = 2
Mh She
f h=1

1f X
L
v(YbAc1
est
)= Mh s2he
f h=1
Exemplo 2.5 (Nascimento (1981), pg 63)
Em certa localidade, existem 1.200 setores censitrios que vo ser con-
siderados como conglomerados de domiclios. Foram formados 6 estratos,
de acordo com a populao do ltimo Censo, cujos nmeros de setores por
estrato constam da tabela abaixo.
A populao total da localidade, de acordo com o Censo, foi de 1.960.800
habitantes, o que corresponde a uma mdia de 1.634 habitantes por setor ou
380 domiclios por setor ( na base de 4,3 pessoas por domiclio, com base em
pesquisa anterior).
Considerando as disponibilidades de tempo e custo, foi fixada uma amostra
de 24 setores ou, aproximadamente, 9.120 domiclios, o que corresponde
24 1
frao de amostragem de 1200 = 50 .
A tabela abaixo apresenta o nmero de setores na populao e na amostra
e o nmero de habitantes nos setores da amostra.
Estimar a populao atual da localidade e o respectivo coeficiente de
variao associado essa estimativa.

Setores na Setores na Habitantes nos


Estratos populao amostra setores da amostra
(Mh ) (mh ) (Yhi0 )
1 90 2 3.450; 3.120
2 100 2 2.890; 3060
3 140 3 2.320; 2.850; 2.010
4 250 5 1.910; 1.990; 1.300; 1.400; 1.520
5 295 6 1.040; 1.090; 1.200; 990; 1.460; 1.310
6 325 6 980; 1.010; 870; 1.100; 900; 930

Estimativa do nmero de habitantes da localidade:


L mh
M XX
YbAc1
est
= Y 0 = 50 (40.730) = 2.036.500 habitantes
m h=1 i=1 hi
2.7. ESTIMADOR DE RAZO 97

Em cada estrato calcula-se a mdia da amostra por setor, no estrato h:


mh
1 X
y h.Ac1 = Yhi0
mh i=1
e a varincia da amostra entre os setores de cada estrato h:
X h m
1 2
s2he = (Yhi0 y h.Ac1 )
mh 1 i=1
obtendo-se os seguintes resultados:

Mdia da amostra Varincia entre


Estratos por setor os setores
(y h.Ac1 ) (s2he )
1 3.285 54.450
2 3.020 3.200
3 2.393 360.867
4 1.624 381.720
5 1.172 129.084
6 965 34.950
Estimativa da varincia da estimativa do nmero de habitantes da loca-
lidade:

1f X
L
v(YbAc1
est
)= Mh s2he = 49 (64.226.395) = 3.147.093.351
f h=1
o respectivo erro padro estimado por:
q
v(YbAc1
est
) = 56.098, 96
e o respectivo coeficiente de variao estimado por:
q
v(YbAc1
est
) 56.098, 96
cv(YbAc1
est
)= = = 0, 0276
Yb est
Ac1
2.036.500

2.7 Estimador de razo


H situaes prticas em que o controle da variao nos tamanhos dos con-
glomerados no pode ser feito mudando as probabilidades de seleo ou es-
tratificando os conglomerados, em virtude de no se dispor de nenhuma me-
dida de tamanho com valores conhecidos para todos os conglomerados.
98 CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOS

Nestas situaes, a alternativa que resta a estimao por um outro pro-


cesso. Neste caso, o processo mais comumente empregado o da estimao
por razo.
Para que esse processo possa ser empregado, basta que sejam conhecidos
os valores Ni0 e Yi0 , respectivamente, tamanho e total da caracterstica y dos
conglomerados da amostra.

2.7.1 Estimador de razo baseado no tamanho dos con-


glomerados
Sabe-se que:

P
M
Yi
Y
Y = = i=1
N P
M
Ni
i=1

Assim, lembrando que um estimador no viciado de Y dado por:

MX 0
m
b
YAc1 = Y
m i=1 i

e tambm, notando que um estimador no viciado do tamanho total N


dado por:

MX 0
m
b
NAc1 = N
m i=1 i

Segue-se que um estimador consistente de Y dado por:

M Pm Pm
Yi0 Yi0
R YbAc1 m i=1 i=1
y Ac1 = = = P
NbAc1 M Pm m
Ni0 Ni0
m i=1 i=1

Aqui pode-se notar que este estimador depende s dos tamanhos Ni0 e
dos totais Yi0 dos conglomerados da amostra, no dependendo do tamanho
total da populao (N) como o estimador no viciado y Ac1 que vimos ante-
riormente.
2.7. ESTIMADOR DE RAZO 99

R
Varincia de y Ac1

Se considerarmos uma amostra aleatria simples de m unidades de uma


populao de tamanho M, a varincia do estimador de razo dada por:
2
b M m SeR
V (R) = 2
MX m
onde:
b
b= Y
R e R=
Y
b
X X

1 X
M
2
SeR = (Yi R Xi )2
M 1 i=1
Supondo que m suficientemente grande para tornar desprezvel o vcio
do estimador de razo, e substituindo X por N segue-se que:
2
R M m SeR
V (y Ac1 )
= 2
MN m
com:

1 X
M
2 Y
SeR = (Yi Ni )2
M 1 i=1 N

1 X
M
= (Yi Y Ni )2
M 1 i=1

1 X 2
M
= Ni (Y i Y )2
M 1 i=1

Alm disso, um estimador consistente desta varincia dado por:

R M m s2eR
v(y Ac1 ) = 2
MN m
com:

1 X 0
m
R 0
s2eR = (Yi y Ac1 Ni )2
m 1 i=1
1 X 02 0
m
R
= N (Y i y Ac1 )2
m 1 i=1 i
100CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOS

Se N no for conhecido, pode ser estimado por:


1 X 0
m
N Ac1 = N
m i=1 i
A partir do que foi visto at agora, imediata a obteno do estimador
de razo consistente para o total Y .
P
m
Yi0
R
YbAc1
R i=1
= MN y Ac1 = MN Pm
Ni0
i=1
com:

2 R 2 M m SeR
2
V (YbAc1
R
) = MN V (y Ac1 )
= MN 2
MN m
2
M m SeR
= M2
M m

Alm disso, se o parmetro que se deseja estimar a proporo PA de


unidades da populao com certo atributo A, segue-se que um estimador de
razo consistente de PA dado por:
Pm
0
Ni PA0 i
i=1
pR
Ac1 = Pm
Ni0
i=1
com:
2
M m SeR
V (pR
Ac1 ) = 2
MN m
e
1 X 2
M
2
SeR = N (PA i PA )2
M 1 i=1 i
e o estimador dessa varincia dado por:

M m s2eR
v(pR
Ac1 ) = 2
MN m
com:
1 X 02 0
m
s2eR = N (P pR
Ac1 )
2
m 1 i=1 i A i
2.7. ESTIMADOR DE RAZO 101

2.7.2 Estimador de razo baseado em uma caracters-


tica que no seja o tamanho do conglomerado
Aqui a caracterstica auxiliar x que se utiliza para construir o estimador
de razo outra qualquer que no o tamanho dos conglomerados. Para
que o estimador de razo possa ser construdo com esta caracterstica x,
indispensvel conhecer o total X da populao e observar os totais Xi0 dos
conglomerados da amostra. Assim, o estimador de razo do total Y dado
por:

P
m
Yi0
YbAc1
R i=1
= Pm X
Xi0
i=1

2
M m SeR
V (YbAc1
R
)
= M2
M m
com:
1 X
M
2
SeR = (Yi R Xi )2
M 1 i=1

sendo:
Y
R=
X
e
M m s2eR
v(YbAc1
R
)
= M2
M m
com:
1 X 0 b 0 2
m
s2eR = (Y R Xi )
m 1 i=1 i

e
P
m
0
bAc1 Yi
b= Y i=1
R = Pm
bAc1
X Xi0
i=1
102CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOS

2.8 Exerccios
2.8.1 Considere uma populao de 100 conglomerados de mesmo tamanho
de 4 unidades elementares, em que a proporo de pessoas com certo
atributo P = 0, 5. Em uma amostra de 5 conglomerados foram obtidos
os seguintes resultados:
Conglomerado (i) 1 2 3 4 5
Unidades elementares 2 3 1 2 1
com o atributo (Ai )

Estime a eficincia da amostra de conglomerados em relao amostragem


aleatria simples.
2.8.2 Seja PN uma populao de N = 20 unidades, cujos valores associados
a uma certa caracterstica y so relacionadas a seguir:
U1 U2 U3 U4 U5 U6 U7 U8 U9 U10

Y1 Y2 Y3 Y4 Y5 Y6 Y7 Y8 Y9 Y10
q q q q q q q q q q
66 70 37 56 61 38 55 05 23 47

U11 U12 U13 U14 U15 U16 U17 U18 U19 U20

Y11 Y12 Y13 Y14 Y15 Y16 Y17 Y18 Y19 Y20
q q q q q q q q q q
94 51 85 65 92 49 10 87 31 02
Grupando essas 20 unidades em 4 conglomerados como sugerido a
seguir, calcular o coeficiente de correlao intraclasse .

C1 = {U1 , U6 , U11 , U16 , U20 } C2 = {U2 , U3 , U7 , U8 , U19 }


C3 = {U4 , U5 , U14 , U15 , U18 } C4 = {U9 , U10 , U12 , U13 , U17 }
Comente o resultado!!!
2.8.3 Segue-se uma tabela contendo os dados de uma amostra de 20 quar-
teires selecionados aleatoriamente sem reposio entre os 270 quar-
teires de uma cidade que continha 6.786 domiclios. Nesta pesquisa
considerou-se como unidade de investigao o domiclio. H interesse
em estimar a proporo de domiclios alugados e o intervalo dessa es-
timativa com 95% de confiana.
2.8. EXERCCIOS 103

Quarteiro No de Domiclios No de Domiclios


0
(i) (Ni0 ) Alugados Yi
1 5 3
2 9 5
3 18 5
4 68 52
5 32 21
6 48 34
7 11 3
8 1 0
9 1 0
10 4 0
11 29 17
12 31 14
13 5 0
14 2 0
15 4 2
16 102 54
17 20 11
18 15 11
19 1 0
20 29 23
Total 435 255

X
20 X
20
Ni02 = 22.239 Yi02 = 8.545
=1 =1

2.8.4 Segue-se uma tabela contendo os dados de uma amostra de 20 quar-


teires selecionada com probabilidade proporcional ao nmero de domiclios,
dentre os 270 quarteires considerados na populao que continha 6.786
domi-clios, do exerccio 2.8.3. Estimar a proporo de domiclios alu-
gados e comparar a preciso obtida com aquela do exerccio 2.8.3 (cuja
seleo dos conglomerados havia sido com equiprobabilidade). Justi-
fique o resultado.
104CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOS

Quarteiro No de Domiclios No de Domiclios


(i) (Ni0 ) Alugados (Yi0 )
1 45 30
2 22 13
3 76 69
4 4 2
5 4 2
6 33 27
7 46 34
8 81 43
9 58 42
10 89 84
11 76 69
12 48 46
13 46 36
14 18 6
15 76 69
16 102 54
17 44 24
18 39 26
19 22 7
20 30 25
Total 959 708

2.8.5 Estimar a proporo de domiclios alugados, a partir da amostra aleatria


simples de 20 quarteires selecionada, cujos resultados foram dados no
exerccio 2.8.3 deste captulo, utilizando o estimador de razo baseado
no tamanho dos conglomerados.

Calcule tambm o intervalo dessa estimativa com 95% de confiana e


compare com os intervalos obtidos nos exerccios 2.8.3 e 2.8.4.
2.8. EXERCCIOS 105

2.8.6 dada uma populao com N unidades distribudas em M conglom-


erados de tamanhos desiguais. Deseja-se selecionar uma amostra de
m conglomerados para estimar o total de uma determinda caracters-
tica. Quais as medidas que devem ser tomadas na definio do desenho
amostral para controlar a variao do tamanho dos conglomerados, se o
tamanho de cada conglomerado for conhecido? E se no for conhecido?
2.8.7 Os habitantes de um bairro esto distribudos em 170 quarteires, onde
se estima que h um total de 8.500 domiclios. Sabendo-se que uma
amostra aleatria simples de 500 domiclios anteriormente selecionada
forneceu uma preciso de cerca de 10% (em termos do coeficiente de
variao) para estimar o total de domiclios alugados e, que o coe-
ficiente de correlao intraclasse foi estimado na mesma amostra em
torno de 0,30. Usando a frmula aproxi-mada que relaciona a varin-
cia da amostra aleatria simples e da amostra de conglomerados em 1
estgio, supondo conglomerados de igual tamanho:

a) Estime a preciso que seria obtida para estimar o total de domiclios


alugados se fosse selecionada uma amostra de quarteires corre-
spondente ao mesmo nmero de domiclios que a amostra aleatria
simples.
b) Determine o tamanho de amostra de quarteires necessrio para
estimar o total de domiclios alugados no bairro em questo, com
a mesma preciso da amostra aleatria simples.

2.8.8 Uma amostra aleatria simples sem reposio de 8 caixas de laranjas


foi retirada de um lote que continha 1.000 caixas, tendo-se examinado
cada fruto das caixas selecionadas para verificar se estavam com bicho.
Os dados observados foram:

Caixa Total de frutos Total de frutos com


na amostra na caixa bicho na caixa
1 50 4
2 40 21
3 45 6
4 55 30
5 70 50
6 65 4
7 35 20
8 40 15
Total 400 150
106CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOS

a) Estime a proporo de frutos com bicho no lote.


b) Calcule o intervalo com 95% de confiana para a estimativa obtida
em a) e d a sua opinio a respeito da dimenso da amostra uti-
lizada. ( s2eR = 625).

2.8.9 Compare as seguintes 2 amostras, cada uma delas baseada em 3.600


unidades elementares selecionadas de uma populao com 1.800.000
unidades.

(1) Uma amostra aleatria simples de 3.600 unidades elementares com:

y = 513 e v(y) = 10, 89

(2) Uma amostra aleatria de 180 conglomerados selecionados dentre


90.000 conglomerados, com cada conglomerado contendo N = 20
unidades elementares e

y Ac1 = 524 e v(y Ac1 ) = 102, 01

Note que a varincia estimada para estimar a mdia da caracterstica


y para a segunda amostra quase 10 vezes maior que a da primeira
amostra. Isto indica que: (complete com (V) se a afirmativa for ver-
dadeira e (F) se for falsa, justificando a escolha para cada item.)

a) O coeficiente de correlao intraclasse dos 90.000 conglomerados


maior que zero.
b) Todos os elementos dentro de cada conglomerado so iguais (Yij =
Yik j e k).
c) O estimativa da varincia da segunda amostra pode ser reduzida,
para atingir o valor da varincia estimada com a primeira amostra,
aumentando em menos de 1.000 o nmero de conglomerados na
segunda amostra.
d) Se a primeira amostra for reduzida para 1.200 unidades elementares,
ela teria a mesma preciso estimada para estimar a mdia da car-
acterstica y que a segunda amostra.
2.8. EXERCCIOS 107

2.8.10 De uma populao com 10.000 conglomerados e 50.000 unidades el-


ementares uma amostra aleatria simples sem reposio de 10 con-
glomerados foi selecionada. Desses conglomerados temos as seguintes
informaes:

Conglomerado Valor da caracterstica Total de unidades


(i) y no conglomerado i no conglomerado i
1 80 3
2 110 4
3 95 5
4 55 3
5 150 5
6 120 6
7 175 7
8 90 4
9 50 3
10 100 5
Total 1.025 45

a) D 2 estimativas da mdia por unidade elementar.


b) Qual estimativa provavelmente melhor? Justifique.

2.8.11 De uma populao formada por M conglomerados foi selecionada


uma amostra de m conglomerados com o seguinte procedimento: o 1o
conglomerado foi selecionado com probabilidades desiguais Pi , sendo
PM
Pi = 1 e os (m 1) conglomerados restantes da amostra foram
i=1
selecionados com probabilidades iguais, sendo que todas as selees
foram sem reposio.

a) Obtenha a probabilidade zi de que o conglomerado Ci pertena a


amostra; e
P
M
b) Prove que: zi = m.
i=1
108CAPTULO 2. AMOSTRAGEM DE CONGLOMERADOS
Captulo 3

Conglomerados em 2 estgios

3.1 Probabilidades iguais de seleo


3.1.1 Introduo e definies bsicas
Quando foi estudada a eficincia da amostragem de conglomerados em 1 es-
tgio em relao amostragem
aleatria
simples, mostrou-se que o efeito
de conglomerao 1 + N 1 costuma determinar uma perda de pre-
ciso da amostra de conglomerados em 1 estgio, comparada a uma amostra
aleatria simples de mesmo tamanho, porque o coeficiente de correlao in-
traclasse costuma ser positivo. De fato, constatou-se ainda que a perda da
preciso tanto maior quanto maior o tamanho do conglomerado.
Neste captulo ser estudada uma maneira de reduzir a influncia do
tamanho dos conglomerados na eficincia da amostra de conglomerados em
1 estgio. Esta soluo consiste em fazer subamostragem nos conglomerados
da amostra, ao invs de investigar todas as unidades desses conglomerados.
A subamostragem mencionada consiste na seleo de amostras de unidades
elementares de N dentro de cada um dos conglomerados da amostra.
Por exemplo, se os quarteires de uma cidade so considerados conglom-
erados de domiclios, selecionando-se uma amostra de quarteires e depois
uma amostra de domiclios em cada quarteiro da amostra se obtm uma
amostra de conglomerados em 2 estgios.
O plano amostral de conglomerados em 2 estgios (Ac2) constitudo de
uma amostra de conglomerados com subamostragem.
Na exposio seguinte ser adotada a seguinte terminologia:
conglomerado = unidade primria de amostragem (U P A ou UP )
unidade elementar = unidade secundria de amostragem (USA ou U S).
Assim, se N uma populao com N unidades, ela pode ser vista como

109
110 CAPTULO 3. CONGLOMERADOS EM 2 ESTGIOS

se segue:

UP1 U P2 UPM
U S11 Y11 US21 Y21 ... U SM1 YM1
U S12 Y12 US22 Y22 ... U SM2 YM2
.. .. .. .. .. ..
. . . . . .
US1N1 Y1N1 US2N2 Y2N2 . . . U SMNM YMNM

Assim verifica-se que na UPi h Ni unidades secundrias (USij ) e, portanto:

X
M
Ni = N
i=1

Agora, seleciona-se uma amostra aleatria simples, sem reposio de m unidades


primrias:
Amostra de 1o estgio
UP10 U P20 U Pm0
0
U S11 Y110 US210
Y210 ... USm10
0
Ym1
0
U S12 Y120 US220
Y220 ... USm20
0
Ym2
.. .. .. .. .. ..
. . . . . .
0 0 0 0 0 0
US1N1
Y1N 0 US2N 0 Y2N 0 . . . U SmNm
0 YmNm
0
1 2 2

E agora, em cada UP da amostra de 1o estgio, seleciona-se uma amostra


aleatria simples de unidades secundrias, obtendo-se:

Amostra de 2o estgio

U P10 UP20 UPm0


us0011 y11 us0021 y21 ... us00m1 ym1
us0012 y12 us0022 y22 ... us00m2 ym2
.. .. .. .. .. ..
. . . . . .
us001n0 y1n01 us002n0 y2n02 . . . us00m n0m ym n0m
1 2

Finalmente, a amostra resultante :



y11 , y12 , , y1n01 ; ; ym1 , ym2 , , ym n0m

E assim, ao invs de se ter os conglomerados na amostra com N10 , N20 , , Nm


0
0 0 0
unidades, tem-se as subamostras de tamanho n1 , n2 , , nm .

A figura 3.1 apresenta uma ilustrao da seleo das unidades de uma


amostra de conglomerados em 2 estgios.
3.1. PROBABILIDADES IGUAIS DE SELEO 111

Figura 3.1: Ilustrao da seleo das unidades de uma Ac2

Neste caso tem-se: M = 10 e m = 6


UPs No de U Ss UP s No de U Ss No de USs
da UPi selecionadas da UPi0 selecionadas
0 0
(UPi ) (Ni ) (UPi ) (Ni ) da U Pi0 (n0i )
0 0
UP1 N1 = 4 U P1 N1 = 4 n01 = 2
UP2 N2 = 4 - - -
0 0 0
UP3 N3 = 5 U P2 N2 = 5 n2 = 3
UP4 N4 = 5 U P30 N30 = 5 n03 = 2
UP5 N5 = 3 - - -
0 0 0
UP6 N6 = 3 U P4 N4 = 3 n4 = 2
UP7 N7 = 3 U P50 N50 = 3 n05 = 2
UP8 N8 = 3 - - -
UP9 N9 = 2 U P60 N60 = 2 n06 = 1
UP10 N10 = 4 - - -

A frao de amostragem correspondente seleo equiprovvel das unidades


primrias no 1o estgio representada por:
m
f1 =
M
e a frao de amostragem de 2o estgio para cada unidade primria sele-
cionada representada por:

n0i
f2i = (i = 1, 2, , m)
Ni0
112 CAPTULO 3. CONGLOMERADOS EM 2 ESTGIOS

Na situao usual (mais simples) comum fazer a frao de amostragem do


2o estgio constante, representando-a por f2 , ou seja:

f2i = f2 (i = 1, 2, , m)
Alm disto, h que se notar que o tamanho final da amostra uma varivel
aleatria n, com:
Xm
n= n0i
i=1

Os valores da varivel aleatria n dependem das unidades primrias sele-


cionadas no 1o estgio. Tem-se que:

m ! m !
X X 1 X
M
n = E (n) = E n0i =E f2 Ni0 = f2 m Ni = f1 f2 N
i=1 i=1
M i=1

No caso de frao de amostragem constante no 2o estgio, qualquer unidade


da populao tem a mesma probabilidade de pertencer amostra, dada por
f1 f2 .

3.1.2 Parmetros da caracterstica y


Vamos definir agora a notao dos parmetros de N quando a populao
est representada de acordo com a configurao de conglomerados definida:

Total da caracterstica y em U Pi :
Ni
X
Yi = Yij (i = 1, 2, , M)
j=1

sendo: Yij o valor da caracterstica y associada j-sima unidade se-


cundria da unidade primria i.

Mdia da caracterstica y em UPi :

Yi
Yi = (i = 1, 2, , M)
Ni
3.1. PROBABILIDADES IGUAIS DE SELEO 113

Varincia da caracterstica y dentro da UPi :


N
1 X i

Si2 = (Yij Y i )2 (i = 1, 2, , M)
Ni 1 j=1

Total da caracterstica y em toda populao:

X
M
Y = Yi
i=1

Mdia da caracterstica y por unidade da populao:

Y
Y =
N

Mdia da caracterstica y por conglomerado:

Y
Y =
M

Varincia da caracterstica y em toda populao:


N
1 XX i M
2
S = (Yij Y )2
N 1 i=1 j=1

3.1.3 Estatsticas da amostra em cada estgio


De acordo com o desenho de amostragem de conglomerados em 2 estgios,
sero definidas as seguintes estatsticas da amostra:

Total da caracterstica y em UPi0 :

Ni 0
X
Yi0 = Yij0 (i = 1, 2, , m)
j=1

sendo: Yij0 o valor da caracterstica y associada j-sima unidade se-


cundria da unidade primria selecionada i.
114 CAPTULO 3. CONGLOMERADOS EM 2 ESTGIOS

Mdia da caracterstica y em UPi0 :


0 Yi0
Yi = (i = 1, 2, , m)
Ni0

Varincia da caracterstica y em U Pi0 :


N0
02 1 X i
0
Si = 0 (Y 0 Y i )2 (i = 1, 2, , m)
Ni 1 j=1 ij

Total da caracterstica y na subamostra de UPi0 :


0
ni
X
yi = yij (i = 1, 2, , m)
j=1

sendo: yij o valor da caracterstica y associada j-sima unidade se-


cundria selecionada da unidade primria selecionada i.
Mdia da caracterstica y na subamostra de U Pi0 :

yi
yi = (i = 1, 2, , m)
n0i

Varincia da caracterstica y na subamostra de UPi0 :


n0
1 X i

s2i = 0 (yij y i )2 (i = 1, 2, , m)
ni 1 j=1

3.1.4 Estimadores de total e mdias e respectivas var-


incias
Estimadores de total e mdias
Trata-se de obter estimadores para os parmetros de N . Para isso, ser
empregado um princpio de construo de estimadores no viciados a partir
do desenho da amostra cuja aplicabilidade geral na amostragem. O princ-
pio consiste consiste em ir construindo o estimador de dentro para fora (ou
de baixo para cima).
No nosso caso, a aplicao deste princpio resulta no seguinte raciocnio:
Seja U Pi0 uma unidade primria qualquer selecionada da amostra. O total
de y em U Pi0 dado por Yi0 , que no caso desconhecido visto se dispor apenas
de uma amostra das unidades de UPi0 . Entretanto, essa amostra pode ser
usada para estimar Yi0 ,levando em conta que:
3.1. PROBABILIDADES IGUAIS DE SELEO 115

i) a amostra aleatria simples na U Pi0 ; e

ii) so conhecidos os valores yi1 , yi2 , , yi n0i da amostra na UPi0 .

Assim um estimador no viciado de Yi0 dado por:

ni 0
Ni0 Ni0 X
Ybi0 = 0 yi = 0 yij = Ni0 y i (i = 1, 2, , m)
ni ni j=1

Por outro lado, dado que as UPs da amostra so selecionadas com equiprob-
abilidade, o estimador de total conhecido da Ac1 para o total da populao
depende somente dos totais dos conglomerados da amostra: Y10 , Y20 , , Ym0 ,
e dado por:

MX 0
m
b
YAc1 = Y
m i=1 i

Usando as idias anteriormente expostas, e lembrando que na Ac2 os


totais dos conglomerados da amostra so estimados por Yb10 , Yb20 , , Ybm0 , segue-
se que um estimador do total Y dado por:

ni 0
M X b 0 M X Ni0 M X Ni0 X
m m m
YbAc2 = Y = yi = yij
m i=1 i m i=1 n0i m i=1 n0i j=1
MX 0
m
= Ny
m i=1 i i


YbAc2 um estimador no viciado de Y, isto , E YbAc2 = Y.
Para fazer essa demonstrao, utiliza-se esperanas condicionais. Assim,
lembrando que:
Se Z e X so variveis aleatrias ento:

E (Z) = EX [E (Z |X )]

Neste caso conveniente considerar internamente a esperana condi-


cionada sobre todas as possveis selees de subamostra quando se fixa uma
dada seleo de unidades primrias U P10 , , UPm0 , e depois a esperana
sobre todas as possveis selees de amostras de unidades primrias.
116 CAPTULO 3. CONGLOMERADOS EM 2 ESTGIOS

Segue-se, ento que:



E YbAc2 = EUP10 , ,UPm0 E YbAc2 |U P10 , , UPm0
!!
MX 0
m
0
= EUP10 , ,UPm0 E N y |UPi
m i=1 i i
!
MX
m
0 0
= EUP10 , ,UPm0 E (Ni y i |UPi )
m i=1
! !
MX 0 0 MX 0
m m
= EUP10 , ,UPm0 NY = EU P10 , ,U Pm0 Y
m i=1 i i m i=1 i

b
= E YAc1 = Y

Um estimador no viciado para Y dado por:


M X 0 1 X 0
m m
YbAc2
y Ac2 = = Ny = Ny
N mN i=1 i i mN i=1 i i
pois, !
YbAc2 1 b Y
E y Ac2 = E = E YAc2 = =Y
N N N
Um estimador no viciado para Y dado por:
M X 0 1 X 0
m m
YbAc2
y Ac2 = = Ny = Ny
M mM i=1 i i m i=1 i i
pois, !
YbAc2 1 b Y
E (y Ac2 ) = E = E YAc2 = =Y
M M M
Varincia dos estimadores de total e das mdias
Na obteno da expresso da varincia de YbAc2 tambm ser utilizado o
emprego de esperanas condicionais, o que ir facilitar bastante essa deduo.
Deve-se lembrar que: Se Z e X so variveis aleatrias ento:
V (Z) = EX [V (Z |X )] + VX [E (Z |X )]
Da, segue-se que:
h i
b b 0
V YAc2 = EU P10 , ,U Pm0 V YAc2 |UP1 , , U Pm + 0

h i
+VU P10 , ,U Pm0 E YbAc2 |UP10 , , U Pm0
3.1. PROBABILIDADES IGUAIS DE SELEO 117

Porm, foi demonstrado anteriormente que:


MX m
b 0 0
E YAc2 |UP1 , , UPm = Y 0 = YbAc1
m i=1 i

Segue-se que:
h i h i 2
b 0 0 b 2 M m Se
VUP10 , ,UPm
0 E YAc2 |U P1 , , UPm = VU P1 , ,U Pm YAc1 = M
0 0
M m
onde:
1 X
M
Se2 = (Yi Y )2
M 1 i=1
Por outro lado:
!
MX 0
m
V YbAc2 |UP10 , , UPm0 = V N y |UPi0
m i=1 i i
M 2 X 02
m
= N V (y i |UPi0 )
m2 i=1 i
M 2 X 02 Ni0 n0i Si02
m
= N
m2 i=1 i Ni0 n0i

Logo:
" #
h i M 2 X m
N 0
n0 02
S
EU P10 , ,U Pm0 V YbAc2 |UP10 , , UPm0 = EU P10 , ,U Pm0 N 02 i 0 i i0
m2 i=1 i Ni ni

M2 X
m 0 0 02
02 Ni ni Si
= E UPi0 N i
m2 i=1 Ni0 n0i
m M
M2 X X 2 Ni ni Si
2
1
= 2
Ni
m i=1 i=1 Ni ni M

M X 2 Ni ni Si2
M
= N
m i=1 i Ni ni

E assim, obtm-se finalmente:


M m Se2 M X 2 Ni ni Si2
M
V YbAc2 = M 2 + N
M m m i=1 i Ni ni
118 CAPTULO 3. CONGLOMERADOS EM 2 ESTGIOS

onde as parcelas do 2o membro representam as componentes da varincia


devidas ao 1o e ao 2o estgios de seleo, respectivamente.
Segue-se, imediatamente, que as varincias dos estimadores das mdias
y Ac2 e y Ac2 so, respectivamente:
!
YbAc2 1 b
V y Ac2 = V = 2 V YAc2
N N
!
YbAc2 1
V (y Ac2 ) = V = 2 V YbAc2
M M
Note-se que:
i) Se m = M ento, a 1a componente da varincia nula, ou seja:
X M
Ni ni Si2
b
V YAc2 = Ni2 = V Ybest
i=1
Ni ni
e este plano amostral equivale ao de uma amostra estratificada.
ii) Se ni = Ni (i = 1, 2, , m) ento, a 2a componente da varincia
nula, ou seja:
M m Se2
V YbAc2 = M 2 = V YbAc1
M m
e este plano amostral equivale ao de uma amostra de conglomerados
em um estgio.
Uma anlise pouco cuidadosa do problema a partir deste resultado pode-
ria levar concluso de que:

b
V YAc2 V YAc1b

posto que:
MX M
Ni ni Si2
b b
V YAc2 = V YAc1 + Ni2
m i=1 Ni ni

Isto verdadeiro se o nmero de conglomerados m for o mesmo nos dois


planos amostrais. Porm, como no plano amostral de conglomerados em 2
estgios feita a subamostragem, as amostras no tm o mesmo tamanho
em termos de unidades elementares. O tamanho da Ac2, em mdia, tem em
termos de unidades elementares f2 % do nmero de unidades elementares da
Ac1.
A maneira correta de comparar os 2 desenhos de amostragem fixando
o tamanho total da amostra, em termos de unidades elementares, e no o
nmero de conglomerados da amostra, como ser visto mais adiante.
3.1. PROBABILIDADES IGUAIS DE SELEO 119

3.1.5 Estimadores das varincias dos estimadores de


total e mdias
Em primeiro lugar,
vamos
nos ocupar para a obteno de um estimador no
viciado para a V YbAc2 , propondo o seguinte estimador:

2
M X 0 2 Ni0 n0i s2i
m
b 2 M m se
v YAc2 = M + N
M m m i=1 i Ni0 n0i

onde:

1 X 0
m
=s2e (N y y Ac2 )2
m 1 i=1 i i

A seguir ser demonstrado que o estimador v YbAc2 no viciado para

b
V YAc2 .
Para esta prova, vamos mostrar que:

1 PM Ni ni Si2
i) E (s2e ) = Se2 + Ni2 e
M i=1 Ni ni
M
M Pm 0 0 2
0 2 Ni ni si P 2 Ni ni Si2
ii) E Ni = Ni .
m i=1 Ni0 n0i i=1 Ni ni

Demostrao da parte (i):


!
1 X 0
m
E(s2e ) = E (N y y Ac2 )2
m 1 i=1 i i
m !
1 X
= E (Ni0 y i y Ac2 )2
m1
i=1 !
1 X m
2
= E (Ni0 y i ) m (y Ac2 )2
m1
i=1 !
1 X m
2 m
= E (Ni0 y i ) E y 2Ac2
m1 i=1
m1

Segue-se que:
120 CAPTULO 3. CONGLOMERADOS EM 2 ESTGIOS

m ! m !!
X 2
X 2
E (Ni0 y i ) = EU P10 , ,U Pm0 E 0
(Ni y i ) |U Pi0

i=1 i=1
m !
X
0 2 0
= EU P10 , ,U Pm0 E (Ni y i ) |UPi
i=1 !
X m X
m
0 2 0 2
= EU P10 , ,U Pm0 V (Ni y i ) |UPi + [E (Ni0 y i |UPi0 )]
i=1 i=1
!
X m
N0
n0i Si02 X
m
0 2
= EU P10 , ,U Pm0 Ni02 i + Ni Y i
i=1
Ni0 n0i i=1

0 0 02
02 Ni ni Si
2
= mEU P10 , ,U Pm0 Ni + mEU P10 , ,U Pm0 Ni Y i
Ni0 n0i
XM
m X
M
2 Ni ni Si
2
1 2
= m Ni + Ni Y i
i=1
Ni ni M M i=1

m X 2 Ni ni Si2 mX 2
M M
= N + Y
M i=1 i Ni ni M i=1 i

Por outro lado, segue-se que:


E y 2Ac2 = V (y Ac2 ) + [E (y Ac2 )]2
! " !#2
YbAc2 YbAc2
= V + E
M M
! " !#2
YbAc2 YbAc2
= V + E
M M
( )
1 M m S 2
M XM
Ni n S
i i
2
e
= M2 + N2 +Y2
M2 M m m i=1 i Ni ni

1 X 2 Ni ni Si2
M
M m Se2 2
= + Ni +Y
M m mM i=1 Ni ni

Assim, segue-se que:


3.1. PROBABILIDADES IGUAIS DE SELEO 121

m !
1 X 2 m
E(s2e ) = E (Ni0 y i ) E y 2Ac2
m1 i=1
m1
( )
m X 2 Ni ni Si2 mX 2
M M
1
= N + Y +
m 1 M i=1 i Ni ni M i=1 i
( )
1 X 2 Ni ni Si2
M
m M m Se2 2
+ N +Y
m1 M m mM i=1 i Ni ni
X M
m m 1 Ni ni Si2
= Ni2 +
(m 1) M m 1 mM i=1 Ni ni

m XM
m 2 m M m Se2
+ Yi2 Y
(m 1) M i=1 m1 m1 M m
" #
1 X 2 Ni ni Si2 1 X 2
M M
m 2
= N + Y MY +
M i=1 i Ni ni (m 1) M i=1 i
m M m Se2

m1 M m

"M #
1 XM
Ni n S
i i
2
m 1 X 2
E(s2e ) = N2 + Yi Y +
M i=1 i Ni ni (m 1) M i=1
m M m Se2

m1 M m

1 X 2 Ni ni Si2
M
m M 1 M m
= N + Se2
M i=1 i Ni ni (m 1) M Mm

1 X 2 Ni ni Si2
M
m mM m M + m
= N + Se2
M i=1 i Ni ni (m 1) Mm

1 X 2 Ni ni Si2
M
mM m1
= N + Se2
M i=1 i Ni ni (m 1) Mm

1 X 2 Ni ni Si2
M
= N + Se2
M i=1 i Ni ni

Agora resta a demonstrao de (ii):


122 CAPTULO 3. CONGLOMERADOS EM 2 ESTGIOS

! !!
M X 0 2 Ni0 n0i s2i M X 0 2 Ni0 n0i s2i
m m
0
E N = EU P10 , ,U Pm0 E N |UPi
m i=1 i Ni0 n0i m i=1 i Ni0 n0i
m !
M X 0 0
0 N n E (si )
2
= EUP10 , ,UPm0 Ni 2 i 0 i 0
|UPi0
m Ni ni
i=1 !
M X m 0 0 02
0 N n S
= EUP10 , ,UPm0 Ni 2 i 0 i i0
m i=1
Ni ni

M X 2 Ni ni Si2 1
M
= m N
m i=1 i Ni ni M

M m X 2 Ni ni Si2
M
= N
m M i=1 i Ni ni
X
M
Ni ni Si2
= Ni2
i=1
Ni ni
Finalizando:
!
h i 2
M m E (se ) M Xm 0 0 2
0 N n s
E v YbAc2 = M2 +E Ni 2 i 0 i i0
M m m i=1 Ni ni
" #
1 X 2 Ni ni Si2
M
2M m 1 2
= M S + N +
M m e M i=1 i Ni ni
X
M
Ni ni Si2
+ Ni2
i=1
Ni ni

m Se2 X
M
Ni ni Si2
2M 2M m 1 1
= M +M Ni2 +
M m M m M i=1 Ni ni
X
M
Ni ni Si2
+ Ni2
i=1
Ni ni
2
XM
2 M m Se M m Ni ni Si2
= M + +1 Ni2
M m m i=1
Ni ni

M m Se2 M X 2 Ni ni Si2
M
= M2 + N
M m m i=1 i Ni ni

b
= V YAc2
3.1. PROBABILIDADES IGUAIS DE SELEO 123

3.1.6 Amostra autoponderada


Na amostragem de conglomerados em 2 estgios, existe uma frao de amos-
m
tragem no 1o estgio (f1 = M ) e existem fraes correspondentes ao 2o estgio
n0
(f2i = Ni0 ), que podem ser diferentes.
i
Todos os estimadores que trabalhamos anteriormente foram preparados
nessa hiptese. Supondo-se que:
f21 6= f22 6= 6= f2m
Sabe-se que a probabilidade de U Sij pertencer a amostra dada por:
m n0i
P {USij amostra} = i, j
M Ni0
Foi dito anteriormente que comum na prtica trabalhar com uma frao
de amostragem f2 constante em todos os conglomerados. Isto usual devido
principalmente simplicidade que resulta em termos de frmulas dos esti-
madores, como tambm simplicidade de operacionalizao da seleo da
amostra. neste caso, devemos ter:
n
f2 =
N
onde:
P
m P
M
n0i Ni
i=1 i=1
n= e N=
m M
Da resulta que todas as unidades secundrias tero a mesma probabili-
dade de pertencer amostra, dada por:
m n n
P {USij amostra} = = f1 f2 = f =
MN N
O que veremos a seguir como se define amostra autoponderada e, como
se modificam os estimadores de total e da respectiva varincia da amostragem
de conglomerados em 2 estgios.
Definio
Diz-se que a amostra de conglomerados em 2 estgios autoponderada
se e somente se as unidades secundrias tiverem a mesma probabilidade de
incluso na amostra, isto , se e somente se:
n m n0i n0i Mn
= P {U Sij amostra} = 0
0
=
N M Ni Ni mN
n0i n
0
=
Ni N
124 CAPTULO 3. CONGLOMERADOS EM 2 ESTGIOS

Adaptao dos estimadores do total e respectiva varincia


A expresso do estimador de total YbAc2 pode ser reescrita como:

ni 0 0
m ni
M X Ni0 X M N XX
m
YbAc2 = yij = yij
m i=1 n0i j=1 m n i=1 j=1
0 0
m ni m ni
N XX 1 XX
= yij = yij
n i=1 j=1 f i=1 j=1

e a expresso da varincia de YbAc2 fica:


2
M X 2 Ni ni Si2
M
b 2 M m Se
V YAc2 = M + N
M m m i=1 i Ni ni
2
XM
2 M m Se M N
= M + 1 Ni Si2
M m m n i=1
M
2
2 M m Se M N N n X
= M + Ni Si2
M m m n N i=1

fazendo:
1 X
M
Sd2 = Ni Si2
MN i=1
Segue-se que:
2
M m S 2 N n Sd2
V YbAc2 = M 2 e
+ MN
M m N mn
ou, em termos das fraes de amostragem:

1 1 f
V YbAc2 = M 2 2
1 Se + N Sd2
f1 f1 f2
Notando-se que:
1 X 0 2
m
s2d = Ni si
mN i=1

um estimador no viciado de Sd2 , b
segue-se a expresso adaptada de v YAc2
2
M m s 2 N n s2d
v YbAc2 = M 2 e
+ MN
M m N mn
3.1. PROBABILIDADES IGUAIS DE SELEO 125

ou ainda, em termos das fraes de amostragem:


1 1 f
v YbAc2 = M 2 2
1 se + N s2d
f1 f1 f2

Uma vez mais convm ressaltar que a vantagem da amostra autopon-


derada advm da facilidade prtica de seleo da amostra e do clculo dos
estimadores e suas respectivas precises.
Exemplo 3.1 (Nascimento (1981), pg. 80)

Em determinada rea, de acordo com o ltimo Censo Demogrfico, h 150


setores com aproximadamente 36.400 domiclios. Seleciona-se uma amostra
de 364 domiclios, com o objetivo de estimar o nmero de habitantes da rea.
Isto corresponde a uma frao geral de amostragem:

364 1
f= =
36.400 100

36.400
H em mdia = 243 domiclos por setor na rea.
150
Sero selecionados com equiprobabilidade 10 setores, o que corresponde
a uma frao de amostragem de 1o estgio de:

10 1
f1 = =
150 15

Para que a amostra seja autoponderada deve-se ter: f1 f2 = f .


Logo:

1
f 100
f2 = = 1 = 15%
f1 15

Supondo que a amostra forneceu os seguintes dados, estimar o nmero


total de habitantes da rea e sua preciso.
126 CAPTULO 3. CONGLOMERADOS EM 2 ESTGIOS

Setores Domiclios Domiclios da Moradores nos Varincia de y


da no setor subamostra domiclios da na subamos-
amostra (Ni0 ) no setor (n0i ) subamostra (yi ) tra (s2i )
1 320 48 168 4,018
2 210 32 138 5,224
3 180 27 130 5,905
4 400 60 222 1,044
5 250 38 201 2,840
6 221 33 149 4,345
7 120 18 97 6,000
8 500 75 300 2,012
9 262 39 199 3,484
10 238 36 108 3,000
Total 2.701 406 1.712 -
0
m ni
1 XX 1
YbAc2 = yij = 1 (1.712) = 171.200 habitantes
f i=1 j=1 100

1 X 0
m
s2e = (N y y Ac2 )2
m 1 i=1 i i
1
= (1.502.364, 65) = 166.929, 41
9
YbAc2 171.200
y Ac2 = = = 1.141, 33
M 150
1 X 0 2
m
1
s2d = Ni si = (8.886, 353) = 3, 657
mN i=1 10 (243)


b 1 2 1 f2 2
v YAc2 = M 1 se + N sd
f1 f1 f2
15
1 1 100
= 150 1 1 166.929, 41 + 36.400 1 3, 657
15 100
= 350.551.750, 8 + 11.314.558, 1 = 361.866.308, 9
Logo: r
b
v YAc2
b
cv YAc2 = = 11, 11%
YbAc2
3.1. PROBABILIDADES IGUAIS DE SELEO 127

3.1.7 Dimensionamento da amostra de conglomerados


em 2 estgios
Na amostragem de conglomerados em um estgio, o dimensionamneto da
amostra pode ser feito fixando-se uma preciso desejada, e calculando-se o
nmero de conglomerados da amostra, atravs da expresso da varincia.
Na amostragem de conglomerados em 2 estgios, o dimensionamento con-
siste em determinar no s o nmero de unidades primrias (conglomerados)
na amostra de 1o estgio, como tambm o nmero de unidades secundrias
da subamostra em cada unidade primria selecionada.
Uma soluo para o problema pode ser obtida utilizando-se a expresso
da varincia e introduzindo-se uma funo custo, que indica o custo da apli-
cao do desenho da amostra para os tamanhos de 1o e 2o estgios a serem
escolhidos.
Aqui ser considerado o caso simples em que o tamanho mdio das unidades
primrias N e o tamanho mdio da subamostra n so determinados de acordo
com um dos critrios possveis:

a) minimizar a varincia com custo fixado;


b) minimizar o custo com varincia fixada.

Definio de uma funo custo


A funo custo que vamos considerar no a nica possvel, mas a ade-
quada para muitas situaes prticas, e possibilita a soluo do problema de
determinao dos tamanhos de amostra segundo os dois critrios j definidos
de maneira simples.

Funo Custo:
CT = Cf + C1 m + C2 mn
onde:
Cf o custo fixo;
C1 o custo unitrio por unidade primria selecionada;
C2 o custo unitrio por unidade secundria selecionada.

Na prtica, as despesas dever ser atribudas a cada um dos custos definidos


como segue:

Custo fixo: Cf

- planejamento e orientao do trabalho, incluindo os salrios do pessoal


tcnico e as despesas de administrao;
128 CAPTULO 3. CONGLOMERADOS EM 2 ESTGIOS

- preparao de mapas e outras informaes que no dependam do tamanho


da amostra a ser selecionada;

- impresso de tabelas e treinamento de pessoal de campo que no de-


penda do tamanho da amostra a ser selecionada.

Afinal, devem ser includas como custo fixo, as despesas que no variam
com o processo de seleo nem com o tamanho da amostra.

Custo de seleo das unidades primrias: C1 m

- despesas de seleo das unidades primrias;

- preparao de roteiros de viagem para as unidades primrias;

- impresso do material para a amostra de unidades primrias;

- tempo de treinamento para investigao das unidades primrias;

- gastos de transporte para as unidades primrias e entre as mesmas.

Afinal, devem ser includas aqui todas as despesas que variam com o
nmero de unidades primrias na amostra.

Custo de seleo das unidades secundrias: C2 mn

- custo de entrevista de cada unidade secundria;

- impresso do material referente s unidades secundrias da amostra;

- despesas de transporte dentro das unidades primrias.

Enfim, devem ser includas aqui todas as despesas diretamente relacionadas


com o nmero de unidades secundrias na amostra.
3.1. PROBABILIDADES IGUAIS DE SELEO 129

Tamanho de amostra com custo fixado e mnima varincia

Agora, vamos resolver o problema de determinao dos tamanhos de


amostra segundo o critrio de minimizao da varincia com o custo fixado.
Para tanto, considere-se a seguinte funo Lagrangeana:

F = V (y Ac2 ) + (Cf + C1 m + C2 mn CT )

que pode ser reescrita como:


2
M m S e N n Sd2
F = + + (C1 m + C2 mn C)
M m N mn
onde:
C = CT Cf
o multiplicador de Lagrange.
Tomando as derivadas parciais em relao a m e a n e igualando a zero
vem:
F S2
= d 2 + C2 m = 0 (3.1)
n mn
2
F S N n Sd2
= e2 + (C1 + C2 n) = 0 (3.2)
m m N m2 n
De (1) obtm-se:
C2 m2 n2 = Sd2 (3.3)
De (2) obtm-se:
2
(C1 + C2 n) Nm2 n = S e Nn + N n Sd2 (3.4)

Dividindo-se (4) por (3), tem-se:


2
(C1 + C2 n) Nm2 n S e Nn + N n Sd2
=
C2 m2 n2 Sd2
2
(C1 + C2 n) N S e Nn + N n Sd2
= =
C2 n Sd2
2
= (C1 + C2 n) N Sd2 = S e C2 N n2 + N n C2 n Sd2

2
= C1 N + C2 nN N C2 n + C2 n2 Sd2 = S e C2 N n2
130 CAPTULO 3. CONGLOMERADOS EM 2 ESTGIOS

2
= C1 N Sd2 = S e C2 N n2 C2 n2 Sd2

2
= C1 N Sd2 2 2
= C2 n S e N Sd

C N Sd2
= n2 = 12
C2 S e N Sd2
v
u
u C N Sd2
= notimo =t 12 (3.5)
2
C2 S e N Sd

Derivando a F em relao a , vem:

F
= C1 m + C2 mn C = 0

= m (C1 + C2 n) = C

C
= m = (3.6)
C1 + C2 n
substituindo-se na expresso (6) o valor notimo , obtm-se o valor timo de m:

C C
motimo = = v (3.7)
C1 + C2 notimo u C N Sd2
u
C1 + C2 t 12
C2 S e N Sd2

Assim pode-se observar que:

i) notimo cresce se C1 cresce em relao a C2 , ou seja, se cresce a parte do


custo referente seleo das unidades primrias, cabe aumentar notimo
e diminuir motimo .

C1
ii) Para achar notimo , basta conhecer a razo
. Pequenas variaes deste
C2
valor tm pouca
r influncia sobre o valor de notimo , visto que notimo
C1
depende de .
C2
3.1. PROBABILIDADES IGUAIS DE SELEO 131

iii) o valor de notimo pode ser estimado por:


v
uC s2
botimo u 1
n =u d 2
t C2 s
s2e d
n

pois:


E s2d = Sd2
e

2 s2d 2 N n s2d s2d
E se = E se
n N n N
2
sd 2 S2
= E s2e E = Se d
N N

Note-se que isto vale somente se:

s2d
s2e >0
n
se isto no ocorrer, notimo pode ser obtido considerando a funo custo:

C = m (C1 + C2 n)

- Se C > C1 + C2 N, ento:

notimo = maximo de n = N
implicando que
C
motimo =
C1 + N C2

- Se C C1 + C2 N , ento notimo a soluo para n da equao

C C1
C = C1 + C2 n = notimo = e motimo = 1
C2
132 CAPTULO 3. CONGLOMERADOS EM 2 ESTGIOS

Tamanho de amostra com varincia fixada e custo mnimo

Aqui o problema a resolver minimizar a funo:

G = C + V (y Ac2 )

onde:
o multiplicador de Lagrange.
Assim:
2
!
M m S e N n Sd2
G = (C1 m + C2 mn) + +
M m N mn
Tomando as derivadas parciais em relao a m e a n e igualando a zero vem:

G S2
= C2 m d 2 = 0 (3.8)
n mn
2
!
G Se N n Sd2
= C1 + C2 n + =0 (3.9)
m m2 N m2 n

imediato notar que estas equaes so idnticas quelas anterior-


1
mente obtidas com = . Em conseqncia, a soluo para o valor timo

de n a mesma, seja fixando o custo e minimizando a varincia, seja fixando
a varincia e minimizando o custo.
Quanto ao valor timo de m obtido fixando-se V (y Ac2 ) e substituindo-se
notimo no lugar de n.
2
M m S e N n Sd2
V (y Ac2 ) = +
M m N mn

1 1 2 1 1 Sd2
= Se + = V (y Ac2 )
m M n N m

1 2 1 1 1 2
= Se + Sd2 = V (y Ac2 ) + S e
m n N M

2 1 1
Se + Sd2
n N
m=
1 2
V (y Ac2 ) + S e
M
3.1. PROBABILIDADES IGUAIS DE SELEO 133


2 1 1
Se + Sd2
notimo N
motimo =
1 2
V (y Ac2 ) + S e
M
sendo que V (y Ac2 ) deve ser fixada.
Tamanho de amostra em funo do coeficiente de correlao intra-
classe
Considere as expresses j encontradas no caso de amostragem de con-
glomerados em 1 estgio:
2
(M 1) S e 1 2
Sd
= M N (3.10)
MN 1 2
S
MN
2
MN 1 S 2 = (N 1) M Sd2 + N (M 1) S e (3.11)
Substituindo-se (11) em (10), obtm-se:
2
(M 1) S e 1 2
Sd
= M N
(N 1) 2 M 1 2
Sd + Se
N M
Logo:
Sd2
1 =
(N 1) 2 M 1 2
Sd + Se
N M
1 Sd2 Sd2
= =
2
(M 1) S e 1 2 2 1 2
Sd Se S
M N N d
Assim, pode-se escrever:
v v
u u
u C1 N Sd2 uC Sd2
notimo = t 2 =u 1
C2 S N S 2 t C2 2 1 2
e d Se S
N d
ou r
C1 1
notimo = (3.12)
C2
134 CAPTULO 3. CONGLOMERADOS EM 2 ESTGIOS

E assim verifica-se, uma vez mais, a importncia prtica de conhecer o


valor do coeficiente de correlao intraclasse.
Exemplo 3.2 (Nascimento (1981), pg. 88)
Em certa rea existem 740 setores censitrios rurais. Trata-se de estimar
a produo total de caf da rea, atravs e uma amostra de conglomerados
em 2 estgios, sendo os setores as unidades primrias e os estabelecimentos
produtores as unidades secundrias.
De uma pesquisa anterior sabe-se que para a caracterstica produo de
caf e o setor como conglomerado tem-se:
C1
= 0, 201 e = 10
C2
Logo, o tamanho da subamostra em cada setor selecionado :
r r
C1 1 1 0, 201
notimo = = 10 =6
C2 0, 201
O custo da investigao de um estabelecimento foi orado em R$ 30,00
de modo que a funo custo :
C = 300m + 30mn
A quantia total para a pesquisa R$ 35.000,00, sendo R$5.000,00 para a
parte fixa dos custos.
Logo:
30.000
m= = 62 setores
300 + 30(6)
correspondendo a um total de 6 (62) = 372 estabelecimentos produtores na
amostra.
A frao de amostragem do 1o estgio :
m 62 1
f1 = = =
M 740 12
Considerando que cada setor tem em mdia N = 30 estabelecimentos, a
frao de amostragem do 2o estgio :
n 6 1
f2 = = =
N 30 5
Logo, a frao geral de amostragem :

1 1 1
f = f1 f2 = =
12 5 60
3.1. PROBABILIDADES IGUAIS DE SELEO 135

3.1.8 Efeito de conglomerao


O objetivo desta seo a comprovao de que a amostragem de conglomera-
dos em 2 estgios pode ser mais precisa que a amostragem de conglomerados
em 1 estgio. Isto ser feito comparando-se os respectivos efeitos de con-
glomerao em relao amostragem aleatria simples.
Para atingir esse objetivo necessrio, no entanto, escrever a expresso da
varincia V (y Ac2 ) em termos do coeficiente de correlao intraclasse , o que
ser feito somente para o caso em que o tamanho mdio por conglomerado
N for admitido constante para os M conglomerados.
Assim, recordando as seguintes expresses:
2
MN 1 S 2 = (N 1) M Sd2 + N (M 1) S e (3.13)

2 M N 1 S2
Se = 1+ N 1 (3.14)
(M 1) N N
Substituindo-se (14) em (13) tem-se:

MN 1 2
MN 1 S 2 = (N 1) M Sd2 + S 1+ N 1
N


MN 1
= MN 1 1 + N 1 S 2 = (N 1) M Sd2
N
!
MN 1 N 1 N 1
= S 2 = (N 1) M Sd2
N
!
MN 1 N 1 (1 )
= S 2 = (N 1) M Sd2
N

2 MN 1 N 1 (1 ) 2
= Sd = S
(N 1) MN

MN 1 (1 ) 2
= Sd2 = S
MN
Lembrando que a varincia V (y Ac2 ) dada por:
2
M m S e N n Sd2
V (y Ac2 ) = +
M m N mn
136 CAPTULO 3. CONGLOMERADOS EM 2 ESTGIOS

e supondo as seguintes aproximaes:

M m N n
=1 e =1 (3.15)
M N
obtm-se:
2
S S2
V (y Ac2 )
= e+ d
m mn

S 2
M N 1 1 MN 1 (1 ) 2
V (y Ac2 )
= 1+ N 1 + S
mN (M 1) N mn MN
Mas pela hiptese em (15) tem-se:
MN 1 MN 1
=1 e =1 (3.16)
MN (M 1) N
Logo:
S2 1
V (y Ac2 )
= 1+ N 1 + (1 ) S 2
mN mn
" #
2 N 1
S 1 1
V (y Ac2 )
= + +
m N N n n

1 N 1
se N for grande = 0 e 1
N N
Ento:

S2
V (y Ac2 )
= [ n + 1 ]
mn
S2
= [1 + ( n 1) ]
mn
S2
Se lembrarmos que a expresso aproximada para a varincia da
mn
mdia de y da amostragem aleatria simples de tamanho mn (desprezando-
se a correo de populao finita), segue-se que:

V (y Ac2 )
= V (y AAS ) [1 + ( n 1) ]
Donde se conclui que o efeito de conglomerao da amostragem de
conglomerados em 2 estgios dado por [1 + ( n 1) ] .

De imediato segue-se que:


3.2. CONTROLE DE VARIAO DE TAMANHO DAS UPAS 137

i) se > 0 = [1 + ( n 1) ] << 1 + N 1 que o efeito de
conglomerao na amostragem de conglomerados em 1 estgio.
Logo interessante manter n pequeno, o que implica em ter m grande.
Isto , a amostra deve ter mais unidades primrias e subamostras menores
(f1 deve crescer e f2 decrescer).

ii) se < 0 = [1 + ( n 1) ] > 1 + N 1
Logo, a melhor alternativa fazer n = N, isto , fazer amostragem de
conglomerados em 1 estgio, tomando menos unidades primrias ( f1 deve
decrescer e f2 crescer).
C1
Vale o comentrio: se f1 cresce e, como em geral >> 1, ento o custo
C2
da pesquisa tende a crescer bastante, de modo que este fator no deve ser
ignorado na determinao dos tamanhos da amostra.
No exerccio 3.2, o efeito de conglomerao :
1 + ( n 1) = 1 + (6 1)0, 201 = 1 + 5(0, 201)
=2
Para baixar esse efeito de conglomerao, poderia reduzir a relao de
C1
custos ou partir para a definio de uma nova unidade primria com
C2
menor .
A eficincia da amostragem de conglomerados em 2 estgios em
relao amostragem aleatria simples de mesmo tamanho dada
por:
V (y AAS ) 1
Ef = =
V (y Ac2 ) 1 + ( n 1)

3.2 Controle de variao de tamanho das UPAs


Se o coeficiente de correlao intraclasse positivo, a subamostragem melhora
e eficincia, posto que se substitui N por n no efeito de conglomerao.
No entanto, a influncia da variao do tamanho das unidades primrias
ainda persiste na estimao e total, uma vez que a varincia do estimador:
2
M X 2 Ni ni Si2
M
b 2 M m Se
V YAc2 = M + N
M m m i=1 i Ni ni
ainda depende da variabilidade das unidades prrimrias.
Desse modo, as diversas formas de controle da variao de tamanho enun-
ciadas na amostragem de conglomerados em 1 estgio, podem ser repetidas
na amostragem de conglomerados em 2 estgios.
138 CAPTULO 3. CONGLOMERADOS EM 2 ESTGIOS

3.2.1 Probabilidades desiguais de seleo das unidades


primrias
Seja Pi a probabilidade de seleo da unidade primria i (i = 1, 2, , M).
Valem as consideraes feitas na Ac1, com relao probabilidade pro-
porcional ao tamanho do conglomerado, definida por:

Ni
Pi = (i = 1, 2, , M)
N
ou probabilidade proporcional a uma medida de tamanho definida por:

Xi
Pi = (i = 1, 2, , M)
X
Seleciona-se uma amostra de m unidades primrias de acordo com as
probabilidades de seleo Pi e com reposio.
Em cada uma dessas unidades primrias da amostra de 1o estgio, seleciona-
se uma subamostra com igual probabilidade de seleo e sem reposio.
Um estimador no viciado do total da caracterstica y dado por:

1 X Ni0
m
b p
YAc2 = y
m i=1 Pi0 i

onde:

Pi0 a probabilidade de seleo associada i-sima unidade primria sele-


cionada (U Pi0 ). Pi0 igual a algum dos Pk (k = 1, 2, , M);

Ni0 o nmero de unidades secundrias na UPi0 ;

n0i o nmero de unidades secundrias selecionadas na UPi0 ;

yi o total da caracterstica y na subamostra de U Pi0 ;

yij o valor da caracterstica y na j-sima unidade selecionada da U Pi0 .

0
ni
P
yij
yi j=1
yi = 0 = 0 (i = 1, 2, , m)
ni ni
3.2. CONTROLE DE VARIAO DE TAMANHO DAS UPAS 139

Para mostrar b p
que YAc2 no viciado, basta mostrar que: E YAc2 = Y b p

!
1 X Ni0
m
E YbAc2
p
= E y
m i=1 Pi0 i
" !#
1 X Ni0
m
= EU P10 , ,U Pm0 E y |UPi0
m i=1 Pi0 i
" #
1 X Ni0
m
= EU P10 , ,U Pm0 E (y i |UPi0 )
m i=1 Pi0
" # " #
1 X Ni0 0 1 X Yi0
m m
= EU P10 , ,U Pm0 Y = EUP10 , ,UPm0
m i=1 Pi0 i m i=1 Pi0
h i
= b P
EU P1 , ,U Pm0 YAc1 = Y
0

Um estimador
no viciado da mdia da caracterstica y por unidade pop-
ulacional Y dado por:

1 X Ni0
m
p
y Ac2 = y
Nm i=1 Pi0 i
Varincia de YbAc2
p

h i
b p b p 0
V YAc2 = VU P10 , ,UPm0 E YAc2 |UP1 , , UPm + 0

h i
+EU P10 , ,U Pm0 V YbAc2
p
|UP10 , , UPm0
" !#
1 X Ni0
m
= VU P10 , ,UPm0 E y |U Pi0 +
m i=1 Pi0 i
" !#
1 X Ni0
m
+EU P10 , ,U Pm0 V y |UPi0
m i=1 Pi0 i
Mas,
" !# " #
1 X Ni0 1 X Ni0
m m
VUP10 , ,UPm0 E y |U Pi0 = VU P10 , ,U Pm0 E (y i |UPi0 )
m i=1 Pi0 i m i=1 Pi0
" #
1 X Ni0 0
m
= VU P10 , ,U Pm0 Y = V b
Y P
m i=1 Pi0 i Ac1

M 2
1 X Yi
= Y Pi
m i=1 Pi
140 CAPTULO 3. CONGLOMERADOS EM 2 ESTGIOS

" !# " m !#
1 X Ni0 X N0 2
m
1 i
EUP10 , ,UPm0 V y |U Pi0 = EU P10 , ,U Pm0 V (y i |UPi0 )
m i=1 Pi0 i m2 Pi0
" i=1
m 2 0 !#
1 X Ni0
0
Ni n0i Si 2
= EU P10 , ,U Pm0
m2 i=1 Pi0 Ni0 n0i
M 2
1 X Ni Ni ni Si2
= m Pi
m2 i=1 Pi Ni ni

1 X Ni2 Ni ni Si2
M
=
m i=1 Pi Ni ni

Logo,

XM 2
1 X Ni2 Ni ni Si2
M
b p 1 Yi
V YAc2 = Y Pi +
m i=1 Pi m i=1 Pi Ni ni


Um estimador no viciado de V YbAc2
p
dado por:

Xm 0 2
1 Ni y i b p
v YbAc2
p
= YAc2
m (m 1) i=1 Pi0


Prova que E v YbAc2
p
= V YbAc2
p
:

m 0 2 !
1 X Ni y i b p
E v YbAc2
p
= E YAc2
m (m 1) i=1 Pi0
m !
1 X N 0 y 2 2
= E i i
0
m YbAc2
p
m (m 1) P i
mi=1 2 !
1 X Ni0 y i 2
= E mE YbAc2p
m (m 1) i=1 Pi0
3.2. CONTROLE DE VARIAO DE TAMANHO DAS UPAS 141

mas:

2 " 2 #
Ni0 y i 0
Ni y i
E = EUP10 , ,UPm0 E |UPi0
Pi0 Pi 0
" 0 2 #
0
Ni y i Ni y i
= EUP10 , ,UPm0 V 0
|UPi0 + E 0
|UPi0
Pi Pi
!2
0 2 0 0 02 0 0
Ni Ni ni Si Ni Y i
= EUP10 , ,UPm0 0 0 0
+
Pi Ni ni Pi0

XM 2 XM 2
Ni Ni ni Si2 Ni Y i
= Pi + Pi
i=1
Pi N i n i i=1
P i

2 h i2
E YbAc2
p
= V YbAc2
p
+ E YbAc2
p
= V YbAc2
p
+Y2

ento:

m 2 !
1 X Ni0 y i 2
E v YbAc2
p
= E 0
mE YbAc2p
m (m 1)i=1
P i
Xm 0
2 2
1 Ni y i m b p
E E YAc2
m (m 1) i=1 Pi0 m (m 1)
M M 2 !
1 X Ni 2 Ni ni S 2 X Ni Y i
i
= Pi + Pi +
m 1 i=1 Pi Ni ni i=1
Pi
1 bp
V YAc2 + Y 2
m1
M M 2 !
1 X Ni 2 Ni ni S 2 X Yi
i
= Pi + Pi Y 2 +
m 1 i=1 Pi Ni ni i=1
P i

1
V YbAc2
p
m1
142 CAPTULO 3. CONGLOMERADOS EM 2 ESTGIOS

M M 2 !
1 X Ni 2 Ni ni S 2 X Yi X M
b p
E v YAc2 = i
Pi + Pi Y 2
Pi
m1 i=1
Pi Ni ni i=1
Pi i=1
1
V YbAc2
p
m1
M M 2 !
1 X Ni 2 Ni ni S 2 X Yi
i
= Pi + Y Pi
m 1 i=1 Pi Ni ni i=1
P i

1
V YbAc2
p
m1
1 1 m 1
= mV YbAc2
p
V YbAc2 =
p
V YbAc2
p
m1 m1 m1

= V YbAc2
p

Amostra autoponderada
A probabilidade de uma unidade secundria qualquer (USij ) pertencer
a amostra, num esquema de amostragem em 2 estgios com probabilidade
desigual no primeiro estgio e equiprobabilidade no segundo estgio dada
por:
0
0 n
P {USij amostra} = mPi i0 i, j
Ni
Com este plano amostral, a amostra autoponderada se essa probabili-
n
dade constante e igual a frao de amostragem geral . Tem-se, ento:
N
0
0 n n
mPi i0 = =f
Ni N
P
m
Observe que, em mdia, n0i d o tamanho pr-fixado, pois: se n0i =
i=1
nNi0
, ento:
mNPi0
m ! m ! m M !
X n X N0 n X X Ni
i
E n0i = E = Pi
i=1
mN i=1
Pi0 mN i=1 i=1 Pi
nmN
= =n
mN

Adaptao dos estimadores do total e da respectiva varincia


3.2. CONTROLE DE VARIAO DE TAMANHO DAS UPAS 143

A expresso do estimador de total YbAc2


p
pode ser reescrita como:

ni 0 0
m ni
1 X Ni0 1 X Ni0 1 X 1 XX
m m
YbAc2
p
= y = yij = yij
m i=1 Pi0 i m i=1 Pi0 n0i j=1 f i=1 j=1

mesma expresso j encontrada com equiprobabilidades nos 2 estgios.

m 0
X 2
1 Ni y i b p
v YbAc2
p
= YAc2
m (m 1) i=1 Pi0
2
n0i
1 X N X
m 0
= i
0 0
yij YbAc2
p
m (m 1) i=1 Pi ni j=1
2
n0i n0i
1 X
m X X m X
= m yij
1
yij
m (m 1) i=1 f j=1 f i=1 j=1
0 2
ni n0i
m 2 Xm X 1 Xm X
= yij yij
2
m (m 1) f i=1 j=1 m i=1 j=1
0 2
ni n0i
m X
m X 1 Xm X
= yij yij
2
(m 1) f i=1 j=1 m i=1 j=1

Exemplo 3.3 (Nascimento (1981), pg. 112)

Numa determinada localidade com 53 povoados, selecionam-se 14, com


reposio e probabilidade de seleo proporcional populao do ltimo
Censo. No povoado i da amostra, faz-se uma listagem das Ni0 fazendas de
gado e seleciona-se uma subamostra de fazendas com tamanho suficiente
1
para se obter uma frao geral de amostragem f = das fazendas, com o
100
objetivo de estimar o nmero total de cabeas de gado.

Considerando:

Pi0 a probabilidade de seleo do i-simo povoado selecionado;

Ni0 o nmero de fazendas no i-simo povoado selecionado;

n0i o nmero de fazendas na subamostra do i-simo povoado selecionado;


144 CAPTULO 3. CONGLOMERADOS EM 2 ESTGIOS

ni0
P
yi = yij o nmero de cabeas de gado na subamostra do i-simo povoado
j=1
selecionado; e a igualdade:
n0i n
mPi0 0
= =f
Ni N

obtm-se a frao de amostragem de 2o estgio:



n0i 1 1 1
0
= 0
=
Ni 100 mPi 1.400Pi0
Feita a seleo dos 14 povoados e a listagem das fazendas, aplicou-se a
frao de amostragem de 2o estgio, obtendo-se as fazendas da subamostra e
levantando, em cada uma, o nmero de cabeas de gado.
n0i
Povoados (i) Pi0 Ni0 Ni0
n0i yi
1 0,0026 19 0,2747 5 2.200
2 0,0098 23 0,0729 2 820
3 0,0146 31 0,0489 2 760
4 0,0167 40 0,0428 2 1.100
5 0,0187 54 0,0382 2 600
6 0,0187 54 0,0382 2 510
7 0,0220 39 0,0325 1 300
8 0,0249 55 0,0385 2 1.200
9 0,0258 46 0,0277 1 500
10 0,0298 83 0,0240 2 880
11 0,0362 74 0,0197 1 300
12 0,0370 70 0,0193 1 410
13 0,0465 60 0,0154 1 570
14 0,0465 60 0,0154 1 350
Total - - - 25 10.500

0
m ni
1 XX
YbAc2
p
= yij = 100 (10.500) = 1.050.000 cabeas de gado.
f i=1 j=1

0 2
ni n0i
m X
m X 1 XX
m
v YbAc2
p
= yij yij
(m 1) f 2 i=1 j=1
m i=1 j=1

14
= (100)2 (3.305.100) = 3.559.230, 77 (1000)
13
3.2. CONTROLE DE VARIAO DE TAMANHO DAS UPAS 145

r
v YbAc2
p
= 188.659, 24

r
b p
v YAc2
b p
cv YAc2 = = 0, 1797
YbAc2
p

Estimao de proporo

e
Suponha que a populao seja dividida nas classes A e A.
ei unidades,
A unidade primria i fica dividida nas classes, com Ai e A
respectivamente.
A subamostra de tamanho ni fica tambm dividida nas duas classes com
ai e e
ai unidades, em cada unidade primria i.
S
M
Ai
i=1
Um estimador no viciado para estimar a proporo PA = N
dado
por:

1 X Ni0 1 X Ni0
m m
p
ppAc2 = y Ac2 = y i = pi
Nm i=1 Pi0 N m i=1 Pi0
onde:
a0
pi = 0i a proporo de A na subamostra.
ni
Um estimador no viciado de V (ppAc2 ) dado por:

Xm 2
1 Ni0
v (ppAc2 ) = p
pi pAc2
m (m 1) i=1 N Pi0
Se a amostra autoponderada, ocorre a condio:

n0i n
mPi0 0
= =f
Ni N

logo:
1X 0
m
ppAc2 = a
n i=1 i

1 X m 0 m 2
v (ppAc2 ) = p
a pAc2
m (m 1) i=1 n i
Exemplo 3.4
146 CAPTULO 3. CONGLOMERADOS EM 2 ESTGIOS

Considere o exerccio 3.3. Suponha que as fazendas da subamostra foram


classificadas de acordo com o tipo de criao de gado: para corte ou no (
para leite e/ou reproduo). Deseja-se estimar a proporo das fazendas cujo
tipo de criao de gado para corte e o coeficente de variao associado a
essa estimativa.

Os valores obtidos na subamostra foram:

Povoados No de fazendas No de fazendas com


da amostra na subamostra criao de gado para corte
1 5 3
2 2 1
3 2 1
4 2 0
5 2 2
6 2 1
7 1 0
8 2 1
9 1 0
10 2 0
11 1 0
12 1 0
13 1 0
14 1 1
Total 25 10

1 X 0 10
m
ppAc2 = a = = 0, 40
n i=1 i 25
3.2. CONTROLE DE VARIAO DE TAMANHO DAS UPAS 147

1 X m 0
m 2
v (ppAc2 ) = ai ppAc2
m (m 1) i=1 n
m !
1 X m 0 2
= a m (ppAc2 )2
m (m 1) i=1 n i
m 0 2 !
m X a (pp
)2
i
= Ac2
m 1 i=1 n m
10 2 !
14 1
= (9 + 4 + 1 + 1 + 1 + 1 + 1) 25
13 (25)2 14

14 18 100 14 18 (14) 100
= =
13 625 625 (14) 13 625 (14)

1 18 (14) 100 1 18 (14) 100 1 152
= = =
13 625 13 625 13 625
= 0, 0187076

q
v (ppAc2 ) = 0, 1367757

p
v (ppAc2 )
cv (ppAc2 ) = = 0, 342
ppAc2

3.2.2 Estratificao das unidades primrias e seleo


com probabilidades desiguais de seleo
A estratificao das unidades primrias feita grupando em mesmo estrato
as unidades primrias de tamanhos aproximadamente iguais. A seleo
das unidades primrias, dentro de cada estrato feita com probabilidade
proporcional ao tamanho.
O processo para definir os estimadores muito simples. Basta consid-
erar as expresses do item anterior e adapt-las a um estrato genrico h,
acrescentando aos smbolos um ndice h (h=1,2, , L).
Recorde que o estimador de Y num esquema com 2 estgios de seleo e
probabilidades desiguais de seleo no 1o estgio (sem considerar a estrati-
ficao das unidades de 1o estgio) e com reposio e equiprobabilidades no
2o estgio dado por:

1 X Ni0
m
YbAc2
p
= y
m i=1 Pi0 i
148 CAPTULO 3. CONGLOMERADOS EM 2 ESTGIOS

No estrato h, o estimador do total do estrato h, Yh , dado por:


mh
b p 1 X 0
Nhi
Yh.Ac2 = 0
y hi
mh i=1 Phi

conseqentemente, o estimador de Y dado por:

X X mh
1 X
L L 0
Nhi
YbAc2
p.est
= Ybh.Ac2
p
= 0
y hi
h=1 h=1
mh i=1 Phi

Recorde-se que a varincia de YbAc2


p
:

M 2
1 X Yi 1 X Ni2 Ni ni Si2
M
b p
V YAc2 = Y Pi +
m i=1 Pi m i=1 Pi Ni ni

b p
No estrato h, a varincia do estimador do total do estrato h, V Yh.Ac2 ,
dado por:

Mh
X 2 Mh
b p 1 Y hi 1 X 2
Nhi 2
Nhi nhi Shi
V Yh.Ac2 = Yh Phi +
mh i=1 Phi mh i=1 Phi Nhi nhi

conseqentemente, a varincia de YbAc2


p.est
dada por:

X
L
V YbAc2
p.est
= V Ybh.Ac2
p

h=1
X Mh 2 Mh
1 X X 1 X
L L 2 2
Yhi Nhi Nhi nhi Shi
= Yh Phi +
h=1
mh i=1 Phi h=1
mh i=1 Phi Nhi nhi

O estimador da V YbAc2
p.est
dado por:

X
L Xm 0 2
b p.est 1 Nhi y hi b p
v YAc2 = 0
Yh.Ac2
h=1
mh (mh 1) i=1 Phi

Amostra autoponderada

A probabilidade de uma unidade secundria qualquer do estrato h per-


tencer a amostra, num esquema de amostragem em 2 estgios dada por:
3.2. CONTROLE DE VARIAO DE TAMANHO DAS UPAS 149

0
n 0
mh Phi hi0
Nhi

Esta probabilidade pode ser constante no estrato ou variar de estrato para


estrato. , neste caso:
0
0n nh
mh Phi hi0 = (h = 1, 2, , L)
Nhi Nh

ou ser constante para todos os estratos:


0
0n n
mh Phi hi0 = (h = 1, 2, , L)
Nhi N

No primeiro caso, a amostra autoponderada no estrato e no segundo


caso autoponderada em geral.

3.2.3 Estimador de razo


Estuda-se agora o estimador de razo, tendo como caracterstica auxiliar o
tamanho das unidades primrias, num esquema de amostragem de conglom-
erados em 2 estgios com equiprobabilidade nos 2 estgios.
Sabe-se que a mdia por unidade secundria :

P
M
Yi
i=1 Y
Y = =
P
M N
Ni
i=1

o que mostra que Y pode ser entendida como uma razo de duas mdias.
Um estimador consistente de Y obtido substituindo-se o numerador e
denominador por estimadores no viciados.
R
Desse modo, representando por y Ac2 esse estimador consistente, tem-se:

1 Pm
0 Pm
0
Ni y i Ni y i
R m i=1
y Ac2 = Pm = i=1
Pm
1 0 0
Ni Ni
m i=1 i=1

cuja varincia dada por:


150 CAPTULO 3. CONGLOMERADOS EM 2 ESTGIOS

M m S2 M 2
R eR 1 X Ni Ni ni Si2
V y Ac2 = 2 +
MN m Mm i=1 N Ni ni

1 X 2 2
M
2
SeR = N YiY
M 1 i=1 i
e um estimador consistente para essa varincia :
m 2 m 2 0
R M m X Ni0 R
2 1 X Ni0 Ni n0i Si02
v y Ac2 = y i y Ac2 +
Mm (m 1) i=1 N Mm i=1 N Ni0 n0i

Estimador de razo para o total Y :



P
m
0

R i=1 Ni y i
b
YAc2 = MN y Ac2 = MN
R
P m
0

Ni
i=1

e a varincia de YbAc2
R
dada por:

2 R
V YbAc2
R
= MN V y Ac2

M X 2 Ni ni Si2
2 M
2M m SeR
= M + N
M m m i=1 i Ni ni

e um estimador consistente para essa varincia :

2
Xm 2
M M m 1 R
v YbAc2 =
R
Ni02 y i y Ac2 +
m M m 1 i=1
M X 0 2 Ni0 n0i s02
m
i
+ N
m i=1 i Ni0 n0i

M2 M
Supondo M >> m = >> , ento a expresso acima pode ser
m m
aproximada para:
M2 M m 1 X m 2
R
v YbAc2
R
= Ni02 y i y Ac2
m M m 1 i=1
3.2. CONTROLE DE VARIAO DE TAMANHO DAS UPAS 151

ou
2
2 seR
v YbAc2
R
= M
m
com
1 X 02 2
m
R
s2eR = Ni y i y Ac2
m 1 i=1

Amostra autoponderada
Sabe-se que a condio para que a amostra seja autoponderada dada
pela igualdade:
m ni n
= =f
M Ni N
n
ou seja, todas as unidades secundrias tm a mesma probabilidade de
N
pertencer amostra. Nesta condio, tem-se:
ni 0 ni 0
P
m P P
m P
yij yij
R N i=1 j=1 1 i=1 j=1
y Ac2 = =
n P m
0 f2 Pm
0
Ni Ni
i=1 i=1

n
sendo f2 = a frao de amostragem de 2o estgio.
N
Para o estimador da varincia aproximada de
s2
R
v y Ac2 = eR 2
N m
com M >> m e
1 X 02 2
m
R
s2eR = Ni y i y Ac2
m 1 i=1
2
P n0i
0 P
m
Xn0i Ni yij
1 X Ni02
m
i=1 j=1
= yij
02 P 0
m
m 1 i=1 ni j=1
Ni
i=1
0
2
P
m ni
P
0
2 m X n0i Ni yij
1 mN X i=1 j=1

= yij P
m
m1 nM i=1 j=1
0

Ni
i=1
152 CAPTULO 3. CONGLOMERADOS EM 2 ESTGIOS

ou
0
2
P
m ni
P
0
Xm X n0i Ni yij
R s2
m i=1 j=1
v y Ac2 = eR = yij
2
(m 1) n2 P
m
N m i=1 j=1
0
Ni
i=1

Exemplo 3.5
Suponha que se deseja estimar o consumo mdio semanal por domiclio
(em unidades de produto) de determinado produto para alimentao.
Dispe-se de um mapa da localidade onde podem ser identificados 400
quarteires, que sero considerados unidades primrias de amostragem. Sabe-
se que existem na localidade cerca de 26.000 domiclios dando uma mdia de
65 domiclios por quarteiro. Seleciona-se uma amostra autoponderada de
650 domiclios com 2 estgios de seleo e com equiprobabilidade em cada
1
estgio, tendo fixado a frao de amostragem do 1o estgio em , o que
8
implicou na seleo de 50 quarteires.
n 650 1
Neste caso f = = = . Logo a frao de amostragem do 2o
N 26.000 40
f 1
estgio dada por: f2 = = .
f1 5
Sabendo-se que:

P
m
i) o nmero de domiclios nos quarteires da amostra Ni0 = 3.152;
i=1

ii) o nmero de domiclios selecionados na subamostra dos quarteires


P
m
selecionados n0i = 710;
i=1

iii) o total de unidades consumidas nos domiclios selecionados na sub-


P n0i
m P
amostra dos quarteires selecionados yij = 1.910; e que
i=1 j=1

0
2
P
m ni
P
0
n0 Ni yij
P
m Pi i=1 j=1
iv) yij = 4.500.
P
m
i=1 j=1 0

Ni
i=1
3.3. EXERCCIOS 153

a estimativa do consumo mdio semanal por domiclio dada por:


ni 0
P
m P
yij
R 1 i=1 j=1 1.910
y Ac2 = P
m = (5) = 3, 03
f2 0 3.152
Ni
i=1

e a estimativa aproximada da varincia dada por:

0
2
P
m ni
P
0
m X Ni yij
0
m X i
n
i=1 j=1
R
v y Ac2 = yij
(m 1) n2 i=1
j=1
P
m
0


Ni
i=1

50
= (4.500) = 0, 0091
49 (710)2
r
R
v y Ac2
R
cv y Ac2 = R
= 0, 031
y Ac2

3.3 Exerccios
3.3.1 Compare a preciso de uma amostra de conglomerados em 2 estgios
(Ac2) com a frao de subamostragem de 50% com a de uma amostra
de conglomerados em um estgio (Ac1)de igual tamanho, supondo que
o tamanho mdio do conglomerado de 50 unidades e que o coeficiente
de correlao intraclasse igual a 0,1.

Indicar se h ganho ou perda relativa da Ac2 em relao a Ac1.

(Devem ser usadas as frmulas aproximadas relacionando as varincias


da Ac1 com a amostra aleatria simples (AAS), e da Ac2 com a AAS).

3.3.2 Os habitantes de um bairro esto distribudos em 149 quarteires, onde


se estima que h um total de 8.500 domiclios. Deseja-se estimar o
nmero total de domiclios alugados no bairro.

a) Represente esquematicamente a populao de interesse, definindo


adequadamente:
154 CAPTULO 3. CONGLOMERADOS EM 2 ESTGIOS

unidades primrias; e
unidades secundrias.
b) Para uma caracterstica genrica y, defina:
a notao dos parmetros das unidades primrias (total, m-
dia e varincia); e
a notao dos parmetros da populao (total, total mdio por
unidade primria, mdia por unidade da populao e varincia
global).
c) Defina um esquema de amostragem de conglomerados em 2 est-
gios que permita selecionar uma amostra probabilstica das unidades
da populao com o objetivo de estimar o total de domiclios alu-
gados no bairro.
d) Considerando o esquema apresentado em c), obtenha um esti-
mador no viciado para o total de domiclios alugados no bairro,
e uma expresso para a varincia desse estimador.

3.3.3 Deseja-se selecionar uma amostra de m conglomerados, de uma pop-


ulao de 90 conglomerados, nos quais ser selecionada uma sub-
amostra de n unidades em cada conglomerado da amostra. Ser usada
amostragem aleatria simples sem reposio em ambos os estgios para
estimar a mdia por unidade elementar de uma dada caracterstica.

Assume-se que a funo custo da forma:

Ct = C0 + C1 m + C2 mn

Dado que Ct = 1.000, C0 = 300, C1 = 9 e C2 = 1 encontre os val-


ores timos do nmero de conglomerados da amostra e do nmero de
unidades a serem selecionadas por conglomerado, sabendo-se que:

2
Sd2 = 49, 5 S e = 9, 045 N = 20

3.3.4 Numa grande cidade, um bairro continha 100 quarteires dos quais 10
foram selecionados com probabilidade proporcional a um dado tamanho,
com reposio. Uma amostra autoponderada foi selecionada com frao
geral f = 2%. Utilize os dados observados, mostrados a seguir:
3.3. EXERCCIOS 155

Quarteiro no de pessoas dos no de cmodos nos domi-


na amostra domiclios selecionados clios selecionados nos
nos quarteiro da amostra quarteires da amostra
1 115 60
2 80 52
3 82 58
4 93 56
5 105 62
6 109 51
7 130 72
8 93 48
9 109 71
10 95 58
Total 1.011 588

a) Estime o no total de pessoas no bairro e o respectivo coeficiente


de variao.
b) Estime o no total de comdos dos domiclios do bairro e o respec-
tivo coeficiente de variao.
c) Estime o no mdio de pessoas por cmodo nos domiclios do bairro.

3.3.5 Os habitantes de um bairro esto distribudos em 150 quarteires, onde


se estima que h um total de 9.000 domiclios. Deseja-se estimar o
nmero total de domiclios alugados no bairro. De um censo anterior
se conhece o nmero de domiclios por quarteiro. O oramento e o
tempo disponveis para fazer a pesquisa permitem que se realize cerca
de 300 entrevistas.

a) Defina um esquema de amostragem de conglomerados em 2 est-


gios que permita selecionar uma amostra probabilstica das unidades
da populao com o objetivo de estimar o total de domiclios alu-
gados no bairro.
b) Considerando o esquema apresentado em a), apresente um esti-
mador no viciado para o total de domiclios alugados no bairro,
e uma expresso para a varincia desse estimador.
156 CAPTULO 3. CONGLOMERADOS EM 2 ESTGIOS

3.3.6 De uma populao de 100 conglomerados de 40 elementos cada um


foi selecionada uma amostra de 2 estgios, com seleo aleatria sem
reposio em cada estgio. Foram selecionadas 6 unidades primrias
no primeiro estgio e a frao de subamostragem de 10%.

Sabendo-se que para uma determinada caracterstica y:

P
m
yi = 84 s2d = 1, 33 s2e = 1338, 65
i=1

a) Calcule a estimativa de total para a caracterstica y e o respectivo


coeficiente de variao.
b) Calcule a participao da componente da varincia devida ao 1o
estgio.
c) O que voc faria para diminuir a contribuio dessa componente de
varincia devida ao 1o estgio?

3.3.7 Uma pesquisa realizada com a finalidade de fornecer informaes so-


bre a produo de uma certa planta que s pode ser produzida com
autorizao do governo. As permisses concedidas no incio da estao
de cultivo foram usadas como fonte de informao. Essas permisses
so concedidas pelas prefeituras dos municpios. A amostra ser feita
em 2 estgios: primeiramente seleciona-se uma amostra de municpios;
em seguida, os entrevistadores visitaro as prefeituras dos municpios
selecionados, preparando ento uma lista dos produtores que tm per-
misso e selecionaro uma amostra de produtores. A seguir, visitaro
as fazendas coletando os dados necessrios. Como nem todos os mu-
nicpios possuem produtores dessa planta, cada municpio selecionado
ter um entrevistador exclusivo.

A seguir voc encontrar alguns itens que compem o custo da pesquisa.


Indique com um X na coluna apropriada se os custos podem ser con-
siderados parte do custo geral, custo de unidade de primeiro estgio ou
custo de unidade de segundo estgio. (Marque um nico X para cada
item de custo apresentado).
3.3. EXERCCIOS 157

Item (descrio) Geral 1o estgio 2o estgio

a) Impresso dos questionrios.

b)Treinamento dos entrevistadores.

c) Obteno da lista de municpios


que fornecem permisso.

d) Viagem aos municpios que for-


necem permisso selecionados, para
selecionar amostra de produtores.

e) Seleo da amostra de municpios


com permisso.

f) Obteno de informao dos pro-


dutores selecionados.

g) Verificao do trabalho de campo


dos entrevistadores, feita pelos super-
visores.

h) Crtica dos questionrios coletados.

i) Preparao de um programa para ta-


bulao dos resultados.

j) Preparao e divulgao dos resulta-


dos finais da pesquisa.

3.3.8 Uma populao est formada por N unidades elementares agrupadas


em 50 conglomerados de tamanho desiguais Ni (i = 1, 2, , M). O
P
M
valor de N = Ni conhecido e igual a 1.000. Com objetivo de es-
i=1
timar a proporo de unidades elementares pertencentes a uma certa
classe, foi decidido utilizar uma amostra de conglomerados com sub-
amostragem. Em ambos os estgios foi empregado o procedimento de
seleo com probabilidades iguais sem reposio.
158 CAPTULO 3. CONGLOMERADOS EM 2 ESTGIOS

No 1o estgio foram selecionados 5 conglomerados com os seguintes


valores de Ni : 6, 10, 8, 20 e 60. No 2o com frao amostral f2i = N4i ,
foram obtidos os seguintes valores para o nmero de elementos que
pertencem classe em questo: 1, 3, 2, 2 e 3.
So fornecidos, ainda, os seguintes resultados:

1 X 0
5
2
s2e = (Ni y i y Ac2 ) = 318, 67
m 1 i=1
X
5
Ni0 n0i s2i
Ni02 = 118, 78
i=1
Ni0 n0i
X
5 2
R
Ni02 y i y Ac2 = 53, 20
i=1

a) D a probabilidade de que a unidade elementar j do conglom-


erado i pertena a amostra e determine o nmero de unidades
elementares selecionadas em cada conglomerado.
b) Estime a proporo de unidades elementares que pertenam
classe e o respectivo coeficiente de variao.
c) D as estimativas definidas em b) utilizando o estimador de razo,
adotando o tamanho dos conglomerados como varivel auxiliar.
d) Comente as vantagens e desvantagens do estimador usado em c)
em relao ao usado em b).

3.3.9 Para estudar as condies de vida dos trabalhadores que vivem em uma
rea industrial, foi selecionada uma amostra estratificada com 2 estgios
de seleo. Em cada estrato da amostra foram selecionadas 4 fbricas
com probabilidade proporcional ao nmero de trabalhadores obtidos
de um perodo anterior e de cada fbrica selecionada foi selecionado
aleatoriamente um certo nmero de trabalhadores, totalizando uma
amostra de 1000 trabalhadores.
Sabe-se que foram definidos 4 estratos e que o nmero de trabalhadores
conhecidos de um perodo anterior em cada estrato dado por:

N1 = 5.896 N2 = 43.096 N3 = 31.625 N4 = 10.774


P4
Nh = 91.391
h=1
3.3. EXERCCIOS 159

Determine o nmero de trabalhadores a serem selecionados em cada


fbrica de tal modo a ter uma amostra autoponderada.

3.3.10 Explique qual a vantagem de se fazer uma amostra de conglomera-


dos em 2 estgios ao invs de uma amostra de conglomerados em um
estgio.
160 CAPTULO 3. CONGLOMERADOS EM 2 ESTGIOS
Captulo 4
Conglomerados em 3 estgios

4.1 Introduo
A dificuldade de cadastramento para seleo da amostra se reduz medida
em que aumenta o nmero de estgios. Mas no entanto, medida em que
aumenta o nmero de estgios, mais se torna complicada a expresso da
varincia do estimador.
Seleciona-se uma amostra de r unidades primrias. Seja U Pi0 a i-sima
unidade primria da amostra. De cada unidade primria da amostra seleciona-
se uma amostra de unidades secundrias. Desse modo na UPi0 seleciona-se
uma amostra de m0i unidades secundrias. De cada unidade secundria da
00
amostra seleciona-se uma amostra de unidades tercirias. Assim, na U Sij
00
seleciona-se uma amostra de nij unidades tercirias.
Associado U Tijk (unidade terciria) a observao yijk ,obtm-se a amostra
final, constituda pelo conjunto:
n o
0 00
yijk i = 1, 2, , r; j = 1, 2, , mi ; k = 1, 2, , nij

sendo: 0
mi
X
r X
00
n= nij
i=1 j=1

4.2 Seleo com probabilidades desiguais


Seja Pi a probabilidade de seleo da unidade primria UPi (i = 1, 2, , R) .
De cada U Pi0 da amostra selecionam-se m0i unidades secundrias, tendo a U Sij
00
probabilidade de seleo Pij . Finalmente, da USij da amostra selecionam-se
00
nij unidades tercirias com equiprobabilidade.

161
162 CAPTULO 4. CONGLOMERADOS EM 3 ESTGIOS

4.2.1 Estimador no viciado de Y


Considerando o processo em 2 estgios, o estimador do total da UPi0 dado
por:
mi 0

b p 1 X Nij00
Yi = 0 00 y
mi j=1 Pij ij

logo, o estimador no viciado de Y dado por:

mi 0
1 X 1 bp 1 X 1 1 X
r r
Nij00
YbAc3
p
= Y = 00 y
r i=1 Pi0 i r i=1 Pi0 m0i j=1 Pij ij

Caso particular de equiprobabilidade no 1o e 2o estgios:

1 00 1
Pi0 = e Pij = 0
R Mi
mi 0
R X Mi0 X
r
YbAc3 = 0
Nij00 y ij
r i=1 mi j=1

Amostra autoponderada (caso genrico)


00
nij
0 0 00
A probabilidade da UTijk pertencer a amostra dada por: rPi mi Pij 00
Nij
A amostra ser autoponderada se esta probabilidade for constante e igual
a frao geral de amostragem, isto :
00
0 00 nij n
rPi0 m0i Pij 00 = =f
Nij N

Neste caso, o estimador YbAc3


p
assume a mesma forma do estimador YbAc3 :
00
mi 0 n
1 XX X
r ij

YbAc3
p
= YbAc3 = yijk
f i=1 j=1 k=1

O captulo seguinte apresenta alguns mtodos especiais para a estimao


das varincias de estimadores que so em geral aplicados em desenhos amostrais
complexos.
4.3. EXERCCIOS 163

4.3 Exerccios
4.3.1 Os estudantes de 1o grau de um determinado municpio esto distribu-
dos em 15 escolas, com uma mdia de 20 turmas por escola e estima-se
que h um total de 10.000 estudantes. Deseja-se estimar a proporo
de alunos aprovados no ltimo ano no municpio.

a) Represente esquematicamnete a populao de interesse, definido ad-


equadamente:
- unidades primrias;
- unidades secundrias;
- unidades tercirias;
- a caracterstica y.
b) Para uma caracterstica genrica y, defina:
- a notao dos parmetros para uma dada unidade primria (to-
tal, mdia por unidade secundria e mdia por unidade da
populao);
- a notao dos parmetros da populao (total, mdia por unidade
primria, mdia por unidade secundria e mdia por unidade
da populao).
c) Defina um esquema de amostragem de conglomerados em 3 estgios
que permita selecionar uma amostra probabilstica das unidades
da populao com o objetivo de estimar a proporo de alunos
aprovados no ltimo ano no municpio.
d) Considerando o esquema apresentado em c), obtenha um estimador
no viciado para a proporo de alunos aprovados no ltimo ano
no municpio.
164 CAPTULO 4. CONGLOMERADOS EM 3 ESTGIOS
Captulo 5

Estimao de varincias

5.1 Porque importante estimar varincias?


Em amostragem, a estimao de varincias uma componente essencial da
abordagem de inferncia utilizada: sem estimativas de varincia, no se ter
indicao da preciso das estimativas.
Tentao: fcil esquecer que os resultados das pesquisas so baseados
apenas em uma amostra da populao, e portanto sujeitos ao erro amostral.
Com uma estimativa de varincia para cada estimativa de parmetro de
interesse, fcil obter intervalos de confiana e fazer inferncias estatsticas
adequadas:
Estimativas de varincia so tambm essenciais para comunicar aos usurios
da pesquisa sobre a qualidade e preciso dos resultados.
Algumas vezes, problemas inesperados podem ser detectados mediante
anlise das estimativas de varincia: valores suspeitos (outliers), celas
raras, etc.

5.2 Problemas para estimar varincias


Para os casos regulares, estimadores de varincia esto disponveis nos
livros-texto de Amostragem. Entretanto, os pacotes estatsticos tradicionais
(SAS, SPSS, BMDP, MINITAB, etc.) no fornecem estimadores de varincia
diretamente, nem mesmo para planos amostrais comuns tais como AAS e
AES.
Para alguns planos amostrais, as probabilidades de incluso conjuntas (de
segunda ordem) podem ser nulas (como na amostragem sistemtica) ou dif-
ceis de calcular (como no caso de alguns planos amostrais com probabilidades
desiguais).

165
166 CAPTULO 5. ESTIMAO DE VARINCIAS

Em muitos casos, estimadores dos parmetros de interesse so no lin-


eares (isto , no so mdias, totais ou propores). Exemplos incluem
razes, correlaes, coeficientes de regresso, quantis de distribuies, etc.
Alguns estimadores de varincia podem fornecer valores negativos (como
o caso do estimador de varincia de Horvitz-Thompson em alguns planos
amostrais com probabilidades desiguais).

5.3 Mtodos para estimar varincias


Wolter (1985) enfatiza ambas a teoria e aplicaes de vrios mtodos para
estimar varincias.

5.3.1 Mtodo de Linearizao de Taylor ou -mtodo


Um dos primeiros mtodos, desenvolvido para fornecer estimadores de var-
incia para estimadores no lineares.
A hiptese bsica deste mtodo que o parmetro de interesse possa ser
representado como uma funo de K totais populacionais, isto :

= f (Y1 , , YK )
P
N
onde YK = yik so totais poulacionais para vriveis de pesquisa
i=1
yk , k = 1, , K.
O estimador amostral do parmetro dado por
b
= f (Yb1 , , YbK )
Pn y
onde YbK =
ik
o estimador de Horvitz-Thompson do total Yk , k =
i=1 i
1, ..., K.
Quando f uma funo linear, fcil obter expresses de varincia para
b
. Isto ocorre por causa da linearidade de f , j que neste caso

X
K
= a0 + ak Yk
k=1

e consequentemente

X
K
b
= a0 + ak Ybk
k=1
5.3. MTODOS PARA ESTIMAR VARINCIAS 167

Portanto, neste caso podemos usar propriedades de combinaes lineares


de variveis aleatrias para obter

!
X
K
V b
= V a0 + ak Ybk
k=1
X
K X K X
K
= a2k V b
Yk + ak aj COV (Ybk , Ybj )
k=1 k=1 j6=k

Dessa forma, um estimador para a varincia de pode ser facilmente obtido


substituindo as varincias e covarincias na expresso acima por seus respec-
tivos estimadores no viciados, levando a:
XK X K X
K
b
v = 2 b
ak v Yk + ak aj cov(Ybk , Ybj )
k=1 k=1 j6=k

Para funes de fato no lineares, a idia aproximar o estimador b por


b
uma quantidade linearizada L , obtida mediante expanso da funo f em
srie de Taylor em torno do ponto (Y1 , , YK ), e desprezando-se o termo do
resto, isto :
XK
b b
= L = + ak Ybk Yk
k=1

onde
f (Yb1 , , YbK )
ak = Ye1 , ,YeK =Y1 , ,YK
Ybk
para k = 1, ..., K.
Para amostras grandes, o estimador no linear b ter comportamento
b
semelhante ao do estimador linearizado L , e portanto podemos usar a var-
incia deste estimador linearizado como aproximao para a varincia do
estimador b . Isto :

2 2
V b
= E b =E b L
K !
X 2
= E ak Ybk Yk
k=1
X
K X K X
K
= a2k V b
Yk + ak aj COV (Ybk , Ybj )
k=1 k=1 j6=k
168 CAPTULO 5. ESTIMAO DE VARINCIAS

A varincia aproximada de b pode ento ser obtida, bastando para isso


calcular as derivadas da funo f e substituir na expresso acima.
Um estimador para a varincia de b pode ento ser facilmente obtido
usando
XK X K X
K
v b
= a2k v Ybk +
b b aj cov(Ybk , Ybj )
ak b
k=1 k=1 j6=k

onde os valores de b ak so as estimativas das derivadas ak obtidas substi-


tuindo os totais Y1 , , YK pelas respectivas estimativas Yb1 , , YbK .
Notas:

1. Linearizao de Taylor pode ser trabalhosa, pois para cada parmetro


ou estimador de interesse necessrio calcular derivadas e frmulas
especficas.
2. Muitas estatsticas de interesse no podem ser facilmente escritas como
funes lineares de totais, como por exemplo a mediana e os quantis de
uma distribuio.
3. Apesar disso, vrios pacotes computacionais usam este mtodo para es-
timar varincias e desvios padres para diversas estatsticas, tais como
mdias e totais para domnios, razes, coeficientes de regresso, e at
mesmo quantis.

5.3.2 Mtodo do Conglomerado Primrio (Ultimate Clus-


ter - Hansen et al, 1953)
O termo conglomerado primrio (ultimate cluster) usado para denotar o
agregado de unidades includas na amostra de uma unidade primria.
O valor agregado da caracterstica y para o i-simo conglomerado primrio
yi ;e o tamanho do i-simo conglomerado primrio ni .
Esta definio de conglomerado primrio vlida para qualquer nmero
de estgios de amostragem.
Supondo que um municpio amostrado como unidade primria e um
conjunto de 5 setores contendo 200 domiclios cada selecionado do municpio
como unidades secundrias e 20 domiclios so selecionados de cada setor
selecionado. O conglomerado primrio consiste do total da amostra de 100
domiclios selecionados do municpio.
A idia central deste mtodo para estimar varincias de mdias e totais,
em planos amostrais de mltiplos estgios, considerar apenas a variao entre
informaes disponveis a nvel das unidades primrias de amostragem (UPAs),
5.3. MTODOS PARA ESTIMAR VARINCIAS 169

isto , a nvel dos conglomerados primrios, e supor que estes tivessem sido
selecionados por amostragem com reposio da populao de UPAs.
Trata-se de idia simples, porm bastante poderosa, pois permite aco-
modar grande variedade de planos amostrais estratificados, conglomerados
e com probabilidades desiguais (com ou sem reposio), tanto das unidades
primrias como das demais unidades de amostragem.
O requisito fundamental para aplicao deste mtodo que estejam dispo-
nveis estimadores no viciados dos totais da(s) varivel(is) de interesse para
cada um dos conglomerados primrios selecionados, e que pelo menos dois
destes sejam selecionados em cada estrato (caso esta condio no seja sat-
isfeita para alguns estratos, estes podem ser agrupados).
Embora este mtodo tenha sido proposto para estimar varincias de m-
dias e totais em planos amostrais de mltiplos estgios (portanto complexos),
pode ser tambm aplicado em combinao com Linearizao de Taylor para
obter estimativas de varincias para estatsticas no lineares que possam ser
escritas como funes de totais.
Este mtodo fornece, juntamente com a Linearizao de Taylor, a base
metodolgica de vrios pacotes especializados para estimao de varincias,
tais como SUDAAN, STATA, CENVAR e PC-CARP, entre outros.
Considere um plano amostral em vrios estgios, com mh 2 unidades
primrias selecionadas do estrato h, h = 1, ..., L.
Denote por hi a probabilidade de incluso na amostra da i-sima UPA
(conglomerado primrio) do estrato h, e por Ybhi um estimador no viciado
do total Yhi da caracterstica de interesse y na i-sima UPA do estrato h,
h = 1, ..., L.
P
L MPh
Um estimador no viciado do total populacional Y = Yhi dado
h=1 i=1
por
XL Xmh
Ybhi
YbCP =
h=1 i=1
hi
e um estimador no viciado da varincia correspondente dado por
!2
XL
mh X
m h
Ybhi Ybh
v YbCP =
h=1
mh 1 i=1 hi mh

P
mh Ybhi
onde Ybh = para h = 1, ..., L.
i=1 hi
Embora muitas vezes a seleo das unidades primrias seja feita sem
reposio, o estimador de Conglomerados Primrios aqui apresentado pode
fornecer uma aproximao razovel da varincia de aleatorizao desejada.
170 CAPTULO 5. ESTIMAO DE VARINCIAS

Isso ocorre porque planos amostrais sem reposio geralmente so mais


eficientes que planos de mesmo tamanho com reposio.
Esta aproximao bastante usada na prtica por sua simplicidade, em
comparao com os estimadores de varincia que procuram incorporar todos
os estgios do plano amostral.

5.3.3 Mtodos de Replicao


A idia de mtodos de replicao para estimar varincias em Amostragem
no nova, e foi primeiramente proposta por Mahalanobis em 1939.
O segredo construir sua amostra de tamanho n mediante a seleo de
n
G amostras independentes de tamanho cada uma, usando o mesmo plano
G
amostral, onde G o nmero de replicaes.
Ento, se o parmetro alvo, e b
g um estimador no viciado baseado
na rplica g, imediato notar que:

1 Xb
G
b
R = g
G g=1

um estimador no viciado de e

G X b
G 2
v b
R = g b
R
G 1 g=1

um estimador no viciado da varincia do estimador de replicao b R .


O resultado acima vale para qualquer plano amostral adotado para sele-
cionar cada rplica.
A abordagem de replicao bastante geral. vlida para qualquer
estimador, no somente para aqueles que podem ser escritos como funes
de totais.
Aplicaes prticas exatas dessa tcnica so raras, entretanto, devido
as seguintes causas:

a) algumas vezes caro e inconveniente selecionar de fato G amostras


independentes segundo o mesmo plano amostral;

b) Se G for pequeno, o estimador de varincia pode ser instvel.

Aplicao: US Consumer Price Index (CPI) - usa 3 rplicas de um plano


amostral com estratificao detalhada e mltiplos estgios de conglomerao.
5.3. MTODOS PARA ESTIMAR VARINCIAS 171

Mtodo dos Grupos Aleatrios Algumas vezes, a amostra subdividida


em grupos aps a seleo. Se as amostras nos diversos grupos puderem ser
consideradas como aproximadamente independentes, ento o estimador
de varincia proposto serve como uma aproximao para a varincia do esti-
mador.
Note que a diviso da amostra em grupos deve considerar o plano amostral.
Sob planois amostrais estratificados, h duas alternativas:

a) aplicar o mtodo de grupos aleatrios para estimar as varincias dentro


dos estratos; ou

b) aplicar o mtodo de grupos aleatrios amostra como um todo, preser-


vando a estratificao quando da diviso da amostra em grupos - esta
opo requer amostras grandes o bastante em cada estrato para permi-
tir a subdiviso em G grupos.

Freqentemente as UPAs so alocadas nos grupos aleatrios carregando


todas as unidades amostrais a elas subordinadas.
Um outro estimador de varincia empregado com o mtodo de grupos
aleatrios o que considera diferenas em relao a um estimador de amostra
completa b, a saber:

G X b
G 2
v b
= g b

G 1 g=1

Mtodo Jackknife Este mtodo foi inventado como uma tcnica para
reduo de vcio na estatstica clssica (Quenouille, 1949, 1956).
A idia consiste em dividir a amostra em G grupos mutuamnete ex-
n
clusivos, cada um de tamanho . Em seguida, so calculados os pseudo-
G
valores b
(g) dados por

b
(g) = Gb
(G 1) b
g

onde, bg uma estimativa de obtida da amostra aps a excluso das


unidades do grupo g, usando a mesma forma funcional que se teria aplicado
com a amostra completa (no caso, o estimador b).
Planos amostrais estratificados no esto cobertos imediatamente pela
descrio acima. A situao mais complicada nesse caso. Consulte Wolter
(1985).
Estima-se a varincia usando um dos estimadores:
172 CAPTULO 5. ESTIMAO DE VARINCIAS

1 X
G 2
vJ1 b
= b
(g) b
JK
G (G 1) g=1

1 XG 2
vJ2 b
= b
(g) b

G (G 1) g=1

1 PG
onde b
JK = b
(g) .
G g=1
Notas:

1. O estimador de Jackknife b JK de poderia ser utilizado como um


estimador alternativo ao estimador de amostra completa b.

2. vJ2 b um estimador mais conservador da varincia do que vJ1 b .

3. Freqentemente se toma n = G e se elimina uma observao da amostra


de cada vez.

4. Com planos amostrais de mltiplos estgios, eliminam-se UPAs inteiras


da amostra de cada vez. Isto , se uma UPA excluda, excluem-se ao
mesmo tempo todas as unidades a ela subordinadas.

Justificativas para o estimador Jackknife de varincia:

a) quando a estatstica for linear, os estimadores de varincia coincidem


com estimadores usuais;

b) evidncia emprica (limitada).

5.4 Sistemas para estimao de varincias


A maior parte das pesquisas realizadas por agncias de estatsticas oficiais
usam alguma forma de plano amostral estratificado em mltiplos estgios.
Clculos de varincias, mesmo para estimadores lineares, podem se tornar
trabalhosos de programar.
Programas desenvolvidos sob medida custam mais caro e aumentam
risco de erros e prazos de obteno de resultados.
Alternativa: usar pacotes prontos.
Problema: pacotes padres (SAS, SPSS, BMDP, MINITAB, etc.) calcu-
lam varincias supondo que as observaes amostrais so IID (independentes
5.4. SISTEMAS PARA ESTIMAO DE VARINCIAS 173

e identicamente distribudas), e portanto IGNORANDO a natureza complexa


do plano amostral empregado para obter os dados.
Isto geralmente levaria a obter estimativas dos desvios padres severa-
mente viciadas. Em alguns casos, a subestimao das varincias pode ser
bastante grande, especialmente com planos amostrais muito conglomerados.
Soluo: usar pacotes especializados para estimao de varincias em
amostras complexas.

Alguns pacotes atualmente disponveis incluem:

SUDAAN (Research Triangle Institute)

WESVARPC (Westat Inc.)

GES (Statistics Canada)

STATA (Stata Corporation)

CENVAR (US Bureau of Census)

Biblioteca ADAC (Anlise de Dados Amostrais Complexos) do Sistema


R (Coordenao de Mtodos e Qualidade / Diretoria de Pesquisas /
IBGE - Prof. Djalma Galvo Pessoa)

Vantagens de usar pacotes especializados prontos incluem:

- clculo de estimativas para propores, mdias e totais e seus desvios


padres facilmente tratados;

- desvios padres disponveis para estatsticas tais como razes de m-


dias, mdias de domnios e suas diferenas, coeficientes de regresso,
correlaes, etc.;

- algoritmos numricos exaustivamente testados, reduzindo as chances


de erros de clculo;

- computao eficiente;

- usurio pode se concentrar no que calcular, e no em como calcular;

- mais barato que desenvolvimento local;

- testes de hipteses e p-valores tambm disponveis.

Desvantagens de usar pacotes especializados prontos incluem:


174 CAPTULO 5. ESTIMAO DE VARINCIAS

- abrangncia limitada - pacotes no podem fazer tudo;

- pacotes no avaliam estimativas, apenas calculam;

- integrao com outros pacotes pode ser difcil;

- necessrio investir na aquisio e manuteno da licena do pacote,


mais treinamento do pessoal usurio;

- resultados produzidos precisam ser editorados antes de servir para pub-


licao.

Concluses

- Vantagens devem mais que compensar desvantagens.

- Uso de pacotes especializados para estimao de varincias altamente


recomendvel.

- Voc provavelmente no consegue fazer melhor sem pacotes, dadas re-


stries de tempo e recursos.

- Poupe seu tempo e esforo para melhorias verdadeiras do processo de


pesquisa.
Captulo 6

Dupla amostragem

6.1 Descrio da tcnica

Como visto, em muitos casos conveniente o uso de informaes adicionais


sobre uma varivel auxiliar, que nos permite melhorar a preciso das esti-
mativas. Vimos por exemplo, como a estratificao produz amostras mais
representativas, e como se pode obter estimadores mais precisos; o mesmo
ocorre, sob certas condies, com os estimadores de razo e com o uso de
probabilidades desiguais de seleo.
Nestes casos a teoria estudada at aqui supe que conhecida a infor-
mao prvia para a formao dos estimadores mencionados. Na prtica
pode no ser vivel, ento coloca-se a possibilidade de selecionar uma 1a
amostra, relativamente grande, em que com um baixo custo pode-se obser-
var uma ou vrias caractersticas gerais das unidades que nos proporcione
a(s) informao(es) que necessitamos.
Em uma 2a fase selecionamos uma subamostra da 1a , em que observamos
a(s) caracterstica(s) objeto de estimao. Esta tcnica conhecida como
dupla amostragem ou amostragem em 2 fases.
A dupla amostragem (ou amostragem em duas fases) pode ser general-
izada para qualquer nmero de fases, dando lugar amostragem multifsica.
Na amostragem multifsica se utiliza as mesmas unidades de amostragem
em todas as fases, diferentemente da amostragem em mltiplos estgios onde
h uma hierarquia das unidades de amostragem que variam de estgio para
estgio.

175
176 CAPTULO 6. DUPLA AMOSTRAGEM

6.2 Consideraes sobre o custo


evidente que a convenincia desta tcnica de amostragem depende dos
custos, se a observao da caracterstica que nos interessa no tem custo,
ou muito baixo, tomaramos uma amostra do tamanho necessrio para a
preciso desejada e com ela faramos as estimaes.
Suponha que dispomos de um pressuposto custo total C; que o custo por
unidade da 1a amostra de tamanho n0 c0 ; e que o custo por unidade da 2a
amostra de tamanho n << n0 c (c0 << C).
Nestas condies temos:

se selecionarmos uma s amostra: C = c n0 ; e

se fizermos dupla amostragem: C = c0 n0 + c n

igualando os custos totais, tem-se:

c0 0
n0 = n + n
c
Logo, com a tcnica de dupla amostragem a observao efetiva se faz com
uma amostra de tamanho n, menor que n0 , que corresponde a uma amostra
aleatria simples em uma fase com o mesmo custo total.
c0
Por exemplo, se = 0, 1, o tamanho n0 = 1.000 equivalente aos tama-
0
C
nhos n = 400 e n = 6.000. A diminuio de n0 n = 600 unidades no
tamanho da amostra efetiva produzir uma perda em preciso.
A questo que se coloca decidir se compensa a diminuio do tamanho
efetivo da amostra, com o aumento de informao adquirida na 1a fase. Para
isso, deve-se calcular a varincia correspondente com a aplicao da dupla
2
amostragem e compar-la com a de uma amostra de uma s fase ( n0 , no caso
da estimao da mdia com amostragem aleatria simples).
c0
bvio que quanto menor for a relao mais favorvel o uso da dupla
C
amostragem, mas no o nico parmetro a ser considerado.
Em amostragem com reposio a varincia dos estimadores toma a forma:

k1 k2
V = + 0
n n
que vlida para amostragem sem reposio quando as fraes so pequenas.
Esta varincia pode ser minimizada para um custo total dado e nos fornece,
atravs dos multiplicadores de Lagrange, os tamanhos timos de n0 e n.
6.3. DUPLA AMOSTRAGEM PARA ESTRATIFICAO 177

6.3 Dupla amostragem para estratificao


Seleciona-se a 1a amostra de tamanho n0 , atravs de um esquema aleatrio.
Utiliza-se essa amostra para estratificar as unidades, atendendo a uma ou
vrias caractersticas que observamos, assim como para estimar a proporo
de unidades da populao pertencentes a cada estrato, supondo que a popu-
lao seja estratificada em L estratos.
Sejam n01 , n02 , , n0L onde n0h o nmero de unidades na amostra (da 1a
fase) em cada estrato h e a respectiva proporo:
n0h
wh =
n0
A segunda fase consiste em tomar uma subamostra aleatria de tamanho
nh n0h em cada estrato h, independentemente.
O estimador usual da mdia em amostragem estratificada :

X
L
y est = Wh y h
h=1

em dupla amostragem os Wh so estimados pelos wh obtidos da 1a amostra


e com a 2a amostra estimamos as mdias, tomando:
yh
yh =
nh
de forma que resulta no estimador para a mdia:

X
L
y d,est = wh y h
h=1

y d,est no viciado, pois:

( L !) L !
X X
E y d,est = E Ew wh y h =E wh Ew (y h )
h=1 h=1
L !
X X
L X
L
= E wh Y h = E (wh ) Y h = Wh Y h = Y
h=1 h=1 h=1

onde:
Ew (T ) expressa a esperana matemtica de uma estatstica T condi-
cionada ao conjunto de amostras da 1a fase, nas quais n01 , n02 , , n0L so
fixos e para um dado n0 , w1 , w2 , , wL so fixos.
178 CAPTULO 6. DUPLA AMOSTRAGEM


V y d,est = V Ew y d,est + E Vw y d,est

L ! L !
X X 2
V Ew y d,est = V wh Y h =V Y h wh
h=1 h=1
X
L
2 X
L
= Y h V (wh ) + Y h Y k COV (wh , wk )
h=1 h6=k

as V (wh ) e COV (wh , wk ) em amostragem sem reposio, usando a dis-


tribuio hipergeomtrica para L classes, so dadas por:

N n0 Wh (1 Wh )
V (wh ) =
N 1 n0

e
N n0 Wh Wj
COV (wh ) =
N 1 n0

Logo:

( L )
X 2 Wh (1 Wh ) X L
Wh Wj
V Ew y d,est = g0 Yh 0
Y hY k
h=1
n h6=k
n0
( L )
g0 X 2 X X X
L L L
2
= 0 Y h Wh Y h (Wh )2 Y h Wh Y k Wk
n h=1 h=1 h6=k k=1
!
2
g0 X 2 X
L L
= 0 Y h Wh Wh Y h
n h=1 h=1

( L )
g0 X 2
= 0 Wh Y h Y
n h=1

N n0
sendo: g 0 = .
N 1
Por outro lado, tem-se:
6.3. DUPLA AMOSTRAGEM PARA ESTRATIFICAO 179

L !! L !
X X
E Vw y d,est = E Vw wh y h =E (wh )2 Vw (y h )
h=1 h=1
L !
X Sh2 XL
Sh2
= E (wh )2 (1 fh ) = E (wh )2 (1 fh )
h=1
nh h=1
nh
X
L
Sh2
= (1 fh ) V (wh ) + Wh2
h=1
nh
XL
S2 g0 Wh (1 Wh )
= (1 fh ) h 0
+ Wh2
h=1
nh n

Portanto:

( L ) L
g0 X 2 X Sh2 g 0 Wh (1 Wh ) 2
V y d,est = 0 Wh Y h Y + (1 fh ) + Wh
n h=1 h=1
nh n0

onde:
fh a frao de amostragem da 2a fase, supondo que a seleo foi com
probabilidades iguais e sem reposio nas fases.
Observe que n0 aparece no denominador na expresso da varincia. Por-
tanto, quanto maior n0 (n0 < N) a perda de preciso pelo uso da dupla
amostragem diminui. Obviamente o custo aumenta, razo pela qual convm
estudar os tamanhos timos em funo do custo.
Se a amostra com reposio na 1a fase temos:

X L
S2 Wh (1 Wh ) 1 X
L
2
V y d,est = (1 fh ) h 2
Wh + + Wh Y h Y
h=1
nh n0 n0 h=1

frmula aproximada para n0 pequeno em relao a N em caso sem reposio.


Se a amostra com reposio nas 2 fases:


X L
2h 2 Wh (1 Wh ) 1 X
L
2
V y d,est = Wh + + Wh Y h Y
h=1
nh n0 n0 h=1

frmula aproximada para nh pequeno em relao a Nh , h e n0 pequeno em


relao a N no caso sem reposio.
180 CAPTULO 6. DUPLA AMOSTRAGEM

Para o total
Y = NY , o estimador no viciado Ybd,est = N y d,est e a

varincia V Ybd,est = N 2 V y d,est .
Observe que se na amostra da 1a fase n0 = N, isto , se observa todas as
unidades da populao para efetuar a estratificao, ento g 0 = 0 e a frmula
geral da varincia do estimador de dupla amostragem fica:

X L
S2
V y d,est = (1 fh ) Wh2 h
h=1
nh

que coincide com a varincia de uma amostra estratificada usual em uma


nica fase.


6.3.1 Estimador no viciado para V y d,est
Um estimador no viciado para a varincia do estimador
da mdia em dupla
amostragem para estratificao com reposio V y d,est dado por:

( L )
n0 X s2 wh
1 XL
2
h
v y d,est = wh2 + 0 + 0 wh y h y d,est
n0 1 h=1
nh n n h=1

n0
= 1 se n0 no for pequeno, ento:
n0 1

X s2h 2 wh 1 X
L L
2
v y d,est = wh + 0 + 0 wh y h y d,est
h=1
nh n n h=1

6.3.2 Estimao de uma proporo na dupla amostragem


para estratificao
Se se deseja estimar uma proporo PA de um atributo A na populao,
sendo PAh a correspondente proporo no estrato h, o estimador no viciado
na dupla amostragem :

X
L
pA(d,est) = wh pAh
h=1
6.4. DUPLA AMOSTRAGEM PARA ESTIMADORES DE RAZO 181

sendo: pAh a proporo amostral do atributo A na 2a fase.


XL
PAh QAh 2 g0 Wh (1 Wh )
V pA(d,est) = (1 fh ) Wh +
h=1
n h n0
( L )
g0 X
+ 0 Wh (PAh PA )2
n h=1
sendo:
Nh
Sh2 = PAh QAh
= PAh QAh
Nh 1
Em amostragem com reposio nas 2 fases, ou sem reposio e tamanhos
amostrais pequenos com relao populao (fh
= 0 e g0
= 1).
XL
PAh QAh 2 Wh (1 Wh )
V pA(d,est) = Wh +
h=1
nh n0
( L )
1 X
+ 0 Wh (PAh PA )2
n h=1
Para o total do atributo A = N PA , o estimador :
Abd,est = NpA(d,est)
e
V Abd,est = N 2 V pA(d,est)

6.4 Dupla amostragem para estimadores de


razo
O estimador usual de razo para a mdia Y utiliza como informao previa-
mente conhecida da mdia X (ou total) de uma caracterstica x, definida em
todas as unidades da populao, escolhida convenientemente de modo que
sua relao com y seja linear pelo menos aproximadamente.
Em dupla amostragem utiliza-se a 1a amostra de tamanho n0 para obter
uma boa estimativa de X (ou de X) e a 2a amostra de tamanho n para
estimar y e x. Desta forma o estimador de razo para a mdia em dupla
amostragem :
y
y d,R = x0
x
sendo x0 a mdia estimada usando as informaes da amsotra da 1a fase.
Com este procedimento de dupla amostragem cabe considerar duas pos-
sibilidades:
182 CAPTULO 6. DUPLA AMOSTRAGEM

1. a 2a amostra uma amostra aleatria da populao selecionada inde-


pendentemente da 1a ;

2. a 2a amostra uma subamostra aleatria da 1a . Em ambos casos con-


0
siderar n n .

Em qualquer caso: E y d,R = X E R b e ser no viciado se R b = y for
x
no viciado.
Para calcular o erro mdio quadrtico que coincida com a varincia quando

b =R= Y
E R
X
temos:

y 0 b x0 Y = R
b x0 RX
y d,R Y = x Y =R
x
= R b x0 RX + RX RX

= X R bR +R b x0 X

X b

b x0 X

= y Rx +R
x

b X
utilizando as aproximaes: R =Re = 1.
x
Podemos escrever para o clculo aproximado da varincia do estimador:
2
V y d,R = E (y R x) + R x0 X

= V (y R x) + R x0 X

= V (y R x) + V R x0 X + 2R COV (y R x) x0 X
= V (y) + R2 V (x) 2R COV (x, y) + R2 V ( x0 ) +
+2R COV (y, x0 ) 2R2 COV (x, x0 )

No caso em que as amostras das 2 fases so independentes, as covarincias


se anulam entre (x, y) e (x, x0 ), resultando:

V y d,R = V (y) + R2 V (x) 2R COV (x, y) + R2 V ( x0 )

1 2 1
V y d,R = y + R2 2x 2R xy + 0 R2 2x
n n
6.5. DUPLA AMOSTRAGEM PARA PROBABILIDADES DESIGUAIS183

frmula vlida para amostragem com reposio (no caso de sem reposio,
usar fator de correo de populaes finitas).
Para o caso em que a 2a amostra de tamanho n uma subamostra
0
aleatria da 1a n n temos que calcular as covarincias.
Fixando a amostra da 1a fase:

Ew0 (y) = y 0 e Ew0 (x) = x0


por y e x serem mdias de subamostras aleatrias =

COV (y, x0 ) = E (y, x0 ) E (y ) E ( x0 )


= E (Ew0 (y, x0 )) E (Ew0 (y )) E (Ew0 ( x0 ))
= E (y 0 , x0 ) E (y 0 ) E (x 0 ) = COV (y 0 , x0 )
xy
=
n0
analogamente:
2x
COV (x, x0 ) =
n0
Logo:
1 2 1 2 2
V y d,R = y + R2 2x 2R xy + R x +
n n0
1 1
0 2R2 2x + 0 2R xy
n n
1 2 1
= y + R2 2x 2R xy + 0
2R xy R2 2x
n n
admitindo com reposio.
Se n0 = N = COV (x, x0 ) = COV (y, x0 ) = 0,ento V y d,R reduz
varincia do estimador de razo em uma nica fase.

6.5 Dupla amostragem para probabilidades


desiguais
O estimador usual do total Y , com probabilidades de seleo das unidades
proporcionais a uma medida de tamanho, seja Mi , dado por:

1 X yi
n
Yb =
n i=1 Pi
184 CAPTULO 6. DUPLA AMOSTRAGEM

Mi
com: Pi = .
M
Se no se conhece a priori os tamanhos das unidades da populao, pode-
mos tomar uma amostra aleatria da populao de tamanho n0 com probabil-
idades iguais, para obter informao acerca dos tamanhos M1 , M2 , , Mn0 ,
Pn0
sendo M 0 = Mi . Nestas condies se toma uma subamostra de tamanho
i=1
n < n0 , para formar o estimador de dupla amostragem baseado em:
Mi Mi
como esstimador de = Pi
N 0 M
M
n0
e o estimador no viciado de total fica da forma:
Xn
N M 0 yi NM 0 X yi
n
Ybdp = =
i=1
n0 n Mi nn0 i=1 Mi
n !!
N X M 0 yi N 0
E Ybdp = E Ew0 =E y =Y
n0 i=1
n Mi n0
onde:
Ew0 indica a esperana da 1a amostra fixa com probabilidade proporcional
ao tamanho;
y 0 o total da amostra da 1a fase, tomando n0 , tomada com probabili-
dades iguais.
Supondo que a 1a amostra seja selecionada com probabilidades iguais e
sem reposio e a 2a amostra com probabilidades proporcionais ao tamanho
e com reposio, a varincia do estimador de total dada por:
2
N n0 1 X
N
Yi N (N n0 ) 2
V Ybdp = Pi Y + Sy
N 1 nn0 i=1 Pi n0
n0 1
se n0 grande ento = 1 ento:
n0
1X N 2
b p Yi N (N n0 ) 2
V Yd = Pi Y + Sy
n i=1 Pi n0
Bibliografia

[1] Albieri, S. e Dias, A.J.R. (1994). Metodologia de expanso da amostra


do censo demogrfico de 1991: uma descrio resumida. Rio de Janeiro:
IBGE, Diviso de Metodologia.

[2] Andersson, C. e Nordberg, L. (1994). A method for variance estima-


tion of non-linear functions of totals in surveys - theory and software
implementation. Journal of Ocial Statistics, 10, 395-406.

[3] Cochran, W.G. (1977). Sampling Techniques, third edition. New York:
John Wiley & Sons.

[4] Deville, J.C. e Srndal, C.E. (1992). Calibration estimators in survey


sampling. Journal of the American Statistical Association, 87, 376-382.

[5] Estevao, V., Hidiroglou, M.A. e Srndal, C.E. (1995). Methodological


principles for a generalized estimation system at Statistics Canada. Jour-
nal of Ocial Statistics, 11, 181-204.

[6] Fieller, E. C. (1932). The distribution of the index in a normal bivariate


population. Biometrika, 24, 428-440.

[7] Hanif, M. and Brewer, K.R.W. (1980). Sampling with unequal proba-
bilities without replacement. International Statistical Review,Voorburg:
Holand, 48: 317-35.

[8] Hansen, Morris H; Hurvitz, William N. and Madow, William G. (1953).


Sample Survey Methods and Theory ( vol. I and II). New York: John
Wiley & Sons.

[9] Hartley, H.O. et alli. (1962). Sampling with unequal probabilities with-
out replacement. Annals of Mathematical Statistics, Hayward; EUA, 33:
350-74.

185
186 BIBLIOGRAFIA

[10] Horvitz, D.G., and Thompson, D.J. (1952). A generalization of sampling


without replacement from a finite universe. Jour. Amer. Stat. Assoc.,
47, 663-685.

[11] IBGE (1983). Metodologia do censo demogrfico de 1980. Rio de Janeiro:


Srie Relatrios Metodolgicos, v. 4.

[12] Kish, L. (1965) Survey Sampling. New York: John Wiley & Sons.

[13] Lima, J.M.(1985). Seleo de amostra com probabilidades desiguais -


o mtodo dos grupos aleatrios. Rio de Janeiro: IMPA, (Informes de
Matemtica Srie D-015/85 - Tese de Mestrado).

[14] Mahalanobis, P.C. (1939). A Sample Survey of the Acreage Under Jute
in Bengal. Sankhya 4, 511-531.

[15] Nascimento, W.A. (1981). Amostragem de Conglomerados.


IBGE/ENCE.

[16] Quenouille, M.H. (1949). Aproximate Tests of Correlation in Time Se-


ries. Journal of the Royal Statistical Society, B 11, 68-84.

[17] Quenouille, M.H. (1956). Notes on Bias in Estimation. Biometrika 43,


353-360.

[18] Paulson, E. (1942). A note on the estimation of some mean values for a
bivariate distribution. Ann. Math. Stat., 13, 440-444.

[19] Pessoa, D.G.C. e Silva, P.L.N. (1998). Anlise de dados em planos


amostrais complexos. Minicurso do SINAPE 1998.

[20] Raj, Des. (1968). Sampling Theory. Bombay, New Delhi: Tata McGraw-
Hill.

[21] Srndal, C.E., Swensson, B. e Wretman, J. (1992). Model assisted survey


sampling. New York: Springer-Verlag.

[22] Shah, B.V., Barnwell, B.G., Hunt, P.N. e LaVange, L.M. (1992). SUD-
DAN users manual - professional software for survey data analysis for
multi-stage sample designs - release 6.0. North Carolina: Research Tri-
angle Institute.

[23] Silva, P.L.N. (1996). Planejamento, estimao e anlise de dados em


pesquisas por amostragem: desvendando a realidade brasileira com o
telescpio da estatstica. Rio de Janeiro: IBGE.
BIBLIOGRAFIA 187

[24] Silva, P.L.N. (1996). Utilizing auxiliary information in sample survey


estimation and analysis. Southampton: Department of Social Statistics,
University of Southampton, tese de doutorado.

[25] Silva, P.L.N., Bianchini, Z.M. e Albieri, S. (1993). Uma proposta de


metodologia para a expanso da amostra do censo demogrfico de 1991.
Rio de Janeiro: IBGE, Diretoria de Pesquisas, Srie Textos para Dis-
cusso, n. 62.

[26] Silva, P.L.N., Silva, D.B.N., Moura, F.A.S. e Jooris, L.R. (1995). Frame
problems and survey design for the Brazilian annual retail and wholesale
trade survey. Artigo submetido para publicao na revista Estadstica.

[27] Silva, P.L.N. e Skinner, C.J. (1995). Estimating distribution functions


with auxiliary information using poststratification. Journal of Ocial
Statistics, 11, 277-294.

[28] Silva, P.L.N. e Skinner, C.J. (1996). Variable selection for regression
estimation in finite populations. Artigo submetido para publicao no
Journal of the American Statistical Association.

[29] Skinner, C. J., Holt, D. and Smith, T.M.F. (1989). Analysis of Complex
Surveys. Chichester: Wiley.

[30] Thompson, S.K. (1992). Sampling. New York: John Wiley & Sons.

[31] Westat (1995). A users guide to WesVarPC, version 1.0. Rockville:


Westat.

[32] Wolter, K.M. (1985). Introduction to Variance Estimation. New York:


Springer-Verlag.

Você também pode gostar