Escolar Documentos
Profissional Documentos
Cultura Documentos
Aula Microdados PNAD
Aula Microdados PNAD
AULA PRTICA
TRATAMENTO E EXTRAO DOS MICRODADOS DA PNAD
1- Especificidades da Pesquisa Nacional por Amostra de Domiclios (PNAD)
1.1. Conceitos bsicos
A Pesquisa Nacional por Amostra de Domiclios (PNAD) fornecida anualmente pelo
Instituto Brasileiro de Geografia e Estatstica (IBGE). Os microdados das PNADs consistem em
dados individuais das principais caractersticas socioeconmicas dos indivduos e famlias, umas
de carter permanente, como as caractersticas gerais da populao, de educao, trabalho,
rendimento e habitao, e outras com periodicidade varivel, como as caractersticas sobre
migrao, fecundidade, nupcialidade, sade, nutrio e outros temas que so includos no sistema
de acordo com as necessidades de informao para o Pas (IBGE, 2007). O perodo de referncia
das PNADs nos anos noventa e 2000 foi o ms de setembro de cada ano. Alm da abrangncia
temtica da PNAD, o tamanho da amostra tambm consiste em importante fator para garantir a
robustez dos resultados, principalmente em termos de inferncia estatstica. A tabela 1 abaixo
exemplifica a amplitude da pesquisa para alguns anos.
Total de
domiclios
102.787
105.059
109.541
112.434
115.654
126.858
129.705
133.255
139.157
142.471
145.547
147.851
vlidas somente quando os dados so obtidos atravs de amostras aleatrias simples com
reposio (AASR).
A PNAD na verdade caracteriza-se por ser realizada a partir de um plano amostral
complexo, uma vez que apresenta caractersticas que a definem como tal, por exemplo:
estratificao, conglomerao, probabilidades desiguais de seleo em um ou mais estgios e
calibrao da amostra atravs de pesos amostrais. De acordo com Kneipp e Yarandi (2002), a
maior parte das pesquisas conduzidas por institutos governamentais no utilizam o mtodo de
amostra aleatria simples, mas um desenho de amostragem complexa. Uma possvel explicao
consiste nos limites de custos e as restries de tempo associadas ao montante de dados dos
indivduos em todo territrio nacional. Esta justificativa bastante plausvel, para o caso
brasileiro, uma vez que o territrio nacional abrange uma rea de 8.514.876 Km2, com um total
de 191.790.900 habitantes (IBGE, 2007).
1.3. Construo do desenho amostral da PNAD1
A PNAD estratificada em duas etapas. Inicialmente realiza-se uma estratificao que
divide o pas em 36 estratos naturais, sendo que vinte e sete correspondem s unidades da
federao e os nove estratos remanescentes concernem aos municpios das regies
metropolitanas com sede na capital, so eles (PA, CE, PE, BA, MG, RJ, SP, PR e RS) 2 .
Nos estratos das regies metropolitanas realizada uma nova estratificao por municpios
sendo agrupados (conglomerados) em dois estgios, ou seja, as unidades primrias de
amostragem (UPA) so os setores censitrios e as unidades secundrias de amostragem (USA)
so os domiclios. Os setores so selecionados utilizando-se uma amostragem sistemtica com
probabilidade proporcional ao tamanho (PPT), onde o tamanho do setor determinado pelo total
de domiclios obtido atravs do ltimo censo3.
Esta seo consiste em uma concisa exemplificao da construo do desenho amostral da PNAD e baseada
principalmente no trabalho de Silva et al. (2002).
2
Ou seja, regio metropolitana de Belm (PA), regio metropolitana de Fortaleza (CE), regio metropolitana de
Recife (PE), Regio metropolitana de Salvador (BA), Regio metropolitana de Belo Horizonte (MG), Regio
metropolitana do Rio de Janeiro (RJ), regio metropolitana de So Paulo (SP), regio metropolitana de Curitiba (PR)
e regio metropolitana de Porto Alegre (RS).
3
Para as PNADs da dcada de 1990 o censo de referncia o de 1991 e para os dados do ano 2000 a referncia o
censo do ano 2000.
Estes estratos so determinados a partir dos municpios que fazem parte das regies metropolitanas bem como por
municpios situados em unidades da federao sem regio metropolitana.
5
Um municpio dito auto-repesentativo se apresentar populao que seja maior que 80% do tamanho do estrato
estabelecido para Unidade da Federao em questo com base no ltimo censo, IBGE (2007).
6
deve-se ressaltar que ao longo de toda a dcada, so mantidos constantes na PNAD os setores selecionados nos
municpios das regies metropolitanas, auto-representativos e no auto-representativos no incio da dcada.
declarados apresentam subestimao de cerca de 31% do seu valor real. Apesar de estes fatores
promoverem efeitos sobre os resultados, eles no invalidam a anlise de dados sobre rendimentos
a partir dos questionrios da PNAD9.
2. Extrao dos dados da PNAD
Diversos so os softwares que podem ser utilizados para extrao dos dados da PNAD,
como o SPSS, STATA ou SAS, para este ltimo o IBGE fornece o algoritmo para extrao dos
dados. No presente estudo todos os procedimentos estaro baseados na linguagem utilizada pelo
software STATA 10.1.
A PNAD pode ser considerada como uma grande matriz de k variveis por n
observaes, que disponibilizada em dois arquivos de dados, um para as caractersticas ligadas
s pessoas e outro para o domiclio.
Para extrao propriamente dita dos dados alguns passos devem ser seguidos:
1- Abrir a pasta com o nome Layout que contm os dicionrios da pesquisa, esses
dicionrios mostram a estrutura de seleo de cada varivel. A seleo determinada pela
posio inicial e o nmero de colunas:
Mais detalhes sobre as restries das PNADs podem ser encontrados em Hoffmann (1998), Del
Grossi e Graziano (2002) e Rocha (2002).
8
10
11
%15.0g;
12
#delimit;
infix ano 1-4 uf 5-6 controle 5-12 serie 13-15
sexo 18-18 idade 27-29 cond_fam 31-31
cor 33-33 edu 668-669 rend_tod 702-713 peso 756-760 num_fam 32-32 if uf==31
using "D:\GILNEI\PNADS\2007\Dados\PES2007.txt";
#delimit cr
* JUNCAO DAS INFORMACOES DE DESENHO DA AMOSTRA
* AO ARQUIVO DE PESSOAS DA PNAD 2007
#delimit ;
sort controle serie;
format controle %15.0g;
format serie
%15.0g;
13
#delimit ;
keep if _merge == 3;
drop _merge;
#delimit cr
sum
save "D:\GILNEI\AULAS\2007\pess07.dta", replace
*************************************************************************************
2- A declarao da pesquisa como sendo de amostra complexa realizada a partir do comando
svy.
fpc(varname)
vce(jacknife)
singleunit (method) estratos com uma unidade amostral: mtodos: missing (default), certainty,
scaled ou centered.
Pode-se usar ssu _n para indicar que os indivduos foram selecionados aleatoriamente
dentro do ltimo estgio amostral.
2.1.2. svydes
svydes [varlist], options
Opes
single: demonstra apenas os estratos com PSU nico
finalstage: quando especificado, uma linha produzida para cada unidade amostral. Cada linha
contm o nmero de observaes para a respectiva unidade amostral.
2.1.3. estat effects:
necessrio uma estimativa anterior (mdia, por ex., diferena de mdias, etc.)
2.1.4. svy estimation
Para estatstica descritiva, o prefixo svy suporta: mean, proportion, ratio e total. Alguns
modelos de regresso aceitos: regress, tobit, biprobit, logit, probit, clogit, mlogit/probit,
ologit/probit, poisson, ivregress, heckman. Exemplos:
svy: regress [varlist]
svy: mean [varname]
svy: heckman [varlist]
2.1.5. svy postestimation
15
Pode
ser
utilizado
depois
de
estimaes
com
svy,
dentre
outros,
mfx
(efeitos
16
svydes, single
save "D:\GILNEI\AULAS\2007\pess07.dta", replace
17
#delimit;
keep if _merge == 3;
drop _merge;
#delimit cr
replace peso=novopeso
save "D:\GILNEI\AULAS\2003\pess03.dta" , replace
*************************************************************************
*************************************************************************
3 Aps toda a preparao dos dados da PNAD, na juno dos dados, substituio dos pesos,
quando necessrio, e na declarao da pesquisa como sendo uma amostra complexa o prximo passo
consiste no tratamento das variveis de interesse. O ajustamento de algumas variveis advm da
necessidade de retirar alguns dados discrepantes, dados no declarados ou apenas pela necessidade de
transformao das variveis em questo, ou mesmo a criao de novas variveis.
****************************************************************************
*** tratamento das variveis***
****************************************************************************
***RETIRANDO OUTLIERS DAS VARIVEIS DE RENDA***
use "D:\GILNEI\AULAS\2007\pess07.dta", clear
recode rend_tod (1.00e+12/2.29e+12=.) (-1=.)
***gerando o logaritmo da renda de todos os trabalho ***
gen ln_rend_tod = ln(rend_tod)
***gerando Dummy p/ sexo****
**masculino = 1 ; feminino = 0 ***
recode sexo (2=1) (4=0)
*************OUTRA FORMA DE CRIAR DUMMY'S E ATRAVES DO COMANDO
18
19
sort fam;
#delimit cr
**************************************************************************
*** criando as regies do pas*****
*regiao 1 = CENTRO-OESTE
*regiao 2 = SUDESTE
*regiao 3 = NORTE
*regiao 4 = SUL
*regiao 5 = NORDESTE
#delimit
recode uf (99=.);
gen regiao =.;
replace regiao = 1 if uf >=50 & uf < 88;
replace regiao = 2 if uf >=31 & uf <= 35;
replace regiao = 4 if uf >=41 & uf <=43;
replace regiao = 3 if uf <=17;
replace regiao = 5 if uf >=21 & uf <=29;
#delimit cr;
******************************************************************************
4- As estatsticas descritivas devem ser realizadas considerando o efeito do plano amostral, ou
seja, devem ser realizadas a partir do comando svy.
******************************************************************************
***ESTATSTICAS DESCRITIVAS***
******************************************************************************
#delimit;
svy: mean rend_tod;
svy: proportion sexo;
20
******************************************************************************
***ANLISE DE REGRESSO***
******************************************************************************
4. REFERNCIAS
COCHRAN, W.G. 1977. Sampling Techniques, 3rd Edition. New York: John Wiley & Sons.
CORRA, A. M. C. J. 1998. Distribuio de renda e pobreza na agricultura brasileira (19811990), Editora UNIMEP, Piracicaba. 260 p.
DEL GROSSI, M. E. and GRAZIANO, J. S. 2002. O uso das PNADs para reas rurais. Rio de
Janeiro: IPEA, Texto para Discusso 874, Abril de.
EFRON, B. 1979. Bootstrap methods: another look at the Jackknife. Annals of Statistics, v.7,
n.1, p. 1-26, Jan.
21
GRAZIANO DA SILVA, J., DEL GROSSI, E. 2001 O novo rural brasileiro: uma atualizao
para 1992-98. IE/Unicamp.
GUIMARES, P. W. 2007. Variao de renda familiar, desigualdade e pobreza no Brasil.
Tese (doutorado) Universidade Federal de Viosa.
HOFFMANN. R. and SIMO, R. C. S. 2005. Determinantes do rendimento das pessoas
ocupadas em Minas Gerais em 2000: o limiar no efeito da escolaridade e as diferenas entre
mesorregies. Nova Economia, v. 15, n. 2, p. 35-62, maio/ago.
IBGE,
Instituto
Brasileiro
de
Geografia
Estatstica.
2007.
Available
in
<http://www.sidra.ibge.gov.br/bda/tabela/protabl.asp?z=p&o=16&i=P>.
KISH, L. 1965. Survey Sampling. New York: Wiley.
KNEIPP, S.M.; Yarandi H.N. 2002. Complex sampling designs and statistical issues, in
secondary analysis. West J Nurs Res; 24(5): 552-66.
22