Apresenta Æo em PDF - PNADcIBGE

Explorando os Microdados das Pesquisas
Domiciliares Amostrais do IBGE
Gabriel Henrique Oliveira Assunção (IBGE/DPE/COREN/GEMC)

ESTRUTURA
1. O Sistema Integrado de Pesquisas Domiciliares (SIPD)
2. Planejamento da Amostra Mestra
3. Entendendo o pacote PNADcIBGE – R
4. Exemplos
5. Exercícios
2
1. O Sistema Integrado de Pesquisas
Domiciliares (SIPD)
3
• Demanda crescente por informações atualizadas em

curto prazo.
• Integrar diversas pesquisas sem sobrecarregar uma única

pesquisa com vários temas.
• Consolidação dos conceitos investigados entre as

diferentes pesquisas, partilhando seus custos
operacionais.
• Padronização de métodos de seleção, esquemas de

rotação e estimação.
• Definição do Cadastro Mestre e da Amostra Mestra.
4
• Cadastro Mestre é a base com todos os setores

censitários elegíveis para composição da Amostra
Mestra.
• Setor censitário é a unidade territorial estabelecida para

fins de controle cadastral, formado por área contínua,
situada em um único quadro urbano ou rural, com
dimensão e número de domicílios que permitam o
levantamento por um recenseador.
• O Cadastro Mestre abrange todos os setores censitários

do território nacional excluindo algumas áreas como
agrupamentos quilombolas e indígenas.
5
• Amostra Mestra é um conjunto de unidades de área

selecionadas de um cadastro, segundo um método
probabilístico de seleção.
• A seleção das subamostras das diversas pesquisas

pode ocorrer a partir de unidades de área ou de
domicílios em todas as unidades de área selecionadas
para a Amostra Mestra.
• As subamostras podem ser selecionadas de forma

independente ou com controle para obtenção ou não de
sobreposição das amostras.
• Domicílios que fizerem parte de uma pesquisa terão um

período de descanso antes de serem incluídos em outra.
6
• PNAD Contínua: investiga as características

econômicas e sociais da população,
principalmente aquelas relacionadas ao mercado
de trabalho.
• POF: obtém informações sobre os padrões de

consumo e gastos das famílias, servindo de base
para avaliação de insegurança alimentar,
qualidade de vida, além de ser base para a
composição dos índices de preços divulgados pelo
IBGE.
• PNS: objetiva caracterizar a situação de saúde e

os estilos de vida da população (como acesso e
uso dos serviços, ações preventivas, continuidade
dos cuidados e financiamento da assistência).
7
8
• Unidades Primárias de Amostragem (UPAs) são setores

censitários ou conjunto de setores censitários com pelo
menos 60 domicílios particulares permanentes
(ocupados, fechados, vagos ou uso ocasional).
• Para cada uma dessas unidades são associadas

informações sobre divisões administrativas, contagens
populacionais e outras características
sociodemográficas.
• A principal fonte de informação para o cadastro é o

censo demográfico, entretanto, no decorrer de cada ano
são realizadas atualizações a partir da Base Operacional
Geográfica (BOG).
9
As UPAs foram estratificadas segundo características:
➢ Administrativas;
➢ Geográficas e Espaciais;
➢ De situação (Urbana e Rural);
➢ Estatísticas.
Cada estrato deve ter pelo menos 150 UPAs.
10
• A estratificação das UPAs leva em consideração os

objetivos de todas as pesquisas do SIPD.
• Permite o controle da seleção e do tamanho da amostra

para possíveis domínios de divulgação.
• Garante espalhamento da amostra no território.
• Controla a precisão das estimativas por domínio de

estimação.
• Busca facilitar as operações de controle de coleta, além

de reduzir custos.
11
• O plano amostral é conglomerado em dois estágios com

estratificação das UPAs.
• No primeiro estágio ocorre a seleção de UPAs com

probabilidade proporcional ao número de domicílios.
• Já no segundo estágio ocorre a seleção dos domicílios por

amostragem aleatória simples que farão parte da pesquisa.
12
Como a PNAD Contínua é a principal pesquisa do SIPD para

definir o tamanho de amostra é preciso levar em consideração
alguns aspectos de sua formulação:
• Pesquisa trimestral;
• Rotação da amostra de UPAs, com sobreposição de domicílios

em trimestres consecutivos;
• Esquema de rotação escolhido: 1 mês - 2 meses (5 entrevistas);
• Criação de 15 grupos para operacionalizar o esquema de

rotação, cada um possuindo 8 rotações;
• Seleção de 14 domicílios em todas as 15.096 UPAs da Amostra

Mestra, totalizando 211.344 domicílios por trimestre.
13
PNAD Contínua
Trimestre X Trimestre X+1
20% 20%
1ª Entrevista 2ª Entrevista
20% 20%
20% 20%
20% 20%
20% 17,5% - nova seleção de domicílios

5ª Entrevista 2,5% - seleção de UPAs
1ª Entrevista
14
• Como a PNAD Contínua é uma pesquisa por amostragem

probabilística, para obtenção dos resultados de maneira correta
é imprescindível a associação de um fator de expansão ou peso
a cada unidade selecionada (UPAs, domicílios e moradores).
• Para os pesos de cada unidade são levados em consideração

as probabilidades de seleção, os ajustes por não resposta e de
calibração.
• Há ainda, peso trimestral, utilizado para as estimativas

produzidas trimestralmente, e peso anual, quando os
indicadores têm por referência o ano.
• Para os pesos das UPAs produzidos trimestralmente, são

consideradas a probabilidade de seleção da UPA no grupo de
rotação e a razão dos domicílios particulares permanentes
ocupados e fechados da UPA em relação as demais UPAs do
grupo de rotação.
15
• Para as estimativas calculadas apenas uma vez por ano, com

acumulação das amostras trimestrais não sobrepostas de UPAs,
o cálculo dos pesos leva em conta a utilização de apenas 80% da
amostra.
16
• Para a definição do peso por domicílio, primeiramente é

calculado o peso básico que é dado pelo inverso da
probabilidade de seleção do domicílio, que é igual em cada UPA,
e pode ser decomposto na parcela correspondente à seleção da
UPA e na parcela correspondente à seleção dos domicílios
dentro da UPA.
• Após a determinação do peso básico, ele é ajustado para

compensar as perdas de entrevistas por não resposta, ou seja,
entrevistas não realizadas por recusa do informante, por não
contato com o morador ou por outro motivo para perda em
domicílios ocupados.
• Por fim, com o intuito de melhorar a qualidade das estimativas é

realizada a calibração, onde os pesos são ajustados para que
ao estimar o total populacional de certos níveis geográficos, a
estimativa obtida coincida com a estimativa populacional do dia
15 do mês do meio do trimestre de referência nas estimativas
trimestrais e no dia 01 de Julho para estimativas anuais.
17
• Os principais indicadores da pesquisa são totais de

características de interesse ou razões entre totais de duas
características, como taxas. Outros indicadores de interesse em
pesquisas como a PNAD Contínua dizem respeito a diferenças
dos indicadores em dois períodos de tempo subsequentes.
• As estimativas de variância são obtidas usando o método do

Ultimate Cluster, também conhecido como método do
Conglomerado Primário, sendo que para estimar a variância dos
estimadores de razão é utilizada uma aproximação da variância
de uma razão através de Linearização de Taylor.
• Quando o estimador é uma diferença entre indicadores

trimestrais, a sua variância é composta pelas variâncias dos dois
indicadores trimestrais e pela covariância entre estes
indicadores. A sobreposição da amostra em trimestres
subsequentes melhora a precisão da estimativa das diferenças,
pois quanto maior for a sobreposição, espera-se que a
covariância seja também maior, reduzindo a variância da
estimativa. 18
19
Por que utilizar o software R?
• É um software gratuito.
• Possui código fonte aberto.
• Grande variedade de métodos e pacotes.
• Atualizações simples e rápidas.
• Capaz de considerar todo o plano amostral da PNAD Contínua

para realizar as análises corretamente.
20
Principais pacotes para facilitar a análise e modelagem dos

microdados da PNAD Contínua no R:
• PNADcIBGE: permite baixar e preparar os microdados da

PNAD Contínua para análise.
• survey: pacote que permite análise e modelagem de dados

provenientes de pesquisas com amostras complexas.
• convey: pacote para análise de concentração de renda para

amostras complexas.
• lavaan.survey: modelos de equações estruturais para amostras

complexas.
21
O pacote PNADcIBGE foi desenvolvido com o intuito de facilitar a

importação, leitura e análise dos microdados da PNAD Contínua.
Apresenta funções bem simples e métodos que possibilitam o uso

destas informações de maneira correta.
IMPORTANTE! Existem dois tipos de microdados da PNAD Contínua:
• Trimestral: dados do Núcleo Básico investigado pela pesquisa,

como as variáveis conjunturais de mercado de trabalho,
referentes a um trimestre civil;
• Anual: dados dos Temas Estruturais específicos, como as

variáveis de habitação e de rendimento de outras fontes,
investigados pela pesquisa em um ano civil.
O manual deste pacote está disponível em:

<https://rpubs.com/BragaDouglas/335574>
22
O pacote PNADcIBGE também está disponível no repositório

CRAN do R, onde pode ser acessada sua documentação.
Para instalar este pacote basta utilizar o seguinte comando:
Sendo que antes de utilizá-lo é necessário realizar o procedimento

de carregar o pacote no R utilizando o comando:
23
A descrição e documentação deste pacote podem ser

acessadas através dos comandos:
24
O pacote PNADcIBGE permite carregar os microdados da

PNAD Contínua de duas formas distintas:
1. Leitura diretamente do site do IBGE – realiza o download

dos microdados e carrega-os no R. Tem por vantagem o uso
da base de microdados mais atualizada disponibilizada, a
incorporação direta dos rótulos (nomes) das variáveis, o
fornecimento das variáveis para deflacionamento e a
aplicação do plano amostral da pesquisa.
2. Leitura da base de microdados que já foi salva no
computador. Tem por vantagem não necessitar de conexão
com internet.
Recomendamos a leitura diretamente do site do IBGE!
25
Para realizar a leitura dos microdados de forma online, basta

utilizar o comando get_pnadc conforme pode ser observado:
• year: indica o ano dos microdados desejados;
• quarter: indica o trimestre desejado para microdados

trimestrais, sendo apenas uma opção permitida entre quarter,
interview e topic;
• interview: indica o número da entrevista desejada para

microdados anuais, sendo apenas uma opção permitida entre
quarter, interview e topic;
• topic: indica o número do trimestre referente ao tema coletado

desejado para microdados anuais, sendo apenas uma opção
permitida entre quarter, interview e topic;
26

utilizar o comando get_pnadc conforme pode ser observado:
• vars: recebe um vetor de caracteres com o nome das variáveis

a serem baixadas. Caso nenhuma variável seja passada, todas
as variáveis disponíveis na pesquisa são baixadas. É útil caso
deseje trabalhar com poucas variáveis, pois assim o objeto
ocupará um espaço menor na memória do computador.
• defyear: indica o ano dos deflatores desejados, sendo utilizada
somente para os microdados anuais;
• defperiod: indica o trimestre dos deflatores, sendo utilizada

somente para os temas anuais coletados em determinado
trimestre;
27

utilizar o comando get_pnadc conforme abaixo:
• labels: indica se os níveis das variáveis categóricas devem ser rotuladas de

acordo com o dicionário da pesquisa. O padrão é rotulá-los. Esse atributo
utiliza a função pnadc_labeller.
• deflator: indica se devem ser acrescentadas as variáveis de deflatores para

realização do deflacionamento nas análises. É recomendado que mantenha
essa opção como TRUE. O padrão é adicionar tais variáveis. Esse atributo
utiliza a função pnadc_deflator.
• design: indica se a função deve retornar um objeto do plano amostral para

análise com o pacote survey. Caso design=FALSE, a função retorna apenas
os microdados originais. É altamente recomendado que mantenha essa
opção como TRUE, caso contrário suas análises para a população estarão
incorretas. Esse atributo utiliza a função pnadc_design.
• savedir: indica o diretório onde será salvo o arquivo de microdados no

computador. É argumento opcional. Caso não seja indicado, o arquivo será
salvo em uma pasta temporária. 28
Para realizar a leitura dos microdados de forma offline, deve-se

utilizar o comando read_pnadc conforme abaixo:
• microdata: diretório completo do arquivo, em formato txt, dos

microdados que foi baixado do site do IBGE e já está salvo no
computador;
• input_txt: diretório completo do arquivo, em formato txt, do

script de leitura em SAS. Esse script é disponibilizado pelo
IBGE junto com os microdados e já deve ter sido baixado e
salvo no seu computador;
• vars: vetor com os nomes das variáveis a serem baixadas.
Caso nenhuma variável seja indicada, todas as variáveis
disponíveis na pesquisa serão lidas. Esse argumento é útil para
selecionar um conjunto das variáveis, rodando assim mais
rápido, já que ocupará menos memória do computador.
29
Para rotular os microdados que foram carregados de forma offline

ou que foram baixados sem a opção de labels=TRUE, deve-se
utilizar o comando pnadc_labeller conforme abaixo:
• data_pnadc: objeto do tipo tibble com os microdados da PNAD

Contínua, obtidos a partir da função read_pnadc ou da função
get_pnadc mantendo os atributos labels=FALSE e
design=FALSE.
• dictionary.file: diretório completo do arquivo, em formato xls,

do dicionário da PNAD Contínua obtido através do site do IBGE.
30
Para adicionar as variáveis de deflatores aos microdados que

foram carregados de forma offline ou que foram baixados sem a
opção de deflator=TRUE, deve-se utilizar o comando
pnadc_deflator conforme abaixo:

Contínua, obtidos a partir da função read_pnadc ou da função
get_pnadc mantendo os atributos deflator=FALSE e
design=FALSE.
• deflator.file: diretório completo do arquivo, em formato xls, dos

deflatores da PNAD Contínua obtido através do site do IBGE.
31
Para utilização correta do deflacionamento, acessar as

documentações disponibilizadas nos endereços abaixo:
Microdados Trimestrais:
ftp://ftp.ibge.gov.br/Trabalho_e_Rendimento/Pesquisa_Nacional_p
or_Amostra_de_Domicilios_continua/Trimestral/Microdados/Docu
mentacao/PNADcIBGE_Deflator_Trimestral.pdf
Microdados Anuais Acumulados em Determinada Visita:

or_Amostra_de_Domicilios_continua/Anual/Microdados/Visita/Doc
umentacao_Geral/PNADcIBGE_Deflator_Anual_Visita.pdf
Microdados Anuais Concentrados em Determinado Trimestre:

or_Amostra_de_Domicilios_continua/Anual/Microdados/Trimestre/
Documentacao_Geral/PNADcIBGE_Deflator_Anual_Trimestre.pdf
32
Para incorporar o plano amostral nos microdados que foram

carregados de forma offline ou que foram baixados sem a opção
de design=TRUE, deve-se utilizar o comando pnadc_design
conforme abaixo:

Contínua, que são obtidos a partir da função read_pnadc ou da
função get_pnadc mantendo os atributos design=FALSE.
33
Por fim, existe uma função, pnadc_example, para exibir os arquivos de
exemplo do 4º trimestre de 2017 da PNAD Contínua que são baixados junto
com o pacote PNADcIBGE e podem ser úteis para realização de testes.
• path: nome do arquivo de exemplo desejado dentre as opções

apresentadas acima e em caso de NULL serão apresentados os arquivos
de exemplos disponíveis.
➢ deflatorexample.xls: arquivo em formato xls com os deflatores da PNAD

Contínua para ser utilizado como exemplo na função pnadc_deflator. Para
leitura deste arquivo também pode ser utilizado o pacote readxl e sua função
read_excel.
➢ dictionaryexample.xls: arquivo em formato xls com o dicionário da PNAD

Contínua para ser utilizado como exemplo na função pnadc_labeller. Para
leitura deste arquivo também pode ser utilizado o pacote readxl e sua função
read_excel.
➢ exampledata.txt: arquivo em formato txt com os microdados da PNAD

Contínua para ser utilizado como exemplo na função read_pnadc.
➢ input_example.txt: arquivo em formato txt com o input do SAS dos microdados

da PNAD Contínua para ser utilizado como exemplo na função read_pnadc.
34
É possível ainda exportação dos microdados carregados (sem o

plano amostral incorporado) com o pacote PNADcIBGE para
outros softwares que o usuário possua maior familiaridade.
Para isto, deve ser utilizado o pacote haven e os seguintes

comandos para criação das bases em formatos que compatíveis
com o SAS, Stata e SPSS, respectivamente:
35
Os planejamentos para próximas versões do pacote

PNADcIBGE e também novos pacotes no âmbito das pesquisas
domiciliares que compõem o SIPD preveem implementar as
seguintes demandas:
➢ Leitura dos microdados das demais pesquisas integrantes do

SIPD (POF 2008-2009, PNS 2013, POF 2017-2018 e PNS
2019), quando houver microdados públicos disponíveis.
➢ Disponibilização de um pacote de coleção que irá ser

composto pelos pacotes relacionados a cada uma das
pesquisas domiciliares, a fim de facilitar sua integração.
➢ Utilização do SQLite em conjunto com os pacotes para

armazenamento e acesso dos microdados, tendo por intuito
maximizar o desempenho do pacote.
36
4. Exemplos
37
4. Exemplos
Pacotes necessários:
• PNADcIBGE, para leitura dos dados e incorporação dos rótulos, dos
deflatores e do plano amostral;
• survey, pacote criado especificamente para análise e modelagem de
dados provenientes de pesquisas com planos amostrais complexos.
Maiores detalhes sobre o pacote podem ser encontrados no site do autor:
<http://faculty.washington.edu/tlumley/old-survey/index.html>.
Microdados necessários:
• PNAD Contínua – 3º trimestre de 2018.
Variáveis a serem utilizadas:

• Sexo – V2007;
• Idade do morador na data de referência – V2009;
• Cor ou raça – V2010;
• Nível de instrução mais elevado alcançado (pessoas de 5 anos ou mais
de idade) – VD3004;
• Rendimento mensal habitual de todos os trabalhos para pessoas de 14
anos ou mais de idade – VD4019;
• Horas habitualmente trabalhadas por semana em todos os trabalhos para
pessoas de 14 anos ou mais de idade – VD4031. 38
4. Exemplos
Passo 1:
Carregar os microdados com o auxílio do pacote PNADcIBGE e
delimitar somente as variáveis que serão utilizadas.
Código:
Com o uso da função get_pnadc, os dados estarão preparados,

inclusive com os rótulos das variáveis, a disponibilização das
variáveis de deflatores e a incorporação do plano amostral, para
serem analisados corretamente. Para as análises será utilizado o
pacote survey e suas respectivas funções.
39
4. Exemplos
Passo 2:
Carregar o pacote survey para realizar as análises. Caso
contrário, as funcionalidades deste pacote não estarão
disponíveis.
Uma boa prática é primeiro verificar se o pacote já está
instalado no computador e depois carrega-lo.
Código:
40
4. Exemplos
Exemplo 1:
Estimar o total de uma variável numérica, como o rendimento
mensal habitual de todos os trabalhos para pessoas de 14 anos ou
mais de idade.
Será utilizada a função svytotal do pacote survey.
Código:
Obs.: 1. O comando options é utilizado para evitar notações exponenciais

nos resultados que serão exibidos;
2. Na função svytotal, o argumento x representa a fórmula, vetor ou
matriz com variáveis que serão utilizadas, no argumento design é
informada a base de dados no formato contendo o plano amostral
incorporado, e, por fim, o argumento na.rm serve somente para excluir
valores faltantes nos microdados da análise que está sendo realizada.
41
4. Exemplos
Exemplo 2:
Obter o coeficiente de variação e os intervalos de confiança a 95%
para a estimativa do total do rendimento mensal habitual de todos
os trabalhos para pessoas de 14 anos ou mais de idade.
A função svytotal informa, junto com a estimativa do total, o erro-
padrão dessa estimativa.
Códigos:
42
4. Exemplos
Exemplo 3:
Estimar o total de sexo e cor/raça, isto é, considerando as
categorias destas duas variáveis.
A função svytotal também permite obter estimativas por categorias
de variáveis categóricas.
Código:
43
4. Exemplos
Exemplo 4:
1 – Estimar a média da variável de rendimento mensal habitual.
A função svymean do pacote survey possui sintaxe idêntica a da
svytotal. Porém é utilizada para estimativas de média e não total.
Código:
2 – Estimar a proporção de pessoas por sexo.

É possível utilizar esta mesma função svymean para variáveis
categóricas, porém o resultado nesse caso será a estimativa das
proporções de cada grupo.
Código:
44
4. Exemplos
Exemplo 5:
Estimar a mediana, os quartis e os percentis 90, 95 e 98 da
variável de rendimento mensal habitual.
A função svyquantile do pacote survey tem os mesmo argumentos
da svymean acrescido do argumento quantile, que define os
quantis que serão estimados. Este argumento aceita como entrada
um vetor, possibilitando a obtenção conjunta de vários quantis.
Vale lembrar que o quantile 0.50 corresponde à mediana.
Código:
45
4. Exemplos
Exemplo 6:
Estimar a média da variável de rendimento mensal habitual das
mulheres com mais de 30 anos.
A função subset do pacote survey permite a análise para um
domínio específico da população.
Código:
46
4. Exemplos
Exemplo 7:
Estimar a proporção de homens e mulheres por nível de instrução mais
elevado alcançado.
A função svyby do pacote survey permite estimar quantidade de interesse
para domínios mutualmente exclusivos, de forma a permitir comparação
entre eles.
Código:
Obs.: O argumento formula indica a variável para a qual será obtida a estimativa; o
argumento by define a variável com domínios mutualmente exclusivos; design
indica a base de dados com o plano amostral incorporado; FUN indica a
função da estimativa de interesse; na.rm remove os valores faltantes; e
vartype define a medida de variabilidade que será exibida, por exemplo,
variância, erro-padrão ou coeficiente de variação.
47
4. Exemplos
Exemplo 8:
Construir um boxplot do número de horas habitualmente trabalhadas por
semana em todos os trabalhos, por sexo.
A função svyboxplot do pacote survey constrói boxplot que considera o
plano amostral dos dados.
Código:
Obs.: O argumento formula

indica a variável para a qual será
obtida a distribuição seguida
pela variável categórica dos
grupos a serem analisados;
design indica a base de dados
com o plano amostral
incorporado; e all.outliers define
se todos os outliers serão
mostrados ou apenas os mais
extremos.
48
4. Exemplos
Exemplo 9:
Construir um histograma do número de horas habitualmente trabalhadas
por semana em todos os trabalhos.
A função svyhist do pacote survey constrói histogramas considerando o
plano amostral e tem os mesmo argumentos da svyboxplot acrescido dos
argumento main, xlab e ylab, que definem título principal e rótulo dos
eixos.
Código:
49
4. Exemplos
Exemplo 10:
Construir um gráfico de dispersão para verificar a relação entre horas
habitualmente trabalhadas por semana em todos os trabalhos e
rendimento mensal habitual de todos os trabalhos.
A função svyplot do pacote survey constrói gráfico de dispersão
considerando o plano amostral e tem os mesmo argumentos da svyhist
acrescido do argumento style que define o estilo dos pontos desenhados.
Código:
50
4. Exemplos
Exemplo 11:
Testar, utilizando o Teste t de Student, se a diferença da variável
de rendimento utilizada entre os sexos é estatisticamente
significativa.
A função svyttest do pacote survey realiza o Teste t para as
estimativas, já considerando o desenho amostral dos dados. A
função possui argumentos semelhantes as das funções já aqui
apresentadas.
Código:
51
4. Exemplos
Comentários gerais:
1. O pacote survey permite realizar algumas modelagens, como
modelos de regressão linear, de regressão logística e outros
modelos lineares generalizados. Para maiores detalhes das
funções deste pacote, pode-se utilizar o comando abaixo para
navegar pelas páginas do manual:
2. Ainda, outras temáticas específicas, como Índice de Gini, Curva

de Lorenz, Índice de Zenga, estão disponíveis com o auxílio do
pacote convey. As informações detalhadas deste pacote podem
ser vistas com o auxílio dos comandos seguintes:
52
5. Exercícios
53
5. Exercícios
Exercício 1:
Carregar os pacotes necessários e realizar os seguintes passos:
1. Realizar a leitura das bases trimestrais do 3º trimestre de 2017
ao 3º trimestre de 2019;
2. Realizar a leitura das bases anuais de 1ª entrevista de 2018 e
5ª entrevista de 2018;
3. Realizar a leitura das bases anuais para temas do 2º trimestre
de 2017 (Educação Anual) e 4º trimestre de 2017 (TIC);
4. Acrescentar os rótulos e as variáveis de deflatores nas bases
trimestrais e anuais geradas;
5. Incorporar o plano amostral nestas bases para obtenção correta
dos resultados dos exercícios posteriores.
Objetivo: Treinar a utilização do pacote PNADcIBGE para a leitura correta

dos dados, além de comandos básicos do R, como junção de
bases, e ressaltar a importância de se manter a informação de
deflatores junto aos microdados para analisar corretamente em
diferentes momentos do tempo rendimentos e massas de
rendimento, conforme mencionado nesta apresentação.
54
5. Exercícios
Exercício 2:
Para todos os trimestres de 2018, obter:
1. Total da população por nível de instrução mais elevado
alcançado (VD3004);
2. Média do rendimento real mensal habitual de todos os
trabalhos (A variável nominal deste rendimento, isto é, não
deflacionada, é a VD4019);
3. Média do rendimento real mensal efetivo de todos os
trabalhos (A variável nominal deste rendimento, isto é, não
deflacionada, é a VD4020).
Objetivo: Treinar a utilização de funções do pacote survey e obter alguns dos

indicadores fornecidos oficialmente pelo IBGE, possibilitando
conferir se a programação própria está correta.
55
5. Exercícios
Exercício 3:
Para as bases de 3º trimestre de 2017, 2018 e 2019, obter:
1. Proporção da população na força de trabalho e fora da força
de trabalho (VD4001);
2. Proporção da população na força de trabalho e fora da força
de trabalho (VD4001), levando em consideração somente a
população em idade de trabalhar (V2009), por nível de
instrução (VD3004).
Objetivo: Treinar a segregação das bases e o conhecimento em relação aos

dicionários de variáveis da PNAD Contínua.
56
5. Exercícios
Exercício 4:
Para todas as bases trimestrais, obter:
1. Taxa de desocupação, que é a razão entre a população
desocupada (VD4002) e a população na força de trabalho
(VD4001), de cada base trimestral;
2. Gráfico para o acompanhamento da série histórica das taxas
de desocupação calculadas acima.
Objetivo: Treinar funções diferentes do pacote survey e a elaboração de

gráficos com os índices obtidos através dos microdados da PNAD
Contínua.
57
5. Exercícios
Exercício 5:
Para a base anual de 1ª entrevista de 2018, obter total do
rendimento real domiciliar per capita por UF.
Obs.: 1. O rendimento domiciliar construído pelo IBGE desconsidera pessoas cuja

condição na unidade domiciliar (V2005) era pensionista, empregado doméstico
ou parente do empregado doméstico.
2. O rendimento nominal domiciliar per capita é a soma do rendimento nominal
habitualmente recebido em todos os trabalhos (VD4019) com o rendimento
nominal efetivamente recebido de outras fontes (VD4048);
3. O deflacionamento deve ser feito utilizando o deflator anual de 2018,
diferenciando os rendimentos habituais (CO2) dos rendimentos efetivos
(CO2e), obtendo assim os valores reais a preços médios do último ano;
4. Para a construção de variáveis domiciliares é necessário agregar as
informações dos moradores do domicílios. Isso pode ser feito por meio da
chave do domicílio (UPA, número de seleção do domicílio (V1008) e painel da
pesquisa (V1014)).
Objetivo: Treinar a utilização da chave de domicílio e a criação de variáveis

derivadas de outras variáveis dos microdados.
58
5. Exercícios
Exercício 6:
Para a base anual de 5ª entrevista de 2018, obter, por sexo:
1. Média de tempo dedicado (V4121B) em cuidado de pessoas (V4117A e V4119),
levando em consideração somente a população que não realizou afazeres
domésticos (V4120 e V4121A) e analisando o intervalo de confiança de 95%;
2. Média de tempo dedicado (V4121B) em afazeres domésticos (V4120 e V4121A),
levando em consideração somente a população que não realizou cuidado de
pessoas (V4117A e V4119) e analisando o intervalo de confiança de 95%;
3. Média de tempo dedicado (V4121B) em cuidado de pessoas e afazeres
domésticos (V4117A, V4119, V4120 e V4121A) e analisando o intervalo de
confiança de 95%.
Para as bases anuais de temas por trimestre de 2017, obter:

1. Taxa de analfabetismo (V3001) de pessoas com 15 anos ou mais de idade
(V2009) para as UFs do Sudeste comparando os níveis obtidos e analisando o
intervalo de confiança de 95% para a base de educação anual;
2. Média do rendimento domiciliar per capita (VDI5008) por Grande Região e pela
posse e tipo de televisão no domicílio (S01025), considerando somente a pessoa
responsável pelo domicílio (V2005), comparando os níveis obtidos e analisando o
intervalo de confiança de 95% para a base de TIC.
Objetivo: Treinar o entendimento de questões complexas e a combinação de

determinados valores de duas ou mais variáveis para obtenção de índices
específicos.
59
Agradecemos a todos pela atenção!
Estamos a disposição para quaisquer dúvidas!
Contatos:
Gabriel Henrique Oliveira Assunção
pacotepnadc@ibge.gov.br
gabriel.assuncao@ibge.gov.br
60

Apresenta Æo em PDF - PNADcIBGE

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apresenta Æo em PDF - PNADcIBGE

Enviado por

Direitos autorais:

Formatos disponíveis

Explorando os Microdados das Pesquisas

Domiciliares Amostrais do IBGE

Gabriel Henrique Oliveira Assunção (IBGE/DPE/COREN/GEMC)

1. O Sistema Integrado de Pesquisas Domiciliares (SIPD)

2. Planejamento da Amostra Mestra

3. Entendendo o pacote PNADcIBGE – R

• Demanda crescente por informações atualizadas em

• Integrar diversas pesquisas sem sobrecarregar uma única

• Consolidação dos conceitos investigados entre as

• Padronização de métodos de seleção, esquemas de

• Definição do Cadastro Mestre e da Amostra Mestra.

• Cadastro Mestre é a base com todos os setores

• Setor censitário é a unidade territorial estabelecida para

• O Cadastro Mestre abrange todos os setores censitários

• Amostra Mestra é um conjunto de unidades de área

• A seleção das subamostras das diversas pesquisas

• As subamostras podem ser selecionadas de forma

• Domicílios que fizerem parte de uma pesquisa terão um

• PNAD Contínua: investiga as características

• POF: obtém informações sobre os padrões de

• PNS: objetiva caracterizar a situação de saúde e

• Unidades Primárias de Amostragem (UPAs) são setores

• Para cada uma dessas unidades são associadas

• A principal fonte de informação para o cadastro é o

As UPAs foram estratificadas segundo características:

➢ De situação (Urbana e Rural);

Cada estrato deve ter pelo menos 150 UPAs.

• A estratificação das UPAs leva em consideração os

• Permite o controle da seleção e do tamanho da amostra

• Garante espalhamento da amostra no território.

• Controla a precisão das estimativas por domínio de

• Busca facilitar as operações de controle de coleta, além

• O plano amostral é conglomerado em dois estágios com

• No primeiro estágio ocorre a seleção de UPAs com

• Já no segundo estágio ocorre a seleção dos domicílios por

Como a PNAD Contínua é a principal pesquisa do SIPD para

• Rotação da amostra de UPAs, com sobreposição de domicílios

• Esquema de rotação escolhido: 1 mês - 2 meses (5 entrevistas);

• Criação de 15 grupos para operacionalizar o esquema de

• Seleção de 14 domicílios em todas as 15.096 UPAs da Amostra

20% 17,5% - nova seleção de domicílios

• Como a PNAD Contínua é uma pesquisa por amostragem

• Para os pesos de cada unidade são levados em consideração

• Há ainda, peso trimestral, utilizado para as estimativas

• Para os pesos das UPAs produzidos trimestralmente, são

• Para as estimativas calculadas apenas uma vez por ano, com

• Para a definição do peso por domicílio, primeiramente é

• Após a determinação do peso básico, ele é ajustado para

• Por fim, com o intuito de melhorar a qualidade das estimativas é

• Os principais indicadores da pesquisa são totais de

• As estimativas de variância são obtidas usando o método do

• Quando o estimador é uma diferença entre indicadores

Por que utilizar o software R?

• Possui código fonte aberto.

• Grande variedade de métodos e pacotes.

• Atualizações simples e rápidas.

• Capaz de considerar todo o plano amostral da PNAD Contínua

Principais pacotes para facilitar a análise e modelagem dos

• PNADcIBGE: permite baixar e preparar os microdados da

• survey: pacote que permite análise e modelagem de dados

• convey: pacote para análise de concentração de renda para

• lavaan.survey: modelos de equações estruturais para amostras