Você está na página 1de 60

Explorando os Microdados das Pesquisas

Domiciliares Amostrais do IBGE

Gabriel Henrique Oliveira Assunção (IBGE/DPE/COREN/GEMC)


ESTRUTURA

1. O Sistema Integrado de Pesquisas Domiciliares (SIPD)

2. Planejamento da Amostra Mestra

3. Entendendo o pacote PNADcIBGE – R

4. Exemplos

5. Exercícios

2
1. O Sistema Integrado de Pesquisas
Domiciliares (SIPD)

3
1. O Sistema Integrado de Pesquisas Domiciliares (SIPD)

• Demanda crescente por informações atualizadas em


curto prazo.

• Integrar diversas pesquisas sem sobrecarregar uma única


pesquisa com vários temas.

• Consolidação dos conceitos investigados entre as


diferentes pesquisas, partilhando seus custos
operacionais.

• Padronização de métodos de seleção, esquemas de


rotação e estimação.

• Definição do Cadastro Mestre e da Amostra Mestra.

4
1. O Sistema Integrado de Pesquisas Domiciliares (SIPD)

• Cadastro Mestre é a base com todos os setores


censitários elegíveis para composição da Amostra
Mestra.

• Setor censitário é a unidade territorial estabelecida para


fins de controle cadastral, formado por área contínua,
situada em um único quadro urbano ou rural, com
dimensão e número de domicílios que permitam o
levantamento por um recenseador.

• O Cadastro Mestre abrange todos os setores censitários


do território nacional excluindo algumas áreas como
agrupamentos quilombolas e indígenas.

5
1. O Sistema Integrado de Pesquisas Domiciliares (SIPD)

• Amostra Mestra é um conjunto de unidades de área


selecionadas de um cadastro, segundo um método
probabilístico de seleção.

• A seleção das subamostras das diversas pesquisas


pode ocorrer a partir de unidades de área ou de
domicílios em todas as unidades de área selecionadas
para a Amostra Mestra.

• As subamostras podem ser selecionadas de forma


independente ou com controle para obtenção ou não de
sobreposição das amostras.

• Domicílios que fizerem parte de uma pesquisa terão um


período de descanso antes de serem incluídos em outra.

6
1. O Sistema Integrado de Pesquisas Domiciliares (SIPD)

• PNAD Contínua: investiga as características


econômicas e sociais da população,
principalmente aquelas relacionadas ao mercado
de trabalho.

• POF: obtém informações sobre os padrões de


consumo e gastos das famílias, servindo de base
para avaliação de insegurança alimentar,
qualidade de vida, além de ser base para a
composição dos índices de preços divulgados pelo
IBGE.

• PNS: objetiva caracterizar a situação de saúde e


os estilos de vida da população (como acesso e
uso dos serviços, ações preventivas, continuidade
dos cuidados e financiamento da assistência).
7
2. Planejamento da Amostra Mestra

8
2. Planejamento da Amostra Mestra

• Unidades Primárias de Amostragem (UPAs) são setores


censitários ou conjunto de setores censitários com pelo
menos 60 domicílios particulares permanentes
(ocupados, fechados, vagos ou uso ocasional).

• Para cada uma dessas unidades são associadas


informações sobre divisões administrativas, contagens
populacionais e outras características
sociodemográficas.

• A principal fonte de informação para o cadastro é o


censo demográfico, entretanto, no decorrer de cada ano
são realizadas atualizações a partir da Base Operacional
Geográfica (BOG).

9
2. Planejamento da Amostra Mestra

As UPAs foram estratificadas segundo características:

➢ Administrativas;

➢ Geográficas e Espaciais;

➢ De situação (Urbana e Rural);

➢ Estatísticas.

Cada estrato deve ter pelo menos 150 UPAs.

10
2. Planejamento da Amostra Mestra

• A estratificação das UPAs leva em consideração os


objetivos de todas as pesquisas do SIPD.

• Permite o controle da seleção e do tamanho da amostra


para possíveis domínios de divulgação.

• Garante espalhamento da amostra no território.

• Controla a precisão das estimativas por domínio de


estimação.

• Busca facilitar as operações de controle de coleta, além


de reduzir custos.

11
2. Planejamento da Amostra Mestra

• O plano amostral é conglomerado em dois estágios com


estratificação das UPAs.

• No primeiro estágio ocorre a seleção de UPAs com


probabilidade proporcional ao número de domicílios.

• Já no segundo estágio ocorre a seleção dos domicílios por


amostragem aleatória simples que farão parte da pesquisa.

12
2. Planejamento da Amostra Mestra

Como a PNAD Contínua é a principal pesquisa do SIPD para


definir o tamanho de amostra é preciso levar em consideração
alguns aspectos de sua formulação:

• Pesquisa trimestral;

• Rotação da amostra de UPAs, com sobreposição de domicílios


em trimestres consecutivos;

• Esquema de rotação escolhido: 1 mês - 2 meses (5 entrevistas);

• Criação de 15 grupos para operacionalizar o esquema de


rotação, cada um possuindo 8 rotações;

• Seleção de 14 domicílios em todas as 15.096 UPAs da Amostra


Mestra, totalizando 211.344 domicílios por trimestre.

13
2. Planejamento da Amostra Mestra
PNAD Contínua
Trimestre X Trimestre X+1

20% 20%
1ª Entrevista 2ª Entrevista

20% 20%
2ª Entrevista 3ª Entrevista

20% 20%
3ª Entrevista 4ª Entrevista

20% 20%
4ª Entrevista 5ª Entrevista

20% 17,5% - nova seleção de domicílios


5ª Entrevista 2,5% - seleção de UPAs
1ª Entrevista

14
2. Planejamento da Amostra Mestra

• Como a PNAD Contínua é uma pesquisa por amostragem


probabilística, para obtenção dos resultados de maneira correta
é imprescindível a associação de um fator de expansão ou peso
a cada unidade selecionada (UPAs, domicílios e moradores).

• Para os pesos de cada unidade são levados em consideração


as probabilidades de seleção, os ajustes por não resposta e de
calibração.

• Há ainda, peso trimestral, utilizado para as estimativas


produzidas trimestralmente, e peso anual, quando os
indicadores têm por referência o ano.

• Para os pesos das UPAs produzidos trimestralmente, são


consideradas a probabilidade de seleção da UPA no grupo de
rotação e a razão dos domicílios particulares permanentes
ocupados e fechados da UPA em relação as demais UPAs do
grupo de rotação.
15
2. Planejamento da Amostra Mestra

• Para as estimativas calculadas apenas uma vez por ano, com


acumulação das amostras trimestrais não sobrepostas de UPAs,
o cálculo dos pesos leva em conta a utilização de apenas 80% da
amostra.

16
2. Planejamento da Amostra Mestra

• Para a definição do peso por domicílio, primeiramente é


calculado o peso básico que é dado pelo inverso da
probabilidade de seleção do domicílio, que é igual em cada UPA,
e pode ser decomposto na parcela correspondente à seleção da
UPA e na parcela correspondente à seleção dos domicílios
dentro da UPA.

• Após a determinação do peso básico, ele é ajustado para


compensar as perdas de entrevistas por não resposta, ou seja,
entrevistas não realizadas por recusa do informante, por não
contato com o morador ou por outro motivo para perda em
domicílios ocupados.

• Por fim, com o intuito de melhorar a qualidade das estimativas é


realizada a calibração, onde os pesos são ajustados para que
ao estimar o total populacional de certos níveis geográficos, a
estimativa obtida coincida com a estimativa populacional do dia
15 do mês do meio do trimestre de referência nas estimativas
trimestrais e no dia 01 de Julho para estimativas anuais.
17
2. Planejamento da Amostra Mestra

• Os principais indicadores da pesquisa são totais de


características de interesse ou razões entre totais de duas
características, como taxas. Outros indicadores de interesse em
pesquisas como a PNAD Contínua dizem respeito a diferenças
dos indicadores em dois períodos de tempo subsequentes.

• As estimativas de variância são obtidas usando o método do


Ultimate Cluster, também conhecido como método do
Conglomerado Primário, sendo que para estimar a variância dos
estimadores de razão é utilizada uma aproximação da variância
de uma razão através de Linearização de Taylor.

• Quando o estimador é uma diferença entre indicadores


trimestrais, a sua variância é composta pelas variâncias dos dois
indicadores trimestrais e pela covariância entre estes
indicadores. A sobreposição da amostra em trimestres
subsequentes melhora a precisão da estimativa das diferenças,
pois quanto maior for a sobreposição, espera-se que a
covariância seja também maior, reduzindo a variância da
estimativa. 18
3. Entendendo o pacote PNADcIBGE – R

19
3. Entendendo o pacote PNADcIBGE – R

Por que utilizar o software R?

• É um software gratuito.

• Possui código fonte aberto.

• Grande variedade de métodos e pacotes.

• Atualizações simples e rápidas.

• Capaz de considerar todo o plano amostral da PNAD Contínua


para realizar as análises corretamente.

20
3. Entendendo o pacote PNADcIBGE – R

Principais pacotes para facilitar a análise e modelagem dos


microdados da PNAD Contínua no R:

• PNADcIBGE: permite baixar e preparar os microdados da


PNAD Contínua para análise.

• survey: pacote que permite análise e modelagem de dados


provenientes de pesquisas com amostras complexas.

• convey: pacote para análise de concentração de renda para


amostras complexas.

• lavaan.survey: modelos de equações estruturais para amostras


complexas.

21
3. Entendendo o pacote PNADcIBGE – R

O pacote PNADcIBGE foi desenvolvido com o intuito de facilitar a


importação, leitura e análise dos microdados da PNAD Contínua.

Apresenta funções bem simples e métodos que possibilitam o uso


destas informações de maneira correta.

IMPORTANTE! Existem dois tipos de microdados da PNAD Contínua:

• Trimestral: dados do Núcleo Básico investigado pela pesquisa,


como as variáveis conjunturais de mercado de trabalho,
referentes a um trimestre civil;

• Anual: dados dos Temas Estruturais específicos, como as


variáveis de habitação e de rendimento de outras fontes,
investigados pela pesquisa em um ano civil.

O manual deste pacote está disponível em:


<https://rpubs.com/BragaDouglas/335574>
22
3. Entendendo o pacote PNADcIBGE – R

O pacote PNADcIBGE também está disponível no repositório


CRAN do R, onde pode ser acessada sua documentação.

Para instalar este pacote basta utilizar o seguinte comando:

Sendo que antes de utilizá-lo é necessário realizar o procedimento


de carregar o pacote no R utilizando o comando:

23
3. Entendendo o pacote PNADcIBGE – R

A descrição e documentação deste pacote podem ser


acessadas através dos comandos:

24
3. Entendendo o pacote PNADcIBGE – R

O pacote PNADcIBGE permite carregar os microdados da


PNAD Contínua de duas formas distintas:

1. Leitura diretamente do site do IBGE – realiza o download


dos microdados e carrega-os no R. Tem por vantagem o uso
da base de microdados mais atualizada disponibilizada, a
incorporação direta dos rótulos (nomes) das variáveis, o
fornecimento das variáveis para deflacionamento e a
aplicação do plano amostral da pesquisa.
2. Leitura da base de microdados que já foi salva no
computador. Tem por vantagem não necessitar de conexão
com internet.

Recomendamos a leitura diretamente do site do IBGE!

25
3. Entendendo o pacote PNADcIBGE – R

Para realizar a leitura dos microdados de forma online, basta


utilizar o comando get_pnadc conforme pode ser observado:

• year: indica o ano dos microdados desejados;

• quarter: indica o trimestre desejado para microdados


trimestrais, sendo apenas uma opção permitida entre quarter,
interview e topic;

• interview: indica o número da entrevista desejada para


microdados anuais, sendo apenas uma opção permitida entre
quarter, interview e topic;

• topic: indica o número do trimestre referente ao tema coletado


desejado para microdados anuais, sendo apenas uma opção
permitida entre quarter, interview e topic;
26
3. Entendendo o pacote PNADcIBGE – R

Para realizar a leitura dos microdados de forma online, basta


utilizar o comando get_pnadc conforme pode ser observado:

• vars: recebe um vetor de caracteres com o nome das variáveis


a serem baixadas. Caso nenhuma variável seja passada, todas
as variáveis disponíveis na pesquisa são baixadas. É útil caso
deseje trabalhar com poucas variáveis, pois assim o objeto
ocupará um espaço menor na memória do computador.
• defyear: indica o ano dos deflatores desejados, sendo utilizada
somente para os microdados anuais;

• defperiod: indica o trimestre dos deflatores, sendo utilizada


somente para os temas anuais coletados em determinado
trimestre;

27
3. Entendendo o pacote PNADcIBGE – R

Para realizar a leitura dos microdados de forma online, basta


utilizar o comando get_pnadc conforme abaixo:

• labels: indica se os níveis das variáveis categóricas devem ser rotuladas de


acordo com o dicionário da pesquisa. O padrão é rotulá-los. Esse atributo
utiliza a função pnadc_labeller.

• deflator: indica se devem ser acrescentadas as variáveis de deflatores para


realização do deflacionamento nas análises. É recomendado que mantenha
essa opção como TRUE. O padrão é adicionar tais variáveis. Esse atributo
utiliza a função pnadc_deflator.

• design: indica se a função deve retornar um objeto do plano amostral para


análise com o pacote survey. Caso design=FALSE, a função retorna apenas
os microdados originais. É altamente recomendado que mantenha essa
opção como TRUE, caso contrário suas análises para a população estarão
incorretas. Esse atributo utiliza a função pnadc_design.

• savedir: indica o diretório onde será salvo o arquivo de microdados no


computador. É argumento opcional. Caso não seja indicado, o arquivo será
salvo em uma pasta temporária. 28
3. Entendendo o pacote PNADcIBGE – R

Para realizar a leitura dos microdados de forma offline, deve-se


utilizar o comando read_pnadc conforme abaixo:

• microdata: diretório completo do arquivo, em formato txt, dos


microdados que foi baixado do site do IBGE e já está salvo no
computador;

• input_txt: diretório completo do arquivo, em formato txt, do


script de leitura em SAS. Esse script é disponibilizado pelo
IBGE junto com os microdados e já deve ter sido baixado e
salvo no seu computador;
• vars: vetor com os nomes das variáveis a serem baixadas.
Caso nenhuma variável seja indicada, todas as variáveis
disponíveis na pesquisa serão lidas. Esse argumento é útil para
selecionar um conjunto das variáveis, rodando assim mais
rápido, já que ocupará menos memória do computador.

29
3. Entendendo o pacote PNADcIBGE – R

Para rotular os microdados que foram carregados de forma offline


ou que foram baixados sem a opção de labels=TRUE, deve-se
utilizar o comando pnadc_labeller conforme abaixo:

• data_pnadc: objeto do tipo tibble com os microdados da PNAD


Contínua, obtidos a partir da função read_pnadc ou da função
get_pnadc mantendo os atributos labels=FALSE e
design=FALSE.

• dictionary.file: diretório completo do arquivo, em formato xls,


do dicionário da PNAD Contínua obtido através do site do IBGE.

30
3. Entendendo o pacote PNADcIBGE – R

Para adicionar as variáveis de deflatores aos microdados que


foram carregados de forma offline ou que foram baixados sem a
opção de deflator=TRUE, deve-se utilizar o comando
pnadc_deflator conforme abaixo:

• data_pnadc: objeto do tipo tibble com os microdados da PNAD


Contínua, obtidos a partir da função read_pnadc ou da função
get_pnadc mantendo os atributos deflator=FALSE e
design=FALSE.

• deflator.file: diretório completo do arquivo, em formato xls, dos


deflatores da PNAD Contínua obtido através do site do IBGE.

31
3. Entendendo o pacote PNADcIBGE – R

Para utilização correta do deflacionamento, acessar as


documentações disponibilizadas nos endereços abaixo:

Microdados Trimestrais:
ftp://ftp.ibge.gov.br/Trabalho_e_Rendimento/Pesquisa_Nacional_p
or_Amostra_de_Domicilios_continua/Trimestral/Microdados/Docu
mentacao/PNADcIBGE_Deflator_Trimestral.pdf

Microdados Anuais Acumulados em Determinada Visita:


ftp://ftp.ibge.gov.br/Trabalho_e_Rendimento/Pesquisa_Nacional_p
or_Amostra_de_Domicilios_continua/Anual/Microdados/Visita/Doc
umentacao_Geral/PNADcIBGE_Deflator_Anual_Visita.pdf

Microdados Anuais Concentrados em Determinado Trimestre:


ftp://ftp.ibge.gov.br/Trabalho_e_Rendimento/Pesquisa_Nacional_p
or_Amostra_de_Domicilios_continua/Anual/Microdados/Trimestre/
Documentacao_Geral/PNADcIBGE_Deflator_Anual_Trimestre.pdf

32
3. Entendendo o pacote PNADcIBGE – R

Para incorporar o plano amostral nos microdados que foram


carregados de forma offline ou que foram baixados sem a opção
de design=TRUE, deve-se utilizar o comando pnadc_design
conforme abaixo:

• data_pnadc: objeto do tipo tibble com os microdados da PNAD


Contínua, que são obtidos a partir da função read_pnadc ou da
função get_pnadc mantendo os atributos design=FALSE.

33
3. Entendendo o pacote PNADcIBGE – R
Por fim, existe uma função, pnadc_example, para exibir os arquivos de
exemplo do 4º trimestre de 2017 da PNAD Contínua que são baixados junto
com o pacote PNADcIBGE e podem ser úteis para realização de testes.

• path: nome do arquivo de exemplo desejado dentre as opções


apresentadas acima e em caso de NULL serão apresentados os arquivos
de exemplos disponíveis.

➢ deflatorexample.xls: arquivo em formato xls com os deflatores da PNAD


Contínua para ser utilizado como exemplo na função pnadc_deflator. Para
leitura deste arquivo também pode ser utilizado o pacote readxl e sua função
read_excel.

➢ dictionaryexample.xls: arquivo em formato xls com o dicionário da PNAD


Contínua para ser utilizado como exemplo na função pnadc_labeller. Para
leitura deste arquivo também pode ser utilizado o pacote readxl e sua função
read_excel.

➢ exampledata.txt: arquivo em formato txt com os microdados da PNAD


Contínua para ser utilizado como exemplo na função read_pnadc.

➢ input_example.txt: arquivo em formato txt com o input do SAS dos microdados


da PNAD Contínua para ser utilizado como exemplo na função read_pnadc.
34
3. Entendendo o pacote PNADcIBGE – R

É possível ainda exportação dos microdados carregados (sem o


plano amostral incorporado) com o pacote PNADcIBGE para
outros softwares que o usuário possua maior familiaridade.

Para isto, deve ser utilizado o pacote haven e os seguintes


comandos para criação das bases em formatos que compatíveis
com o SAS, Stata e SPSS, respectivamente:

35
3. Entendendo o pacote PNADcIBGE – R

Os planejamentos para próximas versões do pacote


PNADcIBGE e também novos pacotes no âmbito das pesquisas
domiciliares que compõem o SIPD preveem implementar as
seguintes demandas:

➢ Leitura dos microdados das demais pesquisas integrantes do


SIPD (POF 2008-2009, PNS 2013, POF 2017-2018 e PNS
2019), quando houver microdados públicos disponíveis.

➢ Disponibilização de um pacote de coleção que irá ser


composto pelos pacotes relacionados a cada uma das
pesquisas domiciliares, a fim de facilitar sua integração.

➢ Utilização do SQLite em conjunto com os pacotes para


armazenamento e acesso dos microdados, tendo por intuito
maximizar o desempenho do pacote.

36
4. Exemplos

37
4. Exemplos
Pacotes necessários:
• PNADcIBGE, para leitura dos dados e incorporação dos rótulos, dos
deflatores e do plano amostral;
• survey, pacote criado especificamente para análise e modelagem de
dados provenientes de pesquisas com planos amostrais complexos.
Maiores detalhes sobre o pacote podem ser encontrados no site do autor:
<http://faculty.washington.edu/tlumley/old-survey/index.html>.

Microdados necessários:
• PNAD Contínua – 3º trimestre de 2018.

Variáveis a serem utilizadas:


• Sexo – V2007;
• Idade do morador na data de referência – V2009;
• Cor ou raça – V2010;
• Nível de instrução mais elevado alcançado (pessoas de 5 anos ou mais
de idade) – VD3004;
• Rendimento mensal habitual de todos os trabalhos para pessoas de 14
anos ou mais de idade – VD4019;
• Horas habitualmente trabalhadas por semana em todos os trabalhos para
pessoas de 14 anos ou mais de idade – VD4031. 38
4. Exemplos

Passo 1:
Carregar os microdados com o auxílio do pacote PNADcIBGE e
delimitar somente as variáveis que serão utilizadas.
Código:

Com o uso da função get_pnadc, os dados estarão preparados,


inclusive com os rótulos das variáveis, a disponibilização das
variáveis de deflatores e a incorporação do plano amostral, para
serem analisados corretamente. Para as análises será utilizado o
pacote survey e suas respectivas funções.
39
4. Exemplos

Passo 2:
Carregar o pacote survey para realizar as análises. Caso
contrário, as funcionalidades deste pacote não estarão
disponíveis.
Uma boa prática é primeiro verificar se o pacote já está
instalado no computador e depois carrega-lo.
Código:

40
4. Exemplos

Exemplo 1:
Estimar o total de uma variável numérica, como o rendimento
mensal habitual de todos os trabalhos para pessoas de 14 anos ou
mais de idade.
Será utilizada a função svytotal do pacote survey.
Código:

Obs.: 1. O comando options é utilizado para evitar notações exponenciais


nos resultados que serão exibidos;
2. Na função svytotal, o argumento x representa a fórmula, vetor ou
matriz com variáveis que serão utilizadas, no argumento design é
informada a base de dados no formato contendo o plano amostral
incorporado, e, por fim, o argumento na.rm serve somente para excluir
valores faltantes nos microdados da análise que está sendo realizada.
41
4. Exemplos

Exemplo 2:
Obter o coeficiente de variação e os intervalos de confiança a 95%
para a estimativa do total do rendimento mensal habitual de todos
os trabalhos para pessoas de 14 anos ou mais de idade.
A função svytotal informa, junto com a estimativa do total, o erro-
padrão dessa estimativa.
Códigos:

42
4. Exemplos

Exemplo 3:
Estimar o total de sexo e cor/raça, isto é, considerando as
categorias destas duas variáveis.
A função svytotal também permite obter estimativas por categorias
de variáveis categóricas.
Código:

43
4. Exemplos

Exemplo 4:
1 – Estimar a média da variável de rendimento mensal habitual.
A função svymean do pacote survey possui sintaxe idêntica a da
svytotal. Porém é utilizada para estimativas de média e não total.
Código:

2 – Estimar a proporção de pessoas por sexo.


É possível utilizar esta mesma função svymean para variáveis
categóricas, porém o resultado nesse caso será a estimativa das
proporções de cada grupo.
Código:

44
4. Exemplos

Exemplo 5:
Estimar a mediana, os quartis e os percentis 90, 95 e 98 da
variável de rendimento mensal habitual.
A função svyquantile do pacote survey tem os mesmo argumentos
da svymean acrescido do argumento quantile, que define os
quantis que serão estimados. Este argumento aceita como entrada
um vetor, possibilitando a obtenção conjunta de vários quantis.
Vale lembrar que o quantile 0.50 corresponde à mediana.
Código:

45
4. Exemplos

Exemplo 6:
Estimar a média da variável de rendimento mensal habitual das
mulheres com mais de 30 anos.
A função subset do pacote survey permite a análise para um
domínio específico da população.
Código:

46
4. Exemplos
Exemplo 7:
Estimar a proporção de homens e mulheres por nível de instrução mais
elevado alcançado.
A função svyby do pacote survey permite estimar quantidade de interesse
para domínios mutualmente exclusivos, de forma a permitir comparação
entre eles.
Código:

Obs.: O argumento formula indica a variável para a qual será obtida a estimativa; o
argumento by define a variável com domínios mutualmente exclusivos; design
indica a base de dados com o plano amostral incorporado; FUN indica a
função da estimativa de interesse; na.rm remove os valores faltantes; e
vartype define a medida de variabilidade que será exibida, por exemplo,
variância, erro-padrão ou coeficiente de variação.
47
4. Exemplos
Exemplo 8:
Construir um boxplot do número de horas habitualmente trabalhadas por
semana em todos os trabalhos, por sexo.
A função svyboxplot do pacote survey constrói boxplot que considera o
plano amostral dos dados.
Código:

Obs.: O argumento formula


indica a variável para a qual será
obtida a distribuição seguida
pela variável categórica dos
grupos a serem analisados;
design indica a base de dados
com o plano amostral
incorporado; e all.outliers define
se todos os outliers serão
mostrados ou apenas os mais
extremos.

48
4. Exemplos
Exemplo 9:
Construir um histograma do número de horas habitualmente trabalhadas
por semana em todos os trabalhos.
A função svyhist do pacote survey constrói histogramas considerando o
plano amostral e tem os mesmo argumentos da svyboxplot acrescido dos
argumento main, xlab e ylab, que definem título principal e rótulo dos
eixos.
Código:

49
4. Exemplos
Exemplo 10:
Construir um gráfico de dispersão para verificar a relação entre horas
habitualmente trabalhadas por semana em todos os trabalhos e
rendimento mensal habitual de todos os trabalhos.
A função svyplot do pacote survey constrói gráfico de dispersão
considerando o plano amostral e tem os mesmo argumentos da svyhist
acrescido do argumento style que define o estilo dos pontos desenhados.
Código:

50
4. Exemplos
Exemplo 11:
Testar, utilizando o Teste t de Student, se a diferença da variável
de rendimento utilizada entre os sexos é estatisticamente
significativa.
A função svyttest do pacote survey realiza o Teste t para as
estimativas, já considerando o desenho amostral dos dados. A
função possui argumentos semelhantes as das funções já aqui
apresentadas.
Código:

51
4. Exemplos
Comentários gerais:
1. O pacote survey permite realizar algumas modelagens, como
modelos de regressão linear, de regressão logística e outros
modelos lineares generalizados. Para maiores detalhes das
funções deste pacote, pode-se utilizar o comando abaixo para
navegar pelas páginas do manual:

2. Ainda, outras temáticas específicas, como Índice de Gini, Curva


de Lorenz, Índice de Zenga, estão disponíveis com o auxílio do
pacote convey. As informações detalhadas deste pacote podem
ser vistas com o auxílio dos comandos seguintes:

52
5. Exercícios

53
5. Exercícios

Exercício 1:
Carregar os pacotes necessários e realizar os seguintes passos:
1. Realizar a leitura das bases trimestrais do 3º trimestre de 2017
ao 3º trimestre de 2019;
2. Realizar a leitura das bases anuais de 1ª entrevista de 2018 e
5ª entrevista de 2018;
3. Realizar a leitura das bases anuais para temas do 2º trimestre
de 2017 (Educação Anual) e 4º trimestre de 2017 (TIC);
4. Acrescentar os rótulos e as variáveis de deflatores nas bases
trimestrais e anuais geradas;
5. Incorporar o plano amostral nestas bases para obtenção correta
dos resultados dos exercícios posteriores.

Objetivo: Treinar a utilização do pacote PNADcIBGE para a leitura correta


dos dados, além de comandos básicos do R, como junção de
bases, e ressaltar a importância de se manter a informação de
deflatores junto aos microdados para analisar corretamente em
diferentes momentos do tempo rendimentos e massas de
rendimento, conforme mencionado nesta apresentação.
54
5. Exercícios

Exercício 2:
Para todos os trimestres de 2018, obter:
1. Total da população por nível de instrução mais elevado
alcançado (VD3004);
2. Média do rendimento real mensal habitual de todos os
trabalhos (A variável nominal deste rendimento, isto é, não
deflacionada, é a VD4019);
3. Média do rendimento real mensal efetivo de todos os
trabalhos (A variável nominal deste rendimento, isto é, não
deflacionada, é a VD4020).

Objetivo: Treinar a utilização de funções do pacote survey e obter alguns dos


indicadores fornecidos oficialmente pelo IBGE, possibilitando
conferir se a programação própria está correta.

55
5. Exercícios

Exercício 3:
Para as bases de 3º trimestre de 2017, 2018 e 2019, obter:
1. Proporção da população na força de trabalho e fora da força
de trabalho (VD4001);
2. Proporção da população na força de trabalho e fora da força
de trabalho (VD4001), levando em consideração somente a
população em idade de trabalhar (V2009), por nível de
instrução (VD3004).

Objetivo: Treinar a segregação das bases e o conhecimento em relação aos


dicionários de variáveis da PNAD Contínua.

56
5. Exercícios

Exercício 4:
Para todas as bases trimestrais, obter:
1. Taxa de desocupação, que é a razão entre a população
desocupada (VD4002) e a população na força de trabalho
(VD4001), de cada base trimestral;
2. Gráfico para o acompanhamento da série histórica das taxas
de desocupação calculadas acima.

Objetivo: Treinar funções diferentes do pacote survey e a elaboração de


gráficos com os índices obtidos através dos microdados da PNAD
Contínua.

57
5. Exercícios

Exercício 5:
Para a base anual de 1ª entrevista de 2018, obter total do
rendimento real domiciliar per capita por UF.

Obs.: 1. O rendimento domiciliar construído pelo IBGE desconsidera pessoas cuja


condição na unidade domiciliar (V2005) era pensionista, empregado doméstico
ou parente do empregado doméstico.
2. O rendimento nominal domiciliar per capita é a soma do rendimento nominal
habitualmente recebido em todos os trabalhos (VD4019) com o rendimento
nominal efetivamente recebido de outras fontes (VD4048);
3. O deflacionamento deve ser feito utilizando o deflator anual de 2018,
diferenciando os rendimentos habituais (CO2) dos rendimentos efetivos
(CO2e), obtendo assim os valores reais a preços médios do último ano;
4. Para a construção de variáveis domiciliares é necessário agregar as
informações dos moradores do domicílios. Isso pode ser feito por meio da
chave do domicílio (UPA, número de seleção do domicílio (V1008) e painel da
pesquisa (V1014)).

Objetivo: Treinar a utilização da chave de domicílio e a criação de variáveis


derivadas de outras variáveis dos microdados.
58
5. Exercícios
Exercício 6:
Para a base anual de 5ª entrevista de 2018, obter, por sexo:
1. Média de tempo dedicado (V4121B) em cuidado de pessoas (V4117A e V4119),
levando em consideração somente a população que não realizou afazeres
domésticos (V4120 e V4121A) e analisando o intervalo de confiança de 95%;
2. Média de tempo dedicado (V4121B) em afazeres domésticos (V4120 e V4121A),
levando em consideração somente a população que não realizou cuidado de
pessoas (V4117A e V4119) e analisando o intervalo de confiança de 95%;
3. Média de tempo dedicado (V4121B) em cuidado de pessoas e afazeres
domésticos (V4117A, V4119, V4120 e V4121A) e analisando o intervalo de
confiança de 95%.

Para as bases anuais de temas por trimestre de 2017, obter:


1. Taxa de analfabetismo (V3001) de pessoas com 15 anos ou mais de idade
(V2009) para as UFs do Sudeste comparando os níveis obtidos e analisando o
intervalo de confiança de 95% para a base de educação anual;
2. Média do rendimento domiciliar per capita (VDI5008) por Grande Região e pela
posse e tipo de televisão no domicílio (S01025), considerando somente a pessoa
responsável pelo domicílio (V2005), comparando os níveis obtidos e analisando o
intervalo de confiança de 95% para a base de TIC.

Objetivo: Treinar o entendimento de questões complexas e a combinação de


determinados valores de duas ou mais variáveis para obtenção de índices
específicos.
59
Agradecemos a todos pela atenção!

Estamos a disposição para quaisquer dúvidas!

Contatos:
Gabriel Henrique Oliveira Assunção
pacotepnadc@ibge.gov.br
gabriel.assuncao@ibge.gov.br

60

Você também pode gostar