Você está na página 1de 54

Análise de microdados da PNAD

usando o R

Dados Públicos aplicados ao R


R-Ladies BH

08 de agosto de 2020
Um pouco sobre mim...
• Bacharela em Ciências
Econômicas (UFMG).

• Mestra e doutoranda em
Demografia(CEDEPLAR/UFMG).

• Bolsista CNPq.

• Avaliação de políticas públicas em


saúde, mortalidade, técnicas
demográficas e projeção
populacional.
Um pouco sobre mim...
• Mulher, negra e feminista;

• Viciada em café; 460


• Colecionadora dos memes
mais antigos
Inicio da internet; 1971

• Leio previsões astrológicas


todos os dias quando acordo.
Acredito que a ciência e o conhecimento são
capazes de mudar a realidade das pessoas!
Afinal, o que são microdados?
Afinal, o que são microdados?
• Consistem no menor nível de desagregação
dos dados de uma pesquisa, avaliação ou
exame.

• Possibilitam aos usuários, por meio de


linguagens de programação ou softwares de
cálculo, criar seus próprios banco de dados,
tabelas, gráficos e mapas.
Pesquisa Nacional por Amostra de
Domicílios - PNAD
• A PNAD foi implantada no País para ser um sistema de
pesquisas por amostra probabilística de domicílios, de
abrangência nacional que tem como finalidade

“(...) a produção de informações básicas para o estudo do


desenvolvimento socioeconômico do País”

• A PNAD se constitui como um importante instrumento para


formulação, validação e avaliação de políticas.
Pesquisa Nacional por Amostra de
Domicílios - PNAD
• Unidade de análise: Indivíduo

• Abrangência: Todo território Nacional

• População Alvo: residentes em domicílios particulares


(permanentes ou provisórios) e em domicílios coletivos, nas áreas
urbana e rural.

• Representatividade: Brasil, Grandes Regiões, Unidades da


Federação, Regiões Metropolitanas que contêm Municípios das
Capitais e Municípios das Capitais.

• Planejamento e Execução: Instituto Brasileiro de Geografia e


Estatística (IBGE)
Regiões Nordeste,
Sudeste e Sul e a
área urbana das
Projeto Atlântida
Regiões Norte e
1965 +
Início da PNAD
1971 Centro-Oeste.

United States
Census Bureau 1967 Os levantamentos
passaram a ser anuais 1973
+
Inter American
Statistical
Institute
1974 A PNAD passa a cobrir
1975 Censo Demográfico
1994 todo Território Nacional.

Estudo Nacional da Sem PNAD


Despesa Familiar 1991 2004
Pesquisa Nacional de PNAD COVID
+
2007
Saúde
2016 Inquéritos por telefone

Implementação PNAD Contínua


do PDA 2013 2020
Pesquisas domiciliares na América
Latina e Caribe

Argentina – Bahamas – Barbados – Belize – Bolívia – Brasil – Chile, Colômbia –


Costa Rica – República Dominicana, Equador – El Salvador – Guatemala,
Honduras – Jamaica – México – Nicarágua – Panamá – Paraguai – Peru –
Trinidad e Tobago – Uruguai – Venezuela.
Principais quesitos da pesquisa básica
da PNAD

Características
Características Características
demográficas
da habitação de migração
gerais

Características Características
Características
de fecundidade de trabalho e
de educação
feminina rendimento
A) Características da habitação
Espécie do domicílio
Material das paredes e cobertura do prédio
Número de cômodos e de dormitórios
Condição de ocupação e valor do aluguel ou da prestação mensal
Forma de abastecimento de água e esgotamento sanitário
Destino do lixo
Combustível utilizado para cozinhar
Forma de iluminação
Existência de linha telefônica
Existência de bens duráveis - filtro, fogão, geladeira, freezer, máquina de lavar roupa, rádio, microcomputador, DVD e televisão
B) Características demográficas gerais
Sexo
Idade
Cor ou raça
Condição no domicílio e na família
C) Características de migração
Naturalidade em relação ao município e à Unidade da Federação
Unidade da Federação de nascimento
Tempo de residência no município e na Unidade da Federação dos migrantes, inclusive os de retorno
Unidade da Federação de residência anterior e há cinco anos da data de referência da pesquisa
D) Características de fecundidade feminina
Número de filhos nascidos vivos, por sexo
Número de filhos nascidos mortos, por sexo
Número de filhos que estavam vivos, por sexo
Data de nascimento e sexo do último filho nascido vivo
E) Características de educação
Alfabetização
Escolarização
Série e grau frequentados pelos estudantes
Última série concluída, grau correspondente e conclusão do curso para pessoas que não são estudantes
F) Características de trabalho e rendimento
Condição de atividade e de ocupação na semana de referência e no período de referência de 365 dias
Ocupação, atividade, posição na ocupação, categoria do emprego nos trabalhos principal e secundário da semana de referência, no
trabalho principal do período de 365 dias ou no último trabalho do período de referência de cinco anos
Rendimento e horas trabalhadas nos trabalhos principal e secundário e em outros trabalhos da semana de referência
Contribuição para instituto de previdência nos trabalhos principal e secundário e em outros trabalhos da semana de referência e no
trabalho principal dos 365 dias
Tempo de permanência no trabalho principal da semana de referência e no trabalho principal do período de referência de 365 dias
Setor do emprego e área do emprego público nos trabalhos principal e secundário da semana de referência e no trabalho principal
dos 365 dias
Tempo gasto do domicílio para o trabalho, local de estabelecimento do empreendimento e número de pessoas ocupadas no
empreendimento do trabalho principal da semana de referência
Relação com o empreendimento dos conta própria e empregadores em atividade agrícola no trabalho principal da semana de
referência e no trabalho principal do período de referência de 365 dias
Forma de remuneração, recebimento de auxílios (alimentação, transporte, educação e saúde) e jornada diurna ou noturno do
emprego no trabalho principal da semana de referência
Associação a sindicato, contribuição para previdência privada e idade com que começou a trabalhar das pessoas ocupadas no
período de referência de 365 dias
Recebimento do seguro-desemprego das pessoas sem trabalho na semana de referência que saíram do último emprego no período
de referência de 365 dias
Condição de aposentado, pensionista e cuidar dos afazeres domésticos, independentemente da condição de atividade
Rendimentos não oriundos de trabalho, independentemente da condição de atividade
Suplementos e Pesquisas Especiais
A Pesquisa Básica da PNAD destina-se a investigar, de forma
contínua, os temas definidos como de maior importância para
medir o nível e acompanhar a evolução socioeconômica da
população do País

As Pesquisas Suplementares destinam-se a aprofundar os temas


permanentes e investigar outros assuntos de interesse que se
interliguem com os da Pesquisa Básica

As Pesquisas Especiais destinam-se a tratar de assuntos de maior


complexidade, que exigem tratamento à parte da Pesquisa Básica,
podendo até requerer um esquema de amostragem distinto.
Pesquisas suplementares
1969 - Migração interna.
1970 - Migração interna.
1972 - Fecundidade.
1973 - Migração; Fecundidade; Mão de obra.
1976 - Migração; Fecundidade.
1977 - Habitação; Migração; Fecundidade.
1978 - Fecundidade; mortalidade.
1979 - Consumo de energia.
1981 - Saúde.
1982 - Educação.
1983 - Mão de obra e previdência.
1984 - Fecundidade feminina.
1985 - Situação do menor.
1986 - Acesso a serviços de saúde; Suplementação alimentar; Associativismo.
1988 - Participação político-social; Estoque de aparelhos utilizadores de energia.
1989 - Trabalho.
1990 - Trabalho.
1992 - Migração; Fecundidade; Ensino supletivo; Nupcialidade; Trabalho das crianças de 5 a 9 anos de idade.
1993 - Migração; Fecundidade; Ensino supletivo; Nupcialidade; Trabalho das crianças de 5 a 9 anos de idade.
1995 - Migração; Fecundidade; Ensino supletivo; Nupcialidade; Trabalho das crianças de 5 a 9 anos de idade.
1996 - Migração; Fecundidade; Mobilidade social.
1998 - Migração; Fecundidade; Saúde; Trabalho das crianças de 5 a 9 anos de idade.
1999 - Migração; Fecundidade; Trabalho das crianças de 5 a 9 anos de idade.
2001 - Migração; Fecundidade; Trabalho infantil.
2002 - Migração; Fecundidade; Trabalho das crianças de 5 a 9 anos de idade.
Pesquisas suplementares
2003 - Migração; Fecundidade; Saúde; Participação em programas voltados para educação; Trabalho das crianças de 5 a 9 anos
de idade.
2004 - Migração; Fecundidade; Aspectos complementares de educação; Acesso a transferências de renda de programas sociais;
Segurança alimentar; Trabalho das crianças de 5 a 9 anos de idade.
2005 - Migração; Fecundidade; Acesso à Internet e posse de telefone móvel celular para uso pessoal; Trabalho das crianças de 5
a 9 anos de idade.
2006 - Migração; Fecundidade; Aspectos complementares de educação; Acesso a transferências de renda de programas sociais;
Trabalho infantil.
2007 - Migração; Fecundidade; Aspectos complementares da educação de jovens e adultos; Educação profissional; Trabalho das
crianças de 5 a 9 anos de idade.
2008 - Migração; Fecundidade; Saúde, Acesso à Internet e posse de telefone móvel celular para uso pessoal; Trabalho das
crianças de 5 a 9 anos de idade.
2009 - Migração; Fecundidade; Acesso à Internet e posse de telefone móvel celular para uso pessoal; Segurança alimentar;
Vitimização e justiça; Trabalho das crianças de 5 a 9 anos de idade.
2011 - Migração; Fecundidade; Acesso à Internet e posse de telefone móvel celular para uso pessoal; Nupcialidade; Trabalho
das crianças de 5 a 9 anos de idade.
2012 - Migração; Fecundidade; Acesso à Internet e posse de telefone móvel celular para uso pessoal; Nupcialidade; Trabalho
das crianças de 5 a 9 anos de idade.
2013 - Migração; Fecundidade; Acesso à Internet e à televisão e posse de telefone móvel celular para uso pessoal; Segurança
alimentar; Nupcialidade; Trabalho das crianças de 5 a 9 anos de idade.
Pesquisas Especiais
1972 – Rendimento familiar

1974-1975 – Estudo Nacional da Despesa Familiar - Endef (pesquisa especial sobre consumo alimentar e
orçamentos familiares)

1976 – Mobilidade social e cor das pessoas

1986 – Anticoncepção (pesquisa realizada por meio de uma subamostra e restrita às mulheres de 15 a 54
anos de idade)

2008 – Tabagismo (pesquisa realizada por meio de uma subamostra e restrita a um único morador de 15 anos
ou mais de idade selecionado em cada unidade domiciliar dessa subamostra)
Ao longo do tempo, a PNAD
passou por atualizações
metodológicas, relacionadas
tanto ao plano amostral,
como a abrangência territorial
e às conceituações dos
aspectos pesquisados, em
consonância com as
recomendações
internacionais.
Condições Crônicas

2008
Algum médico ou 2013
1998 2003
profissional de Pesquisa Nacional
Tem hipertensão Tem hipertensão
saúde disse que de Saúde
tem hipertensão
Condições Crônicas

2008
Algum médico ou 2013
1998 2003
profissional de Pesquisa Nacional
Tem hipertensão Tem hipertensão
saúde disse que de Saúde
tem hipertensão
Principal limitação da PNAD -
longitudinalidade
Pesquisa Nacional por Amostra de Domicílios
Contínua - PNAD Contínua
• Visa acompanhar as flutuações trimestrais e a evolução, no curto,
médio e longo prazos, da força de trabalho, e outras informações
necessárias para o estudo do desenvolvimento socioeconômico do
País.

Periodicidade de divulgação das informações:


• Mensal - Conjunto restrito de indicadores relacionados à força de
trabalho e somente para o nível geográfico de Brasil;
• Trimestral - Conjunto de indicadores relacionados à força de
trabalho para todos os níveis de divulgação da pesquisa;
• Anual - Demais temas permanentes da pesquisa e indicadores
complementares à força de trabalho;
• Variável - Outros temas ou tópicos dos temas permanentes a serem
pesquisados com maior periodicidade ou ocasionalmente.
Desenho Amostral Complexo

REGIÃO A REGIÃO B
x pessoas 3x pessoas

Se entrevistarmos 1 pessoa em cada uma das regiões:


Peso = 1 Peso = 3
Estratos

Conglomerados

Domicílios

Indivíduos
Arquivos

1 2 3 4

QUESTIONÁRIO DICIONÁRIO ARQUIVO DE SCRIPT


ARMAZENAMENTO
Problema de pesquisa

Em 2017, existia alguma diferença


[estatisticamente significativa]
entre salários de homens e
mulheres no Brasil?
Começando...
• Limpando os objetos do ambiente
rm(list=ls(all=T))

• Definindo o diretório
setwd("C:\\Users\\Dropbox\\pnad\\dados")

• Instalando os pacotes
install.packages("PNADcIBGE")
library(PNADcIBGE)

install.packages("srvyr")
library(srvyr)

install.packages("ggplot2")
library(ggplot2)
PNAD 2014
Dicionário de variáveis da PNAD 2014 - Arquivo de pessoas
Microdados das Pesquisas Básica e Suplementares de Acesso à Internet e Posse de
Telefone Móvel Celular para Uso Pessoal, Acesso a Programas de Inclusão
Produtiva, Mobilidade Sócio-ocupacional e Educação e Qualificação Profissional

Código Quesito Categorias


Posição Inicial Tamanho de
variável N° Descrição Tipo Descrição
PESQUISA BÁSICA

PARTE 1 – IDENTIFICAÇÃO E CONTROLE


As 2 primeiras posições são o código da Unidade da
5 8 V0102 2 Número de controle
Federação
13 3 V0103 3 Número de série

PARTE 3 – IDENTIFICAÇÃO DOS MORADORES

2 Masculino
18 1 V0302 2 Sexo
4 Feminino
Idade do morador na
27 3 V8005 000 a 120 Idade em anos
data de referência
PARTE 9 – CARACTERÍSTICAS DE TRABALHO E RENDIMENTO DOS MORADORES DE 10 ANOS OU MAIS DE IDADE

Rendimento mensal de Valor R$


todos os trabalhos para
714 12 V4719 999 999 999 999 Sem declaração
pessoas de 10 anos ou
mais de idade Não aplicável

768 5 V4729 Peso da pessoa


Extração dos Dados
# -----------------------------------------------------
# informações a serem retiradas da PNAD 2014 - Pessoas
# Nome Inicio Tamanho
# ano 1 4
# controle 5 8
# serie 13 3
# skip2 16 2
# sexo 18 1
# skip3 19 8
# idade 27 3
# skip4 30 124
# trabalha 154 1
# skip5 155 559
# rendimento 714 12
# skip6 726 42
# peso 768 5
# -----------------------------------------------------
Extração dos Dados
• utilizando a função read.fwf para ler o arquivo *.txt para
pessoas
pes2014 <- read.fwf(file = "PES2014.txt",
widths = c(4, 8, 3, 2, 1, 8, 3, 124, 1, 559, 12, 42,5),
col.names = c("ano", "controle", "serie", "skip2",
"sexo", "skip3", "idade", "skip4", "trabalha", "skip5",
"rendimento", "skip6", "peso"))

pes2014 <- subset(pes2014,


select = c("ano", "controle", "serie", "sexo", "idade",
"trabalha", "rendimento", "peso"))
Extração dos Dados
• Analisando das primeiras 10 linhas

head(pes2014, 10)

ano controle serie sexo idade trabalha rendimento peso


1 2014 11000015 1 2 27 1 1500 252
2 2014 11000015 1 4 28 3 NA 252
3 2014 11000015 1 2 1 NA NA 252
4 2014 11000015 2 2 51 1 1200 252
5 2014 11000015 2 4 43 1 1100 252
6 2014 11000015 3 4 77 3 NA 252
7 2014 11000015 4 4 39 3 NA 252
8 2014 11000015 4 2 60 1 7000 252
9 2014 11000015 4 4 16 1 1500 252
10 2014 11000015 4 2 15 3 NA 252
Dicionário de variáveis da PNAD 2014 - arquivo de domicílios
Microdados das Pesquisas Básica e Suplementares de Acesso à Internet e à
Televisão, Acesso ao Cadastro Único para Programas Sociais do Governo Federal

Código Quesito Categorias


Posição Inicial Tamanho de
variável N° Descrição Tipo Descrição
PESQUISA BÁSICA

PARTE 1 – IDENTIFICAÇÃO E CONTROLE


As 2 primeiras posições são o código
5 8 V0102 2 Número de controle
da Unidade da Federação
13 3 V0103 3 Número de série
STRAT - Identificação de
estrato de município auto-
178 7 V4617
representativo e não auto-
representativo
PSU - Unidade primária de
185 7 V4618
amostragem
Extração dos Dados
# ------------------------------------------------------
# Informações a serem retiradas da PNAD 2014 - Domicílios

# Nome Inicio Tamanho


# ano 1 4
# controle 5 8
# serie 13 3
# skip1 16 162
# estrato 178 7
# conglomerado 185 7
# ------------------------------------------------------
Extração dos Dados
• utilizando a função read.fwf para ler o arquivo *.txt para
domicílios
dom2014 <- read.fwf(file = "DOM2014.txt",
widths = c(4, 8, 3, 162, 7, 7),
col.names = c("ano", "controle", "serie", "skip1",
"estrato", "conglomerado"))

dom2014 <- subset(dom2014, select = c("ano", "controle", "serie",


"estrato", "conglomerado"))
Extração dos Dados
• Analisando das primeiras 10 linhas
head(dom2014, 10)

ano controle serie estrato conglomerado


1 2014 11000015 1 110001 1
2 2014 11000015 2 110001 1
3 2014 11000015 3 110001 1
4 2014 11000015 4 110001 1
5 2014 11000015 5 110001 1
6 2014 11000015 6 110001 1
7 2014 11000015 7 110001 1
8 2014 11000015 8 110001 1
9 2014 11000015 9 110001 1
10 2014 11000015 10 110001 1
Junção das informações domiciliares
e individuais
pnad2014 <- merge(pes2014, dom2014,
by = c("ano", "controle", "serie"), all.x = TRUE)

• Analisando das primeiras 10 linhas


head(pnad2014, 10)

ano controle serie sexo idade trabalha rendimento peso estrato conglomerado
1 2014 11000015 1 2 27 1 1500 252 110001 1
2 2014 11000015 1 4 28 3 NA 252 110001 1
3 2014 11000015 1 2 1 NA NA 252 110001 1
4 2014 11000015 2 2 51 1 1200 252 110001 1
5 2014 11000015 2 4 43 1 1100 252 110001 1
6 2014 11000015 3 4 77 3 NA 252 110001 1
7 2014 11000015 4 4 39 3 NA 252 110001 1
8 2014 11000015 4 2 60 1 7000 252 110001 1
9 2014 11000015 4 4 16 1 1500 252 110001 1
10 2014 11000015 4 2 15 3 NA 252 110001 1
Trabalhando com a variável de
rendimento
summary(pnad2014$rendimento)

Min. 1°Qu. Median Mean 3rd Qu. Max. NA's


0.000e+00 7.240e+02 1.000e+03 2.229e+10 1.800e+03 1.000e+12 186017

ggplot(pnad2014, aes(rendimento)) + geom_boxplot()


Trabalhando com a variável de
rendimento
• Selecionando apenas pessoas maiores de 10 anos e
as pessoas que trabalham
pnad2014 <- pnad2014[pnad2014$idade>=10 & pnad2014$trabalha == 1,]

• transformando a renda não declarada em missing


pnad2014$rendimento <- ifelse(pnad2014$rendimento==999999999999,
NA, pnad2014$rendimento)
Trabalhando com a variável de
rendimento
summary(pnad2014$rendimento)

Min. 1stQu. Median Mean 3rdQu. Max. NA's


0 724 1000 1670 1800 330000 3865

ggplot(pnad2014, aes(rendimento)) + geom_boxplot()


Trabalhando com a variável de
rendimento
• para afins acadêmicos iremos excluir todos os valores
de rendimento maiores que 50k.

pnad2014$rendimento <- ifelse(pnad2014$rendimento>50000,


NA, pnad2014$rendimento)

• Aqui, é necessário fazer uma análise de pontos


influentes mais detalhada.
Trabalhando com a variável de
rendimento
summary(pnad2014$rendimento)

Min. 1st Qu. Median Mean 3rd Qu. Max. NA's


0 724 1000 1655 1800 50000 3893

ggplot(pnad2014, aes(rendimento)) + geom_boxplot()


qplot(pnad2014$rendimento, geom="histogram")
PNAD CONTÍNUA 2017
Extração dos Dados

pnad2017 <- read.fwf(file = "PNADC_2017_visita1.txt",


widths = c(4, 7, 9, 7, 15, 15, 24, 1, 8, 3, 20, 1, 439, 8),
col.names = c("ano", "skip1", "UPA", "estrato", "skip2",
"peso", "skip3", "sexo", "skip4", "idade", "skip5", "trabalha",
"skip6", "rendimento"))

pnad2017 <- subset(pes2014, select = c("ano", "UPA", "estrato", "peso",


"sexo", "idade", "trabalha", "rendimento"))
Trabalhando com a variável de
rendimento
summary(pnad2017$rendimento)

Min. 1st Qu. Median Mean 3rd Qu. Max. NA's


3 900 1200 1864 2000 150000 272437

ggplot(pnad2014, aes(rendimento)) + geom_boxplot()


Plano Amostral

pnad2017d <- svydesign(


ids = ~ UPA , # Declara a unidade amostral mais granular
strata = ~ estrato , # Declara a variável que contém os estratos
weights = ~ peso , # Declara variável com pesos
data = pnad2017 , # Declara base de microdados
nest = TRUE # Declara que os estratos podem conter
identificações identicas para UPA's
distintas
)
• Média da renda por sexo (até 50k)
svyby(~rendimento, ~sexo, pnad2017d, svymean, na.rm = T)

sexo rendimento se
1 1 2303.619 30.75934
2 2 1809.048 25.56534

• Teste de médias
svyttest(rendimento ~ sexo, pnad2017d, na.rm = T)

Design-based t-test

data: rendimento ~ sexo


t = -23.605, df = 11490, p-value < 2.2e-16
alternative hypothesis: true difference in mean is not equal
to 0
95 percent confidence interval:
-535.6361 -453.5069
sample estimates:
difference in mean
-494.5715
Pacote PNADcIBGE
• Extração Online
pnad2017_on <- get_pnadc(year = 2017,
quarter = 1,
vars("V2007","VD4019"))

• Extração Offline
pnad2017_off <- read_pnadc("PNADC_2017_visita1.txt",
"input_PNADC_2017_visita1.txt")
Pacote PNADcIBGE
• Definição do plano amostral complexo
pnad2017on <- pnadc_design(pnad2017_on)

• Média da renda por sexo


svyby(~VD4019, ~V2007, pnad2017on, svymean, na.rm = T)

V2007 VD4019 se
Homem Homem 2300.33 36.17739
Mulher Mulher 1811.06 22.15183
Pacote PNADcIBGE
• Teste de médias
svyttest(as.numeric(VD4019) ~ V2007, pnad2017on)

Design-based t-test

data: as.numeric(VD4019) ~ V2007


t = -18.084, df = 14500, p-value < 2.2e-16
alternative hypothesis: true difference in mean is not equal to 0
95 percent confidence interval:
-542.2975 -436.2431
sample estimates:
difference in mean
-489.2703
OBRIGADA!

jucalazans@cedeplar.ufmg.br

Você também pode gostar