Você está na página 1de 24

UNIVERSIDADE REGIONAL DO CARIRI - URCA

CENTRO DE CIÊNCIAS SOCIAIS APLICADAS


DEPARTAMENTO DE ECONOMIA
CENTRO ACADÊMICO DE ECONOMIA MARTINS FILHO
XV SEMANA DE ECONOMIA

CURSO DE NOÇÕES BÁSICAS:


SOFTWARE STATA E EXTRAÇÃO DOS DADOS DA PNAD

ANDRÉA FERREIRA DA SILVA


Doutoranda em Economia Aplicada do Programa de Pós-Graduação em Economia -
PPGE, Universidade Federal da Paraíba - UFPB. Mestre em Economia Rural pela
Universidade Federal do Ceará - UFC. Graduada em Economia pela Universidade
Regional do Cariri – URCA. E-mail: andrea.economia@yahoo.com.br.

AGOSTO, 2015
CRATO – CE
SUMÁRIO

O SOFTWARE STATA.................................................................................. 02
1 APRESENTAÇÃO DO STATA.12................................................................. 02
1.1 Iniciando o STATA.12...................................................................................... 02
1.2 Salvando os Comandos.................................................................................... 05
1.3 Principais Operadores..................................................................................... 05
1.4 Executando os Comandos............................................................................... 06
1.4.1 Comandos de Ajuda......................................................................................... 06
1.4.2 Comando de estatística descritiva.................................................................. 07
1.4.3 Criando novas variáveis.................................................................................. 08
1.5 Criando Gráficos.............................................................................................. 09

PESQUISA NACIONAL POR AMOSTRA DE DOMICÍLIOS (PNAD).... 10


2 APRESENTAÇÃO DA PNAD........................................................................ 10
2.1 Uma breve Evolução da PNAD....................................................................... 11
2.2 Abrangência Geográfica.................................................................................. 12
2.3 Dados................................................................................................................. 12
2.4 Extração dos dados.......................................................................................... 14
2.5 Manipulação dos dados no STATA.12............................................................ 18

REFERÊNCIAS............................................................................................... 23

1
O SOFTWARE STATA

1. APRESENTAÇÃO DO STATA.12

Métodos estatísticos para análise de dados são utilizados por pesquisadores de


diversas áreas: economia, sociologia, ciências políticas, marketing, epidemiologia,
nutrição, saúde pública, etc. Para o processo de análise dos dados, os pesquisadores
necessitam de pacotes que sejam de fácil manipulação e tenham uma ampla variedades
de técnicas estatísticas.
Como é o caso do Software STATA, que oferece uma variedade de técnicas
estatísticas das mais elementares às mais sofisticadas, tem uma sintaxe simples e é usado
por meio de linha de comandos de fácil execução. Foi desenvolvido no Texas (EUA), em
1984, e já é distribuído para 132 países. Periodicamente, o grupo que desenvolve este
programa (StataCorp) disponibiliza atualizações via internet e tem lançado novas versões
a cada três anos, em média. O StataCorp também mantém a publicação de um periódico
(Stata Journal) e uma lista de discussão virtual.
O STATA.12 é uma das versões lançada pela StataCorp, é um pacote estatístico
completo e integrado que fornece tudo que você precisa para a análise de dados e gráficos.
Com as mais variadas ferramentas estatísticas ao seu alcance como DPD (Painel dinâmico
de dados), GEE (Estimativas de Equações Generalizadas), GLM (Modelo Linear
Generalizado), ANOVA, padronização de taxas, tabulações estatísticas e muito mais.
Por sua simplicidade em apresentação, este programa permite usar bancos de
dados extensos com um número grande de variáveis. Admite ainda, que você tenha um
controle de todos os tipos de dados podendo modificar informações e gerenciar variáveis.
Sua capacidade permite uma publicação gráfica de qualidade, podendo adicionar títulos,
observações, linhas, setas e textos. No STATA somente um arquivo de dados pode ser
aberto e utilizado de cada vez

1.1 Iniciando o STATA.12

O programa pode ser aberto diretamente pelo ícone (clicando duas vezes sobre
ele) na tela de abertura do Windows. Quando o programa é aberto, abre-se uma tela
contendo janelas menores, com cabeçalhos. A finalidade de cada janela é apresentada a
seguir:

2
Obs.: Usar o arquivo “ARQUIVO 1_dados financeiros de empresa” para iniciar o
STATA.

Janela Finalidade
Review Janela onde são armazenados os comandos, ou seja, é o histórico
de comandos executados.
Variables Janela que apresenta a lista das variáveis do banco de dados ativo.
É a lista e descrição das variáveis.
Stata Results Janela que apresenta os resultados obtidos com a execução dos
comandos.
Stata Command Janela em que há a digitação dos comandos a serem executados.
Properties Janela de propriedades das variáveis. Podemos modificar o nome
ou a descrição das variáveis (Nome ou Label). O cadeado no canto
da janela permite o bloqueio ou desbloqueio dos dados.

Obs.: Na janela Stata Command para executar o comando é só digita-lo e pressionar a


tecla Enter. E assim, o comando será armazenado na janela Review.
Na janela Review, o comando pode ser reutilizado e corrigido utilizando-se o mouse ou
as teclas PgUp (page up) e PgDn (page down).

3
Na “Barra de Ferramentas” do STATA permite a execução de diversas tarefas
de forma análoga a maioria dos programas para o sistema Windows. Mas essas tarefas,
podem ser digitados em forma de comandos (ou rotinas de programação) a partir da
“janela de programação” (Stata Command).
O menu que está disponível na primeira linha e possui os recursos:
File Edit Data Graphics Statistics Window e Help

Na “Barra de Ferramentas”, podemos:


 Abrir e salvar bases de dados no formato STATA (.dta);
 Abrir e Salvar gráficos criados pelo STATA;
 Executar programas de comandos criados, “do-files” ( .do);
 Importar e salvar arquivos em outros formatos.

O STATA trabalha com vários tipos de arquivos, mas os principais são:


Tipo de Arquivo Formato
Arquivo que contém os dados .dta
Arquivo que guarda os comandos e resultados obtidos durante a sessão de .log; .smcl
trabalho
Arquivo que contém comandos .do
Arquivo que contém sub-rotinas .ado

Na segunda linha encontra-se a “Barra de Ferramentas” com os ícones:


Open (use): Carrega ou abre um banco de dados no formato do STATA (.dta).
Save: Salva um arquivo no formato do STATA (.dta).
Print Results: Imprime a janela de resultados.
Log Begin/Close/Suspend/Resume: Carrega, abre ou cria um arquivo do tipo ".log" ou
".smcl".
Start Viewer: Exibe a tela de ajuda (Help) em primeiro plano.
Bring Results Window to Front: Exibe a tela dos resultados em primeiro plano.
Bring Graph Window to Front: Exibe a tela com o gráfico em primeiro plano.
Do-file Editor: Edita um arquivo de comandos (arquivo tipo ".do").
Data Editor: Edita o arquivo de dados que está sendo utilizado.

4
Data Browser: Visualiza o arquivo de dados que está sendo utilizado.
Clear: prossegue a execução do comando.
Break: Interrompe a execução de uma tarefa ou comando.

1.2 Salvando os Comandos

Logo que for iniciado o trabalho no STATA, é aconselhável abrir um arquivo .log,
que armazenará todos os comandos e seus resultados (com exceção de gráficos). Para
abrir um arquivo .log é só clicar sobre o quarto ícone (Log
Begin/Close/Suspend/Resume). O arquivo .log é um arquivo de tipo somente texto e não
permite alteração.
Como arquivo .log não é permitido alteração nos comandos, o mais aconselhável
é a criação do arquivo .do (Do-file Editor), pois permite alterações, correções e execução.
Ou, obtendo o mesmo resultado, pode-se criar um arquivo .do apenas clicando no botão
direito do “mouse” na janela Review.
Já que todos os comandos digitados na janela Stata Command são enviados para
a janela Review. Estes comandos podem ser guardados em um arquivo para,
posteriormente, serem editados e utilizados em uma nova análise. No caso do banco de
dados, o arquivo é salvo no formato .dta. Depois de salvo é só clicar duas vezes sobre o
arquivo e o STATA já abre com os dados salvos.

1.3 Principais Operadores

Como operadores aritméticos, temos:


‘+’ —› Adição;
‘-‘—› Subtração;
‘*’ —› Multiplicação
‘/’ —› Divisão
‘^’ —› Elevada a uma potência.
Como operadores lógicos, temos:
‘&’ —› e;
‘|’ —› ou;
‘~’ ou (!) —› Não;
Como operadores relacionais, temos:

5
‘=’ —› Igual, que também pode ser implementado como ‘==’;
‘~=’ —› Diferente;
‘>=’ —› Maior igual;
‘>’ —› Maior;
‘<=’ —› Menor Igual;
‘<’ —› Menor.

1.4 Executando os Comandos

1.4.1 Comandos de Ajuda

Inicialmente, um dos principais comandos consiste no “comando de ajuda”,


digitado na janela de comandos e definidos por:

 help
A utilização do help é fortemente recomendada; clicando-se em help no menu
principal, pode-se pesquisar qualquer comando utilizando-se a opção Contents (todo o
manual), Search (palavras chaves) ou Stata command (comando).
Exemplo: caso necessite de informações específicas sobre alguma rotina (sintax), tipo
“regressão de mínimos quadrados ordinários”, devemos especificar após o comando de
ajuda:
 help regress (ou reg)

6
1.4.2 Comando de estatística descritiva

Uma vez selecionada a base de dados no programa, podemos descrever as


principais estatísticas descritivas da amostra de dados.

Alguns Comandos básicos do STATA:


Comandos Funções
describe Descreve o arquivo de dados em uso
display Calculadora de mão
drop Elimina variáveis ou observações
edit Edita e lista dados
generate ou gen Cria ou muda conteúdos de variáveis
graph Cria gráficos
list Lista os valores das variáveis por registro
memory Muda o tamanho da memória a ser utilizada
obs Aumenta o número de observações no banco de dados
recode Recodificar, agrupar códigos
sort Ordena os dados
sumarize ou sum Calcula medidas de tendência central
tabulate ou tab Produz tabelas simples e cruzadas
clear Limpar a memória do STATA
rename Renomear as variáveis
exit Encerrar o STATA

 Comando básicos de Regressão Linear

O método básico de estimação de regressão linear consiste nos mínimos


quadrados ordinários que é definido pelo comando:
regress var_dependentes var_independentes
Ex.: Usando o banco de dados sobre o preço de carros, temos:
reg vendas pd captang

7
A. Estimativa dos parâmetros por MQO;
B. Estimativa do erro-padrão dos parâmetros;
C. Estatística t-student calculada;
D. P-valor associado às estatístics t-student.
O programa usa como procedimento padrão um nível de significância de 5%.

1.4.3 Criando novas variáveis

O STATA permite criar novas variáveis a partir do banco de dados em uso. Neste
caso precisamos usar o comando ‘generate’ ou ‘gen’;
gen nova_varável = transformação_na_variável_existente ou expressão matemática
gen logpd = log(pd)

Principais expressões de transformação:

log ( ) —› Logaritmo na base 10


ln ( ) —› logaritmo natural
exp ( ) —› exponencial
gen pd2 = pd^2

8
1.5 Criando Gráficos

Um importante comando na geração de gráficos corresponde ao avplot. Este


comando gera a reta de regressão estimada junto ao gráfico de dispersão, reportanto as
principais estatísticas: coeficiente da variável, erro-padrão e a estatística t-student.
Contudo ele somente pode ser executado após o comando da regressão.

avplot var_independente

Este comando pode ser usado gerando o gráfico para todas os regressões, sem que
necessariamente precisássemos digitar cada um deles:

avplots

Para visualizar o gráfico de dispersão considerando duas variáveis, basta usa o


comando scatter:

scatter var_dependente var_independente

Se a descrição da variável estiver definida (label) o gráfico gerado reporta as


informações da descrição. Caso contrário, somente as informações da variável, como o
nome, serão reportados.

9
PESQUISA NACIONAL POR AMOSTRA DE DOMICÍLIOS (PNAD)

2. APRESENTAÇÃO DA PNAD

Na década de 60, tornou-se evidente que o Brasil carecia de informações para


planejar e acompanhar o seu desenvolvimento social, econômico e demográfico, pois os
dados decenais, oriundas dos censos demográficos, eram insuficientes e demasiadamente
defasados no tempo para atender às demandas. As pesquisas por amostra de domicílios
eram o caminho possível para o atendimento das demandas existentes, tendo em vista
que, além de possibilitarem um maior controle das fases operacionais e uma significativa
redução do tempo de execução e dos custos, permitem a ampliação e o aprofundamento
dos temas captados pelos levantamentos que investigam toda a população.
Considerando a impossibilidade de investigar continuamente todos os temas de
interesse, a Pnad foi estruturada para ter uma pesquisa básica, pesquisas suplementares e
pesquisas especiais. A pesquisa básica investiga, de forma contínua, os temas definidos
como de maior importância para medir e acompanhar o nível socioeconômico da
população: habitação e mão-de-obra, além de características demográficas e
educacionais. As pesquisas suplementares aprofundam os temas permanentes e
investigam outros assuntos de interesse que se interliguem com os da pesquisa básica. As
pesquisas especiais abordam assuntos de maior complexidade, que exigem tratamento à
parte da pesquisa básica, podendo até requerer um esquema de amostragem distinto.
Portanto, a Pesquisa Nacional por Amostra de Domicílios (PNAD) é fornecida
anualmente pelo Instituto Brasileiro de Geografia e Estatística (IBGE). Os microdados
das PNADs consistem em dados individuais das principais características
socioeconômicas dos indivíduos e famílias, umas de caráter permanente, como as
características gerais da população, de educação, trabalho, rendimento e habitação, e
outras com periodicidade variável, como as características sobre migração, fecundidade,
nupcialidade, saúde, nutrição e outros temas que são incluídos no sistema de acordo com
as necessidades de informação para o País (IBGE, 2007). O período de referência das
PNADs nos anos noventa e 2000 foi o mês de setembro de cada ano. Além da abrangência
temática da PNAD, o tamanho da amostra também consiste em importante fator para
garantir a robustez dos resultados, principalmente em termos de inferência estatística.
Sendo assim, o objetivo principal da PNAD é coletar dados sistematicamente
através da pesquisa por amostra de domicílios, investigando assim diversas características

10
socioeconômicas, algumas de caráter permanente, para ajudar a promover o
desenvolvimento do Brasil.

2.1 Uma breve Evolução da PNAD

Na década de 70:
Principais temas estudados: aspectos gerais da população, educação, trabalho,
rendimento e habitação como características permanentes. Também foram pesquisados,
como características de periodicidade variável: migração e fecundidade.
Nos anos de 74 e 75 foi feita uma pesquisa especial chamada Estudo Nacional da
Despesa Familiar (ENDEF), que também investigou o consumo alimentar e orçamentos
familiares.

Na década de 80:
Mantiveram-se constantes as características realizadas na década de 70,
objetivando assim a criação de uma série histórica.
Em 87 foi incorporado às pesquisas o questionamento sobre a cor das pessoas, e
a existência de aparelhos eletrônicos como televisão e rádio em 88.
A característica saúde foi incorporado em 81, de maneira provisória, assim como
a educação. Em 82, mão-de-obra e previdência. Em 83, fecundidade feminina. E trabalho
em 89 e 90.

Na década de 90:
No ano de 92, a PNAD adicionou de forma permanente os temas de migração,
fecundidade, nupcialidade, trabalho infantil e ensino supletivo.
No ano de 1994 não foi realizado a pesquisa. Em 96, foi incluído o tema
suplementar mobilidade social. Entretanto, o mesmo foi retirado em 97.

Na década de 2000:
Além de aspectos gerais da população, educação, trabalho, rendimento e
habitação, vêm sendo mantidos os temas suplementares migração e fecundidade, que
também fizeram parte de todas as pesquisas da PNAD da década de 1990.

11
Em 2002 foram introduzidas novas características no tema domicílio. Já em 2003,
foi adicionado o tópico suplementar “participação em programas sociais voltados para a
educação”.

2.2 Abrangência Geográfica

A PNAD, de acordo com o IBGE, teve sua abrangência prevista desde o seu início
para ser nacional. Porém, objetivo a ser alcançado de forma progressiva.
Iniciada em 1967 no Estado da Guanabara (atual Rio de Janeiro), em 1969 a
PNAD já abrangia as regiões Nordeste, Sudeste e Sul. Em1973 foi incluído o Centro-
Oeste, o Distrito Federal e a área urbana da região Norte, excluindo-se assim a região
rural dos estados de RO, AC, AM, RR e AP.
Apenas em 2004 é que as áreas rurais de RO, AC, AM, RR, PA e AP foram
incluídas na pesquisa e a PNAD alcançou a cobertura completa do Território Nacional.

2.3 Dados

O banco de dados da PNAD é dividido em duas vertentes: Arquivo Pessoas e


Arquivo Domicílios. E consequentemente os seus dicionários.
Em relação a Pessoas são pesquisadas atualmente:

Parte 1 – identificação e controle


Parte 3 – identificação dos moradores
Parte 4 – características gerais dos moradores
Parte 5 – características de migração dos moradores
Parte 6 – características de educação dos moradores
Parte 7 – características de trabalho das crianças moradoras de 5 a 9 anos de idade
Parte 9 – características de trabalho e rendimento dos moradores de 10 anos ou mais de
idade
Parte 11 - características de fecundidade das mulheres moradoras de 10 anos ou mais de
idade
Variáveis derivadas
Já em relação a Domicílios é pesquisada as características dos domicílios
particulares permanentes que são atualmente:

12
Parte 1 – identificação e controle
Parte 2 – características da unidade domiciliar
•Tipo do domicílio •Destino do lixo
•Material das paredes •Forma de iluminação
•Material da cobertura •Telefone
•Cômodo •Fogão
•Dormitório •Filtro de água
•Condição de ocupação do domicílio •Rádio
•Aluguel mensal •Televisão
•Prestação mensal •Geladeira
•Propriedade do terreno •Freezer
•Abastecimento de água •Máquina de lavar roupa
•Banheiro ou sanitário •Microcomputador
•Uso do banheiro ou sanitário •Acesso à Internet
•Esgotamento sanitário

Apresentação dos Dados

A partir desse arquivo de dados e do arquivo do dicionário, parte-se agora para a


extração dos dados.

13
2.4 Extração dos Dados

É comum encontrar dificuldades para se extrair um bancos de dados como a


PNAD. Várias são as formas de extração, mas nesse curso será abordada apenas a
extração pelo software STATA.12.
Inicialmente vamos baixar os arquivos do site do IBGE.
Site: http://www.ibge.gov.br/home/
Clica em “População”, e logo em seguida clica em “Pesquisa Nacional por
Amostra e Domicílio”. Como o alvo principal são os Microdados, partimos direto para
baixa-los. Sendo assim, clica em “Microdados (em formato zip)”. E será feito o download
da pasta contendo todos os arquivos referentes ao ano de interesse.

Dentro da pasta contém: arquivo dados, dicionários e input, “leia-me PNAD”,


“leitura em R”, marca de imputação, metodologia e questionário, todos respectivamente
de pessoas e domicílios
Depois de feito o download dos anos nos quais vão ser trabalhados, parte-se para
a edição dos arquivos inputs. Pois por meio deles o STATA fará a leitura dos arquivos de
dados de pessoas e domicílios.
Arquivo Input – antes das modificações

Arquivo Input – depois das modificações


Percebemos assim que deve haver modificações nos arquivos inputs tanto de
pessoas quanto de domicílios. E essa modificação será feita no próprio arquivo do bloco
de notas.
Deve-se portanto, fazer as seguintes modificações:

1º Fazer o caminho dos dados:

Dentro do arquivo do bloco de notas será colocado o endereço onde se encontra o


arquivo de dados (também em bloco de notas), ambos em formato .txt. Como veremos a
seguir:

Apagaremos as informações:

/* PROGRAMA DE LEITURA EM SAS DO ARQUIVO DE MICRODADOS DE


DOMICÍLIOS
DA PNAD 2013 PESQUISAS BÁSICA E SUPLEMENTARES DE
VITIMIZAÇÃO E JUSTIÇA */
/* Obs.: As duas primeiras posições de V0102 (Número de controle)
são o código da UF (Unidade da Federação).
Obs.2: Ajuste o endereço do arquivo DOM2013.TXT no comando INFILE */
DATA DOM2013;

INFILE '...\dados\DOM2013.TXT' LRECL=236 MISSOVER;

E substituir por:

dictionary using "C:\Curso_Crato\DADOSDOM2013.txt"

obs.: No qual "C:\Curso_Crato\DADOSDOM2013.txt" é o endereço onde será puxado o


arquivo de dados, quando for executado o comando dentro do STATA, como veremos
mais adiante.
E “DADOSDOM2013”, é como está nomeado o arquivo de dados.
2º Mudança nos Símbolos:

Substituir: Por:
INPUT {
@ _column(
$ %
. G
/* “
*/ ”
run; }
. ) float

Obs.: IMPORTANTE!
Uma dica! Para não ser preciso digitar o feixe do parêntese e a palavra “float” em
todas a observações, descobriu-se o seguinte:
Para fechar o parêntese é necessário inserir um ponto (.) em todas a observações.
Para em seguida substituir o ponto (. ) por o fechamento do parêntese aberto, seguido da
palavra “float”.
Exemplo: Antes: @00001
Depois: _column(00001) float

Depois de feito essas mudanças, partiremos para alguns detalhes específicos, que
caso não sejam modificados, o STATA não consegue lê o arquivo input, e
consequentemente o arquivo de dados.

3º Mudanças especificas:

A primeira mudança especifica é com relação a palavra “float”, ela só será usada
pra valores até 7 (%1g, %2g ... %7g). Mudará quando o valor for acima de 8, e logo em
seguida você trocará o “g” pelo “f”. Que ficará assim:

Exemplos:
_column(00005) double V0102 %8g " NUMERO DE CONTROLE "
_column(00161) float V4617 %7f " STRAT - IDg AUTO E NAUT "
Segunda mudança que ocorre mais comumente nos arquivos é a seguinte:

Antes:
_column(00031) double V0208 12f “ ALUGUEL PAGO EM 09/08 “

Depois:
_column(00031) double V0208 %12f " ALUGUEL PAGO EM 09/08 "

A variáveis com valores iguais a 10 ou 12, normalmente não vem com a “%”,
portanto, quando for fazer essas pequena modificações observar bem essa falta, e assim
inserir o símbolo da percentagem.

E uma terceira, e última, mudança é:

Antes:
_column(00096) double V4605 12g10 “ PROBABILIDADE DO MUNICÍPIO “

Depois:
_column(00095) double V4605 %12.10f " PROBABILIDADE DO MUNICÍPIO "

Que nesses casos específicos o ponto (.) não deve ser substituído por “g” quando
vem precedido por outro número. Ele permanece, sendo apenas acrescentado o “f”
quando for maior do que 7.
Estando o arquivo salvo o próximo passo é abrir o arquivo no stata para poder
executar as tarefas do seu trabalho.
2.5 Manipulação dos dados no STATA.12

Continuando a tarefa de extrair os dados, o próximo passo é a leitura das variáveis


pelo STATA. Então, agora inicia-se a criação do arquivo .do, arquivo no formato STATA.
Mais conhecido como Sintax ou Rotina, no qual serão encontrados os comandos que
manipularão a base de dados dos arquivos pessoas e domicílios, e a união dessas duas
bases.
A base de dados poderá ser trabalhada de acordo com o trabalho do pesquisador.
Podendo ser utilizadas por estados, municípios, micro ou macro regiões brasileiras (no
caso da PNAD, não há microdados para municípios). Cada pesquisador fará a seleção
especifica das variáveis de seu estudo. Podendo excluir as variáveis que não lhe interessa,
diminuindo o tamanho do arquivo e facilitando sua manipulação.

 Principais comandos utilizados para a manipulação dos dados da PNAD no


STATA:

Inicialmente, para inserir comentários no STATA, simplesmente utilize asterisco


(*) antes do texto:
*Isso é um tido como um comentário no Stata
Ou utilize os símbolos "/*" e "*/", ou epenas /// antes e depois do comentário:
/*Essa é uma outra forma de inserir comentário no Stata*/

1º Comando: “clear”
Geralmente o comando "clear" inicia um programa ".do" para limpar a memória
do STATA.

LEITURA DOS DADOS DA PNAD 2013 - VARIAVEIS DO ARQUIVO DE


DOMICILIOS

2º Comando: “cd”
Logo em seguida, deve-se especificar onde o arquivo ficará salvo.
Ex.: cd "C:\Curso_Crato"
Digita o comando, espaço, e o endereço onde os arquivos estão salvos.
3º Comando: “infile using”
Mostra o caminho do arquivo que se encontra os arquivos que serão utilizados.
Ex.: infile using "C:\Curso_Crato\INPUTDOM2013.txt"
Nesse caso, o comando está puxando o arquivo input dos domicílios da PNAD do
ano de 2013. E dentro desse arquivo, como foi visto antes, tem o endereço do arquivo dos
dados. Que serão trazidos para o formato STATA, .dta, quando o comando for executado.

4º Comando: “save”
Para salvar o banco de dados pela primeira vez, usa-se “save” e o nome que irá
nomear o arquivo, nesse caso não precisará digitar um novo endereço, pois o mesmo
ficara salvo junto aos outros arquivos que já foram puxados.
Ex.: save "domicilio2013"

5º Comando: “keep”
Se tratando dos dados da PNAD, quando observamos o dicionário do arquivo
domicílios, é sempre preciso fazer o corte para as “entrevistas realizadas”, contando
assim, a variável V0104 (do arquivo domicilio), com a descrição igual a 1, que equivale
as entrevistas realizadas.
Ex.: Keep if V0104==1

6º Comando: “sort”
Para ordenar um banco de dados por uma variável ou conjunto de variáveis, utilize
a opção "sort". No caso da PNAD é preciso ordenar as variáveis: Unidade da Federação,
número de controle e número de série.
Ex.: sort UF V0102 V0103

7º Comando: repetindo o “keep”


Agora será feito o corte nas variáveis de interesse. O pesquisador deverá saber
precisamente as variáveis de estudo para fazer o corte e diminuir o arquivo e facilitar o
trabalho.
Ex.: keep V0101 UF V0102 V0103 V0105 V4617 V0201 V0202 V0203 V0204 V0206
V0211 V0212 V0207 V0217 V0218 V0219 V0220 V2020 V0225 V0226 V0227 V0230
V0232 V4618 V4621 V0231 V0228 V0230 V4105 V0229 V4621
8º Comando: Salvar um novo arquivo, com as variáveis que foram selecionadas.
Com uma nova nomenclatura.
Ex.: save "domicilio2013pm"

9º Comando: Depois de salvo o arquivo domicílios com as variáveis de interesse, parte-


se agora para o arquivo pessoas.
Usa-se o comando “clear” para limpar o STATA.

LEITURA DOS DADOS DA PNAD 2013 - VARIAVEIS DO ARQUIVO DE


PESSOAS

Segue os mesmo comando da leitura dos dados do arquivo domicílios:

10º Comando: “infile using”

Ex.: infile using "C:\Curso_Crato\INPUTPES2013.txt"

11º Comando: “sort”

Ex.: sort UF V0102 V0103

12º Comando: “save”

Ex.: save "pessoas2013"

13º Comando: Fazendo um corte (Keep) nas variáveis de interesse do arquivo pessoas

Ex.: keep V0101 UF V0102 V0103 V8005 V0401 V0402 V0302 V4803 V4713 V4814
V4722 V4724 V4728 V4729 V0301 V4011 V0404 V0601 V0602 V0504 V4803 V9058
V1251 V1254 V1257 V1263 V4718 V4720 V4721 V4727 V4742
14º Comando: Salvar o arquivo com as variáveis de interesse.

Ex.: save "pessoas2013pm"

15º Comando: Como será feito a união dos dois arquivos não vamos usar o comando
“clear”, para limpar o STATA.

16º Comando: “merge”


Combinar Arquivos “pessoas2013pm” com “domicilios2013pm.

Ex.: merge UF V0102 V0103 using "C:\Curso_Crato\domicilio2013pm.dta", uniqusing

17º Comando: “tab”


Saber se o arquivo com a união dos dois arquivos estão com 100% dos valores.

Ex.: tab _merge

18º Comando: “save”


Salvar o arquivo completo.

Ex.: save "pobreza2013completa"

Obs.: Para salvar um banco pela primeira vez, utiliza-se “save”. Se o arquivo já existir, e
você quiser gravar o banco por cima do anterior:

Ex.: save "pobreza2013completa", replace

Ou seja, um banco é salvo somente com o comando "save", tornando difícil perder
os dados originais. Mesmo se o comando "save" não for usado intencionalmente, o Stata
recusará gravar o banco por cima do original, se a opção "replace" não for colocada.

19º Comando: A partir da união dos dois arquivos, e havendo o corte das variáveis de
interesse, segue para os comandos específicos de cada pesquisa, de cada revisão de
literatura, de cada metodologia adotada.
REFERÊNCIAS

AMARAL, E. F. L. Curso de Introdução ao Stata – Aula 1. Universidade Federal de


Minas Gerais. 2009. Disponível em: <http://www.ernestoamaral.com>. Acesso em 10
de Junho de 2014.

BERGAMASCHI, D. P.; SOUZA, J. M. P.; ALENCAR, G. P. A.; BUENO, M. B.


Stata – Básico. V Programa de Verão, Universidade de São Paulo. 2002. Disponível
em: <http://www.bvs-sp.fsp.usp.br/tecom/docs/2002/ber001.pdf>. Acesso em 10 de
Junho de 2014.

BERGAMASCHI, D. P.; BUENO, M. B.; SOUZA, J. M. P. Stata – Básico. VI


Programa de Verão, Universidade de São Paulo. 2004. Disponível em:
<http://www.bvs-sp.fsp.usp.br/tecom/docs/2002/ber001.pdf>. Acesso em 10 de Junho
de 2014.

FRAGA, R. O desafio de estrai micrdodados. Disponível em: <http://www.4-


shared.eu/download/3re3heu2QPedDJd6gqnLTE/O-desafio-de-extrai-
microdados.html>. Acesso em 10 de Junho de 2014.

IBGE – Instituto Brasileiro de Geografia e Estatística. Disponível em:


<http://www.ibge.gov.br/home/>. Acesso em 10 de Junho de 2014.

LEAL, G. Pesquisa Nacional por Amostra de Domicílios, IBGE. Laboratório de


Economia da UFJF. 2010. Disponível em:
<http://www.ufjf.br/econs/files/2010/05/PNAD-Apresenta%C3%A7%C3%A3o-da-
Pesquisa-Nacional-por-Amostra-de-Domic%C3%ADlios-12-de-Abril-de-2010.pdf>.
Acesso em 10 de Junho de 2014.

ROCHA, L. A. Curso de Métodos Quantitativos Aplicados: Estatística Aplicada


com o uso do Software Stata. Ministério da Educação, Universidade Federal Rural do
Semi-Árido. 2013.

SANTOS, G. C. Aula Prática: Tratamento e Extração dos Microdados da PNAD.


Universidade Federal de Viçosa. 2010. Disponível em:
<http://pt.scribd.com/doc/89903913/Aula-Microdados-PNAD>. Acesso em 10 de Junho
de 2014.

Você também pode gostar