Você está na página 1de 13

FACE Faculdade de Administrao, Cincias CURSO DE ANLISE DE

Contbeis e Cincias Econmicas


Curso de Cincias Econmicas MICRODADOS USANDO O
Direo FACE
Prof. Moiss Ferreira da Cunha STATA
Vice-Direo FACE
Prof. Mauro Caetano de Souza MATERIAL DE APOIO
Coordenao do Curso de Cincias Econmicas
Prof. Priscila Casari
Professor:
NEPEC Ncleo de Estudos e Pesquisas
Econmicas Sandro Eduardo Monsueto
Coordenao
Srgio Fornazier Meyrelles Filho Assistente de Pesquisa:
Brbara C. Pereira da Silva Carrijo

NEPEC/FACE/UFG
Goinia Agosto/Setembro 2014
Verso 1.0

Endereo
Campus Samambaia, Prdio da FACE Rodovia
Goinia/Nova Veneza, km. 0 Caixa Postal 131,
CEP 74001-970, Goinia GO.
Tel. (62) 3521 1390
URL
http://www.face.ufg.br/economia
INTRODUO
Esta apostila serve de material de apoio para a realizao do curso. Longe de ser
abrangente, tem como objetivo servir de guia ou de lembrete para a execuo de tarefas. Outros
materiais, melhores e mais completos, podem ser facilmente encontrados de forma gratuita na
internet e a mesma empresa que desenvolveu o Stata pblica uma srie de livros para temas
especficos tanto para iniciantes como para usurios avanados1. Contudo, como qualquer
programa estatstico, dificilmente encontraremos algum que conhece todos os detalhes e
segredos do Stata, sendo mais comum que cada pesquisador se especialize em um conjunto
especfico de funes, como Anlise de Regresso, Anlise de Painel, Modelos de Sobrevivncia,
Sries Temporais e Microdados.
O material toma como base a verso Stata 11. Para este curso, a nfase ser na extrao
e anlise de microdados do IBGE, com especial ateno aos dados da PNAD. Isso deve facilitar
inclusive o trabalho com outras fontes de dados, ainda que no sejam diretamente tratadas
aqui, tais como o Censo Escolar ou o SAEB.

1. APRESENTAO GERAL DO PROGRAMA


O Stata um programa de anlise estatstica e tratamento de dados amplamente
utilizado por pesquisadores das cincias sociais aplicadas, principalmente economia e
demografia. Apesar de ser um programa pago, seu custo pode ser considerado baixo para
instituies de pesquisas acadmicas se comparado a outros pacotes licenciados como o SPSS
ou o SAS2.

1.1. Telas principais


A Figura 1 mostra a tela principal do Stata na verso 11.2, com uma base de dados
carregada. possvel observar que a interface est dividida em quatro telas, um menu principal
e um menu de atalhos. A tela central (RESULTS) exibe os resultados dos comandos executados,
exceto os grficos, que aparecem em uma tela a parte. Estes resultados (e qualquer alterao
na base de dados) no so salvos de forma automtica. possvel criar um arquivo de resultados
(logs) que deixa arquivado tudo o que exibido nesta tela.
A parte inferior (COMMAND) permite a entrada direta de linhas de comandos. Para
executar uma linha, basta digitar e pressionar Enter.
A tela VARIABLES exibe as variveis que constam na base de dados carregada no Stata,
enquanto a tela REVIEW registra todas as linhas de comandos que foram executadas na tela de
Command.
A Figura 2 mostra alguns detalhes do Menu Principal e dos Atalhos. Durante este curso,
usaremos com pouca frequncia a maior parte destes menus, uma vez que a nfase ser dada
na execuo de tarefas por meio de linhas de comando (tela Command ou Do-file).

1.2. Abrir bases de dados


Para abrir uma base de dados que j est em formato Stata (DTA), basta cliclar no cone
da pasta amarela no menu de Atalhos. Antes de abrir alguma base de dados, recomendado
executar trs comandos iniciais, de preferncia nesta sequncia:
clear: limpa a base de dados e a memria de sesso do programa
set memo 100m: isso expande a memria disponibilizada pelo computador para o
Stata. Este comando j no mais necessrio a partir da verso 12 do stata.

1
Veja uma lista de livros da StataCorp em http://www.stata.com/publications/
2
Link do Wikipedia com comparaes de pacotes estatsticos pagos e gratuitos:
http://en.wikipedia.org/wiki/Comparison_of_statistical_packages.
set dp comma: este comando converte o smbolo separador de casas decimais de
ponto para vrgula, como usado comumente no Brasil.

Variables: Command: Results:


Commands: Lista das Local de entrada Tela de
Exibe os variveis da dos comandos resultados
comandos que base de dados individuais (exceto grficos)
foram
executados

Figura 1 Tela principal do Stata

New Do-file Editor: Data Editor (Edit/Browse):


Abre um novo arquivo de Abre a planilha de dados
execuo de comandos em lote

Break:
Atalhos para os principais Para a execuo de um comando
comandos do Stata: ou sequncia de comandos.
Manipulao de dados
Assistente de grficos
Estatsticas descritivas
Modelos Estatsticos

Figura 2 Menus superiores

3
Prof. Sandro E. Monsueto
UFG/FACE/Nepec
www.face.ufg.br/economia
Para abrir arquivos com outros formatos (Excel, SPSS, dbf) recomendado usar o
programa Stat/Transfer3 se voc estiver com uma verso Stata 11 ou inferior. A partir da verso
12, a importao ficou mais amigvel, principalmente quando a base de dados original est em
formato Excel.
A importao de dados no estilo dos microdados do censo e PNAD requer um pouco
mais de cuidado e ser abordado posteriormente.

1.3. Estrutura geral dos comandos e variveis


Em geral, os comandos do stata obedecem seguinte sintaxe:
[COMANDO] [LISTA DE VARIVEIS] [RESTRIES], [OPES]

Os comandos devem ser escritos sempre em letras minsculas. Alm disso, deve-se
tomar certo cuidado com os nomes das variveis:
Evite usar letras maisculas e acentuao ao nomear as variveis
As variveis no podem ter nomes compostos separados.
o Errado: idade do trabalhador
o Correto: idade_do_trabalhador
o No Recomendado: Educao
o Recomendado: educacao
Isso ajuda a evitar erros na execuo dos comandos

1.4. Alguns exemplos de comandos de estatsticas descritivas

Com a base de dados desemprego2008.dta aberta, entre com os comandos abaixo. O


Resultado exibido na Figura 3.
tab genero
tab sindicato,m
tab genero sindicato, nofreq col

Figura 3 Exemplos de execuo do comando tabulate (tab)

3
https://www.stattransfer.com/
4
Prof. Sandro E. Monsueto
UFG/FACE/Nepec
www.face.ufg.br/economia
Execute agora os seguintes comandos
sum renda
sum renda idade educacao

Figura 4 Exemplos de execuo do comando summarize (sum)

Por fim, execute os comandos:


sum renda if genero==1
bys genero: sum renda
tab genero, sum(renda)

Figura 5 Exemplos de combinao dos comandos tabulate e summarize (tab/sum)

5
Prof. Sandro E. Monsueto
UFG/FACE/Nepec
www.face.ufg.br/economia
1.5. Comandos de manipulao da base de dados

Abaixo so apresentados alguns exemplos de aplicao dos comandos de manipulao


da base de dados.
Etiquetar variveis: LABEL
 tab genero
 label define sexo 1 1-Homens 0 0-Mulheres
 label value genero sexo
 tab genero

Criar varivel: GEN


 gen sh = (renda/horas*4.33)
 gen idade2 = idade^2  cria a idade ao quadrado

Recodificar Varivel: RECODE


 gen regiao = .
 recode regio .=1 if uf<16
 recode regio .=2 if uf < 30
 recode regio .=3 if uf < 40
 recode regio .=4 if uf < 50
 recode regio .=5 if uf < 60

Apagar variveis ou observaes: DROP e KEEP


 drop horas  deleta a varivel horas
 drop if sexo==1  deleta as observaes de todos os homens
 drop if idade >= 40  deleta os dados de indivduos com 40 anos
ou mais
 keep if educacaoo <=10  mantem na base apenas os dados de
quem tem 10 anos ou menos de educao
 keep educacao cor sh  apaga todas as variveis, exceto educacao
e cor

2. USO DE DO-FILES
Alm da tela de COMMAND, o Stata permite a execuo de conjuntos sequenciais de
comando com o uso dos arquivos de exteno *.DO, tambm conhecidos como Do-Files. Para
abrir um novo do-file, clique no boto New Do-file Editor, na parte superior da tela (Figura 2).
Ser aberto um novo arquivo, similar a um bloco de notas, onde possvel digitar os comandos
para execuo posterior. A Figura 6 mostra um exemplo.
Para executar os comandos, clique no boto Execute(do). O Do-file permite a execuo
de todos os comandos do arquivo ou de linhas selecionadas. Alm disso, possvel inserir
comentrios entre as linhas de comados, como pode ser visto na figura anterior. Esses
comentrios aparecem na tela de Resultados, mas no interferem na execuo dos comandos.
Um asterisco (*) no incio da linha faz com que toda a linha seja um comentrio.
Duas barras (//) no final da linha informam que a partir deste ponto, o resto da linha
um comentrio
Podem ser colocados comentrios tambm entre os caracteres /* */

6
Prof. Sandro E. Monsueto
UFG/FACE/Nepec
www.face.ufg.br/economia
Execute(do):
Executa a
sequncia de
comandos

Figura 6 Exemplo de Do-file

Outra vantagem de se realizar as tarefas com o uso de um Do-file que os comandos


no precisam mais ser necessariamente organizados por linhas, mas por blocos. De forma
automtica, o Stata reconhece um comando para cada linha do Do-file. No caso do exemplo da
Figura 6, so dois comandos, sendo um por linha (linhas 3 e 4). Para organizar os comandos na
forma de blocos, pode ser usado o recurso do exemplo da Figura 7:

Figura 7 exemplo de Do-file organizado em blocos

Neste caso, aps o comando #d; o Stata passa a reconhecer que a linha de comando
termina apenas quando aparecer um ponto e vrgula (;). Para voltar delimitao tradicional,
basta usar o comando #d cr.

7
Prof. Sandro E. Monsueto
UFG/FACE/Nepec
www.face.ufg.br/economia
3. EXTRAO DE MICRODADOS
Depois desta reviso dos principais comandos e uso de comandos com o Do-file,
podemos concentrar nosso estudo na extrao e anlise de microdados da PNAD e do Censo
Demogrfico. De acordo com o site do IBGE:
Microdados consistem no menor nvel de
desagregao dos dados de uma pesquisa, retratando,
sob a forma de cdigos numricos, o contedo dos
questionrios, preservado o sigilo das informaes. Os
microdados possibilitam aos usurios, com
conhecimento de linguagens de programao ou
softwares de clculo, criar suas prprias tabelas.

Para os objetivos desta apostila, microdados so informaes referentes a cada


indivduo ou domiclio entrevistado pelo IBGE em suas pesquisas. Iremos concentrar nossa
anlise nos microdados da PNAD, mais especificamente a pesquisa do ano de 2008.

3.1. Microdados da Pnad

Os microdados da Pnad esto gravados em um arquivo no formato TXT, disponvel no


sistema de FTP do IBGE:
http://www.ibge.gov.br/home/estatistica/populacao/trabalhoerendimento/pnad2
012/microdados.shtm

De tempos em tempos so feitas atualizaes para melhorar a projeo da populao


com base nos censos demogrficos. Utilizaremos os dados da atualizao de 2013, da Pnad do
ano de 2008 (Figura 8):

Baixe este arquivo .ZIP

Figura 8 Pgina do IBGE com os arquivos de microdados da Pnad

8
Prof. Sandro E. Monsueto
UFG/FACE/Nepec
www.face.ufg.br/economia
Aps realizar o download, descompacte os arquivos em uma pasta de seu computador,
de preferncia dentro do drive C para deixar um caminho mais curto na leitura dos dados. O
arquivo compactado possui trs pastas (dados, dicionrio e input), sendo que a primeira contm
dois arquivos com os microdados das informaes de domiclios (DOM2008.TXT) e um arquivo
com os dados das pessoas (PES2008.TXT).
Os microdados so organizados em forma de linhas e colunas dentro destes arquivos
TXT. Para cada linha temos uma observao e para cada coluna uma varivel. Cada coluna tem
um tamanho predefinido. Para sabermos onde comea e onde termina cada coluna (varivel)
necessrio acessar o Dicionrio dos dados, disponvel em um arquivo no formato Excel dentro
da pasta dicionrio.
A Figura 9 mostra uma parte do dicionrio da Pnad de 2008. Tenha sempre a mo este
dicionrio, tanto para a etapa de extrao dos dados como para anlises posteriores, pois o
mesmo tem o significado dos valores de cada varivel, como pode ser visto na ltima coluna da
figura.

Figura 9 Dicionrio do arquivo de pessoas da PNAD 2008

9
Prof. Sandro E. Monsueto
UFG/FACE/Nepec
www.face.ufg.br/economia
Por exemplo, para obtermos os dados sobre a idade de cada pessoa entrevistada
(varivel V8005), devemos observar que sua posio inicial dentro do arquivo 27 e seu
tamanho igual a trs. Logo, as informaes sobre a idade de cada indivduo esto contidas numa
coluna que vai do campo 27 at o campo 29. J as informaes sobre o gnero do entrevistado
(varivel V0302) tem posio inicial igual a 18 e tamanho igual a 1.
Para realizar a extrao destes dados pelo Stata, o comando utilizado o infix que pode
ser utilizado da seguinte maneira:

infix [lista de variveis com suas posies] using [caminho do arquivo]

onde [lista de variveis com suas posies] se refere posio inicial e final de cada
varivel e [caminho do arquivo] o local onde o arquivo de dados TXT est guardado. Como
exemplo, suponha que desejamos extrair os dados sobre idade de cada entrevistado do arquivo
de pessoas. O comando ficaria desta forma:

infix idade 27-29 using "C:\Dados\PNAD\PNAD_reponderado_2008\dados\PES2008.txt"

Obviamente, mas de uma varivel pode ser extrada com a mesma linha de comando,
simplesmente separando por espao a lista das mesmas e suas respectivas posies dentro do
dicionrio de dados. Para extrair as variveis idade e sexo, podemos entrar com o comando:

infix idade 27-29 sexo 18 using "C:\Dados\PNAD\PNAD_reponderado_2008\dados\PES2008.txt"

Apesar do comando infix poder ser utilizado normalmente por meio do campo
COMMAND do Stata, extremamente recomendado o uso de um arquivo Do-file para realizar
a extrao deste tipo de dados. Alm da comodidade de se poder guardar o arquivo de programa
para posterior utilizao, podem ser inseridos comentrios e outros comandos comumente
utilizados na extrao de microdados. A Figura 10 mostra um exemplo para o filtro das variveis
UF, gnero e idade. Reparem que foram dados trs comandos antes da linha de infix. O primeiro
comando (clear) limpa a sesso do Stata, apagando qualquer base de dados que esteja
previamente carregada. O segundo comando (set more off) impede que a tela do Stata fique
travada quando um resultado com muitas linhas exibido. Por fim, o comando (set memo 300m)
fornece mais memria para o Stata conseguir abrir grandes bases de dados, como o caso da
Pnad e do Censo Demogrfico4.

4
Este ltimo passo j no mais necessrio a partir da verso 13 do Stata.
10
Prof. Sandro E. Monsueto
UFG/FACE/Nepec
www.face.ufg.br/economia
Figura 10 Exemplo de uso do comando infix
Por fim, tambm comum a extrao de um nmero relativamente elevado de variveis
em cada operao de extrao. Neste caso, recomenda-se a organizao dos comandos em
bloco ao invs de um comando por linha, usando a opo #d; conforme explicado
anteriormente. A Figura 11 mostra um caso mais completo, onde esta alternativa usada:

Figura 11 Exemplo de uso do comando infix e #d;

Algumas observaes gerais podem ser feitas:


Pode-se utilizar o comando compress para reduzir o tamanho dos arquivos. Isso
ajuda a consumir menos espao tanto na memria fsica como na memria RAM do
computador.
A extrao dos dados de Domiclio segue a mesma sistemtica apresentada.
Tenha em mente que, apesar da estrutura geral ser a mesma, cada ano da Pnad tem
um dicionrio diferente e as variveis podem mudar de lugar.

4. COMBINAO DE BASES DE DADOS


Uma vez realizada a extrao das variveis, podemos realizar combinaes entre bancos
de dados de duas formas bsicas:
Empilhando dados de Pnads de anos diferentes
Combinando as informaes de pessoas e de domiclios.

11
Prof. Sandro E. Monsueto
UFG/FACE/Nepec
www.face.ufg.br/economia
O empilhamento de dados usado quando temos interesse em combinar no mesmo
arquivo dados de Pnads de anos distintos. Isso permite, por exemplo, acompanhar a evoluo
da escolaridade mdia ao longo dos anos usando apenas um arquivo. Para realizar essa tarefa,
podemos usar o comando append depois de filtrar e salvar os dados de dois ou mais anos. Por
exemplo, suponha que desejamos combinar as bases de dados dos anos de 2008 e 2009. Com a
base de 2009 aberta, basta usar a seguinte linha de comando, adaptando o caminho do arquivo:

append using "C:\Dados\PNAD\base2008.dta"

Ainda como exemplo, a Figura 12 mostra a tela de um Do-file que mostra essa operao
de modo mais completo. As primeiras linhas so os comandos iniciais (clear, set more off e set
memo). So realizados dois filtros, sendo o primeiro para a base de dados de 2008 e o segundo
para 2009. Por fim, o comando append faz a unificao das bases de dados. Para conferir o
resultado, aps a execuo deste do-file, execute o comando tab ano.

Figura 12 Exemplo de empilhamento de dados da Pnad

J para combinar as informaes dos arquivos de pessoas e de domiclios de um mesmo


ano, devemos utilizar o comando merge. Suponha que o pesquisador deseje saber se o domiclio
de um trabalhador possui gua encanada. Podemos unificar esses dados em um mesmo arquivo.
Para tanto, necessrio que tanto os dados de pessoas como os de domiclio j tenham sido

12
Prof. Sandro E. Monsueto
UFG/FACE/Nepec
www.face.ufg.br/economia
filtrados em arquivos separados com suas respectivas variveis. Alm disso, necessrio que os
dois arquivos possuam ao menos uma varivel que seja comum.
No caso da Pnad, as duas variveis que servem de ligao entre os arquivos so o
nmero de controle (v0102) e nmero de srie (v0103). A primeira coisa a fazer, ordenar os
dados da base de dados de domiclio. Para isso, podemos usar a seguintes linhas de comando:

use "C:\Dados\PNAD\domicilio.dta", clear


sort v0102 v0103
save "C:\Dados\PNAD\domicilio.dta", replace

O comando sort faz a ordenao da base de dados de acordo com a lista de variveis
proposta. Em seguida, faa o mesmo com a base de dados de pessoas:

use "C:\Dados\PNAD\pessoas.dta", clear


sort v0102 v0103
save "C:\Dados\PNAD\pessoas.dta", replace

Agora, com esse ltimo banco de dados aberto, fazemos a juno das informaes com
o comando merge:

merge v0102 v0103 using "C:\Dados\PNAD\domicilio.dta"

Aps isso, criada uma nova varivel chamada _merge. Essa varivel assume trs
valores:
_merge=1: observaes somente do banco de dados mestre (master data  pessoas.dta)
_merge=2: observaes somente do banco de dados secundrio (using data  domicilio.dta)
_merge=3: observaes dos dois bancos (master e using)

O melhor dos mundos seria encontrar sempre _merge = 3, ou seja, com informaes
que existem nos dois bancos de dados. Contudo, para a Pnad e o Censo normal encontrar
informaes que pertencem apenas ao banco de dados secundrio (domiclio). Essas so
observaes de domiclios cujas entrevistas no foram realizadas. Portanto, podemos terminar
de organizar nossa base de dados entrando com a linha de comando:

keep if _merge==3

13
Prof. Sandro E. Monsueto
UFG/FACE/Nepec
www.face.ufg.br/economia