Você está na página 1de 9

FACULDADE DE ECONOMIA, ADMINISTRAO E CONTABILIDADE FEAUSP

MATERIAL DE APOIO PARA MONITORIA DE ECONOMETRIA II


Professores: Moiss Vassalo e Paula Carvalho Pereda.
Monitores: Juliana Souza Scriptore e Rafael Benini.

1.) Introduo ao Software Economtrico: STATA 11

1.1) Primeiros Passos

Apresentao Tela Inicial
Ao abrir o Stata percebe-se quatro janelas. No canto inferior direito est a janela
Command em que digita-se os comandos a serem executados. Acima dela, a maior
janela a de resultados que mostra o resultado (em uma quantidade limitada) do
comando digitado. No canto inferior esquerdo est a janela Variables, que mostra as
variveis do banco de dados em utilizao. Acima dela, Review, est a janela com o
histrico dos comandos executados (ao clicar em um deles possvel reexecut-lo e
modific-lo sem a necessidade de nova digitao).
A maioria dos comandos do Stata tambm pode ser feita pelo opes disponveis no
menu superior. No entanto, digitar os comandos diretamente na janela de comandos
geralmente facilita o trabalho quando j se tem alguma experincia com o software ou
quando deseja-se criar rotinas personalizadas.
Antes de iniciar suas estimaes, importante criar dois tipos de arquivos no Stata. O
arquivo do-file e log-file.

Arquivo do-file
Todas as operaes do Stata podem ser feitas digitando os comandos desejados na
janela Command. Porm, caso se queira repetir as estimaes realizadas os comandos
digitados sero perdidos.
Assim, um tipo de arquivo muito comum no Stata o do-file, pois composto por uma
rotina de comandos que podem ser executados de uma s vez ou em partes (seleo).
No ltimo caso, aps selecionar a parte desejada, o comando utilizado o do
(encontrado na barra de ferramentas) ou ctrl-D. Para que a rotina toda seja
executada utiliza-se o comando run. importante ressaltar que, ao utilizar o
comando run, os resultados no so exibidos na janela de resultados.
Para criar esse tipo de arquivo, encontre o boto New Do-File Editor e salve com o
nome desejado sempre dentro do mesmo diretrio em que se encontram os outros
arquivos.

Arquivo log-file
Esse arquivo grava todos os resultados exibidos na janela de resultados em um arquivo
txt. importante ter o log-file para que seja possvel consultar o resultados das
estimaes bem como algum outro detalhe que se queira, pois como dito
anteriormente a janela de resultados grava uma quantidade limitada de resultados.
O arquivo log-file criado no boto Log Begin/Close/Suspend/Resume. Para salvar
selecione o tipo de arquivo Log(*.log) e ver na janela de resultados que o arquivo foi
criado no formato desejado. Para fechar um log basta usar o comando log close ou o
mesmo comando anterior.

Diretrio
O diretrio que o STATA usa para salvar e manipular os arquivos aparece no canto
inferior esquerdo da tela, em uma linha estreita abaixo da janela das variveis
(exemplo: F:\Stata 11). importante que todos os arquivos sejam concentrados em
um nico diretrio. A alterao do mesmo pode ser feita pelo comando cd. Por
exemplo, quero colocar meus arquivos na pasta de trabalho, Dropbox, em uma
subpasta denominada Monitorias_Econometria2, EconometriaII e Aula1 (veja linha 5).
Ao selecionar o comando, observe a mudana na linha estreita mencionada.
Caso queira ver quais os arquivos que foram salvos naquele diretrio at o momento,
digite dir.
Essa mudana de diretrio tambm poderia ser feita ao clicar no menu superior do
programa em File > Change Working Directory.

Importao de dados
Existem vrias formas de inserir dados no programa. Em geral, os arquivos utilizados
no Stata estaro no formato dta (prontos para serem importados). O comando
utilizado nesse caso ser o use. Porm, o Stata tambm l arquivos em formato txt e
csv (nesses casos, utiliza-se o comando insheet). Ambos os comandos devem vir
acompanhados de clear (indicando que nenhuma varivel de anlise anterior est na
base). O exemplo abaixo pode ser utilizado quando se est trabalhando no mesmo
diretrio.

use WAGE2, clear
insheet using WAGE2csv.csv, clear
insheet using WAGE2txt.txt, clear

De outra forma, para carregar os dados no programa basta clicar no menu superior em
file open e selecionar o arquivo que ser utilizado durante a monitoria. Caso esteja
criando sua prpria rotina o comando que aparecer na sua janela deve ser copiado
para o arquivo do-file (veja linha 7 do arquivo .do).
Memria
O Stata (essa restrio mais presente em verses anteriores) tem uma alocao de
memria para o banco de dados. importante, em alguns casos, aumentar a memria
quando se trabalha com microdados e com bases de dados grandes. Alguns comandos
importantes para isso so:
query memory: visualiza a memria atual;
set mem 1g: aumenta a memria para 1 giga;
set maxvar 5000: aumenta o nmero mximo permitido de variveis para 5000;
set matsize 500: aumenta o nmero mximo permitido de variveis em um mesmo
comando de estimao.

Outros comandos teis:
help: comando importante de ajuda que fornece informaes detalhadas sobre todas
as funcionalidades do programa e todos os tipos de comandos (exemplo: help regress).
search, findit: comandos de pesquisa para quando o pesquisador no souber o
comando exato para o qual deseja informaes. O segundo fornece uma pesquisa mais
abrangente com links para internet.
set more off: importante para que o Stata no congele a tela de resultados (default)
quando a sada dos resultados for muito grande.
ssc install psmatch2, replace: possvel instalar alguns comandos que no estejam
disponveis inicialmente no software.
browse: verificar se os dados foram transferidos adequadamente no momento da
importao.
save Dados Salario, replace: salva o banco de dados (em formato dta) com o
nome especificado entre aspas. Se voc j salvou um banco com este nome e quer
substitu-lo, basta usar a opo ", replace".
clear: limpa as janelas results e review e fecha o banco que estiver aberto. utilizada
quando se deseja mudar de banco, por exemplo.

1.2) Explorando a base e trabalhando com os dados.
Nessa seo veremos os comandos mais usados para conhecermos e
explorarmos a base de dados bem como transformar as variveis, criar novas e fazer
interaes entre elas.

Comandos comuns para explorar a base de dados:
describe (des): mostra informaes acerca do nome da varivel, o formato necessrio
para armazenamento da varivel em relao preciso de inteiros e decimais (byte,
int, long, float, double e str)
1
e a descrio da varivel, quando houver.
codebook: anlise descritiva geral (mdia, desvio-padro, missing, percentis, entre
outros). Se quiser saber essa anlise em relao a apenas algumas variveis: codebook
wage married.
sumarize (summa): resumo descritivo das variveis (observaes, mdia, desvio-
padro, mnimo e mximo). Outra opo quando se quer mais detalhes (tais como
curtose e varincia): summa wage, detail.
tabulate (tab): apresenta distribuio de frequncia da varivel selecionada.
Geralmente utilizada para variveis dummies. Caso o comando seja apresentado com
duas variveis a frequncia ser dada uma em funo da outra: tab married black.
count: conta o nmero de observaes na base de dados.
count if IQ ~= 100: o sinal "~=" significa "diferente de" (o sinal "!=" tambm significa
"diferente de").
count if IQ >= 100: conta as observaes que so maiores ou iguais a 100.
count if IQ == 100: no Stata devemos usar "==", e no "=", para nos referir igualdade
quando em expresses lgicas.
rename age idade: muitas vezes as variveis do banco de dados podem vir
representadas por cdigos ou letras, de forma que interessante renome-las (nome
original seguido do novo nome).
label var idade "idade em anos": o mesmo pode ser feito em relao descrio da
varivel.
order idade wage lwage: ordena as variveis colocando essa sequncia nas primeiras
colunas.
sort idade: este comando ordena as observaes em ordem crescente em relao
varivel idade (salrio de indivduo com 28 anos $600 e com 38 anos $1452).

1
Apenas float e double tem preciso para o nmero total (incluindo os decimais) de 7 e 16 casas
respectivamente. Por exemplo, se eu tiver uma varivel cujo nmero inteiro seja 3 e os decimais 13, o
formato para armazenagem tem que ser o double. O tipo string refere-se s variveis qualitativas, tais
como masculino/feminino (nesse caso, str9).

Criao de variveis, transformaes e interaes:
Para se excuir variveis especficas do banco de dados utiliza-se o comando drop
seguido da varivel que se deseja excluir, mas para que somente algumas variveis
sejam mantidas no mesmo utiliza-se o keep.
drop lwage
Vamos supor que seja do nosso interesse uma base de dados somente com indivduos
acima de 29 anos. Ao executar o comando aparece quantas observaes foram
deletadas (v novamente em browse para se certificar).
keep if idade > 28
Algumas vezes, principalmente ao se trabalhar com a PNAD, podem existir valores
muito altos (ou muito baixos) nas observaes que devem ser retirados para no viesar
nossos resultados. No exemplo abaixo no existe ningum que ganha $2.000.000.
drop if wage > 2000000
muito comum gerarmos inmeras variveis e interaes em nossas regresses, como
por exemplo, calcularmos o log do salrio, a experincia ao quadrado, entre outras. O
comando utilizado o generate (gen):
gen logwage = ln(wage)
Podemos criar variveis novas usando tambm o comando egen. Ele permite criar
variveis a partir de outras j presentes no banco de dados, como salrio mdio por
faixa etria. Vamos criar esta varivel da mdia dos salrios por idade.
sort wage
bysort idade: egen salmed = mean (wage)
Colocando label para ficar igual s restantes:
label var salmed "Salario Medio por idade"
Considere que precisaremos de variveis dummies
2
das idades dessa base de dados
(teremos 10 variveis, uma para cada idade). Para criar tais variveis segue o
comando
3
:
tab idade, gen (dum_idade)
Por fim, o comando recode usado para alterar as observaes de uma determinada
varivel. Vamos supor que no seja importante analisar os indivduos que tenham 13 e
14 irmos. possvel colocar missing para essas observaes.

2
Uma varivel dummy uma varivel que se refere a um evento binrio, do tipo sucesso (para o qual
seu valor 1) ou fracasso (para o qual seu valor zero).
3
A criao de variveis dummies na Pnad muito comum quando uma determinada questo possui
apenas duas respostas (2= masculino e 4 = feminino). Faremos isso mais adiante.
recode sibs 14=. 13=.

Regresso MQO
* regress (reg): este comando estima uma regresso por MQO. A primeira varivel que
se lista depois do reg a varivel dependente (explicada) e as demais so as variveis
independentes (explicativas). Pode-se estimar uma regresso para toda a amostra ou
para uma sub-amostra que atende determinada condio.
reg lwage hours age educ exper
reg lwage hours age educ exper if age>30
reg lwage hours age educ exper if married==1 & age>30

1.3) Juno de bancos de dados
Podemos ter bancos de dados com as mesmas observaes (trabalhadores, por
exemplo), mas variveis diferentes. Para un-los, usa-se o comando merge.
necessrio que em ambos os bancos de dados haja uma ou mais variveis que
identifiquem UNICAMENTE cada observao. No caso das duas bases a seguir temos os
mesmos trabalhadores identificados pelo ID, porm em cada uma das bases temos as
seguintes varivei:
use WAGE2-B, clear: idade, se casado, se negro, se mora no Sul, se mora em uma rea
urbana, nmero de irmos, data de nascimento, log do salrio, educao do pai e da
me.
use WAGE2-A, clear: ganhos mensais, horas mdias semanais, score de QI, anos de
educao, anos de experincia de trabalho, anos no trabalho atual, KWW.
merge 1:1 ID using WAGE2-B
Deve-se usar "merge 1:1" seguido da varivel que identifica as observaes e de "using
NOME", em que NOME o caminho para o banco de dados que se deseja unir ao
atualmente carregado no Stata (WAGE-A). A varivel (merge==3) refere-se s
observaes pareadas. No houve nenhum ID que ficou sem associao com o mesmo
ID do outro banco.
Ou seja, quando h observaes que esto presentes em apenas em um dos bancos de
dados que foram fundidos, mesmo assim elas so adicionadas ao banco final. Para
sabermos quais observaes estavam em cada banco, o comando cria uma nova
varivel (_merge) que pode assumir trs valores: 1, 2 ou 3. O 1 se refere s
observaes que estavam presentes apenas no banco de dados inicial (A). O 2 s que
estavam apenas no banco que veio a se fundir ao inicial (B). O 3 s observaes que
estavam presentes em ambos (A e B).

2) Trabalhando com a Pesquisa Nacional de Amostras por Domiclios (PNAD).
A PNAD realizada anualmente, exceto em anos para os quais existe Censo, e traz
informaes em nvel nacional e estadual. Iniciou-se em 1976 e algumas PNADs
apresentam suplementos sobre um tema especfico, ou seja, incluem perguntas sobre
algum assunto em especial, que normalmente no fazem parte do questionrio
comum da pesquisa. Por exemplo, a PNAD de 2001 tem um suplemento sobre trabalho
infantil, a PNAD de 2003 tem um suplemento sobre sade; a PNAD de 2004 tem um
suplemento sobre os programas sociais etc.
Alguns dados da PNAD podem ser obtidos diretamente do site do IBGE por meio do
sistema SIDRA. Porm, trabalharemos com os microdados a fim de ampliar a
abrangncia da anlise economtrica.
Inicialmente, no site do IBGE, v em Populao PNAD Microdados 2012
(menu esquerdo formato zip). Faa o download de tudo.

a) Questionrio: arquivo que traz a ficha da entrevista utilizada pelo recenseador.

b) Dados: Os dados da PNAD vm listados em dois arquivos de Bloco de Notas, um
contendo a informao dos domiclios e outro contendo as informaes das
pessoas. Ao abrir esses arquivos as informaes para uma mesma pessoa (ou
domiclio) esto todas seguidas, enfileiradas. Ou seja, no h separao entre uma
informao e outra e, portanto, tais informaes no sero teis. Para decifrar
essas informaes a PNAD possui os dicionrios.

c) Dicionrio: o dicionrio da PNAD constitui-se de uma tabela em que esto listadas
as variveis que compem a pesquisa por cdigo, sua localizao no banco
(posio inicial e tamanho), uma descrio simples e as respostas possveis, com
seus cdigos. H dois dicionrios: o dicionrio de pessoas lista as informaes
que se referem a cada um dos indivduos e o dicionrio de domiclios lista as
informaes correspondentes s casas em que estes indivduos se localizam e as
variveis dos suplementos.

Como extrair os microdados da PNAD:

Para abrir os dados num programa estatstico preciso informar em que lugar
daquele arquivo em Bloco de Notas se encontra a informao que voc deseja.
Como fazer isso? Toda varivel possui uma posio inicial, que a coluna em que
ela comea. Toda varivel tem tambm um determinado tamanho, ou seja, o
nmero de colunas onde a informao completa se encontra. Por fim, toda varivel
tem uma posio final, que a coluna em que ela acaba.

Por exemplo, a informao sobre o estado em que o domiclio se encontra se inicia
na coluna 5 do Bloco de Notas, o tamanho desta informao 2; assim, a
informao vai at a coluna 6. Ento, temos que, posio final = posio inicial +
tamanho (menos) 1. No esquea de subtrair 1, caso contrrio voc vai abrir o
banco de forma incorreta.

Vamos alterar pequenas partes do arquivo input (txt) disponibilizado pelo IBGE
para que o STATA possa reconhec-lo e assim organizar o banco de dados. Em
primeiro lugar, copie todo esse arquivo (input) e cole em um arquivo do-file do
Stata. Delete toda a parte at o INFILE e insira o seguinte comando para que ele
busque a base de dados em txt:

dictionary using
C:\Users\Juliana\Dropbox\PNAD_2012\Dados\Dados\PES2012.txt"{

Seguindo as alteraes, as seguintes substituies (ctrl-H) devem ser feitas:
@ _column(
$ %
. g
/*
*/

Nos casos em que o $ no aparece na terceira coluna deve-se incluir % e substituir
o g pelo f. Aps essas substituies, deve-se fechar o parnteses de column( e
adicionar a palavra float seguida de espao (use o excel para essas
manipulaes). Por fim, na ltima linha, adicione }. Salve o arquivo no diretrio
de trabalho em formato dct. No Stata, aps ampliar a memria, digite o seguinte
comando:

infile using "C:\Users\Juliana\Dropbox\PNAD_2012\Dic_PNAD2012.dct"

Chave
Depois de aberto o banco, como vou identificar os domiclios e as pessoas? A primeira
varivel que deve ser criada no banco chamada CHAVE. Esta varivel uma
composio das variveis UF, nmero de controle e nmero de srie. Ela nica para
os domiclios, logo, todas as pessoas de um mesmo domiclio tm o mesmo valor da
varivel CHAVE. Esta varivel importante tambm para construirmos um banco nico
com informaes das pessoas e dos domiclios.


Peso

A PNAD por ser uma pesquisa amostral no apresenta informaes sobre toda a
populao brasileira, mas sim de uma amostra representativa desta populao. Na
amostra que compe a PNAD razovel supor que uma pessoa, com determinadas
caractersticas especficas, no esteja sozinha na populao. Ento, quantas
pessoas na populao brasileira inteira devem apresentar as mesmas
caractersticas de uma determinada pessoa especfica no banco de dados? Isto
descoberto olhando para uma varivel chamada peso da pessoa. Por exemplo, se
o peso da pessoa for 378, ento devem existir 378 pessoas iguais a esta na
populao (isso por que s existe uma pessoa desta na amostra). O mesmo se
aplica aos domiclios.

Tipos de variveis

No banco de dados da PNAD as respostas obtidas pelo questionrio no esto
escritas, ou seja, todas as informaes so representadas por nmeros. Existem
dois tipos de informao: 1) dados numricos (idade, renda, nmero de horas
trabalhadas) e 2) dados qualitativos (UF, raa, freqncia escola). Para estes
casos, o nmero que est no banco de dados representa um cdigo resposta. Por
exemplo, na varivel UF, quando vemos o nmero 35 como resposta, isso quer
dizer que aquela pessoa mora no estado de So Paulo. Por isso necessrio fazer
as alteraes que aprendemos acima em relao s variveis binrias.