Você está na página 1de 18

Introduo ao Stata

HO 235 Econometria de Dados em Painel


Prof. Alexandre Gori Maia
Instituto de Economia - UNICAMP
Ementa
Leitura de Arquivos
Manipulao de Arquivos
Anlises Descritivas
Anlise microdados PNAD
Bibliografia
BAUM, C. F. An introduction to modern econometrics using Stata. Stata
Press, 2006, Cap. 1-2, Appendix A.

Estrutura de Anlise - Stata


Um arquivo de pode ser criado diretamento no editor de
dados ou lido externamente pelo s comandos insheet, infile e
infix;
Uma vez criado ou lido, o arquivo ser armazenado na
memria para ser utilizado em procedimentos estatsticos;
Para limpar a memria pode-se utilizar o comando clear;

Arquivo
Externo

Comando
de leitura

Arquivo
.DTA

Comandos
estatsticos

Output
Tela

2
Manipulao de dados
Procedimentos Estatsticos

Leitura de Arquivos Data Editor


O Stata possui um editor de dados muito semelhante
planilha do Excel;
Pode ser inicializado pelo comando edit ou pela opo do
menu Window/Data Editor;
Nesse exemplo, o arquivo de
trabalho conter 5 variveis
(country, gdp, lf, shool2 e
manuf) e 6 observaes. A
varivel country a nica
alfanumrica (em vermelho) e
as demais so todas
numricas (em preto).
3

Leitura de Arquivos Delimitado


Arquivos textos delimitados por espaos ou tabulaes (tab)
podem ser lidos diretamente pelo comando insheet;
Pode-se ainda utilizar a opo delimiter (char) para definir
delimintaes definidas por outro caracter (char);
O comando cd define o diretrio de trabalho, ou
seja, a pasta de seu micro onde se localizam os
arquivos a serem lidos e onde sero salvos os
arquivos de sadaO arquivo Dados_PIB.txt,
localizado na pasta F:\Alexandre\Aulas\HO235\2015, contm dados para 80 pases. A opo
names indica que a 1 linha do arquivo conter o
nome das variveis, que so: code (sigla do pas,
em formato caracter), gdp (PIB em US$
constantes), lf (fora de trabalho), school2 (%
jovens no 2 grau) e manuf (% da indstria no VA
total). O comando clear limpa a memria,
apagando arquivos existentes antes da leitura. O
comando list exibe o contedo do arquivo. A
opo in limita a exibio s observaes 1 a 5.

Leitura de Arquivos Delimitado


Se o arquivo texto no delimitado por um caracter
especfico, mas separado por espaos em branco, podemos
utilizar o comando infile;
Variveis em formato caracter devem ser especificadas com a
opo strn (n o nmero de caracteres, por exemplo, str3)
Por padro, o Stata define as variveis como numricas;
Caso uma varivel em formato caracter apresente valores com
espaos (por exemplo, Costa Rica), os valores dessa varivel
devero estar entre aspas duplas (por exemplo, Costa Rica);

O arquivo dados_pib_espacos.txt contm as


informaes separadas por espaos. A varivel
code possui formato caracter com 3 posies
(str3). Como esta no apresenta espaos em
seus valores, no foi necessrio separ-los por
aspas ().

Leitura de Arquivos Colunado


Arquivos textos com colunas fixas para os valores de cada
varivel podem ser lidos como comando infix;
Variveis em formato caracter devem ser especificadas com a
opo str. No necessrio especificar o tamanho da varivel,
pois essa informao ser definida pela amplitude das
colunas;
O arquivo Dados_PIB_Colunado.txt
contm os valores das variveis dispostos
em colunas fixas. Por exemplo, os valores
da varivel school2 comearo a ser lidos
na 33 coluna de cada linha e terminaro
na 39 coluna.

O smbolo /// utilizado para indicar


a continuidade de um comando do
Stata na prxima linha.

Leitura de Arquivos Excel


A partir da verso 12.0, o Stata importa planilhas do excel a
partir do comando import e a opo excel;

O arquivo Dados_PIB.xls
contm duas planilhas:
Dados e Dicionario. Os
valores das variveis
encontram-se na planilha
Dados (opo sheet). A
opo firstrow indica que
a primeira linha do
arquivo contm os nomes
das variveis. A opo
clear limpa a memria
antes de iniciar a leitura.

Leitura de Arquivos DTA


Um arquivo de trabalho pode ser salvo com o comando save;
O arquivo ser salvo na pasta de trabalho com a extenso .dta;

O comando salvar o arquivo dados_pib.dta na pasta de trabalho


definida no comando cd. A opo replace permite que o arquivo seja
sobrescrito caso este j exista na pasta.

Para ler um arquivo .dta salvo em sua pasta de trabalho, basta


usar o comando use;

O comando abrir o arquivo dados_pib.dta que se localiza na pasta de


trabalho definida no comando cd.

Manipulando Arquivos Generate


Para criar uma nova varivel no arquivo de trabalho
utilizamos o comando generate;
A nova varivel prod (US$/pessoa na fora de trabalho)
ser a razo da varivel gdp (US$) por lf (pessoas). O
comando summarize apresenta estatsticas descritivas
da(s) varivel(eis) em questo.

Caso uma varivel j exista, esta no poder ser sobrescrita com


o comando generate. Uma alternativa , antes, elimin-la do
arquivo com o comando drop;
Aps excluir a varivel prod do arquivo de
trabalho, esta criada novamente, agora com
uma nova unidade de medida: 1000 US$/pessoa.

Outra alternativa seria utilizar o comando replace;


9
O contedo da varivel prod ser alterado sua antiga
unidade de medida (US$/pessoa)

Manipulando Arquivos Recode


Podemos criar categorias de valores discretos combinando
os comandos generate e replace com a clusula if;

Apos inicializar a varivel grupo com valor nulo (.), atribui-se o valor 1
(produtividade alta), 2 (mdia) ou 3 (baixa) segundo o valor da varivel prod. O
comando tabulate apresenta a distribuio de frequncia para a varivel. O
caracter & corresponde ao operador lgico and.

Alternativamente, podemos utilizar o comando recode


para criar uma varivel a partir da recodificao dos valores
de uma outra varivel;
10
Os valores da varivel prod so recodificados em uma nova varivel: grupo. O
resultado o mesmo do exemplo anterior.

Tabelas Cruzadas tabulate


Para criarmos categorias de valores discretos a partir de
valores nominais, podemos combinar os comandos
generate e replace com a opo if;

A varivel g8 inicializada com 0 (para todos os pases). Em seguida, atribui-se 1


caso a varivel country corresponda a um dos nomes dos pases do G8. O caracter
| corresponde ao operador lgico or.

Podemos analisar a distribuio cruzada de frequncia de


duas variveis categricas com o comando tabulate;

11

Estatsticas Agregadas by-groups


Estatstiscas descritivas para cada grupo de uma varivel
categrica podem ser geradas com o comando by:

Sero geradas esatsticas descritivas das variveis prod, school2 e manuf para
cada valor da varivel g8.

Alternativamente, as mesmas estatsticas descritivas,


categorizadas por grupos, podem ser geradas pelo
comando tabstat e a opo by();

As estatsticas sero categorizadas pelos valores da varivel grupo. A opo


statistics() define quais estatsticas descritivas sero geradas. Os resultados
sero anlogos ao do comando.

12

Manipulando Microdados PNAD


O IBGE costuma disponibilizar os microdados de suas
pesquisas em formato texto colunado (fixo);
O dicionrio de dados descreve a posio de cada varivel;

13
Fragmento do dicionrio de dados do arquivo de pessoas da PNAD 2011.

Manipulando Microdados PNAD


Com base no dicionrio de dados, podemos selecionar para
leitura apenas as variveis que nos interessam;
O comando set memory expande a
memria disponvel para leitura
(padro de 10 M). No mais
necessrio nas verses recentes do
Stata (13.0).
As variveis lidas referem-se ao
ano, unidade da federao, sexo,
idade, cor, anos de estudo,
condio de ocupao e renda do
trabalho para cada entrevistado.

Podemos decodificar valores numricos em nulos no Stata


utilizando o comando mvdecode;
A PNAD codifica o rendimento no declarado
(v4718) com o valor 999999999999. O
comando mvdecode substitui esses valor
pela representao de nulo no Stata (.).

14

Manipulando PNAD Recode


Podemos utilizar o comando recode para criar uma varivel
categrica desemprego que assume 1 quando a pessoa
estiver desempregada e 0 caso esteja ocupada :
O cdigo 1 da varivel v4805 indica que a pessoa estava ocupada. O cdigo 2
indica que estava desempregada (procurando emprego). Valores nulos sero
atribudos para pessoas inativas (no ocupadas que no procuram emprego).

A varivel desemprego chamada de varivel binria.


Pode ser tratada estatisticamente como varivel nominal
ou numrica :
As duas anlises (tabela de frequncias para
variveis nominais e estatsticas descritivas
para variveis numricas) apresentam
resultados semelhantes, ou seja, indicam de
maneira idntica a taxa de desemprego no
pas.

15

Exerccios
1) A partir da base de dados da PNAD 2013, pede-se:
a)

b)
c)
d)
e)
f)

g)

(infix) Leia as variveis ano, uf, idade (v8005), sexo (v0302), cor (v0404),
anos de estudo (v4803), condio de ocupao (v4805), renda do
trabalho (v4718) e peso de expanso da amostra (v4729). Procure no
dicionrio de dados as colunas iniciais e finais de leitura de cada varivel
(cuidado, as posies no so todas idnticas s de 2011);
(mvdecode) Atribua o nulo para valores de rendimentos iguais a
999999999999;
(generate e recode) Crie a varivel binria desemprego que assume 1
quando o indivduo estiver desempregado e 0 quando estiver ocupado;
(generate e recode) Crie a varivel nominal gesc que assume 1 (1 grau)
para pessoas com 0 a 8 anos de escolaridade; 2 (2 grau) entre 9 e 11
anos de escolaridade; 3 (3 grau) quando tiver 12 anos ou mais;
(tabulate e if) a partir de uma tabela cruzada, analise o padro de
associao entre desemprego e escolaridade, somente para aqueles que
estavam ocupados ou desocupados (v4805);
(by e if) analise os rendimentos mdios entre os grupos de escolaridade,
somente para os ocupados.
(pweight) Considere agora o fator de expanso da amostra nos exerccios
(e) e (f);

16

Exerccios
2) Vamos analisar a importncia da agricultura para o
desenvolvimento dos pases. Acesse a pgina de
Indicadores de Desenvolvimento Sustentvel (World
Development Indicators) do Banco Mundial
(http://databank.worldbank.org/data/home.aspx).
a)

(import sheet) Importe para o Stata uma planilha com


informaes sobre PIB per capita (GDP constant 2005 US$),
percentual de reas de agricultura (Permanent cropland %) e
consumo de fertilizante (Fertilizer consumption in kg per
hectare);
b) (recode) Classifique os pases segundo 4 grupos de renda per
capita: ricos (acima de 13 mil); mdia alta (entre 4 e 13 mil);
mdia baixa (entre 1 e 4 mil); baixa renda (abaixo de 1 mil);
c) (tabstat) Analise as estatsticas descritivas para o percentual
de reas de agricultura e consumo de fertilizando segundo
grupos de renda per capita.

17

Exerccios
3) Elabore uma planilha do Excel com informaes de seu
interesse. Escolha uma varivel de interesse principal (PIB,
por exemplo) e, no mnimo, duas outras que possam estar
associadas ao seu comportamento (que possam explicar, por
exemplo, formao de capital, investimento, consumo,
escolaridade, etc. ).
Dicas: endereos interessantes para obter indicadores
sociais e macroeconmicos so: i) www.ipeadata.gov.br; ii)
databank.worldbank.org.
a) Leia o arquivo no Stata;
b) Faa as transformaes necessrias nas variveis originais;
c) Elabore tabelas de frequncias e estatsticas descritivas para as
variveis;

18