Escolar Documentos
Profissional Documentos
Cultura Documentos
UTILIZANDO O STATA
Conte
1.
2.
3.
Introduo..................................................................................................................3
O ndice de Desenvolvimento Humano (IDH)..........................................................3
ndices de pobreza...................................................................................................18
3.1 Linhas de Pobreza.............................................................................................19
4. ndices de distribuio de renda..............................................................................24
5. Decomposio de ndices de Pobreza e ndices de Distribuio de Renda............31
6. Clculos de coeficientes de elasticidade-crescimento e elasticidade-Gini da pobreza
.........................................................................................................................................34
6. Clculos de coeficientes de elasticidade-crescimento e elasticidade-Gini da pobreza
.........................................................................................................................................34
7. Elaborao de mapas com indicadores sociais........................................................40
8. Avaliao de polticas sociais......................................................................................44
7.1 Mtodos Quantitativos de Avaliao de Programas Sociais..................................45
7.2 Introduo a Inferncia Causal..............................................................................49
7.3 Estimao pela Dupla Diferena...........................................................................51
7.4 O Modelo de Regresso Logstica.........................................................................52
7.5 Mtodo do Propensity Score Matching.................................................................54
7.6 Anlise de Sensibilidade para o Mtodo do Propensity Score Matching..............57
7.7 Modelo de Heckman..............................................................................................59
8. Referencias Bibliogrficas...........................................................................................62
ANEXOS.........................................................................................................................64
Y
1. Introduo
Os princpios gerais para a estimativa e anlise de indicadores sociais
baseiam-se em diversas teorias e neste trabalho no vamos nos concentrar
detalhadamente nas mesmas. O que pretendemos enumerar e descrever
algumas metodologias que se relacionam ao clculo, estimativa e analise
destes indicadores. O objetivo geral do trabalho est circunscrito a analise de
dados que se relacionam a pesquisas socioeconmicas e relativas a polticas
publicas.
Esta tabela foi diretamente reproduzida da DEFINIO E METODOLOGIADE CLCULO DOS INDICADORESE
NDICES DE DESENVOVIMENTO HUMANO E CONDIES DE VIDA - Fundao Joo Pinheiro (FJP) e do Instituto
de Pesquisas Econmicas Aplicadas (IPEA.)
caso do IDH municipal, esta apenas composta pela renda familiar per capita
media ajustada. O mesmo se d para a dimenso de Longevidade que
representada apenas pelo indicador Esperana de Vida ao Nascer (anos). No
entanto, para a dimenso Educao, o IDH municipal utiliza em seu calculo
duas variveis: taxa de analfabetismo (%) com peso 2/9 e numero mdio de
anos de estudo (anos) com peso 1/9. Estes pesos se referem ao ndice final.
Por exemplo, suponhamos que um determinado municpio tenha uma renda
media per capita familiar ajustada igual a 0,950 salrios mnimos de setembro
setembro de 1991, sendo de Cr$ 36.161,60 o valor do salrio mnimo nesta data.
Figura 2 Editor de dados do STATA com os dados do IDH para os municipios do Estado de Minas
Gerais
Figura 3 Matriz de correlao entre os valores do IDH e de seus componentes para os municpios
do Estado de Minas Gerais
Pode-se observar que o componente do IDH que mais alterou o seu ranking
entre os municpios do Estado de Minas Gerais no perodo 1991-2000 foi o de
longevidade.
Este grfico tambm poderia ser obtido atravs do menu Graphics => Box plot
No entanto, preferimos utilizar diretamente o comando dada a maior
flexibilidade de recursos (por exemplo, incluir a possibilidade de marcar
os municpios com baixo valor do IDH 1991 que aparecem no grfico).
Pelo
pode-se observar que a distribuio do IDH desloca-se para valores mais
elevados: a mediana (que a linha intermediaria no meio da caixa) vai para
cima de 1991 para 2000, assim como tambm o primeiro quartil (face inferior
da caixa) e o terceiro quartil (face superior da caixa).
.5
.6
.7
.8
Grfico 1 Diagrama Box Plot para as distribuies do IDH 1991 e IDH 2000 dos municpios do
Estado de Minas Gerais
Setubinha (MG)
.4
IDH1991
IDH2000
Este ultimo comando especifica nas opes msize e mlabsize os tamanhos dos
labels ds municpios que aparecem no grfico como dados discrepantes
(outliers). Mas infelizmente este comando no apropriado pois ocorre muita
sobreposio de nomes de municpios como outliers no grfico. Estes outliers
so observaes cujo valor da varivel inferior (superior) a 1,5 vezes a
distancia entre as duas faces da caixa (desvio interquartlico) contada a partir
da ordenada correspondente a face inferior (superior). A ultima observao
encontrada acima (abaixo) deste limite denominada valor extremo e as
.5
.6
.7
.8
.9
Grfico 2 Diagrama Box Plot para as distribuies do IDH 1991 e IDH 2000 dos municpios do Estado
de Minas Gerais
IDHLONG1991
IDHLONG2000
Vemos que para o ano 1991 temos diversos outliers inferiores que
correspondem a municpios com valores do IDH longevidade inferiores de
forma discrepante em relao ao conjunto da distribuio desta varivel. Outra
importante considerao pode ser obtida atravs da analise de um simples
calculo de estatsticas descritivas para os indicadores:
summa idh1991 idh2000 idhedu1991 idhedu2000 idhlong1991
idhlong2000 idhrend1991 idhrend2000
Este comando tambem pode ser ativado via menu atraves da sequencia
Statistics => Summaries, tables and tests => Tables => Table of Summary
Statistics (tabstat). Deve-se ento incluir as variveis na janela Variables
localizada na aba Main, colocar as estatsticas na janela Statistics to display e
na aba options colocar Statistics na janela Use as columns.
Figura 5 Estatsticas descritivas para o IDH e seus componentes e para os municpios de Minas
Gerais
Vamos
15
10
Density
4
Density
2
0
.4
.6
.8
IDHEDU1991
.6
.7
.8
IDHEDU2000
.9
A
reduo do coeficiente de variao pode ser em grande parte explicada pelo
aumento do IDH educao dos municpios com pior situao em termos deste
indicador em 1991 e que tinha um valor de 0,4 a 0,57 que tiveram seus valores
elevados a valores superiores a este ultimo limite. Portanto os municpios que
anteriormente tinham valores muito distanciados da media estadual passaram
a ter valores mais prximos da mesma. As redues do coeficiente de variao
e do valor absoluto do coeficiente de assimetria indicam que ocorreu um
processo de uniformizao dos valores do IDH educao para os municpios. O
grande salto do limite inferior para este indicador de 0,35 em 1991 para 0,57
em 2000 comprova esta uniformizao.
Outro ndice que foi desenvolvido recentemente em trabalhos de pesquisa o
ndice de Desenvolvimento Rural (IDR). Este indicador guarda semelhanas de
metodologia com o IDH e o ICV municipal, dentro de uma concepo de
simplicidade. No entanto ele foi proposto para medir especificamente o nvel de
desenvolvimento
rural,
concentrando-se
em
indicadores
bsicos
mais
3. ndices de pobreza
Os ndices de pobreza mais utilizados na literatura so: o Poverty Headcount
(proporo de pobres P0), o Poverty Gap (Gap de Pobreza P1) e o Squared
Poverty Gap (Gap de Pobreza elevado ao quadrado P 2), todos fazendo parte
da classe de ndices FGT (Foster, Greer e Thorbecke, 1984). Estes ndices so
calculados com base nas seguintes expresses:
q
n
1 q z yi
P1
n i 1 z
P0
1 q z yi
P2
n i 1 z
onde:
q o nmero de pobres (pessoas cuja renda per capita domiciliar menor que
a linha de pobreza).
n o tamanho da populao
z a linha de pobreza
yi a renda per capita domiciliar da i-sima pessoa
O primeiro ndice (Poverty Headcount) mede a proporo de pessoas
pobres, ou seja, a proporo de pessoas que tm renda per capita domiciliar
inferior linha de pobreza.
para estudos sobre pobreza, mas insuficiente para analis-la dado que viola
dois importantes axiomas. Em primeiro lugar, o indicador no se altera ao se
reduzir a renda de uma pessoa situada abaixo da linha de pobreza ou o
inverso, isto , quando a renda eleva-se sem alcanar a linha de pobreza o
indicador permanece o mesmo. Em segundo lugar, a proporo tambm
insensvel distribuio de renda entre os pobres, no se alterando quando se
transfere renda de um indivduo mais pobre para outro menos pobre. Sendo
assim, a proporo de pobres deve ser utilizada em conjunto com outros dois
indicadores, que se complementam mutuamente.
O segundo ndice (poverty gap) mede a intensidade de pobreza para o
conjunto da populao pobre atravs do clculo do desvio mdio entre a renda
dos pobres e o valor da linha de pobreza e pode ser interpretado como um
indicador do dficit de pobreza, ou seja, os recursos necessrios para elevar a
renda de todos os pobres ao nvel da linha de pobreza, atravs de uma perfeita
focalizao das transferncias de renda. O terceiro ndice (Squared Poverty
Gap) geralmente descrito como um indicador de severidade da pobreza. Na
construo deste ndice utiliza-se um peso maior para as pessoas mais pobres
(o gap de pobreza ponderado por si mesmo) e leva-se em conta a
desigualdade de renda entre os pobres. Considerando-se a utilizao destes
ndices para os propsitos de polticas pblicas de combate pobreza a
proporo de pobres (P0) atribui maior efetividade polticas que elevam a
renda dos menos pobres (aqueles cuja renda mais prxima de z). J o gap
3.1
Linhas de Pobreza
Existe uma imensa discusso sobre mtodos de obteno de linhas de
pobreza.
set. / 01
set. / 02
set. / 03
set. / 04
set. / 05
set. / 06
em R$
em
S.M.
em
R$
em S.M.
em R$
em
S.M.
em R$
em
S.M.
em R$
em
S.M.
em
R$
em
S.M.
Belm
103.65
0.58
0.57
134.57
0.56
142.86
0.55
151.37
0.50
90.35
0.50
0.50
117.30
0.49
124.53
0.48
131.95
0.44
66.19
0.22
155.0
4
135.1
5
67.80
0.44
Urbano
114.7
6
100.0
4
150.7
9
222.7
5
195.4
4
133.8
2
80.72
0.43
Norte
Rural
0.39
0.19
Nordeste
Fortaleza
100.60
0.56
Recife
146.12
0.81
Salvador
132.95
0.74
Urbano
89.30
Rural
53.86
Minas
G./Esp.S.
0.56
132.29
0.55
140.35
0.54
146.61
0.49
0.80
192.03
0.80
199.81
0.77
212.02
0.71
0.73
174.64
0.73
181.19
0.70
187.58
0.63
0.50
112.4
1
159.1
2
146.7
3
98.37
0.49
117.35
0.49
122.62
0.47
128.47
0.43
0.30
59.34
0.30
70.79
0.29
73.96
0.28
77.49
0.26
0.64
0.56
0.38
0.23
Belo
Horizonte
Urbano
0.69
163.45
0.68
175.24
0.67
186.35
0.62
0.47
137.2
0
92.24
0.46
109.89
0.46
117.82
0.45
125.29
0.42
50.19
0.28
54.61
0.27
65.05
0.27
69.75
0.27
74.17
0.25
150.80
0.84
165.7
1
0.83
196.69
0.82
209.78
0.81
218.44
93.82
0.52
0.52
122.38
0.51
130.52
0.50
68.49
0.38
103.1
0
75.26
0.38
89.34
0.37
95.28
188.04
1.04
205.8
5
1.03
238.20
0.99
120.16
0.67
0.66
152.21
75.59
0.42
131.5
4
82.75
0.41
Curitiba
124.13
0.69
P.Alegre
96.20
0.53
Urbano
82.73
0.46
134.6
0
105.7
2
90.24
Rural
126.10
0.70
84.78
195.8
2
131.6
5
77.94
0.56
0.73
227.3
7
0.65
135.91
0.45
0.40
0.37
99.21
0.33
141.4
7
103.2
7
250.79
0.96
261.60
0.87
266.1
5
0.76
0.63
160.25
0.62
167.16
0.56
0.49
95.76
0.40
100.82
0.39
105.16
0.35
170.0
7
106.9
9
0.67
156.08
0.65
168.54
0.65
173.59
0.58
0.50
0.53
124.12
0.52
132.28
0.51
138.38
0.46
0.45
105.22
0.44
112.96
0.43
117.15
0.39
175.7
3
141.5
7
119.1
4
80.32
265.4
2
243.3
0
185.2
5
106.3
9
0.76
0.38
0.22
Rio de
Janeiro
Metrpole
Urbano
Rural
0.30
So Paulo
Metrpole
Urbano
Rural
0.31
Sul
Rural
55.78
0.31
60.84
0.30
70.93
0.30
76.15
0.29
78.98
0.26
CentroOeste
Braslia
171.44
0.95
0.94
225.83
0.94
240.15
0.92
251.57
0.84
Goinia
159.64
0.89
0.88
207.33
0.86
222.86
0.86
234.81
0.78
Urbano
121.55
0.68
0.67
157.86
0.66
169.69
0.65
178.79
0.60
Rural
69.81
0.39
187.1
6
175.9
6
133.9
8
76.95
0.38
90.66
0.38
97.46
0.37
102.68
0.34
0.40
0.34
0.23
0.70
0.53
0.30
*/////////////////////////////////////////////////////////////////////
* LEITURA DOS DADOS DA PNAD 2004 - VARIAVEIS DO ARQUIVO DE PESSOAS
*/////////////////////////////////////////////////////////////////////
infix ano 1-4 uf 5-6 controle 5-12 serie 13-15 ordem 16-17 sexo 18-18 idade 27-29
///
conddom 30-30 condfam 31-31 numfam 32-32 cor 33-33 sabeler 61-61 freqescol 62-62
///
sitescol 78-78 trabinfano 90-90 trabinfsem 93-93 trabalha 147-147 afastado 148-148
///
subsist 149-149 construcao 150-150 numtrab 151-152 rend_apos 534-545
///
rend_pens 548-559 rend_oapo 562-573 rend_open 576-587 rend_abon 590-601
rend_alug 604-615 rend_doac 618-629 rend_jur 632-643 anosest 681-682
condativ 683-683 condocu 684-684 posocup 685-686 horastrab 687-687
ativprin 688-688 ramos 689-690 grupoocup 691-692 contrib 693-693 rend_tra1 703-714
rend_tra2 715-726 rend_toda 727-738 rend_dom 739-750 rend_fa1 751-762
///
tipofam 763-764 numfam1 765-766 numfam2 767-768 rend_fa2 769-780
///
areacen 781-781 sitcen 782-782 pesopes 783-787 pesofam 788-792
///
numcri 796-797 numdom1 798-799 rend_dom1 800-811
///
///
///
///
///
using "D:\PNAD\PNAD2004\Dados\pes2004.txt"
*//////////////////////////////////////////////////////////////////////////////////////////////
* COLOCACAO DAS LINHAS DE POBREZA NO ARQUIVO
*//////////////////////////////////////////////////////////////////////////////////////////////
gene lp = .
replace lp = 142.86 if uf == 15 & areacen == 1
replace lp = 124.53 if uf >= 11 & uf <= 17 & sitcen <= 3 & areacen != 1
replace lp = 62.47 if uf >= 11 & uf <= 17 & sitcen > 3 & areacen != 1
Se a renda familiar per capita correspondente a esta pessoa for inferior a linha
de pobreza ela ser considera pobre. Desta forma, criamos uma varivel
categrica (dummy) que ser igual a 1 em caso de pobreza e igual a 0 em caso
contrario.
gen rendapc = rend_fa1 / numfam1
gen pobre = 1 if rendapc < lp
Para fazer as analises de pobreza necessrio instalar alguns programas no
corpo bsico do STATA. Para fazer isto digite na linha de comando findit
poverty. Procure a referencia ao programa apoverty e o instale. Este programa
calcula ndices de pobreza baseado em uma distribuio de renda descrita por
uma varivel.
apoverty rendapc [fw=pesopes], varpl(lp)
rendap
Poverty measures of rendapc c
Headcount ratio %
32.34
*100
*100
*100
*100
*100
12.721
3.92E+
09
21.579
14.354
44.386
19.281
20.198
11.011
8.903
7.485
6.484
5.751
5.197
4.769
4.431
40.717
25.808
19.388
16.356
15.076
27.892
17.988
19.156
help inequal
A estrutura da sintaxe do comando :
inequal varname [if exp] [in range] [fweights]
Nesta sintaxe est sendo indicado que devemos digitar uma palavra obrigatria
que o nome do comando (inequal) seguindo-se o nome da varivel referente
a qual estamos calcular o indicador de desigualdade, neste caso a renda per
capita familiar. Podemos introduzir no comando condicionantes do tipo if ou do
tipo in, para restringir o calculo do indicador a uma sub-amostra. A opo
[fweights], indica que este comando somente permite ponderao utilizando
um tipo de peso chamado frequency weights (pesos de freqncia). Este peso
deve ter obrigatoriamente valores inteiros e so pesos de expanso da amostra
para o universo. No caso da PNAD temos justamente disponveis este tipo de
peso e por este motivo no teremos problemas de estimar os indicadores
atravs do comando inequal. Comecemos com um exemplo:
gen rendapc = rend_fa1 / numfam1
inequal rendapc [fw=pesopes]
drop rendapc
replace rend_fa1 = . if rend_fa1 > 1000000000
gen rendapc = rend_fa1 / numfam1
inequal rendapc [fw=pesopes]
Podemos tambm calcular ndices de distribuio de renda para diversos
cortes da amostra PNAD, correspondendo estes ndices a estimativas para os
cortes correspondentes do universo de pessoas da populao brasileira de
2004.
Observa-se pela execuo dos comandos acima que o Indice de Gini mais
elevado para as reas urbanas do que para as reas rurais. Quando
estimamos os indicadores de desigualdade para diversos cortes de amostra
considerando a varivel areacen (rea censitria) verificamos que o Gini para
as reas metropolitanas o mais elevado sendo o mais reduzido para os
municpios no auto-representativos (municpios pequenos). Isto j seria
esperado dado que a desigualdade de renda reflete a maior ou menor
estratificao social que torna a renda mais heterognea. Apesar de que
desigualdade de renda e variabilidade de renda so dois conceitos
marcantemente distintos, podemos dizer com certa cautela que universos com
maior heterogeneidade de renda so tambm universos com maior
concentrao de renda (podem ocorrer contra-exemplos hipotticos). Observase que um dos indicadores de desigualdade que o STATA estima o
coeficiente de variao que nada mais do que um indicador de variabilidade
relativa (o resultado da diviso do desvio padro da renda per capita familiar
pela media da renda per capita familiar).
* ROTINA DE ALOCACAO DE ESTRATOS COM UM UNICO PSU EM ESTRATOS COM MAIOR NUMERO
* DE OBSERVACOES UTILIZANDO O DO.FILE idonepsu rendapc - PARA A VARIAVEL RENDPC - ANO DE
*/////////////////////////////////////////////////////////////////////
* LEITURA DOS DADOS DA PNAD 2004 - VARIAVEIS DO ARQUIVO DE DOMICILIOS
*/////////////////////////////////////////////////////////////////////
set more off
infix uf 5-6 controle 5-12 serie 13-15 tipoentrev 16-17 strat 219-225 psu 226-232
if tipoentrev == 1 using "D:\PNAD\PNAD2004\Dados\dom2004.txt", clear
sort uf controle serie
save "D:\CURSO POLITICAS SOCIAIS\dom2004", replace
use "D:\CURSO POLITICAS SOCIAIS\pes2004.dta", clear
sort uf controle serie
merge uf controle serie using "D:\CURSO POLITICAS SOCIAIS\dom2004.dta", uniqusing
tab _merge
drop _merge
save "D:\CURSO POLITICAS SOCIAIS\pes2004", replace
use "D:\CURSO POLITICAS SOCIAIS\pes2004.dta", clear
keep if uf < 11
gene novo_str = .
gene novo_psu = .
save "D:\CURSO POLITICAS SOCIAIS\acum.dta",replace
capture program drop prog1
program define prog1
use "D:\CURSO POLITICAS SOCIAIS\pes2004.dta", clear
keep if uf == estado
gene novo_str = strat
gene novo_psu = psu
quietly {
save "D:\CURSO POLITICAS SOCIAIS\transf.dta",replace
use "D:\CURSO POLITICAS SOCIAIS\acum.dta", clear
append using "D:\CURSO POLITICAS SOCIAIS\transf.dta"
save "D:\CURSO POLITICAS SOCIAIS\acum.dta",replace
}
end
capture program drop prog2
program define prog2
use "D:\CURSO POLITICAS SOCIAIS\pes2004.dta", clear
keep if uf == estado
///
2004
svygei rendapc
a=0
a=1
0.14686
a=2
0.09109
Decompositions by subgroup
Summary statistics for subgroup k = 1,...,K
regiao
2
3
4
5
Pop. share
1
0.27875
0.42128
0.14836
0.07140
Mean
224.14068
478.81786
487.51399
449.94617
Meanpoor
0.08021
62.58088
108.50162
71.46834
100.77148
a=0
a=1
a=2
0.34227 0.14968 0.09224
0.48521 0.23156 0.14693
0.28934 0.12129 0.07384
0.14838 0.06015 0.03692
0.33981 0.14411 0.08609
a=0
0.08297
0.40877
0.36840
0.06653
0.07333
a=1
a=2
0.08175 0.08123
0.43950 0.44963
0.34792 0.34152
0.06076 0.06013
0.07007 0.06749
a=0
1.03444
1.46646
0.87446
0.44844
1.02700
a=1
1.01921
1.57672
0.82585
0.40957
0.98126
a=2
1.01267
1.61305
0.81068
0.40529
0.94517
Mean
gappoor
266.34681
64.12627
58.47654
80.84997
48.35557
76.88272
50.40413
define
define
define
define
define
define
define
define
define
define
values
tipofam
tipofam
tipofam
tipofam
tipofam
tipofam
tipofam
tipofam
tipofam
tipofam
tipofam
3)
O grupo com mais elevado ndice de pobreza FGT (0) poverty ratio
corresponde as pessoas pertencentes a famlias mono parentais de mes com
todos os filhos menores de 14 anos (66,43 %).
5)
L L ( p; )
e
Medida de pobreza: P P( / z; )
onde L a participao dos p por cento inferiores da populao na renda per
capita domiciliar, um vetor de parmetros estimveis da curva de Lorenz, P
a medida de pobreza escrita como uma funo da relao da renda per
capita domiciliar mdia linha de pobreza z e os parmetros da curva de
Lorenz. A especificao Quadrtica Geral da curva de Lorenz dada pelas
seguintes funes:
L(1 L) a ( p 2 L) bL( p 1) c ( p L)
ou
1
L( p ) [bp e (mp 2 np e 2 )1/ 2 ]
2
2
1 H / s1
r
aH bL( H ) ln
z
16
1 H / s2
P2 2( PG) H
Mdia ( )
ndice de Gini
z /( HL ''( H ))
(1 z / ) /( HL ''( H ))
PG
1 H / PG
1 ( / z 1) H / PG
SPG
2(1 PG / P2 )
2 1 ( / z 1) PG / P2
7.
salvos os arquivos arqview salvos do IBGE. Isto deve ser feito atravs do
comando:
cd D:\nome do diretrio\
A opo replace que foi colocada no final do comando shp2dta para substituir
os arquivos sempre que for executado o comando. Isto pode ser necessrio
caso j existam arquivos com os nomes escolhidos. Aps a execuo do
comando shp2dta possvel executar o comando spmap para a construo de
mapas. Para isto vamos importar alguns dados do IBGE referentes ao Censo
Demogrfico 2010. Para isto, no site do IBGE, busquem a aba populao entre
no link do Censo e cliquem em Resultados preliminares do universo, Tabelas
adicionais em formato zip e baixem o arquivo Abastecimento de gua rural.
Deve ser feita a descompresso destes arquivos atravs do programa winzip e
a importao o contedo do primeiro dos arquivos Excel para o editor de dados
do Stata e finalmente salv-lo como arquivo Stata (.dta).
Mas para a juno deste arquivo de dados com o arquivo dadosbrasil.dta
necessrio colocar os cdigos de municpios do IBGE. possvel fazer isto
atravs do banco de dados SIDRA do IBGE, salvar um arquivo com os nomes
dos municpios e respectivos cdigos e atravs do comando merge colocar os
cdigos de municpios no arquivo de Abastecimento de gua rural.
Finalmente podemos executar o comando spmap para fazer o mapa. Podemos
realizar tudo isto atravs da seguinte seqncia de comandos em um do-file:
cd "D:\CURSO CEPES\"
shp2dta using 55mu500gc, data("dadosbrasil") coor("coordenadasbrasil") genid(id) replace
use dadosbrasil, clear
rename GEOCODIGO codigo
destring codigo, replace
save dadosbrasil, replace
use "D:\IICA\MAPAS\abast_agua_rural\ABASTAGUARURAL.dta", clear
merge m:m municipio coduf using "D:\IICA\MAPAS\abast_agua_rural\ABASTAGUARURAL0.dta"
drop _merge
merge m:m municipio coduf using "D:\IICA\MAPAS\abast_agua_rural\ABASTAGUARURAL1.dta"
drop _merge
merge m:m municipio coduf using "D:\IICA\MAPAS\abast_agua_rural\ABASTAGUARURAL2.dta"
drop _merge
merge m:m municipio coduf using "D:\IICA\MAPAS\abast_agua_rural\ABASTAGUARURAL3.dta"
drop _merge
merge m:m municipio coduf using "D:\IICA\MAPAS\abast_agua_rural\CODIGOS MUNICIPIOS.dta"
drop _merge
merge m:m codigo using "D:\CURSO CEPES\dadosbrasil.dta"
keep if _merge == 3
keep if uf == "MINAS GERAIS"
spmap taxaagua using "D:\CURSO CEPES\coordenadasbrasil.dta", id(id) title("") subtitle("")
(.4058133,.8786252]
(.2684734,.4058133]
(.174416,.2684734]
[0,.174416]
Mas possvel tambm gerar um mapa com a definio dos intervalos atravs
da opo clbreak (ver detalhes atravs de help spmap):
spmap taxaagua using "D:\CURSO CEPES\coordenadasbrasil.dta", id(id)
///
title("Taxa de no acesso a gua(rural)", size(*0.8))
///
subtitle("") clmethod(custom) fcolor(Reds)
///
clbreak(.0 .10 .20 .30 .40 .50 .60 .70 1.00) legtitle("") ndfcolor(green)
legend(ring(1) position(3))
note("Fonte: Censo 2010 - IBGE", size(*0.75))
///
///
(.7,1]
(.6,.7]
(.5,.6]
(.4,.5]
(.3,.4]
(.2,.3]
(.1,.2]
[0,.1]
possvel tambm usar uma escala gradual para o mapa a partir do comando:
format taxaagua %4.3f
spmap taxaagua using "D:\CURSO CEPES\coordenadasbrasil.dta", id(id)
clnumber(20) fcolor(Greens2) ocolor(white ..) osize(thin ..)
///
title("Taxa de no acesso a gua(rural)", size(*0.8))
subtitle("domiclios sem rede geral ou poo prprio" " ", size(*0.8))
legstyle(3) legend(ring(1) position(3))
plotregion(icolor(stone)) graphregion(icolor(stone))
///
///
///
///
Este ltimo comando foi construdo a partir do help do spmap (digitar na linha
de comandos help spmap) considerando-se um dos exemplos que esto no
final e modificando-se apenas alguns parmetros do comando tais como o
arquivo de coordenadas, ttulo do grfico e outras opes que foram retiradas
ou adaptadas. Isto gera o seguinte mapa:
0.879
0.000
I E[Y1 /D 1] - E[Y1 /D 0]
(0)
Infelizmente, E[Y1/D=0] no observada (latente) e a sua substituio
indevida por E[Y0/D=0], o resultado mdio dos no participantes (Y 0) que
efetivamente no recebem o tratamento, conduz ao vis de seleo. A forma
ideal de eliminar o vis de seleo selecionar aleatoriamente os participantes
do projeto. Dessa forma, participantes e no participantes do projeto tero o
mesmo valor esperado da varivel resultado (no caso, bem-estar) na hiptese
de no receberem o tratamento, ou seja, E[Y 1/D=0] = E[Y0/D=0] e I pode ser
calculado sem vis pela diferena I = E[Y 1/D=1] - E[Y0/D=0] que so dois
valores observveis.
O vis de seleo pode ser decorrncia de dois conjuntos de variveis:
aquelas que estabelecem diferenas observveis (observables) no conjunto de
dados disponveis e aquelas devido a diferenas no observveis ou latentes.
Um vis observvel poderia ser em decorrncia de um critrio de seleo por
meio do qual uma comunidade torna-se eleita em funo de uma caracterstica
que esteja relacionada explicitamente a um critrio de elegibilidade (por
exemplo, consideram-se como municpios prioritrios aqueles cujo IDH
menor do que um dado valor). Em modelos de auto-seleo as condies
sociais e econmicas iniciais (grau de organizao, capital fsico e social inicial)
tambm estabeleceriam um vis de seleo observvel por meio de dados
(indicadores ou proxies) que podem ser facilmente coletados. Dentre as
variveis no observveis que podem criar um vis esto aquelas no
reveladas diretamente pelos dados, como capacidade individual, conexes
familiares e processos subjetivos de seleo (politicamente dirigidos pelas
elites). Ambos os tipos de vieses podem levar a concluses imprecisas,
incluindo a sub ou superestimao dos impactos, impactos negativos quando
de fato so positivos (e vice-versa), e impactos estatisticamente significantes
quando verdadeiramente seriam insignificantes (e vice-versa). possvel
controlar esses vieses por meio de tcnicas estatsticas, como pareamento,
fixed-effects e variveis instrumentais. Entretanto, extremamente difcil
remove-los, sendo esse o maior desafio dos pesquisadores que trabalham com
anlise de impacto.
Yiv a bX i cC v dPv iv
(0)
Onde Yiv pode ser qualquer dos indicadores de bem-estar para o
domiclio i localizado na comunidade v; Xi o conjunto de caractersticas dos
domiclios consideradas importantes na determinao dos indicadores; C v o
conjunto de caractersticas das comunidades consideradas importantes na
determinao dos indicadores; P v um indicador binrio igual a 1 quando
existe o programa na comunidade v e 0 quando no; iv o erro aleatrio; a, b,
c e d so os parmetros. O impacto do programa, desconsiderando o vis de
seleo dado por:
E Yiv / X i , C v , Pv 1 E Yiv / X i , C v , Pv 0
a bX i cC v d (a bX i cC v ) d
(0)
As variveis do lado direito da equao devem ser determinadas
independentemente do indicador de bem-estar, no podendo estar
correlacionadas com o termo de erro da regresso. Como existe o problema da
auto-seleo, a participao no programa no exgena e isso pode afetar o
clculo do impacto do programa. Essa situao pode ser explicitada com uma
equao explcita para P,
Pv d eZ v v
(0)
onde Z o vetor de variveis que incluem todas as proxies observadas que
determinam o foco, ou a participao no programa. Existiro ainda algumas
influncias aleatrias e erros que sero capturadas no termo de erro i. Como
P binrio, um modelo probit melhor indicado para estimar os parmetros.
Alm do mtodo das variveis instrumentais, outro mtodo amplamente
utilizado para eliminao do vis devido as no observveis a correo de
Heckman (conhecido na literatura como procedimento Heckit).
Um mtodo amplamente utilizado consiste na construo de modelos de
seleo (tratados atravs de modelos de regresso logstica) que sero
posteriormente utilizados no emprego de mtodos de pareamento, em
particular o mtodo denominado propensity score matching. Este consiste em
encontrar uma amostra de no beneficirios o mais semelhante possvel da
amostra de beneficirios, sendo que esta semelhana medida em termos de
diversas caractersticas observveis. A seguir estimam-se modelos de
regresso logstica, tendo a participao no programa como varivel
dependente binria e como variveis explicativas da seleo todas as variveis
nos dados que determinam provavelmente a participao. Em uma terceira
etapa criam-se valores de probabilidade de participao a partir dos modelos
de regresso para todos os indivduos da amostra de beneficirios e no
beneficirios, sendo estes valores denominados propensity scores. Com
estes valores, escolhem para cada participante do programa alguns vizinhos
prximos e calcula-se a mdia da varivel de avaliao para estes e a
diferena dessa mdia em relao ao valor da varivel para o participante.
Finalmente, calculam-se as mdias das diferenas, sendo esta uma verso
mais simples do mtodo.
Yi 0 1 * TREATi 2 X 2 3 X 3 ... i
(0)
onde Yi o indicador de efeito, TREAT igual a 1 se a unidade (por exemplo, o
domicilio) exposta ao tratamento (poltica) e 0 se no, X i um conjunto de
variveis de controle e i o termo estocstico com distribuio normal, media
zero e varincia constante. A estimativa de 1 da varivel de tratamento
(TREAT) a estimativa do efeito mdio causal ajustado aos efeitos das
variveis de controle Xi.
A varivel TREAT pode ser uma varivel binria (dummy) tomando dois
valores (1 e 0) como indicado acima. Mas tambm pode ser uma varivel
contnua, caso desejssemos medir, de acordo com este exemplo, o efeito do
numero de dias (ou semanas) de treinamento.
Aqui estamos empregando a noo de ceteris paribus, to conhecida na
cincia econmica. Estamos estimando o valor esperado de Y condicionado a
(ou dado o) varivel TREAT e o vetor de varivel de controle X i, ou seja,
E Y | TREAT , X . Na abordagem de regresso consideramos que o parmetro
Yi1 01 1 * TREATi1 2 X i 2 3 X i 3 i1 u i1
(0)
Yi 2 02 1 * TREATi 2 2 X i 2 3 X i 3 i 2 u i 2
ou
Yi 0 1 * TREATi u i
7.4 O Modelo de Regresso Logstica
A influncia das caractersticas dos agricultores sobre o processo de
seleo nos programas ser avaliada atravs de modelos de regresso com
variveis dependentes binrias (modelos logit binrio). Apesar da utilizao
deste tipo de modelos ser bastante conhecida na literatura de anlise de bemestar, iniciaremos com uma apresentao sucinta da sua especificao geral,
caractersticas, alcances e limitaes. A regresso logstica um modelo de
regresso no linear onde a varivel resposta (varivel dependente) a
probabilidade de ter um resultado ou outra baseada em uma funo no linear
da melhor combinao linear das variveis independentes. Seja
varivel dependente para o i-simo caso . Pode-se definir
Yi
Yi
como:
o valor da
e 0 1 X1 2 X 2 ... k X k
Yi
1 e 0 1 X1 2 X 2 ... k X k
(0)
e
Y
0 1 X 1 2 X 2 ... k X k
1 Y
(0)
ln
W j j s
(0)
O ajuste dos modelos logit avaliado calculando-se a estatstica loglikelihood (logaritmo da verossimilhana), baseado na soma das probabilidades
associadas aos valores previstos e observados para cada caso:
n
log-likelihood =
i=1
(0)
A comparao da adequao do ajuste de dois modelos feita atravs da
diferena de seus log-likelihoods que uma distribuio qui-quadrado:
2 =2[(log-likelihood 2 )-(log-likelihood1 )
(0)
Os coeficientes estimados ( i , i = 1,2, ...,k) do modelo logit devem ser
interpretados como a variao do logaritmo natural da relao das
probabilidades de sucesso e fracasso, esta relao sendo conhecida na
funo exp( i ) pois esta o valor da variao no prprio odd ratio. Desta
i
forma, se 100(e 1) for igual a 10 %, isto significa que um aumento unitrio em
Xi causa uma elevao de 10 % na relao de probabilidade (aumentando
portanto a probabilidade do caso pertencer ao grupo cujo valor da dummy
varivel dependente foi definido como igual a 1).
P (Y 1)
0, 0812 X 1 2, 6836
1 P(Y 0)
ln(odds ) ln
0,9220 e 1
odds1 0, 2525
Ou seja, a relao de odd ratios para dois valores com variao unitria
1
para a varivel independente ser igual a e . Esta relao constante para
qualquer valor de X1. Por exemplo:
para x = 60 temos: log(odds) 2,1884 odds 0,1121
para x = 61 temos: log(odds) 2, 2696 odds 0,1033
1
0,0812
0,9220
e e e
odds2 0,1033
0, 9220 e 1
odds1 0,1121
Desta forma, o valor de e indica a variao no odd ratio (relao de
probabilidade) e independe do valor da varivel independente. No caso deste
exemplo, uma variao unitria em X 1 acarreta uma reduo de 7,8 % no odd
ratio. Para a aplicao que ser aqui realizada isto significa reduzir a
probabilidade de ser selecionado para um programa em relao
probabilidade de no ser selecionado.
p( X ) P( D 1 | X ) E ( D | X )
(0)
onde D = {0,1} um indicador de exposio ao tratamento e X um vetor
multidimensional de caractersticas pr-tratamento. possvel demonstrar que
se a exposio ao tratamento aleatria dentro de clulas definidas por X, ela
tambm aleatria dentro das clulas definidas pelos valores de uma varivel
unidimensional p(X).
Yi ( Di ) so os resultados potenciais nas duas situaes de tratamento ( Yi (1) o
valor da varivel resultado para o individuo i sujeito ao tratamento e Yi (0) o
valor da varivel resultado para o indivduo i no sujeito ao tratamento). Uma
expresso geral para a varivel resultado pode ser expressa como:
i Yi (1) Yi (0)
(0)
O segundo valor do lado direito da expresso (16) no pode ser calculado
porque no observado ( o valor da varivel resultado para o individuo i caso
ele no tivesse sido submetido ao tratamento). Se o propensity score p(X)
conhecido ento o efeito mdio do tratamento sobre os tratados (ATT) pode ser
estimado de acordo com a seguinte expresso:
D X | p(X)
(0)
- Estratificao no escore;
- Mtodo do vizinho mais prximo;
- Pareamento radial no escore;
- Pareamento de Kernel no escore;
- Pareamento pela distancia de Mahalanobis.
Pi
Pi (1 Pj ) exp( xi u i )
1 Pi
Pj
Pj (1 Pi ) exp( x j u j )
1 Pj
(0)
Se ambos os indivduos tm variveis x idnticas, tal como supe o
procedimento de pareamento, o vetor x cancela implicando que:
exp( xi u i )
exp( (u i u j ))
exp( x j u j )
(0)
Ento, se no h diferenas nas variveis no observadas (u i = uj) ou se estas
variveis no influenciam a probabilidade de participar no programa, o odd
ratio igual a 1 implicando na no existncia de vis de seleo no
observado. A analise de sensibilidade avalia o quanto a mudana nos valores
de e em ui - uj altera a inferncia acerca do efeito do programa.
Segundo Becker e Caliendo (2007), a expresso (20) implica que
1 Pi (1 Pj )
e
e Pj (1 Pi )
(0)
Esta ultima expresso indica que e uma medida do grau de afastamento que
uma estimativa por pareamento est livre de vis oculto. No caso de ser igual a
1 os dois indivduos, com valores iguais para as caractersticas x, tem a mesma
probabilidade de participarem do programa e neste caso o vis oculto no
existe.
f i ( D, Xi ) a bD X i c i
(0)
D 1 Zi i 0
(0)
O modelo consiste de uma equao de resultados (23) e de uma funo de
seleo (24). O exemplo clssico refere-se ao mercado de trabalho onde se
busca estimar os determinantes da renda de mulheres. A equao (23) referese determinao da renda das mulheres e a varivel D uma dummy que
especifica se a mulher est ou no ocupada. A idia consiste em que se a
mulher est desocupada e tem renda zero pode ser porque assim decidiu por
no achar compensador o salrio oferecido no mercado. Se for estimada a
equao (23) apenas com a amostra de mulheres ocupadas, a estimativa do
vetor de parmetros c seria viesada. As variveis observadas no vetor Xi so
caractersticas fixas de cada observao (individuo). Este modelo pode ser
empregado na avaliao de impactos de uma determinada poltica se
considerarmos que a varivel D uma dummy de seleo e f i ( D, Xi ) um
indicador de resultado. O modelo de Heckman (formado pelas equaes (23) e
(24)) requer as seguintes hipteses:
P ( D 1| Z i ) P( Zi i 0 |Z i )
P( i Zi Z
| i ) ( Z i )
(0)
onde a funo de distribuio cumulativa da normal padronizada.
Obtem-se a estimativa do termo de vis i E[ i | Di , Xi ] atravs do valor
esperado de uma varivel aleatria normal truncada, sendo esta estimativa
conhecida na literatura como inversa de Mills, que pode ser expressa como:
(t )
(t )
1 (t )
(0)
2
varivel aleatria igual a ( i i ) / 1 . De acordo com esta definio i
tem mdia zero e independente de i . O termo de erro i pode ser
i i 1 2 i
(0)
E[ i | X i xi , D 1] E[ i | X i xi , si i 0]
E[ i | si i 0] E[ i | i s i ]
(si )
1 ( si )
(0)
Da mesma forma:
E[ i | X i x i , D 0]
(si )
(si )
(0)
O efeito da regresso de Y em uma constante, D i e Xi sem a correo de
Heckman pode ser decomposto como a combinao de dois termos: o efeito
principal e o efeito de interao devido inversa de Mills. Se a estimativa de
positiva, isto sugere que o efeito da poltica estimado sem a correo de
Heckman seria viesado para cima. De outra forma, se a estimativa de
negativa, isto sugere que o efeito da poltica estimado sem a correo de
Heckman seria viesado para baixo.
8. Referencias Bibliogrficas
Briggs, D.C. (2004). Causal Inference and the Heckman Model. Journal of
Educational and Behavorial Statistics. Winter 2004, Vol. 29, No. 4, pp. 397-420.
Resende, A.C.R. (2006). Avaliando Resultados de um Programa de
Transferncia de Renda: o Impacto do Bolsa-Escola sobre os Gastos das
Famlias Brasileiras. Dissertao de Mestrado. UFMG, CEDEPLAR.
Baum, C. F. (2006). An Introduction to Modern Econometrics Using Stata. Stata
Press. College Station, TX: StataCorp LP.
Becker, S.O. e Ichino, A. (2002) Estimation of Average Treatment Effects
based on Propensity Scores. The Stata Journal 2, Number 4, pp. 358377.
Becker, S.O. e Caliendo, M. (2007) Sensitivity Analysis for Average Treatment
Effects. The Stata Journal 7, Number 1, pp. 7183.
Ichino, A. Methods for the evaluation of labor market policies. University of
Bologna and Cepr.
Mohr, L.B. (1995) Impact Analysis for Program Evaluation. Sage Publications,
London.
Mooney, C.Z. e Duval, R.D. (1993) Bootstrapping: a nonparametric Approach
to Statistical Inference. Sage Publications, London.
Rosenbaum, P. R. and D. B. Rubin. (1983) The central role of the propensity
score in observational studies for causal effects. Biometrika 70(1): 4155.
StataCorp. (2005). Stata Statistical Software: Release 9. College Station, TX:
StataCorp LP.
Resende, A.C.C. e Oliveira, A.M.H.C. (2006). Avaliando Resultados de um
Programa de Transferncias de Renda: o Impacto do Bolsa-Familia sobre os
Gastos das Famlias Brasileiras. Anais do XXXIV Encontro Nacional de
Economia. Salvador.
ANEXOS
Regies e Estratos
set. / 1985
out. /
1987
(base)
set. /
1990
ago. / 1991
set. / 1992
set. / 1993
set. /
1995
s
1
em Cr$
em Cz$
em Cr$
em Cr$
em Cr$
em CR$
em R$
em
Belm
137,979.32
1915.85
5,400.05
21,848.14
311,019.22
6,186.68
72.24
Urbano
120,276.57
1705.11
4,707.22
19,483.03
271,115.45
5,392.93
62.97
Fortaleza
149,883.53
1983.54
5,457.84
23,078.95
330,337.47
6,507.79
72.14
Recife
183,081.61
2463.55
7,679.54
34,530.36
461,350.31
8,967.79
98.72
Salvador
186,976.49
2529.12
7,200.02
28,690.26
408,973.02
8,400.93
92.37
Urbano
122,290.27
1627.78
4,783.36
20,297.85
282,395.42
5,615.76
61.91
Norte
Rural
Nordeste
Rural
73,762.39
976.67
2,885.20
12,253.07
170,333.75
3,387.28
37.34
Belo Horizonte
169,480.89
2241.32
6,493.80
25,440.75
373,016.86
7,394.21
82.11
Urbano
113,942.00
1501.68
4,365.78
17,104.38
250,779.23
4,971.13
55.20
Rural
67,453.40
874.11
2,584.53
10,125.89
148,460.71
2,942.89
32.68
Metrpole
187,367.85
2530.89
7,466.55
30,487.01
449,740.34
9,134.81
99.21
Urbano
116,580.28
1569.15
4,645.69
18,969.62
279,828.44
5,683.68
61.73
Rural
85,102.48
1138.90
3,391.31
13,847.80
204,272.06
4,149.03
45.06
Metrpole
200,952.71
2856.15
8,368.78
36,531.08
519,964.61
10,369.32
119.55
Urbano
128,408.78
1799.37
5,347.65
23,343.12
332,257.39
6,626.00
76.39
Rural
80,782.99
1142.46
3,364.25
14,684.69
209,025.77
4,168.47
48.06
165,639.41
2201.92
6,538.40
25,449.52
364,165.55
7,437.07
80.69
Minas G./Esp.S.
Rio de Janeiro
So Paulo
Sul
Curitiba
P.Alegre
126,046.20
1689.78
5,005.30
19,890.63
294,534.41
5,966.84
62.28
Urbano
109,527.94
1459.39
4,334.66
17,024.86
247,341.84
5,033.17
53.68
Rural
73,840.21
972.93
2,922.29
11,478.88
166,749.90
3,393.20
36.19
Braslia
210,744.95
2876.10
9,194.94
38,592.68
514,524.21
10,356.13
113.82
Goinia
204,735.01
2751.56
9,467.42
36,012.98
484,635.37
9,854.47
106.88
Urbano
155,885.23
2091.19
7,208.50
27,421.40
369,001.37
7,503.19
81.38
Rural
89,530.62
1183.17
4,140.10
15,748.55
211,931.05
4,309.36
46.74
Centro-Oeste
Fonte: Elaborao de Sonia Rocha com base na POF ("Do Consumop Observado Linha de Pobreza", in Pesquisa
1997.