Analise de Indicadores Sociais Utilizando o Stata

ANALISE DE INDICADORES SOCIAIS
UTILIZANDO O STATA
Henrique Dantas Neder
Professor Associado Instituto de Economia Universidade

Federal de Uberlndia
Conte
1.
2.
3.
Introduo..................................................................................................................3
O ndice de Desenvolvimento Humano (IDH)..........................................................3
ndices de pobreza...................................................................................................18
3.1 Linhas de Pobreza.............................................................................................19
4. ndices de distribuio de renda..............................................................................24
5. Decomposio de ndices de Pobreza e ndices de Distribuio de Renda............31
6. Clculos de coeficientes de elasticidade-crescimento e elasticidade-Gini da pobreza
.........................................................................................................................................34
6. Clculos de coeficientes de elasticidade-crescimento e elasticidade-Gini da pobreza
.........................................................................................................................................34
7. Elaborao de mapas com indicadores sociais........................................................40
8. Avaliao de polticas sociais......................................................................................44
7.1 Mtodos Quantitativos de Avaliao de Programas Sociais..................................45
7.2 Introduo a Inferncia Causal..............................................................................49
7.3 Estimao pela Dupla Diferena...........................................................................51
7.4 O Modelo de Regresso Logstica.........................................................................52
7.5 Mtodo do Propensity Score Matching.................................................................54
7.6 Anlise de Sensibilidade para o Mtodo do Propensity Score Matching..............57
7.7 Modelo de Heckman..............................................................................................59
8. Referencias Bibliogrficas...........................................................................................62
ANEXOS.........................................................................................................................64
Y
Quadro 1 Sistema de ponderao do IDH e do ICV municipal......................................5

Figura 1- Clculo do IDH municipal de acordo com um exemplo...................................7
Figura 2 Editor de dados do STATA com os dados do IDH para os municipios do
Estado de Minas Gerais.....................................................................................................9
Figura 3 Matriz de correlao entre os valores do IDH e de seus componentes para os
municpios do Estado de Minas Gerais...........................................................................10
Figura 4 Coeficientes de correlao de Spearman entre os diversos componentes do
IDH e para os municpios do Estado de Minas Gerais....................................................11
Figura 5 Estatsticas descritivas para o IDH e seus componentes e para os municpios
de Minas Gerais...............................................................................................................14
Grfico 1 Diagrama Box Plot para as distribuies do IDH 1991 e IDH 2000 dos
Grfico 2 Diagrama Box Plot para as distribuies do IDH 1991 e IDH 2000 dos
Grfico 3 Histogramas do IDH educao para os municpios de Minas Gerais..........15
Tabela 1 Linhas de Pobreza calculadas a partir da POF87-88(IBGE) e ajustadas a cada
ano pela variao dos INPC regionais em nvel de grupos de produtos........................20
1. Introduo
Os princpios gerais para a estimativa e anlise de indicadores sociais
baseiam-se em diversas teorias e neste trabalho no vamos nos concentrar
detalhadamente nas mesmas. O que pretendemos enumerar e descrever
algumas metodologias que se relacionam ao clculo, estimativa e analise
destes indicadores. O objetivo geral do trabalho est circunscrito a analise de
dados que se relacionam a pesquisas socioeconmicas e relativas a polticas
publicas.
2. O ndice de Desenvolvimento Humano (IDH)

O primeiro indicador a ser tratado e o que mais consagrado, devido ao seu
uso disseminado, o IDH. Este ndice um indicador sinttico de
desenvolvimento calculado em termos agregados e tem sido utilizado para
medir comparativamente o nvel de desenvolvimento de pases e regies. De
imediato este indicador ganhou grande amplitude e aceitao universal devido
a sua simplicidade de calculo e facilidade de obteno mesmo para pases com
sistemas estatsticos no desenvolvidos. Trata-se de uma media ponderada de
trs variveis que representam trs dimenses bsicas de desenvolvimento: a
renda, a educao e a sade.
Para o Brasil, a Fundao Joo Pinheiro em conjunto com o IPEA desenvolveu
uma metodologia de calculo do IDH municipal (ndice de Desenvolvimento
Humano Municipal) e do ICV (ndice de Condies de Vida Municipal)
baseados em 5 dimenses bsicas: renda, educao, infncia, habitao e
longevidade. Cada uma destas dimenses representada por um conjunto de
indicadores. A dimenso Renda formada pelos indicadores renda familiar per
capita, ndice de Theil, proporo de pobres (P 0), hiato de pobreza (P1) e hiato
de renda quadrtico mdio (P2). A dimenso Educao representada pelas
variveis numero mdio de anos de estudo, Porcentagem da populao com
menos de quatro anos de estudo, Porcentagem da populao com menos de
oito anos de estudo, Porcentagem da populao com mais de 11 anos de
estudo e Taxa de analfabetismo. A dimenso Infncia formada pelos
seguintes indicadores: Defasagem escolar mdia, Porcentagem de crianas
com mais de um ano de defasagem escolar, Porcentagem de crianas que no

freqentam a escola e Porcentagem de crianas que trabalham. A dimenso
Habitao composta pelas variveis: Porcentagem da populao que vive
em domiclios com densidade acima de duas pessoas por dormitrio,
Porcentagem da populao que vive em domiclios durveis, Porcentagem da
populao urbana que vive em domiclios com abastecimento adequado de
gua, Porcentagem da populao urbana que vive em domiclios com
instalaes adequadas de esgoto. Finalmente a dimenso Longevidade
composta pelos indicadores Esperana de vida ao nascer e a Taxa de
mortalidade infantil.
Mostramos a seguir o sistema de ponderao destes dois ndices 1:
Esta tabela foi diretamente reproduzida da DEFINIO E METODOLOGIADE CLCULO DOS INDICADORESE
NDICES DE DESENVOVIMENTO HUMANO E CONDIES DE VIDA - Fundao Joo Pinheiro (FJP) e do Instituto
de Pesquisas Econmicas Aplicadas (IPEA.)
Quadro 1 Sistema de ponderao do IDH e do ICV municipal
Como se observa da tabela acima, cada ndice constitui-se de uma media

ponderada obtida a partir de algumas variveis. No caso do IDH municipal,
calculado como uma media ponderada das dimenses Renda, Educao e
Longevidade, com pesos iguais a 1/3 para cada destas dimenses.
Conseqentemente o IDH municipal simplesmente uma media ponderada
dos trs subndices que o compem.
Para a dimenso Renda temos que no
caso do IDH municipal, esta apenas composta pela renda familiar per capita
media ajustada. O mesmo se d para a dimenso de Longevidade que
representada apenas pelo indicador Esperana de Vida ao Nascer (anos). No
entanto, para a dimenso Educao, o IDH municipal utiliza em seu calculo
duas variveis: taxa de analfabetismo (%) com peso 2/9 e numero mdio de
anos de estudo (anos) com peso 1/9. Estes pesos se referem ao ndice final.
Por exemplo, suponhamos que um determinado municpio tenha uma renda
media per capita familiar ajustada igual a 0,950 salrios mnimos de setembro
de 19912, uma taxa de analfabetismo de 40 %, um numero mdio de anos de

estudo de 5,3 anos e uma esperana de vida ao nascer de 61 anos.
O valor de seu IDH ser dado pela expresso:
IDH = 1/3 x ndice de Renda + 1/3 x ndice de Habitao + 1/3 x ndice de
Longevidade = 1/3 x renda familiar per capita media ajustada + 2/9 x Taxa de
analfabetismo (%) + 1/9 x numero mdio de anos de estudo padronizado + 1/3
x Esperana de Vida ao Nascer padronizada =
1/3 x (0,950 0,050)/ (1,364 0,050) + 2/9 x 0,40 + 1/9 x (5,3 0)/(15 0) +
1/3 x (61 25) / (85 25) = 0,556
No Stata este calculo pode ser realizado atravs do comando (ver tela abaixo):
disp 1/3*(0.950-0.050)/(1.364-0.050)+2/9*0.40+1/9*(5.3-0)/(15-0)+1/3*(61-25)/(85-25)
Esta expresso deve ser escrita na linha de comando e em seguida ativar a

tecla enter.
2 Os valores da renda familiar per capita esto expressos em salrios mnimos de
setembro de 1991, sendo de Cr$ 36.161,60 o valor do salrio mnimo nesta data.
Figura 1- Clculo do IDH municipal de acordo com um exemplo
A Fundao Joo Pinheiro e o IPEA na divulgao da metodologia de calculo

adotam um procedimento de padronizao dos ndices utilizando a expresso a
seguir:
ndice padronizado = (valor observado para o indicador - pior valor) / (melhor
valor - pior valor)
Esta expresso foi empregada no calculo anterior para a padronizao da
renda familiar per capita media em salrios mnimos, do numero mdio de anos
de estudo e da esperana de vida ao nascer. No caso da taxa de analfabetismo
no necessria padronizao pois a mesma varia de 0 (0%) a 1 (100%). Esta
operao de padronizao previa dos indicadores necessria para que a
escala original de variao e as unidades de medida dos mesmos no
distoram o calculo final do IDH favorecendo o efeito de alguns ndices no
calculo da media ponderada.
Suponhamos outro exemplo em que se deseja calcular o ICV para um

determinado municpio. Com mostrado no Quadro 1, este ndice calculado
com base em um numero maior de indicadores e dimenses bsicas.
A renda familiar per capita definida a soma da renda pessoal de todas as
pessoas da famlia excludos os pensionistas e os empregados domsticos e
seus parentes (so tambm excludas as famlias que no pertencem a
domiclios particulares por exemplo, famlias ou indivduos que fazem parte
de domiclios coletivos que so hotis, penses, alojamentos).
Para obter os indicadores utilizados no calculo do ndice de Desenvolvimento
Humano Municipal, faa o download do Atlas de Desenvolvimento Humano no
site http://www.fjp.gov.br/produtos/cees/idh/atlas_idh.php e o instale no seu
computador.
Vamos fazer um pequeno exerccio analtico utilizando os valores do IDH (e de
seus componentes) para todos os municpios de Minas Gerais. Depois de
exportar estes valores para uma planilha Excel (existe uma opo para isto no
Atlas de Desenvolvimento Humano), copiamos e colamos estes valores para o
editor de dados do STATA. Mas antes disto necessrio alterar o separado de
decimal de vrgula para ponto no Excel. Isto necessrio porque o STATA
reconhece o separador de decimal como ponto. importante antes de copiar
os dados do Excel para o STATA, colocar na primeira linha os nomes
abreviados das variveis. Quando for feita a copia para o editor de dados, o
STATA automaticamente ir reconhecer os valores da primeira linha como
sendo os nomes das variveis.
Figura 2 Editor de dados do STATA com os dados do IDH para os municipios do Estado de Minas
Gerais
Podemos iniciar a nossa analise calculando a matriz de correlao entre os

valores dos diversos componentes do IDH para 853 municpios de Minas
Gerais. Para isto, na janela de comandos do STATA digite correlate e passe os
nomes das variveis que esto na janela de variveis para a janela de
comandos (basta clicar nas variveis que seus nomes vo se transferindo para
a janela de comandos em seguida a palavra chave correlate. Aperte a tecla
enter e surgir na janela de resultados a matriz de correlao.
Figura 3 Matriz de correlao entre os valores do IDH e de seus componentes para os municpios
do Estado de Minas Gerais
Observe que o IDH1991 e o IDH2000 tem uma elevada correlao (0,9618) o

que indica que praticamente os municpios conservaram as mesmas
colocaes durante o perodo. Para confirmar isto execute o comando
spearman idh1991 idh2000. O resultado para o coeficiente de correlao de
Sperman (correlao de ordem) de 0,9623 confirmando que os municpios de
Minas Gerais no alteraram substancialmente as suas posies no ranking do
IDH global. Faamos esta verificao para os componentes individuais do IDH.
spearman idhedu1991 idhedu2000 <enter>
spearman idhlong1991 idhlong2000 <enter>
spearman idhrend1991 idhrend2000 <enter>
Pode-se observar que o componente do IDH que mais alterou o seu ranking
entre os municpios do Estado de Minas Gerais no perodo 1991-2000 foi o de
longevidade.
Figura 4 Coeficientes de correlao de Spearman entre os diversos componentes do IDH e para os

municpios do Estado de Minas Gerais
Um grfico muito interessante para a anlise comparativa das distribuies

estatsticas do IDH1991 e IDH2000 pode ser obtido atravs do comando:
graph box idh1991 idh2000, marker(1,mlabel(municipio))
Este grfico tambm poderia ser obtido atravs do menu Graphics => Box plot
No entanto, preferimos utilizar diretamente o comando dada a maior
flexibilidade de recursos (por exemplo, incluir a possibilidade de marcar
os municpios com baixo valor do IDH 1991 que aparecem no grfico).
Pelo
pode-se observar que a distribuio do IDH desloca-se para valores mais
elevados: a mediana (que a linha intermediaria no meio da caixa) vai para
cima de 1991 para 2000, assim como tambm o primeiro quartil (face inferior
da caixa) e o terceiro quartil (face superior da caixa).
O valor mnimo do IDH
em 1991 que correspondia ao municpio de Santo Antonio do Retiro era igual a

0,42 e passa a ser 0,57 (correspondente a ordenada da extremidade inferior da
linha vertical que sai da caixa) em 2000. Ao mesmo tempo o valor mximo
passa de 0,79 em 1991 para 0,84 em 2000 (que corresponde a extremidade

superior da linha vertical que sai da caixa central do diagrama).
.5
.6
.7
.8
Grfico 1 Diagrama Box Plot para as distribuies do IDH 1991 e IDH 2000 dos municpios do
Estado de Minas Gerais
Setubinha (MG)
.4
Santo Antnio do Retiro (MG)
IDH1991
IDH2000
Para a comparao entre os dois ndices correspondentes a longevidade

tentamos o seguinte comando:
graph box idhlong1991 idhlong2000, marker(1, mlabel(municipio)
msize(tiny) mlabsize(municipio)) marker(2, mlabel(municipio) msize(tiny)
mlabsize(tiny))
Este ultimo comando especifica nas opes msize e mlabsize os tamanhos dos
labels ds municpios que aparecem no grfico como dados discrepantes
(outliers). Mas infelizmente este comando no apropriado pois ocorre muita
sobreposio de nomes de municpios como outliers no grfico. Estes outliers
so observaes cujo valor da varivel inferior (superior) a 1,5 vezes a
distancia entre as duas faces da caixa (desvio interquartlico) contada a partir
da ordenada correspondente a face inferior (superior). A ultima observao
encontrada acima (abaixo) deste limite denominada valor extremo e as
observaes inferiores (superiores) so outliers.
Para maior visibilidade e
evitando a sobreposio de labels vamos executar o comando:
.5
.6
.7
.8
.9
Grfico 2 Diagrama Box Plot para as distribuies do IDH 1991 e IDH 2000 dos municpios do Estado
de Minas Gerais
IDHLONG1991
IDHLONG2000
Vemos que para o ano 1991 temos diversos outliers inferiores que
correspondem a municpios com valores do IDH longevidade inferiores de
forma discrepante em relao ao conjunto da distribuio desta varivel. Outra
importante considerao pode ser obtida atravs da analise de um simples
calculo de estatsticas descritivas para os indicadores:
summa idh1991 idh2000 idhedu1991 idhedu2000 idhlong1991
idhlong2000 idhrend1991 idhrend2000
Para todos os indicadores observa-se uma elevao dos valores mnimos,

valores mximos e medias das distribuies. Ocorre tambm uma reduo do
desvio padro do idh e idhedu. Uma tabulao mais detalhada de estatsticas
descritivas (e com melhor disposio tabular mais apropriada para a copia
em um documento de texto) pode ser obtida atravs do comando:
tabstat idh1991 idh2000 idhedu1991 idhedu2000 idhlong1991
idhlong2000 idhrend1991 idhrend2000, s(min max mean sd cv sk) c(s)
Este comando tambem pode ser ativado via menu atraves da sequencia
Statistics => Summaries, tables and tests => Tables => Table of Summary
Statistics (tabstat). Deve-se ento incluir as variveis na janela Variables
localizada na aba Main, colocar as estatsticas na janela Statistics to display e
na aba options colocar Statistics na janela Use as columns.
Figura 5 Estatsticas descritivas para o IDH e seus componentes e para os municpios de Minas
Gerais
Pela Figura 5 interessante observar duas caractersticas importantes das

distribuies do IDH municipal e de seus componentes: a disperso relativa
medida pelo coeficiente de variao (cv) e a assimetria medida pelo coeficiente
de assimetria de Pearson (skewness). Verifica-se que todas as variveis tm
sua disperso relativa reduzida no perodo 1991-2000 e com exceo do ndice
de renda, todos os demais tem sua assimetria (em termos de valor absoluto)
reduzida no mesmo perodo. As distribuies tornam-se menos dispersas em
relao as suas respectivas medias e com assimetria menos acentuada em
direo a valores mais elevados (assimetrias menos negativas).
Vamos
analisar o que efetivamente ocorre com a distribuio do IDH educao que

tem o seu coeficiente de variao reduzido de 0,1369 para 0,0764 e seu
coeficiente de assimetria reduzido em termos absolutos de 0,6905 para

0,4166. Uma analise grfica pode ser obtida atravs dos seguintes comandos:
histogram idhedu1991, name(idh1991educ, replace)
histogram idhedu2000, name(idh2000educ, replace)
graph combine idh1991educ idh2000educ
Grfico 3 Histogramas do IDH educao para os municpios de Minas Gerais
15
10
Density
4
Density
2
0
.4
.6
.8
IDHEDU1991
.6
.7
.8
IDHEDU2000
.9
A
reduo do coeficiente de variao pode ser em grande parte explicada pelo
aumento do IDH educao dos municpios com pior situao em termos deste
indicador em 1991 e que tinha um valor de 0,4 a 0,57 que tiveram seus valores
elevados a valores superiores a este ultimo limite. Portanto os municpios que
anteriormente tinham valores muito distanciados da media estadual passaram
a ter valores mais prximos da mesma. As redues do coeficiente de variao
e do valor absoluto do coeficiente de assimetria indicam que ocorreu um
processo de uniformizao dos valores do IDH educao para os municpios. O
grande salto do limite inferior para este indicador de 0,35 em 1991 para 0,57
em 2000 comprova esta uniformizao.
Outro ndice que foi desenvolvido recentemente em trabalhos de pesquisa o
ndice de Desenvolvimento Rural (IDR). Este indicador guarda semelhanas de
metodologia com o IDH e o ICV municipal, dentro de uma concepo de
simplicidade. No entanto ele foi proposto para medir especificamente o nvel de
desenvolvimento
rural,
concentrando-se
em
indicadores
bsicos
mais
apropriados a esta realidade. A definio destes indicadores bsicos e como

o clculo do IDR encontra-se na tabela a seguir:
O IDR baseia-se em 4 dimenses bsicas (populao, bem estar social,

econmica e ambiental) sendo cada uma destas calculada com base em
alguns indicadores. Cada uma destas dimenses uma media aritmtica das
variveis que a compem e o IDR por sua vez uma media aritmtica dos
indicadores compostos que representam as 4 dimenses. O mesmo
procedimento de padronizao empregado no calculo do IDH e ICV municipal
tambm adotado para algumas variveis que requerem esta transformao. A
fundamentao terica para a utilizao de cada varivel pode ser encontrada
em Silva (2006) e em Kageyama (2004).
3. ndices de pobreza
Os ndices de pobreza mais utilizados na literatura so: o Poverty Headcount
(proporo de pobres P0), o Poverty Gap (Gap de Pobreza P1) e o Squared
Poverty Gap (Gap de Pobreza elevado ao quadrado P 2), todos fazendo parte
da classe de ndices FGT (Foster, Greer e Thorbecke, 1984). Estes ndices so
calculados com base nas seguintes expresses:
q
n
1 q z yi
P1
n i 1 z
P0
1 q z yi
P2
n i 1 z
onde:
q o nmero de pobres (pessoas cuja renda per capita domiciliar menor que
a linha de pobreza).
n o tamanho da populao
z a linha de pobreza
yi a renda per capita domiciliar da i-sima pessoa
O primeiro ndice (Poverty Headcount) mede a proporo de pessoas
pobres, ou seja, a proporo de pessoas que tm renda per capita domiciliar
inferior linha de pobreza.
Tal indicador utilizado como ponto de partida
para estudos sobre pobreza, mas insuficiente para analis-la dado que viola
dois importantes axiomas. Em primeiro lugar, o indicador no se altera ao se
reduzir a renda de uma pessoa situada abaixo da linha de pobreza ou o
inverso, isto , quando a renda eleva-se sem alcanar a linha de pobreza o
indicador permanece o mesmo. Em segundo lugar, a proporo tambm
insensvel distribuio de renda entre os pobres, no se alterando quando se
transfere renda de um indivduo mais pobre para outro menos pobre. Sendo
assim, a proporo de pobres deve ser utilizada em conjunto com outros dois
indicadores, que se complementam mutuamente.
O segundo ndice (poverty gap) mede a intensidade de pobreza para o
conjunto da populao pobre atravs do clculo do desvio mdio entre a renda
dos pobres e o valor da linha de pobreza e pode ser interpretado como um
indicador do dficit de pobreza, ou seja, os recursos necessrios para elevar a
renda de todos os pobres ao nvel da linha de pobreza, atravs de uma perfeita
focalizao das transferncias de renda. O terceiro ndice (Squared Poverty
Gap) geralmente descrito como um indicador de severidade da pobreza. Na
construo deste ndice utiliza-se um peso maior para as pessoas mais pobres
(o gap de pobreza ponderado por si mesmo) e leva-se em conta a
desigualdade de renda entre os pobres. Considerando-se a utilizao destes
ndices para os propsitos de polticas pblicas de combate pobreza a
proporo de pobres (P0) atribui maior efetividade polticas que elevam a
renda dos menos pobres (aqueles cuja renda mais prxima de z). J o gap
de pobreza (P1) e o gap de pobreza ao quadrado (P 2) colocam nfase naqueles

que esto muito abaixo de z, ou seja, os mais pobres dos pobres.
3.1
Linhas de Pobreza
Existe uma imensa discusso sobre mtodos de obteno de linhas de
pobreza.
Os mtodos baseiam-se invariavelmente em procedimentos de
obteno de um valor monetrio mnimo necessrio para uma famlia (em

termos per capita) conseguir manter-se em termos de necessidades
nutricionais, habitacionais, sade, educao, etc. Parte-se da obteno de uma
linha de indigncia e sobre o valor desta acrescenta-se um fator que
representar os gastos no alimentares. A linha de indigncia normalmente
baseada em termos normativos, ou seja, os valores de um conjunto de bens
alimentares necessrios para a manuteno de uma famlia. O fator que
multiplica este valor igual ao inverso do coeficiente de Engel que por sua
vez igual a relao media, vigente entre as famlias pobres, entre os gastos
com consumo alimentar sobre o total dos gastos. Este ltimo indicador obtido
atravs das Pesquisas de Oramento Familiares que so realizadas
periodicamente pelo IBGE.
Como exemplo apresenta-se na Tabela 1 a seguir, as linhas de pobreza, para
os anos da dcada atual.
Tabela 1 Linhas de Pobreza calculadas a partir da POF87-88(IBGE) e ajustadas a cada ano pela
variao dos INPC regionais em nvel de grupos de produtos
Regies e
Estratos
set. / 01
set. / 02
set. / 03
set. / 04
set. / 05
set. / 06
em R$
em
S.M.
em
R$
em S.M.
em R$
em
S.M.
em R$
em
S.M.
em R$
em
S.M.
em
R$
em
S.M.
Belm
103.65
0.58
0.57
134.57
0.56
142.86
0.55
151.37
0.50
90.35
0.50
0.50
117.30
0.49
124.53
0.48
131.95
0.44
66.19
0.22
155.0
4
135.1
5
67.80
0.44
Urbano
114.7
6
100.0
4
150.7
9
222.7
5
195.4
4
133.8
2
80.72
0.43
Norte
Rural
0.39
0.19
Nordeste
Fortaleza
100.60
0.56
Recife
146.12
0.81
Salvador
132.95
0.74
Urbano
89.30
Rural
53.86
Minas
G./Esp.S.
0.56
132.29
0.55
140.35
0.54
146.61
0.49
0.80
192.03
0.80
199.81
0.77
212.02
0.71
0.73
174.64
0.73
181.19
0.70
187.58
0.63
0.50
112.4
1
159.1
2
146.7
3
98.37
0.49
117.35
0.49
122.62
0.47
128.47
0.43
0.30
59.34
0.30
70.79
0.29
73.96
0.28
77.49
0.26
0.64
0.56
0.38
0.23
Belo
Horizonte
Urbano
0.69
163.45
0.68
175.24
0.67
186.35
0.62
0.47
137.2
0
92.24
0.46
109.89
0.46
117.82
0.45
125.29
0.42
50.19
0.28
54.61
0.27
65.05
0.27
69.75
0.27
74.17
0.25
150.80
0.84
165.7
1
0.83
196.69
0.82
209.78
0.81
218.44
93.82
0.52
0.52
122.38
0.51
130.52
0.50
68.49
0.38
103.1
0
75.26
0.38
89.34
0.37
95.28
188.04
1.04
205.8
5
1.03
238.20
0.99
120.16
0.67
0.66
152.21
75.59
0.42
131.5
4
82.75
0.41
Curitiba
124.13
0.69
P.Alegre
96.20
0.53
Urbano
82.73
0.46
134.6
0
105.7
2
90.24
Rural
126.10
0.70
84.78
195.8
2
131.6
5
77.94
0.56
0.73
227.3
7
0.65
135.91
0.45
0.40
0.37
99.21
0.33
141.4
7
103.2
7
250.79
0.96
261.60
0.87
266.1
5
0.76
0.63
160.25
0.62
167.16
0.56
0.49
95.76
0.40
100.82
0.39
105.16
0.35
170.0
7
106.9
9
0.67
156.08
0.65
168.54
0.65
173.59
0.58
0.50
0.53
124.12
0.52
132.28
0.51
138.38
0.46
0.45
105.22
0.44
112.96
0.43
117.15
0.39
175.7
3
141.5
7
119.1
4
80.32
265.4
2
243.3
0
185.2
5
106.3
9
0.76
0.38
0.22
Rio de
Janeiro
Metrpole
Urbano
Rural
0.30
So Paulo
Metrpole
Urbano
Rural
0.31
Sul
Rural
55.78
0.31
60.84
0.30
70.93
0.30
76.15
0.29
78.98
0.26
CentroOeste
Braslia
171.44
0.95
0.94
225.83
0.94
240.15
0.92
251.57
0.84
Goinia
159.64
0.89
0.88
207.33
0.86
222.86
0.86
234.81
0.78
Urbano
121.55
0.68
0.67
157.86
0.66
169.69
0.65
178.79
0.60
Rural
69.81
0.39
187.1
6
175.9
6
133.9
8
76.95
0.38
90.66
0.38
97.46
0.37
102.68
0.34
0.40
0.34
0.23
0.70
0.53
0.30
Para utilizar estas linhas de pobreza em clculos de ndices de pobreza

procede-se da seguinte forma. A partir do CD de micro-dados de uma PNAD
(por exemplo, a PNAD 2006), utiliza-se o comando infix do STATA para
importar os dados em formato txt. Para a utilizao correta deste comando
deve-se levar em conta o lay-out do arquivo de micro-dados. Este arquivo que
fornecido dentro do CD de micro-dados pelo IBGE apresenta o formato de
disposio dos dados. As variveis so organizadas em um formato fixo, de
forma que todas ocupam a mesma posio nas linhas de registro do arquivo.
Um exemplo tpico deste comando mostrado a seguir:
*/////////////////////////////////////////////////////////////////////
* LEITURA DOS DADOS DA PNAD 2004 - VARIAVEIS DO ARQUIVO DE PESSOAS
*/////////////////////////////////////////////////////////////////////
infix ano 1-4 uf 5-6 controle 5-12 serie 13-15 ordem 16-17 sexo 18-18 idade 27-29
///
conddom 30-30 condfam 31-31 numfam 32-32 cor 33-33 sabeler 61-61 freqescol 62-62
///
sitescol 78-78 trabinfano 90-90 trabinfsem 93-93 trabalha 147-147 afastado 148-148
///
subsist 149-149 construcao 150-150 numtrab 151-152 rend_apos 534-545
///
rend_pens 548-559 rend_oapo 562-573 rend_open 576-587 rend_abon 590-601
rend_alug 604-615 rend_doac 618-629 rend_jur 632-643 anosest 681-682
condativ 683-683 condocu 684-684 posocup 685-686 horastrab 687-687
ativprin 688-688 ramos 689-690 grupoocup 691-692 contrib 693-693 rend_tra1 703-714
rend_tra2 715-726 rend_toda 727-738 rend_dom 739-750 rend_fa1 751-762
///
tipofam 763-764 numfam1 765-766 numfam2 767-768 rend_fa2 769-780
///
areacen 781-781 sitcen 782-782 pesopes 783-787 pesofam 788-792
///
numcri 796-797 numdom1 798-799 rend_dom1 800-811
///
///
///
///
///
using "D:\PNAD\PNAD2004\Dados\pes2004.txt"
Este comando le para o STATA um arquivo txt contendo os microdados do CD

da PNAD. Aps a leitura executamos os comandos para a definio da
situao de pobreza de cada pessoa na amostra. Em primeiro lugar geramos
uma varivel (LP) que conter os valores das linhas de pobreza de acordo com
a localizao da pessoa da amostra (Unidade da Federao, situao
censitria e rea censitria).
*//////////////////////////////////////////////////////////////////////////////////////////////
* COLOCACAO DAS LINHAS DE POBREZA NO ARQUIVO
*//////////////////////////////////////////////////////////////////////////////////////////////
gene lp = .
replace lp = 142.86 if uf == 15 & areacen == 1
replace lp = 124.53 if uf >= 11 & uf <= 17 & sitcen <= 3 & areacen != 1
replace lp = 62.47 if uf >= 11 & uf <= 17 & sitcen > 3 & areacen != 1

Se a renda familiar per capita correspondente a esta pessoa for inferior a linha
de pobreza ela ser considera pobre. Desta forma, criamos uma varivel
categrica (dummy) que ser igual a 1 em caso de pobreza e igual a 0 em caso
contrario.
gen rendapc = rend_fa1 / numfam1
gen pobre = 1 if rendapc < lp
Para fazer as analises de pobreza necessrio instalar alguns programas no
corpo bsico do STATA. Para fazer isto digite na linha de comando findit
poverty. Procure a referencia ao programa apoverty e o instale. Este programa
calcula ndices de pobreza baseado em uma distribuio de renda descrita por
uma varivel.
apoverty rendapc [fw=pesopes], varpl(lp)
Outro comando que detalhar o resultado ser:

apoverty rendapc [fw=pesopes], varpl(lp) all
Este comando ir gerar uma multiplicidade de indicadores de pobreza 3:

3 Uma boa forma de recuperar uma tabela resultados do STATA e exportlos para um arquivo de texto selecionar esta tabela na janela de
resultados, copiar como HTML (Copy Table as HTML) e colar em um arquivo
Excel para posteriormente copiar esta tabela para o processador de texto.
Esta forma um pouco complicada, mas a que surte melhores efeitos.
Iremos adiante tratar de formas mais automatizadas de recuperar
resultados do STATA.
rendap
Poverty measures of rendapc c
Headcount ratio %
32.34
Extreme Poverty Headcount

ratio %
Aggregate poverty gap
Per capita poverty gap
Poverty gap ratio %
Income gap ratio %
Watts index
Index FGT(0.5) *100
Index FGT(1.5) *100
Index FGT(2.0) *100
Index FGT(2.5) *100
Index FGT(3.0) *100
Index FGT(3.5) *100
Index FGT(4.0) *100
Index FGT(4.5) *100
Index FGT(5.0) *100
Clark et al. index (0.10)
Thon index *100
Sen index *100
Takayama index *100
*100
*100
*100
*100
*100
12.721
3.92E+
09
21.579
14.354
44.386
19.281
20.198
11.011
8.903
7.485
6.484
5.751
5.197
4.769
4.431
40.717
25.808
19.388
16.356
15.076
27.892
17.988
19.156
A Tabela acima lista diversos indicadores de pobreza para o Brasil em 2004.

Em primeiro lugar, o Poverty ratio de 32,34 % que a proporo de pobres
tambm conhecido como ndice FGT(0). Temos tambm o Poverty Gap ratio %
com um valor de 14,354 % que tambm conhecido como FGT(1) .Este valor
que significa que em media os pobres tem uma renda que inferior em 14, 35
% a renda correspondente a linha de pobreza. Este ndice mede a intensidade
da pobreza entre os pobres. O agregate poverty gap corresponde ao valor da
renda necessria para ser transferida aos pobres em termos agregados para
que todos as famlias pobres tivessem uma renda per capita familiar elevada ao
valor da linha de pobreza. Neste caso, o valor da tabela de 3,92 x 109, ou seja,
R$ 3,920,000,000 (praticamente 4 bilhes de reais mensais ou 47 bilhes de
reais anuais) que seria o montante de transferncia de renda necessrio para
eliminar a pobreza no Pais, de acordo com este critrio. Naturalmente, estamos
admitindo aqui que todas as pessoas pobres receberiam o montante
exatamente igual ao gap de pobreza de sua famlia (a diferena entre a linha

de pobreza e a correspondente renda familiar per capita).
O comando help apoverty permitir a visualizao dos recursos contidos no
programa apoverty. Um dos mais interessantes a possibilidade de recuperar
os seus resultados em localizaes de memria no formato r(). Logo aps a
execuo do comando apoverty podemos executar o comando return list. Este
ultimo comando permitir visualizar as localizaes de memria que o STATA
reserva em sua rea de memria para as variveis calculadas pelo ultimo
comando (neste caso o apoverty). Este recurso ser til quando estivermos
trabalhando com um grande volume e diversidade de estimativas de ndices de
pobreza e quisermos recuperar os resultados destes clculos e export-los
para um arquivo exterior (a simples visualizao dos resultados na janela de
resultados do STATA no muito apropriada para este tipo de operao pois
no permite a exportao de dados de uma forma automtica como veremos
em uma aplicao futura). Cada localizao de memria passa a ter um nome
especifico. Por exemplo, o numero total de observaes na amostra utilizado
para a estimao dos ndices de pobreza fica armazenado em r(nobs), o ndice
FGT(0) ou headcount ratio fica armazenado em r(head_1). Observe tambm
que o STATA gera uma matriz r(b) com os valores de todos os indicadores.
4. ndices de distribuio de renda

O ndice de distribuio de renda mais conhecido e de maior aplicao o
ndice de Gini. Mas alem deste, existe uma infinidade de indicadores cada um
deles com uma propriedade especifica. Alguns satisfazem a determinados
axiomas. Outros tm a propriedade de serem decompostos em uma
determinada populao. Atravs do STATA e utilizando o mesmo do file anterior
para a leitura dos dados do arquivo de pessoas da PNAD 2004, vamos calcular
o ndice de Gini e outros ndices de distribuio de renda. Para explorar a
potencialidade deste software na estimativa de indicadores de desigualdade
executemos o comando:
findit inequality
Este comando ir fazer uma busca na web de todos os comandos do STATA
disponveis que se refiram ao tema da desigualdade. Dentre os vrios
comandos disponveis existe o inequal que um dos mais simples e que
realiza estimativas de indicadores de desigualdade. Busque no visor que surge
aps a execuo do comando findit e encontre a referencia sg30 que se refere
a uma localizao a partir da qual poderemos instalar o comando inequal. Aps
isto ative o link <click here to install>. Para uma viso das capacidades deste
comando execute:
help inequal
A estrutura da sintaxe do comando :
inequal varname [if exp] [in range] [fweights]
Nesta sintaxe est sendo indicado que devemos digitar uma palavra obrigatria
que o nome do comando (inequal) seguindo-se o nome da varivel referente
a qual estamos calcular o indicador de desigualdade, neste caso a renda per
capita familiar. Podemos introduzir no comando condicionantes do tipo if ou do
tipo in, para restringir o calculo do indicador a uma sub-amostra. A opo
[fweights], indica que este comando somente permite ponderao utilizando
um tipo de peso chamado frequency weights (pesos de freqncia). Este peso
deve ter obrigatoriamente valores inteiros e so pesos de expanso da amostra
para o universo. No caso da PNAD temos justamente disponveis este tipo de
peso e por este motivo no teremos problemas de estimar os indicadores
atravs do comando inequal. Comecemos com um exemplo:
inequal rendapc [fw=pesopes]
O STATA calcular os mais importantes indicadores de desigualdade:

-----------------------------------------------------------------------------relative mean deviation
.97740744
coefficient of variation
7.3766286
standard deviation of logs
3.3225246
Gini coefficient
.98273896
Mehran measure
.99964841
Piesch measure
.97428421
Kakwani measure
.96195237
Theil entropy measure
3.8930422
Theil mean log deviation measure 16.396564
-----------------------------------------------------------------------------Ficamos desconfiados do valor elevadssimo do ndice de Gini, revelando uma
desigualdade praticamente perfeita, o que indicaria que praticamente poucos
indivduos acumulariam a quase totalidade da renda enquanto que a maioria
ficaria com uma baixssima parcela (quando o Indice de Gini igual a 1,
significa que um nico individuo recebe toda a renda da sociedade). No entanto
apesar de infelizmente o Brasil ser um dos recordistas a este respeito, isto no
seria possvel. Para corrigir isto, lembremos que o IBGE codifica os
rendimentos no declarados no arquivo de microdados com o cdigo
999999999999. Ento antes de calcular o ndice executamos os comandos:
drop rendapc
replace rend_fa1 = . if rend_fa1 > 1000000000
inequal rendapc [fw=pesopes]
Podemos tambm calcular ndices de distribuio de renda para diversos
cortes da amostra PNAD, correspondendo estes ndices a estimativas para os
cortes correspondentes do universo de pessoas da populao brasileira de
2004.
inequal rendapc [fw=pesopes] if uf == 31

gen
urb = 1 if sitcen <= 3
replace urb = 2 if sitcen > 3

label define urb 1 "urbano"
label define urb 2 "rural", add
label values urb urb
inequal rendapc [fw=pesopes] if urb == 1
inequal rendapc [fw=pesopes] if urb == 2
inequal rendapc [fw=pesopes] if areacen == 1
Observa-se pela execuo dos comandos acima que o Indice de Gini mais
elevado para as reas urbanas do que para as reas rurais. Quando
estimamos os indicadores de desigualdade para diversos cortes de amostra
considerando a varivel areacen (rea censitria) verificamos que o Gini para
as reas metropolitanas o mais elevado sendo o mais reduzido para os
municpios no auto-representativos (municpios pequenos). Isto j seria
esperado dado que a desigualdade de renda reflete a maior ou menor
estratificao social que torna a renda mais heterognea. Apesar de que
desigualdade de renda e variabilidade de renda so dois conceitos
marcantemente distintos, podemos dizer com certa cautela que universos com
maior heterogeneidade de renda so tambm universos com maior
concentrao de renda (podem ocorrer contra-exemplos hipotticos). Observase que um dos indicadores de desigualdade que o STATA estima o
coeficiente de variao que nada mais do que um indicador de variabilidade
relativa (o resultado da diviso do desvio padro da renda per capita familiar
pela media da renda per capita familiar).
Seria a diferena to pequena entre o indice de Gini para as rea

metropolitanas (.57836556) e os municpios auto-representativos (.56434655)
que na populao no poderamos rejeitar a hiptese nula entre os ndices?
Em outras palavras, ser que esta diferena nas amostras to pequena que
poderia ser explicada apelas pela aleatoriedade das amostras extradas de
duas populaes com ndices de Gini (paramtricos) exatamente iguais? Para
responder a esta importante pergunta temos que considerar o delineamento da
amostra PNAD. Para fazer isto iremos executar uma rotina (do file) que
preparar os microdados para realizar uma estimativa mais detalhada. O
objetivo fundamental desta rotina agregar estratos com unidades primarias de
amostragem (psu) nicas em outros estratos da mesma unidade da federao
que tenham maior numero de observaes (o detalhamento explicativo deste
procedimento poder ser encontrado em um dos textos da bibliografia). Para
que estas modificaes no arquivo sejam feitas necessrio que seja
executada a seguinte seqncia de comandos a partir do editor de do files do
STATA. Esta seqncia de comandos uma rotina que realiza a operao para
todos as Unidades da Federao.
* ROTINA DE ALOCACAO DE ESTRATOS COM UM UNICO PSU EM ESTRATOS COM MAIOR NUMERO
* DE OBSERVACOES UTILIZANDO O DO.FILE idonepsu rendapc - PARA A VARIAVEL RENDPC - ANO DE
*/////////////////////////////////////////////////////////////////////
* LEITURA DOS DADOS DA PNAD 2004 - VARIAVEIS DO ARQUIVO DE DOMICILIOS
*/////////////////////////////////////////////////////////////////////
set more off
infix uf 5-6 controle 5-12 serie 13-15 tipoentrev 16-17 strat 219-225 psu 226-232
if tipoentrev == 1 using "D:\PNAD\PNAD2004\Dados\dom2004.txt", clear
sort uf controle serie
save "D:\CURSO POLITICAS SOCIAIS\dom2004", replace
use "D:\CURSO POLITICAS SOCIAIS\pes2004.dta", clear
sort uf controle serie
merge uf controle serie using "D:\CURSO POLITICAS SOCIAIS\dom2004.dta", uniqusing
tab _merge
drop _merge
save "D:\CURSO POLITICAS SOCIAIS\pes2004", replace
keep if uf < 11
gene novo_str = .
gene novo_psu = .
save "D:\CURSO POLITICAS SOCIAIS\acum.dta",replace
capture program drop prog1
program define prog1
keep if uf == estado
gene novo_str = strat
gene novo_psu = psu
quietly {
save "D:\CURSO POLITICAS SOCIAIS\transf.dta",replace
use "D:\CURSO POLITICAS SOCIAIS\acum.dta", clear
append using "D:\CURSO POLITICAS SOCIAIS\transf.dta"
}
end
capture program drop prog2
program define prog2
keep if uf == estado
///
2004
idonepsu rendapc , generate(novo_) strata(strat) psu(psu)

quietly {
save "D:\CURSO POLITICAS SOCIAIS\transf.dta",replace
use "D:\CURSO POLITICAS SOCIAIS\acum.dta", clear
append using "D:\CURSO POLITICAS SOCIAIS\transf.dta"
}
end
scalar estado = .
foreach i in 53 {
scalar estado = `i'
prog1
}
foreach i in 11 12 13 14 15 16 17 21 22 23 24 25 26 27 28 29 31 32 33 35 41 42 43 50 51 52
scalar estado = `i'
prog2
}
drop strat psu

rename novo_str strat
rename novo_psu psu
svyset [pw=pesopes], strata(strat) psu(psu)
save "D:\CURSO POLITICAS SOCIAIS\pes2004.dta", replace
Aps a execuo desta rotina que demanda um considervel intervalo de

tempo (a depender da velocidade do seu microprocessador e de sua
disponibilidade de memria RAM) podemos definir as variveis de
delineamento da amostra PNAD:
svyset psu, strata(psu) vce(linearized) singleunit(missing)
findit svylorenz
help svylorenz
svylorenz rendapc
Observe que a sada deste comando ir mostrar nao apenas uma estimativa
por intervalo para o ndice de Gini como tambm o percentual de renda
acumulado para cada quantil. O numero de quantis default 10, o que significa
que o comando subdivide a distribuio em parcelas correspondentes a 10, 20,
30, ..., 100 % dos indivduos em ordem crescente de renda e calcula a o
percentual de renda acumulada em cada um destes quantis. Por exemplo, os
10 % mais pobres da distribuio de renda no Brasil em 2004 acumulavam
0,6898 % da renda total. Seguem- se os 10 % seguintes mais pobres que
acrescentam uma parcela 1,8376 % o que acumula 2,5274 % da renda total.
Vemos que a metade mais pobre da populao brasileira cumula apenas 13,47
% da renda total enquanto a metade mais rica acumula o restante (86,53 %).
Para cada um destes valores de quantis (tanto o valor para a faixa de
percentual da populao como o quantil correspondente ao percentual da
populao acumulado) o comando fornece tambm estimativas por intervalo, o
que permite aferir a preciso das mesmas. Para a estimativa global do ndice
de Gini para toda a populao brasileira podemos ver uma preciso elevada a
partir da amostra de microdados da PNAD as extremidades do intervalo de

confiana de 95 % de probabilidade so respectivamente,.5720261 e .5831693.
Disto se verifica que o erro de amostragem de (.5831693 - .5720261)/2 =
0.005. O erro relativo 100*(.5831693 - .5720261)/(2*0.5783651) = 0.96 % !!!
No podemos garantir a mesma preciso de estimativa para cortes da amostra
mais reduzidos. Vejamos por exemplo o valor do ndice de Gini para o estado
do Acre:
svylorenz rendapc if uf == 11
Temos aqui uma variabilidade no intervalo de.4847863 a .5640556 que

corresponde a um erro relativo de 7,55 %. Este comando , desta forma, muito
til para irmos controlando os erros de amostragem de acordo com os cortes
amostrais (e populacionais correspondentes). Isto importante para nos
permitir uma analise mais detalhada do comportamento espacial deste
indicador.
Um importante ponto a ser observado que na sintaxe do comando svylorenz

no exigida a especificao do peso da pessoa na amostra. Esta
especificao atravs do comando svyset (que j est incorporado a rotina de
eliminao de estrato com psu nico).
O comando svylorenz busca
automaticamente esta especificao de peso e de delineamento da amostra
que j est incorporado ao arquivo de dados.
use "D:\CURSO POLITICAS SOCIAIS\pes2004_area_1.dta", clear

svylorenz rendapc if areacen == 1
use "D:\CURSO POLITICAS SOCIAIS\pes2004_area_2.dta", clear
svylorenz rendapc if areacen == 2
Ao executar o conjunto de 4 comandos acima verificamos que os intervalos de
confiana para os ndices de Gini e paras as reas censitrias regio
metropolitana e municpios auto-representativos tem uma sobreposio
(overlap).
Isto uma indicao de que as estimativas no tm diferena
significativa. Mas para sermos mais rigorosos em termos de inferncia vamos
executar o comando ereturn list para verificar quais so os valores que o
comando svylorenz armazena em localizaes especificas de memria. Uma
das alternativas seria executar o comando svylorenz simultabeamente atravs
do mesmo comando para as duas subamostras e imediatamente (como uma
operao de pos-estimaao) fazer um teste de diferenas atravs de um
comando denominado lincom. Mas este procedimento no possvel porque o
comando svylorenz no admite uma operao de estimativa de diversos

indices de Gini (um para cada sub-amostra).
A alternativa mais pratica (e acessvel) para resolver este problema ser a
utilizao da tcnica (j popularizada) denominada bootstrapping. Esta tcnica
consiste em estimar a varincia de um indicador com base na realizao de
diversas replicaes amostrais. Estas replicaes amostrais so selees de
amostras com reposio de mesmo tamanho a partir da mesma amostra. Por
exemplo, se quisermos realizar uma estimativa por bootstrapping a partir da
amostra total da PNAD 2004 para todo o Brasil, um comando apropriado ir
realizar uma seleo aleatria com reposio de, por exemplo, 200 amostras
aleatrias a partir da mesma amostra da PNAD. , portanto, uma operao
repetitiva de amostragem (com mesmo tamanho e com reposio) a partir de
uma mesma amostra.
Como curiosidade este nome originou-se de um conto do celebre contador de
mentiras alemo que inventou as Aventuras do Baro de Munchausen. Em um
destes contos o Baro viu-se em um lago afundando e com duas longas botas
caladas em suas pernas. Depois de afundar inteiramente no lago e como ele
tinha dificuldade para nadar, para salvar-se teve que utilizar o seguinte
fantstico expediente: puxava as abas superiores de suas duas botas para
cima e desta forma foi fazendo o seu corpo subir at atingir a superfcie. Esta
uma analogia muito interessante com o bootstrapping. Neste fazemos com que
a partir da prpria amostra construamos a distribuio amostral do estimador.
Na estatstica clssica, as distribuies amostrais dos estimadores so obtidas
teoricamente a partir da realizao repetida de diversas selees de amostras
com mesmo tamanho a partir de uma mesma populao. Para cada uma
destas amostras calcula-se o valor da estimativa e quando tem-se todas as
estimativas constri-se a distribuio do estimador. J no bootstrapping a
diferena que no se dispondo da populao (e apenas dos valores de uma
nica amostra) selecionam-se amostras replicadas (de mesmo tamanho e
segundo as mesmas regras de seleo) a partir da prpria amostra.
Mas para fazer isto necessrio que as operaes de replicao das diversas
amostras siga o mesmo procedimento de amostragem que foi utilizado na
seleo da amostra original. Se a amostra selecionada da populao foi por
AAS ento as replicaes amostrais devero ser realizadas atravs de AAS
tambm. No caso da PNAD, como a amostra complexa (amostragem em
estgios), as replicaes amostrais (amostras com reposio e de mesmo
tamanho feitas a partir da prpria amostra da PNAD) devero seguir o mesmo
padro de delineamento da amostra original.
bootstrap r(gini), reps(200) strata(strat) cluster(psu) force nowarn:
inequalr rendapc [fw=pesopes] if uf == 11
Compare os resultados do intervalo de confiana para este ultimo comando

com o que vem a seguir:
svylorenz rendapc if uf == 11
O primeiro estima a varincia do Gini atravs do bootstrapping e o segundo

estima atravs do mtodo da linearizao de Taylor. Os resultados so muito
prximos.
Outro comando que pode ser utilizado para a estimativa de ndices de
desigualdade estimados a partir de amostras complexas o svygei. Este
comando calcula ndices de entropia generalizada.
version 8
svyset [pweight=pesopes], psu(psu) strata(strat)
svygei rendapc
Os ndices de desigualdade no precisam ser aplicados necessariamente a

renda. Podem tambm ser aplicados a outros indicadores como veremos em
outra seo adiante.
5. Decomposio de ndices de Pobreza e ndices de

Distribuio de Renda
A anlise dos valores dos ndices de pobreza e de distribuio de renda para o
conjunto da populao tem validade, mas fica limitada quando desejamos
aprofundar o comportamento destes indicadores para grupos sociais mais
detalhados. Uma boa maneira de superar esta limitao estimar estes
indicadores para cortes da amostra e controlar a preciso das estimativas,
como foi visto anteriormente.
Mas existem diversos mtodos que permitem decompor alguns ndices.
Comecemos com os ndices de pobreza. Vamos incorporar o comando
povdeco ao corpo de cdigos do STATA:
findit povdeco
Suponhamos que desejamos decompor a pobreza nas 5 grande regies do
pais:
gen
regiao = 1 if uf >= 11 & uf<= 17
replace regiao = 2 if uf >= 21 & uf <= 29

povdeco rendapc [fw=pesopes], varpline(lp) bygroup(regiao)
Warning: rendapc has 9563 values = 0. Used in calculations

Foster-Greer-Thorbecke poverty indices, FGT(a)
All obs
0.33087
a=0
a=1
0.14686
a=2
0.09109
FGT(0): headcount ratio (proportion poor)

FGT(1): average normalised poverty gap
FGT(2): average squared normalised poverty gap
Decompositions by subgroup
Summary statistics for subgroup k = 1,...,K
regiao
2
3
4
5
Pop. share
1
0.27875
0.42128
0.14836
0.07140
Mean
224.14068
478.81786
487.51399
449.94617
Meanpoor
0.08021
62.58088
108.50162
71.46834
100.77148
Subgroup FGT index estimates, FGT(a)

regiao
1
2
3
4
5
a=0
a=1
a=2
0.34227 0.14968 0.09224
0.48521 0.23156 0.14693
0.28934 0.12129 0.07384
0.14838 0.06015 0.03692
0.33981 0.14411 0.08609
Subgroup poverty 'share', S_k = v_k.FGT_k(a)/FGT(a)

regiao
1
2
3
4
5
a=0
0.08297
0.40877
0.36840
0.06653
0.07333
a=1
a=2
0.08175 0.08123
0.43950 0.44963
0.34792 0.34152
0.06076 0.06013
0.07007 0.06749
Subgroup poverty 'risk' = FGT_k(a)/FGT(a) = S_k/v_k

regiao
1
2
3
4
5
a=0
1.03444
1.46646
0.87446
0.44844
1.02700
a=1
1.01921
1.57672
0.82585
0.40957
0.98126
a=2
1.01267
1.61305
0.81068
0.40529
0.94517
Mean
gappoor
266.34681
64.12627
58.47654
80.84997
48.35557
76.88272
50.40413
Na primeira tabela so apresentados os valores dos ndices FGT para o

conjunto da populao (sem decomposio). Assim temos uma proporo de
pobres de 33,09 % e um Gap de pobreza de 14,68 %. NA segunda tabela so
apresentadas algumas estatsticas descritivas para os grupos populacionais. A
regio 1 (Norte) representa 8,02 % da populao, com renda media R$ 266,34,
com renda media dos pobres R$ 64,12 e com gap mdio de pobreza
correspondente a 50,40. Na terceira tabela so apresentados os ndices de
pobreza (FGT(0), FGT(1) e FGT(2)) para as 5 regies. Na quarta tabela so
apresentadas as participaes relativas da pobreza em cada regio. Por
exemplo, a regio 2 (Nordeste) representa uma parcela de 40,87 % da pobreza
medida em termos do ndice FGT(0) e 43,95 % da pobreza medida em termos
do ndice FGT(1) que mede a intensidade da pobreza. Na ultima tabela so
apresentados os riscos de pobreza das sub-populaoes. A regio 5 (CentroOeste) apesar de representar apenas 7,33 % dos pobres medidos em termos
do ndice FGT(0) tem um risco elevado de 1,027.
Podemos fazer a mesma decomposio considerando a varivel tipo de
famlia, atravs da execuo em um do file dos seguintes comandos:
label
label
label
label
label
label
label
label
label
label
label
define
define
define
define
define
define
define
define
define
define
values
tipofam
tipofam
tipofam
tipofam
tipofam
tipofam
tipofam
tipofam
tipofam
tipofam
tipofam
1 "Casal sem filhos"

2 "Casal com todos os filhos menores de 14 anos", add
3 "Casal com todos os filhos de 14 anos ou mais", add
4 "Casal com filhos menores de 14 anos e de 14 anos ou mais", add
5 "Casal com filhos sem declarao de idade dos filhos", add
6 "Me com todos os filhos menores de 14 anos", add
7 "Me com todos os filhos de 14 anos ou mais", add
8 "Me com filhos menores de 14 anos e de 14 anos ou mais", add
9 "Me com filhos sem declarao de idade dos filhos", add
10 "Outros tipos de famlia", add
tipofam
povdeco rendapc [fw=pesopes], varpline(lp) bygroup(tipofam)
Os resultados mostram que:

1) O grupo com maior participao relativa mais elevada corresponde a pessoas
em famlia de casal com todos os filhos menores de 14 anos (30,1 %).
2)
O grupo com maior renda media corresponde as pessoas pertencentes a

famlia de casal sem filhos (R$ 647.39).
3)
O grupo com mais elevado ndice de pobreza FGT (0) poverty ratio
corresponde as pessoas pertencentes a famlias mono parentais de mes com
todos os filhos menores de 14 anos (66,43 %).
4) O grupo com maior participao relativa (share) na pobreza total refere-se as

famlias de casal com todos os filhos menores de 14 anos (38,78%).
5)
O grupo com maior risco de pobreza corresponde as famlias de mes com

todos os filhos menores de 14 anos.
6. Clculos de coeficientes de elasticidade-
crescimento e elasticidade-Gini da pobreza

Para o clculo da elasticidade da pobreza ser utilizada a metodologia
proposta por Datt (1998). Esta uma proposio para clculo dos valores das
elasticidades a partir de dados de distribuio de renda agrupados. Para isto foi
desenvolvido um programa em Stata adaptando a metodologia para a estrutura
dos micro-dados das PNADs. No artigo de Datt (1998) so apresentadas duas
especificaes para a curva de Lorenz, mas optamos por simplicidade apenas
para a Quadrtica Geral.4 Sejam as seguintes funes:
Curva de Lorenz:
L L ( p; )
e
Medida de pobreza: P P( / z; )
onde L a participao dos p por cento inferiores da populao na renda per
capita domiciliar, um vetor de parmetros estimveis da curva de Lorenz, P
a medida de pobreza escrita como uma funo da relao da renda per
capita domiciliar mdia linha de pobreza z e os parmetros da curva de
Lorenz. A especificao Quadrtica Geral da curva de Lorenz dada pelas
seguintes funes:
L(1 L) a ( p 2 L) bL( p 1) c ( p L)
ou
1
L( p ) [bp e (mp 2 np e 2 )1/ 2 ]
2
4 Pretende-se em um prximo trabalho estimar os parmetros da curva de

Lorenz utilizando tambm a especificao Beta (mostrada em Datt, 1998) e
verificar qual das duas (para cada conjunto de dados amostrais) cumpre
mais adequadamente as condies de fronteira e de monotonicidade.
Existem tambm mtodos de estimativa e de anlise diversos para a
elasticidade da pobreza em relao ao crescimento, apresentados em
Heltberg (2002).
As funes que representam as medidas de pobreza dadas a partir desta

especificao da curva de Lorenz so:
1
[ n r (b 2 z / ){(b 2 z / ) 2 m}1/ 2 ]
2m
PG H ( / z ) L( H )
H
2
1 H / s1

r
aH bL( H ) ln
z
16
1 H / s2
P2 2( PG) H
onde H, PG e P2 so respectivamente a proporo de pobres, o gap de

pobreza e a severidade da pobreza da classe dos ndices FGT de pobreza e os
parmetros:
e (a b c 1)
m b 2 4a
n 2be 4c
r (n 2 4me 2 )1/ 2
s1 (r n) /(2m)
s2 (r n) /(2m)
O procedimento para estimar a os parmetros da curva de Lorenz utilizou uma
regresso linear por mnimos quadrados ordinrios de L(1-L) em (p 2 L), L(p
1) e (p-L) para a obteno dos parmetros a, b e c
Os valores das elasticidades da pobreza so calculados a partir das frmulas
na Tabela, a seguir:
Tabela
Elasticidade da
Mdia ( )
ndice de Gini
z /( HL ''( H ))
(1 z / ) /( HL ''( H ))
PG
1 H / PG
1 ( / z 1) H / PG
SPG
2(1 PG / P2 )
2 1 ( / z 1) PG / P2
Fonte: Frmulas obtidas de Datt (1998) e derivadas de Kakwani(1990). O valor

de L(H) o valor da segunda derivada da curva de Lorenz e igual a
r 2 (mH 2 np e 2 ) 3/ 2
8
Execute inicialmente o comando:

ssc install glcurve, replace
Posteriormente, execute o seguinte do file:
* programa de clculo da elasticidade-pobreza do crescimento
set more off
postfile saidaelast codigo neta1 neta2 neta3 neta4 neta5 neta6 p0 p1 p2 gini using "d:\CURSO POLITICAS
SOCIAIS\saidaelast", replace
global i = 0
****************************************************************
* rotina de calculo de elasticidades da pobreza
capture program drop elast
program define elast
summarize rendapc [fw=pesopes]
scalar mu = r(mean)
summarize lp
scalar z = r(mean)
glcurve rendapc [fw=pesopes], gl(L1)p(p) nograph
generate L = L1/mu
* Especificao da Curva de Lorenz: Quadrtica Geral
generate y1 = L*(1-L)
generate x1 = p^2 - L
generate x2 = L*(p-1)
generate x3 = p - L
regress y x1 x2 x3
* verificar se o intercepto no significativo
regress y x1 x2 x3, noconstant
matrix b1 = e(b)
scalar a1 = b1[1,1]
scalar b = b1[1,2]
scalar c = b1[1,3]
scalar e = -(a1 + b + c + 1)
scalar m = b^2 - 4*a1
scalar n = 2*b*e - 4*c
scalar r1 = (n^2 - 4*m*(e^2))^(1/2)
scalar s1 = (r1 - n)/(2*m)
scalar s2 = -(r1 + n)/(2*m)
display a1
display b
display c
display e
display m
display n
display r1
display s1
display s2
scalar H = -(1 / (2*m))*(n + r1*(b+2*z/mu)*((b+2*z/mu)^2-m)^(-1/2))
scalar LH = -(1/2)*(b*H + e + (m*H^2 + n*H + e^2)^(1/2))
scalar PG = H - (mu/z)*LH
scalar P2 = 2*PG - H - ((mu/z)^2)*(a1*H + b*LH - (r1/16)*ln((1-H/s1)/(1-H/s2)))
display "H = " H
display "PG = " PG
display "P2 = " P2
* calculo da segunda derivada da curva de Lorenz
scalar L2H = (r1^2*(m*H^2 + n*H + e^2)^(-3/2))/8
* calculo do indice de Gini

if m < 0 {
scalar gini = e/2 - n*(b + 2)/(4*m) + r1^2 / (8*m*sqrt(-m))*(asin((2*m + n)/r1) - asin(n/r1))
}
else {
scalar gini = e/2 - n*(b + 2)/(4*m) + r1^2 / (8*m*sqrt(m))*ln(abs((2*m + n + 2*sqrt(m)*(a1 + c - 1))/(n - 2* e * sqrt(m))))
}
display "Gini = " gini
* calculo das elasticidades da pobreza
* com relao mdia mu
scalar neta1 = - z/(mu*H*L2H)
scalar neta2 = 1 - H/PG
scalar neta3 = 2*(1-PG / P2)
* com relao ao indice de Gini
scalar neta4 = (1 - z / mu) / (H*L2H)
scalar neta5 = 1 + (mu/z - 1)*H/PG
scalar neta6 = 2*(1 + (mu/z - 1)*PG /P2)
display "Elasticidades da pobreza com relacao a renda media"
display "H : " neta1
display "PG : " neta2
display "SPG : " neta3
display "Elasticidades da pobreza com relacao ao indice de Gini"
display "H : " neta4
display "PG : " neta5
display "SPG : " neta6
global i = $i + 1
display $i
post saidaelast ($i) (neta1) (neta2) (neta3) (neta4) (neta5) (neta6) (H) (PG) (P2) (gini)
end
use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clear
keep if uf == 17
keep rendapc pesopes lp strat psu
elast
keep if uf >= 21 & uf <= 29
elast
keep if uf >= 21
elast
keep if uf >= 22
elast
keep if uf >= 23
elast
keep if uf >= 24
elast
keep if uf >= 25

elast
keep if uf >= 26
elast
keep if uf >= 27
elast
keep if uf >= 28
elast
keep if uf >= 29
elast
keep if uf >= 31
elast
keep if uf >= 32
elast
keep if uf >= 33
elast
keep if uf >= 35
elast
keep if uf >= 40 & uf <= 43
elast
keep if uf >= 40
elast
keep if uf >= 41
elast
keep if uf >= 42
elast
keep if uf >= 50 & uf <= 53
elast
keep if uf >= 50
elast
keep if uf >= 51

elast
keep if uf >= 52
elast
keep if uf >= 53
elast
postclose saidaelast
* coloca codigos no arquivo de saida
use "D:\CURSO POLITICAS SOCIAIS\saidaelast",clear
#delimit ;
label define codlabel
1 "TO"
2 "NE"
3 "MA"
4 "PI"
5 "CE"
6 "RN"
7 "PB"
8 "PE"
9 "AL"
10 "SE"
11 "BA"
12 "MG"
13 "ES"
14 "RJ"
15 "SP"
16 "SU"
17 "PR"
18 "SC"
19 "RS"
20 "CO"
21 "MS"
22 "MT"
23 "GO"
24 "DF"
;
#delimit cr
label values codigo codlabel
save "D:\CURSO POLITICAS SOCIAIS\saidaelast",replace
7.
Elaborao de mapas com indicadores sociais

A elaborao de mapas com indicadores sociais muito til
para o entendimento da realidade mais detalhada do desenvolvimento j que
em muitas situaes verifica-se um elevado grau de heterogeneidade espacial
dos nveis regionais para as variveis que consideramos. O Stata assim como
muitos outros softwares mais especializados para aplicaes de anlises
geogrficas espaciais permite esta espacializao das variveis.
Para construir estes mapas necessrio instalar no Stata dois
programas: o shp2dta e o spmap. O primeiro (shp2dta) transforma os arquivos
que esto no formato arqview para o formato Stata. O programa l os arquivos
arqview e converte os mesmo em arquivos com extenso .dta (que o formato
Stata) e que contem as informaes das coordenadas que so os limites das
Unidades da Federao, dos municpios, das microrregies ou qualquer
unidade de agregao que estiver contida e especificada nos arquivos arqview.
O programa spmap desenha os mapas a partir do Stata. Para instalar estes
dois programas digite na linha de comandos do Stata:
ssc install shp2dta, replace
e
ssc install spmap, replace
Aps a instalao destes programas v at o site do ibge
(www.ibge.gov.br) busque a aba indicada por geocincias, v para o link
Mapeamento das unidades territoriais, entre em produtos, Malha Municipal
Digital 2007, no canto direito onde est Disponibilidade, baixe os arquivos
arqview de projeo geogrfica. Podem ser baixados os arquivos para o Brasil,
Regio ou UF, dependendo se queremos fazer uma anlise dos indicadores
para todos os municpios do Brasil, uma determinada regio, ou uma
determinada UF. Vamos supor que foram baixados os arquivos 55mu500gc.dbf,
55mu500gc.shp e 55mu500gc.shx Depois de baixado estes arquivos (que so
3, um no formato .dbf, outro no formato .shp e outro no formato .shx) deve-se
converter os mesmos para o formato Stata. Para isto, execute o comando:
shp2dta using 55mu500gc, data("dadosbrasil") coor("coordenadasbrasil")
replace
O nome 55mu500gc obrigatrio, mas os nomes entre aspas duplas

podem definidos seguindo as regras de construo de nomes de arquivos no
Stata (por exemplo, no podem iniciar com nmeros). Pode ser observado que
aps a execuo deste comando so criados dois arquivos denominados
dadosbrasil.dta e coordenadasbrasil.dta. Ateno para o detalhe: antes de
executar o comando shp2dta necessrio apontar para o diretrio onde foram
salvos os arquivos arqview salvos do IBGE. Isto deve ser feito atravs do
comando:
cd D:\nome do diretrio\
A opo replace que foi colocada no final do comando shp2dta para substituir
os arquivos sempre que for executado o comando. Isto pode ser necessrio
caso j existam arquivos com os nomes escolhidos. Aps a execuo do
comando shp2dta possvel executar o comando spmap para a construo de
mapas. Para isto vamos importar alguns dados do IBGE referentes ao Censo
Demogrfico 2010. Para isto, no site do IBGE, busquem a aba populao entre
no link do Censo e cliquem em Resultados preliminares do universo, Tabelas
adicionais em formato zip e baixem o arquivo Abastecimento de gua rural.
Deve ser feita a descompresso destes arquivos atravs do programa winzip e
a importao o contedo do primeiro dos arquivos Excel para o editor de dados
do Stata e finalmente salv-lo como arquivo Stata (.dta).
Mas para a juno deste arquivo de dados com o arquivo dadosbrasil.dta
necessrio colocar os cdigos de municpios do IBGE. possvel fazer isto
atravs do banco de dados SIDRA do IBGE, salvar um arquivo com os nomes
dos municpios e respectivos cdigos e atravs do comando merge colocar os
cdigos de municpios no arquivo de Abastecimento de gua rural.
Finalmente podemos executar o comando spmap para fazer o mapa. Podemos
realizar tudo isto atravs da seguinte seqncia de comandos em um do-file:
cd "D:\CURSO CEPES\"
shp2dta using 55mu500gc, data("dadosbrasil") coor("coordenadasbrasil") genid(id) replace
use dadosbrasil, clear
rename GEOCODIGO codigo
destring codigo, replace
save dadosbrasil, replace
use "D:\IICA\MAPAS\abast_agua_rural\ABASTAGUARURAL.dta", clear
merge m:m municipio coduf using "D:\IICA\MAPAS\abast_agua_rural\ABASTAGUARURAL0.dta"
drop _merge
drop _merge
drop _merge
drop _merge
merge m:m municipio coduf using "D:\IICA\MAPAS\abast_agua_rural\CODIGOS MUNICIPIOS.dta"
drop _merge
merge m:m codigo using "D:\CURSO CEPES\dadosbrasil.dta"
keep if _merge == 3
keep if uf == "MINAS GERAIS"
spmap taxaagua using "D:\CURSO CEPES\coordenadasbrasil.dta", id(id) title("") subtitle("")
Esta seqncia de comandos gera o seguinte mapa:
(.4058133,.8786252]
(.2684734,.4058133]
(.174416,.2684734]
[0,.174416]
Mas possvel tambm gerar um mapa com a definio dos intervalos atravs
da opo clbreak (ver detalhes atravs de help spmap):
spmap taxaagua using "D:\CURSO CEPES\coordenadasbrasil.dta", id(id)
///
title("Taxa de no acesso a gua(rural)", size(*0.8))
///
subtitle("") clmethod(custom) fcolor(Reds)
///
clbreak(.0 .10 .20 .30 .40 .50 .60 .70 1.00) legtitle("") ndfcolor(green)
legend(ring(1) position(3))
note("Fonte: Censo 2010 - IBGE", size(*0.75))
///
///
Taxa de no acesso a gua(rural)
(.7,1]
(.6,.7]
(.5,.6]
(.4,.5]
(.3,.4]
(.2,.3]
(.1,.2]
[0,.1]
Fonte: Censo 2010 - IBGE
possvel tambm usar uma escala gradual para o mapa a partir do comando:
format taxaagua %4.3f
spmap taxaagua using "D:\CURSO CEPES\coordenadasbrasil.dta", id(id)
clnumber(20) fcolor(Greens2) ocolor(white ..) osize(thin ..)
///
title("Taxa de no acesso a gua(rural)", size(*0.8))
subtitle("domiclios sem rede geral ou poo prprio" " ", size(*0.8))
legstyle(3) legend(ring(1) position(3))
plotregion(icolor(stone)) graphregion(icolor(stone))
///
///
///
///
Este ltimo comando foi construdo a partir do help do spmap (digitar na linha
de comandos help spmap) considerando-se um dos exemplos que esto no
final e modificando-se apenas alguns parmetros do comando tais como o
arquivo de coordenadas, ttulo do grfico e outras opes que foram retiradas
ou adaptadas. Isto gera o seguinte mapa:
Taxa de no acesso a gua(rural)

domiclios sem rede geral ou poo prprio
0.879
0.000
8. Avaliao de polticas sociais

Neste tpico sero apresentados e discutidos os resultados das
estimaes de impactos de programas sociais (ou polticas sociais). So
discutidos em linhas gerais os principais mtodos quantitativos de avaliao.
Na seo 7.2 aborda-se de uma forma sucinta e introdutria o tema da
inferncia causal que se refere ao desafio economtrico voltado para a
mensurao de impactos baseado em dados de pesquisas em nvel de
registros unitrios (micro-dados). Como isolar os efeitos de uma determinada
poltica sobre um indicador de resultados? Que parcela da melhoria do bemestar dos beneficirios pode ser atribuda nica e exclusivamente a influencia
da poltica, desconsiderando-se os fatores exgenos (aqueles que atuariam
mesmo sem a ocorrncia da poltica)? Na seo 7.3 aborda-se o mtodo da
dupla diferena. Neste mtodo considera-se a diferena da variao do valor
do indicador de bem estar entre o grupo de beneficirios e o grupo de controle.
Este mtodo, que muito utilizado na literatura de avaliao, apresenta a
virtude de eliminar parcialmente vieses na avaliao de impactos que advm
da influencia de variveis no observveis, alm de controlar os efeitos de
variveis exgenas a atuao do programa ou poltica (como por exemplo,
determinadas medidas macroeconmicas ou outras polticas que afetam de
forma generalizada os beneficirios e no beneficirios).
Os mtodos de pareamento baseiam-se na probabilidade de seleo
aos programas. Para isto, devido importncia de entenderem-se como tais
probabilidades so calculadas, a seo 7.4 trata do modelo de regresso
logstica, que nesta avaliao utilizado para as estimativas dos propensities

scores (probabilidades de seleo). A estimativa destes modelos crucial para
a determinao do impacto no mtodo adotado a seguir (propensity score
matching). Na seo 7.5 feita uma apresentao dos principais aspectos do
mtodo propensity score matching que em termos sucintos, utiliza a
informao proveniente dos modelos de regresso (probabilidade de seleo
ao programa ou poltica). Na seo 7.6 introduz-se uma explanao sobre a
analise de sensibilidade das estimativas baseadas nos mtodos de
pareamento. Como os resultados das estimativas de impacto baseadas nestes
mtodos so muito sensveis a influencia de fatores no observveis (assim
como a especificao dos modelos logit), importante avaliar como estas
estimativas podem ser afetadas por estes fatores. Na subseo 7.7 feita uma
reviso do modelo de Heckman. Este modelo, tambm muito utilizado na
literatura de avaliao, estaria longe de ser suficientemente discutido tal como
feito aqui. A idia foi somente a de apresentar as suas principais
caractersticas e que permitissem a compreenso e interpretao dos
elementos apresentados na seo de resultados.
7.1 Mtodos Quantitativos de Avaliao de Programas Sociais
Avaliao de Programas pode ser entendida como um exame
sistemtico da importncia, operao e resultados de programas e polticas
pblicas, no sentido de torn-los mais efetivos. O objetivo especfico detectar
to claramente quanto possvel se e como um dado programa est tendo
efeitos sobre os indivduos, famlias ou instituies, e em que extenso estes
efeitos so atribuveis interveno do respectivo programa.
Com as avaliaes, geralmente pretende-se determinar mais
amplamente se um programa tem efeitos sobre os indivduos, domiclios e
instituies e em que medida estes efeitos so atribuveis interveno do
programa. Algumas das questes colocadas em uma avaliao de impactos
podem ser: Como o projeto afeta os beneficirios? Pode o desenho do
programa ser modificado para melhorar os impactos? Tais questes no
podem, no entanto, ser simplesmente avaliadas pelo resultado ex-post do
projeto. Existem outros fatores ou eventos que so correlacionados com os
resultados, mas no so causados pelo projeto. Para garantir rigor
metodolgico uma avaliao precisa estimar o counterfactual, ou seja, o que
teria ocorrido com os beneficirios se o projeto no tivesse sido implementado.
Em uma linguagem tcnica, qual deveria ser a esperana matemtica da
varivel monitorada (por exemplo, um indicador de bem-estar) no grupo
submetido ao tratamento e condicionada a no ocorrncia do tratamento. Para
determinar o counterfactual, necessrio descontar do efeito das intervenes
o efeito dos outros fatores o que , sem dvida, uma tarefa complexa.
A determinao do counterfactual o ponto fundamental de um desenho
de avaliao e pode ser obtido atravs de metodologias que podem ser
classificadas em duas grandes categorias: desenhos experimentais (aleatrios)

e desenhos quase-experimentais (no aleatrios). Mas tambm devem ser
consideradas metodologias qualitativas e participativas que fornecem
freqentemente insights crticos na perspectiva dos beneficirios, como os
mesmos avaliam subjetivamente os impactos do programa e que podem
contribuir para uma interpretao mais aprofundada dos resultados obtidos na
anlise quantitativa.
O desenho experimental costuma ser considerado como a mais robusta
dentre as metodologias de avaliao de impacto. Os beneficirios devem ser
eleitos a partir de um processo aleatrio, permitindo que se crie, por meio do
prprio mecanismo de focalizao, grupos perfeitamente comparveis de
beneficirios e no beneficirios, ou seja, dois grupos estatisticamente
equivalentes, dado o tamanho das amostras. Nesse caso, o grupo de controle
opera como um perfeito counterfactual, livre de problemas relacionados ao vis
de seleo. A seleo aleatria no remove inteiramente o vis de seleo,
mas equilibra o vis entre as amostras de participantes e no participantes. O
principal benefcio dessa tcnica a simplicidade com que os resultados
podem ser interpretados.
Os mtodos quase-experimentais podem ser usados para empreender
uma avaliao quando no possvel construir grupos de tratamento e de
comparao atravs de procedimentos aleatrios. Estas tcnicas quaseexperimentais geram grupos de comparao que se assemelham ao grupo de
tratamento, pelo menos nas suas caractersticas observadas, fazendo uso de
mtodos economtricos. So utilizados controles estatsticos para identificar
diferenas entre os grupos de tratamento e de comparao e tcnicas
sofisticadas de matching so usadas para construir um grupo de comparao
to similar quanto possvel ao grupo de tratamento. Um grupo de controle (ou
de comparao) deve ser necessariamente selecionado aleatoriamente da
mesma populao em que se encontra o grupo de beneficirios e deve ser o
mais semelhante possvel ao grupo de beneficirios em todos os aspectos,
exceto o fato de participarem ou no do programa.
O problema do vis de seleo na avaliao de impacto causado pelo
fato de que os participantes no projeto diferem dos no participantes em
caractersticas que afetam tanto a probabilidade de participar do projeto como
seus resultados. Normalmente, procede-se em uma avaliao comparando-se
os resultados mdios do grupo sob o tratamento (participantes do projeto)
com o grupo de controle (no participantes do projeto). No entanto, essa
simples comparao (por exemplo, entre mdias de resultados alcanados
pelos programas para os membros dos dois grupos) resulta em vis. Este
ocorre j que o efetivo impacto do projeto a diferena entre a mdia (valor
esperado) do resultado entre os participantes do projeto e a mdia para os
mesmos participantes caso estes no tivessem recebido o tratamento. Se
chamarmos E[Y1/D=1], o valor esperado do efeito sobre os beneficiados (Y 1)

quando submetidos a tratamento (D=1), E[Y 1/D=0], valor esperado do efeito
sobre os beneficiados (Y1) caso estes no recebam o tratamento (D=0), o
verdadeiro impacto do projeto sobre a varivel resultado :
I E[Y1 /D 1] - E[Y1 /D 0]
(0)
Infelizmente, E[Y1/D=0] no observada (latente) e a sua substituio
indevida por E[Y0/D=0], o resultado mdio dos no participantes (Y 0) que
efetivamente no recebem o tratamento, conduz ao vis de seleo. A forma
ideal de eliminar o vis de seleo selecionar aleatoriamente os participantes
do projeto. Dessa forma, participantes e no participantes do projeto tero o
mesmo valor esperado da varivel resultado (no caso, bem-estar) na hiptese
de no receberem o tratamento, ou seja, E[Y 1/D=0] = E[Y0/D=0] e I pode ser
calculado sem vis pela diferena I = E[Y 1/D=1] - E[Y0/D=0] que so dois
valores observveis.
O vis de seleo pode ser decorrncia de dois conjuntos de variveis:
aquelas que estabelecem diferenas observveis (observables) no conjunto de
dados disponveis e aquelas devido a diferenas no observveis ou latentes.
Um vis observvel poderia ser em decorrncia de um critrio de seleo por
meio do qual uma comunidade torna-se eleita em funo de uma caracterstica
que esteja relacionada explicitamente a um critrio de elegibilidade (por
exemplo, consideram-se como municpios prioritrios aqueles cujo IDH
menor do que um dado valor). Em modelos de auto-seleo as condies
sociais e econmicas iniciais (grau de organizao, capital fsico e social inicial)
tambm estabeleceriam um vis de seleo observvel por meio de dados
(indicadores ou proxies) que podem ser facilmente coletados. Dentre as
variveis no observveis que podem criar um vis esto aquelas no
reveladas diretamente pelos dados, como capacidade individual, conexes
familiares e processos subjetivos de seleo (politicamente dirigidos pelas
elites). Ambos os tipos de vieses podem levar a concluses imprecisas,
incluindo a sub ou superestimao dos impactos, impactos negativos quando
de fato so positivos (e vice-versa), e impactos estatisticamente significantes
quando verdadeiramente seriam insignificantes (e vice-versa). possvel
controlar esses vieses por meio de tcnicas estatsticas, como pareamento,
fixed-effects e variveis instrumentais. Entretanto, extremamente difcil
remove-los, sendo esse o maior desafio dos pesquisadores que trabalham com
anlise de impacto.
Em desenhos quase-experimentais, com o uso de modelos estatsticos e

economtricos busca-se tratar o problema modelando o processo de seleo
com o objetivo de obter estimativas no viesados a partir dados noexperimentais. A idia comparar os participantes do programa com os no
participantes, mantendo o processo de seleo constante.
Entre as tcnicas de desenho quase-experimental, as tcnicas de
comparao-pareada so geralmente consideradas boas alternativas aos
desenhos experimentais. A literatura sobre metodologias de avaliao tem
dado muita ateno a essas tcnicas, refletindo no apenas a freqncia com
que tm sido utilizadas como tambm os desafios enfrentados para se obter
bons grupos de comparao. Algumas tcnicas tm sido apontadas com
grande interesse, como a propensity score matching. Contudo, podem ser
exigentes quanto qualidade, quantidade e disponibilidade de dados. Em
especial, dependem de um processo de dupla amostragem em que, a partir de
uma primeira grande amostragem, ser obtida uma segunda amostra de
grupos pareados. Por exemplo, a partir de dados coletados por meio de uma
pesquisa de dimenso nacional, ou regional, seriam construdas sub-amostras
de beneficirios e de controle, pareadas segundo variveis observadas. Essas
duas sub-amostras seriam ento objeto de nova coleta de dados, necessrias
para a avaliao, mas no coletados na pesquisa mais ampla.
Modelos economtricos so utilizados para controlar o efeito de
variveis exgenas que impedem um perfeito pareamento. Estas variveis so
introduzidas para isolar o efeito do programa, controlando o conjunto de
caractersticas que diferenciam as comunidades e os domiclios. Certas
variveis so tambm introduzidas para controlar os problemas do vis de
seleo. Por exemplo, um modelo simples de avaliao de impactos pode ser
dado por:
Yiv a bX i cC v dPv iv
(0)
Onde Yiv pode ser qualquer dos indicadores de bem-estar para o
domiclio i localizado na comunidade v; Xi o conjunto de caractersticas dos
domiclios consideradas importantes na determinao dos indicadores; C v o
conjunto de caractersticas das comunidades consideradas importantes na
determinao dos indicadores; P v um indicador binrio igual a 1 quando
existe o programa na comunidade v e 0 quando no; iv o erro aleatrio; a, b,
c e d so os parmetros. O impacto do programa, desconsiderando o vis de
seleo dado por:
E Yiv / X i , C v , Pv 1 E Yiv / X i , C v , Pv 0
a bX i cC v d (a bX i cC v ) d
(0)
As variveis do lado direito da equao devem ser determinadas
independentemente do indicador de bem-estar, no podendo estar
correlacionadas com o termo de erro da regresso. Como existe o problema da
auto-seleo, a participao no programa no exgena e isso pode afetar o
clculo do impacto do programa. Essa situao pode ser explicitada com uma
equao explcita para P,
Pv d eZ v v
(0)
onde Z o vetor de variveis que incluem todas as proxies observadas que
determinam o foco, ou a participao no programa. Existiro ainda algumas
influncias aleatrias e erros que sero capturadas no termo de erro i. Como
P binrio, um modelo probit melhor indicado para estimar os parmetros.
Alm do mtodo das variveis instrumentais, outro mtodo amplamente
utilizado para eliminao do vis devido as no observveis a correo de
Heckman (conhecido na literatura como procedimento Heckit).
Um mtodo amplamente utilizado consiste na construo de modelos de
seleo (tratados atravs de modelos de regresso logstica) que sero
posteriormente utilizados no emprego de mtodos de pareamento, em
particular o mtodo denominado propensity score matching. Este consiste em
encontrar uma amostra de no beneficirios o mais semelhante possvel da
amostra de beneficirios, sendo que esta semelhana medida em termos de
diversas caractersticas observveis. A seguir estimam-se modelos de
regresso logstica, tendo a participao no programa como varivel
dependente binria e como variveis explicativas da seleo todas as variveis
nos dados que determinam provavelmente a participao. Em uma terceira
etapa criam-se valores de probabilidade de participao a partir dos modelos
de regresso para todos os indivduos da amostra de beneficirios e no
beneficirios, sendo estes valores denominados propensity scores. Com
estes valores, escolhem para cada participante do programa alguns vizinhos
prximos e calcula-se a mdia da varivel de avaliao para estes e a
diferena dessa mdia em relao ao valor da varivel para o participante.
Finalmente, calculam-se as mdias das diferenas, sendo esta uma verso
mais simples do mtodo.
7.2 Introduo a Inferncia Causal

Para iniciar a discusso de inferncia causal, suponhamos um exemplo. 5
Um grupo de indivduos foi treinado para preparao no mercado de trabalho.
Seis meses depois de completado o programa de treinamento, verificamos a
sua situao de emprego e encontramos que 40 % do grupo esto trabalhando.
Podemos concluir que estes 40 % que estavam desempregados antes do
treinamento, encontraram emprego devido ao programa. Como podemos saber
se estes indivduos encontrariam emprego mesmo que no tivessem feito o
treinamento? Ou seja, como podemos isolar do efeito (estarem empregados 40
% dos indivduos investigados) a parcela que pode ser atribuda somente ao
tratamento (treinamento)?
Suponhamos que desejamos encontrar a relao entre interveno de uma
poltica (causa X) e o impacto (efeito Y). Temos que examinar se uma
mudana ou variao na varivel X (a causa potencial) causou de fato uma
mudana em Y (a varivel de impacto). O modelo de regresso normalmente
utilizado :
Yi 0 1 * TREATi 2 X 2 3 X 3 ... i
(0)
onde Yi o indicador de efeito, TREAT igual a 1 se a unidade (por exemplo, o
domicilio) exposta ao tratamento (poltica) e 0 se no, X i um conjunto de
variveis de controle e i o termo estocstico com distribuio normal, media
zero e varincia constante. A estimativa de 1 da varivel de tratamento
(TREAT) a estimativa do efeito mdio causal ajustado aos efeitos das
variveis de controle Xi.
A varivel TREAT pode ser uma varivel binria (dummy) tomando dois
valores (1 e 0) como indicado acima. Mas tambm pode ser uma varivel
contnua, caso desejssemos medir, de acordo com este exemplo, o efeito do
numero de dias (ou semanas) de treinamento.
Aqui estamos empregando a noo de ceteris paribus, to conhecida na
cincia econmica. Estamos estimando o valor esperado de Y condicionado a
(ou dado o) varivel TREAT e o vetor de varivel de controle X i, ou seja,
E Y | TREAT , X . Na abordagem de regresso consideramos que o parmetro
5 A apresentao desta seo baseia-se no trabalho de Vanetoklis (2002) .
1 estimado pode ser interpretado como o efeito do tratamento considerados

fixos os valores das variveis de controle.
Se a varivel TREAT binria estamos interessados em estimar a
diferena mdia no resultado Y, entre a condio de tratamento e de no
tratamento, ou seja, E Y | TREAT 1, X E Y | TREAT 0, X . Se a varivel
TREAT continua, o foco muda para o efeito parcial de uma mudana unitria
em TREAT no valor mdio de Y, dados os valores do vetor de controle X i. A
deciso a respeito do conjunto de variveis de controle que devem ser
consideradas no modelo no trivial. justamente neste ponto que a analise
de causalidade se torna ambgua, ficando a critrio do avaliador a deciso de
quais fatores devem ser levados em conta. E utilizar distintos conjuntos de
controle nas equaes conduzem a distintas concluses a respeito da relao
causal entre Y e TREAT. Alem disso, em analise de efeitos de polticas, muitas
variveis de controle importantes no so sempre observveis e muitas no
so nunca observveis.
No entanto, a teoria na maior parte das aplicaes deve ter uma
importante funo na seleo das variveis de controle. Por exemplo, na
aplicao presente tratada neste estudo, capital social dever ser considerado
como uma importante varivel de controle, dado que em verificaes anteriores
surgem algumas evidencias de sua importante funo na reduo do nvel de
pobreza das comunidades rurais.
7.3 Estimao pela Dupla Diferena

No caso de uma aplicao de avaliao podemos ter um conjunto de dados
em painel com uma observao para o ano 2000 e outra observao para o
ano 2006. Esta uma vantagem do ponto de vista da estimao dos impactos
do programa pelas razoes expostas a seguir.
Sabemos que impossvel conhecer todos os fatores exgenos do lado
direito da equao (1) e que influenciam o impacto do programa. Desta forma
nossas estimativas sero viesadas devido existncia de variveis omitidas.
Podemos classificar estes fatores no observveis em dois tipos: aqueles que
permanecem fixos no decorrer da atuao do programa e aqueles que variam
neste perodo. De um ponto de vista economtrico, muito pouco podemos fazer
para evitar que a omisso destes fatores no observveis e variveis no tempo
possam causar vieses em nossas estimativas de impacto. Mas podemos
eliminar as variveis no observveis constantes no tempo. De uma forma
temporal podemos re-escrever a equao (1) como:
Yit 0t 1t * TREATit 2t X 2t 3t X 3t ... it com t 1,2

(0)
O termo erro pode ser decomposto em duas parcelas: as variveis no
observveis fixas ( ) e as variveis no observveis que variam no tempo (u)
de forma que it it u it . A expresso dois pode ser expressa em duas
equaes:
Yi1 01 1 * TREATi1 2 X i 2 3 X i 3 i1 u i1
(0)
Yi 2 02 1 * TREATi 2 2 X i 2 3 X i 3 i 2 u i 2
Mas como constante no tempo quando subtramos a primeira

equao da segunda teremos:
Yi 2 Yi1 ( 02 01 ) 1 * (TREATi 2 TREATi1 ) (u i 2 u i1 )
ou
Yi 0 1 * TREATi u i
7.4 O Modelo de Regresso Logstica
A influncia das caractersticas dos agricultores sobre o processo de
seleo nos programas ser avaliada atravs de modelos de regresso com
variveis dependentes binrias (modelos logit binrio). Apesar da utilizao
deste tipo de modelos ser bastante conhecida na literatura de anlise de bemestar, iniciaremos com uma apresentao sucinta da sua especificao geral,
caractersticas, alcances e limitaes. A regresso logstica um modelo de
regresso no linear onde a varivel resposta (varivel dependente) a
probabilidade de ter um resultado ou outra baseada em uma funo no linear
da melhor combinao linear das variveis independentes. Seja
varivel dependente para o i-simo caso . Pode-se definir
Yi
Yi
como:
o valor da
e 0 1 X1 2 X 2 ... k X k
Yi
1 e 0 1 X1 2 X 2 ... k X k
(0)
e
Y
0 1 X 1 2 X 2 ... k X k
1 Y
(0)
ln
Ou seja, a varivel dependente no modelo o logaritmo natural da

probabilidade de estar em um grupo dividida pela probabilidade de estar no
outro grupo. O procedimento para estimar os coeficientes o mtodo da
mxima verossimilhana e o objetivo o de encontrar a melhor combinao de
variveis independentes que maximizam a verossimilhana de obter as
freqncias observadas nos grupos. Ao contrrio da anlise discriminante, a
regresso logstica no se fundamenta em hipteses a respeito da distribuio
das variveis independentes: estas variveis no precisam ser normalmente
distribudas e o modelo comporta (como no caso da regresso linear mltipla) o
uso conjunto de variveis quantitativas mtricas (denominadas co-variates) e
variveis qualitativas (tratadas como dummies).
A significncia estatstica de cada um dos coeficientes (parmetros
estimados) do modelo avaliada utilizando-se o teste de Wald (que
semelhante ao teste t de Student) onde o coeficiente dividido pelo seu erro
padro:
W j j s
(0)
O ajuste dos modelos logit avaliado calculando-se a estatstica loglikelihood (logaritmo da verossimilhana), baseado na soma das probabilidades
associadas aos valores previstos e observados para cada caso:
n
log-likelihood =
Y ln(Y )+(1-Y )ln(1-Y )

i
i=1
(0)
A comparao da adequao do ajuste de dois modelos feita atravs da
diferena de seus log-likelihoods que uma distribuio qui-quadrado:
2 =2[(log-likelihood 2 )-(log-likelihood1 )
(0)

Os coeficientes estimados ( i , i = 1,2, ...,k) do modelo logit devem ser
interpretados como a variao do logaritmo natural da relao das
probabilidades de sucesso e fracasso, esta relao sendo conhecida na
literatura como odd ratio. Portanto se um coeficiente possui um valor i este

o valor da variao no logaritmo natural do odd ratio (tambm chamado este
logaritmo de logit) causado pela elevao unitria da varivel X i , supondo-se
fixos os valores de todas as outras variveis. mais direta a interpretao da
funo exp( i ) pois esta o valor da variao no prprio odd ratio. Desta
i
forma, se 100(e 1) for igual a 10 %, isto significa que um aumento unitrio em
Xi causa uma elevao de 10 % na relao de probabilidade (aumentando
portanto a probabilidade do caso pertencer ao grupo cujo valor da dummy
varivel dependente foi definido como igual a 1).
Para o melhor entendimento dos resultados dos modelos suponhamos

que tenhamos a seguinte equao com apenas uma varivel independente:
P (Y 1)
0, 0812 X 1 2, 6836
1 P(Y 0)
ln(odds ) ln
para x = 50 temos: log(odds ) 1,3764 odds 0, 2525

para x = 51 temos: log(odds ) 1, 4576 odds 0, 2328
1
0,0812
0,9220
e e e
Portanto a relao de odd ratios ser:

odds2 0, 2328
0,9220 e 1
odds1 0, 2525
Ou seja, a relao de odd ratios para dois valores com variao unitria
1
para a varivel independente ser igual a e . Esta relao constante para
qualquer valor de X1. Por exemplo:
para x = 60 temos: log(odds) 2,1884 odds 0,1121
para x = 61 temos: log(odds) 2, 2696 odds 0,1033
1
0,0812
0,9220
e e e
odds2 0,1033
0, 9220 e 1
odds1 0,1121

Desta forma, o valor de e indica a variao no odd ratio (relao de
probabilidade) e independe do valor da varivel independente. No caso deste
exemplo, uma variao unitria em X 1 acarreta uma reduo de 7,8 % no odd
ratio. Para a aplicao que ser aqui realizada isto significa reduzir a
probabilidade de ser selecionado para um programa em relao
probabilidade de no ser selecionado.
7.5 Mtodo do Propensity Score Matching

O mtodo do pareamento (matching) por propensity score amplamente
utilizado na literatura de avaliao de impactos. Este mtodo fundamenta-se na
construo de sub-amostras contrafactuais para o grupo de controle e ento
comparar os resultados entre os tratados e contrafactuais. No presente
trabalho o mtodo ser utilizado para avaliar os efeitos do Programa Cdula da
Terra (PCT) sobre diversas variveis (indicadores) que caracterizam a evoluo
do bem-estar (renda domiciliar, segurana alimentar, acesso sade) e
caractersticas econmicas e de desenvolvimento (patrimnio e capital social).
O propensity score definido por Rosembaum e Rubin(1983) como a
probabilidade condicional de receber o tratamento dado diversas
caractersticas pr-tratamento.
p( X ) P( D 1 | X ) E ( D | X )
(0)
onde D = {0,1} um indicador de exposio ao tratamento e X um vetor
multidimensional de caractersticas pr-tratamento. possvel demonstrar que
se a exposio ao tratamento aleatria dentro de clulas definidas por X, ela
tambm aleatria dentro das clulas definidas pelos valores de uma varivel
unidimensional p(X).
Yi ( Di ) so os resultados potenciais nas duas situaes de tratamento ( Yi (1) o
valor da varivel resultado para o individuo i sujeito ao tratamento e Yi (0) o
valor da varivel resultado para o indivduo i no sujeito ao tratamento). Uma
expresso geral para a varivel resultado pode ser expressa como:
Yi Di Yi (1) (1 Di )Yi (0)

(0)
O efeito causal do tratamento para o indivduo i pode ser escrito como:
i Yi (1) Yi (0)
(0)
O segundo valor do lado direito da expresso (16) no pode ser calculado
porque no observado ( o valor da varivel resultado para o individuo i caso
ele no tivesse sido submetido ao tratamento). Se o propensity score p(X)
conhecido ento o efeito mdio do tratamento sobre os tratados (ATT) pode ser
estimado de acordo com a seguinte expresso:
E[ i | Di 1] E[Yi (1) Yi (0) | Di 1]

(0)
A expresso acima representa o valor esperado (mdia) da diferena da
varivel resultado referente situao de cada individuo receber o tratamento e
no receber o tratamento para o grupo de indivduos tratados. De acordo com
Ichino (2006), o no conhecimento do valor da varivel de resultado para a
situao de tratamento contra factual, pode ser interpretado como um problema
de missing data e os mtodos de pareamento so uma forma de imputar
valores aos resultados contra factuais ( Yi (0) | Di 1 ). Desta forma a validade
destes mtodos baseia-se na hiptese de que as observaes contra factuais
so missing aleatoriamente (missing at random). A equao (16) pode ser
transformada, considerando-se os valores de p(X),como:
E[Yi (1) Yi (0) | Di 1] E[ E{Yi (1) Yi (0) | Di 1, p ( X i )}]

E[ E{Yi (1) | Di 1, p ( X i )} E{Yi (0) | Di 0, p ( X i )} | Di 1]
(0)
Conhecidos os valores dos propensity scores (de acordo com a expresso de
todas as observaes duas hipteses devem ser satisfeitas para que
possamos derivar a expresso do ATT (equao 17) a partir dos valores de
p( X i ) , dados pela expresso 13. A primeira hiptese a do balanceamento
das variveis pr-tratamento dados os valores do propensity score. Se p(X) o
propensity score ento:
D X | p(X)
(0)
De acordo com esta hiptese, dados os valores dos propensity scores, os

valores das caractersticas observveis pr tratamento (X) independem do
tratamento. A segunda hiptese (unconfoundedness dado o propensity
score) supe que se:
Y(1), Y(0) D | X Y(1), Y(0) D | p(X)

(0)
De acordo com primeira hiptese (expresso 18), ou hiptese de

balanceamento, observaes com o mesmo propensity score precisam ter a
mesma distribuio das caractersticas observveis (e no observveis)
independentemente de serem tratadas ou no. Para um dado propensity score
a exposio ao tratamento aleatria e desta forma as unidades tratadas e de
controle devem ter medias iguais para todas as caractersticas. Veremos
adiante que esta hiptese dever ser testada atravs do comando Stata pstest.
A segunda hiptese (expresso 19) exige somente que se o valor da varivel
de resposta independente do status de tratamento dadas as caractersticas X
ento estes valores tambm sero independentes dados os valores dos
propensity scores. Esta hiptese conhecida na literatura sobre propensity
score matching como hiptese da independncia condicional.
Para a implementao computacional do mtodo do propensity score so
necessrias as seguintes etapas:
1) Estimao do propensity score. Atravs de um modelo de regresso

logstica ou modelo probit estima-se a probabilidade de cada observao
(individuo) pertencer ao grupo de beneficirios do programa (grupo de
tratados).
2) Estimao do efeito mdio do tratamento, dado o propensity score.
Nesta etapa, idealmente queremos:
- emparelhar observaes tratadas e controle com exatamente o mesmo
valor estimado para o propensity score;
- calcular o efeito do tratamento para cada valor do propensity score
estimado;
- obter a mdia destes efeitos condicionais.
impraticvel realizar o mtodo da forma indicada acima pois muito difcil

encontrar duas unidades com exatamente o mesmo valor do propensity score.
Existem,
no
entanto,
diversos
mtodos
alternativos
e
viveis
computacionalmente:
- Estratificao no escore;
- Mtodo do vizinho mais prximo;
- Pareamento radial no escore;
- Pareamento de Kernel no escore;
- Pareamento pela distancia de Mahalanobis.
Na presente avaliao utilizaremos o segundo e o ultimo mtodos da lista

acima. Na literatura sugerido que se faam estimativas por mais de um
mtodo para verificar a robustez dos resultados.
7.6 Anlise de Sensibilidade para o Mtodo do Propensity Score Matching

De acordo com Becker e Caliendo (2007), a hiptese de independncia
condicional estabelece que o pesquisador observaria todas as variveis
simultaneamente influenciando a deciso de participao e as variveis de
resultado. De acordo com isto pode-se avaliar a sensibilidade dos impactos
estimados com relao aos desvios desta hiptese de identificao. Se existem
variveis no observveis que simultaneamente afetam a participao no
programa e a varivel de resultado, um vis oculto pode surgir para o qual os
estimadores de pareamento no so robustos. Este mtodo baseia-se no
modelo descrito a seguir.
Vamos assumir que a probabilidade de seleo ao programa dada por
Pi P ( xi , u i ) P( Di 1 | xi , u i ) F ( xi u i ) onde x so as caractersticas
i
observveis para o individuo i, u i a varivel no observvel e o efeito de u i
na deciso de participao. Se existe um vis oculto devido a influencia de
variveis no observveis, dois indivduos com as mesmas variveis x
observadas tem diferentes chances de receber o tratamento. Consideremos
uma dupla pareada de indivduos e seja F a distribuio logstica. As
probabilidades relativas para os indivduos i e j desta dupla receberem versus
no receberem o tratamento so dadas por P i /(1-Pi) e Pj /(1-Pj) e a razo
destas probabilidades relativas (conhecidas como vimos na seo 1.5 como

odds ratios) dada por:
Pi
Pi (1 Pj ) exp( xi u i )
1 Pi
Pj
Pj (1 Pi ) exp( x j u j )
1 Pj
(0)
Se ambos os indivduos tm variveis x idnticas, tal como supe o
procedimento de pareamento, o vetor x cancela implicando que:
exp( xi u i )
exp( (u i u j ))
exp( x j u j )
(0)
Ento, se no h diferenas nas variveis no observadas (u i = uj) ou se estas
variveis no influenciam a probabilidade de participar no programa, o odd
ratio igual a 1 implicando na no existncia de vis de seleo no
observado. A analise de sensibilidade avalia o quanto a mudana nos valores
de e em ui - uj altera a inferncia acerca do efeito do programa.
Segundo Becker e Caliendo (2007), a expresso (20) implica que
1 Pi (1 Pj )
e
e Pj (1 Pi )
(0)
Esta ultima expresso indica que e uma medida do grau de afastamento que
uma estimativa por pareamento est livre de vis oculto. No caso de ser igual a
1 os dois indivduos, com valores iguais para as caractersticas x, tem a mesma
probabilidade de participarem do programa e neste caso o vis oculto no
existe.
7.7 Modelo de Heckman

Consideremos o seguinte modelo de duas equaes:
f i ( D, Xi ) a bD X i c i
(0)
D 1 Zi i 0
(0)
O modelo consiste de uma equao de resultados (23) e de uma funo de
seleo (24). O exemplo clssico refere-se ao mercado de trabalho onde se
busca estimar os determinantes da renda de mulheres. A equao (23) referese determinao da renda das mulheres e a varivel D uma dummy que
especifica se a mulher est ou no ocupada. A idia consiste em que se a
mulher est desocupada e tem renda zero pode ser porque assim decidiu por
no achar compensador o salrio oferecido no mercado. Se for estimada a
equao (23) apenas com a amostra de mulheres ocupadas, a estimativa do
vetor de parmetros c seria viesada. As variveis observadas no vetor Xi so
caractersticas fixas de cada observao (individuo). Este modelo pode ser
empregado na avaliao de impactos de uma determinada poltica se
considerarmos que a varivel D uma dummy de seleo e f i ( D, Xi ) um
indicador de resultado. O modelo de Heckman (formado pelas equaes (23) e
(24)) requer as seguintes hipteses:
i) ( i , i ) so iid com distribuio normal padronizada;

ii) {Xi: i = 1,..,N} independente de { i : i = 1,..,N};
iii) {Zi: i = 1,..,N} independente de { i : i = 1,..,N}
No existem restries impostas relao entre i e i e, portanto a varivel

D pode ser correlacionada com o termo de erro i . Esta relao representada
pelo parmetro que o coeficiente de correlao entre os dois termos de

erro e pode assumir qualquer valor no intervalo [-1,1]. Se 0, a varivel D
ser endgena e o parmetro b (que representa o impacto da poltica) ter um
vis de seleo.6 Se i e i no forem correlacionados no haver problema
de vis de seleo e apenas a equao (23) poder ser utilizada para estimar o
6 Existe uma distino conceitual entre vis de seleo e endogeneidade.
Aqui utilizaremos as duas expresses como se fossem equivalentes mas
uma rpida distino pode ser encontrada em ....
efeito no viesado da poltica. Ocorre um valor de 0 se uma varivel no

observada que um fator explicativo da seleo na poltica est correlacionado
com um fator no observado de determinao do indicador de resultado. Se
0, a varivel D endgena e E[ i | Di , X i ] 0 . A estratgia do modelo de
Heckman obter uma estimativa para este ltimo termo e trata-lo como se
fosse uma varivel de controle na equao (23). Se i E[ i | Di , Xi ]
conhecida para a observao i, ento regredindo Y i com uma constante, D, Xi e
i produzir estimativas no viesadas para a, b, c e h, onde h o coeficiente
de regresso associado com i . Com este procedimento, E[ i i | Di , Xi ] 0 e
considerando-se as hipteses i-iii, o vis de seleo eliminado da estimativa
do parmetro b.
Se considerarmos que a equao de seleo um modelo Probit, podemos
represent-la por:
P ( D 1| Z i ) P( Zi i 0 |Z i )
P( i Zi Z
| i ) ( Z i )
(0)
onde a funo de distribuio cumulativa da normal padronizada.
Obtem-se a estimativa do termo de vis i E[ i | Di , Xi ] atravs do valor
esperado de uma varivel aleatria normal truncada, sendo esta estimativa
conhecida na literatura como inversa de Mills, que pode ser expressa como:
(t )
(t )
1 (t )
(0)
onde t o ponto onde a distribuio truncada e a funo densidade da

distribuio normal padro.
A estimativa para o termo de vis E[ i | Di , X i ] para a observao i pode
ser decomposta em E[ i | Di 1, Xi xi ] e E[ i | Di 0, X i xi ] . Seja i uma
2
varivel aleatria igual a ( i i ) / 1 . De acordo com esta definio i
tem mdia zero e independente de i . O termo de erro i pode ser
relacionado i e i atravs da seguinte expresso:
i i 1 2 i
(0)
Seja si Z i .Segue-se que:
E[ i | X i xi , D 1] E[ i | X i xi , si i 0]
E[ i | si i 0] E[ i | i s i ]
(si )
1 ( si )
(0)
Da mesma forma:
E[ i | X i x i , D 0]
(si )
(si )
(0)
O efeito da regresso de Y em uma constante, D i e Xi sem a correo de
Heckman pode ser decomposto como a combinao de dois termos: o efeito
principal e o efeito de interao devido inversa de Mills. Se a estimativa de
positiva, isto sugere que o efeito da poltica estimado sem a correo de
Heckman seria viesado para cima. De outra forma, se a estimativa de
negativa, isto sugere que o efeito da poltica estimado sem a correo de
Heckman seria viesado para baixo.
8. Referencias Bibliogrficas
Briggs, D.C. (2004). Causal Inference and the Heckman Model. Journal of
Educational and Behavorial Statistics. Winter 2004, Vol. 29, No. 4, pp. 397-420.
Resende, A.C.R. (2006). Avaliando Resultados de um Programa de
Transferncia de Renda: o Impacto do Bolsa-Escola sobre os Gastos das
Famlias Brasileiras. Dissertao de Mestrado. UFMG, CEDEPLAR.
Baum, C. F. (2006). An Introduction to Modern Econometrics Using Stata. Stata
Press. College Station, TX: StataCorp LP.
Becker, S.O. e Ichino, A. (2002) Estimation of Average Treatment Effects
based on Propensity Scores. The Stata Journal 2, Number 4, pp. 358377.
Becker, S.O. e Caliendo, M. (2007) Sensitivity Analysis for Average Treatment
Effects. The Stata Journal 7, Number 1, pp. 7183.
Ichino, A. Methods for the evaluation of labor market policies. University of
Bologna and Cepr.
Mohr, L.B. (1995) Impact Analysis for Program Evaluation. Sage Publications,
London.
Mooney, C.Z. e Duval, R.D. (1993) Bootstrapping: a nonparametric Approach
to Statistical Inference. Sage Publications, London.
Rosenbaum, P. R. and D. B. Rubin. (1983) The central role of the propensity
score in observational studies for causal effects. Biometrika 70(1): 4155.
StataCorp. (2005). Stata Statistical Software: Release 9. College Station, TX:
StataCorp LP.
Resende, A.C.C. e Oliveira, A.M.H.C. (2006). Avaliando Resultados de um
Programa de Transferncias de Renda: o Impacto do Bolsa-Familia sobre os
Gastos das Famlias Brasileiras. Anais do XXXIV Encontro Nacional de
Economia. Salvador.
Sianesi, B. (2001) Implementing Propensity Score Matching Estimators with

STATA. UK Stata Users Group, VII Meeting London.
Vanetoklis, T. (2002). Public Policy Evaluation: Introduction to Quantitative
Methodologies. VATT-Research Reports. Government Institute for Economic
Research. Helsinki.
ANEXOS
Regies e Estratos
set. / 1985
out. /
1987
(base)
set. /
1990
ago. / 1991
set. / 1992
set. / 1993
set. /
1995
s
1
em Cr$
em Cz$
em Cr$
em Cr$
em Cr$
em CR$
em R$
em
Belm
137,979.32
1915.85
5,400.05
21,848.14
311,019.22
6,186.68
72.24
Urbano
120,276.57
1705.11
4,707.22
19,483.03
271,115.45
5,392.93
62.97
Fortaleza
149,883.53
1983.54
5,457.84
23,078.95
330,337.47
6,507.79
72.14
Recife
183,081.61
2463.55
7,679.54
34,530.36
461,350.31
8,967.79
98.72
Salvador
186,976.49
2529.12
7,200.02
28,690.26
408,973.02
8,400.93
92.37
Urbano
122,290.27
1627.78
4,783.36
20,297.85
282,395.42
5,615.76
61.91
Norte
Rural
Nordeste
Rural
73,762.39
976.67
2,885.20
12,253.07
170,333.75
3,387.28
37.34
Belo Horizonte
169,480.89
2241.32
6,493.80
25,440.75
373,016.86
7,394.21
82.11
Urbano
113,942.00
1501.68
4,365.78
17,104.38
250,779.23
4,971.13
55.20
Rural
67,453.40
874.11
2,584.53
10,125.89
148,460.71
2,942.89
32.68
Metrpole
187,367.85
2530.89
7,466.55
30,487.01
449,740.34
9,134.81
99.21
Urbano
116,580.28
1569.15
4,645.69
18,969.62
279,828.44
5,683.68
61.73
Rural
85,102.48
1138.90
3,391.31
13,847.80
204,272.06
4,149.03
45.06
Metrpole
200,952.71
2856.15
8,368.78
36,531.08
519,964.61
10,369.32
119.55
Urbano
128,408.78
1799.37
5,347.65
23,343.12
332,257.39
6,626.00
76.39
Rural
80,782.99
1142.46
3,364.25
14,684.69
209,025.77
4,168.47
48.06
165,639.41
2201.92
6,538.40
25,449.52
364,165.55
7,437.07
80.69
Minas G./Esp.S.
Rio de Janeiro
So Paulo
Sul
Curitiba
P.Alegre
126,046.20
1689.78
5,005.30
19,890.63
294,534.41
5,966.84
62.28
Urbano
109,527.94
1459.39
4,334.66
17,024.86
247,341.84
5,033.17
53.68
Rural
73,840.21
972.93
2,922.29
11,478.88
166,749.90
3,393.20
36.19
Braslia
210,744.95
2876.10
9,194.94
38,592.68
514,524.21
10,356.13
113.82
Goinia
204,735.01
2751.56
9,467.42
36,012.98
484,635.37
9,854.47
106.88
Urbano
155,885.23
2091.19
7,208.50
27,421.40
369,001.37
7,503.19
81.38
Rural
89,530.62
1183.17
4,140.10
15,748.55
211,931.05
4,309.36
46.74
Centro-Oeste
Fonte: Elaborao de Sonia Rocha com base na POF ("Do Consumop Observado Linha de Pobreza", in Pesquisa
1997.

Analise de Indicadores Sociais Utilizando o Stata

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Analise de Indicadores Sociais Utilizando o Stata

Enviado por

Direitos autorais:

Formatos disponíveis

ANALISE DE INDICADORES SOCIAIS

Henrique Dantas Neder

Professor Associado Instituto de Economia Universidade

Quadro 1 Sistema de ponderao do IDH e do ICV municipal......................................5

2. O ndice de Desenvolvimento Humano (IDH)

com mais de um ano de defasagem escolar, Porcentagem de crianas que no

Quadro 1 Sistema de ponderao do IDH e do ICV municipal

Como se observa da tabela acima, cada ndice constitui-se de uma media

Para a dimenso Renda temos que no

de 19912, uma taxa de analfabetismo de 40 %, um numero mdio de anos de

Esta expresso deve ser escrita na linha de comando e em seguida ativar a

2 Os valores da renda familiar per capita esto expressos em salrios mnimos de

Figura 1- Clculo do IDH municipal de acordo com um exemplo

A Fundao Joo Pinheiro e o IPEA na divulgao da metodologia de calculo

Suponhamos outro exemplo em que se deseja calcular o ICV para um

Podemos iniciar a nossa analise calculando a matriz de correlao entre os

Observe que o IDH1991 e o IDH2000 tem uma elevada correlao (0,9618) o

Figura 4 Coeficientes de correlao de Spearman entre os diversos componentes do IDH e para os

Um grfico muito interessante para a anlise comparativa das distribuies

O valor mnimo do IDH

em 1991 que correspondia ao municpio de Santo Antonio do Retiro era igual a

passa de 0,79 em 1991 para 0,84 em 2000 (que corresponde a extremidade

Santo Antnio do Retiro (MG)

Para a comparao entre os dois ndices correspondentes a longevidade

observaes inferiores (superiores) so outliers.

Para maior visibilidade e

evitando a sobreposio de labels vamos executar o comando:

Para todos os indicadores observa-se uma elevao dos valores mnimos,

Pela Figura 5 interessante observar duas caractersticas importantes das

analisar o que efetivamente ocorre com a distribuio do IDH educao que

coeficiente de assimetria reduzido em termos absolutos de 0,6905 para

Grfico 3 Histogramas do IDH educao para os municpios de Minas Gerais

apropriados a esta realidade. A definio destes indicadores bsicos e como

O IDR baseia-se em 4 dimenses bsicas (populao, bem estar social,

Tal indicador utilizado como ponto de partida

de pobreza (P1) e o gap de pobreza ao quadrado (P 2) colocam nfase naqueles

Os mtodos baseiam-se invariavelmente em procedimentos de

obteno de um valor monetrio mnimo necessrio para uma famlia (em

Para utilizar estas linhas de pobreza em clculos de ndices de pobreza

Este comando le para o STATA um arquivo txt contendo os microdados do CD

replace lp = 140.35 if uf == 23 & areacen == 1

Outro comando que detalhar o resultado ser:

Este comando ir gerar uma multiplicidade de indicadores de pobreza 3:

Extreme Poverty Headcount

A Tabela acima lista diversos indicadores de pobreza para o Brasil em 2004.

exatamente igual ao gap de pobreza de sua famlia (a diferena entre a linha

4. ndices de distribuio de renda

O STATA calcular os mais importantes indicadores de desigualdade:

inequal rendapc [fw=pesopes] if uf == 31

urb = 1 if sitcen <= 3

replace urb = 2 if sitcen > 3

Seria a diferena to pequena entre o indice de Gini para as rea

idonepsu rendapc , generate(novo_) strata(strat) psu(psu)

drop strat psu

Aps a execuo desta rotina que demanda um considervel intervalo de

partir da amostra de microdados da PNAD as extremidades do intervalo de

Temos aqui uma variabilidade no intervalo de.4847863 a .5640556 que

Um importante ponto a ser observado que na sintaxe do comando svylorenz

use "D:\CURSO POLITICAS SOCIAIS\pes2004_area_1.dta", clear

comando svylorenz no admite uma operao de estimativa de diversos

Compare os resultados do intervalo de confiana para este ultimo comando

O primeiro estima a varincia do Gini atravs do bootstrapping e o segundo

Os ndices de desigualdade no precisam ser aplicados necessariamente a

5. Decomposio de ndices de Pobreza e ndices de