Estimando o Retorno

Estimando o retorno à educação da região sul por variáveis instrumentais:
considerando o Paraná como comparação.
Wladimir Machado Teixeira1
Resumo: O propósito deste trabalho consiste em estimar o efeito da educação

sobre os salários no Sul, tendo o Paraná como dummy de comparação. Utiliza-se o
número de escolas em cada estado no ano de nascimento do indivíduo como
instrumento para lidar com o problema de endogeneidade da variável educação. É
feita também uma descrição das principais políticas educacionais e suas mudanças,
que afetaram a educação desde Dutra até Figueiredo. Os resultados mostram que a
variável número de escolas no ano de nascimento têm uma relação positiva com a
probabilidade de escolarização e diminuem significativativamente os retornos à
educação quando utilizamos o método de variáveis instrumentais.
Palavras-chave: Mincer, Salários, IV, Educação.
Abstract: The aim of this paper is to estimate the impact of education on wages
between South and Paraná. We use the number of schools in the state and year
when the individual was born as instruments for his education level. We also make a
description of the main educational policies which affected the education system
since president Dutra´s term until president Figueiredo´s. The results show that the
number of schools in the individual´s year of birth bears a positive relationship with
his education, and the returns to education decrease quite substantially when the
method of instrumental variables is used.
Key-Words: Mincer, Wages, IV, Education.
Área VI - Métodos Quantitativos para Economia Regional
1
Universidade Estadual de Maringá (UEM). Endereço eletrônico: teixeir@usp.br
1
1 - Introdução
O objetivo deste artigo consiste em estimar o efeito da educação sobre os

salários da região Sul, tendo o Paraná como dummy de comparação, e tentando
resolver o problema de endogeneidade da equação de salários com a utilização do
número de escolas no Estado e no ano da data de nascimento da pessoa como
variável instrumental.
Inicialmente há o problema de endogeneidade da educação na equação de
salários. Então, o trabalho mencionará a importância e as limitações de se adotar a
relação log-linear de Mincer (1974). Discutir-se-á o método de variáveis
instrumentais que considera o problema de endogeneidade da variável educação.
Como estratégia de estimação serão estimados modelos de Mínimos
quadrados e de Variáveis Instrumentais, que mostram o papel da educação ao longo
das gerações, como função dos Estados (RS, SC e PR), Pib, População e coortes
de nascimento (presidentes da república). Nesta análise, serão agregadas várias
PNADs de 1995 a 2002 de forma incluir as dummies de ano e dummies de idade.
Tentar-se-á fazer uma ligação entre a história da educação e os resultados das
estimativas. O trabalho mostrará a equação de rendimentos e o retorno à educação
quando se utiliza as escolas no estado e no de nascimento como instrumentos para
a educação. O modelo utilizará a metodologia apresentada e os principais métodos
de identificação do modelo, buscando resolver o problema de endogeneidade da
variável educação.
2 - Metodologia
A equação de rendimentos visa relacionar os rendimentos auferidos por um

trabalhador com suas características pessoais (educação, idade, sexo, cor) e com
as características regionais. O principal objetivo associado a um procedimento que
visa estimar uma equação comportamental diz respeito à questão causal2. A
maneira ideal de garantir que a relação entre duas variáveis seja causal seria
trabalhar com contrafactuais, ou seja, observar o trabalhador em dois momentos
distintos e controlando por condicionantes salariais, inclusive o tempo.
2
Ver Angrist & Krueguer (1999)
2
Na equação de rendimentos, a forma funcional mais comum é a baseada em
Mincer (1974), no qual considerando dados observacionais, supõe-se que a questão
de interesse seja estimar uma relação do logaritmo do salário (lw) e uma variável x,
tal como lw = f(x).
O primeiro ponto a ser admitido a respeito desta relação e que impõe
restrições à análise, refere-se a assumir que a relação é log-linear, e que ela é a
mesma para todos os indivíduos. Cabe ressaltar que a especificação log-linear da
equação de salários é pelo fato de que em muitos casos a distribuição desta variável
aproxima-se bem de uma distribuição log-normal.
Assim, de acordo com o modelo de Mincer (1974), o logaritmo do
rendimento individual em um dado período de tempo pode ser decomposto dentro
de uma função aditiva e linear de um termo da educação (S), um termo de
experiência (X) e um termo de experiência quadrática (X2) 3. Geralmente adota-se a
forma funcional em que os ganhos se elevam à medida que os anos passam. Além
disto, esses ganhos seriam crescentes a taxas decrescentes ao longo dos anos de
vida do indivíduo, então, há a adoção da seguinte equação:
log y = α + βS + βX + βX 2 + ε it (1)
Desta forma, para impor separabilidade entre os efeitos de educação e

experiência, o padrão da função de rendimentos de capital humano dita o logaritmo
dos rendimentos como uma função linear de anos completos de educação. Há duas
hipóteses embutidas nesta especificação que podem ser distinguidas: a medida de
educação poderia ser mensurada pelo número de anos completos de educação,
onde se considera o “sheepskin effect".
O problema com qualquer tentativa de estimação por MQO de uma equação
de rendimentos é que a variável resultante depende do potencial de auferir
rendimentos de cada trabalhador, que é, em grande medida não observável. Este
potencial depende de fatores como habilidade, capacidade de adaptação a
mudanças, capacidade de criatividade, capacidade de relacionamento e ambição,
etc. É razoável admitir que esse potencial está correlacionado com alguns dos
3
Um trabalho clássico que envolve a relação entre rendimentos e idade pode ser considerado por
Murphy and Welch (1990) os quais atestam sobre a especificação quadrática da equação de
rendimentos.
3
principais determinantes (observáveis) dos salários, como escolaridade, ocupação,
região de domicílio, ramo de atividade, etc. Isso faz com que haja uma invalidação
da interpretação causal dos coeficientes estimados.
O método mais fácil de lidar com o problema de causalidade é a inclusão de
variáveis de controle observáveis que capturem a correlação entre o regressor de
interesse e os componentes aleatórios. No caso do efeito da educação sobre os
salários, por exemplo, vários estudos incluem resultados de testes de Quociente de
inteligência4.
O problema dessa metodologia é que dificilmente podemos admitir que uma
variável de controle capture toda correlação entre o regressor e o erro para auferir
rendimentos. Isso só vale quando se conhece o processo que gera o regressor de
interesse. Os problemas adicionais dessa metodologia são que se a variável de
interesse for medida com erro, a inclusão de controles tenderá a agravar o viés
atenuador decorrente desse erro. A idéia do trabalho é utilizar variações exógenas
para aproximar os experimentos aleatórios.
O grande problema desse método é a procura por instrumentos exógenos
que claramente satisfaçam as condições citadas anteriormente. Deste modo, seria
necessária uma variável que fosse correlacionada com educação, porém não
correlacionada com a capacidade de obtenção de rendimentos do trabalho, tal como
número de escolas, por exemplo. Grande parte da literatura americana trabalha com
episódios esporádicos como sorteio para serviço militar5 ou mudanças nas regras
que definem tamanho de classes para identificar seu efeito sobre rendimento
escolar. Para motivar e obter uma estimativa de uma estimação pelo método de
variáveis instrumentais, de acordo com Wooldridge (2002), considere as seguintes
hipóteses:
y = β 0 + β1 + β 2 x 2 + ... + β K x K + u (2)
E (u ) = 0, Cov( x j , u ) = 0, j=1,2,...,K-1 (3)
Onde x K pode estar correlacionado com u. Em outras palavras, as variáveis

explanatórias x1 + x 2 ,..., x K −1 são exógenas, mas x K é potencialmente endógeno na
4
Ver Card (1995)
5
Ver Angrist (1990)
4
equação 2. A endogeneidade vem do fato da variável x j ser correlacionada com u .
Uma das razões para a existência de endogeneidade é quando omitimos variáveis

relevantes e não observáveis na análise. No problema específico do artigo, um bom
exemplo é a omissão do fator habilidade na equação de salários, onde anos de
escola são correlacionados com a habilidade não observável. Então, uma condição
suficiente para mostrar que não há problema de endogeneidade é o pressuposto de
média condicional zero:
E (u / x1 , x 2 ,..., x K ) = E (u / x) = 0 (4)
Pode-se mencionar que uma estimação da equação 2 geraria

βj Cov( x j , u ) ≠ 0
inconsistentes estimadores para todos os se . Então, sem maiores
informações, não se pode estimar consistentemente qualquer dos parâmetros na
equação 2. O método de variáveis instrumentais (IV) providencia uma solução geral
para o problema de endogeneidade da variável explanatória. Para usar o IV com x K
endógena, necessita-se de uma variável observável, z1 , ausente na equação 2, que
satisfaça duas condições. Primeiro, z1 deve ser não correlacionada com u:
Cov ( z1 , u ) = 0 (5)
A segunda condição envolve a relação entre z1 e uma variável endógena,

x K . A condição requer uma projeção linear de x K em todas as variáveis exógenas:
x k = δ 0 + δ 1 + δ 2 x 2 + ... + δ K −1 x K −1 + θ1 z1 + rK (6)
Onde, por definição uma projeção linear do erro, E (rK ) = 0, e rK é não
correlacionada com x1 ,..., x K −1 , e z1 não é zero. O pressuposto chave desta projeção
linear é que o coeficiente de z1 é diferente de zero.
θ1 ≠ 0 (7)
5
Se x K é a única variável explanatória da equação 2, então a projeção linear
é x k = δ 0 + θ1 z1 + rK , onde: θ1 = Cov( z1 , x k ) / var( z1 ) , e Cov( z1 , x k ) ≠ 0 . Até este ponto
não mencionamos ou não restringimos a distribuição de x K ou z1 . Em muitos casos

x K e z1 devem ser essencialmente contínuos, mas em outros casos x K e z1 devem
ser ambos discretos. Uma ou ambas as variáveis x K e z1 podem ser binárias, ou

continuas, ou tendo características discretas ao mesmo tempo. A equação 6 é
apenas uma projeção linear.
Quando z1 satisfaz as condições 5 e 7, então se pode dizer que é um
candidato a instrumento de x K (Algumas vezes z1 é simplesmente chamado de

x
instrumento de x K ) e que x1 , ..., k −1 tem que ser sempre não correlacionados com o
erro aleatório. Em outras palavras, uma lista cheia de variáveis instrumentais é o
mesmo que uma lista de variáveis exógenas, mas estamos nos referindo apenas
aos instrumentos para variáveis endógenas.
A projeção linear da equação 6 pode ser chamada de equação na forma
reduzida de uma variável explanatória endógena de x K . No contexto e num modelo

com uma equação linear simples, a forma reduzida sempre envolve escrever uma
variável endógena como uma projeção linear de todas as variáveis exógenas.
Através da equação estrutural 2 e da forma reduzida de x K , nós obtemos uma forma

reduzida de y, trabalhando a equação 6 com a equação 2 e rearranjando temos:
y = α 0 + α 1 x1 + α 2 x 2 + ... + α K −1 x K −1 + λ1 z1 + υ (8)
Onde υ = u + β k rk é a forma reduzida do erro, e admiti-se que: αj = βj + β k δj ,
e λ1 = β k θ1 . Pelos nossos pressupostos, υ é não correlacionado com todas as

variáveis explanatórias da equação 8, e é uma estimativa consistente para o modelo
α j λ1
Mínimos Quadrados Ordinários e os parâmetros na forma reduzida, o e .
Pela identificação pode-se escrever a equação 2 em termos de momento
populacional das variáveis observáveis. Então, tem-se:
y = xβ + u (9)
6
Onde x = (1, x 2 ,..., x k ) e o vetor de todas as variáveis exógenas pode ser
representado como: z = (1, x 2 ,..., x k −1 , z1 ) . Dos pressupostos 3 e 4 temos que

satisfazer as condições de ortogonalidade:
E ( z´u ) = 0 (10)
Multiplicando a equação 9 por z´, aplicando esperança, e usando 10 tem-se:
[ E ( z´x)]β = E ( z´ y ) (11)
Onde E ( z´x) é K x K e E ( z´ y ) é K x 1. A equação 9 representa um sistema de
K equações lineares em K para os parâmetros

β1 , β 2 ,..., β k . Este sistema tem solução
única se e somente se a matriz K x K de E ( z´x) tem rank completo, isto é se:
Rank E ( z´x) = K (12)

E neste caso a solução é
β = [ E ( z´x)]−1 E ( z´ y ) (13)
Pode-se mostrar que a equação 11 se sustenta a partir da validade da
condição de que θ 1 ≠ 0 , ou seja, da condição 7. Além disso, o pressuposto de

exogeneidade na condição 4 e a hipótese 6 são importantes para a identificação do
modelo. E por derradeiro, dado uma amostra aleatória {( xi , y i , z i1 ) : i = 1,2,..., N } para a
população, o estimador de variáveis instrumentais para β pode ser obtido como:
^ N N
β = ( N −1 ∑ z i´ xi ) −1 ( N −1 ∑ z i´ y i ) = ( z´x) −1 z´ y
i =1 i =1 (14)
z
Onde e x são matrizes N vezes K e y é um vetor y i . A consistência deste
estimador baseia-se na lei dos grandes números. A hipótese básica do modelo de
variáveis instrumentais é que a única razão pela qual lw (logaritmo dos salários,
sendo considerada dependente ou igual a y na equação 14) varia com z i é porque

xi varia com z i . No problema do artigo, esse estimador é equivalente ao de Mínimos
7
Quadrados Ordinários em dois estágios, que usa os valores previstos de uma
regressão de xi e z i no primeiro estágio como regressor no segundo estágio, em

que a variável dependente será lw .
Então, há a tentativa de buscar instrumentos para atentar sobre o problema
da endogeneidade da variável educação na equação de salário. Assim, procurou-se
estabelecer a relação entre escolarização e outras variáveis com o mesmo intuito da
literatura internacional, qual seja, o de solucionar o problema da variável endógena,
Neste sentido, adotou-se a variável número de escolas no estado e no ano de
nascimento do indivíduo com o propósito de mostrar que o aumento da oferta de
escolas tem efeito sobre a escolarização do aluno.
Além disso, incluímos também a variável população na lista dos
instrumentos para dar uma idéia de haver uma competição por recursos
educacionais entre estados, ou seja, combinando escolas e população ter-se-ia uma
idéia de escolas por população e uma medida de distância do aluno em relação à
escola. A inclusão da variável participação do PIB estadual no PIB nacional tem
como o objetivo mostrar os efeitos do mercado de trabalho na decisão educacional,
ou seja, estados com maior participação no PIB teriam um mercado de trabalho mais
desenvolvido, o que aumentaria os custos de oportunidade do estudo. Então,
quando maior o PIB, menor deveria ser a probabilidade de o aluno permanecer na
escola.
O objetivo deste trabalho consiste em entender o impacto de variáveis
chaves sobre o processo de escolarização da população do Sul do país, e, não
consiste em obter uma relação de causalidade forte entre as variáveis.
Foram construídas coortes de geração, denominadas dummies de
presidentes da república. Neste intuito, construiu-se também dummies de estado,
considerando cada um dos estados brasileiros. Como estratégia de identificação, foi
feita a hipótese de considerar a aprovação escolar controlando pelo número de
escolas em cada estado, participação do PIB estadual no PIB nacional e população
quando os indivíduos nascem, ou seja, como exemplo, pode-se dizer que se a data
de nascimento da criança for 1948 considera-se o número de escolas em 1948 para
cada Unidade de Federação (Estado). Ao obter as Pesquisas Nacionais por
Amostras Domiciliares, foram considerados indivíduos com 18 anos ou mais. No
primeiro estágio, será estimada a forma reduzida do modelo:
8
Modelo MQO (Mínimos Quadrados Ordinários)
educa = α + β 1 esc + β 2 pib + β 3 pop + β 4 idade + β 5 idade 2 + β 6 raca + β 7 sex 1
+ dummies de corte + dummies de estado + dummies de ano + ε it
Sendo:
educa = Variável dependente
α = Constante
esc = número de escolas anual em cada estado quando o indivíduo nasce.
pop = População anual em cada estado quando o indivíduo nasce.
PIB = Participação estadual no PIB nacional anual em cada estado quando
o indivíduo nasce.
raça = raça do indivíduo sendo igual a 1 quando o mesmo é branco, e 0
caso contrário.
sex1 = Sexo do indivíduo sendo igual a 1 quando o mesmo é homem, e 0
caso contrário
dummies de Coorte (presidentes da república) = Figueiredo, Geisel,
Médici, CostaeSilva, Castelo, Quadros-Goulart, Kubitschek, VargasCafé e Dutra.
dummies de estados = PR, SC e RS
dummies de ano = 1995,1996,1997, 1998, 1999, 2001 e 2002
εit = erro aleatório.
No segundo estágio, vamos estimar os retornos à educação considerando-
se o impacto da variável idade, idade ao quadrado, sexo, cor e dummies de estado.
Desta forma, temos a seguinte especificação:
lw = α + β 1 educa + β 2 idade + β 3 idade 2

+ β 4 raca + β 5 sex 1 + dummies de coorte
+ dummies de estado + dummies de ano + ε it

Sendo:
lw = logaritmo natural do salário
educa = educação do indivíduo (estimada considerando os instrumentos de
número de escolas quando o indivíduo nasce, população quando o indivíduo nasce,
participação regional do produto interno bruto quando o indivíduo nasce).
idade = número de anos do indivíduo.
idade 2 = idade ao quadrado capta retornos a experiência.
raça = 1 se o indivíduo for branco, 0 caso contrário
9
sex1 = Variável que admite 1 se o sexo for masculino, 0 caso contrário.
dummies de estado = PR, SC e RS
dummies de coorte = Figueiredo,..,Dutra
dummies de ano = 1995,1996, 1997,1998,1999, 2001 e 2002
εit = erro aleatório
3 - Descrição dos dados
A análise empírica será baseada nas PNADS de 1995 até 2002.

Consideramos as variáveis: número de escolas, participação estadual do PIB
regional no PIB nacional e população no estado e no ano de nascimento do
indivíduo como instrumentos para educação. Cabe destacar que os salários foram
deflacionados a partir de dados do INPC do IBGE e do IGP do Mtb. A tabela 1
mostra os valores para deflacionar os salários das PNADS.
Tabela 1 - Valores para deflacionar rendas da PNAD

Ano Semana de Referência Deflator Conversor
1995 24/09 A 30/09 0,660255917126606 1
1996 22/09 a 28/09 0,742170713793660 1
1997 21/09 a 27/09 0,774350502862535 1
1998 20/09 A 26/09 0,798136175968766 1
1999 19/09 A 25/09 0,849501390026204 1
2001 23/09 a 29/09 0,975438363435539 1
Fonte: Elaboração própria a partir de dados do INPC do IBGE e do IGP do MTb
Nota1: Centrado aproximadamente no dia 1 através de média geométrica
Nota2: Jan 2002=1
O número de escolas em cada unidade de federação e os dados de

população estaduais foram retirados do IBGE no sítio www.ibge.gov.br,
especificamente no subitem educação e população do item estatísticas do século
XX. A participação estadual no PIB nacional foi fornecida também pelo IBGE,
entretanto não se encontra no mesmo sítio. Ante o fato de se ter apenas obtido
dados de participação estadual no PIB nacional a partir de 1947, o presente estudo
inicia-se em 1947. Logo, a gestão de Dutra é considerada a partir de 1947 e não em
1946 como deveria ter sido feita.
10
4 - Resultados
A tabela 2 mostra as estatísticas descritivas das variáveis para a Região Sul

considerando a PNAD de 1997 até 2002, logo, nota-se que mais que 96% da
amostra apresenta mais do que 1 ano de educação, 86,78% da amostra tem mais
que 4 anos de educação e 52% tem mais do que 8 anos de educação. É possível
notar-se que na amostra, os indivíduos têm mais do que sete anos de escolaridade,
sendo que a variável educa mostra que a média educacional da amostra é de
aproximadamente 8 anos de estudo.
A idade média dos indivíduos situa-se na casa dos 34 anos e a coorte média
(data de nascimento média) considera indivíduos nascidos em 1967, considerando o
intervalo de data de nascimento entre 1947 e 1984. Relativo a sexo e etnia, mais
que 60% da amostra é do sexo masculino e mais que 84% da população é branca. A
participação estadual média no PIB nacional é de 6% durante todo o período e a
população média em cada estado está acima de cinco milhões de habitantes. A
população amostral é bem estratificada, pois considera o número de observações de
cada estado pelo peso da população de cada estado do Sul do país.
Tabela 2 – Estatísticas descritivas para a região

Sul utilizando as PNADS de 1995 a 2002
Desvio
Observações Média Mínimo Máximo
Padrão
Escolariza ≥ 1 138108 .9623 .1903 0 1
Escolariza ≥ 4 138108 .8678 .3387 0 1
Escolariza ≥ 8 138108 .5228 .4994 0 1
Idade 138108 34 9 18 55
Sex1 (Masculino) 138108 .6063 .4885 0 1
raca2 (Branco) 138108 .8446 .3622 0 1
Educa 138108 8 3 0 15
Peso 138108 414.717 176.332 199 620
Datanascimento 138108 1964 9.4 1947 1984
Esc 138108 10151 4158 1525 15646
Pib 138108 0.0667 0.0234 0.0214 0.0991
Pop 138108 5298395 193658 1371100 8317352
Na tabela 3 infere-se três tipos de modelo: i) Modelo completo e ponderado

para a região Sul; ii) Modelo para a região Sul sem coorte e com dummies de
estado, iii) Modelo para a região Sul sem Coorte e sem dummies de estado. Pode-se
destacar em todos os modelos o efeito da escolarização ao longo do tempo,
11
verificando-se que há um avanço recente na educação brasileira, pois as dummies
de ano em todos os modelos apontam para uma relação positiva e crescente entre
ano e educação.
A tabela 3 mostra as estimações dos modelos de Mínimos Quadrados
Ordinários que utilizam como controles, o número de escolas, a participação do PIB
estadual e a população. Abaixo de cada um dos modelos estimados foram
considerados os erros padrões entre parêntese com o respectivo nível de
significância estatística. Neste subitem, há uma junção das PNADS de 1995, 1996,
1997, 1998, 2000, 2001, 2002. Houve a tentativa de modelar as variáveis: sexo,
educação, raça, idade, idade ao quadrado, dummies de ano e dummies de coorte. A
amostra irá considerar indivíduos com mais de 18 anos. Não foi estimado um painel
pelo fato de não ser a mesma população ao longo do tempo e pelo fato de haver
problema de identificação na estimação de um painel que considere sexo, raça e
educação. As dummies de estado consideram o estado do Paraná como estado de
comparação e serão importantes para diferenciar o retorno à educação no Paraná
com relação aos demais estados da Região Sul, ou seja, na última tabela do
trabalho.
As dummies de presidente da república, as quais representam as coortes,
são dummies de geração que mostram o impacto da aprovação escolar de
determinado presidente em determinada série quando o indivíduo nasce. Nesta
parte do trabalho, foram utilizados, além das PNADS acima referidas, dados do
IBGE referentes a número de escolas, população e participação estadual no PIB. Ao
identificar-se o modelo, considerou-se o impacto do sexo masculino (sex1) na
aprovação escolar em relação ao sexo feminino e o impacto da raça branca (raca2)
sobre as demais raças.Um fato bem interessante pode ser observado durante
algumas gestões do regime militar (Costa e Silva até Geisel), pois se observa que
apenas as gerações de Costa e Silva, Médici e Geisel estariam numa situação pior
que a geração de Figueiredo quando se considera o modelo de mínimos quadrados
ordinários.
O período da ditadura, que começa em Castelo Branco, é marcado pela
abolição dos percentuais mínimos a educação, junto com isso, há um aumento na
faixa de escolarização sem haver uma noção clara de que setor se deveria tirar o
dinheiro para promover educação e quanto mais o erário teria que gastar com isso.
Há um conjunto de políticas que, se não prejudicaram, não ajudaram no avanço
12
escolar quando se comparam as coortes, as gerações de Costa e Silva, Médici e
Geisel estariam numa pior situação do que a geração de Figueiredo.
Tabela 3 – Primeiro Estágio: Determinantes dos anos de estudo na Região Sul

(1) (2) (3)
Esc 4.18 e-05 6.64 e-05 6.19e-05
(2.00e-05)*** (1.70e-05)*** (1.10e-06)***
Pib 16.80 19.94 13.80
(2.40)*** (2.16)*** (1.08)***
Pop 1.02 e-08 8.69e-8 5.25e-08
(4.36e-08)*** (3.88e-08)** (1.58e-08)***
Idade .149 .123 .123
(.015)*** (.008)*** (.008)***
Idade2 -.003 -0,003 -0,003
(2,00e-05)*** (1.13e-05)*** (1,12e-05)***
Sex1 -1.11 -1.01 -1.01
(.024)*** (.021)*** (.021)***
Raca2 1.979 1.96 1.96
(.010)*** (.028)*** (0.03)***
Geisel -.121
(.024)***
Médici -.194
(.030)***
Costa e Silva -.218
(.053)***
Castelo -.150
(.099)
Jânio – João -.122
(.116)
Kubitschek -.683
(.139)
Vargas – Café -.434
(.177)
Dutra -.583
(.217)***
Dummies de Estado Sim Sim Não
Dummies de Ano Sim Sim Sim
Const. 4.908 6.683 6.020
(0,182)*** (0,233)*** (.153)***
Observações 138108 138108 138108
F (23, 138084) 558.45 845.84 974.39
Prob > F 0.0000 0.0000 0.0000
2
R 0.0785 0.0783 0.0782
Root MSE 3.908 3.908 3.908
*** significante a 1%; ** significante a 5 %; * significante a 10%
A partir de agora já estamos aptos a estimar as equações de rendimentos,

sendo que a primeira não considera o problema de endogeneidade da variável
educação, desta forma, a obtenção dos resultados da primeira equação servirá de
13
comparação para um modelo que instrumentaliza a variável educação. Os
resultados interessantes dos modelos mostram no modelo 2 da tabela 4, logo há
uma atenuação do impacto da educação sobre a economia, deste modo, ao se
instrumentalizar a educação tem-se resultados menores para cada ano de educação
em relação ao modelo que considera apenas o primeiro estágio. É preciso frisar que
de acordo com as coortes que o retorno à educação cresce ao longo do tempo.
Verifica-se que os rendimentos crescem para as gerações mais novas comparado
às mais velhas no modelo 2 da tabela 4.
Assim, foi estimada uma equação de rendimentos convencional que
considerou as PNADS de 1995 a 2002 e foi ponderada pelo peso do indivíduo na
amostra. Após isso, procurará instrumentalizar a educação pelo número de escolas
por estado, população por estado e PIB estadual no ano de nascimento do indivíduo.
Logo, há a preocupação de trazer à tona o problema de endogeneidade e utilizar
instrumentos, tendo como conseqüência uma equação de segundo estágio.
Ao se estimar as equações de rendimento convencional e com os
instrumentos número de escolas, a população e o PIB para a variável educação,
foram obtidos dois modelos com seus respectivos resultados: i) O primeiro modelo
considera a equação de salários que não instrumentaliza por número de escolas,
população e PIB. ii) O segundo modelo é estimado por variáveis instrumentais e
considera as dummies de coorte e o peso do indivíduo nos dois estágios.
De acordo com a tabela 4 observou-se no primeiro modelo que um ano de
escola contribui em mais de 12% do rendimento do indivíduo. No que se refere ao
sexo pode-se afirmar, segundo os modelos estimados, que homens ganhariam mais
do que mulheres em ambos os modelos. No que se refere ao efeito de raça, pode-se
afirmar que brancos ganham mais que não brancos no modelo agregado e
ponderado. Considerando as dummies de estado, pode-se afirmar que a dummy do
Rio Grande de Sul apresenta um resultado negativo em relação a Paraná, e a
dummy de Santa Catarina apresenta um resultado positivo com relação ao Paraná.
14
Tabela 4 – Segundo Estágio: Equações de rendimento
Modelo I II
Educa .1210 .0482
(.0005)*** (.0243)**
Idade .1029 .1138
(.0028)*** (.0047)***
idade2 -.0010 -.0013
(4.44e-05)*** (9,22e-05)**
sex1 .5382 .4567
(.0042)*** (.0275)***
Raça .1457 .2990
(.0056)*** (.0484)***
Geisel .0386 .0319
(.0081)*** (.0086)***
Médici .0371 .0240
(.0091)*** (.0106)**
CostaeSilva -.0175 -.0334
(.0122) (.0141)**
Castelo -.0678 -.0777
(.0174)*** (.0190)***
JânioJoão -.1055 -.1133
(.0202)*** (.0219)***
Kubitschek -.1358 -.1360
(.0241)*** (.0259)***
VargasCafé -.1331 -.1304
(.0306)*** (.0329)***
Dutra -.1501 -.1503
(.0380)*** (.0410)***
SC .1201 .1097
(.0057)*** (.0071)***
RS -.0428 -.0307
(.0046)*** (.0060)***
Dummies de Ano Sim Sim
Constante 2.480 2.964
(.0423)*** (.1540)***
*** significante a 1%; ** significante a 5 %; * significante a 10%
No segundo modelo estimado da tabela 4 obteve-se o impacto acima de 4%

sobre o rendimento para cada ano adicional de educação, mostrando que a
educação é importante, mas um ano de educação contribui muito pouco para os
salários. As dummies de coorte apresentaram rendimento crescente ao longo do
tempo. Nas dummies de estado o resultado não muda. Em relação às dummies de
ano tem-se que os retornos crescem ao longo do tempo.
Para finalizar, considerando a tabela 4, pode-se dizer que o número de
escola no estado e na data de nascimento do indivíduo, sendo utilizada como um
instrumento para educação, atenua o retorno à educação. Para o propósito do
trabalho, o segundo modelo seria considerado como modelo referência pelo fato de
15
considerar o problema de endogeneidade, controlar por dummies de coorte e ser
ponderado pelo peso do indivíduo na PNAD, pois participa o peso do indivíduo em
cada uma das Pesquisas Nacionais por Amostra Domiciliares. Quanto ao resultado
de sexo e cor, há uma atenuação em relação aos resultados da variável sexo, e um
aumento do impacto da cor quando se compara com os resultados do primeiro
estágio. Logo, verifica-se que há discriminação de sexo e cor no mercado de
trabalho do Sul do País6.
6 – Conclusões
No período entre 1948 e 1960 o que se observa é uma priorização do ensino

superior brasileiro, isto talvez explique parte da desigualdade educacional observada
até os dias de hoje. A década de 60 é marcada pela ditadura militar, no que se
refere a educação pode-se dizer que a Constituição de 1967 não vincula recursos
obrigatórios do Estado para a educação no Sul e no Brasil como um todo.
Na parte empírica do trabalho, foi possível apresentar que número de
escolas é uma variável importante para a escolarização das pessoas. No mais, os
estados com maior PIB apresentam uma maior probabilidade de escolarização. O
trabalho mostrando um problema de discriminação no mercado de trabalho, pois
homens brancos teriam um maior retorno a educação. Quando se agregam as
PNADS de 1995 a 2002, percebe-se a importância do número de escolas para a
escolarização do indivíduo na Região Sul, e particularmente no Paraná. Mas, o que
chama a atenção é o fato de que as pessoas nascidas no Sul durante as gestões de
Médici, Costa e Silva e Geisel, estariam piores que a geração de Figueiredo.
No que se refere à idade, pode-se afirmar que ao longo do ciclo de vida, à
medida que as pessoas envelhecem, há uma menor probabilidade de escolarização.
Já as dummies de ano, consideradas para cada PNAD, mostram, entretanto, que há
um avanço recente da escolarização da população como um todo. O trabalho
demonstra a importância das variáveis: número de escolas, população e PIB
estadual para a escolarização da população do Sul, utilizou-se toda a estratégia de
identificação desenvolvida pela literatura internacional como forma de estimar uma
equação de rendimentos.
6
Para referências de Brasil ver Kassouf (1998); Lovell (1992) e Cavalieri e Fernandes (1998)
16
A escolha dos instrumentos: número de escolas, população, e participação
do PIB estadual no PIB regional, advieram do fato dos mesmos ser exógenos. Não
se utilizou painel pelo fato de controlar por características observáveis, pois
controlando por efeito fixo poder-se ia não estar encontrando o resultado correto
pelo fato de não se estar trabalhando com os mesmos indivíduos ao longo do
tempo.Um resultado novo no trabalho seria o de mostrar que Os ganhos de salário
real no Paraná estariam crescendo mais do que os ganhos no Rio Grande do Sul.
7 – Referências bibliograficas
Angrist, J. Lifetime earning and the Vietnam era draft lottery: evidence from social
security administrative records. American Economic Rewiew, v. 80, no 3, 313-
335, 1990.
Angrist, J. and Krueger, A. Why do World War II Veterans Earn More than
Nonveterans?. Journal of Labor Economics, Vol.12, no 1, 74-97, 1994.
Angrist, J ; Imbens, G and Krueguer, A. Jackknife instrumental variables estimation.
Journal of applied econometrics, 14. 57-67, 1999
Bound and Jager. On the Validity of season of birth as an instrument in wage
equation. NBER. Working Paper no 5835, November, 1996.
Brasil. Constituição federal, vários anos. Disponível em: < http://
www.senado.gov.br/sf/legislacao/BasesHist > acesso em 2006.
Card, D. Earnings, Schooling, and Ability Revisited. Research in Labor Economics,
vol. 14, Greenwich Connecticut: JAI Press, 1995
Cavalieri, C & Fernandes, R. Diferenciais de salários por gênero e cor: uma
comparação entre regiões metropolitanas brasileiras. Revista de Economia
Política., v 18, n.1, 1998.
Hahn, J & Hausman, J. Weak Instruments: Diagnosis and Cures in Empirical
Econometrics. AEA Papers and Proceedings. Recent Advances in Econometric
Methodology. Vol. 93, No 2, may, 2003
IBGE. Estatísticas do Século XX. Disponível em http:\\ www.ibge.gov.br. Acesso
em agosto de 2004.
Kassouf. Wage Gender discrimination and segmentation in the Brasilian labor
market. Economia Aplicada., v.2, 1998
Koenker and Basset . Regression Quantiles. Econometrica, v.46, p 33-50, 1978
Lovell. Raça, Gênero e discriminação salarial no Brasil. Estudos Afro-Asiáticos,
n.22. p. 85-98, 1992.
Maddala, G and Jeong, J. On the exact small sample distribuition of the instrumental
variable estimator, econometrica. vol 60, no 1, 1981-1983, 1992.
Murphy, K and Welch, F. Empirical Age-Earning Profiles. Journal of Labor
Economics, Vol 8. no 2. 202 -229, 1990.
17
Mincer, J. Schooling, experience e earnings. Columbia University Press, 1974.
Menezes-Filho, N. Aceleração Recente da Educação no Brasil. Seminários
Acadêmicos de 5ª feira. Seminário nº 15. Universidade de São Paulo.
Instituto de Pesquisas Econômicas. (mimeo), 2003
______.Equações de Rendimentos: Questões Metodológicas. In: Corseuil et alli
(2002) Estrutura Salarial: Aspectos Conceituais e Novos Resultados para o
Brasil. IPEA. Pág 51-66, 2002.
Menezes-Filho, N; Fernandes, R; Pichetti. Wage inequality in Brazil; some
stylized facts. Anais do XVI Encontro de Econometria, Belém-PA, 1999.
Savedoff, W. Wage dynamics in urban Brazil: evidence of regional segmentation or
national markets. Revista econometrica, v.11, n.2, 1991.
Staigner, D & Stock, J. Instrumental Variables regression with weak instruments.
Econometrica, v. 65, n. 3, 1997.
Wooldridge, J. Econometric Analysis of Cross Section and Panel Data. The MIT
Press. Cambridge, Massachusetts, London, England. 2002.
18

Estimando o Retorno

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Estimando o Retorno

Enviado por

Direitos autorais:

Formatos disponíveis

Estimando o retorno à educação da região sul por variáveis instrumentais:

considerando o Paraná como comparação.

Wladimir Machado Teixeira1

Resumo: O propósito deste trabalho consiste em estimar o efeito da educação

Área VI - Métodos Quantitativos para Economia Regional

O objetivo deste artigo consiste em estimar o efeito da educação sobre os

A equação de rendimentos visa relacionar os rendimentos auferidos por um

Desta forma, para impor separabilidade entre os efeitos de educação e

Onde x K pode estar correlacionado com u. Em outras palavras, as variáveis

Uma das razões para a existência de endogeneidade é quando omitimos variáveis

Pode-se mencionar que uma estimação da equação 2 geraria

para o problema de endogeneidade da variável explanatória. Para usar o IV com x K

endógena, necessita-se de uma variável observável, z1 , ausente na equação 2, que

satisfaça duas condições. Primeiro, z1 deve ser não correlacionada com u:

A segunda condição envolve a relação entre z1 e uma variável endógena,

Onde, por definição uma projeção linear do erro, E (rK ) = 0, e rK é não

correlacionada com x1 ,..., x K −1 , e z1 não é zero. O pressuposto chave desta projeção

linear é que o coeficiente de z1 é diferente de zero.

é x k = δ 0 + θ1 z1 + rK , onde: θ1 = Cov( z1 , x k ) / var( z1 ) , e Cov( z1 , x k ) ≠ 0 . Até este ponto

não mencionamos ou não restringimos a distribuição de x K ou z1 . Em muitos casos

ser ambos discretos. Uma ou ambas as variáveis x K e z1 podem ser binárias, ou

Quando z1 satisfaz as condições 5 e 7, então se pode dizer que é um

candidato a instrumento de x K (Algumas vezes z1 é simplesmente chamado de

reduzida de uma variável explanatória endógena de x K . No contexto e num modelo

Através da equação estrutural 2 e da forma reduzida de x K , nós obtemos uma forma

Onde υ = u + β k rk é a forma reduzida do erro, e admiti-se que: αj = βj + β k δj ,

e λ1 = β k θ1 . Pelos nossos pressupostos, υ é não correlacionado com todas as

representado como: z = (1, x 2 ,..., x k −1 , z1 ) . Dos pressupostos 3 e 4 temos que

Onde E ( z´x) é K x K e E ( z´ y ) é K x 1. A equação 9 representa um sistema de

K equações lineares em K para os parâmetros

única se e somente se a matriz K x K de E ( z´x) tem rank completo, isto é se:

Rank E ( z´x) = K (12)

Pode-se mostrar que a equação 11 se sustenta a partir da validade da

condição de que θ 1 ≠ 0 , ou seja, da condição 7. Além disso, o pressuposto de

modelo. E por derradeiro, dado uma amostra aleatória {( xi , y i , z i1 ) : i = 1,2,..., N } para a

população, o estimador de variáveis instrumentais para β pode ser obtido como:

sendo considerada dependente ou igual a y na equação 14) varia com z i é porque

regressão de xi e z i no primeiro estágio como regressor no segundo estágio, em

+ dummies de corte + dummies de estado + dummies de ano + ε it

lw = α + β 1 educa + β 2 idade + β 3 idade 2

+ dummies de estado + dummies de ano + ε it

3 - Descrição dos dados

A análise empírica será baseada nas PNADS de 1995 até 2002.

Tabela 1 - Valores para deflacionar rendas da PNAD

O número de escolas em cada unidade de federação e os dados de

A tabela 2 mostra as estatísticas descritivas das variáveis para a Região Sul

Tabela 2 – Estatísticas descritivas para a região

Na tabela 3 infere-se três tipos de modelo: i) Modelo completo e ponderado

Tabela 3 – Primeiro Estágio: Determinantes dos anos de estudo na Região Sul

A partir de agora já estamos aptos a estimar as equações de rendimentos,

No segundo modelo estimado da tabela 4 obteve-se o impacto acima de 4%

No período entre 1948 e 1960 o que se observa é uma priorização do ensino

Você também pode gostar