Escolar Documentos
Profissional Documentos
Cultura Documentos
Por
Fernando Rios-Ávila
Abstrato
As regressões não paramétricas são ferramentas estatísticas poderosas que podem ser usadas para modelar
as formas funcionais subjacentes. Apesar de seus benefícios potenciais, esses tipos de modelos têm
dois pontos fracos: a flexibilidade adicional cria uma maldição de dimensionalidade e procedimentos
disponíveis para seleção de modelos, como validação cruzada, têm um alto custo computacional em
amostras com tamanhos até moderados. Uma alternativa aos modelos totalmente não paramétricos são
modelos semiparamétricos que combinam a flexibilidade das regressões não paramétricas com
a estrutura dos modelos padrão. Este artigo descreve a estimativa de um tipo específico
Tibshirani 1993), baseado em métodos de regressão de kernel, usando um novo conjunto de comandos
dentro de vc_pack. Esses comandos visam facilitar a seleção de largura de banda, modelo
Estimativas semiparamétricas.
1. Introdução
Regressões não paramétricas são ferramentas estatísticas poderosas que podem ser usadas para modelar relacionamentos
entre variáveis dependentes e independentes com suposições mínimas sobre o funcional subjacente
formulários. Essa flexibilidade torna as regressões não paramétricas robustas à especificação incorreta da forma funcional,
A flexibilidade adicional das regressões não paramétricas tem um custo. Por um lado, o adicionado
a flexibilidade cria o que é conhecido como a maldição da dimensionalidade. Em essência, porque não paramétrico
linearidades, mais dados são necessários para obter resultados com um nível de precisão semelhante ao de seus parâmetros paramétricos.
homólogos. Por outro lado, embora conjuntos de dados maiores possam ser usados para reduzir a maldição da dimensionalidade,
procedimentos usados para seleção de modelos e estimativas são muitas vezes muito intensivos em termos computacionais, tornando o
a estimativa desse tipo de modelo é menos prática em amostras de tamanhos moderados a grandes. Talvez devido a estes
limitações, e até versões recentes, o Stata tinha um conjunto muito limitado de comandos nativos para a estimativa
de modelos não paramétricos. Mesmo com o recente desenvolvimento do poder computacional, a estimativa da capacidade total
modelos não paramétricos, usando os comandos atualmente disponíveis, continua sendo um desafio quando se utilizam grandes
amostras.1
Uma resposta à principal fraqueza dos métodos não paramétricos tem sido o desenvolvimento de
métodos semiparamétricos. Esses métodos combinam a flexibilidade das regressões não paramétricas com a
custo computacional da seleção e estimativa do modelo.2 Na verdade, muitos comandos contribuídos pela comunidade
foram propostos para a análise de uma grande classe de modelos semiparamétricos no Stata.3
1
Stata 15 introduziu o comando npregress kernel que estima modelos totalmente não paramétricos usando métodos de
kernel. Mais recentemente, o Stata 16 introduziu séries npregress que estimam modelos totalmente não paramétricos usando
métodos de séries e splines.
2
Uma breve revisão do método semiparamétrico é fornecida em Cameron e Trivedi (2005), Sec. 9.7. Para uma revisão mais
aprofundada da teoria sobre modelos semiparamétricos, consulte Li e Racine (2007) Capítulo 7-11, enquanto (Henderson e
Parmeter 2015) oferecem uma discussão mais empírica sobre este tipo de modelos.
3
Ver Verardi (2013) para uma breve revisão dos comandos para estimação de regressões semiparamétricas no Stata.
1
Machine Translated by Google
dentro do ambiente Stata, é conhecido como Smooth Varying Coefficient Models (SVCM) (Hastie e
Tibshirani 1993). Esses modelos assumem que o resultado é uma função de dois conjuntos de características,
e , onde o efeito de on segue alguma função suave não especificada de Z. Conforme descrito por
Henderson e Parmeter (2015) este método é particularmente popular em ambientes aplicados porque são
Por exemplo, conforme descrito em Hainmueller, Mummolo e Xu (2018), o SVCM pode ser pensado como
como modelos interativos multiplicativos onde a variável se comporta como moderadora do tratamento
variáveis de interesse, relaxando a suposição linear da interação. Alternativamente, conforme descrito em Rios-
Avila (2019), o SVCM pode ser usado para estender a análise de decomposição padrão de Oaxaca-Blinder para cenários
com variáveis de grupo contínuas, decompondo, por exemplo, diferenças salariais de indivíduos com
índice de massa corporal diferente. Além disso, sob hipóteses de um tratamento exógeno e
falta de confusão, o SVCM pode ser usado para estimar os efeitos do tratamento com doses heterogêneas (ver, por exemplo
Hirano e Imbens (2004) para uma discussão sobre os efeitos do tratamento contínuo).
Este artigo apresenta um novo conjunto de comandos que visam facilitar a seleção do modelo,
estimativa e visualização de SVCM com uma única variável de suavização. vc_bw e vc_bwalt são
comandos usados para seleção de modelo que implementam um procedimento de validação cruzada de deixar um de fora para selecionar
a largura de banda ideal. vc_reg, vc_bsreg e vc_preg são comandos usados para estimativa
SVCM em um conjunto selecionado de pontos de interesse, fornecendo diferentes alternativas para a estimativa de
erros padrão. vc_predict e vc_test são comandos que podem ser usados para obter o modelo
previsões e resíduos, fornecem algumas estatísticas do modelo estimado, bem como fornecem algumas
testes de especificação. vc_graph pode ser usado para traçar os coeficientes suaves.
O resto do artigo está estruturado da seguinte forma. A Seção 2 revisa a estimativa do SVCM. Seção
3 fornece uma revisão detalhada dos procedimentos de implementação e comandos usados para seleção de modelo,
2
Machine Translated by Google
variáveis de dimensão . Sem qualquer suposição sobre as relações entre essas variáveis, e
assumindo que não existe problema de variável omitida, o modelo de regressão não paramétrico dado o
=()+ (1a)
(| )=0 (1b)
Essencialmente, esta especificação do modelo implica que está relacionado a seguir algum desconhecido
forma funcional não linear. A literatura sobre regressões não paramétricas sugere que esses tipos de
modelos podem ser estimados de pelo menos duas maneiras. Por um lado, a função (.) pode ser estimada por
ÿ (ÿ( ) , , ÿ) (2)
=(|=)=
ÿ(, , ÿ)
(3)
( , , , ÿ)
, ÿ) = ÿ (
=1
e( , , ÿ) é uma função do kernel definida pelo ponto de referência e pela largura de banda ÿ: 4
(4)
( , ,
ÿ) = (-ÿ)
vetor de larguras de banda ÿ para determinar quanta informação é usada para a estimativa do condicional
significar. Este procedimento pode ser implementado no Stata usando o comando npregress kernel.
3
Machine Translated by Google
interações das variáveis originais como variáveis explicativas. A prática mais comum é usar
seguinte modelo:
= ( )ÿ + ( ( ))ÿ + (5)
e (. ), representam o parâmetro de ajuste que determina a rugosidade de ÿ(). Este procedimento pode ser
base de splines.
rapidamente à medida que aumenta e ÿ vai para zero. No caso de transformações e interações, o número de
parâmetros que precisam de estimativa aumentam exponencialmente com o número de variáveis explicativas e o
O SVCM, conforme introduzido por Hastie e Tibshirani (1993), assume que existe alguma estrutura no
modelo. Em vez de estimar uma função como a equação (1), os autores sugerem distinguir dois tipos de
variáveis independentes = [ , ]. são variáveis que têm um efeito linear de , mas esses efeitos são
algumas funções não lineares não especificadas de. Este modelo é definido por:
= '
()+ (6a)
(| , )=0 (6b)
5
Em ambos os casos, existem diferentes estratégias que podem ser utilizadas para selecionar a rugosidade ou suavidade dos modelos
estimados. Para uma breve revisão de ambas as estratégias, consulte a introdução do npregress.
4
Machine Translated by Google
em comparação com (1), assumindo que tem um efeito paramétrico sobre , condicional a , permitindo os coeficientes
() são funções não lineares suaves desconhecidas de. Para simplificar, vou me referir como o conjunto de
suavização de variáveis. A existência de dois tipos de variáveis levanta a questão de decidir quais
variáveis devem ser incluídas em ou . A literatura empírica sugere que decidir quais variáveis
deve ser considerado como parte das variáveis de suavização Z dependerá da questão de pesquisa de interesse.
Por exemplo, Li et al. (2002) analisam a função de produção do mineral não metálico
indústria manufatureira na China, analisando a produtividade marginal do capital e do trabalho (X), analisando
a heterogeneidade baseada nas despesas com a produção intermédia e nas despesas com a gestão (Z).
Liu e Egan (2019) analisam a procura recreativa, centrando-se no efeito dos custos de viagem e das famílias.
renda na disposição das famílias a pagar ( ), permitindo a heterogeneidade entre grupos demográficos
Centorrino e Racine (2017) revisitam o papel da experiência, da raça e da localização geográfica ( ) como
determinantes dos salários, analisando a heterogeneidade entre o nível de escolaridade ( ). Polemis e Stengos
(2015) analisam a produtividade do trabalho em função da proporção de participação no trabalho, tamanho do mercado, capital, intermediário
insumos e custo de energia ( ), analisando a heterogeneidade entre uma medida de concentração de mercado ( ).
Assim como nas regressões não paramétricas, vários métodos foram propostos para estimar
deste tipo de modelo. Hastie e Tibshirani (1993) sugerem estimar ( ) usando base spline ou
splines penalizados em relação a Z. Hoover et al. (1998) e Li et al. (2002), sugerem, em vez disso, usar
regressões polinomiais de kernel como uma estratégia viável para estimar ( ). Mais recentemente, Li e Racine
(2010) ampliaram o uso de métodos kernel para a estimativa e inferência desses tipos de modelos
quando é uma mistura de dados contínuos e discretos.6 Na próxima seção, descrevo a estimativa de
6
A maioria das metodologias que implementam SVCM baseia-se na suposição de que e são exógenas. A discussão sobre a
estimação de modelos SVCM quando é endógeno pode ser encontrada em Cai et al. (2006), enquanto a estimação de modelos
quando é endógeno foi discutida e proposta em Centorrino e Racine (2017), Delgado et al. (2019) e Rios-Ávila (2019). Isto, no
entanto, está além do escopo deste artigo.
5
Machine Translated by Google
Considere uma versão simplificada do SVCM (equação 6), conforme descrito em Li et al. (2002), onde
constante. Como contém uma única variável, a largura de banda ÿ será um único escalar, eliminando o
Seguindo Li e Racine (2007), os coeficientes na equação (6) podem ser derivados da seguinte forma.
A partir da equação (6), pré-multiplique ambos os lados por, considere as expectativas condicionais a = ,e
ÿ1
()=( '| = ) ( |=) (7)
Usando dados amostrais, a equação (7) pode ser um estimador inviável de ( ) porque pode haver poucos
ou nenhuma observação para a qual = , tornando ( ) impossível de estimar.7 Como alternativa, uma solução viável
a estimativa para a equação (5) pode ser obtida usando métodos kernel, para qualquer ponto:
ÿ1
(8a)
ÿ( , ÿ) = [ÿ ÿ ( ÿ ÿ )] [ÿ (-ÿ)]
' ÿ1 '
ÿ( , ÿ) = [ ÿ()] [ ÿ()] (8b)
Onde (. ) é a função kernel, conforme definido em (4), que dá mais peso às observações onde
está mais perto de , dada a largura de banda ÿ. ÿ ( ) é uma matriz × diagonal com o ÿ elemento igual a
Uma desvantagem do estimador de constante local é que ele é bem conhecido por seu viés potencialmente grande
ao estimar funções próximas aos limites do suporte de. Uma solução simples para reduzir esse viés é
7
O estimador na equação 6 só existe se (dados '| = ) é classificação completa, mas pode não ser o caso ao usar
amostrais.
6
Machine Translated by Google
utilizar um estimador linear local, baseado em uma aproximação de primeira ordem dos coeficientes ( ). Isso implica
()
( ) ÿ ( ) + (- )
ÿ
ÿ(()+(-) ())+
() (9)
ÿ ' ()+ ' (-) +
Isto implica que uma aproximação para pode ser obtida usando uma expansão linear em relação a
tal que ( ÿ ) ÿ indica que cada variável em é multiplicado pela variável auxiliar (-).
ÿ( , ÿ) (10)
' ÿ()] ÿ1 [ ' ÿ()]
[ ÿ( , ÿ) ] = [
Embora possa não parecer evidente, as equações (6) e (9) mostram que a estimativa do SVCM usando
métodos de kernel podem ser facilmente obtidos usando mínimos quadrados ordinários ponderados, onde os pesos são definidos
pelas funções do kernel. Para mostrar isso, considere o conjunto de dados “Dados fictícios sobre dirigir alcoolizado mensalmente
citações” (dui.dta) e um modelo simples que assume que as citações são uma função linear da faculdade,
impostos, cidadão e multas. Este modelo pode ser estimado usando o seguinte comando:
7
Machine Translated by Google
Digamos que você esteja interessado em analisar como o efeito da faculdade, dos impostos e do tamanho
varia em função das multas. 8 Suponha, para simplificar, que você está interessado em um ponto do
distribuição: Multas no percentil 10 (=9). Neste exemplo, existem observações suficientes com valores
exatamente igual a 9, portanto é possível estimar o modelo utilizando esta restrição. Porque estamos estimando
Em geral, pode ser mais conveniente estimar o modelo usando funções de kernel como pesos. Como
discutido na literatura, a escolha da função do kernel não é tão importante quanto a escolha da largura de banda.
Para simplificar, usarei um kernel gaussiano com largura de banda ÿ = 0,5. Isso é implementado diretamente usando
a função normalden(), com a variável de suavização multas como o primeiro argumento, o ponto de
interesse (9) como segundo argumento e largura de banda (ÿ = 0,5) como terceiro argumento:
Este exemplo implementa os estimadores de constante local seguindo a equação (7). Para o
implementação do estimador linear local, uma variável auxiliar precisa ser construída (-)
df=multas-9. Esta variável é criada e adicionada à especificação do modelo criando interações com todos
Para ver como esses modelos se comparam entre si, as figuras 1a e 1b fornecem um gráfico simples do
coeficientes associados a faculdades e impostos, usando as três especificações descritas acima, usando
8
Uma opção poderia ser assumir que os efeitos variam de forma linear no que diz respeito às multas. Nesse caso, o
O modelo a seguir pode ser adequado usando citações de regressão c.fines##i.(impostos universitários csize)
8
Machine Translated by Google
e “SVCM-LL” indicam que as estimativas vêm da constante local e dos estimadores lineares locais do
modelo SVCM, respectivamente. Você notará que não há estimativas para o modelo “VCM-Exato” em
os limites da distribuição de multas porque simplesmente não há observações suficientes para obter
essas estimativas. Além disso, observe que o “VCM-Exato” produz coeficientes muito voláteis. Ambos
“SVCM-LC” e “SVCM-LL” produzem gráficos suaves. Os estimadores de constante local são um tanto planos em
ser menos afetado pelo viés de limite, seguindo mais de perto os coeficientes “VCM-Exato”. Neste ponto,
no entanto, nada pode ser dito em termos de inferência estatística relativamente aos méritos de qualquer um dos modelos.
Embora esta ilustração simples mostre a simplicidade de estimar o SVCM, há muitos detalhes
em relação à escolha do modelo e inferência estatística que requer um exame mais aprofundado. Na próxima seção, eu
discutir alguns detalhes sobre esses problemas, apresentando os comandos em vc_pack que podem ser
9
Machine Translated by Google
ÿ. Embora larguras de banda maiores possam ajudar a reduzir a variância das estimativas, ao permitir mais
informações a serem utilizadas no processo de estimação local, aumentará o viés dos estimadores, por
restringindo a flexibilidade do modelo. Em contraste, larguras de banda menores podem reduzir o viés, permitindo maior
Os coeficientes OLS podem ser considerados como um cenário extremo onde a largura de banda ÿ é tão grande que todos
as observações recebem peso igual, independentemente do ponto de interesse. Isto é garantido para obter o
variância mínima para os parâmetros estimados, mas com um custo potencialmente grande em termos de viés do modelo.
No lado oposto do espectro, os resultados onde as regressões são estimadas por meio de amostras
restritos a observações com um valor específico de multas (VCM-Exato) são baseados em uma largura de banda ÿ que
é essencialmente 0. Embora este seja o modelo mais flexível possível, dados os dados, a figura 1 também mostra que o
os resultados são altamente voláteis e as estimativas não eram viáveis para algumas áreas.
Embora existam muitas sugestões na literatura sobre a seleção de largura de banda (ver por exemplo
Zhang e Lee (2000)), a metodologia aqui utilizada é baseada em uma validação cruzada de deixar um de fora
procedimento. Considere o modelo descrito na equação (6) e uma amostra de tamanho . A largura de banda ideal
ÿ ÿ
é tal que minimiza os critérios de validação cruzada (CV) definidos como:
2 (11)
'
ÿ
2
ÿ ÿ
= mínimo (ÿ) = min = mínimo
ÿ ÿÿ()(ÿ ÿ ( , ÿ)) ÿ ÿ ( )( ÿ ÿÿ (ÿ))
=1 =1
9
No contexto de séries, polinômios e splines, o compromisso entre variância e viés é determinado pelo
dimensão das transformações em série (. ) e das interações (. ).
10
Machine Translated by Google
função que é usada para reduzir a influência de áreas onde a distribuição é escassa. Embora isso pareça
um processo muito intensivo computacionalmente que requer a estimativa de diferentes conjuntos de parâmetros, o
estimativa real do critério requer a estimativa de menos equações com base nas características de
Por um lado, mesmo sendo uma variável contínua por natureza, é frequentemente registada como parcialmente
dados discretos. A idade de uma pessoa, por exemplo, é uma variável de natureza contínua, mas muitas vezes medida
em termos de anos. Isto implica que o número de coeficientes distintos ÿ( , ÿ) provavelmente será menor do que
ÿ ( , ÿ), mas a estimativa do erro de exclusão ÿ (ÿ) = ÿ ÿÿ (ÿ). Com regressões lineares,
- - (12)
ÿ (ÿ) = ÿ ÿ( , ÿ) = ÿ (ÿ)
ÿ (ÿ) = ÿ ÿÿ (ÿ) =
1 ÿ ( , ÿ) 1 ÿ ( , ÿ) 1 ÿ ( , ÿ)
ÿ1ÿ
matriz de projeção (ÿ) = ( ÿ ÿ()) ÿ ( ):
ÿ1ÿ
( , ÿ) = ( ÿ ÿ()) ÿ (0) (13)
Usando este atalho, (ÿ) pode ser reescrito para refletir apenas o número de regressões necessárias
que precisam ser estimados. Considere o vetor = [ 1, 2,…, ] de todos os valores únicos de , com <
2 (14)
ÿ ÿ( , ÿ) 2
(ÿ) = ÿ ÿ ( ) (- 1 ÿ ( , ÿ) ) = ÿ ÿ ( ) ÿ (ÿ)
| ==1 | ==1
10
Seber e Lee (2003), cap. 10, fornece uma demonstração simples dessa identificação para modelos de regressão linear. Em
além disso, Hoover et al. (1998) sugerem a utilização de expressão semelhante para agilizar o cálculo dos critérios de CV.
11
Machine Translated by Google
Embora (14) mostre que o número de equações estimadas ( ) é potencialmente menor que o total
número de observações na amostra ( ), em algumas aplicações ainda pode ser muito grande para permitir uma avaliação rápida
estimativa de (. ). Uma alternativa viável nesses casos é utilizar o que Hoti e Holmström (2003) e
Ichimura e Todd (2007) denominam regressões lineares locais em bloco ou binned, para obter uma
aproximação do critério.
Considere o vetor = [ 1, 2,…, ] de todos os valores únicos dos quais são organizados em não-
-
1 (15a)
= =
ÿ
; 1 + ÿ 0,5 ÿ = 1…
- ÿ
(15b)
ÿÿ ÿ <2 + ÿ = 1…
2
Em vez de estimar um conjunto de parâmetros, para cada valor distinto de , estima-se conjuntos de
parâmetros usando os pontos de referência ÿ = [ 1ÿ, 2ÿ…, ÿ]. Esses parâmetros são usados para obter linear
ÿ ÿ
ÿ ÿ
aproximações em torno de ÿ para os valores previstos ( (ÿ)), erros previstos ( (ÿ)) e estatísticas de alavancagem
ÿ
ÿ ÿ(ÿ, ÿ) (16a)
ÿ (ÿ) ÿ (ÿ) = ÿ ÿ( ÿ, ÿ) + ÿ ( ÿ ÿ) ÿ
ÿ ÿ ÿ = 1…
ÿ ÿ
ÿ ÿ
ÿ1 ' (16c)
( , ÿ) ÿ ÿ (ÿ, ÿ) = ( ÿ ÿ( ÿ) ) ÿ ÿ ÿ = 1…
ÿ (-ÿ)
ÿ
Usando essas expressões, uma aproximação para o erro de deixar um de fora (ÿ ) para observação com
ÿ ÿ
- ÿ ÿ
(17)
ÿ
(ÿ) (ÿ)
=
ÿ
ÿ (ÿ) ÿ (ÿ) =
1- ÿ (ÿ, ÿ) 1- ÿ (ÿ, ÿ)
Isto pode ser usado para obter uma expressão alternativa para o critério:
ÿ 2
ÿ
(18)
ÿ
(ÿ) ÿ
2
(ÿ) ÿ (ÿ)
(ÿ) = ÿ ÿ ÿ=1
( ) (- ÿÿ 1- ) =ÿÿÿ()ÿ
|=
ÿ (ÿ, ÿ) =1 ÿÿ | =
12
Machine Translated by Google
O que reduz o número de equações estimadas de para. É simples ver isso como
Quanto maior o número de grupos P aumentar, e quanto menor for a largura do compartimento, melhor será a aproximação de
ÿ
(. ) para (.). Conforme mostrado em Hoti e Holmström (2003), regressões lineares de kernel locais agrupadas podem
fornecer boas aproximações para as previsões gerais do modelo, desde que a razão entre o
a largura de banda implícita usada para a construção dos compartimentos e a largura de banda ideal ( ÿÿ ) é relativamente pequena.11
Além disso, mesmo se considerarmos a largura de banda ÿÿÿ com base na aproximação (.) ser pobre
ÿ
aproximação da largura de banda total da informação ÿ , ainda pode ser usado para análise exploratória e como
ÿ
ponto de partida para a estimativa de ÿ , reduzindo o custo computacional da seleção de largura de banda.
vc_pack oferece dois comandos para a seleção automática do modelo com base no Cross-
implementa um algoritmo do tipo Newton-Raphson que funciona bem quando o objetivo a função é suave
e diferenciável, com mínimos locais. Este é um algoritmo iterativo que procura a largura de banda ideal
ÿ
ÿ usando:
ÿ1
((ÿ))
2
((ÿ)) (19)
ÿ=ÿ ÿ1
ÿÿ
ÿ ( ÿ2 _
) |ÿ=ÿ
ÿ1
ÿ
parando quando ÿ e ÿ ÿ1 estão suficientemente próximos e selecionando ÿ = ÿ. A primeira e segunda ordem
as derivadas são estimadas usando métodos numéricos com três pontos de referência. O escalar é igual a
1, desde que haja uma melhoria no processo de maximização (ou seja, (ÿ) <(ÿ ÿ1)), caso contrário,
vc_bwalt implementa um algoritmo do tipo bissecção que funciona bem em um conjunto maior de cenários,
especialmente quando (.) não é uma função suave nem diferenciável de ÿ, mas pode ser mais lento em encontrar o
0 1 2
largura de banda ideal. O algoritmo começa com três pontos de referência: ÿ0 < ÿ0 < ÿ0 . Se o ideal
11
Simulações fornecidas em Hoti e Holmström (2003) sugerem que a precisão do estimador binned, medida por ÿ<0,3
erro quadrático integrado relativo, é semelhante ao estimador não agrupado para kernels gaussianos, e ÿ
<
ÿ ÿ
13
Machine Translated by Google
largura de banda ÿ ÿ 0 2 1 0 1 2
está entre ÿ0 e ÿ0 (ou seja, (ÿ0 ) < (ÿ0 ) e (ÿ0 ) < (ÿ0 )) o algoritmo irá
1 0 1 2
avaliar os critérios de validação cruzada usando pontos médios entre ÿ0 & ÿ0 e ÿ0 & ÿ0 , e atualize o
0 1 2 1 0
pontos de referência então ÿ1 < ÿ1 < ÿ1 , com ÿ1 correspondendo à largura de banda com o menor (.) e ÿ1
2
e ÿ1 correspondendo aos dois pontos de referência mais próximos, previamente avaliados, que estão acima e
1 . Se o ÿ ÿ 0 0 1 2
abaixo ÿ1 é potencialmente menor que ÿ1 (ou seja (ÿ1 ) < (ÿ1 ) < (ÿ1 )), um quarto ponto ÿ1 <
0 0 ÿ
está entre
ÿ1 será avaliado até encontrar um ponto tal que (ÿ1 ) > (ÿ1 ), o que sugere ÿ
1. ÿ 2
ÿ1 e ÿ1 Um processo semelhante é implementado se ÿ é potencialmente maior que ÿ1 . O algoritmo para quando
ÿ 0e ÿ 2
estão suficientemente próximos, selecionando ÿ
ÿ
= ÿ 1.
suavizando a variável Z.
kernel(.) indica a função do kernel (ver equação 4) que será usada para criar o local
pesos e estimar as regressões locais. O padrão é o kernel Gaussiano, mas outros kernels são
permitido.12
bwi(#) fornece ao comando um valor inicial ÿ0 para pesquisar a largura de banda ideal.
A opção padrão usa a largura de banda do comando lpoly usando a mesma função do kernel
declarado em kernel().
nós(#k) e km(#km) são opções que podem ser utilizadas para solicitar a minimização do
ÿ
critérios aproximados (ÿ) conforme descrito na equação (18). Usando nós(#k), com #kÿ 1, solicita o
criação de uma nova variável que agrupa a variável de suavização svar em #+1 grupos de igual largura.
.5, 10*
Usar nós(0) indica criar # + 1 grupos, onde # é o número inteiro mais próximo de (
12
Consulte o apêndice A para obter a lista completa de kernels e funções disponíveis para estimativa.
14
Machine Translated by Google
registro10 ). Quando nós(0) é usado, pode-se usar também a opção km(#km), de modo que # é o mais próximo
O padrão é usar todos os valores distintos na variável de suavização, até 500 valores distintos. Quando
mais de 500 valores distintos são detectados, o comando usa as opções nós(0) km(2). Enquanto
não há nada que indique que esta regra fornece o número mais apropriado de nós e
largura implícita da caixa ( ), simulações apresentadas em Hoti e Holmström (2003) sugerem que o valor aproximado
O uso da opção nós(-2) solicita a estimativa dos critérios CV para todos os valores distintos em
a variável condicionante.
subamostra dos dados que serão usados para a estimativa do critério. Observações com trimvar
iguais a zero não são usados para Cálculo. Isto desempenha o papel da função de pesagem ( ).
A opção plot solicita o comando para plotar todas as larguras de banda ÿ e (ÿ) estimadas
internamente. Isto pode ser usado para inspeção visual para verificar se a largura de banda está realmente minimizando o
função objetiva.
Após terminar o processo de minimização, o programa armazena a largura de banda ideal, o kernel
função e o nome da variável de suavização como globais: $opbw_, $kernel_ e $vcoeff_. Isso é
feito para que outros programas do pacote possam reutilizar essas informações.
Conforme mostrado na seção 2, uma vez selecionada a largura de banda, a estimativa do SVCM é uma tarefa simples.
13
Stata usa esta expressão para definir o número de compartimentos usados para um histograma como padrão.
15
Machine Translated by Google
S1. Selecione o ponto ou pontos de interesse para os quais o modelo será estimado. (normalmente um subconjunto
de todos os valores possíveis da variável de suavização),
S2. Construa os pesos apropriados do kernel, com base nos pontos de interesse, na função do kernel
ÿ
Uma vez criadas as variáveis auxiliares, pode-se obter os coeficientes do modelo, bem como
seus gradientes, condicionais a todos os pontos de interesse selecionados, estimando a equação (9) usando kernel
mínimos quadrados ponderados como na equação (10). O próximo passo é a estimativa dos erros padrão do
matriz de variância-covariância do SVCM, dado um ponto de interesse e largura de banda ÿ , pode ser obtido como
segue: 14
ÿ ÿ)
ÿÿ
ÿ( , ( ) ÿ) ÿ1( ÿ () ( ) )( ÿ ( ) ÿ) ÿ1
(20)
ÿ (,ÿ ÿ)= ÿ ÿ ÿ ÿ
ÿ ( ÿ( , ÿ ÿ) ) = ( ÿ
2
Onde está uma matriz diagonal onde o ÿ elemento é igual a ÿ (ÿ ÿ ) , e ÿ ( ) e são
definido como na equação (10). Há pouca orientação na literatura sobre no contexto do kernel
assintoticamente. Observe, entretanto, que a expressão dada pela equação (17) é a mesma que a expressão robusta
erros padrão para mínimos quadrados ponderados. A prática padrão nesses casos é usar = , onde
ÿdim( )
dim( ) indica o número total de coeficientes que precisam ser estimados no modelo, e é o
tamanho da amostra. Em modelos semiparamétricos e não paramétricos, entretanto, é preciso diferenciar entre
tamanho da amostra N e tamanho efetivo da amostra (ver seção 3.3 observações esperadas do kernel).
Seguindo a literatura sobre estimação de erros padrão robustos sob heterocedasticidade (Long
2
e Ervin 2000), também é possível estimar a matriz de variância-covariância substituindo ÿ (ÿ ÿ ) com
14 De acordo com Li et al. (2002), a matriz de variância e convariância para o SVCM pode ser estimada
16
Machine Translated by Google
2
ÿ (ÿ ) 2
ÿ ÿ
)
na matriz diagonal D, onde (,ÿ ÿ ) é a estatística de alavancagem conforme definida
1ÿ ( ,ÿÿ) ou ( 1ÿ
ÿ (ÿ
( ,ÿÿ) )
na equação (13). Neste caso = 1. Isto equivale à estimativa dos erros padrão HC2 e HC3.
Segundo Long e Ervin (2000), para o modelo linear padrão, HC2 e HC3 superam o robusto
erros padrão quando o modelo é heterocedástico e as amostras são relativamente pequenas (N<250). Enquanto lá
não há estudo formal sobre o uso dos erros padrão HC2 e HC3 quando combinados com SVCM, é meu
conjeturar que esses erros padrão também podem ser melhores do que erros padrão robustos quando o
de regressões de kernel não paramétricas. Cattaneo e Jansson (2018) defendem o uso de reamostragem
métodos, em amostras específicas pareadas com bootstrap, para obter estimativas corretas da variância-covariância
matriz dos coeficientes estimados ao estimar modelos semiparamétricos baseados em kernel. Na verdade, eles
indicam intervalos de confiança baseados em percentis fornecem melhor cobertura porque bootstrap emparelhado
corrige automaticamente o viés de estimativa não negligenciável.15 Em termos gerais, o bootstrap emparelhado
ÿ( ,ÿ )
ÿ
S2. Obtenha uma amostra inicializada emparelhada com substituição da amostra original e
ÿ
ÿ ( ,ÿ )ÿ
ÿ
estimativa 1(,ÿÿ)e 1
usando os mesmos pontos de interesse de S1 e largura de banda ÿ .
S3. Repita S2 vezes. Os erros padrão bootstrap para os coeficientes são definidos como:
ÿÿ)
ÿÿ ÿ (,ÿ)=ÿ ÿ( , ÿ
ÿ ( ÿ( , ÿ 1 [ ÿ))
' (21)
ÿ
( , ÿ ÿ ) ÿ (ÿ ( , ÿ ÿ )) ( , ÿ ÿ ) ÿ (ÿ ( , ÿ ÿ ))
1
= ÿ ÿ ÿ ÿ
15
Deve-se notar que Cattaneo e Jansson (2018) não analisam explicitamente a validade de suas descobertas no âmbito
do SVCM, mas fornecem conclusões gerais para o que ele chama de estimadores semiparamétricos baseados em kernel.
Como referência, o kernel npregress relata os intervalos de confiança percentuais como padrão, usando um procedimento
de reamostragem inicializado emparelhado.
17
Machine Translated by Google
ÿ ÿ ÿ ÿ
ÿ ÿ
que foram estimados para cada amostra bootstrap = 1…. O intervalo de confiança percentil é definido
ÿ ÿ
ÿ
o nível de significância.
vc_pack oferece três comandos para estimativa de SVCM, oferecendo diversas alternativas para
equação (20) para a estimativa de ÿÿ, utilizando diferentes definições para o erro do modelo ÿ (ÿ ÿ ). Inicializado
erros padrão e intervalos de confiança baseados em percentis podem ser obtidos usando o comando
vc_bsreg.
ÿ ÿ
ÿ
erros padrão assintóticos. vc_reg, em vez disso, usa ,)=ÿ ' (-) ÿ( ,ÿ ),
(ÿ ÿ ÿ ÿ( , ÿ ÿ ) ÿ
ÿ
Embora vc_preg produza os erros padrão assintóticos corretos, conforme sugerido por Li e Racine
(2007, 2010), pode ser lento porque o comando estima o SVCM para todos os pontos da suavização
obter o ÿ (ÿ ÿ ). vc_reg é mais rápido por padrão porque usa apenas a variável linear local para
ÿ
ÿ
aproximação , ) e não requer etapas adicionais para a estimativa dos erros padrão.
(ÿ ÿ
Esses erros padrão, no entanto, contêm erros de aproximação que aumentam quanto mais é do ponto
de referência , mas pode ser usado como uma primeira aproximação rápida para analisar os dados e traçar estatísticas
inferências. Empiricamente, vc_reg produz resultados comparáveis aos produzidos por vc_preg
ÿ
ÿ
estimativa dos erros padrão (equação 20) porque também provavelmente estará longe do ponto de referência.
18
Machine Translated by Google
variável svar ( ). kernel(.) e bw(#) são usados para fornecer informações específicas sobre o
$opbw_.
a variável de suavização , estes comandos oferecem duas alternativas para selecionar os pontos de interesse
qual as regressões locais serão estimadas. A opção k(#), que deve ser igual ou maior que 2,
solicitações para estimar regressões usando pontos equidistantes entre o 1º e o 99º percentil de svar.
solicitação klist (numlist) para estimar a regressão linear local usando cada número da lista numlist
como ponto de referência. Quando klist() contém um único número, a saída de regressão padrão é
relatado. Caso contrário, quando k(#) ou klist(numlist) são usados para estimar 2 ou mais modelos,
vc_[bs|p]reg não produz saída, mas armazena os betas e as matrizes de variância-covariância para cada
regressão como uma matriz separada em e(). Esta informação pode ser usada para criar gráficos dos coeficientes
através de svar. Tanto vc_reg quanto vc_preg produzem erros padrão robustos por padrão (equação 20), mas
também pode relatar erros padrão HC2 e HC3 usando hc2 ou hc3 como opções. Erros padrão agrupados
também são possíveis usando a opção cluster(cluster varname), mas não podem ser combinados com HC2
ou opções HC3.
alavancagem, por padrão, o comando obterá previsões para os erros ÿ (ÿ) e matriz de estatísticas de
( , ÿ), usando todos os valores distintos da variável de suavização (svar). Porque isso pode ser
computacionalmente caro, semelhante à nossa discussão sobre o cálculo dos critérios de validação cruzada, é
é possível usar as opções nós() e km() para reduzir o número de regressões estimadas internamente.
19
Machine Translated by Google
Este comando usa as mesmas opções padrão de vc_[alt]bw. Quando as opções de categorização são usadas, o
vc_bsreg estima erros padrão de bootstrap usando uma estratégia de bootstrap emparelhada. Seguindo
cluster(), bem como definir um seed() para a geração reproduzível das amostras aleatórias. O
o número padrão de amostras de bootstrap é 50, mas isso pode ser alterado usando a opção reps(#). Em
além dos erros padrão inicializados, vs_bsreg também armazena o percentil de confiança de 95%
intervalo, mas pode ser alterado para outros níveis usando a opção pci(#), usando qualquer número entre 0 e
100.
vc_pack fornece dois comandos que podem ser usados para obter estatísticas resumidas do modelo, como
bem como relatar alguns testes para especificação de modelos contra alternativas paramétricas. O primeiro comando,
Além das opções descritas anteriormente, vc_predict pode ser usado para obter previsões
(equação 12 e 13). Cada uma dessas opções requer a especificação de um novo nome de variável (newvar) para
20
Machine Translated by Google
armazenar as informações especificadas. Também pode-se usar as opções nós() e km() para acelerar o
Os resíduos e a alavancagem deste comando podem ser usados, por exemplo, para a estimativa do SVCM
usando vc_preg. Este comando também fornece algumas informações básicas sobre o modelo, bem como
execute alguns testes de especificação quando a opção test for usada. A próxima seção descreve os métodos
Considere o SVCM descrito na equação (6). Dada a variável de suavização (svar), kernel
função (kernel()) e largura de banda (bw()), vc_predict relata o log da média quadrada da saída
erro único:
2
ÿ (ÿ)
registro
1- (22)
= log(ÿ ÿ (-
| ==1
( , ÿ) ) )
ÿ
2
- ÿ
(ÿ)
registro
1- (23)
= log(ÿ ÿ ÿ (
=1 ÿÿ | =
ÿ (ÿ, ÿ) ) )
quando opções de binning (nós() km()) são usadas. Esta é a mesma estatística usada para o modelo
seleção, exceto que não utiliza o fator de ponderação ( ) para seu cálculo.
3.3.2.Qualidade de ajuste
vc_predict produz duas medidas de estatística de qualidade de ajuste que direcionam os análogos para o padrão
Qual é o mesmo usado pelo kernel npregress. Porque esta estatística é conhecida por
2
produzir resultados indesejáveis, como valores negativos para 1, vc_predict também relata a qualidade de
21
Machine Translated by Google
2
2
= (ÿ( ÿ ÿ)( ÿ 2(ÿ) ÿ ÿ))
2 2 (25)
ÿ(-ÿ) ÿ(ÿ(ÿ) ÿ ÿ)
ÿ
ÿ
Quando opções de categorização são usadas, ÿ (ÿ) é substituído por (ÿ) nas equações (24) e (25).
O número efetivo de graus de liberdade é uma estatística que se mostrou útil na literatura de
econometria não paramétrica para comparação de modelos com diferentes tipos de suavizadores. Seguindo
a terminologia de Hastie e Tibshirani (1990), considere qualquer modelo paramétrico e não paramétrico
ÿ ÿ
valores previstos correspondentes a qualquer modelo específico. Hastie e Tibshirani (1990) enfatizam dois
1 =() (26a)
2 = (2 ÿ ÿ) (26b)
ÿ1
No contexto de modelos de regressão linear, onde a matriz de projeção = = ( ÿ ) ,
essas definições são equivalentes entre si. No entanto, no caso de regressões de kernel e penalizações
a liberdade será diferente uma da outra. 1 é comumente usado como uma aproximação do número de graus
ÿ1
(27)
ÿ ÿ( )
= ÿÿ [ ÿ ÿ( ) ]
=1
em outro lugar. Isto implica que a primeira medida de graus de liberdade é equivalente a:
(28)
1
=()=ÿ = ÿ ( , ÿ)
=1 =1
22
Machine Translated by Google
2
requer operações. Como alternativa, Hastie e Tibshirani (1990) sugerem usar o seguinte
aproximação:
respectivamente. Quando opções de categorização são usadas, ÿ) é substituído por ÿ ( ÿ, ÿ) na equação (28). ( ,
Uma das desvantagens da análise de regressão não paramétrica é o rápido declínio da taxa efetiva
número de observações utilizadas para a estimativa dos parâmetros de interesse, maior será o número de
variáveis explicativas utilizadas no modelo (a maldição da dimensionalidade), e menores são as larguras de banda. Para
processo, é prática comum relatar |ÿ| como o número esperado de observações do Kernel ( ),
onde |ÿ| é o produto de todas as larguras de banda das variáveis explicativas.16 Esta estatística, no entanto, pode ser
errôneo.
Considere a estimação de um modelo com uma única variável independente, para o qual um valor ótimo
largura de banda ÿ ÿ é selecionado. Se a escala da variável independente duplicar, a largura de banda ideal do
variável redimensionada dobrará, mas ( ) deve permanecer o mesmo. A estatística |ÿ|, no entanto, sugere
Como medida alternativa ao |ÿ|, proponho uma estatística baseada no que denomino padronizado
1 (30)
( , , ÿ) = ( ÿ ÿ ) = (0) (-ÿ)
É garantido que os pesos deste kernel fiquem entre 0 e 1. Embora esta mudança na escala de local
pesos não têm impacto na estimativa das estimativas pontuais dos modelos, fornece uma visão mais intuitiva
16
O kernel npregress relata esta estatística como “observações esperadas do kernel”.
17
Para evitar resultados inesperados, o kernel npregress define o valor máximo ( ) como o tamanho da amostra.
18
Consulte o Apêndice A para obter uma lista de funções padronizadas de peso do kernel.
23
Machine Translated by Google
compreensão do papel dos pesos no processo de estimativa. Observações onde é igual a vontade
recebem peso 1, e pode-se considerar que as informações daquela observação são totalmente utilizadas quando
estimar a regressão linear local. Se uma observação tiver um (.) de, digamos, 0,5, pode-se considerar que o
a informação contribuída por essa observação para a regressão do kernel local é metade de uma observação onde
= . Finalmente, observações com (. ) = 0 não contribuem em nada para a estimativa local. Esses
pesos de kernel podem ser usados para estimar o número efetivo de observações ( ( )) usado para
19
estimativa dos parâmetros de interesse para um determinado ponto de referência:
(31)
()=ÿ(ÿÿ)
=1
Porque as áreas com maior densidade usam mais observações do que as áreas onde z é escasso
distribuído, o número esperado de observações do kernel ( ) pode ser definido como a ponderação simples
1 1 (32)
( )= =
ÿ() ÿ ÿ (-ÿ)
=1 =1 =1
Onde está o número de observações I com = . Quando as opções de categorização são usadas, o
estimador é:
(33a)
ÿ
(ÿ) = ÿ (- ÿ)
=1
1 1
ÿ
(33b)
ÿ( )= =
ÿ (ÿ) ÿ ÿ (-ÿ)
=1 =1 =1
Se for contínua, esta estatística tem duas propriedades convenientes em relação à largura de banda ÿ:
limão
ÿÿ0
( ) = 1 & limite
ÿÿÿ
( )= (34)
19
Essa estatística também pode ser estendida a modelos de regressão de kernel multivariáveis, simplesmente usando os kernels
padronizados em todas as variáveis independentes.
24
Machine Translated by Google
Isso fornece uma compreensão mais intuitiva do efeito que a largura de banda tem na média
quantidade de informações utilizadas para a estimativa de regressões locais em comparação com o padrão paramétrico
na maioria, todos os dados serão usados para cada estimativa local. Esta estatística também é relatada após
vc_predict.
3.3.5.Testes de especificação
Além de relatar as estatísticas resumidas básicas descritas acima, vc_predict também pode
produz testes de especificação básica quando a opção test é especificada. Os testes de especificação seguem
Hastie e Tibshirani (1990) e fornecem o que os autores chamam de teste F aproximado , comparando o SVCM
os graus de liberdade residuais do SVMC (ver equação (26)), e ser o resíduo previsto para
ÿ2 _ -
=
ÿ ÿ ÿ ÿ (ÿ ÿ ) 2 (36)
ÿ 2
-
ÿ ÿ (ÿ ÿ) 2
2
A hipótese nula ( 0) é que o modelo paramétrico (0, 1, 2 ou 3) está especificado corretamente, enquanto
a hipótese alternativa é que afirma que o SVCM está correto. Embora a distribuição exata desta estatística seja
desconhecido, Hastie e Tibshirani (1990):p65 sugere o uso de valores críticos para uma -estatística com -
25
Machine Translated by Google
2 é
teste para uma inspeção rápida da especificação do modelo. Quando opções de categorização são usadas ÿ ÿ (ÿ ÿ )
ÿ
ÿ
2
substituído por ÿ (ÿ ÿ ) (equações 16a-16c).
Como a distribuição exata da estatística F aproximada não é conhecida, vc_pack também oferece
a implementação do teste de especificação proposto por Cai, Fan e Yao (2000), baseado em um teste selvagem
abordagem bootstrapped, conforme descrito em Henderson e Parmeter (2015). A estatística de teste é construída em
de forma semelhante à estatística F aproximada, mas sem ajuste para as diferenças em graus de
liberdade:
ÿ2 _ 2
ÿ
ÿ ÿÿ ÿ (ÿ ÿ ) (37)
=
2
ÿ ÿ (ÿ ÿ)
ÿ (ÿ ÿ ) corresponde aos resíduos do SVCM. A hipótese nula ( 0), que afirma que o
ÿ
modelo paramétrico for especificado corretamente, é rejeitado em favor do SVCM se a estatística está acima de alguns
valor crítico.
Porque a distribuição da estatística não é conhecido, um procedimento inicializado selvagem pode ser
S1. Definir o resíduo a ser previsto com base no modelo paramétrico (35a-35d).
ÿ
S2. Construa uma nova variável dependente , usando um erro de inicialização selvagem de dois pontos da seguinte maneira:
ÿ
ÿ
,
= (-ÿ) +
ÿ (1 + ÿ52 ÿ ÿ5)
1+ÿ5
Onde segue uma distribuição de Bernoulli com p = ( 2ÿ5 )
ÿ
S3. Usando a nova variável dependente, a ,
, reestimar o modelo paramétrico e SVCM, usando
ÿ
, e calcule a estatística
ÿ ÿ
largura de banda ideal ÿ
S4. Repita S2 e S3 um número suficiente de vezes para obter a distribuição empírica da estatística.
26
Machine Translated by Google
grau(#d) wbsrep(#wb)]
modelo, mas especificar vcoeff(svar), kernel e largura de banda são opcionais. O programa usa
as informações armazenadas por vc_[alt]bw por padrão. Como o teste requer a estimativa do todo
modelo várias vezes, pode-se especificar as opções nós() e km() para implementar o binned
ÿ
ÿ
equação (37).
grau(#d) é usado para definir o modelo sob a hipótese nula. #d pode assumir os valores 0, 1,
2 ou 3, que corresponde aos modelos descritos nas equações (35a)-(35d). O padrão é grau(0)
wbsrep(#wb) é usado para indicar o número de repetições de bootstrap selvagens usadas para o
comando informa os percentis 90, 95 e 97,5 da distribuição empírica de para serem usados como
valores críticos.
potencial para visualizar efeitos em toda a gama das variáveis explicativas que entram no modelo não
parametricamente. Esses gráficos podem ser usados para uma interpretação mais rica dos efeitos marginais. Conforme descrito em
seção 3.2, quando vc_[bs|p]reg é usado para estimar modelos para mais de 1 ponto de referência, o
O comando não produz relatório, mas armazena os coeficientes, variações e intervalos de confiança em e().
vc_graph é um comando que pode ser usado como ferramenta de pós-estimação para produzir gráficos de
coeficientes das variáveis independentes, ou seus gradientes, utilizando as informações estimadas via
27
Machine Translated by Google
SVCM. Se variáveis fatoriais e interações foram usadas, o mesmo formato deve ser usado ao usar
vc_gráfico.
()
solicitação delta vc_graph para traçar os gradientes das variáveis listadas em indevpar. O
o padrão é traçar os coeficientes ( ). Se as opções delta e constante forem utilizadas, vc_graph irá
ci(#) define o nível dos intervalos de confiança, usando qualquer número entre 0-100. O padrão é
95%. Os intervalos de confiança podem ser omitidos do gráfico usando a opção ci_off.
Quando o SVCM é estimado usando vc_bsreg, também é possível solicitar usando o método baseado em percentil
intervalos de confiança usando a opção pci. O nível de confiança, neste caso, deve ser definido quando o
Os intervalos de confiança nos números usam gráficos de intervalo com picos limitados por padrão, mas gráficos com área
Todos os gráficos produzidos por vc_graph são armazenados na memória com o nome “grph#”, que são
numerados consecutivamente. Os nomes dos gráficos da loja podem ser alterados usando graph(stub), onde
stub seria usado em vez de grph para armazenar os gráficos na memória. Gráficos simples podem ser adicionados a este gráfico
Finalmente, vc_graph oferece a opção xvar(xvarname) para usar uma variável diferente para traçar o
coeficientes variáveis suaves, desde que esta variável xvarname seja uma transformação monotônica do
variável original svar usada na estimativa. Por exemplo, digamos que o modelo SVCM foi estimado
usando a variável svar como variável de suavização porque possui menos áreas com distribuição escassa. O
o pesquisador, no entanto, está interessado em traçar coeficientes em svar1, em vez de svar. Se svar1 for um
transformação monotônica de svar, usando a opção xvar(svar1) solicita a plotagem de coeficientes usando
28
Machine Translated by Google
svar1 é feito usando aproximações lineares locais, se os valores exatos não estiverem disponíveis.20
Para esta ilustração, utilizo o conjunto de dados fictício dui.dta, apresentado na seção 2.4, para analisar
como o número de citações por dirigir embriagado é afetado pelo fato de uma jurisdição tributar ou não o álcool, se
existe uma faculdade na jurisdição, ou se a jurisdição é em uma cidade pequena, média ou grande,
Começo a análise usando vc_bw para selecionar a largura de banda ideal usando o cruzamento de deixar um de fora.
O comando sugere uma largura de banda de 0,7398 , sugerindo que a largura de banda usada na seção 2.4 pode
A seguir, obtenho estatísticas resumidas simples do modelo usando vc_predict. Solicito também
relatar o teste F aproximado para especificação do modelo em relação aos modelos onde multas são adicionadas como um
interação no modelo.
20
Não há discussão teórica robusta a respeito da utilização de transformações de variáveis independentes para seleção e
estimação de modelos não paramétricos e semiparamétricos. Porém, minha conjectura é que as transformações monotônicas
podem ser utilizadas como alternativa às larguras de banda variáveis, ao permitir que mais informações sejam utilizadas em
áreas com baixa densidade, reduzindo a variância do estimador.
29
Machine Translated by Google
O relatório indica que o modelo utiliza aproximadamente 18,7 graus de liberdade (equação 28),
2
enquanto os resíduos possuem 477,15 graus de liberdade (equação 29). O modelo possui isso é maior
2 2
modelo não paramétrico completo ( =0,81).21 A segunda medida de (ver equação (25)) é maior que o
medida padrão de qualidade de ajuste. Finalmente, o número esperado de observações do kernel é 277,8
(equação 32), sugerindo que, em média, metade de toda a amostra é utilizada para cada regressão local.
O teste F aproximado sugere a rejeição dos modelos 0 e 1, em favor do SVCM, mas não se pode
rejeite a hipótese nula de que um modelo com interação quadrática com finos está especificado corretamente. O
o ajuste local do modelo com interação cúbica parece ser melhor que o SVCM, o que explica por que o
A estatística F é negativa. Também uso vc_test para implementar o teste de especificação alternativa, comparando o
mesmos modelos paramétricos para o SVCM. Para este exemplo, utilizo 200 repetições, utilizando a opção
wbsrep(200). Porque o Modelo 0 foi rejeitado de forma esmagadora e o modelo 3 parece se ajustar melhor
vc_test citações impostos faculdade i.csize, grau (1) wbsrep (200) semente (1)
Teste de especificação.
H0: y=x*b0+g*z+(z*x)*b1+e
H1: y=x*b(z)+e
21 2 vem de onde.
Consulte o arquivo do que acompanha este documento para ver onde isso
30
Machine Translated by Google
Estatística J :0,16869
Valores Críticos
90º percentil: 0,09382
95º percentil: 0,10351
97,5º percentil: 0,10686
vc_test citações impostos faculdade i.csize, grau (2) wbsrep (5) semente (1)
Teste de especificação.
H0: y=x*b0+g*z+(z*x)*b1+(z^2*x)*b2+e
H1: y=x*b(z)+e
Estatística J :0,01410
Valores Críticos
90º percentil: 0,01177
95º percentil:0,01490
97,5º percentil: 0,01726
o modelo é 0,16869, que é maior que o percentil 97,5 da distribuição empírica da estatística,
sugerindo a rejeição do nulo de uma interação linear. O teste comparando com o quadrático paramétrico
modelo de interação é menos conclusivo. A estatística é 0,0141, o que sugere rejeição do nulo em 10%
de confiança, mas o nulo não pode ser rejeitado em 5%. Apesar desses resultados, prosseguirei e estimarei o
SVMC.
Para fornecer uma visão geral dos resultados semelhantes aos resultados dos modelos de regressão padrão,
Apresento os efeitos condicionais usando os percentis 10, 50 e 90 das multas como pontos de referência,
que correspondem a 9, 10 e 11. Isso é feito através dos três comandos disponíveis em vc_pack, usando
a sintaxe básica:
Os resultados dessas regressões são mostrados na tabela 1, colunas 2 a 4, mostrando os erros padrão
obtido com todos os três comandos (Robust, F Robust e Bootstrap). A coluna 1 apresenta os resultados para
31
Machine Translated by Google
o modelo de regressão padrão. Para o SVCM são fornecidas duas subcolunas. O da esquerda mostra
()
os efeitos condicionais ( ), enquanto o da direita mostra o gradiente desse efeito .
No geral, erros padrão robustos obtidos com a aproximação linear local (vc_reg) parecem
ser uma aproximação razoavelmente boa para os erros padrão robustos de informações completas (vc_preg), com o
maiores discrepâncias observadas em áreas onde a densidade da distribuição de finos é baixa (no topo e
fundo). Essas estimativas também são consistentes com os erros padrão inicializados (vc_bsreg).
32
Machine Translated by Google
1 se as bebidas alcoólicas forem tributadas -4,494 -6,377 3,008 -3,959 -3,843 -0,0505 1.093
Erro padrão robusto (0,582) (1,147) (1,373) (0,496) (0,823) (0,736) (0,788)
F Robusto erro padrão (1,059) (1,210) (0,493) (0,787) (0,711) (0,751)
Bootstrapped std err 1 se (0,638) (1,322) (1,525) (0,498) (0,967) (0,812) (0,833)
cidade universitária; 0 caso contrário 5,828 9,871 -1,024 -4,578 5,305 -3,191 3,797
Erro padrão robusto (0,588) (1,113) (1,318) (0,516) (0,896) (0,888) (0,963)
F Robusto erro padrão (1,021) (1,164) (0,513) (0,836) (0,860) (0,915)
Erro padrão inicializado (0,634) (1,201) (1,381) (0,470) (0,972) (0,884) (0,926)
Tamanho da cidade
Nota: Robust std err corresponde à saída com vc_reg, F Erros padrão robustos foram estimados com vc_preg e erros
padrão bootstrapped com vc_bsreg. pesos de kernel padronizados com base no é definido como a soma de
ponto de referência (ver equação 31).
resultados, a figura 2 fornece um gráfico com intervalos de confiança de 95% para os efeitos condicionais de todas as variáveis
no modelo, usando um conjunto predefinido de pontos de interesse. Primeiro, uso vc_preg para estimar o SVCM:22
22
Os resultados usando procedimento bootstrapped e intervalos de confiança percentuais são fornecidos no arquivo anexo
ou mediante solicitação.
33
Machine Translated by Google
A principal diferença com os exemplos anteriores é que a opção klist() contém uma lista de
números, ou pontos de referência, sobre os quais estou solicitando a estimativa do SVCM. Isso indica que
existem 24 pontos de referência, de 7,4 a 12. Terminada a estimativa, a figura 2 pode ser
Nota: Os números são obtidos como estão em vc_graph e combinados com a combinação de gráficos.
()
Se alguém estiver interessado nos gradientes , eles podem ser plotados usando os seguintes comandos.
34
Machine Translated by Google
()
Figura 3. SVCM: Alteração dos efeitos condicionais entre multas
Nota: Os números são obtidos como estão em vc_graph e combinados com a combinação de gráficos.
Uma interpretação desses resultados pode ser dada da seguinte forma. Em geral, quando as bebidas alcoólicas são
tributados, o número de citações mensais por mês diminui em 4,5 unidades (tabela 1 col 1). Este efeito é
maior em jurisdições com multas baixas, com uma estimativa pontual variando de 15 a pouco menos de 4, em
jurisdições com níveis de multas acima de 10. Não podem ser observadas diferenças no efeito condicional para multa
()
níveis acima de 10. Isto é refletido pelo fato de que a estimativa de na figura 3 são estatisticamente iguais a
zero.
Se houver um campus universitário na cidade, o número de citações por mês é cerca de 5,8 maior. O
O impacto condicional da faculdade diminui à medida que as multas aumentam quase 10 pontos entre o mínimo e o
níveis máximos de multas na distribuição. Com base nas estimativas da figura 3, quando as multas são superiores
11, a mudança no efeito da faculdade nas citações não é mais estatisticamente significativa. Se a jurisdição for
35
Machine Translated by Google
localizado em uma cidade média, o impacto no número de citações é relativamente pequeno, estatisticamente significativo,
mas não mostra nenhuma mudança estatisticamente significativa entre as multas. Finalmente, se a jurisdição estiver localizada em uma grande área
cidade, o impacto condicional é grande, variando de 30 a 10 citações adicionais por mês, diminuindo à medida que
as multas aumentam. Algo a ser notado nesses números é que a maioria das estimativas para multas menores de 9 anos mostram
grandes intervalos de confiança porque menos de 10% dos dados ficam abaixo deste limite.
5. Conclusões
Modelos de coeficientes variáveis suaves são uma alternativa aos modelos não paramétricos completos que podem ser usados para
analisar as relações entre variáveis dependentes e independentes sob a suposição de que essas
os relacionamentos são lineares, condicionados a um conjunto menor de variáveis explicativas. Eles são menos afetados pela
problema da maldição da dimensionalidade porque menos variáveis entram na estimativa de forma não paramétrica. Nisso
artigo, forneço uma revisão da seleção, estimativa e teste de modelos para esses tipos de modelos, e
introduzimos um conjunto de comandos, vc_pack, que visam facilitar a estimação de tais modelos quando
presume-se que os coeficientes variam em relação a uma única variável de suavização. Uma aplicação empírica
6. Referências
Cai, Zongwu, Mitali Das, Huaiyu Xiong e Xizhi Wu. 2006. "Coeficiente funcional instrumental
https://doi.org/10.1016/j.jeconom.2005.03.014.
Cai, Zongwu, Jianqing Fan e Qiwei Yao. 2000. "Modelos de regressão de coeficiente funcional para
Séries temporais não lineares." Journal of the American Statistical Association 95 (451):941-956. doi:
10.1080/01621459.2000.10474284.
Cattaneo, Matias D. e Michael Jansson. 2018. "Estimadores semiparamétricos baseados em kernel: pequenos
10.3982/ecta12701.
Centorrino, Samuele e Jeffrey Scott Racine. 2017. "Modelos de coeficientes variáveis semiparamétricos com
36
Machine Translated by Google
Delgado, Michael S., Deniz Ozabaci, Yiguo Sun e Subal C. Kumbhakar. 2019. "Coeficiente suave
10.1080/07474938.2018.1552413.
Hainmueller, Jens, Jonathan Mummolo e Yiqing Xu. 2018. "Quanto devemos confiar nas estimativas
de Modelos de Interação Multiplicativa? Ferramentas simples para melhorar a prática empírica." Político
Hastie, Trevor e Robert Tibshirani. 1990. Modelos Aditivos Generalizados. Nova York: Chapman e
Salão.
Hastie, Trevor e Robert Tibshirani. 1993. "Modelos de coeficientes variáveis". Diário do Real
Hirano, Keisuke e Guido W. Imbens. 2004. "O Índice de Propensão com Tratamentos Contínuos."
-
Modelagem Bayesiana Aplicada e Inferência Causal a partir de Perspectivas de Dados Incompletos: 73-84. faça:
doi:10.1002/0470090456.ch7.
Hoover, Donald R., John A. Rice, Colin O. Wu e Li-Ping Yang. 1998. "Suavização não paramétrica
estimativas de modelos de coeficientes variantes no tempo com dados longitudinais." Biometrika 85 (4):809-822.
doi: 10.1093/biomet/85.4.809.
Hoti, Fabian e Lasse Holmström. 2003. "Sobre o erro de estimativa na regressão linear local agrupada."
Li, Qi, Cliff J. Huang, Dong Li e Tsu-Tan Fu. 2002. "Modelos de coeficiente suave semiparamétrico."
Li, Qi e Jeffrey Scott Racine. 2007. Econometria Não Paramétrica: Teoria e Prática. Nova Jersey:
Li, Qi e Jeffrey Scott Racine. 2010. "Estimativa e inferência de coeficiente variável suave para
Liu, Weiwei e Kevin J. Egan. 2019. "Um estimador de coeficiente suave semiparamétrico para recreação
Longo, J. Scott e Laurie H. Ervin. 2000. "Usando Erros Padrão Consistentes de Heterocedasticidade no
37
Machine Translated by Google
Polemis, Michael L. e Thanasis Stengos. 2015. "A estrutura do mercado afeta a produtividade do trabalho e
Rios-Ávila, Fernando. 2019. "Uma abordagem semiparamétrica para a decomposição Oaxaca – Blinder com
Seber, George AF e Alan J. Lee. 2003. Análise de regressão linear. Segunda edição. Nova York: João
Análise de Especificação: Ensaios em homenagem a Halbert L. White Jr, editado por Xiaohong Chen e
VERARDI, Vincenzo. 2013. Regressão semiparamétrica no Stata. Reunião do Grupo de Usuários Stata do Reino Unido, Londres,
REINO UNIDO.
Zhang, Wenyang e Sik-Yum Lee. 2000. "Seleção de largura de banda variável em coeficiente variável
https://doi.org/10.1006/jmva.1999.1883.
38
Machine Translated by Google
-
Para as seguintes definições = onde é o ponto avaliado, é o ponto de referência e ÿ é
ÿ
a largura de banda.
3 2 2
épan ()= | ÿ ÿ5 ()=1ÿ se | | ÿ ÿ5
4ÿ5 (1 ÿ 5) se | 5
3
2 2 se | |ÿ1
epan2 ()= (1 - ) se | | ÿ 1 ()=1ÿ
4
15
2 2 2 2 se | |ÿ1
peso duplo ()= (1 - ) se | |ÿ1 ( ) = (1 ÿ )
16
1
cosseno ( ) = (1 + cos (2 )) se | | ÿ 0,5 ()= (1 + cos (2 )) se | | ÿ 0,5
2
4
ÿ8ÿ 2
+8* | | se | | ÿ 0,5
1ÿ6 2
3 +6* | | 3 se | ÿ 0,5
parzen 8 3
3
()={ 2(1 ÿ | |) | se 0,5 ÿ | |ÿ1
()={ (1 ÿ | |) se 0,5 ÿ | |ÿ1
3
1
reto ()= se |ÿ1 ( ) = 1 se | |ÿ1
|2
Nota: A opção do kernel kernel() deve ser usada conforme indicado nesta tabela ao usar todos os vc_pack
comandos.
39