Você está na página 1de 40

Machine Translated by Google

Modelos de coeficientes de variação suave no Stata

Por

Fernando Rios-Ávila

Instituto de Economia Levy, Bard College

Abstrato

As regressões não paramétricas são ferramentas estatísticas poderosas que podem ser usadas para modelar

relações entre variáveis dependentes e independentes com suposições mínimas sobre

as formas funcionais subjacentes. Apesar de seus benefícios potenciais, esses tipos de modelos têm

dois pontos fracos: a flexibilidade adicional cria uma maldição de dimensionalidade e procedimentos

disponíveis para seleção de modelos, como validação cruzada, têm um alto custo computacional em

amostras com tamanhos até moderados. Uma alternativa aos modelos totalmente não paramétricos são

modelos semiparamétricos que combinam a flexibilidade das regressões não paramétricas com

a estrutura dos modelos padrão. Este artigo descreve a estimativa de um tipo específico

de modos semiparamétricos conhecidos como modelos de coeficientes de variação suave (Hastie e

Tibshirani 1993), baseado em métodos de regressão de kernel, usando um novo conjunto de comandos

dentro de vc_pack. Esses comandos visam facilitar a seleção de largura de banda, modelo

estimativa e criar visualizações dos resultados.

Palavras-chave: modelos de coeficientes de variação suave, regressão kernel, validação cruzada.

Estimativas semiparamétricas.

JEL:C14, C21, C52


Machine Translated by Google

1. Introdução

Regressões não paramétricas são ferramentas estatísticas poderosas que podem ser usadas para modelar relacionamentos

entre variáveis dependentes e independentes com suposições mínimas sobre o funcional subjacente

formulários. Essa flexibilidade torna as regressões não paramétricas robustas à especificação incorreta da forma funcional,

que é uma das principais vantagens sobre a análise de regressão padrão.

A flexibilidade adicional das regressões não paramétricas tem um custo. Por um lado, o adicionado

a flexibilidade cria o que é conhecido como a maldição da dimensionalidade. Em essência, porque não paramétrico

regressões implicam a estimativa de um grande número de parâmetros, contabilizando interações e não-

linearidades, mais dados são necessários para obter resultados com um nível de precisão semelhante ao de seus parâmetros paramétricos.

homólogos. Por outro lado, embora conjuntos de dados maiores possam ser usados para reduzir a maldição da dimensionalidade,

procedimentos usados para seleção de modelos e estimativas são muitas vezes muito intensivos em termos computacionais, tornando o

a estimativa desse tipo de modelo é menos prática em amostras de tamanhos moderados a grandes. Talvez devido a estes

limitações, e até versões recentes, o Stata tinha um conjunto muito limitado de comandos nativos para a estimativa

de modelos não paramétricos. Mesmo com o recente desenvolvimento do poder computacional, a estimativa da capacidade total

modelos não paramétricos, usando os comandos atualmente disponíveis, continua sendo um desafio quando se utilizam grandes

amostras.1

Uma resposta à principal fraqueza dos métodos não paramétricos tem sido o desenvolvimento de

métodos semiparamétricos. Esses métodos combinam a flexibilidade das regressões não paramétricas com a

estrutura de modelos paramétricos padrão, reduzindo a maldição da dimensionalidade e reduzindo o

custo computacional da seleção e estimativa do modelo.2 Na verdade, muitos comandos contribuídos pela comunidade

foram propostos para a análise de uma grande classe de modelos semiparamétricos no Stata.3

1
Stata 15 introduziu o comando npregress kernel que estima modelos totalmente não paramétricos usando métodos de
kernel. Mais recentemente, o Stata 16 introduziu séries npregress que estimam modelos totalmente não paramétricos usando
métodos de séries e splines.
2
Uma breve revisão do método semiparamétrico é fornecida em Cameron e Trivedi (2005), Sec. 9.7. Para uma revisão mais
aprofundada da teoria sobre modelos semiparamétricos, consulte Li e Racine (2007) Capítulo 7-11, enquanto (Henderson e
Parmeter 2015) oferecem uma discussão mais empírica sobre este tipo de modelos.
3
Ver Verardi (2013) para uma breve revisão dos comandos para estimação de regressões semiparamétricas no Stata.

1
Machine Translated by Google

Um tipo particular de modelos semiparamétricos, cuja estimativa não foi explorada

dentro do ambiente Stata, é conhecido como Smooth Varying Coefficient Models (SVCM) (Hastie e

Tibshirani 1993). Esses modelos assumem que o resultado é uma função de dois conjuntos de características,

e , onde o efeito de on segue alguma função suave não especificada de Z. Conforme descrito por

Henderson e Parmeter (2015) este método é particularmente popular em ambientes aplicados porque são

fácil de estimar e interpretar, porque é uma função linear de condicional.

Por exemplo, conforme descrito em Hainmueller, Mummolo e Xu (2018), o SVCM pode ser pensado como

como modelos interativos multiplicativos onde a variável se comporta como moderadora do tratamento

variáveis de interesse, relaxando a suposição linear da interação. Alternativamente, conforme descrito em Rios-

Avila (2019), o SVCM pode ser usado para estender a análise de decomposição padrão de Oaxaca-Blinder para cenários

com variáveis de grupo contínuas, decompondo, por exemplo, diferenças salariais de indivíduos com

índice de massa corporal diferente. Além disso, sob hipóteses de um tratamento exógeno e

falta de confusão, o SVCM pode ser usado para estimar os efeitos do tratamento com doses heterogêneas (ver, por exemplo

Hirano e Imbens (2004) para uma discussão sobre os efeitos do tratamento contínuo).

Este artigo apresenta um novo conjunto de comandos que visam facilitar a seleção do modelo,

estimativa e visualização de SVCM com uma única variável de suavização. vc_bw e vc_bwalt são

comandos usados para seleção de modelo que implementam um procedimento de validação cruzada de deixar um de fora para selecionar

a largura de banda ideal. vc_reg, vc_bsreg e vc_preg são comandos usados para estimativa

SVCM em um conjunto selecionado de pontos de interesse, fornecendo diferentes alternativas para a estimativa de

erros padrão. vc_predict e vc_test são comandos que podem ser usados para obter o modelo

previsões e resíduos, fornecem algumas estatísticas do modelo estimado, bem como fornecem algumas

testes de especificação. vc_graph pode ser usado para traçar os coeficientes suaves.

O resto do artigo está estruturado da seguinte forma. A Seção 2 revisa a estimativa do SVCM. Seção

3 fornece uma revisão detalhada dos procedimentos de implementação e comandos usados para seleção de modelo,

estimativa e pós-estimação. A seção 4 ilustra os comandos e a seção 5 conclui.

2
Machine Translated by Google

2. Regressão não paramétrica e modelos de coeficientes variáveis suaves

2.1. Regressões Não Paramétricas

Considere um modelo onde é a variável dependente e é um conjunto de variáveis independentes exógenas

variáveis de dimensão . Sem qualquer suposição sobre as relações entre essas variáveis, e

assumindo que não existe problema de variável omitida, o modelo de regressão não paramétrico dado o

vetor dimensional de variáveis É dado por:

=()+ (1a)

(| )=0 (1b)

Essencialmente, esta especificação do modelo implica que está relacionado a seguir algum desconhecido

forma funcional não linear. A literatura sobre regressões não paramétricas sugere que esses tipos de

modelos podem ser estimados de pelo menos duas maneiras. Por um lado, a função (.) pode ser estimada por

modelando a função média condicional como um estimador de média ponderada localmente:

ÿ (ÿ( ) , , ÿ) (2)
=(|=)=
ÿ(, , ÿ)

Onde ÿ = {ÿ 1,…, ÿ } é um vetor de larguras de banda, (. ) é uma função conjunta do kernel:

(3)
( , , , ÿ)
, ÿ) = ÿ (
=1

e( , , ÿ) é uma função do kernel definida pelo ponto de referência e pela largura de banda ÿ: 4

(4)
( , ,
ÿ) = (-ÿ)

Esta função (.) dá mais peso às observações próximas do ponto e usa o

vetor de larguras de banda ÿ para determinar quanta informação é usada para a estimativa do condicional

significar. Este procedimento pode ser implementado no Stata usando o comando npregress kernel.

4 Consulte o Apêndice A para obter uma lista de definições de funções do kernel.

3
Machine Translated by Google

Um procedimento alternativo é estimar ( ) usando um conjunto de transformações predefinidas e

interações das variáveis originais como variáveis explicativas. A prática mais comum é usar

base polinomial ou spline das variáveis originais (. ) e suas interações (. ), e estimar a

seguinte modelo:

= ( )ÿ + ( ( ))ÿ + (5)

Onde = [ , ] são todos os coeficientes associados a cada um dos termos do

transformações (. ) e interações (. ). Neste cenário, a dimensão , ou mais especificamente de (.)

e (. ), representam o parâmetro de ajuste que determina a rugosidade de ÿ(). Este procedimento pode ser

implementado no Stata usando o comando npregress series, usando polinômios, splines e B-

base de splines.

Conforme descrito em Li e Racine (2007) e Stinchcombe e Drukker (2013), no caso de kernel

métodos, o número efetivo de observações para a estimativa da média condicional diminui

rapidamente à medida que aumenta e ÿ vai para zero. No caso de transformações e interações, o número de

parâmetros que precisam de estimativa aumentam exponencialmente com o número de variáveis explicativas e o

dimensão de (. ) e (. ), reduzindo rapidamente os graus de liberdade do modelo.5

2.2. Modelo de coeficiente variável suave (SVCM)

O SVCM, conforme introduzido por Hastie e Tibshirani (1993), assume que existe alguma estrutura no

modelo. Em vez de estimar uma função como a equação (1), os autores sugerem distinguir dois tipos de

variáveis independentes = [ , ]. são variáveis que têm um efeito linear de , mas esses efeitos são

algumas funções não lineares não especificadas de. Este modelo é definido por:

= '
()+ (6a)

(| , )=0 (6b)

5
Em ambos os casos, existem diferentes estratégias que podem ser utilizadas para selecionar a rugosidade ou suavidade dos modelos
estimados. Para uma breve revisão de ambas as estratégias, consulte a introdução do npregress.

4
Machine Translated by Google

Esta especificação reduz o problema da maldição da dimensionalidade do modelo estimado,

em comparação com (1), assumindo que tem um efeito paramétrico sobre , condicional a , permitindo os coeficientes

() são funções não lineares suaves desconhecidas de. Para simplificar, vou me referir como o conjunto de

suavização de variáveis. A existência de dois tipos de variáveis levanta a questão de decidir quais

variáveis devem ser incluídas em ou . A literatura empírica sugere que decidir quais variáveis

deve ser considerado como parte das variáveis de suavização Z dependerá da questão de pesquisa de interesse.

Por exemplo, Li et al. (2002) analisam a função de produção do mineral não metálico

indústria manufatureira na China, analisando a produtividade marginal do capital e do trabalho (X), analisando

a heterogeneidade baseada nas despesas com a produção intermédia e nas despesas com a gestão (Z).

Liu e Egan (2019) analisam a procura recreativa, centrando-se no efeito dos custos de viagem e das famílias.

renda na disposição das famílias a pagar ( ), permitindo a heterogeneidade entre grupos demográficos

características, posse de licença de caça/pesca e filiação a organização ambientalista ( ).

Centorrino e Racine (2017) revisitam o papel da experiência, da raça e da localização geográfica ( ) como

determinantes dos salários, analisando a heterogeneidade entre o nível de escolaridade ( ). Polemis e Stengos

(2015) analisam a produtividade do trabalho em função da proporção de participação no trabalho, tamanho do mercado, capital, intermediário

insumos e custo de energia ( ), analisando a heterogeneidade entre uma medida de concentração de mercado ( ).

Assim como nas regressões não paramétricas, vários métodos foram propostos para estimar

deste tipo de modelo. Hastie e Tibshirani (1993) sugerem estimar ( ) usando base spline ou

splines penalizados em relação a Z. Hoover et al. (1998) e Li et al. (2002), sugerem, em vez disso, usar

regressões polinomiais de kernel como uma estratégia viável para estimar ( ). Mais recentemente, Li e Racine

(2010) ampliaram o uso de métodos kernel para a estimativa e inferência desses tipos de modelos

quando é uma mistura de dados contínuos e discretos.6 Na próxima seção, descrevo a estimativa de

SVCM usando métodos de kernel quando há uma única variável de suavização em .

6
A maioria das metodologias que implementam SVCM baseia-se na suposição de que e são exógenas. A discussão sobre a
estimação de modelos SVCM quando é endógeno pode ser encontrada em Cai et al. (2006), enquanto a estimação de modelos
quando é endógeno foi discutida e proposta em Centorrino e Racine (2017), Delgado et al. (2019) e Rios-Ávila (2019). Isto, no
entanto, está além do escopo deste artigo.

5
Machine Translated by Google

2.3. SVCM: estimador de kernel local

Considere uma versão simplificada do SVCM (equação 6), conforme descrito em Li et al. (2002), onde

é a variável dependente, é uma única variável contínua e é um conjunto de variáveis incluindo um

constante. Como contém uma única variável, a largura de banda ÿ será um único escalar, eliminando o

subscrito da equação (4).

Seguindo Li e Racine (2007), os coeficientes na equação (6) podem ser derivados da seguinte forma.

A partir da equação (6), pré-multiplique ambos os lados por, considere as expectativas condicionais a = ,e

resolva para ( ), o que resulta:


'
( |=)=( |=)()+( |=)

ÿ1
()=( '| = ) ( |=) (7)

Usando dados amostrais, a equação (7) pode ser um estimador inviável de ( ) porque pode haver poucos

ou nenhuma observação para a qual = , tornando ( ) impossível de estimar.7 Como alternativa, uma solução viável

a estimativa para a equação (5) pode ser obtida usando métodos kernel, para qualquer ponto:

ÿ1
(8a)
ÿ( , ÿ) = [ÿ ÿ ( ÿ ÿ )] [ÿ (-ÿ)]

Ou o equivalente em forma de matriz:

' ÿ1 '
ÿ( , ÿ) = [ ÿ()] [ ÿ()] (8b)

Onde (. ) é a função kernel, conforme definido em (4), que dá mais peso às observações onde

está mais perto de , dada a largura de banda ÿ. ÿ ( ) é uma matriz × diagonal com o ÿ elemento igual a

( -ÿ ). A equação (8b) constitui o estimador da constante local do SVCM.

Uma desvantagem do estimador de constante local é que ele é bem conhecido por seu viés potencialmente grande

ao estimar funções próximas aos limites do suporte de. Uma solução simples para reduzir esse viés é

7
O estimador na equação 6 só existe se (dados '| = ) é classificação completa, mas pode não ser o caso ao usar
amostrais.

6
Machine Translated by Google

utilizar um estimador linear local, baseado em uma aproximação de primeira ordem dos coeficientes ( ). Isso implica

que em vez de estimar a equação (6), pode-se estimar o seguinte modelo:

()
( ) ÿ ( ) + (- )

ÿ
ÿ(()+(-) ())+

() (9)
ÿ ' ()+ ' (-) +

Isto implica que uma aproximação para pode ser obtida usando uma expansão linear em relação a

( ), e que quanto mais próximo de z, mais precisa será a aproximação.

Definir = [ ( ÿ ) ÿ ] para ser o ÿ linha de , e ÿ ser o produto Kronecker,

tal que ( ÿ ) ÿ indica que cada variável em é multiplicado pela variável auxiliar (-).

Com base na equação (8b) os coeficientes ( ) e ( ) pode ser estimado como:

ÿ( , ÿ) (10)
' ÿ()] ÿ1 [ ' ÿ()]
[ ÿ( , ÿ) ] = [

Onde ÿ( , ÿ) constituem o estimador linear local de ( ) e ÿ( ,ÿ) é a primeira derivada de

esse coeficiente em relação a qualquer ponto, () .

2.4. Exemplo: SVCM e mínimos quadrados ponderados

Embora possa não parecer evidente, as equações (6) e (9) mostram que a estimativa do SVCM usando

métodos de kernel podem ser facilmente obtidos usando mínimos quadrados ordinários ponderados, onde os pesos são definidos

pelas funções do kernel. Para mostrar isso, considere o conjunto de dados “Dados fictícios sobre dirigir alcoolizado mensalmente

citações” (dui.dta) e um modelo simples que assume que as citações são uma função linear da faculdade,

impostos, cidadão e multas. Este modelo pode ser estimado usando o seguinte comando:

regredir citações i.college i.taxes i.csize multas

7
Machine Translated by Google

Digamos que você esteja interessado em analisar como o efeito da faculdade, dos impostos e do tamanho

varia em função das multas. 8 Suponha, para simplificar, que você está interessado em um ponto do

distribuição: Multas no percentil 10 (=9). Neste exemplo, existem observações suficientes com valores

exatamente igual a 9, portanto é possível estimar o modelo utilizando esta restrição. Porque estamos estimando

regressões para valores específicos de multas, esta variável é retirada da especificação:

regredir citações i.college i.taxes i.csize if multas==9

Em geral, pode ser mais conveniente estimar o modelo usando funções de kernel como pesos. Como

discutido na literatura, a escolha da função do kernel não é tão importante quanto a escolha da largura de banda.

Para simplificar, usarei um kernel gaussiano com largura de banda ÿ = 0,5. Isso é implementado diretamente usando

a função normalden(), com a variável de suavização multas como o primeiro argumento, o ponto de

interesse (9) como segundo argumento e largura de banda (ÿ = 0,5) como terceiro argumento:

regredir citações i.college i.taxes i.csize [aw=normalden(fines,9,0.5)]

Este exemplo implementa os estimadores de constante local seguindo a equação (7). Para o

implementação do estimador linear local, uma variável auxiliar precisa ser construída (-)

df=multas-9. Esta variável é criada e adicionada à especificação do modelo criando interações com todos

outras variáveis explicativas. Usando a notação de fator, isso é simples:

citações de regressão i.(impostos universitários csize)##c.df [aw=normalden(multas,9,0,5)]

Para ver como esses modelos se comparam entre si, as figuras 1a e 1b fornecem um gráfico simples do

coeficientes associados a faculdades e impostos, usando as três especificações descritas acima, usando

cada valor distinto de multas comparando-os com as estimativas de regressão padrão.

8
Uma opção poderia ser assumir que os efeitos variam de forma linear no que diz respeito às multas. Nesse caso, o
O modelo a seguir pode ser adequado usando citações de regressão c.fines##i.(impostos universitários csize)

8
Machine Translated by Google

Figura 1. VCM entre multas: Faculdade e Impostos

“VCM-Exact” corresponde aos modelos que restringem os dados a = , enquanto “SVCM-LC”

e “SVCM-LL” indicam que as estimativas vêm da constante local e dos estimadores lineares locais do

modelo SVCM, respectivamente. Você notará que não há estimativas para o modelo “VCM-Exato” em

os limites da distribuição de multas porque simplesmente não há observações suficientes para obter

essas estimativas. Além disso, observe que o “VCM-Exato” produz coeficientes muito voláteis. Ambos

“SVCM-LC” e “SVCM-LL” produzem gráficos suaves. Os estimadores de constante local são um tanto planos em

os limites da distribuição, o que é de se esperar. Em contraste, o estimador linear local parece

ser menos afetado pelo viés de limite, seguindo mais de perto os coeficientes “VCM-Exato”. Neste ponto,

no entanto, nada pode ser dito em termos de inferência estatística relativamente aos méritos de qualquer um dos modelos.

Embora esta ilustração simples mostre a simplicidade de estimar o SVCM, há muitos detalhes

em relação à escolha do modelo e inferência estatística que requer um exame mais aprofundado. Na próxima seção, eu

discutir alguns detalhes sobre esses problemas, apresentando os comandos em vc_pack que podem ser

usado para estimar SVCM com uma única variável de suavização.

9
Machine Translated by Google

3. Modelos de coeficientes variáveis suaves: vc_pack

3.1. Seleção de modelo: vc_bw e vc_bwalt

3.1.1. Validação cruzada de deixar um de fora

O aspecto mais importante da estimativa do SVCM é a escolha do parâmetro de largura de banda

ÿ. Embora larguras de banda maiores possam ajudar a reduzir a variância das estimativas, ao permitir mais

informações a serem utilizadas no processo de estimação local, aumentará o viés dos estimadores, por

restringindo a flexibilidade do modelo. Em contraste, larguras de banda menores podem reduzir o viés, permitindo maior

flexibilidade na estimativa, mas ao custo de maior variabilidade.9

A ilustração apresentada na seção anterior é um exemplo desse fenômeno. O padrão

Os coeficientes OLS podem ser considerados como um cenário extremo onde a largura de banda ÿ é tão grande que todos

as observações recebem peso igual, independentemente do ponto de interesse. Isto é garantido para obter o

variância mínima para os parâmetros estimados, mas com um custo potencialmente grande em termos de viés do modelo.

No lado oposto do espectro, os resultados onde as regressões são estimadas por meio de amostras

restritos a observações com um valor específico de multas (VCM-Exato) são baseados em uma largura de banda ÿ que

é essencialmente 0. Embora este seja o modelo mais flexível possível, dados os dados, a figura 1 também mostra que o

os resultados são altamente voláteis e as estimativas não eram viáveis para algumas áreas.

Embora existam muitas sugestões na literatura sobre a seleção de largura de banda (ver por exemplo

Zhang e Lee (2000)), a metodologia aqui utilizada é baseada em uma validação cruzada de deixar um de fora

procedimento. Considere o modelo descrito na equação (6) e uma amostra de tamanho . A largura de banda ideal

ÿ ÿ
é tal que minimiza os critérios de validação cruzada (CV) definidos como:

2 (11)
'
ÿ
2
ÿ ÿ
= mínimo (ÿ) = min = mínimo
ÿ ÿÿ()(ÿ ÿ ( , ÿ)) ÿ ÿ ( )( ÿ ÿÿ (ÿ))
=1 =1

Onde ÿ ( , ÿ) é o estimador de exclusão de ÿ( , ÿ), condicional a uma largura de banda ÿ, que

exclui o ÿ observação, e ÿÿ (ÿ) é a previsão de deixar um de fora do SVCM. ( ) é uma ponderação

9
No contexto de séries, polinômios e splines, o compromisso entre variância e viés é determinado pelo
dimensão das transformações em série (. ) e das interações (. ).

10
Machine Translated by Google

função que é usada para reduzir a influência de áreas onde a distribuição é escassa. Embora isso pareça

um processo muito intensivo computacionalmente que requer a estimativa de diferentes conjuntos de parâmetros, o

estimativa real do critério requer a estimativa de menos equações com base nas características de

os dados e propriedades das regressões lineares.

Por um lado, mesmo sendo uma variável contínua por natureza, é frequentemente registada como parcialmente

dados discretos. A idade de uma pessoa, por exemplo, é uma variável de natureza contínua, mas muitas vezes medida

em termos de anos. Isto implica que o número de coeficientes distintos ÿ( , ÿ) provavelmente será menor do que

o número de observações na amostra.

Por outro lado, a estimativa do (ÿ) não requer a estimativa explícita de


ÿ

ÿ ( , ÿ), mas a estimativa do erro de exclusão ÿ (ÿ) = ÿ ÿÿ (ÿ). Com regressões lineares,

é possível obter ÿ (ÿ) redimensionando o erro SVCM ÿ(ÿ) = - ÿ ÿ( , ÿ) usando a alavancagem

estatística ( ( , ÿ)) 10:

- - (12)
ÿ (ÿ) = ÿ ÿ( , ÿ) = ÿ (ÿ)
ÿ (ÿ) = ÿ ÿÿ (ÿ) =
1 ÿ ( , ÿ) 1 ÿ ( , ÿ) 1 ÿ ( , ÿ)

Onde ( , ÿ) é a estatística de alavancagem local, definida como o ÿ elemento diagonal do local

ÿ1ÿ
matriz de projeção (ÿ) = ( ÿ ÿ()) ÿ ( ):

ÿ1ÿ
( , ÿ) = ( ÿ ÿ()) ÿ (0) (13)

Usando este atalho, (ÿ) pode ser reescrito para refletir apenas o número de regressões necessárias

que precisam ser estimados. Considere o vetor = [ 1, 2,…, ] de todos os valores únicos de , com <

+1. Usando isso, o (ÿ) pode então ser escrito como:

2 (14)
ÿ ÿ( , ÿ) 2
(ÿ) = ÿ ÿ ( ) (- 1 ÿ ( , ÿ) ) = ÿ ÿ ( ) ÿ (ÿ)
| ==1 | ==1

10
Seber e Lee (2003), cap. 10, fornece uma demonstração simples dessa identificação para modelos de regressão linear. Em
além disso, Hoover et al. (1998) sugerem a utilização de expressão semelhante para agilizar o cálculo dos critérios de CV.

11
Machine Translated by Google

Embora (14) mostre que o número de equações estimadas ( ) é potencialmente menor que o total

número de observações na amostra ( ), em algumas aplicações ainda pode ser muito grande para permitir uma avaliação rápida

estimativa de (. ). Uma alternativa viável nesses casos é utilizar o que Hoti e Holmström (2003) e

Ichimura e Todd (2007) denominam regressões lineares locais em bloco ou binned, para obter uma

aproximação do critério.

Considere o vetor = [ 1, 2,…, ] de todos os valores únicos dos quais são organizados em não-

caixas sobrepostas ÿ de largura , e um centro igual a ÿ, tal que:

-
1 (15a)
= =
ÿ

; 1 + ÿ 0,5 ÿ = 1…

- ÿ
(15b)
ÿÿ ÿ <2 + ÿ = 1…
2

Em vez de estimar um conjunto de parâmetros, para cada valor distinto de , estima-se conjuntos de

parâmetros usando os pontos de referência ÿ = [ 1ÿ, 2ÿ…, ÿ]. Esses parâmetros são usados para obter linear
ÿ ÿ
ÿ ÿ

aproximações em torno de ÿ para os valores previstos ( (ÿ)), erros previstos ( (ÿ)) e estatísticas de alavancagem

ÿ ( ÿ, ÿ), para todas as observações dentro de seus compartimentos correspondentes:

ÿ
ÿ ÿ(ÿ, ÿ) (16a)
ÿ (ÿ) ÿ (ÿ) = ÿ ÿ( ÿ, ÿ) + ÿ ( ÿ ÿ) ÿ
ÿ ÿ ÿ = 1…

ÿ ÿ
ÿ ÿ

ÿ (ÿ) ÿ (ÿ) = - (ÿ) (16b)

ÿ1 ' (16c)
( , ÿ) ÿ ÿ (ÿ, ÿ) = ( ÿ ÿ( ÿ) ) ÿ ÿ ÿ = 1…
ÿ (-ÿ)
ÿ

Usando essas expressões, uma aproximação para o erro de deixar um de fora (ÿ ) para observação com

= , e ÿ ÿ pode ser aproximado da seguinte forma:

ÿ ÿ

- ÿ ÿ

(17)
ÿ
(ÿ) (ÿ)
=
ÿ

ÿ (ÿ) ÿ (ÿ) =
1- ÿ (ÿ, ÿ) 1- ÿ (ÿ, ÿ)

Isto pode ser usado para obter uma expressão alternativa para o critério:

ÿ 2
ÿ
(18)
ÿ
(ÿ) ÿ

2
(ÿ) ÿ (ÿ)
(ÿ) = ÿ ÿ ÿ=1
( ) (- ÿÿ 1- ) =ÿÿÿ()ÿ
|=
ÿ (ÿ, ÿ) =1 ÿÿ | =

12
Machine Translated by Google

O que reduz o número de equações estimadas de para. É simples ver isso como

Quanto maior o número de grupos P aumentar, e quanto menor for a largura do compartimento, melhor será a aproximação de
ÿ

(. ) para (.). Conforme mostrado em Hoti e Holmström (2003), regressões lineares de kernel locais agrupadas podem

fornecer boas aproximações para as previsões gerais do modelo, desde que a razão entre o

a largura de banda implícita usada para a construção dos compartimentos e a largura de banda ideal ( ÿÿ ) é relativamente pequena.11

Além disso, mesmo se considerarmos a largura de banda ÿÿÿ com base na aproximação (.) ser pobre

ÿ
aproximação da largura de banda total da informação ÿ , ainda pode ser usado para análise exploratória e como

ÿ
ponto de partida para a estimativa de ÿ , reduzindo o custo computacional da seleção de largura de banda.

3.1.2.Seleção automática de modelo

vc_pack oferece dois comandos para a seleção automática do modelo com base no Cross-

procedimento de validação descrito anteriormente, minimizando a função objetivo ((ÿ)). vc_bw

implementa um algoritmo do tipo Newton-Raphson que funciona bem quando o objetivo a função é suave

e diferenciável, com mínimos locais. Este é um algoritmo iterativo que procura a largura de banda ideal
ÿ
ÿ usando:

ÿ1
((ÿ))
2
((ÿ)) (19)
ÿ=ÿ ÿ1
ÿÿ
ÿ ( ÿ2 _
) |ÿ=ÿ
ÿ1

ÿ
parando quando ÿ e ÿ ÿ1 estão suficientemente próximos e selecionando ÿ = ÿ. A primeira e segunda ordem

as derivadas são estimadas usando métodos numéricos com três pontos de referência. O escalar é igual a

1, desde que haja uma melhoria no processo de maximização (ou seja, (ÿ) <(ÿ ÿ1)), caso contrário,

é reduzido pela metade até que uma melhoria seja encontrada.

vc_bwalt implementa um algoritmo do tipo bissecção que funciona bem em um conjunto maior de cenários,

especialmente quando (.) não é uma função suave nem diferenciável de ÿ, mas pode ser mais lento em encontrar o

0 1 2
largura de banda ideal. O algoritmo começa com três pontos de referência: ÿ0 < ÿ0 < ÿ0 . Se o ideal

11
Simulações fornecidas em Hoti e Holmström (2003) sugerem que a precisão do estimador binned, medida por ÿ<0,3
erro quadrático integrado relativo, é semelhante ao estimador não agrupado para kernels gaussianos, e ÿ
<
ÿ ÿ

quando 0,1 para os núcleos Epanechnikov, triângulo e bipeso.

13
Machine Translated by Google

largura de banda ÿ ÿ 0 2 1 0 1 2
está entre ÿ0 e ÿ0 (ou seja, (ÿ0 ) < (ÿ0 ) e (ÿ0 ) < (ÿ0 )) o algoritmo irá

1 0 1 2
avaliar os critérios de validação cruzada usando pontos médios entre ÿ0 & ÿ0 e ÿ0 & ÿ0 , e atualize o

0 1 2 1 0
pontos de referência então ÿ1 < ÿ1 < ÿ1 , com ÿ1 correspondendo à largura de banda com o menor (.) e ÿ1

2
e ÿ1 correspondendo aos dois pontos de referência mais próximos, previamente avaliados, que estão acima e

1 . Se o ÿ ÿ 0 0 1 2
abaixo ÿ1 é potencialmente menor que ÿ1 (ou seja (ÿ1 ) < (ÿ1 ) < (ÿ1 )), um quarto ponto ÿ1 <

0 0 ÿ
está entre
ÿ1 será avaliado até encontrar um ponto tal que (ÿ1 ) > (ÿ1 ), o que sugere ÿ

1. ÿ 2
ÿ1 e ÿ1 Um processo semelhante é implementado se ÿ é potencialmente maior que ÿ1 . O algoritmo para quando

ÿ 0e ÿ 2
estão suficientemente próximos, selecionando ÿ
ÿ
= ÿ 1.

Ambos os comandos usam a seguinte sintaxe:

vc_bw[alt] depvar indepvar [if], vcoeff(svar) [kernel(kernel)

bwi(#) nós(#k) km(#km) gráfico trimsample(trimvar)]

Onde depvar é a variável dependente , indepvar é a lista de todas as variáveis independentes

que assumimos ter um efeito linear condicional na variável dependente , e svar é o

suavizando a variável Z.

kernel(.) indica a função do kernel (ver equação 4) que será usada para criar o local

pesos e estimar as regressões locais. O padrão é o kernel Gaussiano, mas outros kernels são

permitido.12

bwi(#) fornece ao comando um valor inicial ÿ0 para pesquisar a largura de banda ideal.

A opção padrão usa a largura de banda do comando lpoly usando a mesma função do kernel

declarado em kernel().

nós(#k) e km(#km) são opções que podem ser utilizadas para solicitar a minimização do
ÿ

critérios aproximados (ÿ) conforme descrito na equação (18). Usando nós(#k), com #kÿ 1, solicita o

criação de uma nova variável que agrupa a variável de suavização svar em #+1 grupos de igual largura.

.5, 10*
Usar nós(0) indica criar # + 1 grupos, onde # é o número inteiro mais próximo de (

12
Consulte o apêndice A para obter a lista completa de kernels e funções disponíveis para estimativa.

14
Machine Translated by Google

registro10 ). Quando nós(0) é usado, pode-se usar também a opção km(#km), de modo que # é o mais próximo

.5 , . 13 Sempre que nós(#k) é usado, o comando reporta o


número inteiro de ( 10 ÿ log10 ) ÿ #

número de nós empregados e a largura implícita do compartimento (ver equação 15a).

O padrão é usar todos os valores distintos na variável de suavização, até 500 valores distintos. Quando

mais de 500 valores distintos são detectados, o comando usa as opções nós(0) km(2). Enquanto

não há nada que indique que esta regra fornece o número mais apropriado de nós e

largura implícita da caixa ( ), simulações apresentadas em Hoti e Holmström (2003) sugerem que o valor aproximado

critério é razoável se <0,3 ao usar kernels gaussianos, e < 0,1, ao usar


ÿÿ ÿÿ

epanechnikov, núcleos bipesados e triangulares.

O uso da opção nós(-2) solicita a estimativa dos critérios CV para todos os valores distintos em

a variável condicionante.

trimsample(trimvar) fornece o nome de uma variável binária (trimvar) que indica o

subamostra dos dados que serão usados para a estimativa do critério. Observações com trimvar

iguais a zero não são usados para Cálculo. Isto desempenha o papel da função de pesagem ( ).

A opção plot solicita o comando para plotar todas as larguras de banda ÿ e (ÿ) estimadas

internamente. Isto pode ser usado para inspeção visual para verificar se a largura de banda está realmente minimizando o

função objetiva.

Após terminar o processo de minimização, o programa armazena a largura de banda ideal, o kernel

função e o nome da variável de suavização como globais: $opbw_, $kernel_ e $vcoeff_. Isso é

feito para que outros programas do pacote possam reutilizar essas informações.

3.2. Estimativa e inferência de modelo: vc_reg, vc_preg e vc_bsreg

3.2.1. Estimativa da matriz de variância-covariância

Conforme mostrado na seção 2, uma vez selecionada a largura de banda, a estimativa do SVCM é uma tarefa simples.

processo que requer três etapas:

13
Stata usa esta expressão para definir o número de compartimentos usados para um histograma como padrão.

15
Machine Translated by Google

S1. Selecione o ponto ou pontos de interesse para os quais o modelo será estimado. (normalmente um subconjunto
de todos os valores possíveis da variável de suavização),
S2. Construa os pesos apropriados do kernel, com base nos pontos de interesse, na função do kernel
ÿ

selecionada e na largura de banda ideal ÿ, e


S3. Construa a variável auxiliar (-), que irá interagir com todas as variáveis independentes do modelo.

Uma vez criadas as variáveis auxiliares, pode-se obter os coeficientes do modelo, bem como

seus gradientes, condicionais a todos os pontos de interesse selecionados, estimando a equação (9) usando kernel

mínimos quadrados ponderados como na equação (10). O próximo passo é a estimativa dos erros padrão do

parâmetros estimados para obtenção de inferências estatísticas do SVCM.

Seguindo Li et al. (2002) e Li e Racine (2007, 2010), um estimador viável para o

matriz de variância-covariância do SVCM, dado um ponto de interesse e largura de banda ÿ , pode ser obtido como

segue: 14

ÿ ÿ)
ÿÿ
ÿ( , ( ) ÿ) ÿ1( ÿ () ( ) )( ÿ ( ) ÿ) ÿ1
(20)
ÿ (,ÿ ÿ)= ÿ ÿ ÿ ÿ

ÿ ( ÿ( , ÿ ÿ) ) = ( ÿ
2
Onde está uma matriz diagonal onde o ÿ elemento é igual a ÿ (ÿ ÿ ) , e ÿ ( ) e são

definido como na equação (10). Há pouca orientação na literatura sobre no contexto do kernel

regressões. Li et al. (2002) e Li e Racine (2007, 2010) assumem = 1, o que é válido

assintoticamente. Observe, entretanto, que a expressão dada pela equação (17) é a mesma que a expressão robusta

erros padrão para mínimos quadrados ponderados. A prática padrão nesses casos é usar = , onde
ÿdim( )

dim( ) indica o número total de coeficientes que precisam ser estimados no modelo, e é o

tamanho da amostra. Em modelos semiparamétricos e não paramétricos, entretanto, é preciso diferenciar entre

tamanho da amostra N e tamanho efetivo da amostra (ver seção 3.3 observações esperadas do kernel).

Seguindo a literatura sobre estimação de erros padrão robustos sob heterocedasticidade (Long

2
e Ervin 2000), também é possível estimar a matriz de variância-covariância substituindo ÿ (ÿ ÿ ) com

14 De acordo com Li et al. (2002), a matriz de variância e convariância para o SVCM pode ser estimada

consistentemente pela equação 20 se ( | , ) = 0, com heterocedasticidade condicional de forma desconhecida 2( , ),


e se (. ) for uma função kernel padrão de segunda ordem . Além disso, também assume que como ÿ ÿ e ÿ ÿ 0, ÿ ÿ ÿ.

16
Machine Translated by Google

2
ÿ (ÿ ) 2
ÿ ÿ
)
na matriz diagonal D, onde (,ÿ ÿ ) é a estatística de alavancagem conforme definida
1ÿ ( ,ÿÿ) ou ( 1ÿ
ÿ (ÿ
( ,ÿÿ) )

na equação (13). Neste caso = 1. Isto equivale à estimativa dos erros padrão HC2 e HC3.

Segundo Long e Ervin (2000), para o modelo linear padrão, HC2 e HC3 superam o robusto

erros padrão quando o modelo é heterocedástico e as amostras são relativamente pequenas (N<250). Enquanto lá

não há estudo formal sobre o uso dos erros padrão HC2 e HC3 quando combinados com SVCM, é meu

conjeturar que esses erros padrão também podem ser melhores do que erros padrão robustos quando o

o tamanho esperado/efetivo da amostra é pequeno.

Há um debate sobre o uso de matrizes analíticas de variância-covariância na estrutura

de regressões de kernel não paramétricas. Cattaneo e Jansson (2018) defendem o uso de reamostragem

métodos, em amostras específicas pareadas com bootstrap, para obter estimativas corretas da variância-covariância

matriz dos coeficientes estimados ao estimar modelos semiparamétricos baseados em kernel. Na verdade, eles

indicam intervalos de confiança baseados em percentis fornecem melhor cobertura porque bootstrap emparelhado

corrige automaticamente o viés de estimativa não negligenciável.15 Em termos gerais, o bootstrap emparelhado

O procedimento, adaptado à estimativa do SVCM, é o seguinte:

ÿ( ,ÿ )
ÿ

S1. Usando a amostra original = [ , , ], Estime os coeficientes ÿ( e todos ÿ ÿ )e , usando


ÿ

a largura de banda ÿ , os pontos de interesse.

S2. Obtenha uma amostra inicializada emparelhada com substituição da amostra original e
ÿ

ÿ ( ,ÿ )ÿ
ÿ

estimativa 1(,ÿÿ)e 1
usando os mesmos pontos de interesse de S1 e largura de banda ÿ .

S3. Repita S2 vezes. Os erros padrão bootstrap para os coeficientes são definidos como:

ÿÿ)
ÿÿ ÿ (,ÿ)=ÿ ÿ( , ÿ
ÿ ( ÿ( , ÿ 1 [ ÿ))
' (21)
ÿ

( , ÿ ÿ ) ÿ (ÿ ( , ÿ ÿ )) ( , ÿ ÿ ) ÿ (ÿ ( , ÿ ÿ ))
1
= ÿ ÿ ÿ ÿ

( , ÿÿ) (,ÿ ( , ÿÿ) (,ÿ


ÿ( ÿ ) ) ] [ÿ ÿ( ÿ))]

15
Deve-se notar que Cattaneo e Jansson (2018) não analisam explicitamente a validade de suas descobertas no âmbito
do SVCM, mas fornecem conclusões gerais para o que ele chama de estimadores semiparamétricos baseados em kernel.
Como referência, o kernel npregress relata os intervalos de confiança percentuais como padrão, usando um procedimento
de reamostragem inicializado emparelhado.

17
Machine Translated by Google

ÿ ÿ ÿ ÿ
ÿ ÿ

Onde (,ÿ ( ,ÿ ) são vetores contendo todos os coeficientes (,ÿ ( ,ÿ )


ÿ)e ÿ)e

que foram estimados para cada amostra bootstrap = 1…. O intervalo de confiança percentil é definido
ÿ ÿ
ÿ

como o inferior e superior quantis da distribuição empírica de (,ÿ ( ,ÿ ) , Onde é


2 2 ÿ)e

o nível de significância.

3.2.2. Implementação: vc_reg, vc_preg e vc_bsreg

vc_pack oferece três comandos para estimativa de SVCM, oferecendo diversas alternativas para

a estimativa da matriz de variância-covariância (ÿÿ). vc_reg e vc_preg estimam SVCM usando

equação (20) para a estimativa de ÿÿ, utilizando diferentes definições para o erro do modelo ÿ (ÿ ÿ ). Inicializado

erros padrão e intervalos de confiança baseados em percentis podem ser obtidos usando o comando

vc_bsreg.

vc_preg usa o erro SVCM definido como ÿ (ÿ ÿ ) = ÿ


ÿ ÿ( , ÿ ), para a estimativa do ÿ

ÿ ÿ
ÿ

erros padrão assintóticos. vc_reg, em vez disso, usa ,)=ÿ ' (-) ÿ( ,ÿ ),
(ÿ ÿ ÿ ÿ( , ÿ ÿ ) ÿ
ÿ

que é a aproximação linear local de para o ponto de referência.

Embora vc_preg produza os erros padrão assintóticos corretos, conforme sugerido por Li e Racine

(2007, 2010), pode ser lento porque o comando estima o SVCM para todos os pontos da suavização

obter o ÿ (ÿ ÿ ). vc_reg é mais rápido por padrão porque usa apenas a variável linear local para

ÿ
ÿ

aproximação , ) e não requer etapas adicionais para a estimativa dos erros padrão.
(ÿ ÿ

Esses erros padrão, no entanto, contêm erros de aproximação que aumentam quanto mais é do ponto

de referência , mas pode ser usado como uma primeira aproximação rápida para analisar os dados e traçar estatísticas

inferências. Empiricamente, vc_reg produz resultados comparáveis aos produzidos por vc_preg
ÿ
ÿ

porque as observações onde , ) e ÿ (ÿ ÿ ) diferem muito terão uma pequena influência no


(ÿ ÿ

estimativa dos erros padrão (equação 20) porque também provavelmente estará longe do ponto de referência.

Os três comandos compartilham a mesma sintaxe básica:

18
Machine Translated by Google

vc_[bs|p]reg depvar indepvar [se] [em], [vcoeff(svar)

kernel(kernel) bw(#) k(#) klist(numlist)]

Semelhante a vc_bw[alt], depvar é a variável dependente , indepvar são o conjunto de

variáveis explicativas ( ) que terão efeito linear no depvar, condicionadas à suavização

variável svar ( ). kernel(.) e bw(#) são usados para fornecer informações específicas sobre o

estimativa do modelo. A opção padrão é usar informações armazenadas em $vcoeff_, $kernel_ e

$opbw_.

Como a riqueza do SVCM vem da estimativa dos efeitos lineares em função de

a variável de suavização , estes comandos oferecem duas alternativas para selecionar os pontos de interesse

qual as regressões locais serão estimadas. A opção k(#), que deve ser igual ou maior que 2,

solicitações para estimar regressões usando pontos equidistantes entre o 1º e o 99º percentil de svar.

solicitação klist (numlist) para estimar a regressão linear local usando cada número da lista numlist

como ponto de referência. Quando klist() contém um único número, a saída de regressão padrão é

relatado. Caso contrário, quando k(#) ou klist(numlist) são usados para estimar 2 ou mais modelos,

vc_[bs|p]reg não produz saída, mas armazena os betas e as matrizes de variância-covariância para cada

regressão como uma matriz separada em e(). Esta informação pode ser usada para criar gráficos dos coeficientes

através de svar. Tanto vc_reg quanto vc_preg produzem erros padrão robustos por padrão (equação 20), mas

também pode relatar erros padrão HC2 e HC3 usando hc2 ou hc3 como opções. Erros padrão agrupados

também são possíveis usando a opção cluster(cluster varname), mas não podem ser combinados com HC2

ou opções HC3.

Porque vc_preg requer erros de informação completos para a estimativa da variância-covariância

alavancagem, por padrão, o comando obterá previsões para os erros ÿ (ÿ) e matriz de estatísticas de

( , ÿ), usando todos os valores distintos da variável de suavização (svar). Porque isso pode ser

computacionalmente caro, semelhante à nossa discussão sobre o cálculo dos critérios de validação cruzada, é

é possível usar as opções nós() e km() para reduzir o número de regressões estimadas internamente.

19
Machine Translated by Google

Este comando usa as mesmas opções padrão de vc_[alt]bw. Quando as opções de categorização são usadas, o

erros e aproximações de alavancagem definidos em (16a-16c) são implementados. Alternativamente, também é

alavancagem possíveis para fornecer ao comando erros amostrais previamente estimados


ÿ (ÿ ÿ ))
( e estatísticas de

( ( , ÿ ÿ )) usando as opções err(err varname) e lev(lev varname).

vc_bsreg estima erros padrão de bootstrap usando uma estratégia de bootstrap emparelhada. Seguindo

a sintaxe do comando bootstrap, pode-se especificar informações para strata() e

cluster(), bem como definir um seed() para a geração reproduzível das amostras aleatórias. O

o número padrão de amostras de bootstrap é 50, mas isso pode ser alterado usando a opção reps(#). Em

além dos erros padrão inicializados, vs_bsreg também armazena o percentil de confiança de 95%

intervalo, mas pode ser alterado para outros níveis usando a opção pci(#), usando qualquer número entre 0 e

100.

Ao estimar uma única equação, vc_reg, vc_preg e vc_bsreg armazenam os 2

variáveis no conjunto de dados: _delta_, contendo - , e _kwgt_ contendo o kernel padronizado

pesos (veja a próxima seção).

3.3. Pós-estimação do modelo: vc_predict e vc_test

vc_pack fornece dois comandos que podem ser usados para obter estatísticas resumidas do modelo, como

bem como relatar alguns testes para especificação de modelos contra alternativas paramétricas. O primeiro comando,

vc_predict, tem uma sintaxe semelhante a vc_[alt]bw e vc_[p|bs]reg:

vc_predict indepvar depvar, [vcoeff(svar) kernel() bw() nós()

km() teste] [yhat(newvar) res(newvar) lvrg(newvar) looe(newvar) teste]

Além das opções descritas anteriormente, vc_predict pode ser usado para obter previsões

do modelo ÿ (ÿ ÿ ) -yhat(newvar)-, o resíduo do modelo ÿ (ÿ ÿ ) -res(newvar)-, a alavancagem

estatística ( , ÿ) -lvrg(newvar)-, ou o erro de deixar de fora ÿ(ÿ ÿ ) -looe(newvar)

(equação 12 e 13). Cada uma dessas opções requer a especificação de um novo nome de variável (newvar) para

20
Machine Translated by Google

armazenar as informações especificadas. Também pode-se usar as opções nós() e km() para acelerar o

calcular o processo, caso em que são utilizadas as aproximações descritas em (16a-16c).

Os resíduos e a alavancagem deste comando podem ser usados, por exemplo, para a estimativa do SVCM

usando vc_preg. Este comando também fornece algumas informações básicas sobre o modelo, bem como

execute alguns testes de especificação quando a opção test for usada. A próxima seção descreve os métodos

e fórmulas relatadas por este comando.

3.3.1.Log de erros de exclusão quadrada média

Considere o SVCM descrito na equação (6). Dada a variável de suavização (svar), kernel

função (kernel()) e largura de banda (bw()), vc_predict relata o log da média quadrada da saída

erro único:

2
ÿ (ÿ)
registro
1- (22)
= log(ÿ ÿ (-
| ==1
( , ÿ) ) )

quando nenhuma opção de binning é usada, ou sua aproximação:

ÿ
2
- ÿ

(ÿ)
registro
1- (23)
= log(ÿ ÿ ÿ (
=1 ÿÿ | =
ÿ (ÿ, ÿ) ) )

quando opções de binning (nós() km()) são usadas. Esta é a mesma estatística usada para o modelo

seleção, exceto que não utiliza o fator de ponderação ( ) para seu cálculo.

3.3.2.Qualidade de ajuste

vc_predict produz duas medidas de estatística de qualidade de ajuste que direcionam os análogos para o padrão

modelos lineares. O primeiro é baseado na decomposição padrão da soma dos quadrados:


2
ÿ( ÿ ÿ (ÿ))
2 1= 1ÿ=1ÿ
2 (24)
ÿ(-ÿ)

Qual é o mesmo usado pelo kernel npregress. Porque esta estatística é conhecida por
2
produzir resultados indesejáveis, como valores negativos para 1, vc_predict também relata a qualidade de

estatística de ajuste sugerida em Henderson e Parmeter (2015):

21
Machine Translated by Google

2
2
= (ÿ( ÿ ÿ)( ÿ 2(ÿ) ÿ ÿ))
2 2 (25)
ÿ(-ÿ) ÿ(ÿ(ÿ) ÿ ÿ)
ÿ
ÿ

Quando opções de categorização são usadas, ÿ (ÿ) é substituído por (ÿ) nas equações (24) e (25).

3.3.3.Modelo e Graus de Liberdade Residuais

O número efetivo de graus de liberdade é uma estatística que se mostrou útil na literatura de

econometria não paramétrica para comparação de modelos com diferentes tipos de suavizadores. Seguindo

a terminologia de Hastie e Tibshirani (1990), considere qualquer modelo paramétrico e não paramétrico
ÿ ÿ

com uma matriz de projeção de dimensão × tal que = , onde é um vetor × 1 do

valores previstos correspondentes a qualquer modelo específico. Hastie e Tibshirani (1990) enfatizam dois

estimadores para a estimativa do número de graus de liberdade:

1 =() (26a)

2 = (2 ÿ ÿ) (26b)
ÿ1
No contexto de modelos de regressão linear, onde a matriz de projeção = = ( ÿ ) ,

essas definições são equivalentes entre si. No entanto, no caso de regressões de kernel e penalizações

regressões spline suaves, a matriz não é simétrica e as definições acima de graus de

a liberdade será diferente uma da outra. 1 é comumente usado como uma aproximação do número de graus

de liberdade do modelo, enquanto - 2 é usado como o número de graus de liberdade residuais.

Para o caso específico do SVCM, a matriz de projeção S é definida da seguinte forma:

ÿ1
(27)
ÿ ÿ( )
= ÿÿ [ ÿ ÿ( ) ]
=1

Onde ÿ é uma matriz × com o ÿ elemento diagonal é igual a 1 se = , e zero

em outro lugar. Isto implica que a primeira medida de graus de liberdade é equivalente a:

(28)
1
=()=ÿ = ÿ ( , ÿ)
=1 =1

22
Machine Translated by Google

A segunda medida de graus de liberdade é computacionalmente mais difícil de estimar, pois

2
requer operações. Como alternativa, Hastie e Tibshirani (1990) sugerem usar o seguinte

aproximação:

= (2 ÿ ÿ) ÿ 1,25 ( ) ÿ 0,5 = 1,25 ÿ0,5 (29)


2 1

relatórios vc_predict 1 e- 2 como medidas de modelo e graus de liberdade residuais,

respectivamente. Quando opções de categorização são usadas, ÿ) é substituído por ÿ ( ÿ, ÿ) na equação (28). ( ,

3.3.4. Observações esperadas do kernel

Uma das desvantagens da análise de regressão não paramétrica é o rápido declínio da taxa efetiva

número de observações utilizadas para a estimativa dos parâmetros de interesse, maior será o número de

variáveis explicativas utilizadas no modelo (a maldição da dimensionalidade), e menores são as larguras de banda. Para

fornecer ao usuário uma estatística resumindo a quantidade de informações usadas na estimativa

processo, é prática comum relatar |ÿ| como o número esperado de observações do Kernel ( ),

onde |ÿ| é o produto de todas as larguras de banda das variáveis explicativas.16 Esta estatística, no entanto, pode ser

errôneo.

Considere a estimação de um modelo com uma única variável independente, para o qual um valor ótimo

largura de banda ÿ ÿ é selecionado. Se a escala da variável independente duplicar, a largura de banda ideal do

variável redimensionada dobrará, mas ( ) deve permanecer o mesmo. A estatística |ÿ|, no entanto, sugere

que o ( ) também dobrou.17

Como medida alternativa ao |ÿ|, proponho uma estatística baseada no que denomino padronizado

pesos do kernel ( , , ÿ), que são definidos como:18

1 (30)
( , , ÿ) = ( ÿ ÿ ) = (0) (-ÿ)

É garantido que os pesos deste kernel fiquem entre 0 e 1. Embora esta mudança na escala de local

pesos não têm impacto na estimativa das estimativas pontuais dos modelos, fornece uma visão mais intuitiva

16
O kernel npregress relata esta estatística como “observações esperadas do kernel”.
17
Para evitar resultados inesperados, o kernel npregress define o valor máximo ( ) como o tamanho da amostra.
18
Consulte o Apêndice A para obter uma lista de funções padronizadas de peso do kernel.

23
Machine Translated by Google

compreensão do papel dos pesos no processo de estimativa. Observações onde é igual a vontade

recebem peso 1, e pode-se considerar que as informações daquela observação são totalmente utilizadas quando

estimar a regressão linear local. Se uma observação tiver um (.) de, digamos, 0,5, pode-se considerar que o

a informação contribuída por essa observação para a regressão do kernel local é metade de uma observação onde

= . Finalmente, observações com (. ) = 0 não contribuem em nada para a estimativa local. Esses

pesos de kernel podem ser usados para estimar o número efetivo de observações ( ( )) usado para
19
estimativa dos parâmetros de interesse para um determinado ponto de referência:

(31)
()=ÿ(ÿÿ)
=1

Porque as áreas com maior densidade usam mais observações do que as áreas onde z é escasso

distribuído, o número esperado de observações do kernel ( ) pode ser definido como a ponderação simples

média de ( ) usando todas as observações da amostra. Isso leva ao seguinte:

1 1 (32)
( )= =
ÿ() ÿ ÿ (-ÿ)
=1 =1 =1

Onde está o número de observações I com = . Quando as opções de categorização são usadas, o

estimador é:

(33a)
ÿ

(ÿ) = ÿ (- ÿ)
=1

1 1
ÿ

(33b)
ÿ( )= =
ÿ (ÿ) ÿ ÿ (-ÿ)
=1 =1 =1

Onde está o número de observações que se enquadram no ÿ lixo.

Se for contínua, esta estatística tem duas propriedades convenientes em relação à largura de banda ÿ:

limão
ÿÿ0
( ) = 1 & limite
ÿÿÿ
( )= (34)

19
Essa estatística também pode ser estendida a modelos de regressão de kernel multivariáveis, simplesmente usando os kernels
padronizados em todas as variáveis independentes.

24
Machine Translated by Google

Isso fornece uma compreensão mais intuitiva do efeito que a largura de banda tem na média

quantidade de informações utilizadas para a estimativa de regressões locais em comparação com o padrão paramétrico

modelo. No mínimo, haverá uma observação para a estimativa da estimativa local, e no

na maioria, todos os dados serão usados para cada estimativa local. Esta estatística também é relatada após

vc_predict.

3.3.5.Testes de especificação

Além de relatar as estatísticas resumidas básicas descritas acima, vc_predict também pode

produz testes de especificação básica quando a opção test é especificada. Os testes de especificação seguem

Hastie e Tibshirani (1990) e fornecem o que os autores chamam de teste F aproximado , comparando o SVCM

para 4 alternativas paramétricas:

0: = [ '; ] + com = + 1 (35a)


0

1: = [ '; ÿ '] + com = 2 (35b)


1

2: = [ '; ÿ '; 2 ÿ + com = 3 (35c)


']2

3: = [ '; ÿ '; 2 ÿ '; 3 ÿ + com = 4 (35d)


']3

Onde é o número de variáveis explicativas definidas mais a constante. Definir - 2 como

os graus de liberdade residuais do SVMC (ver equação (26)), e ser o resíduo previsto para

o modelo paramétrico (0, 1, 2 ou 3). A estatística F aproximada é definida como:

ÿ2 _ -
=
ÿ ÿ ÿ ÿ (ÿ ÿ ) 2 (36)
ÿ 2
-
ÿ ÿ (ÿ ÿ) 2
2

A hipótese nula ( 0) é que o modelo paramétrico (0, 1, 2 ou 3) está especificado corretamente, enquanto

a hipótese alternativa é que afirma que o SVCM está correto. Embora a distribuição exata desta estatística seja

desconhecido, Hastie e Tibshirani (1990):p65 sugere o uso de valores críticos para uma -estatística com -

2 graus de liberdade no numerador e, ÿ graus de liberdade no denominador, um valor aproximado


2

25
Machine Translated by Google

2 é
teste para uma inspeção rápida da especificação do modelo. Quando opções de categorização são usadas ÿ ÿ (ÿ ÿ )
ÿ
ÿ
2
substituído por ÿ (ÿ ÿ ) (equações 16a-16c).

3.3.6.Teste de especificação de Cai, Fan e Yao (2000): vc_test

Como a distribuição exata da estatística F aproximada não é conhecida, vc_pack também oferece

a implementação do teste de especificação proposto por Cai, Fan e Yao (2000), baseado em um teste selvagem

abordagem bootstrapped, conforme descrito em Henderson e Parmeter (2015). A estatística de teste é construída em

de forma semelhante à estatística F aproximada, mas sem ajuste para as diferenças em graus de

liberdade:

ÿ2 _ 2
ÿ
ÿ ÿÿ ÿ (ÿ ÿ ) (37)
=
2
ÿ ÿ (ÿ ÿ)

Onde corresponde aos resíduos do modelo paramétrico, ver equações (35a-35d), e

ÿ (ÿ ÿ ) corresponde aos resíduos do SVCM. A hipótese nula ( 0), que afirma que o
ÿ

modelo paramétrico for especificado corretamente, é rejeitado em favor do SVCM se a estatística está acima de alguns

valor crítico.

Porque a distribuição da estatística não é conhecido, um procedimento inicializado selvagem pode ser

usado para obter sua distribuição empírica usando o seguinte procedimento:

S1. Definir o resíduo a ser previsto com base no modelo paramétrico (35a-35d).
ÿ
S2. Construa uma nova variável dependente , usando um erro de inicialização selvagem de dois pontos da seguinte maneira:

ÿ
ÿ

,
= (-ÿ) +
ÿ (1 + ÿ52 ÿ ÿ5)
1+ÿ5
Onde segue uma distribuição de Bernoulli com p = ( 2ÿ5 )
ÿ
S3. Usando a nova variável dependente, a ,
, reestimar o modelo paramétrico e SVCM, usando
ÿ

, e calcule a estatística
ÿ ÿ
largura de banda ideal ÿ
S4. Repita S2 e S3 um número suficiente de vezes para obter a distribuição empírica da estatística.

Se é maior que o percentil superior da distribuição empírica obtida através da natureza

procedimento bootstrapped, pode-se rejeitar a hipótese nula.

O comando vc_test implementa este teste de especificação usando a seguinte sintaxe.

26
Machine Translated by Google

vc_test indepvar depvar, [vcoeff(svar) kernel() bw() nós() km()

grau(#d) wbsrep(#wb)]

Semelhante aos comandos anteriores, é necessário especificar as variáveis dependentes e independentes no

modelo, mas especificar vcoeff(svar), kernel e largura de banda são opcionais. O programa usa

as informações armazenadas por vc_[alt]bw por padrão. Como o teste requer a estimativa do todo

modelo várias vezes, pode-se especificar as opções nós() e km() para implementar o binned
ÿ
ÿ

versão da estatística e aumentar a velocidade dos cálculos. Isso substitui ÿ (ÿ ÿ ) por (ÿ ÿ ) em

equação (37).

grau(#d) é usado para definir o modelo sob a hipótese nula. #d pode assumir os valores 0, 1,

2 ou 3, que corresponde aos modelos descritos nas equações (35a)-(35d). O padrão é grau(0)

wbsrep(#wb) é usado para indicar o número de repetições de bootstrap selvagens usadas para o

estimativa da distribuição empírica da estatística. O número padrão de repetições é 50. O

comando informa os percentis 90, 95 e 97,5 da distribuição empírica de para serem usados como

valores críticos.

3.4. Visualização do modelo: vc_graph

Uma característica atraente dos modelos semiparamétricos em geral, e do SVCM em particular, é a

potencial para visualizar efeitos em toda a gama das variáveis explicativas que entram no modelo não

parametricamente. Esses gráficos podem ser usados para uma interpretação mais rica dos efeitos marginais. Conforme descrito em

seção 3.2, quando vc_[bs|p]reg é usado para estimar modelos para mais de 1 ponto de referência, o

O comando não produz relatório, mas armazena os coeficientes, variações e intervalos de confiança em e().

vc_graph é um comando que pode ser usado como ferramenta de pós-estimação para produzir gráficos de

coeficientes das variáveis independentes, ou seus gradientes, utilizando as informações estimadas via

vc_[bs|p]reg. O comando usa a seguinte sintaxe:

vc_graph [indevpar], [delta constante ci(#) ci_off gráfico pci(stub)

rarea addgraph() xvar(varname)]

27
Machine Translated by Google

indevpar pode conter um subconjunto de todas as variáveis independentes usadas na estimativa do

SVCM. Se variáveis fatoriais e interações foram usadas, o mesmo formato deve ser usado ao usar

vc_gráfico.

constante é usada para representar graficamente os coeficientes variáveis associados à constante.

()
solicitação delta vc_graph para traçar os gradientes das variáveis listadas em indevpar. O

o padrão é traçar os coeficientes ( ). Se as opções delta e constante forem utilizadas, vc_graph irá

plote o coeficiente da variável auxiliar (-).

ci(#) define o nível dos intervalos de confiança, usando qualquer número entre 0-100. O padrão é

95%. Os intervalos de confiança podem ser omitidos do gráfico usando a opção ci_off.

Quando o SVCM é estimado usando vc_bsreg, também é possível solicitar usando o método baseado em percentil

intervalos de confiança usando a opção pci. O nível de confiança, neste caso, deve ser definido quando o

o modelo é estimado usando vc_bsreg.

Os intervalos de confiança nos números usam gráficos de intervalo com picos limitados por padrão, mas gráficos com área

o sombreamento pode ser solicitado utilizando a opção rarea.

Todos os gráficos produzidos por vc_graph são armazenados na memória com o nome “grph#”, que são

numerados consecutivamente. Os nomes dos gráficos da loja podem ser alterados usando graph(stub), onde

stub seria usado em vez de grph para armazenar os gráficos na memória. Gráficos simples podem ser adicionados a este gráfico

usando a opção addgraph() e especificando entre aspas as opções do gráfico.

Finalmente, vc_graph oferece a opção xvar(xvarname) para usar uma variável diferente para traçar o

coeficientes variáveis suaves, desde que esta variável xvarname seja uma transformação monotônica do

variável original svar usada na estimativa. Por exemplo, digamos que o modelo SVCM foi estimado

usando a variável svar como variável de suavização porque possui menos áreas com distribuição escassa. O

o pesquisador, no entanto, está interessado em traçar coeficientes em svar1, em vez de svar. Se svar1 for um

transformação monotônica de svar, usando a opção xvar(svar1) solicita a plotagem de coeficientes usando

28
Machine Translated by Google

svar1 no eixo horizontal. Internamente, o mapeamento entre os pontos de referência de svar a

svar1 é feito usando aproximações lineares locais, se os valores exatos não estiverem disponíveis.20

4. Ilustração: Determinantes das citações ao dirigir embriagado: o papel das multas

Para esta ilustração, utilizo o conjunto de dados fictício dui.dta, apresentado na seção 2.4, para analisar

como o número de citações por dirigir embriagado é afetado pelo fato de uma jurisdição tributar ou não o álcool, se

existe uma faculdade na jurisdição, ou se a jurisdição é em uma cidade pequena, média ou grande,

condicionada a multas impostas por dirigir embriagado.

Começo a análise usando vc_bw para selecionar a largura de banda ideal usando o cruzamento de deixar um de fora.

estratégia de validação e use as opções padrão.

vc_bw citações impostos faculdade i.csize, vcoeff (multas)


Kernel: gaussiano
Iteração: 0 BW: 0,5539761 CV: 3,129985
Iteração: 1 BW: 0,6870520 CV: 3,120199
Iteração: 2 BW: 0,7343729 CV: 3,119504
Iteração: 3 BW: 0,7397456 CV: 3,119497
Iteração: 4 BW: 0,7397999 CV: 3,119497

Largura de banda armazenada em $opbw_ global


Função do kernel armazenada no $kernel_ global
Nome da variável VC armazenado em $vcoeff_ global

O comando sugere uma largura de banda de 0,7398 , sugerindo que a largura de banda usada na seção 2.4 pode

têm estado suavizando os resultados.

A seguir, obtenho estatísticas resumidas simples do modelo usando vc_predict. Solicito também

relatar o teste F aproximado para especificação do modelo em relação aos modelos onde multas são adicionadas como um

interação no modelo.

. vc_predict citações impostos faculdade i.csize, vcoeff (multas) teste


Modelo de coeficientes variáveis suaves
Variável Dep: citações
Variáveis independentes: faculdade de impostos i.csize
Variável de suavização: multas
Kernel: gaussiano
Largura de banda : 0,73977
Registrar MSLOOER : 3.11950
Dof residual : 477.145

20
Não há discussão teórica robusta a respeito da utilização de transformações de variáveis independentes para seleção e
estimação de modelos não paramétricos e semiparamétricos. Porém, minha conjectura é que as transformações monotônicas
podem ser utilizadas como alternativa às larguras de banda variáveis, ao permitir que mais informações sejam utilizadas em
áreas com baixa densidade, reduzindo a variância do estimador.

29
Machine Translated by Google

Modelo DOF : 18.684


RSS : 10323.126
SSE : 37886.249
TSM : 47950.838
R2-1 1-SSR/SST : 0,78471
R2-2 : 0,79011
E (obs. do kernel) : 277.828

Especificação Teste estatística F aproximada


H0: Modelo Paramétrico
H1: SVCM y=x*b(z)+e
Modelos paramétricos alternativos:
Modelo 0 y=x*b0+g*z+e
Estatística F: 8,24686 com pval 0,00000
Modelo 1 y=x*b0+g*z+(z*x)b1+e
Estatística F: 5,80948 com pval 0,00000
Modelo 2 y=x*b0+gz+(z*x)*b1+(z^2*x)*b2+e
Estatística F: 0,75986 com pval 0,65167
Modelo 3 y=x*b0+gz+(z*x)*b1+(z^2*x)*b2+(z^3*x)*b3+e
F-Stat: -2,07335 com pval 1,00000

O relatório indica que o modelo utiliza aproximadamente 18,7 graus de liberdade (equação 28),

2
enquanto os resíduos possuem 477,15 graus de liberdade (equação 29). O modelo possui isso é maior

do que o modelo de regressão simples ( 2 =0,718), mas é um pouco menor que o 2


obtido usando o

2 2
modelo não paramétrico completo ( =0,81).21 A segunda medida de (ver equação (25)) é maior que o

medida padrão de qualidade de ajuste. Finalmente, o número esperado de observações do kernel é 277,8

(equação 32), sugerindo que, em média, metade de toda a amostra é utilizada para cada regressão local.

O teste F aproximado sugere a rejeição dos modelos 0 e 1, em favor do SVCM, mas não se pode

rejeite a hipótese nula de que um modelo com interação quadrática com finos está especificado corretamente. O

o ajuste local do modelo com interação cúbica parece ser melhor que o SVCM, o que explica por que o

A estatística F é negativa. Também uso vc_test para implementar o teste de especificação alternativa, comparando o

mesmos modelos paramétricos para o SVCM. Para este exemplo, utilizo 200 repetições, utilizando a opção

wbsrep(200). Porque o Modelo 0 foi rejeitado de forma esmagadora e o modelo 3 parece se ajustar melhor

que o SVCM, apenas os resultados comparando com os modelos 1 e 2 são mostrados:

vc_test citações impostos faculdade i.csize, grau (1) wbsrep (200) semente (1)
Teste de especificação.
H0: y=x*b0+g*z+(z*x)*b1+e
H1: y=x*b(z)+e

21 2 vem de onde.
Consulte o arquivo do que acompanha este documento para ver onde isso

30
Machine Translated by Google

Estatística J :0,16869
Valores Críticos
90º percentil: 0,09382
95º percentil: 0,10351
97,5º percentil: 0,10686

vc_test citações impostos faculdade i.csize, grau (2) wbsrep (5) semente (1)
Teste de especificação.
H0: y=x*b0+g*z+(z*x)*b1+(z^2*x)*b2+e
H1: y=x*b(z)+e
Estatística J :0,01410
Valores Críticos
90º percentil: 0,01177
95º percentil:0,01490
97,5º percentil: 0,01726

Os resultados são consistentes com a estatística F aproximada. No primeiro caso, a estatística do

o modelo é 0,16869, que é maior que o percentil 97,5 da distribuição empírica da estatística,

sugerindo a rejeição do nulo de uma interação linear. O teste comparando com o quadrático paramétrico

modelo de interação é menos conclusivo. A estatística é 0,0141, o que sugere rejeição do nulo em 10%

de confiança, mas o nulo não pode ser rejeitado em 5%. Apesar desses resultados, prosseguirei e estimarei o

SVMC.

Para fornecer uma visão geral dos resultados semelhantes aos resultados dos modelos de regressão padrão,

Apresento os efeitos condicionais usando os percentis 10, 50 e 90 das multas como pontos de referência,

que correspondem a 9, 10 e 11. Isso é feito através dos três comandos disponíveis em vc_pack, usando

a sintaxe básica:

vc_reg citações impostos faculdade i.csize, klist (9)


vc_preg citações impostos faculdade i.csize, klist (9)
vc_bsreg citações impostos faculdade i.csize, klist(9) seed(1)

vc_reg citações impostos faculdade i.csize, klist (10)


vc_preg citações impostos faculdade i.csize, klist (10)
vc_bsreg citações impostos faculdade i.csize, klist(10) seed(1)

vc_reg citações impostos faculdade i.csize, klist (11)


vc_preg citações impostos faculdade i.csize, klist (11)
vc_bsreg citações impostos faculdade i.csize, klist(11) seed(1)

Os resultados dessas regressões são mostrados na tabela 1, colunas 2 a 4, mostrando os erros padrão

obtido com todos os três comandos (Robust, F Robust e Bootstrap). A coluna 1 apresenta os resultados para

31
Machine Translated by Google

o modelo de regressão padrão. Para o SVCM são fornecidas duas subcolunas. O da esquerda mostra

()
os efeitos condicionais ( ), enquanto o da direita mostra o gradiente desse efeito .

No geral, erros padrão robustos obtidos com a aproximação linear local (vc_reg) parecem

ser uma aproximação razoavelmente boa para os erros padrão robustos de informações completas (vc_preg), com o

maiores discrepâncias observadas em áreas onde a densidade da distribuição de finos é baixa (no topo e

fundo). Essas estimativas também são consistentes com os erros padrão inicializados (vc_bsreg).

32
Machine Translated by Google

Tabela 1 Determinantes do Número de Citações Mensais, condicionadas a Multas. SVCM

Número de citações mensais por dirigir embriagado OLS SVCM


(1) (2) (3) (4)
Multas=9 Multas=10 Multas=11
() () ()
() () ()

1 se as bebidas alcoólicas forem tributadas -4,494 -6,377 3,008 -3,959 -3,843 -0,0505 1.093
Erro padrão robusto (0,582) (1,147) (1,373) (0,496) (0,823) (0,736) (0,788)
F Robusto erro padrão (1,059) (1,210) (0,493) (0,787) (0,711) (0,751)
Bootstrapped std err 1 se (0,638) (1,322) (1,525) (0,498) (0,967) (0,812) (0,833)
cidade universitária; 0 caso contrário 5,828 9,871 -1,024 -4,578 5,305 -3,191 3,797
Erro padrão robusto (0,588) (1,113) (1,318) (0,516) (0,896) (0,888) (0,963)
F Robusto erro padrão (1,021) (1,164) (0,513) (0,836) (0,860) (0,915)
Erro padrão inicializado (0,634) (1,201) (1,381) (0,470) (0,972) (0,884) (0,926)
Tamanho da cidade

médio 5.492 6,734 -1,299 5,284 -2,332 3.051 -2.196


Erro padrão robusto (0,532) (0,973) (1,125) (0,535) (0,785) (0,782) (0,843)
F Robusto erro padrão (0,936) (1,069) (0,538) (0,786) (0,772) (0,831)
Bootstrapped std err (0,547) (0,932) (1,265) (0,588) (0,760) (0,833) (0,958)
grande 11,24 10,6014,99
-3,779-4,863
7,784 -2,691
Erro padrão robusto (0,571) (1,146) (1,373) (0,510) (0,852) (0,750) (0,764)
F Robusto erro padrão (1,071) (1,233) (0,509) (0,822) (0,741) (0,751)
Erro padrão inicializado (0,610) (1,095) (1,323) (0,553) (0,809) (0,749) (0,812)
Multas por dirigir embriagado em milhares de dólares -7,690 -3,673 -8,256 -4,906
Erro padrão robusto (0,384) (0,816) (1,327) (0,782)
F Robusto erro padrão (1,211) (0,792) (0,804)
Erro padrão inicializado (0,405) (1,473) (0,787) (0,810)
Constante 94,22 23,96 16,80 12,93
Erro padrão robusto (3,949) (1,168) (0,474) (0,746)
F Robusto erro padrão (1,099) (0,478) (0,737)
Erro padrão inicializado (4,117) (1,255) 500 (0,501) (0,819)
N Obs e Kobs 243,19 341,64 203,36

Nota: Robust std err corresponde à saída com vc_reg, F Erros padrão robustos foram estimados com vc_preg e erros
padrão bootstrapped com vc_bsreg. pesos de kernel padronizados com base no é definido como a soma de
ponto de referência (ver equação 31).

Para complementar as informações desta tabela, e antes de fornecermos uma interpretação do

resultados, a figura 2 fornece um gráfico com intervalos de confiança de 95% para os efeitos condicionais de todas as variáveis

no modelo, usando um conjunto predefinido de pontos de interesse. Primeiro, uso vc_preg para estimar o SVCM:22

vc_preg citações impostos faculdade i.csize, klist(7.4(.2)12)


Estimando modelos de coeficientes variáveis em 24 pontos de referência
Variável de suavização: multas
Função do kernel: gaussiana
Largura de banda : 0,73977
você : robusto
Estimando modelo completo

22
Os resultados usando procedimento bootstrapped e intervalos de confiança percentuais são fornecidos no arquivo anexo
ou mediante solicitação.

33
Machine Translated by Google

Mais de 1 ponto de referência especificado


Os resultados não serão salvos em forma de equação, mas como matrizes

A principal diferença com os exemplos anteriores é que a opção klist() contém uma lista de

números, ou pontos de referência, sobre os quais estou solicitando a estimativa do SVCM. Isso indica que

existem 24 pontos de referência, de 7,4 a 12. Terminada a estimativa, a figura 2 pode ser

reproduzido com os seguintes comandos:


vc_graph impostos faculdade i.csize,
gráfico combinar grph1 grph2 grph3 grph4

Figura 2. SVCM: Efeitos condicionais entre multas

Nota: Os números são obtidos como estão em vc_graph e combinados com a combinação de gráficos.

()
Se alguém estiver interessado nos gradientes , eles podem ser plotados usando os seguintes comandos.

vc_graph impostos faculdade i.csize, delta


gráfico combinar grph1 grph2 grph3 grph4

34
Machine Translated by Google

()
Figura 3. SVCM: Alteração dos efeitos condicionais entre multas

Nota: Os números são obtidos como estão em vc_graph e combinados com a combinação de gráficos.

Uma interpretação desses resultados pode ser dada da seguinte forma. Em geral, quando as bebidas alcoólicas são

tributados, o número de citações mensais por mês diminui em 4,5 unidades (tabela 1 col 1). Este efeito é

maior em jurisdições com multas baixas, com uma estimativa pontual variando de 15 a pouco menos de 4, em

jurisdições com níveis de multas acima de 10. Não podem ser observadas diferenças no efeito condicional para multa

()
níveis acima de 10. Isto é refletido pelo fato de que a estimativa de na figura 3 são estatisticamente iguais a

zero.

Se houver um campus universitário na cidade, o número de citações por mês é cerca de 5,8 maior. O

O impacto condicional da faculdade diminui à medida que as multas aumentam quase 10 pontos entre o mínimo e o

níveis máximos de multas na distribuição. Com base nas estimativas da figura 3, quando as multas são superiores

11, a mudança no efeito da faculdade nas citações não é mais estatisticamente significativa. Se a jurisdição for

35
Machine Translated by Google

localizado em uma cidade média, o impacto no número de citações é relativamente pequeno, estatisticamente significativo,

mas não mostra nenhuma mudança estatisticamente significativa entre as multas. Finalmente, se a jurisdição estiver localizada em uma grande área

cidade, o impacto condicional é grande, variando de 30 a 10 citações adicionais por mês, diminuindo à medida que

as multas aumentam. Algo a ser notado nesses números é que a maioria das estimativas para multas menores de 9 anos mostram

grandes intervalos de confiança porque menos de 10% dos dados ficam abaixo deste limite.

5. Conclusões

Modelos de coeficientes variáveis suaves são uma alternativa aos modelos não paramétricos completos que podem ser usados para

analisar as relações entre variáveis dependentes e independentes sob a suposição de que essas

os relacionamentos são lineares, condicionados a um conjunto menor de variáveis explicativas. Eles são menos afetados pela

problema da maldição da dimensionalidade porque menos variáveis entram na estimativa de forma não paramétrica. Nisso

artigo, forneço uma revisão da seleção, estimativa e teste de modelos para esses tipos de modelos, e

introduzimos um conjunto de comandos, vc_pack, que visam facilitar a estimação de tais modelos quando

presume-se que os coeficientes variam em relação a uma única variável de suavização. Uma aplicação empírica

ilustra a utilidade do procedimento.

6. Referências

Cai, Zongwu, Mitali Das, Huaiyu Xiong e Xizhi Wu. 2006. "Coeficiente funcional instrumental

variáveis modelos." Revista de Econometria 133 (1):207-241. faça:

https://doi.org/10.1016/j.jeconom.2005.03.014.

Cai, Zongwu, Jianqing Fan e Qiwei Yao. 2000. "Modelos de regressão de coeficiente funcional para

Séries temporais não lineares." Journal of the American Statistical Association 95 (451):941-956. doi:

10.1080/01621459.2000.10474284.

Cameron, A. Colin e Pravin K. Trivedi. 2005. Microeconometria: Métodos e Aplicações. Novo

Iorque: Cambridge University Press.

Cattaneo, Matias D. e Michael Jansson. 2018. "Estimadores semiparamétricos baseados em kernel: pequenos

Assintótica de largura de banda e consistência de bootstrap." Econometrica 86 (3):955-995. doi:

10.3982/ecta12701.

Centorrino, Samuele e Jeffrey Scott Racine. 2017. "Modelos de coeficientes variáveis semiparamétricos com

Covariáveis endógenas." Annals of Economics and Statistics (128):261-295.

36
Machine Translated by Google

Delgado, Michael S., Deniz Ozabaci, Yiguo Sun e Subal C. Kumbhakar. 2019. "Coeficiente suave

modelos com variáveis ambientais endógenas." Revisões Econométricas:1-23. faça:

10.1080/07474938.2018.1552413.

Hainmueller, Jens, Jonathan Mummolo e Yiqing Xu. 2018. "Quanto devemos confiar nas estimativas

de Modelos de Interação Multiplicativa? Ferramentas simples para melhorar a prática empírica." Político

Análise 27(2):163-192. doi: 10.1017/pan.2018.46.

Hastie, Trevor e Robert Tibshirani. 1990. Modelos Aditivos Generalizados. Nova York: Chapman e
Salão.

Hastie, Trevor e Robert Tibshirani. 1993. "Modelos de coeficientes variáveis". Diário do Real

Sociedade Estatística. Série B (Metodológica) 55 (4):757-796.

Henderson, Daniel J. e Christopher F. Parmeter. 2015. Econometria Não Paramétrica Aplicada.

Cambridge, Reino Unido: Cambridge University Press.

Hirano, Keisuke e Guido W. Imbens. 2004. "O Índice de Propensão com Tratamentos Contínuos."
-
Modelagem Bayesiana Aplicada e Inferência Causal a partir de Perspectivas de Dados Incompletos: 73-84. faça:
doi:10.1002/0470090456.ch7.

Hoover, Donald R., John A. Rice, Colin O. Wu e Li-Ping Yang. 1998. "Suavização não paramétrica

estimativas de modelos de coeficientes variantes no tempo com dados longitudinais." Biometrika 85 (4):809-822.
doi: 10.1093/biomet/85.4.809.

Hoti, Fabian e Lasse Holmström. 2003. "Sobre o erro de estimativa na regressão linear local agrupada."

Journal of Nonparametric Statistics 15 (4-5):625-642. doi: 10.1080/10485250310001605469.

Ichimura, Hidehiko e Petra E. Todd. 2007. "Capítulo 74 Implementando Não Paramétrico e

Estimadores semiparamétricos." Em Handbook of Econometrics, editado por James J. Heckman e

Edward E. Leamer, 5369-5468. Elsevier.

Li, Qi, Cliff J. Huang, Dong Li e Tsu-Tan Fu. 2002. "Modelos de coeficiente suave semiparamétrico."

Jornal de Estatísticas Empresariais e Econômicas 20 (3):412-422.

Li, Qi e Jeffrey Scott Racine. 2007. Econometria Não Paramétrica: Teoria e Prática. Nova Jersey:

Imprensa da Universidade de Princeton.

Li, Qi e Jeffrey Scott Racine. 2010. "Estimativa e inferência de coeficiente variável suave para

Dados qualitativos e quantitativos." Teoria Econométrica 26 (6):1607-1637.

Liu, Weiwei e Kevin J. Egan. 2019. "Um estimador de coeficiente suave semiparamétrico para recreação

Demanda." Economia Ambiental e de Recursos 74 (3):1163-1187. doi: 10.1007/s10640-019-


00362-7.

Longo, J. Scott e Laurie H. Ervin. 2000. "Usando Erros Padrão Consistentes de Heterocedasticidade no

Modelo de regressão linear." The American Statistician 54 (3):217-224. doi: 10.2307/2685594.

37
Machine Translated by Google

Polemis, Michael L. e Thanasis Stengos. 2015. "A estrutura do mercado afeta a produtividade do trabalho e

remunerações? Evidência de um modelo de painel semiparamétrico de coeficiente suave." Economics Letters

137:182-186. doi: https://doi.org/10.1016/j.econlet.2015.11.004.

Rios-Ávila, Fernando. 2019. "Uma abordagem semiparamétrica para a decomposição Oaxaca – Blinder com

Variável de grupo contínua e autosseleção." Econometria 7 (2):28.

Seber, George AF e Alan J. Lee. 2003. Análise de regressão linear. Segunda edição. Nova York: João

Wiley & Filhos.

Stinchcombe, Maxwell B. e David M. Drukker. 2013. "Eficácia da regressão e a maldição de

Dimensionalidade." Em Avanços Recentes e Direções Futuras em Causalidade, Predição e

Análise de Especificação: Ensaios em homenagem a Halbert L. White Jr, editado por Xiaohong Chen e

Norman R. Swanson, 527-549. Nova York, NY: Springer Nova York.

VERARDI, Vincenzo. 2013. Regressão semiparamétrica no Stata. Reunião do Grupo de Usuários Stata do Reino Unido, Londres,

REINO UNIDO.

Zhang, Wenyang e Sik-Yum Lee. 2000. "Seleção de largura de banda variável em coeficiente variável

Modelos." Jornal de Multivariada Análise 74(1):116-134. faça:

https://doi.org/10.1006/jmva.1999.1883.

38
Machine Translated by Google

Apêndice A. Funções do kernel e pesos padronizados do kernel

-
Para as seguintes definições = onde é o ponto avaliado, é o ponto de referência e ÿ é
ÿ
a largura de banda.

Opção de kernel Função do kernel Padronize o peso do kernel


1 - 1 2
- 1 2
gaussiano ()= 2
()= 2
ÿ2

3 2 2
épan ()= | ÿ ÿ5 ()=1ÿ se | | ÿ ÿ5
4ÿ5 (1 ÿ 5) se | 5

3
2 2 se | |ÿ1
epan2 ()= (1 - ) se | | ÿ 1 ()=1ÿ
4
15
2 2 2 2 se | |ÿ1
peso duplo ()= (1 - ) se | |ÿ1 ( ) = (1 ÿ )
16
1
cosseno ( ) = (1 + cos (2 )) se | | ÿ 0,5 ()= (1 + cos (2 )) se | | ÿ 0,5
2
4
ÿ8ÿ 2
+8* | | se | | ÿ 0,5
1ÿ6 2
3 +6* | | 3 se | ÿ 0,5
parzen 8 3
3
()={ 2(1 ÿ | |) | se 0,5 ÿ | |ÿ1
()={ (1 ÿ | |) se 0,5 ÿ | |ÿ1
3
1
reto ()= se |ÿ1 ( ) = 1 se | |ÿ1
|2

Trião ()=1ÿ| | se | | ÿ 1 ()=1ÿ| | se | | ÿ 1

Nota: A opção do kernel kernel() deve ser usada conforme indicado nesta tabela ao usar todos os vc_pack
comandos.

39

Você também pode gostar