Portugues - Varying Coefficient Models in Stata - v4

Machine Translated by Google
Modelos de coeficientes de variação suave no Stata
Por
Fernando Rios-Ávila
Instituto de Economia Levy, Bard College
Abstrato
As regressões não paramétricas são ferramentas estatísticas poderosas que podem ser usadas para modelar
relações entre variáveis dependentes e independentes com suposições mínimas sobre
as formas funcionais subjacentes. Apesar de seus benefícios potenciais, esses tipos de modelos têm
dois pontos fracos: a flexibilidade adicional cria uma maldição de dimensionalidade e procedimentos
disponíveis para seleção de modelos, como validação cruzada, têm um alto custo computacional em
amostras com tamanhos até moderados. Uma alternativa aos modelos totalmente não paramétricos são
modelos semiparamétricos que combinam a flexibilidade das regressões não paramétricas com
a estrutura dos modelos padrão. Este artigo descreve a estimativa de um tipo específico
de modos semiparamétricos conhecidos como modelos de coeficientes de variação suave (Hastie e
Tibshirani 1993), baseado em métodos de regressão de kernel, usando um novo conjunto de comandos
dentro de vc_pack. Esses comandos visam facilitar a seleção de largura de banda, modelo
estimativa e criar visualizações dos resultados.
Palavras-chave: modelos de coeficientes de variação suave, regressão kernel, validação cruzada.
Estimativas semiparamétricas.
JEL:C14, C21, C52

1. Introdução
Regressões não paramétricas são ferramentas estatísticas poderosas que podem ser usadas para modelar relacionamentos
entre variáveis dependentes e independentes com suposições mínimas sobre o funcional subjacente
formulários. Essa flexibilidade torna as regressões não paramétricas robustas à especificação incorreta da forma funcional,
que é uma das principais vantagens sobre a análise de regressão padrão.
A flexibilidade adicional das regressões não paramétricas tem um custo. Por um lado, o adicionado
a flexibilidade cria o que é conhecido como a maldição da dimensionalidade. Em essência, porque não paramétrico
regressões implicam a estimativa de um grande número de parâmetros, contabilizando interações e não-
linearidades, mais dados são necessários para obter resultados com um nível de precisão semelhante ao de seus parâmetros paramétricos.
homólogos. Por outro lado, embora conjuntos de dados maiores possam ser usados para reduzir a maldição da dimensionalidade,
procedimentos usados para seleção de modelos e estimativas são muitas vezes muito intensivos em termos computacionais, tornando o
a estimativa desse tipo de modelo é menos prática em amostras de tamanhos moderados a grandes. Talvez devido a estes
limitações, e até versões recentes, o Stata tinha um conjunto muito limitado de comandos nativos para a estimativa
de modelos não paramétricos. Mesmo com o recente desenvolvimento do poder computacional, a estimativa da capacidade total
modelos não paramétricos, usando os comandos atualmente disponíveis, continua sendo um desafio quando se utilizam grandes
amostras.1
Uma resposta à principal fraqueza dos métodos não paramétricos tem sido o desenvolvimento de
métodos semiparamétricos. Esses métodos combinam a flexibilidade das regressões não paramétricas com a
estrutura de modelos paramétricos padrão, reduzindo a maldição da dimensionalidade e reduzindo o
custo computacional da seleção e estimativa do modelo.2 Na verdade, muitos comandos contribuídos pela comunidade
foram propostos para a análise de uma grande classe de modelos semiparamétricos no Stata.3
1
Stata 15 introduziu o comando npregress kernel que estima modelos totalmente não paramétricos usando métodos de
kernel. Mais recentemente, o Stata 16 introduziu séries npregress que estimam modelos totalmente não paramétricos usando
métodos de séries e splines.
2
Uma breve revisão do método semiparamétrico é fornecida em Cameron e Trivedi (2005), Sec. 9.7. Para uma revisão mais
aprofundada da teoria sobre modelos semiparamétricos, consulte Li e Racine (2007) Capítulo 7-11, enquanto (Henderson e
Parmeter 2015) oferecem uma discussão mais empírica sobre este tipo de modelos.
3
Ver Verardi (2013) para uma breve revisão dos comandos para estimação de regressões semiparamétricas no Stata.
1
Um tipo particular de modelos semiparamétricos, cuja estimativa não foi explorada
dentro do ambiente Stata, é conhecido como Smooth Varying Coefficient Models (SVCM) (Hastie e
Tibshirani 1993). Esses modelos assumem que o resultado é uma função de dois conjuntos de características,
e , onde o efeito de on segue alguma função suave não especificada de Z. Conforme descrito por
Henderson e Parmeter (2015) este método é particularmente popular em ambientes aplicados porque são
fácil de estimar e interpretar, porque é uma função linear de condicional.
Por exemplo, conforme descrito em Hainmueller, Mummolo e Xu (2018), o SVCM pode ser pensado como
como modelos interativos multiplicativos onde a variável se comporta como moderadora do tratamento
variáveis de interesse, relaxando a suposição linear da interação. Alternativamente, conforme descrito em Rios-
Avila (2019), o SVCM pode ser usado para estender a análise de decomposição padrão de Oaxaca-Blinder para cenários
com variáveis de grupo contínuas, decompondo, por exemplo, diferenças salariais de indivíduos com
índice de massa corporal diferente. Além disso, sob hipóteses de um tratamento exógeno e
falta de confusão, o SVCM pode ser usado para estimar os efeitos do tratamento com doses heterogêneas (ver, por exemplo
Hirano e Imbens (2004) para uma discussão sobre os efeitos do tratamento contínuo).
Este artigo apresenta um novo conjunto de comandos que visam facilitar a seleção do modelo,
estimativa e visualização de SVCM com uma única variável de suavização. vc_bw e vc_bwalt são
comandos usados para seleção de modelo que implementam um procedimento de validação cruzada de deixar um de fora para selecionar
a largura de banda ideal. vc_reg, vc_bsreg e vc_preg são comandos usados para estimativa
SVCM em um conjunto selecionado de pontos de interesse, fornecendo diferentes alternativas para a estimativa de
erros padrão. vc_predict e vc_test são comandos que podem ser usados para obter o modelo
previsões e resíduos, fornecem algumas estatísticas do modelo estimado, bem como fornecem algumas
testes de especificação. vc_graph pode ser usado para traçar os coeficientes suaves.
O resto do artigo está estruturado da seguinte forma. A Seção 2 revisa a estimativa do SVCM. Seção
3 fornece uma revisão detalhada dos procedimentos de implementação e comandos usados para seleção de modelo,
estimativa e pós-estimação. A seção 4 ilustra os comandos e a seção 5 conclui.
2
2. Regressão não paramétrica e modelos de coeficientes variáveis suaves
2.1. Regressões Não Paramétricas
Considere um modelo onde é a variável dependente e é um conjunto de variáveis independentes exógenas
variáveis de dimensão . Sem qualquer suposição sobre as relações entre essas variáveis, e
assumindo que não existe problema de variável omitida, o modelo de regressão não paramétrico dado o
vetor dimensional de variáveis É dado por:
=()+ (1a)
(| )=0 (1b)
Essencialmente, esta especificação do modelo implica que está relacionado a seguir algum desconhecido
forma funcional não linear. A literatura sobre regressões não paramétricas sugere que esses tipos de
modelos podem ser estimados de pelo menos duas maneiras. Por um lado, a função (.) pode ser estimada por
modelando a função média condicional como um estimador de média ponderada localmente:
ÿ (ÿ( ) , , ÿ) (2)
=(|=)=
ÿ(, , ÿ)
Onde ÿ = {ÿ 1,…, ÿ } é um vetor de larguras de banda, (. ) é uma função conjunta do kernel:
(3)
( , , , ÿ)
, ÿ) = ÿ (
=1
e( , , ÿ) é uma função do kernel definida pelo ponto de referência e pela largura de banda ÿ: 4
(4)
( , ,
ÿ) = (-ÿ)
Esta função (.) dá mais peso às observações próximas do ponto e usa o
vetor de larguras de banda ÿ para determinar quanta informação é usada para a estimativa do condicional
significar. Este procedimento pode ser implementado no Stata usando o comando npregress kernel.
4 Consulte o Apêndice A para obter uma lista de definições de funções do kernel.
3
Um procedimento alternativo é estimar ( ) usando um conjunto de transformações predefinidas e
interações das variáveis originais como variáveis explicativas. A prática mais comum é usar
base polinomial ou spline das variáveis originais (. ) e suas interações (. ), e estimar a
seguinte modelo:
= ( )ÿ + ( ( ))ÿ + (5)
Onde = [ , ] são todos os coeficientes associados a cada um dos termos do
transformações (. ) e interações (. ). Neste cenário, a dimensão , ou mais especificamente de (.)
e (. ), representam o parâmetro de ajuste que determina a rugosidade de ÿ(). Este procedimento pode ser
implementado no Stata usando o comando npregress series, usando polinômios, splines e B-
base de splines.
Conforme descrito em Li e Racine (2007) e Stinchcombe e Drukker (2013), no caso de kernel
métodos, o número efetivo de observações para a estimativa da média condicional diminui
rapidamente à medida que aumenta e ÿ vai para zero. No caso de transformações e interações, o número de
parâmetros que precisam de estimativa aumentam exponencialmente com o número de variáveis explicativas e o
dimensão de (. ) e (. ), reduzindo rapidamente os graus de liberdade do modelo.5
2.2. Modelo de coeficiente variável suave (SVCM)
O SVCM, conforme introduzido por Hastie e Tibshirani (1993), assume que existe alguma estrutura no
modelo. Em vez de estimar uma função como a equação (1), os autores sugerem distinguir dois tipos de
variáveis independentes = [ , ]. são variáveis que têm um efeito linear de , mas esses efeitos são
algumas funções não lineares não especificadas de. Este modelo é definido por:
= '
()+ (6a)
(| , )=0 (6b)
5
Em ambos os casos, existem diferentes estratégias que podem ser utilizadas para selecionar a rugosidade ou suavidade dos modelos
estimados. Para uma breve revisão de ambas as estratégias, consulte a introdução do npregress.
4
Esta especificação reduz o problema da maldição da dimensionalidade do modelo estimado,
em comparação com (1), assumindo que tem um efeito paramétrico sobre , condicional a , permitindo os coeficientes
() são funções não lineares suaves desconhecidas de. Para simplificar, vou me referir como o conjunto de
suavização de variáveis. A existência de dois tipos de variáveis levanta a questão de decidir quais
variáveis devem ser incluídas em ou . A literatura empírica sugere que decidir quais variáveis
deve ser considerado como parte das variáveis de suavização Z dependerá da questão de pesquisa de interesse.
Por exemplo, Li et al. (2002) analisam a função de produção do mineral não metálico
indústria manufatureira na China, analisando a produtividade marginal do capital e do trabalho (X), analisando
a heterogeneidade baseada nas despesas com a produção intermédia e nas despesas com a gestão (Z).
Liu e Egan (2019) analisam a procura recreativa, centrando-se no efeito dos custos de viagem e das famílias.
renda na disposição das famílias a pagar ( ), permitindo a heterogeneidade entre grupos demográficos
características, posse de licença de caça/pesca e filiação a organização ambientalista ( ).
Centorrino e Racine (2017) revisitam o papel da experiência, da raça e da localização geográfica ( ) como
determinantes dos salários, analisando a heterogeneidade entre o nível de escolaridade ( ). Polemis e Stengos
(2015) analisam a produtividade do trabalho em função da proporção de participação no trabalho, tamanho do mercado, capital, intermediário
insumos e custo de energia ( ), analisando a heterogeneidade entre uma medida de concentração de mercado ( ).
Assim como nas regressões não paramétricas, vários métodos foram propostos para estimar
deste tipo de modelo. Hastie e Tibshirani (1993) sugerem estimar ( ) usando base spline ou
splines penalizados em relação a Z. Hoover et al. (1998) e Li et al. (2002), sugerem, em vez disso, usar
regressões polinomiais de kernel como uma estratégia viável para estimar ( ). Mais recentemente, Li e Racine
(2010) ampliaram o uso de métodos kernel para a estimativa e inferência desses tipos de modelos
quando é uma mistura de dados contínuos e discretos.6 Na próxima seção, descrevo a estimativa de
SVCM usando métodos de kernel quando há uma única variável de suavização em .
6
A maioria das metodologias que implementam SVCM baseia-se na suposição de que e são exógenas. A discussão sobre a
estimação de modelos SVCM quando é endógeno pode ser encontrada em Cai et al. (2006), enquanto a estimação de modelos
quando é endógeno foi discutida e proposta em Centorrino e Racine (2017), Delgado et al. (2019) e Rios-Ávila (2019). Isto, no
entanto, está além do escopo deste artigo.
5
2.3. SVCM: estimador de kernel local
Considere uma versão simplificada do SVCM (equação 6), conforme descrito em Li et al. (2002), onde
é a variável dependente, é uma única variável contínua e é um conjunto de variáveis incluindo um
constante. Como contém uma única variável, a largura de banda ÿ será um único escalar, eliminando o
subscrito da equação (4).
Seguindo Li e Racine (2007), os coeficientes na equação (6) podem ser derivados da seguinte forma.
A partir da equação (6), pré-multiplique ambos os lados por, considere as expectativas condicionais a = ,e
resolva para ( ), o que resulta:

'
( |=)=( |=)()+( |=)
ÿ1
()=( '| = ) ( |=) (7)
Usando dados amostrais, a equação (7) pode ser um estimador inviável de ( ) porque pode haver poucos
ou nenhuma observação para a qual = , tornando ( ) impossível de estimar.7 Como alternativa, uma solução viável
a estimativa para a equação (5) pode ser obtida usando métodos kernel, para qualquer ponto:
ÿ1
(8a)
ÿ( , ÿ) = [ÿ ÿ ( ÿ ÿ )] [ÿ (-ÿ)]
Ou o equivalente em forma de matriz:
' ÿ1 '
ÿ( , ÿ) = [ ÿ()] [ ÿ()] (8b)
Onde (. ) é a função kernel, conforme definido em (4), que dá mais peso às observações onde
está mais perto de , dada a largura de banda ÿ. ÿ ( ) é uma matriz × diagonal com o ÿ elemento igual a
( -ÿ ). A equação (8b) constitui o estimador da constante local do SVCM.
Uma desvantagem do estimador de constante local é que ele é bem conhecido por seu viés potencialmente grande
ao estimar funções próximas aos limites do suporte de. Uma solução simples para reduzir esse viés é
7
O estimador na equação 6 só existe se (dados '| = ) é classificação completa, mas pode não ser o caso ao usar
amostrais.
6
utilizar um estimador linear local, baseado em uma aproximação de primeira ordem dos coeficientes ( ). Isso implica
que em vez de estimar a equação (6), pode-se estimar o seguinte modelo:
()
( ) ÿ ( ) + (- )
ÿ
ÿ(()+(-) ())+
() (9)
ÿ ' ()+ ' (-) +
Isto implica que uma aproximação para pode ser obtida usando uma expansão linear em relação a
( ), e que quanto mais próximo de z, mais precisa será a aproximação.
Definir = [ ( ÿ ) ÿ ] para ser o ÿ linha de , e ÿ ser o produto Kronecker,
tal que ( ÿ ) ÿ indica que cada variável em é multiplicado pela variável auxiliar (-).
Com base na equação (8b) os coeficientes ( ) e ( ) pode ser estimado como:
ÿ( , ÿ) (10)
' ÿ()] ÿ1 [ ' ÿ()]
[ ÿ( , ÿ) ] = [
Onde ÿ( , ÿ) constituem o estimador linear local de ( ) e ÿ( ,ÿ) é a primeira derivada de
esse coeficiente em relação a qualquer ponto, () .
2.4. Exemplo: SVCM e mínimos quadrados ponderados
Embora possa não parecer evidente, as equações (6) e (9) mostram que a estimativa do SVCM usando
métodos de kernel podem ser facilmente obtidos usando mínimos quadrados ordinários ponderados, onde os pesos são definidos
pelas funções do kernel. Para mostrar isso, considere o conjunto de dados “Dados fictícios sobre dirigir alcoolizado mensalmente
citações” (dui.dta) e um modelo simples que assume que as citações são uma função linear da faculdade,
impostos, cidadão e multas. Este modelo pode ser estimado usando o seguinte comando:
regredir citações i.college i.taxes i.csize multas
7
Digamos que você esteja interessado em analisar como o efeito da faculdade, dos impostos e do tamanho
varia em função das multas. 8 Suponha, para simplificar, que você está interessado em um ponto do
distribuição: Multas no percentil 10 (=9). Neste exemplo, existem observações suficientes com valores
exatamente igual a 9, portanto é possível estimar o modelo utilizando esta restrição. Porque estamos estimando
regressões para valores específicos de multas, esta variável é retirada da especificação:
regredir citações i.college i.taxes i.csize if multas==9
Em geral, pode ser mais conveniente estimar o modelo usando funções de kernel como pesos. Como
discutido na literatura, a escolha da função do kernel não é tão importante quanto a escolha da largura de banda.
Para simplificar, usarei um kernel gaussiano com largura de banda ÿ = 0,5. Isso é implementado diretamente usando
a função normalden(), com a variável de suavização multas como o primeiro argumento, o ponto de
interesse (9) como segundo argumento e largura de banda (ÿ = 0,5) como terceiro argumento:
regredir citações i.college i.taxes i.csize [aw=normalden(fines,9,0.5)]
Este exemplo implementa os estimadores de constante local seguindo a equação (7). Para o
implementação do estimador linear local, uma variável auxiliar precisa ser construída (-)
df=multas-9. Esta variável é criada e adicionada à especificação do modelo criando interações com todos
outras variáveis explicativas. Usando a notação de fator, isso é simples:
citações de regressão i.(impostos universitários csize)##c.df [aw=normalden(multas,9,0,5)]
Para ver como esses modelos se comparam entre si, as figuras 1a e 1b fornecem um gráfico simples do
coeficientes associados a faculdades e impostos, usando as três especificações descritas acima, usando
cada valor distinto de multas comparando-os com as estimativas de regressão padrão.
8
Uma opção poderia ser assumir que os efeitos variam de forma linear no que diz respeito às multas. Nesse caso, o
O modelo a seguir pode ser adequado usando citações de regressão c.fines##i.(impostos universitários csize)
8
Figura 1. VCM entre multas: Faculdade e Impostos
“VCM-Exact” corresponde aos modelos que restringem os dados a = , enquanto “SVCM-LC”
e “SVCM-LL” indicam que as estimativas vêm da constante local e dos estimadores lineares locais do
modelo SVCM, respectivamente. Você notará que não há estimativas para o modelo “VCM-Exato” em
os limites da distribuição de multas porque simplesmente não há observações suficientes para obter
essas estimativas. Além disso, observe que o “VCM-Exato” produz coeficientes muito voláteis. Ambos
“SVCM-LC” e “SVCM-LL” produzem gráficos suaves. Os estimadores de constante local são um tanto planos em
os limites da distribuição, o que é de se esperar. Em contraste, o estimador linear local parece
ser menos afetado pelo viés de limite, seguindo mais de perto os coeficientes “VCM-Exato”. Neste ponto,
no entanto, nada pode ser dito em termos de inferência estatística relativamente aos méritos de qualquer um dos modelos.
Embora esta ilustração simples mostre a simplicidade de estimar o SVCM, há muitos detalhes
em relação à escolha do modelo e inferência estatística que requer um exame mais aprofundado. Na próxima seção, eu
discutir alguns detalhes sobre esses problemas, apresentando os comandos em vc_pack que podem ser
usado para estimar SVCM com uma única variável de suavização.
9
3. Modelos de coeficientes variáveis suaves: vc_pack
3.1. Seleção de modelo: vc_bw e vc_bwalt
3.1.1. Validação cruzada de deixar um de fora
O aspecto mais importante da estimativa do SVCM é a escolha do parâmetro de largura de banda
ÿ. Embora larguras de banda maiores possam ajudar a reduzir a variância das estimativas, ao permitir mais
informações a serem utilizadas no processo de estimação local, aumentará o viés dos estimadores, por
restringindo a flexibilidade do modelo. Em contraste, larguras de banda menores podem reduzir o viés, permitindo maior
flexibilidade na estimativa, mas ao custo de maior variabilidade.9
A ilustração apresentada na seção anterior é um exemplo desse fenômeno. O padrão
Os coeficientes OLS podem ser considerados como um cenário extremo onde a largura de banda ÿ é tão grande que todos
as observações recebem peso igual, independentemente do ponto de interesse. Isto é garantido para obter o
variância mínima para os parâmetros estimados, mas com um custo potencialmente grande em termos de viés do modelo.
No lado oposto do espectro, os resultados onde as regressões são estimadas por meio de amostras
restritos a observações com um valor específico de multas (VCM-Exato) são baseados em uma largura de banda ÿ que
é essencialmente 0. Embora este seja o modelo mais flexível possível, dados os dados, a figura 1 também mostra que o
os resultados são altamente voláteis e as estimativas não eram viáveis para algumas áreas.
Embora existam muitas sugestões na literatura sobre a seleção de largura de banda (ver por exemplo
Zhang e Lee (2000)), a metodologia aqui utilizada é baseada em uma validação cruzada de deixar um de fora
procedimento. Considere o modelo descrito na equação (6) e uma amostra de tamanho . A largura de banda ideal
ÿ ÿ
é tal que minimiza os critérios de validação cruzada (CV) definidos como:
2 (11)
'
ÿ
2
ÿ ÿ
= mínimo (ÿ) = min = mínimo
ÿ ÿÿ()(ÿ ÿ ( , ÿ)) ÿ ÿ ( )( ÿ ÿÿ (ÿ))
=1 =1
Onde ÿ ( , ÿ) é o estimador de exclusão de ÿ( , ÿ), condicional a uma largura de banda ÿ, que
exclui o ÿ observação, e ÿÿ (ÿ) é a previsão de deixar um de fora do SVCM. ( ) é uma ponderação
9
No contexto de séries, polinômios e splines, o compromisso entre variância e viés é determinado pelo
dimensão das transformações em série (. ) e das interações (. ).
10
função que é usada para reduzir a influência de áreas onde a distribuição é escassa. Embora isso pareça
um processo muito intensivo computacionalmente que requer a estimativa de diferentes conjuntos de parâmetros, o
estimativa real do critério requer a estimativa de menos equações com base nas características de
os dados e propriedades das regressões lineares.
Por um lado, mesmo sendo uma variável contínua por natureza, é frequentemente registada como parcialmente
dados discretos. A idade de uma pessoa, por exemplo, é uma variável de natureza contínua, mas muitas vezes medida
em termos de anos. Isto implica que o número de coeficientes distintos ÿ( , ÿ) provavelmente será menor do que
o número de observações na amostra.
Por outro lado, a estimativa do (ÿ) não requer a estimativa explícita de

ÿ
ÿ ( , ÿ), mas a estimativa do erro de exclusão ÿ (ÿ) = ÿ ÿÿ (ÿ). Com regressões lineares,
é possível obter ÿ (ÿ) redimensionando o erro SVCM ÿ(ÿ) = - ÿ ÿ( , ÿ) usando a alavancagem
estatística ( ( , ÿ)) 10:
- - (12)
ÿ (ÿ) = ÿ ÿ( , ÿ) = ÿ (ÿ)
ÿ (ÿ) = ÿ ÿÿ (ÿ) =
1 ÿ ( , ÿ) 1 ÿ ( , ÿ) 1 ÿ ( , ÿ)
Onde ( , ÿ) é a estatística de alavancagem local, definida como o ÿ elemento diagonal do local
ÿ1ÿ
matriz de projeção (ÿ) = ( ÿ ÿ()) ÿ ( ):
ÿ1ÿ
( , ÿ) = ( ÿ ÿ()) ÿ (0) (13)
Usando este atalho, (ÿ) pode ser reescrito para refletir apenas o número de regressões necessárias
que precisam ser estimados. Considere o vetor = [ 1, 2,…, ] de todos os valores únicos de , com <
+1. Usando isso, o (ÿ) pode então ser escrito como:
2 (14)
ÿ ÿ( , ÿ) 2
(ÿ) = ÿ ÿ ( ) (- 1 ÿ ( , ÿ) ) = ÿ ÿ ( ) ÿ (ÿ)
| ==1 | ==1
10
Seber e Lee (2003), cap. 10, fornece uma demonstração simples dessa identificação para modelos de regressão linear. Em
além disso, Hoover et al. (1998) sugerem a utilização de expressão semelhante para agilizar o cálculo dos critérios de CV.
11
Embora (14) mostre que o número de equações estimadas ( ) é potencialmente menor que o total
número de observações na amostra ( ), em algumas aplicações ainda pode ser muito grande para permitir uma avaliação rápida
estimativa de (. ). Uma alternativa viável nesses casos é utilizar o que Hoti e Holmström (2003) e
Ichimura e Todd (2007) denominam regressões lineares locais em bloco ou binned, para obter uma
aproximação do critério.
Considere o vetor = [ 1, 2,…, ] de todos os valores únicos dos quais são organizados em não-
caixas sobrepostas ÿ de largura , e um centro igual a ÿ, tal que:
-
1 (15a)
= =
ÿ
; 1 + ÿ 0,5 ÿ = 1…
- ÿ
(15b)
ÿÿ ÿ <2 + ÿ = 1…
2
Em vez de estimar um conjunto de parâmetros, para cada valor distinto de , estima-se conjuntos de
parâmetros usando os pontos de referência ÿ = [ 1ÿ, 2ÿ…, ÿ]. Esses parâmetros são usados para obter linear
ÿ ÿ
ÿ ÿ
aproximações em torno de ÿ para os valores previstos ( (ÿ)), erros previstos ( (ÿ)) e estatísticas de alavancagem
ÿ ( ÿ, ÿ), para todas as observações dentro de seus compartimentos correspondentes:
ÿ
ÿ ÿ(ÿ, ÿ) (16a)
ÿ (ÿ) ÿ (ÿ) = ÿ ÿ( ÿ, ÿ) + ÿ ( ÿ ÿ) ÿ
ÿ ÿ ÿ = 1…
ÿ ÿ
ÿ ÿ
ÿ (ÿ) ÿ (ÿ) = - (ÿ) (16b)
ÿ1 ' (16c)
( , ÿ) ÿ ÿ (ÿ, ÿ) = ( ÿ ÿ( ÿ) ) ÿ ÿ ÿ = 1…
ÿ (-ÿ)
ÿ
Usando essas expressões, uma aproximação para o erro de deixar um de fora (ÿ ) para observação com
= , e ÿ ÿ pode ser aproximado da seguinte forma:
ÿ ÿ
- ÿ ÿ
(17)
ÿ
(ÿ) (ÿ)
=
ÿ
ÿ (ÿ) ÿ (ÿ) =
1- ÿ (ÿ, ÿ) 1- ÿ (ÿ, ÿ)
Isto pode ser usado para obter uma expressão alternativa para o critério:
ÿ 2
ÿ
(18)
ÿ
(ÿ) ÿ
2
(ÿ) ÿ (ÿ)
(ÿ) = ÿ ÿ ÿ=1
( ) (- ÿÿ 1- ) =ÿÿÿ()ÿ
|=
ÿ (ÿ, ÿ) =1 ÿÿ | =
12
O que reduz o número de equações estimadas de para. É simples ver isso como
Quanto maior o número de grupos P aumentar, e quanto menor for a largura do compartimento, melhor será a aproximação de
ÿ
(. ) para (.). Conforme mostrado em Hoti e Holmström (2003), regressões lineares de kernel locais agrupadas podem
fornecer boas aproximações para as previsões gerais do modelo, desde que a razão entre o
a largura de banda implícita usada para a construção dos compartimentos e a largura de banda ideal ( ÿÿ ) é relativamente pequena.11
Além disso, mesmo se considerarmos a largura de banda ÿÿÿ com base na aproximação (.) ser pobre
ÿ
aproximação da largura de banda total da informação ÿ , ainda pode ser usado para análise exploratória e como
ÿ
ponto de partida para a estimativa de ÿ , reduzindo o custo computacional da seleção de largura de banda.
3.1.2.Seleção automática de modelo
vc_pack oferece dois comandos para a seleção automática do modelo com base no Cross-
procedimento de validação descrito anteriormente, minimizando a função objetivo ((ÿ)). vc_bw
implementa um algoritmo do tipo Newton-Raphson que funciona bem quando o objetivo a função é suave
e diferenciável, com mínimos locais. Este é um algoritmo iterativo que procura a largura de banda ideal
ÿ
ÿ usando:
ÿ1
((ÿ))
2
((ÿ)) (19)
ÿ=ÿ ÿ1
ÿÿ
ÿ ( ÿ2 _
) |ÿ=ÿ
ÿ1
ÿ
parando quando ÿ e ÿ ÿ1 estão suficientemente próximos e selecionando ÿ = ÿ. A primeira e segunda ordem
as derivadas são estimadas usando métodos numéricos com três pontos de referência. O escalar é igual a
1, desde que haja uma melhoria no processo de maximização (ou seja, (ÿ) <(ÿ ÿ1)), caso contrário,
é reduzido pela metade até que uma melhoria seja encontrada.
vc_bwalt implementa um algoritmo do tipo bissecção que funciona bem em um conjunto maior de cenários,
especialmente quando (.) não é uma função suave nem diferenciável de ÿ, mas pode ser mais lento em encontrar o
0 1 2
largura de banda ideal. O algoritmo começa com três pontos de referência: ÿ0 < ÿ0 < ÿ0 . Se o ideal
11
Simulações fornecidas em Hoti e Holmström (2003) sugerem que a precisão do estimador binned, medida por ÿ<0,3
erro quadrático integrado relativo, é semelhante ao estimador não agrupado para kernels gaussianos, e ÿ
<
ÿ ÿ
quando 0,1 para os núcleos Epanechnikov, triângulo e bipeso.
13
largura de banda ÿ ÿ 0 2 1 0 1 2
está entre ÿ0 e ÿ0 (ou seja, (ÿ0 ) < (ÿ0 ) e (ÿ0 ) < (ÿ0 )) o algoritmo irá
1 0 1 2
avaliar os critérios de validação cruzada usando pontos médios entre ÿ0 & ÿ0 e ÿ0 & ÿ0 , e atualize o
0 1 2 1 0
pontos de referência então ÿ1 < ÿ1 < ÿ1 , com ÿ1 correspondendo à largura de banda com o menor (.) e ÿ1
2
e ÿ1 correspondendo aos dois pontos de referência mais próximos, previamente avaliados, que estão acima e
1 . Se o ÿ ÿ 0 0 1 2
abaixo ÿ1 é potencialmente menor que ÿ1 (ou seja (ÿ1 ) < (ÿ1 ) < (ÿ1 )), um quarto ponto ÿ1 <
0 0 ÿ
está entre
ÿ1 será avaliado até encontrar um ponto tal que (ÿ1 ) > (ÿ1 ), o que sugere ÿ
1. ÿ 2
ÿ1 e ÿ1 Um processo semelhante é implementado se ÿ é potencialmente maior que ÿ1 . O algoritmo para quando
ÿ 0e ÿ 2
estão suficientemente próximos, selecionando ÿ
ÿ
= ÿ 1.
Ambos os comandos usam a seguinte sintaxe:
vc_bw[alt] depvar indepvar [if], vcoeff(svar) [kernel(kernel)
bwi(#) nós(#k) km(#km) gráfico trimsample(trimvar)]
Onde depvar é a variável dependente , indepvar é a lista de todas as variáveis independentes
que assumimos ter um efeito linear condicional na variável dependente , e svar é o
suavizando a variável Z.
kernel(.) indica a função do kernel (ver equação 4) que será usada para criar o local
pesos e estimar as regressões locais. O padrão é o kernel Gaussiano, mas outros kernels são
permitido.12
bwi(#) fornece ao comando um valor inicial ÿ0 para pesquisar a largura de banda ideal.
A opção padrão usa a largura de banda do comando lpoly usando a mesma função do kernel
declarado em kernel().
nós(#k) e km(#km) são opções que podem ser utilizadas para solicitar a minimização do
ÿ
critérios aproximados (ÿ) conforme descrito na equação (18). Usando nós(#k), com #kÿ 1, solicita o
criação de uma nova variável que agrupa a variável de suavização svar em #+1 grupos de igual largura.
.5, 10*
Usar nós(0) indica criar # + 1 grupos, onde # é o número inteiro mais próximo de (
12
Consulte o apêndice A para obter a lista completa de kernels e funções disponíveis para estimativa.
14
registro10 ). Quando nós(0) é usado, pode-se usar também a opção km(#km), de modo que # é o mais próximo
.5 , . 13 Sempre que nós(#k) é usado, o comando reporta o

número inteiro de ( 10 ÿ log10 ) ÿ #
número de nós empregados e a largura implícita do compartimento (ver equação 15a).
O padrão é usar todos os valores distintos na variável de suavização, até 500 valores distintos. Quando
mais de 500 valores distintos são detectados, o comando usa as opções nós(0) km(2). Enquanto
não há nada que indique que esta regra fornece o número mais apropriado de nós e
largura implícita da caixa ( ), simulações apresentadas em Hoti e Holmström (2003) sugerem que o valor aproximado
critério é razoável se <0,3 ao usar kernels gaussianos, e < 0,1, ao usar

ÿÿ ÿÿ
epanechnikov, núcleos bipesados e triangulares.
O uso da opção nós(-2) solicita a estimativa dos critérios CV para todos os valores distintos em
a variável condicionante.
trimsample(trimvar) fornece o nome de uma variável binária (trimvar) que indica o
subamostra dos dados que serão usados para a estimativa do critério. Observações com trimvar
iguais a zero não são usados para Cálculo. Isto desempenha o papel da função de pesagem ( ).
A opção plot solicita o comando para plotar todas as larguras de banda ÿ e (ÿ) estimadas
internamente. Isto pode ser usado para inspeção visual para verificar se a largura de banda está realmente minimizando o
função objetiva.
Após terminar o processo de minimização, o programa armazena a largura de banda ideal, o kernel
função e o nome da variável de suavização como globais: $opbw_, $kernel_ e $vcoeff_. Isso é
feito para que outros programas do pacote possam reutilizar essas informações.
3.2. Estimativa e inferência de modelo: vc_reg, vc_preg e vc_bsreg
3.2.1. Estimativa da matriz de variância-covariância
Conforme mostrado na seção 2, uma vez selecionada a largura de banda, a estimativa do SVCM é uma tarefa simples.
processo que requer três etapas:
13
Stata usa esta expressão para definir o número de compartimentos usados para um histograma como padrão.
15
S1. Selecione o ponto ou pontos de interesse para os quais o modelo será estimado. (normalmente um subconjunto
de todos os valores possíveis da variável de suavização),
S2. Construa os pesos apropriados do kernel, com base nos pontos de interesse, na função do kernel
ÿ
selecionada e na largura de banda ideal ÿ, e

S3. Construa a variável auxiliar (-), que irá interagir com todas as variáveis independentes do modelo.
Uma vez criadas as variáveis auxiliares, pode-se obter os coeficientes do modelo, bem como
seus gradientes, condicionais a todos os pontos de interesse selecionados, estimando a equação (9) usando kernel
mínimos quadrados ponderados como na equação (10). O próximo passo é a estimativa dos erros padrão do
parâmetros estimados para obtenção de inferências estatísticas do SVCM.
Seguindo Li et al. (2002) e Li e Racine (2007, 2010), um estimador viável para o
matriz de variância-covariância do SVCM, dado um ponto de interesse e largura de banda ÿ , pode ser obtido como
segue: 14
ÿ ÿ)
ÿÿ
ÿ( , ( ) ÿ) ÿ1( ÿ () ( ) )( ÿ ( ) ÿ) ÿ1
(20)
ÿ (,ÿ ÿ)= ÿ ÿ ÿ ÿ
ÿ ( ÿ( , ÿ ÿ) ) = ( ÿ
2
Onde está uma matriz diagonal onde o ÿ elemento é igual a ÿ (ÿ ÿ ) , e ÿ ( ) e são
definido como na equação (10). Há pouca orientação na literatura sobre no contexto do kernel
regressões. Li et al. (2002) e Li e Racine (2007, 2010) assumem = 1, o que é válido
assintoticamente. Observe, entretanto, que a expressão dada pela equação (17) é a mesma que a expressão robusta
erros padrão para mínimos quadrados ponderados. A prática padrão nesses casos é usar = , onde
ÿdim( )
dim( ) indica o número total de coeficientes que precisam ser estimados no modelo, e é o
tamanho da amostra. Em modelos semiparamétricos e não paramétricos, entretanto, é preciso diferenciar entre
tamanho da amostra N e tamanho efetivo da amostra (ver seção 3.3 observações esperadas do kernel).
Seguindo a literatura sobre estimação de erros padrão robustos sob heterocedasticidade (Long
2
e Ervin 2000), também é possível estimar a matriz de variância-covariância substituindo ÿ (ÿ ÿ ) com
14 De acordo com Li et al. (2002), a matriz de variância e convariância para o SVCM pode ser estimada
consistentemente pela equação 20 se ( | , ) = 0, com heterocedasticidade condicional de forma desconhecida 2( , ),

e se (. ) for uma função kernel padrão de segunda ordem . Além disso, também assume que como ÿ ÿ e ÿ ÿ 0, ÿ ÿ ÿ.
16
2
ÿ (ÿ ) 2
ÿ ÿ
)
na matriz diagonal D, onde (,ÿ ÿ ) é a estatística de alavancagem conforme definida
1ÿ ( ,ÿÿ) ou ( 1ÿ
ÿ (ÿ
( ,ÿÿ) )
na equação (13). Neste caso = 1. Isto equivale à estimativa dos erros padrão HC2 e HC3.
Segundo Long e Ervin (2000), para o modelo linear padrão, HC2 e HC3 superam o robusto
erros padrão quando o modelo é heterocedástico e as amostras são relativamente pequenas (N<250). Enquanto lá
não há estudo formal sobre o uso dos erros padrão HC2 e HC3 quando combinados com SVCM, é meu
conjeturar que esses erros padrão também podem ser melhores do que erros padrão robustos quando o
o tamanho esperado/efetivo da amostra é pequeno.
Há um debate sobre o uso de matrizes analíticas de variância-covariância na estrutura
de regressões de kernel não paramétricas. Cattaneo e Jansson (2018) defendem o uso de reamostragem
métodos, em amostras específicas pareadas com bootstrap, para obter estimativas corretas da variância-covariância
matriz dos coeficientes estimados ao estimar modelos semiparamétricos baseados em kernel. Na verdade, eles
indicam intervalos de confiança baseados em percentis fornecem melhor cobertura porque bootstrap emparelhado
corrige automaticamente o viés de estimativa não negligenciável.15 Em termos gerais, o bootstrap emparelhado
O procedimento, adaptado à estimativa do SVCM, é o seguinte:
ÿ( ,ÿ )
ÿ
S1. Usando a amostra original = [ , , ], Estime os coeficientes ÿ( e todos ÿ ÿ )e , usando

ÿ
a largura de banda ÿ , os pontos de interesse.
S2. Obtenha uma amostra inicializada emparelhada com substituição da amostra original e
ÿ
ÿ ( ,ÿ )ÿ
ÿ
estimativa 1(,ÿÿ)e 1
usando os mesmos pontos de interesse de S1 e largura de banda ÿ .
S3. Repita S2 vezes. Os erros padrão bootstrap para os coeficientes são definidos como:
ÿÿ)
ÿÿ ÿ (,ÿ)=ÿ ÿ( , ÿ
ÿ ( ÿ( , ÿ 1 [ ÿ))
' (21)
ÿ
( , ÿ ÿ ) ÿ (ÿ ( , ÿ ÿ )) ( , ÿ ÿ ) ÿ (ÿ ( , ÿ ÿ ))
1
= ÿ ÿ ÿ ÿ
( , ÿÿ) (,ÿ ( , ÿÿ) (,ÿ

ÿ( ÿ ) ) ] [ÿ ÿ( ÿ))]
15
Deve-se notar que Cattaneo e Jansson (2018) não analisam explicitamente a validade de suas descobertas no âmbito
do SVCM, mas fornecem conclusões gerais para o que ele chama de estimadores semiparamétricos baseados em kernel.
Como referência, o kernel npregress relata os intervalos de confiança percentuais como padrão, usando um procedimento
de reamostragem inicializado emparelhado.
17
ÿ ÿ ÿ ÿ
ÿ ÿ
Onde (,ÿ ( ,ÿ ) são vetores contendo todos os coeficientes (,ÿ ( ,ÿ )

ÿ)e ÿ)e
que foram estimados para cada amostra bootstrap = 1…. O intervalo de confiança percentil é definido
ÿ ÿ
ÿ
como o inferior e superior quantis da distribuição empírica de (,ÿ ( ,ÿ ) , Onde é

2 2 ÿ)e
o nível de significância.
3.2.2. Implementação: vc_reg, vc_preg e vc_bsreg
vc_pack oferece três comandos para estimativa de SVCM, oferecendo diversas alternativas para
a estimativa da matriz de variância-covariância (ÿÿ). vc_reg e vc_preg estimam SVCM usando
equação (20) para a estimativa de ÿÿ, utilizando diferentes definições para o erro do modelo ÿ (ÿ ÿ ). Inicializado
erros padrão e intervalos de confiança baseados em percentis podem ser obtidos usando o comando
vc_bsreg.
vc_preg usa o erro SVCM definido como ÿ (ÿ ÿ ) = ÿ

ÿ ÿ( , ÿ ), para a estimativa do ÿ
ÿ ÿ
ÿ
erros padrão assintóticos. vc_reg, em vez disso, usa ,)=ÿ ' (-) ÿ( ,ÿ ),
(ÿ ÿ ÿ ÿ( , ÿ ÿ ) ÿ
ÿ
que é a aproximação linear local de para o ponto de referência.
Embora vc_preg produza os erros padrão assintóticos corretos, conforme sugerido por Li e Racine
(2007, 2010), pode ser lento porque o comando estima o SVCM para todos os pontos da suavização
obter o ÿ (ÿ ÿ ). vc_reg é mais rápido por padrão porque usa apenas a variável linear local para
ÿ
ÿ
aproximação , ) e não requer etapas adicionais para a estimativa dos erros padrão.
(ÿ ÿ
Esses erros padrão, no entanto, contêm erros de aproximação que aumentam quanto mais é do ponto
de referência , mas pode ser usado como uma primeira aproximação rápida para analisar os dados e traçar estatísticas
inferências. Empiricamente, vc_reg produz resultados comparáveis aos produzidos por vc_preg
ÿ
ÿ
porque as observações onde , ) e ÿ (ÿ ÿ ) diferem muito terão uma pequena influência no

(ÿ ÿ
estimativa dos erros padrão (equação 20) porque também provavelmente estará longe do ponto de referência.
Os três comandos compartilham a mesma sintaxe básica:
18
vc_[bs|p]reg depvar indepvar [se] [em], [vcoeff(svar)
kernel(kernel) bw(#) k(#) klist(numlist)]
Semelhante a vc_bw[alt], depvar é a variável dependente , indepvar são o conjunto de
variáveis explicativas ( ) que terão efeito linear no depvar, condicionadas à suavização
variável svar ( ). kernel(.) e bw(#) são usados para fornecer informações específicas sobre o
estimativa do modelo. A opção padrão é usar informações armazenadas em $vcoeff_, $kernel_ e
$opbw_.
Como a riqueza do SVCM vem da estimativa dos efeitos lineares em função de
a variável de suavização , estes comandos oferecem duas alternativas para selecionar os pontos de interesse
qual as regressões locais serão estimadas. A opção k(#), que deve ser igual ou maior que 2,
solicitações para estimar regressões usando pontos equidistantes entre o 1º e o 99º percentil de svar.
solicitação klist (numlist) para estimar a regressão linear local usando cada número da lista numlist
como ponto de referência. Quando klist() contém um único número, a saída de regressão padrão é
relatado. Caso contrário, quando k(#) ou klist(numlist) são usados para estimar 2 ou mais modelos,
vc_[bs|p]reg não produz saída, mas armazena os betas e as matrizes de variância-covariância para cada
regressão como uma matriz separada em e(). Esta informação pode ser usada para criar gráficos dos coeficientes
através de svar. Tanto vc_reg quanto vc_preg produzem erros padrão robustos por padrão (equação 20), mas
também pode relatar erros padrão HC2 e HC3 usando hc2 ou hc3 como opções. Erros padrão agrupados
também são possíveis usando a opção cluster(cluster varname), mas não podem ser combinados com HC2
ou opções HC3.
Porque vc_preg requer erros de informação completos para a estimativa da variância-covariância
alavancagem, por padrão, o comando obterá previsões para os erros ÿ (ÿ) e matriz de estatísticas de
( , ÿ), usando todos os valores distintos da variável de suavização (svar). Porque isso pode ser
computacionalmente caro, semelhante à nossa discussão sobre o cálculo dos critérios de validação cruzada, é
é possível usar as opções nós() e km() para reduzir o número de regressões estimadas internamente.
19
Este comando usa as mesmas opções padrão de vc_[alt]bw. Quando as opções de categorização são usadas, o
erros e aproximações de alavancagem definidos em (16a-16c) são implementados. Alternativamente, também é
alavancagem possíveis para fornecer ao comando erros amostrais previamente estimados

ÿ (ÿ ÿ ))
( e estatísticas de
( ( , ÿ ÿ )) usando as opções err(err varname) e lev(lev varname).
vc_bsreg estima erros padrão de bootstrap usando uma estratégia de bootstrap emparelhada. Seguindo
a sintaxe do comando bootstrap, pode-se especificar informações para strata() e
cluster(), bem como definir um seed() para a geração reproduzível das amostras aleatórias. O
o número padrão de amostras de bootstrap é 50, mas isso pode ser alterado usando a opção reps(#). Em
além dos erros padrão inicializados, vs_bsreg também armazena o percentil de confiança de 95%
intervalo, mas pode ser alterado para outros níveis usando a opção pci(#), usando qualquer número entre 0 e
100.
Ao estimar uma única equação, vc_reg, vc_preg e vc_bsreg armazenam os 2
variáveis no conjunto de dados: _delta_, contendo - , e _kwgt_ contendo o kernel padronizado
pesos (veja a próxima seção).
3.3. Pós-estimação do modelo: vc_predict e vc_test
vc_pack fornece dois comandos que podem ser usados para obter estatísticas resumidas do modelo, como
bem como relatar alguns testes para especificação de modelos contra alternativas paramétricas. O primeiro comando,
vc_predict, tem uma sintaxe semelhante a vc_[alt]bw e vc_[p|bs]reg:
vc_predict indepvar depvar, [vcoeff(svar) kernel() bw() nós()
km() teste] [yhat(newvar) res(newvar) lvrg(newvar) looe(newvar) teste]
Além das opções descritas anteriormente, vc_predict pode ser usado para obter previsões
do modelo ÿ (ÿ ÿ ) -yhat(newvar)-, o resíduo do modelo ÿ (ÿ ÿ ) -res(newvar)-, a alavancagem
estatística ( , ÿ) -lvrg(newvar)-, ou o erro de deixar de fora ÿ(ÿ ÿ ) -looe(newvar)
(equação 12 e 13). Cada uma dessas opções requer a especificação de um novo nome de variável (newvar) para
20
armazenar as informações especificadas. Também pode-se usar as opções nós() e km() para acelerar o
calcular o processo, caso em que são utilizadas as aproximações descritas em (16a-16c).
Os resíduos e a alavancagem deste comando podem ser usados, por exemplo, para a estimativa do SVCM
usando vc_preg. Este comando também fornece algumas informações básicas sobre o modelo, bem como
execute alguns testes de especificação quando a opção test for usada. A próxima seção descreve os métodos
e fórmulas relatadas por este comando.
3.3.1.Log de erros de exclusão quadrada média
Considere o SVCM descrito na equação (6). Dada a variável de suavização (svar), kernel
função (kernel()) e largura de banda (bw()), vc_predict relata o log da média quadrada da saída
erro único:
2
ÿ (ÿ)
registro
1- (22)
= log(ÿ ÿ (-
| ==1
( , ÿ) ) )
quando nenhuma opção de binning é usada, ou sua aproximação:
ÿ
2
- ÿ
(ÿ)
registro
1- (23)
= log(ÿ ÿ ÿ (
=1 ÿÿ | =
ÿ (ÿ, ÿ) ) )
quando opções de binning (nós() km()) são usadas. Esta é a mesma estatística usada para o modelo
seleção, exceto que não utiliza o fator de ponderação ( ) para seu cálculo.
3.3.2.Qualidade de ajuste
vc_predict produz duas medidas de estatística de qualidade de ajuste que direcionam os análogos para o padrão
modelos lineares. O primeiro é baseado na decomposição padrão da soma dos quadrados:

2
ÿ( ÿ ÿ (ÿ))
2 1= 1ÿ=1ÿ
2 (24)
ÿ(-ÿ)
Qual é o mesmo usado pelo kernel npregress. Porque esta estatística é conhecida por
2
produzir resultados indesejáveis, como valores negativos para 1, vc_predict também relata a qualidade de
estatística de ajuste sugerida em Henderson e Parmeter (2015):
21
2
2
= (ÿ( ÿ ÿ)( ÿ 2(ÿ) ÿ ÿ))
2 2 (25)
ÿ(-ÿ) ÿ(ÿ(ÿ) ÿ ÿ)
ÿ
ÿ
Quando opções de categorização são usadas, ÿ (ÿ) é substituído por (ÿ) nas equações (24) e (25).
3.3.3.Modelo e Graus de Liberdade Residuais
O número efetivo de graus de liberdade é uma estatística que se mostrou útil na literatura de
econometria não paramétrica para comparação de modelos com diferentes tipos de suavizadores. Seguindo
a terminologia de Hastie e Tibshirani (1990), considere qualquer modelo paramétrico e não paramétrico
ÿ ÿ
com uma matriz de projeção de dimensão × tal que = , onde é um vetor × 1 do
valores previstos correspondentes a qualquer modelo específico. Hastie e Tibshirani (1990) enfatizam dois
estimadores para a estimativa do número de graus de liberdade:
1 =() (26a)
2 = (2 ÿ ÿ) (26b)
ÿ1
No contexto de modelos de regressão linear, onde a matriz de projeção = = ( ÿ ) ,
essas definições são equivalentes entre si. No entanto, no caso de regressões de kernel e penalizações
regressões spline suaves, a matriz não é simétrica e as definições acima de graus de
a liberdade será diferente uma da outra. 1 é comumente usado como uma aproximação do número de graus
de liberdade do modelo, enquanto - 2 é usado como o número de graus de liberdade residuais.
Para o caso específico do SVCM, a matriz de projeção S é definida da seguinte forma:
ÿ1
(27)
ÿ ÿ( )
= ÿÿ [ ÿ ÿ( ) ]
=1
Onde ÿ é uma matriz × com o ÿ elemento diagonal é igual a 1 se = , e zero
em outro lugar. Isto implica que a primeira medida de graus de liberdade é equivalente a:
(28)
1
=()=ÿ = ÿ ( , ÿ)
=1 =1
22
A segunda medida de graus de liberdade é computacionalmente mais difícil de estimar, pois
2
requer operações. Como alternativa, Hastie e Tibshirani (1990) sugerem usar o seguinte
aproximação:
= (2 ÿ ÿ) ÿ 1,25 ( ) ÿ 0,5 = 1,25 ÿ0,5 (29)

2 1
relatórios vc_predict 1 e- 2 como medidas de modelo e graus de liberdade residuais,
respectivamente. Quando opções de categorização são usadas, ÿ) é substituído por ÿ ( ÿ, ÿ) na equação (28). ( ,
3.3.4. Observações esperadas do kernel
Uma das desvantagens da análise de regressão não paramétrica é o rápido declínio da taxa efetiva
número de observações utilizadas para a estimativa dos parâmetros de interesse, maior será o número de
variáveis explicativas utilizadas no modelo (a maldição da dimensionalidade), e menores são as larguras de banda. Para
fornecer ao usuário uma estatística resumindo a quantidade de informações usadas na estimativa
processo, é prática comum relatar |ÿ| como o número esperado de observações do Kernel ( ),
onde |ÿ| é o produto de todas as larguras de banda das variáveis explicativas.16 Esta estatística, no entanto, pode ser
errôneo.
Considere a estimação de um modelo com uma única variável independente, para o qual um valor ótimo
largura de banda ÿ ÿ é selecionado. Se a escala da variável independente duplicar, a largura de banda ideal do
variável redimensionada dobrará, mas ( ) deve permanecer o mesmo. A estatística |ÿ|, no entanto, sugere
que o ( ) também dobrou.17
Como medida alternativa ao |ÿ|, proponho uma estatística baseada no que denomino padronizado
pesos do kernel ( , , ÿ), que são definidos como:18
1 (30)
( , , ÿ) = ( ÿ ÿ ) = (0) (-ÿ)
É garantido que os pesos deste kernel fiquem entre 0 e 1. Embora esta mudança na escala de local
pesos não têm impacto na estimativa das estimativas pontuais dos modelos, fornece uma visão mais intuitiva
16
O kernel npregress relata esta estatística como “observações esperadas do kernel”.
17
Para evitar resultados inesperados, o kernel npregress define o valor máximo ( ) como o tamanho da amostra.
18
Consulte o Apêndice A para obter uma lista de funções padronizadas de peso do kernel.
23
compreensão do papel dos pesos no processo de estimativa. Observações onde é igual a vontade
recebem peso 1, e pode-se considerar que as informações daquela observação são totalmente utilizadas quando
estimar a regressão linear local. Se uma observação tiver um (.) de, digamos, 0,5, pode-se considerar que o
a informação contribuída por essa observação para a regressão do kernel local é metade de uma observação onde
= . Finalmente, observações com (. ) = 0 não contribuem em nada para a estimativa local. Esses
pesos de kernel podem ser usados para estimar o número efetivo de observações ( ( )) usado para
19
estimativa dos parâmetros de interesse para um determinado ponto de referência:
(31)
()=ÿ(ÿÿ)
=1
Porque as áreas com maior densidade usam mais observações do que as áreas onde z é escasso
distribuído, o número esperado de observações do kernel ( ) pode ser definido como a ponderação simples
média de ( ) usando todas as observações da amostra. Isso leva ao seguinte:
1 1 (32)
( )= =
ÿ() ÿ ÿ (-ÿ)
=1 =1 =1
Onde está o número de observações I com = . Quando as opções de categorização são usadas, o
estimador é:
(33a)
ÿ
(ÿ) = ÿ (- ÿ)
=1
1 1
ÿ
(33b)
ÿ( )= =
ÿ (ÿ) ÿ ÿ (-ÿ)
=1 =1 =1
Onde está o número de observações que se enquadram no ÿ lixo.
Se for contínua, esta estatística tem duas propriedades convenientes em relação à largura de banda ÿ:
limão
ÿÿ0
( ) = 1 & limite
ÿÿÿ
( )= (34)
19
Essa estatística também pode ser estendida a modelos de regressão de kernel multivariáveis, simplesmente usando os kernels
padronizados em todas as variáveis independentes.
24
Isso fornece uma compreensão mais intuitiva do efeito que a largura de banda tem na média
quantidade de informações utilizadas para a estimativa de regressões locais em comparação com o padrão paramétrico
modelo. No mínimo, haverá uma observação para a estimativa da estimativa local, e no
na maioria, todos os dados serão usados para cada estimativa local. Esta estatística também é relatada após
vc_predict.
3.3.5.Testes de especificação
Além de relatar as estatísticas resumidas básicas descritas acima, vc_predict também pode
produz testes de especificação básica quando a opção test é especificada. Os testes de especificação seguem
Hastie e Tibshirani (1990) e fornecem o que os autores chamam de teste F aproximado , comparando o SVCM
para 4 alternativas paramétricas:
0: = [ '; ] + com = + 1 (35a)

0
1: = [ '; ÿ '] + com = 2 (35b)

1
2: = [ '; ÿ '; 2 ÿ + com = 3 (35c)

']2
3: = [ '; ÿ '; 2 ÿ '; 3 ÿ + com = 4 (35d)

']3
Onde é o número de variáveis explicativas definidas mais a constante. Definir - 2 como
os graus de liberdade residuais do SVMC (ver equação (26)), e ser o resíduo previsto para
o modelo paramétrico (0, 1, 2 ou 3). A estatística F aproximada é definida como:
ÿ2 _ -
=
ÿ ÿ ÿ ÿ (ÿ ÿ ) 2 (36)
ÿ 2
-
ÿ ÿ (ÿ ÿ) 2
2
A hipótese nula ( 0) é que o modelo paramétrico (0, 1, 2 ou 3) está especificado corretamente, enquanto
a hipótese alternativa é que afirma que o SVCM está correto. Embora a distribuição exata desta estatística seja
desconhecido, Hastie e Tibshirani (1990):p65 sugere o uso de valores críticos para uma -estatística com -
2 graus de liberdade no numerador e, ÿ graus de liberdade no denominador, um valor aproximado

2
25
2 é
teste para uma inspeção rápida da especificação do modelo. Quando opções de categorização são usadas ÿ ÿ (ÿ ÿ )
ÿ
ÿ
2
substituído por ÿ (ÿ ÿ ) (equações 16a-16c).
3.3.6.Teste de especificação de Cai, Fan e Yao (2000): vc_test
Como a distribuição exata da estatística F aproximada não é conhecida, vc_pack também oferece
a implementação do teste de especificação proposto por Cai, Fan e Yao (2000), baseado em um teste selvagem
abordagem bootstrapped, conforme descrito em Henderson e Parmeter (2015). A estatística de teste é construída em
de forma semelhante à estatística F aproximada, mas sem ajuste para as diferenças em graus de
liberdade:
ÿ2 _ 2
ÿ
ÿ ÿÿ ÿ (ÿ ÿ ) (37)
=
2
ÿ ÿ (ÿ ÿ)
Onde corresponde aos resíduos do modelo paramétrico, ver equações (35a-35d), e
ÿ (ÿ ÿ ) corresponde aos resíduos do SVCM. A hipótese nula ( 0), que afirma que o
ÿ
modelo paramétrico for especificado corretamente, é rejeitado em favor do SVCM se a estatística está acima de alguns
valor crítico.
Porque a distribuição da estatística não é conhecido, um procedimento inicializado selvagem pode ser
usado para obter sua distribuição empírica usando o seguinte procedimento:
S1. Definir o resíduo a ser previsto com base no modelo paramétrico (35a-35d).
ÿ
S2. Construa uma nova variável dependente , usando um erro de inicialização selvagem de dois pontos da seguinte maneira:
ÿ
ÿ
,
= (-ÿ) +
ÿ (1 + ÿ52 ÿ ÿ5)
1+ÿ5
Onde segue uma distribuição de Bernoulli com p = ( 2ÿ5 )
ÿ
S3. Usando a nova variável dependente, a ,
, reestimar o modelo paramétrico e SVCM, usando
ÿ
, e calcule a estatística
ÿ ÿ
largura de banda ideal ÿ
S4. Repita S2 e S3 um número suficiente de vezes para obter a distribuição empírica da estatística.
Se é maior que o percentil superior da distribuição empírica obtida através da natureza
procedimento bootstrapped, pode-se rejeitar a hipótese nula.
O comando vc_test implementa este teste de especificação usando a seguinte sintaxe.
26
vc_test indepvar depvar, [vcoeff(svar) kernel() bw() nós() km()
grau(#d) wbsrep(#wb)]
Semelhante aos comandos anteriores, é necessário especificar as variáveis dependentes e independentes no
modelo, mas especificar vcoeff(svar), kernel e largura de banda são opcionais. O programa usa
as informações armazenadas por vc_[alt]bw por padrão. Como o teste requer a estimativa do todo
modelo várias vezes, pode-se especificar as opções nós() e km() para implementar o binned
ÿ
ÿ
versão da estatística e aumentar a velocidade dos cálculos. Isso substitui ÿ (ÿ ÿ ) por (ÿ ÿ ) em
equação (37).
grau(#d) é usado para definir o modelo sob a hipótese nula. #d pode assumir os valores 0, 1,
2 ou 3, que corresponde aos modelos descritos nas equações (35a)-(35d). O padrão é grau(0)
wbsrep(#wb) é usado para indicar o número de repetições de bootstrap selvagens usadas para o
estimativa da distribuição empírica da estatística. O número padrão de repetições é 50. O
comando informa os percentis 90, 95 e 97,5 da distribuição empírica de para serem usados como
valores críticos.
3.4. Visualização do modelo: vc_graph
Uma característica atraente dos modelos semiparamétricos em geral, e do SVCM em particular, é a
potencial para visualizar efeitos em toda a gama das variáveis explicativas que entram no modelo não
parametricamente. Esses gráficos podem ser usados para uma interpretação mais rica dos efeitos marginais. Conforme descrito em
seção 3.2, quando vc_[bs|p]reg é usado para estimar modelos para mais de 1 ponto de referência, o
O comando não produz relatório, mas armazena os coeficientes, variações e intervalos de confiança em e().
vc_graph é um comando que pode ser usado como ferramenta de pós-estimação para produzir gráficos de
coeficientes das variáveis independentes, ou seus gradientes, utilizando as informações estimadas via
vc_[bs|p]reg. O comando usa a seguinte sintaxe:
vc_graph [indevpar], [delta constante ci(#) ci_off gráfico pci(stub)
rarea addgraph() xvar(varname)]
27
indevpar pode conter um subconjunto de todas as variáveis independentes usadas na estimativa do
SVCM. Se variáveis fatoriais e interações foram usadas, o mesmo formato deve ser usado ao usar
vc_gráfico.
constante é usada para representar graficamente os coeficientes variáveis associados à constante.
()
solicitação delta vc_graph para traçar os gradientes das variáveis listadas em indevpar. O
o padrão é traçar os coeficientes ( ). Se as opções delta e constante forem utilizadas, vc_graph irá
plote o coeficiente da variável auxiliar (-).
ci(#) define o nível dos intervalos de confiança, usando qualquer número entre 0-100. O padrão é
95%. Os intervalos de confiança podem ser omitidos do gráfico usando a opção ci_off.
Quando o SVCM é estimado usando vc_bsreg, também é possível solicitar usando o método baseado em percentil
intervalos de confiança usando a opção pci. O nível de confiança, neste caso, deve ser definido quando o
o modelo é estimado usando vc_bsreg.
Os intervalos de confiança nos números usam gráficos de intervalo com picos limitados por padrão, mas gráficos com área
o sombreamento pode ser solicitado utilizando a opção rarea.
Todos os gráficos produzidos por vc_graph são armazenados na memória com o nome “grph#”, que são
numerados consecutivamente. Os nomes dos gráficos da loja podem ser alterados usando graph(stub), onde
stub seria usado em vez de grph para armazenar os gráficos na memória. Gráficos simples podem ser adicionados a este gráfico
usando a opção addgraph() e especificando entre aspas as opções do gráfico.
Finalmente, vc_graph oferece a opção xvar(xvarname) para usar uma variável diferente para traçar o
coeficientes variáveis suaves, desde que esta variável xvarname seja uma transformação monotônica do
variável original svar usada na estimativa. Por exemplo, digamos que o modelo SVCM foi estimado
usando a variável svar como variável de suavização porque possui menos áreas com distribuição escassa. O
o pesquisador, no entanto, está interessado em traçar coeficientes em svar1, em vez de svar. Se svar1 for um
transformação monotônica de svar, usando a opção xvar(svar1) solicita a plotagem de coeficientes usando
28
svar1 no eixo horizontal. Internamente, o mapeamento entre os pontos de referência de svar a
svar1 é feito usando aproximações lineares locais, se os valores exatos não estiverem disponíveis.20
4. Ilustração: Determinantes das citações ao dirigir embriagado: o papel das multas
Para esta ilustração, utilizo o conjunto de dados fictício dui.dta, apresentado na seção 2.4, para analisar
como o número de citações por dirigir embriagado é afetado pelo fato de uma jurisdição tributar ou não o álcool, se
existe uma faculdade na jurisdição, ou se a jurisdição é em uma cidade pequena, média ou grande,
condicionada a multas impostas por dirigir embriagado.
Começo a análise usando vc_bw para selecionar a largura de banda ideal usando o cruzamento de deixar um de fora.
estratégia de validação e use as opções padrão.
vc_bw citações impostos faculdade i.csize, vcoeff (multas)

Kernel: gaussiano
Iteração: 0 BW: 0,5539761 CV: 3,129985
Iteração: 1 BW: 0,6870520 CV: 3,120199
Iteração: 2 BW: 0,7343729 CV: 3,119504
Iteração: 3 BW: 0,7397456 CV: 3,119497
Iteração: 4 BW: 0,7397999 CV: 3,119497
Largura de banda armazenada em $opbw_ global

Função do kernel armazenada no $kernel_ global
Nome da variável VC armazenado em $vcoeff_ global
O comando sugere uma largura de banda de 0,7398 , sugerindo que a largura de banda usada na seção 2.4 pode
têm estado suavizando os resultados.
A seguir, obtenho estatísticas resumidas simples do modelo usando vc_predict. Solicito também
relatar o teste F aproximado para especificação do modelo em relação aos modelos onde multas são adicionadas como um
interação no modelo.
. vc_predict citações impostos faculdade i.csize, vcoeff (multas) teste

Modelo de coeficientes variáveis suaves
Variável Dep: citações
Variáveis independentes: faculdade de impostos i.csize
Variável de suavização: multas
Kernel: gaussiano
Largura de banda : 0,73977
Registrar MSLOOER : 3.11950
Dof residual : 477.145
20
Não há discussão teórica robusta a respeito da utilização de transformações de variáveis independentes para seleção e
estimação de modelos não paramétricos e semiparamétricos. Porém, minha conjectura é que as transformações monotônicas
podem ser utilizadas como alternativa às larguras de banda variáveis, ao permitir que mais informações sejam utilizadas em
áreas com baixa densidade, reduzindo a variância do estimador.
29
Modelo DOF : 18.684

RSS : 10323.126
SSE : 37886.249
TSM : 47950.838
R2-1 1-SSR/SST : 0,78471
R2-2 : 0,79011
E (obs. do kernel) : 277.828
Especificação Teste estatística F aproximada

H0: Modelo Paramétrico
H1: SVCM y=x*b(z)+e
Modelos paramétricos alternativos:
Modelo 0 y=x*b0+g*z+e
Estatística F: 8,24686 com pval 0,00000
Modelo 1 y=x*b0+g*z+(z*x)b1+e
Modelo 2 y=x*b0+gz+(z*x)*b1+(z^2*x)*b2+e
Modelo 3 y=x*b0+gz+(z*x)*b1+(z^2*x)*b2+(z^3*x)*b3+e
F-Stat: -2,07335 com pval 1,00000
O relatório indica que o modelo utiliza aproximadamente 18,7 graus de liberdade (equação 28),
2
enquanto os resíduos possuem 477,15 graus de liberdade (equação 29). O modelo possui isso é maior
do que o modelo de regressão simples ( 2 =0,718), mas é um pouco menor que o 2

obtido usando o
2 2
modelo não paramétrico completo ( =0,81).21 A segunda medida de (ver equação (25)) é maior que o
medida padrão de qualidade de ajuste. Finalmente, o número esperado de observações do kernel é 277,8
(equação 32), sugerindo que, em média, metade de toda a amostra é utilizada para cada regressão local.
O teste F aproximado sugere a rejeição dos modelos 0 e 1, em favor do SVCM, mas não se pode
rejeite a hipótese nula de que um modelo com interação quadrática com finos está especificado corretamente. O
o ajuste local do modelo com interação cúbica parece ser melhor que o SVCM, o que explica por que o
A estatística F é negativa. Também uso vc_test para implementar o teste de especificação alternativa, comparando o
mesmos modelos paramétricos para o SVCM. Para este exemplo, utilizo 200 repetições, utilizando a opção
wbsrep(200). Porque o Modelo 0 foi rejeitado de forma esmagadora e o modelo 3 parece se ajustar melhor
que o SVCM, apenas os resultados comparando com os modelos 1 e 2 são mostrados:
vc_test citações impostos faculdade i.csize, grau (1) wbsrep (200) semente (1)
Teste de especificação.
H0: y=x*b0+g*z+(z*x)*b1+e
H1: y=x*b(z)+e
21 2 vem de onde.
Consulte o arquivo do que acompanha este documento para ver onde isso
30
Estatística J :0,16869
Valores Críticos
90º percentil: 0,09382
97,5º percentil: 0,10686
vc_test citações impostos faculdade i.csize, grau (2) wbsrep (5) semente (1)
Teste de especificação.
H0: y=x*b0+g*z+(z*x)*b1+(z^2*x)*b2+e
H1: y=x*b(z)+e
Estatística J :0,01410
Valores Críticos
95º percentil:0,01490
97,5º percentil: 0,01726
Os resultados são consistentes com a estatística F aproximada. No primeiro caso, a estatística do
o modelo é 0,16869, que é maior que o percentil 97,5 da distribuição empírica da estatística,
sugerindo a rejeição do nulo de uma interação linear. O teste comparando com o quadrático paramétrico
modelo de interação é menos conclusivo. A estatística é 0,0141, o que sugere rejeição do nulo em 10%
de confiança, mas o nulo não pode ser rejeitado em 5%. Apesar desses resultados, prosseguirei e estimarei o
SVMC.
Para fornecer uma visão geral dos resultados semelhantes aos resultados dos modelos de regressão padrão,
Apresento os efeitos condicionais usando os percentis 10, 50 e 90 das multas como pontos de referência,
que correspondem a 9, 10 e 11. Isso é feito através dos três comandos disponíveis em vc_pack, usando
a sintaxe básica:
vc_reg citações impostos faculdade i.csize, klist (9)

vc_preg citações impostos faculdade i.csize, klist (9)
vc_bsreg citações impostos faculdade i.csize, klist(9) seed(1)


Os resultados dessas regressões são mostrados na tabela 1, colunas 2 a 4, mostrando os erros padrão
obtido com todos os três comandos (Robust, F Robust e Bootstrap). A coluna 1 apresenta os resultados para
31
o modelo de regressão padrão. Para o SVCM são fornecidas duas subcolunas. O da esquerda mostra
()
os efeitos condicionais ( ), enquanto o da direita mostra o gradiente desse efeito .
No geral, erros padrão robustos obtidos com a aproximação linear local (vc_reg) parecem
ser uma aproximação razoavelmente boa para os erros padrão robustos de informações completas (vc_preg), com o
maiores discrepâncias observadas em áreas onde a densidade da distribuição de finos é baixa (no topo e
fundo). Essas estimativas também são consistentes com os erros padrão inicializados (vc_bsreg).
32
Tabela 1 Determinantes do Número de Citações Mensais, condicionadas a Multas. SVCM
Número de citações mensais por dirigir embriagado OLS SVCM

(1) (2) (3) (4)
Multas=9 Multas=10 Multas=11
() () ()
() () ()
1 se as bebidas alcoólicas forem tributadas -4,494 -6,377 3,008 -3,959 -3,843 -0,0505 1.093
Erro padrão robusto (0,582) (1,147) (1,373) (0,496) (0,823) (0,736) (0,788)
F Robusto erro padrão (1,059) (1,210) (0,493) (0,787) (0,711) (0,751)
Bootstrapped std err 1 se (0,638) (1,322) (1,525) (0,498) (0,967) (0,812) (0,833)
cidade universitária; 0 caso contrário 5,828 9,871 -1,024 -4,578 5,305 -3,191 3,797
Erro padrão inicializado (0,634) (1,201) (1,381) (0,470) (0,972) (0,884) (0,926)
Tamanho da cidade
médio 5.492 6,734 -1,299 5,284 -2,332 3.051 -2.196

Bootstrapped std err (0,547) (0,932) (1,265) (0,588) (0,760) (0,833) (0,958)
grande 11,24 10,6014,99
-3,779-4,863
7,784 -2,691
Erro padrão inicializado (0,610) (1,095) (1,323) (0,553) (0,809) (0,749) (0,812)
Multas por dirigir embriagado em milhares de dólares -7,690 -3,673 -8,256 -4,906
Erro padrão robusto (0,384) (0,816) (1,327) (0,782)
F Robusto erro padrão (1,211) (0,792) (0,804)
Erro padrão inicializado (0,405) (1,473) (0,787) (0,810)
Constante 94,22 23,96 16,80 12,93
Erro padrão robusto (3,949) (1,168) (0,474) (0,746)
F Robusto erro padrão (1,099) (0,478) (0,737)
Erro padrão inicializado (4,117) (1,255) 500 (0,501) (0,819)
N Obs e Kobs 243,19 341,64 203,36
Nota: Robust std err corresponde à saída com vc_reg, F Erros padrão robustos foram estimados com vc_preg e erros
padrão bootstrapped com vc_bsreg. pesos de kernel padronizados com base no é definido como a soma de
ponto de referência (ver equação 31).
Para complementar as informações desta tabela, e antes de fornecermos uma interpretação do
resultados, a figura 2 fornece um gráfico com intervalos de confiança de 95% para os efeitos condicionais de todas as variáveis
no modelo, usando um conjunto predefinido de pontos de interesse. Primeiro, uso vc_preg para estimar o SVCM:22
vc_preg citações impostos faculdade i.csize, klist(7.4(.2)12)

Estimando modelos de coeficientes variáveis em 24 pontos de referência
Variável de suavização: multas
Função do kernel: gaussiana
Largura de banda : 0,73977
você : robusto
Estimando modelo completo
22
Os resultados usando procedimento bootstrapped e intervalos de confiança percentuais são fornecidos no arquivo anexo
ou mediante solicitação.
33
Mais de 1 ponto de referência especificado

Os resultados não serão salvos em forma de equação, mas como matrizes
A principal diferença com os exemplos anteriores é que a opção klist() contém uma lista de
números, ou pontos de referência, sobre os quais estou solicitando a estimativa do SVCM. Isso indica que
existem 24 pontos de referência, de 7,4 a 12. Terminada a estimativa, a figura 2 pode ser
reproduzido com os seguintes comandos:

vc_graph impostos faculdade i.csize,
gráfico combinar grph1 grph2 grph3 grph4
Figura 2. SVCM: Efeitos condicionais entre multas
Nota: Os números são obtidos como estão em vc_graph e combinados com a combinação de gráficos.
()
Se alguém estiver interessado nos gradientes , eles podem ser plotados usando os seguintes comandos.
vc_graph impostos faculdade i.csize, delta

gráfico combinar grph1 grph2 grph3 grph4
34
()
Figura 3. SVCM: Alteração dos efeitos condicionais entre multas
Nota: Os números são obtidos como estão em vc_graph e combinados com a combinação de gráficos.
Uma interpretação desses resultados pode ser dada da seguinte forma. Em geral, quando as bebidas alcoólicas são
tributados, o número de citações mensais por mês diminui em 4,5 unidades (tabela 1 col 1). Este efeito é
maior em jurisdições com multas baixas, com uma estimativa pontual variando de 15 a pouco menos de 4, em
jurisdições com níveis de multas acima de 10. Não podem ser observadas diferenças no efeito condicional para multa
()
níveis acima de 10. Isto é refletido pelo fato de que a estimativa de na figura 3 são estatisticamente iguais a
zero.
Se houver um campus universitário na cidade, o número de citações por mês é cerca de 5,8 maior. O
O impacto condicional da faculdade diminui à medida que as multas aumentam quase 10 pontos entre o mínimo e o
níveis máximos de multas na distribuição. Com base nas estimativas da figura 3, quando as multas são superiores
11, a mudança no efeito da faculdade nas citações não é mais estatisticamente significativa. Se a jurisdição for
35
localizado em uma cidade média, o impacto no número de citações é relativamente pequeno, estatisticamente significativo,
mas não mostra nenhuma mudança estatisticamente significativa entre as multas. Finalmente, se a jurisdição estiver localizada em uma grande área
cidade, o impacto condicional é grande, variando de 30 a 10 citações adicionais por mês, diminuindo à medida que
as multas aumentam. Algo a ser notado nesses números é que a maioria das estimativas para multas menores de 9 anos mostram
grandes intervalos de confiança porque menos de 10% dos dados ficam abaixo deste limite.
5. Conclusões
Modelos de coeficientes variáveis suaves são uma alternativa aos modelos não paramétricos completos que podem ser usados para
analisar as relações entre variáveis dependentes e independentes sob a suposição de que essas
os relacionamentos são lineares, condicionados a um conjunto menor de variáveis explicativas. Eles são menos afetados pela
problema da maldição da dimensionalidade porque menos variáveis entram na estimativa de forma não paramétrica. Nisso
artigo, forneço uma revisão da seleção, estimativa e teste de modelos para esses tipos de modelos, e
introduzimos um conjunto de comandos, vc_pack, que visam facilitar a estimação de tais modelos quando
presume-se que os coeficientes variam em relação a uma única variável de suavização. Uma aplicação empírica
ilustra a utilidade do procedimento.
6. Referências
Cai, Zongwu, Mitali Das, Huaiyu Xiong e Xizhi Wu. 2006. "Coeficiente funcional instrumental
variáveis modelos." Revista de Econometria 133 (1):207-241. faça:
https://doi.org/10.1016/j.jeconom.2005.03.014.
Cai, Zongwu, Jianqing Fan e Qiwei Yao. 2000. "Modelos de regressão de coeficiente funcional para
Séries temporais não lineares." Journal of the American Statistical Association 95 (451):941-956. doi:
10.1080/01621459.2000.10474284.
Cameron, A. Colin e Pravin K. Trivedi. 2005. Microeconometria: Métodos e Aplicações. Novo
Iorque: Cambridge University Press.
Cattaneo, Matias D. e Michael Jansson. 2018. "Estimadores semiparamétricos baseados em kernel: pequenos
Assintótica de largura de banda e consistência de bootstrap." Econometrica 86 (3):955-995. doi:
10.3982/ecta12701.
Centorrino, Samuele e Jeffrey Scott Racine. 2017. "Modelos de coeficientes variáveis semiparamétricos com
Covariáveis endógenas." Annals of Economics and Statistics (128):261-295.
36
Delgado, Michael S., Deniz Ozabaci, Yiguo Sun e Subal C. Kumbhakar. 2019. "Coeficiente suave
modelos com variáveis ambientais endógenas." Revisões Econométricas:1-23. faça:
10.1080/07474938.2018.1552413.
Hainmueller, Jens, Jonathan Mummolo e Yiqing Xu. 2018. "Quanto devemos confiar nas estimativas
de Modelos de Interação Multiplicativa? Ferramentas simples para melhorar a prática empírica." Político
Análise 27(2):163-192. doi: 10.1017/pan.2018.46.
Hastie, Trevor e Robert Tibshirani. 1990. Modelos Aditivos Generalizados. Nova York: Chapman e
Salão.
Hastie, Trevor e Robert Tibshirani. 1993. "Modelos de coeficientes variáveis". Diário do Real
Sociedade Estatística. Série B (Metodológica) 55 (4):757-796.
Henderson, Daniel J. e Christopher F. Parmeter. 2015. Econometria Não Paramétrica Aplicada.
Cambridge, Reino Unido: Cambridge University Press.
Hirano, Keisuke e Guido W. Imbens. 2004. "O Índice de Propensão com Tratamentos Contínuos."
-
Modelagem Bayesiana Aplicada e Inferência Causal a partir de Perspectivas de Dados Incompletos: 73-84. faça:
doi:10.1002/0470090456.ch7.
Hoover, Donald R., John A. Rice, Colin O. Wu e Li-Ping Yang. 1998. "Suavização não paramétrica
estimativas de modelos de coeficientes variantes no tempo com dados longitudinais." Biometrika 85 (4):809-822.
doi: 10.1093/biomet/85.4.809.
Hoti, Fabian e Lasse Holmström. 2003. "Sobre o erro de estimativa na regressão linear local agrupada."
Journal of Nonparametric Statistics 15 (4-5):625-642. doi: 10.1080/10485250310001605469.
Ichimura, Hidehiko e Petra E. Todd. 2007. "Capítulo 74 Implementando Não Paramétrico e
Estimadores semiparamétricos." Em Handbook of Econometrics, editado por James J. Heckman e
Edward E. Leamer, 5369-5468. Elsevier.
Li, Qi, Cliff J. Huang, Dong Li e Tsu-Tan Fu. 2002. "Modelos de coeficiente suave semiparamétrico."
Jornal de Estatísticas Empresariais e Econômicas 20 (3):412-422.
Li, Qi e Jeffrey Scott Racine. 2007. Econometria Não Paramétrica: Teoria e Prática. Nova Jersey:
Imprensa da Universidade de Princeton.
Li, Qi e Jeffrey Scott Racine. 2010. "Estimativa e inferência de coeficiente variável suave para
Dados qualitativos e quantitativos." Teoria Econométrica 26 (6):1607-1637.
Liu, Weiwei e Kevin J. Egan. 2019. "Um estimador de coeficiente suave semiparamétrico para recreação
Demanda." Economia Ambiental e de Recursos 74 (3):1163-1187. doi: 10.1007/s10640-019-

00362-7.
Longo, J. Scott e Laurie H. Ervin. 2000. "Usando Erros Padrão Consistentes de Heterocedasticidade no
Modelo de regressão linear." The American Statistician 54 (3):217-224. doi: 10.2307/2685594.
37
Polemis, Michael L. e Thanasis Stengos. 2015. "A estrutura do mercado afeta a produtividade do trabalho e
remunerações? Evidência de um modelo de painel semiparamétrico de coeficiente suave." Economics Letters
137:182-186. doi: https://doi.org/10.1016/j.econlet.2015.11.004.
Rios-Ávila, Fernando. 2019. "Uma abordagem semiparamétrica para a decomposição Oaxaca – Blinder com
Variável de grupo contínua e autosseleção." Econometria 7 (2):28.
Seber, George AF e Alan J. Lee. 2003. Análise de regressão linear. Segunda edição. Nova York: João
Wiley & Filhos.
Stinchcombe, Maxwell B. e David M. Drukker. 2013. "Eficácia da regressão e a maldição de
Dimensionalidade." Em Avanços Recentes e Direções Futuras em Causalidade, Predição e
Análise de Especificação: Ensaios em homenagem a Halbert L. White Jr, editado por Xiaohong Chen e
Norman R. Swanson, 527-549. Nova York, NY: Springer Nova York.
VERARDI, Vincenzo. 2013. Regressão semiparamétrica no Stata. Reunião do Grupo de Usuários Stata do Reino Unido, Londres,
REINO UNIDO.
Zhang, Wenyang e Sik-Yum Lee. 2000. "Seleção de largura de banda variável em coeficiente variável
Modelos." Jornal de Multivariada Análise 74(1):116-134. faça:
https://doi.org/10.1006/jmva.1999.1883.
38
Apêndice A. Funções do kernel e pesos padronizados do kernel
-
Para as seguintes definições = onde é o ponto avaliado, é o ponto de referência e ÿ é
ÿ
a largura de banda.
Opção de kernel Função do kernel Padronize o peso do kernel

1 - 1 2
- 1 2
gaussiano ()= 2
()= 2
ÿ2
3 2 2
épan ()= | ÿ ÿ5 ()=1ÿ se | | ÿ ÿ5
4ÿ5 (1 ÿ 5) se | 5
3
2 2 se | |ÿ1
epan2 ()= (1 - ) se | | ÿ 1 ()=1ÿ
4
15
2 2 2 2 se | |ÿ1
peso duplo ()= (1 - ) se | |ÿ1 ( ) = (1 ÿ )
16
1
cosseno ( ) = (1 + cos (2 )) se | | ÿ 0,5 ()= (1 + cos (2 )) se | | ÿ 0,5
2
4
ÿ8ÿ 2
+8* | | se | | ÿ 0,5
1ÿ6 2
3 +6* | | 3 se | ÿ 0,5
parzen 8 3
3
()={ 2(1 ÿ | |) | se 0,5 ÿ | |ÿ1
()={ (1 ÿ | |) se 0,5 ÿ | |ÿ1
3
1
reto ()= se |ÿ1 ( ) = 1 se | |ÿ1
|2
Trião ()=1ÿ| | se | | ÿ 1 ()=1ÿ| | se | | ÿ 1
Nota: A opção do kernel kernel() deve ser usada conforme indicado nesta tabela ao usar todos os vc_pack
comandos.
39

Portugues - Varying Coefficient Models in Stata - v4

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Portugues - Varying Coefficient Models in Stata - v4

Enviado por

Direitos autorais:

Formatos disponíveis

Machine Translated by Google

Modelos de coeficientes de variação suave no Stata

Instituto de Economia Levy, Bard College

relações entre variáveis dependentes e independentes com suposições mínimas sobre

de modos semiparamétricos conhecidos como modelos de coeficientes de variação suave (Hastie e

estimativa e criar visualizações dos resultados.

Palavras-chave: modelos de coeficientes de variação suave, regressão kernel, validação cruzada.

JEL:C14, C21, C52

que é uma das principais vantagens sobre a análise de regressão padrão.

regressões implicam a estimativa de um grande número de parâmetros, contabilizando interações e não-

estrutura de modelos paramétricos padrão, reduzindo a maldição da dimensionalidade e reduzindo o

Um tipo particular de modelos semiparamétricos, cuja estimativa não foi explorada

fácil de estimar e interpretar, porque é uma função linear de condicional.

estimativa e pós-estimação. A seção 4 ilustra os comandos e a seção 5 conclui.

2. Regressão não paramétrica e modelos de coeficientes variáveis suaves

2.1. Regressões Não Paramétricas

Considere um modelo onde é a variável dependente e é um conjunto de variáveis independentes exógenas

vetor dimensional de variáveis É dado por:

modelando a função média condicional como um estimador de média ponderada localmente:

Onde ÿ = {ÿ 1,…, ÿ } é um vetor de larguras de banda, (. ) é uma função conjunta do kernel:

Esta função (.) dá mais peso às observações próximas do ponto e usa o

4 Consulte o Apêndice A para obter uma lista de definições de funções do kernel.

Um procedimento alternativo é estimar ( ) usando um conjunto de transformações predefinidas e

base polinomial ou spline das variáveis originais (. ) e suas interações (. ), e estimar a

Onde = [ , ] são todos os coeficientes associados a cada um dos termos do

transformações (. ) e interações (. ). Neste cenário, a dimensão , ou mais especificamente de (.)

implementado no Stata usando o comando npregress series, usando polinômios, splines e B-

Conforme descrito em Li e Racine (2007) e Stinchcombe e Drukker (2013), no caso de kernel

métodos, o número efetivo de observações para a estimativa da média condicional diminui

dimensão de (. ) e (. ), reduzindo rapidamente os graus de liberdade do modelo.5

2.2. Modelo de coeficiente variável suave (SVCM)

Esta especificação reduz o problema da maldição da dimensionalidade do modelo estimado,

características, posse de licença de caça/pesca e filiação a organização ambientalista ( ).

SVCM usando métodos de kernel quando há uma única variável de suavização em .

2.3. SVCM: estimador de kernel local

é a variável dependente, é uma única variável contínua e é um conjunto de variáveis incluindo um

subscrito da equação (4).

resolva para ( ), o que resulta:

Ou o equivalente em forma de matriz:

( -ÿ ). A equação (8b) constitui o estimador da constante local do SVCM.

que em vez de estimar a equação (6), pode-se estimar o seguinte modelo:

( ), e que quanto mais próximo de z, mais precisa será a aproximação.

Definir = [ ( ÿ ) ÿ ] para ser o ÿ linha de , e ÿ ser o produto Kronecker,

Com base na equação (8b) os coeficientes ( ) e ( ) pode ser estimado como:

Onde ÿ( , ÿ) constituem o estimador linear local de ( ) e ÿ( ,ÿ) é a primeira derivada de

esse coeficiente em relação a qualquer ponto, () .

2.4. Exemplo: SVCM e mínimos quadrados ponderados

regredir citações i.college i.taxes i.csize multas

regressões para valores específicos de multas, esta variável é retirada da especificação:

regredir citações i.college i.taxes i.csize if multas==9

regredir citações i.college i.taxes i.csize [aw=normalden(fines,9,0.5)]

outras variáveis explicativas. Usando a notação de fator, isso é simples:

citações de regressão i.(impostos universitários csize)##c.df [aw=normalden(multas,9,0,5)]

cada valor distinto de multas comparando-os com as estimativas de regressão padrão.

Figura 1. VCM entre multas: Faculdade e Impostos

“VCM-Exact” corresponde aos modelos que restringem os dados a = , enquanto “SVCM-LC”

os limites da distribuição, o que é de se esperar. Em contraste, o estimador linear local parece

usado para estimar SVCM com uma única variável de suavização.

3. Modelos de coeficientes variáveis suaves: vc_pack

3.1. Seleção de modelo: vc_bw e vc_bwalt

3.1.1. Validação cruzada de deixar um de fora

O aspecto mais importante da estimativa do SVCM é a escolha do parâmetro de largura de banda

flexibilidade na estimativa, mas ao custo de maior variabilidade.9