Você está na página 1de 8

R

E
B E

Estudo do modelo de regressão polinomial com erros


nas variáveis quando existe heterogeneidade na razão das
variâncias

Resumo: O presente trabalho pretende fazer um estudo dos modelos de regressão com erros nas Arturo Alejandro Z. Zavala*
variáveis. Este problema está presente nos modelos econometricos, e tem repercussão maior
quando as variâncias dos erros de medição da variável dependente são heterogêneas e alguma
correção deve ser sugeridas em ela. Para este estudo considerou-se o modelo de correção da
função escore com a finalidade de obter estimadores não viciados no modelo. Departamento de Economia – Faculdade de
a

Economia – FE – Universidade Federal de


Mato Grosso – UFMT

R. Bras. Eco. de Emp. 2008; 8(1): 39-46


40 Estudo do modelo de regressão polinomial com erros nas variáveis quando existe heterogeneidade na razão das variâncias

1 Introdução trabalharam a função de verossimilhança


Na atualidade, muitos autores vêm “naive” e a partir dela obtiveram a função
discutindo o problema da estimação dos escore “naive”, corrigindo esta ultima
modelos de regressão polinomial com fazendo uso da metodologia proposta por
erros nas variáveis, variados casos são Nakamura.
apresentados na literatura estatística, entre Uma nova metodologia foi apresentada
elas temos a Wolter e Fuller (1982) que definindo do modo seguinte
encontraram estimadores consistentes Definição 2. Uma função U*(q; W,Y), é
a partir da construção de uma matriz dita função escore corrigida se:
de momentos, eles só trabalharam com E[U*(q;W,Y) | X, Y] = U(q; X,Y), ∀q ∈ ℑ
o modelo quadrático. Carroll, Rupert e
ambos métodos apresentam uma variância
Stefanski (1995) obtiveram estimadores
de tipo “Sandwich “.
consistentes ao considerar o algoritmo
SIMEX, desenvolvido por Cook e Stefanski. O objetivo do presente trabalho é
Cheng e Schneeweis (1998) consideraram apresentar o modelo polinomial com
a técnica de mínimos quadrados ajustados, erros nas variáveis quando λi = s i / s é
para a obtenção dos estimadores consistentes, conhecido, sendo que s é desconhecido,
em sua metodologia criaram uma nova num modelo funcional, assim como
variável denominada “T” que se relacionava apresentar os estimadores consistentes e os
diretamente com a variável observável (W) testes de hipóteses apropriados.
e relacionada a traves do valor esperado
com a variável não observável (X). Esta 2 Descrição do processo de
metodologia foi chamado por eles como estimação
método de mínimos quadrados ajustados,
Consideremos o seguinte modelo
Cheng e Van Ness, estudaram de uma forma polinomial com erros nas variáveis, sendo
geral o modelo polinomial de Berkson. as variáveis xi fixas (modelo funcional)
Nakamura (1990) estudou os modelos
Yi = b0 + b1Xi + b2X + … + bpX + ei …(1)
lineares generalizados e obteve como resultado
que uma função escore pode ser corrigida a Wi = Xi + ui …(2)
partir da correção da função de verossimilhança
para i = 1, …, n onde Yi é conhecida como
“naive”, para isto, é necessário que exista
variável resposta, os b j são parâmetros
permutabilidade entre a derivada da função
desconhecidos que desejamos estimar, ei
e a esperança condicional da função com a
é uma variável aleatória que supomos que
finalidade de que a função escore corrigida
se distribui normalmente com média zero
seja gradiente da função de verossimilhança
e variância s i, isto indica, que por cada
corrigida, o problema principal deste método é
observação existirá uma variância diferente,
justamente a necessidade da permutabilidade. Xi é uma variável não observável, dado um
Uma definição expressa no articulo de modelo funcional esta variável não tem
Nakamura diz distribuição própria, esta variável pode
Definição 1 Seja θ o espaço paramétrico e q = ser observado através de Wi, e ui que é o
(bT, ∑u)T, um vetor de parâmetros que desejamos erro presente na variável Wi, desta forma
estimar, onde ∑u = diag(σ 1, σ 2, …, σ n), b = a variável ui é uma variável aleatória que
(b0, b1, …, bp)T, e ℑ, um conjunto aberto assumiremos que tem distribuição normal
e conexo de q, se E[• | X, Y] e , foram com média zero e variância s .
operadores permutáveis, então a gradiente Em resumo as variáveis que representam
de logaritmo da verossimilhança corrigida, os erros de medição têm a seguinte
cumpre a seguinte condição: distribuição
E[U*(q;W,Y) | X, Y] = U(q; X,Y), ∀q∈ℑ
Quando existe a falta de permutabilidade …(3)
outra solução é apresentada, Gimenez
e Bolfarine (1997) desenvolveram uma Para o presente estudo consideramos
metodologia onde eles não se preocuparam como ponto de partida o modelo que
em corrigir a função de verossimilhança, associa as variáveis observáveis, isto é, Yi e
mas sim em corrigir a função escore, eles Wi (modelo “naive”) sendo esta

R. Bras. Eco. de Emp. 2008; 8(1): 39-46


Arturo Alejandro Zavala Zavala 41

Yi = b0 + b1Wi +b2W + bpW + ei …(4) E[Uj(r | h)] = Uj(h) + E[ϕ(r | h)]


este modelo é conhecida na literatura onde ϕ(r) = ϕ(b,σ ; Yi, Wi) é a função que
estatística como modelo “naive” ou “ingênua”, corresponde ao vicio do valor esperado
já que Wi não é a variável regressora real de condicional da função escore para o bj. Como
Yi. O logaritmo da função de verossimilhança a função escore verdadeira que relaciona Xi, Yi
é definido por é Uj(h) = Uj(b, σ ; Yi, Xi), então temos que
Uj(h) = E[Uj(r | h)] – E[ϕ(r | h)]
…(5)
Baseado neste ultimo fato a função escore
Comoλi é conhecido claramente, nossos corrigida é dado por
parâmetros de interesse são bj e s .
Para este trabalho considera-se o método
j = 0,1,…,p …(10)
de Gimenez e Bolfarine (1997), já que o método
de Nakamura (1990) não consegue apresentar De forma que
estimadores consistentes para s , isto é devido
a exigência de permutabilidade entre a derivada
e a esperança condicional não é satisfeita. j = 0,1,…,p
o mesmo acontece com a expressão (9),
obtendo-se
2.1 Metodologia
Aplicando as derivadas parciais a
expressão (5) com respeito a bJ, temos que: …(11)
j = 0,1,…,p …(6) onde as funções ϕj(bj, Yi, Wi, σ ) e ψ(σ ; Yi, Wi,
bj) correspondem aos vícios do valor esperado
e com respeito a s , temos que condicional das funções escores para bj e s ,
respectivamente. Organizando adequadamente
(7) as expressões (10) e (11), temos que
Nas expressões (6) e (7) foram aplicados
os esperados condicionais a Yi, bj e s ,
isto é, E[•| Xi, Yi; b, s ], para facilidade j = 0,1,…, p …(12)
de notação, nas expressões numéricas
poderemos considerar h = Xi, Yi; b,s e
r = Wi, Yi; b,s , obtendo um esperado
…(13)
condicional que tem a forma seguinte E [•
| h], desta forma temos onde ti,(m) é definido segundo o seguinte
lema
Lema 2 Se ui é distribuído normalmente
j = 0,1,…,p …(8) com média zero e variância s , então
e ti,(m + 1) = Witi,(m) − ms ti,(m – 1)
para m = 1, 2, …, p – 1, sendo que ti,(0) = 1 e
ti,(m) = Wi a sua vez E(ti,(s)) = X .
…(9)
A partir disto temos o seguinte sistema
para obter os valores esperados nas expressões de equações lineares
acima, consideremos o seguinte lema:
Lema 1 Se ui é distribuído normalmente
com média zero e variância s , então

para m = 1, 2, …, p – 1.
Como

…(14)
temos que

R. Bras. Eco. de Emp. 2008; 8(1): 39-46


42 Estudo do modelo de regressão polinomial com erros nas variáveis quando existe heterogeneidade na razão das variâncias

…(16)
…(15)

Como se pode observar nas expressões


(14) e (15), não se pode encontrar uma …(17)
expressão fechada para estimar b j e s
simultaneamente, porem se faz necessário
de um processo computacional para suas
…(18)
estimativas. O processo computacional
considera os seguintes passos
1 Escolher apropriadamente o valor de onde
s .
2 Atualizar a expressão (14) considerando
o Lema 2, estimar os valores de bj.
3 Substituir os valores de b j e as
atualizações feitas no Lema 2, na
expressão (15).
4 R e t o r n a r a o p a s s o 2 , c a s o a
convergência não foi obtida.
O sistema de equações apresentados em
(14) e (15), tem raízes múltiplas. Portanto
a escolha da raiz apropriada deve ser feita
substituindo a expressão (18) na expressão
cuidadosamente, devido a que podem
(17), temos que:
existir raízes que não são consistentes.
Duas possíveis soluções para o problema de
raízes múltiplas são propostas em Stefanski e
Carroll (1987) e Stefanski (1989). A primeira
recomenda a raiz mais próxima do estimador a raiz apropriada é obtida como aquele mais
“naive” e com o mesmo sinal que este. Uma próxima do estimador “naive” que neste caso
segunda solução é desenvolver o sistema em corresponde a
forma iterativa, considerando como valores
iniciais os obtidos pelo estimador “naive”.

2.2 Exemplo
Consideremos a equação da linha reta O resultado obtido em (19) será
substituído em (16) e (18), obtendo desta
Yi = b0 + b1Xi + ei
forma os estimadores de b0, b1 e s .
Wi = Xi + ui i = 1, 2, … n
No caso homogêneo, isto é, λ = λ os
sendo ti,(0)) = 1, ti,(1) = Wi e considerando o resultados obtidos a partir das expressões
resultado do Lema 2, ti,(2) = W – s , o sistema acima seriam similares as obtidas por
de equações lineares está composta por Gimenez e Bolfarine (1997).
O estimador dos bj é bom para amostras
grandes, mas é instável para amostras
pequenas, Cheng et. al. (2000), propuseram
um estimador assintoticamente equivalente
para amostras pequenas, a partir de

após uns desenvolvimentos algébricos


temos:

onde ρ é uma raiz positiva pequena da

R. Bras. Eco. de Emp. 2008; 8(1): 39-46


Arturo Alejandro Zavala Zavala 43

expressão acima, ti = (1, ti(1), …, ti(ρ))T,

Prova
A Demonstração deste teorema esta
explicado no trabalho de Gimenez e Bolfarine
(1997), no Teorema 2.2.
Outra forma de apresentar a
, é considerando a matriz Tt na expressão
acima

e V t = M t – T t, com estes componentes 2.4 Teste de Hipótese


pode-se obter o estimador não viciado para Considerando o método de escore
pequenas amostras, sendo esta: corrigido em modelos polinomiais
(Mt – aVt)b = Kt …(20) apresentado neste trabalho e considerando a
onde matriz de covariância assintótica apresentada
na equação (18), podemos desejar testar a
hipóteses seguintes:
com α = ρ + 2, como o sugerido em Cheng H0 : b = b0 vs H1 : b ≠ b0
et. al. (2000). onde b0 é o vetor de constantes
conhecidas.
2.3 M a t r i z d e Va r i â n c i a Gimenez et.al.(2000), propus os testes
Assintóticas de Escore e Wald baseados na metodologia
O vetor do Escore Corrigido para de escore corrigida.
cada observação é definido pela seguinte O teste de Wald, então é definido por:
expressão:

onde é o estimador da matriz de


…(21) covariâncias assintótica.
O teste de Escore, também conhecido como
teste de Rao, é definido quando ,é
definida pela seguinte expressão
onde se cumpre que E(U (b; Yi, Wi) = 0.
Pelo método do “Sandwich”, temos que a
matriz de covariâncias assintóticas pode ser
Segundo Gimenez et.al.(1997), as estatísticas
definida pelo seguinte teorema:
de Wald e Escore têm a mesma distribuição
Teorema 1 Seja uma raiz consistente assintótica sob a hipótese nula, isto é,
da equação e b0 é
o verdadeiro valor do parâmetro. Sob
as condições de regularidade C1-C5 Para uma hipótese individual, isto é,
apresentada por Gimenez e Bolfarine, testar os parâmetros estruturais do modelo
polinomial
é assintoticamente normal com vetor
de médias b0 e a matriz de covariâncias H0 : bj – b vs H1 : bj ≠ b j = 0,1,2,…,p
assintóticas é dada por , onde o teste a ser considerado é definido por:

j = 0,1,2,…,p
sendo que
onde corresponde ao j-ésimo componente
da diagonal principal da matriz de covariância
assintótica apresentada em (18).

R. Bras. Eco. de Emp. 2008; 8(1): 39-46


44 Estudo do modelo de regressão polinomial com erros nas variáveis quando existe heterogeneidade na razão das variâncias

3 Um estudo de Simulação Na tabela 1 (abaixo), é o resultado


Para o presente estudo de simulação de um programa feito no Linguagem Ox
foi considerado um vetor de b = (b0, b1, (Doornik (2001)), para a construção da
b2)T todos iguais a um, assumimos que ui tabela foi considerado os valores seguintes
~ U(0; s ), com a finalidade de não ter b0 = b1 = b2 = 1, a partir deste, observa-se
muita perturbação consideramos que λi ~ que os estimadores apresentados na tabela
U(0,90;1,10), assim que ei ~ N(0; λ,s ), se aproximam aos valores sugeridos na
além disso Xi ~ Bino(1000;0,009), de modo simulação, por outro lado observa-se que
que Wi = Xi + ui, sendo nosso modelo Yi = a medida que se acrescenta o valor de s a
b0 + b1Xi + b2X + ei. Para a simulação foi variabilidade de cada parâmetro aumenta.
considerada 1.000 iterações para amostras Segundo esta simulação os parâmetros se
de 10, 30, 50, 100 e 500. aproximam aos valores sugeridos se s ≤
0,07, após este valor os valores de β’s se vem
Nos resultados, apresentaremos as
influenciados pelo valor de s , afastando-se
estimativas bj, os desvios padrões (D.P.), os
dos valores sugeridos.
Erros Quadráticos Médios (EQM).
Tabela 1 – Resultados da Simulação para um problema de erros nas variáveis no modelo
quadrático quando, é heterogênea.

4 Aplicação a análise de duas metodologias o método


Para poder avaliar a consistência da clássico e o método fogo dividido.
metodologia proposta aplicou a teoria a um Os resultados são apresentados na
conjunto de dados reais, que se encontram seguinte tabela
no Exemplo 4 no trabalho de Galea-Rojas Tabela 2 – Resultados dos dados do exemplo
et.al. (2003), os dados correspondem ao 4 no Galea-Rojas et.al. (2003), quando
conteúdo de Ouro (em gramas/ton.) para heterogênea.
501 amostras as quais foram resultado de

R. Bras. Eco. de Emp. 2008; 8(1): 39-46


Arturo Alejandro Zavala Zavala 45

β0 β1 β2

Estimativa -0,0986970 1,4092000 -0,2135900


σ2u = 0,01
Desvio
0,0053739 0,0245750 0,0060950
Padrão
Estimativa -0,0350320 1,1669000 -0,1539600
σ2u = 0,02
Desvio
0,0002806 0,0037988 0,0009262
Padrão
Estimativa -0,0012376 1,0453000 -0,1241000
σ2u = 0,03
Desvio
0,0020642 0,0062340 0,0015537
Padrão
Estimativa -0,4278100 3,0222000 -0,6157100
σ2u = 0,04
Desvio
Padrão
0,0133090 0,0546390 0,0133530 (c) s = 0,03
Estimativa 0,5855900 -1,9903000 0,6473300
σ2u = 0,05
Desvio
0,0089673 0,0464750 0,0117940
Padrão
Estimativa 0,1156100 0,5723500 -0,0087483
σ2u = 0,06
Desvio
0,0021400 0,0108310 0,0018394
Padrão

Como no processo de simulação anterior


concluímos que as melhores estimativas
de um modelo de regressão, se encontram
quando s ≤ 0,07 consideramos no modelo
vários valores iniciais de s = (0,01;0,02;0
,03;0,04;0,05;0,06) nos dados reais, uma
interpretação gráfica da tabela acima pode-se (d) s = 0,04
apresentar a seguir:

(e) s = 0,05

(a) s = 0,01

(f) s = 0,06
Observamos nos gráficos apresentados
(b) s = 0,02
acima que as curvas do modelo polinomial
de grau 2 que melhor se ajustam aos dados
estariam definidos quando s é igual a 0,01,
0,02, 0,03 e 0,06, os valores de s igual a
0,04 e 0,05 se ajustam também, só que seu
ajuste não passa pela maioria da nuvens de
pontos da amostra, o que faz pouco eficiente
para o modelo.

R. Bras. Eco. de Emp. 2008; 8(1): 39-46


46 Estudo do modelo de regressão polinomial com erros nas variáveis quando existe heterogeneidade na razão das variâncias

5 Conclusões contribuição de este trabalho é que em virtude


O presente trabalho pretendeu abordar a falta de conhecimento da variância do erro
um problema de falta de estimação da da medida s , e ao conhecimento da relação
função de verossimilhança em modelos entre a variabilidade do erro s do modelo
com erros nas variáveis, a obtenção de uma e da variabilidade do erro s da variável
solução considerando uma função escore independente (W), a dificuldade principal
corrigida num modelo de regressão funcional é estimar a variável latente s , muitos
e polinomial, observou-se que frente a este autores foram dando diversas alternativas,
problema a metodologia apresentada e sua a maioria solicita informação adicional da
aplicação não são difíceis de realizar, a sua variabilidade, neste estudo também se fez
vez esta metodologia apresenta estimadores um estudo do valor de s adequado para
consistentes e de mínima variância, a dar inicio as estimativas do modelo.

6 Referências
Carroll, R. J.; Ruppert, D. and Stefanski, L. A. Measurement Error in Nonlinear Models.
Chapman & Hall, New York. 1995.
Chan, L. K. and Mak, T. K. On the polynomial functional relationship. J. Roy. Statist. Soc. Ser.
B, 47, p. 510-518. 1985.
Cheng, C.-L. and Schneeweiss, H. Polynomial regression with errors in the variables. J. Roy.
Statist. Soc. Ser. B, 60, p. 189-199. 1998.
Cheng, C.-L., Schneeweiss, H. and Thamerus, M. A small sample estimator for a polynomial
regression with errors in the variables. J. Roy. Statist. Soc. Ser. B, 62, p. 699-709. 2000.
Cheng, C.-L. and Van Ness, J. W. Statistical Regression with Measurement Error. Arnold,
London, 1999
Doornik, J. A. Ox: An Object-Oriented Matrix Language. fourth edition, Timberlake Consultants
Press, London. 2001.
Fuller, W. A. Measurement Error Models. Wiley, New York. 1987.
Galea-Rojas, M.; de Castilho, M. V.; Bolfarine, H. and de Castro, M. Detection of
analytical bias. Analyst, 128, 10731081. 2003.
Gimenez, P. and Bolfarine, H. Corrected score functions in classical error-in-variables and
incidental parameter models. Austral. J. Statist., 39, p. 325-344. 1997.
Gimenez, P.; Bolfarine, H. and Colosimo, E. A. Hypotheses testing for error-in-variables
models. Ann. Inst. Statist. Math., 52, p. 698-711. 2000.
Kukush, A.; Schneeweiss, H. and Wolf, R. Relative eciency of three estimators in a
polynomial regression with measurement errors. J. Statist. Plann. Infer., 127, p. 179-203. 2005
Moon, M.-S. and Gunst, R. F. Polynomial measurement error modeling. Comp. Statist. & Data
Anal., 19, p. 1-21. 1993.
Nakamura, T. Corrected score function of errors-in-variables models: methodology and
applications to generalized linear models. Biometrika, 77, p. 127-137. 1990.
Stefanski, L. A. Unbiased estimation of a nonlinear function of a normal mean with application
to measurement error models. Comm. Statist. Theory Methods, 18, p. 4335-4358. 1989.
Schneeweiss, H. and Nittner, T. Estimating a polynomial regression with measurement
errors in the structural and in the functional caseA comparison. Data Analysis from Statistical
Foundations, (ed. A. K. M. E. Saleh), p. 195-205, Huntington, Nova Science, 2001.

R. Bras. Eco. de Emp. 2008; 8(1): 39-46

Você também pode gostar