Regresión Robusta

Regresin robusta - Wikipedia, la enciclopedia libre https://es.wikipedia.
org/wiki/Regresin_robusta
Regresin robusta
En estadstica robusta, una regresin robusta es una forma de anlisis de la regresin diseada para eludir
algunas limitaciones tradicionales de los mtodos paramtricos y no paramtricos. El anlisis de regresin
busca encontrar la relacin entre una o ms variables independientes y una variable dependiente. Algunos
mtodos utilizados de regresin, como mnimos cuadrados ordinarios, tienen propiedades favorables si sus
suposiciones subyacentes se cumplen para los datos estudiados, pero pueden dar resultados engaosos si
esas suposiciones no son ciertas; se dice que mnimos cuadrados ordinarios no es robusto a violaciones de
los supuestos. Los mtodos de regresin robusta estn diseados para no ser excesivamente afectados por
violaciones de los supuestos por el proceso de generacin de datos subyacente.
En particular, las estimaciones con los mnimos cuadrados son altamente no robustos a los valores atpicos.
Si bien no existe una definicin exacta de un valor atpico o de una observacin atpica, los valores atpicos
son observaciones que no siguen el patrn de las otras observaciones. Esto no es normalmente un problema
si el valor atpico es simplemente una observacin extrema extrada de la cola de una distribucin normal,
pero si los resultados atpicos de error de medicin no normal o alguna otra violacin de supuestos
ordinarios de mnimos cuadrados estndar, entonces se compromete la validez de los resultados de la
regresin si se utiliza una tcnica de regresin no-robusta.
ndice
1 Aplicaciones
1.1 Errores heteroscedsticos
1.2 La presencia de valores atpicos
2 Historia e impopularidad de la regresin robusta
3 Los mtodos de regresin robusta
3.1 Alternativas a los mnimos cuadrados
3.2 Alternativas paramtricas
4 Referencias
5 Bibliografa adicional
Aplicaciones
Errores heteroscedsticos
Un caso en el que la estimacin robusta se debe considerar es cuando hay una fuerte sospecha de
heterocedasticidad. En el modelo homoscedstico, se asume que la varianza del trmino de error es
constante para todos los valores de x. Heteroscedasticidad permite la variacin que depender de x, que es
ms preciso para muchos escenarios reales. Por ejemplo, la variacin del gasto suele ser mayor para las
personas con ingresos ms altos que para las personas con ingresos ms bajos. Los paquetes de software
normalmente por defecto a una modelo homoscedstica, a pesar de que este modelo puede ser menos precisa
que un modelo heteroscedastic. Un enfoque simple (Tofallis, 2008) es la aplicacin de mnimos cuadrados a
los errores porcentuales ya que esto reduce la influencia de los valores ms grandes de la variable
dependiente en comparacin con los mnimos cuadrados ordinarios.
La presencia de valores atpicos

Otra situacin comn en la que se utiliza estimacin robusta se produce cuando los datos contienen valores
1 de 4 23/08/2017 15:14
Regresin robusta - Wikipedia, la enciclopedia libre https://es.wikipedia.org/wiki/Regresin_robusta
atpicos. En presencia de valores atpicos que no provienen de un mismo proceso de generacin de datos que
el resto de los datos, la estimacin por mnimos cuadrados es ineficaz y puede estar sesgada. Debido a que
las predicciones con mnimos cuadrados son arrastradas hacia los valores atpicos, y debido a que la
varianza de las estimaciones se inflan artificialmente, el resultado es que los valores atpicos se pueden
enmascarar. (En muchas situaciones, como algunas zonas de la geoestadstica y estadsticas mdicas, son
precisamente los valores atpicos los que son de inters.)
Aunque a veces se afirma que los mnimos cuadrados (o mtodos estadsticos clsicos en general) son
robustos, solo son robustos en el sentido de que el tipo I tasa de error no aumenta bajo violaciones del
modelo. De hecho, el tipo I tasa de error tiende a ser ms bajo que el nivel nominal cuando los valores
atpicos estn presentes, y con frecuencia hay un dramtico incremento en la tasa de error de tipo II. La
reduccin de la tasa de error de tipo I ha sido etiquetado como el conservadurismo de los mtodos clsicos.
Otras etiquetas pueden incluir la ineficacia o inadmisibilidad.
Historia e impopularidad de la regresin robusta

A pesar de su rendimiento superior sobre la estimacin de mnimos cuadrados, en muchos casos, an no se
utilizan ampliamente mtodos robustos para la regresin. Hay varias razones que pueden ayudar a explicar
su impopularidad (Hampel et al. 1986, 2005). Una posible razn es que hay varios mtodos que compiten y
el campo empez con muchas salidas en falso. Adems, el clculo de las estimaciones robustas es mucho
ms intensiva computacionalmente que la estimacin por mnimos cuadrados. Sin embargo, en los ltimos
aos esta objecin se ha vuelto menos relevante dado que la potencia de clculo ha aumentado
considerablemente. Otra razn de la poca utilizacin de la regresin robusta puede ser que algunos paquetes
populares de software estadstico no aplicaron los mtodos (Stromberg, 2004). La creencia de muchos
estadsticos de que los mtodos clsicos son robustos puede ser otra razn.
Aunque la adopcin de mtodos robustos han sido lenta, las materias de estadstica convencionales y los
libros de texto modernos a menudo incluyen la discusin de estos mtodos (por ejemplo, los libros de Seber
y Lee, y Faraway). Adems, los paquetes de software estadsticos modernos, como R, Stata y S-PLUS
incluyen una funcionalidad considerable para la estimacin robusta (vase, por ejemplo, los libros de
Venables y Ripley, y por Maronna et al.).
Los mtodos de regresin robusta

Alternativas a los mnimos cuadrados
Los mtodos ms simples de estimacin de parmetros en un modelo de regresin que son menos sensibles a
los valores atpicos que las estimaciones de mnimos cuadrados, es el uso de Mnimas desviaciones
absolutas. Incluso entonces, los valores extremos graves an puede tener un impacto considerable en el
modelo, motivando la investigacin sobre enfoques an ms robustos.
En 1973, Peter J. Huber present los modelos de regresin M-estimacin. La M enlas siglas de
M-estimacin son por "Tipo de mxima verosimilitud". El mtodo es robusto a los valores atpicos en la
variable de respuesta, pero result no ser resistente a los valores atpicos en las variables explicativas
(puntos de influencia). De hecho, cuando hay valores extremos en las variables explicativas, el mtodo no
tiene ninguna ventaja sobre los mnimos cuadrados.
En la dcada de 1980, se propusieron varias alternativas al M-estimacin como intentos de superar la falta
de resistencia. Mnimos cuadrados recortados (LTS) es una alternativa viable y es actualmente (2007) en la
opcin preferida de Rousseeuw y Ryan (1997, 2008). El Theil-Sen estimador tiene un punto de ruptura
inferior LTS pero es estadsticamente eficiente y popular. Otra solucin propuesta fue S-estimacin. Este
mtodo encuentra una lnea (plano o hiperplano) que minimiza una estimacin robusta de la escala (de la
2 de 4 23/08/2017 15:14
que el mtodo obtiene el S en su nombre) de los residuos. Este mtodo es altamente resistente a los puntos
de influencia, y es robusto a los valores atpicos en la respuesta. Sin embargo, se encontr tambin que este
mtodo es ineficaz.
Alternativas paramtricas
Otro enfoque para la estimacin robusta de modelos de regresin es reemplazar la distribucin normal con
una distribucin de cola pesada. Una distribucin t con entre 4 y 6 grados de libertad se considera que es una
buena eleccin en diferentes situaciones prcticas. La regresin bayesiana robusta, siendo totalmente
paramtrica se basa en gran medida de estas distribuciones.
Bajo el supuesto de residuos t-distribuidos, la distribucin es una localizacin escala. Es decir,

. Los grados de libertad de la distribucin t son a veces llamados el parmetro de curtosis.
Lange, Little y Taylor (1989) discuten este modelo en cierta profundidad desde un punto de vista no
Bayesiano.1 Una estudio que toma en cuenta lo bayesiano aparece en Gelman et al. (2003).2
Un enfoque paramtrico alternativa es suponer que los residuos siguen una mezcla de distribuciones
normales, en particular, una distribucin normal contaminada en la que la mayora de las observaciones son
de una distribucin normal especificada, pero una pequea proporcin son de una distribucin normal con
mucho mayor varianza. Eso es, los residuos tienen probabilidad de venir de una distribucin normal
con varianza , En donde es pequeo, y la probabilidad de venir de una distribucin normal con
varianza para algunos
Tpicamente, . Esto a veces se llama el Modelo de la contaminacin.
Enfoques paramtricos tienen la ventaja de que la teora de probabilidad proporciona un 'fuera de la

plataforma' enfoque a la inferencia (aunque para los modelos de mezcla tales como la -Contaminacin
modelo, no pudo aplicarse las condiciones usuales de regularidad), y que es posible construir modelos de
simulacin a partir del ajuste. Sin embargo, estos modelos paramtricos todava asumen que el modelo
subyacente es literalmente cierto. Como tales, no tienen en cuenta las distribuciones residuales sesgadas o
precisiones observacin finitos.
Referencias
1. Lange, K. L.; R. J. A. Little and J. M. G. Taylor (1989). Robust statistical modeling using the t-distribution.
Journal of the American Statistical Association 84 (408): 881-896. JSTOR 2290063 (https://www.jstor.org/stable
/2290063). doi:10.2307/2290063 (http://dx.doi.org/10.2307%2F2290063).
2. Gelman, A.; J. B. Carlin, H. S. Stern and D. B. Rubin (2003). Bayesian Data Analysis (Second ed.). Chapman &
Hall/CRC.
Bibliografa adicional
Andersen, R. (2008). Modern Methods for Robust Regression. Sage University Paper Series on
Quantitative Applications in the Social Sciences, 07-152.
Ben-Gal I., Outlier detection (http://www.eng.tau.ac.il/~bengal/outlier.pdf), In: Maimon O. and
Rockach L. (Eds.) Data Mining and Knowledge Discovery Handbook: A Complete Guide for
Practitioners and Researchers," Kluwer Academic Publishers, 2005, ISBN 0-387-24435-2.
Breiman, L. (2001). Statistical Modeling: the Two Cultures. Statistical Science 16 (3): 199-231.
JSTOR 2676681 (https://www.jstor.org/stable/2676681). doi:10.1214/ss/1009213725 (http://dx.doi.org
/10.1214%2Fss%2F1009213725).
3 de 4 23/08/2017 15:14
Faraway, J. J. (2004). Linear Models with R. Chapman & Hall/CRC.

Draper, David (1988). Rank-Based Robust Analysis of Linear Models. I. Exposition and Review.
Statistical Science 3 (2): 239-257. JSTOR 2245578 (https://www.jstor.org/stable/2245578). doi:10.1214/ss
/1177012915 (http://dx.doi.org/10.1214%2Fss%2F1177012915).
McKean, Joseph W. (2004). Robust Analysis of Linear Models. Statistical Science 19 (4): 562-570.
JSTOR 4144426 (https://www.jstor.org/stable/4144426). doi:10.1214/088342304000000549 (http://dx.doi.org
/10.1214%2F088342304000000549).
Fornalski, K. W. (2015). Applications of the robust Bayesian regression analysis. International
Journal of Society Systems Science 7 (4): 314-333. doi:10.1504/IJSSS.2015.073223 (http://dx.doi.org
/10.1504%2FIJSSS.2015.073223).
Gelman, A.; J. B. Carlin, H. S. Stern and D. B. Rubin (2003). Bayesian Data Analysis (Second
Edition). Chapman & Hall/CRC.
Hampel, F. R.; E. M. Ronchetti, P. J. Rousseeuw and W. A. Stahel (1986, 2005). Robust Statistics: The
Approach Based on Influence Functions. Wiley.
Lange, K. L.; R. J. A. Little and J. M. G. Taylor (1989). Robust statistical modeling using the
t-distribution. Journal of the American Statistical Association 84 (408): 881-896. JSTOR 2290063
(https://www.jstor.org/stable/2290063). doi:10.2307/2290063 (http://dx.doi.org/10.2307%2F2290063).
Maronna, R.; D. Martin and V. Yohai (2006). Robust Statistics: Theory and Methods. Wiley.
Radchenko S.G. (2005). Robust methods for statistical models estimation: Monograph. (on russian
language). iev: Sanspariel ISBN 966-96574-0-7. p. 504.
Rousseeuw, P. J.; A. M. Leroy (1986, 2003). Robust Regression and Outlier Detection. Wiley.
Ryan, T. P. (1997, 2008). Modern Regression Methods. Wiley.
Seber, G. A. F.; A. J. Lee (2003). Linear Regression Analysis (Second Edition). Wiley.
Stromberg, A. J. (2004). Why write statistical software? The case of robust statistical methods.
Journal of Statistical Software.
Strutz, Tilo (2010). Data Fitting and Uncertainty - A practical introduction to weighted least squares
and beyond. Vieweg+Teubner. ISBN 978-3-8348-1022-9.
Tofallis, Chris (2008). Least Squares Percentage Regression (http://papers.ssrn.com
/sol3/papers.cfm?abstract_id=1406472). Journal of Modern Applied Statistical Methods 7: 526-534.
Venables, W. N.; B. D. Ripley (2002). Modern Applied Statistics with S. Springer.
Obtenido de https://es.wikipedia.org/w/index.php?title=Regresin_robusta&oldid=95386676
Se edit esta pgina por ltima vez el 3 dic 2016 a las 10:33.
El texto est disponible bajo la Licencia Creative Commons Atribucin Compartir Igual 3.0; pueden
aplicarse clusulas adicionales. Al usar este sitio, usted acepta nuestros trminos de uso y nuestra
poltica de privacidad.
Wikipedia es una marca registrada de la Fundacin Wikimedia, Inc., una organizacin sin nimo de
lucro.
4 de 4 23/08/2017 15:14

Regresión Robusta

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Regresión Robusta

Enviado por

Direitos autorais:

Formatos disponíveis

Regresin robusta - Wikipedia, la enciclopedia libre https://es.wikipedia.

La presencia de valores atpicos

Historia e impopularidad de la regresin robusta

Los mtodos de regresin robusta

Bajo el supuesto de residuos t-distribuidos, la distribucin es una localizacin escala. Es decir,

Tpicamente, . Esto a veces se llama el Modelo de la contaminacin.

Enfoques paramtricos tienen la ventaja de que la teora de probabilidad proporciona un 'fuera de la

Faraway, J. J. (2004). Linear Models with R. Chapman & Hall/CRC.

Você também pode gostar