Você está na página 1de 8

Laboratorio 4: Diagnóstico de balanceo e influencia

Fabrizzio Vasquez

fvasquezpe@uni.pe
Escuela Profesional de Ingenierı́a Estadı́stica
Facultad de Ingenierı́a Económica, Estadı́stica y Ciencias Sociales
Universidad Nacional de Ingenierı́a

Junio 2017

Fabrizzio Vasquez (UNI) Análisis de influencia Junio 2017 1/8


¿Qué aprenderemos hoy?

1 Repaso

2 Ejercicios

Fabrizzio Vasquez (UNI) Análisis de influencia Junio 2017 2/8


Apalancamiento (Leverage)

Leverage
Es una medida de distancia entre un valor observado en relación a los demás.
Un puntaje alto significa que el modelo cambiará significativamente si se
extrae dicha observación del conjunto de datos iniciales. Se define como:

hii = [H]ii

donde:  −1
H = X XT X XT

Tener en cuenta que:


0 ≤ hii ≤ 1
2p
Si excede de n , es considerado un punto de apalancamiento.

Fabrizzio Vasquez (UNI) Análisis de influencia Junio 2017 3/8


Medidas de influencia: D de Cook

D de Cook
Medida estadı́stica usada para:
1 Indicar puntos de datos influyentes que merecen ser revisados.
2 Indicar regiones del diseño espacial en donde se pueden obtener una
mayor cantidad de datos.
Es definido como:

ei2
 
hi
Di = 2
s p (1 − hi )2

Fabrizzio Vasquez (UNI) Análisis de influencia Junio 2017 4/8


Medidas de influencia: DFBETAS

DFBETAS
Indica cuánto cambia el coeficiente de regresión β̂j en unidades de
desviación estándar si se omitiera la i-ésima observación. Se define como:

β̂j − β̂j(i)
DFBETASj,i = q
2 C
S(i) jj

donde Cjj es el j-ésimo elemento diagonal de (X T X )−1 y β̂j(i) el j-ésimo


coeficiente de regresión, calculado sin usar la i-ésima observación.
rj,i ti
DFBETASj,i = √ ×√
rj rj 1 − hii

Valores superiores a √2n son considerados influyentes.

Fabrizzio Vasquez (UNI) Análisis de influencia Junio 2017 5/8


Medidas de influencia: DFFITS

DFFITS
Mide la influencia de la i-ésima observación sobre el valor predicho o
ajustado.
ŷi − ŷ(i)
DFFITSi = q
2 h
S(i) ii

donde:
hii 1/2
DFFITSi = ( ) × ti
1 − hii
p
Valores superiores para |DFFITSi | > p/n son considerados influyentes.

Fabrizzio Vasquez (UNI) Análisis de influencia Junio 2017 6/8


Medida del desempeño del modelo: COVRATIO

COVRATIO
Proporciona información sobre la precisión general de la estimación,
definiendo la relación general de covarianzas:

|(XT −1 2
(i) X(i) ) Si |
COVRATIOi =
|(XT X)−1 MSRes|
2 )p
(S(i) 1
COVRATIOi = p ×( )
MSRes 1 − hii

Valores mayores a 1 mejoran la precisión de la estimación.

Fabrizzio Vasquez (UNI) Análisis de influencia Junio 2017 7/8


Ejemplo 6: Datos de Ahorros

Datos que contienen tasas de ahorro en 1960-1970. El origen de estos


datos pueden encontrarse en Belsley, Kuh y Welsch (1980)1
Variables:
sr= Agregados de ahorros personales.
pop15= Porcentaje de población menor a 15 años.
pop75= Porcentaje de población mayor a 75 años.
dpi= Ingreso real disponible per cápita.
ddpi= Ratio de crecimiento de Ingreso disponible per cápita.

1
Belsley, D. A., Kuh. E. and Welsch, R. E. (1980) Regression Diagnostics. New
York: Wiley.
Fabrizzio Vasquez (UNI) Análisis de influencia Junio 2017 8/8

Interesses relacionados