Você está na página 1de 37

Técnicas de Diagnóstico

EP7120 - Modelos Lineales Generalizados Aplicados

Mg. Enver Gerald Tarazona Vargas


enver.tarazona@pucp.edu.pe

Escuela de Posgrado

Universidad Nacional Agraria La Molina (UNALM)

Maestrı́a en Estadı́stica Aplicada


1 / 10
Fundamentos de los Modelos Lineales Generalizados I

1 Introducción

2 / 10
Introducción

Introducción I

Verificar posibles desviaciones de los supuestos realizados en el modelo


(componente aleatorio y parte sistemática).
Detectar observaciones discrepantes (influenciales): Observaciones que
ejercen un peso desproporcionado en la estimación de los parámetros
del modelo.
Uso de técnicas formales (pruebas de razón de verosimilitud, test esco-
re) e informales (examen visual de gráficos)

3 / 10
Modelo Lineal Normal

Supuestos I

1 Esperanza de los Errores: E () = 0


2 Estructura de las Varianzas y Correlaciones de los Errores
Homocedasticidad: V ar (i ) = σ 2 .
Los errores no están correlacionados: Cov (i , j ) = 0 para i 6= j
De los supuestos anteriores: Cov () = E T = σ 2 I
3 Asunciones sobre las covarianzas y la matriz de diseño: La matriz de
diseño es una matriz de rango completo en columnas, r (X) = p.
 ∼ N 0, σ 2 I .

4

4 / 10
Modelo Lineal Normal

Supuestos II

De los supuestos del modelo se obtiene:

E (yi ) =E xTi β + i = xTi β = β1 xi1 + · · · + βip xip ,




V ar (yi ) =V ar xTi β + i = V ar (i ) = σ 2 ,




Cov (yi , yj ) =Cov (i , j ) = 0,

En notación matricial:

E (y) = Xβ y Cov (y) = σ 2 I.

Asumiendo que los errores tienen distribución normal:

y ∼ N (Xβ, σ 2 I)

5 / 10
Modelo Lineal Normal

Valores Predichos y Residuos I

−1
Basados en el estimador de mı́nimos cuadrados β̂ = X T X XT y
para β, se puede estimar la media de y por

\
E (y) = ŷ = X β̂
Sustituyendo la estimación de los coeficientes en la expresión anterior
−1
ŷ = X X T X X T y = Hy

con la matriz n × n
−1
H = X XT X XT (1)

6 / 10
Modelo Lineal Normal

Valores Predichos y Residuos II

La matriz H definida en la Ecuación 1 es conocida como matriz de


proyección o matriz hat. Con la ayuda de esta matriz es posible expresar
los residuos ˆi = yi − yˆi en notación matricial:

ˆ = y − ŷ = y − Hy = (I − H)y

7 / 10
Modelo Lineal Normal Residuos

Residuos Comunes I

ˆi = yi − ŷi = yi − xTi β̂ i = 1, . . . , n

En contraste con los errores, los residuos están correlacionados.


En contraste con los errores, los residuos tienen varianzas heterocedásti-
cas.
No siempre es adecuado usarlos para verficar los supuestos del modelo.

8 / 10
Modelo Lineal Normal Residuos

Residuos Estandarizados I

ˆi
ri = √
σ̂ 1 − hii
donde hii es el i-ésimo elemento de la diagonal de la matriz hat.
Soluciona el problema de la heterocedasticidad con los residuos tı́picos.
Ayuda a evaluar si el supuesto de homocedasticidad de las varianzas es
violado.
Suele graficarse a los residuos estandarizados contra los valores predi-
chos o los valores de las covariables.

9 / 10
Modelo Lineal Normal Residuos

Residuos Estudentizados I

 1/2
ˆ(i) ˆ(i) n−p−1
ri∗ = = √ = ri
  −1 1/2
σ̂(i) 1 − hii n − p − ri2
σ̂(i) 1 + xTi X T(i) X (i) xTi

donde X (i) y y (i) son la matrix de diseño y el vector de respuestas sin la i-ésima
observación.
Tiene distribución tn−p−1
Son usados para verificar supuestos del modelo y detección de outliers.

10 / 10
Evaluación de Supuestos Homocedasticidad

Gráficos de Residuales I

Para detectar errores heterocedásticos, es util graficar a los residuos


versus los valores ajustados ŷi y las covariables xij .
También deberı́an considerarse en el análisis a las variables no incluidas
en el modelo.
La gráfica de los residuos versus y (en vez de los valores ajustados ŷ)
no es recomendable porque los residuos ˆ dependen (por definición)
de la variable respuesta y, por lo que la gráfica podrı́a mostrar esta
dependencia.
Es preferible usar los residuos estandarizados o los estudentizados en vez
de los residuos ordinarios, dado que estos últimos son heterocedásticos
con V ar (ˆi ) = σ 2 (1 − hii ).

11 / 10
Evaluación de Supuestos Homocedasticidad

Gráficos de Residuales II

En el caso de errores con varianza homocedástica, los residuos estuden-


tizados o estandarizados mostrarán fluctuaciones aleatorias alrededor de
cero con una varianza constante. Si esto no sucede, existirá evidencia
de varianzas heterocedásticas.

12 / 10
Evaluación de Supuestos Homocedasticidad

Diversas Formas de la Gráfica de Residuales

13 / 10
Evaluación de Supuestos Homocedasticidad

Diversas Formas de la Gráfica de Residuales


residuos versus precio de venta estimado residuos versus kilometraje
4

4
2

2
residuos

residuos
0

0
−2

−2
2 3 4 5 6 7 50 100 150 200 250
precio de venta estimado kilometraje en miles de km

residuos versus edad en meses residuos versus meses antes de la revisión


4

4
2

2
residuos

residuos
0

0
−2

−2

80 100 120 140 0 5 10 15 20 25


edad en meses meses antes de la revisión

14 / 10
Evaluación de Supuestos Homocedasticidad

Diversas Formas de la Gráfica de Residuales


residuos estudentizados versus precio de venta estimado residuos estudentizados versus kilometraje
4

4
residuos estudentizados

residuos estudentizados
2

2
0

0
−2

−2
−4

−4
2 3 4 5 6 7 50 100 150 200 250
precio de venta estimado kilometraje en miles de km

residuos estudentizados versus edad en meses residuos estudentizados versus meses antes de la revisión
4

4
residuos estudentizados

residuos estudentizados
2

2
0

0
−2

−2
−4

−4

80 100 120 140 0 5 10 15 20 25


edad en meses meses antes de la revisión

15 / 10
Detección de Outliers y Valores Influenciales

Outliers y Valores Influenciales I

Una observación que es marcadamente diferente (atı́pica) al resto de


las observaciones de un conjunto de datos, es conocida como un outlier.
Una observación puede ser un outlier con respecto a la variable res-
puesta y/o a las variables independientes.
De modo especı́fico, una observación extrema en la variable respuesta
es conocida como un outlier mientras que los valores extremos en las
x’s se les dice que tienen un alto leverage y son usualmente llamados
como puntos leverage.
Una observación que causa que las estimaciones en la regresión sean
substancialmente distintas de las que serı́a si esta observación es remo-
vida del conjunto de datos es conocida como una observación influen-
cial.

16 / 10
Detección de Outliers y Valores Influenciales

Outliers y Valores Influenciales II

Observaciones que son outliers o tienen un alto leverage no son ne-


cesariamente influenciales, mientras que las observaciones influenciales
suelen ser outliers y tener algo leverage.

17 / 10
Detección de Outliers y Valores Influenciales

Simulación: Efecto de los Outliers en la regresión


Datos Originales Simulados Y con incremento de 10 en x=5 Y con incremento de 10 en x=10
30

30

30
25

25

25
20

20

20
y1

y2
y
15

15

15
10

10

10
5

5
0

2 4 6 8 10 2 4 6 8 10 2 4 6 8 10
x x x

18 / 10
Detección de Outliers y Valores Influenciales

Simulación: Resumen de los Modelos

19 / 10
Detección de Outliers y Valores Influenciales

Simulación: Comentarios I

Los resultados muestran un sesgo en las estimaciones debidos a los


outliers pero existen diferencias en ambos escenarios.
En el escenario 1, la pendiente tiene solo un ligero incremento mien-
tras si hay un cambio mayor en el intercepto. El ECM tiene un gran
incremento al igual que los errores estándar de los estimadores.
En el escenario 2, la pendiente sufre un gran cambio, mientra el ECM
tiene una menor variación que con el escenario anterior.

20 / 10
Detección de Outliers y Valores Influenciales

Outliers I

Un outlier es una observación para la cual el residuo estudentizado


es grande en magnitud, comparado con los residuos estudentizados de
otras observaciones en el conjunto de datos (el valor esta mal ajustado
por el modelo).
Un outlier puede indicar la violación de supuestos en el modelo.
Como los residuos estudentizados tienen una distribución t-student con
n − p − 1 grados de libertad, entonces es posible trazar lı́mites en los
cuantiles 2.5 % y 97.5 %. Con eso se espera que cerca del 5 % de los
puntos puedan estar un tanto fuera de estos lı́mites.

21 / 10
Detección de Outliers y Valores Influenciales

Outliers II

La gráfica con los residuos estudentizados puede ser utilizada para de-
tectar outliers marginales. Se el objetivo es detectar valores conjunta-
mente extremos se debe de construir el gráfico de envelopes o utilizar
criterios de comparaciones múltiples como el de Bonferroni que consis-
te en utilizar los cuantiles 2.5 %/n y 1 − 2.5 %/n, dado que se están
realizando n comparaciones.

22 / 10
Detección de Outliers y Valores Influenciales

Leverage I

−1 T
La matriz hat H = X X T X X es la matriz de proyección or-
togonal de los vectores en el subespacio generado por las columnas de
la matriz X.
Los puntos remotos en ese subespacio acostumbran ser considerados
como leverage, por ejercer una fuerte influencia en el valor ajustado, es
decir, esos puntos tienen un perfil diferente de los demás con relación
a las variables explicativas.
Los elementos de la diagonal hii miden el leverage de la i-ésima obser-
vación.
Los rangos de los valores leverage van de 1/n hasta 1.
Un alto leverage (cercano a 1) implica dos cosas:

23 / 10
Detección de Outliers y Valores Influenciales

Leverage II

En el caso de una sola covariable, la linea de regresión pasa muy cerca


del punto (yi , xi ), en comparación de las otras observaciones. esto es,
una observación con alto leverage tiene una influencia considerable en
la estimación de los resultados. Estas consideraciones pueden extenderse
al caso de observaciones con más covariables, donde ahora, en un caso
extremo el hiperplano de la regresión casi intercepta al punto (yi , xi ).
Indican valores inusuales en los valores de las covariables (xi ). El valor
leverage hii se incrementa a medida que la observación xi se aleja del
promedio. En este sentido es que los valores leverage son entendidos
como outliers en la dirección de las variables x.
Idealmente los valores leverages hii se encuentran uniformemente dis-
tribuidos. Como regla práctica, la observación hii > 2p/n (el doble del
promedio) debe ser examinada más de cerca.

24 / 10
Detección de Outliers y Valores Influenciales

Leverage III

Cuando se realizan predicciones para un determinado vector x es tam-


bién posible obtener una medida h para ese valor. En caso de que el
valor obtenido sea grande con relación a los puntos utilizados en la esti-
mación del modelo, esto es un indicio de que la combinación de valores
de x es una extrapolación, a pesar de que los valores individuales estén
dentro de los lı́mites que el modelo incluye.

25 / 10
Detección de Outliers y Valores Influenciales

Influencia en la Localización I

Sea ŷ (i) el estimador para E(y) que usa todas las observaciones con
excepción de la i-ésima observación. Una medida obvia para la dife-
rencia entre ŷ basada en todas las estimaciones y ŷ (i) es la distancia
euclidiana entre los estimadores.
La distancia de Cook es definida como:
 T  
ŷ (i) − ŷ ŷ (i) − ŷ
Di =
p · σ̂

La distancia de Cook es una medida global del impacto de la i-ésima


observación en el conjunto de coeficientes de regresión estimados.

26 / 10
Detección de Outliers y Valores Influenciales

Influencia en la Localización II
Puede ser expresada también como:
 T  
β̂ − β̂ (i) XT X β̂ − β̂ (i)
Di =
p · σ̂
( )
i hii 1
= 1/2
σ̂ (1 − hii ) (1 − hii ) p
hii 1
= ri2
(1 − hii ) p

Por lo tanto, Di será grande quando el i-ésimo punto sea un outlier (ri
grande) y/o cuando hii esté próximo a 1.
Cómo regla práctica, las observaciones con un Di > 0.5 deben ser
tomadas con precaución, y las observaciones con Di > 1 deberı́an ser
siempre examinadas.
27 / 10
Detección de Outliers y Valores Influenciales

Influencia en la Localización III

El gráfico de las distancias de Cook contra los valores ajustados, destaca


las observaciones mayores a dos veces la media de todas las distancias
obtenidas.

28 / 10
Detección de Outliers y Valores Influenciales

Influencia en la Localización y Escala I

La distacia de Cook Di puede no ser adecuando cuando ˆi es grande y


hii pequeño. En este caso, σ̂ puede quedar inflacionada si no ocurre nin-
guna compensación por parte de hii , por lo que Di puede mantenerse
pequeño.
Una medida supuestamente más apropiada fue propuesta por Belsley,
Kuh u Welsch (1980), siendo definida como:
 1/2

i | hii
DF F IT Si =
σ̂i (1 − hii )1/2 (1 − hii )
 1/2
∗ hii
= |ri |
(1 − hii )

29 / 10
Detección de Outliers y Valores Influenciales

Influencia en la Localización y Escala II

Cómo el valor esperado de hii es p/n, es más razonable dar atención


a los puntos tal que:
 1/2
p
DF F IT Si ≥ 2
(n − p)

Aparentemente Di y DF F IT Si serı́an medidas de influencia competi-


tivas, a la vez que DF F IT Si parecer ser más adecuada para evaluar
la influencia en las estimaciones de los coeficientes de un valor outlier
con hi i pequeño.

30 / 10
Detección de Outliers y Valores Influenciales

Influencia en la Localización y Escala III


Sin embargo, como muestran Cook, Peña y Weisberg (1988) Di y
DF F IT Si midem cosas distintas. Ambos pueden ser expresadas a par-
tir de la medida más general de influencia llamada alejamiento de la
verosimilitud (likelihood displacement) propuesta por Cook y Weisberg
(1982). La medida Di mide esencialmente la influencia de las observa-
ciones en los parámetros de posición, mientras que DF F IT Si tiene el
propósito de medir la influencia de las observaciones en los parámetros
de posición y escala.
Como es poco probable que un punto con alto ˆi y hii pequeño sean
influyentes en las estimativas de los coeficientes, el uso de Di no com-
promete la detección de observaciones influyentes.
Cook, Peña y Weisberg observaron también que los DF F IT Si no son
una medida completa de influencia en los parámetros y la escala de
manera simultanea, pudiendo fallar en algunas situaciones. Una medida
más general en ese caso es propuesta por los autores.
31 / 10
Detección de Outliers y Valores Influenciales

Influencia en la Localización y Escala IV

Atkinson (1985) propone la medida de infuencia Ci que es un refina-


miento de los DF F IT Si y también es conocido como la distancia de
Cook modificada:
 1/2
(n − p) hii
Ci = |ri∗ |
p (1 − hii )

Es utilizada también para medir la influencia de las observaciones en


los parámetros de localización y escala.
El criterio práctico usado en la gráfica del valor Ci contra los valores
ajustados es destacar las observaciones que son mayores a dos veces la
media de todas las distancias obtenidas.

32 / 10
Detección de Outliers y Valores Influenciales

Influencia Local I

La influencia local consiste en obtener puntos que con pequeñas per-


turbaciones causan variaciones muy grandes en los resultados.
dmax es el autovector que corresponde al mayor autovalor de la matriz
del proceso de perturbaciones.
Para mayores detalles ver Paula (2003, págs.56-63).
El criterio de la gráfica de dmax versus los valores ajustados es destacar
las observaciones que sean dos veces mayor a la media de todos los
dmax.

33 / 10
Detección de Outliers y Valores Influenciales

Diagnóstico del Modelo con los Datos Originales


Influência na Locação Influência Locação/Escala Influência Local

0.20
0.25

Distância de Cook Modificada


1.5
0.20

0.15
Distância de Cook
0.15

1.0

dmax
0.10
0.10

0.5

0.05
0.05
0.00

0.00
0.0
5 10 15 20 5 10 15 20 5 10 15 20
Valor Ajustado Valor Ajustado Valor Ajustado

Pontos Alavanca Pontos Aberrantes Função de Variância

2.5
0.4

Resíduo Padronizado Absoluto


2.0
0.3

Resíduo Padronizado
2

1.5
Medida h

1
0.2

1.0
0
0.1

−1

0.5
−2
0.0

0.0

5 10 15 20 5 10 15 20 5 10 15 20
Valor Ajustado Valor Ajustado Valor Ajustado

34 / 10
Detección de Outliers y Valores Influenciales

Diagnóstico del Modelo bajo el escenario 1


Influência na Locação Influência Locação/Escala Influência Local

0.15
3.0
0.30

Distância de Cook Modificada


2.5
Distância de Cook

0.10
2.0
0.20

dmax
1.5

0.05
1.0
0.10

0.5
0.00

0.00
0.0
5 10 15 20 5 10 15 20 5 10 15 20
Valor Ajustado Valor Ajustado Valor Ajustado

Pontos Alavanca Pontos Aberrantes Função de Variância


0.4

4
Resíduo Padronizado Absoluto
4
0.3

Resíduo Padronizado

3
Medida h

2
0.2

2
0.1

1
0.0

−2

5 10 15 20 5 10 15 20 5 10 15 20
Valor Ajustado Valor Ajustado Valor Ajustado

35 / 10
Detección de Outliers y Valores Influenciales

Diagnóstico del Modelo bajo el escenario 2


Influência na Locação Influência Locação/Escala Influência Local

3.5

0.15
3.0
0.8

Distância de Cook Modificada


2.5
Distância de Cook
0.6

0.10
2.0

dmax
1.5
0.4

0.05
1.0
0.2

0.5

0.00
0.0

0.0
5 10 15 20 5 10 15 20 5 10 15 20
Valor Ajustado Valor Ajustado Valor Ajustado

Pontos Alavanca Pontos Aberrantes Função de Variância


0.4

Resíduo Padronizado Absoluto


2.0
0.3

2
Resíduo Padronizado

1.5
Medida h

1
0.2

1.0
−1
0.1

0.5
−2
0.0

5 10 15 20 5 10 15 20 5 10 15 20
Valor Ajustado Valor Ajustado Valor Ajustado

36 / 10
Detección de Outliers y Valores Influenciales

Ejemplo: Datos Delivery I

Una embotelladora de refrescos está analizando el servicio de suministro de


máquinas de refrescos atendidos por la empresa. El servicio de
abastecimiento incluye el suministro de botellas en las máquinas y
mantenimiento menor realizada por el propio conductor del vehı́culo con
los envı́os. El ingeniero industrial responsable de la logı́stica de la
distribución de refrescos considera que las variables explicativas
distancia, la distancia recorrida por el conductor del vehı́culo a las
máquinas y ncaixas, número de cajas de productos almacenadas s, están
influyendo en la variable tiempo de respuesta, el tiempo gastado por el
conductor para el suministro de máquinas (en minutos). Una muestra
aleatoria de 25 abastecimientos realizados fueron considerados para el
análisis (Montgomery, Peck y Vining, 2001. Cap 3).

37 / 10

Você também pode gostar