Modelos Lineales Generalizados Cap 1.2

Técnicas de Diagnóstico
EP7120 - Modelos Lineales Generalizados Aplicados
Mg. Enver Gerald Tarazona Vargas

enver.tarazona@pucp.edu.pe
Escuela de Posgrado
Universidad Nacional Agraria La Molina (UNALM)
Maestrı́a en Estadı́stica Aplicada

1 / 10
Fundamentos de los Modelos Lineales Generalizados I
1 Introducción
2 / 10
Introducción
Introducción I
Verificar posibles desviaciones de los supuestos realizados en el modelo

(componente aleatorio y parte sistemática).
Detectar observaciones discrepantes (influenciales): Observaciones que
ejercen un peso desproporcionado en la estimación de los parámetros
del modelo.
Uso de técnicas formales (pruebas de razón de verosimilitud, test esco-
re) e informales (examen visual de gráficos)
3 / 10
Modelo Lineal Normal
Supuestos I
1 Esperanza de los Errores: E () = 0

2 Estructura de las Varianzas y Correlaciones de los Errores
Homocedasticidad: V ar (i ) = σ 2 .
Los errores no están correlacionados: Cov (i , j ) = 0 para i 6= j
De los supuestos anteriores: Cov () = E T = σ 2 I
3 Asunciones sobre las covarianzas y la matriz de diseño: La matriz de
diseño es una matriz de rango completo en columnas, r (X) = p.
∼ N 0, σ 2 I .

4
4 / 10
Supuestos II
De los supuestos del modelo se obtiene:
E (yi ) =E xTi β + i = xTi β = β1 xi1 + · · · + βip xip ,

V ar (yi ) =V ar xTi β + i = V ar (i ) = σ 2 ,

Cov (yi , yj ) =Cov (i , j ) = 0,
En notación matricial:
E (y) = Xβ y Cov (y) = σ 2 I.
Asumiendo que los errores tienen distribución normal:
y ∼ N (Xβ, σ 2 I)
5 / 10
Valores Predichos y Residuos I
−1
Basados en el estimador de mı́nimos cuadrados β̂ = X T X XT y
para β, se puede estimar la media de y por
\
E (y) = ŷ = X β̂
Sustituyendo la estimación de los coeficientes en la expresión anterior
−1
ŷ = X X T X X T y = Hy
con la matriz n × n
−1
H = X XT X XT (1)
6 / 10
Valores Predichos y Residuos II
La matriz H definida en la Ecuación 1 es conocida como matriz de

proyección o matriz hat. Con la ayuda de esta matriz es posible expresar
los residuos î = yi − yî en notación matricial:
ˆ = y − ŷ = y − Hy = (I − H)y
7 / 10
Modelo Lineal Normal Residuos
Residuos Comunes I
î = yi − ŷi = yi − xTi β̂ i = 1, . . . , n
En contraste con los errores, los residuos están correlacionados.

En contraste con los errores, los residuos tienen varianzas heterocedásti-
cas.
No siempre es adecuado usarlos para verficar los supuestos del modelo.
8 / 10
Residuos Estandarizados I
î
ri = √
σ̂ 1 − hii
donde hii es el i-ésimo elemento de la diagonal de la matriz hat.
Soluciona el problema de la heterocedasticidad con los residuos tı́picos.
Ayuda a evaluar si el supuesto de homocedasticidad de las varianzas es
violado.
Suele graficarse a los residuos estandarizados contra los valores predi-
chos o los valores de las covariables.
9 / 10
Residuos Estudentizados I
1/2
ˆ(i) ˆ(i) n−p−1
ri∗ = = √ = ri
−1 1/2
σ̂(i) 1 − hii n − p − ri2
σ̂(i) 1 + xTi X T(i) X (i) xTi
donde X (i) y y (i) son la matrix de diseño y el vector de respuestas sin la i-ésima
observación.
Tiene distribución tn−p−1
Son usados para verificar supuestos del modelo y detección de outliers.
10 / 10
Evaluación de Supuestos Homocedasticidad
Gráficos de Residuales I
Para detectar errores heterocedásticos, es util graficar a los residuos

versus los valores ajustados ŷi y las covariables xij .
También deberı́an considerarse en el análisis a las variables no incluidas
en el modelo.
La gráfica de los residuos versus y (en vez de los valores ajustados ŷ)
no es recomendable porque los residuos ˆ dependen (por definición)
de la variable respuesta y, por lo que la gráfica podrı́a mostrar esta
dependencia.
Es preferible usar los residuos estandarizados o los estudentizados en vez
de los residuos ordinarios, dado que estos últimos son heterocedásticos
con V ar (î ) = σ 2 (1 − hii ).
11 / 10
Gráficos de Residuales II
En el caso de errores con varianza homocedástica, los residuos estuden-

tizados o estandarizados mostrarán fluctuaciones aleatorias alrededor de
cero con una varianza constante. Si esto no sucede, existirá evidencia
de varianzas heterocedásticas.
12 / 10
Diversas Formas de la Gráfica de Residuales
13 / 10

residuos versus precio de venta estimado residuos versus kilometraje
4
4
2
2
residuos
residuos
0
0
−2
−2
2 3 4 5 6 7 50 100 150 200 250
precio de venta estimado kilometraje en miles de km
residuos versus edad en meses residuos versus meses antes de la revisión

4
4
2
2
residuos
residuos
0
0
−2
−2
80 100 120 140 0 5 10 15 20 25

edad en meses meses antes de la revisión
14 / 10

residuos estudentizados versus precio de venta estimado residuos estudentizados versus kilometraje
4
4
residuos estudentizados
2
2
0
0
−2
−2
−4
−4
2 3 4 5 6 7 50 100 150 200 250
precio de venta estimado kilometraje en miles de km
residuos estudentizados versus edad en meses residuos estudentizados versus meses antes de la revisión
4
4
2
2
0
0
−2
−2
−4
−4
80 100 120 140 0 5 10 15 20 25

edad en meses meses antes de la revisión
15 / 10
Detección de Outliers y Valores Influenciales
Outliers y Valores Influenciales I
Una observación que es marcadamente diferente (atı́pica) al resto de

las observaciones de un conjunto de datos, es conocida como un outlier.
Una observación puede ser un outlier con respecto a la variable res-
puesta y/o a las variables independientes.
De modo especı́fico, una observación extrema en la variable respuesta
es conocida como un outlier mientras que los valores extremos en las
x’s se les dice que tienen un alto leverage y son usualmente llamados
como puntos leverage.
Una observación que causa que las estimaciones en la regresión sean
substancialmente distintas de las que serı́a si esta observación es remo-
vida del conjunto de datos es conocida como una observación influen-
cial.
16 / 10
Outliers y Valores Influenciales II
Observaciones que son outliers o tienen un alto leverage no son ne-

cesariamente influenciales, mientras que las observaciones influenciales
suelen ser outliers y tener algo leverage.
17 / 10
Simulación: Efecto de los Outliers en la regresión

Datos Originales Simulados Y con incremento de 10 en x=5 Y con incremento de 10 en x=10
30
30
30
25
25
25
20
20
20
y1
y2
y
15
15
15
10
10
10
5
5
0
2 4 6 8 10 2 4 6 8 10 2 4 6 8 10
x x x
18 / 10
Simulación: Resumen de los Modelos
19 / 10
Simulación: Comentarios I
Los resultados muestran un sesgo en las estimaciones debidos a los

outliers pero existen diferencias en ambos escenarios.
En el escenario 1, la pendiente tiene solo un ligero incremento mien-
tras si hay un cambio mayor en el intercepto. El ECM tiene un gran
incremento al igual que los errores estándar de los estimadores.
En el escenario 2, la pendiente sufre un gran cambio, mientra el ECM
tiene una menor variación que con el escenario anterior.
20 / 10
Outliers I
Un outlier es una observación para la cual el residuo estudentizado

es grande en magnitud, comparado con los residuos estudentizados de
otras observaciones en el conjunto de datos (el valor esta mal ajustado
por el modelo).
Un outlier puede indicar la violación de supuestos en el modelo.
Como los residuos estudentizados tienen una distribución t-student con
n − p − 1 grados de libertad, entonces es posible trazar lı́mites en los
cuantiles 2.5 % y 97.5 %. Con eso se espera que cerca del 5 % de los
puntos puedan estar un tanto fuera de estos lı́mites.
21 / 10
Outliers II
La gráfica con los residuos estudentizados puede ser utilizada para de-
tectar outliers marginales. Se el objetivo es detectar valores conjunta-
mente extremos se debe de construir el gráfico de envelopes o utilizar
criterios de comparaciones múltiples como el de Bonferroni que consis-
te en utilizar los cuantiles 2.5 %/n y 1 − 2.5 %/n, dado que se están
realizando n comparaciones.
22 / 10
Leverage I
−1 T
La matriz hat H = X X T X X es la matriz de proyección or-
togonal de los vectores en el subespacio generado por las columnas de
la matriz X.
Los puntos remotos en ese subespacio acostumbran ser considerados
como leverage, por ejercer una fuerte influencia en el valor ajustado, es
decir, esos puntos tienen un perfil diferente de los demás con relación
a las variables explicativas.
Los elementos de la diagonal hii miden el leverage de la i-ésima obser-
vación.
Los rangos de los valores leverage van de 1/n hasta 1.
Un alto leverage (cercano a 1) implica dos cosas:
23 / 10
Leverage II
En el caso de una sola covariable, la linea de regresión pasa muy cerca

del punto (yi , xi ), en comparación de las otras observaciones. esto es,
una observación con alto leverage tiene una influencia considerable en
la estimación de los resultados. Estas consideraciones pueden extenderse
al caso de observaciones con más covariables, donde ahora, en un caso
extremo el hiperplano de la regresión casi intercepta al punto (yi , xi ).
Indican valores inusuales en los valores de las covariables (xi ). El valor
leverage hii se incrementa a medida que la observación xi se aleja del
promedio. En este sentido es que los valores leverage son entendidos
como outliers en la dirección de las variables x.
Idealmente los valores leverages hii se encuentran uniformemente dis-
tribuidos. Como regla práctica, la observación hii > 2p/n (el doble del
promedio) debe ser examinada más de cerca.
24 / 10
Leverage III
Cuando se realizan predicciones para un determinado vector x es tam-

bién posible obtener una medida h para ese valor. En caso de que el
valor obtenido sea grande con relación a los puntos utilizados en la esti-
mación del modelo, esto es un indicio de que la combinación de valores
de x es una extrapolación, a pesar de que los valores individuales estén
dentro de los lı́mites que el modelo incluye.
25 / 10
Influencia en la Localización I
Sea ŷ (i) el estimador para E(y) que usa todas las observaciones con
excepción de la i-ésima observación. Una medida obvia para la dife-
rencia entre ŷ basada en todas las estimaciones y ŷ (i) es la distancia
euclidiana entre los estimadores.
La distancia de Cook es definida como:
T
ŷ (i) − ŷ ŷ (i) − ŷ
Di =
p · σ̂
La distancia de Cook es una medida global del impacto de la i-ésima

observación en el conjunto de coeficientes de regresión estimados.
26 / 10
Influencia en la Localización II
Puede ser expresada también como:
T
β̂ − β̂ (i) XT X β̂ − β̂ (i)
Di =
p · σ̂
( )
i hii 1
= 1/2
σ̂ (1 − hii ) (1 − hii ) p
hii 1
= ri2
(1 − hii ) p
Por lo tanto, Di será grande quando el i-ésimo punto sea un outlier (ri
grande) y/o cuando hii esté próximo a 1.
Cómo regla práctica, las observaciones con un Di > 0.5 deben ser
tomadas con precaución, y las observaciones con Di > 1 deberı́an ser
siempre examinadas.
27 / 10
Influencia en la Localización III
El gráfico de las distancias de Cook contra los valores ajustados, destaca

las observaciones mayores a dos veces la media de todas las distancias
obtenidas.
28 / 10
Influencia en la Localización y Escala I
La distacia de Cook Di puede no ser adecuando cuando î es grande y

hii pequeño. En este caso, σ̂ puede quedar inflacionada si no ocurre nin-
guna compensación por parte de hii , por lo que Di puede mantenerse
pequeño.
Una medida supuestamente más apropiada fue propuesta por Belsley,
Kuh u Welsch (1980), siendo definida como:
1/2
|ˆ
i | hii
DF F IT Si =
σ̂i (1 − hii )1/2 (1 − hii )
1/2
∗ hii
= |ri |
(1 − hii )
29 / 10
Influencia en la Localización y Escala II
Cómo el valor esperado de hii es p/n, es más razonable dar atención

a los puntos tal que:
1/2
p
DF F IT Si ≥ 2
(n − p)
Aparentemente Di y DF F IT Si serı́an medidas de influencia competi-

tivas, a la vez que DF F IT Si parecer ser más adecuada para evaluar
la influencia en las estimaciones de los coeficientes de un valor outlier
con hi i pequeño.
30 / 10
Influencia en la Localización y Escala III

Sin embargo, como muestran Cook, Peña y Weisberg (1988) Di y
DF F IT Si midem cosas distintas. Ambos pueden ser expresadas a par-
tir de la medida más general de influencia llamada alejamiento de la
verosimilitud (likelihood displacement) propuesta por Cook y Weisberg
(1982). La medida Di mide esencialmente la influencia de las observa-
ciones en los parámetros de posición, mientras que DF F IT Si tiene el
propósito de medir la influencia de las observaciones en los parámetros
de posición y escala.
Como es poco probable que un punto con alto î y hii pequeño sean
influyentes en las estimativas de los coeficientes, el uso de Di no com-
promete la detección de observaciones influyentes.
Cook, Peña y Weisberg observaron también que los DF F IT Si no son
una medida completa de influencia en los parámetros y la escala de
manera simultanea, pudiendo fallar en algunas situaciones. Una medida
más general en ese caso es propuesta por los autores.
31 / 10
Influencia en la Localización y Escala IV
Atkinson (1985) propone la medida de infuencia Ci que es un refina-

miento de los DF F IT Si y también es conocido como la distancia de
Cook modificada:
1/2
(n − p) hii
Ci = |ri∗ |
p (1 − hii )
Es utilizada también para medir la influencia de las observaciones en

los parámetros de localización y escala.
El criterio práctico usado en la gráfica del valor Ci contra los valores
ajustados es destacar las observaciones que son mayores a dos veces la
media de todas las distancias obtenidas.
32 / 10
Influencia Local I
La influencia local consiste en obtener puntos que con pequeñas per-

turbaciones causan variaciones muy grandes en los resultados.
dmax es el autovector que corresponde al mayor autovalor de la matriz
del proceso de perturbaciones.
Para mayores detalles ver Paula (2003, págs.56-63).
El criterio de la gráfica de dmax versus los valores ajustados es destacar
las observaciones que sean dos veces mayor a la media de todos los
dmax.
33 / 10
Diagnóstico del Modelo con los Datos Originales

Influência na Locação Influência Locação/Escala Influência Local
0.20
0.25
Distância de Cook Modificada

1.5
0.20
0.15
Distância de Cook
0.15
1.0
dmax
0.10
0.10
0.5
0.05
0.05
0.00
0.00
0.0
5 10 15 20 5 10 15 20 5 10 15 20
Valor Ajustado Valor Ajustado Valor Ajustado
Pontos Alavanca Pontos Aberrantes Função de Variância
2.5
0.4
Resíduo Padronizado Absoluto

2.0
0.3
Resíduo Padronizado
2
1.5
Medida h
1
0.2
1.0
0
0.1
−1
0.5
−2
0.0
0.0
5 10 15 20 5 10 15 20 5 10 15 20
34 / 10
Diagnóstico del Modelo bajo el escenario 1

0.15
3.0
0.30

2.5
Distância de Cook
0.10
2.0
0.20
dmax
1.5
0.05
1.0
0.10
0.5
0.00
0.00
0.0
5 10 15 20 5 10 15 20 5 10 15 20

0.4
4
4
0.3
3
Medida h
2
0.2
2
0.1
1
0.0
−2
5 10 15 20 5 10 15 20 5 10 15 20
35 / 10
Diagnóstico del Modelo bajo el escenario 2

3.5
0.15
3.0
0.8

2.5
Distância de Cook
0.6
0.10
2.0
dmax
1.5
0.4
0.05
1.0
0.2
0.5
0.00
0.0
0.0
5 10 15 20 5 10 15 20 5 10 15 20

0.4

2.0
0.3
2
1.5
Medida h
1
0.2
1.0
−1
0.1
0.5
−2
0.0
5 10 15 20 5 10 15 20 5 10 15 20
36 / 10
Ejemplo: Datos Delivery I
Una embotelladora de refrescos está analizando el servicio de suministro de

máquinas de refrescos atendidos por la empresa. El servicio de
abastecimiento incluye el suministro de botellas en las máquinas y
mantenimiento menor realizada por el propio conductor del vehı́culo con
los envı́os. El ingeniero industrial responsable de la logı́stica de la
distribución de refrescos considera que las variables explicativas
distancia, la distancia recorrida por el conductor del vehı́culo a las
máquinas y ncaixas, número de cajas de productos almacenadas s, están
influyendo en la variable tiempo de respuesta, el tiempo gastado por el
conductor para el suministro de máquinas (en minutos). Una muestra
aleatoria de 25 abastecimientos realizados fueron considerados para el
análisis (Montgomery, Peck y Vining, 2001. Cap 3).
37 / 10

Modelos Lineales Generalizados Cap 1.2

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Modelos Lineales Generalizados Cap 1.2

Enviado por

Direitos autorais:

Formatos disponíveis

Técnicas de Diagnóstico

EP7120 - Modelos Lineales Generalizados Aplicados

Mg. Enver Gerald Tarazona Vargas

Universidad Nacional Agraria La Molina (UNALM)

Maestrı́a en Estadı́stica Aplicada

Verificar posibles desviaciones de los supuestos realizados en el modelo

1 Esperanza de los Errores: E () = 0

De los supuestos del modelo se obtiene:

E (yi ) =E xTi β + i = xTi β = β1 xi1 + · · · + βip xip ,

V ar (yi ) =V ar xTi β + i = V ar (i ) = σ 2 ,

Cov (yi , yj ) =Cov (i , j ) = 0,

E (y) = Xβ y Cov (y) = σ 2 I.

Asumiendo que los errores tienen distribución normal:

Valores Predichos y Residuos I

Valores Predichos y Residuos II

La matriz H definida en la Ecuación 1 es conocida como matriz de

ˆi = yi − ŷi = yi − xTi β̂ i = 1, . . . , n

En contraste con los errores, los residuos están correlacionados.

Para detectar errores heterocedásticos, es util graficar a los residuos

En el caso de errores con varianza homocedástica, los residuos estuden-

Diversas Formas de la Gráfica de Residuales

Diversas Formas de la Gráfica de Residuales

residuos versus edad en meses residuos versus meses antes de la revisión

80 100 120 140 0 5 10 15 20 25

Diversas Formas de la Gráfica de Residuales

80 100 120 140 0 5 10 15 20 25

Outliers y Valores Influenciales I

Una observación que es marcadamente diferente (atı́pica) al resto de

Outliers y Valores Influenciales II

Observaciones que son outliers o tienen un alto leverage no son ne-

Simulación: Efecto de los Outliers en la regresión

Simulación: Resumen de los Modelos

Los resultados muestran un sesgo en las estimaciones debidos a los

Un outlier es una observación para la cual el residuo estudentizado

En el caso de una sola covariable, la linea de regresión pasa muy cerca

Cuando se realizan predicciones para un determinado vector x es tam-

La distancia de Cook es una medida global del impacto de la i-ésima

Influencia en la Localización III

El gráfico de las distancias de Cook contra los valores ajustados, destaca

Influencia en la Localización y Escala I

La distacia de Cook Di puede no ser adecuando cuando ˆi es grande y

Influencia en la Localización y Escala II

Cómo el valor esperado de hii es p/n, es más razonable dar atención

Aparentemente Di y DF F IT Si serı́an medidas de influencia competi-

Influencia en la Localización y Escala III

Influencia en la Localización y Escala IV

Atkinson (1985) propone la medida de infuencia Ci que es un refina-

Es utilizada también para medir la influencia de las observaciones en

La influencia local consiste en obtener puntos que con pequeñas per-

Diagnóstico del Modelo con los Datos Originales

Distância de Cook Modificada

Pontos Alavanca Pontos Aberrantes Função de Variância

Resíduo Padronizado Absoluto

Diagnóstico del Modelo bajo el escenario 1

Distância de Cook Modificada

Pontos Alavanca Pontos Aberrantes Função de Variância

Diagnóstico del Modelo bajo el escenario 2

Distância de Cook Modificada

Pontos Alavanca Pontos Aberrantes Função de Variância

Resíduo Padronizado Absoluto

Ejemplo: Datos Delivery I

Una embotelladora de refrescos está analizando el servicio de suministro de

Você também pode gostar

1 Esperanza de los Errores: E () = 0

E (yi ) =E xTi β + i = xTi β = β1 xi1 + · · · + βip xip ,

V ar (yi ) =V ar xTi β + i = V ar (i ) = σ 2 ,

Cov (yi , yj ) =Cov (i , j ) = 0,

ˆi = yi − ŷi = yi − xTi β̂ i = 1, . . . , n

La distacia de Cook Di puede no ser adecuando cuando ˆi es grande y