Escolar Documentos
Profissional Documentos
Cultura Documentos
Escuela de Posgrado
1 Introducción
2 / 10
Introducción
Introducción I
3 / 10
Modelo Lineal Normal
Supuestos I
4 / 10
Modelo Lineal Normal
Supuestos II
En notación matricial:
y ∼ N (Xβ, σ 2 I)
5 / 10
Modelo Lineal Normal
−1
Basados en el estimador de mı́nimos cuadrados β̂ = X T X XT y
para β, se puede estimar la media de y por
\
E (y) = ŷ = X β̂
Sustituyendo la estimación de los coeficientes en la expresión anterior
−1
ŷ = X X T X X T y = Hy
con la matriz n × n
−1
H = X XT X XT (1)
6 / 10
Modelo Lineal Normal
ˆ = y − ŷ = y − Hy = (I − H)y
7 / 10
Modelo Lineal Normal Residuos
Residuos Comunes I
8 / 10
Modelo Lineal Normal Residuos
Residuos Estandarizados I
ˆi
ri = √
σ̂ 1 − hii
donde hii es el i-ésimo elemento de la diagonal de la matriz hat.
Soluciona el problema de la heterocedasticidad con los residuos tı́picos.
Ayuda a evaluar si el supuesto de homocedasticidad de las varianzas es
violado.
Suele graficarse a los residuos estandarizados contra los valores predi-
chos o los valores de las covariables.
9 / 10
Modelo Lineal Normal Residuos
Residuos Estudentizados I
1/2
ˆ(i) ˆ(i) n−p−1
ri∗ = = √ = ri
−1 1/2
σ̂(i) 1 − hii n − p − ri2
σ̂(i) 1 + xTi X T(i) X (i) xTi
donde X (i) y y (i) son la matrix de diseño y el vector de respuestas sin la i-ésima
observación.
Tiene distribución tn−p−1
Son usados para verificar supuestos del modelo y detección de outliers.
10 / 10
Evaluación de Supuestos Homocedasticidad
Gráficos de Residuales I
11 / 10
Evaluación de Supuestos Homocedasticidad
Gráficos de Residuales II
12 / 10
Evaluación de Supuestos Homocedasticidad
13 / 10
Evaluación de Supuestos Homocedasticidad
4
2
2
residuos
residuos
0
0
−2
−2
2 3 4 5 6 7 50 100 150 200 250
precio de venta estimado kilometraje en miles de km
4
2
2
residuos
residuos
0
0
−2
−2
14 / 10
Evaluación de Supuestos Homocedasticidad
4
residuos estudentizados
residuos estudentizados
2
2
0
0
−2
−2
−4
−4
2 3 4 5 6 7 50 100 150 200 250
precio de venta estimado kilometraje en miles de km
residuos estudentizados versus edad en meses residuos estudentizados versus meses antes de la revisión
4
4
residuos estudentizados
residuos estudentizados
2
2
0
0
−2
−2
−4
−4
15 / 10
Detección de Outliers y Valores Influenciales
16 / 10
Detección de Outliers y Valores Influenciales
17 / 10
Detección de Outliers y Valores Influenciales
30
30
25
25
25
20
20
20
y1
y2
y
15
15
15
10
10
10
5
5
0
2 4 6 8 10 2 4 6 8 10 2 4 6 8 10
x x x
18 / 10
Detección de Outliers y Valores Influenciales
19 / 10
Detección de Outliers y Valores Influenciales
Simulación: Comentarios I
20 / 10
Detección de Outliers y Valores Influenciales
Outliers I
21 / 10
Detección de Outliers y Valores Influenciales
Outliers II
La gráfica con los residuos estudentizados puede ser utilizada para de-
tectar outliers marginales. Se el objetivo es detectar valores conjunta-
mente extremos se debe de construir el gráfico de envelopes o utilizar
criterios de comparaciones múltiples como el de Bonferroni que consis-
te en utilizar los cuantiles 2.5 %/n y 1 − 2.5 %/n, dado que se están
realizando n comparaciones.
22 / 10
Detección de Outliers y Valores Influenciales
Leverage I
−1 T
La matriz hat H = X X T X X es la matriz de proyección or-
togonal de los vectores en el subespacio generado por las columnas de
la matriz X.
Los puntos remotos en ese subespacio acostumbran ser considerados
como leverage, por ejercer una fuerte influencia en el valor ajustado, es
decir, esos puntos tienen un perfil diferente de los demás con relación
a las variables explicativas.
Los elementos de la diagonal hii miden el leverage de la i-ésima obser-
vación.
Los rangos de los valores leverage van de 1/n hasta 1.
Un alto leverage (cercano a 1) implica dos cosas:
23 / 10
Detección de Outliers y Valores Influenciales
Leverage II
24 / 10
Detección de Outliers y Valores Influenciales
Leverage III
25 / 10
Detección de Outliers y Valores Influenciales
Influencia en la Localización I
Sea ŷ (i) el estimador para E(y) que usa todas las observaciones con
excepción de la i-ésima observación. Una medida obvia para la dife-
rencia entre ŷ basada en todas las estimaciones y ŷ (i) es la distancia
euclidiana entre los estimadores.
La distancia de Cook es definida como:
T
ŷ (i) − ŷ ŷ (i) − ŷ
Di =
p · σ̂
26 / 10
Detección de Outliers y Valores Influenciales
Influencia en la Localización II
Puede ser expresada también como:
T
β̂ − β̂ (i) XT X β̂ − β̂ (i)
Di =
p · σ̂
( )
i hii 1
= 1/2
σ̂ (1 − hii ) (1 − hii ) p
hii 1
= ri2
(1 − hii ) p
Por lo tanto, Di será grande quando el i-ésimo punto sea un outlier (ri
grande) y/o cuando hii esté próximo a 1.
Cómo regla práctica, las observaciones con un Di > 0.5 deben ser
tomadas con precaución, y las observaciones con Di > 1 deberı́an ser
siempre examinadas.
27 / 10
Detección de Outliers y Valores Influenciales
28 / 10
Detección de Outliers y Valores Influenciales
29 / 10
Detección de Outliers y Valores Influenciales
30 / 10
Detección de Outliers y Valores Influenciales
32 / 10
Detección de Outliers y Valores Influenciales
Influencia Local I
33 / 10
Detección de Outliers y Valores Influenciales
0.20
0.25
0.15
Distância de Cook
0.15
1.0
dmax
0.10
0.10
0.5
0.05
0.05
0.00
0.00
0.0
5 10 15 20 5 10 15 20 5 10 15 20
Valor Ajustado Valor Ajustado Valor Ajustado
2.5
0.4
Resíduo Padronizado
2
1.5
Medida h
1
0.2
1.0
0
0.1
−1
0.5
−2
0.0
0.0
5 10 15 20 5 10 15 20 5 10 15 20
Valor Ajustado Valor Ajustado Valor Ajustado
34 / 10
Detección de Outliers y Valores Influenciales
0.15
3.0
0.30
0.10
2.0
0.20
dmax
1.5
0.05
1.0
0.10
0.5
0.00
0.00
0.0
5 10 15 20 5 10 15 20 5 10 15 20
Valor Ajustado Valor Ajustado Valor Ajustado
4
Resíduo Padronizado Absoluto
4
0.3
Resíduo Padronizado
3
Medida h
2
0.2
2
0.1
1
0.0
−2
5 10 15 20 5 10 15 20 5 10 15 20
Valor Ajustado Valor Ajustado Valor Ajustado
35 / 10
Detección de Outliers y Valores Influenciales
3.5
0.15
3.0
0.8
0.10
2.0
dmax
1.5
0.4
0.05
1.0
0.2
0.5
0.00
0.0
0.0
5 10 15 20 5 10 15 20 5 10 15 20
Valor Ajustado Valor Ajustado Valor Ajustado
2
Resíduo Padronizado
1.5
Medida h
1
0.2
1.0
−1
0.1
0.5
−2
0.0
5 10 15 20 5 10 15 20 5 10 15 20
Valor Ajustado Valor Ajustado Valor Ajustado
36 / 10
Detección de Outliers y Valores Influenciales
37 / 10