Atípicas Clase

OBSERVACIONES ATÍPICAS E INFLUYENTES
 Atípico en Y:
Generan residuos grandes. Son fáciles de detectar (Fig. 1).
En regresión múltiple es difícil observarlo entre los datos, pero en los residuos se ve
claramente.
 Atípico en X: (tan frecuentes o más que en y)
Leverage point, cualquier observación alejada de las demás. No se tiene en cuenta el
valor de y. Puede o no ser influyente en la regresión. (Fig.2 y Fig.3)
Si ( X k , Yk ) está alejado de los demás pero cercano a la recta de regresión será un
“buen punto de leverage” (reduce la amplitud del intervalo de confianza).
En regresión múltiple x1p , x2 p ,..., xkp  leverage point si está lejos de las demás
observaciones  x1i ,..., xki  con i = 1….T; dependiendo de cómo sea su correspondiente
yp veremos si es influyente o no.
En varias dimensiones es difícil ver atípicos mirando los datos (Fig.4).
Los residuos no detectan leverage points (Fig.2).

Influencia a priori (potencial)
 Recordamos qué significa en regresión la predicción para Y.
h pp  x 'p ( X ' X ) 1 x p 0  h pp  1 h pp es el “leverage” y es una forma de medir la distancia
de x ' p al resto de observaciones muestrales.
 Si x ' p   X 2 , X 3 ,..., X k  , x ' p coincide con el centro de las demás observaciones:
1
h pp  Valor mínimo del leverage
N

' h pp  1 . Yˆp
Si x p muy alejada de X , el leverage toma su valor máximo se estima con
muy poca precisión, pues su varianza es muy grande. Además var(Uˆ p )  0 y E (Uˆ p )  0  Uˆ p  0
sea cual sea el verdadero valor de Yp ; Es decir, si x ' p está muy alejado de las otras X sea cual
sea el Yp , al estimar el residuo es 0 i.e. la recta o hiperplano de regresión PASAN por x ' p .
Esa observación hace que el hiperplano se desvíe hasta pasar por ella. Es un punto de
influencia máxima.
 Para otras observaciones:
2K
x' p Potencialmente Influyente si: h pp  h  3S h O bien: h pp  2h 
T
Es el criterio habitual para detectar observaciones atípicas a priori.
Influencia real o a posteriori

o A través de los residuos
o A través del efecto que produce en las estimaciones la presencia o ausencia del
caso dudoso.
 El tamaño de los residuos MCO no es suficiente para detectar outliers.

1- Si el punto es muy influyente el residuo es pequeño.
2- Es difícil decidir qué es residuo grande o pequeño.
Son más informativos los
Uˆ t Uˆ t

a) residuos estandarizados: ˆ Uˆ 'Uˆ
T K
Tienen media cero y se aproxima a una N (0,1). Residuos >2.5 se asocian a

outlier.
Uˆ t Uˆ t
b) residuos studentizados rt  
^
ˆ 1  htt
var (Uˆ t )
Si la observación ya es atípica a priori (leverage grande) hay que mirar el residuo
studentizado, pues el otro puede estar deformado.
 El efecto que produce en las estimaciones el caso atípico. Una vez que hemos
determinado que una observación es potencialmente influyente hay que ver si ˆ , Yî
cambian mucho si se hace la regresión con o sin ella.
ˆ , Yî Con todas las observaciones
ˆ( i ) , Yˆ( i ) Sin la observación i-ésima
X (i ) Matriz de datos sin la fila i-ésima
Se trata de ver si ˆ es muy distinto de ˆ( i ) o bien Ŷi distinto de Yˆ( i ) . Para ello
medimos la distancia entre estimaciones.
Esas distancias se miden estandarizadas (corregidas por la varianza, desviación
típica o alguna función de ellas).
( ˆ j  ˆ j ( i ) )' X ' X ( ˆ j  ˆ j ( i ) )
ˆ( i )  ( X '( i ) X ( i ) ) 1 ( X '( i ) Y( i ) ) D( j ) 
Kˆ 2
se denomina Df-beta tipificado y mide la distancia (tipificada) entre el ˆ j que se
obtendrían utilizando todas las observaciones y el que se obtienen sin utilizar el
dato i-ésimo. Puede considerarse influyente una observación cuyo df-beta
2
tipificado sea (en valor absoluto) mayor que N
(Yî  Yˆ( i ) ) 2
D( i )  se denomina Df-fit tipificado y mide la distancia (tipificada)
Kˆ 2hii
entre la predicción que se hace para el caso i-ésimo si está o no la correspondiente

observación en la muestra. Puede considerarse influyente una observación cuyo
Df-fit tipificado sea (en valor absoluto) mayor que 2 k N
Ŷi : Predicción concreta para Yi usando todos los datos en la regresión.

Yˆ( i ) : Sin usar el dato i (predicción extra-muestral).
Estas dos formas de medir la influencia son equivalentes. En la práctica: se

utiliza el Estadístico de Cook que mide la distancia entre los dos vectores de
estimaciones (con y sin el atípico)
Si la distancia de Cook es mayor que 1 o que 4/(n-k-1) la observación es excesivamente
influyente.

Atípicas Clase

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Atípicas Clase

Enviado por

Direitos autorais:

Formatos disponíveis

OBSERVACIONES ATÍPICAS E INFLUYENTES

Generan residuos grandes. Son fáciles de detectar (Fig. 1).

 Atípico en X: (tan frecuentes o más que en y)

Leverage point, cualquier observación alejada de las demás. No se tiene en cuenta el

valor de y. Puede o no ser influyente en la regresión. (Fig.2 y Fig.3)

Si ( X k , Yk ) está alejado de los demás pero cercano a la recta de regresión será un

“buen punto de leverage” (reduce la amplitud del intervalo de confianza).

yp veremos si es influyente o no.

En varias dimensiones es difícil ver atípicos mirando los datos (Fig.4).

Los residuos no detectan leverage points (Fig.2).

 Recordamos qué significa en regresión la predicción para Y.

h pp  x 'p ( X ' X ) 1 x p 0  h pp  1 h pp es el “leverage” y es una forma de medir la distancia

de x ' p al resto de observaciones muestrales.

 Si x ' p   X 2 , X 3 ,..., X k  , x ' p coincide con el centro de las demás observaciones:

Es el criterio habitual para detectar observaciones atípicas a priori.

Influencia real o a posteriori

 El tamaño de los residuos MCO no es suficiente para detectar outliers.

Tienen media cero y se aproxima a una N (0,1). Residuos >2.5 se asocian a

entre la predicción que se hace para el caso i-ésimo si está o no la correspondiente

Ŷi : Predicción concreta para Yi usando todos los datos en la regresión.

Estas dos formas de medir la influencia son equivalentes. En la práctica: se

Você também pode gostar