Você está na página 1de 6

OBSERVACIONES ATÍPICAS E INFLUYENTES

 Atípico en Y:

Generan residuos grandes. Son fáciles de detectar (Fig. 1).

En regresión múltiple es difícil observarlo entre los datos, pero en los residuos se ve

claramente.

 Atípico en X: (tan frecuentes o más que en y)

Leverage point, cualquier observación alejada de las demás. No se tiene en cuenta el

valor de y. Puede o no ser influyente en la regresión. (Fig.2 y Fig.3)

Si ( X k , Yk ) está alejado de los demás pero cercano a la recta de regresión será un

“buen punto de leverage” (reduce la amplitud del intervalo de confianza).

En regresión múltiple x1p , x2 p ,..., xkp  leverage point si está lejos de las demás

observaciones  x1i ,..., xki  con i = 1….T; dependiendo de cómo sea su correspondiente

yp veremos si es influyente o no.

En varias dimensiones es difícil ver atípicos mirando los datos (Fig.4).

Los residuos no detectan leverage points (Fig.2).


Influencia a priori (potencial)

 Recordamos qué significa en regresión la predicción para Y.

h pp  x 'p ( X ' X ) 1 x p 0  h pp  1 h pp es el “leverage” y es una forma de medir la distancia

de x ' p al resto de observaciones muestrales.

 Si x ' p   X 2 , X 3 ,..., X k  , x ' p coincide con el centro de las demás observaciones:

1
h pp  Valor mínimo del leverage
N


' h pp  1 . Yˆp
Si x p muy alejada de X , el leverage toma su valor máximo se estima con
muy poca precisión, pues su varianza es muy grande. Además var(Uˆ p )  0 y E (Uˆ p )  0  Uˆ p  0

sea cual sea el verdadero valor de Yp ; Es decir, si x ' p está muy alejado de las otras X sea cual

sea el Yp , al estimar el residuo es 0 i.e. la recta o hiperplano de regresión PASAN por x ' p .
Esa observación hace que el hiperplano se desvíe hasta pasar por ella. Es un punto de
influencia máxima.
 Para otras observaciones:
2K
x' p Potencialmente Influyente si: h pp  h  3S h O bien: h pp  2h 
T

Es el criterio habitual para detectar observaciones atípicas a priori.

Influencia real o a posteriori


o A través de los residuos
o A través del efecto que produce en las estimaciones la presencia o ausencia del
caso dudoso.

 El tamaño de los residuos MCO no es suficiente para detectar outliers.


1- Si el punto es muy influyente el residuo es pequeño.
2- Es difícil decidir qué es residuo grande o pequeño.
Son más informativos los
Uˆ t Uˆ t

a) residuos estandarizados: ˆ Uˆ 'Uˆ
T K

Tienen media cero y se aproxima a una N (0,1). Residuos >2.5 se asocian a


outlier.

Uˆ t Uˆ t
b) residuos studentizados rt  
^
ˆ 1  htt
var (Uˆ t )
Si la observación ya es atípica a priori (leverage grande) hay que mirar el residuo
studentizado, pues el otro puede estar deformado.
 El efecto que produce en las estimaciones el caso atípico. Una vez que hemos
determinado que una observación es potencialmente influyente hay que ver si ˆ , Yˆi
cambian mucho si se hace la regresión con o sin ella.
ˆ , Yˆi Con todas las observaciones
ˆ( i ) , Yˆ( i ) Sin la observación i-ésima
X (i ) Matriz de datos sin la fila i-ésima
Se trata de ver si ˆ es muy distinto de ˆ( i ) o bien Ŷi distinto de Yˆ( i ) . Para ello
medimos la distancia entre estimaciones.
Esas distancias se miden estandarizadas (corregidas por la varianza, desviación
típica o alguna función de ellas).

( ˆ j  ˆ j ( i ) )' X ' X ( ˆ j  ˆ j ( i ) )
ˆ( i )  ( X '( i ) X ( i ) ) 1 ( X '( i ) Y( i ) ) D( j ) 
Kˆ 2
se denomina Df-beta tipificado y mide la distancia (tipificada) entre el ˆ j que se
obtendrían utilizando todas las observaciones y el que se obtienen sin utilizar el
dato i-ésimo. Puede considerarse influyente una observación cuyo df-beta
2
tipificado sea (en valor absoluto) mayor que N
(Yˆi  Yˆ( i ) ) 2
D( i )  se denomina Df-fit tipificado y mide la distancia (tipificada)
Kˆ 2hii

entre la predicción que se hace para el caso i-ésimo si está o no la correspondiente


observación en la muestra. Puede considerarse influyente una observación cuyo
Df-fit tipificado sea (en valor absoluto) mayor que 2 k N

Ŷi : Predicción concreta para Yi usando todos los datos en la regresión.


Yˆ( i ) : Sin usar el dato i (predicción extra-muestral).

Estas dos formas de medir la influencia son equivalentes. En la práctica: se


utiliza el Estadístico de Cook que mide la distancia entre los dos vectores de
estimaciones (con y sin el atípico)
Si la distancia de Cook es mayor que 1 o que 4/(n-k-1) la observación es excesivamente
influyente.

Você também pode gostar