Você está na página 1de 7

Instituto Tecnolgico de Quertaro. Unidad: Departamento de Educacin a Distancia.

Carrera: Ing. Industrial

Asignatura: Estadstica Inferencial II

Ttulo del trabajo: Anlisis del grafico de residuos Nombre del alumno: Reyes Valencia Armando

Nombre del docente: Luz Aguilar

Fecha de entrega: 21/10/13

Anlisis del grafico de residuos


Si bien para la estimacin por mnimos cuadrados de los coeficientes de un modelo de regresin, slo es necesaria la asuncin de linealidad, la normalidad de los mismos, en base a la cual se realizan los contrastes de hiptesis, est basada tambin en las asunciones de normalidad y homoscedasticidad. Por consiguiente, conviene asegurar que dichas asunciones se cumplen en cada caso. Hay que tener en cuenta que, en caso de que no se cumpla la normalidad, no se puede utilizar la t ni la F para los contrastes de hiptesis. Puede usarse, sin embargo, la desigualdad de Tchebysheff, que establece que para cualquier variable aleatoria

Siendo k cualquier nmero real positivo. Otro modo alternativo de escribirlo es

Por lo tanto, un modo de contrastar, sin la asuncin de normalidad, la hiptesis nula H0 : ai = a es calcular el cociente

y la probabilidad de error tipo I al rechazarla es 1/k2

Esta prueba tampoco se puede usar si no se cumple la homoscedasticidad, pues en ese caso la estimacin de EE(ai) no es vlida.

Recordando la 2 formulacin del modelo, las asunciones se pueden resumir en que las variables ex1,...,xk son independientes, distribuidas normalmente con media cero y todas con la misma varianza s2

ex1,...,xk es un conjunto de variables, una para cada combinacin x1,...,xk de valores de las variables X1,...,Xk.

Denominados residuos, son los valores que en la muestra toman estas variables. Generalmente, sin embargo, no se tienen suficientes de estos valores muestrales para cada variable (para el problema del ejemplo 5, por ejemplo, existe una variable ex1,...,xk para cada valor de la edad, del consumo de grasas y del ejercicio; el residuo para el primer paciente corresponde a la variable e80,35,0; el del segundo a la variable e30,40,2; etc., es decir, para cada variable slo se tiene un valor muestral. Para el problema del ejemplo 8, sin embargo, slo hay cuatro variables: e0,0, e1,0, e0,1 y e1,1 y s puede haber suficientes valores muestrales para cada una de ellas como para plantearse pruebas de bondad de ajuste a la distribucin normal (jicuadrado o Kolmogorov-Smirnov) y de homoscedasticidad (Bartlett). El planteamiento habitual es considerar que, como todas ellas son normales con la misma media (0) y la misma varianza (s2), los residuos tambin tienen una distribucin normal con media 0 y varianza desconocida s2 y, simplemente, contrastar este extremo.

Al conjunto de tcnicas que se usan para ello se le denomina anlisis de los residuos.

El anlisis de los residuos consiste, por tanto, en contrastar que i=1,...,n provienen de una poblacin normal con media 0 y varianza s 2 con las pruebas habituales de ji-cuadrado, Kolmogorov-Smirnov.

Hay que tener en cuenta que de este modo se estn contrastando globalmente todas las asunciones y, por consiguiente, una falta de normalidad de los residuos puede ser debida tambin a que el modelo sea inapropiado o a existencia de heterocedasticidad.

Teniendo en cuenta que (n-(k+1))s2/ s2 se distribuye como una ji-cuadrado con (n(k+1)) grados de libertad, la variable

llamada residuo normalizado tendr una distribucin t de Student con (n-(k+1)) grados de libertad, que para valores de n suficientemente grandes se puede aproximar a una normal reducida (de media cero y varianza 1) y, a menudo, se contrasta la distribucin de esta variable en lugar de el residuo.

Adems de estas pruebas de significacin para asegurar que globalmente se cumplen las asunciones del modelo, es til realizar un anlisis grfico de los mismos que permite discriminar entre distintas violaciones de las mismas. Si se representara en una grfica bidimensional los residuos observados (eje Y) para cada una de las variables Y|x1,...,xk (eje X) y se cumplieran las asunciones se observara una nube de puntos en direccin horizontal y con anchura constante (la media de cada ex1,...,xk debera ser cero y tener todas la misma varianza). Como para cada variable Y|x1,...,xk el modelo produce la misma estimacin una grfica de los residuos contra los valores predichos tendr el mismo aspecto (fig. A).

Si se viola la linealidad se observar una falta de linealidad tambin en los residuos (fig. B), si se viola la homoscedasticidad, la anchura de la banda no ser constante (fig. C), una relacin lineal entre los residuos y las predicciones puede indicar que alguna variable no incluida en el modelo puede ser significativa (fig. D).

Como se ha indicado anteriormente, el anlisis de los residuos es bsico para chequear si se verifican las hiptesis del modelo de regresin. Por ello, a continuacin se exponen las propiedades matemticas de los mismos. Considrese el modelo de regresin lineal mltiple

Los residuos mnimo-cuadrticos vienen dados por

o en forma matricial

Como los residuos tienen varianza variable y son dimensionados (tienen las unidades de la variable Y ), normalmente se tipifican

los residuos tipificados siguen una distribucin normal estndar, pero como s2 es desconocido, se sustituye por su estimador, la varianza residual ^s R2 y se obtienen los residuos estandarizados, definidos como

Por la hiptesis de normalidad los residuos estandarizados siguen una distribucin t con n-(k+ 1) grados de libertad. Como ya se indic en el estudio del modelo de regresin lineal simple, en el clculo de ri existe el problema de que hay una relacin de dependencia entre el numerador y el denominador de ri. Para evitar esto, con mayor esfuerzo computacional, se calcula para cada i, i = 1,...,n, el estimador ^s R,(i), la varianza residual del modelo de regresin obtenido a partir de la muestra en la que se ha eliminado la observacin (xi,Yi). Ahora se definen los residuos estudentizados como

El grfico de dispersin matricial, de todas las variables del modelo (respuesta y regresoras). En el estudio de un modelo de regresin lineal mltiple es el primer grfico que se debe observar. Proporciona una primera idea de la existencia de relacin lineal o de otro tipo entre la respuesta y las regresoras y tambin da una idea de posibles relaciones lineales entre las variables regresoras, lo que crea problemas de multicolinealidad El grfico de dispersin matricial para los datos del Ejemplo 7.1. se representa en la Figura 9.2.

Bibliografa
Cartez, J. A. (16 de Octubre de 2008). dm.udc.es. Recuperado el 21 de Octubre de 2013, de dm.udc.es: http://dm.udc.es/asignaturas/estadistica2/sec9_4.html Zanchez, M. R. (09 de Junio de 2004). www.hrc.es. Recuperado el 2013 de Octubre de 21, de www.hrc.es: http://www.hrc.es/bioest/Reglin_16.html