Escolar Documentos
Profissional Documentos
Cultura Documentos
UNNMSM
Recta resistente
Introduccin
Para ajustar una linea recta de la forma y = a + bx a un conjunto de datos (xi; yi); i = 1,, n, se han desarrollado varios mtodos a lo largo de la historia. La regresin por mnimos cuadrados que hemos explicado es el mtodo ms conocido y ms ampliamente utilizado. Es un mtodo que involucra clculos algebraicamente simples, y requiere unicamente una derivacin matemtica sencilla. Pero, la recta de regresin mnimo-cuadrtica no es resistente. Un solo dato atpico "outlier puede tomar facilmente el control de la recta ajustada y conducirnos a conclusiones engaosas sobre la relacin entre X e Y. La recta resistente de los tres grupos evita esta dificultad. Esta recta es muy til en el anlisis exploratorio de los datos y-versus-x. Del libro clsico Understanding Robust and Exploratory Data Analysis de Hoaglin, Mosteller y Tukey , se expondr el mtodo de los tres grupos para ajustar una recta resistente. Recta resistente de los tres grupos Formacin de los tres grupos: Dado (xi, y i) , i= 1, , n, se empieza por ordenar los valores x de manera que x1 x2 xn. sobre estos valores ordenados, se divide los n puntos (xi; yi) en tres grupos: un grupo izquierdo (o superior), un grupo central y un grupo derecho (o inferior), del mismo tamao como sea posible. El nmero de puntos (xi, y i) en cada uno de los tres grupos depende residuo de la divisin de n por 3: Grupo Superior Central inferior n=3k K K k n=3k+1 K K+1 k n=3k+2 K+1 K K+1
Denotamos con : Xs Ys , Xc Yc y Xi Yi a cada uno de los tres grupos de pares de (X,Y), superior, central e inferior respectivamente. Se calcula la mediana de cada grupo que los representaremos por: , ,
Profesoras.: Ana Mara Crdenas Rojas Justa Caridad Huaroto Sumari Pgina 1
Este sistema de determinacin de los puntos centrales de cada grupo es el que da a la recta que calcularemos su resistencia. Cuanto mayor es el nmero de puntos observados en cada grupo, la mediana proporciona la resistencia a los valores influyentes de x, y o ambos. Clculo de la Pendiente (b) y el nivel ( 0 intercepcin) (a) Ahora utilizaremos los puntos centrales ( medianas de X e Y) para calcular la pendiente b y la ordenada en el origen o nivel o intercepcin a de la recta y = a+bx que ajusta los valores observados y permite la prediccin de los valores de y i a partir de los xi observados y cualquier otro valor apropiado de x. En este sentido, la pendiente b nos dice cuantas unidades de y cambian por una unidad de x. Se halla la pendiente b 0 y el nivel a 0 de la recta inicial Y0 = a 0 + b0(x - ) Donde: b 0 = ( - ) / ( - ) a0 = 1/3(( - b0( - ))+ +( - b0( - )
Como los puntos centrales estn basados en la mediana, a0 es resistente. El ajuste de una recta en trminos de pendiente e intercepcin (nivel) es convencional. La intercepcin, que da el valor de y cuando x = 0, puede ser determinada de forma imprecisa, especialmente cuando los valores de x estn todos muy alejados del cero y cuando el cero es un valor sin sentido en el rango de las x. Ajustar la recta en trminos de pendiente y un valor central de las x, como la mediana o , es mucho ms til. Nosotros escogeremos por conveniencia, entonces la recta inicial es y = a 0 + b0(x - ); esta recta se toma como punto de partida para ajustar una mejor con iteraciones sucesivas. Ajuste de los residuos e iteraciones Una vez que hemos obtenido la pendiente y el nivel de la recta inicial ajustada, el siguiente paso es calcular los residuos iniciales para cada punto: ri 0= yi -[a 0+ b0(xi - )] Los grficos de los residuos son muy tiles en la evaluacin del ajuste y para descubrir patrones de comportamiento inesperados. Si sustituimos los valores originales de y por los residuos, es decir, si utilizamos (xi, ri) en lugar de (xi, yi), i = 1 ,, n y repetimos el proceso ajuste, llegaremos a un ajuste cero. Para una lnea recta esto significa que, con los puntos (xi; ri); i = 1,, n como datos, obtendremos una pendiente cero y un nivel cero. En otras palabras, los residuos no contienen ms aportacin a la recta ajustada, entonces el modelo es el adecuado, es decir toda la relacin lineal contenida en los datos est contenida en el modelo. Una importante caracterstica de los procedimientos resistentes es que habitualmente requieren iteraciones y ese es el caso de la recta resistente de los tres grupos. En concreto, utilizaremos los residuos iniciales ri 0 = yi -[a 0+ b0(xi - )]
Profesoras.: Ana Mara Crdenas Rojas Justa Caridad Huaroto Sumari Pgina 2
i = 1,, n en lugar de los yi y repetiremos los pasos del proceso de ajuste. Como el conjunto de las xi no ha cambiado, los tres grupos y las medianas de las x en los puntos centrales sern los mismos. El ajuste a una recta de los residuos obtenidos a partir de la recta inicial da unos valores delta (d) para la pendiente y gamma (g ) para el nivel , obteniendo la estimacin para la recta con pendiente b1 = b0 + d1 y nivel a1 = a0 +g1 Con esta nueva estimacin para la recta Y1 = a 1 + b1(x - ) , se vuelve a calcular los residuales para ver si su pendiente es ahora prxima a cero. Y as continuamos en cada iteracin, obteniendo la nueva pendiente b adicionando la pendiente de los residuos d a la pendiente anterior; y el nuevo nivel adicionando el nivel de los residuales g al nivel anterior, es decir: b1 = b0 +d 1, b2 = b1 + d 2,, bj = bj-1 + d j, .. a1 = a0 + g 1, a2= a1 + g 2, , aj = aj-1 + g j, Si concluida la i-sima iteracin encontramos que al calcular la pendiente de los residuos dj es bastante cercana a cero entonces concluimos el algoritmo y habremos llegado al ajuste deseado y hallado la recta resistente adecuada. En la prctica se contina con las iteraciones hasta que el ajuste de la pendiente sea suficientemente pequeo en magnitud ( del 1% al 0.01% del tamao de b 0) Las iteraciones son normalmente pocas y los clculos no muy largos. Cuando se tiene dos pendientes residuales di-1 y d i una con signo positivo y la otra con signo negativo, sabemos que la pendiente correcta est entre ellas , y se estima la nueva pendiente d i+1; y si los residuos de la recta ajustada con pendiente d i+1 tiene pendiente cero, hemos llegado al ajuste deseado. Y la recta final ajustada tendr pendiente b j+1 y nivel a j+1
Ejemplo.- Se tiene la edad dada en meses y la altura dada en centmetros de 18 nios de una escuela particular, y se desea predecir la altura.
Grfico 1
Pgina 3
160.0
altura(cms)-nios
150.0
140.0
110
120
130
140
edad(meses)_nios
En la siguiente tabla se muestra los datos ( xi,yi) y los residuales r i luego del ajuste de la recta en cada iteracin. En la parte inferior de la tabla se muestra para obtener la pendiente y el nivel en cada iteracin.
residuo inicial ri 0 109 113 115 116 119 120 121 124 126 129 130 0.7133 8.9396 -3.0470 0.3596 -9.1203 3.0865 -7.8069 -11.2868 3.2267 1.5468 0.2535
nio 1 2 3 4 5 6 7 8 9 10 11
altura (Y) 137.6 147.8 136.8 140.7 132.7 145.4 135 133 148.5 148.3 147.5
edad(X)
resid. r1 -0.4391 8.0691 -3.7765 -0.2993 -9.5677 2.7095 -8.1133 -11.3817 3.2727 1.8043 0.5815
resid.r2 -0.3257 8.1573 -3.7009 -0.2300 -9.5173 2.7536 -8.0755 -11.3628 3.2790 1.7917 0.5626
Pgina 4
ESTADISTICA II SEMESTRE 2012-2- EAPE-FCM.UNNMSM 12 13 14 15 16 17 18 148.8 133.2 148.7 152 150.6 165.3 149.9 133 134 135 137 139 141 142 0.0736 -16.0198 -1.0130 1.3004 -1.0862 12.6272 -3.2661 0.6131 -15.4097 -0.3325 2.1219 -0.1237 13.7307 -2.0921 0.5753 -15.4538 -0.3829 2.0589 -0.1993 13.6425 -2.1866
pendiente b0 nivel ao
0.4933 146.0133
recta inicial Yo
pendiented1 nivel g1
-0.0705 -0.1518
pendiented2 nivel g2
0.0063 0.00315
pendiente b1 = b0 + d1= 0.4933+(-0.0705) = 0.4228 nivel a1 =ao + g1 = 146.0133+(-0.1518) = 145.8615 Recta y1 Y 1 = 145.8615 +0.4228(X -127.5)
pendiente b2= b1 +d2 = 0.4228 +0.0063= 0.4291 nivel a2= a1 +g2=145.8615+0.00315=145.86465 Recta y2 Y2= 145.8647 + 0.4291(x-127.5)
Pgina 5
-0 0.00313296
pendiente b3=
b2 +d3=0.4291+(-0.00058852)=0.42851148
Ser la recta resistente final ajustada. por qu? Para evaluar el modelo presentamos el grfico de residuos: edad versus r1y edad versus r2 Grfico 2
10.0000
residuos r1
0.0000
-10.0000
110
120
130
140
edad(meses)_nios
Pgina 6
10.0000
residuos r2
0.0000
-10.0000
110
120
130
140
edad(meses)_nios
Residuos r 2 versus edad, despus del ajuste por la recta resistente. En general podemos decir que el grfico es bastante satisfactorio, los puntos que corresponden a los nios con los nmeros 13 y 17 se apartan mucho y son atpicos; y los puntos que corresponden a los nios con los nmeros 5, 7 y 8 toman valores negativos muy bajos para nios que tienen alrededor de 120 meses. Se observa que los dos puntos correspondientes a los nios 13 y 17 han tenido muy poco efecto en el ajuste de los datos. Si ajustamos una recta por el mtodo de mnimos cuadrados corre mucho ms riesgo de dejarse influenciar por estos puntos. Salida del SPSS para el ajuste mnimo cuadrtico
Model Summary(b) Std. Error of the Estimate Sig. F df2 Change 7.0286 .369
Model 1
Adjusted R Square
df1 .330
df2 .007
Model 1
df 1 16 17
F 9.369
Sig. .007(a)
Pgina 7
Coefficients(a) Unstandardized Coefficients Std. B Error 79.696 21.251 .167 Standardized Coefficients Beta .608
t B 3.750 3.061
Model 1
(Constant)
La recta de regresin mnimo cuadrtica es: Y = 79.695 + 0.511 X , la cual tambin se puede expresar como: Y= 144.8475+0.511(X-127.5).Se observa que los puntos 5,7,8 y 17 han empinado un poco la recta. Grfico 4
10.00000
Unstandardized Residu al
0.00000
-10.00000
110
120
130
140
edad(meses)_nios
Observando los grficos 4 y 3, aunque son bastante similares, el grfico 4 nos da la sensacin de una ligera tendencia negativa , en este caso debemos prestar ms atencin a la variabilidad de los residuos que a la diferencia de las pendientes. En resumen , hemos podido apreciar cmo algunos datos pueden afectar a la recta mnimo cuadrtica mucho ms que la recta resistente; en el caso que los datos estn razonablemente bien dispuestos las dos rectas son parecidas. Eliminando el dato 17 , hallemos la recta mnimo cuadrtica. Se presenta el listado segn el SPSS Profesoras.: Ana Mara Crdenas Rojas Justa Caridad Huaroto Sumari Pgina 8
Model Summary(b) Adjusted R Square .236 Std. Error of the Estimate 6.16841
Model 1
R .533(a)
R Square .284
Model 1
df 1 15 16
F 5.950
Sig. .028(a)
Coefficients(a) Unstandardized Coefficients Model 1 B (Constant) edad_17 95.293 Std. Error 19.747 .156 .533 Standardized Coefficients Beta
t B 4.826 2.439
La recta de regresin mnimo cuadrtica es: Y = 95.293 + 0.38 X. Se observa que la pendiente est ms prxima a la pendiente de la recta Y3
Grfico 5
Pgina 9
10.00000
5.00000
0.00000
-5.00000
-10.00000
135.00000
140.00000
145.00000
150.00000
Grfico 6
10.00000
Unstandardized Residual
5.00000
0.00000
-5.00000
-10.00000
110.00
120.00
130.00
140.00
edad_17
Pgina 10
Pgina 11