Você está na página 1de 11

ESTADISTICA II SEMESTRE 2012-2- EAPE-FCM.

UNNMSM

CONTINUACION DE LA UNIDAD TEMATICA 3

Recta resistente
Introduccin
Para ajustar una linea recta de la forma y = a + bx a un conjunto de datos (xi; yi); i = 1,, n, se han desarrollado varios mtodos a lo largo de la historia. La regresin por mnimos cuadrados que hemos explicado es el mtodo ms conocido y ms ampliamente utilizado. Es un mtodo que involucra clculos algebraicamente simples, y requiere unicamente una derivacin matemtica sencilla. Pero, la recta de regresin mnimo-cuadrtica no es resistente. Un solo dato atpico "outlier puede tomar facilmente el control de la recta ajustada y conducirnos a conclusiones engaosas sobre la relacin entre X e Y. La recta resistente de los tres grupos evita esta dificultad. Esta recta es muy til en el anlisis exploratorio de los datos y-versus-x. Del libro clsico Understanding Robust and Exploratory Data Analysis de Hoaglin, Mosteller y Tukey , se expondr el mtodo de los tres grupos para ajustar una recta resistente. Recta resistente de los tres grupos Formacin de los tres grupos: Dado (xi, y i) , i= 1, , n, se empieza por ordenar los valores x de manera que x1 x2 xn. sobre estos valores ordenados, se divide los n puntos (xi; yi) en tres grupos: un grupo izquierdo (o superior), un grupo central y un grupo derecho (o inferior), del mismo tamao como sea posible. El nmero de puntos (xi, y i) en cada uno de los tres grupos depende residuo de la divisin de n por 3: Grupo Superior Central inferior n=3k K K k n=3k+1 K K+1 k n=3k+2 K+1 K K+1

Denotamos con : Xs Ys , Xc Yc y Xi Yi a cada uno de los tres grupos de pares de (X,Y), superior, central e inferior respectivamente. Se calcula la mediana de cada grupo que los representaremos por: , ,
Profesoras.: Ana Mara Crdenas Rojas Justa Caridad Huaroto Sumari Pgina 1

ESTADISTICA II SEMESTRE 2012-2- EAPE-FCM.UNNMSM

Este sistema de determinacin de los puntos centrales de cada grupo es el que da a la recta que calcularemos su resistencia. Cuanto mayor es el nmero de puntos observados en cada grupo, la mediana proporciona la resistencia a los valores influyentes de x, y o ambos. Clculo de la Pendiente (b) y el nivel ( 0 intercepcin) (a) Ahora utilizaremos los puntos centrales ( medianas de X e Y) para calcular la pendiente b y la ordenada en el origen o nivel o intercepcin a de la recta y = a+bx que ajusta los valores observados y permite la prediccin de los valores de y i a partir de los xi observados y cualquier otro valor apropiado de x. En este sentido, la pendiente b nos dice cuantas unidades de y cambian por una unidad de x. Se halla la pendiente b 0 y el nivel a 0 de la recta inicial Y0 = a 0 + b0(x - ) Donde: b 0 = ( - ) / ( - ) a0 = 1/3(( - b0( - ))+ +( - b0( - )

Como los puntos centrales estn basados en la mediana, a0 es resistente. El ajuste de una recta en trminos de pendiente e intercepcin (nivel) es convencional. La intercepcin, que da el valor de y cuando x = 0, puede ser determinada de forma imprecisa, especialmente cuando los valores de x estn todos muy alejados del cero y cuando el cero es un valor sin sentido en el rango de las x. Ajustar la recta en trminos de pendiente y un valor central de las x, como la mediana o , es mucho ms til. Nosotros escogeremos por conveniencia, entonces la recta inicial es y = a 0 + b0(x - ); esta recta se toma como punto de partida para ajustar una mejor con iteraciones sucesivas. Ajuste de los residuos e iteraciones Una vez que hemos obtenido la pendiente y el nivel de la recta inicial ajustada, el siguiente paso es calcular los residuos iniciales para cada punto: ri 0= yi -[a 0+ b0(xi - )] Los grficos de los residuos son muy tiles en la evaluacin del ajuste y para descubrir patrones de comportamiento inesperados. Si sustituimos los valores originales de y por los residuos, es decir, si utilizamos (xi, ri) en lugar de (xi, yi), i = 1 ,, n y repetimos el proceso ajuste, llegaremos a un ajuste cero. Para una lnea recta esto significa que, con los puntos (xi; ri); i = 1,, n como datos, obtendremos una pendiente cero y un nivel cero. En otras palabras, los residuos no contienen ms aportacin a la recta ajustada, entonces el modelo es el adecuado, es decir toda la relacin lineal contenida en los datos est contenida en el modelo. Una importante caracterstica de los procedimientos resistentes es que habitualmente requieren iteraciones y ese es el caso de la recta resistente de los tres grupos. En concreto, utilizaremos los residuos iniciales ri 0 = yi -[a 0+ b0(xi - )]
Profesoras.: Ana Mara Crdenas Rojas Justa Caridad Huaroto Sumari Pgina 2

ESTADISTICA II SEMESTRE 2012-2- EAPE-FCM.UNNMSM

i = 1,, n en lugar de los yi y repetiremos los pasos del proceso de ajuste. Como el conjunto de las xi no ha cambiado, los tres grupos y las medianas de las x en los puntos centrales sern los mismos. El ajuste a una recta de los residuos obtenidos a partir de la recta inicial da unos valores delta (d) para la pendiente y gamma (g ) para el nivel , obteniendo la estimacin para la recta con pendiente b1 = b0 + d1 y nivel a1 = a0 +g1 Con esta nueva estimacin para la recta Y1 = a 1 + b1(x - ) , se vuelve a calcular los residuales para ver si su pendiente es ahora prxima a cero. Y as continuamos en cada iteracin, obteniendo la nueva pendiente b adicionando la pendiente de los residuos d a la pendiente anterior; y el nuevo nivel adicionando el nivel de los residuales g al nivel anterior, es decir: b1 = b0 +d 1, b2 = b1 + d 2,, bj = bj-1 + d j, .. a1 = a0 + g 1, a2= a1 + g 2, , aj = aj-1 + g j, Si concluida la i-sima iteracin encontramos que al calcular la pendiente de los residuos dj es bastante cercana a cero entonces concluimos el algoritmo y habremos llegado al ajuste deseado y hallado la recta resistente adecuada. En la prctica se contina con las iteraciones hasta que el ajuste de la pendiente sea suficientemente pequeo en magnitud ( del 1% al 0.01% del tamao de b 0) Las iteraciones son normalmente pocas y los clculos no muy largos. Cuando se tiene dos pendientes residuales di-1 y d i una con signo positivo y la otra con signo negativo, sabemos que la pendiente correcta est entre ellas , y se estima la nueva pendiente d i+1; y si los residuos de la recta ajustada con pendiente d i+1 tiene pendiente cero, hemos llegado al ajuste deseado. Y la recta final ajustada tendr pendiente b j+1 y nivel a j+1

Ejemplo.- Se tiene la edad dada en meses y la altura dada en centmetros de 18 nios de una escuela particular, y se desea predecir la altura.

Grfico 1

Profesoras.: Ana Mara Crdenas Rojas

Justa Caridad Huaroto Sumari

Pgina 3

ESTADISTICA II SEMESTRE 2012-2- EAPE-FCM.UNNMSM

160.0

altura(cms)-nios

150.0

140.0

110

120

130

140

edad(meses)_nios

En la siguiente tabla se muestra los datos ( xi,yi) y los residuales r i luego del ajuste de la recta en cada iteracin. En la parte inferior de la tabla se muestra para obtener la pendiente y el nivel en cada iteracin.
residuo inicial ri 0 109 113 115 116 119 120 121 124 126 129 130 0.7133 8.9396 -3.0470 0.3596 -9.1203 3.0865 -7.8069 -11.2868 3.2267 1.5468 0.2535

nio 1 2 3 4 5 6 7 8 9 10 11

altura (Y) 137.6 147.8 136.8 140.7 132.7 145.4 135 133 148.5 148.3 147.5

edad(X)

resid. r1 -0.4391 8.0691 -3.7765 -0.2993 -9.5677 2.7095 -8.1133 -11.3817 3.2727 1.8043 0.5815

resid.r2 -0.3257 8.1573 -3.7009 -0.2300 -9.5173 2.7536 -8.0755 -11.3628 3.2790 1.7917 0.5626

Profesoras.: Ana Mara Crdenas Rojas

Justa Caridad Huaroto Sumari

Pgina 4

ESTADISTICA II SEMESTRE 2012-2- EAPE-FCM.UNNMSM 12 13 14 15 16 17 18 148.8 133.2 148.7 152 150.6 165.3 149.9 133 134 135 137 139 141 142 0.0736 -16.0198 -1.0130 1.3004 -1.0862 12.6272 -3.2661 0.6131 -15.4097 -0.3325 2.1219 -0.1237 13.7307 -2.0921 0.5753 -15.4538 -0.3829 2.0589 -0.1993 13.6425 -2.1866

Mediana Y superior centro inferior 139.15 147.9 150.25

Mediana X 115.5 127.5 138

mediana ro 0.5365 0.1635 -1.0496

mediana r1 -0.3692 0.5973 -0.2281

mediana r2 -0.2779 0.5690 -0.2911

pendiente b0 nivel ao

0.4933 146.0133

recta inicial Yo

Y = 146.0133 + 0.4933( X - 127.5)

pendiented1 nivel g1

-0.0705 -0.1518

pendiented2 nivel g2

0.0063 0.00315

pendiente b1 = b0 + d1= 0.4933+(-0.0705) = 0.4228 nivel a1 =ao + g1 = 146.0133+(-0.1518) = 145.8615 Recta y1 Y 1 = 145.8615 +0.4228(X -127.5)

pendiente b2= b1 +d2 = 0.4228 +0.0063= 0.4291 nivel a2= a1 +g2=145.8615+0.00315=145.86465 Recta y2 Y2= 145.8647 + 0.4291(x-127.5)

Profesoras.: Ana Mara Crdenas Rojas

Justa Caridad Huaroto Sumari

Pgina 5

ESTADISTICA II SEMESTRE 2012-2- EAPE-FCM.UNNMSM

pendiented3 =0.00058852 y nivel g3=

-0 0.00313296

pendiente b3=

b2 +d3=0.4291+(-0.00058852)=0.42851148

nivel a3 = a2+ g3=145.86465+0.00313296=145.867783 Recta y3 Y3=145.8678+0.4285(x-127.5)

Ser la recta resistente final ajustada. por qu? Para evaluar el modelo presentamos el grfico de residuos: edad versus r1y edad versus r2 Grfico 2

10.0000

residuos r1

0.0000

-10.0000

110

120

130

140

edad(meses)_nios

Residuos r 1 versus edad, despus del ajuste Grafico 3

Profesoras.: Ana Mara Crdenas Rojas

Justa Caridad Huaroto Sumari

Pgina 6

ESTADISTICA II SEMESTRE 2012-2- EAPE-FCM.UNNMSM

10.0000

residuos r2

0.0000

-10.0000

110

120

130

140

edad(meses)_nios

Residuos r 2 versus edad, despus del ajuste por la recta resistente. En general podemos decir que el grfico es bastante satisfactorio, los puntos que corresponden a los nios con los nmeros 13 y 17 se apartan mucho y son atpicos; y los puntos que corresponden a los nios con los nmeros 5, 7 y 8 toman valores negativos muy bajos para nios que tienen alrededor de 120 meses. Se observa que los dos puntos correspondientes a los nios 13 y 17 han tenido muy poco efecto en el ajuste de los datos. Si ajustamos una recta por el mtodo de mnimos cuadrados corre mucho ms riesgo de dejarse influenciar por estos puntos. Salida del SPSS para el ajuste mnimo cuadrtico

Model Summary(b) Std. Error of the Estimate Sig. F df2 Change 7.0286 .369

Model 1

R R Square Change .608(a)

R Square F Change .369

Adjusted R Square

df1 .330

Change Statistics R Square F Change Change df1 9.369 1 16

df2 .007

a Predictors: (Constant), edad(meses)_nios b Dependent Variable: altura(cms)-nios

ANOVA(b) Sum of Squares Regression Residual Total 462.834 790.431 1253.264

Model 1

df 1 16 17

Mean Square 462.834 49.402

F 9.369

Sig. .007(a)

a Predictors: (Constant), edad(meses)_nios b Dependent Variable: altura(cms)-nios

Profesoras.: Ana Mara Crdenas Rojas

Justa Caridad Huaroto Sumari

Pgina 7

ESTADISTICA II SEMESTRE 2012-2- EAPE-FCM.UNNMSM

Coefficients(a) Unstandardized Coefficients Std. B Error 79.696 21.251 .167 Standardized Coefficients Beta .608

t B 3.750 3.061

Model 1

(Constant)

Sig. Std. Error .002 .007

edad(meses)_nios .511 a Dependent Variable: altura(cms)-nios

La recta de regresin mnimo cuadrtica es: Y = 79.695 + 0.511 X , la cual tambin se puede expresar como: Y= 144.8475+0.511(X-127.5).Se observa que los puntos 5,7,8 y 17 han empinado un poco la recta. Grfico 4

10.00000

Unstandardized Residu al

0.00000

-10.00000

110

120

130

140

edad(meses)_nios

Observando los grficos 4 y 3, aunque son bastante similares, el grfico 4 nos da la sensacin de una ligera tendencia negativa , en este caso debemos prestar ms atencin a la variabilidad de los residuos que a la diferencia de las pendientes. En resumen , hemos podido apreciar cmo algunos datos pueden afectar a la recta mnimo cuadrtica mucho ms que la recta resistente; en el caso que los datos estn razonablemente bien dispuestos las dos rectas son parecidas. Eliminando el dato 17 , hallemos la recta mnimo cuadrtica. Se presenta el listado segn el SPSS Profesoras.: Ana Mara Crdenas Rojas Justa Caridad Huaroto Sumari Pgina 8

ESTADISTICA II SEMESTRE 2012-2- EAPE-FCM.UNNMSM

Model Summary(b) Adjusted R Square .236 Std. Error of the Estimate 6.16841

Model 1

R .533(a)

R Square .284

a Predictors: (Constant), edad_17 b Dependent Variable: altura_17

ANOVA(b) Sum of Squares 226.391 570.740

Model 1

df 1 15 16

Regression Residual Total

Mean Square 226.391 38.049

F 5.950

Sig. .028(a)

797.131 a Predictors: (Constant), edad_17 b Dependent Variable: altura_17

Coefficients(a) Unstandardized Coefficients Model 1 B (Constant) edad_17 95.293 Std. Error 19.747 .156 .533 Standardized Coefficients Beta

t B 4.826 2.439

Sig. Std. Error .000 .028

.381 a Dependent Variable: altura_17

La recta de regresin mnimo cuadrtica es: Y = 95.293 + 0.38 X. Se observa que la pendiente est ms prxima a la pendiente de la recta Y3

Grfico 5

Profesoras.: Ana Mara Crdenas Rojas

Justa Caridad Huaroto Sumari

Pgina 9

ESTADISTICA II SEMESTRE 2012-2- EAPE-FCM.UNNMSM

10.00000

Unsta ndardized Residual

5.00000

0.00000

-5.00000

-10.00000

135.00000

140.00000

145.00000

150.00000

Unstandardized Predicted Value

Grfico 6

10.00000

Unstandardized Residual

5.00000

0.00000

-5.00000

-10.00000

110.00

120.00

130.00

140.00

edad_17

El grfico 6 difiere del grfico 4 Por qu?

Profesoras.: Ana Mara Crdenas Rojas

Justa Caridad Huaroto Sumari

Pgina 10

ESTADISTICA II SEMESTRE 2012-2- EAPE-FCM.UNNMSM

Profesoras.: Ana Mara Crdenas Rojas

Justa Caridad Huaroto Sumari

Pgina 11

Você também pode gostar