Escolar Documentos
Profissional Documentos
Cultura Documentos
Uno de los problemas arduos en el anlisis de datos es manejar los valores atpicos en un grupo
de datos. Un valor atpico es una observacin con un valor que no parece corresponderse con el
resto de los valores en el grupo de datos. Los valores atpicos tambin suelen llamarse valores
aberrantes o inconsistentes.
Resulta importante destacar que lo primero es considerar los datos grficamente para identificar
la posible existencia de ms de un valor atpico, ya sea en la misma direccin o en la direccin
opuesta, antes de utilizar la tcnica de Dixon o la tcnica de Grubbs. Estas tcnicas estn
diseadas para detectar un nico valor atpico en un grupo de datos, y por lo tanto no son
adecuadas para la deteccin de mltiples valores atpicos. Una tcnica rigurosa y amplia para
identificar eficazmente mltiples valores atpicos es el procedimiento para muchos valores
atpicos con generalizacin extrema de la desviacin de Student.
1. Grubbs:
1
Si 1 es sospechoso =
Si es sospechoso =
Paso 5: Escoger el nivel de confianza para la prueba y calcular a T y compararlo con el valor
correspondiente de acuerdo con una tabla de valores crticos.
2. Dixon
La prueba de Dixon permite determinar si un valor sospechoso de un conjunto de datos es un
outlier. El mtodo define la relacin entre la diferencia del mnimo/mximo valor y su vecino
ms cercano y la diferencia entre el mximo y el mnimo valor aplicado
Los datos deben provenir de una distribucin normal. Si se sospecha que una poblacin
lognormal subyace en la muestra, la prueba puede ser aplicada al logaritmo de los datos. Antes
de realizar el procedimiento es importante definir las hiptesis (si el valor sospechoso se
encuentra al inicio o al final del conjunto de datos) y determinar la distribucin de la que
provienen los datos (normal o lognormal)
Se debe seguir los siguientes pasos:
Paso 1: Ordenar los valores de la muestra ascendentemente 1 < 2 < 3 <
Tabla 23. Prueba de Dixon de acuerdo con el tamao del Conjunto De datos
n=3a7 r10
n = 8 a 10 r11
n =11 a 13 r21
n = 14 a 24 r22
Buscar el valor crtico de r de acuerdo con el nivel de significancia en la tabla para valores
crticos para la prueba de Dixon.
Si el valor de r calculado es mayor que el valor crtico de la tabla se concluye que es un valor
atpico.
La prueba de Dixon es usualmente utilizada para un grupo pequeo de datos
(Entre 3 y 30 datos) y dispone de un valor crtico con tres puntos decimales, locual limita
seriamente la aplicacin de la prueba en muchos campos de las
Ciencias e ingenieras.
3. Prueba Tukey:
El diagrama conocido como diagrama de cajas y bigotes (Box and WhiskersPlot osimplemente
BoxPlot) es un grfico representativo de las distribucionesde un conjunto de datos creado por
Tukey en 1977, en cuya construccin seusan cinco medidas descriptivas de los mismos:
mediana, primer cuartil (Q1), tercer cuartil (Q3), valor mximo y valor mnimo. Estcompuesto
por un rectngulo o caja la cual se construye con ayuda del primery tercer cuartil y representa el
50% de los datos que particularmente estnubicados en la zona central de la distribucin, la
mediana es la lnea queatraviesa la caja, y dos brazos o bigotes son las lneas que se extienden
desdela caja hasta los valores ms altos y ms bajos. En algunos casos, dentro de lacaja suele
trazarse una cruz para representar el promedio de los datos
Paso1: se encuentra la medianade todos los datos, luego se halla tanto la mediana de los valores
iguales oinferiores a la mediana como de los superiores.
Paso 2: Este ser un valor de datos oser la mitad de entre dos valores de datos dependiendo de
si la cantidad delos datos es par o imparCon un conjunto de datos impar, seincluye la mediana
en cada una de las dos mitades del conjunto de datos yluego se encuentra el medio de cada
mitad. Esto da como resultado el primery tercer cuartil.
Paso 3: Si el conjunto de datos tiene un nmero par de valores, losdatos se dividen en dos
mitades, y se encuentra el medio de cada mitad.
= ( )1 ( ) para i = 1 hasta n
En la regresin lineal o simple se parte de un modelo lineal, donde existe una relacin de la
variable x tambin llamada variable independiente hacia lavariable y denominada variable
dependiente.
( )( )
=
( )2
Un modelo de regresin permite detectar valores atpicos al considerar a losdatos alejados del
modelo como tales. Esto es, los casos que no siguen elmodelo como el resto de los datos pueden
representar datos errneos, opueden indicar un pobre ajuste de la lnea de regresin. La figura
ilustraesta situacin.
Deteccin de atpicos mediante regresin
Antes de tratar de ajustar un modelo lineal a los datos observados, primero se debe determinar si
existe una relacin o no entre las variables de inters. Esto no implica necesariamente que una
variable sea causa de la otra, pero existe cierta asociacin significativa entre las dos variables.
Una grfica de dispersin puede ser una herramienta til para determinar la fuerza de la relacin
entre las dos variables. Si no parece haber ninguna asociacin entre la variable predictora o
independiente y la variable de respuesta o dependiente (es decir, la dispersin no indican ningn
tendencia de aumento o disminucin), ajustar un modelo de regresin lineal a los datos
probablemente no va a proporcionar un modelo til Una vez que un modelo de regresin ha sido
ajustado a un grupo de datos, el examen de los residuos (la desviacin de la lnea ajustada a los
valores observados) permite al modelador investigar la validez de que existe una relacin lineal.
El trazado de los residuos en el eje y en contra de la variable independiente en el eje x revela
cualquier posible relacin no lineal entre las variables, o puede alertar al modelador para
investigar las variables que acechan. En este caso los residuos determinan la presencia de
valores atpicos
Los procedimientos de regresin lineal por mnimos cuadrados (LS), son sensibles a ciertos
tipos de valores atpicos, inclusive si se trata de uno solo de estos valores. Segn Rousseeuw y
Leroy, se pueden presentar valores atpicos tanto en el eje y como en el eje x. En el eje x hay
ms posibilidades de que algo salga mal, su efecto en el estimador de mnimos cuadrados es
muy significativo debido a su gran impacto en la pendiente
Para solucionar este problema, se han desarrollado nuevas tcnicas estadsticas que no se ven
fcilmente afectadas por los valores atpicos. Estos son los mtodos robustos, que siguen siendo
una tcnica de confianza, incluso en una gran cantidad de datos
La regresin lineal robusta en vez de utilizar LS, utiliza el mtodo least median of squares
(LMS) definido por Rousseeuw Se remplaza la suma de mnimos cuadrados por la mediana, que
es un estimador robusto tanto para valores extremos en el eje x como en el eje y, y es resistente a
situaciones multivariantes. El objetivo principal es ajustar la mayora de los datos y luego los
valores atpicos pueden ser identificados como los puntos que permanecen lejos de la regresin
tanto para el caso de residuos positivos como negativos.
La tcnica escogida para observar los datos atpicos de nuestra base de datos fue Diagramas de
bigotes (turkey).