AED - Outliers y Missing

DATOS ATPICOS (OUTLIERS)
Los casos atpicos son observaciones con

caractersticas diferentes de las dems.
Este tipo de casos no pueden ser caracterizados
categricamente como benficos o
problemticos sino que deben ser
contemplados en el contexto del anlisis y debe
evaluarse el tipo de informacin que pueden
proporcionar.
Su principal problema radica en que son
elementos que pueden no ser representativos
de la poblacin pudiendo distorsionar
seriamente el comportamiento de los
contrastes estadsticos.
TIPOS DE OUTLIERS
La primera categora.- Contiene aquellos casos atpicos que surgen de un
error de procedimiento, tales como la entrada de datos o un error de
codificacin. Estos casos atpicos deberan subsanarse en el filtrado de los
datos, y si no se puede, deberan eliminarse del anlisis o recodificarse como
datos ausentes.
La segunda clase.- Es la observacin que ocurre como consecuencia de un
acontecimiento extraordinario. En este caso, el outlier no representa ningn
segmento vlido de la poblacin y puede ser eliminado del anlisis.
La tercera clase contiene las observaciones cuyos valores caen dentro del
rango de las variables observadas pero que son nicas en la combinacin de
los valores de dichas variables.
La cuarta y ltima clase comprende las observaciones extraordinarias para
las que el investigador no tiene explicacin.
E.2 Identificacin de outliers

Los casos atpicos pueden identificarse desde
una perspectiva univariante o multivariante.
La perspectiva univariante examina la
distribucin de observaciones para cada
variable, seleccionando como casos atpicos
aquellos casos cuyos valores caigan fuera de
los rangos de la distribucin. La cuestin
principal consiste en el establecimiento de un
umbral para la designacin de caso atpico.
Esto se puede hacer grficamente mediante
histogramas o diagramas de caja o bien
numricamente, mediante el clculo de
puntuaciones tipificadas.
F.- DATOS AUSENTES (MISSING)

Los datos ausentes son algo habitual en el Anlisis Multivariante; de
hecho, rara es la investigacin en la que no aparece este tipo de
datos.
En estos casos la ocupacin primaria del investigador debe ser
determinar las razones que subyacen en el dato ausente buscando
entender el proceso principal de esta ausencia para seleccionar el
curso de accin ms apropiado.
Para ello se debe determinar cul es el proceso de datos ausentes,
entendido como cualquier evento sistemtico externo al encuestado o
accin por parte del encuestado que da lugar a la ausencia de datos.
En particular, el investigador debe analizar si existe algn patrn no
aleatorio en dicho proceso que pueda sesgar los resultados obtenidos
debido a la prdida de representatividad de la muestra analizada.
F.- DATOS AUSENTES (MISSING)

F.1 Tipos de valores ausentes
F.2 Localizacin de datos ausentes
F.3 Diagnstico de la aleatoriedad en el proceso de
datos ausentes
F.4 Aproximaciones al tratamiento de datos
ausentes
F.1 Tipos de valores ausentes

1) Datos ausentes prescindibles:
son resultado de procesos que se encuentran bajo
el control del investigador y pueden ser
identificados explcitamente. En estos casos no
se necesitan soluciones especficas para la
ausencia de datos dado que dicha ausencia es
inherente a la tcnica usada.
Ejemplos de estas situaciones son aquellas
observaciones de una poblacin que no estn
incluidas en la muestra o los llamados datos
censurados que son observaciones incompletas
como consecuencia del proceso de obtencin de
datos seguido en el anlisis.
2) Datos ausentes no prescindibles:

son resultado de procesos que no se encuentran bajo el
control del investigador y/o no pueden ser identificados
explcitamente.
Ejemplos de estas situaciones son los errores en la
entrada de datos, la renuncia del encuestado a responder
a ciertas cuestiones o respuestas inaplicables.
En estos casos se debe analizar si existen o no patrones
sistemticos en el proceso que puedan sesgar los
resultados obtenidos.
Si los datos ausentes son no prescindibles conviene, por lo
tanto, analizar el grado de aleatoriedad presente en los
mismos. Segn este grado el proceso de datos ausentes
se puede clasificar del siguiente modo:
Datos ausentes completamente aleatorios (MCAR): este es el

mayor grado de aleatoriedad y se da cuando los datos ausentes
son una muestra aleatoria simple de la muestra sin un proceso
subyacente que tiende a sesgar los datos observados. En este
caso se podra solucionar el problema sin tener cuenta el
impacto de otras variables.
Datos ausentes aleatorios (MAR): en este caso el patrn de los
datos ausentes en una variable Y no es aleatorio sino que
depende de otras variables de la muestra X.
Ahora bien, para cada valor de X, los valores observados de Y s
representan una muestra aleatoria de Y.
As, por ejemplo, si X es el sexo del encuestado e Y es su renta,
un proceso MAR se tendra si existen ms valores ausentes de Y
en hombres que en mujeres y, sin embargo, los datos son
aleatorios para ambos sexos en el sentido de que, tanto en los
hombres como en las mujeres, el patrn de ausentes es
completamente aleatorio. Si, adems, tampoco existen
diferencias por sexos los datos ausentes seran MCAR.
Si los datos ausentes son MAR cualquier solucin al problema
deber tener en cuenta los valores de X dado que afectan al
proceso generador de datos ausentes.
3) Datos ausentes no aleatorios:
en este caso existen patrones sistemticos en

el proceso de datos ausentes y habra que
evaluar la magnitud del problema
calibrando, en particular, el tamao de los
sesgos introducidos por dichos patrones. Si
stos son grandes habra que atacar el
problema directamente intentando averiguar
cules son dichos valores.
F.2 Localizacin de datos ausentes
El primer paso en el tratamiento de datos ausentes consiste

en evaluar la magnitud del problema. Para ello se comienza
analizando el porcentaje de datos ausentes por variables y
por casos. Si existen casos con un alto porcentaje de datos
ausentes se deberan excluir del problema. As mismo si
existe una variable con un alto porcentaje de este tipo de
casos su exclusin depender de la importancia terica de la
misma y la posibilidad de ser reemplazada por variables con
un contenido informativo similar.
Como regla general, sin embargo, si dicha variable es
dependiente debera ser eliminada ya que cualquier proceso
de imputacin de valores puede distorsionar la significacin
estadstica y prctica de los modelos estimados para ella.
F.3 Diagnstico de la aleatoriedad en el proceso de datos ausentes

Existen 3 mtodos:
a.-Para cada variable Y formar dos grupos (observaciones ausentes y
presentes en Y) y aplicar contrastes de comparacin de dos muestras para
determinar si existen diferencias significativas entre los dos grupos sobre
otras variables de inters.
b.- Utilizar correlaciones dicotomizadas para evaluar la correlacin de los datos
ausentes en cualquier par de valores. Estas correlaciones indicaran el
grado de asociacin entre los valores perdidos sobre cada par de variables.
c.-Realizar contrastes conjuntos de aleatoriedad que determinen si los datos
ausentes pueden ser clasificados como MCAR. Estos contrastes analizan el
patrn de datos ausentes sobre todas las variables y las compara con el
patrn esperado para un proceso de datos ausentes aleatorio. Si no se
encuentran diferencias significativas el proceso puede clasificarse como
MCAR; en caso contrario deben utilizarse los procedimientos a) y b)
anteriores para identificar los procesos especficos de datos ausentes que
no son aleatorios
F.4 Aproximaciones al tratamiento de datos

ausentes
Si se encuentran procesos de datos
ausentes MAR o no aleatorios, el investigador
debera aplicar slo el mtodo diseado
especficamente para este proceso. Slo si el
investigador determina que el proceso de
ausencia de datos puede clasificarse como
MCAR pueden utilizarse las siguientes
aproximaciones:
a.- Utilizar slo los casos completos: conveniente
si el tamao muestral no se
reduce
demasiado
b.- Supresin de casos y/o variables con una alta

proporcin de datos ausentes. Esta supresin deber
basarse en consideraciones tericas y empricas. En
particular, si algn caso tiene un dato ausente en una
variable dependiente, habitualmente excluirlo puesto
que cualquier proceso de imputacin puede
distorsionar los modelos estimados.
As mismo una variable independiente con muchos
datos ausentes podr eliminarse si existen otras
variables muy similares con datos observados.
c.- Imputar valores a los datos ausentes utilizando
valores vlidos de otras variables y/o casos de la
muestra
F.4.1 Mtodos de imputacin

Los mtodos de imputacin pueden ser de tres tipos:
1.- Mtodos de disponibilidad completa que utilizan toda la
informacin disponible a partir de un subconjunto de
casos para generalizar sobre la muestra entera. Se
utilizan habitualmente para estimar medias, varianzas y
correlaciones.
2.- Mtodos de sustitucin que estiman valores de
reemplazo para los datos ausentes, sobre la base de otra
informacin existente en la muestra. As se podra
sustituir observaciones con datos ausentes por
observaciones no maestrales o sustituir dichos datos por
la media de los valores observados o mediante regresin
sobre otras variables muy relacionadas con aquella a la
que le faltan observaciones
3.- Mtodos basados en modelos
que construyen explcitamente el mecanismo

por el que se producen los datos ausentes y
lo estiman por mxima verosimilitud. Entran
en esta categora el algoritmo EM o los
procesos de aumento de datos no hace ms
que confirmar impresiones iniciales
obtenidas a partir de un A.E.D.
VIII.- HERRAMIENTAS DE AED
A.-Estadstica Univariada
Estadstica Univariada
Variable Aleatoria (V.A.):

Es una variable Z que puede tomar una serie de
valores o realizaciones (zi) cada una de las cuales
tienen asociadas una probabilidad de ocurrencia (pi).
Ejemplo: Al lanzar un dado puede resultar {1, 2, 3, 4, 5 o

6} con una probabilidad de ocurrencia igual a 1/6.
Las probabilidades cumplen las condiciones:
a)
b)
Variable Aleatoria reguionalizada (V.A.F(z)):

Dado que x, es un punto en el espacio R3 y z(x) es el valor de la
funcin para el punto x, en el que se est interesado. Est funcin es
llamada Variable Regionalizada, p. ej. puede ser la consistencia de
un deposito en un punto, o la gravedad especifica de los minerales.
Tal funcin usualmente es altamente variable y no-continua y no
puede ser estudiada correctamente. El estudio se lo realiza,
examinando sus incrementos.
La idea bsica de la teora es considerar a tal funcin z(x), donde x
es un punto o un vector en Rn , como una realizacin de una funcin
aleatoria Z(X). Solo se tiene una realizacin de aquella funcin
aleatoria, el fin es encontrar las caractersticas de la funcin
aleatoria Z(X) para hacer las estimaciones de posibles puntos
desconocidos.
NOTA.- Una realizacin de una funcin aleatoria es una variable

regionalizada
Variable Aleatoria regionalizada (V.A.F(z)):
Variable Aleatoria Discreta:
cuando el nmero de ocurrencias es finito o

contable, se conoce como variable aleatoria
discreta.
Ejemplo: tipos de facies en un yacimiento.
Variable Aleatoria Continua:

si el nmero de ocurrencias posibles es infinito.
Ejemplo: el valor de la porosidad de un medio se
encuentra en el intervalo [0,100%].
Funcin de Distribucin de Probabilidad (FDP)
La FDP caracteriza completamente a la VA.

Su grfica
es el
histograma
Funcin de Densidad de Probabilidad (fdp)
Su grfica
es el
histograma
B.-Estadstica Bivariada
Hasta el momento, slo hemos considerado a las
variables aleatorias por separado, sin que exista
ninguna interrelacin entre stas.
En muchos campos de aplicacin y en particular,
en las Ciencias de la Tierra, es frecuentemente
ms importante conocer el patrn de
dependencia que relaciona a una variable
aleatoria X (porosidad) con otra variable aleatoria
Y (permeabilidad).
Por lo que le dedicaremos especial atencin
alanlisis conjunto de dos variables aleatorias,
conocido como anlisis bivariado
Diagrama de Dispersin (Scattergram)
El equivalente bivariado del histograma es el

diagrama de dispersin o scattergram.
El grado de dependencia entre dos variables
aleatorias X y Y puede ser caracterizado por el
diagrama de dispersin alrededor de
cualquier lnea de regresin.
C.- Estadstica multivariada

Existen muchas tcnicas multivariadas:
Anlisis de Regresin
Anlisis de Conglomerados
Anlisis de Componentes Principales
Anlisis Factorial
Anlisis Discriminante, etc
D.- Estadstica lineal y mnimos cuadrados

La regresin trata de establecer relaciones
funcionales entre variables aleatorias.
En particular la regresin lineal consiste en
establecer una relacin descrita mediante
una recta.
Los modelos de regresin nos permiten hacer
predicciones o pronsticos a partir del modelo
establecido.
El mtodo que se emplea para estimar los
parmetros del modelo de regresin es el de
los Mnimos Cuadrados.
IX.- SOFTWARE:
Los softwares a utilizar sern:
SGeMS (software abierto)
Mine sighit (software propietario)
X.- CONCLUSION:
Conviene hacer notar, finalmente, la

importancia de estas tcnicas y la necesidad
de perder el tiempo en aplicarlas. Nuestra
experiencia es que un A.E.D. hecho en
profundidad muestra mucha informacin
acerca de los datos objeto de anlisis y que,
en muchas ocasiones, la aplicacin de
tcnicas estadsticas ms sofisticadas del
Anlisis Multivariante.

AED - Outliers y Missing

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

AED - Outliers y Missing

Enviado por

Direitos autorais:

Formatos disponíveis

DATOS ATPICOS (OUTLIERS)

Los casos atpicos son observaciones con

E.2 Identificacin de outliers

F.- DATOS AUSENTES (MISSING)

F.- DATOS AUSENTES (MISSING)

F.1 Tipos de valores ausentes

2) Datos ausentes no prescindibles:

Datos ausentes completamente aleatorios (MCAR): este es el

3) Datos ausentes no aleatorios:

en este caso existen patrones sistemticos en

F.2 Localizacin de datos ausentes

El primer paso en el tratamiento de datos ausentes consiste

F.3 Diagnstico de la aleatoriedad en el proceso de datos ausentes

F.4 Aproximaciones al tratamiento de datos

b.- Supresin de casos y/o variables con una alta

F.4.1 Mtodos de imputacin

3.- Mtodos basados en modelos

que construyen explcitamente el mecanismo

VIII.- HERRAMIENTAS DE AED

Variable Aleatoria (V.A.):

Ejemplo: Al lanzar un dado puede resultar {1, 2, 3, 4, 5 o

Variable Aleatoria reguionalizada (V.A.F(z)):

NOTA.- Una realizacin de una funcin aleatoria es una variable

Variable Aleatoria regionalizada (V.A.F(z)):

Variable Aleatoria Discreta:

cuando el nmero de ocurrencias es finito o

Variable Aleatoria Continua:

Funcin de Distribucin de Probabilidad (FDP)

La FDP caracteriza completamente a la VA.

Funcin de Densidad de Probabilidad (fdp)

Diagrama de Dispersin (Scattergram)

El equivalente bivariado del histograma es el

C.- Estadstica multivariada

D.- Estadstica lineal y mnimos cuadrados

SGeMS (software abierto)

Mine sighit (software propietario)

Conviene hacer notar, finalmente, la

Você também pode gostar