Escolar Documentos
Profissional Documentos
Cultura Documentos
3. INTRODUCCIN
4. APUNTE HISTRICO
12
13
13
14
17
18
18
Saber seleccionar los procedimientos ms adecuados para examinar los datos y relaciones de inters
3. Introduccin
3.1. Concepto del AED
El anlisis exploratorio de los datos (AED) ms que un conjunto de tcnicas o herramientas grficas y
numricas, es un enfoque, actitud, lnea de investigacin o filosofa del anlisis estadstico previo a la
comprobacin de hiptesis o anlisis especializados para diseccionar y entender la estructura de los datos u
observaciones de la muestra y las posibles relaciones entre las variables medidas. (1, 2).
Aunque muy a menudo se identifica anlisis grfico y AED no debieran confundirse. El anlisis grfico es
una coleccin de procedimientos estadsticos basados en grficos enfocados a caracterizar un aspecto
determinado de los datos. AED es un concepto ms ambicioso, que combina procedimientos numricos y
grficos y se propone investigar la estructura subyacente a una base de datos sugiriendo modelos,
relaciones e interpretaciones como primer paso de un estudio estadstico. El siguiente paso ser el anlisis
confirmatorio, o inferencial (3).
Con todo no hay que olvidar que el anlisis exploratorio de los datos fue diseado en una poca preinformtica, donde no exista la facilidad de componer grficos como hoy en da.
El AED Se compone de un conjunto de tcnicas diseadas para identificar modelos fundamentales,
conceptualmente significativos, las relaciones entre los datos y para llamar la atencin sobre aquellas
observaciones que se desvan del modelo fundamental. Entre las principales herramientas grficas del AED
estn:
Histograma
Diagrama de cajas
Diagrama multivari
Diagrama continuo
Diagrama de Pareto
Diagrama de dispersin
Descubrir las relaciones o patrones sistemticos existentes entre las variables analizadas
Comprobar que las suposiciones subyacentes en las tcnicas estadsticas inferenciales se cumplen
en la muestra de datos
4. Apunte histrico
mtodos numricos
localizacin
dispersin
mtodos grficos
Histograma
Polgono de frecuencias
Diagrama de cajas
Diagrama de barras
Diagrama de lneas
Diagrama de sectores
Media
Mediana
Moda
Desviacin tpica
Coeficiente de variacin
Rango interfractlico
Procedimientos relacionados
con el diseo experimental
multifactorial
Procedimientos relacionados
con el control de la calidad
Diagrama de bloques
Diagrama de contorno
Diagrama de desviacin tpica en diseo experimental
Diagrama de dispersin en diseo experimental
Diagrama de medias en diseo experimental
Diagrama de Youden
Grficas de control para observaciones individuales: CuSum,
MA, MR, EWMA
Grficas de Pareto
2
{ X 1 , X 2 , , X n }
grficos para cualquier demora, aunque quizs los ms utilizados son los de demora 1. Un
diagrama de demora 1 tiene por:
Sinnimo:
Propsito:
Ejemplos:
(a) abscisas:
X i 1
i1
(b) ordenadas:
Xi
Lag plot
La finalidad del diagrama de demora es comprobar (a) la aleatoriedad de un conjunto de
datos o serie temporal; (b) la presencia de autocorrelacin en una serie temporal2; (c) la
presencia o ausencia de datos extremos (datos aberrantes, outliers); y (d) si existe un
modelo adecuado a la estructura de los datos.
(4)
1 El smbolo se lee para todo, en este caso, i significa para todo (alternativamente, para
cualquier), valor de i .
2 Una serie temporal es una secuencia de observaciones sucesivas, y por lo tanto estadsticamente no
independientes. Se caracteriza por presentar (o no) tendencia (aumentos o decrementos en los valores
medios), periodicidad (fluctuaciones por ejemplo diarias, mensuales, estacionales o anuales) y
autocorrelacin (las observaciones ms prximas son ms probablemente similares que las ms alejadas
en el tiempo).
5
X 1
X =
ln ( X )
donde:
si 0
si = 0
X
X
es la variable transformada;
es el parmetro de transformacin.
es la variable transformada; y
El diagrama de linealidad de Box y Cox es un grfico que permite hallar de una forma
sencilla el valor del parmetro de la correlacin existente entre la variable Y y la variable
X ( X transformada) para un valor dado de . Se define,
Sinnimo:
Propsito:
Ejemplo:
(a) en abscisas:
(b) en ordenadas:
la correlacin entre Y y X .
El valor ptimo para ser la correlacin mxima cuando es positiva, o la mnima cuando
es negativa.
Box-Cox linearity plot
Investigar si el ajuste mejorar con una transformacin y en este caso, hallar el mejor valor
para el parmetro de la transformacin.
(4)
Regresin lineal;
Diagrama de normalidad de Box y Cox
Interpretacin: En el ejemplo se observa como el grfico de los datos originales y los residuales sugiere un
ajuste no lineal (cuadrtico, concretamente) o, alternativamente una transformacin. El
coeficiente de correlacin es de 1 para = 2, 0 . La transformacin de Box Cox con ste
valor de parmetro permite el ajuste lineal mostrado en el tercer diagrama.
Sinnimo:
Propsito:
z=
xx
s
utilizando tablas de la distribucin normal inversa o funciones implementadas en paquetes estadsticos para
obtener el fractil de la distribucin normal y representarlo en una escala decimal. No obstante, la mayor
parte de paquetes estadsticos proporciona directamente el diagrama y no es necesaria esta
transformacin.
7
Ejemplo:
(4)
diagramas de probabilidad;
diagrama de probabilidad del coeficiente de correlacin;
histograma;
tests de normalidad (Shapiro Wilks, Anderson Darling, Kolmogorov,
2 , etc.)
Interpretacin: Cuando la distribucin observada se ajusta a la terica, los puntos se disponen en lnea
recta. Cuando este ajuste no es bueno, adoptan otras formas. En los siguientes grficos se
indica cuando la distribucin es (A) asimtrica a la derecha, (B) asimtrica a la izquierda, (C)
leptocrtica, o (D) platicrtica:
Sinnimo:
;y
4 La distribucin lambda generalizada (lambda asimtrica, lambda de Tukey) es una distribucin con un
amplio abanico de formas. Se define por su funcin cuantil la inversa de la funcin (acumulativa) de
distribucin, con cuatro parmetros: 1 , 2 , 3 , 4 . Existen varias parametrizaciones, por ejemplo la
propuesta por Freimer (7) con una funcin cuantil:
8
Propsito:
Ejemplo:
1
-1
0
0,14
0,5
1
Forma de la distribucin
Cauchy (aproximada)
Logstica (exacta)
Normal (aproximada)
U
Uniforme (exacta)
El diagrama de Weibull es una tcnica grfica para evaluar el ajuste y obtener una
estimacin de los parmetros de forma y escala de una distribucin de Weibull5. Est
definido por:
u 3 1
F 1 ( u ) = 1 +
donde:
(1 u )
es un parmetro de localizacin;
es un parmetro de dispersin; y
3 , 4
1 = 2
la distribucin es simtrica.
Y = ( X )
donde:
es el parmetro de escala;
9
e ( X )
(a) abscisas:
(b) ordenadas:
Y = ln ( ln (1 p ) )
donde:
p=
i 0,3
;y
n + 0, 4
Ejemplo:
Weibull plot
Es una tcnica grfica para establecer si un conjunto de datos procede de una poblacin
que se ajusta razonablemente a la distribucin de Weibull con dos parmetros, suponiendo
que la localizacin es cero (8)..
(4)
4Plot, 6 plot
Combinar en un mismo diagrama diversos grficos (4, 6, etc.).
(4)
es el parmetro de forma;
es el parmetro de localizacin.
10
6.10. Histograma
Definicin:
N =
h
i =1
donde: N
Hi =
h
j =1
n=
n=2 N
n = 10 log N
(esta ltima regla requiere un nmero de observaciones superior a 50). O alternativamente,
usando parmetros estadsticos: as, el nmero ptimo de clases es el que minimiza la
siguiente expresin
2 x s2
n = min
c
donde: c
c = 2 rango intercuartlico N
Una vez establecido el nmero de clases, la representacin grfica del histograma consiste
en dibujar n rectngulos adosados correspondientes a las clases en que se clasifican los
datos:
11
Propsito:
Ejemplo:
Diagrama de cajas
Diagrama de probabilidad
Interpretacin: En el histograma debe evaluarse la localizacin (centralizacin) de los datos y
eventualmente la presencia de varias modas; su dispersin (escala); la existencia de sesgo;
la presencia de valores extremos.
Calculadoras on line: http://www.ton.scphys.kyoto-u.ac.jp/~hideaki/res/histogram.html
http://people.hofstra.edu/faculty/Stefan_Waner/stats/histogram.html
http://nlvm.usu.edu/en/nav/frames_asid_145_g_4_t_5.html?open=instructions
12
Sinnimo:
Propsito:
Ejemplo:
13
Sinnimo:
Propsito:
Ejemplo:
Diagramas QQ;
Test t de Student;
Test F de Snedecor;
Test de KolmogorovSmirnov.
Sinnimos:
Propsito:
Ejemplo:
El diagrama de cajas representa en una forma simple y cmoda una o varias poblaciones de
observaciones sin prejuzgar el tipo de distribucin terica subyacente. Es un grfico
esquemtico que representa cuatro de las principales caractersticas de la distribucin de
los datos: (a) localizacin: media, mediana; (b) dispersin: rango, rango intercuartlico; (c)
aspecto: sesgo; y (d) presencia de datos extremos.
Tiene el aspecto de una caja central que abarca la mitad de los datos, con una lnea de
prolongacin trazada a la altura de la mediana y una indicacin de la media. De la caja
emergen unas lneas (bisagras) acotadas en el percentil 25 y 75 y a partir de estas
acotaciones se indican los valores extremos.
Diagrama de cajas y bigotes; Boxandwhisker plot, candlestick chart
Representar las distribuciones y sus principales caractersticas de una o varias muestras
simultneamente
(4)
14
Variantes:
Existen numerosas variantes de este esquema clsico que incluye la presencia de muescas
que representan intervalos de confianza, modificaciones de las acotaciones de lneas que
emergen de la caja, etc. (11, 12)
Por ejemplo, construyendo muescas (11) en:
mediana 1, 7
1, 25 rango intercuatlico
1,35 N
Calculadores on line:
http://www.physics.csbsju.edu/stats/box2.html
http://nlvm.usu.edu/en/nav/frames_asid_200_g_3_t_5.html?open=instructions
Sinnimo:
Propsito:
Ejemplo:
Los diagramas de escala (desviacin tpica, desviacin absoluta, etc.) se utilizan para
averiguar si la dispersin vara entre diferentes grupos de observaciones, y la magnitud o el
modelo de esta variacin. El agrupamiento puede ser natural, forzado por el investigador o
arbitrario (dividiendo aleatoriamente los datos). Tpicamente se asocian a diagramas de
localizacin (vase 10.5).
(a) abscisas: identificador de la clase o grupo; y
(b) ordenadas: dispersin (por ejemplo, desviacin tpica) de la clase.
Diagrama de desviaciones tpicas, Standard deviation plot
Comprobar la igualdad de la dispersin de diferentes grupos o clases.
(4)
15
Diagrama de localizacin
Diagrama de dispersin de diseo experimental
Interpretacin: Bajo la hiptesis nula de igualdad de dispersin, el diagrama proporciona una aproximacin
visual para comprobar esta suposicin.
Sinnimo:
Propsito:
Ejemplo:
Los diagramas de localizacin (media, media truncada, mediana, etc.) se utilizan para
averiguar si la localizacin o centralizacin vara entre diferentes grupos de observaciones,
y la magnitud o el modelo de esta variacin. Al igual que los grficos de dispersin (con los
que suele asociarse el grfico de localizacin), los grupos o clases pueden ser naturales,
definidos por el investigador o arbitrarios.
(c) abscisas: identificador de la clase o grupo; y
(d) ordenadas: localizacin (por ejemplo, media) de la clase.
Es frecuente dibujar una lnea recta, paralela a las abscisas en el punto de ordenadas
correspondiente a la media global.
Mean plot, median plot, trimmed mean plot
Valorar la consistencia de una medida de localizacin (media, media recortada, mediana)
entre grupos o subconjuntos de datos objeto de estudio, organizados segn niveles de una
variable de agrupacin o factor (por ejemplo la variable o factor tiempo en meses tiene 12
niveles por ao). Permite investigar cul es la magnitud de los cambios en las medidas de
localizacin en los diferentes grupos y averiguar si existe un modelo bien definido en el caso
de que tales medidas de localizacin no sean consistentes.
(4)
Diagrama de escalas
Diagrama de medias en diseo experimental (DEX)
Diagrama de cajas
Interpretacin: En el anlisis experimental unifactorial o en el diseo de estudios univariados se asume que
la medida de localizacin o centralizacin es constante, es decir consistente, entre todos los
grupos. Este diagrama permite una comprobacin grfica de que se cumple este supuesto.
16
Sinnimo:
Propsito:
Ejemplo:
k
cuantiles6 observados en una distribucin acumulada estandarizada; y
n +1
Bihistograma
Test t
Test F
Test jicuadrado para dos muestras
Test de KolmogorovSmirnov para dos muestras
Interpretacin: Cuanto ms se aleje la dispersin de puntos de la lnea de pendiente 45 , menos verosmil
es que las dos distribuciones procedan de una distribucin comn. Permite detectar
diferencias en localizacin, escala, forma (sesgo) y la presencia de datos extremos.
Conclusiones:
Cuantil es la fraccin (por ejemplo porcentual) de casos por debajo de un valor determinado. As, el cuantil
0,25 (percentil 25 %) es aquel valor que deja un por debajo suyo un 25 % de casos de la distribucin, y un
75 % por encima.
7
Cuando n es grande, los dos grficos son idnticos
17
12.2. Diagrama de control para observaciones individuales: CuSum, MA, MR, EWMA
(Vase Mdulo 3 Calidad)
Sinnimo:
Propsito:
Ejemplo:
18
Histograma
http://math.uc.edu/~pelikan/probandstat/stem.htm
Bibliografa
Bibliografa citada
1. Filliben JJ. The probability plot correlation coefficient test for normality. Technometrics 1975;17(1):111117.
2. Smith AF, Prentice DA. Exploratory data analysis, a handbook for data analysis in the behavioral
sciences: statistical issues; 1993.
3. Tukey JW. Exploratory data analysis: Addison Wesley; 1977.
4. NIST/SEMATECH. e-Handbook of Statistical Methods. In:: NIST,; 2003.
5. Box GEP, Cox DR. An analysis of transformations. J R Stat Soc, Ser. B 1964;26:211-243.
6. Box GEP, Cox DR. An analysis of transformations revisited, rebutted. J Am Stat Assoc 1982;77(377):209210.
7. Freimer M, Mudholkar GS, Kollia G, Lin CT. A study of the generalized Tukey lambda family. Com Stat Theor Meth 1988;17:3547-3567.
8. Nelson W. Applied life data analysis: Addison-Wesley; 1982.
9. Freedman D, Diaconis P. On the histogram as a density estimator L2 theory. Prob Theor Rel Fields
1981;57(4):453-476.
10.Chambers J, Cleveland W, Kleiner B, Tukey P. Graphical methods for data analysis: Wadsworth; 1983.
11.McGill R, Tukey JW, Larsen WA. Variations of box plots. Am Stat 1978;32:12-16.
12.Hintze JL, Nelson RD. Violin plots: a box plot-density trace synergism. Am Stat 1998;52(2):181-184.
En Internet
http://www.5campus.com/leccion/aed
http://ciberconta.unizar.es/LECCION/aed/ead.pdf
http://www.statsoft.com/textbook/stdatmin.html
http://www.statgraphics.com/eda.htm
SPSS
www.sussex.ac.uk/Users/andyf/eda.pdf
Excel
http://www.qualitydigest.com/oct97/html/excel.html
19