Você está na página 1de 11

ANLISIS EXPLORATORIO

El anlisis exploratorio de datos es una coleccin de mtodos grficos y numricos para


examinar y explorar datos, ampliando la efectividad del anlisis estadstico. Una de las
preguntas que nos formulamos es la siguiente:
Qu nos revelan los datos en cunto a su posicin, dispersin y simetra?
Uno de los conceptos que aparece con AED es el de resistencia, en el sentido que las
tcnicas o mtodos que se usan son insensibles al mal comportamiento de los datos.
Los mtodos resistentes prestan mucha atencin a la estructura principal de los datos y
poca atencin a los outliers; entendiendo por outliers aquellos datos, de un conjunto
dado, que se alejan del resto de los dems, es decir, que comparado con la mayora de
los datos tienen valores muy extremos, ya sean inferiores o superiores.
Se sabe que los mtodos estadsticos tabulares y grficos del enfoque clsico estudiados
son los mejores posibles cuando los datos tienen un comportamiento normal sin la
presencia de datos discordantes (OUTLIER), pero sin embargo la experiencia indica que
no son los mejores cuando en situaciones reales no revelan el comportamiento tal cual
es de los datos debido a la presencia de datos discordantes.
TALLO Y HOJAS
Es semejante al histograma, pero no lo sustituye ya que entre otras cosas se puede
trabajar a lo ms con 100 datos, situaciones que se presentan en las ciencias
experimentales.
El objetivo del diagrama es comunicar simultneamente los valores numricos de los
datos con la forma natural de su distribucin.
El diagrama nos permite observar rpidamente lo siguiente:
Rango que cubren los datos
El grado de asimetra
El grado de dispersin
Si muy pocos valores estn alejados del resto
Si los datos son sumamente cercanos
Si en el conjunto existen discontinuidades.
529 506 591 610 474 509 550 600 575 540
Calificacin Stem-and-Leaf Plot
Frequency
1.00
4.00
3.00
2.00
Stem width:
Each leaf:

Stem &

Leaf

4
5
5
6

7
0024
579
01

.
.
.
.

100
1 case(s)

De manera fcil y rpida se puede realizar la construccin del diagrama de tallo y hojas.
Observar el nmero de dgitos de los datos, seleccionar uno o mas de los primeros
dgitos para formar el tallo y el dgito restante para formar las hojas.
1

Luego hacer una lista de los posibles valores de los tallos ordenados en una columna y
registrar las hojas para cada tallo correspondiente
Por ejemplo si el siguiente conjunto de datos representa las notas parciales para seis
estudiantes en el curso de estadstica (en la escala de 1 a 30 puntos): 16.2 , 16.5, 17.8,
18.6, 20.4, podemos elegir como tallo la parte entera de cada nmero es decir 16, 17,
18, 19 y 20 y como sus respectivas hojas la parte decimal como se muestra a
continuacin, acompaado de la unidad respectiva para poder leer los datos.
Unidad : 0.1
Tallo hojas
16
17
18
19

2 5
8
6

20

La separacin en dos partes de los datos no necesariamente es entre entero y decimal, se


podran presentar otras formas tales como:
a) Cortar la parte decimal y trabajar solo con la parte entera, las decenas formaran el
tallo y las unidades las hojas. Tomando el mismo conjunto de datos se tendra: 16,
16, 17, 18, 20
Unidad 1
Tallo hojas
1 6 6 7 8
2 0
b) Redondear los datos, tomando el dgito de las decenas para el tallo y el dgito de las
unidades para las hojas: 16, 17, 18, 19, 20
Unidad 1
Tallo hojas
1 6 7 8 9
2 0
Ejemplo 2.13
Presentaremos el diagrama de tallo y hojas para el ejemplo 2.3, aportaciones que
realizaron 100 docentes universitarios al sistema nacional de pensiones.
Solucin:
Para la construccin del diagrama de tallo y hojas para la variable aportaciones en
nuevos soles, como los datos estn expresados en nmeros enteros elegimos las
centenas y decenas para formar el tallo y las unidades respectivas para formar las hojas.
En el lado izquierdo en una columna colocamos los valores ordenados de los tallos
2

totalizando 18 lneas desde 17 hasta 34 y en el lado derecho colocamos en cada lnea las
hojas correspondientes tambin en forma ordenada de menor a mayor. La unidad es 1
que nos permitir leer los datos como 174, 187,...,337, 349
Unidad 1
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34

4
7
7
0
0
0
1
2
0
0
0
0
0
0
7
1
4
9

5
4
1
1
2
0
0
1
0
3
1
8
8
7

8
5
3
4
3
0
0
1
0
4
7

8
5
5
1
0
2
0
6
8

5
6
3
1
4
1
8

5
8
4
2
4
1
9

8
4
3
4
3
9

8
3
4
3

8
4
5
6

8
4 5 5 5 5 5 5 7 7 8 9 9
6 6 7 8 8
7

Adems no se necesita grfico adicional a la presentacin de tallo y hojas para averiguar


Cun simtrico es el conjunto de datos? Cun dispersos o concentrados estn los
datos?. Si imaginariamente hacemos girar 90 hacia la izquierda el diagrama de tallo y
hojas y trazamos una curva a lo largo de la parte superior del diagrama podemos
responder tales preguntas.
Observamos que la distribucin de las aportaciones es casi simtrica y unimodal, de
dispersin moderada y que las aportaciones se concentran entre 260 y 269 nuevos soles,
siendo su valor central y la aportacin que mas se repite 265 nuevos soles. No se
observan en el diagrama vacios ni aportaciones que estn muy alejadas de su valor
central.
Profundidad de un dato es el orden o lugar que ocupa el dato contando desde su
extremo ms cercano
Profundidad de lnea es la profundad mxima de los datos que contiene dicha lnea
(frecuencia acumulada)
Medidas de posicin y dispersin resistentes
Generalmente la informacin contenida en un conjunto de datos segn el enfoque
clsico se sintetiza en forma de medidas de posicin, dispersin y de forma. De manera
similar en el anlisis exploratorio de datos (AED) existen medidas de posicin y
dispersin basados en estadsticas de orden. La eleccin de estas medidas obedece
principalmente al efecto de resistencia que adquieren con la aplicacin de tales
procedimientos y a la facilidad de clculo.
Estadsticas de orden
3

Dado los valores de una variable , x1 ,..., x n el procedimiento de ordenacin consiste


en organizar los datos de acuerdo a su valor. El resultado es un conjunto de datos
ordenados y denotado por:
x (1) ,..., x ( n )
donde:
x(1) el ms pequeo de ( x1 ,..., x n )
x( 2 ) el segundo ms pequeo de ( x1 ,..., x n )
x( n ) el ms grande de ( x1 ,..., x n )

El conjunto x (1) ,..., x ( n ) se denomina estadsticas de orden de los valores de la variable


x1 ,..., x n .
Uno de los usos de las estadsticas de orden es el clculo de las profundidades de dato y
profundidad de lnea en el diagrama de tallos y hojas. Las profundidades se usan en el
clculo de las medidas de posicin.
3.5.1 Medidas de posicin
Se basan en las estadsticas de orden. Podemos citar: mediana, cuartos, octavos etc. Y
reciben el nombre de valores literales por representar se mediante letras del alfabeto.
La mediana
Es una medida de posicin resistente, la encontramos usando la siguiente expresin:
x n 1
si n es impar

Mediana =

2
n

n
1
2

Es decir, tiene profundidad

si n es par
n 1
.
2

Ejemplo 3.50
Dos investigadores realizaron una prueba que mide la ansiedad en estudiantes, antes de
aplicarse un examen de conocimientos generales, obtenindose los siguientes
resultados: 26.7 17.8 22.4 30.1 21.0 22.6 29.3 24.2 20.6 24.3
Solucin
Para encontrar la mediana primero ordenamos los datos en forma ascendente, esto es:
x 1 =17.8 x 2 =20.6 x 3 =21.0 x 4 =22.4 x 5 =22.6 x 6 =24.2 x 7 =24.3 x 8
=26.7 x 9 =29.3 x 10 =30.1, el nmero de observaciones es par, n = 10 y la
x n x n x x
10 1
5
6
1
5.5 luego, Mediana = 2
profundidad de la mediana es
2 =
2
2
2
22.6 24.2
=23.4. Este resultado indica, que de los 10 estudiantes, un 50% tiene
2

menos de 23.4 puntuaciones de ansiedad y otro 50% tiene mas de 23.4 puntuaciones
de ansiedad.
En el caso de ser n un nmero impar, por ejemplo que la muestra anterior tenga
solamente 9 observaciones: x 1 =17.8 x 2 =20.6 x 3 =21.0 x 4 =22.4 x 5 =22.6
x 6 =24.2 x 7 =24.3 x 8 =26.7 x 9 =29.3, y la profundidad de la mediana es
4

9 1
5 , entonces Mediana = x 5 =22.6. Este resultado nos dice que un 50% de los
2

estudiantes tiene menos de 22.6 puntuaciones de ansiedad y el otro 50% tiene ms de


22.6 puntuaciones de ansiedad.
Los extremos
Son el valor ms pequeo y el ms grande del conjunto de observaciones. Cada uno de
ellos tiene profundidad 1.
As en el ejemplo anterior sobre los estudios de ansiedad los extremos son: 17.8 y 30.1
Los cuartos
Son dos estadsticas de posicin, el cuarto inferior y el cuarto superior.
Se definen como los valores que tienen como profundidad, el entero de la profundidad
de la mediana, mas uno, dividido entre dos.
Profundidad de la mediana 1
Profundidad del cuarto =
2
Ejemplo 3.51
Para los datos del ejemplo anterior, ordenados en forma ascendente se tiene: 17.8 20.6
21.0 22.4 22.6 24.2 24.3 26.7 29.3 30.1. Encontraremos los cuartos.
Solucin
Encontramos la profundidad del cuarto,
Profundidad de la mediana 1 5.5 1 5 1
Profundidad del cuarto =
=
=
=3
2
2
2
entonces,
En los datos ordenados observamos la profundidad de izquierda a derecha y la
observacin con profundidad tres es el cuarto inferior y es x 3 = 21.0 y al mismo
tiempo vemos la profundidad de derecha a izquierda, as la observacin con
profundidad tres es el cuarto superior y es x 3 = 26.7.
A estos cinco nmeros resumen: Mediana, Extremos y Cuartos se denominan Valores
Literales y son las medidas resumen fundamentales del AED.
Ejemplo 3.52
Los siguientes datos corresponden al nmero de llamadas de emergencia realizadas en
19 das consecutivos a una compaa de servicio de ambulancia. Encontrar las medidas
de posicin.
38 37 44 28 34 30 56 44 49 36 38 40 41 39 40 29 43 31
Solucin
Ordenando las observaciones de menor a mayor tenemos:
(i )
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
x (i )
28 29 30 31 31 34 36 37 38 38 39 40 40 41 43 44 44 49 56
5

Profundidad 1

6 7

9 10 9

8 7

Para encontrar la mediana, como n = 19 la profundidad es,


Profundidad de Mediana =

19 1
10 y Mediana = x (10 ) 38
2

Para encontrar los cuartos calculamos su profundidad,


Profundidad de la mediana 1 10 1 10 1 5.5
Profundidad del cuarto =
=
2
2
2
luego los cuartos son:
Cuarto inferior =

Cuarto superior =

x 5 x 6 31 34
32.5
2
2
x 5 x 6
2

41 43
42
2

Los Extremos: x (1) 28 x ( n ) 56


Este resultado nos indica, que un 50% de los das, el nmero de llamadas de
emergencia fue menos de 38, y en el otro 50% fue ms de 38 llamadas, siendo el menor
nmero de llamadas 28, y el mayor 56. Adems un 25% de los das el nmero de
llamadas fue de menos de 32.5, un 50% fue ms de 32.5 y menos de 42 y otro 25% de
los das el nmero de llamadas fue ms de 42.
Los octavos
Se utilizan cuando el conjunto de datos es grande.
Se determina por:
Pr ofundidad del cuarto 1
Profundidad del Octavo =
2
Cada octavo est ubicado a la mitad del camino entre los correspondientes cuartos y los
extremos.
Para el ejemplo anterior se tiene:
Pr ofundidad del cuarto 1 5.5 1 3
Profundidad del Octavo =
=
2
2
Vemos la profundidad en la tabla N1 y determinamos que el octavo inferior es
x( 3) 30 y el octavo superior
x ( 3) 44
Podemos generalizar la obtencin de un valor literal mediante la siguiente frmula:
Profundidad del valor literal =

Pr ofundidad del valor literal anterior 1


2

Medidas de dispersin
El anlisis exploratorio considera las siguientes medidas de dispersin:
Dispersin Cuarta

Esta medida resistente se define como la diferencia entre el cuarto superior y el cuarto
inferior; esto es:
Dispersin cuarta = (cuarto superior) (cuarto inferior).
Este ndice proporciona la dispersin del 50% central de los datos y se la denota por
d C C s C i donde C s denota al cuarto superior y C i denota al cuarto inferior.
Ejemplo 3.54
Para los datos del nmero de llamadas de emergencia para servicio de ambulancia,
presentados en el ejemplo calculamos la dispersin cuarta.
Solucin
Tenemos calculado:
Cuarto inferior =32.5 y Cuarto superior = 42 y reemplazando tenemos:
Dispersin Cuarta = Cuarto superior Cuarto inferior = 42 - 32.5 = 9.5.
Notacin y representacin de las medidas resumen
Las medidas resumen se representan en una tabla denominada diagrama de valores de
las literales o como cuadro resumen de 5, 7, 9 valores literales.
Las letras que se utilizan en el cuadro resumen son:
n = tamao de la muestra, M Mediana
extremos E .

C Cuartos

O Octavos

y para los

El formato del cuadro resumen es como sigue:


n
M

profundidad de la mediana

Mediana

profundidad del cuarto

Cuarto inferior

Cuarto superior

O profundidad del octavo

Octavo inferior

Octavo superior

Extremo inferior

Extremo superior

A continuacin se presentan las estadsticas respecto al nmero de llamadas de


emergencia a una compaa de servicio de ambulancia, obtenidas en los ejemplos
anteriores.
n

19

10

5.5

32.5

42

30

44

E 1

28

56

38

Datos discordantes en una muestra (outliers)


7

Un dato discordante es una observacin o algunas observaciones que se desvan de


manera notoria respecto a las dems observaciones del conjunto de datos.
Por ejemplo, si tenemos el siguiente conjunto de datos:0,2,4,3,1,5,2,6,20,15 se puede
sospechar que los datos discordantes son 15 y 20.
La identificacin o sospecha de casos discordantes es un paso fundamental en el anlisis
de datos, la pregunta es qu hacer cuando se los tiene?. Al respecto se han adoptado
diversos criterios (Curts,1988) :
1. Identificar los casos discordantes y sus fuentes de variacin para someterlos a un
estudio especfico por separado.
2. Utilizar mtodos robustos con los cules no hay necesidad de aislarlos del
estudio. (tema que ser tratado en las prximas publicaciones)
Para identificar casos discordantes en un conjunto de datos es necesario poseer una
medida que sea sensible a estos valores. Dicha medida debe contener un nmero de
veces que se desva la dispersin cuarta respecto al cuarto inferior y al cuarto superior.
Hoaglin (1983) ha propuesto los lmites para identificar casos discordantes
denominados corte inferior y corte superior.
Corte inferior = Cuarto inferior (1.5* dispersin cuarta)= C i 1.5 (C s C i )
Corte superior = Cuarto superior + (1.5*dispersin cuarta) = C s 1.5 (C s C i ) , donde
1.5 (C s C i ) 1 paso.
As cualquier valor del conjunto de datos que caiga ms all de estos lmites se
considera un caso discordante. Esto se representa en el grfico de cajas
Grfico de caja
Son grficos muy tiles en la comparacin de varios conjuntos de datos porque
representan resmenes sobre las medidas de posicin, dispersin, cortes, datos
discordantes y simetra.
Se traza una lnea horizontal donde se ubican los valores de la variable, destacando los
valores de la mediana, cuarto inferior, cuarto superior, cortes.
Para formar la caja se traza la lnea vertical en el lugar de la mediana, la lnea vertical
del lado izquierdo representa el lugar del cuarto inferior, la lnea del lado derecho de la
caja representa el lugar del cuarto superior. Las patillas son los valores ms prximos a
los cortes.
Cuando se presentan casos discordantes (outlier) en el grfico se sealan con crculos
pequeos o asteriscos.
Si la mediana se ubica al centro de la caja decimos que la distribucin es simtrica. Si la
mediana est prxima al lmite inferior de la caja podemos decir que la distribucin
tiene asimetra positiva y si est prxima al lmite superior asimetra negativa.
El ancho de la caja nos da una idea de la variabilidad de las observaciones.
El grfico de caja es til para comparar dos o ms distribuciones de observaciones.
En la siguiente figura se muestra el grfico de caja:

Ejemplo 3.55
El Director del colegio mixto San Juan Bautista, en el ao 2003, solicit al tutor del
quinto ao de secundaria, presentar un informe acadmico del primer bimestre del ao.
Le sugiri que incluya un grfico comparativo como el grfico de caja para las
calificaciones en ingls, de los estudiantes que se encuentran bajo su tutora, segn sexo.
Las calificaciones son como sigue:
Femenino 6
Masculino 3

7
4

12
5

16
7

17
6

20
11

15
10

13
9

12
12

Solucin
Usando los comandos de la pgina obtenemos el siguiente grfico de cajas para las
calificaciones de los estudiantes segn sexo.

SEXO

10

20

calificaciones

Segn el grfico, el tutor informar que la mediana de las calificaciones en ingls de las
alumnas es superior al de los alumnos y que la forma de la distribucin de las
calificaciones en ingls del 100% de los estudiantes varones es aproximadamente
asimtrica positiva, mientras que la forma de la distribucin de las calificaciones en
ingls en las estudiantes mujeres es aproximadamente simtrica. Adems en ambas
distribuciones no hay presencia de datos discordantes.
Ejemplo 3. 56
9

30

Los siguientes datos corresponden al nmero de libros revisados por 22 estudiantes de


ltimo ao de filosofa, durante el ao acadmico 2003. Encontraremos los valores
literales representndolos luego en el grfico de cajas haciendo uso del SPSS:
62 88 75 66 52 73 35 65 147 76 40 51 69 68 72 48 82 54 79 42 50 38
Solucin
Mediana y los cuartos:
a) 0rdenando la muestra se tiene:
35 38 40 42 48 50 51 52 54 62 65 66 68 69 72 73 75 76 79 82 88 147
b) Profundidad de la mediana:
n=22, entonces

65 66
n 1 22 1

11.5, entonces Mediana =


65.5
2
2
2

c) Profundidad del Cuarto =

11.5 1 6
2

d) Cuarto inferior = x( 6 ) 50 y cuarto superior = x( 6 ) 75


e) Lmites de Corte:
C i 1.5 (C s C i )
C s 1.5 (C s C i )

= 50 1.5*(75-50)= 12.5
=75+1.5*(75-50) = 112.5

f) Usando los comandos de la pg encontramos el siguiente diagrama de caja.

50.00

75.00

100.00

125.00

NUMERO DE LIBROS REVIZADOS

10

22

150.00

Se puede observar que el valor 147 es un dato discordante.

11