Você está na página 1de 38

Captulo 3:

SISTEMAS DE
REPRESENTACIN
GRFICA (UNIVARIADOS).
1991

79

EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.

80

Hector Monterde i Bort - Manuel Perea Lara.

Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).

3.1.- INTRODUCCIN
PREVIOS.

CONCEPTOS

Consecuentemente
con
las
caractersticas
e
ideas
propugnadas por este enfoque, del Anlisis Exploratorio de
Datos,
las
representaciones
grficas
constituyen
su
caracterstica ms distintiva, por su singularidad y por la
importancia que este enfoque les otorga, ya que estn a la base
de los principios que han levantado a este enfoque ("mirar los
datos....", explorar,...).
La importancia concedida por el enfoque del A.E.D. a las
tcnicas grficas, en respuesta a la limitacin mostrada por el
enfoque "clsico" para resumir ptimamente conjuntos de datos
cuando stos no se ajustan a un modelo terico, ha provocado el
desarrollo de nuevas tcnicas grficas, por los defensores del
enfoque del A.E.D., con el objetivo de encontrar el mejor
sistema de "resumir" un conjunto de datos. Y aunque falta una
perspectiva histrica que lo confirme, hoy por hoy posiblemente
las tcnicas desarrolladas por el A.E.D. constituyan las
posiciones ms cercanas a dicho objetivo.
En este captulo sern presentadas y descritas estas
tcnicas, especialmente las denominadas con los imaginativos
nombres de "Tallo-y-Hojas" (Stem-and-Leaf ) y "Caja-y-Bigotesde-gato" (Box-and-Whiskers ), junto con los conceptos bsicos
con ellas relacionados.
No obstante, antes de pasar a su descripcin, conviene
aclarar otra equivalencia utilizada en el enfoque A.E.D.
respecto a la estadstica "clsica". Se trata del concepto de
conjunto de datos (batch) utilizado en sustitucin de muestra,
que es el trmino utilizado por la estadstica "clsica". Esta
diferenciacin, al igual que ocurre con otras equivalencias, no
es gratuita, pues aunque ambas se refieren a lo mismo, a los
datos
obtenidos,
la
diferencia
terminolgica
justifica
diferencias prcticas e incluso tericas, como es, en este caso,
que el concepto de "muestra" tradicionalmente incluye las
asunciones
o
supuestos
de
independencia
y
de
idntica

1991

81

EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.

distribucin. Pero estos son supuestos que en el A.E.D. no


tienen por qu asumirse. Para el A.E.D., los datos recogidos son
slo un conjunto de valores o cantidades.
Aunque menos relevante, otra "diferenciacin" que puede
ilustrar an ms lo dicho, es la relativa aversin que en el
enfoque del A.E.D. se tiene a la utilizacin del trmino
"normal" (ecuaciones normales, curva normal,...) por el aspecto
calificativo que tiene. As, es frecuente la utilizacin del
trmino "Gaussiana" para referirse a la distribucin Normal.
Daremos paso al anlisis de las tcnicas grficas diciendo
que, para el enfoque del A.E.D., la estructura ms comn de
datos es un conjunto de nmeros.

3.2.- GRFICOS
HOJAS".

DE

"TALLO-Y-

3.2.1.- INTRODUCCIN.
El grfico de "Tallo-y-Hojas", ideado por Tukey (1972,
1977) y con un precedente en Dudley (1946), es una especie de
hbrido entre Histograma y Tabla de Distribucin de Frecuencias
en el que las lneas o barras se construyen con los propios
datos. Frente al Histograma presenta la ventaja de que los datos
originales no se pierden.
Consiste en una organizacin de los nmeros grficamente
que permite visualizar y tener el conjunto de datos completo a
la vez que observar las caractersticas ms importantes de la
distribucin, como:
- La forma
distribucin.

el

grado

aproximado

de

simetra

de

la

- La dispersin que presentan los datos del conjunto.


- La presencia y cantidad de valores extremos o atpicos.

82

Hector Monterde i Bort - Manuel Perea Lara.

Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).

- La existencia de concentraciones de datos en determinados


puntos de la distribucin.
- La existencia y situacin de "agujeros" en el conjunto de
datos o en la distribucin.
- Etc.

Por otra parte, presenta adems, como veremos, otras


ventajas sobre los sistemas de representacin "clsicos", entre
ellas destacaremos dos:
I)

La presencia en la representacin de los propios


valores del conjunto de datos permite operar sobre l y
calcular ndices descriptivos a partir de la grfica,
dado que en ella se encuentran todos los valores o
puntuaciones tal y como fueron obtenidos.

II)

No implica ninguna teora elaborada. Es un mtodo muy


flexible, que permite multitud de variaciones en su
elaboracin que posibilitan que el investigador adapte el
resultado a sus gustos personales, a sus intereses de
informacin, en cada momento, y a las caractersticas de
los datos.

Su comprensin se har ms fcil con algunos ejemplos.

3.2.2.- DESCRIPCIN.
La elaboracin de un grfico o representacin de "Tallo-yHojas" bsicamente consiste en separar los dgitos o posiciones
que ocupa cada uno de los valores del conjunto de datos en dos
partes, de equivalentes posiciones. Trazando una raya vertical,
la parte izquierda de cada uno de los valores (de idnticas
posiciones o con el mismo nmero de dgitos) se colocan a la
izquierda de dicha raya, ordenados de menor a mayor empezando
por arriba, constituyendo esta parte los que sern llamados
"Tallos" y que equivaldran a las Clases en una tabla de
distribucin de frecuencias clsica, por lo que sern nicos (si

1991

83

EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.

al dividir varios valores resultan repetidas estas partes, slo


se tomar una -aunque habr algunas excepciones como veremos-).
La parte restante de cada uno de los valores, se colocar, de
forma ordenada (de menor a mayor empezando por la izquierda), a
la derecha de la raya separadas por espacios, tantas como datos
haya (incluyendo las repeticiones), y frente al "tallo" al que
corresponden, constituyendo las que sern llamadas "hojas".
Para ilustrar sus caractersticas y la forma de elaboracin
comenzaremos con los datos que sirvieron, constantemente, a los
ejemplos de Captulo 2, a los que ad hoc hemos aadido algunos
ms, como primer acercamiento. Por tanto, sea el siguiente
conjunto de datos, ya ordenados:
3, 4, 4, 5, 5, 6, 7, 8, 9, 11, 15, 33, 37, 40
Un
grfico
(uno,
pues
veremos
que
existen
varias
posibilidades a la hora de construir la representacin) de
"Tallo-y Hojas" aplicado al conjunto de datos anterior podra
ser:
0
1
2
3
4

344556789
15
37
0

Aunque el conjunto de datos, por su escaso tamao, no


justificara la representacin grfica, el ejemplo permite poder
seguir la explicacin anterior sobre el proceso de construccin,
aprehender las caractersticas bsicas de este sistema de
representacin, y detectar, visualmente, algunas caractersticas
de la distribucin, como, por ejemplo, la existencia de un
agujero en el "tallo" 2. Tambin nos servir para ilustrar
algunos conceptos.
Como se ver, la grfica tiene cinco "tallos" o filas (0,
1, 2, 3, 4) que quedan ordenados a la izquierda de la raya
vertical, cada uno de los cuales tiene una determinada cantidad
de "hojas", que corresponderan a las frecuencias absolutas de
dicha Clase en un grfico clsico, slo que aqu son los mismos
datos los que forman las frecuencias. El primer "tallo", el 0,
agrupa nueve valores, representados por sus "hojas" (3, 4, 4, 5,
5, 6, 7, 8, 9), que son (al aadirles el "tallo": 03, 04, 04,
05, 06, 07, 08 y 09 (a los que podramos quitar el 0). El

84

Hector Monterde i Bort - Manuel Perea Lara.

Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).

segundo "tallo", el 1, agrupa dos valores, representados por su


hojas (1 y 5), que son (al aadirles el "tallo" correspondiente)
el 11 y el 15. El tercer "tallo", el 2, no tiene ninguna hoja,
ello significa que en el conjunto de datos no existen valores
comprendidos entre 20 y 29 (inclusive), que es la Amplitud de
Intervalo que se est utilizando (como en una tabla de
frecuencias clsica). Etc...
Para que cualquier otra persona pueda comprender un grfico
de "Tallo-y-Hojas" y operar a partir de l, sin necesidad de
recurrir a los datos originales, ser preciso especificar cmo
han sido tratados los valores, es decir, cmo son los valores
originales (con cuntos dgitos se representa u ocupa cada valor
y si estos dgitos, y cuntos de ellos, son decimales o
enteros). Ello se hace aadiendo una especificacin de la unidad
en la parte de arriba de la grfica,
que se expresa en
potencias de 10
(..., 10-1, 100, 101, 102,...), y significar
que
la
yuxtaposicin
entre
"tallo"
y
"hoja"
(unidos)
multiplicada por dicha unidad
nos dar, y por ello indicar
como es, el dato original.
As, pues, para extraer los datos de un
"Tallo-y-Hojas", emplearemos la siguiente frmula:
Dato original = (tallo

diagrama

de

hoja) * unidad expresada

Por ejemplo, dada la siguiente combinacin (parte de un


grfico) de "Tallo-y-Hoja", en la que se representa un "tallo"
de "1" y una "hoja" de "23":
1 | 23
si la unidad

es:

10-2 = 0'01, significa que el valor original es: 123*0'01


= 1'23.
10-1 = 0'1,
12'3.

significa que el valor original es: 123*0'1 =

100 = 1, significa que el valor original es: 123*1 = 123.


101 = 10, significa que el valor original es: 123*10 =
1230.

1991

85

EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.

102 = 100, significa que el valor original es: 123*100 =


12300.

En el ejemplo visto, la unidad sera 1, que indicara, por


ejemplo, que la representacin 03 es "3". Debiendo quedar la
grfica con la siguiente expresin:
(Unid. = 1)

0
1
2
3
4

344556789
15
37
0

Por contra, para obtener la unidad , que deberemos indicar


al elaborar un grfico de "Tallo-y-Hojas", dividiremos uno
cualquiera de los datos por el valor resultante de no tener en
cuenta los decimales:
1'23/123 = 0'01
12'3/123 = 0'1
123/123 = 1
o bien por la representacin que vayamos a hacer de dicho
valor en la grfica (por ejemplo, si el valor es 1230 y lo
queremos representar como 123: 1230/123 = 10, etc.).
En el proceso de elaboracin de una representacin en
"Tallo-y-Hojas", una vez determinada la expresin de la unidad ,
que vendr determinada por los datos, el paso siguiente ser
tomar la decisin acerca de la amplitud de intervalo que vamos a
utilizar para representar los valores en la grfica. Para ello,
veremos primero, en el siguiente Apartado, las distintas
posibilidades que se nos ofrecen en este procedimiento de
representacin de la variable,
relativas a la amplitud de los
intervalos, que confieren a esta tcnica la caracterstica de
flexibilidad a la que se hizo referencia en un principio. Para
despus, en otro Apartado, a continuacin, tratar los criterios
objetivos propuestos para determinar la amplitud de intervalo
ms adecuada para una ptima representacin de la variable,
aunque el ltimo criterio estar siempre en la "cabeza" del
elaborador, que es quien mejor sabr lo que quiere mostrar y a
dnde
quiere
llegar
(a
cuyas
intenciones
y
decisiones
constituirn valiosa ayuda los criterios objetivos).

86

Hector Monterde i Bort - Manuel Perea Lara.

Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).

3.2.3.- VARIANDO LA CONCENTRACIN:


ANCHURA DEL TALLO Y DIVISIN EN
RAMAS.
Veremos a continuacin cmo, aprovechando las mltiples
posibilidades de representacin que para un mismo conjunto de
datos permite este sistema, podemos variar la concentracin o el
detalle de la distribucin de datos en funcin, por ejemplo, de
los objetivos perseguidos, hasta encontrar el resultado ms
ptimo. Este es un procedimiento equivalente a la determinacin
de
la
Amplitud
de
los
Intervalos
en
los
sistemas
de
representacin clsicos.
Para ello, dispondremos de dos posibilidades:
1) Variar la "anchura" de los "Tallos", o lo que ser ms
prctico, variar la "anchura" de las "Hojas"; que significa
determinar por dnde realizamos el "corte" en los datos, es
decir, cuntos dgitos dedicamos al "tallo" y cuntos a la
"hoja".
2) Aplicar subdivisiones a los "tallos", en lo que
llamaremos "Ramas", ampliando con ello el nmero de filas, es
decir, reduciendo con cada "rama" la amplitud de intervalo.
Combinando ambas posibilidades podemos seguir la siguiente
estrategia:
I)

Si el valor ms alto, existente en el conjunto de


datos,
tiene
ms
de
dos
dgitos
(contando
decimales): procederemos a variar la anchura de
"tallo" actuando, nos ser ms fcil, sobre la
anchura de "hoja".
a) As,
si
queremos
concentrar
ms
la
distribucin: aumentaremos la anchura de la
"hoja", dando el siguiente dgito, de derecha a
izquierda, a la "hoja", y quitndoselo del

1991

87

EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.

"tallo" (si el dato particular no tiene ms


dgitos, rellenaremos con ceros, y el "tallo"
ser tambin cero). Con ello se producir una
disminucin de las filas o lneas, en este caso
"tallos",
apareciendo
la
distribucin
ms
concentrada:
(Unidad = 1)

100
101

127
016

(Unidad = 1)

pasar a:

10

01 02 07 10 11 16

La amplitud de los intervalos (suponiendo, a


efectos
de
clculo,
que
la
variable
es
continua) vendr dada por el resultado de
multiplicar
la
unidad (expresada)
por
10
elevado al nmero de dgitos que tengan las
"hojas" (en el ejemplo: 1*101= 10 antes de la
transformacin, porque la unidad =1 y las
"hojas" estn compuestas por un dgito, y
1*102=100 despus de la transformacin, porque
las "hojas" tienen ahora 2 dgitos). 1
b) Si, por el contrario, queremos extender ms la
distribucin, procederemos en sentido inverso:
disminuiremos la anchura de la "hoja" pasando
el primer dgito, de la izquierda, de sta al
"tallo",
con
lo
que
se
provocar
una
disminucin de la anchura de los intervalos.
Con ello, la distribucin se extender ms,
aumentando el nmero de filas o, en este caso,
"tallos", permitiendo un mayor detalle:
(Unidad = 1)

10

01 02 07 10 11 16

(Unidad = 1)

pasar a:

100
101

127
016

Esta posibilidad tocar fin cuando slo nos


quede un dgito para formar la "hojas", si
queremos extender an ms la distribucin,
pasaremos a la segunda de las posibilidades
apuntadas.

88

Obsrvese que en el primer caso, el "tallo 100" recoge todos los valores
comprendidos entre 1000 y 1009 inclusives, por lo que la amplitud de intervalo
es, suponiendo una variable continua para facilitar la comprensin,
AI=1009'5-999'5=10. En el segundo caso, el "tallo 10" recoge todos los valores
comprendidos entre 1000 y 1099 inclusives, por lo que, suponiendo variable
continua, la AI=1099'5-999'5=100.

Hector Monterde i Bort - Manuel Perea Lara.

Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).

II)

Si slo hay, o cuando slo nos quede, un dgito


para formar las "hojas", y queramos extender ms la
distribucin, procederemos a subdividir los "tallos"
en "ramas". Dos tipos de divisiones son frecuentes:
a) Dos
"ramas"
por
"tallo":
consistente
en
dividir en dos cada "tallo", con lo que
tendremos dos filas o, en este caso, "ramas"
compartiendo el mismo "tallo". La primera
aglutinar las "hojas" cuyo primer dgito
(desde la izquierda) sea 0, 1, 2, 3 4, y se
indica con un asterisco situado a continuacin
del "tallo" (a la izquierda de la raya). La
segunda aglutinar las "hojas" cuyo primer
dgito sea 5, 6, 7, 8 9, y se indica con un
punto colocado en la misma posicin:
(Unidad = 1)

100
101

127
016

(Unidad = 1)

pasar a:

100 *
100
101 *
101

12
7
01
6

La amplitud de los intervalos (suponiendo, a


efectos
de
clculo,
que
la
variable
es
continua) vendr dada por el resultado de
multiplicar la unidad (expresada), partida por
el
nmero
de
"ramas"
(subdivisiones
del
"tallo") o filas por tallo, por 10 elevado al
nmero de dgitos que tengan las "hojas" (en el
1
ejemplo: 1*101=10 antes de la transformacin,
porque la unidad =1, cada "tallo" tiene slo
una fila y cada "hoja" est compuesta por 1
1
1
dgito,
y
despus
de
la
2*10 =5
transformacin, porque cada "tallo" tiene ahora
dos "ramas" y cada "hoja" sigue estando
compuesta por 1 dgito). 2

2 Obsrvese que en el segundo caso, despus de la transformacin, el "tallo 100*"

recoge los valores comprendidos entre 1000 y 1004 inclusives, por lo que,
suponiendo una variable continua para facilitar la comprensin, la AI=1004'5999'5=5.

1991

89

EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.

b) Cinco "ramas" por "tallo": consistente en


subdividir cada "tallo" en 5 ramas, cada una de
las cuales aglutinar dos posibles valores para
el primer dgito de cada "hoja", que con el
smbolo de referencia (los dos vistos ms tres
letras, iniciales de "dos", "cuatro" y "seis",
en ingls) se indican en la siguiente tabla:
* ............. 0 1
t ............. 2 3
f ............. 4 5
s ............. 6 7
............. 8 9
(Unidad = 1)

100
101

1278
012469

(Unidad = 1)

pasar a:

100 *
100 t
100 f
100 s
100
101 *
101 t
101 f
101 s
101

1
2
7
8
01
2
4
6
9

La amplitud de los intervalos (suponiendo, a


efectos
de
clculo,
que
la
variable
es
continua) vendr dada por el resultado de
multiplicar la unidad (expresada), partida por
el nmero de "ramas" o filas por tallo, por 10
elevado al nmero de dgitos que tengan las
1
"hojas" (en el ejemplo: 1*101=10 antes de la
transformacin,
porque
la
unidad =1,
cada
"tallo" tiene slo una fila y cada "hoja" est
1
compuesta por 1 dgito,
y 5*101=2 despus de
la transformacin, porque cada "tallo" tiene
ahora 5 "ramas" y cada "hoja" sigue estando
compuesta por 1 dgito). 3

3 Obsrvese que en el segundo caso, despus de la transformacin, el "tallo 100*"

recoge los valores comprendidos entre 1000 y 1001 inclusives, por lo que,
suponiendo una variable continua para facilitar la comprensin, la AI=1001'5999'5=2.

90

Hector Monterde i Bort - Manuel Perea Lara.

Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).

El procedimiento descrito para conocer ms cmodamente la


amplitud de intervalo empleada, en una representacin de
"Tallo-y-Hojas", quedara expresado de forma general con la
siguiente frmula:
AIutilizada =

unidad expresada
n
n de filas por tallo * 10

digitos en hojas

Finalmente, conviene aclarar que las posibilidades de


variacin hasta ahora expuestas, y como han sido expuestas, slo
afectan al efecto visual de la representacin. No suponen
ninguna alteracin de los datos, que siguen siendo los
originales.
No obstante, a estos tipos de variaciones descritas, cabe
aadir un tercer tipo, que s supone un pequea alteracin sobre
los datos originales, aunque de forma general. Se trata de la
eliminacin de los decimales, que puede ser una estrategia,
previa, interesante en muchos casos, pues en algunos casos
ayudar al objetivo principal de la representacin, el facilitar
la inspeccin visual de la distribucin.

Para la eliminacin de los decimales se pueden seguir dos


criterios:
a) Redondeo, normalmente por exceso, por el que cada
uno de los valores se redondea al entero ms
cercano, de la siguiente forma (por ejemplo):
24'0, 24'1, 24'2, 24'3 y 24'4
pasarn a
ser 24, y
24'5, 24'6, 24'7, 24'8, y 24'9
pasarn a
ser 25.
b) Truncado, por el que se elimina simplemente la
parte decimal de cada valor, de la siguiente forma:
24'0, 24'1, 24'2, 24'3, 24'4, 24'5, 24'6, 24'7,
24'8 y 24'9 pasarn a 24, y
25'0, 25'1, 25'2, 25'3, 25'4, 25'5, 25'6, 25'7,
25'8 y 25'9 pasarn a 25.
Normalmente se suele preferir el truncado, recomendndose,
pues es ms fcil de aplicar y produce el mismo resultado en la
representacin.

1991

91

EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.

Llegados a este punto, conviene tambin advertir que todas


las variaciones vistas, incluyendo las de truncado y redondeo,
se han descrito y utilizado bajo el supuesto de que cualquier
variacin realizada lo es para todos los "tallos", que es como
van a ser utilizadas en este Captulo, aunque su utilidad excede
de los lmites impuestos aqu (por ejemplo como estrategias de
transformacin de datos para conseguir simetra o linealidad),
dado que su exposicin y aplicacin se limita, por ahora,
exclusivamente a objetivos de exploracin, en este caso, a su
aplicacin a la representacin del conjunto de datos.

A continuacin ilustraremos lo expuesto, aplicando las


posibilidades de variacin descritas sobre un conjunto de datos
ejemplo,
suficientemente
amplio
como
para
justificar
su
representacin, y observando el resultado conseguido sobre la
representacin "Tallo-y-Hojas".
Sea el siguiente supuesto conjunto de datos, que para
abreviar presentamos agrupados en una tabla de distribucin de
frecuencias clsica que, a efectos didcticos, tomamos con un
decimal y, para abreviar, suponemos todas las clases con
frecuencia de 1:
Clases

92

Frecuencias absolutas

Hector Monterde i Bort - Manuel Perea Lara.

Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).

1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1

9'8
9'9
10'0
10'1
10'2
10'3
10'4
10'5
10'6
10'7
10'8
10'9
11'0
11'1
11'2
11'3
11'4
11'5
11'6
11'7
11'8
11'9
12'0
12'1
12'2
12'3
12'4
12'5

Un primer desarrollo
podra ser el siguiente:

del

diagrama

de

"Tallo-y-Hojas",

(Unidad = 0'1)

0
1

98 99
00 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

Evidentemente, en ningn "tallo" figuran "hojas" repetidas


porque convinimos en asignar frecuencias de 1 a todas las
Clases, aqu "tallos"/"ramas", para abreviar. Aunque esta
situacin no ser la ms frecuente, y que desde luego,
justificara bien poco cualquier sistema de tabulacin y/o
representacin aplicado con dicho conjunto de datos.
En este caso, se han asignado dos dgitos a las "hojas"
(uno al "tallo"), la amplitud de los intervalos (bajo la
perspectiva clsica) es de 10, y la referencia unidad=
indica
que los valores tienen un decimal, lgicamente el ltimo dgito
(de izquierda a derecha) de las "hojas". Con ello, a partir de
esta representacin "Tallo-y Hojas" podemos extraer los valores
sin ningn problema.
No obstante, un nmero tan bajo de filas, en este caso
"tallos", puede ser poco ptimo para permitir una rpida
inspeccin de la distribucin. Como respuesta, podemos ensayar

1991

93

EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.

otro criterio de "anchura" mayor para la "hojas", volviendo a


confeccionar el grfico:
(Unidad = 0'1)

9
10
11
12

89
0123456789
0123456789
012345

En este caso, se ha asignado un dgito a las "hojas" (dos


al "tallo"), la amplitud de los intervalos (bajo la perspectiva
clsica) es de 1, y la referencia unidad=
indica que los
valores tienen un decimal, y como la "hojas" slo estn
compuestas de un dgito, ste es el decimal. Con ello, a partir
de esta representacin "Tallo-y Hojas" tambin podemos extraer
los valores sin problema, pero hemos ganado algo en detalle.
Si an quisiramos mostrar la distribucin de forma ms
extendida, o menos concentrada, dado que slo nos queda un
dgito para las "hojas", pasaremos a efectuar la subdivisin de
"tallo", primero por el primer criterio, dos "ramas" por
"tallo":
(Unidad = 0'1)

9*
9
10 *
10
11 *
11
12 *
12

89
01234
56789
01234
56789
01234
5

En este caso, se ha seguido asignando un dgito a las


"hojas" (dos al "tallo"), pero se ha dividido en dos filas cada
"tallo", que llamamos "ramas". La primera "rama" de cada "tallo"
contiene las "hojas" 0 a 4 inclusive, y la segunda de cada
"tallo", las "hojas" 5 a 9 inclusive. La amplitud de los
intervalos (bajo la perspectiva clsica) es ahora de 0'5, y la
referencia unidad=
sigue indicando que los valores tienen un
decimal (si unidad
fuera igual a 0'01 indicara que hay dos
decimales, luego como en este caso slo hay un dgito en las
"hojas", que ste sera el segundo decimal y que el otro decimal
estara en el "tallo", el siguiente dgito del "tallo" de
derecha a izquierda). Con ello, a partir de esta representacin
"Tallo-y Hojas" tambin podemos extraer los valores sin
problema, pero hemos ganado algo ms en detalle.

94

Hector Monterde i Bort - Manuel Perea Lara.

Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).

Si an quisiramos extender ms la representacin de la


distribucin, aplicaremos el segundo criterio de subdivisin de
"tallo", cinco "ramas" por tallo:
(Unidad = 0'1)

9*
t
f
s
9
10 *
t
f
s
10
11 *
t
f
s
11
12 *
t
f
s
12

89
01
23
45
67
89
01
23
45
67
89
01
23
45

En este caso, se ha seguido asignando un dgito a las


"hojas" (dos al "tallo"), pero se ha dividido en cinco filas o
"ramas" cada "tallo". Cada una de las cuales recoge un par de
posibles valores de "hojas", segn el criterio que se expuso
anteriormente. La primera "rama" de cada "tallo" contendr las
"hojas" 0 y 1 inclusive, la segunda las "hojas" 2 y 3 inclusive,
....., y la quinta las "hojas" 8 y 9 inclusive. Por lo que la
amplitud de los intervalos (bajo la perspectiva clsica) es
ahora de 0'2, y la referencia unidad= sigue indicando que los
valores tienen un decimal. Con ello, a partir de esta
representacin "Tallo-y Hojas" seguimos pudiendo extraer los
valores sin problema, pero hemos ganado mucho ms en detalle.

Finalmente,
si
decidiramos
eliminar
los
decimales,
aplicando la estrategia de truncamiento de los valores, que es
la ms frecuentemente aconsejada, la representacin "Tallo-yHojas" podra quedar as, en una de sus formas posibles:
(Unidad = 1)

1991

95

EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.

0*
t
f
s
0 9 9
1* 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
t 222222
f
s
1

La referencia unidad=1
indicar que los valores son
enteros. Por lo que las "hojas" sern las unidades respectivas
de los valores truncados (el "tallo" lo constituirn las
decenas).

3.2.4.- NMERO DE "TALLOS"/"RAMAS" Y


AMPLITUD DE INTERVALO OPTIMOS.
Ya familiarizados con el procedimiento de construccin de
este sistema de representacin y sus variantes, nos centraremos
ahora en intentar responder a una pregunta que tal vez el lector
que se introduce por primera vez en este acercamiento a travs
del
presente
texto
se
haya
planteado:
Conocidas
las
posibilidades y sabidos los procedimientos para aumentar o
disminuir, a voluntad, el nmero de filas, "tallos" o "ramas",
ante un caso real cuantas filas, "tallos"/"hojas", conviene
hacer?, es decisin arbitraria o existe algn criterio o
consejo al respecto?. S, y es ms, disponer de un criterio,
aunque sea aproximado, va a ser necesario para determinados
propsitos, como por ejemplo cuando tengamos que comparar
diferentes conjuntos de datos.
Una breve reflexin nos llevar a concluir que tal o tales
criterios, si existen, debern estar determinados por el tamao
(N) del conjunto de datos a estudiar. Y que el nmero de filas,
"tallos"/"ramas", determinar la amplitud de los intervalos. La
relacin entre nmero de filas ("tallos"/"ramas"), la unidad y
la amplitud de intervalo ya ha sido tratada en el apartado
anterior, por lo que el lector se encontrar ya familiarizado
con estos conceptos.

96

Hector Monterde i Bort - Manuel Perea Lara.

Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).

RESPECTO AL NMERO DE FILAS, que segn el caso sern "tallos" o


"ramas", Emerson y Hoaglin, considerados entre los iniciadores
de este enfoque, proponen (EMERSON Y HOAGLIN, 1983a, p. 11) utilizar
el criterio propuesto por Dixon y Kronmal (1965) para determinar
el nmero mximo de clases en la tabulacin clsica:
N mximo de filas = Fmax = [10 * log10N]
Siendo N el nmero de datos, frecuencias
o
casos,
y
los
corchetes
se
utilizan
para
indicar
que
el
resultado debe ser truncado (al
valor entero).

Estos autores tambin consideran el criterio propuesto por


Velleman (1976) cuando el tamao del conjunto de datos sea
pequeo (menor o igual de 50), siguiente:
N mximo de filas = Fmax = [2

N]

Siendo, igualmente, N el nmero de


datos, frecuencias o casos, y los
corchetes la indicacin que el
resultado debe ser truncado.

Dado que este segundo criterio presenta la limitacin de


que si el tamao del conjunto de datos (N) es grande la frmula
puede dar valores excesivamente altos, y amparndonos en los
comentarios realizados por Batista y Valls (1985) acerca de su
experiencia personal en el empleo de estos criterios, creemos
interesante aportar, como tercer criterio, el propuesto por
estos autores, que supone una doble estrategia basada en la
conjuncin de los dos anteriores:
a) Para un nmero de datos menor o igual a mil
(N<=1000), proponen utilizar la frmula, ya vista,
de Velleman:

1991

97

EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.

Fmax = [2

N].

b) Para un nmero de datos superior a mil (N>1000),


proponen utilizar la siguiente frmula, variante de
la de Dixon y Kronmal:
Fmax = [21 * log10N].

Otros criterios han sido propuestos (DOANE, 1976;...), pero


sus
complicadas
formulaciones
para
llegar
a
resultados
prcticamente equivalentes, no justifican su tratamiento en este
texto, remitiendo al lector a consultar el mencionado texto de
Emerson y Hoaglin (1983a, pp. 22-29) donde se realiza una
descripcin y anlisis comparativos.

RESPECTO A LA AMPLITUD DE LOS INTERVALOS, cabe comenzar diciendo


que sea cual sea el criterio seguido para decidir el nmero de
filas, ste determinar, en cierta medida, la amplitud que
debern tener los intervalos.
Emerson
y
Hoaglin
(1983a,
pp.
12-13)
proponen
un
procedimiento para obtener la amplitud mnima de los intervalos,
que se describe a continuacin:
1) se aplica la siguiente frmula:
Intervalo mnimo =
ATe
; en la que ATe es la amplitud total excluyente (valor
Imin = F
max
ms alto, o Es, menos valor ms bajo, o Ei).
2) el resultado se redondea, por exceso,
a la prxima
potencia de 10 (resultado que para indicar que se trata del
redondeado a la prxima potencia de 10 llamaremos: Ir10 ).
As, resultados entre 0 y 1 inclusive sern redondeados a
1, que es la siguiente potencia de 10 (100), resultados mayores
de 1 hasta 10 sern redondeados a 10, que es la siguiente
potencia de 10 (101), resultados mayores de 10 hasta 100 sern
redondeados a 100, que es la siguiente potencia de 10 (102),
....
El problema viene cuando estos autores (op. cit. )
aconsejan realizar divisiones intermedias entre estos valores
cuando la representacin resultante de su aplicacin no

98

Hector Monterde i Bort - Manuel Perea Lara.

Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).

satisfaga o est demasiado concentrada, lo que supone una vuelta


al criterio de buen cubero....
Estas subdivisiones deben corresponder con las expresadas
en el apartado anterior, dos o cinco "ramas" por "tallo", que
correspondern respectivamente a intervalos con amplitud la
mitad o la quinta parte de la unidad utilizada. Expresado
matemticamente quedara as:
unidad
n de
* 10
1
de dgitos hojas
.
unidad
n de
AI =
* 10
2
n de dgitos hojas -1
10
.
unidad
n de
AI =
* 10
5
AI =

10

n de dgitos hojas -1

dgitos hojas

Ir10
1

= unidad * 10

dgitos hojas

Ir10
2

= 5 * unidad *

dgitos hojas

Ir10
5

= 2 * unidad *

Cuyo significado fue expuesto en el Apartado anterior.

Otra posible solucin, puede ser calcular el procedimiento


descrito, tomar el valor resultante de dividir la Amplitud Total
excluyente por el nmero mximo de filas hallado (sin redondear
a potencias de 10) e intentar ajustar la amplitud de intervalo
obtenida por el procedimiento a la ms cercana de las divisiones
tipo consideradas, segn la relacin anterior. Esto como primer
intento
o
criterio
provisional.
Es
decir,
construir
la
representacin "Tallo-y-Hojas" y juzgar el resultado, para ver
si es ptimo para los propsitos perseguidos con ella. Si lo es,
damos el criterio como definitivo, y si no lo es, procedemos a
aplicar las variaciones disponibles, tal y como vimos en el
apartado anterior, hasta conseguir el efecto deseado con la
representacin. Este criterio nos parece el ms prctico.

Como en el caso del nmero de filas mximo, han sido


propuestos otros criterios para determinar la amplitud mnima de
los intervalos (por ejemplo, SCOTT, 1979; FREEDMAN Y DIACONIS, 1981a,
1981b;
estos
ltimos
con
varios),
pero
sus
complicadas
formulaciones, y en muchos de ellos por los supuestos en los que
se basan, no ofrecen mejores resultados, por lo que a excepcin
de uno de los ofrecidos por Freedman y Diaconis (1981b), debido

1991

99

EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.

a su sencillez de aplicacin, no sern tratados en este texto,


remitiendo al lector a consultar el texto de Emerson y Hoaglin
(1983a, pp. 22-29) donde se realiza una descripcin y se exponen
anlisis comparativos realizados.
El referido criterio de Freedman y Diaconis (1981b), uno de
los varios ofrecidos por estos autores, queda expresado en la
siguiente frmula:
Imin =

2(AIC)

N1/3

siendo:
AIC la Amplitud Inter-Cuartil, o su
equivalente aqu la Amplitud Entre-Cuartos
(AEC), y N el nmero de datos, frecuencias
o casos;
de cuya eficacia prctica no podemos an dar cuenta.

Veremos a continuacin, en
ejemplo
prctico
del
proceso
representacin de "Tallo-y-Hojas".

el siguiente apartado, un
de
construccin
de
una

3.2.5.- PROCESO DE CONSTRUCCIN


UN DIAGRAMA "TALLO-Y-HOJAS".

DE

Sea el siguiente conjunto de datos, que representan los


Tiempos de Reaccin medios de 50 sujetos:
0'12
2'07
1'09
0'75
0'91

0'09
0'96
1'21
1'01
1'04

1'34
1'85
0'90
1'66
1'08

2'37
1'05
1'12
1'24
1'05

0'81
1'02
1'05
1'04
1'19

0'10
1'16
2'01
1'98
0'13

0'67
1'27
1'06
1'06
1'10

0'23
0'56
1'87
0'99
0'31

1'05
1'06
1'07
1'29
1'37

1'52
0'56
0'89
1'03
0'42

Que una vez ordenados los valores, resulta:


0'09, 0'10, 0'12, 0'13, 0'23, 0'31, 0'42, 0'56, 0'56, 0'67, 0'75, 0'81, (0'89), 0'90, 0'91, 0'96, 0'99, 1'01, 1'02,
1'03, 1'04, 1'04, 1'05, 1'05, (1'05, 1'05), 1'06, 1'06, 1'06, 1'07, 1'08, 1'09, 1'10, 1'12, 1'16, 1'19, 1'21, (1'24), 1'27, 1'29,
1'34, 1'37, 1'52, 1'66, 1'85, 1'87, 1'98, 2'01, 2'07, 2'37.

100

Hector Monterde i Bort - Manuel Perea Lara.

Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).

(Los parntesis indican la Mediana y los Cuartos).

Para representar estos valores en un grfico de "Tallo-yHojas", seguiremos los siguientes pasos.

1) Establecer la unidad a expresar: como los datos vienen


medidos en una precisin de 2 decimales (en Tiempo de Reaccin
equivaldran a centsimas de segundo):
Unidad = 10-2 = 0'01

2) Calcular
"ramas"):

el

- segn

nmero

mximo

de

filas

("tallos"

y/o

Fmax = [10 log10N] = [10 log1050] = [16'99] =

16
- y segn

Fmax = [2 N] = [2 50] = [14'14] = 14

3) Calcular la amplitud mnima de intervalo:


- segn

ATe
2'37 - 0'09
2'28 _
=
=
Imin = F
~ 0'14
16
16
max

2'37 _
14 ~ 0'16
- y segn

Imin =

2(AEC)
N1/3

2(1'24 - 0'89)
0'7
= 3'68 _
~
501/3

0'19

4) Redondear el valor obtenido para la amplitud mnima de


intervalo al valor ms cercano por arriba a 1, 2 5
multiplicado por la potencia de 10 ms prxima:
(Por ejemplo,
si Imin da 1'1 redondearemos a 2*100 = 2,
si da 0'3 redondearemos a 5*10-1 = 0'5,
si da 0'6 redondearemos a 1*100 = 1,....)

1991

101

EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.

La siguiente tabla, que hemos elaborado, ayudar a


facilitar este clculo para la determinacin de la
amplitud de intervalo:
Valor de
Imin

Amplitud
Intervalo

Expresado en
potencias de 10: Ir10

N de filas/"ramas"
por tallo

...
]0'05,0'1]

...
0'1

...

...
1

]0'1,0'2]

0'2

2*10-1

]0'2,0'5]

0'5

]0'5,1]

5*10-1
1 100

]1,2]

]2,5]

2*100
5 100

1*10-1

1
2

]5,10]

10

1*101

]10,20]

20

2*101

]20,50]

50

]50,100]

100

5*101
1 102

...

...

*
...

1
...

En
el
ejemplo
que
estamos
viendo,
procedimientos llevaran a un Imin de 0'2.

5) En funcin del nmero


establecer las "ramas" o
relacin mostrada en la
ejemplo,

los

tres

al que se ha redondeado,
filas a realizar, segn la
tabla anterior. En nuestro

la consulta de la tabla, nos llevar a 5 "ramas" por


"tallo" como subdivisin ptima.

6) En funcin del nmero de "ramas" o filas resultante o


de inters decidir el reparto de dgitos, es decir
cuntos asignamos para constituir las "hojas" y cuntos a
los "tallos":
En el ejemplo, para conseguir que quede una
amplitud de intervalo de 0'2 con 5 "ramas" por
"tallo", deberemos asignar dos dgitos a las
"hojas" (salvo que decidamos redondear o truncar
los valores)..

102

Hector Monterde i Bort - Manuel Perea Lara.

Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).

7) Preparar la base del grfico, situar primero todos los


"tallos" y, despus, trasladar cada uno de los valores
del conjunto de datos. El resultado sera:
(Unidad = 0'01)

0*
t
f
s
0
1*
t
f
s
1
2*
t
f
s
2

09 10 12 13
23 31
42 56 56
67 75
81 89 90 91 96 99
01 02 03 04 04 05 05 05 05 06 06 06 07 08 09 10 12 16 19
21 24 27 29 34 37
52
66
85 87 98
01 07
37

3.2.6.- PROFUNDIDAD Y
"TALLO-Y-HOJAS".

DIAGRAMA

DE

Sea la siguiente representacin "Tallo-y-Hojas":


(Unidad = 1)

3
(2)
3
1

0
1
2
3
4

799
34
23
0

De la observacin del diagrama, y teniendo en cuenta la


unidad, podemos conocer que el conjunto de datos, ordenados, es
el siguiente:
7, 9, 9, 13, 14, 22, 23 y 40.

De acuerdo con lo indicado en el Captulo 2, a cada dato,


se le pueden asignar dos grados, uno ascendente y otro
descendente, por ejemplo, el valor "23" tiene por rdenes 7

1991

103

EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.

ascendente y 2 descendente. Igualmente, se indic que la


profundidad
de un valor era el menor de ambos grados. En el
ejemplo, la profundidad de "23" es el menor de 7 y 2, es decir
2.
En el diagrama de "Tallo-y-Hojas" resulta de gran utilidad
indicar la profundidad de las puntuaciones, ya que ello
facilitar considerablemente el clculo de diversos ndices
tales como la Mediana o los Cuartos. Concretamente,
la
profundidad
asociada
a
un
"tallo"/"rama" en un diagrama de este tipo,
es la mxima profundidad asociada a los
valores de esa fila.
Por ejemplo, la profundidad del Tallo "2|" es 3, puesto
que es la mayor de las profundidades de cada uno de los valores
contenidos en dicha fila, ya que la profundidad asociada al
valor "23" es 2, mientras que la del valor "22" es 3. En el caso
de que la fila ("tallo o "rama") carezca de "hojas", no se
indicar ningn ndice de profundidad, como ocurre con el Tallo
"3|" del ejemplo.
Una excepcin a lo anterior ocurre en el caso de
encontrarnos en el "Tallo-Medio" ("tallo"/"rama", es decir fila,
que incluye la Mediana), en el que lo que se indica es el nmero
de "hojas", o frecuencias, de esa lnea, entre parntesis. Por
ejemplo, se ha puesto "(2)" en el "Tallo-Medio" para indicar el
nmero de "hojas" del mismo y no su profundidad.
En el caso de que la Mediana recaiga entre dos filas,
"tallos" o "ramas", no se hace ninguna indicacin del "TalloMedio". Para ilustrar esto veremos otro ejemplo en el que
utilizaremos otro conjunto de datos:
(Unidad = 1)

2
4
4
2
1

0
1
2
3
4

23
56
12
0
1

En este ejemplo, como la Mediana recae entre la fila (en


este caso, Tallo) "1|" y la fila "2|" solamente se han indicado
las profundidades.

104

Hector Monterde i Bort - Manuel Perea Lara.

Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).

3.2.7.- COMPARACIN
DE
DOS
DISTRIBUCIONES:
LA
VARIANTE
"ESPALDA-CON-ESPALDA".
El mtodo grfico de "Tallo-y-Hojas" puede ser empleado
tambin para comparar dos distribuciones o conjuntos de datos,
con lo que sus posibilidades se ven incrementadas.
En este caso lo que se hace es utilizar una serie de Tallos
comunes para las dos distribuciones, con la misma unidad y los
mismas amplitudes de intervalo, representando cada conjunto de
datos a cada lado de la columna de los Tallos. Como podr
apreciarse en el siguiente ejemplo:
(Unidad

09
28 32
40 49 55 59
66 78 78 78 78
88 90 90 92 94 96 99
08 09 15 18 18
21 27 27 32 38 38
42 42 46 54
62 66 75
88 90
01 01 11
20 20 25
40 40
64 69
82

*
t
f
s

*
t
f
s

*
t
f
s

0 *
t
f
s
0
1 *
t
f
s
1
2 *
t
f
s
2

0'01)

09 10 12 13
23 31
42 56 56
67 75
81 89 90 91 96 99
01 02 03 04 04 05 05 05 05 06 06 06 07 08 09 10 12 16 19
21 24 27 29 34 37
52
66
85 87 98
01 07
37

En el ejemplo, se puede apreciar la clara asimetra


positiva de los valores de la distribucin de la izquierda,
mientras que la de la derecha se muestra ms o menos simtrica.
Igualmente, la distribucin de la derecha se localiza en valores
ms elevados, en general, que la de la izquierda.
Cabe destacar que cuando se utilice esta tcnica para
comparar dos distribuciones, deber tenerse en cuenta que los
conjuntos de datos a comparar sean de tamao equivalente, o
aproximado, para facilitar la comprensin de la representacin.

1991

105

EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.

3.3.- GRFICOS DE CAJA-RESUMEN.


Son representaciones semigrficas, en las que utilizando
como base un rectngulo se resumen una serie de ndices
caractersticos del conjunto de datos. Veremos dos tipos: la
Caja de "ndices-Letra" de Posicin (Letter-Values Display ) y
la Caja de "ndices-Letra" de Dispersin.

3.3.1.- CAJA-RESUMEN
DE
LETRA" DE POSICIN.

"NDICES-

Consiste en una representacin sencilla del denominado


"Resumen de 5 Nmeros", del que se habl en el Captulo 2.
Se trata de un rectngulo dentro del cual se disponen, de
una determinada forma prefijada, los 5 ndices de posicin ms
importantes: Mediana (M), Cuarto inferior (Ci), Cuarto superior
(Cs), puntuacin mnima o extremo inferior (Ei) y puntuacin
mxima o extremo superior (Es). Esta informacin suele ser
complementada, en columna dispuesta en la parte izquierda y
fuera del rectngulo, con el tamao del conjunto de datos (#) y,
situndose
a
la
altura
correspondiente,
las
respectivas
profundidades (P) de los cinco ndices. En la forma que veremos
a continuacin:
#
PM

106

PC

Ci

Cs

PE

Ei

Es

Hector Monterde i Bort - Manuel Perea Lara.

Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).

Por ejemplo, el diagrama de Caja-Resumen de Posicin


correspondiente al conjunto de datos sobre Tiempo de Reaccin
que sirvi de ejemplo en el Apartado 2.3.5.:
0'09, 0'10, 0'12, 0'13, 0'23, 0'31, 0'42, 0'56, 0'56, 0'67, 0'75, 0'81, (0'89),
0'90, 0'91, 0'96, 0'99, 1'01, 1'02, 1'03, 1'04, 1'04, 1'05, 1'05, (1'05;
1'05), 1'06, 1'06, 1'06, 1'07, 1'08, 1'09, 1'10, 1'12, 1'16, 1'19, 1'21,
(1'24), 1'27, 1'29, 1'34, 1'37, 1'52, 1'66, 1'85, 1'87, 1'98, 2'01, 2'07, 2'37,

sera el siguiente:
#
M

50
25'5

13

0'89

1'24

0'09

2'37

1'05

El estudio de los valores contenidos en el diagrama puede


darnos un primera idea acerca de la forma de la distribucin de
datos, por ejemplo, observando la relacin de distancias entre
los Cuartos y sus correspondientes Extremos (puntuaciones mayor
y menor) podemos detectar la existencia de asimetra y si sta
es positiva o negativa.

3.3.2.- CAJA-RESUMEN
DE
LETRA" DE DISPERSIN.

"NDICES-

Se trata de una figura compuesta por dos rectngulos, uno


pequeo (previsto para contener slo un valor) sobre otro ms
grande en el que se sitan de una determinada disposicin
prefijada diversos ndices de dispersin caractersticos.
Dentro del rectngulo pequeo figurar un valor que
constituye el factor de escala que determinar el criterio de
consideracin de puntuaciones atpicas (en principio, los
valores ms all de los cuartos son considerados como
"puntuaciones atpicas potenciales"). Este valor, factor de
escala,
suele ser 1'5, que multiplicado por la Amplitud
Entre-Cuartos determinar una distancia normativa que recibe el
nombre de paso, cuya expresin es la siguiente:

1991

107

EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.

Paso = 1'5 * AEC


Dentro del rectngulo mayor se dispondrn los valores que
constituirn los ndices de dispersin
denominados fronteras
interiores
(inferior y superior)
y
las fronteras exteriores
(inferior y superior). Estos valores vienen determinados por las
siguientes expresiones:
a) Fronteras Interiores (f):
Inferior =

fi

menos un Paso).
Superior = fs
ms un Paso).

Ci - 1*Paso

(Cuarto inferior

Cs + 1*Paso

(Cuarto superior

b) Fronteras Exteriores (F):


Inferior = Fi =
menos dos Pasos).
Superior = Fs =

Ci - 2*Paso

(Cuarto inferior

Cs + 2*Paso

(Cuarto superior

ms dos Pasos).
A los que se puede aadir los:
c) Valores Adyacentes (VA):
que constituyen los dos
valores existentes (superior e inferior) en el
conjunto de datos que estn respectivamente ms
cercanos a la fronteras interiores, sin rebasarlas
(aunque pueden coincidir con ellas). Dado que los
valores que constituyen fronteras, al igual que los
cuantiles, pueden no coincidir con alguno de los
valores obtenidos que forman el conjunto de datos.

Las fronteras determinarn el criterio de consideracin de


puntuaciones atpicas, que segn caigan ms all de unas u otras
son consideradas como:
I) Puntuaciones Atpicas Moderadas (o Anomalas Moderadas)
(PAM): aquellos valores del conjunto ordenado de datos situados
entre la frontera exterior inferior
y la frontera interior
inferior , o entre la frontera interior superior y la frontera
exterior superior. Es decir, dentro del segundo paso.
II) Puntuaciones
Atpicas
Extremadas
(o
Anomalas
Extremadas) (PAE): aquellos valores del conjunto ordenado de
datos situados por debajo (o menores) de la frontera exterior

108

Hector Monterde i Bort - Manuel Perea Lara.

Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).

inferior
o por encima (o mayores) de la frontera
superior. Es decir, ms all del segundo paso.

exterior

El diagrama puede tener toda o parte de la informacin


descrita. La siguiente sera una de las formas ms completas y
la ms frecuente:
Paso
VAi

fi
#PAMi
Fi
#PAEi

VAs

fs
#PAMs
Fs
#PAEs

Siendo:
y VAs : Respectivos valores Adyacentes, inferior y
VAi
superior.
fi y fs : Respectivas Fronteras Interiores, inferior y
superior.
#PAMi :
Nmero de valores existentes en el conjunto de

#PAMs

Fi

datos que son Puntuaciones Atpicas Moderadas y que


se encuentran por encima de la Frontera Exterior
inferior (y por debajo de fi).
:
Nmero de valores existentes en el conjunto de
datos que son Puntuaciones Atpicas Moderadas y que
se encuentran por debajo de la Frontera Exterior
superior (y por encima de fs).
y Fs : Respectivas Fronteras Exteriores, inferior y

superior.
#PAEi :
Nmero de valores existentes en el conjunto de
#PAEs

datos que son Puntuaciones Atpicas Extremadas, es


decir, que se encuentran por debajo de Fi.
:
Nmero de valores existentes en el conjunto de
datos que son Puntuaciones Atpicas Extremadas, es
decir, que se encuentran por encima de Fs.

Para construir el diagrama de Caja-Resumen de Dispersin,


por ejemplo,
correspondiente al mismo conjunto de datos sobre

1991

109

EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.

Tiempo de Reaccin utilizado en el apartado anterior, con factor


de escala = 1'5, seguiremos las siguientes fases:
1) Calcular el paso :
Paso = 1'5 * AEC = 1'5*(1'24 - 0'89) = 0'525
2) Calcular las fronteras interiores :
fi = Ci - 1*Paso = 0'89 - 0'525 = 0'365
fs = Cs + 1*Paso
= 1'24 + 0'525 = 1'765
3) Localizar en la distribucin los valores adyacentes :
VAi = 0'42
VAs = 1'66
4) Calcular las fronteras exteriores :
Fi = Ci - 2*Paso = 0'89 - 2*0'525 = -0'16 -->
0'0 4
Fs = Cs + 2*Paso
= 1'24 + 2*0'525 = 2'29
5) Contar y localizar los valores atpicos moderados, es
decir, entre cada par de correspondientes fronteras
interior y exterior:
#PAMi (entre 0'0 y 0'365) = 6, que son: 0'09, 0'10,
0'12, 0'13, 0'23 y 0'31.
#PAMs (entre 1'765 y 2'29) = 5, que son: 1'85, 1'87,
1'98, 2'01 y 2'07.
6) Contar y localizar los valores entre las fronteras
correspondientes:
#PAEi (menores de 0) = 0, no puede haber ninguna por ser
0 el lmite real.
#PAEs (mayores a 2'29) = 1, que es:

y 2'37.

7) Elaborar
el
diagrama,
que
aprovechando
informacin disponible quedara de la siguiente forma:

toda

la

0'525
VA
f
0'09,0'10,0'12,0'13,0'23,0'31
F

0'42
0'365
6
0
0

1'66
1'765
5
2'29
1

1'85,1'87,1'98,2'01,2'07
2'37

Quedar en "0" porque, por las caractersticas de la variable, no pueden haber


valores menores de cero.

110

Hector Monterde i Bort - Manuel Perea Lara.

Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).

Como se ver, pueden colocarse los correspondientes valores


atpicos a ambos lados de la caja.
Este tipo de grfico proporciona una informacin completa
sobre la existencia de valores atpicos en la distribucin,
constituyendo
normalmente
un
complemento
del
grfico
de
"Caja-y-Bigotes" que veremos en el prximo apartado.

3.4.- GRFICOS
DE
BIGOTES DE GATO".

"CAJA-Y-

Este tipo de representacin, tambin debido a Tukey (op.


cit. ), consiste en un diagrama esquemtico donde se representan
de forma exclusivamente grfica los ndices ms importantes
vistos en el apartado anterior: Mediana, Cuartos, Valores
Adjuntos y Valores Atpicos. Es una representacin grfica que
se asemeja abstractamente (y con un poco de imaginacin) a una
"cara de gato", y consiste en situar sobre un eje-escala un
rectngulo del que salen perpendicularmente sendos segmentos de
lnea y ms all de los cuales unas marcas que corresponden a
los valores atpicos, todo ello de forma que las proporciones de
las
distancias
en
el
grfico
se
corresponden
con
las
proporciones encontradas entre los diferentes ndices, as como
entre stos y los valores atpicos.
El siguiente grfico de "Caja-y-Bigotes" correspondera al
conjunto de datos sobre el ejemplo del Tiempo de Reaccin
utilizado en los dos apartados anteriores (omitimos el proceso
de construccin, pues es el mismo que el seguido con los
grficos
de
"Caja-Resumen"
vistos
en
los
dos
apartados
anteriores, de los que tomamos sus resultados).

1991

111

EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.

0'05
|

0'20
|

oo oo

0'35
|

x -

0'50
|

--

0'65
|

--

--

0'80
|

--

--

0'95
|

1'10
|

1'25
|

--

1'40
|

--

--

1'55
|

--

--

1'70
|

--

-x

1'85
|

oo

2'00
|

o oo

2'15
|

2'30
|

La lnea interior del rectngulo o Caja indica la posicin


de la Mediana (cuyo valor puede seguirse en la escala graduada).
La longitud del
rectngulo est determinada por los Cuartos,
cuyas posiciones estn indicadas por los bordes longitudinales,
conteniendo el 50% de los datos. Las equis sealan la posicin
de los Valores Adyacentes, o valores ms extremos no-atpicos,
quedando unidas a la Caja por medio de lneas para facilitar la
comprobacin de la simetra. Finalmente, una serie de marcas
sueltas (normalmente crculos) diferenciadas para distinguir
entre puntuaciones atpicas moderadas y extremas, indican la
posicin (y, a travs de la escala graduada, el valor) de stas.
En nuestro ejemplo, debido las limitaciones de precisin
y/o de extensin, las distancias expresadas son aproximadas. No
obstante, a efectos didcticos, a pesar de estas limitaciones el
grfico elaborado es suficientemente expresivo. Tambin, en este
caso por limitaciones en variedad de smbolos, las puntuaciones
atpicas moderadas, expresadas, lo han sido con un crculo () y
la extremada con un arroba (@), para su diferenciacin.

La forma, que acabamos de ver, es la que sugiere la "cabeza


de gato", pero tambin es frecuente la representacin en sentido
vertical,
en la forma que ofrecemos a continuacin aplicada
sobre el mismo conjunto de datos (si bien, las puntuaciones
atpicas no han podido ser ubicadas todas, por lo que slo
figuran representadas las que nos ha permitido la precisin del
grfico):

112

Hector Monterde i Bort - Manuel Perea Lara.

Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).

2'5
2'4
@
2'3
2'2
2'1

2'0
1'9

1'8
1'7
X
|
|
|
|
|
|
|

1'6
1'5
1'4
1'3
1'2
1'1
1'0
0'9

|
|
|
|
|
|
|
|
|
X

0'8
0'7
0'6
0'5
0'4
0'3

0'2

0'1
0'0

Tambin esta tcnica permite la comparacin de dos o ms


conjuntos de datos simultneamente, como podr haberse deducido:
0'05
|

0'20
|

0'35
|

0'50
|

x-

1991

0'65
|

0'80
|

--

--

--

--

x-

--

--

--

x --

--

--

--

0'95
|

1'10
|

1'25
|

--

--

--

--

--

--

--

--

1'40
|

--

--

--

-x

--

1'55
|

--

--

1'70
|

1'85
|

2'00
|

2'15
|

-x

--

--

--

--

-x

113

EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.

Como podr deducirse, con este tipo de representacin


grfica se puede observar con suma facilidad la asimetra (si la
lnea que indica la Mediana no aparece equidistante de los
lmites de la caja o Cuartos), as como las puntuaciones
extremas.
En el caso de que haya grandes diferencias en la
localizacin de las muestras, cabe hacer uso de diversas
tranformaciones de datos para lograr una visin global de tales
conjuntos de datos en una misma representacin grfica que ayude
a su posterior interpretacin (vase, para una ampliacin,
EMERSON Y STOTO, 1983).

114

Hector Monterde i Bort - Manuel Perea Lara.

Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).

1991

115

EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.

Captulo 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS). ...............................79


3.1.- INTRODUCCIN Y CONCEPTOS PREVIOS. .................................................81
3.2.- GRFICOS DE "TALLO-Y-HOJAS". ......................................................82
3.2.1.- INTRODUCCIN. ................................................................82
3.2.2.- DESCRIPCIN. .................................................................83
3.2.3.- VARIANDO LA CONCENTRACIN: ANCHURA DEL TALLO Y DIVISIN EN RAMAS. ............86
3.2.4.- NMERO DE "TALLOS"/"RAMAS" Y AMPLITUD DE INTERVALO

OPTIMOS. .................93

3.2.5.- PROCESO DE CONSTRUCCIN DE UN DIAGRAMA "TALLO-Y-HOJAS". ......................97


3.2.6.- PROFUNDIDAD Y DIAGRAMA DE "TALLO-Y-HOJAS". ...................................99
3.2.7.- COMPARACIN DE DOS DISTRIBUCIONES: LA VARIANTE "ESPALDA-CON-ESPALDA". .......101
3.3.- GRFICOS DE CAJA-RESUMEN. ........................................................102
3.3.1.- CAJA-RESUMEN DE "NDICES-LETRA" DE POSICIN. ................................102
3.3.2.- CAJA-RESUMEN DE "NDICES-LETRA" DE DISPERSIN. ..............................103
3.4.- GRFICOS DE "CAJA-Y-BIGOTES DE GATO". ............................................107

116

Hector Monterde i Bort - Manuel Perea Lara.

Você também pode gostar