Escolar Documentos
Profissional Documentos
Cultura Documentos
SISTEMAS DE
REPRESENTACIN
GRFICA (UNIVARIADOS).
1991
79
80
3.1.- INTRODUCCIN
PREVIOS.
CONCEPTOS
Consecuentemente
con
las
caractersticas
e
ideas
propugnadas por este enfoque, del Anlisis Exploratorio de
Datos,
las
representaciones
grficas
constituyen
su
caracterstica ms distintiva, por su singularidad y por la
importancia que este enfoque les otorga, ya que estn a la base
de los principios que han levantado a este enfoque ("mirar los
datos....", explorar,...).
La importancia concedida por el enfoque del A.E.D. a las
tcnicas grficas, en respuesta a la limitacin mostrada por el
enfoque "clsico" para resumir ptimamente conjuntos de datos
cuando stos no se ajustan a un modelo terico, ha provocado el
desarrollo de nuevas tcnicas grficas, por los defensores del
enfoque del A.E.D., con el objetivo de encontrar el mejor
sistema de "resumir" un conjunto de datos. Y aunque falta una
perspectiva histrica que lo confirme, hoy por hoy posiblemente
las tcnicas desarrolladas por el A.E.D. constituyan las
posiciones ms cercanas a dicho objetivo.
En este captulo sern presentadas y descritas estas
tcnicas, especialmente las denominadas con los imaginativos
nombres de "Tallo-y-Hojas" (Stem-and-Leaf ) y "Caja-y-Bigotesde-gato" (Box-and-Whiskers ), junto con los conceptos bsicos
con ellas relacionados.
No obstante, antes de pasar a su descripcin, conviene
aclarar otra equivalencia utilizada en el enfoque A.E.D.
respecto a la estadstica "clsica". Se trata del concepto de
conjunto de datos (batch) utilizado en sustitucin de muestra,
que es el trmino utilizado por la estadstica "clsica". Esta
diferenciacin, al igual que ocurre con otras equivalencias, no
es gratuita, pues aunque ambas se refieren a lo mismo, a los
datos
obtenidos,
la
diferencia
terminolgica
justifica
diferencias prcticas e incluso tericas, como es, en este caso,
que el concepto de "muestra" tradicionalmente incluye las
asunciones
o
supuestos
de
independencia
y
de
idntica
1991
81
3.2.- GRFICOS
HOJAS".
DE
"TALLO-Y-
3.2.1.- INTRODUCCIN.
El grfico de "Tallo-y-Hojas", ideado por Tukey (1972,
1977) y con un precedente en Dudley (1946), es una especie de
hbrido entre Histograma y Tabla de Distribucin de Frecuencias
en el que las lneas o barras se construyen con los propios
datos. Frente al Histograma presenta la ventaja de que los datos
originales no se pierden.
Consiste en una organizacin de los nmeros grficamente
que permite visualizar y tener el conjunto de datos completo a
la vez que observar las caractersticas ms importantes de la
distribucin, como:
- La forma
distribucin.
el
grado
aproximado
de
simetra
de
la
82
II)
3.2.2.- DESCRIPCIN.
La elaboracin de un grfico o representacin de "Tallo-yHojas" bsicamente consiste en separar los dgitos o posiciones
que ocupa cada uno de los valores del conjunto de datos en dos
partes, de equivalentes posiciones. Trazando una raya vertical,
la parte izquierda de cada uno de los valores (de idnticas
posiciones o con el mismo nmero de dgitos) se colocan a la
izquierda de dicha raya, ordenados de menor a mayor empezando
por arriba, constituyendo esta parte los que sern llamados
"Tallos" y que equivaldran a las Clases en una tabla de
distribucin de frecuencias clsica, por lo que sern nicos (si
1991
83
344556789
15
37
0
84
diagrama
de
es:
1991
85
0
1
2
3
4
344556789
15
37
0
86
1991
87
100
101
127
016
(Unidad = 1)
pasar a:
10
01 02 07 10 11 16
10
01 02 07 10 11 16
(Unidad = 1)
pasar a:
100
101
127
016
88
Obsrvese que en el primer caso, el "tallo 100" recoge todos los valores
comprendidos entre 1000 y 1009 inclusives, por lo que la amplitud de intervalo
es, suponiendo una variable continua para facilitar la comprensin,
AI=1009'5-999'5=10. En el segundo caso, el "tallo 10" recoge todos los valores
comprendidos entre 1000 y 1099 inclusives, por lo que, suponiendo variable
continua, la AI=1099'5-999'5=100.
II)
100
101
127
016
(Unidad = 1)
pasar a:
100 *
100
101 *
101
12
7
01
6
recoge los valores comprendidos entre 1000 y 1004 inclusives, por lo que,
suponiendo una variable continua para facilitar la comprensin, la AI=1004'5999'5=5.
1991
89
100
101
1278
012469
(Unidad = 1)
pasar a:
100 *
100 t
100 f
100 s
100
101 *
101 t
101 f
101 s
101
1
2
7
8
01
2
4
6
9
recoge los valores comprendidos entre 1000 y 1001 inclusives, por lo que,
suponiendo una variable continua para facilitar la comprensin, la AI=1001'5999'5=2.
90
unidad expresada
n
n de filas por tallo * 10
digitos en hojas
1991
91
92
Frecuencias absolutas
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
9'8
9'9
10'0
10'1
10'2
10'3
10'4
10'5
10'6
10'7
10'8
10'9
11'0
11'1
11'2
11'3
11'4
11'5
11'6
11'7
11'8
11'9
12'0
12'1
12'2
12'3
12'4
12'5
Un primer desarrollo
podra ser el siguiente:
del
diagrama
de
"Tallo-y-Hojas",
(Unidad = 0'1)
0
1
98 99
00 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
1991
93
9
10
11
12
89
0123456789
0123456789
012345
9*
9
10 *
10
11 *
11
12 *
12
89
01234
56789
01234
56789
01234
5
94
9*
t
f
s
9
10 *
t
f
s
10
11 *
t
f
s
11
12 *
t
f
s
12
89
01
23
45
67
89
01
23
45
67
89
01
23
45
Finalmente,
si
decidiramos
eliminar
los
decimales,
aplicando la estrategia de truncamiento de los valores, que es
la ms frecuentemente aconsejada, la representacin "Tallo-yHojas" podra quedar as, en una de sus formas posibles:
(Unidad = 1)
1991
95
0*
t
f
s
0 9 9
1* 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
t 222222
f
s
1
La referencia unidad=1
indicar que los valores son
enteros. Por lo que las "hojas" sern las unidades respectivas
de los valores truncados (el "tallo" lo constituirn las
decenas).
96
N]
1991
97
Fmax = [2
N].
98
10
n de dgitos hojas -1
dgitos hojas
Ir10
1
= unidad * 10
dgitos hojas
Ir10
2
= 5 * unidad *
dgitos hojas
Ir10
5
= 2 * unidad *
1991
99
2(AIC)
N1/3
siendo:
AIC la Amplitud Inter-Cuartil, o su
equivalente aqu la Amplitud Entre-Cuartos
(AEC), y N el nmero de datos, frecuencias
o casos;
de cuya eficacia prctica no podemos an dar cuenta.
Veremos a continuacin, en
ejemplo
prctico
del
proceso
representacin de "Tallo-y-Hojas".
el siguiente apartado, un
de
construccin
de
una
DE
0'09
0'96
1'21
1'01
1'04
1'34
1'85
0'90
1'66
1'08
2'37
1'05
1'12
1'24
1'05
0'81
1'02
1'05
1'04
1'19
0'10
1'16
2'01
1'98
0'13
0'67
1'27
1'06
1'06
1'10
0'23
0'56
1'87
0'99
0'31
1'05
1'06
1'07
1'29
1'37
1'52
0'56
0'89
1'03
0'42
100
Para representar estos valores en un grfico de "Tallo-yHojas", seguiremos los siguientes pasos.
2) Calcular
"ramas"):
el
- segn
nmero
mximo
de
filas
("tallos"
y/o
16
- y segn
ATe
2'37 - 0'09
2'28 _
=
=
Imin = F
~ 0'14
16
16
max
2'37 _
14 ~ 0'16
- y segn
Imin =
2(AEC)
N1/3
2(1'24 - 0'89)
0'7
= 3'68 _
~
501/3
0'19
1991
101
Amplitud
Intervalo
Expresado en
potencias de 10: Ir10
N de filas/"ramas"
por tallo
...
]0'05,0'1]
...
0'1
...
...
1
]0'1,0'2]
0'2
2*10-1
]0'2,0'5]
0'5
]0'5,1]
5*10-1
1 100
]1,2]
]2,5]
2*100
5 100
1*10-1
1
2
]5,10]
10
1*101
]10,20]
20
2*101
]20,50]
50
]50,100]
100
5*101
1 102
...
...
*
...
1
...
En
el
ejemplo
que
estamos
viendo,
procedimientos llevaran a un Imin de 0'2.
los
tres
al que se ha redondeado,
filas a realizar, segn la
tabla anterior. En nuestro
102
0*
t
f
s
0
1*
t
f
s
1
2*
t
f
s
2
09 10 12 13
23 31
42 56 56
67 75
81 89 90 91 96 99
01 02 03 04 04 05 05 05 05 06 06 06 07 08 09 10 12 16 19
21 24 27 29 34 37
52
66
85 87 98
01 07
37
3.2.6.- PROFUNDIDAD Y
"TALLO-Y-HOJAS".
DIAGRAMA
DE
3
(2)
3
1
0
1
2
3
4
799
34
23
0
1991
103
2
4
4
2
1
0
1
2
3
4
23
56
12
0
1
104
3.2.7.- COMPARACIN
DE
DOS
DISTRIBUCIONES:
LA
VARIANTE
"ESPALDA-CON-ESPALDA".
El mtodo grfico de "Tallo-y-Hojas" puede ser empleado
tambin para comparar dos distribuciones o conjuntos de datos,
con lo que sus posibilidades se ven incrementadas.
En este caso lo que se hace es utilizar una serie de Tallos
comunes para las dos distribuciones, con la misma unidad y los
mismas amplitudes de intervalo, representando cada conjunto de
datos a cada lado de la columna de los Tallos. Como podr
apreciarse en el siguiente ejemplo:
(Unidad
09
28 32
40 49 55 59
66 78 78 78 78
88 90 90 92 94 96 99
08 09 15 18 18
21 27 27 32 38 38
42 42 46 54
62 66 75
88 90
01 01 11
20 20 25
40 40
64 69
82
*
t
f
s
*
t
f
s
*
t
f
s
0 *
t
f
s
0
1 *
t
f
s
1
2 *
t
f
s
2
0'01)
09 10 12 13
23 31
42 56 56
67 75
81 89 90 91 96 99
01 02 03 04 04 05 05 05 05 06 06 06 07 08 09 10 12 16 19
21 24 27 29 34 37
52
66
85 87 98
01 07
37
1991
105
3.3.1.- CAJA-RESUMEN
DE
LETRA" DE POSICIN.
"NDICES-
106
PC
Ci
Cs
PE
Ei
Es
sera el siguiente:
#
M
50
25'5
13
0'89
1'24
0'09
2'37
1'05
3.3.2.- CAJA-RESUMEN
DE
LETRA" DE DISPERSIN.
"NDICES-
1991
107
fi
menos un Paso).
Superior = fs
ms un Paso).
Ci - 1*Paso
(Cuarto inferior
Cs + 1*Paso
(Cuarto superior
Ci - 2*Paso
(Cuarto inferior
Cs + 2*Paso
(Cuarto superior
ms dos Pasos).
A los que se puede aadir los:
c) Valores Adyacentes (VA):
que constituyen los dos
valores existentes (superior e inferior) en el
conjunto de datos que estn respectivamente ms
cercanos a la fronteras interiores, sin rebasarlas
(aunque pueden coincidir con ellas). Dado que los
valores que constituyen fronteras, al igual que los
cuantiles, pueden no coincidir con alguno de los
valores obtenidos que forman el conjunto de datos.
108
inferior
o por encima (o mayores) de la frontera
superior. Es decir, ms all del segundo paso.
exterior
fi
#PAMi
Fi
#PAEi
VAs
fs
#PAMs
Fs
#PAEs
Siendo:
y VAs : Respectivos valores Adyacentes, inferior y
VAi
superior.
fi y fs : Respectivas Fronteras Interiores, inferior y
superior.
#PAMi :
Nmero de valores existentes en el conjunto de
#PAMs
Fi
superior.
#PAEi :
Nmero de valores existentes en el conjunto de
#PAEs
1991
109
y 2'37.
7) Elaborar
el
diagrama,
que
aprovechando
informacin disponible quedara de la siguiente forma:
toda
la
0'525
VA
f
0'09,0'10,0'12,0'13,0'23,0'31
F
0'42
0'365
6
0
0
1'66
1'765
5
2'29
1
1'85,1'87,1'98,2'01,2'07
2'37
110
3.4.- GRFICOS
DE
BIGOTES DE GATO".
"CAJA-Y-
1991
111
0'05
|
0'20
|
oo oo
0'35
|
x -
0'50
|
--
0'65
|
--
--
0'80
|
--
--
0'95
|
1'10
|
1'25
|
--
1'40
|
--
--
1'55
|
--
--
1'70
|
--
-x
1'85
|
oo
2'00
|
o oo
2'15
|
2'30
|
112
2'5
2'4
@
2'3
2'2
2'1
2'0
1'9
1'8
1'7
X
|
|
|
|
|
|
|
1'6
1'5
1'4
1'3
1'2
1'1
1'0
0'9
|
|
|
|
|
|
|
|
|
X
0'8
0'7
0'6
0'5
0'4
0'3
0'2
0'1
0'0
0'20
|
0'35
|
0'50
|
x-
1991
0'65
|
0'80
|
--
--
--
--
x-
--
--
--
x --
--
--
--
0'95
|
1'10
|
1'25
|
--
--
--
--
--
--
--
--
1'40
|
--
--
--
-x
--
1'55
|
--
--
1'70
|
1'85
|
2'00
|
2'15
|
-x
--
--
--
--
-x
113
114
1991
115
OPTIMOS. .................93
116