Você está na página 1de 9

Diagrama de Tallos y Hojas

El diagrama "tallo y hojas" (Stem-and-Leaf Diagram) permite obtener simultneamente una distribucin de
frecuencias de la variable y su representacin grfica. Para construirlo basta separar en cada dato el ltimo dgito
de la derecha (que constituye la hoja) del bloque de cifras restantes (que formar el tallo).

Esta representacin de los datos es semejante a la de un histograma pero adems de ser fciles de elaborar,
presentan ms informacin que estos.

Ejemplos

Horarios de trenes
Edad de 20 personas
Comparar dos distribuciones

Horarios de trenes
Basndome en un articulo de Juan C. Drsteler en InfoVis.net, tomamos como ejemplo un horario de
trenes confeccionado a partir de un dptico de la lnea Castelldefels-Barcelona/Sants recogido en la estacin de
Renfe. Originalmente el horario ocupa una tabla de 10 filas y 9 columnas ms una columna "viuda" con el tren
de las 22:38. Un total de 91 campos con formato hh.mm cada uno, 455caracteres.

Dptico original Trayecto Castelldefels -> Barcelona-Sants

5.03 7.32 9.02 11.07 13.32 15.07 16.50 18.32 20.07 22.38
6.02 7.37 9.07 11.32 13.37 15.20 17.02 18.37 20.20
6.18 7.50 9.24 11.37 13.50 15.32 17.07 18.50 20.32
6.37 8.02 9.32 12.02 14.02 15.37 17.20 19.02 20.37
6.48 8.05 9.37 12.07 14.07 15.50 17.32 19.07 20.50
6.55 8.20 10.02 12.32 14.20 16.02 17.37 19.20 21.02
7.02 8.24 10.07 12.37 14.32 16.07 17.50 19.32 21.07
7.07 8.32 10.32 13.02 14.37 16.20 18.02 19.37 21.20
7.20 8.37 10.37 13.07 14.50 16.32 18.07 19.50 21.32
7.25 8.51 11.02 13.20 15.02 16.37 18.20 20.02 21.37

En el diagrama Stem & Leaf se representa la hora a la izquierda de la barra de separacin | y losminutos de la
salida de cada tren a la derecha. La frecuencia de los trenes se deduce fcilmente de lalongitud de las filas y
es, adems, muy fcil ver en que minutos de cada hora pasan tpicamente los mismos.

Castelldefels -> Barcelona-Sants Diagrama Stem & Leaf

05 | 03
06 | 02 18 37 48 55
07 | 02 07 20 25 32 37 50
08 | 02 05 20 24 32 37 51
09 | 02 07 24 32 37
10 | 02 07 32 37
11 | 02 07 32 37
12 | 02 07 32 37
13 | 02 07 20 32 37 50
14 | 02 07 20 32 37 50
15 | 02 07 20 32 37 50
16 | 02 07 20 32 37 50
17 | 02 07 20 32 37 50
18 | 02 07 20 32 37 50
19 | 02 07 20 32 37 50
20 | 02 07 20 32 37 50
21 | 02 07 20 32 37
22 | 38

Por otra parte, dado que a algunas horas se repite exactamente el horario de los trenes se puede reducir an
ms el tamao del grfico, sin perder informacin y ganando en claridad.

Castelldefels -> Barcelona-Sants Diagrama Stem & Leaf reducido

05 | 03
06 | 02 18 37 48 55
07 | 02 07 20 25 32 37 50
08 | 02 05 20 24 32 37 51
09 | 02 07 24 32 37
10 11 12 | 02 07 32 37
13 14 15 16 17 18 19 20 | 02 07 20 32 37 50
21 | 02 07 20 32 37
22 | 38

Al final tenemos 59 campos de 2 dgitos, 118 caracteres ms los separadores, es decir 4 veces menos
dgitos que con el horario original, menos espacio y ms claridad.

Esto nos da idea de que una disposicin apropiada de los datos puede ser doblemente informativay que la
representacin grfica puede contribuir enormemente a la percepcin de patrones y a lacomprensin de la
naturaleza de los fenmenos.

Edad de 20 personas
Supongamos la siguiente distribucin de frecuencias

36 25 37 24 39 20 36 45 31 31

39 24 29 23 41 40 33 24 34 40
que representan la edad de un colectivo de N = 20 personas y que vamos a representar mediante un diagrama de
Tallos y Hojas.
Comenzamos seleccionando los tallos que en nuestro caso son las cifras de decenas, es decir 3, 2, 4, que
reordenadas son 2, 3 y 4.
A continuacin efectuamos un recuento y vamos aadiendo cada hoja a su tallo

Por ltimo reordenamos las hojas y hemos terminado el diagrama

Comparar dos distribuciones


Podemos comparar, mediante estos diagramas, dos distribuciones. Supongamos una segunda distribucin

35 38 32 28 30 29 27 19 48 40

39 24 24 34 26 41 29 48 28 22
De ella podemos elaborar sus diagrama de Tallos y Hojas y compararla con la anterior.
Diagrama de Caja y Bigotes
Los diagramas de Caja-Bigotes (boxplots o box and whiskers) son una presentacin visual que describe varias
caractersticas importantes, al mismo tiempo, tales como la dispersin y simetra.

Para su realizacin se representan los tres cuartiles y los valores mnimo y mximo de los datos, sobre un
rectngulo, alineado horizontal o verticalmente.

Construccin:
Comparar distribuciones
Diagrama de Caja a travs de Excel

Construccin:
Una grfica de este tipo consiste en una caja rectangular, donde los lados ms largos muestran el recorrido
intercuartlico. Este rectngulo est dividido por un segmento vertical que indica donde se posiciona la mediana
y por lo tanto su relacin con los cuartiles primero y tercero(recordemos que el segundo cuartil coincide con la
mediana).
Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores mnimo y mximo de la
variable. Las lineas que sobresalen de la caja se llaman bigotes. Estos bigotes tienen tienen un lmite de
prolongacin, de modo que cualquier dato o caso que no se encuentre dentro de este rango es marcado e
identificado individualmente

EJEMPLO DISTRIBUCIN DE EDADES

Utilizamos la ya usada distribucin de frecuencias (en tallos y hojas), que representan la edad de un colectivo de
20 personas.

36 25 37 24 39 20 36 45 31 31

39 24 29 23 41 40 33 24 34 40

ORDENAR LOS DATOS

Para calcular los parmetros estadstico, lo primero es ordenar la distribucin

20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45

CALCULO DE CUARTILES

Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribucin. Como N = 20 resulta que N/4
= 5; el primer cuartil es la media aritmtica de dicho valor y el siguiente:

Q1=(24 + 25) / 2 = 24,5

Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribucin, es el valor de la variable que ocupa el
lugar central en un conjunto de datos ordenados. Como N/2 =10 ; la mediana es la media aritmtica de dicho
valor y el siguiente:

me= Q2 = (33 + 34)/ 2 =33,5


Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribucin. En nuestro caso, como 3N
/ 4 = 15, resulta

Q2=(39 + 39) / 2 = 39

DIBUJAR LA CAJA Y LOS BIGOTES

El bigote de la izquierda representa al colectivo de edades ( Xmn, Q1)


La primera parte de la caja a (Q1, Q2),
La segunda parte de la caja a (Q2, Q3)
El bigote de la derecha viene dado por (Q3, Xmx).

INFORMACIN DEL DIAGRAMA


Podemos obtener abundante informacin de una distribucin a partir de estas representaciones. Veamos alguna:

La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que las edades comprendidas
entre el 25% y el 50% de la poblacin est ms dispersa que entre el 50% y el 75%.
El bigote de la izquierda (Xmm, Q1) es ms corto que el de la derecha; por ello el 25% de los ms jvenes
estn ms concentrados que el 25% de los mayores.
El rango intercuartlico = Q3 - Q1 = 14,5; es decir, el 50% de la poblacin est comprendido en 14,5 aos.

Seguro que t podrs obtener ms informacin (Utiliza la mediana!)

Comparar distribuciones
La mayor utilidad de los diagramas caja-bigotes es para comparar dos o ms conjuntos de datos.

Comparacin distribucin de edades


Comparacin entrenamientos de un corredor
Comparacin clasificacin liga

COMPARACIN DISTRIBUCIN DE EDADES

Anlogamente a lo realizado con los diagramas de tallo y hojas, comparamos, mediante estos diagramas, esta
distribucin con la del otro ejemplo de distribucin de edades.

35 38 32 28 30 29 27 19 48 40

39 24 24 34 26 41 29 48 28 22
A partir de dicha comparacin puede obtenerse bastante informacin de ambas distribuciones.

COMPARACIN ENTRENAMIENTOS DE UN CORREDOR

Un corredor entrena para una determinada carrera y se toman los tiempos que necesita para recorrer los 200 m,
durante 10 das consecutivos (cada da se toman varios tiempos y se calculan mediana, cuartiles, valores mnimo
y mximo)

Observamos que el desplazamiento de las grficas de caja hacia la izquierda indica que el entrenamiento ha dado
resultado, ya que se tardan menos segundos en recorrer la misma distancia, siendo la diferencia entre el mximo
y el mnimo menor, como as tambin la diferencia intercuartlica.
COMPARACIN CLASIFICACIN LIGA

Las puntuacin de los equipos de la liga de futbol BBVA de las temporadas 10/110 y 11/12 se pueden comparar
con un diagrama caja y bigotes, como aparece aqu,

Comparacin de tres ligas europeas de futbol de la temporada 11/12


CONSTRUIR PIRMIDE DE POBLACIN

Enunciado:
Dibujar la pirmide de poblacin de Catalunya, 1940, y comentar el resultado, a partir de los siguientes
datos:

Solucin:

El primer paso es convertir las frecuencias en porcentajes respecto al total. En otras palabras, a partir
de la distribucin en nmeros absolutos vamos a obtener la estructura. En este sitio tienes tambin
una entrada sobre el concepto de estructura en demografa.
Por tanto, para saber cul es el nmero total de habitantes, hay que sumar todos, de ambos sexos y de
todas las edades, con lo que se obtiene 2.889.966;

A continuacin se calcula la tabla completa de porcentajes, dividiendo el nmero de cada sexo y edad
por el total de la poblacin (p.Ej. los hombres de 0-4 aos son 86.169/ 2.889.966= 3,0%):

(Ntese que se divide cada valor por el total de la poblacin, no por el total de su sexo. De esta segunda
manera, si se dividiese nicamente por el total de cada columna (es un error muy frecuente hacerlo as),
las dos partes de la pirmide, la derecha y la izquierda, tendran la misma superficie y no resultara visible
el mayor peso femenino: fjate que las mujeres no son el 50%, sino el 53,2% del total)
Una vez calculados los porcentajes, en caso de que los intervalos de edad tuviesen la misma amplitud,
ya podra dibujarse un grfico de barras, situando a la hizquierda los hombres y a la

derecha las mujeres.


Las proporciones del grfico deben ser aproximadas a 2 x 3 (alto x ancho)

Sin embargo, en este caso, los intervalos son diferentes, y puede incurrirse en un grave error si el grfico
construido adopta la forma de la derecha. En los 40-59 hay 20 edades simples, mientras que en los 60-
64 aos slo hay cinco, de manera que la impresin visual slo refleja la mayor o menor agregacin de
edades.

Por tanto, para una correcta representacin grfica de los datos, primero debe reconstruirse la tabla de
porcentajes, distribuyndolos en intervalos de edad iguales.

Como en este caso el intervalo menor es de cinco aos, se es el intervalo que conviene utilizar. La tabla
reconstruida, y la pirmide resultante, adoptan la siguiente forma:

Ahora s, la forma de la pirmide cumple su funcin informativa. Resulta visible la disminucin de la


natalidad provocada por la recin acabada guerra civil, as como la inusual relacin de masculinidad en
las edades jvenes y adultas, producto de la sobremortalidad masculina provocada por la propia guerra.
No obstante, an existe una incorreccin en la grfica, provocada por el grupo abierto 65 i ms: su
peso se ha representado en un intervalo de cinco aos. El resultado es el tpico gorro de las pirmides,
el error grfico ms comn en estudios y publicaciones.

En este caso la solucin pertenece ms a la cocina demogrfica que a un mtodo estadstico riguroso.
Consiste en redistribuir el peso de dicho grupo en varios intervalos adicionales, haciendo que la forma
de la pirmide resulte coherente. Es nicamente el sentido comn el que guiar dicha redistribucin,
aunque la prctica y el conocimiento de la poblacin representada son una buena ayuda.

En este caso, para que la pirmide tenga este aspecto aceptable, se han repartido los porcentajes de 65
y ms de la siguiente manera (arbitraria, pero de buen resultado en el grfico):

Você também pode gostar