Você está na página 1de 32

CAPTULO 5

MEDIDAS DE DISPERSIN
Al estudiar caractersticas o variables de una poblacin o muestra, siempre se manifiestan discrepancias o diferencias en los resultados individuales de las observaciones. La variabilidad es algo inherente a cada fenmeno aleatorio, y origina en ellos cierta homogeneidad o heterogeneidad, segn que las discrepancias o diferencias sean pequeas o grandes. A este grado de variabilidad, de diferencia entre observaciones es a lo que se llama dispersin. Ocurre entonces, cuando se quiere asignar un nmero a cada grado de variabilidad, que surgen diferentes medidas de dispersin. Las definiciones de estas medidas se pueden establecer entre valores determinados de la muestra de datos o entre todos los valores y un valor de referencia, que suele ser una medida de tendencia central, como la media aritmtica o la mediana, con el propsito de que la medicin se vea poco influenciada por las propias unidades de medida de los valores cuya dispersin se desea estimar. Se pueden reconocer al menos dos tipos generales de medidas de dispersin. Por ejemplo, Fernndez y Fuentes (1995) sugieren distinguir entre dos tipos de medidas de dispersin. A las medidas de dispersin expresadas en trminos de la misma unidad de medida que los datos, se las llaman medidas de dispersin absoluta, y a las que se expresan de manera adimensional, es decir, de manera independiente a las unidades de medicin, las llaman medidas de dispersin relativa. El reconocimiento de la existencia de la variabilidad como punto de partida para el estudio de la aleatoriedad y la construccin de modelos estadsticos, hace que las medidas de dispersin sean necesarias para efectuar comparaciones significativas entre grupos de observaciones. De hecho, cuando se mide la dispersin de los valores de una variable respecto a una de sus medidas de tendencia central, se est midiendo el grado de representatividad que dicha medida de tendencia central tiene respecto al conjunto de datos que pretende resumir. As

133

CURSO BSICO DE ESTADSTICA DESCRIPTIVA

pues, a mayor dispersin se tendr una menor representatividad de la medida de posicin y viceversa. Adems, la medicin con este tipo de medidas debe ser no negativa y consonante con el nivel de dispersin en el sentido de que valores pequeos del estadgrafo en uso deben reflejar un nivel bajo de dispersin y viceversa. Esta cuestin de la representatividad se puede precisar un poco ms con un ejemplo. Suponga que en el estudio de dos grupos de familias A y B, de quince familias cada grupo, la distribucin del nmero de hijos se tiene como se muestra en la siguiente tabla.
Grupo A Nmero de hijos Frecuencia xi fi 1 2 2 11 3 2 Total 15 Grupo B Nmero de hijos Frecuencia xi fi 0 7 2 1 4 7 Total 15

Tabla 20. Nmero de hijos en dos grupos de quince familias

Se puede observar que en ambos grupos la media aritmtica del nmero de hijos es dos. Entonces a primera vista se puede afirmar que el comportamiento de los dos grupos es el mismo respecto al nmero de hijos. Sin embargo, es evidente que el grupo B, presenta los datos ms dispersos que el grupo A. Por lo tanto la media aritmtica es ms representativa de lo que sucede en el grupo A, ya que en ste los resultados se apartan menos de la media aritmtica que en el grupo B. Como se acaba de ver en el ejemplo anterior la media aritmtica caracteriza mejor al grupo A de familias que al B, respecto al nmero de hijos. En general, para caracterizar una distribucin de frecuencias, las medidas de tendencia central se deben acompaar de una medida de dispersin que ponga de manifiesto el grado de representatividad del conjunto de datos. Algunos ejemplos de medidas de dispersin son el recorrido, la desviacin media, la desviacin estndar, el rango medio, la desviacin

134

MEDIDAS DE DISPERSIN

intercuartlica, la varianza y el coeficiente de variacin. En lo que sigue, primero se har una descripcin de las medidas dispersin absoluta que son ms utilizadas, luego se comentar algunas de las principales medidas de dispersin relativa, y finalmente se presentar una serie de ejemplos, para ilustrar el clculo y utilizacin de las mismas. RECORRIDO (Re) El recorrido o rango de dispersin (Re), se define como la diferencia entre el valor mximo y el valor mnimo de los datos. Aunque se considera que es una medida imperfecta, cuando es razonable suponer que los datos se distribuyen de manera uniforme, entonces se espera que si, por ejemplo, el mnimo y el mximo estn comprendidos entre 3 y 26, los datos presentarn ms alejamiento mutuo que si los mismos datos estn comprendidos entre 13 y 19, cuya diferencia es menor. De todas maneras el rango tiene la ventaja de ser muy fcil de calcular y es recomendable tenerlo en cuenta cuando hay pocos datos por analizar. Sin embargo, el hecho de depender exclusivamente del mximo y el mnimo, puede ocasionar el que no refleje de manera apropiada la dispersin de una distribucin de datos, cuando se tiene una buena cantidad de datos con valores intermedios. Adems, no es posible su aplicacin en los casos en que alguno de los valores, mximo o mnimo, como ocurre en ocasiones, quede indeterminado. Este tipo de inconvenientes ponen de manifiesto la necesidad de considerar otras medidas de dispersin. Por ejemplo, cuando los valores prximos al mximo y el mnimo de una serie de datos estn excesivamente alejados del resto, la consideracin de un recorrido ms corto, prescindiendo de un porcentaje determinado de los datos ms alejados, puede dar una idea de la dispersin del conjunto de datos ms acorde con la realidad, que si se emplea la diferencia entre los valores ms extremos. Por ello, alternativas que algunas veces se contemplan son el intervalo intercuartlico (Q3 Q1), el interdeclico (D9 D1) o el intercentlico (P99 P1).

135

CURSO BSICO DE ESTADSTICA DESCRIPTIVA

DESVIACIONES MEDIAS La suma de todas las desviaciones respecto a la media aritmtica de una distribucin de frecuencias, como se seal en el captulo anterior, vale cero. Por lo tanto, la media aritmtica de dichas desviaciones no sirve para medir la dispersin de los valores de una variable. Sin embargo al considerar el valor absoluto de las desviaciones respecto a una medida de tendencia central como la media aritmtica o la mediana, permite definir tres tipos de desviaciones que se comentan enseguida.

Desviacin media
La desviacin media es la media aritmtica de los valores absolutos de los datos respecto de la media aritmtica. Con datos agrupados se puede escribir as:
D x =
1 N

xi x f
i =1

Donde se tienen k valores diferentes de los datos o k intervalos de clase, segn que la variable considerada sea discreta o continua, y N es el total de datos. Para datos sin agrupar se considera que n es el total de datos y se expresa as:
D x =
1

ni

xi x
=1

Respecto a la desviacin media es apropiado sealar que al considerar la funcin D(u) =


1

ni

x i u asociada a los posibles promedios de los


=1

valores absolutos de la desviaciones respecto a u, se puede demostrar (ver por ejemplo, Cansado (1967)) que el punto en que se minimiza esta funcin es en el valor de la mediana. Por ello, si se usan desviaciones medias para cuantificar la dispersin, quizs sea preferible utilizar el promedio de los valores absolutos de las desviaciones respecto a la mediana, medida que se pasa a considerar enseguida.

136

MEDIDAS DE DISPERSIN

Desviacin media respecto a la mediana


La desviacin media respecto a la mediana es la media aritmtica de los valores absolutos de las desviaciones de los datos respecto a la mediana y se puede expresar para datos agrupados como:
D
Me

1 N

xi Me f
i =1

Y para datos sin agrupar se expresa como:


D
Me

ni

x i Me
=1

Las letras k, N, n, etctera, tienen la misma interpretacin que en el caso de la desviacin media.

Desviacin mediana
La desviacin mediana se define como la mediana de la distribucin cuyos valores son las desviaciones, en valor absoluto, de los datos respecto a la mediana. Por ejemplo, si los valores de una variable son 2, 4, 8, 11, 13, 17 y 21, su mediana es Me = 11. De manera que los valores absolutos de las desviaciones respecto a la mediana son 0, 2, 3, 6, 7, 9 y 10, cuya mediana es 6, por lo tanto la desviacin median es 6. La interpretacin que se le puede dar a la desviacin mediana es similar a la que se le puede dar a la desviacin intercuartlica (Q3 Q1), en el sentido de recoger la variacin entre el 50% de los datos intermedios. En realidad, cuando la distribucin es simtrica, ambas medidas coinciden. VARIANZA (S2) La varianza es una de las medidas de dispersin ms mencionadas en la literatura estadstica. En realidad de todas las medidas de dispersin la varianza y la desviacin estndar (que se presenta en el siguiente apartado), son las ms importantes para un desarrollo terico de la estadstica. El propsito de la varianza es medir la mayor o menor

137

CURSO BSICO DE ESTADSTICA DESCRIPTIVA

dispersin de los valores de una distribucin de datos respecto a la media aritmtica. Cuanto mayor sea la varianza mayor dispersin existir y por tanto menor representatividad se podr atribuir a la media aritmtica. En trminos agrupados la varianza se define como:
1 N

( xi x ) n
i =1

Y para datos sin agrupar, se define as:


S2 =
1

ni =1

n 2 ( xi x )

Quizs el principal problema con la varianza es que su valor no se exprese en las mismas unidades que la variable analizada, sino elevada al cuadrado, lo cual dificulta su interpretacin. No obstante, debido a sus propiedades matemticas la varianza goza de excelente reputacin. Algunas de las propiedades que se pueden destacar de la varianza son las siguientes: Si se considera la funcin de variable real definida como F(u) =
1 N i =1

k 2 ( x i u ) ni se tiene que valor donde es mnima para u es

la media aritmtica. Por la manera cono est definida, una suma de cuadrados, nunca es negativa y slo puede ser nula cuando todos los valores son iguales. Adems, si yi = k.xi + c entonces S 2 = k 2 S 2 y x La siguiente igualdad tambin se utiliza con frecuencia
1 N

( xi u ) n =
i
i =1

1 N

( xi ) 2 ni ( x )
i =1

138

MEDIDAS DE DISPERSIN

DESVIACIN ESTNDAR (S) Ya se ha dicho que la varianza no viene expresada en las mismas unidades de medida que las de los datos. Sin embargo, la raz cuadrada de la varianza nos lleva a la desviacin estndar tambin conocida como desviacin tpica. Se define como la raz cuadrada con signo positivo de la varianza. En su versin para datos agrupados, se presenta as:
S = + S2 = +
1 N

( xi x ) n
i =1

Y para datos sin agrupar as:


S= 1 n 2 (x x) n i =1 i

La desviacin estndar es la ms utilizada entre las medidas de dispersin y satisface las mismas propiedades que se mencionaron para la varianza. Sin embargo, otra propiedad, no mencionada antes, que es interesante y relevante mencionar, se deduce a continuacin. Suponga que x1, x2, , xn, es una coleccin de valores numricos de los datos de una distribucin. Entre todas las diferencias ( x i x ) 2 para i =1,2, , n seleccione todas aquellas diferencias cuyos valores xi verifiquen la desigualdad xi x k , donde k designa un nmero positivo. Ahora suponga que ( x i1 x ) 2 , ( x i 2 x ) 2 ,, ( x ip x ) 2 son las p cantidades que satisfacen la desigualdad. Entonces
S2 =
1

n i =1

n 2 ( xi x )

p 2 ( xij x )
j =1

Por otra parte, como xij x k para j = 1,2, , p, se tiene entonces que
xij x
2

p k 2 y por lo tanto ( xij x )2


j =1

p 2 2 k = pk , por lo tanto
j =1

139

CURSO BSICO DE ESTADSTICA DESCRIPTIVA

ni

( xi x )
=1

( xij x )
j =1

p n

Ntese que el cociente p/n que aparece al final de la desigualdad representa la frecuencia relativa de los xi tal que x i x k . Si p/n se denota ms bien como fr ( xi x k ) , entonces se tiene que
S2 k2

fr ( xi x k )

Pero dado que en una distribucin de frecuencias se satisface la igualdad fr ( xi x k ) + fr ( xi x < k ) = 1, entonces se llega a:
fr ( xi x < k ) 1 S2 k2

Si ahora se elige el valor de k como tS2, la desigualdad anterior se transforma en la siguiente:


fr ( xi x < tS ) 1
2

1 t2

La desigualdad obtenida se puede ver como la interpretacin frecuencial de la llamada desigualdad de Tchevichev utilizada en estadstica matemtica y teora de la probabilidad. Para este caso le da el siguiente sentido a la desviacin estndar: la proporcin de datos que caen en el intervalo ( x tS , x + tS ) es a lo menos 1 (1/t2). Por ejemplo, la proporcin de datos incluidos en el intervalo ( x 2 S , x + 2 S ) es al menos 1 (1/22) = , es decir, del 75% del total; mientras que los datos que caen en el intervalo ( x 3S , x + 3S ) es como mnimo del 1 (1/32)= 8/9 = 0,88, que equivale al 88%. Se ve pues, que la desviacin estndar es una medida bastante precisa de la dispersin de los datos en torno a la media aritmtica de la distribucin y por ello goza de tanta reputacin.

140

MEDIDAS DE DISPERSIN

Para finalizar, se tiene que la desviacin estndar siempre dar un valor mayor o igual al de la desviacin media, puesto que la media cuadrtica de las observaciones xi x es mayor o igual que la media aritmtica de stas, es decir D S .
x

COEFICIENTE DE VARIACIN MEDIA DE PEARSON (CVX) Todas las anteriores medidas de dispersin que fueran consideradas antes, son medidas de dispersin absoluta, ya que se expresan en trminos de la unidad que se utiliza para hacer mediciones. Las medidas de dispersin relativa, evaden este problema al considerar cocientes entre una medida de dispersin absoluta (excepto la varianza) y una medida de tendencia central. En este sentido el coeficiente de variacin media de Pearson, indica la relacin existente entre la desviacin tpica de una muestra y su media, ya que se define como:
CVx = S X

Al dividir la desviacin tpica por la media se convierte la medicin en un valor libre de la unidad de medida. As pues, si comparamos la dispersin en varios conjuntos de observaciones, el que tenga menor dispersin ser el que tenga menor coeficiente de variacin. Este coeficiente es quizs el ms importante y fiable de las medidas de dispersin relativa, entre otras razones por venir expresado en trminos de dos estadsticas bien reconocidas que en general son objetivas y representativas de un conjunto de datos. Adems, permite comparaciones de variacin de conjuntos de datos expresados en diferentes unidades de medida. El principal inconveniente del coeficiente de variacin media de Pearson (y de otros coeficientes definidos de manera similar), es que al ser un coeficiente inversamente proporcional a la media aritmtica,

141

CURSO BSICO DE ESTADSTICA DESCRIPTIVA

cuando sta tome valores cercanos a cero, a menos que se lleve a cabo un cambio de origen en los datos. OTROS COEFICIENTES DE DISPERSIN RELATIVA Como ya se dijo, los coeficientes de variacin relativa se definen como cocientes entre medidas de dispersin absoluta y una medida de tendencia central. Las medidas de tendencia central ms utilizadas para ello, son la mediana y la media aritmtica, mientras que las ms utilizadas como medidas de dispersin absoluta son la desviacin estndar o los recorridos intercuartlicos. A continuacin se presentan las definiciones de otros coeficientes de variacin relativa, que se pueden tener en cuenta en la prctica del anlisis de datos.

Coeficiente de variacin mediana


El coeficiente de variacin mediana, VMe, se define como el cociente entre la desviacin estndar y la mediana.
V =

S Me

Me

Intervalo intercuartlico relativo


El intervalo intercuartlico relativo tambin llamado razn intercuartil, IQ, se define como el cociente entre la desviacin estndar y la mediana.
I =

Q3 Q1 Me

Desviacin cuartlica relativa


La desviacin cuartlica relativa, DQ, a diferencia del anterior, en vez de el recorrido intercuartlico, propone la utilizacin de la desviacin intercuartlica, dividido por la mediana.
D =

Q3 Q1 2 Me

142

MEDIDAS DE DISPERSIN

Coeficiente de variacin cuartlica


El coeficiente de variacin cuartlica, VQ, se define como el cociente entre la desviacin cuartlica Q = (Q1 Q3)/2 y la media aritmtica de los cuartiles primero y tercero, (Q1 + Q3)/2.
Q3 Q1 V = Q Q +Q 3 1

Si se tiene en cuenta que la desviacin tpica es la ms fiable medida de dispersin absoluta, usualmente resulta preferible el uso del coeficiente de variacin mediana, al compararse con los otros tres coeficientes referidos en este apartado. EJEMPLOS

Ejemplo 1. Altura de unas palmeras


Las alturas de 5 palmeras son 4 metros, 6 metros, 10 metros, 8 metros y 20 metros. Si las medidas se cambian a decmetros, cmo cambiar la desviacin estndar? a. Aumentar en 10 b. Disminuir en 10 c. Aumentar en un factor de 10 d. Disminuir en un factor de 10 e. No cambiar Discusin. Este tem pretende valorar si se reconoce la manera como se afecta la desviacin estndar cuando se introduce un cambio en la escala de los datos y en este caso la respuesta correcta es la opcin (c). Los distractores (a) y (b), expresan que el cambio en la escala de los datos tiene un efecto aditivo., lo cual es falso. La opcin (d) aunque sugiere que si hay un cambio multiplicativo no se reconoce el sentido
143

CURSO BSICO DE ESTADSTICA DESCRIPTIVA

correcto en que se da. Y por ltimo, la eleccin de la opcin (e) sugiere que se piensa equivocadamente, en que la desviacin estndar es invariante ante cambios de escala.

Ejemplo 2. Trabajo perdido en una empresa


Durante los ltimos veinte das laborables, el nmero total de horas de trabajo perdidas diariamente en una empresa de cien obreros viene dada por los datos: 1, 3, 1, 1, 2, 4, 2, 2, 1, 2, 800, 6, 8, 400, 1, 5, 4, 6, 3, 1. a. Si se supone que la jornada laboral es de ocho horas diarias, qu porcentaje medio de horas se han perdido en esos das? b. Encuentre la desviacin absoluta media, y la desviacin media respecto a la mediana y con base en esta informacin valore, entre la media y la mediana, cul de ellas es ms representativa de la tendencia central de los datos. Discusin. En esta empresa el nmero de horas diarias de trabajo corresponde a 100 x 8 = 800. Si se denota con xi el nmero de horas de trabajo perdidas en un da i, el cociente xi/800 representa la proporcin de horas de trabajo en ese da. Tambin se puede expresar xi/800 en trminos porcentuales multiplicando por 100. As, (100xi)/800 = xi/8 %. En la tabla que sigue se organiza la informacin de los datos suministrados
Horas perdidas Frecuencia Porcentaje Porcentaje por das absoluta por da total xi fi xi/8 % % 1 6 0,125 0,750 2 4 0,250 1,000 3 2 0,375 0,750 4 2 0,500 1,000 5 1 0,625 0,625 6 2 0,750 1,500 8 1 1,000 1,000 400 1 50,000 50,000 800 1 100,000 100,000 Total N=15 156,625

144

MEDIDAS DE DISPERSIN

El porcentaje medio de horas perdidas a lo largo de los veinte das es la media aritmtica de los porcentajes totales (ltima columna de la tabla). Por lo tanto el porcentaje medio de horas de trabajo perdidas en trminos de la media aritmtica es 156,625/20 = 7,831. Para determinar el valor de la desviacin absoluta media respecto a la media aritmtica y respecto a la mediana, se organizan los clculos intermedios en la siguiente tabla.
xi 1 2 3 4 5 6 8 400 800 Total Medias fi 6 4 2 2 1 2 1 1 1 20 Fi 6 10 12 14 15 17 18 19 20 xifi 6 8 6 8 5 12 8 400 800 1.253 62,65 | xi x |fi 369,90 242,60 119,30 117,30 57,65 113,30 54,65 337,35 737,35 2.149,40 107,50 | xi Me|fi 9 2 1 3 2,5 7 5,5 397,5 797,5 1.225,0 61,3

La media aritmtica de horas diarias de trabajo perdido es x = 1253/20 = 62,65. Entonces la desviacin media respecto a la media aritmtica se obtiene del cociente 2149,4/20 = 107,5. La mediana de horas diarias de trabajo perdido se ubica entre el dato 10 y el 11, por lo que entonces la mediana es (2+3)/2 = 2,5. Por lo tanto, la desviacin absoluta respecto a la mediana se obtiene del cociente 1255/20 = 61,3. El tamao de la desviacin absoluta media respecto a la media aritmtica sugiere poca representatividad para la media aritmtica. En realidad, la desviacin absoluta media respecto a la media aritmtica viene ms influenciada por los valores extremos 400 y 800, algo atpicos dentro de la serie de datos. La mediana, al considerar los datos extremos no por su valor sino por la posicin que ocupan dentro del conjunto ordenado de los datos, refleja de forma ms realista la

145

CURSO BSICO DE ESTADSTICA DESCRIPTIVA

tendencia central. De hecho el valor de la desviacin absoluta media respecto a la media aritmtica, casi duplica el valor de la desviacin absoluta media respecto a la mediana. Las consideraciones anteriores sugieren entonces que la mediana es ms representativa que la media.

Ejemplo 3. Valoracin de la gestin del alcalde


Para conocer la conformidad de los habitantes de Bogot, acerca de la gestin realizada por el actual alcalde de la ciudad, durante el periodo en el que ha despeando sus funciones, se practic una encuesta de opinin a 740 personas, en donde se calificaba la gestin del alcalde en una escala de 0 a 10. Los resultados de la encuesta fueron los que se muestran en la siguiente tabla.
Calificacin de la gestin [0, 1) [1, 3) [3, 4) [4, 6) [6, 8) [8, 9) [9, 10] Nmero de encuestados 50 60 90 100 240 120 80

Determine la media aritmtica de las calificaciones arrojadas por la encuesta y estime la representatividad de dicha media. Discusin. Una disposicin prctica para exhibir los clculos que se requieren para hallar la media y la varianza de la muestra se presentan en la tabla de la pgina siguiente. De los datos de la tabla se puede encontrar la media aritmtica como 4420/740 = 5,97. La varianza resulta del cociente 5104, 46/ 740 = 6,9 y entonces la desviacin estndar es la raz cuadrada de 6,9, es decir, 2,63. Tambin es posible hallar la varianza con la expresin alternativa

146

MEDIDAS DE DISPERSIN

dada por

k 2 2 ( x i ) f i ( x ) de donde se obtiene (31.505/740 (5,97)2 = N i =1


1

6,9 en concordancia con la otra manera de calcularla.


Calificacin [0, 1) [1, 3) [3, 4) [4, 6) [6, 8) [8, 9) [9, 10] Total fi 50 60 90 xi 0,5 2,0 3,5 xifi 25 120 315 500 ( xi x )2fi 1497,67 947,07 550,40 94,67 253,15 766,30 995,19

x i2 f i
12,5 240,0 1102,5 2500,0 11760,0 8670,0 7220,0 31505,0

100 5,0

240 7,0 1680 120 8,5 1020 80 740 9,5 760

4420 5104,46

Observe que el valor de la desviacin estndar resulta ser menor que una vez el valor de la media aritmtica. Si este hecho se considera como criterio prctico, se tiene que la media es aceptablemente representativa.

Ejemplo 4. Reaccin ante una vacuna para la gripe


Como parte de una investigacin para combatir la gripe comn, un grupo de 500 personas se distribuy en cincuenta grupos de de diez personas cada grupo y se les aplic una vacuna experimental. Luego se anot el nmero de personas por grupo que present reaccin ante la vacuna. Los datos obtenidos se muestran en la siguiente tabla:
Nmero de personas por grupo que reaccionan a la vacuna Nmero de grupos 0 9 1 9 2 8 3 8 4 5 5 3 6 3 7 2 8 1 9 1 10 1

a. Encuentre la media aritmtica y la desviacin estndar del nmero de personas por grupo que tuvieron reaccin ante la vacuna.
147

CURSO BSICO DE ESTADSTICA DESCRIPTIVA

b. Qu porcentaje de personas reacciona ante la vacuna entre ( x S , x + S ) y entre ( x 2S , x + 2S ) ? Discusin. Una disposicin prctica para exhibir los clculos para hallar la media y la desviacin estndar de la muestra se presentan en la siguiente tabla, donde xi denota el nmero de personas por grupo con reaccin ante la vacuna y fi el nmero de grupos.
xi 0 1 2 3 4 5 6 7 8 9 10 Total fi 9 9 8 8 5 3 3 2 1 1 1 50 xifi 0 9 16 24 20 15 18 14 8 9 10 143 ( xi x )2fi 73,62 31,14 5,92 0,16 6,50 13,74 29,58 34,28 26,42 37,70 50,98 310,02

Con base en la informacin de la tabla se tiene que la media aritmtica se obtiene como 143/50 = 2,86. Para la varianza se calcula 310,02/50 = 6,2, de donde la desviacin estndar, al sacar la raz cuadrada, da 2,49. En cuanto al literal (b,) se tiene que entre ( x S ) = 2,86 -2,49 = 0,37 y ( x + S ) = 2,86 + 2,49 = 5,35, hay 1x9 + 2x8 + 3x8 + 4x5 + 5x3 = 84 personas, mientras que entre ( x 2 S ) = 2,86 2x2,49 = 2.12 y ( x + S ) = 2,86 + 2x2,49 = 7,84, hay 9 + 84 + 6x3 + 7x2 = 125 personas. En el primer caso el porcentaje de personas a una desviacin de la media es de 84/143 = 58,74% y a dos desviaciones de la media hay 125/143 = 87,41%. Observe que los resultados son consistentes, con lo que dice la versin frecuencial de la llamada desigualdad de Tchevichev.

148

MEDIDAS DE DISPERSIN

Ejemplo 5. Temperaturas registradas en un observatorio


En un observatorio meteorolgico de Canad se llev un registro de las temperaturas, en grados centgrados, durante los primeros 59 das del ao 2008 y se anotaron en la tabla que se muestra a continuacin.
Temperatura (C) [-12, -8) [-8, -5) [-5, -2) [-2, 0) [0, 4) [4, 6) [6, 8) [8, 10] Nmero de das 2 4 8 18 17 6 3 1

a. Encuentre los coeficientes de variacin cuartlica y de variacin media de Pearson y evalu cul de los dos coeficientes mide de manera ms fiable la dispersin relativa de las temperaturas. b. Si se transforma la medicin de la temperaturas de la escala de grados centgrados a la escala de grados Fahrenheit (F = 32 + 9/5xC) Cul coeficiente resulta ms fiable? Discusin. Dado que para calcular los coeficientes de variacin cuartlica y media de Pearson se requiere determinar el valor de los cuartiles primero y tercero, la media aritmtica y la desviacin estndar, en la tabla de la pgina siguiente se disponen algunos de los clculos requeridos. Para encontrar los cuartiles se debe empezar por determinar las posiciones de los cuartiles las cuales resultan de calcular N/4 = 59/4 = 14,75 y 3N/4 = (3x59)/4 = 44,25. Entonces, aplicando la frmula general dada en el ejercicio 26 del captulo anterior, para establecer el valor de un cuantil i, tomando s = 3, es decir:

149

CURSO BSICO DE ESTADSTICA DESCRIPTIVA

iN C ( s) = L + i i 1 s

F f
i

i 1

a para i = 1, 2, , s-1
i

donde Li-1, fi y ai designa el lmite inferior, la frecuencia absoluta y la amplitud del intervalo, respectivamente, de la clase a la que pertenece el cuantil y Fi-1 la frecuencia acumulada absoluta de la clase anterior a ella. As se obtiene
Q = 2 +
1

14,75 14 18

2 = 1,971 y Q = 0 +
3

44, 25 32 17

4 = 2,882

Temperatura (C) [-12, -8) [-8, -5) [-5, -2) [-2, 0) [0, 4) [4, 6) [6, 8) [8, 10] Total

fi 2 4 8 18 17 6 3 1

xi

Fi

xifi ( xi x )2fi

-10,0 -6,5 -3,5 -1,0 2,0 5,0 7,0 9,0

2 6 14 32 49 55 58 59

59

-20 -26 -28 -18 34 30 21 9 2

201,36 170,77 99,91 19,24 65,71 147,97 145,58 80,39 930,93

La media aritmtica de la temperatura es 2/59 = 0,034 C, la varianza se obtiene de 930,93/59 = 15,78, y la desviacin estndar se obtiene al sacar la raz cuadrada a este nmero dando 3,972. C. De lo anterior se llega a que el coeficiente de variacin cuartlica es:
Q Q V
Q

1 1

Q +Q
3

2,882 ( 1,971) 2,882 + ( 1,971)

= 4,973

Mientras que el coeficiente de variacin de Pearson da:


V =
x

S x

3,972 0,034

117,17 = 11, 71%

Como se puede notar, el valor del coeficiente de variacin de Pearson resulta muy distorsionado debido a la proximidad de la media

150

MEDIDAS DE DISPERSIN

aritmtica al valor cero. En este caso resulta ms razonable utilizar el coeficiente de variacin cuartlica. Ahora bien, cuando se cambia la escala de los datos aplicando la relacin F = 32 + 9/5xC, se obtiene la siguiente tabla de frecuencias.
Temperatura (F) [10,4; 17,6) [17,6; 23,0) [23,0; 28,4) [28,4; 32,0) [32,0; 39,2) [39,2; 42,8) [42,8; 46,4) [46,4; 50,0] Total fi 2 xi Fi 2 6 14 32 49 55 58 59 xifi ( xi x )2fi 652,40 553,29 323,70 62,34 212,91 479,43 471,68 260,47 3016,22

14,0 4 20,3 8 25,7 18 30,2 17 35,6 6 41,0 3 44,6 1 48,2 59

28,0
81,2 205,6 543,6 605,2 246 133,8 48,2 1891,6

Ahora los cuartiles inferior y superior vienen dados por


Q = 28, 4 +
1

14,75 14 18

3, 6 = 28,55 y Q = 32 +
3

44, 25 32 17

7, 2 = 37,19

Con estos resultados se obtiene el coeficiente de variacin cuartlica y el coeficiente de variacin de Pearson as:
V
Q

37,19 28,55 37,19 + 28,55

= 0,131 = 13,1%

3016, 22 V =
x

59 1891,6 59

0, 223 = 22,3%

En este caso con ambos coeficientes se manifiesta una baja dispersin relativa, siendo el coeficiente de variacin de Pearson ms fiable que el de la variacin cuartlica, dado que el primero tiene en cuenta toda la informacin de los datos, mientras que el segundo solamente la posicin ordenada de los valores de los datos.
151

CURSO BSICO DE ESTADSTICA DESCRIPTIVA

Ejemplo 6. Pesos de dos grupos de estudiantes


El mdico de un colegio tiene registro las medias aritmticas y de las varianzas de los pesos de dos grupos A y B que se muestran en la siguiente tabla:
Grupo A B Media 64 kg 68 kg Varianza

1 ,4 kg2 1,1 kg2

a. Si se sabe que la media aritmtica de los dos grupos es 67, en qu proporcin estn los tamaos de los dos grupos A y B? b. Cul es la varianza conjunta de los dos grupos? Discusin. Suponga que NA y NB son los tamaos de la muestras de los grupos A y B. Como 67 corresponde a la media ponderada de las medias de los grupos A y B, se puede plantear que:
67 = N A 64 + N B 68 N A + NB

De donde se tiene que 67( NA + NB) = 64NA + 68NB, entonces (67 64) NA = (68 67) NB; que es lo mismo que 3NA = NB. Es decir, NA y NB estn en proporcin de uno a tres. Para encontrar la varianza ponderada se requiere realizar un poco 2 de lgebra. Supngase que xi, x2, , xNA, x y S x son los pesos del grupo
2 A, su media y su varianza, respectivamente, y que yi, y2, , yNB, y y S y

los pesos, la media y la varianza relativas al grupo B. Si z y S z2 representa la media y la varianza del grupo completo se tiene que:
S z2 =
=
NB N A 1 2 2 ( xi z ) + ( yi z ) = N A + N B i =1 i =1

NB N A 1 2 2 (( x i x ) + ( x z )) + (( y i y ) + ( y z )) N A + N B i =1 i =1

152

MEDIDAS DE DISPERSIN
NA NA N A 1 2 2 ( x i x ) + 2( x z ) ( x i x ) + ( x z ) + N A + N B i =1 i =1 i =1 NB NA NB 1 2 2 ( y i y ) + 2( y z ) ( y i y ) + ( y z ) N A + N B i =1 i =1 i =1

Pero dado que ( x i x ) = ( y i y ) = 0, entonces se tiene que:


i =1
2 Sz =

NA

NB

i =1

N A NB 1 1 2 2 2 2 ( x i x ) +N A ( x z ) + ( y i y ) +N B ( y z ) N A + N B i =1 N A + N B i =1

1 NA 1 NB NA NB ( xi x ) 2 +( x z ) 2 + ( y i y ) 2 +( y z ) 2 N A + N B N A i =1 N A + N B N B i =1 NA NB 2 2 = S x + (x z) 2 + S y + ( y z) 2 NA + NB NA + NB =

Por lo tanto
2 Sz = 2 2 N A S x + (x z) 2 + N B S y + ( y z) 2

NA + NB

Reemplazando los datos de medias y varianzas dados en el enunciado y expresando NB en trminos de NA se obtiene:
2 Sz

N A 1, 4 + ( 64 67 )

+ 3 N A 1,1 + ( 68 67 )

= 4,175

N A + 3N A

Observe que aunque las varianzas de cada grupo son relativamente pequeas, la del grupo en conjunto es casi cuatro veces ms grande. Esto pone de manifiesto una diferencia significativa entre los valores de las medias de cada grupo.

Ejemplo 7. Pesos de bebes y estatura de adultos


Como parte de un estudio mdico, investigadores de la salud quieren establecer y comparar la variacin de los pesos de una muestra de 500
153

CURSO BSICO DE ESTADSTICA DESCRIPTIVA

bebes, respecto de la variacin de las estaturas de una muestra de 500 adultos. Los datos recogidos se presentan en la siguiente tabla.
Peso en kilogramos [2,6; 2,8) [2,8; 3,0) [3,0; 3,2) [3,2; 3,4) [3,4; 3,6) [3,6; 3,8) [3,8; 4,0) [4,0; 4,2] Total fi 5 10 40 55 160 110 90 30 Estatura en centmetros [130; 140) [140; 150) [150; 160) [160; 170) [170; 180) [180; 190) [190; 200) [200; 210] fi 3 10 65 170 210 36 5 1 500

500

Compare la dispersin relativa de ambas distribuciones y comente sobre la fiabilidad de los coeficientes considerados. Discusin. Primero se considera la muestra de pesos de los 500 bebes. En la siguiente tabla se disponen los clculos requeridos, para estimar diferentes medidas de dispersin.
Peso en kilogramos [2,6; 2,8) [2,8; 3,0) [3,0; 3,2) [3,2; 3,4) [3,4; 3,6) [3,6; 3,8) [3,8; 4,0) [4,0; 4,2] Total fi 5 10 40 55 160 110 90 30 xi 2,7 2,9 3,1 3,3 3,5 3,7 3,9 4,1 Fi 5 15 55 110 270 380 470 500 xifi 13,5 29,0 124,0 181,5 560,0 407,0 351,0 123,0 1789,0 ( xi x )2fi 3,85 4,60 9,14 4,25 0,97 1,64 9,33 8,17 42,0

500

De los resultados de la tabla anterior tenemos que la media aritmtica es 1789/500 = 3,578, la varianza es 42/500 = 0,0839 de donde la desviacin estndar es 0,29.

154

MEDIDAS DE DISPERSIN

Para determinar el valor de los cuartiles se utiliza la misma expresin utilizada en el Ejemplo 5 de este captulo. Entonces:
Q = 3, 4 +
1

125 110 160 250 110 160 375 270 110

0, 2 = 3, 418kg 0, 2 = 3,575kg 0, 2 = 3,791Kg

Q = 3, 4 +
2

Q = 3,6 +
3

Con estos resultados ya se pueden establecer las siguientes medidas de dispersin relativa: Recorrido relativo: A = mximo
r x x mnimo = 4, 2 2, 6 = 0, 4471 x 3,578 Q3 Q1 Q3 + Q1 3, 791 3, 418 3, 418 + 3,791

Coeficiente de variacin cuartlica: V

= 0,0517

Intervalo intercuartlico relativo: I Q =

3, 791 3, 418 Q3 Q1 = = 0,1043 Me 3,575 3,791 3, 418 2 3,575

Desviacin cuartlica relativa: D =


Q

Q3 Q1

= 0,0521

2 Me

Coeficiente de variacin de Pearson: CVx =

S X

0, 29 3,57

= 0,081

Coeficiente de variacin mediana: V

Me

S Me

0, 29 3,575

= 0,0811

Ahora se pasa a considerar las estaturas de los 500 adultos. En la siguiente tabla se presentan los clculos preliminares.

155

CURSO BSICO DE ESTADSTICA DESCRIPTIVA

Estatura en centmetros [130; 140) [140; 150) [150; 160) [160; 170) [170; 180) [180; 190) [190; 200) [200; 210] Total

fi 3 10 65 170 210 36 5 1

xi 135 145 155

Fi 3 13 78

xifi 405 1450 10075 28050 36750 6660 975 205 84570

( xi x )2fi 3496,62 5827,40 12996,07 2913,73 7211,32 9055,43 3343,70 1285,94 46130,20

165 248 175 458 185 494 195 499 205 500

500

De los resultados de la tabla anterior tenemos que la media aritmtica es 84.570/500 = 3.169,14, la varianza es 46.130,2/500 = 92,26 de donde la desviacin estndar es 9,61. Para determinar el valor de los cuartiles se vuelve a utilizar la frmula dada en el Ejemplo 5 de este captulo. Entonces:
Q = 160 +
1

125 78 170

10 = 162,764cm 10 = 170,095cm 10 = 176,047cm

Q = 170 +
2

250 248 210 375 248 110

Q = 170 +
3

Entonces las medidas de dispersin relativa son: Recorrido relativo: A = mximo


r x x mnimo = 210 130 = 0, 473 x 169,14

Coeficiente

de

variacin

cuartlica:

Q3 Q1 176,05 162,76 V = = = 0,039 Q Q +Q 176, 05 + 162,76 3 1

Intervalo intercuartlico relativo: I Q =

13, 283 Q3 Q1 = = 0,0781 Me 170,095

156

MEDIDAS DE DISPERSIN

Desviacin cuartlica relativa: D =


Q

Q3 Q1 2 Me

0,0781 2

= 0, 039

Coeficiente de variacin de Pearson: CVx =

S X

9, 67 169,14

= 0, 0568

Coeficiente de variacin mediana: V

Me

S Me

0, 29 3,575

= 0,0562

A manera de resumen se organizan todos los resultados en la siguiente tabla:


Medidas de dispersin relativa Recorrido relativo Coeficiente de variacin cuartlica Intervalo intercuartlico relativo Desviacin cuartlica relativa Coeficiente de variacin de Pearson Coeficiente de variacin mediana Pesos 0,447 0,051 0,104 0,052 0,081 0,081 Estaturas 0,473 0,039 0,078 0,039 0,057 0,056

En la tabla anterior se puede observar, en trminos generales, que hay una dispersin relativa moderadamente mayor en los datos que corresponden a la columna de los pesos de los bebes. Por otra parte, la discrepancia del valor del recorrido relativo ejemplifica la escasa fiabilidad de estas medidas en las comparaciones.

Ejemplo 8. Tiempo de atencin en un hospital


En un hospital se ha llevado el registro, sobre el tiempo de espera para ser atendidos, de los ltimos 320 pacientes que han acudido a la unidad de atencin de urgencias. Los datos se presentan en la siguiente tabla:

157

CURSO BSICO DE ESTADSTICA DESCRIPTIVA

Tiempo de espera [0; 5) [5;10) [10; 15) [15; 20) [20; 25) [25; 30) [30; 35) [35; 40) [40; 45) [45; 50] Total

fi 3 31 102 63 54 43 12 6 5 1

320

Determine la media aritmtica y la mediana de esta distribucin de datos y mida la dispersin de los datos en torno a estas estimaciones de tendencia central. Discusin. Para empezar vale la pena recordar que la representatividad de la media se debe evaluar con la desviacin estndar, mientras que la de la mediana es preferible evaluarla con base en la desviacin media respecto a la mediana. En la tabla que sigue se presentan los primeros clculos para hallar los valores de las estimaciones requeridas.
Tiempo de espera [0; 5) [5;10) [10; 15) [15; 20) [20; 25) [25; 30) [30; 35) [35; 40) [40; 45) [45; 50] Total fi 3 31 102 63 54 43 12 6 5 1 xi 2,5 7,5 12,5 17,5 22,5 27,5 32,5 37,5 42,5 47,5 Fi 3 34 136 199 253 296 308 314 319 320 xifi 7,5 232,5 1275,0 1102,5 1215,0 1182,5 390,0 225,0 212,5 47,5 5890 ( xi x )2fi | xi x |fi | xi Me|fi 759,03 3687,33 3558,15 51,74 904,97 3555,94 2383,61 2187,43 2902,54 846,45 20837,19 14,4 9,4 4,4 0,6 5,6 10,6 15,6 20,6 25,6 30,6 43,2 291,4 448,8 37,8 302,4 455,8 187,2 123,6 128,0 30,6 2048,8

320

158

MEDIDAS DE DISPERSIN

La media aritmtica se obtiene como 5890/320 = 18,41 minutos. Para obtener la mediana, primero ubicamos la posicin la calcular N/2 = 320/2 = 160; entonces la mediana es Me =15 + [(160-136)/63]x5 = 16,9 minutos. Para la obtencin de la desviacin estndar, se le saca la raz cuadrada a la varianza dada por 20.837, 19/2 = 65,11, para obtener 8,06 minutos. Y en cuanto a la obtencin de la desviacin media respecto a la mediana resulta de 2.048,8/320 = 6,4 minutos. El valor de la desviacin estndar en relacin con el de la media aritmtica es 2,28 veces menor que la media aritmtica, mientras que en el caso de la desviacin media respecto a la mediana es de 2,64 veces menor que la mediana. Como hay una diferencia de (2,64-2,28) = 0,36, bajo el criterio mencionado antes, es preferible utilizar la mediana. Sin embargo, el valor un poco ms alto de la media aritmtica advierte que hay algunos pocos pacientes que tienen que esperar tiempos muy grandes. EJERCICIOS 1. A continuacin se presenta la informacin dada por diez estudiantes con respecto a la distancia, medida en cuadras, del lugar en donde ellos viven, al colegio en donde estudian.
40 50 30 45 45 48 35 60 36 10

a. Con qu medidas estadsticas se puede resumir la distancia que tiene que recorrer un estudiante para ir de su hogar al colegio? Alguna de esas medidas es ms apropiada? Explique. b. Con base en qu medida estadstica se puede resumir la variabilidad de las distancias recorridas por los estudiantes? Alguna de esas medidas es ms apropiada? Explique. c. Qu representaciones grficas se podran utilizar para ilustrar la situacin? Alguna de esas representaciones grficas es ms apropiada? Explique.

159

CURSO BSICO DE ESTADSTICA DESCRIPTIVA

2. La siguiente informacin presenta los datos en miles de pesos de los salarios de secretarias que trabajan en cuatro empresas diferentes:
Empresa 1: Empresa 2: Empresa 3: Empresa 4: 350 350 350 300 400 400 350 400 350 350 350 500 2100 400 350 600 550 1300 700

800

Con qu medidas estadsticas de tendencia central y de dispersin sera apropiado resumir el comportamiento de los salarios de las secretarias de cada una de las empresas anteriores. 3. Construya un conjunto de diez datos que tenga un promedio de 39.9 y una desviacin estndar de 0. 4. Proponga tres conjuntos, cada uno de 10 datos que satisfagan las siguientes condiciones: promedio 6 y desviacin estndar 1; promedio 10 y desviacin estndar 1; promedio 7 y desviacin estndar 2. 5. Construya un conjunto de diez datos con las siguientes caractersticas: promedio 39.9; que todos los datos sean diferentes; y que la distancia entre cualquier par de datos contiguos, una vez ordenados de manera ascendente o descendente, sea la misma. Con respecto al valor de la desviacin estndar que se obtuvo con los datos iniciales del ejercicio 1, qu relacin de orden espera encontrar entre las desviaciones estndar correspondientes a la distribucin del ejercicio 1 y a la que acaba de construir? qu efecto puede tener sobre la desviacin el aumentar o disminuir la distancia entre los datos? 6. Construya un conjunto de diez datos con las siguientes tres caractersticas: promedio de 39.9; que los datos contengan slo dos valores diferentes, y tal que los dos valores diferentes ocurran con distinta frecuencia. Bajo las condiciones anteriores, intente establecer una relacin entre los dos valores de frecuencias de los datos y las dos distancias de los datos al promedio.

160

MEDIDAS DE DISPERSIN

7. A continuacin se presenta la representacin grfica de un par de distribuciones:

Cul de las dos distribuciones le parece que es ms dispersa? Qu efecto puede tener sobre los valores de las medidas de dispersin, el que las frecuencias de los valores de las distribuciones anteriores se cambien pero mantenindose la misma relacin de 3 a 1 que se insina en las grficas? 8. Construya un conjunto de diez datos con las siguientes tres caractersticas: promedio de 39.9; que los datos contengan slo dos valores diferentes, y tal que los dos valores diferentes ocurran con igual frecuencia. Luego calcule el rango y la desviacin estndar. Luego, proponga otros conjuntos que satisfagan las mismas condiciones anteriores y trate de identificar un patrn de relacin entre la desviacin estndar y el rango. 9. Construya dos nuevos conjuntos de datos U y V, que satisfagan simultneamente la siguientes condiciones: la desviacin estndar de los elementos de U debe ser mayor que la desviacin estndar de los elementos de V, el rango de los elementos de U debe ser menor que el rango de los elementos de V. 10. En un zoocriadero destinado a la cra de chigiros para exportacin se ha descuidado la alimentacin de los animales y se ha presentado un desarrollo inesperado en estos. Se han clasificado los animales en 10 grupos, teniendo en cuenta sus pesos en kilogramos. La siguiente tabla muestra la cantidad de animales en cada categora de pesos:

161

CURSO BSICO DE ESTADSTICA DESCRIPTIVA

PESOS 35.00 - 40.00 40.10 - 45.00 45.10 - 50.00 50.10 - 55.00 55.10 - 60.00 60.10 - 65.00 65.10 - 70.00 70.10 - 75.00 75.10 - 80.00 80.10 - 85.00

CANTIDAD DE ANIMALES 20 25 30 10 15 20 25 35 10 10

a. Calcule la media y la desviacin estndar para estos datos y evale la representatividad de la media como medida de tendencia central, Ser preferible la mediana? b. Verifique la versin frecuencial de la desigualdad de Tchevichev para los casos de una desviacin respecto a la media y dos desviaciones respecto a la media 11. En un colegio, los estudiantes de grado 10 se repartes en cuatro grupos {A, B, C, D} de igual cantidad de estudiantes para las asignaturas no deportivas. Se practica el examen final de fsica. La siguiente tabla muestra las calificaciones obtenidas por los estudiantes en cada grupo:
A 12 72 45 52 64 64 33 84 52 56 61 33 56 67 77 77 66 46 34 56 42 70 53 61 36 31 24 45 46 12 49 39 56 38 44 62 52 51 52 49 68 66 36 52 25 69 74 71 52 66 51 57 57 79 55 88 37 57 73 56 57 53 35 66 52 62 60 36 46 60 60 77 43 52 49 67 63 29 57 60 57 82 23 77 35 61 43 61 50 50 54 61 65 66 50 46 50 60 90 50 59 45 45 54 65 25 33 57 31 38 54 68 47 39 47 65 63 58 51 39 38 63 46 49 52 73 69 47 52 58 55 49

162

MEDIDAS DE DISPERSIN

a. Qu porcentaje x de las notas de los estudiantes satisface las desigualdades:


x s < x < x + s? x 2s < x < x + 2s?

x 3s < x < x + 3s?


b. En cul de las asignaturas se presenta mayor dispersin? 12. Como parte de un programa de control de calidad en la produccin de bateras para usar en diferentes aparatos elctricos, se someten a una prueba de duracin 64 bateras de tipo A y 105 bateras de tipo B, provenientes de dos fabricantes diferentes. Los resultados obtenidos se organizan en la siguiente tabla:
Tiempo de duracin (en das) [90; 120) [120; 150) [150; 180) [180; 210) [210; 240) [240; 270) Tipo A (frecuencia) 6 9 18 21 7 3 Tipo B (frecuencia)

7 12 31 29 22 4

a. Compare la variabilidad de ambas distribuciones de datos en trminos de coeficientes de dispersin relativa. b. Comente acerca de la fiabilidad de los coeficientes que fueron considerados en el literal anterior.

163

CURSO BSICO DE ESTADSTICA DESCRIPTIVA

164

Você também pode gostar