Escolar Documentos
Profissional Documentos
Cultura Documentos
Medidas de Variabilidad
VARIABILIDAD
Es la medida de las diferencias que presentan los datos entre si.
Para medirla se aprovecha el hecho, de que si los datos son semejantes entre si, estn ms cerca a la media aritmtica, entonces se dice que tienen poca variabilidad que son homogneos. Por el contrario si son muy diferentes entre si, estarn muy dispersos respecto a la media aritmtica y se dice de ellos que son muy variables o que son heterogneos. ES PREFERIBLE SIEMPRE QUE LOS DATOS SEAN HOMOGNEOS
Las medidas de variabilidad o de dispersin son aquellas que miden el grado de separacin de los datos con respecto a un valor central. las principales medidas de dispersin son: EL RANGO (R) EL RANGO INTERCUARTILICO (RIQ) LA VARIANZA [ V(X) S2(X) ] LA DESVIACION ESTANDAR [S(X)] COEFICIENTE DE VARIACION [ CV(X) ]
EL RANGO (R)
El Rango de variacin o recorrido de una serie de datos, esta representado por la diferencia entre sus valores mximo y mnimo, resultando ser la medida de variabilidad ms sencilla y menos confiable, ya que slo usa dos datos para su clculo.
R = Xmx Xmn
donde: Xmx : valor mximo Xmn : valor mnimo
Por ejemplo si queremos calcular el Rango interpercentilico del 80% de datos centrales tendremos que: RIP80 = P90 P10
Si se desea hallar el Rango interpercentlico del 90% de datos centrales, tendremos que: RIP90 = P95 P5
VARIANZA
La varianza variancia es una medida de variabilidad absoluta, que se expresa en unidades al cuadrado y que utiliza todos los datos para su clculo (el cual se basa en las diferencias entre el valor de las observaciones y su media). Se defina como el promedio de las desviaciones, elevadas al cuadrado, de cada uno de los datos con respecto del promedio (media aritmtica)
Clculo de la VARIANZA
a) Datos no agrupados:
S
2
X
n i 1
i X
X i2
i 1
Clculo de la VARIANZA
b) Datos agrupados:
S
2
k i 1
Xi X n
fi
X i2 f
i 1
Xi : marca de clase valor de la variable en estudio fi : frecuencia absoluta k : nmero de intervalos filas de la tabla segn sea el caso X : Promedio de los datos
La Desviacion Estndar
Como la varianza se mide en unidades al cuadrado, por ejemplo si los datos estn expresados en metros, la varianza se medir en metros al cuadrado. Esto trae dificultades para su interpretacin real. Es por ello que en ocasiones se prefiere el uso de la Desviacin Estndar, definida como la raz cuadrada (positiva) de la varianza: Desviacin Estndar :
s s
Interpretacion
El valor numrico de la varianza y la desviacin estndar cuantifican el grado de dispersin absoluta de los datos de la variable en estudio, con respecto a su media aritmtia, la primera en unidades al cuadrado y la segunda en unidades reales , es por ello que, en trminos generales, tendremos que: A mayor variabilidad o dispersin de los datos le corresponde una mayor varianza o una mayor desviacin estndar.
Ejemplo 1:
Hallar la varianza y desviacin estndar de: 17, 19, 19, 19, 19, 18, 18, 20, 21, 19, 18, 17, 20, 20, 17
X i2
i 1 n
X 17 19 19 .
S2
n=15
x 281 18.7333 15
S
2
X i2
i 1
X 281
X
2
X
S2
5285
.
2
x x
S 1.3956 1.1813
La dispersin absoluta de los datos respecto a la media es 1.18
fi 2 3 5
[0 [3 [6
[9
, 12 >
10.5
13.5
4
1
[12 , 15 >
S
2
X
i 1
2 i
f X
2
S 11 .36 3.3705
INTERVALOS
Xi
1.5 4.5 7.5 10.5 13.5
fi
2 3 5 4 1 n =15
Xi f i
3 13.5 37.5 42 13.5 109.5
X i2 f i
4.5 60.75 281.25 441 182.25 969.75
Coeficiente de Variabilidad
Esta medida de dispersin es muy til cuando se quiere comparar el grado de dispersin (homogeneidad o variabilidad) en dos conjuntos de datos que tienen un promedio diferente y/o que tienen diferentes unidades de medida En general consideraremos lo siguiente: Si CV < 25% implica baja dispersin Si CV > 50% implica Alta dispersin En otro caso se tiene Dispersin moderada
S CV ( X ) X S CV ( X )% (100) X
EJEMPLO1:
Un administrador debe decidir la compra de una de dos mquinas, tiene la siguiente informacin con respecto al tiempo diario que requiere cada mquina para su mantenimiento.
Promedio
Mquina A Mquina B 27 min 35 min
Varianza
4.5 min2 5 min2
Utilizando la medida de variabilidad adecuada.Cul de las dos mquinas tiene menos variabilidad en cuanto al tiempo de mantenimiento?
Solucin:
Dado que la unidad de medida es la misma para ambos grupos, pero las medias no son iguales, entonces utilizamos el coeficiente de variacin para comparar:
CVA = SA = XA
4.5 27
= 0.07856
7.86 %
CVB = SB =
5 = 0.06388 35 6.39 %
Ejemplo 2:
El nivel de ventas promedio de un establecimiento comercial es de 800 dlares por da, con una desviacin estndar de 45 dlares; en otro centro comercial la venta promedio por da es de 270 dlares, con una desviacin estndar de 32 dlares. En cual de estos establecimientos el nivel de ventas por da es ms homogneo (en cual se tiene menos dispersin en cuanto al nivel de ventas?)
Ejemplo 3:
En la compaa A los obreros tienen un jornal diario de 50 soles en promedio, con una desviacin estndar de 12 soles, en la compaa B los obreros tienen un jornal promedio de 37.5 dlares con una desviacin estndar de 5.63 dlares. En cul de estas dos empresas el jornal diario es de lo obreros es ms homogneo? Justifique su respuesta.
Ejemplo:
Supongamos que se tiene una variable X con varianza V(X)= 2 y adems considere las siguientes constantes C = 5 yb = 3 Si Y = X+5 entonces V(Y) = V(X+5) = V(X) = 2 Si Y = 3X entonces V(Y) = V(3X) = 32 V(X) = 9(2) = 18 Si Y=3X+5 entonces V(Y)=V(3X+5) = 32V(X) = 9(2) =18
I. MEDIDA DE ASIMETRA
La asimetra o sesgo es el grado de deformacin horizontal de una distribucin, con respecto a la distribucin normal, que se produce por la presencia de valores extremos (altos bajos).
Asimetra Negativa: cuando lacola ms larga de la distribucin est a la izquierda, esto significa que la mayora de los datos estn concentrados a la derecha; el sesgo es originado por la presencia de valores extremos bajos. Asimetra Positiva: cuando lacolams larga de la distribucin est a la derecha, esto significa que la mayora de los datos estn concentrados a la izquierda; hay presencia de valores extremos altos.
Para medir la Asimetra se emplea el coeficiente de Pearson; el cual se calcula de la siguiete forma:
3( X Me) Ak S
Si Ak = 0 la distribucin es simtrica. Si Ak > 0 la distribucin tiene asimetra positiva. Si Ak < 0 la distribucin tiene asimetra negativa.
Ejemplo:
Determine la forma de una distribucin de un conjunto Datos que tienen una media igual a 7.87, una mediana igual a 7.80 y una desviacin estndar 1.293
3(7.87- 7.80) Ak = 1.293 = 0.162
II. CURTOSIS
Analiza la deformacin vertical de una distribucin de datos respecto a la normal, es decir el grado de elevacin o apuntamiento de la curva. Para medir la Curtosis se emplea el coeficiente de curtosis:
Ejemplo: Evale el grado de agudeza de la distribucin de un conjunto de datos con las siguientes caracteresticas: P75 = 8.8 , P25 = 7.0 , P90 = 9.7 y P10 = 6.1
8.8 7.0 Ku =
2 (9.7 6.1) = 0.25
GRAFICAS DE CAJAS
(Box Plots)
Una grfica de cajas es un medio grfico que permite analizar simultneamente la variabilidad y la asimetra de los datos de una muestra. Es muy til tambin para comparar la variabilidad de dos o ms distribuciones.
Tambin permite identificar los valores atpicos llamados Outliers valores extremos.
Procedimiento de Construccion
1. Trace horizontalmente ( o verticalmente) una escala graduada
adecuada. 2. Se traza un rectngulo con los extremos en el primer y tercer cuartil. Este rectngulo contiene el 50% central de datos. 3. En la caja se traza una recta vertical ( u horizontal) en el lugar de la mediana. 4. Se ubican los lmites mediante el Rango Intercuartil (RIQ=Q3-Q1) LI = Q1- 1.5(RI) y LS =Q3 + 1.5(RI). Se considera que los datos fuera de estos lmites son valores atpicos. 5. Se trazan dos lineas (bigotes)que parten de los extremos de la caja hasta los valores mnimo y mximo dentro de los lmites. 6. Por ltimo se marcan con un asterisco (*) los valores atpicos localizados Outliers.
LI
Mediana
Q1
Q3
2210
1900
2100
2300
2500
2700
2900
Interpretaciones: 1.- La Mediana no esta al centro de la caja por lo tanto se puede deducir que se tiene una distribucin asimtrica positiva, con cola a la derecha. 2.- El ancho de la caja es mayor respecto a los bigotes por lo tanto existe mayor variabilidad en el 50% central de datos. 3.- El bigote izquierdo es menos largo que el el bigote derecho, por ello existe una menor variabilidad en el primer 25% de datos respecto al ltimo 25%. 4.- Se detecta un valor atpico (otuliers) al lado derecho de la caja.
Gastos
Interpretaciones:
1.- Los gastos son mayores en Vista Grande. 2.- Ambas distribuciones de gastos en transporte son asimtricas, pero en Pueblo Hermoso lo es ms. 3.- En Pueblo Hermoso se nota que el primer 25% (bigote izquierdo) es mucho mayor que el de la derecha, por lo tanto hay mayor variabilidad en la distribucin de gastos. 4.- En Pueblo Hermoso la distribucin de los gastos en transporte es ms variable que en Vista Grande pues la caja es ms ancha.