Você está na página 1de 35

Estadstica General

Medidas de Variabilidad

VARIABILIDAD
Es la medida de las diferencias que presentan los datos entre si.
Para medirla se aprovecha el hecho, de que si los datos son semejantes entre si, estn ms cerca a la media aritmtica, entonces se dice que tienen poca variabilidad que son homogneos. Por el contrario si son muy diferentes entre si, estarn muy dispersos respecto a la media aritmtica y se dice de ellos que son muy variables o que son heterogneos. ES PREFERIBLE SIEMPRE QUE LOS DATOS SEAN HOMOGNEOS

Las medidas de variabilidad o de dispersin son aquellas que miden el grado de separacin de los datos con respecto a un valor central. las principales medidas de dispersin son: EL RANGO (R) EL RANGO INTERCUARTILICO (RIQ) LA VARIANZA [ V(X) S2(X) ] LA DESVIACION ESTANDAR [S(X)] COEFICIENTE DE VARIACION [ CV(X) ]

EL RANGO (R)
El Rango de variacin o recorrido de una serie de datos, esta representado por la diferencia entre sus valores mximo y mnimo, resultando ser la medida de variabilidad ms sencilla y menos confiable, ya que slo usa dos datos para su clculo.

R = Xmx Xmn
donde: Xmx : valor mximo Xmn : valor mnimo

EL RANGO INTERCUARTILICO (RIQ)


Es la diferencia entre el tercer cuartil y el primer Cuartil. RIQ = Q3 Q1 El Rango Intercuartlico es una medida que excluye el 25% ms alto y el 25% ms bajo, dando un rango que contiene al 50% central de los datos, lo que elimina el efecto causado por los valores extremos.
Si el rango intercuartlico es muy pequeo entonces indica alta uniformidad o pequea variacin de los valores centrales.

EL RANGO INTERPERCENTILICO (RIP)


Es una medida que se calcula en base a la diferencia de los percentiles respectivos.

Por ejemplo si queremos calcular el Rango interpercentilico del 80% de datos centrales tendremos que: RIP80 = P90 P10
Si se desea hallar el Rango interpercentlico del 90% de datos centrales, tendremos que: RIP90 = P95 P5

VARIANZA
La varianza variancia es una medida de variabilidad absoluta, que se expresa en unidades al cuadrado y que utiliza todos los datos para su clculo (el cual se basa en las diferencias entre el valor de las observaciones y su media). Se defina como el promedio de las desviaciones, elevadas al cuadrado, de cada uno de los datos con respecto del promedio (media aritmtica)

Clculo de la VARIANZA

a) Datos no agrupados:

S
2

X
n i 1

i X

X i2
i 1

Xi : i-sima observacin n : Nmero de datos X : media aritmtica

Clculo de la VARIANZA
b) Datos agrupados:

S
2

k i 1

Xi X n

fi

X i2 f
i 1

Xi : marca de clase valor de la variable en estudio fi : frecuencia absoluta k : nmero de intervalos filas de la tabla segn sea el caso X : Promedio de los datos

La Desviacion Estndar
Como la varianza se mide en unidades al cuadrado, por ejemplo si los datos estn expresados en metros, la varianza se medir en metros al cuadrado. Esto trae dificultades para su interpretacin real. Es por ello que en ocasiones se prefiere el uso de la Desviacin Estndar, definida como la raz cuadrada (positiva) de la varianza: Desviacin Estndar :

s s

Interpretacion
El valor numrico de la varianza y la desviacin estndar cuantifican el grado de dispersin absoluta de los datos de la variable en estudio, con respecto a su media aritmtia, la primera en unidades al cuadrado y la segunda en unidades reales , es por ello que, en trminos generales, tendremos que: A mayor variabilidad o dispersin de los datos le corresponde una mayor varianza o una mayor desviacin estndar.

Ejemplo 1:
Hallar la varianza y desviacin estndar de: 17, 19, 19, 19, 19, 18, 18, 20, 21, 19, 18, 17, 20, 20, 17
X i2
i 1 n

X 17 19 19 .

X2 289 361 361 .

S2

n=15
x 281 18.7333 15

S
2

X i2
i 1

X 281
X
2

X
S2

5285

5285 318.7332 1.3956 15

.
2

x x

S 1.3956 1.1813
La dispersin absoluta de los datos respecto a la media es 1.18

Ejemplo 2: Hallar la varianza y desviacin estndar para la siguiente distribucin de datos:


INTERVALOS

Mi 1.5 4.5 7.5

fi 2 3 5

[0 [3 [6

,3 > ,6 > ,9 >

[9

, 12 >

10.5
13.5

4
1

[12 , 15 >

S
2

X
i 1

2 i

f X
2

109.5 7.3 15 969.75 S2 7.32 11.36 15 x

S 11 .36 3.3705
INTERVALOS

Xi
1.5 4.5 7.5 10.5 13.5

fi
2 3 5 4 1 n =15

Xi f i
3 13.5 37.5 42 13.5 109.5

X i2 f i
4.5 60.75 281.25 441 182.25 969.75

[ 0 3> [ 3 6> [ 6 9> [ 9 12> [ 12 15> TOTAL

Coeficiente de Variabilidad
Esta medida de dispersin es muy til cuando se quiere comparar el grado de dispersin (homogeneidad o variabilidad) en dos conjuntos de datos que tienen un promedio diferente y/o que tienen diferentes unidades de medida En general consideraremos lo siguiente: Si CV < 25% implica baja dispersin Si CV > 50% implica Alta dispersin En otro caso se tiene Dispersin moderada

Clculo del coeficiente de variacion

S CV ( X ) X S CV ( X )% (100) X

EJEMPLO1:
Un administrador debe decidir la compra de una de dos mquinas, tiene la siguiente informacin con respecto al tiempo diario que requiere cada mquina para su mantenimiento.
Promedio
Mquina A Mquina B 27 min 35 min

Varianza
4.5 min2 5 min2

Utilizando la medida de variabilidad adecuada.Cul de las dos mquinas tiene menos variabilidad en cuanto al tiempo de mantenimiento?

Solucin:
Dado que la unidad de medida es la misma para ambos grupos, pero las medias no son iguales, entonces utilizamos el coeficiente de variacin para comparar:

CVA = SA = XA

4.5 27

= 0.07856
7.86 %

CVB = SB =

5 = 0.06388 35 6.39 %

Entonces la mquina B tiene una distribucin de tiempos menos variable.

Ejemplo 2:
El nivel de ventas promedio de un establecimiento comercial es de 800 dlares por da, con una desviacin estndar de 45 dlares; en otro centro comercial la venta promedio por da es de 270 dlares, con una desviacin estndar de 32 dlares. En cual de estos establecimientos el nivel de ventas por da es ms homogneo (en cual se tiene menos dispersin en cuanto al nivel de ventas?)

Ejemplo 3:
En la compaa A los obreros tienen un jornal diario de 50 soles en promedio, con una desviacin estndar de 12 soles, en la compaa B los obreros tienen un jornal promedio de 37.5 dlares con una desviacin estndar de 5.63 dlares. En cul de estas dos empresas el jornal diario es de lo obreros es ms homogneo? Justifique su respuesta.

Ejemplo:

Supongamos que se tiene una variable X con varianza V(X)= 2 y adems considere las siguientes constantes C = 5 yb = 3 Si Y = X+5 entonces V(Y) = V(X+5) = V(X) = 2 Si Y = 3X entonces V(Y) = V(3X) = 32 V(X) = 9(2) = 18 Si Y=3X+5 entonces V(Y)=V(3X+5) = 32V(X) = 9(2) =18

MEDIDAS DE LA FORMA DE LA DISTRIBUCION


Son medidas que nos indican la forma de la distribucin de la variable en estudio. Se estudiar la deformacin de una distribucin tanto en el sentido horizontal como vertical con respecto a la forma de la curva normal.

I. MEDIDA DE ASIMETRA
La asimetra o sesgo es el grado de deformacin horizontal de una distribucin, con respecto a la distribucin normal, que se produce por la presencia de valores extremos (altos bajos).

Asimetra Negativa: cuando lacola ms larga de la distribucin est a la izquierda, esto significa que la mayora de los datos estn concentrados a la derecha; el sesgo es originado por la presencia de valores extremos bajos. Asimetra Positiva: cuando lacolams larga de la distribucin est a la derecha, esto significa que la mayora de los datos estn concentrados a la izquierda; hay presencia de valores extremos altos.

Para medir la Asimetra se emplea el coeficiente de Pearson; el cual se calcula de la siguiete forma:

3( X Me) Ak S
Si Ak = 0 la distribucin es simtrica. Si Ak > 0 la distribucin tiene asimetra positiva. Si Ak < 0 la distribucin tiene asimetra negativa.

Ejemplo:
Determine la forma de una distribucin de un conjunto Datos que tienen una media igual a 7.87, una mediana igual a 7.80 y una desviacin estndar 1.293
3(7.87- 7.80) Ak = 1.293 = 0.162

Ak = 0.162 > 0 se tiene una asimetra positiva


(distribucin con cola a la derecha)

II. CURTOSIS
Analiza la deformacin vertical de una distribucin de datos respecto a la normal, es decir el grado de elevacin o apuntamiento de la curva. Para medir la Curtosis se emplea el coeficiente de curtosis:

P75 P25 KU 2(P90 P10 )


El coeficiente de curtosis se compara con un valor referencial (0.263) de la siguiente manera, si:

KU = 0.263 la distribucin es Mesocrtica (Distribucin Normal)

KU < 0.263 la distribucin es Platicrtica (Distribucin Aplanada)


KU > 0.263 la distribucin es Leptocrtica (Distribucin Elevada)

Ejemplo: Evale el grado de agudeza de la distribucin de un conjunto de datos con las siguientes caracteresticas: P75 = 8.8 , P25 = 7.0 , P90 = 9.7 y P10 = 6.1

8.8 7.0 Ku =
2 (9.7 6.1) = 0.25

Ku = 0.25 < 0.263 entonces se tiene una distribucin Platicrtica.

GRAFICAS DE CAJAS
(Box Plots)

Una grfica de cajas es un medio grfico que permite analizar simultneamente la variabilidad y la asimetra de los datos de una muestra. Es muy til tambin para comparar la variabilidad de dos o ms distribuciones.

Tambin permite identificar los valores atpicos llamados Outliers valores extremos.

Procedimiento de Construccion
1. Trace horizontalmente ( o verticalmente) una escala graduada

adecuada. 2. Se traza un rectngulo con los extremos en el primer y tercer cuartil. Este rectngulo contiene el 50% central de datos. 3. En la caja se traza una recta vertical ( u horizontal) en el lugar de la mediana. 4. Se ubican los lmites mediante el Rango Intercuartil (RIQ=Q3-Q1) LI = Q1- 1.5(RI) y LS =Q3 + 1.5(RI). Se considera que los datos fuera de estos lmites son valores atpicos. 5. Se trazan dos lineas (bigotes)que parten de los extremos de la caja hasta los valores mnimo y mximo dentro de los lmites. 6. Por ltimo se marcan con un asterisco (*) los valores atpicos localizados Outliers.

EJEMPLO: Se tienen los salarios mensuales ( en euros) de 12 profesionales de la escuela de administracin.


2210, 2255, 2350, 2380, 2380, 2390 2420, 2440, 2450, 2550, 2630,2835 Donde: Q1 = 2357.5 Q2 = 2405 (Mediana) Q3 = 2525

RIQ =167.5 , LI = Q1-1.5(RI) = 2106.3 , LS = Q3+1.5(RI) = 2776.3

LI

Mediana

Q1

Q3

LS Valor Atpico 2630 2835

2210

1900

2100

2300

2500

2700

2900

Interpretaciones: 1.- La Mediana no esta al centro de la caja por lo tanto se puede deducir que se tiene una distribucin asimtrica positiva, con cola a la derecha. 2.- El ancho de la caja es mayor respecto a los bigotes por lo tanto existe mayor variabilidad en el 50% central de datos. 3.- El bigote izquierdo es menos largo que el el bigote derecho, por ello existe una menor variabilidad en el primer 25% de datos respecto al ltimo 25%. 4.- Se detecta un valor atpico (otuliers) al lado derecho de la caja.

Comparacion de grficas de cajas


EJEMPLO: Los gastos semanales en transporte urbano (soles) que efectan los habitantes de las ciudades en Vista Grande y Pueblo Hermoso han sido estudiados mediante muestras aleatorias independientes. Gastos semanales en movilidad en Vista Grande
22.0 24.0 22.0 24.1 22.1 24.1 23.2 24.2 23.2 24.2 23.2 24.5 23.6 24.7 23.6 25.5

Gastos semanales en movilidad en Pueblo Hermoso


18.1 21.3 18.5 21.3 18.7 21.5 19.9 22.0 20.4 22.0 20.5 22.2 21.1 22.4

Grfico de Cajas de Vista Grande, Pueblo Hermoso


26 25 24 23

Gastos

22 21 20 19 18 Vista Grande Pueblo Hermoso

Interpretaciones:

1.- Los gastos son mayores en Vista Grande. 2.- Ambas distribuciones de gastos en transporte son asimtricas, pero en Pueblo Hermoso lo es ms. 3.- En Pueblo Hermoso se nota que el primer 25% (bigote izquierdo) es mucho mayor que el de la derecha, por lo tanto hay mayor variabilidad en la distribucin de gastos. 4.- En Pueblo Hermoso la distribucin de los gastos en transporte es ms variable que en Vista Grande pues la caja es ms ancha.

Você também pode gostar