Você está na página 1de 73

Captulo 3.

ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

104

Captulo 3.
ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS.
3.1. MEDIDAS DE TENDENCIA CENTRAL Y DE POSICION.
En el capitulo anterior estudiamos de que manera los datos podran ser presentados
en forma compacta, comprensible mediante tablas y grficos. Sin embargo, con
frecuencia necesitamos resumir an ms para facilitar el anlisis e interpretacin de
la informacin. Cuando la variable en estudio es cuantitativa, podemos estar
interesados en encontrar un solo valor, que pueda caracterizar ms ntidamente la
naturaleza de los datos que se estn midiendo.
Un valor que refleje la tendencia de los datos puede darse mediante las medidas de
tendencia central o de posicin. Estas medidas aplicadas a las caractersticas de las
unidades en una muestra se les denomina estimadores o estadgrafos. En cambio
aplicado a las caractersticas de los elementos de una poblacin se les conoce como
parmetros o valores estadsticos de la poblacin.
Las medidas de tendencia central o de posicin ms importantes y muy usadas son:
la media aritmtica o media, la mediana, la media geomtrica y la media armnica.
Tambin podemos mencionar a la moda, los cuartiles, los percentiles, etc. Estas
medidas o estadgrafos son considerados como medidas de localizacin, puesto que
sealan la localizacin de los valores ms frecuentes o de valores extremos.
3.1.1. La media aritmtica.
La media aritmtica o simplemente media, es la medida de tendencia central ms
utilizada, la ms conocida y sencilla de calcular, de gran estabilidad en el muestreo y
sus frmulas admiten tratamientos algebraicos.
a) Clculo de la media aritmtica para datos no agrupados.
Sea x1, x2,..., xn valores de la variable X. La media aritmtica simple de X
representada por X (lase X barra) es dado por:
n

x
i 1

x1 x 2 x n
n

donde n = es el tamao de la muestra.


(1)

En la poblacin se utiliza la letra griega para representar la media, la cual se


determina mediante la formula:
N

X
i 1

X 1 X 2 X N , N = es el tamao de la poblacin.
N
(2)

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

105

b) Clculo de la media aritmtica para datos agrupados.


Sean x1, x2,, xk valores de la variable X ponderada por sus respectivas
frecuencias absolutas: n1, n2,, nk. La media aritmtica ponderada de la variable
X es dado por:
K

x
i 1

ni

, donde n n i .
i 1

(3)
Ejemplo 3.1. Diez observaciones del tiempo de servicio efectivo en minutos de
bateras usadas en una computadora personal porttil son las siguientes:
176 191 214 220 205 192 201 190 183 185
Calcular el tiempo medio de servicio de las bateras.
Solucin.
En este caso n = 10, x1 = 176, x2 = 191, x3 = 214,., x9 = 183 y x10 = 185.
La media o promedio del tiempo de servicio ser:
10

x
i 1

176 191 185 1957

10
10

minutos por bateras.

Ejemplo 3.2. Considerando la informacin contenida en la tabla 2.8 (ver pagina 90),
correspondiente a una muestra de 100 alumnos, en la cual se estudia la variable
estatura. Se pide determinar la estatura media de alumnos.
Tabla 2.8. Distribucin de frecuencias de 100 alumnos de la UNP,
segn su estatura (en cm.).

( Yi1 Yi

Yi

ni

Yini

150 - 155
155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total

152.5
157.5
162.5
167.5
172.5
177.5
182.5
187.5

4
5
12
33
17
16
9
4
100

610.0
787.5
1950.0
5527.5
2932.5
2840.0
1642.5
750.0
17040.0

Luego la media aritmtica de estos datos ser:


8

ni

centmetros.
17040.0
170.4
n
100
3.1.1.1. Propiedades de la media aritmtica.

i 1

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

106

Es necesario conocer y manejar en forma correcta las propiedades que tiene la media
aritmtica, pues nos facilita el desarrollo de ciertas operaciones, muchas de ellas
necesarias en el desarrollo de la teora estadstica y en la prctica.
3.1. La media aritmtica puede ser un valor positivo (cero) o un valor negativo.
3.2. Si todos los valores observados x1, x2, , xn son iguales a c (donde c es una
constante), entonces
M(Y) M(C) C .

En otras palabras la media aritmtica de una constante es la misma constante.


Prueba.
Si x1 x 2 x n c , entonces por definicin de la media aritmtica:
n

xi

M(X) M(C)

i 1

i 1

, propiedad de sumatoria.
nc
c
n

3.3. Si a cada valor de las observaciones x 1, x2,, xn se le suma o se le resta una


constante, el valor de la nueva media aritmtica quedara como la media de los
datos originales X aumentada o disminuida en la constante. Esto es:
Y M (Y) M(X b) M(X) b X b ,

b = constante

Prueba.
Si Y X b , entonces
n

M (Y)

yi
i 1

(x i n i b)
i 1

Xin i

i 1

b
i 1

M(X) b X b

3.4. Si cada valor observado de una variable X se multiplicados o divididos por una
constante diferente de cero, entonces la media de X, X quedar multiplicada o
dividida por esta constante, o sea:
Y M(Y) M(aX) a X , a = constante

Prueba.
Si Y aX , entonces
n

M(Y)

yi
i 1

ax i
i 1

a xini
i 1

a M(X) a X

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

107

En general, si Y bX c , donde a es una constante diferente de cero, y b es


una constante que puede ser positiva, negativa o cero,
Y M(Y) M(bX c) bM(X) c b X c

3.5. La suma de las observaciones respecto a la media (simple y ponderada) sern


siempre iguales a cero.
n

(X

Es decir:

i 1

(X
i 1

X ) 0 ,

X ) n i 0 ,

para datos sin agrupar


para datos agrupados

3.6. La suma de los cuadrados de las desviaciones de cada una de las observaciones
de los valores de la variable X con respecto a su media aritmtica X es
mnima. Esta propiedad significa que, si a es cualquier valor, entonces:
k

(X
i 1

X) 2 n i (X i a) 2 n i

i 1

Prueba.
En efecto,
Sea a una constante arbitraria, entonces se tiene:
k

(X
i 1

a) n i (X i X) (X - a) n i
2

i 1

i 1

i 1

i 1

(Xi X) 2 n i 2 (Xi X)(X - a)n i (X a) 2 n i

Puesto que:
k

i 1

i 1

2 (X i X)(X - a)n i 2(X a) (X i X) 2 n i 0 por propiedad 3.5.


Se tiene
k

i 1

i 1

i 1

(X i a) 2 n i (Xi X) 2 n i (X a) 2 n i
k

y como

(X a)
i 1

n i 0 , obtenemos
k

(X
i 1

a) 2 n i (X i X) 2 n i
i 1

alcanzndose la igualdad cuando X a

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

108

3.7. Si x1, x2, , x n y y1, y2, , y n son dos conjuntos de observaciones de n valores
cada uno, de dos variables X y Y, expresados en las mismas unidades, entonces
M(X Y) M(X) M(Y)

De manera general, si se tienen r conjuntos de observaciones x11, x12, , x1n ;


x21, x22, , x 2n ; ; x r1, x r2, , y r n de n valores cada uno, de r variables x1, x2,
, xr expresados en las mismas unidades, entonces:

M(X i )
i
i 1
i1

3.8. En casos especiales, esto es cuando es apropiado hacerlo, la media aritmtica


se puede utilizar para estimar la cantidad total de una poblacin. Esta
propiedad indica que:
Total N X

donde : N = tamao de la poblacin, X = media aritmtica de la muestra.


Ejemplo 3.3. Las temperaturas registradas en una ciudad, a cierta hora, en grados
Fahrenheit (F), fueron las siguientes: 51, 60, 58, 62, 57, 49, 52, 62, 61, 63.
Determine la media en grados centgrados (C), sabiendo que C = (F -32) / (9/5).
Solucin.
Primero, determinaremos la media de las temperaturas medidas en F.
Fo

51 60 58 62 57 63 575

57.5 Fo
10
10

Luego, calcularemos la media en C, de acuerdo a la relacin dada y propiedades 3.3


y 3.4, tenemos:
C o M(C o ) M(

Fo 32
5
5
127.5
) (Fo 32) (57.5 32)
14.17 o C
9/5
9
9
9

Ejemplo 3.4. En una empresa donde los salarios tienen una media de S/1000.00
nuevos soles, el sindicato solicita que cada salario X, se transforme en Y, mediante la
siguiente relacin:
Y 2.5x 100

El directorio acoge parcialmente la peticin rebajando los salarios propuestos por el


sindicato en un 10%, lo que es aceptado. Se pide calcular la media aritmtica de la
nueva distribucin de salarios:
Solucin. Tenemos que: X 1000
Si Y 2.5x 100

Y M(Y) M ( 2.5 X 100) 2.5 X 100 =

Y 2.5 (1000) 100 2600


Luego, el salario promedio que solicita el sindicato es Y S/. 2600

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

109

Por otro lado, el salario propuesto por el directorio es:


Z Y - 10%Y Y - 0.1Y 0.9Y

M(Z) M(0.9Y) 0.9M(Y)


Z 0.9Y 0.9 ( 2600) 2340

Por tanto, la media de la nueva distribucin de salarios es de S/. 2340.


Ejemplo 3.5. Los ingresos de impuestos sobre ventas en una comunidad particular se
recogen cada trimestre. Los siguientes datos representan los ingresos (en soles)
cobrados durante el primer trimestre del ao, en una encuesta de seis
establecimientos comerciales de la comunidad: 17 11 26 33 9 12
Suponga que hay 350 establecimientos comerciales de menudeo en esa comunidad.
Estime:
a) La cantidad total de ingresos por impuestos sobre ventas que cobrarn este
trimestre.
b) El importe total anual de ingresos por impuestos sobre ventas que se cobrarn en
todos los establecimientos comerciales.
Solucin. En este caso es posible aplicar la propiedad 3.8, entonces:
a) El impuesto medio de la muestra es x S/. 18.00
Nmero de establecimientos comerciales N = 350
Ingreso total en el trimestre = N X 350 18 6300 soles.
b) El ao tiene cuatro trimestres, luego:
Ingreso total anual por impuesto = 4 N X 4 350 18 4 6300 25200 soles.
Ejercicio. Verificar la propiedad 3.5 para los datos del ejemplo 3.1.
Observacin.

La media aritmtica, tambin se puede calcular tomando como ponderaciones


a las frecuencias relativas.
K

y n
i

i 1

K
y1 n 1 y 2 n 2 y k n k
y1 h 1 y 2 h 2 y k n k y i h i
n
i 1

(4)
n
sabiendo que h i i
n

Si consideramos muestras de tamao n1, n2,...,nr de una poblacin, a los


cuales le corresponden medias aritmticas X1 , X 2 , ..., X r respectivamente,
entonces la media asociada a la muestra de tamao n 1 + n2 +...+ nr est dado
por:

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

110

X 1 n 1 X 2 n 2 ... X r n r
Xp

n 1 n 2 ... n r

i 1

ni

(5)

donde n n i .
i 1

Si p1, p2, .,pr son los pesos o ponderaciones asociados a los valores de la
variable X: x1, x2, ,xr respectivamente, entonces la media aritmtica
ponderada ser:
r

Xp

X
i 1

pi
(6)

p
i 1

Ejemplo 3.6. La empresa A tiene 100 empleados, con un sueldo promedio mensual
por empleado de S/. 1500. La empresa B tiene 200 empleados con un sueldo
promedio mensual de S/. 1400.
a) Cul es el sueldo promedio mensual de las dos empresas en conjunto?
b) Si a las dos empresas se agrega una tercera con 50 empleados y un sueldo
promedio mensual por empleado de S/.1600, Cul es el sueldo promedio para las
tres empresas en conjunto?Solucin.
a) nA = 100 ,

X A 1500 ,

nB = 200 ,

X B 1400

si X A B es el promedio mensual de las dos empresas en conjunto, entonces,


X

X A n A X B n B 1500 100 1400 200

S / .1433.33
nA nB
100 200

b) Ahora tenemos que:


nA + B =300

Entonces, X (A BC)

X A B 1433.33 ,

nc = 50

X C 1600

300 1433.33 50 1600


S / .1457.14
300 50

Ejemplo 3.7. Si los porcentajes de mujeres en 3 secciones diferentes escogidas de las


escuelas profesionales de la facultad de ciencias, en el presente semestre son:

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

Escuela profesional

111

N de alumnos

% de Mujeres

Biologa

40

70

Estadstica

25

50

Matemticas

20

40

Hallar el porcentaje global de mujeres en las tres secciones escogidas.


Solucin.
Aplicando la formula de promedio ponderado tenemos:
Xp

(0.7)( 40) (0.5)(25) (0.4)(20) 48.5

0.57 57%
40 25 20
85

Luego, el porcentaje global de mujeres en las tres secciones es de 57%.


Ejemplo 3.8. Siguiendo la nica carretera que cruza cierta regin en lnea recta, se
encuentran cinco ciudades C1, C2, C3, C4 y C5 en dicho orden y a las distancias
siguientes: 6 km. de C1 a C2; 3 km. de C2 a C3; 8km. y 2 km. de C 4 a C5. Un club
tiene sus socios repartidos entre las cinco ciudades de la siguiente manera: el 10%
vive en C1; el 20% en C2 ; el 30% en C3 y el 25% en C4. Se trata de construir, en
algn punto a lo largo de la carretera, un complejo deportivo al que concurran los
socios. La experiencia del club indica que el costo del viaje, para cada uno de los
socios, es proporcional al cuadrado de la distancia que tenga que recorrer. Como el
club paga los pasajes, tiene inters en reducir dicho gasto a un mnimo en el caso de
que acudan al campo todos sus socios. Dnde debe situarse el complejo deportivo?
Solucin.
1) De acuerdo al enunciado la ubicacin de las ciudades cumplen el esquema de la
figura 3.1.
C1

C2

C3

C4

C5
carretera

6 km.

3 km.

8 km.

2 km.

Figura 3.1. Ubicacin de las ciudades donde viven los socios del club.

2) Sea a = el punto a lo largo de la carretera donde se debe construir el complejo


deportivo.
2
Entonces: Ci a (Ci a) 2 = el cuadrado de las distancias a recorrer de la
ciudad Ci al complejo deportivo, i=1, 2, 3, 4, 5.

(C
i 1

a) 2 = la suma del cuadrado de las distancias a recorrer por los socios.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

112

Como el costo es proporcional al cuadrado de la distancia recorrida y se desea que


ste sea mnimo, entonces debemos tener que:
5

(C
i 1

a) 2 = mnimo

3) Por propiedad 3.6, esta expresin ser mnimo, si a C . Por tanto, el problema se
reduce a calcular la media de la ubicacin de las ciudades C i , i=1, 2,, 5 , para lo
cual consideremos como origen de coordenadas, la ciudad C i . esto significa que
ahora se cumple el esquema de la figura 3.2.
y
C1
0

C2

C3

C4

C5

6 km.

9 km.

17 km.

19 km.

Figura 3.2

4) Llevamos los datos del problema a la siguiente tabla, donde se efectuan las
operaciones convenientes.
C i 100 h i %
0
10
6
20
9
30
17
25
19
15

100

hi
Ci hi
0.10 0.00
0.20 1.20
0.30 2.70
0.25 4.25
0.15 2.85
1.00 11.00

Luego,

C C i h i 11

por

la

i 1

formula (4).
Es decir, el complejo deportivo debe
ubicarse a 11 km. de C 1 o entre C 3 y
C 4 a 2 km. de C 3.

3.1.1.2. Ventajas de la media aritmtica.


La media aritmtica, como un solo nmero que representa todo un conjunto de
datos, tiene ventajas importantes:
1. Es un concepto familiar a la mayora de las personas e intuitivamente claro.
2. Es una medida que puede ser calculada y es nica. Ya que cada conjunto de datos
tiene una y slo una media.
3. En el clculo de la media, es tomada en cuenta cada observacin del conjunto de
datos.
4. La media es una medida digna de confianza, por que se determina con mayor
certeza que otras caractersticas de un conjunto de datos.
3.1.1.3. Desventajas de la media aritmtica.
Como cualquier medida estadstica, la media aritmtica tiene sus desventajas de las
cuales se debe estar consciente.
1. La media aritmtica puede verse afectado por los valores extremos que no son
representativos del resto de las observaciones. Por ello, cuando se sta utilizando
esta medida en un anlisis, vale la pena advertir la representatividad de los valores
extremos y la influencia que estos tiene sobre el resultado.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

113

2. No se puede calcular la media aritmtica en las distribuciones que tienen


intervalos de clase abierto en los extremos, es decir de extremos abiertos en la
primera y en la ltima clase.
3.1.2. La Mediana.
La mediana es un valor que divide a un conjunto de observaciones ordenadas en
forma ascendente o descendente en dos grupos de igual nmero de observaciones. La
~
notacin que vamos a emplear ser: X Med(X) mediana
Clculo de la mediana
a) Datos no agrupados.
Para calcular el valor de la mediana de los datos x1, x2, ...,xn se tendr en cuenta el
siguiente procedimiento:
1) Se ordenan los datos en forma ascendente o descendente.
2) Si n es impar, el valor de la mediana es el valor del centro, es decir,
Me X (n 1) / 2

donde

(7)

n 1
es la posicin que ocupa la mediana.
2

3) Si n es par, el valor de la mediana va a estar dado por:


Me

X n 2 X n 2 1

(8)

Esto quiere decir, que el valor de la mediana es igual al promedio aritmtico de los
valores centrales cuya posicin son: n/2 y (n/2+1).
Ejemplo 3.9. Las siguientes cifras son los importes del consumo (en soles) de 13
personas en un restaurante: 13, 15, 20, 20, 25, 35 25, 40, 44, 48, 50, 44, 30.
Determinar la mediana de estos importes.
Solucin. Ordenando la informacin en forma ascendente, tenemos:
13, 15, 20, 20, 25, 25, 30, 35, 40, 44, 44, 48, 50.
Como el nmero de datos es impar (n = 13), se tiene que la posicin de la mediana
es:

n 1
~
7 , luego la mediana de los importes es: X
Med(x)
2

soles.

Esto significa que el 50% de las personas (es decir, 6 de ellos) tienen un importe
menor o igual que 30 soles y el 50% restante de las personas tienen un importe
mayor que 30 soles.
Ejemplo 3.10. El riesgo de manifestar deficiencia de hierro en algn momento es
alto, en particular durante el embarazo. El problema con la deteccin de esta
deficiencia, es que algunos mtodos para cuantificar el hierro se ven afectados por el
estado de embarazo. Considere los siguientes datos en relacin con la concentracin

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

114

del receptor de transferan para una muestra de mujeres con pruebas de laboratorio de
anemia explcita por deficiencia de hierro (Serum Transferrin receptor for the
Detection of Iron Deficiency in Pregnancy, Amer. J. of Clinical Nutrition, 1991:
pg. 1077-1081):
15.2

9.3

7.6

11.9

10.4

9.7

20.4

9.4

11.5

16.2

9.4

8.3

Determine la mediana para este grupo de valores.


Solucin.
Ordenando los valores resulta:
7.6

8.3

9.3

9.4

9.4

9.7

10.4

11.5

11.9

15.2

16.2

20.4

En este caso, n =12 es par, por consiguiente la mediana se localiza entre los valores
centrales X6 y X7 , es decir, entre los valores 9.7 y 10.4. Por tanto, el valor mediano
es:
Me

9.7 10.4

Estas frmulas y procedimientos son muy objetivas y de fcil aplicacin, pero no


siempre se utilizan; generalmente se apela a una distribucin de frecuencias, cuando
es grande la cantidad de datos disponibles.
b) Datos agrupados.
Consideremos dos casos para datos agrupados en tablas sin intervalos y otros en
tablas por intervalos.
Para tablas sin intervalos.
Caso 1. Cuando N j 1

n
, M e Yj
2

(9)
Caso 2. Cuando N j 1

Y Yj
n
, M e j 1
2
2

(10)
Para tablas con intervalos.
Consideremos una distribucin de datos agrupados en intervalos cuyo polgono de
frecuencias acumuladas (ojiva menor que) es el de la figura 3.3.

Ni

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

n /2
N

115

-1

N1
0

Y0

Y1 ..Yj - 1 Me Yj

Yj +1

Figura 3.3.

Por semejanza de tringulos

ADE

ABC se tiene que:

AD DE

AB BC

Reemplazando los correspondientes valores obtenemos:


n
N j1
M e Yj1
2
Yj Yj1
N j N j1
Como c j Yj Yj1
Despejando Me, resulta:
n

2 N j1
~
Me Y Yj1 c

N j N j1

(11)

Donde:
Y j1 = lmite inferior de la clase que contiene a la mediana.

n = tamao de la muestra.
c = amplitud de la clase que contiene a la mediana.
Nj = frecuencia acumulada de la clase que contiene a la mediana.
Nj-1 = frecuencia acumulada de la clase inmediatamente anterior a la clase que
contiene a la mediana.
En este caso el problema consiste en determinar un punto dentro del intervalo en que
est comprendida la mediana.
Procedimiento:
1. Calcular la posicin de orden

n
.
2

2. Por las frecuencias acumuladas se identifica la clase que contiene a la mediana,


esto es, la clase para el cual se cumple:
N j1

n
Nj,
2

Con lo cual la mediana estar en la clase que tiene como frecuencia acumulada Ni.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

116

3. Utilizar la formula:

N j1
2

N j N j1

~ Y
Y
j1 C

Ejemplo 3.11. Dada la siguiente distribucin, se pide determinar su valor mediano:


Xi
0
1
2
3
4

ni
Ni
2
2
3
5
N j -1
6 11
Nj
5 16
4 20
20

Solucin.
n 20

10
2
2

Como N j1

n
o sea 5 < 10 N j1 N 1 5
2

N j N 2 11

Se tiene que aplicar la siguiente formula: Me Yj Y2 2


Ejemplo 3.12. A partir de la distribucin de frecuencia de los 100 alumnos de la
UNP, segn su estatura (ver tabla 2.8, captulo 2), se pide determinar el valor
mediano de las estaturas.
Solucin.

1.

( Yi1 Yi

Yi

ni

Ni

150 - 155
155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total

152.5
157.5
162.5
167.5
172.5
177.5
182.5
187.5

4
5
12
33
17
16
9
4
100

4
9
21
54
71
87
96
100

n 100

50 vo posicin
2
2

2. Se identifica la clase que contiene a la mediana por la frecuencia acumulada, esto


es, a travs de la desigualdad:

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

117

N 3 21 50 vo N 4 54

En este caso, la clase que contiene a la mediana es el cuarto.


3. Reemplazar los datos en la formula obtenemos:
~ 165 5 50 21 169.3939 169.4
Y
centmetros.
54 21

Interpretacin.- Este valor mediano significa, que el 50% de los alumnos tienen una
estatura menor o igual que 169.4 cm., en tanto que el otro 50% tienen una estatura
mayor que 169.4 cm.
3.1.2.1. Propiedades de la mediana.
1. La suma de las desviaciones absolutas de las observaciones con relacin a la
mediana es mnimo, es decir es menor que la suma de las desviaciones absolutas con
relacin a cualquier otro valor de la distribucin. En smbolos
n

x
i 1

Me = mnimo, para datos no tabulados.

Me n i = mnimo, para datos tabulados.

y
i 1

Si a es cualquier valor, entonces la propiedad se escribe:


n

x
i 1

y
i 1

Me x i a , para datos no agrupados


i 1

Me n i y i a n i , para datos agrupados.


i 1

2. La formula (11) en trminos de las frecuencias relativas acumuladas ser:

~ Y
Me Y
j1

2 H j1
c

H j H j1

(12)

3. Como la mediana depende del nmero de valores observados, entonces est


afectado por las observaciones y no por el magnitud de cualquier valor extremo.
4. La mediana es un valor muy adecuado cuando se utiliza para describir
distribuciones cuyos valores centrales estn muy prximos.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

118

5. Algunas veces es un valor ms representativo de un conjunto de datos que otros


promedios (especficamente que la media aritmtica), gracias a su independencia, a
sus valores extremos.
6. La mediana se puede calcular an cuando los intervalos de clase de la distribucin
de frecuencias son de lmites abiertos.
7. La mediana no es adecuada a manipulaciones algebraicas posteriores, o sea si
~ X
~ Y
~
Z i X i Yi , entonces no siempre Z
i
i
i.
Ejemplo 3.13. Cinco amigos habitan en los lugares situados en una carretera (figura
3.5). Cul de estos puntos deben elegir para un encuentro de modo que el gasto
total de dinero para el viaje sea mnimo?. Se supone que el costo del viaje es
proporcional al recorrido.
A

30 km.

10 km.

D
8 km.

E
12 km.

Figura 3.4.

Solucin. Sea A = x1 , B = x2 , C = x3 , D = x4 , E = x5 y a = punto de encuentro (uno


de los puntos indicados A, B, C, D o E). Entonces:
xi a

= distancia del punto x i al punto de encuentro, i=1, 2, 3, 4, 5.

y
5

x
i 1

a = distancia total recorrido por los 5 amigos.

Puesto que el costo total del viaje es proporcional al recorrido total, entonces se debe
tener que:
5

x
i 1

a = mnimo.

Por la propiedad 1 de la mediana, esta expresin es mnima, cuando a = Me. Luego,


el problema se reduce a calcular la mediana de los puntos A, B, C, D y E. para lo
cual consideremos como origen de coordenadas el punto A para ordenar los puntos.
Es decir
A

30 km.

40 km.

48 km.

60 km.

0
Figura 3.5.

Como n = 5, un nmero impar de datos, la mediana es el valor de la observacin que


ocupa la posicin central (n+1) /2 = (5+1)/2 = 3, el 3 lugar o sea el punto de
encuentro debe ser C.
3.1.3. Los Cuartiles.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

119

Son valores que dividen a un conjunto de datos ordenados en forma ascendente o


descendente en cuatro partes iguales (Figura 3.6).
0%

25%

Q1

50%
Q2

75%

100%

Q3
Figura 3.6

Q1 = 1er cuartil, deja 25% de las observaciones menores o iguales a l y el 75%


superiores a l.
Q2 = 2do cuartil, coincide con la mediana.
Q3 = 3er cuartil, deja 75% de las observaciones inferiores o iguales a l y el 25% de
stas superiores a l.
Es importante notar que entre dos cuartiles consecutivos se halla el 25% del nmero
de valores.
Determinacin de Q r (r=1, 2, 3)
a) Para datos no agrupados o no tabulados. Sea x1, x2, , xn un conjunto de
observaciones de una variable o caracterstica X. Entonces:
1. Se ordenan los datos en forma ascendente: x (1), x (2), , x (n)
2. Se localiza el punto de posicin del valor correspondiente a la r(n+1)/4
observacin ordenada.
r(n 1)
i. Si
es un entero, entonces
4
Qr = a la observacin particular correspondiente al punto de posicin de
X r(n 1)
r(n+1)/4 =
.
4

ii. Si

r(n 1)
no es un entero, hacemos una interpolacin lineal entre los datos
4

correspondientes a las dos observaciones entre las cuales se encuentra la


fraccin.
Ejemplo 3.14. Al examinar los registros de facturacin mensual de una empresa
editora con ventas a crdito, el auditor toma una muestra de 11 de las facturas no
pagadas. Las sumas que se adeudan a la compaa en miles de soles son: 4, 18, 11,
7,7, 10, 21, 5, 33, 9 y 12. Determine Q1 y Q3.
Solucin.
Clculo de Q1
1.
Los datos ordenados en forma ascendente son: 4, 5, 7, 7, 9, 10, 11, 12,
18, 21, 33
2.

Como n =11,
observacin ordenada.

n 1 11 1

3 es un entero, entonces, Q1 es la tercera


4
4

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

Q1 x

n 1
)
4

120

x (3) 7

Interpretacin. Este valor de significa que el 25% de las facturas no pagadas tienen
una deuda menor o igual a 7000 soles, en tanto que, las 75% de las facturas no
pagadas restantes tiene una deuda mayor a 7000 soles.
Clculo de Q3
3(n 1) 3(11 1)

9 , entonces, Q3 es la novena observacin


4
4

Como n =11,

ordenada, es decir,

Q1 x

3(

n 1
)
4

x (9) 18

b) Para datos agrupados o tabulados.


Las formulas para calcular los cuartiles se derivan de la formula utilizada para
calcular la mediana y los pasos para el clculo son los mismos:
Procedimiento.
1. Se calcula

rn
, para r = 1, 2, 3.
4

2. Se identifica la clase que contiene a Qr por medio de las frecuencias acumuladas,


esto es, por la desigualdad:
N j1

rn
Nj
4

3. Se aplica la frmula:
Q r Y j1

rn
N j1

c 4
N j N j1

r = 1, 2, 3.

(13)
Donde:

Y j1 = lmite inferior de la clase que contiene al cuartil Qr.

n = tamao de la muestra.
c = amplitud de la clase que contiene a Qr.
Nj = frecuencia acumulada de la clase que contiene a Qr.
Nj-1 = frecuencia acumulada de la clase inmediatamente anterior a la clase que
contiene a Qr.
Ejemplo 3.15. Dada la siguiente distribucin, determinar los cuartiles Q1 y Q3.

( Yi1 Yi
150
155
160
165
170
175

155
160
165
170
175
180

Yi

ni

Ni

152.5
157.5
162.5
167.5
172.5
177.5

4
5
12
33
17
16

4
9
21
54
71
87

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

180 - 185
185 - 190
Total

182.5
187.5

121

9
4
100

96
100

Solucin.
1.

n 100

25 vo ;
4
4

3 n 300

75 vo
4
4

2. Por las frecuencias acumuladas identificamos las clases que contienen a Q1 y Q3.
n
25 54 N 4 , entonces el intervalo de clases que contiene a
4

Como N 3 21
Q1 es (165 - 170].

Por otro lado, como N 5 71

3n
75 87 N 6 , entonces el intervalo de
4

clases que contiene a Q3 es (175 - 180].


3. Usando las formulas dada para calcular Q1 y Q3 tenemos:

Q 1 Y j1

4 N3
25 21
c
165.61
165 5
N

N
54 21
4
3

Q 3 Y j1

3n

4 N5
75 71
c
175 5
176.25
N

N
87 71
6
5

centmetros.

centmetros.

De acuerdo a estos resultados, podemos afirmar que, en est distribucin tenemos:


25%
150

25%

Q1 = 165.61

25%

Q2 = 169.40

25%

Q3 = 176.25

190

3.1.4. Deciles.
Los deciles son valores que dividen a un conjunto de datos ordenados en forma
ascendente o descendente en 10 partes iguales (Fig. 3.7).
0%
D1

10%
D2

20%
D3

30%
D4

40%

50%
D5

D6

60%
D7

70%
D8

80%
D9

Figura 3.7

D1 = 1er decil, deja 10% de las observaciones menores o iguales a l.


D2 = 2do decil, deja 20% de las observaciones menores o iguales a l.

90% 100%

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

122

.
.
.

D9 = 9no decil, deja 90% de las observaciones inferiores o iguales a l y el 10% de


stas superiores a l.
Para determinar los deciles se aplica la siguiente formula:
rn
N j1

c 10
N j N j1

D r Y j1

r = 1, 2,, 9

(14)

Donde:
Y j1 = lmite inferior de la clase que contiene a Dr , r = 1, 2, ..., 9.
n = tamao de la muestra.
c = amplitud de la clase que contiene a Dr.
Nj = frecuencia acumulada de la clase que contiene al r-simo decil, Dr.
Nj-1 = frecuencia acumulada de la clase anterior a la clase que contiene a Dr.
3.1.5. Percentiles.
Son valores que dividen la muestra ordenada en forma ascendente o descendente en
100 partes iguales.
0%
P1

1%

2%
P2

50%

P50

P98

98%

99%

100%

P99

Figura 3.8

P1 = 1er percentil, deja 1% de las observaciones menores o iguales a l y el 99%


superiores a l.
.
.
.

P99 = 99vo percentil, deja 99% de las observaciones menores o iguales a l y el 1%


superiores a l.
La formula para determinar los percentiles, son parecidos a los cuartiles y deciles,
as:

Pr Y j1

rn
100 N j1
c
N j N j1

r = 1, 2, ... , 99

(15)
Donde:
Y j1 = lmite inferior de la clase que contiene a Pr , r = 1, 2, ..., 99.
n = tamao de la muestra.
c = amplitud de la clase que contiene a Pr.
Nj = frecuencia acumulada de la clase que contiene a Pr.
Nj-1 = frecuencia acumulada de la clase anterior a la clase que contiene a Pr.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

123

Ejercicio. Determinar el 4to decil y el 72vo percentil de la siguiente distribucin de


frecuencias.

( Yi1 Yi

Yi

ni

Ni

150 - 155
155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total

152.5
157.5
162.5
167.5
172.5
177.5
182.5
187.5

4
5
12
33
17
16
9
4
100

4
9
21
54
71
87
96
100

3.1.6. La Moda.

La moda denotada por X M 0 , es un valor de la variable X que tiene la ms alta


frecuencia, esto es, es el valor ms se repite en un conjunto de datos. La moda puede
no existe, incluso si existe puede no ser nica.
Ejemplo 3.16. En mes, 8 vendedores de artculos electrnicos vendieron los
siguientes nmeros de aparatos: 8, 11, 5, 14, 8, 11, 16 y 11. Considerando a este mes
como a la poblacin estadstica que interesa, el nmero modal de unidades vendidas

es: X M 0 .......
Ejemplo 3.17. Considere la distribucin de los pesos (en kilos) de 15 adultos:
63, 67, 70, 69, 81, 57, 63, 73, 68, 63, 71, 71, 71, 83.
La moda de estas observaciones es:

X ....... kilos

X ....... kilos

En este caso la distribucin se llamar bimodal.


Ejemplo 3.18. Las notas promocinales de 7 alumnos son: 15, 16, 17, 14, 13, 12, 11.
Estos datos No tienen moda. Las distribuciones de este tipo se llaman uniforme.
En general, se tiene lo siguiente:
i) La distribucin que tiene una sola moda se llama unimodal.
ii) La distribucin que tiene dos modas se llama bimodal.
iii) La distribucin que tiene ms de dos modas se llama multimodal.
3.1.6.1. Clculo de la Moda para datos agrupados.
Cuando los datos estn tabulados: La clase que contiene mayor frecuencia ser la que
contiene a la moda, y se llama clase modal.
a) Tablas sin intervalos.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

124

En este caso la moda se determina fijndose en el valor de la variable que ms se


repite.
Ejemplo 3.19. Determine la moda de la distribucin siguiente:
N de hijos por familia
Yi
0
1
2
3
4
5
6 a ms

Total

N de familias
ni
60
120
210
360
160
50
30

990

Solucin.
1. La frecuencia absoluta mxima
es n 4 = 360.
2. Luego, la moda es el valor de
la variable que corresponde a
la frecuencia n 4 = 360, M 0 = 3
hijos.

b) Tablas con intervalos.


Para un conjunto de datos tabulados con intervalos de clases de igual amplitud
(c i = c), la estimacin de la moda se calcula por la frmula obtenida grficamente
como sigue:
En este caso, consideremos el siguiente histograma de distribucin.
ni
C

nj
F

n j -1
A

n j +1

Yj - 1 Mo Yj

Y
Figura 3.9

Por semejanza de los tringulos

ABC y

DBE, se tiene:

BF
BG

AC DE

Es decir,

M o Yj 1
n j n j 1

Yj - M o
n j n j1

Como Yj Yj1 c j , entonces despejando Mo de la expresin anterior se tiene que:

n j n j 1

M o Yj 1 c j

(n j n j 1 ) (n j n j 1 )

(16)

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

125

De la formula anterior si hacemos: 1 n j n j - 1 , 2 n j n j 1


Por tanto, se tiene la siguiente expresin conocida como la frmula de Czuber:

1 2

M o Y Yj1 c j

(17)
Donde:

Y j1 = lmite inferior de la clase modal.


nj

= frecuencia absoluta de la clase modal.

n j - 1 = frecuencia absoluta de la clase inmediatamente anterior a la clase modal.


n j 1 = frecuencia absoluta de la clase inmediatamente posterior a la clase modal.

c = amplitud de la clase modal


Para datos agrupados en intervalos de clase, aplicaremos el siguiente procedimiento
para el clculo de la moda.
1. Se identifica la clase modal (la clase con mayor frecuencia).
2. Se aplica la formula para la moda.
Ejemplo 3.18. Determinar la moda para la siguiente distribucin.

( Yi1 Yi

Yi

ni

150 - 155
155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total

152.5
157.5
162.5
167.5
172.5
177.5
182.5
187.5

4
5
12
33
17
16
9
4
100

Solucin.
1. El intervalo de clase de mayor frecuencia absoluta ( n 4 n Mo 33 ) es el cuarto
intervalo: (165 170
1 33 12 21
2 33 17 16

c = 5.
2. Aplicando la formula tenemos:

21

Y 165 5
167.8378 167.84 centmetros.
21 16

Este valor modal significa que: la estatura ms frecuente en los alumnos es de 167.84
cm.; o tambin que la mayora de los alumnos tienen una estatura igual a 167.84 cm.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

126

Observacin. La moda tiene una caracterstica especial, pues es la nica medida de


posicin que se puede utilizar sin restricciones a datos cualitativos.
Ejemplo 3.19. Una imprenta saca seis impresos, que se clasifican: muy claro, claro,
oscuro, claro, claro, y borroso. Hallar el valor modal.
Clasificacin Frecuencia
Muy claro
1
Claro
3
Oscuro
1
Borroso
1

Solucin. Llevemos los datos a una


tabla de frecuencias para observar
rpidamente el valor modal. En la
tabla de clasificacin que se presenta
con mayor frecuencia es Claro.
Luego, el valor modal es M o= Claro.

3.1.6.1. Ventajas de la Moda.


1. La moda se puede usar como una localizacin tanto para datos cualitativos
como cuantitativos.
2. La moda no est indebidamente afectada por valores extremos. An si los
valores altos son muy altos y los valores pequeos muy pequeos, se escoge
el valor ms frecuente del conjunto de datos como el valor modal.
3. La moda se puede calcular an cuando una ms de las clases sean abiertas en
los extremos.
4. Es el valor tpico, y por ello el promedio ms descriptivo. Esto ocurre cuando
la distribucin es asimtrica; y cuando el valor de la moda y del promedio es
diferente, es preferible usar la moda.
3.1.6.2. Desventajas de la Moda.
1. Muy a menudo, no hay un valor modal, por que el conjunto de datos no
contiene valores que se repitan ms de una vez. Otras veces, cada valor es la
moda, por que cada uno aparece el mismo nmero de veces. Claramente, la
moda no es una medida til en estos casos.
2. Cuando el conjunto de observaciones contiene dos, tres o ms modas. stas
son difciles de interpretar y comparar.
3. La moda no se presta a manipulaciones algebraicas posteriores.
3.1.7. Relacin entre la Media, Mediana y Moda.
a) Distribuciones simtricas.
Se dice que una distribucin de frecuencia es simtrica cuando valores de la
variable equidistantes de un valor central tienen las mismas frecuencias. Es
importante destacar en este caso que:

~
X X X
ni

Figura

b)

3.10

Distribuciones asimtricas.

x ~
x x

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

127

Para una distribucin sesgada hacia la derecha (si la cola mayor se presenta a la
derecha de la distribucin) Figura 3.11, se tiene que:

~
X X X

Para una distribucin sesgada a la izquierda (Figura 3.12) tenemos:

~
X X X

ni
ni

x ~
x

x ~
x x
Figura 3.12

Figura 3.11

Cuando la distribucin no tiene simetra, la mediana queda comprendida


generalmente entre la moda
y la media aritmtica.
c) Si la distribucin es
cumple
x Mo 3( x Me)

moderadamente asimtrica y
aproximadamente la relacin:

unimodal,

se

Ejercicio. Considerando la distribucin de frecuencias sobre la estatura de los


alumnos (ver tabla 2.8, pagina 90), se pide analizar la asimetra de la distribucin.
3.1.7. 1. Escogimiento entre la Media, la Mediana y la Moda.
De las tres medidas de posicin central, la media aritmtica suele ser ms
frecuentemente utilizada, quiz por la facilidad de su clculo a pesar de que muchas
ocasiones la mediana o la moda resultan de mayor inters.
a) La media aritmtica como medida de resumen tiene la ventaja de tomar en cuenta
la totalidad de los valores del conjunto de datos, aumentando o disminuyendo de
acuerdo con ellos, pero a causa de esta propiedad, puede ser desventajosamente
afectado por la existencia de valores anormalmente altos o anormalmente bajos. Por
regla general, sin embrago, puede decirse que cuando la serie o conjunto de datos es
ms o menos simtrica, el promedio debe ser preferido a cualquier otra medida de
resumn.
b) La mediana por su parte debe ser utilizada cuando entre los valores que se
estudian, hay alguno muy diferente de los otros. Adems hay ocasiones en que debe
usarse la mediana por no ser el calculo del promedio. Tal caso sucede en aquellas
distribuciones en las cuales la primera o la ltima clase no tienen lmites precisos.
c) La moda no es una medida de tendencia central muy usual, pero se emplea cuando
el inters se centra en conocer el valor que se presenta ms frecuentemente. Por
ejemplo en los negocios, sirve para determinar qu tamao del producto es el de

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

128

mayor demanda. Similarmente para programar la produccin de un medicamento el


fabricante estar interesado en cual es la dosis ms comnmente recetada por los
mdicos?
3.1.8. La media Geomtrica.
3.1.8.1. Media geomtrica para datos no agrupados.
La media geomtrica simple M g x G de n observaciones x 1, x 2,, x n positivas,
esta dada por la raz ensima del producto de los n valores observados, es decir
x G M g n x1 x 2 x n n

(18)

i 1

Ejemplo 3.20. Hallar la media geomtrica de los nmeros 3, 5, 8, 3, 5, 2.


Solucin. En este caso la media geomtrica es:

x G 6 3 5 8 3 5 2 6 32 52 4 2 3 3 5 4 3 60 3.914867 3.915
En la prctica, el clculo de la media geomtrica se hace ms rpido tomando
logaritmo y luego el antilogaritmo de ste como sigue:
log x G log n x 1 x 2 x n

1
log x1 log x 2 log x n
n

1 n
log x i
n i 1
Ahora basta calcular el antilogaritmo de la expresin anterior para tener:
log x G

log x

x G antilog

i 1

(19)

Hemos usado logaritmo de base 10, es claro que puede usarse cualquier sistema de
logaritmo.
En cuanto a la denominacin media geomtrica proviene del hecho de que es el
trmino central de una progresin geomtrica de un nmero impar de observaciones.
Es decir, de una sucesin de nmeros positivos, tales que la relacin de cada una con
el precedente es una constante. Por ejemplo, en las progresiones geomtricas:
1.

2.

18

54

162

En la primera serie, el trmino central 4 es la media geomtrica.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

129

x G 3 2 4 8 3 64 4

En efecto:

En la segunda progresin geomtrica, el trmino central 18 es la media geomtrica.

x G 5 2 6 18 54 162 5 2 6 18 18 3 18 9 5 185 18

En efecto:

3.1.8.2. Media geomtrica para datos agrupados.


Si los datos estn agrupados en clases, la media geomtrica ponderada, es la raz
ensima del producto de las marcas de clases elevadas a sus respectivas frecuencias,
es decir:
y G n y1n1 y n2 2 y nk k n

ni
i

(20)

i 1

Donde n n i , y i = marca de clase, i = 1, 2,, k, k=nmero de clases.


i 1

Aplicando logaritmo a ambos miembros de la expresin anterior se tiene:


log y G

k
1
n1log y1 n 2log y 2 n k log y k 1 n i log yi
n
n i1

Luego,

y G antilog

i 1

log y i
n

(21)

Ejemplo 3.21. Hallar la media geomtrica de la siguiente distribucin de


frecuencias:
Marca de clase 92 93 94 95 96
frecuencia
4 11 21 10 4

Solucin. Las operaciones pueden verse en la siguiente tabla:


yi
92
93
94
95
96
Totales

ni
4
11
21
10
4
50

log y i
1.9637878
1.9689829
1.9731278
1.9777236
1.9822712

n i log y i
7.8551513
21.653312
41.435684
19.777236
7.929084
98.650469

log x G

1 k
98.650469
n i log y i

n i 1
50
1.97300938

Luego,
x G antilog(1.97300938) 93.974363

3.1.8.3. Ventajas y desventajas de la Media Geomtrica.


Ventajas.
1. Se utiliza cuando se quiere dar importancia a valores pequeos de la
variable.
2. Su valor no es muy influenciable por los datos extremos, como sucede con
los otros promedios.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

130

3. Se debe utilizar cuando lo que se va a promediar son tasas de cambio o


proporciones.
4. Es indispensable cuando se desea sacar el promedio de una serie de valores
que estn dados en progresin geomtrica o aproximadamente geomtrica.
Desventajas.
1. Su clculo es muy engorroso.
2. Est limitado para valores positivos para que pueda ser interpretado.
3. Si algn valor de la variable es cero, la media geomtrica ser cero.
4. Si aparece algn valor negativo, el estadgrafo toma un valor negativo o
imaginario y cuando el nmero de datos es par, tericamente tiene dos
valores: uno positivo y otro negativo.
3.1.8.4. Propiedades de la Media Geomtrica.
1. La media geomtrica de n observaciones es tal que si es sustituida por cada una de
las observaciones, deja inmutado el producto de los trminos, es decir

x1 x 2 x n x G

2. La media geomtrica de una serie de relaciones es igual a la relacin entre la


media geomtrica de los numeradores y la media geomtrica de los denominadores.
Es decir
n x x x
x1 x 2
x
n
n 1 2
n
n
y1 y 2
yn
y1 y 2 y n
Por tanto, es til para efectuar media de relaciones.
3. La media geomtrica est basada en todas las observaciones, por lo que est
afectado por todos los valores de la variable. Sin embargo da menos peso a los
valores extremadamente grandes que el que le da la media aritmtica.
4. La geomtrica de trminos positivos es siempre menor o igual que la media
aritmtica. Es igual a la media aritmtica slo en el caso en que todos los trminos
sean iguales entre s.

x xG

Prueba.
Veamos la demostracin en el caso de dos trminos positivos x1, x2.
Entonces
x x
x 1 2 0 y x G 2 x1 x 2 0
2
Como x y x G son ambos positivos, se pueden elevar al cuadrado y tener
x x2
x 1

y x G x1 x 2

x 2 2x1 x 2 x 22
x1 x 2
x1 x 2
x1 x 2 1
2
4

Pero x x G 2

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

131

x12 2x1 x 2 x 22 4 x1 x 2 x12 2x1 x 2 x 22

4
4
2

x x2
1

Siendo el cuadrado siempre no negativo, y nulo slo en el caso en que los dos
trminos tengan igual valor. Entonces
2
2
2
2
x x G 0 , de donde x x G

y como x y x G son positivos se tiene que x x G .


3.1.8.5. Aplicaciones de la Media Geomtrica.
Pese a las desventajas mencionadas, para cierto tipo de variables, en especial las
cronolgicas, que sigue una tendencia exponencial, se hace indispensable su uso, si
se desea calcular valores intermedios, es decir, si se quiere interpolar linealmente.
Tambin se usa cuando se desea promediar tasas de cambios, proporciones, ndices.
Ejemplo 3.22. En el siguiente cuadro, determinar el cambio (factor de crecimiento)
promedio de la poblacin (en millones de habitantes).
Aos Poblacin Cambios (x i )
1940
2
1950
8
4
1960
128
16

Solucin.
1)
El cambio promedio de crecimiento, usando la media aritmtica simple ser:
x

4 16
10 veces cada 10 aos.
2

Segn este promedio, el crecimiento de la poblacin ser:


Aos Poblacin ( x
)
1940 2
1950 2 x 10 = 20
1960 20 x 10 = 200

Pero, el cuadro inicial dado muestra un


crecimiento real de slo 2, 8 y 128. Por
tanto el cambio promedio correcto de
crecimiento, deber ser menor que 10.
Es decir, en este caso la media
aritmtica para la tasa de crecimiento es
incorrecta.

2) Si usamos la media geomtrica para obtener este promedio de cambio, tenemos:

x G 2 4 16 2 64 8 veces cada 10 aos.


Segn este promedio, el crecimiento de la poblacin ser:

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

Aos Poblacin
xG )
1940 2
1950 2 x 8 = 16
1960 16 x 8 = 128

132

Como puede verse la


media geomtrica da
un crecimiento ms
prximo al crecimiento
real.

Por tanto, la mejor medida para promediar el cambio de crecimiento es la media


geomtrica x G
Ejemplo 3.23. Crecimiento de una cuenta de ahorros. Suponga que se depositaron
$100 inicialmente y que se acumulan los intereses a tasas variables de 7, 8, 10, 12 y
18% anual, durante cinco aos. Hallar el factor de crecimiento promedio anual.
Solucin. El crecimiento se resume en la siguiente tabla.
Ao

Tasa de inters
(%)

Factor de
crecimiento (xi)

Ahorros al final del ao.

1
2
3
4
5

7
8
10
12
18

1.07
1.08
1.10
1.12
1.18

$100.00 x 1.07 = $ 107.00


$107.00 x 1.08 = $ 115.56
$115.56 x 1.10 = $ 127.12
$127.12 x 1.12 = $ 142.37
$142.37 x 1.18 = $ 168.00

Donde la columna llamada factor de crecimiento se obtiene usando la frmula,


tasa de inters
100
7
8
As, 1.07 1
, 1.08 1
, etc.
100
100
1

El factor de crecimiento es la cantidad por la cual se deben multiplicar los ahorros al


comienzo del ao para obtener los ahorros al final del ao (ver, ltima columna de la
tabla).
El factor de crecimiento promedio anual, usando la media aritmtica simple ser:
x
1.11 1

1.07 1.08 1.10 1.12 1.18


1.11 veces cada ao.
5

11
, corresponde a una tasa de inters promedio del 11% anual. Sin
100

embargo, si el banco pagara intereses a tasa constante del 11% anual, un depsito de
$ 100 crecera en cinco aos al:
$ 100 x 1.11 x 1.11 x 1.11 x 1.11 x 1.11 = $ 168.51
La tabla anterior muestra que el crecimiento real es de slo $ 168.00 un poco menor.
Por tanto el factor de crecimiento promedio anual deber ser un poco menor que
1.11.
En cambio, si usamos la media geomtrica para obtener el promedio pedido,
tendremos que el factor de crecimiento promedio anual es:

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

133

x G n producto de todos los factores de x

= 5 1.07 1.08 1.10 1.12 1.18 5 1.679965


= 1.1093 veces cada ao.
1.1093 1

10.93
que corresponde a una tasa de inters promedio del 10.93%.
100

Ahora si el banco pagara intereses a tasas constante de 10.93% anual, el depsito de


$ 100 crecera en cinco aos a:
$ 100 x 1.1093 x 1.1093 x 1.1093 x 1.1093 x 1.1093 = $ 167.975 = $ 168
Que es igual al crecimiento real mostrado en la tabla. Por tanto, 1.1093 veces cada
ao es el factor de crecimiento promedio correcto. Observe que la tasa de inters
promedio correcto de 10.93% por ao obtenida con la media geomtrica es muy
cercana a la tasa promedio incorrecto de 11% obtenida con la media aritmtica. Esto
ocurre cuando las tasas de inters son relativamente pequeas. Tngase cuidado, sin
embargo, en no caer en la tentacin de usar aritmtica en lugar de la media
geomtrica (ver ejemplo 3.24).
Ejemplo 3.24. Supngase que durante cinco aos de una Economa altamente
inflacionaria, los bancos pagan tasas anuales de inters de 100, 200, 250, 300 y 400
por ciento. Hallar la tasa de inters promedio anual de un depsito de $100.
Solucin. El crecimiento de los $100 en los cinco aos se resume en la siguiente
tabla.
A
o

Tasa de inters

Factor de crecimiento (xi)

100 %
200 %
250 %
300 %
400 %

2.0
3.0
3.5
4.0
5.0

1
2
3
4
5

Ahorros al final del ao.

$ 100 x 2 = $ 200
$ 200 x 3 = $ 600
$ 600 x 3.5 = $ 2100
$ 2100 x 4 = $ 8400
$ 8400 x 5 = $ 42000

Donde la columna de factor de crecimiento se obtiene por la formula:


1

tasa de inters
100

El factor de crecimiento promedio anual, usando la media aritmtica ser:


x

Pero 3.5 1

2 3 3.5 4 5
3.5 veces cada ao.
5

250
, corresponde a una tasa de inters promedio de 250% anual.
100

Entonces, el depsito de $100 crecer en cinco a:


$ 100 x 3.5 x 3.5 x 3.5 x 3.5 x 3.5 = $ 52521.88

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

134

Este resultado excede al real de $ 42000 (ver tabla del ejemplo) en ms de $ 10500 un
error considerable.
En cambio, usando la media geomtrica, el factor de crecimiento promedio anual
ser:
x G 5 2 3 3.5 4 5 5 420 3.347 veces cada ao.
que corresponde a una tasa de inters promedio anual de 235%, pues:
3.347 1

234.7
235
1
100
100

Observe que en este caso, el uso de la media apropiada hace una gran diferencia.
Observacin.
1. En demografa, para estimar la poblacin de una determinada localidad en un ao
t x, cuando se supone crecimiento geomtrico entre dos censos, se usa la formula:
P
Px P0 1
P0

t x t 0
t1 t 0

Donde:
P0 = poblacin en el primer censo, realizado en la fecha t 0.
P1 = poblacin en el segundo censo, realizado en la fecha t 1.
Px = poblacin que se quiere estimar en la fecha t x.
2. Si se quiere determinar la poblacin en el centro de periodo (t 0 , t1), esto es, para
t t
t t
t t
tx 1 0
t x t0 1 0 t0 1 0
2
2
2
Luego,

t1 t 0
tx t0
1
2
t1 t 0 t1 t 0 2

P
Px P0 1
P0

1
2

P0 P1

Es decir, Px es la media geomtrica de P0 y P1.


Ejemplo 3.25. Si la poblacin de una ciudad grande al 31 de diciembre de 1990 fu
de 5.8 millones de habitantes, y al 31 de siembre de 2000 de 7.2 millones. Determine
la poblacin en 1995. En 1998?
Solucin. Si se supone un crecimiento poblacional exponencial y a una tasa
constante, es posible usar la media geomtrica, que dar la poblacin a mitad de
periodo, o sea en 1995. Luego,
Px

P0 P1

5.8 7.2 6.459

millones de habitantes.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

135

3.1.9. La media Armnica.


3.1.9.1. Media Armnica de datos no agrupados. La media armnica Mh x H de
n trminos no nulos x1, x2,, xn es el recproco de la media aritmtica de los
recprocos de esos trminos. Es decir
x H Mh

1
/n

i 1 x i
n

n
n

x
i 1

(22)

Ejemplo 3.26. La media armnica de los nmeros 3, 4, 6 y 8 es:


xH

4
4
4
4 24 32

4.57143
1 1 1 1 8 6 4 3 21
21
7

3 4 6 8
24
24

Observemos que la aritmtica y la media geomtrica con los mismos datos son
respectivamente:
x 5.25 y x G 4.899

3.1.9.2. Media Armnica de datos agrupados. La media armnica para datos


tabulados (media armnica ponderada) se define por:
yH M h

1 k ni

n i1 y i

n
ni

i 1 y i
n

(23)

donde k = nmero de clases, yi = marca de clase, ni = frecuencia de clase con


i=1, 2,, k
Ejemplo 3.27. Con los datos de la siguiente tabla de frecuencias, correspondiente a
una distribucin continua, calcular la media armnica.
yi-1 yi
2.1 - 6.0
6.1 - 10.0
10.1 - 14.0
14.1 - 18.0
18.1 - 22.0

ni
3
7
12
16
20

yi
4
8
12
16
20

n i /y i
0.750
0.875
1.000
0.500
0.500

yH

40

3.625

n
40

11.03
n i 3.625

i 1 y i
n

3.1.9.3. Ventajas y desventajas de la Media Armnica.


Ventajas.
1. Se usa preferentemente para calcular la velocidad media.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

136

2. De gran utilidad cuando la variable est dada en forma de tasa, costo


medio de bienes comprados con una cantidad fija.
Desventajas
1. La media armnica se basa en todas las observaciones por lo que est
afectado por los valores extremos.
2. La media armnica no esta definido, si alguno de los valores es cero.
3.1.9.4. Propiedades de la Media Armnica.
1. La media Armnica se basa en todas las observaciones, por lo que est afectado
por todos los valores de la variable. Da a los valores extremadamente grandes un
peso menor que el que las d la media geomtrica, mientras que a los valores
pequeos les da un peso mucho mayor que el que las d la media aritmtica como la
media geomtrica.
2. La suma algebraica de las desviaciones de los recprocos de las observaciones del
recproco de la media armnica es nula. Es decir,
1
1
0

x H
i 1 x i
n

3. Para trminos positivos, la media armnica es menor o igual que la media


geomtrica. O sea,

xH xG

4. De la propiedad 3 y la propiedad 4 (de la media geomtrica), se tiene:

xH xG x
Siempre que se trate del mismo conjunto de datos.

3.1.9.5. Aplicaciones de la media armnica.


La media armnica se aplica en los casos siguientes:
1. Cuando se tiene trminos para cuyos recprocos se quiere calcular su media.
2. Cuando se presenta una relacin inversa entre las variables implcitas, como por
ejemplo, entre la productividad y el tiempo. Es decir,
e p t

de donde p e

1
t

donde e = espacio ; p = productividad ; t = tiempo


La velocidad y el tiempo tambin estn en relacin inversa:

e v t , v e
donde e = espacio ; v = velocidad ; t = tiempo

1
t

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

137

Ejemplo 3.28. Suponga que ha gastado usted, un sol por 3 docenas de naranjas en
una tiende, otro sol por 4 docenas de naranja en una segunda tienda y otro sol ms
por 5 docenas en una tercera tienda. Determine el precio promedio por una docena de
naranjas.
Solucin. Obtendremos primero el precio pagado por docena de naranja. En la
primera ud. ha gastado 1 sol por 3 docenas de naranjas o sea 1/3 de sol por docena.
En la segunda gast 1 sol por 4 docenas, es decir de sol por cada docena.
En la tercera tienda gast 1 sol por 5 docenas, o sea 1/5 de sol por cada docena.
En otras palabras queremos calcular la media de los recprocos de los nmeros 3, 4 y
5. Entonces, la media armnica es el promedio correcto. Luego n = 3, x1 = 1/3,
x2 = 1/4, x3 = 1/5, es decir
x H

3
3

x
i 1

3
3
3

0.25
1
1
1
3 4 5 12

1/ 3 1/ 4 1/ 5

Por tanto, el precio promedio por docena es 0.25 soles.


Comprobacin. Se compr 12 docenas de naranjas por 3 soles. Veamos si pagando
en promedio 0.25 por docena, en doce docenas se gasta 3 soles.
0.25 x 12 = 3 soles
Veamos que ocurre si usamos la media aritmtica:
1 1 1 20 15 12

47
60
x 3 4 5

0.261
3
3
180

En este caso el promedio por docena es 0.261


Pagando 0.261 soles por docena, tendramos
0.261 x 12 = 3.132 soles
Es decir, se obtiene 0.132 soles ms de lo que en realidad se gast por las 12
docenas. Por tanto, la media aritmtica en este caso es incorrecta.
Ejemplo 3.29. Un automovilista recorre los primeros 120 Kilmetros a una
velocidad de 60 Km por hora y los 120 Kilmetros siguientes a una velocidad de 90
Km por hora. Calcule la velocidad media del automovilista.
Solucin. En efecto tenemos,

e v t , e1 v1 t1 , e 2 v 2 t 2 , v1
Luego,

e1
e2
, v2
, e e1 e 2 y t t1 t 2
t1
t2

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

Vmedia

e e1 e 2 v1 t1 v 2 t 2

e1 e1 v1 t1 v 2 t 2

t1 t 2
t1 t 2

donde

Vmedia

138

e
e1 e 2

v1 v 2

e
e
v

i
i
i

Aplicando la formula anterior a nuestro ejemplo:


v1 = 60 Km/h , v2 = 80 Km/h, e1 = 120 , e2 = 120
Vmedia VH

240
2

72
120 120
1
1
km /h

60
90
60 90

Puesto que la velocidad y el tiempo estn en relacin inversa, el estadgrafo de


tendencia central adecuado es la media armnica.
Comprobacin. Si se calcula la media aritmtica para obtener la velocidad media se
tendr un resultado errneo.
x

60 90
75 Km /h.
2

Queda como ejercicio para el estudiante comprobar este resultado.


3.2. Medidas de dispersin.
Todos los valores representativos discutidos en las secciones precedentes han sido
una especie de promedio o medida de posicin. Sin embargo, el uso de un solo valor
para describir una distribucin oculta muchos fenmenos importantes. Por ejemplo,
dos grupos separados de datos pueden contener la misma media, pero un grupo
puede estar ms disperso o esparcido alrededor del valor promedio que el otro.
Por lo que es necesario una medida de la dispersin, esparcimiento o variacin para
ayudar ms completamente la distribucin. Mientras menor es la dispersin, ms
tpico es el valor de la media para toda la distribucin.
Las medidas de dispersin que se utilizan con mayor frecuencia son: la varianza, la
desviacin estndar y el coeficiente de variacin.
A fin de obtener una primera impresin, rpida aunque no muy precisa, de la
dispersin que existe en una masa de datos (o en una tabla estadstica en estudio), se
emplean dos tipos de recorridos. El ms sencillo, es el que hemos definido en
acpites anteriores como recorrido de la variable o rango, el recorrido intercuartil,
recorrido interdecil, etc.
3.2.1. El recorrido de la variable. El recorrido R de la variable, es la diferencia
entre los dos valores extremos. Es decir:
R X max X min

(24)

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

139

Si el recorrido de la variable es mayor en un conjunto de observaciones que en otro,


debe esperarse, en principio que la dispersin de datos sea superior tambin en uno
que en el otro, como puede verse en los ejemplos (a) y (b).
a. 9, 10, 11, 12, 13, 14, 15
b. 6, 8, 10, 12, 14, 16, 18
Sin embargo, en ciertas ocasiones el recorrido ofrece una medida errnea de la
dispersin, debido a que slo se emplean para calcularlo los valores extremos. Por
tanto, ignora la naturaleza de la variacin entre todas las dems observaciones y est
altamente influenciado por los valores extremos. As en los ejemplos siguientes:
1. 2, 2, 7, 7, 7, 8, 8, 8, 8, 9, 9, 9, 14
2. 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14
en ambos casos el recorrido es R = 14 2 = 12 , y sin embargo, la dispersin de los
datos en la segunda serie es significativamente mayor. Este inconveniente se subsana,
al menos en parte, utilizando el recorrido intercuartilico.
3.2.2. El recorrido intercuartilico. Se define como la diferencia entre el tercer y
primer cuartil (o tambin la diferencia entre los percentiles 75 avo y 25 avo ). Es decir
RI Q 3 Q1

R P75 P25

(25)

El diagrama siguiente muestra esquemticamente el recorrido intercuartil.


Recorrido intercuartilico
X(1)

de elementos

observacin
menor

de elementos

1er. Cuartil

2do. Cuartil

3er. Cuartil

Q1 = P25

Q2 = P50

Q3 = P75

X(n)
observacin
mayor

Figura 3.13

Esta medida de dispersin es, evidentemente, ms exacta que el simple recorrido de


la variable, ya que evita el inconveniente de valores extremos anormales, tomando
aquellos dos valores que dejan entre s el 50% de los valores (los ms centrales) de la
variable. As, para los dos ejemplos, tenemos:
n =13,

3(n 1) 42
n 1 14

3.5 y

10.5 . Entonces
4
4
4
4

para el ejemplo 1, es
Q1= X(3) + (X(4) X(3)) (0.5) = 7 + (7 7)(0.5) = 7
Q3= X(10) + (X(11) X(10)) (0.5) = 9 + (9 9)(0.5) = 9
para el ejemplo 2, es

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

140

Q1= X(3) + (X(4) X(3)) (0.5) = 4 + (5 - 4)(0.5) = 4.5


Q3= X(10) + (X(11) X(10)) (0.5) = 11 + (12 11)(0.5) = 11.5
Es decir:
1. 2, 2, 7,
2. 2, 3, 4,

7, 7, 8, 8, 8, 8, 9,
5, 6, 7, 8, 9, 10, 11,
Q1

9, 9, 14
12, 13, 14

Q3

Por lo tanto, aunque el recorrido de la variable es igual en ambos casos, el recorrido


intercuartilico toma los valores:
RI1 Q 3 Q1 9 7 2
RI 2 Q 3 Q1 11.5 4.5 7

marcando claramente la mayor dispersin que existe en el segundo caso.


3.2.3. Desviacin del cuartil. La mitad del recorrido intercuartil es una medida
llamada desviacin del cuartil. Es decir:
Q 3 Q1
(26)
2
La desviacin del cuartil, mide el recorrido promedio de un cuarto de los datos. Es
representativo de la dispersin de los datos, ya que se calcula, tomando el promedio
de la mitad de los elementos del medio en lugar de escoger uno de los cuartos. As,
para los dos ejemplos anteriores:
QD

Q D1

Q 3 Q1 9 7

1
2
2

QD2

Q 3 Q1 11.5 4.5

3.5
2
2

Marcando tambin claramente la mayor dispersin de los datos del segundo ejemplo.
Las descripciones ms claras de la dispersin son aquellas que tienen que ver con la
desviacin promedio a partir de alguna medida de tendencia central. Las ms
importantes son: la desviacin media absoluta, la desviacin mediana absoluta, la
varianza y la desviacin estndar desviacin tpica.
3.2.4. Desviacin Media Absoluta.
Definicin. Sea x1, x2,, xn una muestra de tamao n. La desviacin media absoluta
o simplemente desviacin media DM es la media aritmtica de los valores
absolutos de las desviaciones de los valores observados respecto de la media
aritmtica de stas. Es decir:

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

DM

i 1

si los datos no estn tabulados

(27)

n
k

DM

xi x

141

i 1

yi y n i

, si los datos estn tabulados.

(28)

donde :
k = nmero de clases
ni = frecuencia absoluta de la clase i,
yi = marca de clase o punto medio de la clase i.
La desviacin media se puede utilizar como medida de dispersin en todas aquellas
distribuciones en las que la medida de tendencia central ms significativa haya sido
la media. Pero, para las mismas distribuciones es mucho ms significativa la
desviacin estndar, que se ver despus.
Ejemplo 3.30. Los pesos respectivos de ocho nios (en kilogramos) son:
15, 12, 10, 18, 14, 22, 17, 20
Determine la desviacin media absoluta.
Solucin. La tabla siguiente muestra el procedimiento a seguir para calcular la
desviacin media absoluta.
Observacin
xi
10
12
14
15
17
18
20

Desviacin

xi x

Desviacin
absoluta

-6
-4
-2
-1
1
2
4

6
4
2
1
1
2
4

22
128

xi x

x
n

DM

6
26

128
16 kg.
8
i

26
3.25 kg.
8

3.2.4.1. Ventajas y desventajas de la Desviacin Media.


1. La desviacin media absoluta es una mejor medida de la dispersin que el
recorrido, por que toma en cuenta todas las observaciones en
consideracin. Ponderada cada elemento e indica que tan lejos, en
promedio, se encuentra cada observacin de la media. Es menos sensible a
los valores extremos de los datos. Si es muy alta, indica gran dispersin; si
es muy baja refleja un gran agrupamiento y que los valores son parecidos
entre s.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

142

2. Desde el punto de vista terico, el empleo de la desviacin media como


medida de dispersin estn en desventaja, dado que existe dificultad de
operar.
3.2.5. Desviacin Mediana Absoluta.
Definicin. La desviacin mediana DMe es el promedio de los valores absolutos
de las diferencias entre cada observacin y la mediana de stas. Es decir:
n

DMe

x
i 1

Me

, si los datos no estn tabulados

(29)

n
k

DMe

i 1

y i Me n i

, si los datos estn

(30)

Ejemplo 3.31. Hallar la desviacin mediana de los pesos de los nios del ejemplo
3.30.
Solucin.
En primer se determina la mediana de los datos:
Las observaciones escritas en forma ascendente son:
10, 12, 14, 15, 17, 18, 20, 22
n = 8, es par, entonces la mediana es la semisuma de los valores centrales
Me

15 17
16
2

El derecho del procedimiento restante para el clculo de la desviacin mediana, se


resume en la tabla adjunta.
Observacin
xi

Desviacin

10
12
14
15
17
18
20
22

-6
-4
-2
-1
1
2
4
6

x i Me

Desviacin absoluta

128

26

x i Me

6
4
2
1
1
2
4
6

DMe

26
3.25
8

kg.

3.2.6. La varianza. Esta medida al igual que la desviacin estndar son las utilizadas
en el estudio de la dispersin. La varianza mide la dispersin de los datos con
respecto a la media aritmtica. Daremos primero la definicin de varianza
poblacional.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

143

Definicin 1. Varianza Poblacional. La varianza o variancia de una poblacin finita


de N elementos x1, x2,, xN, se define como la media aritmtica del cuadrado de las
desviaciones de los elementos con respecto a su media , y se denota por 2 . Es
decir:
N

2 M (x ) 2

(x
i 1

) 2

(31)

Definicin 2. Varianza de una muestra. La varianza o variancia de una muestra x1,


x2,..., xn de la variable o caracterstica X (que abreviadamente escribiremos V(X) ),
se define como la media aritmtica del cuadrado de las desviaciones con respecto de
la media aritmtica x de esos datos. Si se denota S2 a la varianza de la
caracterstica x, entonces
n

V(x) S2X M (x x ) 2

(x
i 1

x)2

(32)

n
k

para datos no tabulados

V(y) S2y M (y y) 2

(y
i 1

y) 2 n i

para datos tabulados o agrupados

n
(33)

Donde :
n i = frecuencia absoluta de la clase i.
y i = marca de clase o punto medio de la clase i.
Si conocemos el valor de la media aritmtica poblacional , la mejor estimacin de
la varianza poblacional 2 a partir de una muestra sera:
N

V(X)

(x
i 1

) 2

Sin embargo, rara vez, si es que ello es posible, conocemos el valor de , de modo
que en el numerador de la expresin anterior se sustituye por su estimado x .
Ahora bien x , vara de muestra a muestra y rara vez es exactamente igual a .
n

Por otro lado sabemos por la propiedad 3.6 que

(x
i 1

x ) 2 es mnimo, es decir es

menor que la suma de cuadrados de las desviaciones de las observaciones respecto de


cualquier otro valor diferente de x .
n

2
Por tanto, si x no es exactamente igual a , (x i x ) <
i 1

(x
i 1

Si dividimos ambos miembros de la desigualdad por n tendramos:

) 2 .

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

(x i x ) 2
i 1

n
n

(x

Esto significa que

i 1

x)2

(x
i 1

144

) 2

dar una estimacin demasiado pequeo de 2 . De

n
ah resulta que la correccin apropiada puede ser hecho mediante la utilizacin en el
denominador de n - 1 en vez de n. Es decir, se tendra:
n

(x i x ) 2
i 1

(x i x ) 2
i 1

n -1

(x i x ) 2 / n y

La diferencia entre

i 1

(x
i 1

(x
i 1

) 2

x ) 2 /(n 1) es grande para muestras

pequeas, y es mnima para muestras grandes, prcticamente son iguales. Entonces,


para muestras grandes n 60, puede usarse cualquiera de las frmulas. Para muestras
n

pequeas se usa

(x
i 1

x ) 2 /(n 1) , lo cual es llamada varianza muestral o

tambin varianza corregida, y se acostumbra denotarla por S2 x o simplemente S2


si no hay confusin. Es decir, la varianza muestral estar definida por
n

V(x) S2

(x
i 1

Note que

S2

para datos no tabulados

(34)

para datos tabulados

(35)

n -1
k

V(y) S2

x)2

(y
i 1

y) 2 n i
n -1

n 2
S .
n 1

Entonces para datos tabulados


k

n
i 1
V(y) S2
n 1
El factor

(yi y) 2 n i
n

n k
(yi y) 2 h i

n 1 i1

n
se conoce como la correccin de Bessel.
n 1

Nota. En inferencia estadstica se ver otras razones por el cual se usa n - 1 en vez de
n en la definicin de la varianza muestral.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

145

Ejemplo 3.32. Las frecuencias cardiacas de 5 nios son: 130, 132, 127, 129, 132
pulsaciones por minuto.
Determinar la varianza de la frecuencia cardiaca de la muestra.
Solucin.
Primero debemos determinar la media muestral x , en efecto tenemos,
n

x
i 1

pulsaciones por minuto.


650
130
5

Por tanto:
n

S2

(x
i 1

(x
i 1

(130 130) 2 (132 130) 2 (127 132) 2 (129 132) 2 (132 132) 2
5
18

3.6
5

S2

x)2

x) 2

n -1

18
4.5
4

Se puede observar que

S2 es claramente menor que S , debido a que la muestra es


2

pequea.
Ejemplo 3.33. El siguiente cuadro muestra la distribucin de acuerdo a su estatura en
centmetros de 100 estudiantes de la UNP.
Estatura

Yi

Nmero de
alumnos, n i

150 - 155
155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total

152.5
157.5
162.5
167.5
172.5
177.5
182.5
187.5

4
5
12
33
17
16
9
4
100

( Yi1 Yi

Hallar la varianza de la muestra.


Solucin. En el siguiente cuadro se resume el procedimiento para el clculo de la
varianza.
Estatura

Nmero de

(y i y) 2

(y i y) 2 n i

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

( Yi1 Yi

Yi

alumnos, n i

150 - 155
155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total

152.5
157.5
162.5
167.5
172.5
177.5
182.5
187.5

4
5
12
33
17
16
9
4
100

Se sabe que:

i 1

ni

146

320.41
166.41
62.41
8.41
4.41
50.41
146.41
292.41
1055.28

1281.64
832.05
748.92
277.53
74.97
806.56
1317.69
1169.64
6509.00

centmetros.
17040.0
170.4
100

centmetros al cuadrado.
6509
65.09
100

Luego,
k

S2

(y y) n
2

i 1

n
k

V(y) S2

(y
i 1

y) 2 n i
n -1

centmetros al cuadrado.
6509
65.7474
99

Note la diferencia entre las varianzas calculadas usando

S2 y S .
2

3.2.6.1. Formulas de trabajo para el clculo de la varianza.


Otra forma de expresar las frmulas de la definicin de la varianza que facilite los
clculos de sta se desarrolla a continuacin:
1. Desarrollemos la suma de los cuadrados de las desviaciones:
n

i 1

i 1

(x i x ) 2 (x i2 2x i x x )
2

i 1

i 1

x i2 2x x i x
x i2 2x n
i 1
n

i 1

x /n

i 1

nx
n

x i2 2n x 2 n x x i2 n x
i 1

i 1

2. Sustituyendo este resultado en la definicin de la varianza, denotado por:

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

1 n
1
S (x i x ) 2
n i1
n

2
i

i 1

147
2

x
i 1

x /n

i 1

x i2 /n

x i2 /n x

i 1

i 1

S2 M(x 2 ) M(x) 2

(36)

3. Y sustituyendo, en la definicin de S2 se tiene:

S2

1
1
(x i x ) 2

n - 1 i 1
n -1

x
i 1

2
i

i 1

i 1

2
i

/n

i1
n 1

(37)

Las formulas (36) y (37) para datos tabulados se escribe:


k

S 2

y n
2
i

i 1

y n

i 1

S
2

y n
i 1

2
i

M(y 2 ) M(y)

(38)

y n

i1
n -1

/n

(39)

Ejemplo 3.34. Usando las formulas de trabajo, determinar la varianza para las
frecuencias cardiacas de los 5 nios del ejemplo 3.31.
Solucin. Calculamos en una tabla todos los valores que necesitamos sustituir en las
(36) y (37).
xi

x i2

127
129
130
132
132
650

16129
16641
19900
17424
17424
84518

Clculo de
M(x) x

S2 : primero se halla
x
n

x
)x

650
130
5

84518
16903.6
n
5
Luego, aplicamos la frmula:
M(x

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

148

S2 M(x 2 ) M(x) 2 16903.6 (130) 2 3.6


x

Clculo de S2 : primero calculamos

x
i

(650) 2 422500

Luego, se aplica la frmula:

S2

1
n -1

x i2

i 1

1 84518 422500 18 4.5

4
5
4

i 1

Ejemplo 3.35. Usando las formulas de trabajo, determinar la varianza de la


distribucin de acuerdo a su estatura de 100 estudiantes de la UNP (ver ejemplo
3.33).
Solucin. Calculamos en una tabla todos los valores que necesitamos sustituir en las
(38) y (39).

( Yi1 Yi y i
150 - 155
155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total

152.5
157.5
162.5
167.5
172.5
177.5
182.5
187.5

ni

yi n i

y i2

y i2 n i

4
5
12
33
17
16
9
4
100

610.0
787.5
1950.0

23256.25
24806.25
26406.25

93025.0
124031.25
316875.0

17040.0

232250.0

2910124.9

Luego,

S 2 M(y 2 ) M(y)

y i2 n i
i 1

yi n i

i 1

2910124 .9 17040

100
100
29101.249 29036.16
65.089

y
1
S

n 1
2

y n
i 1

2
i

y n
i 1

1
17040 2
2910124.9
/n

99
100

1
2910124.9 2903616 6508.9 65.746
99
99

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

149

3.2.6.2. Propiedades de la varianza.


1. La varianza de un conjunto de observaciones x1, x2, , xn siempre es un
nmero no negativo. Esto es
V(X) 0

2. La varianza de una constante es cero. Esto significa, que si x 1= x2= = xn


= b constante, entonces:
V(b) 0

Prueba. Si xi = b para i=1, 2,, n.


Entonces M(b) b y x i M(x) 2 b M(b) 2 (b b) 2 0 para
n

i=1, 2,, n

de donde

(x
i 1

M(x)) 2 0 y dividiendo por (n 1)

tendremos que:
2

1 n
V(b)
x i M(x) 0
n 1 i1

3. Si cada observacin x1, x2, , xn se adiciona (o resta) una constante


b > 0, la varianza del nuevo conjunto de valores y 1, y2, , yn, donde
y i = x i b, i=1, 2, , n , coincide con la varianza del conjunto original.
Es decir,
V(y) V(x b) V(x)

Prueba. Si y i = x i b, entonces se tiene que


M(y) M(x b) M(x) b

Luego,

V(y)

k
1 k
y i M(y) 2 n i 1 (x i b) (M(x) b) 2 n i

n 1 i1
n 1 i 1

k
1 k
x i M(x) 2 n i 1 x i x 2 n i V(x)

n 1 i1
n 1 i1

Conforme a esta propiedad, se dice que la varianza no se altera al sumar (o


restar) una constante b a los valores de la variable.
4. Si cada valor de un conjunto x1, x2, , xn se multiplica por una constante
c, la varianza del nuevo conjunto de valores y 1, y2, , yn, donde
y i = c x i , i=1, 2, , n , es igual a la varianza del conjunto original
multiplicada por el cuadrado de la constante. Es decir,
V(y) V(x b) V(x)

Prueba. Si y i = cx i , entonces M(y) y M(c x) c M(x) c x


Luego,

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

V(y)

150

1 k
1 k
2

c x i cx 2 n i
y

M(y)
n

i
i
n 1 i1
n 1 i 1

1 k 2
c2 k
2

c
x

x
)
n

i
x i x 2 n i c 2 V(x)
i
n 1 i 1
n 1 i1

Nota 3.1. Las propiedades (3) y (4) son casos especiales de la transformacin lineal
general,
yi a x i b

donde:

x i: son los valores observados


y i: son los valores transformados
a y b constantes.

Entonces, V(y) V(a x b) a 2 V(x)


Prueba. Queda para el estudiante realizar la respectiva prueba de esta propiedad.
Ejemplo 3.36. Determinar la varianza del conjunto de observaciones x 1, x2, x3, x4,
x5, a los cuales se les ha restado 4, obtenindose el siguiente conjunto: 3, 0, 2, 4, 1.
Solucin.
De acuerdo al enunciado la transformacin es y i = x i 4, i =1, 2, 3, 4, 5.
Por la propiedad (3) V(y) V(x 4) V(x) , luego basta calcular la V(y).
Calculamos los valores que necesitamos sustituir en la formula (37), tenemos:
5

y i 10 ,
i 1

y
i 1

2
i

30

V(y)

1
5 1

y
i 1

2
i

y
i 1

2
1 30 10 10 2.5 V(X)

4
5
4

Es decir V(x) = 2.5


Ejemplo 3.37. Los sueldos de los trabajadores de una empresa, se distribuye con
una varianza de 180 u.m al cuadrado. Se otorga un aumento general sobre el sueldo
bsico a cada trabajador, mediante la siguiente relacin:
Y 2.25x 90

Se pide calcular la varianza de los nuevos sueldos.


Solucin. Sea x i = sueldo bsico del trabajador i. Entonces y i 2.25 x i 90 , es el
nuevo sueldo del trabajador i.
Luego,

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

151

V(y) V(2.25X 90) ( 2.25) 2 V ( x) 50625 (180)


911.25 unidades monetarias al cuadradro

3.2.6.3. Varianza calculada a partir de submuestras.


Si x 1 y x 2 son las medias aritmticas de dos submuestras de tamaos n1 y n2
respectivamente y S21 , S2 2 sus varianzas correspondientes. Entonces la varianza de
la muestra de tamao n = n1 + n2 est dado por:

(n1 1)S21 (n 2 1)S2 2 n1 ( x1 x ) n 2 (x 2 x )


S
n 1
2

donde x

(40)

n1 x1 n 2 x 2
n

En general, si se tiene k submuestras o estratos de tamaos n 1, n2,, nk, tales que


k

n
i 1

n ; x 1 , x 2 , , x k son las medias aritmticas;

S21 , S2 2 , , S2 k las

varianzas de las k submuestras respectivamente, entonces la varianza de la muestra


de tamao n es
k

S2

(n i 1)S2i
i 1

n 1

n (x
i 1

x)2

(41)

n 1

donde

n x
i 1

es la media aritmtica general.

n
Nota 3.2. Cada submuestra o estrato tiene una media aritmtica, una varianza y un
nmero de observaciones que expresa la importancia de cada uno de estos estratos.
En este caso la variabilidad total S2 puede deberse tanto a la variabilidad dentro de
cada estrato como a la variabilidad entre los estratos.
1)

El estadgrafo que mide la variabilidad entre los estratos o submuestras, se


llama Intervarianza y esta definido por:
k

S2 b
2)

n (x
i 1

x) 2

(42)

n 1

El estadgrafo que mide la variabilidad dentro de los estratos o submuestras,


se llama Intravarianza y esta definido por:
k

S2 w

(n
i 1

- 1)S2 i

n 1

(43)

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

152

Ejemplo 3.38. Se clasific a los trabajadores de una mina en dos categoras: mayores
y menores de 25 aos, y se extrajo la siguiente informacin:
Nmero de obreros Productividad media Varianzas
ni
xi
S2 i
Mayores de 25 aos
Menores de 25 aos

200
300

40
60

4900
1600

Calcule la varianza de todos los obreros de la mina.


Solucin. La varianza total est dado por:
2

S2

(n i 1)S2i
i 1

n 1

n (x
i 1

x) 2

n 1

Luego, primero debemos calcular x :


2

S2

n x
i

i 1

200(40) 300(60)
52
500

199(4900) 299(1600) 200(40 52) 2 300(60 52) 2 1501500

3009.02
499
499

3.2.7. La Desviacin Estndar o Desviacin Tpica.


Si bien ya sabemos como expresar cuantitativamente la dispersin de un conjunto de
observaciones, ocurre un inconveniente en cuanto a la interpretacin de esta
cantidad, ya que ella est dada en el cuadrado de la dimensin en que se expresa la
caracterstica, y en ocasiones trae confusin. Es conveniente, entonces contar con
otro estadgrafo que basado en el valor de la varianza, sirva para dar una medida de
la dispersin en la misma dimensin e que estan los datos. Esta medida es la
desviacin estndar o desviacin tpica.
Definicin. La desviacin estndar o desviacin tpica de las observaciones
x1, x2,..., xn de la variable X, se define como la raz cuadrada positiva de la varianza,
y se denota por S. Es decir
D(x) S

V(X)

(44)

El valor numrico de S cuantifica el grado de dispersin de los valores de una


variable con respecto a su media. Mientras mayor es la dispersin de las

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

153

observaciones, mayor es la magnitud de sus desviaciones respecto a la media y por


ende, ms alto el valor numrico de la desviacin estndar.
Ejemplo 3.39. Se determino los pesos de una muestra de cartas procesadas en una
oficina postal, pesadas hasta el gramo ms prximo, son: 21, 18, 30, 12, 14, 17, 28,
10, 16 y 25.
Determine la desviacin estndar.
Solucin.
Aplicando formula de trabajo para el clculo de la varianza, tenemos:
10

10

x i 21 18 25 191

i 1

i 1

2
i

212 18 2 25 2 4059

Luego:

1
S
n 1

i 1

2
i

i 1

xi

2
1 4059 (191) 45.6555

9
10

Por tanto, la desviacin estndar ser la raz cuadrada del valor obtenido en la
varianza, es decir:
S

45.6555 6.7569

gramos.

Ejemplo 3.40. Con relacin al ejemplo 3.33, referida a la informacin de la


distribucin de 100 alumnos de la UNP, de acuerdo a su estatura en centmetros. Se
pide determinar la desviacin tpica de la distribucin.
Solucin.
Se sabe que la varianza toma el valor de 65.746 centmetros al cuadrado.
Por tanto la desviacin estndar es: S = 8.1085 centmetros.
3.2.7.1. Propiedades de la Desviacin Estndar.
Las propiedades de este estadgrafo de dispersin son triviales y similares a la de la
varianza, por lo que no se demostrar.
1. La desviacin estndar de un conjunto de observaciones x1, x2,..., xn , siempre
es un nmero no negativo. Es decir,
D(x) S 0

2. La desviacin estndar de una constante, es cero, As, si c = constante,


entonces,
D(c) Sc 0

3. Si a cada valor de las observaciones x 1, x2,..., xn , se le agrega (o resta) una


constante b, la desviacin estndar del nuevo conjunto de valores y 1, y2, .., yn

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

154

donde yi = xi b , i = 1, 2, ..., n coincide con la desviacin estndar del


conjunto original. Es decir,
Sy Sx b Sx

4.

Si cada valor de las observaciones x 1, x2,..., xn , se multiplica por una


constante c, la desviacin estndar del nuevo conjunto de valores y 1, y2, .., yn
donde yi = c x i b , i = 1, 2, ..., n es igual a la desviacin estndar del
conjunto original multiplicada por el valor positivo (valor absoluto) de dicha
constante. Es decir,
S y Sc x c S x

5. Para situaciones especiales, en las cuales resulta apropiado utilizar la media


de la muestra para estimar una cantidad total, la desviacin estndar para el
total se puede estimar con:
S total N S

Donde N = nmero de elementos de la poblacin.


Ejemplo 3.41. Estime la desviacin estndar para las preguntas (a) y (b) del ejemplo
3.5 (ver pagina 109).
Solucin. Calculamos primero la desviacin estndar de la muestra.
6

S2

(x
i 1

x) 2

n 1
(17 18) 2 (11 18) 2 ( 26 18) 2 (33 18) 2 (9 18) 2 (12 18) 2 456

91.2
5
5
Luego, S S2 91.2 9.5499 . Entonces como N = 350.
a)
La desviacin estndar de la cantidad total de ingresos por impuestos sobre
las ventas que se cobrarn este trimestre, ser:
S total N S 350(9.5499) 3342.465

b)

La desviacin estndar del ingreso total anual por impuestos sobre ventas
ser:
S total anual 4 N S 4(350)(9.5499) 13369.86 .

3.2.7.2. Interpretacin y aplicaciones de la Desviacin Estndar.


La varianza y la desviacin estndar son las medidas de dispersin o variabilidad
ms frecuentemente usadas. Desafortunadamente, ninguna tiene una interpretacin
intuitivamente obvia. Para poder superar un poco esa dificultad, presentaremos, la
informacin conjunta que proporciona la media y la desviacin estndar, precisado
mediante el teorema siguiente.
Teorema de TCHEBYSHEV. Dado un conjunto de observaciones x1, x2,..., xn , entre
la media aritmtica y k veces la desviacin estndar existe por lo menos, el
100 (1 - 1/k2) % con k 1.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

155

de las observaciones sin que importe, como se distribuye el conjunto de datos.


En otras palabras, el teorema dice que en el intervalo x kS y x kS se encuentra
por lo menos el 100 (1 - 1/k2) % de las observaciones.
Por ejemplo, si la media de la muestra es x 500 , la desviacin estndar S = 20 y
k = 5. Entonces, entre x 5S 500 5( 20) 400 y x 5S 500 5(20) 600 ,
estarn al menos, el 100 (1 - 1/52) = 100 (24/25) = 96% de las observaciones.
Por lo tanto, para observaciones cuyo polgono adopta cualquier forma, se tiene:
Para K = 2. Entre x 2S y x 2S deben estar, cuando menos 100(1 1/ 22)
=75% de las observaciones (o lo que es lo mismo de las observaciones).
Para K = 3. Entre x 3S y x 3S deben estar contenidas, cuando menos
100(1 1/32) = 88.89% de las observaciones (o lo que es lo mismo 8/9 de las
observaciones).
Para K = 4. Entre x 4S y x 4S estarn, cuando menos 100(1 1/42) =
93.75% de las observaciones (o equivalentemente 15/16 de las
observaciones).
Para k = 1, no se puede precisar.
En resumen tenemos:
Entre
Entre
Entre
Entre

x S y x S no se puede precisar.
x 2S y x 2S estar cuando menos el 75%.
x 3S y x 3S estar cuando menos el 88.89%.
x 4S y x 4S estar cuando menos el 93.75%.

Ejemplo 3.42. Un analista qumico desea determinar el nmero de moles de iones


cpricos en un volumen dado de una solucin, por electrlisis. La solucin se dividi
en n = 30 porciones de 0.200 mililitros cada una. Estas 30 porciones se sometieron a
pruebas. Se encontr que el promedio de moles de iones cpricos para las 30
porciones fue de 0.17 moles y la desviacin tpica de 0.01 moles. Determine cuantas
mediciones de las 30 porciones de la solucin estarn entre x 2S y x 2S , por el
teorema de Tchebyshev.
Solucin. Sabemos que x 0.17 y S = 0.01. La distribucin de las observaciones
estar centrada alrededor de x 0.17 , y el teorema de Tchebyshev establece que:
Entre x 2S 0.17 - 2(0.01) 0.15 y x 2S 0.17 2(0.01) 0.19 , esto es entre
0.15 y 0.19 estarn al menos de las 30 observaciones (o sea x 30 =23
observaciones).
Observacin.
El nfasis puesto en la expresin al menos del teorema de Tchebyshev, se debe a
que el teorema es muy conservador, siendo aplicable a cualquier distribucin. En la
mayora de las situaciones, la fraccin de observaciones que caen en el intervalo
especfico excede a 1 1/k2.
Presentamos ahora una regla que describe con precisin, la dispersin de una
distribucin simtrica, cuyo polgono tiene forma de campana, y que describe

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

156

razonablemente bien la dispersin de otras distribuciones de datos que tienen esta


forma.
Regla Emprica. Dada una distribucin de un conjunto de observaciones de tamao
n suficientemente grande, que es simtrica y forma aproximadamente acampanada
ver figura 3.14. Entonces:
Entre
Entre
Entre
Entre

x S y x S se encuentra el 68.27% de las observaciones.


x 2S y x 2S se encuentra el 95.45% de las observaciones.
x 3S y x 3S se encuentra el 99.73% de las observaciones.
x 4S y x 4S se encuentra el 99.99% de las observaciones.

68.27%
95.45%
99.73%
99.99%

x - 4S

x - 3S

x - 2S x - S

x + S x + 2S x + 3S

x + 4S

Figura 3.14

La distribucin simtrica acampanada de la fig. 3.14 se conoce como la distribucin


normal. Esta distribucin se discutir en detalle en un curso de clculo de
probabilidades.
La importancia prctica de la regla emprica consiste en su utilidad para describir
adecuadamente la dispersin o variacin de un gran nmero de tipos de datos.
Ejemplo 3.43. Un fabricante recibe un pedido de cojinetes para una operacin
especfica. Con el fin de verificar, si los dimetros de los cojinetes que fabrica
cumple las especificaciones para tal operacin, se mide los dimetros de 50 cojinetes
y se encuentra que la media es de 0.5354 cm. y la desviacin tpica de 0.00525 cm.
describir los datos.
Solucin. Aunque no tenemos informacin previa acerca de la distribucin de los
datos, hay una buena posibilidad que tenga la forma de campana o algo parecida, por
tanto la regla emprica proporcionar una buena descripcin de los datos. Entonces:
; x S 0.5354 0.00525 0.54065
x S 0.5354 - 0.00525 0.53015
x 2S 0.5354 - 2(0.00525) 0.5249
;
x 2S 0.5354 2(0.00525) 0.5459
x 3S 0.5354 - 3(0.00525) 0.51965
;
x 3S 0.5354 3(0.00525) 0.55115

Entonces,
En el intervalo [0.53015, 0.54065] estarn aproximadamente el 68.27% de los datos.
En el intervalo [0.5249, 0.5459] estarn aproximadamente el 95.45% de los datos.
En el intervalo [0.51965, 0.55115] estarn aproximadamente el 99.73% de los datos.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

157

Si se duda que la distribucin de las observaciones tenga forma acampanada, o si por


alguna razn se prefiere proceder conservadoramente, se puede aplicar el teorema de
Tchebyshev y as, estar absolutamente seguros de tales afirmaciones. En este caso el
teorema asegura que:
Entre 0.5249 y 0.5459 se encuentra al menos 3 /4 x 50 = 38 observaciones.
Entre 0.51965 y 0.55115 se encuentra al menos 8/9 x 50 = 44 observaciones.
3.2.7.3. Verificacin del clculo de la Desviacin Estndar.
El teorema de Tchebyshev y la regla emprica se pueden utilizar para detectar errores
en el clculo de la desviacin estndar. As, sabemos que por lo menos 3 /4 de las
observaciones o en el caso de distribuciones simtricas y acampanadas,
aproximadamente el 95% de los datos estarn dentro de 2 desviaciones estndar de
su media. Por tanto, la mayora de las observaciones se encontrarn en el intervalo [
x 2S , x 2S ], y
amplitud = 4S
x - 2S

x + 2S

La amplitud ser aproximadamente igual a 4S. Esto por supuesto, es una


aproximacin muy rudimentaria, pero nos permitir hacer una verificacin til que
detectar errores grandes en el clculo de la desviacin estndar. Entonces,
si A = amplitud, tenemos que
A = 4S
S = A/4
(45)
El valor calculado de S, usando las frmulas conocidas, debe ser ms o menos del
mismo orden que la aproximacin.
Ejemplo 3.44. Use la amplitud de la variable para encontrar un valor aproximado de
la desviacin estndar para los datos del ejemplo 3.40.
Solucin. La amplitud de la variable es A = 190 150 = 40. Luego,
S

A 40

10
4
4

Habamos encontrado que S = 8.1084 centmetros para los datos del ejemplo 3.40. La
aproximacin est cerca del valor real de S.

3.2.7.4. Correccin de Sheppard.


En el clculo de la varianza y por tanto de la desviacin estndar se introduce cierto
error al agrupar los datos en clases. Para corregir este error se emplea la varianza
corregida, que est dado por:
V(x) corregida V(x)

c2
= varianza correccin sheppard.
12

(46)

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

158

donde c es la amplitud del intervalo de clase.


Sin embargo, el uso de sta correccin no est muy generalizado por que no es fcil
estudiar a fondo las circunstancias en que debe emplearse.
3.2.7.5. Relaciones Empricas entre las medidas de dispersin.
Cuando la distribucin es moderadamente o ligeramente asimtrica, existen unas
relaciones empricas entre las medidas de dispersin o variacin, que se expresan as:
Recorrido semiintercuartlico = 2/3 de la desviacin estndar.
Desviacin media = 4/5 de la desviacin estndar
Es decir:

QD

2
S y
3

DM

4
S
5

(47)

3.2.8. Medidas de Dispersin Relativa.


Las medidas de dispersin que se han descrito en secciones anteriores se expresan en
las unidades de medidas originales, tales como altura, salarios, kilogramos, puntajes,
etc. Se pueden utilizar para comparar la variacin de dos distribuciones siempre que
las variables se expresen en las mismas unidades de medida y sean aproximadamente
del mismo tamao promedio. Sin embargo, a veces es necesario comparar dos o ms
conjuntos de datos que o bien no utilizan la misma unidad de medidas o bien tienen
promedios diferentes, que desvirtuan las posibles comparaciones.
Es esta situacin no deben utilizarse para efectos comparativos las medidas absolutas
de dispersin estudiadas anteriores, sino que es necesario contar con un estadgrafo,
tambin de dispersin el cual refleje esta dispersin, sin depender de la magnitud de
las observaciones, ni tampoco de la dimensin de ellas, es decir que dicha cantidad
sea un nmero abstracto. Estas medidas son denominadas como medidas de
dispersin relativa. Las principales son:
3.2.8.1. Coeficiente de Apertura. Se llama as, al cociente entre el valor mximo y
el mnimo de recorrido de la variable. Es decir, es el nmero de veces que engloba el
mayor valor al ms pequeo.
x
C.A mx
(48)
x mn
3.2.8.2. Recorrido Relativo. Es el recorrido de la variable dividido por la media
aritmtica, es decir el nmero de veces que el recorrido engloba a la media
aritmtica.
x x mn l
RR mx

(49)
x
x
En general podemos definir la dispersin relativa, como sigue:

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

159

3.2.8.3. Dispersin Relativa. Es la dispersin absoluta dividida por la media


aritmtica, es decir el nmero de veces que la dispersin absoluta contiene a la media
aritmtica.
Dispersin relativa = dispersin absoluta / media aritmtica
Por ejemplo, Recorrido semi intercuartilico relativo =

(Q3 Q1 )/2
x
(50)

Si la dispersin absoluta es la desviacin estndar S, la dispersin relativa recibe el


nombre de coeficiente de variacin. Es decir.
Coeficiente de variacin = C.V

S
x

(51)

El coeficiente de variacin, significa, por tanto, el nmero de veces (o tanto por uno,
ya que habitualmente el cociente ser inferior a la unidad) que supone la desviacin
estndar respecto a la media.
Generalmente el coeficiente de variacin se expresa en porcentaje. El C.V es un
nmero puro independiente de la unidad de medicin.
Observacin. Si el C.V es menor del 10% se dice que hay poca dispersin;
Si el C.V oscila entre el 10% y el 33% la dispersin existente es aceptable;
Si el C.V oscila entre el 33% y el 50% se dice que hay alta dispersin;
Pero si el C.V es mayor del 50% se dice que la dispersin es muy alta.
Ejemplo 3.45. Calcular la dispersin relativa para los datos de la ejemplo 3.33.
Solucin. Se sabe que: Y 170.4 centmetros y S = 8.1085 centmetros, entonces
el C.V es:
C.V

8.1085
100 4.76%
170.4

Como el valor de C.V = 4.76% es menor que el 10% y 33%, indica que existe poca
dispersin (baja dispersin).
3.2.8.4. Propiedades del coeficiente de variacin.
1. Slo se debe calcular el coeficiente de variacin para variables con todos
los valores positivos.
Todo ndice de variabilidad es esencialmente no negativo. Las
observaciones pueden ser positivas o nulas, pero su variabilidad es siempre
positiva. De ah que slo debemos trabajar con variables positivas, para
que sepamos con segura que x > 0.
2. No es invariable ante cambios de origen. Es decir, si y = x + b, entonces:

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

160

CVy CVx

Ya que la desviacin estndar no es sensible ante cambios de origen, pero


S y S x . Entonces
la media si, y x b y S2 y S2 x
CVy
3.

Sy
y

Sx
S
x CVx
xb
x

Es invariable a cambios de escala. Si multiplicamos a x por una constante


b, para tener y = b x , entonces
y bx

, S 2 y b 2S 2 x
CVy

S y bS x , si b > 0. Luego

Sy
y

Sbx bSx Sx

CVx
bx
bx
x

Nota. El coeficiente de variacin se emplea cuando se desea comparar dos o ms


distribuciones, con el fin de determinar cul de ellas tiene mayor o menor
variabilidad relativa. Su uso se hace necesario cuando las distribuciones estn dadas
en diferentes unidades de medida, y por tanto, en estos casos, no se podrn comparar
varianzas o las desviaciones tpicas.
Ejemplo 3.46. Para 2 acciones comunes de empresas de la industria electrnica, el
precio promedio de cierre en el mercado de valores durante un mes fue, para la
accin A, de $1500, con una desviacin estndar de $500. Para la accin B, el precio
promedio fue de $5000, con una desviacin estndar de $300.
a) Efectuar Hacer una comparacin de la variabilidad absoluta de las acciones.
b) Realizar una comparacin de la variabilidad con respecto al nivel medio de los
precios.
Solucin.
a) Al hacer una comparacin absoluta, result ser superior la variabilidad en el
precio de la accin A debido a que muestra una mayor desviacin estndar.
b)

Con respecto a la variabilidad relativa, deben compararse los respectivos


coeficientes de variacin:
C.V(A)

500
0.33
1500

C.V(B)

300
0.060
5000

Por ello, puede concluirse que el precio de la accin A ha sido casi 5 veces ms
variable que el precio de la accin B (con respecto al precio promedio para cada una
de las dos).
Ejemplo 3.47. Las notas del curso A tuvieron una media aritmtica de 75 puntos y
una varianza de 225. Las del curso B, tuvieron una media de 70 puntos y una
varianza de 196. Si en ambos cursos las notas se aumentaron en 10%, cul de los
dos cursos tienen un coeficiente de variacin mayor despus de arreglar las notas?
Solucin.
Sea xA la variable que representa las notas del curso A. Por tanto, las notas
aumentadas en 10% sern:

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

161

y A 1.1x A

Entonces, y A M(1.1x A ) 1.1x A 1.1 75 82.5


y S y 1.1SA 1.1 225 16.5
A

Luego,

C.VA

Sy A
yA

16.5
0.2
82.5

(20%)

Similarmente, sea xB la variable que representa las notas del curso B. Entonces, las
notas aumentadas en 10% sern:
y B 1.1x B

y B M(1.1x B ) 1.1x B 1.1 70 77

S y B 1.1SB 1.1 196 15.4

Luego.

C.VB

Sy B
yB

15.4
0.2
77

(20%)

Las notas de ambos cursos tienen igual coeficiente de variacin.


3.2.8.5. Tipificacin.
Las medidas de dispersin relativa sirven para comparar las variabilidades de dos
conjuntos de datos o valores (poblaciones o muestras), mientras que si deseamos
comparar a dos individuos de cada uno de esos conjuntos, es mejor usar los valores
tipificados.
Definicin. Se conoce por tipificacin de una variable X a efectuar el cambio de
origen y de escala, consistente en restar la media y dividir por su desviacin estndar
de la variable X. Es decir, se tiene una variable nueva Z.
Z

xx
S

(52)

Llamada variable tipificada con media z 0 y desviacin estndar S z =1.


Esta nueva variable carece de unidades de medida y permite comparar dos o ms
datos individuales, aunque pertenezcan a distribuciones diferentes, pudiendo suceder
que tengan medias y varianzas que no coinciden.
Ejemplo 3.48. En un examen final de Estadstica I la puntuacin media de un grupo
de 25 estudiantes fue de 78 y una varianza de 64. En Anlisis Matemtico, sin
embrago, la media final del grupo fue 73 y desviacin tpica 7.6. Si un estudiante
obtuvo 75 en Estadstica I y 71 en Anlisis Matemtico, en que asignatura fue su
puntuacin relativa superior?
Solucin. x1 78 , S1 = 8, x 2 73 , S2=7.6 x1 = 75 , x2 = 71
Puntuacin relativa: Z

xx
, luego,
S

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

Z1

75 78
0.37
8

Z2

162

71 73
0.26
7.6

Como Z2 > Z1, su puntuacin relativa fue superior en Anlisis Matemtico.


3.2.9. Momentos.
Para describir otros aspectos relevantes de la distribucin de frecuencias se utilizan
los momentos de la distribucin. La teora de los momentos se debe a PEARSON,
y recibe este nombre por su semejanza con la teora de los momentos que se estudia
en Mecnica. Los momentos se definen como promedios de potencias de las
desviaciones de los valores de una serie de observaciones con respecto a un valor
arbitrario, que bien puede ser la media aritmtica. Se puede decir que existen n
momentos, sin embrago desde el punto de vista practico, se utilizan slo los cuatro
primeros.
Definicin 1. Sea x1, x2,..., xn , un conjunto de n observaciones de una caracterstica
X. El momento de orden r con respecto a un punto a de la muestra, es la media
aritmtica de la potencia r-sima de las desviaciones de las observaciones con
respecto al valor a, y se denota por M r, a. Es decir

M r , a M (x a) r

M r , a M (y a) r

1 n
(x i a) r , para datos no tabulados. r = 1, 2, 3,...

n i 1
1 k
n i (y i a) r , para datos tabulados.

n i 1

(53)

. r = 1, 2, 3,...

(54)
Entonces M 1, a , M 2, a , M 3, a , ..., M r, a son momentos con respecto a un punto a
cualquiera de rdenes 1, 2, 3, ..., r, respectivamente.
Definicin 2. Momentos con respecto al origen. Cuando las desviaciones son
calculados con respecto al punto a = 0, se llaman momentos de orden r con
respecto al origen, que se denotan por M r, 0 = M r, y las frmulas se escriben:
Mr M(x r )

1 n r
x i , para datos no tabulados.
n i1

Mr M(y r )

1 k
r
n i y i , para datos tabulados.

n i1

r = 1, 2, 3,...

r = 1, 2, 3,...

(55)

(56)

Entonces M1 , M2 ,..., M r son momentos con respecto al origen de rdenes 1, 2, ...,


r, respectivamente.
Definicin 3. Momentos con respecto a la media aritmtica. Cuando las
desviaciones son calculados con respecto a la media a x , se llaman momentos de

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

163

orden r con respecto a la media aritmtica, que se denotan por M r, x M r y las


frmulas se escriben:

1 n
(x i x) r , para datos no tabulados. r = 1, 2, 3,...
n i 1

(57)

1 k
n i (y i y) r , para datos no tabulados. r = 1, 2, 3,...

n i1

(58)

M r M (x - x ) r

M r M (y - y) r

Entonces M1, M2,..., M r son momentos con respecto a la media de rdenes 1, 2,..., r,
respectivamente.
Ejercicio.
1. Se pide determinar las formulas para el clculo de los cuatro primeros momentos
con respecto:
a) a un punto a cualquiera.
b) al origen.
c) a la media aritmtica.
2. Calcular los cuatro primeros momentos de las observaciones 3, 5, 7 y 9, respecto:
a) al punto 4.
b) al origen.
c) a la media aritmtica del conjunto de observaciones.

3.3. Medidas de forma de la distribucin.


Hay ocasiones en que es deseable calcular una medida que muestre la direccin de la
dispersin con respecto al centro de la distribucin y que completan la descripcin de
las distribuciones de frecuencias. Estas caractersticas se llaman: Asimetra (que
significa no tener simetra) y curtosis o apuntamiento. Las medidas de dispersin
solo indican la magnitud de las variaciones, pero no dan informacin acerca de la
direccin hacia donde tienden a ocurrir las variaciones.
3.3.1. Medidas de Asimetra.
Las medidas de asimetra indican la deformacin horizontal de las distribuciones de
frecuencias. Una distribucin es simtrica, como sabemos, cuando su curva (o
polgono) de frecuencias es simtrica respecto al eje vertical.
En el caso de polgonos de frecuencias unimodales simtricas, como sabemos, la
media aritmtica, la mediana y moda coinciden (ver fig.3.15).
Cuando la curva de frecuencias est inclinada o alargada hacia derecha o hacia
valores grandes de la variable (ver fig. 3.16), se dir que la distribucin de frecuencia
unimodal presenta asimetra positiva o a la derecha, y si esta alargada o inclinada
hacia el lado izquierdo o hacia valores pequeos de la variable (ver fig. 3.17), se dir

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

164

que la distribucin de frecuencia unimodal presenta asimetra negativa o a la


izquierda.
n

x ~
x x
Figura

ni

3.15.

~
x

Distribucin

x
simtrica

Figura 3.16. Asimtrica positiva

ni

~
x

Figura 3.17. Asimtrica negativa

3.3.1.1. Diagrama de caja.


La representacin del histograma proporciona impresiones visuales generales acerca
de un conjunto de datos, en tanto que las cantidades numricas tales como x o S
proporcionan informacin acerca de una caracterstica particular de los datos. El
diagrama de caja es una representacin que describe simultneamente varias
caractersticas importantes de un conjunto de datos, como el centro, la dispersin,
desviacin de la asimetra y la identificacin de observaciones que caen
inusualmente lejos del grueso de los datos (a estas observaciones se les llama puntos
atpicos).
El diagrama de caja resulta bastante til cuando el tamao de la muestra no es muy
grande y los histogramas no muestran bien su forma.
El bigote se extiende desde el primer
cuartil hasta el punto del dato menor
dentro de 1.5 rangos intercuartlicos.

El bigote se extiende desde el tercer


cuartil hasta el punto del dato mayor
dentro de 1.5 rangos intercuartlicos

LI

LS
Primer cuartil

Puntos atpicos

Segundo cuartil

Tercer cuartil

Puntos atpicos
Punto atpico extremo

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

165

Figura 3.18. Descripcin de un diagrama de caja.

En este tipo de grfica se representan los tres cuartiles y los datos mnimo y mximo
en una caja rectangular alineada en sentido horizontal o vertical. La caja abarca el
recorrido intercuartilico, con el borde izquierdo (o el inferior) en el primer cuartil,
Q1, y el borde derecho (o el superior) en el tercer cuartil, Q3. Se traza una lnea a
travs de la caja en el segundo cuartil (que es el precentil 50 o la mediana), Q 2 = ~
x.
Una lnea, o bigote, se extiende desde cada extremo de la caja. El bigote bajo o
izquierdo es una lnea que va del primer cuartil al punto correspondiente al menor de
los datos dentro de 1.5 rangos intercuartlicos a partir del primer cuartil. El bigote
superior o derecho es una lnea que va del tercer cuartil al punto correspondiente al
mayor de los datos dentro de 1.5 rangos intercuartlicos a partir del tercer cuartil. Los
datos que se encuentran alejados de la caja ms all de los bigotes se grafican como
puntos individuales. A un punto situado despus de un bigote, pero a menos de 3
rangos intercuartlicos del borde de la caja, se le llama punto atpico. A un punto
situado a ms de 3 rangos o a menos de 3 rangos intercuartlicos del borde de la caja,
se le llama punto atpico extremo (vease la figura 3.18). Ocasionalmente se usan
smbolos diferentes, tales como crculos vacos o rellenos, para identificar las dos
clases de puntos atpicos. En ocasiones los diagramas de cajas reciben el nombre de
diagramas de cajas y bigotes.
En la figura 3.18 se muestra el diagrama de caja e indica que la distribucin no es
simtrica alrededor del valor central, ya que tanto los bigotes izquierdo y derecho
como las longitudes de las cajas izquierda y derecha alrededor de la mediana son
desiguales. Es decir que la distribucin tiene una asimetra positiva. Hay tambin dos
puntos ligeramente atpicos en cada extremo de los datos.
Construccin de un diagrama de caja.
1.

Se ordenan los datos de la muestra, identificando el valor mnimo y el


mximo. Luego obtener Recorrido = x mx. x min. y los tres cuartiles Q 1, Q 2 y Q 3.

2.

Se dibuja un rectngulo cuyos extremos son Q 1 y Q 3, e indicar la posicin de la


mediana (Q 2) mediante un segmento de recta vertical. As, dentro de la caja
queda representado el 50% central de la informacin contenida en los datos.

3.

Se calculan los lmites admisibles superior e inferior que sirven para identificar
los valores atpicos, como sigue:
Recorrido intercuartlico = RI = Q3 Q1
Longitud del bigote bajo o izquierdo = LI = Q1 1.5 RI = Q1 1.5 (Q3 Q1)
Longitud del bigote superior o derecho = LS = Q3 1.5 RIQ = Q3 + 1.5 (Q3 Q1)

4.

Dibujar un segmento de lnea recta que vaya desde cada extremo del rectngulo
central hasta los lmites admisibles LI y LS.

5.

Identificar todos los datos que estn fuera del intervalo [LI ; LS], marcndolos
como atpicos.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS


LI

166
LS

Valores atpicos

Valores atpicos
1.5 (Q3 - Q1)

1.5 (Q 3 - Q1)
RI

1.5 RI

Me = Q 2

Q3

x mn.

Q1

x mx.

Con este diagrama se puede visualizar la simetra o asimetra de la distribucin.


As mirando la caja:
Si la lnea trazada en la mediana est en el centro de la caja, la distribucin de
los datos tiende a ser simtrica.
Si la lnea de la mediana se acerca al lmite inferior de la caja, hay indicios de
asimetra positiva o a la derecha.
Si la lnea de la mediana se acerca al lmite superior de la caja, es una
indicacin de asimetra negativa o a la izquierda.
Mirando las lneas, su longitud relativa puede usarse tambin como indicacin de
asimetra. As:
Si la lnea que se extiende desde el lmite superior de la caja al mximo valor
de la variable es ms larga, los datos presentan asimetra a la derecha.
Si es ms larga la lnea que va desde el lmite inferior de la caja hasta el
mnimo valor de la variable, hay indicios de asimetra a la izquierda.
Ejemplo 3.49. Cada da de la primera quincena de enero atracan en un puerto
pesquero el siguiente nmero de lanchas pesqueras:
95 89 77 87 81 89 92 103 87 82 80 100 79 74 83
Dibuje un diagrama de caja para estudiar la forma de la distribucin de los datos.
Solucin. Primero se ordenan los datos de menor a mayor.
74 77 79 80 81 82 83 87 87 89 89 92 95 100 103
donde Xmn.= X(1) = 74 y Xmx.= X(15) = 103
El recorrido de la variable es Re = 103 74 = 29
El cuartil inferior Q1 es el valor que ocupa el lugar

n 1 16

4
4
4

As, Q1 X ( 4 ) 80
El segundo cuartil Q2 es el valor que ocupa el lugar
Q2 X (8) 87

El cuartil superior Q3 es el valor que ocupa el lugar


Q3 X (12 ) 92

2(n 1) 16

8 , con lo que
4
2

3(n 1) 3 16

12 , entonces
4
4

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

167

Los lmites admisibles son:


LI = Q1 1.5 (Q3 Q1) = 80 1.5 (92 80) = 80 18 = 62
LS = Q3 + 1.5 (Q3 Q1) = 92 + 1.5 (92 80) = 92 + 18 = 110
El diagrama de caja es:
L I= 62

L S = 110

x mn.

Q1

Q2

Q3

x mx

74

80

87

92

103

Se puede concluir al observar el diagrama de caja, que hay indicios de asimetra


negativa para este conjunto de datos.
Mediante el uso del Software Estadstico STATGRAPHICS, se obtiene el diagrama
de cajas y bigotes para los datos del ejemplo 3.49.

Diagrama de Caja y bigotes para los datos del ejemplo 3.49.

74

78

82

86

90

94

98

102 106

Nmero de lanchas

Ejemplo 3.50. Para la informacin contenida en el ejemplo 3.33, referente a los 100
alumnos de la UNP, segn su estatura, se pide construir el Diagrama de caja y
bigotes. Interprete el tipo de asimetra de la distribucin.
Solucin. Se tiene la siguiente informacin estadstica:

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

168

ymn. = 150, ymx = 190, Q1 165.61 , Q 2 169.4 , Q 3 176.25


Los lmites admisibles son:
LI = Q1 1.5 (Q3 Q1) = 165.61 1.5 (176.25 165.61) = 149.65
LS = Q3 + 1.5 (Q3 Q1) = 176.25 + 1.5 (176.25 165.61) = 192.21
El diagrama de caja es:

L I= 149.65

x mn.

LS = 192.21

Q1

Q2

Q3

x mx

150

165.61

169.4

176.25

190

Se puede observar en el diagrama de caja, de que hay indicacin de una asimetra


positiva o a la derecha.

3.3.1.2. Coeficientes de Asimetra


Coeficiente de Pearson.
Teniendo en cuenta que la media aritmtica y la moda coinciden en una distribucin
simtrica, Pearson propuso un coeficiente relativo de asimetra para curvas de
frecuencias unimodales:

Media Moda
xx
CA S

Desviacion estndar
S

(59)

Si CA S 0 , la distribucin es simtrica.
Si CA S 0 , la distribucin tiene asimetra positiva o sesgada hacia la derecha.
Si CA S 0 , la distribucin tiene asimetra negativa o sesgada hacia la izquierda.
Es razonable pensar que tiene sentido obtener este coeficiente en distribuciones
unimodales.
Sin embargo, es conocido que la moda de una distribucin no es fcil de calcular y
para muchas distribuciones solo es una aproximacin. Entonces, podemos expresar el
numerador de la expresin anterior en funcin de la mediana. Considerando la
relacin emprica entre la media, la mediana y moda (ver 3.1.7) para distribuciones
de frecuencias unimodales y moderadamente asimtricas.
x Mo 3( x Me)

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

169

El coeficiente de asimetra anterior propuesto por Pearson se expresa como:


3( x Me) 3( x ~
x)

S
S

CA S

(60)

Los coeficientes de asimetra anteriores se llaman, respectivamente primero y


segundo coeficientes de Pearson.
Coeficiente de Asimetra en funcin de los momentos.
Veamos cmo se puede obtener otro coeficiente de asimetra que prescinda de la
moda y mediana.
El tercer momento respecto a la media es:
n

M 3 M (x - x ) 3

(x
i 1

x)3

n
k

M r M (y - y)
3

, para datos no tabulados. r = 1, 2, 3,...

n (y
i

i 1

y)3

, para datos no tabulados.

n
La unidad de medida de M3, no es la misma que la unidad de las observaciones, es
decir, tiene dimensin 3 respecto a la magnitud del fenmeno. Por ello para tener un
coeficiente de asimetra, no slo adimensional (puro), sino tambin invariante,
dividimos, M3 por el cubo de la desviacin tpica (S 3 >0), resultando el llamado
coeficiente de asimetra de Fisher:
n

(x

CA S

i 1

x ) 3 /n

S
k

CA S

n (y
i 1

i 1

(x

i 1

(62)

(x i x )

Pero S3

M 3 , para datos agrupados.


S3

(61)

y)3 /n

M 3 , para datos no agrupados.


S3

x)2

M2

Luego, el coeficiente de asimetra en funcin de los momentos se escribe:

CA S

M3
M2

(63)

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

170

La interpretacin de este coeficiente es semejante a los otros.


Coeficiente de Asimetra en funcin de los cuantiles.
Las ms importantes son:
a. El coeficiente de asimetra cuartlico o de BOWLEY (o tambin llamado
coeficiente de asimetra de YULE), est dado en funcin de los cuartiles.
CA S

(Q 3 Q 2 ) (Q 2 Q1 ) Q 3 2Q 2 Q1

Q 3 Q1
Q 3 Q1

(64)

b. El coeficiente de asimetra en funcin de los percentiles P10 y P90 est dado


por:
(P P50 ) (P50 P10 ) P90 P10 2P50
CA S 90

(65)
P90 P10
P90 P10
Llamado como el coeficiente de asimetra percentlico.
Estos coeficientes, generalmente se usa cuando no se puede calcular la media y la
desviacin estndar. La interpretacin es la misma que los otros coeficientes de
asimetra.
Nota 1. Cuando una distribucin es marcadamente asimtrica, o deforme, coinciden
los signos de los diferentes coeficientes de asimetra, aunque difieran en sus valores
numricos; pero cuando la distribucin es solo ligeramente asimtrica o escasamente
sesgada, ocurre en muchos casos que unos coeficientes de asimetra son positivos y
otros negativos o nulos. Por, esto debemos considerar a estos coeficientes como
valores descriptivos de las caractersticas de una distribucin y no como medidas.
3.3.1.3. ndice de Asimetra.
Una medida clsica de la asimetra esta basado sobre el tercer momento con respecto
3
a la media, M 3 E (x ) . . Este momento es dividido por 3 , donde

E (x ) 2

1/2

es la desviacin estndar. Este cociente resultante

E (X ) 3
3

(66)

es usado comnmente como un ndice de asimetra poblacional. Valores negativo


grande de nos indican que existe asimetra negativa, mientras que valores
positivos relativamente grande sugieren asimetra positiva.
ndice de asimetra muestral.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

171

Para distribuciones muestrales el ndice de asimetra es estimado usando los


n

(x

momentos muestrales

i 1

x)3 y

(x
i 1

x ) 2 . El estimador del ndice , es el

ndice muestral de asimetra:


n

n (x i x ) 3

n (x i x ) 3

i 1

g
n

donde

(x

i 1

x) 2

(67)

(n 1)(n 2)
i 1

3
S
(n 1)(n 2)S3

es la desviacin estndar muestral.

Valores negativos de g indicaran una asimetra hacia la izquierda, mientras que


valores positivos de g indicaran una asimetra hacia a la derecha.
Para muestras grandes (n>30), el ndice muestral g se distribuye como una normal
con media 0 y varianza aproximada de 6/n.

Ejemplo 3.51. Para nuestro ilustrativo sobre la estatura de los 100 alumnos de la
UNP, se pide analizar la asimetra de la distribucin.
Solucin.
Estatura

( Yi1 Yi

Yi

150 - 155
155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total

152.5
157.5
162.5
167.5
172.5
177.5
182.5
187.5

ni
4
5
12
33
17
16
9
4
100

(y i y) 2

(y i y) 2 n i (y i y) 3 n i (y i y) 4 n i

320.41
166.41
62.41
8.41
4.41
50.41
146.41
292.41
1055.28

1281.64
832.05
748.92
277.53
74.97
806.56
1317.69
1169.64
6509.00

-22941.356
-10733.445
-5916.468
-804.837
157.437
5726.576
15944.049
20000.844
1433.267

410650.27
138461.44
46740.097
2334.0273
330.6177
40658.689
192922.99
342014.43
1137519.50

A partir de la tabla de distribucin anterior se obtiene la siguiente informacin:


y 170.4

, y 167.84 ,

~
y 169.4 ,

S = 8.1085 y

(x
i 1

x ) 3 1433.267

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

172

Consideremos a manera de ilustracin, el clculo de los coeficientes de asimetra de


Pearson y el coeficiente de asimetra en funcin de los momentos.
Coeficientes de Pearson
1er Coeficiente de Pearson:

x x 170.4 167.84
CA S

0.3157 > 0
S
8.1085

2er Coeficiente de Pearson:


CA S

3 (x ~
x ) 3(170.4 169.4)

0.1233 > 0.
S
8.1085

El coeficiente en funcin de los momentos


n

M
CA S 33
S

(x
i 1

x ) 3 /n

1433.267 / 100 14.33267


>0

0.0269
3
533.1158
(8.1085)

Como vemos, todos los coeficientes indican una distribucin de la estatura


ligeramente sesgada a la derecha (asimetra positiva). El ms fiable de todos es el
coeficiente de asimetra en funcin de los momentos.

Para el mismo ejemplo mediante el uso del programa STATGRAPHICS,


proporciona la siguiente salida (output) para el valor del ndice de asimetra
Resumen Estadstico para Estatura_alumnos_UNP
Frecuencia = 100
Media = 170.85
Mediana = 170.0
Moda = 168.0
Desviacin tpica = 8.01183
Asimetra = - 0.0453158

Como el valor del ndice g = - 0.045316 > 0, indica que la distribucin de los estudiantes
segn su estatura tiene una ligera asimetra negativa.

Ejercicio. Para la tabla de distribucin de frecuencias siguiente, se pide calcular e


interpretar:
Intervalo
60 66
66 72
72 78
78 84
84 90
90 96

ni
4
6
7
11
8
4

a) Los coeficientes de asimetra de Pearson.


b) El coeficiente de asimetra por la formula de
los momentos.
c) Los coeficientes por el mtodo de los
cuantiles.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

173

3.3.2. Medidas de Curtosis o Apuntamiento.


Definicin. Se entiende por kurtosis el grado de deformacin vertical de una
distribucin de frecuencias, es decir la medida de apuntamiento o achatamiento de
una distribucin.
ni
Leptocrtica
Mesocrtica
Platicrtica

x
Figura

3.19

La idea de apuntamiento de una distribucin surgi de la comparacin de la


frecuencia de los valores centrales de una distribucin con la frecuencia de dichos
valores en la distribucin normal que le corresponde. Entonces, el apuntamiento de
distribucin de frecuencias indica la mayor o menor altura del mximo central, con
respecto a la altura de la curva normal con media y desviacin estndar igual que la
distribucin que se estudia. Con relacin al grado de apuntamiento (ver figura 3.19),
podemos tener curvas Leptocrtica, Mesocrtica y Platicrtica.
3.3.2.1. Forma de medir la curtosis.
El grado de curtosis o apuntamiento puede medirse en funcin de momentos o de
cuantiles.
Curtosis en funcin de Momentos.
El grado de curtosis o apuntamiento est dado por:
k

K1

n (y
i 1

y) 4 /n
4

M4
2
M2

(68)

donde: M4 = cuarto momento respecto a la media.


S = desviacin estndar
Como se observa K1 es positivo (K1 > 0) y se define de sta forma porque en una
distribucin normal, este coeficiente toma el valor 3, es decir se tiene que:

M4
3
2
M2
y al tomarla como referencia, K1 se interpreta como sigue:

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

174

Si K1 > 3, la distribucin de frecuencias es ms apuntada que la curva normal y


recibe el nombre de Leptocrtica.
Si K1 = 3, la distribucin es moderadamente apuntada, con igual apuntamiento que
la curva normal o campana de Gauss y se llama Mesocrtica.
Si K1 < 3, la distribucin es menos apuntada que la curva normal o sea achatada y
recibe el nombre de Platicrtica.
Curtosis en funcin de cuantiles.
Otro coeficiente de apuntamiento, usado con menos frecuencias y vlido slo para
distribuciones campaniforme y moderadamente asimtricas, es el coeficiente de
curtosis de Kelley est dado por:
K2

Q 3 Q1
2(P90 P10 )

(69)

Este coeficiente es llamado tambin coeficiente de apuntamiento percentlico.


Si K2 > 0.263, indica que la distribucin de frecuencia es Platicrtica (el recorrido
semiintercuartlico es mayor que el de la normal y, por tanto, es ms
aplanada que sta).
Si K2 < 0.263, expresa que la distribucin de frecuencia es Leptocrtica.
Si K2 = 0.263, la distribucin de frecuencias es Mesocrtica.
El valor de 0.263, resulta de calcular K2 para la distribucin normal.
De los dos coeficientes de curtosis, el ms fiable es el dado en funcin de los
momentos (expresin, 68), puesto que incluye en l no slo los datos en cuanto al
orden, sino el valor de cada uno de los datos.
Nota 2. Al igual que el caso de los coeficientes de asimetra de una distribucin, los
que representan a curtosis o apuntamiento se utiliza para ayudar a describir las
caractersticas de una distribucin y no precisamente como medidas, ya que a veces
el valor de la curtosis se contradice con la realidad por estar relacionado con la
distribucin normal.
3.3.2.2. ndice de Curtosis.
El momento central de cuarto orden constituye una medida de la curtosis de las
distribuciones, pues acenta las desviaciones a la media de los valores situados a la
derecha y a la izquierda de ella. Suele dividirse dicho momento por la cuarta potencia
de la desviacin estndar para conseguir una medida adimensional, esto es,
independiente de las unidades de medida de las observaciones.
La curtosis de la curva de frecuencias de una distribucin campaniforme y simtrica,
o con moderada asimetra, se mide respecto a la normal de igual media y varianza.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

175

Puesto que el apuntamiento de la normal, medido por cociente E (x ) 4 / 4 ,


tiene valor de 3, este ndice mide la curtosis respecto a una distribucin normal. Por
tanto, en este tipo de distribuciones, una medida de la curtosis viene dada por el
siguiente ndice de curtosis poblacional:

E (X ) 4

3
4

(70)

Llamado ndice de curtosis de Fisher. Este ndice mide el apuntamiento o exceso en


la parte central de la distribucin de frecuencia.
Cuando > 0, la distribucin la distribucin es referida como Leptocrtica; si <
0, es Platicrtica, y si = 0, es Mesocrtica.
ndice de curtosis muestral.
Para distribuciones muestrales el ndice de curtosis es estimado por:
n

n(n 1) (X i X) 4
i 1

(n 1)(n 2)(n 3)S

3(n 1) 2
(n 2)(n 3)

(71)

Bajo la suposicin de normalidad para el estadstico muestral d, para muestras


grandes (n >30) tiene una distribucin normal con media cero y varianza 24/n.
Si d > 0 , la distribucin es referida como Leptocrtica.
Si d < 0 , la distribucin es llamada Platicrtica.
Si d = 0 , la distribucin es llamada Mesocrtica (normal).
Ejemplo. 3.52. Para el ejemplo 3.51, sobre la estatura de los 100 alumnos de la UNP,
se pide calcular el coeficiente de curtosis por momentos y percentlico.
Solucin. Se tiene la siguiente informacin estadstica:
Q1 = 165.61 , Q3 = 176.25 , P10 = 160.417 , P90 = 181.67 , S = 8.1085
8

n (y
i 1

y) 4 1137519 .5

1. Coeficiente de curtosis en funcin de los momentos:


k

K1

M4
M2

n (y
i 1

y) 4 /n

S4

1137519 .5 / 100 11375 .195


< 3.

2.63146
4
4322.7694
(8.1085)

Este coeficiente nos indica que la distribucin es un poco menos apuntada que la
distribucin normal, es decir que tiene una deformacin vertical ligeramente
Platicrtica.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

176

2. Coeficiente de curtosis percentlico.

K2

Q 3 Q1
176.25 165.61
10.64

0.2503 < 0.263


2(P90 P10 ) 2(181.67 160.417) 42.506

Comparando con el valor 0.263 de la normal, ndica que la distribucin de


frecuencias es ligeramente Leptocrtica.
Esta discrepancia con el valor encontrado para K1 (coeficiente en funcin de los
momentos) pone de manifiesto la reserva con que hay que aplicar este coeficiente en
las distribuciones asimtricas.

Aplicando el programa SPSS, se obtiene el valor del ndice de curtosis para la


distribucin de los alumnos segn su estatura. La salida (output) resultante se
muestra a continuacin.
Estadsticos descriptivos

Estatura de los
alumnos de la UNP.
N vlido (segn lista)

N
Estadstico

Media
Estadstico

Desv. tp.
Estadstico

100

170.85

8.012

Asimetra
Estadstico Error tpico
-.045

.241

Curtosis
Estadstico Error tpico
-.103

100

d = Curtosis = - 0.103 < 0, se puede considerar a la distribucin como


ligeramente Platicrtica.
Como

.478

Você também pode gostar