Escolar Documentos
Profissional Documentos
Cultura Documentos
104
Captulo 3.
ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS.
3.1. MEDIDAS DE TENDENCIA CENTRAL Y DE POSICION.
En el capitulo anterior estudiamos de que manera los datos podran ser presentados
en forma compacta, comprensible mediante tablas y grficos. Sin embargo, con
frecuencia necesitamos resumir an ms para facilitar el anlisis e interpretacin de
la informacin. Cuando la variable en estudio es cuantitativa, podemos estar
interesados en encontrar un solo valor, que pueda caracterizar ms ntidamente la
naturaleza de los datos que se estn midiendo.
Un valor que refleje la tendencia de los datos puede darse mediante las medidas de
tendencia central o de posicin. Estas medidas aplicadas a las caractersticas de las
unidades en una muestra se les denomina estimadores o estadgrafos. En cambio
aplicado a las caractersticas de los elementos de una poblacin se les conoce como
parmetros o valores estadsticos de la poblacin.
Las medidas de tendencia central o de posicin ms importantes y muy usadas son:
la media aritmtica o media, la mediana, la media geomtrica y la media armnica.
Tambin podemos mencionar a la moda, los cuartiles, los percentiles, etc. Estas
medidas o estadgrafos son considerados como medidas de localizacin, puesto que
sealan la localizacin de los valores ms frecuentes o de valores extremos.
3.1.1. La media aritmtica.
La media aritmtica o simplemente media, es la medida de tendencia central ms
utilizada, la ms conocida y sencilla de calcular, de gran estabilidad en el muestreo y
sus frmulas admiten tratamientos algebraicos.
a) Clculo de la media aritmtica para datos no agrupados.
Sea x1, x2,..., xn valores de la variable X. La media aritmtica simple de X
representada por X (lase X barra) es dado por:
n
x
i 1
x1 x 2 x n
n
X
i 1
X 1 X 2 X N , N = es el tamao de la poblacin.
N
(2)
105
x
i 1
ni
, donde n n i .
i 1
(3)
Ejemplo 3.1. Diez observaciones del tiempo de servicio efectivo en minutos de
bateras usadas en una computadora personal porttil son las siguientes:
176 191 214 220 205 192 201 190 183 185
Calcular el tiempo medio de servicio de las bateras.
Solucin.
En este caso n = 10, x1 = 176, x2 = 191, x3 = 214,., x9 = 183 y x10 = 185.
La media o promedio del tiempo de servicio ser:
10
x
i 1
10
10
Ejemplo 3.2. Considerando la informacin contenida en la tabla 2.8 (ver pagina 90),
correspondiente a una muestra de 100 alumnos, en la cual se estudia la variable
estatura. Se pide determinar la estatura media de alumnos.
Tabla 2.8. Distribucin de frecuencias de 100 alumnos de la UNP,
segn su estatura (en cm.).
( Yi1 Yi
Yi
ni
Yini
150 - 155
155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total
152.5
157.5
162.5
167.5
172.5
177.5
182.5
187.5
4
5
12
33
17
16
9
4
100
610.0
787.5
1950.0
5527.5
2932.5
2840.0
1642.5
750.0
17040.0
ni
centmetros.
17040.0
170.4
n
100
3.1.1.1. Propiedades de la media aritmtica.
i 1
106
Es necesario conocer y manejar en forma correcta las propiedades que tiene la media
aritmtica, pues nos facilita el desarrollo de ciertas operaciones, muchas de ellas
necesarias en el desarrollo de la teora estadstica y en la prctica.
3.1. La media aritmtica puede ser un valor positivo (cero) o un valor negativo.
3.2. Si todos los valores observados x1, x2, , xn son iguales a c (donde c es una
constante), entonces
M(Y) M(C) C .
xi
M(X) M(C)
i 1
i 1
, propiedad de sumatoria.
nc
c
n
b = constante
Prueba.
Si Y X b , entonces
n
M (Y)
yi
i 1
(x i n i b)
i 1
Xin i
i 1
b
i 1
M(X) b X b
3.4. Si cada valor observado de una variable X se multiplicados o divididos por una
constante diferente de cero, entonces la media de X, X quedar multiplicada o
dividida por esta constante, o sea:
Y M(Y) M(aX) a X , a = constante
Prueba.
Si Y aX , entonces
n
M(Y)
yi
i 1
ax i
i 1
a xini
i 1
a M(X) a X
107
(X
Es decir:
i 1
(X
i 1
X ) 0 ,
X ) n i 0 ,
3.6. La suma de los cuadrados de las desviaciones de cada una de las observaciones
de los valores de la variable X con respecto a su media aritmtica X es
mnima. Esta propiedad significa que, si a es cualquier valor, entonces:
k
(X
i 1
X) 2 n i (X i a) 2 n i
i 1
Prueba.
En efecto,
Sea a una constante arbitraria, entonces se tiene:
k
(X
i 1
a) n i (X i X) (X - a) n i
2
i 1
i 1
i 1
i 1
Puesto que:
k
i 1
i 1
i 1
i 1
i 1
(X i a) 2 n i (Xi X) 2 n i (X a) 2 n i
k
y como
(X a)
i 1
n i 0 , obtenemos
k
(X
i 1
a) 2 n i (X i X) 2 n i
i 1
108
3.7. Si x1, x2, , x n y y1, y2, , y n son dos conjuntos de observaciones de n valores
cada uno, de dos variables X y Y, expresados en las mismas unidades, entonces
M(X Y) M(X) M(Y)
M(X i )
i
i 1
i1
51 60 58 62 57 63 575
57.5 Fo
10
10
Fo 32
5
5
127.5
) (Fo 32) (57.5 32)
14.17 o C
9/5
9
9
9
Ejemplo 3.4. En una empresa donde los salarios tienen una media de S/1000.00
nuevos soles, el sindicato solicita que cada salario X, se transforme en Y, mediante la
siguiente relacin:
Y 2.5x 100
109
y n
i
i 1
K
y1 n 1 y 2 n 2 y k n k
y1 h 1 y 2 h 2 y k n k y i h i
n
i 1
(4)
n
sabiendo que h i i
n
110
X 1 n 1 X 2 n 2 ... X r n r
Xp
n 1 n 2 ... n r
i 1
ni
(5)
donde n n i .
i 1
Si p1, p2, .,pr son los pesos o ponderaciones asociados a los valores de la
variable X: x1, x2, ,xr respectivamente, entonces la media aritmtica
ponderada ser:
r
Xp
X
i 1
pi
(6)
p
i 1
Ejemplo 3.6. La empresa A tiene 100 empleados, con un sueldo promedio mensual
por empleado de S/. 1500. La empresa B tiene 200 empleados con un sueldo
promedio mensual de S/. 1400.
a) Cul es el sueldo promedio mensual de las dos empresas en conjunto?
b) Si a las dos empresas se agrega una tercera con 50 empleados y un sueldo
promedio mensual por empleado de S/.1600, Cul es el sueldo promedio para las
tres empresas en conjunto?Solucin.
a) nA = 100 ,
X A 1500 ,
nB = 200 ,
X B 1400
S / .1433.33
nA nB
100 200
Entonces, X (A BC)
X A B 1433.33 ,
nc = 50
X C 1600
Escuela profesional
111
N de alumnos
% de Mujeres
Biologa
40
70
Estadstica
25
50
Matemticas
20
40
0.57 57%
40 25 20
85
C2
C3
C4
C5
carretera
6 km.
3 km.
8 km.
2 km.
Figura 3.1. Ubicacin de las ciudades donde viven los socios del club.
(C
i 1
112
(C
i 1
a) 2 = mnimo
3) Por propiedad 3.6, esta expresin ser mnimo, si a C . Por tanto, el problema se
reduce a calcular la media de la ubicacin de las ciudades C i , i=1, 2,, 5 , para lo
cual consideremos como origen de coordenadas, la ciudad C i . esto significa que
ahora se cumple el esquema de la figura 3.2.
y
C1
0
C2
C3
C4
C5
6 km.
9 km.
17 km.
19 km.
Figura 3.2
4) Llevamos los datos del problema a la siguiente tabla, donde se efectuan las
operaciones convenientes.
C i 100 h i %
0
10
6
20
9
30
17
25
19
15
100
hi
Ci hi
0.10 0.00
0.20 1.20
0.30 2.70
0.25 4.25
0.15 2.85
1.00 11.00
Luego,
C C i h i 11
por
la
i 1
formula (4).
Es decir, el complejo deportivo debe
ubicarse a 11 km. de C 1 o entre C 3 y
C 4 a 2 km. de C 3.
113
donde
(7)
n 1
es la posicin que ocupa la mediana.
2
X n 2 X n 2 1
(8)
Esto quiere decir, que el valor de la mediana es igual al promedio aritmtico de los
valores centrales cuya posicin son: n/2 y (n/2+1).
Ejemplo 3.9. Las siguientes cifras son los importes del consumo (en soles) de 13
personas en un restaurante: 13, 15, 20, 20, 25, 35 25, 40, 44, 48, 50, 44, 30.
Determinar la mediana de estos importes.
Solucin. Ordenando la informacin en forma ascendente, tenemos:
13, 15, 20, 20, 25, 25, 30, 35, 40, 44, 44, 48, 50.
Como el nmero de datos es impar (n = 13), se tiene que la posicin de la mediana
es:
n 1
~
7 , luego la mediana de los importes es: X
Med(x)
2
soles.
Esto significa que el 50% de las personas (es decir, 6 de ellos) tienen un importe
menor o igual que 30 soles y el 50% restante de las personas tienen un importe
mayor que 30 soles.
Ejemplo 3.10. El riesgo de manifestar deficiencia de hierro en algn momento es
alto, en particular durante el embarazo. El problema con la deteccin de esta
deficiencia, es que algunos mtodos para cuantificar el hierro se ven afectados por el
estado de embarazo. Considere los siguientes datos en relacin con la concentracin
114
del receptor de transferan para una muestra de mujeres con pruebas de laboratorio de
anemia explcita por deficiencia de hierro (Serum Transferrin receptor for the
Detection of Iron Deficiency in Pregnancy, Amer. J. of Clinical Nutrition, 1991:
pg. 1077-1081):
15.2
9.3
7.6
11.9
10.4
9.7
20.4
9.4
11.5
16.2
9.4
8.3
8.3
9.3
9.4
9.4
9.7
10.4
11.5
11.9
15.2
16.2
20.4
En este caso, n =12 es par, por consiguiente la mediana se localiza entre los valores
centrales X6 y X7 , es decir, entre los valores 9.7 y 10.4. Por tanto, el valor mediano
es:
Me
9.7 10.4
n
, M e Yj
2
(9)
Caso 2. Cuando N j 1
Y Yj
n
, M e j 1
2
2
(10)
Para tablas con intervalos.
Consideremos una distribucin de datos agrupados en intervalos cuyo polgono de
frecuencias acumuladas (ojiva menor que) es el de la figura 3.3.
Ni
n /2
N
115
-1
N1
0
Y0
Y1 ..Yj - 1 Me Yj
Yj +1
Figura 3.3.
ADE
AD DE
AB BC
2 N j1
~
Me Y Yj1 c
N j N j1
(11)
Donde:
Y j1 = lmite inferior de la clase que contiene a la mediana.
n = tamao de la muestra.
c = amplitud de la clase que contiene a la mediana.
Nj = frecuencia acumulada de la clase que contiene a la mediana.
Nj-1 = frecuencia acumulada de la clase inmediatamente anterior a la clase que
contiene a la mediana.
En este caso el problema consiste en determinar un punto dentro del intervalo en que
est comprendida la mediana.
Procedimiento:
1. Calcular la posicin de orden
n
.
2
n
Nj,
2
Con lo cual la mediana estar en la clase que tiene como frecuencia acumulada Ni.
116
3. Utilizar la formula:
N j1
2
N j N j1
~ Y
Y
j1 C
ni
Ni
2
2
3
5
N j -1
6 11
Nj
5 16
4 20
20
Solucin.
n 20
10
2
2
Como N j1
n
o sea 5 < 10 N j1 N 1 5
2
N j N 2 11
1.
( Yi1 Yi
Yi
ni
Ni
150 - 155
155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total
152.5
157.5
162.5
167.5
172.5
177.5
182.5
187.5
4
5
12
33
17
16
9
4
100
4
9
21
54
71
87
96
100
n 100
50 vo posicin
2
2
117
N 3 21 50 vo N 4 54
Interpretacin.- Este valor mediano significa, que el 50% de los alumnos tienen una
estatura menor o igual que 169.4 cm., en tanto que el otro 50% tienen una estatura
mayor que 169.4 cm.
3.1.2.1. Propiedades de la mediana.
1. La suma de las desviaciones absolutas de las observaciones con relacin a la
mediana es mnimo, es decir es menor que la suma de las desviaciones absolutas con
relacin a cualquier otro valor de la distribucin. En smbolos
n
x
i 1
y
i 1
x
i 1
y
i 1
~ Y
Me Y
j1
2 H j1
c
H j H j1
(12)
118
30 km.
10 km.
D
8 km.
E
12 km.
Figura 3.4.
y
5
x
i 1
Puesto que el costo total del viaje es proporcional al recorrido total, entonces se debe
tener que:
5
x
i 1
a = mnimo.
30 km.
40 km.
48 km.
60 km.
0
Figura 3.5.
119
25%
Q1
50%
Q2
75%
100%
Q3
Figura 3.6
ii. Si
r(n 1)
no es un entero, hacemos una interpolacin lineal entre los datos
4
Como n =11,
observacin ordenada.
n 1 11 1
Q1 x
n 1
)
4
120
x (3) 7
Interpretacin. Este valor de significa que el 25% de las facturas no pagadas tienen
una deuda menor o igual a 7000 soles, en tanto que, las 75% de las facturas no
pagadas restantes tiene una deuda mayor a 7000 soles.
Clculo de Q3
3(n 1) 3(11 1)
Como n =11,
ordenada, es decir,
Q1 x
3(
n 1
)
4
x (9) 18
rn
, para r = 1, 2, 3.
4
rn
Nj
4
3. Se aplica la frmula:
Q r Y j1
rn
N j1
c 4
N j N j1
r = 1, 2, 3.
(13)
Donde:
n = tamao de la muestra.
c = amplitud de la clase que contiene a Qr.
Nj = frecuencia acumulada de la clase que contiene a Qr.
Nj-1 = frecuencia acumulada de la clase inmediatamente anterior a la clase que
contiene a Qr.
Ejemplo 3.15. Dada la siguiente distribucin, determinar los cuartiles Q1 y Q3.
( Yi1 Yi
150
155
160
165
170
175
155
160
165
170
175
180
Yi
ni
Ni
152.5
157.5
162.5
167.5
172.5
177.5
4
5
12
33
17
16
4
9
21
54
71
87
180 - 185
185 - 190
Total
182.5
187.5
121
9
4
100
96
100
Solucin.
1.
n 100
25 vo ;
4
4
3 n 300
75 vo
4
4
2. Por las frecuencias acumuladas identificamos las clases que contienen a Q1 y Q3.
n
25 54 N 4 , entonces el intervalo de clases que contiene a
4
Como N 3 21
Q1 es (165 - 170].
3n
75 87 N 6 , entonces el intervalo de
4
Q 1 Y j1
4 N3
25 21
c
165.61
165 5
N
N
54 21
4
3
Q 3 Y j1
3n
4 N5
75 71
c
175 5
176.25
N
N
87 71
6
5
centmetros.
centmetros.
25%
Q1 = 165.61
25%
Q2 = 169.40
25%
Q3 = 176.25
190
3.1.4. Deciles.
Los deciles son valores que dividen a un conjunto de datos ordenados en forma
ascendente o descendente en 10 partes iguales (Fig. 3.7).
0%
D1
10%
D2
20%
D3
30%
D4
40%
50%
D5
D6
60%
D7
70%
D8
80%
D9
Figura 3.7
90% 100%
122
.
.
.
c 10
N j N j1
D r Y j1
r = 1, 2,, 9
(14)
Donde:
Y j1 = lmite inferior de la clase que contiene a Dr , r = 1, 2, ..., 9.
n = tamao de la muestra.
c = amplitud de la clase que contiene a Dr.
Nj = frecuencia acumulada de la clase que contiene al r-simo decil, Dr.
Nj-1 = frecuencia acumulada de la clase anterior a la clase que contiene a Dr.
3.1.5. Percentiles.
Son valores que dividen la muestra ordenada en forma ascendente o descendente en
100 partes iguales.
0%
P1
1%
2%
P2
50%
P50
P98
98%
99%
100%
P99
Figura 3.8
Pr Y j1
rn
100 N j1
c
N j N j1
r = 1, 2, ... , 99
(15)
Donde:
Y j1 = lmite inferior de la clase que contiene a Pr , r = 1, 2, ..., 99.
n = tamao de la muestra.
c = amplitud de la clase que contiene a Pr.
Nj = frecuencia acumulada de la clase que contiene a Pr.
Nj-1 = frecuencia acumulada de la clase anterior a la clase que contiene a Pr.
123
( Yi1 Yi
Yi
ni
Ni
150 - 155
155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total
152.5
157.5
162.5
167.5
172.5
177.5
182.5
187.5
4
5
12
33
17
16
9
4
100
4
9
21
54
71
87
96
100
3.1.6. La Moda.
es: X M 0 .......
Ejemplo 3.17. Considere la distribucin de los pesos (en kilos) de 15 adultos:
63, 67, 70, 69, 81, 57, 63, 73, 68, 63, 71, 71, 71, 83.
La moda de estas observaciones es:
X ....... kilos
X ....... kilos
124
Total
N de familias
ni
60
120
210
360
160
50
30
990
Solucin.
1. La frecuencia absoluta mxima
es n 4 = 360.
2. Luego, la moda es el valor de
la variable que corresponde a
la frecuencia n 4 = 360, M 0 = 3
hijos.
nj
F
n j -1
A
n j +1
Yj - 1 Mo Yj
Y
Figura 3.9
ABC y
DBE, se tiene:
BF
BG
AC DE
Es decir,
M o Yj 1
n j n j 1
Yj - M o
n j n j1
n j n j 1
M o Yj 1 c j
(n j n j 1 ) (n j n j 1 )
(16)
125
1 2
M o Y Yj1 c j
(17)
Donde:
( Yi1 Yi
Yi
ni
150 - 155
155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total
152.5
157.5
162.5
167.5
172.5
177.5
182.5
187.5
4
5
12
33
17
16
9
4
100
Solucin.
1. El intervalo de clase de mayor frecuencia absoluta ( n 4 n Mo 33 ) es el cuarto
intervalo: (165 170
1 33 12 21
2 33 17 16
c = 5.
2. Aplicando la formula tenemos:
21
Y 165 5
167.8378 167.84 centmetros.
21 16
Este valor modal significa que: la estatura ms frecuente en los alumnos es de 167.84
cm.; o tambin que la mayora de los alumnos tienen una estatura igual a 167.84 cm.
126
~
X X X
ni
Figura
b)
3.10
Distribuciones asimtricas.
x ~
x x
127
Para una distribucin sesgada hacia la derecha (si la cola mayor se presenta a la
derecha de la distribucin) Figura 3.11, se tiene que:
~
X X X
~
X X X
ni
ni
x ~
x
x ~
x x
Figura 3.12
Figura 3.11
moderadamente asimtrica y
aproximadamente la relacin:
unimodal,
se
128
(18)
i 1
x G 6 3 5 8 3 5 2 6 32 52 4 2 3 3 5 4 3 60 3.914867 3.915
En la prctica, el clculo de la media geomtrica se hace ms rpido tomando
logaritmo y luego el antilogaritmo de ste como sigue:
log x G log n x 1 x 2 x n
1
log x1 log x 2 log x n
n
1 n
log x i
n i 1
Ahora basta calcular el antilogaritmo de la expresin anterior para tener:
log x G
log x
x G antilog
i 1
(19)
Hemos usado logaritmo de base 10, es claro que puede usarse cualquier sistema de
logaritmo.
En cuanto a la denominacin media geomtrica proviene del hecho de que es el
trmino central de una progresin geomtrica de un nmero impar de observaciones.
Es decir, de una sucesin de nmeros positivos, tales que la relacin de cada una con
el precedente es una constante. Por ejemplo, en las progresiones geomtricas:
1.
2.
18
54
162
129
x G 3 2 4 8 3 64 4
En efecto:
x G 5 2 6 18 54 162 5 2 6 18 18 3 18 9 5 185 18
En efecto:
ni
i
(20)
i 1
k
1
n1log y1 n 2log y 2 n k log y k 1 n i log yi
n
n i1
Luego,
y G antilog
i 1
log y i
n
(21)
ni
4
11
21
10
4
50
log y i
1.9637878
1.9689829
1.9731278
1.9777236
1.9822712
n i log y i
7.8551513
21.653312
41.435684
19.777236
7.929084
98.650469
log x G
1 k
98.650469
n i log y i
n i 1
50
1.97300938
Luego,
x G antilog(1.97300938) 93.974363
130
x1 x 2 x n x G
x xG
Prueba.
Veamos la demostracin en el caso de dos trminos positivos x1, x2.
Entonces
x x
x 1 2 0 y x G 2 x1 x 2 0
2
Como x y x G son ambos positivos, se pueden elevar al cuadrado y tener
x x2
x 1
y x G x1 x 2
x 2 2x1 x 2 x 22
x1 x 2
x1 x 2
x1 x 2 1
2
4
Pero x x G 2
131
4
4
2
x x2
1
Siendo el cuadrado siempre no negativo, y nulo slo en el caso en que los dos
trminos tengan igual valor. Entonces
2
2
2
2
x x G 0 , de donde x x G
Solucin.
1)
El cambio promedio de crecimiento, usando la media aritmtica simple ser:
x
4 16
10 veces cada 10 aos.
2
Aos Poblacin
xG )
1940 2
1950 2 x 8 = 16
1960 16 x 8 = 128
132
Tasa de inters
(%)
Factor de
crecimiento (xi)
1
2
3
4
5
7
8
10
12
18
1.07
1.08
1.10
1.12
1.18
11
, corresponde a una tasa de inters promedio del 11% anual. Sin
100
embargo, si el banco pagara intereses a tasa constante del 11% anual, un depsito de
$ 100 crecera en cinco aos al:
$ 100 x 1.11 x 1.11 x 1.11 x 1.11 x 1.11 = $ 168.51
La tabla anterior muestra que el crecimiento real es de slo $ 168.00 un poco menor.
Por tanto el factor de crecimiento promedio anual deber ser un poco menor que
1.11.
En cambio, si usamos la media geomtrica para obtener el promedio pedido,
tendremos que el factor de crecimiento promedio anual es:
133
10.93
que corresponde a una tasa de inters promedio del 10.93%.
100
Tasa de inters
100 %
200 %
250 %
300 %
400 %
2.0
3.0
3.5
4.0
5.0
1
2
3
4
5
$ 100 x 2 = $ 200
$ 200 x 3 = $ 600
$ 600 x 3.5 = $ 2100
$ 2100 x 4 = $ 8400
$ 8400 x 5 = $ 42000
tasa de inters
100
Pero 3.5 1
2 3 3.5 4 5
3.5 veces cada ao.
5
250
, corresponde a una tasa de inters promedio de 250% anual.
100
134
Este resultado excede al real de $ 42000 (ver tabla del ejemplo) en ms de $ 10500 un
error considerable.
En cambio, usando la media geomtrica, el factor de crecimiento promedio anual
ser:
x G 5 2 3 3.5 4 5 5 420 3.347 veces cada ao.
que corresponde a una tasa de inters promedio anual de 235%, pues:
3.347 1
234.7
235
1
100
100
Observe que en este caso, el uso de la media apropiada hace una gran diferencia.
Observacin.
1. En demografa, para estimar la poblacin de una determinada localidad en un ao
t x, cuando se supone crecimiento geomtrico entre dos censos, se usa la formula:
P
Px P0 1
P0
t x t 0
t1 t 0
Donde:
P0 = poblacin en el primer censo, realizado en la fecha t 0.
P1 = poblacin en el segundo censo, realizado en la fecha t 1.
Px = poblacin que se quiere estimar en la fecha t x.
2. Si se quiere determinar la poblacin en el centro de periodo (t 0 , t1), esto es, para
t t
t t
t t
tx 1 0
t x t0 1 0 t0 1 0
2
2
2
Luego,
t1 t 0
tx t0
1
2
t1 t 0 t1 t 0 2
P
Px P0 1
P0
1
2
P0 P1
P0 P1
millones de habitantes.
135
1
/n
i 1 x i
n
n
n
x
i 1
(22)
4
4
4
4 24 32
4.57143
1 1 1 1 8 6 4 3 21
21
7
3 4 6 8
24
24
Observemos que la aritmtica y la media geomtrica con los mismos datos son
respectivamente:
x 5.25 y x G 4.899
1 k ni
n i1 y i
n
ni
i 1 y i
n
(23)
ni
3
7
12
16
20
yi
4
8
12
16
20
n i /y i
0.750
0.875
1.000
0.500
0.500
yH
40
3.625
n
40
11.03
n i 3.625
i 1 y i
n
136
x H
i 1 x i
n
xH xG
xH xG x
Siempre que se trate del mismo conjunto de datos.
de donde p e
1
t
e v t , v e
donde e = espacio ; v = velocidad ; t = tiempo
1
t
137
Ejemplo 3.28. Suponga que ha gastado usted, un sol por 3 docenas de naranjas en
una tiende, otro sol por 4 docenas de naranja en una segunda tienda y otro sol ms
por 5 docenas en una tercera tienda. Determine el precio promedio por una docena de
naranjas.
Solucin. Obtendremos primero el precio pagado por docena de naranja. En la
primera ud. ha gastado 1 sol por 3 docenas de naranjas o sea 1/3 de sol por docena.
En la segunda gast 1 sol por 4 docenas, es decir de sol por cada docena.
En la tercera tienda gast 1 sol por 5 docenas, o sea 1/5 de sol por cada docena.
En otras palabras queremos calcular la media de los recprocos de los nmeros 3, 4 y
5. Entonces, la media armnica es el promedio correcto. Luego n = 3, x1 = 1/3,
x2 = 1/4, x3 = 1/5, es decir
x H
3
3
x
i 1
3
3
3
0.25
1
1
1
3 4 5 12
1/ 3 1/ 4 1/ 5
0.261
3
3
180
e v t , e1 v1 t1 , e 2 v 2 t 2 , v1
Luego,
e1
e2
, v2
, e e1 e 2 y t t1 t 2
t1
t2
Vmedia
e e1 e 2 v1 t1 v 2 t 2
e1 e1 v1 t1 v 2 t 2
t1 t 2
t1 t 2
donde
Vmedia
138
e
e1 e 2
v1 v 2
e
e
v
i
i
i
240
2
72
120 120
1
1
km /h
60
90
60 90
60 90
75 Km /h.
2
(24)
139
R P75 P25
(25)
de elementos
observacin
menor
de elementos
1er. Cuartil
2do. Cuartil
3er. Cuartil
Q1 = P25
Q2 = P50
Q3 = P75
X(n)
observacin
mayor
Figura 3.13
3(n 1) 42
n 1 14
3.5 y
10.5 . Entonces
4
4
4
4
para el ejemplo 1, es
Q1= X(3) + (X(4) X(3)) (0.5) = 7 + (7 7)(0.5) = 7
Q3= X(10) + (X(11) X(10)) (0.5) = 9 + (9 9)(0.5) = 9
para el ejemplo 2, es
140
7, 7, 8, 8, 8, 8, 9,
5, 6, 7, 8, 9, 10, 11,
Q1
9, 9, 14
12, 13, 14
Q3
Q D1
Q 3 Q1 9 7
1
2
2
QD2
Q 3 Q1 11.5 4.5
3.5
2
2
Marcando tambin claramente la mayor dispersin de los datos del segundo ejemplo.
Las descripciones ms claras de la dispersin son aquellas que tienen que ver con la
desviacin promedio a partir de alguna medida de tendencia central. Las ms
importantes son: la desviacin media absoluta, la desviacin mediana absoluta, la
varianza y la desviacin estndar desviacin tpica.
3.2.4. Desviacin Media Absoluta.
Definicin. Sea x1, x2,, xn una muestra de tamao n. La desviacin media absoluta
o simplemente desviacin media DM es la media aritmtica de los valores
absolutos de las desviaciones de los valores observados respecto de la media
aritmtica de stas. Es decir:
DM
i 1
(27)
n
k
DM
xi x
141
i 1
yi y n i
(28)
donde :
k = nmero de clases
ni = frecuencia absoluta de la clase i,
yi = marca de clase o punto medio de la clase i.
La desviacin media se puede utilizar como medida de dispersin en todas aquellas
distribuciones en las que la medida de tendencia central ms significativa haya sido
la media. Pero, para las mismas distribuciones es mucho ms significativa la
desviacin estndar, que se ver despus.
Ejemplo 3.30. Los pesos respectivos de ocho nios (en kilogramos) son:
15, 12, 10, 18, 14, 22, 17, 20
Determine la desviacin media absoluta.
Solucin. La tabla siguiente muestra el procedimiento a seguir para calcular la
desviacin media absoluta.
Observacin
xi
10
12
14
15
17
18
20
Desviacin
xi x
Desviacin
absoluta
-6
-4
-2
-1
1
2
4
6
4
2
1
1
2
4
22
128
xi x
x
n
DM
6
26
128
16 kg.
8
i
26
3.25 kg.
8
142
DMe
x
i 1
Me
(29)
n
k
DMe
i 1
y i Me n i
(30)
Ejemplo 3.31. Hallar la desviacin mediana de los pesos de los nios del ejemplo
3.30.
Solucin.
En primer se determina la mediana de los datos:
Las observaciones escritas en forma ascendente son:
10, 12, 14, 15, 17, 18, 20, 22
n = 8, es par, entonces la mediana es la semisuma de los valores centrales
Me
15 17
16
2
Desviacin
10
12
14
15
17
18
20
22
-6
-4
-2
-1
1
2
4
6
x i Me
Desviacin absoluta
128
26
x i Me
6
4
2
1
1
2
4
6
DMe
26
3.25
8
kg.
3.2.6. La varianza. Esta medida al igual que la desviacin estndar son las utilizadas
en el estudio de la dispersin. La varianza mide la dispersin de los datos con
respecto a la media aritmtica. Daremos primero la definicin de varianza
poblacional.
143
2 M (x ) 2
(x
i 1
) 2
(31)
V(x) S2X M (x x ) 2
(x
i 1
x)2
(32)
n
k
V(y) S2y M (y y) 2
(y
i 1
y) 2 n i
n
(33)
Donde :
n i = frecuencia absoluta de la clase i.
y i = marca de clase o punto medio de la clase i.
Si conocemos el valor de la media aritmtica poblacional , la mejor estimacin de
la varianza poblacional 2 a partir de una muestra sera:
N
V(X)
(x
i 1
) 2
Sin embargo, rara vez, si es que ello es posible, conocemos el valor de , de modo
que en el numerador de la expresin anterior se sustituye por su estimado x .
Ahora bien x , vara de muestra a muestra y rara vez es exactamente igual a .
n
(x
i 1
x ) 2 es mnimo, es decir es
2
Por tanto, si x no es exactamente igual a , (x i x ) <
i 1
(x
i 1
) 2 .
(x i x ) 2
i 1
n
n
(x
i 1
x)2
(x
i 1
144
) 2
n
ah resulta que la correccin apropiada puede ser hecho mediante la utilizacin en el
denominador de n - 1 en vez de n. Es decir, se tendra:
n
(x i x ) 2
i 1
(x i x ) 2
i 1
n -1
(x i x ) 2 / n y
La diferencia entre
i 1
(x
i 1
(x
i 1
) 2
pequeas se usa
(x
i 1
V(x) S2
(x
i 1
Note que
S2
(34)
(35)
n -1
k
V(y) S2
x)2
(y
i 1
y) 2 n i
n -1
n 2
S .
n 1
n
i 1
V(y) S2
n 1
El factor
(yi y) 2 n i
n
n k
(yi y) 2 h i
n 1 i1
n
se conoce como la correccin de Bessel.
n 1
Nota. En inferencia estadstica se ver otras razones por el cual se usa n - 1 en vez de
n en la definicin de la varianza muestral.
145
Ejemplo 3.32. Las frecuencias cardiacas de 5 nios son: 130, 132, 127, 129, 132
pulsaciones por minuto.
Determinar la varianza de la frecuencia cardiaca de la muestra.
Solucin.
Primero debemos determinar la media muestral x , en efecto tenemos,
n
x
i 1
Por tanto:
n
S2
(x
i 1
(x
i 1
(130 130) 2 (132 130) 2 (127 132) 2 (129 132) 2 (132 132) 2
5
18
3.6
5
S2
x)2
x) 2
n -1
18
4.5
4
pequea.
Ejemplo 3.33. El siguiente cuadro muestra la distribucin de acuerdo a su estatura en
centmetros de 100 estudiantes de la UNP.
Estatura
Yi
Nmero de
alumnos, n i
150 - 155
155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total
152.5
157.5
162.5
167.5
172.5
177.5
182.5
187.5
4
5
12
33
17
16
9
4
100
( Yi1 Yi
Nmero de
(y i y) 2
(y i y) 2 n i
( Yi1 Yi
Yi
alumnos, n i
150 - 155
155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total
152.5
157.5
162.5
167.5
172.5
177.5
182.5
187.5
4
5
12
33
17
16
9
4
100
Se sabe que:
i 1
ni
146
320.41
166.41
62.41
8.41
4.41
50.41
146.41
292.41
1055.28
1281.64
832.05
748.92
277.53
74.97
806.56
1317.69
1169.64
6509.00
centmetros.
17040.0
170.4
100
centmetros al cuadrado.
6509
65.09
100
Luego,
k
S2
(y y) n
2
i 1
n
k
V(y) S2
(y
i 1
y) 2 n i
n -1
centmetros al cuadrado.
6509
65.7474
99
S2 y S .
2
i 1
i 1
(x i x ) 2 (x i2 2x i x x )
2
i 1
i 1
x i2 2x x i x
x i2 2x n
i 1
n
i 1
x /n
i 1
nx
n
x i2 2n x 2 n x x i2 n x
i 1
i 1
1 n
1
S (x i x ) 2
n i1
n
2
i
i 1
147
2
x
i 1
x /n
i 1
x i2 /n
x i2 /n x
i 1
i 1
S2 M(x 2 ) M(x) 2
(36)
S2
1
1
(x i x ) 2
n - 1 i 1
n -1
x
i 1
2
i
i 1
i 1
2
i
/n
i1
n 1
(37)
S 2
y n
2
i
i 1
y n
i 1
S
2
y n
i 1
2
i
M(y 2 ) M(y)
(38)
y n
i1
n -1
/n
(39)
Ejemplo 3.34. Usando las formulas de trabajo, determinar la varianza para las
frecuencias cardiacas de los 5 nios del ejemplo 3.31.
Solucin. Calculamos en una tabla todos los valores que necesitamos sustituir en las
(36) y (37).
xi
x i2
127
129
130
132
132
650
16129
16641
19900
17424
17424
84518
Clculo de
M(x) x
S2 : primero se halla
x
n
x
)x
650
130
5
84518
16903.6
n
5
Luego, aplicamos la frmula:
M(x
148
x
i
(650) 2 422500
S2
1
n -1
x i2
i 1
4
5
4
i 1
( Yi1 Yi y i
150 - 155
155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total
152.5
157.5
162.5
167.5
172.5
177.5
182.5
187.5
ni
yi n i
y i2
y i2 n i
4
5
12
33
17
16
9
4
100
610.0
787.5
1950.0
23256.25
24806.25
26406.25
93025.0
124031.25
316875.0
17040.0
232250.0
2910124.9
Luego,
S 2 M(y 2 ) M(y)
y i2 n i
i 1
yi n i
i 1
2910124 .9 17040
100
100
29101.249 29036.16
65.089
y
1
S
n 1
2
y n
i 1
2
i
y n
i 1
1
17040 2
2910124.9
/n
99
100
1
2910124.9 2903616 6508.9 65.746
99
99
149
i=1, 2,, n
de donde
(x
i 1
tendremos que:
2
1 n
V(b)
x i M(x) 0
n 1 i1
Luego,
V(y)
k
1 k
y i M(y) 2 n i 1 (x i b) (M(x) b) 2 n i
n 1 i1
n 1 i 1
k
1 k
x i M(x) 2 n i 1 x i x 2 n i V(x)
n 1 i1
n 1 i1
V(y)
150
1 k
1 k
2
c x i cx 2 n i
y
M(y)
n
i
i
n 1 i1
n 1 i 1
1 k 2
c2 k
2
c
x
x
)
n
i
x i x 2 n i c 2 V(x)
i
n 1 i 1
n 1 i1
Nota 3.1. Las propiedades (3) y (4) son casos especiales de la transformacin lineal
general,
yi a x i b
donde:
y i 10 ,
i 1
y
i 1
2
i
30
V(y)
1
5 1
y
i 1
2
i
y
i 1
2
1 30 10 10 2.5 V(X)
4
5
4
151
donde x
(40)
n1 x1 n 2 x 2
n
n
i 1
S21 , S2 2 , , S2 k las
S2
(n i 1)S2i
i 1
n 1
n (x
i 1
x)2
(41)
n 1
donde
n x
i 1
n
Nota 3.2. Cada submuestra o estrato tiene una media aritmtica, una varianza y un
nmero de observaciones que expresa la importancia de cada uno de estos estratos.
En este caso la variabilidad total S2 puede deberse tanto a la variabilidad dentro de
cada estrato como a la variabilidad entre los estratos.
1)
S2 b
2)
n (x
i 1
x) 2
(42)
n 1
S2 w
(n
i 1
- 1)S2 i
n 1
(43)
152
Ejemplo 3.38. Se clasific a los trabajadores de una mina en dos categoras: mayores
y menores de 25 aos, y se extrajo la siguiente informacin:
Nmero de obreros Productividad media Varianzas
ni
xi
S2 i
Mayores de 25 aos
Menores de 25 aos
200
300
40
60
4900
1600
S2
(n i 1)S2i
i 1
n 1
n (x
i 1
x) 2
n 1
S2
n x
i
i 1
200(40) 300(60)
52
500
3009.02
499
499
V(X)
(44)
153
10
x i 21 18 25 191
i 1
i 1
2
i
212 18 2 25 2 4059
Luego:
1
S
n 1
i 1
2
i
i 1
xi
2
1 4059 (191) 45.6555
9
10
Por tanto, la desviacin estndar ser la raz cuadrada del valor obtenido en la
varianza, es decir:
S
45.6555 6.7569
gramos.
154
4.
S2
(x
i 1
x) 2
n 1
(17 18) 2 (11 18) 2 ( 26 18) 2 (33 18) 2 (9 18) 2 (12 18) 2 456
91.2
5
5
Luego, S S2 91.2 9.5499 . Entonces como N = 350.
a)
La desviacin estndar de la cantidad total de ingresos por impuestos sobre
las ventas que se cobrarn este trimestre, ser:
S total N S 350(9.5499) 3342.465
b)
La desviacin estndar del ingreso total anual por impuestos sobre ventas
ser:
S total anual 4 N S 4(350)(9.5499) 13369.86 .
155
x S y x S no se puede precisar.
x 2S y x 2S estar cuando menos el 75%.
x 3S y x 3S estar cuando menos el 88.89%.
x 4S y x 4S estar cuando menos el 93.75%.
156
68.27%
95.45%
99.73%
99.99%
x - 4S
x - 3S
x - 2S x - S
x + S x + 2S x + 3S
x + 4S
Figura 3.14
Entonces,
En el intervalo [0.53015, 0.54065] estarn aproximadamente el 68.27% de los datos.
En el intervalo [0.5249, 0.5459] estarn aproximadamente el 95.45% de los datos.
En el intervalo [0.51965, 0.55115] estarn aproximadamente el 99.73% de los datos.
157
x + 2S
A 40
10
4
4
Habamos encontrado que S = 8.1084 centmetros para los datos del ejemplo 3.40. La
aproximacin est cerca del valor real de S.
c2
= varianza correccin sheppard.
12
(46)
158
QD
2
S y
3
DM
4
S
5
(47)
(49)
x
x
En general podemos definir la dispersin relativa, como sigue:
159
(Q3 Q1 )/2
x
(50)
S
x
(51)
El coeficiente de variacin, significa, por tanto, el nmero de veces (o tanto por uno,
ya que habitualmente el cociente ser inferior a la unidad) que supone la desviacin
estndar respecto a la media.
Generalmente el coeficiente de variacin se expresa en porcentaje. El C.V es un
nmero puro independiente de la unidad de medicin.
Observacin. Si el C.V es menor del 10% se dice que hay poca dispersin;
Si el C.V oscila entre el 10% y el 33% la dispersin existente es aceptable;
Si el C.V oscila entre el 33% y el 50% se dice que hay alta dispersin;
Pero si el C.V es mayor del 50% se dice que la dispersin es muy alta.
Ejemplo 3.45. Calcular la dispersin relativa para los datos de la ejemplo 3.33.
Solucin. Se sabe que: Y 170.4 centmetros y S = 8.1085 centmetros, entonces
el C.V es:
C.V
8.1085
100 4.76%
170.4
Como el valor de C.V = 4.76% es menor que el 10% y 33%, indica que existe poca
dispersin (baja dispersin).
3.2.8.4. Propiedades del coeficiente de variacin.
1. Slo se debe calcular el coeficiente de variacin para variables con todos
los valores positivos.
Todo ndice de variabilidad es esencialmente no negativo. Las
observaciones pueden ser positivas o nulas, pero su variabilidad es siempre
positiva. De ah que slo debemos trabajar con variables positivas, para
que sepamos con segura que x > 0.
2. No es invariable ante cambios de origen. Es decir, si y = x + b, entonces:
160
CVy CVx
Sy
y
Sx
S
x CVx
xb
x
, S 2 y b 2S 2 x
CVy
S y bS x , si b > 0. Luego
Sy
y
Sbx bSx Sx
CVx
bx
bx
x
500
0.33
1500
C.V(B)
300
0.060
5000
Por ello, puede concluirse que el precio de la accin A ha sido casi 5 veces ms
variable que el precio de la accin B (con respecto al precio promedio para cada una
de las dos).
Ejemplo 3.47. Las notas del curso A tuvieron una media aritmtica de 75 puntos y
una varianza de 225. Las del curso B, tuvieron una media de 70 puntos y una
varianza de 196. Si en ambos cursos las notas se aumentaron en 10%, cul de los
dos cursos tienen un coeficiente de variacin mayor despus de arreglar las notas?
Solucin.
Sea xA la variable que representa las notas del curso A. Por tanto, las notas
aumentadas en 10% sern:
161
y A 1.1x A
Luego,
C.VA
Sy A
yA
16.5
0.2
82.5
(20%)
Similarmente, sea xB la variable que representa las notas del curso B. Entonces, las
notas aumentadas en 10% sern:
y B 1.1x B
Luego.
C.VB
Sy B
yB
15.4
0.2
77
(20%)
xx
S
(52)
xx
, luego,
S
Z1
75 78
0.37
8
Z2
162
71 73
0.26
7.6
M r , a M (x a) r
M r , a M (y a) r
1 n
(x i a) r , para datos no tabulados. r = 1, 2, 3,...
n i 1
1 k
n i (y i a) r , para datos tabulados.
n i 1
(53)
. r = 1, 2, 3,...
(54)
Entonces M 1, a , M 2, a , M 3, a , ..., M r, a son momentos con respecto a un punto a
cualquiera de rdenes 1, 2, 3, ..., r, respectivamente.
Definicin 2. Momentos con respecto al origen. Cuando las desviaciones son
calculados con respecto al punto a = 0, se llaman momentos de orden r con
respecto al origen, que se denotan por M r, 0 = M r, y las frmulas se escriben:
Mr M(x r )
1 n r
x i , para datos no tabulados.
n i1
Mr M(y r )
1 k
r
n i y i , para datos tabulados.
n i1
r = 1, 2, 3,...
r = 1, 2, 3,...
(55)
(56)
163
1 n
(x i x) r , para datos no tabulados. r = 1, 2, 3,...
n i 1
(57)
1 k
n i (y i y) r , para datos no tabulados. r = 1, 2, 3,...
n i1
(58)
M r M (x - x ) r
M r M (y - y) r
Entonces M1, M2,..., M r son momentos con respecto a la media de rdenes 1, 2,..., r,
respectivamente.
Ejercicio.
1. Se pide determinar las formulas para el clculo de los cuatro primeros momentos
con respecto:
a) a un punto a cualquiera.
b) al origen.
c) a la media aritmtica.
2. Calcular los cuatro primeros momentos de las observaciones 3, 5, 7 y 9, respecto:
a) al punto 4.
b) al origen.
c) a la media aritmtica del conjunto de observaciones.
164
x ~
x x
Figura
ni
3.15.
~
x
Distribucin
x
simtrica
ni
~
x
LI
LS
Primer cuartil
Puntos atpicos
Segundo cuartil
Tercer cuartil
Puntos atpicos
Punto atpico extremo
165
En este tipo de grfica se representan los tres cuartiles y los datos mnimo y mximo
en una caja rectangular alineada en sentido horizontal o vertical. La caja abarca el
recorrido intercuartilico, con el borde izquierdo (o el inferior) en el primer cuartil,
Q1, y el borde derecho (o el superior) en el tercer cuartil, Q3. Se traza una lnea a
travs de la caja en el segundo cuartil (que es el precentil 50 o la mediana), Q 2 = ~
x.
Una lnea, o bigote, se extiende desde cada extremo de la caja. El bigote bajo o
izquierdo es una lnea que va del primer cuartil al punto correspondiente al menor de
los datos dentro de 1.5 rangos intercuartlicos a partir del primer cuartil. El bigote
superior o derecho es una lnea que va del tercer cuartil al punto correspondiente al
mayor de los datos dentro de 1.5 rangos intercuartlicos a partir del tercer cuartil. Los
datos que se encuentran alejados de la caja ms all de los bigotes se grafican como
puntos individuales. A un punto situado despus de un bigote, pero a menos de 3
rangos intercuartlicos del borde de la caja, se le llama punto atpico. A un punto
situado a ms de 3 rangos o a menos de 3 rangos intercuartlicos del borde de la caja,
se le llama punto atpico extremo (vease la figura 3.18). Ocasionalmente se usan
smbolos diferentes, tales como crculos vacos o rellenos, para identificar las dos
clases de puntos atpicos. En ocasiones los diagramas de cajas reciben el nombre de
diagramas de cajas y bigotes.
En la figura 3.18 se muestra el diagrama de caja e indica que la distribucin no es
simtrica alrededor del valor central, ya que tanto los bigotes izquierdo y derecho
como las longitudes de las cajas izquierda y derecha alrededor de la mediana son
desiguales. Es decir que la distribucin tiene una asimetra positiva. Hay tambin dos
puntos ligeramente atpicos en cada extremo de los datos.
Construccin de un diagrama de caja.
1.
2.
3.
Se calculan los lmites admisibles superior e inferior que sirven para identificar
los valores atpicos, como sigue:
Recorrido intercuartlico = RI = Q3 Q1
Longitud del bigote bajo o izquierdo = LI = Q1 1.5 RI = Q1 1.5 (Q3 Q1)
Longitud del bigote superior o derecho = LS = Q3 1.5 RIQ = Q3 + 1.5 (Q3 Q1)
4.
Dibujar un segmento de lnea recta que vaya desde cada extremo del rectngulo
central hasta los lmites admisibles LI y LS.
5.
Identificar todos los datos que estn fuera del intervalo [LI ; LS], marcndolos
como atpicos.
166
LS
Valores atpicos
Valores atpicos
1.5 (Q3 - Q1)
1.5 (Q 3 - Q1)
RI
1.5 RI
Me = Q 2
Q3
x mn.
Q1
x mx.
n 1 16
4
4
4
As, Q1 X ( 4 ) 80
El segundo cuartil Q2 es el valor que ocupa el lugar
Q2 X (8) 87
2(n 1) 16
8 , con lo que
4
2
3(n 1) 3 16
12 , entonces
4
4
167
L S = 110
x mn.
Q1
Q2
Q3
x mx
74
80
87
92
103
74
78
82
86
90
94
98
102 106
Nmero de lanchas
Ejemplo 3.50. Para la informacin contenida en el ejemplo 3.33, referente a los 100
alumnos de la UNP, segn su estatura, se pide construir el Diagrama de caja y
bigotes. Interprete el tipo de asimetra de la distribucin.
Solucin. Se tiene la siguiente informacin estadstica:
168
L I= 149.65
x mn.
LS = 192.21
Q1
Q2
Q3
x mx
150
165.61
169.4
176.25
190
Media Moda
xx
CA S
Desviacion estndar
S
(59)
Si CA S 0 , la distribucin es simtrica.
Si CA S 0 , la distribucin tiene asimetra positiva o sesgada hacia la derecha.
Si CA S 0 , la distribucin tiene asimetra negativa o sesgada hacia la izquierda.
Es razonable pensar que tiene sentido obtener este coeficiente en distribuciones
unimodales.
Sin embargo, es conocido que la moda de una distribucin no es fcil de calcular y
para muchas distribuciones solo es una aproximacin. Entonces, podemos expresar el
numerador de la expresin anterior en funcin de la mediana. Considerando la
relacin emprica entre la media, la mediana y moda (ver 3.1.7) para distribuciones
de frecuencias unimodales y moderadamente asimtricas.
x Mo 3( x Me)
169
S
S
CA S
(60)
M 3 M (x - x ) 3
(x
i 1
x)3
n
k
M r M (y - y)
3
n (y
i
i 1
y)3
n
La unidad de medida de M3, no es la misma que la unidad de las observaciones, es
decir, tiene dimensin 3 respecto a la magnitud del fenmeno. Por ello para tener un
coeficiente de asimetra, no slo adimensional (puro), sino tambin invariante,
dividimos, M3 por el cubo de la desviacin tpica (S 3 >0), resultando el llamado
coeficiente de asimetra de Fisher:
n
(x
CA S
i 1
x ) 3 /n
S
k
CA S
n (y
i 1
i 1
(x
i 1
(62)
(x i x )
Pero S3
(61)
y)3 /n
x)2
M2
CA S
M3
M2
(63)
170
(Q 3 Q 2 ) (Q 2 Q1 ) Q 3 2Q 2 Q1
Q 3 Q1
Q 3 Q1
(64)
(65)
P90 P10
P90 P10
Llamado como el coeficiente de asimetra percentlico.
Estos coeficientes, generalmente se usa cuando no se puede calcular la media y la
desviacin estndar. La interpretacin es la misma que los otros coeficientes de
asimetra.
Nota 1. Cuando una distribucin es marcadamente asimtrica, o deforme, coinciden
los signos de los diferentes coeficientes de asimetra, aunque difieran en sus valores
numricos; pero cuando la distribucin es solo ligeramente asimtrica o escasamente
sesgada, ocurre en muchos casos que unos coeficientes de asimetra son positivos y
otros negativos o nulos. Por, esto debemos considerar a estos coeficientes como
valores descriptivos de las caractersticas de una distribucin y no como medidas.
3.3.1.3. ndice de Asimetra.
Una medida clsica de la asimetra esta basado sobre el tercer momento con respecto
3
a la media, M 3 E (x ) . . Este momento es dividido por 3 , donde
E (x ) 2
1/2
E (X ) 3
3
(66)
171
(x
momentos muestrales
i 1
x)3 y
(x
i 1
n (x i x ) 3
n (x i x ) 3
i 1
g
n
donde
(x
i 1
x) 2
(67)
(n 1)(n 2)
i 1
3
S
(n 1)(n 2)S3
Ejemplo 3.51. Para nuestro ilustrativo sobre la estatura de los 100 alumnos de la
UNP, se pide analizar la asimetra de la distribucin.
Solucin.
Estatura
( Yi1 Yi
Yi
150 - 155
155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total
152.5
157.5
162.5
167.5
172.5
177.5
182.5
187.5
ni
4
5
12
33
17
16
9
4
100
(y i y) 2
(y i y) 2 n i (y i y) 3 n i (y i y) 4 n i
320.41
166.41
62.41
8.41
4.41
50.41
146.41
292.41
1055.28
1281.64
832.05
748.92
277.53
74.97
806.56
1317.69
1169.64
6509.00
-22941.356
-10733.445
-5916.468
-804.837
157.437
5726.576
15944.049
20000.844
1433.267
410650.27
138461.44
46740.097
2334.0273
330.6177
40658.689
192922.99
342014.43
1137519.50
, y 167.84 ,
~
y 169.4 ,
S = 8.1085 y
(x
i 1
x ) 3 1433.267
172
x x 170.4 167.84
CA S
0.3157 > 0
S
8.1085
3 (x ~
x ) 3(170.4 169.4)
0.1233 > 0.
S
8.1085
M
CA S 33
S
(x
i 1
x ) 3 /n
0.0269
3
533.1158
(8.1085)
Como el valor del ndice g = - 0.045316 > 0, indica que la distribucin de los estudiantes
segn su estatura tiene una ligera asimetra negativa.
ni
4
6
7
11
8
4
173
x
Figura
3.19
K1
n (y
i 1
y) 4 /n
4
M4
2
M2
(68)
M4
3
2
M2
y al tomarla como referencia, K1 se interpreta como sigue:
174
Q 3 Q1
2(P90 P10 )
(69)
175
E (X ) 4
3
4
(70)
n(n 1) (X i X) 4
i 1
3(n 1) 2
(n 2)(n 3)
(71)
n (y
i 1
y) 4 1137519 .5
K1
M4
M2
n (y
i 1
y) 4 /n
S4
2.63146
4
4322.7694
(8.1085)
Este coeficiente nos indica que la distribucin es un poco menos apuntada que la
distribucin normal, es decir que tiene una deformacin vertical ligeramente
Platicrtica.
176
K2
Q 3 Q1
176.25 165.61
10.64
Estatura de los
alumnos de la UNP.
N vlido (segn lista)
N
Estadstico
Media
Estadstico
Desv. tp.
Estadstico
100
170.85
8.012
Asimetra
Estadstico Error tpico
-.045
.241
Curtosis
Estadstico Error tpico
-.103
100
.478