Você está na página 1de 26

Estadística - Pagina 1

4.4 Ejercicios
1. Construya un gráfico para representar los datos de los ejercicios 2, 3,
4, 5 y 6 del capítulo 3.

2. Se realizó un estudio en el
municipio de Bello con el fin de
evaluar el riesgo nutricional de los
jóvenes que se encuentran
estudiando, para ello se realizó un
estudio comparativo de todos los
estudiantes de las instituciones
escolares de carácter público. Los
resultados se muestran a
continuación (interprete la gráfica):
6.000 5.458

5.000

4.000
3.338
3.000

2.000
1.254
1.000

0
LEVE MODERADO SEVERO

Clasificación nutricional del riesgo nutricional de los escolares según el


indicador peso/edad en el municipio de Bello en el año 2002.
3. La siguiente gráfica muestra los montos asignados en los últimos
años, para subsidio de vivienda por parte del gobierno nacional, con el
fin de colaborarle a las clases menos favorecidas. Interprete el gráfico.
Estadística - Pagina 2

4. Los aceros inoxidables se utilizan con frecuencia en las plantas


químicas para manejar fluidos corrosivos. Sin embargo, en ciertos
entornos estos aceros son especialmente susceptibles al agrietamiento
debido a la corrosión por esfuerzos. Un estudio identificó este tipo de
agrietamiento como la principal causa individual de la falla de aleaciones
de acero en plantas químicas japonesas. La tabla siguiente enumera los
diversos tipos de fallas y sus correspondientes porcentajes del total para
295 casos de fallas de aleaciones que ocurrieron en refinerías de
petróleo y plantas petroquímicas en Japón durante los últimos 10 años.

Causa de la falla Porcentaje


Entorno húmedo
Corrosión general 12.5
Corrosión localizada 15.9
Agrietamiento debido a la corrosión 39.9
por esfuerzos
Diversas 3.8
Entorno seco
Corrosión 8.2
Agrietamiento 10.9
Menoscabo de propiedades 1.7
mecánicas
Diversas 1.7
Defectos de materiales 2.0
Defectos de soldadura 3.4
a. Elabore un diagrama de Pareto para las causas de fallas en aleaciones
de acero en plantas químicas japonesas.
b. La gráfica anterior apoya lo afirmado por los investigadores?
Estadística - Pagina 3

5. La siguiente distribución corresponde a la población mayor a 5 años


en Antioquia. Estos porcentajes fueron calculados teniendo como base la
información del último censo. (1993)

Intervalos %fri
5–7 5.8
7 - 11 12.3
11 – 18 15.2
18 – 24 18.4
24 – 34 19.0
34 – 44 11.8
44 – 60 10.8
60 y más años 6.7
a. Construya el histograma y sobre éste el polígono de frecuencias
relativas.
b. Realice como mínimo 5 interpretaciones de la gráfica.
c. ¿Entre qué grupo de edades se encuentra el mayor porcentaje de
la población?
d. ¿Cuál cree usted que sería la tendencia si graficáramos sobre los
mismos ejes los datos de un censo que se realizara el año entrante
en Antioquia?
6. Una muestra de 400 baterías tomadas al azar de una línea de
producción fue sometida a un test de laboratorio para determinar su
duración. Con los resultados de dicho test se obtuvo la siguiente
distribución de frecuencias.

Duración en Número de
días baterías
300 – 400 14
400 – 500 46
500 – 600 58
600 – 700 76
700 – 800 68
800 – 900 60
900 – 1000 48
1000 – 1100 22
1100 – 1200 8
a. Realice la ficha técnica del estudio.
b. Construya el polígono de frecuencias absolutas acumuladas.
Estadística - Pagina 4

c. ¿Qué probabilidad hay de que una batería dura 620 días cuando
menos?
d. ¿Qué riesgo correría el fabricante si estableciera una garantía de
que la duración mínima de cualquiera de las baterías es de 450
días de servicio?
e. Si el fabricante otorgara una garantía de devolución del precio
pagado por la batería válida por 90 días. ¿Cuál sería el riesgo de
tener que hacer efectiva dicha garantía?
7. Se registraron los gastos diarios de un grupo de familias del barrio
Laureles, los datos obtenidos se muestran a continuación:

Xi fai
10000 – 12000 100
12000 – 14000 150
14000 – 16000 200
16000 – 18000 200
18000 – 20000 150
20000 – 22000 80
22000 – 24000 50
24000 – 26000 30
26000 – 28000 20
28000 - 30000 20
a. Realice la ficha técnica de dicho estudio.
b. Construya el polígono de frecuencias absolutas acumuladas.
c. ¿Cuántas familias y qué porcentaje gastan más de 25000
diariamente?
d. ¿Cuántas familias y qué porcentaje gastan menos de 18000
diariamente?
e. ¿Cuántas familias y qué porcentaje gastan entre 11000 y 23000
diariamente?
f. El 80% de las familias gastan más de qué cantidad de dinero?
g. El 30% de las familias gastan menos de qué cantidad de dinero?
Capítulo 5
Objetivos:
– Conocer las diversas medidas descriptivas de una muestra, con el
fin de mejorar la interpretación de los datos, superando así las
limitaciones que pueden traer los análisis gráficos por parte de
cada investigador.
– Diferenciar cada una de las medidas descriptivas de una muestra,
observando su complementariedad.
Estadística - Pagina 5

– Profundizar en el manejo de información de carácter cuantitativo,


llegando a comparar diversos sistemas de datos en donde se
referencia la misma variable.
– Aplicar el conocimiento adquirido al entorno específico del
estudiante.
Reflexión:
En una isla habitaban la felicidad, la tristeza,
la sabiduría, y el amor, entre otros elementos
de la existencia humana.

Un día se supo que la isla se hundiría. Todos


prepararon sus barcos para partir, con excepción
del amor, que quería permanecer en su hogar
hasta
el último instante.

Cuando la mayor parte de la isla estaba ya bajo


el
agua, el amor decidió pedir ayuda. En ese
momento pasó
la riqueza en una imponente galera, y el amor le
preguntó:

- Riqueza, ¿puedes ayudarme?

La riqueza le respondió:

- No, lo lamento. Llevo mucho oro y mucha


plata en
mi barco. No hay forma de que quepas.

El amor se apresuró entonces a pedirle ayuda a


la
vanidad, que navegaba en un yate muy fino y
elegantemente adornado:

- Vanidad, ¿podrías ayudarme?

Y la vanidad contestó:

- Perdóname, Amor, pero estás mojado y lleno


de
barro. No quisiera ensuciar mi lindo bote.

El amor vio a la tristeza:

- Tristeza, ¿puedo ir contigo?


Estadística - Pagina 6

- Oh... Amor, -replicó,- estoy tan triste que


prefiero estar sola.

La felicidad también rechazó la petición, porque


estaba tan feliz que no quiso ocuparse de nada
que interrumpiera la dicha que sentía.

De repente, el amor escuchó una voz que lo


llamaba:

- Amor, ven, acércate. Yo te llevo.

El amor estaba tan agitado, contento, y


aliviado,
que no se le ocurrió preguntar quién lo había
salvado.

Al llegar a tierra firme, el amor cayó en cuenta


de
su olvido y queriendo saber a quién agradecer,
le
preguntó a un anciano que contemplaba el
océano.

- ¿Quién me ayudó?

- Fue el tiempo.- afirmó la sabiduría.

- ¿El tiempo? -cuestionó incrédulo el amor- ¿Por


qué?

Y la sabiduría aclaró:

- Porque el tiempo es capaz de entender la


grandeza
del amor.
Algunas veces dejamos de lado al amor.
¿Qué nos quedará cuando todo lo demás haya pasado?
¿Valoras, agradeces y disfrutas a quienes te aman?
¿Cuál es el barco que más navegas?

5. Medidas Descriptivas de una Muestra


Los gráficos pueden presentar limitaciones para la descripción y análisis
de un conjunto de datos y las conclusiones que se derivan de ellos
pueden variar según el juicio del investigador. Las limitaciones de los
gráficos pueden obviarse con el uso de medidas descriptivas. Éstas son
Estadística - Pagina 7

valores únicos, representativos de un conjunto de datos y pueden ser de


cuatro clases:
– Medidas de tendencia central
– Medidas de dispersión o variabilidad
– Medidas de asimetría
– Medidas de curtosis
5.1. Medidas de Tendencia Central
En esta sección definiremos una serie de medidas o valores que tratan
de representar o resumir a una distribución de frecuencias dada,
sirviendo además para realizar comparaciones entre distintas
distribuciones de frecuencias. Las medidas de tendencia central son
promedios, es decir, valores típicos representativos de todo un conjunto
de datos que tienden a estar localizados en aquella parte de la
distribución, donde los datos tienden a aglomerarse o a agruparse.

Las medidas de tendencia central más usuales son:


– Media aritmética o promedio
– Mediana
– Moda

5.1.1 Media aritmética (promedio) (x)


5.1.1.1 Media aritmética para datos sin agrupar (x)
Se utiliza cuando los datos no están agrupados en una tabla de
frecuencias simples o en intervalos. La media aritmética se define como
la suma de todos los datos, dividida por el número total de ellos. Si los
datos fueran x1, x2, x3, ..., xn, su expresión sería:
n
xi
x=∑
i =1 n
En donde n es el número total de datos.
Ejempl
o 1:
Se preguntó acerca de las edades de un grupo de estudiantes de
Derecho Laboral, pertenecientes a la universidad, los resultados fueron:
21 23 19 25 27 36 21 24 22 20 19 20 23
El promedio de las edades de los estudiantes sería:
n
x i 21+ 23 + 19 + 25 + 27 + 36 + 21+ 24 + 22 + 20 + 19 + 20 + 23
x=∑ =
i =1 n 13
n
xi
x=∑
i =1 n = 23.1 años = 23 años
Estadística - Pagina 8

Diríamos entonces que se tiene una edad promedio de 23 años


aproximadamente

5.1.1.2 Media aritmética ponderada ( X )


En primer lugar debemos saber que ponderar significa agrupar; cuando
los datos están agrupados en una tabla de frecuencias simples o en una
tabla de frecuencias en intervalos y si llamamos xl, ..., xk a las categorías
que toma la variable en estudio, o a las marcas de clase de los
intervalos en los que se han agrupado dichos datos, y fai,..., fak a las
correspondientes frecuencias absolutas de dichas categorías o marcas
de clase, la media aritmética ponderada de la distribución de
frecuencias estará dada por:
k
x i fai
x=∑
i =1 n
en donde n es el tamaño de la muestra y k es el número total de
categorías que toma la variable o el número total de marcas de clase.

Ejemplo
2:
La media aritmética ponderada para el número de hijos por familia en el
barrio “Belén Rosales” de la ciudad de Medellín (p 25) sería:
k
x i fai 11 0 * 3 + 1* 5 + 2 * 4 + 3 * 3 + 4 * 7 + 5 * 2 + 6 * 4 + 7 * 4 + 8 * 2 + 9 * 4 + 11* 2
x=∑ =∑
i =1 n i =1 40
k
x i fai
x=∑
i =1 n = 4.7 ≅ 5 hijos
es decir, las familias encuestadas tienen un número medio de hijos de
aproximadamente 5.
Ejempl
o 3:
Se midieron los niveles de hemoglobina a un grupo de 34 pacientes que
poseían un extraño tipo de anemia (los valores están en g/dl), siendo
valores normales los encontrados en el rango 14.0 – 18.0.
La tabla de distribución de frecuencias en intervalos está dada por:
Li – Ls xi fai %fri Faan %Fran
7.5 – 9.0 8.25 3 8.8 3 8.8
9.0 –10.5 9.75 8 23.6 11 32.4
10.5 – 12.0 11.25 10 29.4 21 61.8
12.0 – 13.5 12.75 10 29.4 31 91.2
13.5 – 15.0 14.25 1 2.9 32 94.1
Estadística - Pagina 9

15.0 –16.5 15.75 2 5.9 34 100.0


å fai = %fri =
34 100.0
la media aritmética ponderada, estaría dada por:
k
x i fa i 8.25 * 3 + 9.75 * 8 + 11.25 *10 + 12.75 *10 + 14.25 *1 + 15.75 * 2 388.5
x=∑ = =
i =1 n 34 34
k
x i fai
x=∑
i =1 n = 11.4 g/dl
5.1.2 Mediana (Me)
La mediana es una medida de posición, ocupa un lugar central en la
serie cuando los datos están ordenados de menor a mayor o viceversa.
Se define como aquel valor de la variable tal que, al menos el 50% de
los datos son menores o iguales a él y al menos el 50% de los datos son
mayores o iguales a él.
Si la cantidad de datos (n) es impar, la mediana es igual al dato que
ocupa la posición central. Si el número de datos es par, la mediana será
el promedio de los dos datos centrales.
Así, si en la siguiente distribución de frecuencias,
xi fai Faan
0 3 3
1 2 5
2 2 7
7
ordenamos los valores en orden creciente: 0 0 0 1 1 2 2
el 1 será el valor que cumple la definición de mediana.
Lógicamente, cuando el tamaño de la muestra (n) sea mayor, este
procedimiento resultaría inviable. Por esta razón, daremos a
continuación una fórmula que permita calcularla. No obstante, será
necesario distinguir los casos en los que los datos vengan agrupados en
fila de datos (tabla de frecuencias simples) de aquellos en los que
vengan en intervalos.

5.1.2.1 Mediana para datos agrupados en tablas de frecuencias


simples:
Las gráficas siguientes, correspondientes a un diagrama de frecuencias
absolutas acumuladas, recogen las dos situaciones que se pueden
presentar:
Estadística - Pagina 10

Si la situación es como la de la figura de la derecha, es decir, si n/2


aparece en la distribución, tendrá entonces un valor correspondiente en
las variables, así diremos que ésta será la mediana.
Si la situación que se presenta es como la de la figura de la izquierda,
entonces la mediana queda indeterminada, aunque en este caso se
toma como mediana la media aritmética de los dos valores entre los que
se produce la indeterminación; así pues, si
Faaj-1 < n/2 < Faaj
entonces la mediana es

Ejempl
o 1:
La distribución de frecuencias absolutas acumuladas en el ejemplo sobre
el número de hijos en el barrio “Belén Rosales” era:
Número de hijos (xi) 0 1 2 3 4 5 6 7 8 9 11
1 1 2 2 2 3 3 3 40
Frecuencias Acumuladas( Faan) 3 8
2 5 2 4 8 2 4 8
Como es n/2=20
15 < 20 < 22
la mediana será Me=(3+4)/2.
Me = 3.5 = 4 hijos. Concluimos que el 50% de las familias tiene 4 hijos o
menos.

5.1.2.2 Mediana para datos agrupados en intervalos:


Las gráficas siguientes, correspondientes a polígonos de frecuencias
absolutas acumuladas, nos plantean de nuevo dos situaciones diferentes
a considerar:
Estadística - Pagina 11

El más sencillo, el de la derecha, en el que existe una frecuencia


absoluta acumulada Faaj tal que n/2 = Faaj, la mediana es Me = xj.
Si la situación es como la que se representa en la figura de la izquierda,
en la que Faaj-l < n/2 < Faaj
entonces, la mediana, está en el intervalo (xj-1, xj], es decir entre xj-1 y xj,
tomándose en ese caso, por razonamientos de proporcionalidad, como
mediana el valor:
n
− Faa j −1
Me = Li + 2 *A
fa j
En donde:
Li corresponde al límite inferior del intervalo que contiene la mediana.
n es el tamaño de la muestra.
Faaj-1 es la frecuencia absoluta acumulada anterior a la que contiene a la
mediana.
fai es la frecuencia absoluta correspondiente a la mediana.
A es la amplitud del intervalo

Ejempl
o 2:
La distribución de frecuencias del ejemplo de los niveles de
Hemoglobina (p 38) es:
7.5- 9.0- 10.5- 12.0- 13.5- 15.0-
Intervalo Li - Ls
9.0 10.5 12.0 13.5 15.0 16.5
Frecuencia Absolu
fai 3 8 10 10 1 2
ta
Frecuencia
Faan 3 11 21 31 32 34
Acumulada
Como n/2 = 17 y estar comprendido entre los datos dados
11 < 17 < 21
Estadística - Pagina 12

la mediana estará en el intervalo (10.5 , 12.0], y aplicando la fórmula


anterior, será
34
− 11
Me = 10.5 + 2 *1.5 = 11.4
10
El 50% de los pacientes tendrán niveles de hemoglobina menores o
iguales a 11.4 g/dl
5.1.3 Moda (Mo)
La moda se define como aquel valor de la variable al que corresponde la
máxima frecuencia (absoluta o relativa). Para calcularla, también será
necesario distinguir si los datos están agrupados en una tabla de
frecuencias simples o en intervalos.
5.1.3.1 Moda para datos agrupados en tablas de frecuencias
simples:
Para datos agrupados en tablas de frecuencias simples, la determinación
del valor o valores (ya que puede haber más de uno) modales es muy
sencilla. Basta observar a qué valor le corresponde una mayor fai o %fri.
Esa será la moda.
Así en el ejemplo del número de hijos, la simple inspección de la tabla
siguiente proporciona como valor para la moda el Mo = 4.
Número de hijos (xi) 0 1 2 3 4 5 6 7 8 9 11
Frecuencias Absolutas( 2 4 4 2 4 2
3 5 4 3 7
fai)
El número de hijos más frecuente por familia en la muestra del barrio
“Belén Rosales” es de 4 hijos, pues le corresponde la mayor frecuencia,
la cual en este caso es de 7.

5.1.3.2 Moda para datos agrupados en intervalos:


Si los datos se presentan agrupados en intervalos es necesario, a su vez,
distinguir si éstos tienen o no igual amplitud. Si tienen amplitud
constante A, una vez identificado el intervalo modal (xj-1, xj], es decir el
intervalo al que corresponde mayor frecuencia absoluta fai; la moda se
define, también por razones geométricas, como:
fa i +1
Mo = Li + A
fai −1 + fai +1

En donde:
Li es el límite inferior que contiene la moda.
fai+aes la frecuencia absoluta correspondiente al intervalo posterior del
que contiene la moda.
Estadística - Pagina 13

fai-a es la frecuencia absoluta correspondiente al intervalo anterior del


que contiene la moda.
A es la amplitud del intervalo que contiene la moda.

Ejempl
o 1:
En el caso de los niveles de hemoglobina, vemos que presenta un caso
de distribución bimodal, ya que tanto el intervalo (10'5 - 12] como el (12
- 13'5] tienen frecuencia absoluta máxima. Deberíamos aplicar, por
tanto, para cada uno de los dos intervalos la fórmula anterior,
determinando así las dos modas de la distribución. No obstante, este
ejemplo presenta además la peculiaridad adicional de ser ambos
intervalos modales contiguos. En esta situación se considera la
distribución unimodal, eligiendo como moda el extremo común, Mo =
12.
Por lo tanto el nivel más común de hemoglobina en la sangre de estos
pacientes es de 12 g/dl.

Ejempl
o 2:
Si los intervalos tuvieran distinta amplitud Ai, primero debemos
normalizar las frecuencias absolutas fai, determinando los cocientes
siguientes:
fa i
cj = , i =1,2,..., k
Ai
y luego aplicar la regla definida para el caso de intervalos de amplitud
constante a los cj. Es decir, primero calcular el cj = max{c1,...., ck} para
determinar el intervalo modal [xj-1, xj) y luego aplicar la fórmula
c j +1
Mo = Li + * Aj
c j −1 +c j +1
siendo Aj la amplitud del intervalo modal [xj-1, xj).

Las frecuencias normalizadas correspondientes al ejemplo sobre el test


psicológico de la página 39, que posee intervalos con distinta amplitud
serían,
Li - Ls fai cj
0-20 8 0.4
20-30 9 0.9
Estadística - Pagina 14

30-40 12 1.2
40-45 10 2.0
45-50 9 1.8
50-60 10 1.0
60-80 8 0.4
80-100 4 0.2
con lo que el intervalo modal es el [40 - 45) y la moda, pues posee la
mayor frecuencia normalizada 2.0
c j +1
Mo = Li + * Aj
c j −1 + c j +1
1.8
Mo = 40 + * 5 = 43
1.2 + 1.8
Con lo cual podríamos decir que la puntuación más frecuente en un test
psicológico es de 43 puntos.

Ejempl
o 3:
A diferencia de lo que ocurre con la media o con la mediana, sí es
posible determinar la moda en el caso de datos cualitativos. Así, en el
ejemplo del tratamiento de radiación seguido de cirugía (p 32) puede
afirmarse que la causa modal por la que no fue completado el
tratamiento es Mo = rehusaron cirugía.

5.2 Medidas de dispersión o variabilidad


Una medida de tendencia central por sí sola no proporciona una
descripción satisfactoria de un conjunto de datos. Es necesario el uso de
una medida de la variación de los datos con respecto a los valores
centrales, como los calculados en la sección anterior. Por lo general, las
medidas de dispersión o variabilidad se calculan comparando los datos
de la distribución con el dato más importante de las medidas de
tendencia central: la media aritmética.
Observemos la dificultad que puede ser el caracterizar los datos sólo con
una medida de tendencia central.
La edad promedio de 3 jóvenes de 18,19 y 20 años es:
n
x i 18 + 19 + 20
x=∑ = = 19 años
i =1 n 3
Y la edad promedio de 3 integrantes de una familia con 5, 10 y 42 años
es:
Estadística - Pagina 15

n
x i 5 + 10 + 42
x=∑ = = 19 años
i =1 n 3
Aunque ambos grupos de datos presentan el mismo promedio, vemos
como el primer grupo de datos presenta una pequeña dispersión,
mientras que en el segundo grupo es muy grande. La dispersión es una
característica muy importante de un conjunto de datos. Por ejemplo una
máquina productora de tornillos milimétricos debe presentar una
dispersión pequeña en el diámetro de los mismos, pues de lo contrario
una alta proporción de ellos resultaría defectuosos.
Las medidas de dispersión o variabilidad, a las cuales dedicaremos esta
sección, tienen como propósito estudiar lo concentrada que está la
distribución en torno a algún promedio. Las cuatro medidas de
dispersión más utilizadas son:
– Rango
– Varianza
– Desviación estándar
– Coeficiente de variación
5.2.1 Rango
Nos indica la diferencia que existe entre el dato mayor y el dato menor
de la distribución. Si xmax es el dato mayor o la última marca de clase, si
es que los datos vienen agrupados en intervalos, y xmin el dato menor o
primera marca de clase, llamaremos rango a
R=x max -x min

Ejemp
los
En el ejemplo sobre el número de hijos por familia en el barrio “Belén
Rosales”:
Número de hijos (xi) 0 1 2 3 4 5 6 7 8 9 11
Frecuencias Absolutas( fai) 3 5 4 3 7 2 4 4 2 4 2
R= 11 – 0 = 11 hijos
Vemos aquí que el número de hijos varía en 11, siendo 0 el menor
número de hijos presentes y 11 el mayor número de hijos que tiene una
familia, mostrando una variabilidad relativamente alta.
Para los niveles de hemoglobina en la sangre para pacientes que
padecen un extraño tipo de anemia:
7.5- 9.0- 10.5- 12.0- 13.5- 15.0-
Intervalo Li – Ls
9.0 10.5 12.0 13.5 15.0 16.5
Marca de clase xi 8.25 9.75 11.25 12.75 14.25 15.75
Estadística - Pagina 16

R = 15.75 – 8.25 = 7.5 g/dl


Observamos como el nivel de hemoglobina en la sangre para estos
pacientes varía en 7.5 g/dl, del mayor valor respecto al menor valor, lo
que muestra una variabilidad relativamente moderada.
La principal ventaja del rango es la de proporcionar una medida de la
dispersión de los datos entre el menor y el mayor valor. Nos permite
observar qué tanto varían los datos, o sea que tan amplia es la
distribución de ellos.

5.2.2 Varianza para datos sin agrupar


La varianza mide el grado de dispersión de los datos respecto a la media
aritmética. Si denotamos por x1,...,xn los datos, llamaremos varianza a la
comparación de cada dato con su media aritmética, así:
1 n
σ2 = ∑
n − 1 i =1
( x i − x) 2

Ejempl
o 1:
Para las edades de los jóvenes la varianza sería:

σ2 =
1
3−1
[ 1
2
] [ 1
]
(18 − 19) 2 + (19 − 19) 2 + (20 − 19) 2 = (−1) 2 + (0) 2 + (1) 2 = [ 2] = 1
2 año2
Ejempl
o 2:
En las edades de los integrantes de una familia:

σ2 =
1
3 −1
[ ] 1
[ ]
(5 − 19) 2 + (10 − 19) 2 + ( 42 − 19) 2 = (−14) 2 + (−9) 2 + (23) 2 =
2
1
2
[ ]
1
2
1
(−14) 2 + (−9) 2 + (23) 2 = [196 + 81 + 529] = [ 806] = 403
2 años2
Se observa entonces la gran diferencia en cuanto a la dispersión o
variabilidad que presentan las edades de los integrantes de una familia,
comparativamente con las edades de los jóvenes, aunque sus promedios
sean los mismos.
5.2.2 Varianza para datos agrupados en tablas de frecuencias
simples o en intervalos de clase
Si los datos se encuentran agrupados en una tabla de frecuencias
simples (fila de datos) o en intervalos, la fórmula para calcular la
varianza debe incluir a la frecuencia absoluta (fai) respectiva a cada una
de las categorías que toma la variable o a sus marcas de clase, según
sea el agrupamiento:
Estadística - Pagina 17

2
k
 k 
n ∑ x i fa i −  ∑ x x fa i 
2

 i =1 
σ 2 = i =1
n(n − 1)
En donde k= al número de categorías que toma la variable o a las
marcas de clase.
Ejemplo 1:
En el ejemplo sobre el número de hijos por familia en el barrio “Belén
Rosales”:
xi fai %fri Faan %Fran xi2fai xifai
0 3 7.5 3 7.5 0 0
1 5 12.5 8 20 5 5
2 4 10 12 30 16 8
3 3 7.5 15 37.5 27 9
4 7 17.5 22 55 112 28
5 2 5 24 60 50 10
6 4 10 28 70 144 24
7 4 10 32 80 196 28
8 2 5 34 85 128 16
9 4 10 38 95 324 36
11 2 5 40 100 242 22
∑ fai ∑%fri = ∑ xi2fai = ∑ xifai =
=40 100% 1244 186
Reemplazando en la fórmula de la varianza, tendríamos:
40(1244) − (186) 2 49760− 34596 15164
σ =
2
= = = 9.7
40(40 − 1) 40(39) 1560 hijos2
Ejempl
o 2:
Para los niveles de hemoglobina en la sangre de un grupo de pacientes
con un extraño tipo de anemia
Li - Ls xi fai %fri Faan %Fran xi2fai xifai
7.5 – 9.0 8.25 3 8.8 3 8.8 204.2 24.75
9.0 –10.5 9.75 8 23.6 11 32.4 760.5 78.0
10.5 – 1265.6 112.5
11.25 10 29.4 21 61.8
12.0
12.0 – 1625.6 127.5
12.75 10 29.4 31 91.2
13.5
13.5 – 203.1 14.25
14.25 1 2.9 32 94.1
15.0
15.0 – 15.75 2 5.9 34 100.0 496.1 31.5
Estadística - Pagina 18

16.5
å fai = %fri = ∑ xi2fai = å xifai =
34 100.0 4555.1 388.5

34(4555.1) − (388.5) 2 154873.4 − 150932.3 3941.1


σ2 = = = = 3 .5
34(34 − 1) 34(33) 1122 (g/dl)2
Existe más dispersión en el primer grupo de datos (# de hijos por
familia) que en segundo grupo de datos (niveles de hemoglobina en la
sangre)
La dificultad de la varianza radica en que sus unidades se encuentran al
cuadrado, dificultando su interpretación y produciendo una falsa imagen
de la dispersión de la distribución. Lo anterior se resuelve haciendo uso
de la desviación estándar.

5.2.3 Desviación Estándar


La desviación estándar no es mas que la raíz cuadrada positiva de la
varianza. Así:

σ = σ2

Ejempl
os:
En el ejemplo sobre el número de hijos por familia en el barrio “Belén
Rosales”:
σ = 9.7 = 3.1 hijos
Para los niveles de hemoglobina en la sangre de un grupo de pacientes
con un extraño tipo de anemia
σ = 3.5 = 1.9 g/dl
5.2.4 Coeficiente de Variación
La desviación estándar sirve para medir de forma eficaz la dispersión de
un conjunto de datos entorno a su media. Desgraciadamente esta
medida puede resultar engañosa cuando tratamos de comparar la
dispersión de dos conjuntos de datos. Así, si por ejemplo tenemos dos
grupos de mujeres de 11 y 25 años con medias y desviaciones típicas
dadas por la tabla siguiente:
Peso Medio Desviación Estándar
11 años 40 Kg 2 Kg
25 años 50 Kg 2 Kg
puede parecernos, al observar en ambos grupos una desviación típica
igual, que ambos grupos de datos tienen la misma dispersión. No
Estadística - Pagina 19

obstante, como parece lógico, no es lo mismo una variación de dos kilos


en un grupo de elefantes que en uno de conejos. El Coeficiente de
Variación elimina esa posible confusión al ser una medida de la variación
de los datos pero en relación con su media. Se define como:
σ
C.V . = × 100
x
siendo s y x respectivamente la desviación estándar y la media de la
distribución en estudio y en donde el factor 100 tiene como único
objetivo el evitar operar con valores decimales.
De la definición de C.V. se deduce fácilmente que aquella distribución a
la que corresponda mayor coeficiente tendrá mayor dispersión.
Ejempl
os:
En el ejemplo anterior, al grupo de niñas de 11 años le corresponde un
coeficiente de variación de igual a:
2
C.V . = × 100 = 5%
40
y al grupo de las mujeres de 25 años
2
C.V . = × 100 = 4%
50
lo que indica que existe una mayor dispersión en los datos del grupo de
niñas de 11 años.
5.2.5. Regla empírica y Teorema de Tchebysheff
Aunque la desviación estándar como la varianza no se pueden
interpretar en forma aislada, la desviación estándar conjuntamente con
la media si tiene un significado práctico:
Si la distribución de los datos es simétrica, con forma de campana
(distribución normal), como se muestra a continuación, podremos decir
que:
– El 68% de los datos se encuentran en una región correspondiente
a una desviación estándar alrededor de la media (x±σ).
– El 95% de los datos se encuentran en una región correspondiente
a dos desviaciones estándar alrededor de la media (x±2σ).
– El 99% de los datos se encuentran en una región correspondiente
a tres desviaciones estándar alrededor de la media (x±3s).
– Datos por fuera de tres desviaciones estándar pueden eliminarse,
sin afectar la distribución de los datos.
Estadística - Pagina 20

68%

95%

99%

Todos los intervalos anteriores son validos únicamente para los datos
muestrales y no necesariamente para toda la población. Sin embargo si
los intervalos se calculan con la media (promedio) y desviación estándar
de la población entonces serán validos para toda la población: De otro
modo, si la media y la desviación estándar se han calculado a partir de
muestreo probabilísticos aleatorios, entonces los intervalos anteriores
podrán dar una idea aproximada de lo que pasa en toda la población,
sea ésta un lote o un proceso.
Lo anteriormente propuesto está basado en lo que se conoce como la
Regla Empírica; como su nombre lo dice estos resultados obtenidos han
sido deducidos de la experimentación y no a través de ninguna teoría
matemática.

Si la distribución no tiene forma acampanada se tiene que recurrir a lo


desarrollado por Tchebysheff quien propone que:

– El 75% de las observaciones deben estar contenidas dentro de


distancias que se encuentran a dos desviaciones estándar
alrededor de la media (x ± 2s).
– El 89% de las observaciones deben estar contenidas dentro de
distancias que se encuentran a tres desviaciones estándar
alrededor de la media (x ± 3s).
– El 94% de las observaciones deben estar contenidas dentro de
distancias que se encuentran a cuatro desviaciones estándar
alrededor de la media (x ± 4s).
Estadística - Pagina 21

5.3 Medidas de Asimetría

Diremos que una distribución es simétrica cuando su mediana, su moda


y su media aritmética coincidan. Claramente la distribución del ejemplo
de los niveles de hemoglobina es simétrica, mientras que para el
número de hijos del barrio “Belén Rosales” es asimétrica.
Diremos que una distribución es asimétrica a la derecha si las
frecuencias (absolutas o relativas) descienden más lentamente por la
derecha que por la izquierda. Si las frecuencias descienden más
lentamente por la izquierda que por la derecha diremos que la
distribución es asimétrica a la izquierda.
Existen varias medidas de la asimetría de una distribución de
frecuencias. Aquí estudiaremos dos de ellas.
5.3.1 Coeficiente de Asimetría de Pearson
Se define como:
x − Me
Ap =
σ
siendo cero cuando la distribución es simétrica, positivo cuando existe
asimetría a la derecha y negativo cuando existe asimetría a la izquierda.
Ejemp
lo:
- En el ejemplo del número de hijos Ap es igual a
4.7 − 3.5
Ap = = 0.39
3.1
indicando una ligera asimetría a la derecha en la distribución de
frecuencias correspondiente.
5.3.2 Coeficiente de Asimetría de Fisher
Cuando los datos están agrupados en una tabla de frecuencias simples o
en intervalos, sería más fácil calcular el coeficiente de asimetría
utilizando la siguiente fórmula:
k

∑ (x
i =1
i − x) 3 fai
Af =
nσ 3
siendo xi las categorías que toma la variable o las marcas de clase.
La interpretación del coeficiente de Fisher es la misma que la del
coeficiente de Pearson: si la distribución es simétrica vale cero, siendo
positivo o negativo cuando exista asimetría a la derecha o izquierda
respectivamente.
Estadística - Pagina 22

Nota: Excel calcula la asimetría utilizando la siguiente fórmula, en donde


cada dato es comparado con su promedio, así:
3
n 
n x − x
Coeficiente de Asimetría = ∑  i
( n − 1)(n − 2) i =1  σ 

Esta función caracteriza el grado de asimetría de una distribución con


respecto a su media. La asimetría positiva indica una distribución
unilateral que se extiende hacia valores más positivos. La asimetría
negativa indica una distribución unilateral que se extiende hacia valores
más negativos.

5.4 Medidas de Curtosis


La curtosis también es una medida relacionada con la forma de la
distribución de los datos. La curtosis representa la elevación o
achatamiento de una distribución, comparada con la distribución normal.
Una curtosis positiva indica una distribución relativamente elevada,
mientras que una curtosis negativa indica una distribución relativamente
plana.

Si la distribución de los datos es más elevada que la distribución normal


diremos que es leptocúrtica, si es más aplanada, diremos que es
platicúrtica.
Para calcular la curtosis Excel utiliza la siguiente fórmula:

 n(n + 1) n 
x i − x  
4
3(n − 1) 2

Curtosis =  ∑  
 

 (n − 1)(n − 2)(n − 3) i =1  σ   (n − 2)(n − 3)

En donde n será el número total de datos, xi es cada dato de la


distribución, x es el promedio de todos los datos y σ es la desviación
estándar.
Estadística - Pagina 23

5.5 Ejercicios sobre medidas de tendencia central y medidas de


variabilidad
1. ¿Cuál de las siguientes aseveraciones relacionadas con el promedio
de un conjunto de datos es cierta?
a. La mediana es aquel que se obtiene sumando todos los datos y
dividiendo entre el número total de datos.
b. La media se obtiene sumando el valor mayor y el valor menor de los
datos y luego dividiendo entre 2.
c. La moda es aquel dato que más se repite.
d. La media es el doble de la mediana.
2. Determina la media del conjunto de cinco datos: { 1.5 , 4.2 , 9 , 25 ,
16.17 }.
3. Encuentre la mediana del siguiente conjunto de ocho datos {3, 6, 8, 7,
9, 4, 1, 3}
4. Un experimento sobre el tiempo que toma una medicina para hacer
efecto resulta en los siguientes datos (en minutos): { 4, 7, 8, 5, 4, 6, 8,
9, 8, 7, 3 } ¿Cuál es el tiempo promedio según la mediana?
5. La compañía Acme tiene 8 empleados. La siguiente tabla desglosa los
salarios anuales de cada empleado de la empresa. $16,000 $70,000
$14,000 $10,000 $12,000 $18,000 $12,000 $20,000 (En miles de pesos)
¿Cuál es el salario promedio según la media aritmética?
6. La tabla en la figura resume las puntuaciones obtenidas en cinco
exámenes. ¿Cuál es la mediana?

7. El siguiente cuadro muestra la distribución del ingreso anual (en


millones de pesos) que tuvieron 50 empresas:
18.85 21.55 24.25 26.95 29.65 32.35 35.05
Marca
de
Clase
N° de 3 2 7 7 11 11 9
Viviendas
Estadística - Pagina 24

a. Halle e interprete según el enunciado


i. Media, mediana y moda.
ii. Desviación estándar y coeficiente de variabilidad.
b. Estime el porcentaje de empresas con ingresos superiores o iguales a
26 millones de pesos pero menores que 32 millones.
c. Si los ingresos son menores que $28.300.000 se incrementaron en
$2.500.000 y los ingresos mayores o iguales que $28.300.000 se
redujeron en un 30%. Calcule la nueva renta promedio.

8. Una compañía requiere los servicios de un técnico especializado. De


los expedientes presentados, se han seleccionado 2 candidatos: A y B,
los cuales reúnen los requisitos mínimos requeridos. Para decidir cual de
los 2 se va a contratar, los miembros del Jurado deciden tomar 7
pruebas a cada uno de ellos.
Los resultados se dan a continuación:

Prueba
1 2 3 4 5 6 7
Puntaje obtenido por A 57 55 54 52 62 55 59

Puntaje obtenido por B 80 40 62 72 46 80 40

a. Halle e interprete la media, mediana y moda de los dos candidatos.


b. Estadísticamente ¿Cuál de los candidatos debe ser contratado?
Fundamente su respuesta.

9. Se toman las medidas de 80 personas las que tienen estatura media


de 1.70 m y desviación estándar de 3.4 cm. Posteriormente se verificó
que la media usada tenia 4 cm de menos.
Rectifique los estadígrafos mencionados.

10. Una asistencia social desea saber cuál es el índice de natalidad en 2 barrios de Pereira
para lo que encuestó a 10 familias de cada barrio con los siguientes resultados

0 6 1 2 3 1 4 3 6 4
A
B 3 4 1 4 2 3 1 5 4 3

a. Calcule la media, mediana y moda para cada barrio e interprételos.


b. Considera Ud. que en el barrio B, el número de hijos por familia es
más homogéneo que en el barrio A.

11.El salario promedio en una ciudad es de $ 550.000 con una variancia


de $ 360.000. ¿Cuales serán la nueva media y la nueva variancia si se
efectúan los siguientes cambios:
Estadística - Pagina 25

a. Se aumenta $100.000 a todos


b. Se aumenta el 15 % de su salario a cada trabajador
c. Si se duplican los sueldos

12. En un examen 20 alumnos del curso A obtienen una media de 60


puntos. y desviación estándar de 20 puntos
En el curso B los alumnos obtienen una media de 80 y desviación
estándar de 16. Ante un reclamo se decide subir en 5% más 5 puntos
adicionales a todos los alumnos del curso A, en cambio como hubo
muchas copias en el curso B se decidió disminuir la quinta parte de la
calificación.
Después de los mencionados ajustes ¿Cuál es el puntaje medio de los 50
alumnos?

13. Los ingenieros industriales realizan periódicamente análisis de


“medición de trabajo” con el fin de determinar el tiempo requerido para
generar una sola unidad de producción. En una planta de procesamiento
grande se registró durante 50 días el número de horas-obrero totales
requeridas por día para realizar cierta tarea. Los datos son:

128 119 95 97 124 128 142 98 108 120


113 109 124 132 97 138 133 136 120 112
146 128 103 135 114 109 100 111 131 113
124 131 133 131 88 118 116 98 112 138
100 112 111 150 117 122 97 116 92 122

a. Calcule la media, la mediana y la moda del conjunto de datos.


b. Determine el rango, la varianza y la desviación estándar del conjunto
de datos.
c. Construya los intervalos a una, dos y tres desviaciones estándar
alrededor de la media y cuente el número de observaciones que caen
dentro de cada intervalo. Determine las proporciones correspondientes.
Compare los resultados de la regla empírica. ¿Detecta Usted valores
fuera del intervalo?

14. Un científico midió lospesos de varios elefantes en la india y


encontró un peso promedio por elefante de 10800 kg con una varianza
igual a 338724 kg2 . También midió el peso de las ratas y encontró una
media de 476 g y una varianza de 7569 g2 . Compare la variabilidad de
los pesos de estos animales. ¿cuál peso es más homogéneo? Explique.

15. Los precios promedios mensuales por kilogramo de tomate de aliño


en el año 2001 y 2002 fueron los siguientes:

ENE FEB MAR ABR MAY JUN JUL AGO SEP OCT NOV DIC
2 950 1 1 990 1 1 995 1 1 1 1 1
001 100 080 100 000 060 040 150 000 000
Estadística - Pagina 26

2 1 1 900 1 1 1 980 960 920 880 960 1


002 010 250 450 300 200 200

Compare los conjuntos de datos e interprete:


a. Usando las medias y las medianas.
b. Usando las varianzas y las desviaciones estándar.
c. Usando los coeficientes de variación.

Você também pode gostar