Você está na página 1de 67

Universidad de San Carlos de Guatemala.

Facultad de Ciencias Económicas.


Curso: Técnicas de investigación documental.
Plan fin de semana.

Laboratorio No. 3: investigación y caso estadístico

Docente: Lic. Luis Castañeda.

Clave: 01
Otto René Rivas Juárez
Carné o NOV: 199814303
Salón: 111 Edificio: S-3

Guatemala, 21 de abril de 2018.


INDICE
INTRODUCCION ....................................................................................................
ESTADÍSTICA...................................................................................................... 1
GRÁFICAS DE SECTORES Y DE BARRAS ....................................................... 7
Gráficas de líneas ............................................................................................... 7
Diagramas de dispersión ................................................................................... 8
Diagrama de hoja y tallo .................................................................................... 9
Diagrama de dispersión de caracteres ........................................................... 11
Histograma de frecuencias relativas .............................................................. 12
MEDIDAS DE TENDENCIA CENTRAL ............................................................. 14
Media aritmética ............................................................................................... 14
Cálculo de la media aritmética en una serie simple ...................................... 15
Cálculo de la media aritmética en una distribución de frecuencias de
valores agrupados ............................................................................................ 16
Cálculo de la media aritmética en una distribución de frecuencias de
valores agrupados en intervalos de amplitud constante o variable ............ 16
Mediana ............................................................................................................. 18
Cálculo de la mediana en una serie simple con cantidad impar de valores 19
Cálculo de la mediana en una serie simple con cantidad par de valores ... 19
Cálculo de la mediana en una distribución de frecuencias con valores
agrupados en intervalos de clase ................................................................... 20
Moda .................................................................................................................. 22
Cálculo de la moda en una serie de valores agrupados en clases simples.
........................................................................................................................... 24
FRACTILES ....................................................................................................... 26
Cuartiles ............................................................................................................ 26
Cálculo del primer cuartil en una serie simple de valores sin agrupar ....... 27
Cálculo de cuartiles en una serie de datos agrupados bien con amplitud
constante o variable ......................................................................................... 28
Deciles ............................................................................................................... 31
Percentiles ........................................................................................................ 33
MEDIDAS DE DISPERSIÓN Y VARIABILIDAD ................................................ 34
Rango, recorrido, amplitud total o variación máxima ................................... 34
Desviación estándar, típica o cuadrática media ............................................ 37
MEDIDAS DE TENDENCIA CENTRAL ............................................................. 40
MEDIDAS DE DISPERSIÓN .............................................................................. 42
MEDIDAS DE TENDENCIA CENTRAL ............................................................. 46
Método gráfico. ................................................................................................. 51
Moda para datos agrupados ............................................................................ 54
Análisis e interpretación .................................................................................. 60
CONCLUSIÓN ................................................................................................... 61
CONCLUCION ................................................................................................... 62
INDICE GRAFICAS

GRAFICA 1 EJEMPLO ESTADISTICO ..................................................................................................................3


GRAFICA 2 EJEMPLO DE FRECUENCIAS ............................................................................................................6
GRAFICA 3 EJEMPLO DE FRECUENCIAS NO.1 ...................................................................................................6
GRAFICA 4 EJEMPLO DE FRECUENCIAS NO.2 ...................................................................................................6
GRAFICA 5 DISPERCION DE CARACTERES .........................................................................................................9
GRAFICA 6 HISTOGRAMA FRECUENCIA RELATIVA .........................................................................................12
GRAFICA 7 CALCULO MEDIA ARITMETICA DE UNA SERIE SIMPLE ..................................................................15
GRAFICA 8 CALCULO MEDIA ARITMETICA DE DISTRIBUCION FRECUENCIA DE VALORES AGRUPADOS .........16
GRAFICA 9 CALCULO MEDI ARITMETICA DE DISTRIBUCION FRECUENCIA DE VALORES AGRUPADOS EN
INTERVALOS DE AMPLITUD CONSTANTE O VARIABLES........................................................................17
GRAFICA 10 CALCULO MEDIANA DISTRIBUCION DE FRECUENCIAS CON VALORES AGRUPADOS EN
INTERVALOS DE CLASE .........................................................................................................................21
GRAFICA 11 CALCULO FRECUENCIA ABSOLUTO DE LA MEDIANA ..................................................................21
GRAFICA 12 MODA CRUDA ............................................................................................................................24
GRAFICA 13 MODA SERIE DE VALORES AGRUPADOS EN CLASES SIMPLES .....................................................24
GRAFICA 14 CALCULO DEL PRIMER CUARTIL EN UNA SERIE SIMPLE VALORES SIN AGRUPAR........................27
GRAFICA 15 CALCULO CUARTILES DATOS AGRUPADOS BIEN CON AMPLITUD CONTANTE O VARIABLE........28
GRAFICA 16 MEDIDAS DE DISPERCION Y VARIABILIDAD ................................................................................34
GRAFICA 17MEDIDA ARITMETICAS ................................................................................................................47
GRAFICA 18 METODO GRAFICO 1 ..................................................................................................................51
GRAFICA 19 METODO GRAFICO 2 ..................................................................................................................52
INTRODUCCION

Este documento contiene el tema denominado "Estadística”, el cual servirá de


guía y para orientar al estudiante y/o investigador a poder analizar datos en los
diferentes campos de interés a investigarla estadística es una herramienta
poderosa matemáticamente que se aplica a las diferentes facetas de nuestra vida.

En este tema se presentan diferentes conceptos que son fundamentales en la


estadística, por ejemplo: el muestreo, la población y la muestra; los cuales son
medidas de datos específicos que son de mucho interés para el investigador a la
hora de estudiar un fenómeno o problema de investigación, también estudiaremos
los objetos en los cuales se toman estas medidas de datos específicos.

Se distinguen dos ramas de la estadística las cuales son: Estadística Descriptiva


y Estadística Inferencial, estas mismas se presentan a través de diferentes formas
para lo cual se presentarán ejemplos: como graficas de sectores y barras, cuadros
estadísticos, diagramas e histogramas de frecuencias para poder comprender
como se muestran los datos de una estadística.

La estadística permite seguir procedimientos aplicables al plantear conclusiones


y/o decisiones respecto a las características de la población la cual se estudiará.
Se explicará ¿De qué manera se puede mostrar un conjunto de datos específicos
de una forma clara y comprensible? Esto se logra clasificando los diferentes tipos
de datos que se encuentren en la población que se desea investigar a estos datos
se les denominan "Variables”, estas cambian o varían conforme al tiempo para los
diferentes objetos que se estudien dependen del individuo elegido que se estudie,
las variables se clasificaran como: Cualitativas y cuantitativas.

Con este importante tema se espera lograr comprender, analizar y a utilizar los
datos estadísticos e interpretarlos de una manera clara y comprensible a través
de las diferentes técnicas de la estadística.
1

ESTADÍSTICA

La estadística es una rama de la matemática que se aplica a todas las facetas de


nuestra vida diaria. Para la mayoría de las personas es un lenguaje nuevo y poco
familiar y al igual que cualquier nuevo idioma, la estadística parece abrumadora a
primera vista. Después de que haya aprendido y entendido el idioma de la
estadística, éste le proporcionará una herramienta poderosa para analizar datos
en muchos campos diferentes.

¿Qué es la estadística? ¿Conoce una persona especializada en estadística?


¿Sabe lo que hace? O tal vez la sola mención de la palabra estadística hace que
le recorra el cuerpo un escalofrío de miedo. Probablemente piense que no sabe
nada sobre estadística; de todos modos, es casi inevitable que usted se encuentre
con la estadística de alguna manera, cada vez que toma un periódico. Como, por
ejemplo:

Noticias calientes: 37° C no es normal.


Después de creer durante más de un siglo que 37° C era la temperatura normal
del cuerpo en los humanos, ahora dicen ciertos investigadores que lo normal ya
no lo, es más. Para algunas personas, 37.72° C pueden ser aceptables a algunas
horas del día. Y lecturas de tan sólo 35.55° C vienen a ser muy humanas. Un
médico alemán estableció la norma de 37° C en 1868. Algunos médicos siempre
sospecharon de la investigación del buen doctor. Su afirmación: un millón de
lecturas, en una época que no había computadoras. Así que Mackowiak & Co.
Tomó la temperatura de 148 personas saludables durante un período de tres días
y encontró que la temperatura media fue de 36.77° C. Sólo 8% de las lecturas fue
de 37° C.

¿Qué preguntas acudieron a su mente cuándo leyó este artículo? ¿Cómo


seleccionó el investigador a las 148 personas y cómo podemos estar seguros de
que los resultados basados en estas 148 personas son exactos cuando se aplican
a la población general? ¿Cómo llegó el investigador a las temperaturas normales
altas y bajas mencionadas en el artículo? ¿Cómo pudo el médico alemán tomar
un millón de temperaturas en 1868? Una vez más encontramos un problema
estadístico con una aplicación en la vida cotidiana.

En el lenguaje estadístico, uno de los conceptos fundamentales es el muestreo.


En la mayoría de los problemas de esta materia, de un conjunto más grande de
medidas, la población (conjunto de todos los datos específicos de interés para el
investigador), se extrae un número específico de medidas o datos, lo que es una
muestra (subconjunto de datos específicos elegidos de la población de interés).
2

Para el experimento de la temperatura corporal, la muestra es el conjunto de


medidas de las 148 personas saludables escogidas por el investigador, la cual se
espera que sea representativa de toda la población. En muchos casos, estamos
interesados en la población, pero ésta puede ser difícil o imposible de enumerar.
Imaginar que se intentará tomar la temperatura corporal de todas las personas
saludables de la tierra es fácil, pero efectuarlo no. En cambio, pretendemos
describir o predecir la conducta de la población con base en la información
obtenida a partir de una muestra representativa de esa población.

Las palabras muestra y población tienen dos significados para la mayoría de las
personas. Por ejemplo, usted se entera por los periódicos que una encuesta de
Gallup efectuada en el País se basó en una muestra de 1823 personas.
Supuestamente, a cada persona entrevistada se le plantea una pregunta particular
y la contestación de la persona representa una sola medida en la muestra. ¿La
muestra consiste en el conjunto de 1823 personas o en las 1823 respuestas?

Al usar el lenguaje estadístico, se distingue entre el conjunto de objetos en los


cuales se toman las medidas y las medidas en sí. Los investigadores llaman
unidades experimentales a los objetos en los cuales se toman las medidas u
objeto sobre el que se mide la variable. El experto en estadística que estudia la
muestra los llama elementos de la muestra. Una medición o dato se obtiene
cuando se mida en la realidad una variable sobre una unidad experimental. Si se
genera una medición por cada unidad experimental en todo el conjunto, los datos
resultantes constituyen la población de interés. Cualquier subconjunto más
pequeño de datos específicos es una muestra.

Cuando por primera vez tiene ante sí un conjunto de medidas – una muestra o
una población – usted necesita encontrar una forma de organizarla y resumirla.
La rama de la estadística que proporciona técnicas para describir y resumir las
características importantes de conjuntos de medidas se llama estadística
descriptiva. Se ha visto estadísticas descriptivas en muchas formas: las gráficas
de barras, de sectores y diagramas de líneas que presenta un elemento estudiado,
las tablas con valores numéricos en el periódico; o la precipitación pluvial media
que da a conocer un meteorólogo por la televisión local. Las gráficas generadas
mediante computadora y los resúmenes numéricos son comunes en la
comunicación cotidiana.

Si el conjunto de medidas es la población entera, sólo se necesita sacar


conclusiones con base en la estadística descriptiva. Pero podría suceder que
usted no puede contar la población completa en un tiempo razonable o que es
muy costoso hacerlo. Quizá contar la población completa en un tiempo razonable
o que es muy costoso hacerlo. Al considerar la muestra, se quiere contestar las
preguntas sobre toda la población. La rama de la estadística que trata este
problema se llama estadística inferencial. Esta consiste en los procedimientos
3

que se aplican para plantear inferencias (conclusiones, predicciones, decisiones,


etc.) con respecto a las características de la población a partir de la información
contenida en una muestra tomada de esta población. Una vez que ha reunido un
conjunto de datos específicos, ¿cómo los puede mostrar de una manera clara y
comprensible? Primero debe ser capaz de definir lo que se entiende por datos
específicos y clasificar los tipos de datos que probablemente encontrará en la vida
real como variables. Éstas son características que cambian o varían con el tiempo
y/o para los diferentes individuos y objetos que se consideren para el estudio.

Por ejemplo, la temperatura corporal es una variable que cambia con el tiempo en
un solo individuo y también de una persona a otra. La afiliación religiosa, el origen
étnico, el ingreso, la estatura, la edad y el número de descendientes son variables;
características que varían dependiendo del individuo elegido. Cuando una
variable se mide en realidad sobre un conjunto de unidades experimentales, se
obtiene un conjunto de datos específicos. Ejemplo:

Se elige un conjunto de cinco estudiantes de entre todos los que cursan la


licenciatura en una gran universidad; los datos específicos obtenidos se muestran
a continuación.

GRAFICA 1 EJEMPLO ESTADISTICO

Estudiante Calificación Género Especialidad Número de


promedio materias
inscritas
1 85 Femenino Psicología 16
2 98 Femenino Economía 15
3 87 Masculino Veterinaria 17
4 93 Masculino Agronomía 15
5 90 Femenino Administración 14

En este ejemplo hay muchas variables. La unidad experimental sobre la cual se


midan las variables es un estudiante en particular de licenciatura en el campus.
Para cada estudiante se miden cinco variables: calificación promedio, género,
especialidad y número de materias inscritas. Cada una de estas características
varía entre de un estudiante a otro. Si consideramos las calificaciones promedio
de todos los estudiantes de esta universidad como la población de datos de
interés, las cinco representan una muestra de esta población.

Si se hubiera obtenido la calificación promedio de cada estudiante de licenciatura


en la universidad, se habría generado la población completa de datos específicos
para esta variable. En el caso de la segunda variable, puede ser de dos
categorías: masculino o femenino y no es una variable numérica. Pero si se
hablará de conjunto de hombre o mujeres se podría numerarse.
4

Aunque analizamos por separado cada variable, recordemos que medimos cada
una de estas cinco variables en una sola unidad experimental: el estudiante. Por
lo que, en este ejemplo, una medición en realidad consiste en cinco
observaciones, una para cada una de las cinco variables medidas. Por ejemplo,
la medición tomada en el segundo estudiante arroja las siguientes observaciones:
Calificación promedio: 2.3, genero: femenino; especialidad: economía y número
de materias inscritas: 15. Se puede ver que hay una diferencia entre una sola
variable medida en una sola unidad experimental y variables múltiples medidas
en una sola unidad experimental. En la primera hablamos de datos univariados
y la segunda datos bivariados y multivariados. Si se miden las temperaturas
corporales de 148 personas, los datos resultantes son univariados, mientras que
en el caso de los estudiantes universitarios son datos multivariados.

Las variables pueden clasificarse en dos categorías: cualitativas o


cuantitativas. Las variables cualitativas miden una cualidad o característica en
cada unidad experimental. Las variables cuantitativas miden una cantidad
numérica en cada unidad experimental.

Las variables cualitativas producen datos que se pueden clasificar de acuerdo con
similitudes o diferencias de clase; por consiguiente, a menudo se denominan
datos categóricos. Las variables género, año y especialidad en el ejemplo
anterior son variables cualitativas que producen este tipo de datos. Otros
ejemplos serían: afiliación política: republicano, demócrata, independiente;
sabores: excelente, bueno, regular, malo; color de un dulce: café, amarillo, rojo,
anaranjado, verde, azul.

Las variables cuantitativas a menudo se representan con la letra x, producen datos


numéricos, como los que se enlistan enseguida: x = tasa principal de interés,
número de taxis no registrados en una ciudad, peso de un paquete listo para su
envío, volumen de jugo de naranja en un vaso, etc. Observe que hay una
diferencia en los tipos de valores numéricos que pueden adoptar estas variables
cuantitativas.

Por ejemplo, el número de taxis no registrados solo puede tomar los valores x =
0, 1, 2..., en tanto que el peso de un paquete puede tomar cualquier valor mayor
que cero. Para describir esta diferencia se definen las variables discretas, en
las cuales sólo se puede adoptar un número contable finito de valores; y las
variables continuas, las cuales pueden adoptar una cantidad infinita de valores
que corresponden a los puntos en un intervalo lineal.

El nombre discreto se relaciona con los espacios discretos entre los valores
posibles que puede adoptar la variable. Variables como el número de miembros
de una familia, el número de automóviles nuevos que se venden y el número de
5

llantas defectuosas que se devuelven para su reposición, son ejemplos de


variables discretas (números enteros). Por otro lado, variables tales como,
estatura, peso, tiempo, distancia y volumen son continuas porque pueden adoptar
valores en cualquier punto a lo largo de un intervalo lineal (siempre existen valores
intermedios entre dos enteros). Después de reunir los datos, se pueden
consolidar y resumir para mostrar la siguiente información:

- Cuáles valores de la variable se midieron.


- Con qué frecuencia apareció cada valor.

Para este propósito se pueden construir una tabla estadística, con la cual se
pueden mostrar gráficamente los datos como una distribución de datos. El tipo
de gráfica que elija depende del tipo de variable que haya medido. Cuando la
variable de interés es cualitativa, la tabla estadística es una lista de categorías
que se consideran junto con una medición de la frecuencia con que aparece cada
valor. Para este propósito se dispone de tres parámetros:

1. La Frecuencia o número de datos específicos en cada categoría.


2. La Frecuencia Relativa o proporción de datos específicos en cada categoría.
3. El porcentaje de datos específicos en cada categoría.

Por ejemplo, si se designa a n como el número total de datos específicos en el


conjunto, se puede encontrar la frecuencia relativa y el porcentaje por medio de
estas relaciones.

Frecuencias relativas = Frecuencia  n


Porcentaje = 100 / Frecuencia relativa

Encontrará siempre que la suma de las frecuencias es n, la suma de las


frecuencias relativas es 1, y la suma de los porcentajes es 100%. Por ejemplo, si
se clasifican los productos cárnicos de acuerdo con el tipo de carne que se utiliza,
podría usar estas categorías: res, pollo, pescado, cerdo, pavo, otros. Para
clasificar las categorías del profesorado de la facultad, podría usar estas otras:
Profesor titular, profesor interino, profesor auxiliar, otros. Una vez que se han
clasificado y resumido los datos específicos en un cuadro estadístico (tabla
estadística, se puede usar una gráfica de sectores o una gráfica de barras para
mostrar la distribución de datos.

Ejemplo:

En una encuesta relacionada con la educación pública se pidió a 400


administradores escolares que evaluarán la calidad de la Educación en Estados
Unidos. Sus respuestas se muestran a continuación:
6

GRAFICA 2 EJEMPLO DE FRECUENCIAS

Evaluación Frecuencia Frecuencia relativa Porcentaje


A 35 35/400 = .09 9%
B 260 260/400 = .65 65%
C 93 93/400 = .23 23%
D 12 12/400 = .03 3%
Total 400 1.00 100%

GRAFICA 3 EJEMPLO DE FRECUENCIAS NO.1

El impacto visual de estas


dos gráficas (de sectores y
de barras) es poco distinto.
La gráfica de sectores se
utiliza para mostrar la
relación de las partes con el
todo; la gráfica de barras se
usa para enfatizar la
cantidad real o frecuencia
para cada categoría.

Una bolsa de maní confitado M&M contiene 21 dulces de colores (la variable color
es cualitativa). Los colores que se presentan son los siguientes:

Café Verde Café Azul Rojo Rojo Verde


Café Amarillo Anaranjado Verde Azul Café Azul
Azul Café Anaranjado Azul Café Anaranjado Amarillo

La tabla estadística y gráfica que podría formarse es la siguiente:

GRAFICA 4 EJEMPLO DE FRECUENCIAS NO.2

Color Cuenta Frecuencia Frecuencia Porcentaje


Relativa
Café |||||| 6 6/21 28%
Verde ||| 3 3/21 14%
Anaranjado ||| 3 3/21 14%
7

Amarillo || 2 2/21 10%


Rojo || 2 2/21 10%
Azul ||||| 5 5/21 24%
Total 21 1 100%

Para destacar que el color


más frecuente es el café,
seguido por el azul, el verde y
el anaranjado, reordénanos
las barras de mayor a menor.
Una gráfica de barras en la
que cada una de las barras se
ordena de mayor a menor se
llama Gráfica de Pareto.

GRÁFICAS DE SECTORES Y DE BARRAS

A veces la información se reúne para una variable cuantitativa medida en


diferentes segmentos de la población o para categorías diferentes de clasificación.
Por ejemplo, se podría medir los ingresos promedio para personas de varios
grupos de edad, géneros distintos o que viven en distintas áreas geográficas del
País. En tales casos se pueden usar gráficas de sectores o de barras para
describir datos, por medio de la cantidad medida en cada categoría en lugar de la
frecuencia de ocurrencia de cada categoría. (Ver ejemplo de los 400
administradores encuestados)

Gráficas de líneas

Cuando una variable cuantitativa tiene un registro temporal a intervalos


igualmente espaciados, por ejemplo: semanal, diario, mensual, trimestre o anual,
el conjunto de datos forma una serie de tiempo. Los datos de series de tiempo
son los que se representan con más eficacia en una gráfica de líneas con el
tiempo en el eje de las abscisas. La idea es intentar discernir un patrón o
tendencia que posiblemente continuará en el futuro y con él, hacer las
predicciones exactas para el futuro inmediato.
8

Debido a que las personas que nacieron durante la explosión demográfica (1977
a 1985) están envejeciendo, al gobierno le interesa cada vez más la estabilidad
del sistema de seguridad social. Los porcentajes reales y proyectados de obreros
asegurados por invalidez durante los años 1985-2005 se listan a continuación:

Año 1985 1990 1995 2000 2005


Porcentaje 2.9 3.0 3.8 4.3 4.9

La variable cuantitativa “porcentaje” se mide en cinco intervalos de tiempo, con lo


cual se crea una serie de tiempo que se puede representar en una gráfica de
líneas. Los intervalos de tiempo se marcan en el eje de las abscisas (eje
horizontal) los porcentajes en el eje de las ordenadas (eje vertical). Los puntos
de los datos se unen mediante segmentos de recta para formar la gráfica de línea.
Advierta la notable diferencia en las escalas verticales de las dos gráficas.
Reducir la escala en el eje vertical causa que los cambios grandes parezcan
pequeños y viceversa. Para evitar conclusiones erróneas se debe observar con
detenimiento las escalas de los ejes vertical y horizontal. Sin embargo, de ambas
gráficas se obtiene una representación clara de los porcentajes que crecen de
manera constante a medida que se aproxima el nuevo milenio. Vea las siguientes
gráficas.

Diagramas de dispersión

Muchos conjuntos de datos cuantitativos constan de números que no pueden


separarse fácilmente en categorías o intervalos de tiempo. Por ejemplo, el
conjunto 2, 6, 9, 3, 7, 6, se pueden trazar los datos específicos simplemente como
puntos en un eje horizontal. Sin embargo, para un conjunto grande de datos, es
posible que el diagrama de dispersión no dé información clara y su interpretación
sea tediosa. Vea las siguientes gráficas en su orden respectivamente.
9

GRAFICA 5 DISPERCION DE CARACTERES

Diagrama de hoja y tallo

Este diagrama muestra una representación gráfica de los datos usando los valores
numéricos reales de cada punto de los datos. Procedimiento:

 Divida cada medición en dos partes: tallo y hoja.


 Liste los tallos en una columna, con una línea vertical a su derecha.
 Para cada medición registre la porción de la hoja en la misma fila que el tallo
al que corresponda.
 Ordene las hojas de menor a mayor en cada tallo.
 Asigne una clave a su codificación de tallo y hoja para que el lector pueda
recrear los datos específicos reales si es necesario.

Ejemplo: a continuación, se listan los precios de 19 marcas diferentes de zapatos


para caminar. Construya un diagrama de tallo y hoja para mostrar la distribución
de datos.

90 70 70 70 75 70 65 68 60 74 70 95
75 70 68 65 40 65 70

Para crear el tallo y las hojas puede dividir cada observación entre unidades y
decenas. El número a la izquierda es el tallo; el número a la derecha es la hoja.
Así, para los zapatos que costaron Q.65.00, el tallo es 6 y la hoja 5. Los tallos
que varían de 4 a 9, se listan a continuación junto con las hojas para cada uno de
los 19 datos específicos. Si se indica que la unidad de la hoja es 1, el lector
comprenderá que el tallo y la hoja 6 y 8, por ejemplo, representan el número 68,
registrando el dólar más cercano.
10

4 0 Unidad de la hoja = 1 4 0
5 5
6 580855 Reordenamiento 6 055588
7 0005040500 7 0000000455
8 8
9 05 9 05

A veces las opciones de tallo disponibles dan como resultado una gráfica que
contiene muy pocos tallos y un gran número de hojas en cada tallo. En esta
situación se pueden estirar los tallos al dividir cada uno en varias líneas, lo cual
depende de los valores de hoja que se reasignaron. Por lo general se dividen por
una de dos maneras:

 En dos líneas, con las hojas 0-4 en la primera línea y las hojas 5-9 en la
segunda línea.
 En cinco líneas, con las hojas 0-1, 2-3, 4-5, 6-7, 8-9 en las cinco líneas
respectivamente.

Ejemplo: los siguientes datos son las calificaciones promedio (CP) de 30


estudiantes de primer año de la Universidad, registrados al final del año. Elaborar
un diagrama de tallo y hoja para mostrar la distribución de datos.

2.0 3.1 1.9 2.5 1.9 2.3 2.6 3.1 2.5 2.1 2.9 3.0
2.7 2.5 2.4 2.7 2.5 2.4 3.0 3.4 2.6 2.8 2.5 2.7
2.9 2.7 2.8 2.2 2.7 2.1

Los datos, aunque registrados con precisión de un solo decimal, son datos
específicos de las variables continua x = CP, que puede tomar valores en el
intervalo 0-4.0. Al examinar los datos, puede verse rápidamente que la calificación
promedio más alta y más bajo son 3.4 y 1.9 respectivamente. ¿Pero cómo se
distribuyen las demás CP? Si se utiliza el punto decimal como la línea divisora
entre el tallo y la hoja, se tienen sólo tres tallos, lo cual no produce una muy buena
representación. ¡Aun cuando se dividiera cada tallo en dos líneas, hay sólo cuatro
tallos, puesto que la primera línea del tallo 1 y la segunda línea del tallo 4 están
vacías! Al dividir cada tallo en cinco líneas se produce un diagrama más
descriptivo, como se mostrará a continuación. Para estos datos la unidad de la
hoja es 0.1 y el lector puede inferir que el tallo y la hoja 2 y 6, por ejemplo,
representan la medida x = 2.6
11

1 99 1 99
2 011 2 011
2 32 2 23
2 5455554 Reordenamiento 2 4444444
2 7676777 Unidad de la hoja = 0.1 2 6677777
2 9889 2 8899
3 1010 3 0011
3 3
3 4 3 4

Diagrama de dispersión de caracteres

Las distribuciones de datos a menudo se describen de acuerdo con sus formas.


Una distribución es simétrica si sus lados izquierdo y derecho forman imágenes
idénticas cuando se dividen por su valor medio. Una distribución es sesgada a la
derecha si una proporción mayor de los datos específicos se localiza a la derecha
del valor máximo. Las distribuciones que están sesgadas a la derecha contienen
algunas medidas extraordinariamente grandes. Una distribución es sesgada a la
izquierda si una proporción mayor de los datos específicos se ubica a la izquierda
del valor máximo. Las distribuciones que son sesgadas a la izquierda contienen
algunos datos específicos extraordinariamente pequeños. Una distribución es
unimodal si tiene un máximo; una distribución es bimodal cuando tiene dos
máximos. Las distribuciones bimodales representan a menudo una mezcla de
dos poblaciones diferentes en el conjunto de los datos. Describa las distribuciones
siguientes en términos de sus ubicaciones y formas.

: : :
: : : : : : : :
: : : : : : : : : . . : : : :
: : : : : : : : : : : : : . . . . . . : : : : : :
1 2 3 4 5 6 7 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9

En el primer diagrama de dispersión se observa una distribución relativamente


simétrica con un solo máximo localizado en x = 4. Si doblara la página en este
máximo, las mitades izquierda y derecha serían casi imágenes idénticas. El
segundo diagrama de dispersión, sin embargo, está lejos de ser simétrico. Tiene
una “cola derecha” larga, lo que significa que hay algunas observaciones
excepcionalmente grandes. Si se doblara la página en el máximo, la proporción
mayor de datos específicos se ubicaría a la derecha y no a la izquierda. Esta
distribución se sesga a la derecha. De manera similar, el tercer diagrama de
dispersión con al “cola izquierda” larga se sesga a la izquierda.
12

Histograma de frecuencias relativas

Este es similar a una gráfica de barras, pero se usa para representar información
cuantitativa en lugar de datos cualitativos. Con el fin de crear categorías similares
a las utilizadas para la información cualitativa, se divide el intervalo desde la
medición más pequeña hasta la más grande en una cantidad arbitraria de
subintervalos o clases de igual longitud. Como regla práctica, la cantidad de
clases debe variar entre cinco y diez; a medida que se cuenta con más información
se requieren más clases. Es necesario escoger las clases de tal manera que cada
medición caiga en una y sólo una clase. Una vez que se formaron las clases los
datos específicos se colocan en sus categorías apropiadas y el resultado es un
Histograma de frecuencias o bien, un histograma de frecuencias relativas.
Ejemplo:

2.0 3.1 1.9 2.5 1.9 2.3 2.6 3.1 2.5 2.1 2.9 3.0
2.7 2.5 2.4 2.7 2.5 2.4 3.0 3.4 2.6 2.8 2.5 2.7
2.9 2.7 2.8 2.2 2.7 2.1

Para los datos anteriores se usarán ocho intervalos de igual amplitud. Como el
espacio total que abarcan los datos es 3.4 – 1.9 = 1.5, la amplitud aproximada de
las clases es 1.5  8 = 0.1875. Para facilitar el cálculo se redondea el valor de la
amplitud aproximada a 0.2. Si se empieza el primer intervalo en el valor más bajo
1.9, se forman intervalos a partir de 1.9 hacia arriba, pero sin incluir el 2.1, de 2.1
hacia arriba, pero sin incluir el 2.3 y así sucesivamente. Cuando se utiliza el
método de la inclusión izquierda, es decir, cuando se toma en cuenta el límite
izquierdo de la clase, pero no su límite derecho, se elimina cualquier confusión
respecto a dónde colocar una medición que cae sobre un punto límite de clase.
GRAFICA 6 HISTOGRAMA FRECUENCIA RELATIVA

Clase Límites de Cuenta Frecuencia de la Frecuencia relativa de


Clase clase la clase
1 1.9 a < 2.1 ||| 3 3/30
2 2.1 a < 2.3 ||| 3 3/30
3 2.3 a < 2.5 ||| 3 3/30
4 2.5 a < 2.7 ||||||| 7 7/30
5 2.7 a < 2.9 ||||||| 7 7/30
6 2.9 a < 3.1 |||| 4 4/30
7 3.1 a < 3.3 || 2 2/30
8 3.3 a < 3.5 | 1 1/30
13

Se puede usar un histograma de


frecuencias relativas para
describir la distribución de un
conjunto de datos en términos de
su localización y forma y para
verificar los valores atípicos (no
son regulares, son grandes o
pequeños) como se hace con
otras gráficas. Por ejemplo, tanto
para los datos del ejemplo
anterior, la información fue
relativamente simétrica, es decir,
no hubo datos específicos poco
comunes. Como la gráfica de
barras trazada en cada clase
representa la frecuencia relativa o proporción de los datos específicos en esa
clase, esta altura puede usarse para obtener más información:

 La proporción de los datos específicos que caen en una clase o grupo de


clases particular.
 La probabilidad de que los datos específicos tomados al azar del conjunto
estén en una clase o grupo de clases particulares.

Considere el histograma de frecuencia relativa del ejemplo anterior. ¿Qué


proporción de estudiantes tenía un dato de 2.7 o mayor? Para esto se requieren
todas clases después de 2.7, ya que hay 14 datos en esas clases, la proporción de
quienes tiene 2.7 o más es 14/30, es decir, alrededor de 47%. Éste es también el
porcentaje del área total en el histograma que queda a la derecha de 2.7.

Suponga que escribió cada uno de los 30 datos en trozos de papel, que los puso
dentro de un sombrero y que se sacó uno al azar ¿cuál es la probabilidad de que
este trozo de papel tenga un valor de 2.7 o mayor? Ya que 14 de los 30 trozos
están en esta categoría, se tienen 14 oportunidades de 30, es decir, la
probabilidad es 14/30.

Las gráficas permiten representar la forma básica de una distribución de datos:


“una imagen vale por mil palabras”, pero el uso de los métodos gráficos tiene
limitaciones. Suponga que necesita mostrar sus datos a un grupo de personas,
pero la lámpara del proyector de cuerpos se fundió, o bien, necesita comunicar la
información por teléfono, entonces, no puede mostrar las gráficas. Por tanto, tiene
que encontrar otra manera de comunicar una imagen mental de los datos de su
interlocutor.
14

Una segunda limitación es que las gráficas son, en cierto modo, imprecisas si se
desean usar en inferencia estadística. Por ejemplo, suponga que desea utilizar
un histograma de la muestra para inferir información respecto a un histograma de
la población. ¿Cómo se pueden medir las similitudes y las diferencias entre los
dos histogramas de manera concreta? Si fueran idénticos, usted diría: “son
iguales”, pero si son distintos es difícil establecer el “grado de diferencia”.

Una manera de superar estos problemas es usar medidas numéricas, las cuales
se calculan para una muestra o una población de mediciones. Se puede usar los
datos para calcular un conjunto de números que transmitirán una imagen mental
aceptable de la distribución de frecuencias. Estas medidas se llaman parámetros
cuando se relación con la población y estadísticos cuando se calculan a partir de
las mediciones en la muestra. Una de las medidas numéricas más importantes
son las medidas de tendencia central, es decir, una medida en el eje horizontal
que ubica el centro de la distribución.

MEDIDAS DE TENDENCIA CENTRAL

Los datos presentados en el ejemplo anterior variaban entre 1.9 y 3.4 y el centro
del histograma se localizaba alrededor de 2.6. Consideremos algunas reglas para
localizar el centro de una distribución de mediciones.

Media aritmética

El promedio aritmético de un conjunto de mediciones es una medida del centro


muy común y muy útil. A menudo se hace referencia a esta medida con el nombre
de media aritmética, o sencillamente media, de un conjunto de mediciones. Para
distinguir entre la media de la muestra y la media de la población se utiliza el
símbolo (equis con barra) para representar la media de la muestra y μ (la letra
griega mu minúscula) para representar la media de la población.

Entonces, la media o promedio de un conjunto de n mediciones es igual a la


suma de las mediciones dividida entre n. Fórmulas:

Media de la muestra: = x  n Media de la población: μ = x  n

Ejemplo: mediante un diagrama de dispersión represente las n = 5 mediciones 2,


9, 11, 5 y 6. Determine la media de la muestra de estas observaciones y compare
su valor con el que usted pudiera considerar el “centro” de estas observaciones
en el diagrama de dispersión.
15

Al parecer el centro del diagrama de dispersión está entre 6 y 8. Para encontrar


la media muestral se efectúa el siguiente cálculo:

= x  n
= (2+9+11+5+6)  2
= 6.6

El estadístico = 6.6 es el centro o punto de apoyo mostrado en el diagrama de


dispersión siguiente, el cual parece marcar el centro de los datos.

Recuerde que las muestras son


mediciones que se obtienen de una
población más grande, que de ordinario se
desconoce. Un uso importante de la media
muestral es como estimador de la media μ de la población desconocida.

Los datos del ejemplo anterior son una muestra de una población mayor y la media
de estos datos es:

= x  n
= 77.5  30
= 2.58

En este caso se desconoce la media de toda la población, pero si tiene que


adivinar su valor, la mejor estimación sería 2.58. Aunque la media muestral
cambie de muestra a muestra, la media de la población μ siempre es la misma.

Cálculo de la media aritmética en una serie simple

Cuál es el promedio de un estudiante en el curso de Estadística, sabiendo que


sus notas son las siguientes:
GRAFICA 7 CALCULO MEDIA ARITMETICA DE UNA SERIE SIMPLE

Bimestre Nota x = 420


obtenida N = 5
Primero 80
Segundo 75 = x  n
Tercer 90 = 420  5
Cuarto 83 = 84
Quinto 92
16

El estudiante obtuvo una calificación de 84 puntos como promedio bimestral en el


año.

Cálculo de la media aritmética en una distribución de frecuencias de


valores agrupados

A esta media aritmética se le llama Media Ponderada o Frecuencia de valores


agrupados y se calcula con la ecuación siguiente:

= [(xi)]  n

La diferencia con la ecuación del caso anterior consiste en [(xi)], que significa
la suma o sumatoria del producto de las frecuencias por los valores de la serie.

Ejemplo: Calcular la media aritmética de las calificaciones de 37 estudiantes del


curso de matemática, cuyos datos son: 5 sacaron 100 puntos, 8 sacaron 90
puntos, 7 sacaron 95 puntos, 6 sacaron 85 puntos, 4 sacaron 89 puntos, 3 sacaron
75 y 4 sacaron 79 puntos.

GRAFICA 8 CALCULO MEDIA ARITMETICA DE DISTRIBUCION FRECUENCIA


DE VALORES AGRUPADOS

Calificaciones Estudiantes xi (xi) = 3292


(xi)  n = 37
100 5 500
95 7 665 = x  n
90 8 720 = 3292  37
89 4 356
= 88.97
85 6 510
79 4 316
75 3 225
Según el resultado, todos los estudiantes sacaron una nota promedio de 88.97
puntos.

Cálculo de la media aritmética en una distribución de frecuencias de


valores agrupados en intervalos de amplitud constante o variable

Para el cálculo de la media aritmética en este tipo de análisis, se debe usar la


ecuación siguiente:

= (x)  n
17

(x) es la suma o sumatoria de las marcas de clase por su frecuencia. Esto


quiere decir que x significa los puntos medios y éstos se obtienen de la semisuma
de Xs y Xi de cada intervalo. El análisis se puede realizar utilizando intervalos de
amplitud constante o variable, según el tipo de información que se tenga. Observe
el siguiente ejemplo:

GRAFICA 9 CALCULO MEDI ARITMETICA DE DISTRIBUCION FRECUENCIA


DE VALORES AGRUPADOS EN INTERVALOS DE AMPLITUD CONSTANTE O
VARIABLES

Intervalos  Marcas de clase (x)


(x) = (x)  n
19-23 5 21 105 = 338  28
14-18 6 16 96 = 12.07
9-13 7 11 77
4-8 10 6 60
n = 28 (x) = 338

La complejidad de los datos en estadística es cada vez mayor y por ello, requiere
utilizar procedimientos más simples, pero igualmente efectivos que los expuestos,
por ello se creó una ecuación abreviada para el cálculo de la media aritmética,
que es la siguiente:

= as + [(d)  n]i

Los nuevos elementos que se incluyen en esta ecuación son as, que significa
media aritmética supuesta y que significa desviación. La i representa la amplitud
de los intervalos.

Desviación se llama a la distancia o diferencia que hay entre cada valor x i y la


media aritmética (xi - ). Para aplicar la ecuación anterior simplemente se
selecciona una posición supuesta de la media aritmética, preferible si es el punto
medio de la serie, a este valor se le llamará as. Se crea otra columna en la tabla
que se llamará (d) desviaciones; a partir de la as (media supuesta) se colocan
valores positivos a los que está sobre ella y valores negativos a los que están bajo
la media. Por ejemplo: +6, +12, +18, -6, -12, -18

Intervalos Puntos medios (x)  d


95-100 97.5 8 +18
89-94 91.5 5 +12
83-88 85.5 7 +6
18

77-82 79.5 4 0 Aclaración: el lugar que se


71-76 73.5 5 -6 seleccionó para la media
65-70 67.5 6 -12 aritmética supuesta fue en el
59-64 61.5 3 -18 intervalo 77-82. A partir de ese
n = 38 punto se marcan las
desviaciones. Si la media
aritmética supuesta cae en 79.5, el primer valor superior a éste es 88.5 y lo excede
en 6, por ello la desviación o (distancia) es +6, el otro valor mayor es 91.5 y lo
excede en +12, la desviación es +12, etc.

Debajo del lugar de la media supuesta queda el valor 73.5 y respecto a 79.5 se
disminuye en -6, por ello la desviación es -6, etc.

En resumen, para el cálculo de las desviaciones sólo se obtienen las diferencias


respecto a la media supuesta. (d) se obtiene con la suma algebraica del
producto de las frecuencias por las desviaciones. Observe el siguiente cuadro.

Intervalos Puntos medios (x)  d d Al sustituir valores en


95-100 97.5 8 +18 144 la ecuación, el valor
89-94 91.5 5 +12 60 de será:
83-88 85.5 7 +6 42
77-82 79.5 4 0 0 = as + [(d)  n]i
71-76 73.5 5 -6 -30 = 79.5 + [90  38]i
65-70 67.5 6 -12 -72 = 79.5 +2.37
59-64 61.5 3 -18 -54 = 81.87
n = 38

Mediana

Una segunda medida de tendencia centra es la mediana (m) de un conjunto de n


mediciones, la cual es el valor de x que se encuentra en la posición media cuando
las mediciones están ordenadas de menor a mayor.

Se le llama mediana a un valor de posición que divide a una serie de valores en


dos partes exactamente iguales, es decir, que sobre la mediana existe el 50% de
los casos y bajo la mediana existe el otro 50%. Si se tienen un número impar de
casos, la mediana es el valor que ocupa exactamente la mitad de la distribución,
si se tiene un número par, la mediana ocupará el punto medio entre los dos valores
de la serie, pero antes de calcular este parámetro, deben ordenarse los datos. La
fórmula genera es la siguiente:

Posición de la mediana (PMd) = (n+1)  2


19

Cálculo de la mediana en una serie simple con cantidad impar de valores

Ejemplos:

 Determine la mediana del conjunto de mediciones 2, 9, 5, 11, 6. Primero,


debemos ordenar de menor a mayor: 2, 5, 6, 9 y 11. El valor intermedio, está
en el centro del conjunto, es decir, m = 6.

PMd = (n+1)  2
PMd = (5+1)  2
PMd = 3

El tres es la posición de la mediana entre el grupo de mediciones, en este caso,


el número seis ocupa la tercera posición. Entonces la mediana es 6.

Cálculo de la mediana en una serie simple con cantidad par de valores

 Encuentre la mediana del conjunto de mediciones 2, 9, 11, 5, 6, y 27.


Ordenadas de menor a mayor: 2, 5, 6, 9, 11 y 27. Ahora hay dos valores
intermedios (6 y 9). Para determinar la mediana se escoge un valor intermedio
entre las observaciones del centro.

PMd = (n+1)  2
PMd = (6+9)  2
PMd = 7.5

El valor 0.5(n+1) indica la posición de la mediana en el conjunto de datos


ordenados. Si la posición de la mediana es un número que termina en el valor
0.5, se necesita promediar los dos valores adyacentes.

Para las n = 5 mediciones ordenadas del primer ejemplo, la posición de la mediana


es 0.5(n+1) = 0.5 (6) = 3 y la mediana es el valor que ocupa el tercer lugar, es
decir m = 6. Para las n = 6 mediciones ordenadas del segundo ejemplo, la
posición de la mediana es 0.5(n+1) = 0.5 (7) = 3.5 y la mediana es el promedio del
tercer y cuarto valores, es decir, m = (6+9)  2 = 7.5. Aunque tanto la media como
la mediana son medidas aceptables del centro de la distribución, la mediana es
menos sensible a los valores extremos o atípicos. Por ejemplo, el valor x = 27 del
ejemplo anterior, es mucho más grande que las otras cinco mediciones. La
mediana m = 7.5, no resulta afectada con los valores atípicos, en tanto que el
promedio de la muestra:
20

= x  n
= 60  6
= 10

Si es afectado; su valor no es representativo de las cinco observaciones restantes.


Cuando en el conjunto de datos hay valores muy pequeños o muy grandes, la
media muestral se tiende hacia donde están las mediciones extremas. Si una
distribución está sesgada hacia la derecha, la media tiende a desplazarse a la
derecha; si una distribución está sesgada a la izquierda, la media se tiende a la
izquierda. La mediana no se afecta por estos valores extremos porque no se usan
los valores numéricos de las mediciones para calcularla. Cuando una distribución
es simétrica, la media y la mediana son iguales. Si una distribución sufre un sesgo
notorio debido a uno o más valores extremos, se debe utilizar la mediana en vez
de la media como una medición del centro. Véanse las siguientes gráficas donde
las distribuciones de frecuencias relativas muestran el efecto de los valores
extremos en la media y la mediana. Otro modo de localizar el centro de una
distribución es buscar el valor de x que se presenta con mayor frecuencia. Esta
medida del centro se llama moda.

Cálculo de la mediana en una distribución de frecuencias con valores


agrupados en intervalos de clase

Para calcular la mediana en una distribución de frecuencias con valores


agrupados, se usa la ecuación siguiente:

Md = Li1 + {[(n2)- a1]  }i

La simbología que aquí se usa es la siguiente:

Md = mediana
Li1 = Límite real inferior en donde se localiza la mediana
n2 = la mitad de la cantidad de casos o frecuencias
a1 = frecuencia acumulada inmediata anterior al intervalo donde se
encuentra la mediana
 = frecuencia absoluta del intervalo donde se localiza la mediana
I = Valor de la amplitud del intervalo donde está la mediana (supuesta).

El Límite real inferior se calcula restándole media unidad al límite inferior del
intervalo. Cuando el límite inferior es un entero. Ejemplo: suponiendo el intervalo
15-19, el límite inferior del intervalo es 15-0.5 = 14.5. Luego de determinar la
21

posición de la mediana por medio de la fórmula P = n2, a partir de este lugar se


localiza la frecuencia acumulada anterior al lugar de la mediana supuesta. Para
comprender apropiadamente el procedimiento, deben seguir con suma atención
los pasos siguientes. Ejemplo:
GRAFICA 10 CALCULO MEDIANA DISTRIBUCION DE FRECUENCIAS CON
VALORES AGRUPADOS EN INTERVALOS DE CLASE

Intervalos  a P=N2
28-36 5 5 P = 802
37-48 11 16 P = 40
46-54 12 28
40 es la posición de la mediana, como no está en
55-63 19 47 la frecuencia, se localiza entre 28 y 47. el intervalo
64-72 14 61 mediano es 55-63. la frecuencia acumulada
73-81 12 73 anterior es 28 y se localiza en la columna
82-90 6 79 denominada a.
91-99 1 80
N=
80

La frecuencia absoluta donde se localiza la mediana se ubica en la columna


de las frecuencias absolutas denominada  y corresponde al valor que se
encuentra frente a la frecuencia acumulada anterior a la mediana. En el caso del
ejemplo anterior, la frecuencia absoluta , es 19, ya que este valor corresponde a
47 en la columna. Observe el cuadro siguiente:
GRAFICA 11 CALCULO FRECUENCIA ABSOLUTO DE LA MEDIANA

Xi  a
28-36 5 5
37-48 11 16
46-54 12 28
55-63 19 47
64-72 14 61
73-81 12 73
82-90 6 79
91-99 1 80
N = 80

La distancia de un límite inferior al límite superior, se denomina intervalo y se


representa con la letra i. Para calcular el intervalo se resta el límite inferior del
límite superior. Ejemplo: i = 63.5-54.5 = 9. El procedimiento aplicado para
calcular la amplitud del intervalo es correcto, siempre que en la distribución el
tamaño de los intervalos sea constante no obstante es mejor utilizar Ls – li = i.
22

Luego de calcular los valores de los componentes de la fórmula, es decir n2, Li1,
a1, , i, se sustituyen en la fórmula y se opera. Ejemplo:

Xi  a Posición de la mediana Límite inferior


28-36 5 5 P=N2 Li = 55-0.5
37-48 11 16 P = 802 Li = 54.5
46-54 12 28 P = 40
55-63 19 47
64-72 14 61 Frecuencia acumulada anterior Frecuencia
73-81 12 73 Absoluta
82-90 6 79 a1 = 28  = 19
91-99 1 80
N = 80 Intervalo
Ls – li = i 63-54 = 9

Cálculo de Md:
Md = 54.5 + {[(802)- 28]  19}9
Md = 54.5 + {[40-28]  19}9
Md = 54.5 + {1219}9
Md = 54.5 + 10819
Md = 54.5 + 5.68
Md = 60.18

El valor de la mediana es 60.18.

Moda

La moda es la categoría que se presenta con más frecuencia, o bien, el valor de


x que más frecuentemente ocurre. Cuando las mediciones de una variable
continua se agrupan como un histograma de frecuencias o de frecuencias
relativas, la clase que tiene la frecuencia más alta se llama clase modal, y el punto
medio de dicha clase se toma como la moda. En general, la moda se usa para
describir grandes conjuntos de datos, en tanto que la media y la mediana tiene
aplicación para conjuntos de datos grandes o pequeños. Ejemplo:

Se encuestó a veinticinco amas de casa, para una investigación de mercado


acerca de la cantidad de litros de leche que compraron durante una semana en
particular. Los datos son los siguientes:

0 3 5 4 3 2 1 3 1 2 1 1
2 0 1 4 3 2 2 2 2 2 2 3 4
23

00 = 2 datos 11111 = 5 datos 222222222 = 9 datos


33333 = 5 datos 444 = 3 datos 5 = 1 dato
A partir de estos datos, la moda de la distribución es dos litros. La clase modal y
el valor de x que se presenta con mayor frecuencia son iguales, como se muestra
en la siguiente figura.

En los datos
de las
calificaciones
promedio, el
valor 2.5 se
presenta
cinco veces,
por
consiguiente,
la moda de la
distribución
es 2.5. Si se usa el histograma para determinar la clase modal encontrará dos
clases que ocurren con igual frecuencia.

Por fortuna, estas clases están a un lado de la otra en la tabulación, por tanto, el
valor elegido para la moda es 2.7, el valor en el centro entre la cuarta y quinta
clases, como se ve en la siguiente figura:

Es posible que una distribución de


mediciones tenga más de una
moda. Por ejemplo, si se tabulara
la longitud de los pescados
obtenidos en un lago durante una
estación, podríamos obtener una
distribución bimodal, lo que quizá
refleje una mezcla de peces
jóvenes y adultos en la población. A
veces las distribuciones bimodales
de tamaños o pesos reflejan una
mezcla de mediciones tomadas en hembras y machos. En cualquier caso, un
conjunto o distribución de mediciones podría tener más de una moda.

Actualmente se conocen dos tipos de moda:

 Moda cruda. Con este nombre se identifica la marca de clase del intervalo,
correspondiente al mayor valor en una distribución de frecuencias. Para
ubicarlo es necesario localizar el intervalo de clase que corresponde a la
24

frecuencia mayor de la serie, a ésta se le calcula la marca de clase y ésta será


el valor de la moda cruda.

GRAFICA 12 MODA CRUDA

Xi  a
28-36 5 5 Es importante recordar que la marca de clase es la
37-48 11 16 semisuma de los límites de un intervalo. En la tabla
46-54 12 28 anterior, la frecuencia mayor es 19 y corresponde al
55-63 19 47 intervalo 55-63. La fórmula para su cálculo es:
64-72 14 61
73-81 12 73 Mo = (Li + Ls)  2
82-90 6 79 Mo = 59
91-99 1 80
N = 80

X  Marca de Clase Xi
28-36 5
37-48 11
46-54 12
55-63 19 59 moda cruda
64-72 14
73-81 12
82-90 6
91-99 1
N = 80

Cálculo de la moda en una serie de valores agrupados en clases simples.

En una serie simple, la moda se localiza en el valor que se repite más veces. Para
ello sólo se busca la frecuencia mayor y se localiza la moda. Ejemplo: Edad a la
que se gradúan los estudiantes del nivel medio en la escuela normal.

GRAFICA 13 MODA SERIE DE VALORES AGRUPADOS EN CLASES


SIMPLES

x  a
16 50
17 75
18 100
19 450 Moda = 19 años
20 70
21 60
25

22 25
N = 530

Cuando dos cantidades se repiten la misma cantidad de veces, la serie tiene dos
modas y se llama bimodal, si existen tres modas se llama trimodal y si existen
más, se llama plurimodal.

Moda interpolada para una serie de valores en intervalos de amplitud


constante. Para calcular la moda interpolada se emplea la fórmula:

Mo = Li1 + {[1(1+2)]} i

Donde:
Mo = Moda.
Li1 = Límite real inferior del intervalo donde se localiza la frecuencia mayor.
1 = Delta uno, corresponde a la diferencia entre la frecuencia mayor y
la anterior a ésta.
2 = Delta dos, corresponde a la diferencia entre la frecuencia mayor y
la posterior a ésta.
I = Amplitud del intervalo.

El procedimiento aconsejable para calcular la moda interpolada se basa, primeo,


en localizar la frecuencia absoluta mayor de la serie. Luego calcular los datos que
requiere la fórmula. Ejemplo:

Intervalos 
28-36 5 Frecuencia absoluta mayor = 19
37-48 11 Límite real inferior del intervalo = 54.5
46-54 12 Amplitud del intervalo = 9
55-63 19 Frecuencia anterior a la frecuencia modal = 12
64-72 14 Frecuencia posterior a la frecuencia modal = 14
73-81 12 Intervalo = 9
82-90 6
91-99 1
N = 80

1 = Delta uno, corresponde a la diferencia entre la frecuencia mayor y la


anterior a ésta.
1 = 19 – 12
1 = 7
2 = Delta dos, corresponde a la diferencia entre la frecuencia mayor y la
posterior a ésta.
26

2 = 19-14
2 = 5

Mo = Li1 + {[1(1+2)]} i
Mo = 54.5 + {[7(7+5)]}9
Mo = 54.5 + (6312)
Mo = 59.75
La moda interpolada es 59.75

FRACTILES

Las medidas que pertenecen a esta clasificación ayudan a la descripción de un


hecho variable. Se entiende como fractil a un elemento estadístico que parte una
serie en grupos iguales. Se comprenden dentro de los fractiles: los cuartiles,
los deciles y los percentiles. De la misma forma que la mediana divide a la serie
en dos iguales, los fractiles los separan en fragmentos o partes, es decir, que los
cuarteles dividen la serie en cuatro partes, los deciles en diez y los centiles en
cien grupos iguales.

Cuartiles

Los cuartiles son los fractiles que dividen el total de casos en cuatro grupos
iguales, a cada cuarto le corresponde un 25% de los casos. Los cuartiles se usan
como medidas de dispersión en la descripción de datos. El símbolo que se usa
para identificar a los cuartiles es la letra Q y se coloca un número como subíndice
para identificarlo: Q1, primer cuartel; Q2, segundo cuartel, Q3, tercer cuartil. El
cuarto cuartel no tiene representación. Es necesario señalara que el segundo
cuartil, corresponde a la mediana. La gráfica siguiente muestra los cuartiles.

25% 25% 25% 25%

Q1 Q2 Q3

El primer cuartel no tiene representación, es una medida sobre la cual existe 75%
de los casos y por debajo, el 25%.
27

Cálculo del primer cuartil en una serie simple de valores sin agrupar

Si se tiene una serie simple de valores sin agrupar y se quiere determinar el primer
cuartil se puede usar la fórmula:

PQ1 = (n+1)  4
Donde
PQ1 = Posición del cuartil
N = Número de casos
Antes de calcular los cuartiles es necesario ordenar los datos como aparecen en
el ejemplo:

GRAFICA 14 CALCULO DEL PRIMER CUARTIL EN UNA SERIE SIMPLE


VALORES SIN AGRUPAR

Serie
2 PQ1 = (n+1)  4
3
PQ1 = (11+1)  4
4
PQ1 = 12  4
5
PQ1 = 3
6
7
La posición se encuentra en la tercera cantidad y el valor que está en
8
esa posición es el 4. Por lo tanto, el 4 es el Q1 (primer cuartil de la
9
serie).
10
11
12
N = 11

Observe este otro ejemplo:


28

Serie PQ1 = (n+1)  4


6 PQ1 = (8+1)  4
7 PQ1 = 9  4
8 PQ1 = 2.25
9 La posición 2.25 queda entre los valores 7 y 8, por lo tanto, se debe
10 calcular el valor intermedio:
11 Q1 = (n1+n2)  2
12 Q1 = (7+8)  2
15
Q1 = 15  2
N=8 Q1 = 7.5 El valor de Q1 es 7.5

El tercer cuartil, es una medida sobre la cual existe el 25% de los casos y por
debajo el 75%. Para ello se usa la fórmula siguiente:

Q3 = 3(n+1)  4
Q3 = 3(11+1)  4
Q3 = 9 En la posición 9 está el valor 10, entonces Q3 = 10

Cálculo de cuartiles en una serie de datos agrupados bien con amplitud


constante o variable

 Para calcular la posición del primer cuartil, en una serie de casos agrupados
bien en amplitud constante o variable se usa la ecuación siguiente:
Q1 = Li1 + {[(n/4)- a1] }i

GRAFICA 15 CALCULO CUARTILES DATOS AGRUPADOS BIEN CON


AMPLITUD CONTANTE O VARIABLE
Donde:
Li1 = Límite real inferior del intervalo donde se localiza el primer cuartil.
n/4 = Total de casos dividido entre cuarto.
a1 = Frecuencia acumulada inmediata anterior al intervalo donde está el
primer cuartil.
 = Frecuencia absoluta del intervalo donde se localiza el primer cuartil.
I = Amplitud del intervalo, donde está el primer cuartil.

Por ejemplo: calcular el primer cuartil de los siguientes datos:

Intervalos  a
50-54 4 4
29

55-59 5 9 Primero, se determina la posición del primer cuartil


60-64 5 14 usando la ecuación:
65-69 12 26
70-74 17 43 P1Q1 = N4
75-79 12 55 P1Q1 = 714
80-84 7 62 P1Q1 = 17.75
85-89 4 66
90-94 2 68 La posición del cuartil es 17.75
95-99 3 71
N = 71

Intervalos  a
50-54 4 4
55-59 5 9
60-64 5 14 Segundo, se localiza el valor 17.75 en las
65-69 12 26 Q1 frecuencias acumuladas, que en este caso queda
70-74 17 43 entre los valores 14 y 26. Luego se visualiza la
75-79 12 55 frecuencia acumulada inmediata superior a 17.75
80-84 7 62 porque éste determina la posición del cuartil.
85-89 4 66
90-94 2 68
95-99 3 71
N = 71

Los demás valores necesarios en la ecuación son:

Li1 = 65-0.5 = 64.5


a1 = frecuencia acumulada anterior de 17.75 es 14.
 = la frecuencia absoluta donde se ubica el primer cuartil es 12
i = amplitud del intervalo donde se ubica el primer cuartil 69.5-64.5= 5

Al sustituir los valores en la ecuación, se determina el valor del primer cuartil (Q1)
así:

Q1 = Li1 + {[(n/4)- a1] }i


Q1 = 64.5 + {[(71/4)- 14] 12}5
Q1 = 64.5 + {[17.75- 14] 12}5
Q1 = 64.5 + {[3.75] 12}5
Q1 = 64.5 + {0.3125}5
Q1 = 64.5 + 1.5625
30

Q1 = 66.1

 Para calcular la posición del segundo cuartil, el cuartil Q2 siempre coincide con
el valor de la mediana.

 Para calcular la posición del tercer cuartil, el cuartil Q3 se calcula de la siguiente


manera: primero se busca su posición y luego se aplica la fórmula siguiente:
Q3 = Li1 + {[(3n4)- a1] }i

PQ3 = (3n/4)
PQ3 = (3*71) 4
PQ3 = 213 4
PQ3 = 53.25

Intervalos  a
50-54 4 4
55-59 5 9
60-64 5 14
65-69 12 26
70-74 17 43
75-79 12 55
80-84 7 62
85-89 4 66
90-94 2 68
95-99 3 71
31

N = 71 La posición de este valor se sitúa entre los valores


43 y 55. Como no existe en la columna de las
frecuencias acumuladas, se selecciona la frecuencia acumulada inmediata
anterior que es 43. Los demás valores que se necesitan en la ecuación son:
Li1 = 75-0.5 = 74.5
3n4 = 53.25
a1 =5
 = 12
i =5
Utilizando la fórmula:

Q3 = Li1 + {[(3n4)- a1] }i


Q3 = 74.5 + {53.25 - 5] 12}5
Q3 = 78.77

Deciles

Existen varias fórmulas para calcular los deciles en una serie de valores
agrupados con amplitud constante o variable. A Continuación, se expone una
fórmula general y su simbología.

Dz = Li1 + {[(zn10)- a1] }i

Donde:
Dz = Representa al decil que se quiere buscar, sólo se debe sustituir el
número por la z en las partes pequeñas que se encuentre esta
variable.
Li1 = límite inmediato anterior al lugar donde se localiza el decil.
Determina la posición del decil.
a = Frecuencia acumulada anterior a donde se ubica el decil.
 = frecuencia absoluta del decil.
I = Amplitud del intervalo donde se encuentra el decil.

Para el cálculo de los deciles es necesario crear una columna de frecuencias


acumuladas. El paso siguiente es determinar la posición del decil, utilizando la
fórmula: PD = ZN  10. Ejemplo:

Intervalos  a
40-44 3 3
45-49 4 7
50-54 5 12
55-59 7 19
32

60-64 10 29
65-69 12 41
70-74 9 50
75-79 5 55
80-84 5 60
85-89 3 63
90-94 3 66
95-99 1 67
N = 67

Para calcular el primer decil, se determina su posición.


PD1 = 1N  10
PD1 = (1*67)  10
PD1 = 6.7

La posición de este decil se ubica entre 3 y 7, luego se busca la frecuencia


acumulada inmediata mayor a donde se ubica el decil. En nuestro ejemplo es 7 y
el intervalo que le corresponde es 45-49 de manera que aquí se ubicará el primer
decil. Los otros valores son:

Li1 = 45-0.5=44.5
zn10 = 6.7
a1 = 3
 = 4
I = 5

Aplicado en la fórmula:
D1 = Li1 + {[(zn10)- a1] }i
D1 = 44.5 + {[6.7- 3] 4}5
D1 = 49.12

Para calcular el tercer decil, se determina su posición.


PD3 = 3N  10
PD3 = (3*67)  10
PD3 = 20.1

La posición de este decil se ubica entre 3 y 7, luego se busca la frecuencia


acumulada inmediata mayor a donde se ubica el decil. En nuestro ejemplo es 7 y
el intervalo que le corresponde es 45-49 de manera que aquí se ubicará el primer
decil. Los otros valores son:

Li1 = 60-0.5 = 59.5


zn10 = 20.1
33

a1 = 19
 = 10
I = 5

Aplicado en la fórmula:
D3 = Li1 + {[(zn10)- a1] }i
D3 = 59.5 + {[20.1-19] 10}5
D3 = 60.05

Percentiles

Estos fractiles dividen los datos en cien partes iguales, su cálculo se hace
utilizando los procedimientos empleados en los casos anteriores, es decir, en los
cuartiles y deciles. La fórmula que se utiliza para calcular cualquier percentil es la
misma, lo que va a variar es el número del percentil que se quiere buscar y el
producto por el número de casos. La fórmula que puede usarse para calcular
cualquier percentil es la siguiente:

Cx = L1 + {[(xn100)- a1] }i

Cx = representa el centil que se desea calcular.


Xn = representa el producto del centil por el número de casos.

Ejemplo: Calcular el 70 centil de la serie siguiente:

Intervalos  a Después de haber calculado la columna de


16-26 5 5 frecuencias acumuladas, se busca la posición del
27-37 10 15 centil como se indica en la columna siguiente:
38-48 15 30
49-59 16 46 PC70 = 70N  100
60-70 20 66 PC70 = (70*76)  100
71-81 5 71 PC70 = 53.20
82-92 5 76
N = 76

El centil 70 se ubica entre 46 y 66, este dato de la ubicación permite calcular los
otros datos, tal como sigue:

Cx = L1 + {[(xn100)- a1] }i


C70 = 59.5 + {[53.2- 46] 20}11
C70 = 63.46
34

MEDIDAS DE DISPERSIÓN Y VARIABILIDAD

Los conjuntos de datos pueden tener el mismo centro, pero verse diferentes
debido a la forma en que los valores se dispersan a partir del centro. Observe las
dos distribuciones de las figuras que aparecen abajo. Ambas distribuciones tienen
su centro en x = 4, pero hay una gran diferencia en la forma en que las mediciones
se dispersan o varían. Las mediciones en la figura (a) varían de 3 a 5; en la figura
(b) varían de 0 a 8.

GRAFICA 16 MEDIDAS DE DISPERCION Y VARIABILIDAD

La variabilidad o dispersión es una característica muy importante de los datos.


Por ejemplo, si usted fabricará tornillos, una variación excesiva en el diámetro del
tornillo significaría un alto porcentaje de piezas defectuosas. Por el contrario, si
aplicara un examen para distinguir entre buenos y malos contadores, usted tendría
un arduo trabajo si las calificaciones del examen variaran muy poco, porque esto
haría más difícil la discriminación. Muchas medidas estadísticas de la variabilidad
ayudan a formar una imagen mental de la dispersión de los datos. Aquí se
presenta algunas de las más importantes. La medida más simple de variación es
el rango.

Rango, recorrido, amplitud total o variación máxima

El rango (R), de un conjunto de n mediciones, se define como la diferencia entre


la medición mayor y la menor. Se calcula entonces con una ecuación bien sencilla
R = Xs – Xi, que dice, el rango es la diferencia entre el valor superior menos el
valor inferior. Ejemplo: Los datos de calificaciones promedio (CP) de 30
35

estudiantes de primer año de la Universidad, que han sido considerados


anteriormente, son:

2.0 3.1 1.9 2.5 1.9 2.3 2.6 3.1 2.5 2.1 2.9 3.0
2.7 2.5 2.4 2.7 2.5 2.4 3.0 3.4 2.6 2.8 2.5 2.7
2.9 2.7 2.8 2.2 2.7 2.1

En éstos, las mediciones varían desde 1.9 hasta 3.4. Por lo tanto, el rango es 3.4-
1.9 = 1.5. El rango es fácil de calcular, fácil de interpretar y muy adecuado para
medir la variación en conjuntos pequeños de datos. Pero cuanto los conjuntos
son grandes, el rango no es una medida adecuada de variabilidad. Por ejemplo,
las dos distribuciones de frecuencias relativas de la figura de abajo tienen el
mismo rango, pero diferente forma y variabilidad.

¿Existe una medida de la variabilidad que sea más simple que el rango?
Considere a manera de ejemplo, la muestra de mediciones 5, 7, 1, 2, 4 ilustrada
más adelante como un diagrama de dispersión. La media de estas cinco
mediciones es:

= x  n = 19  5 = 3.8

Como se observa en el diagrama de dispersión.

Las distancias horizontales entre


cada punto (medición) y la media
son un auxiliar para medir la
variabilidad. Si las distancias son
grandes, los datos están más
dispersos, es decir, son más
variables que si las distancias son
cortas. Si xi es un punto particular
(medición), entonces la
desviación de un valor respecto
36

de la media es (xi - ). Las mediciones a la derecha de la media dan desviaciones


positivas y las mediciones a la izquierda generan desviaciones negativas.

Los valores de x y las desviaciones de este ejemplo se dan a continuación:

X (xi - ) (xi - )2 Como las desviaciones en la segunda columna


5 1.2 1.44 contienen información acerca de la variabilidad, un
7 3.2 10.24 modo de combinar las cinco desviaciones en una
1 -2.8 7.84 medida numérica es promediarlas. Por desgracia, el
2 -1.8 3.24 promedio no funciona porque algunas de las
4 0.2 0.04 desviaciones son positivas, otras son negativas y la
19 0.0 22.80 suma siempre es cero (a menos que se hayan
introducido errores de redondeo en los cálculos).
Observe que las desviaciones en la segunda columna suman cero. Otra
posibilidad podría ignorar los signos de las desviaciones y calcular el promedio de
los valores absolutos. Este método se usa como medida de variabilidad en el
análisis de datos exploratorios y en el análisis de datos de series de tiempo. Sin
embargo, es preferible salvar la dificultad que ocasionan los signos de las
desviaciones trabajando con la suma de sus cuadrados. A partir de la suma de
las desviaciones al cuadrado se calcula una sola media llamada varianza de un
conjunto de mediciones. A fin de diferenciar la varianza de una muestra se usa el
símbolo s2 y para la varianza de la población se usa el símbolo 2. Esta medida
es relativamente grande para datos muy variables y relativamente pequeña
cuando los datos no varían mucho.

La varianza de una población de N mediciones, se define como el promedio de


los cuadrados de las desviaciones de las mediciones respecto a su media μ. La
varianza de la población se denota por 2 y se determina mediante la fórmula.

2 = (xi – μ)2
N

La mayoría de las veces usted no dispone de todas las mediciones de la


población, pero necesita cultura la varianza de una muestra de n mediciones. La
varianza de una muestra de n mediciones se define como la suma de los
cuadrados de las desviaciones de las mediciones respecto a su media dividida
entre (n-1) la varianza de la muestra se denota por s2 y se determina mediante la
fórmula:

s2 = (xi – )2
n-1
Por ejemplo, usted podría calcular la varianza del conjunto de las siguientes
mediciones:
37

X (xi - ) (xi - )2
El cuadrado de la desviación de cada valor se registra en
5 1.2 1.44 la tercera columna. Al sumar se obtiene 22.80. La varianza
7 3.2 10.24 de la muestra es entonces:
1 -2.8 7.84
2 -1.8 3.24 s2 = (xi – )2
4 0.2 0.04 n-1
19 0.0 22.80
s = 22.80  (5-1) = 22.80  4=
2 5.70

La varianza se mide en términos del cuadrado de las unidades originales de


medición. Si las medidas originales están en pulgadas, la varianza se expresa en
pulgadas cuadradas. Si se calcula la raíz cuadrada de la varianza se obtiene la
desviación estándar, la cual regresa la medida a la unidad de medida original.

Desviación estándar, típica o cuadrática media

La desviación estándar de un conjunto de mediciones es igual a la raíz cuadrada


positiva de la varianza. El símbolo que identifica a esta medida de dispersión es
la letra griega sigma “” o la letra “s”.

La ecuación que permite el cálculo de este valor es:  = √(d2)  N

El valor d elevado al cuadrado permite anular los signos negativos que pueden
tomar los valores de desviaciones, para eliminar una propiedad de la media que
dice: la suma de las desviaciones de los valores de la variable respecto a la media
es igual a cero.

Para el conjunto de mediciones de la tabla anterior, la varianza de la muestra es


s2 = 5.70, de tal manera que la desviación estándar de la muestra es s = √ s2 =
5.70 = 2.39. A medida que los datos del conjunto son más variables, el valor de
s es mayor.

Cálculo de la desviación estándar en una distribución de frecuencias de


valores no agrupados

Usando los datos del cuadro siguiente:

X (xi - ) (xi - )2
12 +6 36
14 +4 16
16 +2 4
18 0 0
38

20 -2 4
22 -4 16  = √(d2)  N
24 -6 36  = √112  7
= 7 = 112  = √16
=4

Cálculo de la desviación estándar en una distribución de frecuencias de


valores agrupados en intervalos de clase

Cuando se quiere calcular la desviación estándar en una serie de valores


agrupados puede emplearse también la fórmula de puntajes no procesados; esta
fórmula se compone de los elementos siguientes:

 = √[(x2i)  N] - 2

Donde:
 = valor de la desviación
 = frecuencias de los intervalos de clase
Xi = puntos medios de los intervalos de clase
N = total de puntajes
X2 = puntos medios al cuadrado, de intervalos de clase
2 = valor de la media al cuadrado

Los pasos que se deben seguir son los siguientes.

1º. Calcular los puntos medios y multiplicarlos por su frecuencia, esto dará como
resultado una columna xi, la cual hay que sumar para obtener xi.
2º. Se debe calcular la media y elevarla al cuadrado.
3º. Se multiplica cada punto medio por xi y se suman estos productos para
obtener el total de casos.
4º. Se aplica la fórmula y se obtiene el valor de la desviación.

Intervalo  Xi xi xi2


57-59 1 58 58 3364
54-56 2 55 110 6050
51-53 3 52 156 8112
48-50 5 50 250 12500
39

45-47 4 46 184 8464 Calcular el valor de la media:


42-44 2 43 86 3698
39-41 2 40 80 3200 = (x2)N
 = 19  = 924  = 45388 = 92419
= 48.63
2 = 2,364.87

Aplicando la fórmula:

 = √[(x2i)  N] - 2
 = √ [45388  19] – 2,364.88
 = √2388.84 – 2,364.88
 = √23.97  = 4.89

Para efectos de la estadística descriptiva se utilizarán también los siguientes


elementos de cálculo:

Análisis e interpretación de series simples o muestras pequeñas

Los conjuntos de datos integrados por treinta o menos elementos, se conocen


como muestras pequeñas o series simples. Para llevar a cabo el análisis e
interpretación de ellas, se utilizarán las medidas de Tendencia Central y de
Dispersión.
Ejemplo: Una empresa dedicada a la producción de bolsas de plástico tiene en
sus bodegas tres marcas distintas de esa materia prima y desea que usted como
asesor administrativo le aconseje como utilizarlas y que, además, le proporcione
su opinión si se tiene la posibilidad de vender una de ellas. Según los datos
estadísticos, los rendimientos son como siguen:

Marca Rendimiento en miles de bolsas por rollos

Plastex 63 – 58 – 43 – 46 – 38 – 54 – 57 – 64
Syntel 45 – 46 – 49 – 49 – 50 – 54 – 55 – 62
Flexyl 44 – 44 – 48 – 49 – 51 – 53 – 53 – 61

El primer paso que debe darse para proceder a efectuar el análisis e interpretación
estadística de series simples es ordenar las series de datos de acuerdo con la
magnitud de los mismos así.
40

Plastex Syntel Flexyl


Rollo Rendimiento Rollo Rendimiento Rollo Rendimiento
1 38 1 45 1 44
2 43 2 46 2 44
3 46 3 49 3 48
4 54 4 49 4 49
5 57 5 50 5 51
6 58 6 54 6 53
7 63 7 55 7 53
8 64 8 62 8 61
Total 423 Total 410 Total 403

MEDIDAS DE TENDENCIA CENTRAL

a) Media Aritmética

Plastex = 423  8 Los rollos de plastex tienen una media de


rendimiento de 52.88 miles de
= 52.875 bolsas por rollo.
. .
Syntel = 410  8 Los rollos de syntel tienen una media de
rendimiento de 51.25 miles de
= 51.25 bolsas por rollo.

Flexyl = 403  8 Los rollos de flexyl tienen una media de


rendimiento de 50.38 miles de
= 50.375 bolsas por rollo.
b) Mediana

Para calcular la mediana de series simples, primero se calcula la posición “n” así:

Posición = (n+1)  2

Sustituyendo valores tenemos:

Posición = (9+1)  2
Posición = 4.5

En vista que las tres series están integradas por 8 elementos, la posición (4.5)
será la misma para todas. El paso siguiente es encontrar el valor en x, cuando la
41

serie es par, como en este caso, es necesario interpolar entre los dos valores
(anterior y posterior a la posición) así:

Plastex Syntel Flexyl


Rollo Rendimiento Rollo Rendimiento Rollo Rendimiento
1 38 1 45 1 44
2 43 2 46 2 44
3 46 3 49 3 48
4 54 4 49 4 49
4.5 Md 4.5 Md 4.5 Md
5 57 5 50 5 51
6 58 6 54 6 53
7 63 7 55 7 53
8 64 8 62 8 61
Total 423 Total 410 Total 403

Por lo tanto, tenemos:

Plastex Md = (54+57)  2
Md = 55.5 miles de bolsas por rollo.

Syntel Md = (49+50)  2
Md = 49.5 miles de bolsas por rollo.

Flexyl Md = (49+51)  2
Md = 50.0 miles de bolsas por rollo.

Lo anterior significa que el valor que está a la mitad de la serie cuanto ésta ha sido
ordenada del menor al mayor valor y por lo tanto sobre y bajo de él, se encuentra
el 50% de valores en cada uno de los casos estudiados.

c) Moda

Para determinar el valor de la moda en series simples, se recurre a la simple


observación, o bien, practicando tarjas o marcas.

Plastex Syntel Flexyl


Rollo Rendimiento Rollo Rendimiento Rollo Rendimiento
1 38 1 45 1 44
2 43 2 46 2 44
3 46 3 49 3 48
4 54 4 49 4 49
5 57 5 50 5 51
42

6 58 6 54 6 53
7 63 7 55 7 53
8 64 8 62 8 61
Total 423 Total 410 Total 403

De acuerdo con lo anterior, se puede calificar las series de la manera siguiente:

Plastex = amodal (ningún valor se repite más de una vez)


Syntel = moda 49 miles de bolsas por rollo.
Flexyl = Amodal (tiene dos modas)

MEDIDAS DE DISPERSIÓN

a) Rango o recorrido (R): es la diferencia que existe entre el mayor y el menor de


los datos. Para calcular el rango en todas las series de datos, se hace uso de
la fórmula siguiente:

R = L 2 – L1

Donde:
L2 = valor más alto de la serie
L1 = valor más bajo de la serie

Sustituyendo valores tenemos:

Plastex R = 64-38 = 26 miles de bolsas por rollo.


Syntel R = 62-45 = 17 miles de bolsas por rollo.
Flexyl R = 61-44 = 17 miles de bolsas por rollo.
Cálculo de la varianza y la desviación estándar. El cálculo de la varianza para
series simples se efectúa a través de la fórmula siguiente (como es muestra se
utilizará el signo s):
.
(x- )2
s2 = -----------
n-1

Para poder utilizar la fórmula debemos construir en cada caso una columna de
equis menos equis barra al cuadrado, así:
43

Plastex
n (Rollo) x (Rendimiento) (x- )2
1 38 221.41
2 43 97.61
3 46 47.33
4 54 1.25
5 57 16.97
6 58 26.21
7 63 102.41
8 64 123.65
Total 423 636.84

Sustituyendo valores en la fórmula tenemos:


.
(x- )2 636.84
s2 = ----------- = --------- = 90.98 miles de bolsas por rollo.
n–1 7

Como podrá notarse a continuación, la desviación estándar es igual a la raíz


cuadrada de la varianza. Entonces al sustituir valores en la fórmula tenemos:

s =  [(x- )2]  (n-1)


s =  90.98 s = 9.538 s = 9.54 miles de bolsas por rollo.

Coeficiente de Variación. La fórmula para calcular el coeficiente de variación es


la siguiente:

CV = (s/ ) *100 CV = 9.54  52.88 * 100% CV = 18.04%

Coeficiente de Oblicuidad. La fórmula para calcular el coeficiente de oblicuidad


es como sigue:

CO = [3( -md)]  s CO = [3*(52.88-55.5)]  9.54 CO = -0.82

Syntel
n (Rollo) x (Rendimiento) (x- )2
1 45 39.06
2 46 27.56
3 49 5.06
4 49 5.06
5 50 1.56
6 54 7.56
7 55 14.06
8 62 115.56
44

Total 410 215.48

Sustituyendo valores en la fórmula tenemos:


.
(x- )2 215.48
s2 = ----------- = --------- = 30.78 miles de bolsas por rollo.
n–1 7
.
s =  [(x- )2]  (n-1) s =  30.78 s = 5.55 miles de bolsas por rollo.

Coeficiente de Variación CV = 5.55  51.25 * 100% CV = 10.83%


Coeficiente de Oblicuidad CO = [3*(51.25-49.5)]  5.55 CO = 0.95

Flexyl
n (Rollo) x (Rendimiento) (x- )2
1 44 40.70
2 44 40.70
3 48 5.66
4 49 1.90
5 51 0.38
6 53 6.86
7 53 6.86
8 61 112.78
Total 403 215.84

Sustituyendo valores en la fórmula tenemos:


.
(x- )2 215.84
s2 = ----------- = --------- = 30.83 miles de bolsas por rollo.
n–1 7

s =  [(x- )2]  (n-1) s =  30.83 s = 5.55 miles de bolsas por rollo.

Coeficiente de Variación. CV = 5.55  50.38 * 100% CV = 11.02%


Coeficiente de Oblicuidad. CO = [3*(50.38-50.0)]  5.55 CO = 0.21
Resumen

Medidas Plastex Syntel Flexyl


52.88 51.25 50.38
Md 55.50 49.50 50.00
Mo Amodal 49.00 Amodal
R 26.00 17.00 17.00
S2 90.98 30.78 30.83
S 9.54 5.55 5.55
CV 18.04% 10.83% 11.02%
45

CO -0.82 0.95 0.21

Como puede notarse la marca Plastex, presente una mejor situación a nivel de las
medidas de tendencia central (media y mediana), que las otras dos marcas, sin
embargo, cuando se examinan las medidas de dispersión, es evidente que resulta
siendo la que tiene un comportamiento menos uniforme y, por lo tanto, la media
aritmética de 52.88 miles de bolsas por rollo, es menos segura que las de las otras
marcas. En cuanto a Syntel y Flexyl, puede decirse que la primera tiene una media
de rendimiento mayor y, además, un comportamiento más uniforme que la marca
Flexyl. Esto último, se evidencia en el valor del coeficiente de variación, puesto
que ambas tienen la misma desviación estándar.

Conclusión. Con base en lo anterior, es factible que, si se tiene la oportunidad de


vender, es la marca Plastex la que debe ofrecerse. En cuanto a la utilización de la
producción, se recomienda preferentemente la marca Syntel, puesto que, por la
uniformidad en su rendimiento, es la que puede garantizar de mejor manera que
los presupuestos o estimaciones de producción y/o de materia prima sean más
confiables. En cuanto a la marca Flexyl, se aconseja que sea utilidad para cubrir
contingencias como segunda opción, puesto que es de un rendimiento y
uniformidad menor que Syntel.

Análisis e interpretación de muestras grandes. Previo a desarrollar el análisis


e interpretación de muestras grandes conviene definir los siguientes conceptos.

Muestras grandes. Se identifica como muestras grandes a las series de datos


que constan de más de treinta elementos, es decir, que “n” o “N” mayor de 30.

Datos agrupados. Es la técnica estadística que puede utilizarse con propiedad,


para efectuar el análisis e interpretación de muestras grandes y que consiste en
agrupar los datos en distribuciones de frecuencias.

Distribución de frecuencias. Es el agrupamiento de los datos en intervalos o


clases, puntos medios o marcas de clase y frecuencias de clase.

Ejemplo: Con el propósito de analizar la conveniencia de adquirir un seguro de


vida colectivo, una empresa industrial ha obtenido los datos sobre las edades de
todos los trabajadores del área de producción, los cuales se muestran a
continuación:

Edades de los trabajadores del área de producción (Años cumplidos)


32 29 25 35 28 29 33 25 22 29 24 28 24 23 23 29 20 21 21 25 19 28 28 28 38 30
29 34 29 24 20 24 33 22 24 26 22 25 22 21 20 20 22 23 28 20 21 21 23 26 24 21
23 30 32 26 23 22 21 28 26 29 22 27 26 24 34 36 23 21 24 33 26 22 20 21 32 22
29 27 27 25 22 23 24 30 26 26 26 26 30 22 26 31 39 27 37 37 25 27 23 32 24
46

Total 103 datos

Para construir la distribución de frecuencias, inicialmente debe calcularse el


posible número de clases o arreglos o intervalos, a través de la fórmula siguiente:

Fórmula de Sturgess: K = 1+3.33logn


Aplicando la fórmula:
K = 1+3.33(log103) K = 1+3.33(2.0128) K = 1+6.7027
K = 7.7027

El paso siguiente es calcular la amplitud del intervalo según la fórmula siguiente:

I=RK
Donde:
R = Rango
K = posible número de clases, sin aproximar.

Sustituyendo valores tenemos:


i = (39-19)  7.7027 i = 20  7.7027 i = 2.59
i = 3 aproximado por exceso.

Con base en lo anterior es factible proceder a la construcción de la distribución de


frecuencias así.

Clases Límites reales Frecuencias (f) Punto medio


19-21 18.5-21.5 |||||-|||||-|||||-| = 16 20
22-24 21.5-24.5 |||||-|||||-|||||-|||||-|||||-||||| = 30 23
25-27 24.5-27.5 |||||-|||||-|||||-|||||-|| = 22 26
28-30 27.5-30.5 |||||-|||||-|||||-|||| = 19 29
31-33 30.5-33.5 |||||-||| =8 32
34-36 33.5-36.5 |||| =4 35
37-39 36.5-39.5 |||| =4 38

La presentación anterior, obedece a la forma como debe agruparse las


frecuencias en cada intervalo, es decir, haciendo tarjas o marcas al identificarlos
en la pieza de datos inicial.

MEDIDAS DE TENDENCIA CENTRAL

De igual manera como se procedió con series simples se hará con muestras
grandes, es decir, se calcularán la media, la mediana y la moda, con la diferencia
que para datos agrupados es posible emplear métodos diferentes, algunos de los
47

cuales se utilizarán en este trabajo, con el objeto de proporcionar a los estudiantes


diferentes herramientas, entre las que podrá elegir la que más se le facilite.

Como un aspecto importante es necesario resaltar que une una distribución de


frecuencias, los datos individuales pierden su identidad y son representados por
puntos medios o maras de clase, y, por lo tanto, las medidas de tendencia central
o de dispersión que se calculen con base en ella, pueden no corresponder
exactamente a los valores que se calculen utilizando los valores en forma
individual, tal como se trabajaron las series simples.

Media Aritmética. Para el cálculo de la media aritmética pueden utilizarse tres


métodos así:

a) Básico o directo

Fórmula: = (x)  n ó = (x)  f

Como puede notarse, para utilizar esta fórmula debe agregarse a la distribución
de frecuencias una columna de frecuencias por puntos medios o marcas de clase
(fx) y efectuar la sumatoria.

GRAFICA 17MEDIDA ARITMETICAS

Límites reales  x x
18.5-21.5 16 20 320
21.5-24.5 30 23 690
24.5-27.5 22 26 572
27.5-30.5 19 29 551
30.5-33.5 8 32 256
33.5-36.5 4 35 140
36.5-39.5 4 38 152
 = 2681

Sustituyendo los valores tenemos:


= 2681  103 ó = 2681  103 = 26.03 años
b) Indirecto. Con este método se utiliza la fórmula siguiente:

= A + [(d)  n] ó = A + [(d)  f]

Donde:
A = media supuesta o falsa media
d = diferencias de x con respecto a la media supuesta
d = x-A
48

El valor por elegir como media supuesta o falsa media puede ser cualquiera de
los puntos medios o marcas de clase, para este caso se utilizará 29. Por lo tanto,
a la distribución de frecuencias deberá agregársele una columna de diferencias
de x con respecto a la media supuesta y una de frecuencias por las diferencias
(d) así:

Límites reales  x d d
18.5-21.5 16 20 -9 -144
21.5-24.5 30 23 -6 -180
24.5-27.5 22 26 -3 -66
27.5-30.5 19 29 0 0
30.5-33.5 8 32 3 24
33.5-36.5 4 35 6 24
36.5-39.5 4 38 9 36
 = 306

Sustituyendo valores en la fórmula:

= 29 + [(-306)  103] = 29 + [-2.97] = 26.03 años

Como un aspecto importante cabe resaltar que, con la utilización de este método,
el cálculo es más rápido y como puede notarse el valor calculado es el mismo. Se
agiliza más la ejecución de las operaciones al utilizar un valor supuesto como
media aritmética y si se observa con detenimiento el valor de “d” donde su ubica
la media supuesta, es cero y a partir de éste, los valores de las diferencias son
crecientes positivos y negativos, debido al tamaño del intervalo y, por lo tanto,
cercanos al origen.

c) Breve o clave. Para calcular la media aritmética a través de este método, es


necesario aplicar la fórmula siguiente:

= A + d´ (i)
n

Donde:
A = media supuesta o falsa media
d´ = diferencias primas de x menos la media supuesta dividido entre la amplitud
del intervalo.
d´ = (x-A)  i
49

Se utilizará nuevamente el valor 29 como media supuesta, para construir la


columna de frecuencias de d prima (cd´) adicional a la distribución de frecuencias
de clase.

Límites reales  x d d
18.5-21.5 16 20 -3 -48
21.5-24.5 30 23 -2 -60
24.5-27.5 22 26 -1 -22
27.5-30.5 19 29 0 0
30.5-33.5 8 32 1 8
33.5-36.5 4 35 2 8
36.5-39.5 4 38 3 12
 = -102

Sustituyendo valores en la fórmula:

= 29 + -102 (3) = 29 + (-2.97) = 26.03 años


103

Como puede notarse con los tres métodos se obtiene el mismo dato, sin embargo,
es notorio que es con el método breve con el que se puede hacer un cálculo más
rápido, puesto que la columna de diferencias primas es mucho más fácil de
calcular y sus valores por ser más cercanos al origen, hacen las operaciones más
sencillas.

Mediana para datos agrupados. El cálculo de la mediana par datos agrupados,


puede hacerse a través de dos métodos así:

 Matemático o de interpolación a través de la fórmula. Para utilizar este método


es necesario recurrir a la fórmula siguiente:

Md = L1 + (n2) - c (i)
fm

Donde:
Md = Mediana
L1 = Limite real inferior de la clase mediana
n/2 = Elemento mediano (Em)
C = Frecuencia acumulada hasta la clase anterior a la clase mediana
Fm = Frecuencia de la clase mediana
i = Amplitud del intervalo
50

Como puede notarse el primer paso para calcular la mediana a través del método
matemático, es encontrar la clase mediana, para lo cual es necesario construir,
además, de la distribución de frecuencias de clase, una columna de frecuencias
acumuladas así:

Límites reales  x Fa
18.5-21.5 16 20 16
21.5-24.5 30 23 46
24.5-27.5 22 26 68
27.5-30.5 19 29 87
30.5-33.5 8 32 95
33.5-36.5 4 35 99
36.5-39.5 4 38 103

Clase mediana

Para localizar la clase mediana se sigue el siguiente procedimiento:

- Primero se calcula el elemento mediano a través de n/2. Entonces:

Em = 103 / 2 Em = 51.5

Lo anterior quiere decir que el elemento que está a la mitad de la serie es el


número 51.5.

El paso siguiente es ubicar el elemento mediano en la columna de


frecuencias acumuladas, observándose que estará en la tercera frecuencia
acumulada, es decir, 69, puesto que la anterior contiene hasta el elemento
número 47 y la posterior se inicia con el elemento número 70, por lo tanto,
se define toda esta clase como la Clase mediana.

Sustituyendo los valores en la fórmula tenemos:

Md = 24.5 + 51.5 - 46 (3) Md = 25.25 años


22

Lo anterior significa que el 50% de los datos de la serie son mayores a


25.25 y el 50% restante son menores.
51

Método gráfico.

El cálculo de la mediana por el método gráfico puede hacerse de tres formas:

- Trazo de una ojiva sobre la base mayor que.

Para efectuar el trazo de la ojiva sobre la base mayor que, debe construirse
una distribución de frecuencias acumuladas sobre la base mayor así:

GRAFICA 18 METODO GRAFICO 1

Límites reales Frecuencia acumulada


Mayor que 18.5 103
Mayor que 21.5 87
Mayor que 24.5 57
Mayor que 27.5 35
Mayor que 30.5 16
Mayor que 33.5 8
Mayor que 36.5 4
Mayor que 39.5 0

Luego se procede a ubicar los valores en el plano cartesiano situando los


límites reales en el eje de las abscisas /x) y las frecuencias acumuladas en
el de las ordenadas.
52

Para trazar la ojiva, se unen los puntos con la línea continua, posteriormente
se traza una línea horizontal a partir del valor del elemento mediano en el
eje de las ordenadas (y) hasta cortar o intersectar la ojiva, en el punto donde
se intersectan las líneas, se traza una vertical hasta cortar el eje de las
abscisas y en este punto se ubicará el valor de la mediana.

- Trazo de una ojiva sobre la base menor que.

Para trazar una ojiva sobre la base menor que, debe construirse una
distribución de frecuencias sobre la base menor que así:

GRAFICA 19 METODO GRAFICO 2

Límites reales Frecuencia acumulada


Menor que 18.5 0
Menor que 21.5 16
Menor que 24.5 46
Menor que 27.5 68
Menor que 30.5 87
Menor que 33.5 95
Menor que 36.5 99
Menor que 39.5 103

Luego se procede a ubicar los valores en el plano cartesiano situando los


límites reales en el eje de las abscisas (x) y las frecuencias acumuladas en
el de las ordenadas.
53

El procedimiento para trazar la ojiva es similar al utilizado en el método


anterior, así como para ubicar el valor de la mediana a través del elemento
mediano.

- Trazo de dos ojivas sobre las bases mayor y menor que.

El trazo de las dos ojivas se efectúa con base en las frecuencias


acumuladas sobre las bases mayor y menor que

Límites Frecuencia Límites Frecuencia


reales acumulada reales acumulada
Mayor que 18.5 103 Menor que 18.5 0
Mayor que 21.5 87 Menor que 21.5 16
Mayor que 24.5 57 Menor que 24.5 46
Mayor que 27.5 35 Menor que 27.5 68
Mayor que 30.5 16 Menor que 30.5 87
Mayor que 33.5 8 Menor que 33.5 95
Mayor que 36.5 4 Menor que 36.5 99
Mayor que 39.5 0 Menor que 39.5 103

Luego se procede a ubicar los valores en el plano cartesiano situando los


límites reales en el eje de las abscisas (x) y las frecuencias acumuladas en
el de las ordenadas (y)
54

Con la utilización de este método no es necesario calcular el elemento


mediano, puesto que se traza la vertical a partir del interfecto en las ojivas
hasta cortar el eje de las abscisas en donde se localizará el valor de la
mediana.

Moda para datos agrupados

El valor de la moda puede ser calculado a través de dos métodos:

a) Matemático o de interpolación. Para utilizar este método es necesario


recurrir a la fórmula siguiente:

Mo = L1 + 1 (i)
1 + 2

Donde:
Mo = Moda
L1 = Límite real inferior de la clase modal.
1 = Incremento subuno o frecuencia de la clase modal menos la
frecuencia de la clase anterior a la clase modal.
2 = Incremento subdos o frecuencia de la clase modal menos la
frecuencia de la clase posterior a la clase modal.
I = amplitud del intervalo

Clase modal es el intervalo en donde se encuentra el mayor número de


frecuencias.
55

Límites reales  x
18.5-21.5 16 20
21.5-24.5 30 23
24.5-27.5 22 26
27.5-30.5 19 29
30.5-33.5 8 32
33.5-36.5 4 35
36.5-39.5 4 38

Clase modal

El paso siguiente es sustituir los valores en la fórmula:

Mo = L1 + 1 (i)
1 + 2

Mo = 21.5 + 14 (3) Mo = 23.40 años


14 + 8
b) Método gráfico

Para calcular la moda a través del método gráfico es necesario trazar un


histograma o gráfico de barras con base en la distribución de frecuencias,
situando los límites reales en el eje de las abscisas (x) y las frecuencias en
el eje de las ordenadas (y) así:
56

MEDIDAS DE DISPERSIÓN

a) Rango (R)

R= L1 – L2 R= 39-19 R= 20 años.

El dato anterior significa que existe una variación total en los valores de los datos
de 20 años, es decir, que el intervalo en el que se encuentran todos los valores
de los datos de la serie es de amplitud 20.

b) Varianza y desviación estándar. El cálculo de la varianza y la desviación


estándar para datos agrupados puede hacerse a través de tres métodos:

- Básico o directo. Las fórmulas para el cálculo de la varianza y la desviación


estándar con este método son las siguientes:

(x- )2 (x- )2
s2 = ----------- s= -----------
n n
En este caso se usará s2 y s para identificar la varianza y la desviación
estándar respectivamente, por tratarse de datos de una muestra. Como
puede notarse, para emplear este método debe construirse, además, de la
distribución de frecuencias, una columna de diferencias con x con respecto
de la media aritmética así:

Límites reales  (x- )2 (x- )2


18.5-21.5 16 20 36 576
21.5-24.5 30 23 9 279
24.5-27.5 22 26 0 0
27.5-30.5 19 29 9 162
30.5-33.5 8 32 36 288
33.5-36.5 4 35 81 324
36.5-39.5 4 38 144 576
= 2205

Sustituyendo los valores en las fórmulas tenemos que:

Varianza

(x- )2
s2 = ----------- s2 = 2205  103 s2 = 21.41 años.
n
57

Desviación estándar

(x- )2
s= ----------- s= 2205  103 s= 4.63 años
n

- Indirecto. El cálculo de la varianza y la desviación estándar por este método implica la


utilización de las fórmulas siguientes:

Varianza
2
(d)2 (d)
s2 = ----------- - -------
n n

Desviación estándar

2
(d)2 (d)
s2 = ----------- - -------
n n
Donde:
d = diferencias de x con respecto a la media supuesta
d=x-A
A = media supuesta o falsa media

Como puede notarse, para utilizar las fórmulas anteriores, es necesario


adicionar la distribución de frecuencias, una columna de diferencias de x
menos la media supuesta (x-A), una de frecuencias por las diferencias (d)
y una de (d)2. Para tal efecto se utilizará 29 como media supuesta.

Límites  x d d (d)2
reales
18.5-21.5 16 20 -9 -144 1296
21.5-24.5 30 23 -6 -180 1080
24.5-27.5 22 26 -3 -66 198
27.5-30.5 19 29 0 0 0
30.5-33.5 8 32 3 24 72
33.5-36.5 4 35 6 24 144
36.5-39.5 4 38 9 36 324
 = -306  = 3114

Sustituyendo valores en las fórmulas tenemos:

Varianza
58

2
(d)2 (d)
s2 = ----------- - -------
n n

s2 = (3114103) – (-306103)2 s2 = 21.41 años

Desviación estándar

2
(d)2 (d)
s= ----------- - -------
n n

s= (3114103) – (-306103)2 s= 4.63 años

- Breve. Para utilizar este método es necesario aplicar las fórmulas siguientes:

Varianza
2
(d)2 (d)
s2 = i2 ----------- - -------
n n

Desviación estándar

2
(d´)2 d´
s2 = i ----------- - -------
n n

Donde:

d´ = (x – A)  i
A = media supuesta o falsa media
I = amplitud del intervalo

De acuerdo con las fórmulas se hace necesario adicionar a la distribución


de frecuencias una columna de frecuencias por diferencias primas y una de
frecuencias por diferencias primas al cuadrado.

Se utilizará 32 como media supuesta para calcular las diferencias primas.


59

Límites  x d´ d´ (d´)2


reales
18.5-21.5 16 20 -4 -64 256
21.5-24.5 30 23 -3 -90 270
24.5-27.5 22 26 -2 -44 88
27.5-30.5 19 29 -1 -19 19
30.5-33.5 8 32 0 0 0
33.5-36.5 4 35 1 4 4
36.5-39.5 4 38 2 8 16
 = -205  = 653

Sustituyendo valores en las fórmulas:

Varianza
2
653 -205
s2 = 32 ----- - ------- s2 = 21.41 años
103 103
Desviación estándar
2
653 -205
s2 = 32 ----- - ------- s2 = 4.63 años
103 103

Coeficiente de variación o variabilidad. El cálculo de este valor se efectúa a


través de la fórmula siguiente:

CV = (s ) * 100% CV = (4.6326.03) * 100 CV = 17.79%

Lo anterior significa que las medias aritméticas de las edades de los trabajadores
del área de producción pueden variar en una vez el valor de la desviación estándar
en un 17.79%.

Coeficiente de oblicuidad. Para calcular este valor es necesario aplicar la


siguiente fórmula:

CO = [3( -md)]s CO = [3(26.03-25.25)]4.63 CO = 0.505 CO = 0.51

El valor del coeficiente de oblicuidad nos indica que los valores de los datos
tienden a agruparse más bajo el valor de la media, es decir, que hay mayor
número de edades menores que la media y, por lo tanto, la distribución de los
mismo está sesgada u oblicua hacia los valores mayores.
60

Resumen

Medidas estadísticas Valores


De tendencia central
26.03 años
Md 25.25 años
Mo 23.40 años
De dispersión
R 20.00 años
s2 21.41 años
S 4.63 años
CV 17.79%
CO 0.51

Análisis e interpretación

De acuerdo con el valor de las medidas de tendencia centra, es factible opinar


que la edad de los trabajadores del área de producción, es muy favorable para
viabilizar la contratación del seguro de vida colectivo, pues si se observa tanto la
media, la mediana y la moda, son valores cercanos entre 23.41 y 25.25 años de
edad, lo cual indica en primer lugar que existe simetría en cuanto a la distribución
de las edades y en segundo orden, que los valores de los estadísticos antes
mencionados, son menores que el punto medio de la edad de la población
económicamente activa, la que en nuestro país se ubica entre los 14 y 55 años
aproximadamente. Por lo tanto, se puede decir que es un grupo de edad joven
en cuanto a su capacidad de producir y tendrán más de un 51% de vida productiva.

Al analizar las medidas de dispersión se evidencia que el grado de variación


alrededor de la media es de 4.63 años, lo que aunado al comportamiento simétrico
de los datos hace factible opinar entre otros aspectos que aproximadamente un
84% de las edades de los trabajadores de producción son menores de 31.40 años,
esto considerando una vez el valor de la desviación estándar sobre la media,
además, en términos generales se reproduce una variación de 17.79%, lo que
indica que las medidas de tendencia central antes comentadas, son
representativas en un 82.21% y por lo tanto, válidas para sustentar una opinión.

En lo que respecta a la oblicuidad se puede mencionar que éste se debe a algunas


edades altas que hacen que la distribución de los datos se sesgue o extienda
hacia la derecha, como elemento de análisis e interpretación, es útil puesto que
nos indica que el valor de la media se influenció por ellos, es decir, que podría
haber sido menor y es notorio que la mayor cantidad e datos se agrupa en valores
menores que 26.03 años.
61

CONCLUSIÓN

Entre otros muchos aspectos es posible concluir que la empresa está en la


posibilidad de negociar las condiciones más favorables para la contratación del
seguro colectivo, puesto que las expectativas de vida productiva son altas en ese
grupo. Lo anterior, de alguna manera garantiza que no habrá defunciones por
vejez en el corto y si se cumple con todas las medidas de producción industrial,
es posible que no se produzcan en la empresa por accidente, quedará únicamente
el riesgo que los trabajadores puedan correr fuera de la empresa.
62

CONCLUCION

En conclusión, se puede apreciar la estadística como una herramienta necesaria


y útil en las diferentes facetas de nuestra vida, ya que a la hora de analizar datos
grandes para un estudio de problemas o fenómenos de la naturaleza o sobre una
investigación científicas utilizan el muestreo, medidas, variables, frecuencias y
porcentajes de datos específicos, para así poder analizarlos según tablas
estadísticas, graficas (de sectores y barras) y cuadros estadisticos.

Para utilizar la estadística en un plan de investigación o estudio es necesario


seguir procedimientos para poder distribuir los datos específicos correctamente
en conjuntos para formar las gráficas correspondientes, cuadros o tablas
estadisticas.Para esto es indispensable el uso de la matematica,porque a través
de ella se llega a la comprobación de los datos que nos interesa estudiar, analizar
y demostrar en la investigación del problema o fenómeno, esto también se lograra
midiendo, calculando e interpretando las muestras o variables de la población en
estudio.

Você também pode gostar