Você está na página 1de 54

Síntesis

Esta unidad pretende introducir al estudiante a los elementos fundamentales para la


correcta elaboración de figuras como soporte visual y la correcta obtención de medidas
numéricas descriptivas:

• Conceptos básicos de la estadística
• Resumen y descripción de datos (variables cualitativas y cuantitativas) a través de
arreglos, distribuciones de frecuencia y tablas de contingencia
• Gráficos estadísticos
• Medidas de tendencia central y dispersión
• Medidas de asimetría, apuntamiento y posición
• Box-plot



Tema 1
Variables y datos


La materia prima de la estadística son los datos. La necesidad de consumir y producir datos
en diferentes áreas y contextos de la vida real, tales como contaduría, finanzas, marketing,
producción, y economía, entre otros, hace que la estadística sea una ciencia
eminentemente aplicada y dirigida tanto a la recolección, como al procesamiento y la
presentación de información que se obtiene de conjuntos de datos:


• Datos
Se deben entender como hechos, informaciones y cifras que se recogen, analizan y
resumen para su presentación e interpretación en representaciones de tipo
estadístico (tablas, gráficos, estadígrafos).

• Conjunto de datos
Se le llama conjunto de datos a todos los datos que se reúnen para un determinado
estudio.


• Elementos
Las entidades de las que se obtienen los datos se denominan elementos o unidades
experimentales.

• Observación
Al conjunto de mediciones obtenidas para un determinado elemento se le llama
observación. Por lo tanto, el número de observaciones es siempre igual al número
de elementos.

• Población
Se utiliza para referirse al conjunto de mediciones de interés para el investigador.
Cabe señalar que en la práctica suele suceder que solo se pueda acceder a una
parte de este conjunto de interés.

• Muestra
Se utiliza para referirse a un subconjunto cualquiera de mediciones seleccionado de
la población de interés.

• Variables
De un elemento de alguna entidad de estudio, usualmente se pueden obtener,
observar, o medir diferentes características, las cuales suelen denominarse con el
nombre de variables.



Ejemplo

Los estudiantes de una universidad como la Fundación Universitaria Los Libertadores se
pueden considerar como elementos o unidades experimentales. De ellos, se pueden
obtener informaciones, es decir, datos, como su edad, género, estado civil; observar
hábitos de salud como si fuma o no; y medir características como su estatura y peso.
Entonces, la edad, el género, el estado civil, la propensión al consumo de cigarrillo, la
estatura y el peso, son variables que se pueden materializar en datos. En particular, si de
20 estudiantes de la Fundación Universitaria Los Libertadores, se obtiene la información
relativa a las variables consideradas, con dicha información se puede conformar un
conjunto de datos como el que se muestra en la siguiente tabla:




Identificación Consumo
Estado
Nº del Edad Género de Estatura Peso
civil
estudiante cigarrillo

1 5828653 24 Hombre Casado si 184 64

2 1923025 30 Hombre Casado si 153 60

3 9586814 25 Mujer Casado no 149 69

4 9697554 25 Mujer Soltero no 161 79

5 9168236 33 Mujer Soltero no 143 65

6 40199 23 Mujer Soltero no 183 76

7 1030093 24 Hombre Soltero no 157 66

8 5618197 34 Hombre Soltero no 165 68

9 4005014 27 Hombre Separado no 182 72

10 4373316 22 Hombre Separado no 140 80

11 5866369 31 Hombre Casado si 143 85


12 9887906 27 Mujer Casado no 160 80

13 6412918 31 Mujer Casado no 164 85

14 2178627 34 Mujer Soltero no 153 59

15 5914295 35 Mujer Soltero no 167 81

16 7489903 33 Hombre Soltero no 145 52

17 9778853 22 Hombre Soltero no 182 66

18 6412668 30 Hombre Soltero no 168 57

19 7711085 34 Hombre Separado no 161 58

20 6081873 23 Hombre Separado si 184 75

Tabla 1. Relación de informaciones y hábitos de los estudiantes



Si se supone que el interés de un investigador es el conjunto de todos los estudiantes de la
Fundación Universitaria Los Libertadores, la población será el conjunto de todas las
mediciones que se puedan obtener de esos estudiantes. Por lo tanto, lo que se exhibe en la
tabla es una muestra. Note en la tabla, que la primera columna simplemente corresponde
a la numeración consecutiva de los elementos de los que se recogió información, y la
segunda es la identificación del elemento; en este caso, la cédula de ciudadanía. En las
restantes columnas, de la tercera a la octava, es donde realmente están consignados los
datos de las seis variables consideradas.




Tema 2
Tipos de variables


En este apartado se retoma y precisa qué se entiende por variable y se aborda la distinción
entre los dos grandes tipos de variables: las cualitativas y las cuantitativas. Además, se
establecen distinciones tanto desde lo cualitativo como desde lo cuantitativo, en la
naturaleza y nivel de medición en la que se puede observar o medir el valor de una
variable.

• Variable
Una variable es una característica que cambia o varía con el tiempo o para
diferentes personas u objetos bajo consideración. Las variables esencialmente son
de dos tipos: cualitativas o cuantitativas.

• Variable cualitativa
Las variables cualitativas miden una cualidad, un atributo o una característica no
numérica en cada objeto, sujeto o unidad experimental observada. En este tipo de
variables se obtienen datos que se pueden clasificar de acuerdo a similitudes o
diferencias en clase; por lo tanto, con frecuencia se utiliza el vocablo datos
categóricos, para referirse a las observaciones que se asocian a ellas. Además, hay
dos niveles en que se pueden medir este tipo de variables llamados nominal y
ordinal, que serán explicados más adelante.

• Variable cuantitativa
Las variables cuantitativas miden una cantidad numérica en cada objeto, sujeto o
unidad experimental observada. Las variables que son cuantitativas asumen valores
numéricos que indican cuánto o cuántos. Además, los datos que se asocian a
variables cuantitativas se pueden medir en dos tipos de escalas de medición:
intervalo o razón, que se explican más adelante. Por otra parte, en los datos de
naturaleza cuantitativa se suelen distinguir dos tipos de variables: discretas y
continuas.

• Variable discreta
Los datos cuantitativos que miden “cuántos” como por ejemplo el número de
llamadas recibidas durante 5 minutos en un conmutador telefónico, pertenecen al
tipo de variables llamadas discretas. De manera más formal, se dice que una
variable es discreta cuando puede tomar sólo un número finito o contable de
valores.


• Variable continua
Los datos cuantitativos que miden “cuánto” como por ejemplo el peso de un cuerpo
o el tiempo transcurrido para atender a un cliente, son denominadas como
variables de tipo continuo, porque entre los posibles valores de este tipo de datos
no hay separación. De manera más formal, se dice que una variable es continua
cuando puede tomar infinitamente muchos valores correspondientes a los puntos
en un intervalo de recta.



Niveles de medición de una variable
La medición de una variable puede tener los niveles llamados: nominal, ordinal, intervalo o
razón. Es importante anotar que la escala de medición determina la cantidad de
información contenida en el dato, e indica la manera más apropiada de resumir y analizar
estadísticamente los datos.

• Nivel nominal
Cuando el dato de una variable es una etiqueta o un nombre que identifica un
atributo de un elemento, se considera que la escala de medición es nominal.

Ejemplo
La condición de “ser mamá” en una mujer, puede asumir dos valores posibles:
“si” o “no”, que son las etiquetas que se puede usar para indicar si es madre o
sino lo es.

• Nota. Cuando la escala de medición es nominal, a veces se usa un código
numérico.

• Ejemplo

Para facilitar la recolección de los datos y para guardarlos en una base de datos
en una computadora puede emplearse un código numérico en el que “1”
denote que una mujer si tiene hijos y “0” que no los tiene. En este caso los
códigos numéricos “0” y “1” son empleados para identificar valores no
numéricas como “si” o “no”. Tenga en cuenta que de todas formas la escala de
medición es nominal aun cuando los datos aparezcan con códigos o valores
numéricos.

• Nivel ordinal
Una escala de medición para una variable es ordinal si los datos muestran las
propiedades de los datos nominales y además tiene sentido el orden o jerarquía de
los datos.

o Ejemplo
Una empresa automovilística (por ejemplo, Chevrolet) envía a sus clientes
cuestionarios para obtener información sobre su servicio de reparación.
Cada cliente evalúa el servicio de reparación como excelente, bueno,
regular, malo y pésimo. Como los datos obtenidos son las etiquetas
“excelente”, “bueno”, “regular”, “malo” y “pésimo” , se tienen las
propiedades de los datos nominales, pero además los datos pueden ser
ordenados o jerarquizados en relación con la calidad del servicio. Un dato
excelente indica el mejor servicio, seguido por bueno, luego regular, luego
malo y en último lugar, pésimo. Por lo que la escala de medición es ordinal.
Observe que los datos ordinales también pueden registrarse mediante un
código numérico; para el ejemplo dado antes, podría ser 50, 40, 30, 20 y 10.

• Nivel de intervalo
Una escala de medición para una variable es una escala de intervalo si los datos
tienen las características de los datos ordinales y el intervalo entre valores se
expresa en términos de una unidad de medición fija. Los datos de intervalo siempre
son numéricos.

o Ejemplo
Las calificaciones en una prueba de aptitudes escolares son un ejemplo de
datos medidos en escala de intervalo. Si las calificaciones obtenidas por tres
alumnos en la prueba de matemáticas con 620, 550 y 470, estos datos
pueden ser ordenadas en orden de mejor a peor. Además, las diferencias
entre las calificaciones tienen significado. Por ejemplo, el estudiante 1
obtuvo 620 – 550 = 70 puntos más que el estudiante 2, mientras que el
estudiante 2 obtuvo 550 – 470 = 80 puntos más que el estudiante tres.

• Nivel de razón
Una variable tiene una escala de razón si los datos tienen todas las propiedades de
los datos de intervalo y la proporción entre dos valores tiene significado.

o Ejemplo
Variables como distancia, altura, peso y tiempo usan la escala de razón en la
medición. Esta escala requiere que se tenga el valor cero para indicar que en
este punto no existe la variable. Si se considera el costo de un automóvil. El
valor cero para el costo indica que el automóvil no cuesta, que es gratis.
Además, si se compara el costo de un automóvil de $30000, con el costo de
otro automóvil, $15000, la posibilidad de poder calcular el cociente entre
estos valores, que es $30000/$15000 =2, indica que el primer automóvil
cuesta el doble que el segundo.


Notas aclaratorias

Es pertinente tener en cuenta las siguientes aclaraciones:

1. Una variable cualitativa es una variable con datos cualitativos. El análisis estadístico
adecuado para una determinada variable depende de si la variable es cualitativa o
cuantitativa. Si la variable es cualitativa, el análisis estadístico es más limitado. Tales
datos se resumen contando el número de observaciones o calculando la proporción
de observaciones en cada categoría cualitativa de la variable.

2. Aun cuando para los datos cualitativos se use un código numérico, las operaciones
aritméticas de adición, sustracción, multiplicación o división no tienen sentido.

3. Las operaciones aritméticas sí tienen sentido en las variables cuantitativas. Por
ejemplo, cuando se tienen variables cuantitativas, los datos se pueden sumar y
luego dividir entre el número de observaciones para calcular el valor promedio. Este
promedio suele ser útil y fácil de interpretar. En general hay más alternativas para
el análisis estadístico cuando se tienen datos cuantitativos.

o Ejemplo
De entre todos los alumnos de La Fundación Universitaria Los Libertadores,
se selecciona un conjunto de siete estudiantes y las mediciones realizadas se
introducen en una hoja de cálculo, como se muestra a continuación:

A B C D E F G

Número
Estatura Nivel de Año de
1 Alumno Género Carrera de
(en cm) estudios nacimiento
hermanos

2 E1 150 H Pregrado Psicología 1 1990

3 E2 165 H Pregrado Administración 5 1995


4 E3 170 H Pregado Administración 3 1998

Especialización
5 E4 145 M Postgrado
en Estadística
0 1992

Especialización
6 E5 180 M Postgrado
en Estadística
2 1989

7 E6 170 M Pregrado Psicología 2 1997

8 E7 155 H Pregrado Ingeniería 3 1992

A B C D E F G

Estatura Nivel de Número de Año de


1 Alumno Género Carrera
(en cm) estudios hermanos nacimiento

2 E1 150 H Pregrado Psicología 1 1990

3 E2 165 H Pregrado Administración 5 1995

4 E3 170 H Pregado Administración 3 1998

Especialización
5 E4 145 M Postgrado 0 1992
en Estadística
Especialización
6 E5 180 M Postgrado 2 1989
en Estadística

7 E6 170 M Pregrado Psicología 2 1997

8 E7 155 H Pregrado Ingeniería 3 1992


Tabla 2. Relación de población seleccionada


Identifique los siguientes aspectos:

1. Variables consideradas
2. Población y muestra de mediciones asociadas
3. Tipos de variables involucradas
4. Nivel de medición de las variables identificadas



Solución

1. Los nombres de las variables consideradas aparecen en la primera fila de registros
de la hoja de cálculo y son las siguientes: Alumno, Estatura (medida en cm.) Género,
Nivel de estudios, Carrera, Número de hermanos y Año de nacimiento.

2. La población de mediciones que se puede asociar a los datos exhibidos en la tabla
es la de todas las mediciones que sería posible llegar a obtener si se indagara a
todos los estudiantes de La Fundación Universitaria Los Libertadores respecto a las
variables consideradas.

3. En la siguiente tabla se marca con una X para cada una de las variables que se
mencionaron antes, el tipo en el que se clasifican:

Tabla 3. Tipos de variables involucradas


4. En la siguiente tabla se marca con una X el nivel de medición que corresponde a las
variables ya mencionadas:


Tabla 4. Nivel de medición de las variables identificadas



Tema 3
Gráficas para datos cuantitativos y categóricos

A continuación se abordarán temáticas tan importantes como las distribuciones de
frecuencia para datos no agrupados y datos agrupados. Aquí se observa que es factible
sintetizar la información obtenida de la realidad, a través de procesos de medición. Sin
embargo esta no es la única forma para sintetizar y efectuar una aproximación real al
comportamiento de los datos, o dicho de otro modo, al comportamiento de las variables
de estudio y que son de interés. De acuerdo a este planteamiento, se puede determinar la
importancia de las gráficas en el contexto del análisis exploratorio o descriptivo en cuanto a
que permiten visualizar el comportamiento de las variables en un contexto específico. Es
así que en el contexto de las ciencias humanas y sociales, permite visualizar variables
cualitativas o cuantitativas en términos de un fenómeno educativo, social, clínico,
organizacional o de naturaleza similar. En el ámbito de las ciencias naturales, sucede
exactamente lo mismo, en cuanto a la posibilidad de visualizar el comportamiento de
variables relacionadas con fenómenos físicos, químicos o biológicos en un proceso
investigativo riguroso y de impacto. Igual acontece en la esfera de conocimiento exacto,
como por ejemplo en las matemáticas, la estadística en sí misma, y en el cálculo, por
mencionar solo algunas.

Distribución de frecuencias
“Tiene como finalidad presentar de manera organizada los valores que toman las
diferentes características, en tal forma que permitan tener una visión de conjunto”.
(Martínez, 2012, p. 45).

¿Por qué las gráficas?

La gráfica que se elija para hacer una presentación de los datos de una sola variable
categórica depende de si su objetivo consiste en comparar las categorías entre sí (gráfica
de barras), destacar la manera que las categorías forman parte de un todo (gráfica circular)
o de que los datos se concentren solamente en algunas categorías. (gráfica de Pareto),
(Levine, Krehbiel, y Berenson, 2014, p. 39).

• Gráfica de barras
Es una de las gráficas más utilizadas por su sencillez, para representar las
características cuantitativas (discretas) y cualitativas (medidas en escala
ordinal), aún en aquellos casos en que la información no está dada en tablas de
frecuencia. (Martínez, 2012, p. 75).


Figura 1. Gráfica de barras

• Gráfica circular
El diagrama circular (también llamado diagrama de sectores o diagrama de
pastel) sirve para representar variables cualitativas o discretas. Se utiliza para
representar la proporción de elementos de cada uno de los valores de la
variable. Utiliza las partes de un círculo para representar los valores de cada
categoría. El tamaño de cada parte o porción depende del porcentaje en cada
categoría. (Levine, Krehbiel, y Berenson, 2014, p. 41).


Figura 2. Gráfica circular


• Histograma de frecuencias
Es un gráfico que representa una distribución de frecuencias de las variables
cuantitativas contínuas. Está formado por un conjunto de rectángulos; cada uno
de ellos levantado para cada intervalo, de tal manera que la base será igual a la
amplitud, y la altura estará dada por la frecuencia absoluta o relativa, así mismo
el histograma. (Martínez, 2012, p. 68).


Figura 3. Histograma de frecuencias


• Polígono de frecuencias
Utiliza segmentos lineales conectados a puntos que se localizan directamente
por encima de los valores de las marcas de clase, y este es creado a partir del
histograma de frecuencias. (Triola, 2013, p.60).


Figura 4. Polígono de frecuencias


• Gráfica de puntos
Una gráfica de puntos se puede utilizar para evaluar la distribución de datos
continuos. Cada valor se marca como un punto a lo largo de una escala de
valores. Los puntos que representan valores iguales se apilan. Las gráficas de
puntos son especialmente útiles para evaluar distribuciones cuando hay una
cantidad relativamente pequeña de datos. (Triola, 2013, p.61).


Figura 5. Gráfica de puntos


• Diagrama de tallo y hojas
Es un gráfico AED (Análisis Exploratorio de Datos), una alternativa al histograma.
Los datos se agrupan de acuerdo a sus primeros dígitos (llamados tallo) y se
hace un listado de los últimos dígitos (llamados hojas) de una misma clase. Las
hojas se muestran individualmente en orden ascendente después de cada uno
de los tallos. (Newbold, Carlson, y Thorne, 2013, p. 28).


Figura 6. Diagrama de tallo y hojas




Tema 4
Descripción de datos emplando medidas numéricas

De acuerdo a Mendenhall (2010), las medidas numéricas corresponden a un conjunto de
datos que ayudan a describir de forma acertada la imagen de la distribución gráfica de los
datos. Las medidas numéricas asociadas con una población se llaman parámetros; las
calculadas a partir de mediciones en muestras se denominan estadísticas. A continuación
se explica la importancia de la desviación estándar, y se exponen las medidas numéricas
de:
• Centro
• Variabilidad
• Posición
• Forma


• Medidas de centro
Son aquellas que resumen con un valor numérico el conjunto de datos o
mediciones, y presentan la característica de localizarse entre el valor mínimo y
máximo del conjunto de los datos.


• La media aritmética o promedio aritmético
Para un conjunto de datos o mediciones se considera como el resultado de la
suma dichos valores y divididos entre la cantidad de datos o mediciones.

Suma de datos o mediciones 𝑥!
Media aritmética o promedio = =
Cantidad de datos o mediciones 𝑛


Para un conjunto de mediciones o datos sin agrupar podemos encontrar las
siguientes definiciones:

El parámetro media aritmética o La estadística media aritmética o
promedio aritmético de datos no promedio aritmético de datos no
agrupados observados en una agrupados observados en una muestra
población es: es:



! !
!!! 𝑥! !!! 𝑥!
𝜇= 𝑥=
𝑁 𝑛



Donde,

La letra griega µ (mu) representa el promedio aritmético para datos observados en
una población.

La letra latina 𝑥 (equis barra) representa el promedio aritmético para datos
observados en una muestra.

N (mayúscula) representa la cantidad de datos o mediciones observados en una
población
n (minúscula) representa la cantidad de datos o mediciones observados en una
muestra.

! !
!!! 𝑥! ó !!! 𝑥! representa la sumatoria de las correspondientes mediciones o
datos ya sean observadas en una población o en una muestra.


Ejemplo 1. Cálculo del parámetro media aritmética de datos no agrupados
observados en una población.

• El gerente de un nuevo punto de servicio que recibe y despacha
encomiendas a nivel nacional, desea saber el promedio aritmético en
kilogramos del registro histórico de las encomiendas abandonadas, las
cuales son solo cinco, y para ello dispone de la siguiente información:


Tabla 5. Registro en kilogramos de las encomiendas abandonadas


Solución:

Los datos observados en el nuevo punto de servicio corresponden a una
población N= 5 (encomiendas abandonadas) y sus respectivos registros en
kilogramos son: x1 = 3.2, x2=5.3, x3 = 7.5, x4 = 10.2, x5 = 15.4, la media
aritmética o promedio aritmético es:

!
!!! 𝑥! 𝑥! + 𝑥! + 𝑥! + 𝑥! +𝑥!
𝜇= =
𝑁 𝑁
3.2 + 5.3 + 7.5 + 10.2 + 15.4 41.6
= =
5 5

𝜇 = 8.32 Kilogramos

Concluimos que el promedio en kilogramos de las encomiendas
abandonadas en el punto de servicio es de 8,32

Ejemplo 2. Cálculo de la estadística media aritmética de datos no agrupados
observados en una muestra.

o Se han elegido 5 de 12 tiendas para determinar el promedio aritmético
de las ventas de un producto, las cuales se presentan en el orden de
millones de pesos para el último mes (ver tabla 2).


Tabla 6. Registro de las ventas en 5 de 12 tiendas para un producto en el último mes

Solución:

Los datos observados corresponden a una muestra n = 5 tiendas de una
población N=12 tiendas, siendo x1 = 12.5, x2=15.3, x3 = 11.5, x4 = 18.2,
x5 = 25.4 los valores de venta en millones de pesos para cada tienda por lo
tanto, la media aritmética o promedio aritmético de las ventas en las 5
tiendas es:

!
!!! 𝑥! (𝑥! + 𝑥! + 𝑥! + 𝑥! +𝑥! )
𝑥 = =
𝑛 𝑛
(12.5 + 15.3 + 11.5 + 18.2 + 25.4)
=
5

!".!
𝑥= = 16.58 Millones de pesos
!

Concluimos que el promedio de ventas en la muestra de 5 tiendas para el
producto dado es de 16,58 millones de pesos.

La media aritmética o promedio aritmético es una medida numérica
tradicional muy conocida y con propiedades de mucha importancia. Además
la media aritmética es de fácil cálculo numérico, tanto en lápiz y papel, como
en calculadoras y computadores. Pero la media aritmética presenta una gran
desventaja frente a la presencia de valores extremos y atípicos; valores que
difieren mucho de la misma distribución de los datos. Cuando los datos son
atípicos debido, posiblemente a errores de registro, sistematización o
medición, entre otros, afectan la descripción numérica, es decir afecta o
influencia el promedio aritmético.

A continuación y de forma intencionada se ha modificado los ejemplos 1 y 2,
cada uno con la presencia de valores extremos (estos también pueden ser
atípicos también denominado out-liers en inglés) para observar el cambio en
el promedio o media aritmética.

Ejemplo 3. Influencia de un dato Ejemplo 4. Influencia de un dato
extremo superior. extremo inferior

Dados los datos de observados de Dados los datos de observados de
una población N, x1 = 3.2, x2 = 5.3, en una muestra n de una población
x3 = 7.5, x4 = 10.2, x5 = 115.4 (dato N, x1 = 1.5 (dato extremo),
extremo), la media aritmética o x2=15.3, x3 = 11.5, x4 = 18.2, x5 =
promedio aritmético es: 25.4, la media aritmética o
promedio aritmético es:
𝜇 = 28.32
71.9
𝑥= = 14.38
Compare el resultado anterior con el 5
resultado del ejemplo 1 y observe la
influencia del dato extremo x5 =115.4 Compare el resultado anterior con
frente a la medida numérica media el resultado del ejemplo 2 y
aritmética o promedio aritmético. observe la influencia del dato
extremo x1 =1.5 frente a la medida
numérica media aritmética o
promedio aritmético.

Por otra parte, para un conjunto de mediciones o datos agrupados en tablas
de frecuencias podemos encontrar las siguientes definiciones:

El parámetro media aritmética o La estadística media aritmética o
promedio aritmético de los datos promedio aritmético de los
agrupados observados en una datos agrupados observados en
población y denotado por la letra una muestra y denotado por la
griega µ (mu) es: letra latina 𝑥 (equis barra) es:
! !
!!! 𝑓! ! !" !!! 𝑓! ! !"
𝜇= 𝑥 =
𝑁 𝑛
Donde,

fi representa las frecuencias absolutas que contiene cada intervalo de los
datos agrupados.
Mci representa la marca de clases de cada intervalo dado.


Ejemplo 5. Cálculo de la media aritmética para datos agrupados

Del producto terminado de un proceso de fabricación se ha identificado
residuos en pulgadas lineales de material en 16 piezas diferentes, los cuales
han sido clasificados y agrupados como se muestra en la tabla:


Tabla 7. Clasificación de piezas residuales de un producto terminado

Para calcular el promedio aritmético del anterior conjunto de datos agrupados
procedemos a diligenciar la tabla:


Tabla 8. Tabla de frecuencias y cálculo del promedio para datos agrupados


Concluimos que el promedio aritmético del residuo de las piezas es de 13,93
pulgadas.

Adicionalmente encontramos otras medias no aritméticas como la armónica,
geométrica, cuadrática, ponderada y acotada.

Media Definición Ejemplo de aplicación

Geométrica 𝐺 = ! !!!! 𝑥! = Ejemplo 6. Cálculo de la media
!
𝑥! ∗ 𝑥! ∗ … 𝑥! geométrica.
Si un activo que genera
ganancias de 10% el primer año,
Donde 25% el segundo año y el tercer
año el 15%, ¿Cuál es la ganancia
𝐺 Representa la media promedio?
geométrica.
! Solución:
!!! 𝑥! Representa el producto
de los datos o mediciones Aplicamos la media geométrica,
desde i= 1 hasta n. ya que se tiene una
N representa la cantidad de multiplicación de capital y no
datos o mediciones. una adición del mismo como
para aplicar la media aritmética.
Nota: la media geométrica se
!
usa para datos o mediciones 𝐺 = 1.1 ∗ 1.25 ∗ 1.15
cuyos valores no sean 𝐺 =1.1650
negativos, generalmente tasa y
porcentajes. En conclusión la ganancia del
activo es de 16,50%



Armónica 𝒏 𝒏 Ejemplo 7. Cálculo de la media
𝑯= =
𝒏 𝟏 𝟏 𝟏 armónica.
𝒊!𝟏 𝒙
𝒊 𝒙𝟏 + ⋯ + 𝒙𝒏
Calcular la rapidez promedio de 3
ciclistas que recorren la misma
distancia (10 kilómetros) sabiendo
Donde que:

Ciclista Rapidez (Km/h)
𝑯 Representa la media A 10
armónica B 20
C 40
𝒏 𝟏
𝒊!𝟏 𝒙 Representa la suma de Tabla 9.1. Rapidez de ciclistas
𝒊

los inversos de los datos o 𝟑
mediciones 𝑯=
𝟏 𝟏 𝟏
+ +
𝟏𝟎 𝟐𝟎 𝟒𝟎
N representa la cantidad de
datos o mediciones 𝑯 = 𝟏𝟕, 𝟏𝟒 𝑲𝒎/𝒉
Dado que los tres ciclistas recorren
30 kilómetros en total, empleando
Nota: Esta medida de centro es 1 hora el ciclista A, media hora el
apropiada para datos positivos o ciclista B y un cuarto de hora el
negativos además, poco se deja ciclista C. Es decir 30 km
afectar de valores extremos. /(1h+0,5h+0,25h ) = 17,14 km/h
Esta medida de centro es
inapropiada cuando algún dato Existe diferencia en el cálculo si el
o medición presenta el valor de ejercicio fuese:
cero, o la suma de los inversos
es igual a cero, ya no está Calcular la rapidez promedio de 3
definida matemáticamente, lo ciclistas que viajan durante 2
que hace que sea muy sensible a horas, sabiendo que: (ver tabla 5).
estos valores. El procedimiento de solución se
plantea aplicando la media
aritmética:

(𝟏𝟎 !𝟐𝟎!𝟒𝟎)
𝒙 = 𝟑
= 23, 3 km /h
Dado que los tres ciclistas gastan
un total de 6 horas, y la cantidad
de kilómetros recorridos es 20Km
para el ciclista A, 40 km para el
ciclista B y 80 km para el ciclista C.
Es decir (20 km + 40 km + 80 km)/
6 horas = 23,3 km / h.

Cuadrática
Ejemplo 8. Cálculo de la media
! ! ! cuadrática.
Mc = !!! 𝑥! =
!
!!! ! !!! !⋯! !!
! Se evidencia los siguientes errores
!
en la medida del peso de 3
personas (ver tabla 6). Determinar
Donde el error promedio.

Mc representa la media Peso real Peso medido Error
cuadrática Kg Kg
! !
!!! 𝑥! Representa la suma de 52 50 2
los cuadrados de los datos o 67 71 -4
mediciones. 78 75 3
n representa el número de Tabla 9.2. Error en la medición
datos
representa la raíz cuadrada Como el objetivo es determinar el
promedio de tal forma que no se
recoja los efectos del signo,
Nota: la media cuadrática es utilizamos la media cuadrática
muy usada en ciencias naturales
y busca eliminar los efectos de ! ! ! !! ! ! ! !
Mc = !
= 3.1091
cantidades negativas cuando
tenemos datos o mediciones
tanto positivas como negativas. El promedio de error en la
medición es de 3,10 kg.
Ponderada
!
!!! 𝑥! ∗ 𝑤! Ejemplo 9. Cálculo del promedio
𝑥! =
!
!!! 𝑤!
ponderado

Donde Determinar el promedio
ponderado de las calificaciones de
𝑥! Representa el promedio un estudiante de acuerdo a sus
ponderado. notas (ver tabla 7).
𝑥! representa el dato o medición
𝑤! Representa el peso o Actividad Calificación Peso
ponderación. Consulta 31/50 10%
Taller 45/50 20%
Examen 23/50 70%
Tabla 9.3. Calificaciones de un estudiante


31 ∗ 10% + 45 ∗ 20% + 23 ∗ 70%
𝑥! =
10% + 20% + 70%

𝑥! = 31 ∗ 0,1 + 45 ∗ 0,2 + 23 ∗ 0,7



𝑥! = 28/50

Tabla 9. Otras medidas de centro, según Sosa, Ospina y Berdugo (2013)

En algunas ocasiones se utiliza la media acotada o recortada, la cual permite el
cálculo de la media aritmética eliminando un porcentaje de datos en sus extremos,
esto con el fin de eliminar valores extremos o atípicos.


• La mediana
Es el valor que divide el conjunto de los datos ordenados de forma creciente (de
menor a mayor) en dos partes porcentualmente iguales. Esta medida representa el
valor intermedio del conjunto de datos.

Mediana es el valor posicional intermedio que divide el conjunto de datos en dos
partes porcentualmente iguales. El valor mediano denotado por m está dado por las
siguientes ecuaciones:


𝑋 !!! 𝑆𝑖 𝑁 𝑒𝑠 𝑖𝑚𝑝𝑎𝑟
!
𝑚= 𝑋 ! + 𝑋 !!!
! !
𝑆𝑖 𝑁 𝑒𝑠 𝑝𝑎𝑟
2

Donde,

N representa el número de datos, el cual puede ser par o impar.

𝑋 !!! representa el valor posicional de la mediana para un conjunto de datos
!
impares ordenados en forma creciente.

! ! ! ! !!!
!
!
representa el valor posicional de la mediana a partir del cálculo del
!

promedio entre dos valores posicionales medios para un conjunto de datos pares
y que se encuentran ordenados en forma creciente.


Ejemplo 10. Cálculo de la mediana para un número par o impar de datos o
mediciones

Se desea calcular la edad mediana en dos grupos de jóvenes que participan en un
torneo deportivo, el primer grupo con 15 jóvenes y el segundo con 18.


Tabla 10. Edad de dos grupos de jóvenes que participan en un torneo deportivo



Solución:

Inicialmente ordenamos creciente los datos correspondientes a las edades (ver
figura 7)


Figura 7. Datos ordenados en forma creciente


Para el grupo 1, la mediana m es:

𝑁 = 15 𝑖𝑚𝑝𝑎𝑟 , 𝑙𝑢𝑒𝑔𝑜 𝑚 = 𝑋 !!! = 𝑋 !"!! = 𝑋! = 13
! !


Para el grupo 2, la mediana m es:

𝑋 ! + 𝑋 !!! 𝑋 !" + 𝑋 !"!!
! ! ! !
𝑁 = 18 𝑝𝑎𝑟 , 𝑙𝑢𝑒𝑔𝑜 𝑚 = =
2 2
𝑋 ! + 𝑋 !"
=
2

12 + 12
𝑚= = 12
2

Concluimos que la edad mediana para el grupo 1 de jóvenes que participan en un
torneo es de 13 años y para el grupo 2 es de 12 años.

Como información adicional se considera una expresión para calcular la mediana de
datos agrupados. De acuerdo a la definición de Sánchez y Sepúlveda (2015), la
mediana se puede calcular asumiendo que los datos en la clase están distribuidos
uniformemente a través del intervalo. Inicialmente se debe identificar la clase o
intervalo que contiene a la mediana y es aquel donde está acumulado el 50% de los
datos o mediciones.

𝑛
− 𝐹(!"#$% !"#$%& !!)
𝑚 = 𝐿!"# (!"#$% !"#$%&) + 2 𝑋 𝐴
𝑓!"#$% !"#$%&
Donde,

m (minúscula ) representa la mediana de los datos o mediciones.

𝐿!"# (!"#$% !"#$%&) representa el límite inferior de la clase de la mediana 𝜀.

𝑓!"#$% !"#$%& representa la frecuencia absoluta de la clase de la mediana 𝜀.

𝐹(!"#$% !"#$%& !!) representa la frecuencia absoluta acumulada de la clase medial
menos uno (anterior a la mediana).

n representa el número de elementos en la muestra.

A Representa la amplitud de la clase de la medial.



• La moda
Moda es la categoría o el valor que se presenta con más frecuencia absoluta en el
conjunto de datos.


Ejemplo 11. Cálculo de la moda para un conjunto de datos

Se desea saber cuál es la moda (o mayor frecuencia) en las consultas diarias en un
aplicativo de soporte por parte de los usuarios, si un software registra la
información y presenta los resultados correspondientes a 28 días.


Tabla 11. Registro de las consultas diarias en un aplicativo de soporte por parte de los usuarios en 28
días


Solución

Mediante el conteo de cada uno de los datos se puede establecer su frecuencia
absoluta y establecer las consultas de mayor frecuencia así:

Número de consultas (Categoría


Frecuencia Absoluta
numérica)

0 3

1 1

2 4

3 3
4 4

5 2

6 3

7 3

8 2

9 1

10 2


Tabla 12. Frecuencia absoluta sobre las consultas diarias en un aplicativo de soporte

Por lo tanto la moda es: 2 y 4 (bimodal) que corresponden al número de
consultas más frecuentes en el aplicativo de soporte durante los 28 días
registrados.


Medidas de variabilidad

Las medidas de variabilidad además de resumir con un valor numérico el conjunto de datos
o mediciones presentan la característica principal de medir la dispersión de los datos con
algún criterio.

Ejemplo 12. Dispersión de los datos en una escala numérica (observación visual)

Considere los registros correspondientes al tiempo extra laboral dedicado por dos
operarios en su puesto de trabajo durante 5 días de la semana

Tabla 13. Registro del tiempo extra laboral dedicado por dos operarios en su puesto de trabajo



La siguiente ilustración muestra la dispersión de los datos sobre una recta numérica:


Figura 8. Dispersión de los datos referidos al tiempo extra laboral dedicado por dos operarios.

Visualmente se observa que los registros correspondientes al tiempo extra laboral en
minutos empleado por el operario 1 están menos dispersos que los registros del tiempo
extra empleado por el operario 2. Por ello se hace necesario establecer alguna medida del
grado de dispersión.


• Rango
Es la medida absoluta más sencilla de variabilidad y se determina mediante la
diferencia entre valor máximo y mínimo de un conjunto de mediciones o datos:


𝑅 = máx 𝑥! − mín 𝑥!

Donde,

R representa el rango de las mediciones o datos.

máx (xi) representa la medición o dato que registra su mayor valor (máximo).

mín (xi) Representa la medición o dato que registra su menor valor (mínimo).


Ejemplo 13. Cálculo del rango de tiempo extra dedicado por los operarios 1 y 2
correspondientes al ejemplo 12 es:

Solución

𝑅! = máx 𝑥! − mím 𝑥! = (13 -7 ) minutos = 6 minutos


𝑅! = máx 𝑥! − mím 𝑥! = (16 -4 ) minutos = 12 minutos

Concluimos que el tiempo extra laboral dedicado el operario 1 en su puesto de
trabajo tiene una variabilidad en rango de 6 minutos mientras que el operario 2
tiene una variabilidad en rango de 12 minutos.

Los resultados del ejemplo 13 se pueden visualizar con el siguiente diagrama:


Figura 9. Rango de los datos referidos al tiempo extra laboral dedicado por dos operarios



• Varianza
Es una medida absoluta y cuadrada de la dispersión de los datos con respecto a
su promedio aritmético. La varianza para datos no agrupados se define:

El parámetro varianza La estadística varianza


! ! ! !
! !!! ! 𝑥 − 𝜇 ! !!! 𝑥! − 𝑥
𝜎 = 𝑠 =
𝑁 𝑛−1



Donde,

La letra griega σ2 (sigma cuadrado) representa la varianza para datos
observados en una población.

La letra latina 𝑠 ! (ese cuadrado) Representa la varianza para datos observados
en una muestra.

N (mayúscula) Representa la cantidad de datos o mediciones observados en una
población.

n (minúscula) representa la cantidad de datos o mediciones observados en una
muestra.

!
!!! 𝑥! − 𝜇
!
ó !!!! 𝑥! − 𝑥 ! representa la sumatoria de las
correspondientes diferencias cuadradas entre cada dato y su promedio
aritmético ya sean para datos observados en una población o en una muestra.


Ejemplo 14. Cálculo de la varianza del tiempo extra laboral dedicado por los operarios 1 y 2
correspondientes al ejemplo 12


! ! ! !
! !!! 𝑥! − 𝜇 ! !!! 𝑥! − 𝑥
𝜎 = ó 𝑠 =
𝑁 𝑛−1
Datos observados en una población ó una muestra


Para el operario 1

8 − 9,6 ! + 7 − 9,6 ! + 9 − 9,6 ! + 11 − 9,6 ! + 13 − 9,6 !
𝜎!! =
5
= 4,64

8 − 9,6 ! + 7 − 9,6 ! + 9 − 9,6 ! + 11 − 9,6 ! + 13 − 9,6 !
𝑠!! = = 5,80
5−1


Para el operario 2



! ! ! ! !
4 − 9,6 + 8 − 9,6 + 9 − 9,6 + 11 − 9,6 + 16 − 9,6
𝜎!! =
5
= 15,44




! !
4 − 9,6 + 8 − 9,6 + 9 − 9,6 ! + 11 − 9,6 !
+ 16 − 9,6 !
𝑠!! =
5−1
= 19,30




Observe que la varianza tanto para datos observados en una población o muestra
es mayor en el operario 2 que en el operario 1

La varianza también se puede determinar mediante otra expresión denominada
formula computacional mediante las siguientes definiciones:


El parámetro varianza La estadística varianza



! ! ! !
! ! !!! 𝑥! ! ! !!! 𝑥!
!!! 𝑥! − 𝑁 !!! 𝑥! − 𝑛
𝜎! = 𝑠! =
𝑁 𝑛−1



• Desviación estándar
Es una medida absoluta de la dispersión de los datos con respecto a su
promedio aritmético y se define como la raíz cuadrada de la varianza:






El parámetro desviación estándar La estadística desviación estándar


! !
!!! 𝑥! − 𝜇 ! !!!𝑥! − 𝑥 !
𝜎= 𝑠=
𝑁 𝑛−1



Donde,

La letra griega σ (sigma) representa la desviación estándar para datos
observados en una población.

La letra latina s (ese) representa la desviación estándar para datos observados
en una muestra.


Ejemplo 15. Cálculo de la desviación estándar del tiempo extra laboral dedicado por
los operarios 1 y 2 correspondientes al ejemplo 12.



! ! !
!!! 𝑥! − 𝜇 !!! 𝑥! − 𝑥 !
𝜎 = ó 𝑠=
𝑁 𝑛−1



Datos observados en una población o una muestra.


Para el operario 1

𝜎! = 𝜎!! = 4,64 = 2,1540 ó 𝑠! = 𝑠!! = 5,8 = 2,4083



Para el operario 2


𝜎! = 𝜎!! = 15,440 = 3,9293 ó 𝑠! = 𝑠!! = 19,30 = 4,3931
Observe que la desviación estándar tanto para datos observados en una población
o muestra es menor en el operario 1 que en el operario 2.

La figura 10, ilustra en la parte superior las distancias de cada dato con respecto a
su media o promedio y en la parte inferior ilustra la desviación estándar como
resumen de dicha dispersión con respecto al promedio, tanto para los datos del
operario 1 como del operario 2.


Figura 10. Representación de la desviación estándar para los datos del ejemplo 12


• Coeficiente de variación de Pearson
Es una medida relativa de la variación de los datos y surge como resultado del
cociente entre la desviación estándar y el promedio aritmético.

Coeficiente de variación para datos Coeficiente de variación para datos
observados en una población observados en una muestra

𝜎 𝑠
𝑐𝑣 = 𝑐𝑣 =
𝜇 𝑥

𝜎 𝑠
𝑐𝑣 = ∗ 100% 𝑐𝑣 = ∗ 100%
𝜇 𝑥

El coeficiente de variación indica el número de veces que la desviación estándar
contiene el promedio. El coeficiente de variación se puede utilizar como una medida
de homogeneidad de los datos. Según Valdivieso (2011) un coeficiente menor al
0,08 (8%) indica que los datos son homogéneos, entre 0,08 y 0,18 (8% y 18%)
moderadamente homogéneos, entre 0,18 y el 0,3 (18% y 30%) moderadamente
heterogéneos y superiores a 0,3 (30%) los datos pueden considerarse
heterogéneos.

Ejemplo 16. Coeficiente de variación de Pearson para del tiempo extra laboral
dedicado por los operarios 1 y 2 correspondientes al ejemplo 8 (considerando
observaciones obtenidas de una muestra)

Operario 1 Operario 2

𝑐𝑣! =
!
=
!,!"#$
=0,25086 𝑠 4,1593
! !,! 𝑐𝑣! = = = 0,43326
𝑥 9,6
𝑠
𝑐𝑣! = ∗ 100% = 25,08% 𝑠
𝑥 𝑐𝑣! = ∗ 100% = 43,32%
𝑥

Con los anteriores resultados podemos concluir que los valores del tiempo extra
laboral dedicado por el operario 1 son moderadamente heterogéneos y por el
operario 2 heterogéneos. Adicionalmente encontramos otras medidas de
dispersión, así como también otras expresiones para calcular la desviación estándar
y varianza para datos agrupados (ver tablas 14 y 15). Una medida de dispersión muy
importante es el rango intercuartílico que se expondrá en las medidas de posición
relativa.


Tabla 14. Otras medidas de dispersión para datos no agrupados


Tabla 15. Medidas de dispersión para datos agrupados

El error típico de la media es otra medida numérica para resumir un conjunto de
datos a partir del cociente entre la desviación estándar muestral (s) y la raíz
cuadrada del número de datos (n). El programa Microsoft Excel arroja esta medida
en sus descriptivos con la herramienta de análisis de datos (medida muy útil en
estadística inferencial).


Importancia de la desviación estándar
El teorema enunciado por el matemático ruso Chebyshev es de gran importancia, ya que
permite hacer afirmaciones acerca de la proporción de los valores de datos que deben
estar dentro de un número específico de desviaciones estándar de la media, Anderson
(2012).

Inicialmente se calculará y ejemplificará el valor estandarizado z (también llamado
puntuación típica), y el cual se puede interpretar como el número de desviaciones estándar
que el dato o medición (xi) se separa de la media (x) en el grupo de datos:


𝑥! − 𝑥
𝑧! =
𝑠


Donde,

𝑧! (zeta sub i) es el valor z para 𝑥! .

𝑥 (equis barra ) es la media para datos observados en una muestra.

𝑠 ( ese) es la desviación estándar para datos observados en una muestra.


Como se puede observar el valor z surge de un cambio de variable asociada a valores
observados en un conjunto de datos (media y desviación estándar) y relacionada con un
valor en particular (el dato o medición).

Ejemplo 17. Cálculo de valores estandarizados z para el ejemplo 12

Operario 1 Operario 2

Xi Valor Zi Xi Valor Zj

8 9

7 11

9 8

11 16

13 4

Tabla 16. Valores estandarizados z para los datos del ejemplo 12



Los valores estandarizados z de un grupo de valores siempre tienen media cero (0) y
desviación estándar 1 (para el ejemplo anterior la media es cero y la desviación estándar
de datos observados en una muestra es 1).



• Teorema de Chebyshev
Por lo menos (1 - 1/z2) de los valores de datos debe estar dentro de z
desviaciones estándar de la media, donde z es cualquier valor mayor que 1.


Figura 11. Ilustración del teorema de Chebyshev (Mendenhall, 2010)


Tabla 17. Valores de z = 2,3 y 4 teorema de Chebyshev


• Regla empírica
Para distribuciones que tengan la forma de montículo o acampanadas, se utiliza
de forma práctica, otra manera de describir la variabilidad de un conjunto de
datos, y es la denominada “regla empírica”. En donde podemos identificar que:

1. En el intervalo 𝜇 ± 𝜎 se contiene aproximadamente 68% de las mediciones.
2. En el intervalo 𝜇 ± 2𝜎 se contiene aproximadamente 95% de las
mediciones.
3. En el intervalo 𝜇 ± 3𝜎 se contiene aproximadamente 99.7% de las
mediciones.

Es de aclarar que la regla empírica solo se ajusta bien, si la distribución de los
datos presenta forma acampanada como se ilustra en la figura:

1

Figura 12. Regla empírica

Para un conjunto de datos o mediciones que presentan una distribución en forma
acampanada se pueden identificar observaciones extremas atípicas o no, mediante el
cálculo y comparación a los valores z menores o mayores que 3, ya que la regla empírica
nos permite afirmar que casi todas las observaciones se encuentran entre ±3 desviaciones
estándar de la media.


Medidas de posición relativa

Estas permiten con un valor numérico representar una posición, de interpretación
porcentual y correspondiente a la división del conjunto de datos o mediciones en partes.


1
De Ainali - Trabajo propio, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=3141713

Las medidas de posición relativa más conocidas son: la mediana (divide el conjunto de
datos o mediciones en dos partes cada una con 50% de información), los cuartiles (3
cuartiles dividen el conjunto de datos en cuatro partes cada una con un 25% de
información), los deciles (9 deciles dividen el conjunto de los datos en 10 partes cada una
con un 10% de información y los percentiles (99 percentiles dividen el conjunto de datos
en 100 partes cada una con un 1% de información). Las consideraciones anteriores
también se denominan los n – tiles (figura 13).


Figura 13. Percentiles, deciles, cuartiles y la mediana en un conjunto de datos ordenados en forma creciente

De acuerdo a Mendenhall (2010) los percentiles se usan con mayor frecuencia para
conjuntos de datos grandes y se visualizan mejor cuando el rango de datos también lo es.

Un conjunto de n mediciones de la variable x se ha organizado en orden de magnitud. El p–
ésimo percentil es el valor de x que es mayor a p% de las mediciones y que es menor que
el restante (100-p)%.

Ejemplo 18. Suponga que su calificación en un examen para optar un cargo ha sido de 72.1
y que dicha calificación lo ha colocado en 68 avo percentil en la distribución de
calificaciones. Por lo tanto, ubicarse en el 68 avo percentil significa que el 68% de todas las
calificaciones del examen fueron más bajas que la calificación de usted y 32% fueron más
altas.


Figura 14. Interpretación del percentil 68 avo correspondientes al ejemplo 18


Observe que una medida de posición divide los datos en dos conjuntos. Para el ejemplo
anterior el percentil 68 avo divide el conjunto de datos en dos partes, uno con el 68% de la
información y otro con el 32%.


Cálculo de percentiles, deciles y cuartiles
Las medidas de posición se pueden calcular mediante la siguiente expresión:


posición(n + 1)

Donde,

La posición corresponde al valor relativo a determinar (percentiles, deciles o cuartiles).
n representa la cantidad de datos o mediciones.


Ejemplo 19. Cálculo de percentiles, deciles y cuartiles

De acuerdo al reporte de 10 consultorios sobre los pacientes remitidos a otros especialistas
en un día determinado.


Pacientes remitidos a otros especialistas en un día determinado
6 , 5, 4, 2, 6 , 9, 11, 15, 12, 10
Tabla 18. Pacientes remitidos a otros especialistas en un día determinado en 10 consultorios


Calcular:

a. El percentil 50
b. El decil 8
c. El Cuartil 1


Solución:

La figura 9 ilustra el procedimiento de ordenar crecientemente y asignar posiciones a los
datos correspondientes a los registros de los pacientes remitidos a otros especialistas.


Figura 15. Posición de cada uno de los registros de pacientes remitidos a otras especialidades, datos
ordenados en forma creciente


Cálculo del percentil 50 = decil 5 = cuartil 2 = mediana

0,5 n + 1 = 0,5 10 + 1 = 5,50 (valor posicional)

Como la posición 5,50 no es entera se interpreta como el valor un medio (½ ó 0.50) de la
distancia entre el quinto y sexto dato o medición ordenadas en forma creciente. Para lo
cual el percentil 50 = decil 5 = cuartil 2 = mediana es : 7,5 como se observa en la figura 16:


Figura 16. Representación de la percentil 50, equivalente al decil 5, al cuartil 2 y la mediana de los registros

El anterior resultado corresponde de igual forma al valor calculado sobre la mediana para
datos pares (recuerde que la mediana es una medida de centro y una medida de posición).

la mediana m es:

𝑋 ! + 𝑋 !!! 𝑋 !" + 𝑋 !"!!
! ! ! ! 𝑋! + 𝑋!
𝑁 = 10 𝑝𝑎𝑟 , 𝑙𝑢𝑒𝑔𝑜 𝑚 = = =
2 2 2

6+9
𝑚= = 7,5
2


Figura 17. Mediana de los registros

Cálculo del decil 8 = percentil 80

0,8 n + 1 = 0,8 10 + 1 = 8,80

Como la posición 8,80 no es entera se interpreta como el valor del 80% de la distancia
entre el octavo y noveno dato o medición ordenadas en forma creciente. Para lo cual el
Decil 8 = percentil 80 es: 11, 8 como se observa en la figura 18:


Figura 18. Representación del decil 8 y equivalente al percentil 80 de los registros



Cálculo del cuartil 1 = percentil 25

0,25 n + 1 = 0,25 10 + 1 = 2,75

Como la posición 2,75 no es entera se interpreta como el valor del 75% de la distancia
entre el segundo y tercer dato o medición ordenadas en forma creciente. Para lo cual el
Cuartil 1 = percentil 25 es: 4,75 como se observa en la figura 19:

Figura 19. Representación del decil 8 y equivalente al percentil 80 de los registros


Resumen de 5 números y la gráfica de caja

El resumen de cinco números (valor mínimo, máximo, primer, segundo y tercer cuartil), así
como su representación mediante un gráfico muy sencillo denominado gráfico de caja o
boxplot (en inglés) también denominado diagrama de cajas y bigotes, nos permite describir
varias características del conjunto de datos o mediciones. Según Devore (2012) estas
características incluyen el centro, la dispersión, el grado y naturaleza de cualquier
alejamiento y simetría y la identificación de las observaciones extremas o apartadas.

El grafico de caja está basado en medidas resistentes, es decir que no se deja afectar de los
valores extremos o atípicos que si afectarían tanto al promedio como la desviación
estándar.

Rango intercuarílico es unja medida de dispersión asociada a la medidas de posición
relativa denotada por IQR:


𝐼𝑄𝑅 = 𝑄3 − 𝑄1

Donde,

IQR representa el rango intercuartílico
Q3 representa el tercer cuatil
Q1 representa el primer cuartil


Ejemplo 20. Cálculo del rango intercuartílico

𝐼𝑄𝑅 = 𝑄! − 𝑄!

Donde,

Primer cuartil Q1= 4,75
Tercer cuartil Q3 = 11,25

𝐼𝑄𝑅 = 11,25 − 4,75
𝐼𝑄𝑅 = 6,5

Concluimos que la medida de variación “rango intercuartílico” para el conjunto de datos
o mediciones es de 6,5

Diagrama de caja De acuerdo a Valdivieso (2011) una gráfica de caja, se construye
utilizando la mediana, los cuartiles y el rango intercuatílico. El grafico permite identificar
datos atípicos cuando ellos existen. El procedimiento para los datos del ejemplo 19 es el
siguiente:



Primero
Inicialmente se traza una recta numérica que contenga el rango de los datos y en la cual se
va a ubicar medidas de posición:


Figura 20. Recta numérica, primer paso en la construcción de un diagrama de caja


Segundo
Sobre la recta numérica se construye una caja rectangular con longitud IQR (Q3 –Q2) y
ancho arbitrario, se traza una línea entre los extremos de la caja representando la mediana
o el cuartil 2:

Figura 21. Trazado de la caja, segundo paso en la construcción de un diagrama de caja



Tercero
Se trazan 2 líneas paralelas a la recta numérica denominadas primeras fronteras de la caja
a Q3 ± (1,5 x IQR) y otras 2 líneas paralelas a la recta denominadas segunda frontera Q3 ±
(1,5 x IQR) desde la primera frontera.


Figura 22. Líneas de frontera, tercer paso en la construcción de un diagrama de caja


Cuarto
Se ubican los valores mínimo y máximo del conjunto de datos desde los extremos medios
de la caja y se trazan líneas adyacentes o bigotes hasta dichos puntos.

Figura 23. Líneas denominadas bigotes, Cuarto paso en la construcción de un diagrama de caja


Si las líneas (o bigotes) que se prolongan hasta el dato menor o mayor sobre pasan las
líneas de frontera se procede a borrarlas hasta el valor del dato que no sobre pase las
líneas de frontera.

La longitud de las líneas denominadas bigotes indica la simetría o asimetría de la
distribución. Para nuestro caso la línea izquierda o bigote izquierdo presenta mayor
longitud indicando una asimetría negativa (en caso contrario sería una asimetría positiva).
Cuando la longitud de las líneas denominadas bigotes son iguales se interpreta que existe
simetría y los datos son homogéneos.


Quinto
En caso de presentarse datos o mediciones entre la primera y segunda frontera, se
representará el dato con una “o” y se les denomina datos extremos. Si existen datos que
sobrepasan la segunda frontera, se representará el dato con un “*” y se denomina datos
atípicos. Los datos atípicos y los datos extremos influencian las medidas numéricas
descriptivas como la media aritmética y la desviación estándar. Es por ello la importancia
de la identificación y tratamiento.



Medidas de forma
Los resúmenes numéricos asociados a las medidas de forma más utilizados son el
coeficiente de asimetría y la curtosis. La primera mide el grado de asimetría de una
distribución de un conjunto de datos con respecto la media aritmética. La segunda mide el
grado apuntalamiento o achatamiento de una distribución. Existen diferentes expresiones
para calcular estos coeficientes, a continuación se presenta la definición como lo trabaja
Microsoft Excel.



! ! !! !! !
Coeficiente de asimetría = (!!!)(!!!) !!! !




Donde,

n representa el número de datos o mediciones.

!! !!
!
Representa el cociente entre la diferencia (dato - media aritmética) y la desviación
estándar muestral.
! !! !! !
!!! !
representa la suma de todos los cocientes anteriores elevados al cubo.




!(!!!) ! !! ! ! ! ! (!!!)!
Curtosis = (!!!)(!!!)(!!!) !!! !
− (!!!)(!!!





Donde,

n representa el número de datos o mediciones.

!! !!
!
Representa el cociente entre la diferencia (dato - media aritmética) y la desviación
estándar muestral.

! !! !! !
!!! !
Representa la suma de todos los cocientes anteriores elevados a la cuarta
potencia.










Ejemplos Forma de la distribución de frecuencias

Datos o
mediciones:
2,3,3,4,4,4,5,5,6
Coeficiente de
asimetría = 0
Media = moda =
mediana = 4
Desviación
estándar m =
1,22
Figura 24. Forma de la distribución de frecuencias con coeficiente de asimetría cero


Datos o
mediciones:
2,3,3,3,3,4,4,5,6
Coef. de
asimetría = 0,81
La media (3,66)
> mediana y la
moda (3)
Desviación
estándar m
=1,22 Figura 25. Forma de la distribución de frecuencias con coeficiente de asimetría
positiva


Datos o
mediciones:
2,3,4,4,5,5,5,5,6
Coef. de
asimetría = -
0,81
La media (4,33)<
mediana y la
moda (5)
Desviación
estándar m = Figura 26. Forma de la distribución de frecuencias con coeficiente de asimetría
1,22 negativa

Tabla 19. Ejemplos de las medidas de forma coeficiente de asimetría


Ejemplo Forma de la distribución de frecuencias


Datos o mediciones:
2,2,2,3,3,3,3,4,4,4
Curtosis negativa = -1,398
Característica: montículo
achatado
Denominación:
Platicúrtica


Figura 27. Forma de la distribución de frecuencias con curtosis negativa


Datos o mediciones:
1,2,2,3,3,3,3,4,4,5
Curtosis = 0,080 ≈ cero
(aprox.)
Característica: montículo
en forma de campana.
Denominación:
Mesocúrtica


Figura 28. Forma de la distribución de frecuencias con curtosis
aproximándose a cero


Datos o mediciones:
2,3,3,3,3,3,3,3,3,4
Curtosis positiva = 4,5
Característica: montículo
apuntalado
Denominación:
Leptocúrtica


Figura 29. Forma de la distribución de frecuencias con curtosis positiva

Tabla 20. Ejemplos de las medidas de apuntamiento o achatamiento curtosis



Tema 5
Datos bivariados

Hasta este punto se han abordado temáticas tan importantes como las distribuciones de
frecuencia para datos no agrupados, datos agrupados, gráficas para datos cuantitativos, y
gráficas para datos categóricos. A partir de estos contenidos se ha observado que es
factible sintetizar la información obtenida de la realidad, a través de procesos de medición;
sin embargo, no es la única forma para sintetizar y efectuar una aproximación real al
comportamiento de los datos, o al comportamiento de las variables de estudio y que son
de interés.

La importancia de los datos y las gráficas para dos variables es fundamental, en la medida
que están aproximándose a fenómenos simulados y reales que se explican de manera
natural a partir de su interacción, tal y como sucede en el contexto de las diferentes
profesiones y áreas del conocimiento.

Cuando dos variables se miden en una sola unidad experimental, los datos resultantes se
denominan datos bivariados. ¿Cómo se deben presentar estos datos? No solo son
importantes ambas variables cuando se estudian por separado, sino que el experimentador
también puede explorar la relación entre las dos variables. Los métodos para graficar datos
bivariados, ya sean cualitativos o cuantitativos, permiten estudiar las dos variables juntas.
Al igual que con datos univariados, se usan diferentes gráficas según el tipo de variables
que se midan.


Medidas numéricas para datos cuantitativos bivariados

1. Correlación simple
Como lo indica Celis (2014, p. 175), “El Coeficiente de Correlación habla de la
relación lineal entre dos variables en una población bivariante. Puede asumir
valores entre -1 y +1, indicando con esto relaciones lineales perfectas, positiva e
inversa… mientras más cerca esté el valor numérico del coeficiente de correlación a
1, indistintamente del signo, más estrecha será la relación entre las variables”.

Hay dos formas de estimar la correlación simple: una, cuando las dos variables son
cuantitativas, en cuyo caso se estima a partir del coeficiente de correlación de
Pearson, el cual se presenta con la letra griega ƿ, y su estadístico es:



! !"#" − ( !")( !")
!=
! ! !
! ! ! − ( !) ∗ ! ! − ( !)




2. Regresión lineal simple
Como lo menciona (Triola, 2013, p.536), la regresión lineal simple se puede
entender como “A partir de un conjunto de datos pareados, la ecuación de
regresión: y = β0 + β1x; donde β0 y β1 son los parámetros del modelo. La gráfica de
la ecuación de regresión se denomina recta de regresión”.


Gráficas de dispersión para dos variables cuantitativas

1. Diagrama de dispersión
Permite explorar la relación entre las mediciones a partir de la gráfica de una
variable sobre el eje X y la otra en el eje Y, siempre que estas correspondan al
mismo sujeto, fenómeno, u objeto de estudio (Levine, et. Al, 2014, p. 54).


Figura 30. Diagrama de dispersión


2. Gráfica de series de tiempo
Marca los valores de una variable numérica en el eje Y, y marca el período de
tiempo asociado en el eje X. Sirve para explorar tendencias en los datos que ocurren
con el paso del tiempo. (Levine, et. Al, 2014, p. 56).


Figura 31. Gráfica de series de tiempo


Gráficas para variables cualitativas

Cuando al menos una de las dos variables es cualitativa, se pueden usar gráficas de pastel,
gráficas de líneas y gráficas de barras, ya sea sencillas o más elaboradas, para presentar y
describir los datos. A veces habrá una variable cualitativa y una cuantitativa que se han
medido en dos diferentes poblaciones o grupos. En este caso, es posible usar dos gráficas
de pastel lado a lado, o una gráfica de barras apiladas en la que las barras para cada
categoría se ponen una sobre la otra.

1. Gráfica de barras para dos variables


Figura 32. Gráfica de barras para dos variables


2. Gráfica de pastel lado a lado para dos variables


Figura 33. Gráfica de pastel lado a lado para dos variables

Bibliografía

• Anderson, D. R., Sweeney, D. J., & Williams, T. A. (2001). Estadística para
administración y economía. International Thomson.
• Celis de la Rosa, A. De J. & Labrada Ortagón, V. (2014). Bioestadística. México:
Manual Moderno
• Johnson, R. A. (2012). Probabilidad y Estadística para Ingenieros. México: Ed.
Pearson.
• Lerma G., H. D., y Murillo O., A. P. (2015). Gráficas y tablas estadísticas en Excel,
paso a paso. Bogotá: ECOE, Ediciones.
• Levine, D. M., Krehbiel, T. C., y Berenson, M. L. (2014). Estadística para
Administración. México: Ed. Pearson. Martínez B., C. (2012). Estadística básica
aplicada. Bogotá: ECOE, Ediciones.
• Martínez Bencardino, C. (2012). Estadística Básica Aplicada. Bogotá: Ecoe Ediciones
Limitada.
• Mendenhall, W., Beaver, R. J. & Beaver, B. M. (2015). Introducción a la probabilidad
y estadística. México: Cengage Learning Editores.
• Mira, L. S., Witmer, J. A., & Schaaffner, A. A. (2012). Fundamentos de Estadística
para las Ciencias de la Vida. México: Pearson.
• Newbold, P., Carlson, W. L., y Thorne, B. M. (2013). Estadística para Administración
y Economía. España: Ed. Pearson.
• Triola, M. F. (2013). Estadística. México: Ed. Pearson.
• Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2012). Probabilidad y
estadísticapara Ingeniería y Ciencias. México: Pearson.

Você também pode gostar