Escolar Documentos
Profissional Documentos
Cultura Documentos
1. ESTADÍSTICA DESCRIPTIVA
1.1 Introducción.
¿En dónde se aplica la estadística? Sería prolijo describir todas las actividades
donde entra en juego la estadística como herramienta de investigación, creo que
sería más fácil encontrar donde no es aplicable. En la medida que se logra un
incremento en el conocimiento científico se van encontrando nuevas aplicaciones de
le ciencia estadística. Sin embargo, y a manera de ilustración mencionaremos
algunos de los usos de la estadística en alguno de sus campos.
1
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva
Estas medidas son llamadas de tendencia central porque su valor por lo general se
encuentra en el centro de los datos que se analizan, si éstos son ordenados de
menor a mayor.
Si las observaciones de una muestra aleatoria de tamaño n son: x1, x2,...,xn, entonces
la media de la muestra se simboliza por.
n
_ x x ... x n x i
x 1 2 i 1
n n
Donde:
= letra griega que simboliza suma.
xi = valor de la variable aleatoria.
n = número de observaciones.
Ejemplo. Sea una muestra de seis estudiantes donde la variable en estudio son
los años de edad de cada uno de ellos.
x1 x2 x3 x4 x5 x6
19 23 21 24 20 18
_
19 23 21 24 20 18 125
x 20.83
6 6
La media aritmética es un punto potencial que equilibra todos los puntos ubicados a
uno y otro lado de ella; o sea representa el valor promedio de todas las
observaciones de la muestra.
x1 x2 x3 x4 x5
9 11 20 19 150
2
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva
_
209
x 41.8
5
Como puede apreciarse el valor 41.8 cae fuera del grupo de observaciones, cuando
esto suceda es recomendable verificar si el valor atípico que aparece en los datos es
correcto (150), una observación atípica es un valor que es inusual en relación con el
resto de los datos. Si el valor es correcto, la medida de tendencia central
recomendada para analizar la información es la mediana.
x1 x2 x3 x4 x5 x6
4 2 6 2 7 15
2
2 4 7 15
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0 0 0 0 0 0 0 0
X i
i 1
N
Donde:
= letra griega que simboliza suma.
Xi = variable que se esta estudiando.
N = total de elementos que componen la población.
Puede observarse que para definir los parámetros de la población se utilizan letras
mayúsculas o griegas, mientras que para definir los estimadores de la muestra se
emplean letras minúsculas o números.
1.2.2 Mediana ( M ).
3
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva
Sea x1, x2,...,xn los elementos arreglados en orden creciente de una muestra,
donde x1 indica el valor más pequeño y xn el valor más grande. Entonces la mediana
queda definida por:
9 5 8 2 0 1 5 n es impar
x1 x2 x3 x4 x5 x6 x7
0 1 2 5 5 8 9
Lo anterior nos indica que el 50% de las familias tienen hasta cinco hijos y el 50%
restante tienen cinco hijos o más.
23 17 36 01 49 33 2520
01 17 23 33 36 49 2520
4 3 7 9 5 3
Ordenado:
x1 x2 x3 x4 x5 x6
3 3 4 5 7 9
4
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva
45
M 4.5
2
1.2.3 Moda ( Mo ).
Ejemplo, sea la variable aleatoria las calificaciones finales obtenidas en una muestra
de 10 alumnos en la materia de probabilidad.
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
91 87 99 86 91 79 93 82 91 86
Noventa y uno es la moda ya que ocurre tres veces, lo que significa que el 30% de
los estudiantes obtuvieron de calificación 91 puntos.
Hay ocasiones en que se encuentran dos modas, en este caso se dice que tiene una
distribución bimodal, ejemplo:
1 7 3 6 3 2 4 6
Aquí la moda puede ser 3 y 6. Cuando se tenga más de una moda se dice que se
trata de una distribución multimodal.
_ w x i i
xw i 1
n
w
i 1
i
Donde:
xi = valor de la variable aleatoria.
wi = número de observaciones de la variable aleatoria.
Ejemplo. Un turista carga gasolina en 4 estaciones y paga en cada una 14.70, 13.90,
12.95 y 13.80 pesos por litro, si cargó 15 litros en la primer gasolinera, 20 en la
segunda, 15 en la tercera y 10 en la cuarta. ¿Cuál es el costo promedio por litro?
xi = precio de la gasolina.
Wi = número de litros en cada gasolinera.
5
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva
_
1514.70 2013.90 1512.95 1013.80 830.75
xw 13.846
60 60
Lo que significa que el costo promedio por litro de gasolina es de $ 13.85 pesos.
El líder sindical argumenta que esto es falso ya que la muestra es muy pequeña y
además están mezclados los sueldos de los empleados de base con los de
confianza, ya que sueldos de 17,700 en adelante corresponden a empleados de
confianza. Por lo tanto el sueldo promedio de los empleados de base es el que más
se repite, o sea la moda, la cual es Mo = 10,800.
Como puede apreciarse, las medidas de tendencia central son utilizadas en función
del comportamiento de los datos, en este ejemplo se observa un valor atípico
(27,600) por lo que la medida de tendencia central más recomendable para el
análisis es la mediana.
Es por todo conocido que un número por sí mismo carece de significado, solo lo
adquiere cuando se compara con otros números o estadísticos.
Para describir una distribución en forma más completa es necesario una información
adicional que acompañe a la media, la mediana o la moda.
6
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva
La media de ambas muestras es igual a 248 psi, sin embargo la dispersión de los
datos de la muestra dos es mayor a la de la muestra uno, como puede apreciarse en
el siguiente gráfico.
x x x x x x
* * * ** * Muestra 1 = *
x = 248
1.3.1 Rango.
4 1 3 9 8 11 13 7 29
Rango = (29 - 1) + 1 = 29
Si quitamos el 29 el nuevo rango será: (13 - 1) + 1 = 13 lo que nos indica que los
datos están más compactos.
7
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva
Su interpretación será: entre más grande sea el rango mayor será la dispersión de
las calificaciones.
Ejemplo.
x1 x2 x3 x4 x5
8 10 5 4 3
_
30
La media aritmética es x 6
5
xi x = 2 4 -1 -2 -3
5
x
i 1
i x 12
12
Por lo tanto la desviación media será igual a D.M . 2.4
5
Su interpretación será: tanto mayor sea la desviación media, tanto mayor es la
dispersión de las calificaciones.
La desviación media por sí sola tiene muy poco uso, si la estudiamos es debido a:
Dentro de sus mayores defectos están los mismos que los del rango.
8
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva
x x
n
2
i
S2 i 1
n 1
Dicha fórmula aplicando las leyes del álgebra podemos redefinirla como:
2
n
n
x i
xi
2
S
2 i 1
i 1
n 1 n n 1
Para ver como la varianza de la muestra mide la dispersión de los datos, tomemos
los valores de la muestra dos, de la resistencia al rompimiento en libras por pulgadas
de las botellas.
x x x x x x
x = 248
La varianza nos sirve para medir la variabilidad de los datos en una población, o sea
nos permite conocer la homogeneidad o heterogeneidad de los datos que se están
estudiando.
Muestra 1 Muestra 2
n1 = 6 n2 = 6
x1 = 1,488 x2 = 1,488
x 2
1= x 2
=
2
369,814 376,534
x1 = 248 x2 = 248
9
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva
Al comparar estas dos varianzas vemos que la muestra uno tiene menor variabilidad
que la muestra dos, o sea que los datos están más “apiladitos” alrededor de su
promedio, dicho en otras palabras los datos de la muestra uno son más
homogéneos. Una varianza igual a cero significa que los valores de la variable
aleatoria son iguales.
2 2
S1 S1 158 12.57 psi S 2 S 2 1,502 38.75 psi
De igual forma que para la muestra hay una varianza, existe una medida de
variabilidad para la población, la cual se denota con la letra griega 2, su cálculo es:
2
N N
N
X Xi Xi
2 2
i
2 i 1
i 1 i 1 2
N N N
S
CV (100)
x
10
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva
pequeña. Y entre más cercano esté el CV al 100% significa que la población es más
heterogénea.
12.57 38.75
CV1 (100) 5.1% CV2 (100) 15.6%
248 248
1 = 5 mm. 2 = 17 Km.
21 = 2.67 mm2. 22 = 24 Km2.
1 = 1.63 mm. 2 = 4.9 Km.
Hasta aquí podríamos suponer que la población uno parece tener menor variabilidad
en sus datos que la población dos.
1.63 4.9
CV1 100 32.6% CV2 100 28.8%
5 17
11
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva
Estas medidas nos indican el lugar o posición en que se ubica la variable aleatoria;
conociéndose éstas posiciones por lo general como percentiles, deciles, cuartiles,
etc.
1.4.1 Percentiles
Sea x1, x2,...,xn los elementos arreglados en orden creciente de una muestra,
donde x1 indica el valor más pequeño y x n el valor más grande. Entonces un percentil
puede calcularse de la siguiente manera:
5 8 2 0 1 5
x1 x2 x3 x4 x5 x6
0 1 2 5 5 8
Como es obvio estas cantidades no tienen “ni pies ni cabeza” a menos que las
organicemos de un modo sistemático. Las razones para ordenarlos en una tabla de
frecuencias son:
b) Algunos puntos tienen asociada una frecuencia tan baja o inclusive cero, que no
se justifica para mantenerlas como unidades distintas o separadas.
Como puede observarse no existe una regla definida para determinar el número de
intervalos, ya que solo la experiencia del investigador es la que lo decide. Sin
embargo como apoyo a los alumnos que inician en este tema, podemos citar estas
dos formas.
El empleo de estas dos formas para la obtención del número de intervalos no debe
considerarse como una verdad absoluta, ya que si al obtener las frecuencias en cada
uno de los intervalos en el trabajo que realicemos, encontramos que algunas son
muy bajas o incluso ceros, estos intervalos no tienen sentido tenerlos. Por lo que se
recomienda reducir el número de intervalos e iniciar nuevamente con los cálculos
desde el principio.
Para iniciar con nuestro ejemplo, tenemos el caso práctico donde n = 72, por lo tanto
el número de intervalos a tomar será k = 72 = 8.48 8.
1. Obtención del rango. Se obtiene restando al dato mayor de los datos el dato
menor y sumando uno.
Nota. Cuando los valores de la variable que se está analizando sean menores que
uno, o sean muy parecidos entre sí, se recomienda no sumarle uno al rango.
2. Obtención del tamaño del intervalo de clase. Para esto se divide el rango entre el
número de intervalos, si el resultado es fraccionario redondee al número entero
más cercano.
168 8 = 21
14
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva
176 196 !!
197 217 !!!!
218 238 !!!!! !!!!
239 259 !!!!! !!!!! !!!!
260 280 !!!!! !!!!! !!!!! !!!!! !!!!! !!
281 301 !!!!! !!!
302 322 !!!!
323 343 !!!!
Nota. Si algunas de las frecuencias de clase son muy bajas o incluso ceros, se
recomienda reducir el número de intervalos e iniciar nuevamente con los
cálculos desde el principio.
Nota. Si los datos son pequeños, muy parecidos, o el límite inferior del primer
intervalo inicia con cero, no obtenga los límites reales de clase.
6. Cálculo del punto medio o marca de clase. Se obtiene de sumar los límites
reales de cada intervalo y dividirlos entre dos.
Total 72 1.00
Con los valores de esta tabla ya podemos obtener información que anteriormente no
podíamos, tales como:
¿Si se toma una botella al azar, cuál es la probabilidad de que su resistencia sea
mayor a 280.5 psi? R = 16 / 72 = 0.222.
x f i i
x i 1
n
Donde:
xi = punto medio o marca de clase.
fi = frecuencia de clase .
n = número de observaciones.
i = 1,2..., k intervalos.
Significa que en promedio, una botella tiene una resistencia de 263 libras por
pulgada cuadrada.
16
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva
d1
Mo L w Donde:
d1 d 2 L = límite inferior del
intervalo donde se encuentra la moda.
d1 = diferencia (sin consideración de signo) entre la frecuencia del intervalo
donde se encuentra la moda y la frecuencia del intervalo precedente.
d2 = diferencia (sin consideración de signo) entre la frecuencia del intervalo
donde se encuentra la moda y la frecuencia del intervalo siguiente.
w = tamaño del intervalo de clase.
13
Mo 259.5 21 268.03
13 19
Significa que la mayor parte de las botellas tiene una resistencia de 268.03 psi.
También podríamos decir que aproximadamente el 37% de las botellas tiene una
resistencia de 268.03 psi.
n 1
2 S
M L w
f
Para encontrar su valor en la tabla de frecuencias, lo primero que tenemos que hacer
es localizar el intervalo donde se encuentra la mediana. Ésta se localiza exactamente
a la mitad de los datos, en nuestro caso está en el quinto intervalo, ya que ahí se
encuentra del 41 al 77% de la información, su estimador se obtiene por:
72 1
2 29
M 259.5 21 265.33
27
Lo anterior significa que el 50% de las botellas tienen una resistencia hasta de
265.33 psi y el 50% restantes tienen una resistencia de 265.33 o más.
17
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva
2
k k k
x i x fi
2
x i
2
fi xi f i
2 i 1 i 1 i 1
S
n 1 n 1 n n 1
5055138 189362
S2 1055.92
71 5112
S S 2 1055.92 32.49
S 100 32.49100
C.V . 12.35%
x 263
Otras medidas importante que podemos obtener de la tabla de frecuencias son los
percentiles. El algoritmo matemático para su cálculo se expresa de la siguiente
manera:
d
Di L w
f
Donde:
L = límite inferior del intervalo donde se encuentra el percentil buscado.
18
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva
Por lo tanto la estimación del percentil diez o el primer decil se obtiene por:
1.7
D10 217.5 21 221.47
9
Lo que significa que el 10% de las botellas tienen una resistencia menor o igual a
221.47 psi. O lo que es lo mismo, el 90% de las botellas tienen una resistencia mayor
o igual a 221.47 psi.
Su rango es 0.25 72 0.5 18.5 la estimación del primer cuartil es:
3.5
D25 238.5 (21) 243.75
14
El rango del segundo cuartil es: 0.5 72 0.5 36.5 su valor estimado será:
7.5
D50 259.5 (21) 265.33
27
Cuyo valor debe ser idéntico al obtenido en la mediana, lo cual sirve para verificar si
su cálculo fue bien realizado.
25.5
0.75 72 0.5 54.5 D75 259.5 ( 21) 279.33
27
Significa que le 75% de las botellas tienen una resistencia hasta de 279.33, mientras
que el 25% restante tienen una resistencia mayor o igual a 279.33 psi.
1.5.1 Histograma.
Con el fin de evitar que un gráfico sea mal interpretado, se recomienda la realización
de gráficas mediante la regla de los tres cuartos de altura. Dicha regla consiste en
que el eje de la ordenada (y) debe medir tres cuartas partes de lo que mide el eje de
la abscisa (x). Por ejemplo si el eje x mide 20 centímetros de longitud, el eje y debe
medir 15 cm.
Si unimos los centros de la parte superior de cada rectángulo obtenemos una nueva
gráfica que se llama polígono de frecuencias, podemos ver que la figura que tiene
20
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva
El histograma visto como histograma no nos dice mucho, para ver su aplicación
tomemos como ejemplo una máquina despachadora de refrescos en vaso, donde
sirve un promedio de = 355 ml. y sus límites de calidad son: LIC = 350 y LSC =
360 ml. Si tomamos una muestra de n vasos y realizamos su histograma, éste puede
presentar las siguientes figuras:
EN CONTROL Y ES CAPAZ
21
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva
EN CONTROL NO CAPAZ
22
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva
F F
r r
e e
c c
u u
e e
n n
c c
i i
a a
La interpretación para este gráfico es: en la parte izquierda se leen los datos de la
muestra, así para cualquier punto considerado en el eje y (ordenada) nos
proporciona un número de elementos que son menores o iguales al eje de la x
(abscisa); así podemos observar que 29 botellas tienen una resistencia menor o
igual a 259.5 psi.
Así la ecuación que mejor describe la relación entre los límites de clase y la
frecuencia relativa acumulada es: yˆ 1.354 7.607 x , con la cual ya podemos
hacer predicciones para la frecuencia relativa acumulada en función de los valores
de x, dentro del rango 175.5 a 343.5.
Una gráfica de caja es una representación gráfica, que por lo general nos describe
de manera simultánea varias características de la muestra con la que estamos
trabajando, tales como: centro de los datos, la dispersión, la desviación de la simetría
y valores que caen inusualmente lejos del grueso de los datos.
Un valor atípico puede surgir por: trasponerse dígitos cuando se registra una
medición, realizar una mala lectura en un instrumento, mal funcionamiento de una
23
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva
pieza de equipo o por otras causas. Estos valores atípicos pueden traer como
consecuencia la obtención de estimadores con cierto sesgo.
5. Forme una caja arriba de la recta horizontal con los extremos derecho e izquierdo
en D25 y D75 .
Los datos que queden fuera de los límites inferior y superior se consideran valores
atípicos y se marcan en la gráfica con un asterisco y los valores atípicos extremos se
marcan con un círculo.
Para mostrar como se realiza una gráfica de caja, tomemos el ejemplo la resistencia
al rompimiento en libras por pulgada cuadrada (psi) de las 72 botellas de vidrio visto
con anterioridad.
Gráfica de caja de C2
360
320
280
C2
240
200
C1
25
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva
1 8
2 4
3 12
4 2
5 14
6 10
7 6
8 16
9 18
10 10
11 14
12 8
13 16
230 250 245 258 265 240 255 248 252 260
C1
26
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva
1 230
2 250
3 245
4 258
5 265
6 240
7 255
8 248
9 252
10 260
Para ilustrar la manera de como Minitab es utilizado para elaborar los intervalos de
clase, la tabla de frecuencias y el histograma correspondiente con datos agrupados,
utilizaremos el ejemplo de la resistencia en psi. de las 72 las botellas de vidrio.
C1
1 265
2 205
3 263
4 307
. .
. .
27
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva
. .
69 337
70 250
71 278
72 254
Minitab le proporciona lo siguiente: Mínimo 176, máximo 343 y rango 167. Ahora
empleando la regla de Sturges o la regla práctica, obtenga de manera manual el
número de intervalos y el tamaño de ellos de la siguiente manera.
El límite inferior del primer intervalo es el mínimo valor encontrado en los datos que
es 176 y el límite superior del primer intervalo será 176 + (tamaño del intervalo – 1), o
sea 176 + 20 = 196.
El límite inferior del segundo intervalo, es el entero consecutivo al límite superior del
primer intervalo o sea 197 y el límite superior del 2º intervalo es 197 + (tamaño del
intervalo – 1), o sea 197 + 20 = 217. Y así sucesivamente para los otros seis
intervalos. Por lo que los intervalos de clase son:
176 – 196
197 – 217
218 – 238
239 – 259
260 – 280
281 – 301
302 – 322
323 – 343
2. Elegir Codificar.
6. Elegir Tablas.
Para ilustrar la forma de cómo Minitab es utilizado para obtener un diagrama de caja,
tomemos el ejemplo de la resistencia al rompimiento en psi. de 72 botellas de vidrio
no retornable (página 13). Para generar los estimadores correspondientes siga los
pasos siguientes:
C1
1 265
2 205
3 263
4 307
5 220
6 268
7 260
8 234
9 197
. .
. .
. .
71 278
72 254
30
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva
1. capturar los 72 datos como lo indica el punto 1 del ejemplo de diagrama de caja.
Para ilustrar la forma de cómo Excel es utilizado para obtener una distribución de
frecuencias con datos cuantitativos, tomaremos el ejemplo de la resistencia al
rompimiento en psi. de 72 botellas de vidrio no retornable (página 13).
A B C D E
1 Resistencia Resistencia Limite Frecuencia
Superior
2 265 176-196 196
3 205 197-217 217
4 263 218-238 238
5 307 239-259 259
6 220 260-280 280
7 268 281-301 301
8 260 302-322 322
9 234 323-343 343
10 197
. .
. .
. .
72 278
73 254
32
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva
2. Elaboración de un histograma.
A B
1 2 186
2 4 207
3 9 228
4 14 249
5 27 270
6 8 291
7 4 312
8 4 333
5. Hacer clic derecho dentro del cuadro que aparece en blanco en la pantalla.
Hacer clic en Seleccionar datos.
33
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva
En los cuadros de diálogo, Excel tiene otras posibilidades más que usted puede
aprovechar seleccionando las opciones que desee.
34