Escolar Documentos
Profissional Documentos
Cultura Documentos
Clave: 01
Otto René Rivas Juárez
Carné o NOV: 199814303
Salón: 111 Edificio: S-3
Con este importante tema se espera lograr comprender, analizar y a utilizar los
datos estadísticos e interpretarlos de una manera clara y comprensible a través
de las diferentes técnicas de la estadística.
1
ESTADÍSTICA
Las palabras muestra y población tienen dos significados para la mayoría de las
personas. Por ejemplo, usted se entera por los periódicos que una encuesta de
Gallup efectuada en el País se basó en una muestra de 1823 personas.
Supuestamente, a cada persona entrevistada se le plantea una pregunta particular
y la contestación de la persona representa una sola medida en la muestra. ¿La
muestra consiste en el conjunto de 1823 personas o en las 1823 respuestas?
Cuando por primera vez tiene ante sí un conjunto de medidas – una muestra o
una población – usted necesita encontrar una forma de organizarla y resumirla.
La rama de la estadística que proporciona técnicas para describir y resumir las
características importantes de conjuntos de medidas se llama estadística
descriptiva. Se ha visto estadísticas descriptivas en muchas formas: las gráficas
de barras, de sectores y diagramas de líneas que presenta un elemento estudiado,
las tablas con valores numéricos en el periódico; o la precipitación pluvial media
que da a conocer un meteorólogo por la televisión local. Las gráficas generadas
mediante computadora y los resúmenes numéricos son comunes en la
comunicación cotidiana.
Por ejemplo, la temperatura corporal es una variable que cambia con el tiempo en
un solo individuo y también de una persona a otra. La afiliación religiosa, el origen
étnico, el ingreso, la estatura, la edad y el número de descendientes son variables;
características que varían dependiendo del individuo elegido. Cuando una
variable se mide en realidad sobre un conjunto de unidades experimentales, se
obtiene un conjunto de datos específicos. Ejemplo:
Aunque analizamos por separado cada variable, recordemos que medimos cada
una de estas cinco variables en una sola unidad experimental: el estudiante. Por
lo que, en este ejemplo, una medición en realidad consiste en cinco
observaciones, una para cada una de las cinco variables medidas. Por ejemplo,
la medición tomada en el segundo estudiante arroja las siguientes observaciones:
Calificación promedio: 2.3, genero: femenino; especialidad: economía y número
de materias inscritas: 15. Se puede ver que hay una diferencia entre una sola
variable medida en una sola unidad experimental y variables múltiples medidas
en una sola unidad experimental. En la primera hablamos de datos univariados
y la segunda datos bivariados y multivariados. Si se miden las temperaturas
corporales de 148 personas, los datos resultantes son univariados, mientras que
en el caso de los estudiantes universitarios son datos multivariados.
Las variables cualitativas producen datos que se pueden clasificar de acuerdo con
similitudes o diferencias de clase; por consiguiente, a menudo se denominan
datos categóricos. Las variables género, año y especialidad en el ejemplo
anterior son variables cualitativas que producen este tipo de datos. Otros
ejemplos serían: afiliación política: republicano, demócrata, independiente;
sabores: excelente, bueno, regular, malo; color de un dulce: café, amarillo, rojo,
anaranjado, verde, azul.
Por ejemplo, el número de taxis no registrados solo puede tomar los valores x =
0, 1, 2..., en tanto que el peso de un paquete puede tomar cualquier valor mayor
que cero. Para describir esta diferencia se definen las variables discretas, en
las cuales sólo se puede adoptar un número contable finito de valores; y las
variables continuas, las cuales pueden adoptar una cantidad infinita de valores
que corresponden a los puntos en un intervalo lineal.
El nombre discreto se relaciona con los espacios discretos entre los valores
posibles que puede adoptar la variable. Variables como el número de miembros
de una familia, el número de automóviles nuevos que se venden y el número de
5
Para este propósito se pueden construir una tabla estadística, con la cual se
pueden mostrar gráficamente los datos como una distribución de datos. El tipo
de gráfica que elija depende del tipo de variable que haya medido. Cuando la
variable de interés es cualitativa, la tabla estadística es una lista de categorías
que se consideran junto con una medición de la frecuencia con que aparece cada
valor. Para este propósito se dispone de tres parámetros:
Ejemplo:
Una bolsa de maní confitado M&M contiene 21 dulces de colores (la variable color
es cualitativa). Los colores que se presentan son los siguientes:
Gráficas de líneas
Debido a que las personas que nacieron durante la explosión demográfica (1977
a 1985) están envejeciendo, al gobierno le interesa cada vez más la estabilidad
del sistema de seguridad social. Los porcentajes reales y proyectados de obreros
asegurados por invalidez durante los años 1985-2005 se listan a continuación:
Diagramas de dispersión
Este diagrama muestra una representación gráfica de los datos usando los valores
numéricos reales de cada punto de los datos. Procedimiento:
90 70 70 70 75 70 65 68 60 74 70 95
75 70 68 65 40 65 70
Para crear el tallo y las hojas puede dividir cada observación entre unidades y
decenas. El número a la izquierda es el tallo; el número a la derecha es la hoja.
Así, para los zapatos que costaron Q.65.00, el tallo es 6 y la hoja 5. Los tallos
que varían de 4 a 9, se listan a continuación junto con las hojas para cada uno de
los 19 datos específicos. Si se indica que la unidad de la hoja es 1, el lector
comprenderá que el tallo y la hoja 6 y 8, por ejemplo, representan el número 68,
registrando el dólar más cercano.
10
4 0 Unidad de la hoja = 1 4 0
5 5
6 580855 Reordenamiento 6 055588
7 0005040500 7 0000000455
8 8
9 05 9 05
A veces las opciones de tallo disponibles dan como resultado una gráfica que
contiene muy pocos tallos y un gran número de hojas en cada tallo. En esta
situación se pueden estirar los tallos al dividir cada uno en varias líneas, lo cual
depende de los valores de hoja que se reasignaron. Por lo general se dividen por
una de dos maneras:
En dos líneas, con las hojas 0-4 en la primera línea y las hojas 5-9 en la
segunda línea.
En cinco líneas, con las hojas 0-1, 2-3, 4-5, 6-7, 8-9 en las cinco líneas
respectivamente.
2.0 3.1 1.9 2.5 1.9 2.3 2.6 3.1 2.5 2.1 2.9 3.0
2.7 2.5 2.4 2.7 2.5 2.4 3.0 3.4 2.6 2.8 2.5 2.7
2.9 2.7 2.8 2.2 2.7 2.1
Los datos, aunque registrados con precisión de un solo decimal, son datos
específicos de las variables continua x = CP, que puede tomar valores en el
intervalo 0-4.0. Al examinar los datos, puede verse rápidamente que la calificación
promedio más alta y más bajo son 3.4 y 1.9 respectivamente. ¿Pero cómo se
distribuyen las demás CP? Si se utiliza el punto decimal como la línea divisora
entre el tallo y la hoja, se tienen sólo tres tallos, lo cual no produce una muy buena
representación. ¡Aun cuando se dividiera cada tallo en dos líneas, hay sólo cuatro
tallos, puesto que la primera línea del tallo 1 y la segunda línea del tallo 4 están
vacías! Al dividir cada tallo en cinco líneas se produce un diagrama más
descriptivo, como se mostrará a continuación. Para estos datos la unidad de la
hoja es 0.1 y el lector puede inferir que el tallo y la hoja 2 y 6, por ejemplo,
representan la medida x = 2.6
11
1 99 1 99
2 011 2 011
2 32 2 23
2 5455554 Reordenamiento 2 4444444
2 7676777 Unidad de la hoja = 0.1 2 6677777
2 9889 2 8899
3 1010 3 0011
3 3
3 4 3 4
: : :
: : : : : : : :
: : : : : : : : : . . : : : :
: : : : : : : : : : : : : . . . . . . : : : : : :
1 2 3 4 5 6 7 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
Este es similar a una gráfica de barras, pero se usa para representar información
cuantitativa en lugar de datos cualitativos. Con el fin de crear categorías similares
a las utilizadas para la información cualitativa, se divide el intervalo desde la
medición más pequeña hasta la más grande en una cantidad arbitraria de
subintervalos o clases de igual longitud. Como regla práctica, la cantidad de
clases debe variar entre cinco y diez; a medida que se cuenta con más información
se requieren más clases. Es necesario escoger las clases de tal manera que cada
medición caiga en una y sólo una clase. Una vez que se formaron las clases los
datos específicos se colocan en sus categorías apropiadas y el resultado es un
Histograma de frecuencias o bien, un histograma de frecuencias relativas.
Ejemplo:
2.0 3.1 1.9 2.5 1.9 2.3 2.6 3.1 2.5 2.1 2.9 3.0
2.7 2.5 2.4 2.7 2.5 2.4 3.0 3.4 2.6 2.8 2.5 2.7
2.9 2.7 2.8 2.2 2.7 2.1
Para los datos anteriores se usarán ocho intervalos de igual amplitud. Como el
espacio total que abarcan los datos es 3.4 – 1.9 = 1.5, la amplitud aproximada de
las clases es 1.5 8 = 0.1875. Para facilitar el cálculo se redondea el valor de la
amplitud aproximada a 0.2. Si se empieza el primer intervalo en el valor más bajo
1.9, se forman intervalos a partir de 1.9 hacia arriba, pero sin incluir el 2.1, de 2.1
hacia arriba, pero sin incluir el 2.3 y así sucesivamente. Cuando se utiliza el
método de la inclusión izquierda, es decir, cuando se toma en cuenta el límite
izquierdo de la clase, pero no su límite derecho, se elimina cualquier confusión
respecto a dónde colocar una medición que cae sobre un punto límite de clase.
GRAFICA 6 HISTOGRAMA FRECUENCIA RELATIVA
Suponga que escribió cada uno de los 30 datos en trozos de papel, que los puso
dentro de un sombrero y que se sacó uno al azar ¿cuál es la probabilidad de que
este trozo de papel tenga un valor de 2.7 o mayor? Ya que 14 de los 30 trozos
están en esta categoría, se tienen 14 oportunidades de 30, es decir, la
probabilidad es 14/30.
Una segunda limitación es que las gráficas son, en cierto modo, imprecisas si se
desean usar en inferencia estadística. Por ejemplo, suponga que desea utilizar
un histograma de la muestra para inferir información respecto a un histograma de
la población. ¿Cómo se pueden medir las similitudes y las diferencias entre los
dos histogramas de manera concreta? Si fueran idénticos, usted diría: “son
iguales”, pero si son distintos es difícil establecer el “grado de diferencia”.
Una manera de superar estos problemas es usar medidas numéricas, las cuales
se calculan para una muestra o una población de mediciones. Se puede usar los
datos para calcular un conjunto de números que transmitirán una imagen mental
aceptable de la distribución de frecuencias. Estas medidas se llaman parámetros
cuando se relación con la población y estadísticos cuando se calculan a partir de
las mediciones en la muestra. Una de las medidas numéricas más importantes
son las medidas de tendencia central, es decir, una medida en el eje horizontal
que ubica el centro de la distribución.
Los datos presentados en el ejemplo anterior variaban entre 1.9 y 3.4 y el centro
del histograma se localizaba alrededor de 2.6. Consideremos algunas reglas para
localizar el centro de una distribución de mediciones.
Media aritmética
= x n
= (2+9+11+5+6) 2
= 6.6
Los datos del ejemplo anterior son una muestra de una población mayor y la media
de estos datos es:
= x n
= 77.5 30
= 2.58
= [(xi)] n
La diferencia con la ecuación del caso anterior consiste en [(xi)], que significa
la suma o sumatoria del producto de las frecuencias por los valores de la serie.
= (x) n
17
La complejidad de los datos en estadística es cada vez mayor y por ello, requiere
utilizar procedimientos más simples, pero igualmente efectivos que los expuestos,
por ello se creó una ecuación abreviada para el cálculo de la media aritmética,
que es la siguiente:
= as + [(d) n]i
Los nuevos elementos que se incluyen en esta ecuación son as, que significa
media aritmética supuesta y que significa desviación. La i representa la amplitud
de los intervalos.
Debajo del lugar de la media supuesta queda el valor 73.5 y respecto a 79.5 se
disminuye en -6, por ello la desviación es -6, etc.
Mediana
Ejemplos:
PMd = (n+1) 2
PMd = (5+1) 2
PMd = 3
PMd = (n+1) 2
PMd = (6+9) 2
PMd = 7.5
= x n
= 60 6
= 10
Md = mediana
Li1 = Límite real inferior en donde se localiza la mediana
n2 = la mitad de la cantidad de casos o frecuencias
a1 = frecuencia acumulada inmediata anterior al intervalo donde se
encuentra la mediana
= frecuencia absoluta del intervalo donde se localiza la mediana
I = Valor de la amplitud del intervalo donde está la mediana (supuesta).
El Límite real inferior se calcula restándole media unidad al límite inferior del
intervalo. Cuando el límite inferior es un entero. Ejemplo: suponiendo el intervalo
15-19, el límite inferior del intervalo es 15-0.5 = 14.5. Luego de determinar la
21
Intervalos a P=N2
28-36 5 5 P = 802
37-48 11 16 P = 40
46-54 12 28
40 es la posición de la mediana, como no está en
55-63 19 47 la frecuencia, se localiza entre 28 y 47. el intervalo
64-72 14 61 mediano es 55-63. la frecuencia acumulada
73-81 12 73 anterior es 28 y se localiza en la columna
82-90 6 79 denominada a.
91-99 1 80
N=
80
Xi a
28-36 5 5
37-48 11 16
46-54 12 28
55-63 19 47
64-72 14 61
73-81 12 73
82-90 6 79
91-99 1 80
N = 80
Luego de calcular los valores de los componentes de la fórmula, es decir n2, Li1,
a1, , i, se sustituyen en la fórmula y se opera. Ejemplo:
Cálculo de Md:
Md = 54.5 + {[(802)- 28] 19}9
Md = 54.5 + {[40-28] 19}9
Md = 54.5 + {1219}9
Md = 54.5 + 10819
Md = 54.5 + 5.68
Md = 60.18
Moda
0 3 5 4 3 2 1 3 1 2 1 1
2 0 1 4 3 2 2 2 2 2 2 3 4
23
En los datos
de las
calificaciones
promedio, el
valor 2.5 se
presenta
cinco veces,
por
consiguiente,
la moda de la
distribución
es 2.5. Si se usa el histograma para determinar la clase modal encontrará dos
clases que ocurren con igual frecuencia.
Por fortuna, estas clases están a un lado de la otra en la tabulación, por tanto, el
valor elegido para la moda es 2.7, el valor en el centro entre la cuarta y quinta
clases, como se ve en la siguiente figura:
Moda cruda. Con este nombre se identifica la marca de clase del intervalo,
correspondiente al mayor valor en una distribución de frecuencias. Para
ubicarlo es necesario localizar el intervalo de clase que corresponde a la
24
Xi a
28-36 5 5 Es importante recordar que la marca de clase es la
37-48 11 16 semisuma de los límites de un intervalo. En la tabla
46-54 12 28 anterior, la frecuencia mayor es 19 y corresponde al
55-63 19 47 intervalo 55-63. La fórmula para su cálculo es:
64-72 14 61
73-81 12 73 Mo = (Li + Ls) 2
82-90 6 79 Mo = 59
91-99 1 80
N = 80
X Marca de Clase Xi
28-36 5
37-48 11
46-54 12
55-63 19 59 moda cruda
64-72 14
73-81 12
82-90 6
91-99 1
N = 80
En una serie simple, la moda se localiza en el valor que se repite más veces. Para
ello sólo se busca la frecuencia mayor y se localiza la moda. Ejemplo: Edad a la
que se gradúan los estudiantes del nivel medio en la escuela normal.
x a
16 50
17 75
18 100
19 450 Moda = 19 años
20 70
21 60
25
22 25
N = 530
Cuando dos cantidades se repiten la misma cantidad de veces, la serie tiene dos
modas y se llama bimodal, si existen tres modas se llama trimodal y si existen
más, se llama plurimodal.
Mo = Li1 + {[1(1+2)]} i
Donde:
Mo = Moda.
Li1 = Límite real inferior del intervalo donde se localiza la frecuencia mayor.
1 = Delta uno, corresponde a la diferencia entre la frecuencia mayor y
la anterior a ésta.
2 = Delta dos, corresponde a la diferencia entre la frecuencia mayor y
la posterior a ésta.
I = Amplitud del intervalo.
Intervalos
28-36 5 Frecuencia absoluta mayor = 19
37-48 11 Límite real inferior del intervalo = 54.5
46-54 12 Amplitud del intervalo = 9
55-63 19 Frecuencia anterior a la frecuencia modal = 12
64-72 14 Frecuencia posterior a la frecuencia modal = 14
73-81 12 Intervalo = 9
82-90 6
91-99 1
N = 80
2 = 19-14
2 = 5
Mo = Li1 + {[1(1+2)]} i
Mo = 54.5 + {[7(7+5)]}9
Mo = 54.5 + (6312)
Mo = 59.75
La moda interpolada es 59.75
FRACTILES
Cuartiles
Los cuartiles son los fractiles que dividen el total de casos en cuatro grupos
iguales, a cada cuarto le corresponde un 25% de los casos. Los cuartiles se usan
como medidas de dispersión en la descripción de datos. El símbolo que se usa
para identificar a los cuartiles es la letra Q y se coloca un número como subíndice
para identificarlo: Q1, primer cuartel; Q2, segundo cuartel, Q3, tercer cuartil. El
cuarto cuartel no tiene representación. Es necesario señalara que el segundo
cuartil, corresponde a la mediana. La gráfica siguiente muestra los cuartiles.
Q1 Q2 Q3
El primer cuartel no tiene representación, es una medida sobre la cual existe 75%
de los casos y por debajo, el 25%.
27
Cálculo del primer cuartil en una serie simple de valores sin agrupar
Si se tiene una serie simple de valores sin agrupar y se quiere determinar el primer
cuartil se puede usar la fórmula:
PQ1 = (n+1) 4
Donde
PQ1 = Posición del cuartil
N = Número de casos
Antes de calcular los cuartiles es necesario ordenar los datos como aparecen en
el ejemplo:
Serie
2 PQ1 = (n+1) 4
3
PQ1 = (11+1) 4
4
PQ1 = 12 4
5
PQ1 = 3
6
7
La posición se encuentra en la tercera cantidad y el valor que está en
8
esa posición es el 4. Por lo tanto, el 4 es el Q1 (primer cuartil de la
9
serie).
10
11
12
N = 11
El tercer cuartil, es una medida sobre la cual existe el 25% de los casos y por
debajo el 75%. Para ello se usa la fórmula siguiente:
Q3 = 3(n+1) 4
Q3 = 3(11+1) 4
Q3 = 9 En la posición 9 está el valor 10, entonces Q3 = 10
Para calcular la posición del primer cuartil, en una serie de casos agrupados
bien en amplitud constante o variable se usa la ecuación siguiente:
Q1 = Li1 + {[(n/4)- a1] }i
Intervalos a
50-54 4 4
29
Intervalos a
50-54 4 4
55-59 5 9
60-64 5 14 Segundo, se localiza el valor 17.75 en las
65-69 12 26 Q1 frecuencias acumuladas, que en este caso queda
70-74 17 43 entre los valores 14 y 26. Luego se visualiza la
75-79 12 55 frecuencia acumulada inmediata superior a 17.75
80-84 7 62 porque éste determina la posición del cuartil.
85-89 4 66
90-94 2 68
95-99 3 71
N = 71
Al sustituir los valores en la ecuación, se determina el valor del primer cuartil (Q1)
así:
Q1 = 66.1
Para calcular la posición del segundo cuartil, el cuartil Q2 siempre coincide con
el valor de la mediana.
PQ3 = (3n/4)
PQ3 = (3*71) 4
PQ3 = 213 4
PQ3 = 53.25
Intervalos a
50-54 4 4
55-59 5 9
60-64 5 14
65-69 12 26
70-74 17 43
75-79 12 55
80-84 7 62
85-89 4 66
90-94 2 68
95-99 3 71
31
Deciles
Existen varias fórmulas para calcular los deciles en una serie de valores
agrupados con amplitud constante o variable. A Continuación, se expone una
fórmula general y su simbología.
Donde:
Dz = Representa al decil que se quiere buscar, sólo se debe sustituir el
número por la z en las partes pequeñas que se encuentre esta
variable.
Li1 = límite inmediato anterior al lugar donde se localiza el decil.
Determina la posición del decil.
a = Frecuencia acumulada anterior a donde se ubica el decil.
= frecuencia absoluta del decil.
I = Amplitud del intervalo donde se encuentra el decil.
Intervalos a
40-44 3 3
45-49 4 7
50-54 5 12
55-59 7 19
32
60-64 10 29
65-69 12 41
70-74 9 50
75-79 5 55
80-84 5 60
85-89 3 63
90-94 3 66
95-99 1 67
N = 67
Li1 = 45-0.5=44.5
zn10 = 6.7
a1 = 3
= 4
I = 5
Aplicado en la fórmula:
D1 = Li1 + {[(zn10)- a1] }i
D1 = 44.5 + {[6.7- 3] 4}5
D1 = 49.12
a1 = 19
= 10
I = 5
Aplicado en la fórmula:
D3 = Li1 + {[(zn10)- a1] }i
D3 = 59.5 + {[20.1-19] 10}5
D3 = 60.05
Percentiles
Estos fractiles dividen los datos en cien partes iguales, su cálculo se hace
utilizando los procedimientos empleados en los casos anteriores, es decir, en los
cuartiles y deciles. La fórmula que se utiliza para calcular cualquier percentil es la
misma, lo que va a variar es el número del percentil que se quiere buscar y el
producto por el número de casos. La fórmula que puede usarse para calcular
cualquier percentil es la siguiente:
El centil 70 se ubica entre 46 y 66, este dato de la ubicación permite calcular los
otros datos, tal como sigue:
Los conjuntos de datos pueden tener el mismo centro, pero verse diferentes
debido a la forma en que los valores se dispersan a partir del centro. Observe las
dos distribuciones de las figuras que aparecen abajo. Ambas distribuciones tienen
su centro en x = 4, pero hay una gran diferencia en la forma en que las mediciones
se dispersan o varían. Las mediciones en la figura (a) varían de 3 a 5; en la figura
(b) varían de 0 a 8.
2.0 3.1 1.9 2.5 1.9 2.3 2.6 3.1 2.5 2.1 2.9 3.0
2.7 2.5 2.4 2.7 2.5 2.4 3.0 3.4 2.6 2.8 2.5 2.7
2.9 2.7 2.8 2.2 2.7 2.1
En éstos, las mediciones varían desde 1.9 hasta 3.4. Por lo tanto, el rango es 3.4-
1.9 = 1.5. El rango es fácil de calcular, fácil de interpretar y muy adecuado para
medir la variación en conjuntos pequeños de datos. Pero cuanto los conjuntos
son grandes, el rango no es una medida adecuada de variabilidad. Por ejemplo,
las dos distribuciones de frecuencias relativas de la figura de abajo tienen el
mismo rango, pero diferente forma y variabilidad.
¿Existe una medida de la variabilidad que sea más simple que el rango?
Considere a manera de ejemplo, la muestra de mediciones 5, 7, 1, 2, 4 ilustrada
más adelante como un diagrama de dispersión. La media de estas cinco
mediciones es:
= x n = 19 5 = 3.8
2 = (xi – μ)2
N
s2 = (xi – )2
n-1
Por ejemplo, usted podría calcular la varianza del conjunto de las siguientes
mediciones:
37
X (xi - ) (xi - )2
El cuadrado de la desviación de cada valor se registra en
5 1.2 1.44 la tercera columna. Al sumar se obtiene 22.80. La varianza
7 3.2 10.24 de la muestra es entonces:
1 -2.8 7.84
2 -1.8 3.24 s2 = (xi – )2
4 0.2 0.04 n-1
19 0.0 22.80
s = 22.80 (5-1) = 22.80 4=
2 5.70
El valor d elevado al cuadrado permite anular los signos negativos que pueden
tomar los valores de desviaciones, para eliminar una propiedad de la media que
dice: la suma de las desviaciones de los valores de la variable respecto a la media
es igual a cero.
X (xi - ) (xi - )2
12 +6 36
14 +4 16
16 +2 4
18 0 0
38
20 -2 4
22 -4 16 = √(d2) N
24 -6 36 = √112 7
= 7 = 112 = √16
=4
= √[(x2i) N] - 2
Donde:
= valor de la desviación
= frecuencias de los intervalos de clase
Xi = puntos medios de los intervalos de clase
N = total de puntajes
X2 = puntos medios al cuadrado, de intervalos de clase
2 = valor de la media al cuadrado
1º. Calcular los puntos medios y multiplicarlos por su frecuencia, esto dará como
resultado una columna xi, la cual hay que sumar para obtener xi.
2º. Se debe calcular la media y elevarla al cuadrado.
3º. Se multiplica cada punto medio por xi y se suman estos productos para
obtener el total de casos.
4º. Se aplica la fórmula y se obtiene el valor de la desviación.
Aplicando la fórmula:
= √[(x2i) N] - 2
= √ [45388 19] – 2,364.88
= √2388.84 – 2,364.88
= √23.97 = 4.89
Plastex 63 – 58 – 43 – 46 – 38 – 54 – 57 – 64
Syntel 45 – 46 – 49 – 49 – 50 – 54 – 55 – 62
Flexyl 44 – 44 – 48 – 49 – 51 – 53 – 53 – 61
El primer paso que debe darse para proceder a efectuar el análisis e interpretación
estadística de series simples es ordenar las series de datos de acuerdo con la
magnitud de los mismos así.
40
a) Media Aritmética
Para calcular la mediana de series simples, primero se calcula la posición “n” así:
Posición = (n+1) 2
Posición = (9+1) 2
Posición = 4.5
En vista que las tres series están integradas por 8 elementos, la posición (4.5)
será la misma para todas. El paso siguiente es encontrar el valor en x, cuando la
41
serie es par, como en este caso, es necesario interpolar entre los dos valores
(anterior y posterior a la posición) así:
Plastex Md = (54+57) 2
Md = 55.5 miles de bolsas por rollo.
Syntel Md = (49+50) 2
Md = 49.5 miles de bolsas por rollo.
Flexyl Md = (49+51) 2
Md = 50.0 miles de bolsas por rollo.
Lo anterior significa que el valor que está a la mitad de la serie cuanto ésta ha sido
ordenada del menor al mayor valor y por lo tanto sobre y bajo de él, se encuentra
el 50% de valores en cada uno de los casos estudiados.
c) Moda
6 58 6 54 6 53
7 63 7 55 7 53
8 64 8 62 8 61
Total 423 Total 410 Total 403
MEDIDAS DE DISPERSIÓN
R = L 2 – L1
Donde:
L2 = valor más alto de la serie
L1 = valor más bajo de la serie
Para poder utilizar la fórmula debemos construir en cada caso una columna de
equis menos equis barra al cuadrado, así:
43
Plastex
n (Rollo) x (Rendimiento) (x- )2
1 38 221.41
2 43 97.61
3 46 47.33
4 54 1.25
5 57 16.97
6 58 26.21
7 63 102.41
8 64 123.65
Total 423 636.84
Syntel
n (Rollo) x (Rendimiento) (x- )2
1 45 39.06
2 46 27.56
3 49 5.06
4 49 5.06
5 50 1.56
6 54 7.56
7 55 14.06
8 62 115.56
44
Flexyl
n (Rollo) x (Rendimiento) (x- )2
1 44 40.70
2 44 40.70
3 48 5.66
4 49 1.90
5 51 0.38
6 53 6.86
7 53 6.86
8 61 112.78
Total 403 215.84
Como puede notarse la marca Plastex, presente una mejor situación a nivel de las
medidas de tendencia central (media y mediana), que las otras dos marcas, sin
embargo, cuando se examinan las medidas de dispersión, es evidente que resulta
siendo la que tiene un comportamiento menos uniforme y, por lo tanto, la media
aritmética de 52.88 miles de bolsas por rollo, es menos segura que las de las otras
marcas. En cuanto a Syntel y Flexyl, puede decirse que la primera tiene una media
de rendimiento mayor y, además, un comportamiento más uniforme que la marca
Flexyl. Esto último, se evidencia en el valor del coeficiente de variación, puesto
que ambas tienen la misma desviación estándar.
I=RK
Donde:
R = Rango
K = posible número de clases, sin aproximar.
De igual manera como se procedió con series simples se hará con muestras
grandes, es decir, se calcularán la media, la mediana y la moda, con la diferencia
que para datos agrupados es posible emplear métodos diferentes, algunos de los
47
a) Básico o directo
Como puede notarse, para utilizar esta fórmula debe agregarse a la distribución
de frecuencias una columna de frecuencias por puntos medios o marcas de clase
(fx) y efectuar la sumatoria.
Límites reales x x
18.5-21.5 16 20 320
21.5-24.5 30 23 690
24.5-27.5 22 26 572
27.5-30.5 19 29 551
30.5-33.5 8 32 256
33.5-36.5 4 35 140
36.5-39.5 4 38 152
= 2681
Donde:
A = media supuesta o falsa media
d = diferencias de x con respecto a la media supuesta
d = x-A
48
El valor por elegir como media supuesta o falsa media puede ser cualquiera de
los puntos medios o marcas de clase, para este caso se utilizará 29. Por lo tanto,
a la distribución de frecuencias deberá agregársele una columna de diferencias
de x con respecto a la media supuesta y una de frecuencias por las diferencias
(d) así:
Límites reales x d d
18.5-21.5 16 20 -9 -144
21.5-24.5 30 23 -6 -180
24.5-27.5 22 26 -3 -66
27.5-30.5 19 29 0 0
30.5-33.5 8 32 3 24
33.5-36.5 4 35 6 24
36.5-39.5 4 38 9 36
= 306
Como un aspecto importante cabe resaltar que, con la utilización de este método,
el cálculo es más rápido y como puede notarse el valor calculado es el mismo. Se
agiliza más la ejecución de las operaciones al utilizar un valor supuesto como
media aritmética y si se observa con detenimiento el valor de “d” donde su ubica
la media supuesta, es cero y a partir de éste, los valores de las diferencias son
crecientes positivos y negativos, debido al tamaño del intervalo y, por lo tanto,
cercanos al origen.
= A + d´ (i)
n
Donde:
A = media supuesta o falsa media
d´ = diferencias primas de x menos la media supuesta dividido entre la amplitud
del intervalo.
d´ = (x-A) i
49
Límites reales x d d
18.5-21.5 16 20 -3 -48
21.5-24.5 30 23 -2 -60
24.5-27.5 22 26 -1 -22
27.5-30.5 19 29 0 0
30.5-33.5 8 32 1 8
33.5-36.5 4 35 2 8
36.5-39.5 4 38 3 12
= -102
Como puede notarse con los tres métodos se obtiene el mismo dato, sin embargo,
es notorio que es con el método breve con el que se puede hacer un cálculo más
rápido, puesto que la columna de diferencias primas es mucho más fácil de
calcular y sus valores por ser más cercanos al origen, hacen las operaciones más
sencillas.
Md = L1 + (n2) - c (i)
fm
Donde:
Md = Mediana
L1 = Limite real inferior de la clase mediana
n/2 = Elemento mediano (Em)
C = Frecuencia acumulada hasta la clase anterior a la clase mediana
Fm = Frecuencia de la clase mediana
i = Amplitud del intervalo
50
Como puede notarse el primer paso para calcular la mediana a través del método
matemático, es encontrar la clase mediana, para lo cual es necesario construir,
además, de la distribución de frecuencias de clase, una columna de frecuencias
acumuladas así:
Límites reales x Fa
18.5-21.5 16 20 16
21.5-24.5 30 23 46
24.5-27.5 22 26 68
27.5-30.5 19 29 87
30.5-33.5 8 32 95
33.5-36.5 4 35 99
36.5-39.5 4 38 103
Clase mediana
Em = 103 / 2 Em = 51.5
Método gráfico.
Para efectuar el trazo de la ojiva sobre la base mayor que, debe construirse
una distribución de frecuencias acumuladas sobre la base mayor así:
Para trazar la ojiva, se unen los puntos con la línea continua, posteriormente
se traza una línea horizontal a partir del valor del elemento mediano en el
eje de las ordenadas (y) hasta cortar o intersectar la ojiva, en el punto donde
se intersectan las líneas, se traza una vertical hasta cortar el eje de las
abscisas y en este punto se ubicará el valor de la mediana.
Para trazar una ojiva sobre la base menor que, debe construirse una
distribución de frecuencias sobre la base menor que así:
Mo = L1 + 1 (i)
1 + 2
Donde:
Mo = Moda
L1 = Límite real inferior de la clase modal.
1 = Incremento subuno o frecuencia de la clase modal menos la
frecuencia de la clase anterior a la clase modal.
2 = Incremento subdos o frecuencia de la clase modal menos la
frecuencia de la clase posterior a la clase modal.
I = amplitud del intervalo
Límites reales x
18.5-21.5 16 20
21.5-24.5 30 23
24.5-27.5 22 26
27.5-30.5 19 29
30.5-33.5 8 32
33.5-36.5 4 35
36.5-39.5 4 38
Clase modal
Mo = L1 + 1 (i)
1 + 2
MEDIDAS DE DISPERSIÓN
a) Rango (R)
R= L1 – L2 R= 39-19 R= 20 años.
El dato anterior significa que existe una variación total en los valores de los datos
de 20 años, es decir, que el intervalo en el que se encuentran todos los valores
de los datos de la serie es de amplitud 20.
(x- )2 (x- )2
s2 = ----------- s= -----------
n n
En este caso se usará s2 y s para identificar la varianza y la desviación
estándar respectivamente, por tratarse de datos de una muestra. Como
puede notarse, para emplear este método debe construirse, además, de la
distribución de frecuencias, una columna de diferencias con x con respecto
de la media aritmética así:
Varianza
(x- )2
s2 = ----------- s2 = 2205 103 s2 = 21.41 años.
n
57
Desviación estándar
(x- )2
s= ----------- s= 2205 103 s= 4.63 años
n
Varianza
2
(d)2 (d)
s2 = ----------- - -------
n n
Desviación estándar
2
(d)2 (d)
s2 = ----------- - -------
n n
Donde:
d = diferencias de x con respecto a la media supuesta
d=x-A
A = media supuesta o falsa media
Límites x d d (d)2
reales
18.5-21.5 16 20 -9 -144 1296
21.5-24.5 30 23 -6 -180 1080
24.5-27.5 22 26 -3 -66 198
27.5-30.5 19 29 0 0 0
30.5-33.5 8 32 3 24 72
33.5-36.5 4 35 6 24 144
36.5-39.5 4 38 9 36 324
= -306 = 3114
Varianza
58
2
(d)2 (d)
s2 = ----------- - -------
n n
Desviación estándar
2
(d)2 (d)
s= ----------- - -------
n n
- Breve. Para utilizar este método es necesario aplicar las fórmulas siguientes:
Varianza
2
(d)2 (d)
s2 = i2 ----------- - -------
n n
Desviación estándar
2
(d´)2 d´
s2 = i ----------- - -------
n n
Donde:
d´ = (x – A) i
A = media supuesta o falsa media
I = amplitud del intervalo
Varianza
2
653 -205
s2 = 32 ----- - ------- s2 = 21.41 años
103 103
Desviación estándar
2
653 -205
s2 = 32 ----- - ------- s2 = 4.63 años
103 103
Lo anterior significa que las medias aritméticas de las edades de los trabajadores
del área de producción pueden variar en una vez el valor de la desviación estándar
en un 17.79%.
El valor del coeficiente de oblicuidad nos indica que los valores de los datos
tienden a agruparse más bajo el valor de la media, es decir, que hay mayor
número de edades menores que la media y, por lo tanto, la distribución de los
mismo está sesgada u oblicua hacia los valores mayores.
60
Resumen
Análisis e interpretación
CONCLUSIÓN
CONCLUCION