Escolar Documentos
Profissional Documentos
Cultura Documentos
ESTADISTICA DESCRIPTIVA
BIBLIOGRAFA:
BUSTAMANTE, Luna, 2001, Estadstica Descriptiva, UTPL, Loja-Ecuador.
DOWNIE y Eath, 1980, Mtodos Estadsticos aplicados, Editorial Harla, Mxico.
FREUND, Jhon, Estadstica Elemental Moderna, Editorial Revolucionara
JACK, Levin, Fundamentos de Estadstica en la Investigacin Social.
SPIEGEL, Murray, 1991, Estadstica, McGraw-Hill, Segunda Edicin
VELASCO, Ermel, Estadstica para Educadores y Psiclogos.
VIZUETE, Alejandro, Elementos de Estadstica aplicados a la Educacin.
http://www.uaq.mx/matematicas/estadisticas/xu3.html
http://www.fisterra.com/mbe/investiga/10descriptiva/10descriptiva.htm
http://www.aulafacil.com/CursoEstadistica/Lecc-1-est.htm
En el plural, sealan una compilacin de datos numricos, tales como los que se encuentran en
las pginas financieras de los peridicos.
En este sentido la estadstica es una rama de las matemticas aplicadas, que para su mayor
comprensin se han dividido: en Estadstica Descriptiva, y Estadstica Inferencial.
ESTADSTICA DESCRIPTIVA
Debemos entender todos aquellos clculos y tcnicas empleadas para recolectar, manipular, analizar,
interpretar y presentar un conjunto de datos.
ESTADSTICA INFERENCIAL
Es aquella que permite determinar a partir de un conjunto de datos, conclusiones, generalizaciones,
predicciones, estimados, y permite tomar decisiones en relacin con la incertidumbre.
La Estadstica utiliza dos tipos de medios matemticos, para la descripcin y anlisis de los hechos,
se apoya en el clculo numrico elemental; pero cuando se requiere tomar decisiones se fundamenta
en las teoras de las probabilidades. La Estadstica es lgica en combinacin con procedimientos
aritmticos, la lgica le proporciona el mtodo para la toma de datos y la aritmtica le proporciona el
material sobre el que ha de realizar la inferencial.
La evaluacin, el anlisis y el control cuidadoso de los riesgos que hay que tomar cuando hacemos
generalizaciones o decisiones es una de las principales tareas de Estadstica Inferencial.
POBLACIN
El trmino poblacin se refiere a la totalidad de observaciones, datos o medidas que se consideren en
una situacin dada.
Tambin se la define como el conjunto de individuos, objetos o datos numricos, sometidos a una
determinada investigacin estadstica; los elementos pueden ser finitos o infinitos, simples o
colectivos.
Ejemplos:
-
Los alumnos universitarios del Ecuador, constituye una poblacin infinita dentro del campo
investigativo.
3
-
La media aritmtica de las estaturas de las alumnas y alumnos del mdulo uno del rea de
Educacin, Arte y Comunicacin de la Universidad Nacional de Loja es un parmetro de la
poblacin de los estudiantes del primer mdulo de todos los alumnos de la Universidad Nacional
de Loja.
Es claro que, calcular un parmetro de una poblacin con un gran nmero de elementos es un
proceso bastante difcil y en ciertos casos imposibles, por tal motivo es necesario extraer una parte de
ella, llamada muestra.
MUESTRA
Es la recoleccin de una parte de la poblacin, de tal manera que se pueda hacer inferencias y sacar
conclusiones vlidas para la poblacin.
Ejemplos:
-
En este contexto podemos definir que la inferencia estadstica es una tcnica, mediante la cual
podemos determinar conclusiones, generalizaciones, acerca de los parmetros de la poblacin,
basndonos en las informaciones proporcionadas por los estadgrafos de una muestra de esa
poblacin.
Considerando las definiciones anteriores, podemos determinar que la Estadstica es un conjunto
de teoras y mtodos que han sido desarrollados para tratar la recoleccin, el anlisis y la
descripcin de datos muestrales, con el fin de extraer conclusiones tiles.
Su funcin principal es apoyar al investigador, en la toma de decisiones sobre el parmetro de la
poblacin de la cual procede la muestra.
MUESTRA REPRESENTATIVA
Cuando la poblacin es excesivamente grande, cuando el tiempo requerido para observar los
elementos es ms largo de lo que se desea, cuando el costo de la observacin total es superior a los
recursos disponibles, o cuando la observacin total implica la destruccin de los elementos de la
poblacin, es necesario recoger informacin slo de una parte de la poblacin, es decir, de una
muestra.
Con la muestra se persigue no estudiar la propia muestra, sino estudiar la poblacin, a travs de ella.
Ejemplo:
-
En un laboratorio se recoge una gota de sangre (muestra) para observar la composicin de toda
la sangre (poblacin).
Para seleccionar una muestra debe tenerse cuidado de que la misma sea realmente representativa
de la poblacin y no una muestra sesgada. Esto quiere decir, que cada elemento de la poblacin
4
debe tener igual oportunidad de ser seleccionado, lo cual se consigue aproximadamente de la
siguiente manera.
1. Se numera cada miembro de la poblacin con la finalidad de que pueda ser identificado mediante
un cdigo numrico.
2. Se escribe cada cdigo numrico en fichas iguales que se colocan en un recipiente
convenientemente revueltas.
3. Se selecciona al azar los datos que conforman la muestra.
Para economizar tiempo, se dispone en los libros de Estadstica tablas de nmeros aleatorios o en la
calculadora la tecla de nmeros aleatorios.
APLICACIN DE LA ESTADSTICA
Los mtodos estadsticos han demostrado ser de gran utilidad en una amplia gama de estudios entre
los cuales estn la educacin y la psicologa.
Para cumplir con los objetivos utiliza como mtodos:
Recoleccin de datos.- que consiste en la obtencin de datos relacionados con el problema motivo
de estudio, utilizando instrumentos tales como:
Fichas de observacin
Cuestionarios (encuestas)
Entrevistas
Informes
Archivos
Memorias, etc.
Ejemplos:
Entre los estudiantes que pertenecen al rea de la Educacin, el Arte y la Comunicacin, podemos
recoger datos correspondientes al nivel de lectura del colegio donde provienen y presentar esta
informacin en una tabla de datos que facilite su interpretacin.
NMINA
COLEGIO
FISCAL
PRIVADO
NIVEL DE LECTURA
EFICIENTE
DEFICIENTE
Un educador desea saber si hay relacin significante entre las puntuaciones de un test de aptitud
escolar y las calificaciones promedio de un grupo de estudiantes. Si existiera una relacin
semejante, podra predecir la calificacin promedio de un estudiante, basndose en la puntuacin
de su test de aptitud.
Es posible comparar dos mtodos de enseanza diferentes para determinar sus eficacias
relativas. Se pueden elegir dos grupos de estudiantes y ensearles por los dos mtodos una
materia determinada; al final del perodo de instruccin se administra un test tpico a ambos
grupos. Basndose en la puntuacin promedio obtenida por cada grupo en el test, se puede
llegar a una conclusin sobre si los mtodos son igualmente efectivos, o si uno de los mtodos es
significativamente ms efectivo que el otro.
Desde hace varios aos, el nmero de estudios y de encuestas sobre materia educativa han
aumentado considerablemente. La necesidad de analizar e interpretar esa gran cantidad de
5
informacin obliga a los estudiantes de educacin a tener por lo menos el conocimiento bsico de los
mtodos estadsticos.
DATOS ESTADSTICOS
Son valores, los mismos que pueden ser comparados, analizados e interpretados.
Resulta evidente que toda investigacin estadstica se ha de referir a un conjunto de personas,
animales o cosas. Los elementos que conforman este conjunto pueden ser algo con existencia real
como un automvil, una casa, o algo ms abstracto como un voto o un intervalo de tiempo. Los
elementos pueden ser tambin artificiales, creados con slo el propsito de la investigacin, por
ejemplo, al estudiar un campo sembrado de trigo es usual dividir el campo en cuadrados o
rectngulos, pasando stos a constituir los elementos de la poblacin.
CARACTERES.- Los elementos de la poblacin estadstica poseen rasgos, propiedades o cualidades
que denominaremos caracteres.
Ejemplo:
El hombre tiene caracteres tales como: estatura, edad, peso, estado civil, religin, etc.
VARIABLE.- Es aquella que puede asumir diferentes valores
Ejemplo:
-
Ejemplo
El sexo: masculino y femenino.
Cuando se aplican a los elementos de una poblacin, siempre ser posible asignar cada elemento del
conjunto a una de dichas categoras y contar luego el nmero que cae en cada una de ellas. Es a
dichos nmeros que se debe aplicar los procesos estadsticos pertinentes.
Las variables cuantitativas, a su vez, pueden dividirse en variables discretas y variables continuas:
Variables discretas.- Son aquellas que pueden asumir slo ciertos valores, por lo regular enteros, y
no es posible que lleguen a tomar ningn valor comprendido entre dos consecutivos de aquellos.
Ejemplo:
6
El nmero de hermanos de un alumno puede ser: 0, 1, 3, etc., pero no podr ser 1,5.
Variables continuas.- Son aquellas que pueden asumir tericamente todos los infinitos valores a lo
largo de un cierto intervalo.
Ejemplo:
La edad de un alumno podra ser cualquier valor entre los 20 y 21 aos, por ejemplo, y podra
medirse o darse con cualquier grado de exactitud que se desee: 20,3 aos es decir, puede darse
utilizando incluso nmeros decimales.
CARACTERES
Variables
Cuantitativas
Continuas
Constantes
Cualitativas
Discretas
CONSTANTE
Cuando la medida de un atributo no cambia para los diferentes miembros de una poblacin, no es
una variable y se denomina constante.
Ejemplo:
Todos los alumnos de Mdulo 5, tienen como constante haber sido alumnos del 1er. mdulo.
LMITES REALES.- la medida de una observacin o dato que pertenece a una variable continua
puede darse con cualquier grado de aproximacin que se desee; ms, si la edad de un alumno ha de
darse con aproximacin al ao ms cercano
Ejemplo:
Aquel que tiene 20,3 aos deber considerarse como de 20 aos de edad; igualmente, el alumno
que tenga 19,6 aos deber considerarse de 20 aos de edad. En ambos casos las edades son
realmente de 20,3 aos y 19,6 aos, respectivamente. Sin embargo, habindose acordado dar las
edades redon
7
En general, la medida es una variables continua puede darse con cualquier grado de precisin, pero
siempre ser preferible considerar que dicha medida es el valor medio entre dos lmites, llamados
lmites reales.
REDONDEO DE DATOS
En la actualidad, con el uso d las computadoras, se pueden obtener miles de cifras decimales o
enteras; pero en Estadstica no se requiere de la precisin absoluta, sino ms bien de la aproximacin
o redondeo de ciertos valores.
Para la aproximacin o redondeo se utilizan los siguientes sistemas:
Ejemplos:
Cantidad dada
9.53
7.982
19.4
5,630
-
Redondeado a la dcima
Redondeado a la centsima
Redondeado a la unidad
Redondeado a centenas
Cantidad dada
4.47
567.968
19.6
98,470
Cantidad redondeada
9.5
7.98
19
5,600
Cantidad redondeada
4.5
567.97
20
98,500
Redondeado a la dcima
Redondeado a la centsima
Redondeado a la unidad
Redondeado a centenas
SISTEMA INTERNACIONAL
Ejemplos:
-
Si la fraccin decimal es menor que 5 se la deja en la misma cifra, o no se la toma en cuenta para
ser retenida
Cantidad dada
75,8435
decimales
-
75,84
Redondeado
dos
cifras
Si la fraccin decimal es mayor que 5 se aumenta en una unidad la primera cifra retenida
Cantidad dada
324,754
-
Cantidad redondeada
Cantidad redondeada
325
Cantidad dada
19,5
Cantidad redondeada
20
8
-
Cantidad dada
Cantidad redondeada
94,5
94
x 2459
Si slo se van a sumar algunos de los valores, se utilizan subndices para indicar dichos valores; de
este modo, Xi, indica la suma de los valores de la variable X, empezando con el primero (i = 1) y
terminando con el quinto (i =5 5), as:
x
i 1 i
x x1 x 2 x 3 x 4 x 5
Ejemplos:
Suponiendo que la variables X asume sucesivamente los valores 8, 2, 3, 6, 7, 8, 9, 4, 5, 4, 1, calcular:
a)
4
xi 8 2 3 6 19
i 1
b)
n
xi 9 4 5 4 1 23
i7
a)
n
xi 8 2 3 6 7 8 9 4 5 4 1 57
i 1
PROPIEDADES:
1. Cuando cada valor de una variable va a ser multiplicado por una constante o dividido entre ella,
dicha constante se puede aplicar despus de que los valores de la variable se hayan sumado:
cX = cX
Supongamos que c es una constante cuyo valor es 2 y X una variable que puede asumir
sucesivamente los valores 12, 4, 7 y 10, calcular:
cX = cX
2 (12 + 4 + 7+ 10) = 2 (33)
2(12) + 2(4) + 2(7) + 2 (10) = 66
9
66 = 66
2. La sumatoria de una constante es igual al producto de la constante y el nmero de veces que se
presenta.
n
ci nc
i 1
Supongamos que una constante es igual a 5, calcular:
6
5i 5 5 5 5 5 5
i 1
= 6 (5)
= 30
3. La sumatoria de una suma o diferencia de dos variables es igual a la suma o diferencia,
respectivamente, de las sumatorias individuales de las variables.
(x + y) = x + y
(x - y) = x - y
Supongamos que X y Y son dos variables que pueden asumir sucesivamente los valores X: 8, 3, 4, 5;
Y: 5, 2, 0, 4, calcular (x + y), y (x - y)
Por comodidad se escriben los valores de X y Y en columna e igualmente los valores (X + Y) y (X
Y), de la siguiente manera:
X
8
3
4
5
x = 20
(x + y) = x + y
= 20 + 11
= 31
Y
5
2
0
4
y = 11
(X+Y)
13
5
4
9
(x + y) = 31
(X-Y)
3
1
4
1
(x - y) = 9
(x - y) = x - y
= 20 - 11
=9
4. La sumatoria de una variable ms o menos una constante es igual a la suma de los valores de la
variable ms o menos, respectivamente, n veces esa constante.
(x + c) = x + nc
(x - c) = x nc
Supongamos que tres valores de una variable son 2, 4 y 6, calcular: (x + c)
(x - c) = x n.c
= 2 + 4 + 6 - 3c
= 12 - 3c
10
Los mtodos estadsticos comprenden el anlisis e interpretacin de nmeros que provienen de la
observacin de diversidad de variables, tales como calificaciones de exmenes, porcentajes de
respuestas correctas, aos de servicio, resistencia de materiales, etc.
Dicho anlisis suele realizarse de diversas maneras, dependiendo de si existe una cantidad pequea
de datos (30 menos) o si la cantidad de datos que se debe analizar es muy grande.
En el primer caso utilizaremos los mtodos que presentamos en este captulo y, en el segundo caso
utilizaremos el agrupamiento de los datos, antes del anlisis.
El conjunto de datos, cualquiera que este sea, se puede reducir a unas cuantas medidas numricas
sencillas que resumen el conjunto total. Tales medidas ponen de manifiesto dos caractersticas
importantes del conjunto: El valor central o tpico del conjunto; y, la dispersin de los elementos del
conjunto.
ANLISIS DE GRANDES CONJUNTOS DE DATOS
Para interpretar correctamente los datos es necesario organizar y resumir los nmeros, pues, los
datos no procesados pueden carecer de significado ya que la diversidad de detalles que acompaan
a los grandes conjuntos de nmeros tiende a confundir en lugar de aclarar.
El efecto del procesamiento da datos es eliminar los detalles menores y resaltar las caractersticas
importantes de aquellos.
Las tablas estadsticas y sus grficos son particularmente eficaces para este propsito.
ORGANIZACIN DE DATOS MEDIANTE TABLAS ESTADSTICAS
LA DISTRIBUCIN DE FRECUENCIAS
Supongamos que 50 estudiantes han sido examinados en Estadstica sobre cien puntos, y que sus
calificaciones individuales son:
60
71
80
41
94
33
81
41
78
66
85
35
61
55
98
52
50
91
48
66
65
35
55
69
73
77
64
73
85
42
84
74
59
67
65
65
47
53
39
94
57
68
45
76
89
74
54
77
60
88
Calificaciones
30 - 39
40 - 49
50 - 59
60 - 69
70 - 79
80 - 89
90 - 99
Frecuencia
4
6
8
12
9
7
4
n = 50
11
Los grupos o categoras de calificaciones: 30-39, 40-49, etc., se llaman intervalos de clase; en tanto
que,
Los valores: 30, 40, 50, etc., se llaman lmites inferiores, y,
Los valores: 39, 49, 59, etc., son los lmites superiores de los intervalos de clase.
La finalidad que se persigue al presentar las calificaciones agrupadas en una distribucin de
frecuencias no es nicamente la de simplificar su presentacin, sino, sobre todo, la posibilidad de
poder obtener mediante tcnicas estadsticas varias caractersticas de la variable que pueden ser de
mucho inters.
Al confeccionar una distribucin de frecuencias y a fin de no distorsionar tales caractersticas,
conviene tener en cuenta que:
-
Pocos intervalos de clase facilitan la presentacin y reducen los clculos, pero se pierde mucha
informacin sobre los datos originales;
Demasiados intervalos de clase proporcionan mucha informacin sobre los datos originales, pero
se pierde el sentido de simplificacin y de dificultan posclculos posteriores;
El nmero de calificaciones diferentes que se pueden escribir entre los lmites de cada intervalo de
clase, incluyendo tales lmites, se llama ancho de clase o tambin amplitud, o longitud del
intervalo. As, el intervalo 30-39 es un intervalo de 10 unidades: 30, 21, 32, 33, 34, 35, 36, 37, 38,
39.
CMO CONSTRUIR UNA DISTRIBUCIN DE FRECUENCIAS?
Sigamos considerando el ejemplo de las calificaciones de Estadstica.
1. El primer paso consiste en determinar el recorrido de la variable, llamado tambin amplitud total,
cuyo valor es la diferencia entre las calificaciones: mxima y mnima, aumentada en 1
Recorrido
2. El siguiente paso consiste en determinar el ancho del intervalo de clase (i). En la prctica, es
frecuente encontrar intervalos de clase de 3, 5 y 7 unidades, aunque tambin se utiliza el 10 por
la facilidad que ofrece al establecer los lmites de cada intervalo.
La longitud del intervalo debe ir aparejada con el nmero de intervalos que se desea construir
(un criterio, comnmente aceptado, es considerar de 10 a 15 intervalos de clase). Si dividimos el
recorrido de la variable para la longitud del intervalo, obtendremos, aproximadamente, el nmero
de intervalos de la distribucin.
1.
Nmero.de.intervalos
Recorrido
i
12
66
13,2 14 aprox.
5
El paso siguiente consiste en sealar los lmites del primer intervalo de clase. Un mtodo corriente es
empezar el primer intervalo en un nmero que sea mltiplo de la amplitud (i), pero igual o ligeramente
menor que la mnima calificacin (33 en nuestro ejemplo). Despus, se escriben los dems intervalos
de clase aumentando cada lmite en el nmero de unidades del ancho de clase.
El siguiente paso es el conteo de datos; esto es, se consideran las puntuaciones una por una y se
van anotando a la derecha del intervalo de clase correspondiente. Esta columna se sustituye, ms
tarde, por la columna encabezada por f; luego se suman estos valores y el resultado debe ser el
nmero total de datos (n).
Observando los pasos anteriores, la distribucin de frecuencias correspondientes a las calificaciones
de Qumica, es la siguiente:
CALIFICACIONES DE ESTADSTICA
INTERVALOS
30-34
35-39
40-44
45-49
50-54
55-59
60-64
65-69
70-74
75-79
80-84
85-89
90-94
95-99
N DE ALUMNOS
1
3
3
3
4
4
4
8
5
4
3
4
3
1
n = 50
Los datos consignados en una distribucin de frecuencias se llaman datos agrupados, en tanto que,
los datos iniciales se llaman datos no agrupados, datos crudos o puntuaciones brutas.
TABLA DE FRECUENCIAS ACUMULADAS
A veces, es deseable presentar frecuencias de una manera acumulada, especialmente cuando
buscamos localizar la posicin de un caso en relacin con la actuacin total de un grupo.
Las frecuencias acumuladas se definen como el nmero total de casos que tengan cualquier puntaje
IGUAL o MENOR que un puntaje dado.
La frecuencia acumulada correspondiente a un intervalo de clase se obtiene sumando
progresivamente el valor de la frecuencia que le sigue, a partir de la observacin menor. El ltimo
resultado es igual al nmero total de datos (N).
13
En la siguiente tabla se presenta una distribucin de frecuencias absolutas acumuladas de las
puntuaciones de 376 estudiantes en un test de habilidad:
INTERVALOS
5-9
10-14
15-19
20-24
25-29
30-34
35-39
40-44
45-49
50-54*
55-59
60-64
f
4
15
23
42
58
64
58
46
32
20*
12
2
n = 376
fa
4
19
42
84
142
206
264
310
342
362
374
376
f
n
El porcentaje compara la frecuencia de ocurrencia en una categora por cada 100 casos. Para
calcular el porcentaje (p) correspondiente a una frecuencia dada f, basta multiplicar la proporcin por
100:
f
100
n
.
f
4
15
23
42
58
p
0.011
0.040
0.061
0.112
0.154
P
1.1
4.0
6.1
11.2
15.4
30-34
35-39
40-44
45-49
50-54
55-59
60-64
64
58
46
32
20
12
2
n = 376
0.170
0.154
0.122
0.085
0.053
0.032
0.005
0.999
17.0
15.4
12.2
8.5
5.3
3.2
0.5
99.9%
14
Los clculos de la tabla que antecede se han realizado de la siguiente manera. Por ejemplo, la
proporcin p que corresponde a la frecuencia 32 del intervalo de clase 45-49:
f
n
32
376
0,085
f
100
n
0,085 100
8,5%
NOTA.-
Cuando el nmero total de casos es pequeo, los tantos por ciento son inestables. Es
decir, una variacin en un caso puede producir un cambio relativamente grande en el tanto
por ciento. Cuando el nmero de caos es menor a 100, debera evitarse el empleo de los
tantos por ciento.
f
4
15
23
42
58
64
58
46
32
20
12
2
n = 376
fa
4
19
42
84
142
206
264
310
342
362
374
376
Pa
1.1
5.0
11.2
22.3
37.7
54.8
70.2
82.4
90.7
96.3
99.5
100.0
15
En este caso, el clculo del Pa correspondiente al intervalo de clase 45-49, por ejemplo, se obtiene
dividiendo la fa 342 entre n = 376 y multiplicando por 100. Es decir, expresando mediante frmula:
Pa
fa
100
n
En dicho intervalo se puede observar que el 90,7% de los alumnos alcanz una calificacin IGUAL o
MENOR que el lmite superior 49.
REPRESENTACIONES GRFICAS
Los datos de una variable continua frecuentemente tiende a distribuirse con una configuracin
caracterstica: muchos elementos tienden a agruparse cerca de la mitad del recorrido y el nmero de
elementos o datos tienden a decrecer gradualmente a medida que avanzamos hacia cualquier
extremo. Este rasgo se hace evidente cuando los datos de la distribucin se representan
grficamente. Existen diferentes tipos de grficos, entre los ms utilizados estn: barras simples o
compuestas, polgonos de frecuencias, histogramas, ojivas, pictogramas, grficos circulares o de
sectores.
Para representar grficamente una distribucin estadstica utilizaremos el polgono de frecuencias, el
histograma y la curva acumulativa de frecuencias relativas.
EL POLGONO DE FRECUENCIAS
Un polgono de frecuencias es un grfico de lneas trazado sobre los puntos medios de los intervalos
de clase.
PUNTO MEDIO DEL INTERVALO
El valor usado como la mejor estimacin para las puntuaciones que caen en un intervalo de clase se
llama marca de clase o punto medio porque est localizado en la mitad del intervalo. El punto medio
de un intervalo se calcula sumando los lmites y dividiendo para dos. As:
30 34
32
2
El intervalo que tiene como lmites 30-34, tiene como punto medio 32
Obsrvese que el punto medio ser entero si es que el ancho de clase del intervalo es impar y, ser
decimal si es que i es par;
39 de aqu la conveniencia de utilizar preferentemente valores impares
como longitudes o anchos de clase (son frecuencias los valores 3, 5, 7 y tambin 10).
36
Al construir el polgono de 33
frecuencias se utiliza un sistema coordenado rectangular en el cual se
llevan, sobre el eje de las X,30los valores de los puntos medios de todos y cada uno de los intervalos
de clase y, sobre el eje de las Y, los valores de las frecuencias correspondientes.
27
FRECUENCIAS
24
Los puntos que resultan se unen
mediante segmentos de recta, tenindose de esta manera una lnea
poligonal, la misma que, para
21 cerrarla se sienta sobre el eje X, utilizando medio intervalo anterior al
primer intervalo de clase y medio intervalo posterior al ltimo.
18
15
12
9
6
3
0
12 15 18 21 24 27 30 33 36 39 42 45 48 51 54
PUNTOS MEDIOS
16
EL POLGONO DE FRECUENCIAS RELATIVAS
Con mucha frecuencia, los datos de las distribuciones que se desean comparar grficamente
mediante polgonos de frecuencias difieren considerablemente entre s, a tal punto que se presentan
serias dificultades en su representacin sobre un mismo eje coordenado; en tales casos, se suelen
convertir las frecuencias absolutas en frecuencias relativas, generalmente expresadas como
porcentajes.
Trazar el polgono de frecuencias relativas correspondiente a los datos de la tabla.
PUNTUACIONES DE 376 ESTUDIANTES EN UN TEST DE HABILIDAD
INTERVALO
5-9
10-14
15-19
20-24
25-29
30-34
35-39
40-44
45-49
50-54
55-59
60-64
f
4
15
23
42
58
64
58
46
32
20
12
2
n = 376
PUNTO MEDIO
7
12
17
22
27
32
37
42
47
52
57
62
PORCENTAJE P
1.1
4.0
6.1
11.2
15.4
17.0
15.4
12.2
8.5
5.3
3.2
0.5
99.9 %
Para trazar el polgono de frecuencias relativas se lleva las puntuaciones en forma usual, esto es, los
puntos medios de los intervalos sobre el eje X y, las frecuencias relativas (porcentajes) sobre ele eje
Y, como se indica en el siguiente grfico
17
PUNTUACIONES
60-69
70-79
80-89
90-99
100-109
110-119
120-129
130-139
140-149
150-159
ESCUELA
A
ESCUELA
B
F1
F2
1
4
18
32
69
31
12
8
4
1
n = 180
5
5
10
10
50
180
170
40
20
10
n = 500
P1
0.6
2.2
10.0
17.8
38.3
17.2
6.7
4.4
2.2
0.6
100 %
P2
1
1
2
2
10
36
34
8
4
2
100 %
18
CURVA DE FRECUENCIAS ACUMULADAS ( OJIVA )
Refirindonos a calificaciones de los alumnos, resulta frecuente tener que contestar preguntas tales
como:
En tales casos conviene ordenar las calificaciones en una tabla de frecuencias acumuladas, segn se
muestra en el siguiente ejemplo:
Supongamos que 26 alumnos realizan un examen (sobre 10 puntos), obteniendo las siguientes
calificaciones:
CALIFICACIONES
X
0
1
2
3
4
5
6
7
8
9
10
Fa
0
2
4
4
3
2
5
8
0
2
0
0
2
6
10
13
15
20
24
24
26
26
n = 26
La variable X presenta los valores posibles de las calificaciones de (0 a 10 puntos). La columna f
indica el nmero de estudiantes que tienen una calificacin determinada (la calificacin
correspondiente de la primera columna). L columna de Fa muestra el nmero de estudiantes que
tienen una calificacin igual o menor que la calificacin correspondiente de la primera columna.
Ejemplo:
15 alumnos tienen una calificacin igual o menor que 5 puntos; igualmente podemos afirmar que 11
alumnos (el complemento de 15 a 26) tienen una calificacin superior a 5 puntos.
Cuando los datos se han agrupado por intervalos de clase, la tabla de frecuencias acumuladas puede
ser representada grficamente tomando como abscisa los lmites reales superiores de los intervalos
de clase y como ordenadas longitudes proporcionales a las frecuencias acumuladas.
La grfica de frecuencias acumuladas se llama ojiva
OJIVA
Representar grficamente los siguientes valores:
INTERVALOS
90-99
100-109
110-119
120-129
130-139
140-149
f
3
14
16
11
4
2
n = 50
Fa
3
17
33
44
48
50
19
Esta ojiva indica el nmero de personas que registran una puntuacin igual o menor que un cierto
valor.
Ejemplo:
48 alumnos obtuvieron un puntaje igual o inferior a 139.5 (observe el grfico anterior); igualmente,
podemos afirmar que 2 alumnos (el complemento de 48 a 50) alcanzaron un puntaje superior a 139.5.
CURVA DE FRECUENCIAS RELATIVAS ACUMULADAS
La tabla de frecuencias relativas acumuladas correspondiente al ejercicio anterior es la siguiente:
INTERVALOS
Fa
Pa
90-99
100-109
110-119
120-129
130-139
140-149
3
14
16
11
4
2
3
17
33
44
48
50
6
34
66
88
96
100
n = 50
Grficamente se representa de la siguiente manera los lmites reales superiores de cada intervalo de
clase se sitan sobre el eje horizontal (eje x).
Los tantos por ciento se ubican siempre sobre el eje vertical (eje Y). Tales valores estarn
comprendidos entre 0 y 100:
-
Cada `punto del grfico acumulativo asocia a los intervalos reales superiores de cada intervalo el
tanto por ciento acumulado correspondiente
La lnea curva trazada por los puntos anteriores se prolonga un intervalo hasta alcanzar el eje X.
Las curvas correspondientes a las distribuciones acumulativas porcentuales tienen la forma de una S,
razn por la cual se denominan curvas de la S
20
HISTOGRAMA
Es un grfico de barras verticales cuyas bases sobre el eje horizontal tiene un ancho igual a la
longitud del intervalo de clase y cuyas alturas son numricamente iguales a las frecuencias de clase.
Pasos para dibujar:
1. Se busca el punto medio de cada uno de los intervalos de clase
2. Se trazan lneas verticales en estos valores cuyas alturas son iguales a las frecuencias de cada
intervalo, respectivamente:
3. Se toma la mitad de la longitud del intervalo de clase a ambos lados de estas verticales y se
dibujan barras, otro procedimiento tambin es considerando empleando los lmites reales de cada
intervalo.
Ejemplo:
Trazar el histograma de frecuentas correspondiente al siguiente conjunto de datos:
INTERVALO
25-29
30-34
35-39
40-44
45-49
50-54
55-59
60-64
65-69
70-74
75-79
80-84
f
1
0
3
6
6
6
7
4
4
1
1
1
n = 40
PUNTO MEDIO
27
32
37
42
47
52
57
62
67
72
77
82
OBSERVACIONES
-
Si se unieran los puntos medios de las bases superiores de cada rectngulo del histograma, se
obtendra el polgono de frecuencias trazado por los mismos datos
21
-
En un mismo sistema coordenado slo puede situarse un histograma, esto impide que pueda
hacerse comparaciones y explicar diferencias como se hizo con el polgono de frecuencias.
La altura de cada barra indica la frecuencia de cada intervalo.
OTROS GRFICOS
Una distribucin de frecuencias que utiliza datos continuos pierde cierta informacin cuando se
agrupa por intervalos. Esto no sucede en el caso de datos discretos, dependiendo de la naturaleza
de los mismos y los objetivos del investigador.
Ejemplo
La siguiente tabla contiene informacin sobre el nmero de accidentes que ocurren diariamente,
durante 50 das, en un enorme estacionamiento:
692708254-267544 -442563563-3884
4 4 7 7 6 0 6 4 7 5 3 7 1 3 8 5 1 2 3 6- 5 0
X
0
1
2
3
4
5
6
7
8
9
f
3
2
5
6
9
7
7
6
4
1
n = 50
f
5
11
16
13
5
n = 50
22
f
600
200
100
50
30
n = 980
23
GRFICO
SECTORES CIRCULARES
Los nmeros de la siguiente tabla representan el nmero de alumnos del ltimo curso de cinco
carreras universitarias.
CARRERAS
Ciencias
Derecho
Medicina
Economa
Educacin
TOTAL
f
440
220
120
80
60
920
ng. = fr x 360
p
0.48
0.24
0.13
0.09
0.06
%
48
24
13
9
6
100
24
MEDIA ARITMETICA X
Cuando los datos se presentan en tablas de frecuencias, los valores de las variables son
desconocidos y han sido reemplazados por categoras de datos, los intervalos de clase, de los cuales
el punto medio es el valor ms representativo de todos aquellos valores de la variable que caen
dentro de dicho intervalo. Utilizando tales puntos medios (X) se halla una buena aproximacin en el
clculo de la media de datos agrupados.
La frmula para calcular dicha media es la misma que utilizamos para la media de una distribucin de
frecuencia simple:
f.x: producto de cada punto medio por su frecuencia;
n = nmero total de casos.
fX
Ejemplo:
Hllese la media de los datos consignados en la siguiente distribucin:
CALIFICACIONES DE ESTADSTICA
INTERVALOS
30-39
40-49
50-59
60-69
70-79
80-89
90-99
FRECUENCIAS
4
6
8
12
9
7
4
CALIFICACIONES DE ESTADSTICA
CALIFICACIONES
INTERVALO
30-39
40-49
50-59
60-69
70-79
80-89
90-99
TOTAL
FRECUENCIA
f
4
6
8
12
9
7
4
n = 50
fX
n
3255
X
50
X 65.1
X
PUNTO MED.
x
34.5
44.5
54.5
64.5
74.5
84.5
94.5
fx
138
267
436
774
670.5
591.5
378
fX = 3255
25
A=
d=
n=
media supuesta (generalmente el punto medio del intervalo Utilizamos la siguiente ecuacin:
de clase de mayor frecuencia
fd
Desviacin de cada punto medio desde A
X A
n = (x A)
n
nmero total de casos
Ejemplos:
f
4
6
8
12
9
7
4
n = 50
x
34.5
44.5
54.5
64.5
74.5
84.5
94.5
d
-30
-20
-10
0
10
20
30
f.d
-120
-120
- 80 (-320)
0
90
140
120 (+350)
fd = 30
fd
n
(30)
X 64.5
50
X 64.5 0.6
X A
X 65.1
2.
MEDIANA ( ME )
( f )1
2
i
Mdna l1
f
Ejemplo:
Hllese la mediana con los siguientes datos:
26
INTERVALO
30-39
40-49
50-59
60-69
70-79
80-89
90-99
TOTAL
( f )1
2
i
Mdna l1
f
25 18
Mdna 59.5
10
12
DATOS
f
4
6
8
12
9
7
4
n = 50
Fa
4
10
18
30
39
46
50
n 50
25
2
2
L1 = 59.5
(f)1 = 18
f = 12
i = 10
Mdna 65.3
Cuando el resultado de n/2 coincide con la Fa de uno de los intervalos de la distribucin, la mediana
es igual al lmite real superior de dicho intervalo
Ejemplo
Hllese la mediana con los siguientes datos:
INTERVALO
4-8
9-13
14-18
19-23
24-28
29-33
34-38
39-43
TOTAL
n 26
13
2
2
Mdna = 23.5
3.
VALOR MODAL ( MO )
f
1
2
6
4
8
3
0
2
n = 26
Fa
1
3
9
13
21
24
24
26
27
En una distribucin de intervalos de clase, el valor modal se determina en base a la siguiente
ecuacin:
l1 = Lmite real inferior del intervalo de la clase modal.
1 = Exceso de la frecuencia de la clase modal sobre la
frecuencia de la clase inmediata inferior.
2 = Exceso de la frecuencia de la clase modal sobre la
frecuencia de la clase inmediata superior
i=
Longitud o ancho del intervalo de clase.
1
i
1
2
Mo l1
Ejemplo:
Hllese el valor modal del siguiente conjunto de datos:
INTERVALO
30-39
40-49
50-59
60-69
70-79
80-89
90-99
TOTAL
f
4
6
8
12
9
7
4
n = 50
1
i
1 2
Mo l1
DATOS
4
10
4 3
Mo 59.5 5.7
Mo 65.2
Mo 59.5
L1 = 59.5
1
=
4
2= 3
i = 10
28
La mediana; y,
La moda.
LA MEDIA ARITMTICA
La media aritmtica de un conjunto de datos se calcula sumando los valores del conjunto y dividiendo
esta suma para el nmero de dichos datos.
Utilizando la notacin sigma, la media aritmtica se expresa de la siguiente manera:
X = media aritmtica
= suma de
X = los datos del conjunto
n = el nmero total de datos del conjunto
X
n
Sin embargo, esta frmula sirve para obtener la media aritmtica de un pequeo conjunto de datos.
Ejemplo:
La media aritmtica de las calificaciones de estadstica 9, 8 y 10 es:
9 8 10
3
27
X
3
X 9
x
X
n
Por considerar que la propiedad anterior es muy importante, comprobar que se cumple para el
siguiente conjunto de datos: 10, 12, 14, 15 y 17.
X
10
12
14
d x x
- 3.6
- 1.6 (- 5.2)
0.4
15
17
68
1.4
3.4 (5.2)
d = 0
29
x
n
68
X
5
X 13.6
X
LA MEDIANA
Es el punto que deja igual nmero de datos a cada lado de l, siempre que la distribucin est
ordenada.
Es decir que, cuando los datos estn desordenados, antes de calcular la mediana se debern ordenar
de menor a mayor.
En el clculo de la mediana se pueden presentar dos casos:
2.
Posicin =
n 1
2
Ejemplo:
Los alumnos de 6to grado de una Escuela son 11 y han obtenido los siguientes puntajes en una
prueba de Botnica: 14, 12, 10, 8, 18, 17, 8, 19, 19, 8 y 9 hallar la mediana de dichas calificaciones.
Ordenando los puntajes: 8, 8, 8, 9, 10, 12, 14, 17, 18, 19, 19 Tomando en cuenta que los puntajes son
11, determinamos la posicin de la mediana:
n 1
2
11 1
Posicin
2
Posicin 6to. lugar
Posicin
El 6to lugar en la ordenacin lo ocupa el puntaje 12. As pues, la mediana de las calificaciones es 12.
3. Cuando el nmero de datos es par, la mediana es igual a la semisuma de los dos valores
centrales de la serie ordenada.
Ejemplo:
Los alumnos de 5to grado de una escuela son 10 y han obtenido los siguientes puntajes en una
prueba de Botnica: 12, 7, 10, 16, 18, 10, 16, 13, 18 y 19. Hallar la mediana de tales puntajes.
Ordenando los puntajes: 7, 10, 10, 12, 13, 16, 16, 18, 18, 19 Tomando en cuenta que los puntajes son
10, determinamos la posicin de la mediana:
30
n 1
2
10 1
Posicin
2
Posicin 5,5 lugar
Posicin
Esto quiere decir que, la mediana es el valor medio entre el 5to y el 6to lugar de la distribucin
ordenada. As pues:
13 16
Mediana
2
Mediana 14,5
LA MODA
Es el valor que se repite con mayor frecuencia en una serie de datos, es decir es el valor que ms se
repite en la distribucin.
La moda o valor modal puede no existir, incluso si existe puede no ser nica, si la distribucin tiene
una sola moda, se llama unimodal, si tiene dos modas bimodal y si tiene ms de dos multimodal.
Ejemplo:
La moda de las calificaciones de 6to. Grado, del ejercicio anterior es 8 puntos, pues, dicho valor se
repite con ms frecuencia que los dems.
Ejemplo:
La moda de la serie de puntajes del 5to. Grado, del ejercicio anterior es 10 y 18 puntos, pues, dichos
valores son los que se repiten con ms frecuencia que los otros.
Nota.- As como existen series bimodales, existen otras que no tienen moda.
MEDIDAS DE DISPERSIN
Para describir en forma adecuada un conjunto de datos, a ms de obtener informacin respecto a la
parte media del conjunto ordenado de nmeros, es conveniente tambin tener una medida que nos
indique si los valores estn relativamente cercanos el uno del otro o si se encuentran dispersos.
Estudiaremos las siguientes medidas de dispersin:
-
la amplitud total,
La desviacin media,
La varianza; y,
La desviacin estndar.
Coeficiente de variacin
Todas estas medidas, excepto la primera, toman a la media aritmtica como punto de referencia. En
cada caso, un valor cero indica que no hay dispersin, en tanto que la dispersin es mayor a medida
que se hace mayor el valor de cualquiera de las medidas de dispersin que hemos enunciado.
31
VARIACIN DE LA AMPLITUD
La amplitud de variacin de un conjunto de nmeros es una medida sencilla de calcular.
Se puede expresar en dos formas:
a) Dando la diferencia entre los valores mayor y menor del conjunto de datos.
b) Identificando los nmeros mayor y menor del conjunto.
Ejemplo:
Hllese la amplitud de los siguientes conjuntos de nmeros; 1, 5, 7 y 13.
14, 3, 17, 73 y 8
Nmeros
1, 5, 7, 13
14, 3, 17, 73, 8
diferencia
12
70
Este ltimo mtodo tiende a ser ms informativo. As, saber slo que la amplitud de un conjunto de
nmeros es 44, no dice nada ms respecto de los dems nmeros, sin embargo, si se informa que la
amplitud de dichos nmeros es de 300 a 344, se proporciona mejor informacin acerca de la
magnitud de los nmeros del conjunto.
La principal limitacin de la amplitud es que considera solamente los valores extremos de un conjunto
y no proporciona mayor informacin respecto de los dems valores intermedio del conjunto.
LA DESVIACIN MEDIA
Esta medida de variabilidad mide la desviacin promedia de los valores de un conjunto de nmeros
con respecto a la media aritmtica del conjunto; es decir, se basa en las diferencias de cada uno de
los datos del conjunto con relacin a la media
X .
Se obtiene sumando los valores absolutos de las desviaciones y dividiendo para el total de casos:
Dm
X X
n
Ejemplo:
Hllese la desviacin media para el siguiente conjunto de nmeros. 2, 4, 6, 8, 10.
Para mayor comodidad de los clculos, los datos se disponen de la siguiente manera:
X X
X X
2
4
6
8
10
-4
-2
0
+2
+4
4
2
0
2
4
X X 12
x = 30
X
n
30
X
5
X 6
X
32
Dm
X X
n
12
Dm
5
Dm 2,4
Los pasos necesarios para calcular la Dm. son los siguientes:
1. Calcular la media de los datos.
2. Restar la media de cada valor del conjunto de datos, es decir, calcular las desviaciones.
3. Sumar los valores absolutos de las desviaciones.
4. Dividir esta suma entre el nmero de datos.
Para datos agrupados en una distribucin de frecuencia debe usarse la siguiente frmula:
Dm
f X X
n
Ejemplo:
Hllese la desviacin media del siguiente conjunto de calificaciones:
1, 1, 2, 2, 2, 2, 3, 3, 3, 3 4, 4, 4, 5, 5, 5, 5, 6, 6, 8
Para comodidad de los clculos, los datos se disponen mediante la siguiente distribucin:
X
1
2
3
4
5
6
8
f
2
4
4
3
4
2
1
f.X
2
8
12
12
20
12
8
n = 20
f.x = 74
Dm
f X X
30
Dm
20
Dm 1,5
X X
-2.7
-1.7
-0.7
+0.3
+1.3
+2.3
+4.3
X X
5.4
6.8
2.8
0.9
5.2
4.6
4.3
f
X X 30
fX
n
74
X
20
X 3,7
X
33
LA VARIANZA
La varianza se representa con la notacin matemtica sigma 2 o tambin puede representarse con
(S2) se define como la media aritmtica de las desviaciones cuadrticas con respecto a la media.
En otras palabras es, la suma de los cuadrados de las desviaciones de cada uno de los datos con
respecto a la media, dividido todo por el nmero total de datos.
La varianza o variancia de un pequeo conjunto de datos se calcula casi de la misma forma que la
Dm, con la diferencia de que las desviaciones se elevan al cuadrado antes de ser sumadas.
Varianza Poblacional y la Varianza Muestral son un poco diferentes.
DATOS NO AGRUPADOS.
VARIANZA POBLACIONAL en datos NO agrupados:
se expresa y se
X X
Recuerden como revisamos en clases, a la media aritmtica tambin se la puede representar con el
smbolo . Para que tengan un mejor conocimiento y adaptabilidad con la simbologa he utilizado en este
documento la notacin matemtica X para la media.
Donde: 2: es el smbolo de la varianza de una poblacin.
X: es el valor de una observacin o dato en la poblacin.
X : es la media aritmtica de la poblacin.
N: es el nmero total de observaciones o datos en la poblacin.
Los pasos necesarios para calcular la varianza son los siguientes:
1.
2.
3.
4.
5.
Ejemplos:
Hllese la varianza del conjunto: 2, 4, 6, 8, 10.
X
2
f
1
-4
16
4
6
8
10
1
1
1
1
N= 5
X 30
-2
0
+2
+4
0
34
4
0
4
16
X X
40
x
N
30
X
5
X 6
X
2
2
X X
N
40
5
8
f
1
1
2
2
4
3
1
1
fX
1
2
6
8
20
21
8
9
N = 15
f X X
N
72
2
15
2
4,8
X X
-4
-3
-2
-1
0
2
3
4
f X X
16
9
4
1
0
4
9
16
f X X
fX
N
75
X
15
X5
X
X X
N
varianza
16
9
8
2
0
12
9
16
fX = 75
72
35
X X
S
n 1
FORMULA 1 :
S2
FORMULA 2 :
X2
X 2
n 1
Ustedes pueden utilizar cualquiera de las dos formulas anteriores, ya que llegaran a la misma
respuesta. A continuacin revisaremos un ejemplo empleando las dos formulas.
Ejemplo: Los salarios por hora en una muestra de operarios de medio tiempo en la empresa
Coca Cola son en dlares: $2, $10, $6, $8 y $9.. Cul es la varianza maestral?
X
(salario
por
hora)
fX
X X
2
10
6
8
9
1
1
1
1
1
2
10
6
8
9
-5
3
-1
1
2
25
9
1
1
4
fX = 35
40
n=5
Aplicando la frmula 1:
X X
S
n 1
2
S2
40
5 1
36
S2
40
4
S 2 10 (Dlares al cuadrado)
Aplicando la frmula 2:
S2
n 1
2
40
S 2 285 35
4
2
5
S 2 10
5 1
(Dlares al cuadrado)
S2
X2
X 2
n 1
varianza
s2
Ejemplo: La varianza maestral en el ejemplo anterior de los salarios por hora result ser igual a 10.
Cul es la desviacin estndar de la muestra?
La desviacin estndar maestral es $3.16, que se obtiene de:
S
s2
10
S 3.16
Obsrvese que la varianza muestral est en trminos de dlares al cuadrado, pero al obtener la raz
cuadrada de 10 resulta $3.16 en dlares simples, y por tanto est en las mismas unidades monetarias
que los datos originales.
37
DATOS AGRUPADOS.
AMPLITUD DE VARIACIN
La amplitud de variacin es loa diferencia entre el valor ms grande y el ms pequeo de una
poblacin.
En datos agrupados se resta el limite inferior de la clase ms baja, del lmite superior de la clase ms
alta.
Ejemplo: Supngase que se tiene una muestra de 47 sueldos por hora en la siguiente distribucin de
frecuencias
X (sueldos por
hora)
f
6
12
19
7
5 a 10
11 a 20
21 a 30
fX
fX
n 1
F
3
7
11
22
40
24
9
4
38
$30 a 35
35 a 40
40 a 45
45 a 50
50 a 55
55 a 60
60 a 65
65 a 70
3
7
11
22
40
24
9
4
n = 20
PUNTO
MEDIO
X
fx
fx(X)
32.5
37.5
42.5
47.5
52.5
57.5
62.5
67.5
3(32.5)= 97.50
7(37.5)= 262.50
11(42.5)= 467.50
22(47.5)=1045.00
40(52.5)=2100.00
24(57.5)=1380.00
9(62.5)=562.50
4(67.5)=270.00
32.5( 97.50)=3168.75
37.5( 262.50)=9843.75
42.5 (467.50)=19868.75
47.5 (1045.00)=49637.50
52.5 (2100.00)=110250.00
57.5(1380.00)=79350.00
62.5(562.50)=35156.25
67.5(270.00)=18225.00
6185.00
325500.00
fX 2
fX 2
n 1
39
S 7.51.
La desviacin estndar maestral es ($7.51) 2, o aproximadamente 56.40 ( en dlares al
cuadrado).