Você está na página 1de 22

Estadstica Descriptiva

1. Introduccion
1.1. Denicion de Estadstica
El origen de la palabra estadstica, proviene del adjetivo statisticusque se hizo popular en el siglo V XII,
el cual parece tener su origen en la palabra italiana statista, usada para denir a la persona dedicada al
pensamiento acerca del estado.
Se puede armar que el origen de la estadstica data de miles de a nos atras, cuando surge la necesidad de
saber cuantos somos y cuantos son. As una necesidad estadstica habra motivado la habilidad de contar,
y el pensamiento matematico. La estadstica (sin s) es una ciencia a la que algunas organizaciones como
la UNESCO, por ejemplo, la ubican entre las Ciencias Sociales y otras, como FONDECYT, la incluyen en la
Matematica.
En la practica el concepto de estadsticatiene varios signicados, dependiendo de la persona que lo utiliza.
Com unmente bajo estadsticase entiende un conjuntos de cifras o datos, por ejemplo, hablamos de estadstica
de nacimientos, estadstica de produccion de papas, e incluso de estadsticas de los resultados semanales del
f utbol o de las carreras del hipodromo.
En la actualidad, se entiende por estadstica algo mucho mas complejo y es as como para algunos se trata de
una ciencia, para otros de un metodo y hay quienes preeren limitarse a mencionar sus objetivos. No obstante,
esta claro el vasto campo de aplicaciones de la Estadstica, que ha pasado a ser indispensable, para tomar
decisiones racionales en todo tipo de investigaciones.
A continuacion se enumeran algunas deniciones que se han dado de la Estadstica:
Conjunto de Metodos para efectuar decisiones adecuadas frente a la incertidumbre (Wallis y Roberts,
Statistics, a New Approach)
Disciplina relacionada con los metodos cientcos destinados a recopilar, organizar, resumir, presentar y
analizar datos, tanto para la deduccion de conclusiones como para tomar decisiones razonables de acuerdo
con tales analisis (M.R.Spiegel, Estadstica).
Ciencia de tomar decisiones a base de las observaciones (Clay Sprowis, Elementary Statistics).
Metodos y procedimientos para obtener, describir e interpretar conjuntos de datos y para basar decisiones
y predecir fenomenos que pueden expresarse en forma cuantitativa (H. DOttone, Estadstica Elemental).
La necesidad de disponer de informacion en cantidad y calidad suciente, y con la oportunidad debida, se
ha traducido en que los distintos pases han debido centralizar la recopilacion y publicacion de Estadsticas en
organismos estatales especializados, como es el caso del Instituto Nacional de Estadsticas (INE) en Chile. En
la actualidad son numerosos tambien los organismos internacionales preocupados de la confeccion y publicacion
de estadsticas sobre las actividades que los preocupan (CEPAL, FAO, UNESCO, OEA, etc.)
La estadstica implica para la mayora de los estudiantes, una forma nueva de pensar en terminos de incer-
tidumbre. Aca como en otros casos, los estudiantes dieren en habilidad, y cuando se enfrentan a la estadstica
por primera vez para algunos puede parecer una tortura mental, en el presente curso se hara todo el esfuerzo
para minimizar los problemas de aprendizaje de la estadstica.
La estadstica esta muy relacionada con el metodo cientco. Apoya a la investigacion en todas las otras
disciplinas, especialmente en la recoleccion y el analisis de datos para vericar o formular nuevas hipotesis
Por otro lado, los procesos administrativos, comerciales y tecnologicos necesitan de estos metodos para tomar
decisiones y hacer predicciones a valores futuros.
Finalmente, es necesario tener en cuenta que la estadstica se ha propuesto como instrumento de investigacion.
La investigacion puede ser en diversas areas. Es el campo de investigacion y no el instrumento, el que debe
proporcionar los por que del problema de investigacion. A veces este hecho se pasa por alto y los usuarios
olvidan que tienen que pensar, que la estadstica no puede pensar por ellos. La estadstica, sin embargo, ayuda
a los investigadores a dise nar experimentos y a evaluar objetivamente los datos numericos resultantes.
1
1.2. Metodos de Obtencion de Datos.
Los datos y cifras pueden obtenerse de diferentes maneras, de las cuales destacan:
1. Censos: El censo constituye una indagacion completa, en relacion a la o las variables que interesa estudiar.
El censo posibilita la obtencion de informacion de toda la poblacion o universo, pero en general a un alto
costo y gran consumo de tiempo. A ello hay que agregar las dicultades relacionadas con una buena
organizacion administrativa, que permita controlar y evitar los errores de recopilacion y manejo de esta
gran masa de datos.
En la practica los censos mas conocidos son los de poblacion, vivienda, agropecuarios e industriales.
2. Muestras: Las muestras por lo general estan basadas sobre el analisis parcial de la poblacion o el universo
que incluye el total de las unidades. Es decir, de la poblacion o universo se selecciona, por alg un metodo
adecuado, una parte de los elementos que componen la poblacion, que constituye la llamada muestra, la
cual es estudiada respecto a la variable de interes.
Las ventajas de la tecnica muestral por su bajo costo y oportunidad en la obtencion de la informacion
deseada, se pueden ver deterioradas si no se utilizan ciertos procedimientos de muestreo adecuados.
3. Experimentos: El trabajo experimental es un procedimiento de recopilacion de informacion bastante
difundido en las investigaciones realizadas en el campo de las ciencias agrcolas, biologicas, fsicas, etc. La
experimentacion permite la comprobacion practica de hechos, teoras y propositos, con miras a formular
hipotesis logicas y constituye una importante etapa del metodo cientco de investigacion.
Los experimentos se realizan normalmente utilizando unidades experimentales adecuadas, las cuales son
sometidas a tratamiento de interes. En este caso el investigador debera tomar decisiones respecto al n umero
de observaciones a tomar, unidades experimentales a utilizar, n umero de repeticiones y analisis o estudios
a efectuar.
2. Presentacion de Datos
2.1. Tipos de datos
Cualquiera haya sido el procedimiento de recopilacion de informacion estadstica, implicara la reunion de
una gran cantidad de datos o cifras que sera necesario resumir y presentar de acuerdo a criterios convenientes
que faciliten su comprension y permitan su adecuado analisis.
Por dato se entendera cualquier caracterstica que se pueda observar o medir: color de ojos, estatura, n umero
de pulsaciones por minuto, peso, etc.
Los datos pueden ser cualitativos o atributos si se reere a una propiedad de los fenomenos en estudio,
por ejemplo, profesion, raza, genero, nacionalidad, etc.
Los datos obtenidos pueden referirse a una caracterstica cuantitativa, que se designara en general con el
nombre de la variable: peso, estatura, n umero de hijos, supercie agrcola, etc.
Se habla de datos atemporales, cuando, para un conjunto de datos, no interesa el orden en que se pre-
sentan las observaciones: Peso de un grupo de vacunos. En otros casos es importante considerar las variaciones
que presentan en los datos a medida que transcurre el tiempo. En este caso se habla de series de tiempo,
cronologicas o historicas. (Produccion diaria de acero, ventas diarias de un supermercado, entrega mensual de
leche).
Dependiendo del n umero de variables o atributos que se estudiaran conjuntamente se hace distincion entre
casos unidimensionales (Personas clasicadas por edad); caso bidimensional (Vacunos clasicados por raza
y edad) o de un caso multidimensional, si se consideran mas de dos variables simultaneamente (Personas
clasicadas por, edad, peso y genero).
Dado un conjunto de observaciones de una variable X, la Estadstica Descriptiva estudia procedimientos
para resumir la informacion que contienen. Los tipos de variables que consideramos son:
1. Variables Cualitativas o Atributos: No toman valores numericos y describen cualidades. Por ejemplo,
clasicar un artculo como aceptable, dudoso o defectuoso, o clasicar una pelcula como buena, regular o
mala.
2
2. Variables Cuantitativas Discretas: Toman unicamente valores enteros, corresponden en general a
contar el n umero de veces que ocurre un evento. Por ejemplo, n umero de artculos defectuosos en una
partida.
3. Variables Cuantitativas Continuas: Toman valores en un intervalo y corresponden a medir magnitudes
continuas. Por ejemplo, tiempo, edad, peso, longitud, etc.
Existen muchas formas de representar los datos, entre ellas el uso de tablas, diagramas y gracas. A modo
de ilustracion considere el ejemplo siguiente:
Ejemplo: El Director del Departamento de prevencion de riesgos de una empresa dispone de la siguiente
informacion sobre los empleados que han sufrido alg un tipo de accidente que haya obligado al trabajador
respectivo a tomar licencia en el ultimo a no. Los datos se encuentran en el cuadro 1.
3
Nombre Lesion en Planta Licencia Edad Peso Estatura
Juan Perez Cabeza Si 12 43 89 1.78
Mario Ramos Tronco Si 1 28 76 1.82
Lizardo Garrido Cabeza No 3 52 71 1.67
Carlos Caszely Extremidades No 4 54 84 1.58
Julio Pe na Cabeza No 23 49 85 1.55
Juan Vega Tronco Si 2 27 63 1.72
Patricia Riquelme Cabeza Si 57 32 57 1.54
Carlos Picarte Cabeza Si 3 46 74 1.67
Juan Mu noz Extremidades Si 5 21 89 1.83
Sergio Espinoza Extremidades Si 2 41 75 1.65
Mario Mu noz Cabeza No 13 43 79 1.63
Jose Castillo Tronco Si 6 57 65 1.59
Michel Vazquez Tronco No 3 46 59 1.73
Jorge Vargas Tronco Si 2 34 79 1.85
Carlos Ceballos Cabeza No 1 33 87 1.7
Johan Bustos Tronco No 21 62 78 1.72
Matias Fernandez Extremidades No 6 21 77 1.81
Jorge Valdivia Extremidades Si 12 22 84 1.75
Pedro Diaz Cabeza No 2 63 79 1,68
Juan Cares Cabeza No 1 57 75 1.64
Samuel Castillo Tronco No 4 42 74 1.77
Sergio Ramos Cabeza No 6 24 86 1.85
Gabriel Contreras Cabeza No 1 36 89 1.75
Alvaro Martinez Tronco Si 3 34 96 1.89
Pablo Mendoza Cabeza No 6 23 71 1.69
Marcial Chamorro Cabeza No 4 36 73 1.74
Claudio Leal Cabeza No 2 44 69 1.63
Carlos Fuentes Tronco No 5 51 73 1.77
Gerado Barria Cabeza No 7 50 82 1.67
Gabriel Jara Cabeza No 6 34 79 1.79
Jose Mu noz Cabeza Si 2 55 98 1.87
Alan Garcia Tronco No 4 58 83 1.81
Pedro Prado Tronco No 3 66 69 1.65
Alejandro Aravena Cabeza No 1 31 75 1.72
Juan Insunza Cabeza No 6 62 61 1.57
Mario Yevenes Cabeza No 1 57 72 1.76
Hector Moreira Tronco No 5 42 75 1.63
Justo Alveal Cabeza No 7 48 79 1.76
Custodio Bueno Cabeza Si 1 57 83 1.81
Rodrigo Saez Extremidades No 4 43 84 1.75
Mauricio Aviles Cabeza No 13 45 82 1,81
Claudio Repetto Tronco No 1 38 87 1.85
Manuel Melgar Tronco Si 3 28 75 1.77
Cesar Toloza Cabeza No 5 51 79 1.67
Luis Otarola Cabeza No 1 35 79 1.75
Juan Pena Cabeza No 5 46 73 1.69
Raul Chandia Tronco No 7 51 67 1.63
Omar Contreras Cabeza No 6 58 75 1.64
Mario Galindo Cabeza Si 1 43 79 1.87
Marcelo Salas Extremidades No 35 35 77 1.76
Cuadro 1: Accidentes de trabajo. Elaboracion propia
Donde:
Lesion en: Indica la parte del cuerpo que el trabajador tuvo afectada.
4
Planta: Indica si el trabajador lesionado es de la planta en la Empresa o no.
Licencia Informa el n umero de das que el trabajador estuvo con licencia medica.
Edad: Edad del trabajador medida en a nos.
Peso: Peso del trabajador medido en kilos.
Estatura: Altura del trabajador medida en metros.
En este caso, por ejemplo, las variables Lesion y Planta son cualitativas, Licencia y Edad son cuantitativas
discretas y Estatura es cuantitativa continua.
Se enfatiza que es conveniente clasicar las variables de acuerdo al conjunto de valores posibles que ellas
puedan tener. Los valores de las variables edad, capital, n umero de hijos, se expresan en forma numerica.
En cambio presencia de defectos, sabor, posicion poltica muestran una cualidad del elemento y no pueden
expresarse numericamente, salvo de manera articial. Entonces podemos distinguir dos tipos de variables:
Variables cualitativas o no numericas.
Variables cuantitativas o numericas.
Las variables edad y n umero de hijos, son cuantitativas. Sin embargo, el n umero de hijos puede tomar los
valores 0, 1, 2, . . . , vale decir, un entero no negativo. No tiene sentido hablar de valores intermedios como 1,3
hijos. Por el contrario, si bien la edad se expresa en a nos cumplidos, esto lo podemos renar usando meses, das,
horas, minutos, segundos, etc. O sea, entre dos valores cualesquiera de la variable edad, por cercanos que sean,
existe siempre un valor intermedio.
Por otro lado, las variables sexo y grados en el ejercito son variables cualitativas. La variable sexo toma
los valores masculino y femenino, en cambio la variable grados en el ejercito puede tomar los valores soldado,
subocial, ocial, etc. La diferencia entre ambas variables es que en grados del ejercito existe un orden jerarquico,
propio de la variable. De esta manera, si una variable cualitativa toma valores en un conjunto donde los valores
son solo nombres, la llamaremos variable nominal, y si ademas estos nombres tienen un orden propio o jerarqua
la llamaremos variable ordinal.
2.2. Tabulaci on y graco de los Datos.
Una vez recolectados los datos es necesario construir gracos y tablas que permitan un resumen adecuado
de ellos, antes de proceder a su analisis y utilizacion correcta. El primer paso es decidir a que tipo de variable
corresponde cada una de las informaciones en estudio, dado que las variables cualitativas deben ser analizadas
de manera diferente que las cuantitativas, y tambien existen diferencias en el tratamiento de las variables
cuantitativas discretas y continuas.
2.2.1. Tabulacion de variables cualitativas
En general resulta facil la clasicacion de atributos (sexo, raza, presencia de una determinada enfermedad).
La tabulacion de los datos se hace utilizando las llamadas tablas de contingencia (ver cuadro 2). Se observa en
este caso, que el orden de ubicacion de los atributos es arbitrario.
Lesion Frecuencia Frecuencia Porcentaje
Absoluta Relativa
Cabeza 28 0.56 56 %
Extremidades 7 0.14 14 %
Tronco 15 0.30 30 %
Total 50 1.00 100 %
Cuadro 2: Tabla de la variable cualitativa lesion
El n umero asociado a cada categora o clase se denomina frecuencia. Puede observarse que a la tabla 2 se le
han agregados dos columnas denominadas frecuencia relativa y porcentaje, respectivamente.
A modo de ilustracion se presenta la interpretacion de algunos de los n umeros que aparecen en la tabla 2.
5
28 personas tuvieron una lesion en la Cabeza.
El 14 % de las personan tuvieron una lesion en las extremidades.
2.2.2. Gracos de variables cualitativas
Una ventaja de los gracos es que pueden mostrarnos cosas que de otra forma hubiese sido muy difcil o
imposible de observar. Esta es una de las razones por las cuales casi todo analisis estadstico considera gracos.
Existen dos tipos de gracos que son de utilidad en caso de variables cualitativas, el graco de barras y el
graco circular.
Los gracos de barras son sucientemente exibles para ser adaptados a situaciones donde el trabajo graco
ha tenido poco exito, como lo es el analisis de datos categoricos.
La gura 1 presenta el graco de barras para los datos de la tabla 2, usando las frecuencias absolutas.
Podramos construir un graco similar usando las frecuencias relativas o porcentuales.
Cabeza Extremidades Tronco
Lesin
F
r
e
c
u
e
n
c
i
a
0
5
1
0
1
5
2
0
2
5
Figura 1: Graco de barras para la variable lesion de la tabla 2.
El uso de gracos circulares o de torta es bastante com un entre personas no profesionales en estadstica y
lamentablemente se ha trivializado tanto que si en muchas de las situaciones donde se usan se suprimieran se
ahorraran muchas hojas de papel. Por ejemplo, a veces se presenta un graco de torta para mostrar que en una
muestra el 50 % son hombres y el 50 % son mujeres.
El n umero de grados del circulo asignados a cada atributo es denido por:
(Frecuencia Relativa del atributo) 360
0
.
La gura 2 presenta el graco circular para algunos datos de la tabla 2.
2.2.3. Variables Cuantitativas Discretas.
Los datos relacionados con variables discretas dan origen a un cuadro o tabla de resumen denominado
distribucion de frecuencias.
Por ejemplo, La Tabla 3 muestra un ejemplo de tabulacion de datos correspondiente a la clasicacion de 275
vacas de un predio agrcola de acuerdo al n umero de partos que previamente han tenido.
Cabe destacar algunas caractersticas que presenta la tabla de frecuencia indicada anteriormente.
- Al hacer la tabulacion de han ordenado los valores de la variable y
i
de menor a mayor 0, 1, 2, . . . , 8
6
Cabeza
Extremidades
Tronco
Lesion
Figura 2: Graco circular para la variable lesion de la tabla 2
Clase Frecuencia Frecuencia Porcentaje Frecuencia Frecuencia
N
o
de Partos Absoluta Relativa Absoluta Relativa
Y
i
n
i
f
i
% N
i
F
i
0 25 0.09 9 25 0.09
1 33 0.12 12 58 0.21
2 48 0.17 17 106 0.38
3 63 0.23 23 169 0.61
4 54 0.20 20 223 0.81
5 27 0.10 10 250 0.91
6 12 0.04 4 262 0.95
7 9 0.03 3 271 0.98
8 4 0.02 2 275 1.00
Cuadro 3: N umero de Partos Correspondientes a un Grupo de 275 Vacas. Fuente: Anuario Agrcola, a no 1974.
- El n umero de clases, 9 en nuestro ejemplo, es independiente del tama no de la muestra (n = 275).
- Se ha agregado a la tabla columnas adicionales, que permiten un mejor analisis del resultado.
- El cuadro de ha titulado de manera que reeje sucintamente su contenido.
- Es aconsejable agregar la fuente de los datos, lo que permite al lector aclarar y ubicar mayores antecedentes
sobre la materia.
- Conviene, seg un el caso, indicar claramente las unidades en que se presentan los datos.
- Cuando la variable en estudio toma muchos valores diferentes, puede, con cierta perdida de precision, tratarse
como a una variable continua, formando intervalos de clase.
- Cabe destacar que la formacion de un cuadro de frecuencias correspondientes al caso de variables discretas
no implica perdida de informacion.
- En general, las frecuencias acumuladas se suman en sentido creciente de la variable, sin embargo, para ciertos
analisis se procede tambien en sentido inverso.
En forma abreviada el signicado de las columnas de la tabla 2.4 es el siguiente:
- Frecuencias absolutas (n
j
): corresponde al n umero de veces que se repite un determinado valor de la variable.
En general debe cumplirse:
0 n
j
n
7
m

j=1
n
j
= n
1
+n
2
+. . . +n
m
= N
donde m es el n umero de valores que toma la variable en estudio y N es el total de observaciones consi-
deradas en el estudio.
- Frecuencia Relativa (f
j
): se obtiene como cuociente entre la frecuencia absoluta correspondiente y la frecuencia
total. Es decir se deben cumplir las siguientes propiedades:
f
j
=
n
j
N
0 f
j
1
m

j=1
f
j
= f
1
+f
2
+. . . +f
m
= 1
- Porcentaje ( %): es la frecuencia relativa multiplicada por 100.
- Frecuencia absoluta acumulada (N
j
): es la suma de las frecuencias de la clase mas la de las anteriores a ella. Es
decir, es el n umero de observaciones menores o iguales a un determinado valor de la variable. En general
para la frecuencia absoluta acumulada correspondiente a la clase j se puede escribir:
N
j
= n
1
+n
2
+. . . +n
j
=
j

i=1
n
i
- Frecuencias relativas acumuladas de una clase (F
j
):es la frecuencia absoluta acumulada de la clase dividida
por la frecuencia total. O bien, es la suma de la frecuencia relativa de la clase mas las de las que la
preceden. Es decir:
F
j
= f
1
+f
2
+. . . +f
j
=
j

i=1
f
i
.
Por ejemplo, para los datos del cuadro 3, se tiene:
n
3
= 48; 48 vacas han tenido 2 partos.
f
5
= 0, 20; El 20 % de las vacas ha tenido 4 partos.
N
7
= 262; 262 vacas han tenido a lo mas 6 partos.
F
4
= 0, 61; El 61 % de las vacas ha tenido a lo mas 3 partos.
2.2.4. Graco de variables cuantitativas discretas
Los principales gracos a usar en este caso son el diagrama de frecuencias simples y el graco de frecuencias
acumuladas.
La gura 3 presenta el graco de frecuencias absolutas para los datos de la tabla 3.
La gura 4 presenta el graco de frecuencias acumuladas u ojiva para los datos de la tabla 3.
Otra representacion usada com unmente es la llamada graco de tallo y hoja, a seguir se muestra este
diagrama para la variable edad de los datos de la tabla 1.
1 | 2: represents 12
leaf unit: 1
n: 50
5 2* | 11234
8 2. | 788
14 3* | 123444
19 3. | 55668
8
0 2 4 6 8
1
0
2
0
3
0
4
0
5
0
6
0
Nmero de Partos
F
r
e
c
u
e
n
c
i
a

A
b
s
o
l
u
t
a
Figura 3: Graco de frecuencias relativas para la tabla 3.
0 2 4 6 8
5
0
1
0
0
1
5
0
2
0
0
2
5
0
Nmero de Partos
F
r
e
c
u
e
n
c
i
a

A
c
u
m
u
l
a
d
a
Figura 4: Graco de frecuencias Acumuladas para la tabla 4
(8) 4* | 12233334
23 4. | 566689
17 5* | 011124
11 5. | 5777788
4 6* | 223
1 6. | 6
En este caso, por ahora vamos a ignorar la primera columna y considerar las restantes, por ejemplo, para la
primera la, el smbolo 2

|11234 signica que entre en los datos hay dos personas de 21 a nos, una persona de
22 a nos, otra de 23 a nos y una ultima persona de 24 a nos.
La primera parte antes del smbolo | corresponde al tallo; que en este caso ha sido dividido en dos partes,
la primera con n umero siguiente, conocido como hoja desde 0 a 4 (simbolizada con *) y la segunda de 5 a 9
(simbolizada con .).
Este diagrama permite tener una idea de la forma de la distribucion de los datos y analizar la existencia de
valores atpicos (outliers).
Otro graco usado con frecuencia es el diagrama de cajas (box-plot), a modo de ilustracion la gura 5
presenta el diagrama de cajas para la variable edad de los datos de la tabla 1. Este diagrama sera analizado con
mayor detalle mas adelante.
9
2
0
3
0
4
0
5
0
6
0
E
d
a
d
Figura 5: Diagrama de cajas para la variable edad de la tabla 1
2.2.5. Tabulacion de variables continuas
La tabulacion de datos correspondientes a variables continuas da origen a una tabla de frecuencia similar a
la correspondiente a los datos discretos. La diferencia fundamental radica en que las clases son reemplazadas
por intervalos de clase, debido a que en caso contrario podramos tener una gran cantidad de valores distintos
para la variable en estudio y no justicarse su tabulacion, de acuerdo al metodo empleado con anterioridad.
A modo de ejemplo considerese el consumo diario de agua en m
3
/seg correspondiente al mes de junio de
una industria particular:
1.22-1.03-1.03-1.07-1.03-1.03-1.12-1.22-1.12-1.03-0.98-0.89-0.76-0.72-0.72-0.51-1.17-0.85-0.72- 0.61-0.65-0.69-
0.76-0.93-0.93-0.80-0.93-0.93-0.76-1.17.
A objeto de establecer el n umero m de clases que conviene considerar para la tabulacion es conveniente
calcular el recorrido de la variable, es decir, la diferencia entre el mayor y menor de los datos observados. O
sea:
L = x
max.
x
min.
= 1,22 0,51 = 0,71
A objeto que los lmites de los intervalos de clase sean n umeros sencillos , en la practica se amplia levemente
el recorrido L de la muestra. Como tambien se acostumbra a trabajar con intervalos de igual amplitud(en
algunos casos no obstante puede justicarse el uso de intervalos con amplitud desigual).
La amplitud de los intervalos de clase estara relacionada con el n umero m de intervalos de clase a considerar.
La practica recomienda que el n umero de intervalos de clase no sea inferior a 4 ni superior a 15, a objeto de no
perder las ventajas de la tabulacion y, por otra parte, no introducir errores adicionales en el analisis posterior
de los datos.
Para el ejemplo considerado anteriormente, dada la poca variabilidad de los datos, si se consideran 4 intervalos
de clase (IC), ellos quedaran identicados, por los lmites inferior y superior mostrados en la tabla 4.
Intervalos de Clase Marcas de Clase (m
i
)
(0.50-0.70] 0.60
(0.70-0.90] 0.80
(0.90-1.10] 1.00
(1.10-1.30] 1.20
Cuadro 4: Consumo diario de Agua
Las marcas de clase m
1
, . . . , m
4
permiten caracterizar a los intervalos de clase y corresponden a los puntos
medios o, semi suma de los lmites superior e inferior respectivos. En la practica, debido a calculos posteriores
10
que se haran a partir de las tablas de frecuencia para variables continuas, es conveniente que las marcas de clase
sena n umeros sencillos.
La tabulacion de los datos recogidos da origen a la tabla 5.
Intervalos de Clase Marcas de Clase Frec. Frec. Frec. Abs. Frec. Rel.
(m
i
) Absoluta Relativa Acumulada Acumulada
(n
i
) (f
i
) (N
i
) (F
i
)
(0.50-0.70] 0.60 4 0.13 4 0.13
(0.70-0.90] 0.80 9 0.30 13 0.43
(0.90-1.10] 1.00 11 0.37 24 0.80
(1.10-1.30] 1.20 6 0.20 30 1.00
Total 30 1.00
Cuadro 5: Consumo diario de Agua
A modo de ejemplo a seguir son dadas algunas interpretaciones de la tabla 5.
- La frecuencia n
3
= 11 nos dice que de los 30 das del mes, en 11 das el consumo fue mayor que 0.9 y a lo
mas 1.1 m
3
/seg.
- La frecuencia n
1
= 4 nos dice que 4 das el consumo de agua fue mayor que 0.5 y a lo mas 0.7 m
3
/seg.
- f
2
= 0,30, nos dice que el 30 % de los das el consumo de agua fue mayor que 0.7 y a lo mas 0.9 m
3
/seg.
- N
3
= 24 nos dice que 24 das el consumo de agua fue mayor que 0.50 y a lo mas de 1.100 m
3
/seg.
- F
2
= 0,43 nos dice que el 43 % de los das el consumo de agua fue a lo mas 0.900 m
3
/seg.
Una regla usada con frecuencia para determinar el n umero de intervalos es la regla de Sturges, denida por:
N umero de Intervalos : m = 1 + 3, 3ln(n)
donde n es el tama no de la muestra.
Otros autores consideran que una buena aproximacion para la cantidad de intervalos es dada por m =

n.
Cabe destacar que al efectuar la concentracion de los datos originales para construir la tabla de frecuencias,
se produce una perdida de informacion. Por consiguiente, si solo se dispone de la informacion dada por la tabla
de frecuencia, no sera posible reconstruir los datos originales.
Ejemplo: Agrupar los datos siguientes que corresponden al rendimiento anual, en tanto por ciento, co-
rregidos por el nivel de inacion de una empresa.
-3.2 17.4 -13.4 -9.9 20.4 15.1
2.7 -1.6 41.0 20.8 6.1 -21.8
20.9 53.4 10.3 15.1 -13.8 -34.8
24.6 31.1 -1.0 10.3 -1.5 28.3
17.2 3.6 26.0 -13.0 10.6 18.2
Solucion: Una solucion posible es:
Tarea : Complete la tabla e interprete algunos de sus valores.
11
Rendimiento N umero de a nos Frecuencias
Clases Frecuencias Acumuladas
-39.95-19.95 2 2
-19.95-0.05 8 10
-0.05-20.05 11 21
-20.05-40.05 7 28
-40.05-60.05 2 30
Cuadro 6: Rendimientos
2.2.6. Graco de Variables Continuas
El graco principal de variables continuas es el histograma. El histograma es el graco estadstico por
excelencia. El histograma de un conjunto de datos es un graco de barras que representan las frecuencias con
que aparecen las mediciones agrupadas en ciertos rangos e intervalos. Un histograma es construido a partir de
los datos tabulados.
Los pasos para construir un histograma son:
1. Dena los intervalos o clases de igual longitud.
2. Cuente el n umero de observaciones que caen en cada clase o intervalo.
3. Calcule las frecuencias relativas.
4. Graque los rectangulos cuyas alturas son proporcionales a las frecuencias relativas.
Realizar histogramas de esta manera tiene las siguientes ventajas:
1. Es util para apreciar la forma de la distribucion de los datos, si se escoge adecuadamente el n umero de
clases y su amplitud.
2. Se puede presentar como un graco denitivo en un reporte.
3. Se puede utilizar para comparar dos o mas muestras o poblaciones.
Las desventajas son:
1. Las observaciones individuales se pierden.
2. La seleccion del n umero de clases y su amplitud que adecuadamente representen la distribucion de los
datos puede ser complicado. Un histograma con muy pocas clases agrupa demasiadas observaciones y uno
con muchas deja muy pocas en cada clase. Ninguno de los dos extremos es adecuado.
Debido a que nuestros ojos responden al area de las barras, es importante mantener la anchura de las barras
iguales. Si estamos enfrentados a un problema donde los intervalos tienen diferente amplitud, por ejemplo cuando
obtenemos datos agrupados desde la fuente, se usa la siguiente formula:
Altura del rectangulo =
Frecuencia Relativa
Amplitud del intervalo
Observacion: Los programas de computador usualmente ajustan los histogramas automaticamente, pero
el programa debe permitirnos variar el histograma. Si usted posee un programa que no le permite hacer cambios,
cambie de programa.
La gura 6 presenta el histograma para los datos de la tabla 5.
Ejercicio: Dibujar el histograma para los datos de la tabla 6.
El histograma es de mucha utilidad para estudiar si los datos pueden ser aproximados por una distribucion
normal. La distribucion normal es la mas usada en estadstica clasica por muchas razones entre las que se
cuentan:
12
Histograma para los datos de la tabla
Marcas de clase
F
r
e
c
u
e
n
c
i
a
s
0.6 0.8 1.0 1.2
0
2
4
6
8
1
0
1
2
Figura 6: Histograma para los datos de la tabla 5
1. La distribucion de muchas variables es aproximadamente normal.
2. Para medidas que no tienen distribucion normal, una transformacion simple de la escala de medicion,
puede inducir normalidad aproximada. Las transformaciones raz cuadrada y logaritmo son usadas con
frecuencia.
3. La distribucion normal es de uso relativamente sencillo.
4. Si la distribucion de origen de la poblacion original esta lejos de la distribucion normal, la media X tiende
a tener una distribucion normal bajo muestreo, cuando el tama no de muestra aumenta. Esta propiedad
es conocida como teorema central del lmite.
5. EL graco de la distribucion normal es simetrico y tiene forma acampanada.
La distribucion normal es completamente determinada por su media y su varianza
2
, la altura f(x) en
el valor x es dada por la siguiente funcion:
f(x) =
1

2
2
exp
_
(x )
2
2
2
_
La gura 7 presenta un graco de f(x), para valores particulares de y
2
.
La gura 8 presenta el histograma de f(x) para distintos tama nos muestrales.
13
4 2 0 2 4
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
Distribucin normal
x
f
x
Figura 7: Distribucion normal
A. Histograma 10 observaciones
ruido10
F
r
e
c
u
e
n
c
i
a
1.0 0.5 0.0 0.5 1.0
0
1
2
3
4
5
B. Histograma 50 observaciones
ruido50
F
r
e
c
u
e
n
c
i
a
2 1 0 1 2
0
2
4
6
8
1
0
1
2
C. Histograma 500 observaciones
ruido500
F
r
e
c
u
e
n
c
i
a
2 0 2 4
0
2
0
4
0
6
0
8
0
1
0
0
D. Histograma 1000 observaciones
ruido1000
F
r
e
c
u
e
n
c
i
a
3 2 1 0 1 2 3
0
5
0
1
0
0
1
5
0
Figura 8: Histograma de la distribucion normal para distintos tama nos de muestra.
Otro graco usado con frecuencia para las variables cuantitativas continuas es la distribucion de frecuencias
acumuladas, que fue presentado anteriormente.
Otro graco agregado al histograma es el polgono de frecuencias, que se construye uniendo con segmentos
14
de recta los puntos medios (marcas de clase) de los intervalos adyacentes (ver gura 9).
Figura 9: Polgono de frecuencias para los datos de la tabla 5
3. Estadgrafos de Posici on central y de Variabilidad
Hasta aqu nos hemos preocupado de la descripcion de un conjunto de observaciones, ya sea gracamente
o por medio de una distribucion de frecuencias. Sin embargo, en muchos casos, en vez de trabajar con todas
las observaciones es preferible disponer de una o mas medidas descriptivas que resuman los datos en forma
cuantitativa. Tales medidas reciben el nombre de Estadsticas o Estadgrafos cuyos valores son obtenidos a
traves de los datos.
Estas medidas descriptivas se dividen en tres categoras:
Medidas de Tendencia Central y Posicion: Moda, media, Mediana, Percentiles.
Medidas de Dispersion: Rango, Rango intercuartlico, Varianza, Desviacion Estandar, Coeciente de
Variacion.
Medidas de Forma: Coeciente de Asimetra, Coeciente de Kurtosis.
3.1. Medidas de Tendencia Central y Posicion
Las medidas de tendencia central, como su nombre lo indica, nos describen el centro de la informacion. La
mas conocida es el Promedio, Media o Media Aritmetica.
3.1.1. La Moda (M
o
)
Es aquel valor de la variable en estudio, que mas se repite o que tiene mayor frecuencia. Por ejemplo, para
la variable edad de los datos de los trabajadores la moda es 43 a nos, que corresponde al valor que aparece con
mayor frecuencia, y para la variable n umero de das de licencia la moda es 1.
Para datos agrupados lo que se obtiene es un intervalo modal, que es el intervalo con la mayor frecuencia
absoluta, as en el caso de datos agrupados la moda es una aproximacion. Una aproximacion usada frecuente-
mente es considerar la marca de clase de este intervalo (valor central del intervalo), pero en la mayora de los
libros de textos la moda en aproximada de la siguiente manera.
15
M
o
= LimInf
i
+
_
(n
i
n
i1
)
(n
i
n
i1
) + (n
i
n
i+1
)
_
A
i
donde
LimInf
i
es el lmite o cota inferior del intervalo modal,
n
i
es la frecuencia absoluta del intervalo moda,
n
i1
es la frecuencia absoluta del intervalo anterior al intervalo modal,
n
i+1
es la frecuencia absoluta del intervalo siguiente al intervalo modal,
A
i
es la amplitud del intervalo modal.
A modo de ilustracion, suponga que se tienen las notas de 20 alumnos de un curso, estas son:
6, 2 4, 8 3, 8 4, 6 4, 4
5, 7 6, 4 5, 4 6, 3 4, 8
4, 9 3, 1 3, 8 5, 5 5, 1
6, 8 4, 7 5, 5 7, 0 4, 2
La tabla siguiente muestra una tabulacion posible para los datos:
Nota n
i
f
i
N
i
F
i
m
i
3,10-3,88 3 0,15 3 0,15 3,49
3,88-4,66 3 0,15 6 0,30 4,27
4,66-5,44 6 0,30 12 0,60 5,05
5,44-6,22 4 0,20 16 0,80 5,83
6,22-7 4 0,20 20 1 6,61
Total 20 1
La moda para este caso puede ser:
5,05 si la consideramos como la marca de clase con mayor frecuencia relativa.
M
o
= 4, 66 +
_
(6 3)
(6 3) + (6 4)
_
o, 78 = 5, 128
La interpretacion en este caso es que la moda corresponde a la nota que aparece con mayor frecuencia.
Una observacion importante es que la moda puede no existir.
Considere los siguientes datos recopilados a 8 estudiantes sobre la cantidad de hijos en su grupo familiar:
1, 2, 2, 3, 3, 4, 4
Como se aprecia, bajo la denicion de moda, en este caso, no existe moda. Ademas puede ocurrir que exista
mas de una moda, y en estos casos se hablara de multimodalidad.
16
3.1.2. El Promedio, Media o Media Aritmetica (X)
Es la medida de tendencia central mas conocida, la que es calculada sumando todos los valores de la variable
en estudio y dividiendo por el total de datos.
Formalmente, si x
1
, x
2
, . . . , x
n
son los valores observados de una variable X, entonces el promedio se expresa
matematicamente por
X =
n

i=1
x
i
n
Por ejemplo, para la variable edad de los datos de los trabajadores la media es 43,08 a nos, y para la variable
n umero de das de licencia la media es 6,68.
En muchos textos, el promedio es interpretado como un punto de equilibrio o un centro de gravedad.
Cuando solo se dispone de los datos agrupados o tabulados, podemos pensar en la marca de clase como un
representante de cada intervalos, de modo que:
X =
m

i=1
m
i
n
i
n
donde m es la cantidad de intervalos.
Para las notas la media es:
X =
3, 49(3) + 4, 27(3) + 5, 05(6) + 5, 83(4) + 6, 61(4)
20
=
103, 34
20
= 5, 167
En este caso, decimos que la nota promedio del curso es aproximadamente 5,1.
3.1.3. La mediana (M
e
)
Es aquel valor de la variable que ocupa la posicion central cuando los datos estan ordenados de menor a
mayor. En forma tecnica se dene como aquel valor de la caracterstica en estudio que deja bajo si al 50 % de
la informacion.
Sean x
1
, x
2
, . . . , x
n
los valores observados de una variable X. Generalmente los datos vienen desordenados,
as que lo primero que se debe realizar es ordenarlos de menor a mayor, digamos min = x
(1)
x
(2)
. . .
x
(n)=max
. Entonces la mediana se dene como:
M
e
=
_

_
x
((n+1)/2)
, si n es impar;
x
(n/2)
+x
(n/2+1)
2
, si n es par.
Imagine que la informacion observada es 6, 3, 8, 5 y 3.
Ordenando la informacion de menor a mayor queda 3, 3, 5, 6 y 8.
Como la cantidad de datos es impar debemos encontrar aquel dato que ocupa la posicion
n+1
2
=
5+1
2
= 3,
que corresponde al valor 5, por lo tanto la M
e
= 5.
Ahora considere la siguiente informacion: 9,6,7,9,10 y 8.
Ordenando los datos de menor a mayor queda: 6, 7, 8, 9, 9 y 10.
17
Como la cantidad de datos es par debemos encontrar los datos que ocupan las posiciones
n
2
=
6
2
= 3 y
n
2
+ 1 =
6
2
+ 1 = 4, que corresponden a los datos 8 y 9, as la M
e
=
8+9
2
= 8, 5.
En el caso de datos agrupados en intervalos, la mediana sera calculada usando el siguiente algoritmo:
1. Determinar la posicion que le corresponde a la mediana como:
Posicion = n
50
100
=
n
2
2. Determinar en que intervalo cae la mediana, comparando la posicion obtenida en i) y la columna de
las frecuencias absolutas acumuladas, la mediana esta en el intervalo que primero tiene una frecuencia
absoluta acumulada mayor o igual a n/2.
3. La mediana se calcula como:
M
e
= limInf
i
+
_
n
2
N
i1
_

A
i
n
i
donde limInf
i
es el lmite o cota inferior del intervalo en que esta la mediana (obtenido en ii); A
i
es
la amplitud del intervalo en que esta la mediana; n
i
es la frecuencia absoluta del intervalo en que esta
la mediana y N
i1
es la frecuencia absoluta acumulada del intervalo anterior al intervalo en que esta la
mediana.
Para aprender a aplicar el algoritmo anterior, se vera con detalles en el ejemplo de las notas de los 20
alumnos. En el paso i). Se tiene que la posicion que le corresponde a la mediana es el 10. En el paso ii) se
aprecia que la posicion 10 cae en el tercer intervalo, por lo tanto la mediana es:
M
e
= 4, 66 + (10 6)
0, 78
6
= 5, 18.
3.1.4. Los percentiles
Son cantidades que tiene la caracterstica de acumular informacion hasta ellos. Para aclarar ideas, imagine
que la informacion la dividimos en 100 partes iguales, donde cada una de las partes corresponde a un 1 % de la
informacion.
En este contexto P
1
es aquel valor de la variable que tiene acumulado el 1 % de la informacion, P
2
es aquel
valor de la variable que tiene acumulado el 2 % de la informacion, ... y P
99
es aquel valor de la variable que
tiene acumulado el 99 % de la informacion. Con esto, se dene el percentil % (P

) como aquel valor de la


variable en estudio que deja bajo si al % de la informacion. Para calcular P

se debe realizar el siguiente


procedimiento:
1. Ordenar los datos del mas peque no al mas grande
2. Calcular n

100
.
3. Si en el paso 2 se obtiene un entero, digamos, n

100
= k. Entonces el percentil % es el promedio de
los datos que ocupan la posicion k y la posicion k + 1.
Si en el paso 2 se obtiene un n umero con decimales, digamos n

100
= k decimal. Entonces el percentil
% es el dato que ocupa la posicion k + 1.
En un estudio realizado a 10 familias, se obtuvo el ingreso bruto mensual (expresado en salarios mnimos):
12,16,18,20,28,30,40,48,50 y 54. Se quiere encontrar el ingreso mnimo del 30 % de los ingresos mas altos.
Por lo tanto, se debe calcular el percentil 70 %. Como los datos ya estan ordenados se calcula n
70
100
=
10
70
100
= 7. Como nos da un valor entero, debemos promediar los datos que ocupan las posiciones 7 y 8, es
decir, P
70
=
40+48
2
= 44. Por lo tanto, el ingreso mnimo del 30 % de los ingresos mas altos es de 44 sueldos
mnimos, o dicho de otra forma, el 70 % de las personas gana menos de 44 sueldos mnimos.
En el caso de datos agrupados en intervalos, e n percentil % es calculado usando el siguiente algoritmo:
18
1. Determinar la posicion que le corresponde al percentil % Posicion = n

100
2. Determinar en que intervalo cae el percentil %, comparando la posicion obtenida en i) y la columna de
las frecuencias absolutas acumuladas, el percentil buscado esta en el intervalo que por primera vez tiene
una frecuencia absoluta acumulada mayor o igual que la posicion que le corresponde al percentil.
3. El percentil % es calculado por:
P

= limInf
i
+
_
n

100
N
i1
_

A
i
n
i
,
donde limInf
i
es el lmite o cota inferior del intervalo en que esta el percentil % (obtenido en ii)); A
i
es
la amplitud del intervalo en que esta el percentil %; n
i
es la frecuencia absoluta del intervalo en que esta
el percentil % y N
i1
es la frecuencia absoluta acumulada del intervalo anterior al intervalo en que esta el
percentil %.
Para aprender a aplicar el algoritmo anterior, se vera con detalles en el ejemplo de las notas de los 20
alumnos. Imagine que se quiere calcular la nota mnima del 40 % de las mejores notas, esto es buscamos P
60
.
As al aplicar el algoritmo anterior se tiene que en el paso i), la posicion que le corresponde al percentil 60 % es
12.
En el paso ii) recorremos la tabla de frecuencias, como se aprecia, la posicion 12 cae en el tercer intervalo,
por lo tanto el percentil 60 % es:
P
60
= 4, 66 + (12 6)
0, 78
6
= 5, 44.
Por lo tanto la nota mnima del 40 % de las mejores notas es 5,44, o dicho de otra manera, el 60 % de las
notas es menor que 5,44.
Se deja al lector, investigar que son los cuartiles, deciles y quintiles.
3.2. Medidas de dispersion o de variabilidad
Las medidas de dispersion o de variabilidad, como su nombre lo indica, son cantidades que describen cuan
cercanos o alejados estan los datos, es decir cuan homogeneos o heterogeneos son los datos.
Para determinar cuan separado esta el conjunto de datos, las medidas de dispersion deben estar relacionadas
con la idea de distancia. Porque, a menor distancia, los datos son homogeneos y a mayor distancia los datos son
heterogeneos.
La medida mas simple para medir dispersion en el rango R, que ya se ha estudiado. Una de las dicultades
del rango es que depende de los valores extremos y por lo tanto no siempre reeja adecuadamente la dispersion
existente en los datos ya que tiene a sobre estimarla. Para evitar lo anterior se utiliza el rango intercuartlico
(RI) que el rango del 50 % central de los datos, es decir, es la distancia entre P
75
y P
25
.
Por lo tanto, el rango intercuartlico es calculado por:
RI = P
75
P
25
.
As, en el ejemplo de las notas de los 20 alumnos, el rango intercuartlico es 1,63 y el rango es 3,9.
Otra medida de dispersion es la varianza (S
2
), que mide la heterogeneidad de los datos considerando un
punto de referencia que es el promedio.
Sean x
1
, x
2
, . . . , x
n
los valores observados de una variable X. La varianza se dene como:
S
2
=
1
n 1
n

i=1
(x
i
X)
2
Esta cantidad se puede calcular como:
19
S
2
=
n
n 1
_
n

i=1
x
2
i
n
(X)
2
_
,
donde

n
i=1
x
2
i
n
es el promedio de los cuadrados.
Para aclarar ideas considere los siguientes datos:
1,3,5,6, y 10.
El promedio de estos datos es :
X =
1 + 3 + 5 + 6 + 10
5
= 5,
y el promedio de los cuadrados es:
5

i=1
x
2
i
5
=
1
2
+ 3
2
+ 5
2
+ 6
2
+ 10
2
5
= 34, 4.
Por lo tanto la varianza es :
S
2
=
5
4
_
34, 2 (5)
2
_
= 11, 5.
En el caso de datos agrupados en intervalos la varianza es:
S
2
=
n

i=1
n
i
(m
i
X)
2
n 1
=
n
n 1
_
m

i=1
n
i
m
2
i
n
(X)
2
_
,
donde m es la cantidad de intervalos y m
i
es la marca de clase del i-esimo intervalo.
En el ejemplo de las notas de los 20 alumnos:
La nota promedio y el promedio de los cuadrados son: X = 5, 167 y
5

i=1
n
i
m
2
i
20
=
3 3, 49
2
+ 3 4, 27
2
+ 6 5, 05
2
+ 4 5, 83
2
+ 4 6, 61
2
20
= 27, 7489
Entonces la varianza es:
S
2
=
20
19
_
27, 7489 (5, 167)
2
_
= 1, 10633.
Uno de los problemas de la varianza es que si la variable en estudio es la estatura y la unidad de medida
es el metro, entonces, la unidad de medida de la varianza es (metro)
2
, si la variable en estudio es el peso y la
unidad de medida es kilogramo, entonces, la unidad de medida de la varianza es (kilogramo)
2
. Para evitar esta
dicultad se inventa la desviacion estandar o desviacion tpica, la que se dene como la raz cuadrada de
la varianza, es decir, S =

S
2
.
Como se aprecia, la unidad de medida de la desviacion estandar es la unidad de medida de la variable en
estudio.
En el ejemplo de las notas de los 20 alumnos, la desviacion estandar es S =

1, 10633 = 1, 0518.
Una de las grandes dicultades de las medidas de dispersion, que hasta el momento se han estudiado, es que
dependen de la unidad de medida de la variable en estudio. Debido a esta dicultad, se inventa el coeciente
de variacion.
El coeciente de variacion se dene como CV =
S
X
.
20
Como se aprecia, esta medida de dispersion es adimensional y si multiplicamos 100 por el coeciente de
variacion, tenemos el porcentaje de variabilidad, es decir, CV 100 %. Algunos autores, proponen la siguiente
clasicacion para determinar si los datos son homogeneos o heterogeneos:
1. Si CV 100 % 5 % los datos son muy homogeneos.
2. Si 5 % < CV 100 % 25 % los datos son homogeneos.
3. Si 25 % < CV 100 % 50 % los datos son heterogeneos.
4. Si CV 100 % > 50 % los datos son muy heterogeneos.
En el ejemplo de las notas de los 20 alumnos, el coeciente de variacion es CV =
1,0518
5,167
= 0, 2036, el
porcentaje de dispersion es de un 20,36 %. Seg un la clasicacion anterior se concluye que las notas de los 20
alumnos son homogeneas.
3.3. Transformaci on Lineal
Existen situaciones donde las cantidades calculadas no son las que se utilizan. Considere la siguiente situacion:
Usted realiza un estudio sobre el calentamiento global, utilizando como unidad de medida grados Celcius.
Ahora, un importante investigador lo invita con todos los gastos pagados a Estados Unidos, para que en un
congreso internacional, que trata sobre el calentamiento global, usted exponga los resultados obtenidos en su
trabajo. Lamentablemente, como se puede dar cuenta, en Estados Unidos se utilizan grados Fahrenheit, lo que
implicara rehacer todo el trabajo...
A continuacion se entregan resultados, cuando se realiza una transformacion lineal a los datos.
Sean x
1
, x
2
, . . . , x
n
, las observaciones de una variable X, la pregunta es, Que pasa con las cantidades
calculadas, si a los datos, se les multiplica por una constante y luego se les suma otra?, es decir, x
i
, se transforma
en a x
i
+b (con a = 0) en todas las observaciones.
Por ejemplo, se estudian las temperaturas de 20 alumnos de la universidad, los resultados son resumidos en
la siguiente tabla de frecuencias:
Estatura Marca de n
i
(cm) Clase
[161 166) 163,5 2
[166 171) 168,5 5
[171 176) 173,5 6
[176 181) 178,5 2
[181 186) 183,5 5
Total 20
La media, mediana, varianza y el coeciente de variacion son mostrados en la siguiente tabla:
Promedio X = 174, 25 cm
Percentil 50 P
5
0 = 173, 5cm
Varianza S
2
= 45, 46cm
2
Desviacion Estandar S = 6, 74 cm
Coeciente de CV = 0, 0387
variacion
A estos alumnos se les dara un golpe vitamnico, que se sabe que aumenta en un 1 % (a = 1, 01) sus estaturas,
mas 3 centmetros (b = 3). La pregunta es, Que pasa con el promedio, mediana, varianza, desviacion estandar
y coeciente de variacion de las nuevas estaturas?
El siguiente cuadro, resume el cambio de los indicadores, si las observaciones sufren una transformacion
lineal de la forma y
i
= ax
i
+b.
21
Indicador Inicial Modicado
Promedio X a X +b
Moda M
o
a M
o
+b
Percentil % P

a P

+b
Varianza S
2
a
2
S
2
Desviacion Estandar S |a| S
CV CV =
S
X
CV =
|a| S
|a X +b|
Al aplicar estos resultados al problema planteado anteriormente, se tiene que:
Indicador Inicial Modicado
Promedio X = 174, 25 a X +b = 178, 99
Percentil % P
50
= 173, 5 a P

+b = 178, 235
Varianza S
2
= 45, 4276 a
2
S
2
= 46, 34
Desviacion Estandar S = 6, 74 |a| S = 6, 8074
CV CV =
6,74
174,25
= 0, 0387 CV =
|a| S
|a X +b|
= 0, 0380
Algunas transformaciones utiles ocurren cuando corresponde aumentar o disminuir un ingreso en un por-
centaje p, mas un valor jo b, lo que equivale a transformar x
i
por (1p/100x
i
+b), por ejemplo al aumentar
un ingreso en un 25 % y sumarle 30000 por concepto de locomocion mensualmente, equivale a transformar x
i
por (1 + 25/100) x
i
+ 30000 = 1, 25 x
i
+ 30000.
Otro ejemplo es cuando se disminuye un ingreso en un 10 % por ajuste y quitarle 6000 para estas de navidad
mensualmente, lo que equivale a transformar x
i
por:
(1 10/100) x
i
6000 = 0, 9 x
i
6000.
22

Você também pode gostar