Você está na página 1de 27

Apuntes

De

Estadística y Análisis de Datos

1
Universidad de Chile
Facultad de Ciencias Químicas y Farmacéuticas
Escuela de Pregrado

Docentes: Francisco Gómez, Gabriela Valdés, Natalia Henríquez.


Coordinadora: Natalia Henríquez.C

Unidad 1. Medidas en Estadística descriptiva.


(3 semanas)

Indicadores de desempeño

1.1 Identifica los elementos básicos de estadística como: Universo, Muestra, Población,
Variable y su clasificación.

1.2 Determina e interpreta las medidas descriptivas de un conjunto de datos, tales como:

 Medidas de posición.
 Medidas de tendencia central.
 Medidas de variabilidad
 Medidas de forma.

1.3 Utiliza propiedades de las medidas descriptivas para resolver problemas y tomar
decisiones, en el ámbito rutinario y contextualizado de las Ciencias Básicas.

2
I. Conceptos básicos

Unidad de análisis, atributos, variables, escalas de medida, población y muestra.

Unidad de análisis: Una vez definido el problema que se va a investigar, se definen


naturalmente los objetos que serán observados (botellas de cerveza, seres humanos,
automóviles, etc.), los que llamaremos en lenguaje técnico unidades de análisis.

Atributos: Teniendo definidas las unidades de análisis, ellas presentan características


que nos importan para nuestro estudio. Por ejemplo, si es de nuestro interés analizar las
distintas Cervezas que se venden en nuestro país, podemos consignar algunas características
esenciales tales como:

- Marca
- Tipo de envase
- Volumen del envase
- Grado alcohólico
- Color
- Sabor, etc...

Estas características las denominaremos atributos.

Variables: Cuando se han definido los atributos a estudiar, podemos ya observar


unidades de análisis especificadas y los atributos quedan consignados como características
únicas del objeto que estamos estudiando. Por ejemplo si observamos un envase individual
específico de Cerveza podemos consignar:

- Marca : Cristal
- Tipo de envase : Lata
- Volumen del envase : 258 cc.
- Grado alcohólico : 4,7º
- Color : Amarillo medio

- Sabor : Amargo moderado


Cuando los atributos ya han sido evaluados, reciben el nombre de Variables del estudio.
Escalas de medida: Cuando procedemos a medir las variables del estudio, debemos
tener presente que estamos consignando valores con unidades de medida y por consiguiente
introduciendo unidades de medida. Estas escalas de medidas pueden ser: Nominales, Ordinales

3
o Intervalares (o de Razón). Estas escalas tienen diferente Poder de Clasificación. Presentemos
el siguiente esquema:

Escala de Medida Poder de Clasificación


Nominal Sólo es capaz de nombrar o etiquetar la unidad de análisis. Por ejemplo:
Marca de Cerveza, Tipo de envase, Color...
Ordinal Es capaz de nombrar pero además introduce una jerarquía en las
unidades observadas. Por ejemplo: Grado que se cursa en el sistema
escolar básico, Predilección por la Cerveza....
Intervalar Es capaz de nombrar, jerarquizar pero además permite hacer
comparaciones matemáticas entre las unidades de análisis. Por ejemplo:
Grado Alcohólico, la Edad, el Peso, la Temperatura

Estas escalas de medida son inherentes a la variable que se mide. Puntualicemos en las
variables de escala intervalar, pues debido a su naturaleza numérica estas se pueden clasificar en
variables Discretas o Continuas. Las variables discretas, formalmente están relacionadas con los
números Naturales (0,1,2,3,...) es decir, su función es Contar, como ejemplo tenemos: Cantidad
de Hijos, Cantidad de caries, Días trabajados etc. Las variables continuas, formalmente están
relacionadas con los números Reales, su función es medir, en el sentido físico, como ejemplo
tenemos: la Masa, la longitud, el Tiempo, etc...
Una importante observación es que una variable inherentemente continua, por razones
operativas se discretiza, esto es: si a Ud. le preguntan por su Edad, su respuesta estará en Años
Cumplidos (30 años, 23 años,..), sin embargo la Edad de una persona es una variable que indica
tiempo de vida, si se quisiera ser exacto se tendría que contestar 30.213 años (30 años con 2
meses, 16 días, 16 horas y 19 minutos) lo que parece impracticable. La precisión con que se
mide una variable va de acuerdo al interés de la investigación.

Población: Llamamos Población al Conjunto Universo de las unidades de análisis, la


población puede ser de tamaño finito o infinito. Por ejemplo, si se desea averiguar el tamaño
del grano de cebada, la población en estudio son Todos los granos de cebada que existen en la
tierra, esta población en la práctica es infinita. Si se desea analizar el volumen de cerveza en las
botellas diseñadas para un litro producidas el día de ayer, la población es finita.

Muestra: Como se puede apreciar, en muchos casos trabajar con una población
completa puede resultar muy costoso o simplemente impracticable, de aquí la necesidad de
tomar una Muestra de la Población, formalmente una muestra es un SUBCONJUNTO FINITO

4
de la Población, que debe cumplir características ineludibles para lograr que las conclusiones
estadísticas sean válidas, así las características de una "buena muestra" son:

1) Aleatoria: garantiza que los elementos que componen la muestra fueron


escogidos completamente al azar, es decir no hay predilección alguna por incluir
o excluir determinada unidad de análisis.
2) El tamaño de la muestra, que es el número de unidades de análisis que se deben
escoger, debe ser lo suficientemente grande como para garantizar la generalidad
de los resultados.

La determinación del tamaño de una muestra no es un problema trivial y constituye una


especialización de la estadística llamada Teoría de Muestreo. Con todo, los resultados
comienzan a ser aceptables para muestras cuyo tamaño sea superior a 30.

2. Estadística Descriptiva

Se llama estadística descriptiva, al conjunto de técnicas que permiten ordenar, resumir y


representar la información recolectada. Como su nombre lo indica, sólo pretende hacer una
descripción cuantitativa del fenómeno sin proyectar, aún, sus resultados a la universalidad del
fenómeno.

2.1.- Recolección, ordenación y representación de datos: Obtenida la información que se


desea analizar es necesario: Ordenarla, para ello utilizaremos técnicas que dependen de la
naturaleza de la variable y su escala de medida; Representarla en tablas y/o gráficos que nos
permitan una primera impresión de la muestra en análisis, también los gráficos y tablas se
adecuan a la naturaleza de la variable y su escala de medida. El detalle de este tema lo
trataremos a continuación con ejemplos prácticos:

2.2.- Datos en escalas nominales y ordinales, tablas de frecuencia, gráfico de barras y


circular.

Consideremos la siguiente situación: Para saber la apreciación que tienen los bebedores
de cerveza acerca de los productos "Cerveza Nieve" y "Cerveza Tostada"; se seleccionan 50
personas bebedoras de cerveza, cada persona dirá qué tipo de cerveza prefirió y qué tan amarga
sabe la cerveza. Para ello se tienen las siguientes codificaciones de las variables:

Tipo de Cerveza: 0 = Cerveza Nieve y 1 = Cerveza Tostada

5
Grado de Amargo: 0 = Amargo leve; 1 = Amargo moderado y 2 = Muy amargo.

Notemos que la variable Tipo de Cerveza está medida en escala NOMINAL y el Grado de

Amargo en escala ORDINAL. Los datos recogidos se muestran a continuación:


Persona Tipo de Cerveza Grado de Amargo Persona Tipo de Cerveza Grado de Amargo
1 1 1 26 1 0
2 1 0 27 1 2
3 0 1 28 0 0
4 1 2 29 0 2
5 1 1 30 1 0
6 1 0 31 1 2
7 0 1 32 1 0
8 1 1 33 1 2
9 1 1 34 0 2
10 1 2 35 1 2
11 1 1 36 1 1
12 1 0 37 0 2
13 0 1 38 0 1
14 1 1 39 0 1
15 1 2 40 0 2
16 1 1 41 0 2
17 0 1 42 1 1
18 0 1 43 1 2
19 0 0 44 1 0
20 1 0 45 1 2
21 0 0 46 1 2
22 1 1 47 0 0
23 1 1 48 1 2
24 0 1 49 1 2
25 1 2 50 1 0

Al tabular el TIPO DE CERVEZA, es decir contabilizar las preferencias de cerveza del


TIPO 1 y del TIPO 2 vaciando el resultado en una tabla se obtiene:

Tipo | Freq. Percent .


------------+--------------------------
0| 17 34.00
1| 33 66.00
---------+-----------------------------
Total | 50 100.00

La información que contiene es la siguiente: 17 personas o bien el 34% de las personas


encuestadas prefieren cerveza TIPO 1 y el resto, o sea 33 personas o bien el 66% prefieren
cerveza TIPO 2.

6
Esta información se puede representar en un gráfico de barras o en un gráfico circular,
como se muestra a continuación:

tipo_de_== 0.0000 tipo_de_== 1.0000


33 34% tipo_de_== 0.0000
66% tipo_de_== 1.0000

0
Preferencias de Cerveza Preferencias de Cerveza

Al tabular el GRADO DE AMARGO, es decir contabilizar que tan amargas fueron


percibidas las cervezas, sin distinguir el TIPO, se obtiene la siguiente tabla:

Amargo| Freq. Percent Cum.


------------+-----------------------------------
0| 13 26.00 26.00
1| 19 38.00 64.00
2| 18 36.00 100.00
------------+-----------------------------------
Total | 50 100.00

La información que contiene es la siguiente: 13 personas o bien el 26% de las personas


encuestadas encuentran la cerveza levemente amarga, 19 personas o bien el 38% de las personas
encuestadas encuentran la cerveza moderadamente amarga y el resto, es decir 18 personas o el
36% encuentran la cerveza muy amarga. Notemos que la forma de la tabla es idéntica a la
anterior, sin embargo ahora los números en negritas tienen significado, esto se debe a que la
variable está medida en escala ordinal, es decir aparece una jerarquía en la percepción de la
"amargura" que se refleja en su codificación, así el 64%, destacado en negritas, dice que el 64%
de las personas encuestadas perciben la cerveza levemente amarga o moderadamente amarga.
Esta información también se puede representar en un gráfico de barras o en un gráfico circular,
sin embargo de dichos gráficos no se puede desprender esta última conclusión:
grado_de== 0.0000 grado_de== 1.0000
grado_de== 2.0000
26% grado_de== 0.0000
19 38% grado_de== 1.0000
36% grado_de== 2.0000

0 7
Grado de Amargo Grado de Amargo
2.3.- Datos en escala intervalar, diagrama de Tallo y hoja, tablas e histograma.

La ordenación de datos en escala intervalar, se realiza usando el algoritmo llamado


Diagrama de tallo y hoja, inventado por Tukey en 1977, consiste en mantener la decena del dato
y clasificar la unidad numérica, si se desea clasificar los números 58, 67, 42, 57, 59 y 45 se
procede como sigue:
4 25
5 789
6 7

Notemos que las unidades, por cada decena, han sido puestas en orden, así observamos que los
números ordenados ascendentemente son 42, 45, 57, 58, 59 y 67.
Veamos un ejemplo: Se tienen las edades, en años cumplidos, de 30 consumidores de
cerveza, los datos se muestran a continuación:

32 37 42
45 58 35
32 26 19
27 35 31
33 35 46
45 31 35
16 23 22
39 51 27
45 57 36
48 44 32

Si ordenamos estos datos usando el diagrama de Tallo y hoja se obtiene:


1. | 69
2* | 23
2. | 677
3* | 112223
3. | 5555679
4* | 24
4. | 55568
5* | 1
5. | 78
Ahora es fácil observar, por ejemplo que:
1) la persona con menor edad tiene 16 años
2) la persona de mayor edad tiene 58 años
3) existen tres personas con 45 años, etc.

8
La información anterior se puede representar en una tabla, pero como se verá la pérdida
de información que se produce es bastante considerable, pues se debe agrupar la información.

La tabla para las Edades se muestra a continuación:

Como se observa, la pérdida de información radica en que, si bien sabemos que hay 5
individuos con edad entre 20 y 29 años, no es posible al observar la tabla saber cuál es la edad
exacta de estas personas. Volvemos a observar que la tabulación es similar a la hecha para
variables ordinales, las columnas Percent y Cum tienen igual significado que antes, pero además
se pueden hacer otras comparaciones numéricas.
La información de la tabla puede representarse gráficamente, a este gráfico se le llama
Histograma:

.4
Fraction

.2

0
10 20 30 40 50 60
edad
Edad de bebedores de Cerveza

Al graficar las frecuencias acumuladas se obtiene un gráfico llamado OJIVA, que se


muestra a continuación:
Frec. Acumulada en %

100 100
90 90
80
70
66.67
60
50
40
30
23.33
20
10
9
6.67
Edad
0
10-20 20-30 30-40 40-50 50-60
 Frecuencias ajustadas: Cuando se desea construir un histograma en que la
tabulación presenta intervalos de clase de distinta longitud, es necesario ajustar por
dichos largos usando la siguiente fórmula:

fk
f k* 
lk
Revisemos el siguiente ejemplo: La siguiente tabla muestra la frecuencia de accidentes
caseros por rango de edad:
Edad frec. largo frec.*
0-3 30 3.0 10.00
3-5 50 2.0 25.00
5 - 10 40 5.0 8.00
10 - 30 60 20.0 3.00
30 - 60 40 30.0 1.33
60 - 95 35 35.0 1.00

2.4.- Estadígrafos.
Estadígrafos: Llamaremos estadígrafo o estadístico, a números resúmenes, que nos
permiten establecer conclusiones a cerca de la estructura de una muestra, estos números son
construidos considerando TODA la información que contiene dicha muestra, es decir consideran
TODOS los datos que han sido recolectados. Pueden construirse estadígrafos para distintos
fines, sin embargo estudiaremos cuatro tipos de ellos, estadígrafos de: posición, tendencia
central, variabilidad y de forma.

Cada vez que la muestra de datos, medidos en al menos en escala ordinal, ha sido
ordenada, se establece un Ranking para cada una de las observaciones, este ranking, indica en
qué posición, en dirección ascendente, se encuentra el dato respecto a la muestra. Este ranking
se denota por un subíndice encerrado entre paréntesis. Por ejemplo, si se tienen los datos 12, 7,
15 y 13, al ordenarlos se tiene 7, 12, 13 y 15, es decir el primer dato ordenado es 7, el segundo
es 12 etc. Este hecho lo anotamos simbólicamente como sigue:
X(1)=7, X(2)=12, X(3)=13 y X(4)=15

Con esta notación, si tenemos n datos, el menor valor observado, que llamaremos el
mínimo será denotado por X(1) y el mayor valor observado, que llamaremos máximo será
denotado por X(n) .

10
Estadígrafos de posición: son aquellos que dan información acerca del orden en la
estructura de una muestra. Ya hemos mencionado dos de ellos que aparecen en forma
instantánea al ordenar la muestra, nos referimos al máximo, X(n), y al mínimo, X(1).
Llamaremos PERCENTILES, a cada uno de los números que dividen la muestra en 100
partes iguales, en consecuencia son 99, y se denotan por P(k), donde k es el orden del percentil
indicado. Dado el percentil P(k), este divide la muestra en dos partes, la inferior que contiene el
k% inferior de las observaciones y la superior que contiene el (100-k)% de las observaciones.
Para calcular el percentil P(k), se procede como sigue: se multiplica el tamaño de la
muestra por k100, y se ubica la observación cuyo ranking iguale o supere por primera vez el
número calculado. Retomemos el ejemplo de la muestra de edades de bebedores de cerveza,
cuyo tallo y hoja es:
1. | 69
2* | 23
2. | 677
3* | 112223
3. | 5555679
4* | 24
4. | 55568
5* | 1
5. | 78

Aquí nuestro tamaño de muestra es n = 30, por lo tanto el percentil P (k) es la observación cuyo
ranking supere o iguale por primera vez 30k100. Calculemos P10, hacemos la operación
3010/100 = 3 es decir buscamos X(3), mirando el tallo y hoja encontramos que P(10) = X(3)=22
años. Calculemos ahora P70, hacemos la operación 3070/100 = 21 es decir buscamos P(70)
=X(21)= 42 años. Por último calculemos P96, buscamos X(3096/100=28.8) es decir X(29)= 57 años. La
interpretación concreta de un percentil es la siguiente, hemos calculado que P(70) = 42 años, es
decir el 70% de los consumidores de cerveza son menores de 42 años o bien tienen a lo más 42
años, equivalentemente podemos decir que el 30% más viejo de los consumidores de cerveza
tiene más de 42 años.

Hay percentiles, que por la popularidad de interpretación que tienen, reciben nombre
propio, entre ellos están:
1) Los Cuartiles: son tres, denotados por Q1, Q2 y Q3 , que corresponden
respectivamente a los percentiles P25, P50 y P75, ellos dividen la muestra en
cuatro partes iguales.
2) Los deciles: son nueve, denotados por D1, D2,...,D9, que corresponden
respectivamente a los percentiles P10, P20,..., P90, ellos dividen la muestra en
diez partes iguales.

11
En general la manera de calcular percentiles (aproximados) para datos tabulados es:

 kN  c
Pk  LI    N i 1  i
100  ni

Ejemplo: Dado los datos anteriores de EDAD. Determine los percentiles: 10, 25, 50, 75,90, 95 y
99, compare con lo obtenido con Excel (hacerlo en clase)

De acuerdo a sus resultados se observa que los tres cuartiles, Q1=31 años, Q2=35 años y Q3=45
años (Verificarlo).

Cuando la información se presenta en forma de tabulación, es decir se ha perdido información


debido al agrupamiento, es posible hacer una aproximación de los percentiles, esta
aproximación puede afinarse usando una técnica de interpolación lineal, sin embargo para una
primera aproximación, podemos dar como valor del percentil, el punto medio del intervalo para
el cual se iguala o supera por primera vez el orden del percentil buscado.

Como ejemplo, consideremos que la tabulación de los datos de la Edad, que estamos analizando
es la siguiente:

Si deseamos buscar P10, miramos en la columna Cum cuando es superado o igualado por
primera vez el 10%, esto ocurre cuando la Edad está entre los 20 y 29 años, luego entregamos
como valor APROXIMADO de P10= 25 años, notar que el valor para este percentil, calculado a
partir del tallo y hoja es de 22 años y en la salida computacional es de 22.5 años. Como se ve el
error de agrupamiento se hace sentir muy fuerte en este caso.

Valores extremos y Gráfico de caja, será visto en clase.

12
2.5.- Estadígrafos de tendencia central.

Cada vez que se observa un fenómeno cuantitativo, nos interesa saber si los datos
recolectados se aglutinan en torno a ciertos valores representativos que son propios del
fenómeno estudiado. Por ejemplo, si pensamos en la Edad de los jugadores profesionales de
fútbol, la experiencia nos dice que sus edades varían entre los 17 y 35 años, siendo raro pero no
imposible, encontrar jugadores con más de 35 años o menores de 17 años. Además sabemos que
la gran mayoría de estos jugadores tienen entre 23 y 30 años. Ahora la pregunta general se hace
obvia, dada una colección de datos, ¿es posible saber en torno a qué valores se ubican estos
datos?, la respuesta la entregan los llamados estadígrafos de tendencia central.
En consecuencia llamamos estadísticos de tendencia central a aquellos valores hacia los
cuales tienden a aglomerarse los datos de una muestra. Los más utilizados son:

1) La Mediana: es aquel valor que divide la muestra en dos partes iguales, de


esta definición nos damos cuenta que la mediana no es otra cosa que el
Percentil cincuenta o Cuartil 2, es decir Mediana=P50=Q2. Notemos que la
mediana es tanto un estadígrafo de posición y de centralización.

Tener presente:
 Si n es Impar la mediana es X  N 1  , y si n es par la mediana es
 
 2 

X N X N
( ) ( 1)
2 2
.
2
 Para datos agrupados la mediana se aproxima mediante la fórmula
50 * N c
Med  LI i  ( - N i -1 ) i .
100 ni

2) La Moda: es aquel valor que más se repite en una muestra y se denota por
Mo, por ejemplo si consideramos los datos 2,2,3,3,4,4,4,4,5,5 la moda en
cuestión es 4. Sin embargo la definición dada cobra validez sólo si la
variable es discreta.

Si la variable es continua, formalmente la moda no existe, pues es muy difícil


que al sacar una muestra de números reales dos o más de ellos coincidan. Por
ejemplo si se hilara muy fino y midiéramos el peso de las personas en
milígramos, sería muy poco probable encontrar dos o más personas con igual

13
peso en una muestra, pero generalmente el peso es medido en kilógramos
enteros y en este caso, como se ha discretizado la variable es posible calcularla.
Cuando se dispone de un tallo y hoja, la moda corresponde al valor que
más se repite dentro de la hoja más grande del tallo. Retomemos nuestro
ejemplo de las edades de los bebedores de cerveza, el tallo y hoja se muestra a
continuación, donde se ha destacado en negritas la hoja más larga:

1. | 69
2* | 23
2. | 677
3* | 112223
3. | 5555679
4* | 24
4. | 55568
5* | 1
5. | 78

Observamos que el valor más repetido en esta hoja es 35 años, que corresponde al valor de la
moda. Si se dispone de una tabulación, para aproximar el valor de la moda, es necesario utilizar
la siguiente fórmula:

D  Li  d  Ld 1
Mo  ó Moda  LI   ci donde 1  ni  ni 1 ; 2  ni  ni 1
Dd 1  2

Observación: los ni, es otra manera de simbolizar frecuencias absolutas de la clase i.

Donde,
Li : límite inferior del intervalo que contiene la frecuencia más alta
Ld : límite superior del intervalo que contiene la frecuencia más alta
D : diferencia entre la frecuencia más alta y la del intervalo siguiente
d : diferencia entre la frecuencia más alta y la del intervalo anterior.

Veamos el ejemplo respectivo: Consideremos la tabulación de las edades, podemos observar


que la mayor frecuencia se ubica en la clase 3, con un total de individuos de 13.

Aquí:
Li : 30 años
Ld : 39 años

14
D : 13-7=6
d : 13-5=8
6  30  8  39
por lo que: Mo   35,14 años, valor muy coincidente con el calculado a
68
partir del tallo y hoja.

3) La Media aritmética o Promedio aritmético: es el estadígrafo de


tendencia central más conocido, usado y abusado. Dada una colección de
datos X1,X2,....XN , el promedio se define como LA SUMA DE LOS
DATOS DIVIDIDA POR LA CANTIDAD DE DATOS y se denota por 
, en símbolos el promedio es:

X  X 2  ....  X N 1 N
 1
N

N
X
i 1
i

Formalmente ella representa el Centro de Masas de la muestra, en la


práctica, esto significa que se puede considerar que cada dato tiene valor igual
al promedio. Esta idea no es tan lejana, pues en el lenguaje corriente, muchas
veces se habla del “hombre promedio chileno” de la “familia promedio
chilena”, etc. es decir hablamos de un sujeto TIPO al cual asimilamos a todos
los sujetos estudiados. Obviamente esta asimilación podría resultar errónea,
como veremos más adelante.

Además la media muestral tiene su propia notación.

El promedio aritmético posee las siguientes propiedades frente a cambios de


escala:
 ( X  a)   ( X )  a
 (aX )  a   ( X )
 (a)  a
Veamos un ejemplo numérico: si las calificaciones de un escolar en
matemáticas durante un semestre son 5, 6, 3, 5 y 7, su calificación promedio es:

5  6  3  5 7
  5.2
5
es decir podemos asumir, que su rendimiento general en matemáticas es 5.2.
Si se dispone de una base de datos de gran tamaño, resulta trabajoso
calcular . En este caso podemos obtener un valor aproximado para , a

15
partir de la información que contiene una tabulación, esta aproximación se
obtiene de
MULTIPLICAR LOS PUNTOS MEDIOS DE CADA INTERVALO
POR LAS RESPECTIVAS FRECUENCIAS, SUMAR ESTOS PRODUCTOS
Y LUEGO DIVIDIR POR LA CANTIDAD DE DATOS.

Ejemplifiquemos usando la tabla de Edad de los consumidores de cerveza.

(calcular en clase)

Cuando se usa el promedio como medida de centralización, debemos tener cuidado de


que los datos sean homogéneos, es decir razonablemente parecidos, pues el promedio es muy
sensible a valores extremos, esto es valores demasiado elevados o demasiado minimizados. En
estos casos el promedio como resumen “miente”. Por ejemplo, supongamos que preguntamos
por el sueldo, en miles de pesos, a cinco personas que ofician de ascensoristas en edificios
distintos, obteniendo 340, 350, 342, 360 y el sueldo del último encuestado sea 750, puesto que
trabaja para una Empresa de Ensueños, al observar los datos vemos que los sueldos de los
ascensoristas, en general están alrededor de los $ 350 mil, sin embargo si los promediamos
tenemos que dicho promedio es de $ 428,4, obviamente esta distorsión se produce por el
astronómico sueldo de $ 750 mil. En estos casos, lo justo es no incluir en el promedio el sueldo
astronómico, con lo que el promedio es de $ 348 mil o bien en vez del promedio usar el valor
mediana que es $ 350 mil, lo que concuerda con la realidad que estamos estudiando.

2.6.- Estadígrafos de variabilidad.

Acabamos de ejemplificar una situación en que los datos analizados no son


homogéneos, cuando se tienen pocos datos, por simple inspección sabríamos si los datos son
homogéneos o heterogéneos. Sin embargo resulta extremadamente útil manejar medidas para la
variabilidad, con el objeto de establecer comparaciones posteriores.

Consideremos las calificaciones en estadística de dos alumnos: Pedro y Pablo


Alumno Promedio
Pedro 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0

16
Pablo 2.0 3.0 7.0 4.0 6.0 5.0 1.0 4.0

Como se observa, tanto Pedro como Pablo tienen idéntico rendimiento promedio. Sin embargo
¿quién tiene rendimiento más homogéneo?, por inspección vemos que Pedro, pues obtuvo sólo
notas 4.0, mientras que Pablo obtuvo toda la gama de notas. Para contestar la pregunta
propuesta mediante el uso de indicadores estadísticos se desarrollaron los ESTADIGRAFOS
DE VARIABILIDAD. Aquí presentaremos sólo dos de ellos:

1) Rango o Recorrido: se define el rango o recorrido de los datos como el máximo

menos el mínimo, en símbolos: Rango  X ( N )  X (1)


En nuestro ejemplo Rango (Pablo)=6 y Rango (Pedro)=0. Observamos que mientras
más heterogénea es la colección de datos mayor es el valor del rango. Sin embargo el
Rango puede exagerar el grado de heterogeneidad de los datos, para prevenir este hecho
se prefiere usar como medida de variabilidad la conocida

2) Desviación Estándar: para definir la desviación estándar, previamente


presentaremos lo que se llama desviación de un dato respecto al promedio, que

denotamos por di así di  X i   , es decir la diferencia entre cada dato y el

promedio.
En consecuencia definimos la Desviación Estándar, denotada por x como:
N 2

d12  d 22  ...  d N2  X i  
x   i 1
N N
El cuadrado de la desviación estándar recibe el nombre de VARIANZA, es decir:
N 2

d12  d 22  ...  d N2  X i  
x 2
 Var ( X )   i 1

N N

es decir es LA RAIZ CUADRADA DE LA SUMA DE LOS DESVIOS ELEVADOS


AL CUADRADO DIVIDIDO POR LA CANTIDAD DE DATOS.

Además la varianza y desviación estándar muestral tiene su propia definición y


notación.

17
Por ejemplo calculemos la desviación estándar para las notas de Pablo, para ello
dispongamos las notas así:

Nota Desvío=Nota-Prom Desvío2


2 -2 4
3 -1 1

7 3 9
4 0 0
6 2 4
5 1 1

1 -3 9
Suma=28

d12  d 22  ...  d N2 28 28
Así,  x     2.
N 7 7

La interpretación de la desviación estándar, bajo ciertas condiciones de


regularidad, es que “la mayoría de los datos está entre EL PROMEDIO MENOS LA
DESVIACION y EL PROMEDIO MAS LA DESVIACION”, lo que en el ejemplo es
que las notas de Pablo están entre 4-2 y 4+2, es decir entre 2.0 y 6.0, lo que es bastante
real.
Para obtener una medida más interpretable del grado de heterogeneidad
solamente, es útil definir el COEFICIENTE DE VARIABILIDAD que se entrega como
un valor porcentual y se define como 100 por el cuociente entre la desviación estándar y
el promedio, en símbolos:
x
CVX   100%

2
Para nuestro ejemplo CV X   100%  50% , es decir un 50% de
4
variabilidad, que es moderadamente alto, es decir, podríamos indicar que los datos son
heterogéneos.

Criterio para determinar si los datos son homogéneos o Heterogéneos:

 Si el CVX  5% los datos se dirán muy homogéneos.


 Si 5%  CVX  25% los datos se dirán homogéneos.
 Si 25%  CVX  50% los datos se dirán heterogéneos.
 Si CV X  50% los datos se dirán muy heterogéneos.

18
Ejemplifiquemos esto, calculando la desviación estándar para la Edad de los consumidores de
cerveza, cuya tabulación de datos es la siguiente:

Calcular en clase y comprobar que:  x  10 años.


La varianza posee las siguientes propiedades frente a cambios de escala:
Var ( X  a )  Var ( X )
Var (a  X )  a 2  Var ( X )
Var (a )  0
Si deseáramos calcular el coeficiente de variabilidad, a partir de la salida
computacional, no hay problemas pues disponemos de todos los elementos necesarios para este
efecto, la rápida evaluación de la fórmula nos lleva a:
x 10.333
C.V .  100%  100%  28.8%
 35.88333
Lo que indica homogeneidad de los datos. En conjunto, el promedio y la desviación estándar,
indican que la mayoría de las Edades de los consumidores de cerveza fluctúan
aproximadamente entre los 15.2 y 56.5 años.

2.7.- Estadígrafos de forma.


Son aquellos números resúmenes, que indican la morfología de la distribución de los datos, es
decir de la simetría y apuntamiento que tiene el histograma de la variable en estudio. Se
estudiarán dos estadígrafos alusivos:

 Sesgo: mide el grado de asimetría, respecto de la moda, que tienen los datos. Una
forma de medir el sesgo es usando la fórmula:
  Mo
Sesgo 

19
Sesgo = 0 Sesgo > 0 Sesgo < 0

 Curtosis: es una medida de forma que mide cuán escarpada o achatada está
una curva o distribución. Este coeficiente indica la cantidad de datos que hay
cercanos a la media, de manera que a mayor grado de curtosis, más
escarpada (o apuntada) será la forma de la curva. Podemos decir que mide el
grado de apuntamiento que tienen los datos.

Una forma de medir la curtosis es usando la fórmula:


1
Q3  Q1 
K 2  0.263 ,
P90  P10
Diremos que la curva es:
Leptocúrtica si: K>0.
Mesocúrtica si:K=0.
Platicúrtica si: K<0.

20
Tabla de resumen para las medidas antes mencionadas, cuando se les aplica alguna
transformación a los datos:

Transformación Indicador Inicial Modificado


Promedio  a*  b
Moda Moda a * Moda  b
Percentil x Px a * Px  b
xi
se transforma en Varianza 2 a2 *  2
a * xi  b Desviación
 | a |* .
Estándar

Coeficiente CV   a *
CV 
de variación  a  b

EJERCICIOS DE LA UNIDAD

I. Ejercicios del texto apoyo.

En este texto encontrarás ejercicios resueltos que te permitirán facilitar la


comprensión de los temas a tratar en el curso.

WALPOLE, R., MYERS, R. 8ª o 9ª edición . Probabilidad y Estadística. Mc Graw Hill.

Desde el 1.1 al 1.26


excepto el 1.15

II. Ejercicios adicionales de la unidad.


1. Identifique cuál fue la medida que se utilizó en los casos siguientes:

a) Si todos los nacidos vivos pesaran lo mismo, sus pesos serían de 2950 grs.
b) La mitad de los escolares tiene seis caries o más.
c) El diagnóstico que más se repite en la consulta infantil es resfrío común.
d) La variabilidad con respecto al promedio de la estadía hospitalaria es de 1,9 días.
e) El 8 % de la población de Santiago tiene más de 65 años.
f) El 35% de la población de Chile tiene 15 años o menos.
g) Ocho caries es la diferencia entre el escolar con más caries y el con menos caries.
h) La cuarta parte de una población tiene un peso de 60 kg o más.

21
2. Señale la respuesta correcta:

2.1 Un Médico Veterinario dice: “La gran mayoría de los animales se recuperó
debido al tratamiento”, entonces, se está refiriendo a:

a) La Mediana.
b) La Media.
c) La Moda.
d) Frecuencia Absoluta Acumulada.
e) N.A.

2.2 Al decir un Preparador: “Del corral, sólo cinco caballos están enfermos”, se está
refiriendo a:
a) La Mediana.
b) La Moda.
c) La Media.
d) La Frecuencia Relativa.
e) N.A.

2.3 Al decir un Médico Veterinario: “La mitad de los animales supera los 300 Kgs.”,
se está refiriendo a:
a) La Media.
b) La Mediana.
c) La Moda.
d) La Frecuencia Relativa.
e) N.A.

3. Cierto genetista analiza la información de 80 pequeños animales que posee en su


laboratorio, los cuales presentan un peso que fluctúa entre los 100 y 700 grs. Al enviar a
un Médico Veterinario para que los analice, éste le informa al genetista que: 20 de ellos
tienen un peso inferior a los 300 grs. Y 10, están con un peso de al menos los 500 grs.,
es decir, con sobrepeso.

Se requiere determinar:

a) El peso más frecuente o más común que presentan estos animales.


b) ¿Cuántos animales tienen un peso superior a 350 gr?
c) El genetista sabe que la altura media de estos animales es de 15 cm. con una
desviación de 3 cm. ¿Cuál de las dos variables es más homogénea?.

4. En un curso las notas obtenidas por algunos alumnos fueron las siguientes:
4, 5, 6, 4, 6, 7, 3, 4, 5, 4, 4, 1.

Se requiere determinar:

a) La nota media.
b) La nota más frecuente.
c) Una nota que la supere el 50% de los alumnos.

22
5. La siguiente tabla, muestra el valor de la matrícula que cobran algunos colegios:

Valor Matrícula ($) Nro. De Colegios


50.000 – 60.000 20
60.000 – 70.000 31
70.000 – 80.000 49

Se requiere determinar:

a) El valor medio de matrícula cobrado por estos colegios.


b) El valor de la matrícula más común cobrado por estos colegios.
c) Un valor de la matrícula, de manera que el 50% de los colegios supere este
monto.
d) El porcentaje de variación de la variable.

6. Cada uno de los apoderados que asintieron a la reunión mensual, dieron una cuota
voluntaria, que son mostradas a continuación (en $):
400, 500, 600, 400, 600, 700, 300, 400, 500, 400, 400, 1.000

Se requiere determinar

a) El monto de la cuota media.


b) El monto de la cuota más común.
c) El profesor piensa que el 50% de los apoderados dio más de $ 380 ¿Qué
puede decir usted? Justifique.

7. Se cuenta con la distribución del peso (en kilos), de algunos caprinos, los que se
muestran a continuación:

Peso Caprinos
2,0 a 2,8 10
2,8 a 3,6 17
3,6 a 4,4 12
4,4 a 5,2 6

Se requiere determinar

a) la variabilidad en los pesos de estos caprinos.


b) ¿Qué porcentaje de caprinos pesan como mínimo 4,0 kilos?
c) ¿Cuál es el nivel de peso que se observa con mayor frecuencia en este grupo
de caprinos?
d) ¿qué variable es más homogénea? Dado que un investigador al analizar la
información argumenta que, la altura de los caprinos tiene media de 60 cm con
desviación 10 cm.

8. Se desean comparar los tiempos que demoraron en algunas prácticas deportivas los
participantes de dos Grupos, los que se observan en lo que sigue:

23
Tiempo en Número de
segundos participantes Grupo1
25 a 35 3
35 a 45 8
45 a 55 15
55 a 65 8

Tiempo en Número de
segundos participantes Grupo2
25 a 35 9
35 a 45 10
45 a 55 8
55 a 65 2

Se requiere:

a) Determine el tiempo que demoran con mayor frecuencia los participantes del
Grupo1.
b) ¿Puede Ud. afirmar que el tiempo medio en las prácticas del grupo 1 es superior
al tiempo medio que demoran las prácticas del grupo 2? Interprete en términos
de qué grupo es, en media, más rápido.
c) ¿Qué porcentaje de participantes del grupo 2 demoran al menos 55 segundos en
sus prácticas?
d) A las personas más rápidas, aquellas que demoran menos de 35 segundos; se les
ofrecerá pertenecer a un equipo de selección, ¿Qué porcentaje recibirá el
ofrecimiento?

9. Se registró el número de veces que algunos deportistas obtuvieron el primer lugar en


competencias deportivas, observándose lo siguiente:

Deportista A B C D E F
Núm. De veces 6 5 8 5 4 6

a) Identifique la variable, su tipo y escala de medida.


b) Determine si el porcentaje de variabilidad supera el 15%.
c) ¿Cuál es el número de veces más común que han obtenido primer lugar estos
deportistas? ¿Qué nombre recibe este indicador?
d) Determine la mediana.

10. Un criador tiene 10 animales para mejorarlos genéticamente, de los cuales cinco de
ellos pesan 500 kg., dos pesan 600 kg. y el resto 750 kg. El criador, piensa que el peso
medio supera al peso mediano. ¿Qué puede decir Ud. al respecto?, justifique.

11. En cierta población de animales, se encuentra la siguiente información.

SANOS ENFERMOS
MACHOS 400 100
HEMBRAS 1200 600

24
a) ¿Qué porcentaje de la población de animales está sana?
b) Son las hembras más propensas a enfermarse, justifique.
c) Si los animales se agrupan por sexo, determine e interprete la medida de
tendencia central más adecuada.

12. En un curso secundario hay 35 hombres con una edad media de 17,5 años y 15
mujeres las que, en promedio, son un 25% más jóvenes. ¿Cuál es la edad media del
curso?

13. Se midieron los niveles de ozono alrededor de Los Ángeles y ascendieron a 220
partes por billón (ppb). Las concentraciones de esta magnitud pueden ocasionar
quemaduras en los ojos y son peligrosas tanto para las plantas como para la vida animal.
También se obtuvieron datos del nivel de ozono en una zona boscosa cerca de Seattle,
Washington, que fueron los siguientes:
160 176 160 180 167 164 165 163 162 168
173 179 170 196 185 163 162 163 172 162
167 161 169 178 161

a) Construir un diagrama de cajas para estos datos e identificar el dato atípico, en


caso que exista.
b) Supongamos que el dato atípico es una lectura legítima. En este caso, ¿qué
medida de localización se ve menos afectada por el dato atípico? ¿Qué medida
de variabilidad se ve menos afectada por el dato atípico?

14. El siguiente Histograma presenta el número de pasajeros de 50 vuelos de una


empresa aérea.

Pasajeros por vuelo

20 18 a) Identifique la población en estudio,


18 la variable y de qué tipo es.
16
14 12 b) Construya una tabla de
12
10 7 8 frecuencias.
8
6 3 2
c) Determine las medidas de
4
2 tendencia central y variabilidad.
0
50-60 60-70 70-80 80-90 90-100 100-
110

15. Se tiene la información del ingreso de 40 obreros de una empresa constructora:

- El ingreso mínimo es de $200.000


- 2 obreros tienen un ingreso inferior a $250.000
- El 45% tiene un ingreso de por lo menos $350.000
- 12 personas tienen un ingreso de $300.000
- El ingreso máximo es de $550.000
- 29 obreros ganan menos de $400.000

25
- 6 obreros tienen un ingreso de por lo menos $450.000
- El 95% de los obreros tienen un ingreso de a lo más $500.000

a) Construya la tabla de frecuencia con 7 intervalos de clase de igual amplitud


b) ¿Cuántas personas tienen ingresos de al menos $ 300.000 y no superior a
$450.000
c) Construya un histograma y el polígono de frecuencia.
d) ¿Qué conclusiones puede obtener con la información?

16. En una industria donde trabajan 512 operarios, el salario medio alcanzó a $24000.

¿Qué sucede con este promedio si?


a) se aumentan todos los salarios en $6000 diarios?
b) Se aumentan todos los salarios en 25%?
c) Se aumentan todos los salarios en 15% más $2700 diarios?

17. El promedio de las notas de un curso de 30 alumnos fue 52, los 6 primeros
obtuvieron un promedio 80 y los últimos 10 sacaron promedio 31. Calcular el promedio
de los alumnos restantes.

18. En una empresa los salarios medios han tenido un promedio de $15000 diarios con
una desviación típica de $8500.
¿Qué sucede con la varianza de los salarios, si los salarios:
a) se aumentan en $1000 diarios?
b) Se aumentan en 10%?
c) se efectúan aumentos simultáneamente?

19. Las notas de un curso A en matemáticas tuvieron una media de 75 y una varianza de
225. Los del curso B tuvieron una media de 70 y una varianza de 196.
Si en ambos cursos las notas aumentan en 10% ¿Cuál de los dos cursos tiene un
coeficiente de variación mayor después de bonificar la notas?

20. Los sueldos promedios de las secciones A, B, C de una empresa son


respectivamente
$300000, $435000 y $700000.

El número de empleados de cada sección es 100, 80 y 20 respectivamente.

a) Calcular el sueldo promedio de la empresa.


b) Si la empresa decide un aumento de un 20% para la sección A, 15% para la
sección B y 12% para la sección C.
Calcule el sueldo promedio por sección y para la empresa después del aumento.

21. Una muestra de 70 datos para una variable da una media de 120 y una desviación
típica de 6. Otra muestra de 30 datos, da para la misma variable una media de 125, y
una desviación típica de 5. Si se reúnen las dos muestras formando una sola muestra de
cien datos. ¿Cuál será su media y su varianza?

26
22. La producción de la fábrica A es el triple de la B y la de esta un 18% inferior a la C.
Si los costos unitarios correspondientes (todos inferiores en 20% a su respectivo precio
de venta) son de $20, $24, $26 se pide calcular el precio promedio de venta.

27