Você está na página 1de 167

Probabilidad y Estadstica:

Estadstica Descriptiva

Dr. Juliho Castillo


18 de septiembre de 2017
Universidad LaSalle Oaxaca

1
1 Definiciones y conceptos

Distribuciones de frecuencias
Problemas Resueltos

2 Medidas de tendencia central

Python
Problemas resueltos

3 Desviacion estandar y otras medidas de dispersion

Python
Problemas resueltos

2
Definiciones y conceptos

3
Estadstica

La estadstica se ocupa de los metodos cientficos que se


utilizan para recolectar, organizar, resumir, presentar y analizar
datos as como para obtener conclusiones validas y tomar
buenas decisiones razonables con base en este analisis.

4
#10 Peso

Figura 1.1: El peso promedio de una persona hoy es 14


kilogramos mayor que en la decada de 1960.

5
#9 Trabajo y estudio

Figura 1.2: Entre un 70 y un 80 % de los estudiantes universitarios


hoy en da tiene un trabajo de media jornada o jornada completa.
Eso es el doble de los que estudiantes que trabajaban hace 30 anos.

6
#8 Television

Figura 1.3: En los Estados Unidos, la cantidad de personas que


miran television regularmente se redujo en 27 % entre 2011 y 2014.

7
#7 Consumo de drogas

Figura 1.4: El consumo de drogas en los jovenes ha ido


disminuyendo consistentemente en los ultimos 20 anos. En los
Estados Unidos, el porcentaje de jovenes y adolescentes que
admite haber consumido drogas ilegales paso de 34 % en 1997, a
8
27 % en la actualidad.
#6 Embarazo adolescente

Figura 1.5: El embarazo adolescente se ha reducido a la mitad


desde la decada de 1950.

9
#5 Consumo de tabaco

Figura 1.6: Tambien el consumo de tabaco se redujo


considerablemente en los ultimos 50 anos. En los Estados Unidos,
el porcentaje de personas que fumaban un paquete por da era de
35 % en 1954, y de 20 % en 2014.
10
#4 Matrimonio

Figura 1.7: En 1968, el 56 % de los estadounidenses entre 18-31


anos estaba casado. En 2012 el porcentaje se redujo a 23 %.

11
#3 Cociente intelectual

Figura 1.8: En 1910, el cociente intelectual promedio sera de 70,


de acuerdo a las mediciones actuales. Ahora, el promedio es de
entre 130 y 150, dependiendo de la medicion.

12
Observacion: Segun el experto James Flynn, como
especie evolucionamos en el entendimiento de categoras,
sistemas hipoteticos, lenguaje no verbal e imagenes
visuales que retratan realidades alternativas.

13
#2 Peces en el mar

Figura 1.9: Desde 1950, un 90 % de los peces mas grandes del


oceano han desaparecido. La causa es la pesca industrial.

14
#1 Ancianos

Figura 1.10: Hoy en da la poblacion mayor de 65 anos es diez


veces mayor de lo que lo era hace un siglo.

15
Fuente: 10 curiosos datos estadsticos que prueban como ha
cambiado el mundo, por Pablo Fernandez.

16
Piratas contra el calentamiento global

Figura 1.11: You may be interested to know that global


warming, earthquakes, hurricanes, and other natural disasters are a
direct effect of the shrinking numbers of Pirates since the 1800s.
Open Letter To Kansas School Board
17
El termino estadstica tambien se usa para denotar los datos
o los numeros que se obtienen de esos datos; por ejemplo, los
promedios. As, se habla de estadsticas de empleo, estadsticas
de accidentes, etcetera.

18
Poblacion y muestra

Cuando se recolectan datos sobre las caractersticas de un


grupo de individuos o de objetos, por ejemplo:

estatura y peso de los estudiantes de una universidad


o cantidad de pernos defectuosos y no defectuosos
producidos en determinado da en una fabrica,

suele ser imposible o poco practico observar todo el grupo, en


especial si se trata de un grupo grande.

19
En vez de examinar todo el grupo, al que se le conoce como
poblacion o universo, se examina solo una pequena parte del
grupo, al que se le llama muestra.

20
Las poblaciones pueden ser finitas o infinitas. Por ejemplo:

la poblacion que consta de todos los pernos producidos


determinado da en una fabrica es finita,
en tanto que la poblacion que consta de todos los
resultados (cara o cruz) que se pueden obtener lanzando
una y otra vez una moneda es infinita.

21
Si la muestra es representativa de la poblacion, el analisis de la
muestra permite inferir conclusiones validas acerca de la
poblacion.
A la parte de la estadstica que se ocupa de las condiciones
bajo la cuales tales inferencias son validas se le llama
estadstica inductiva o inferencial.
Como estas inferencias no pueden ser absolutamente ciertas,
para presentar estas conclusiones se emplea el lenguaje de la
probabilidad.

22
A la parte de la estadstica que unicamente trata de describir y
analizar un grupo dado, sin sacar ninguna conclusion ni hacer
inferencia alguna acerca de un grupo mas grande, se le conoce
como estadstica descriptiva o deductiva.

23
Variables: discretas vs continuas

Una variable es un smbolo; por ejemplo, X, Y, H, x, B, que


puede tomar cualquiera de los valores de determinado
conjunto al que se le conoce como dominio de la variable.
A una variable que solo puede tomar un valor se le llama
constante.

24
Una variable X que puede tomar cualquiera de los valores en
la recta numerica R es una variable continua.
Si los valores que una variable puede tomar se pueden numerar

X1 , X2 , ..., XN , ...

diremos que es una variable discreta.

25
Ejemplo 1.1.

La cantidad N de hijos que tiene una familia puede tomar los


valores 0, 1, 2, 3, ..., pero no puede tomar valores como 2.5 o
3.842; esta es una variable discreta.

26
Ejemplo 1.2.
La estatura H de una persona que puede ser 62 pulgadas (in),
63.8 in o 65.8341 in, dependiendo de la exactitud conque se
mida, es una variable continua.

27
Los datos descritos mediante una variable discreta son datos
discretos y los datos descritos mediante una variable continua
son datos continuos.
Que tipo de dato es..

la cantidad de hijos que tiene cada una de 1 000 familias?


las estaturas de 100 estudiantes universitarios.?

En general, una medicion proporciona datos continuos; en


cambio, una enumeracion o un conteo proporciona datos
discretos.

28
Es util ampliar el concepto de variable a entidades no
numericas;por ejemplo, en el arco iris, color C es una variable
que puede tomar los valores rojo, anaranjado, amarillo,
verde, azul, ndigo o violeta.
Estas variables se pueden reemplazar por numeros; por
ejemplo, se puede denotar rojo con 1, anaranjado con 2,
etcetera.

29
Definiciones y conceptos

Distribuciones de frecuencias

30
Datos en bruto

Los datos en bruto son los datos recolectados que aun no se


han organizado. Por ejemplo, las estaturas de 100 estudiantes
tomados de la lista alfabetica de una universidad.

31
Ordenaciones

Ordenacion se le llama a los datos numericos en bruto


dispuestos en orden creciente o decreciente de magnitud.
A la diferencia entre el numero mayor y el numero menor se le
conoce como el rango de los datos.
Por ejemplo, si la estatura mayor en los 100 estudiantes es 74
pulgadas (in) y la menor es 60 in, el rango es

74 60 = 14 in.

32
DISTRIBUCIONES DE FRECUENCIA

Al organizar una gran cantidad de datos en bruto, suele


resultar util distribuirlos en clases o categoras y determinar
la cantidad de datos que pertenece a cada clase; esta cantidad
se conoce como la frecuencia de clase.

33
A la disposicion tabular de los datos en clases con sus
respectivas frecuencias de clase se le conoce como
distribucion de frecuencias o tabla de frecuencias.

34
Figura 1.12: Distribucion de frecuencias de las estaturas
(registradas a la pulgada mas cercana) de 100 estudiantes de la
universidad XYZ.

35
La primera clase (o categora), por ejemplo, consta de las
estaturas que van desde 60 hasta 62 pulgadas y queda
identificada por el smbolo 60-62. Como hay cinco estudiantes
cuyas estaturas pertenecen a esta clase, la frecuencia de clase
correspondiente es 5.

36
A los datos organizados y resumidos como en la distribucion
de frecuencias anterior se les llama datos agrupados.

Observacion: Aunque al agrupar los datos se pierden


muchos de los detalles originales de los datos, esto tiene la
ventaja de que se obtiene una vision general clara y se
hacen evidentes las relaciones.

37
INTERVALOS DE CLASE Y LIMITES DE CLASE

Al smbolo que representa una clase, como 60-62 en la tabla


1.12, se le conoce como intervalo de clase.
A los numeros de los extremos, 60 y 62, se les conoce como
lmites de clase; el numero menor (60) es el lmite inferior de
clase, y el numero mayor (62) es el lmite superior de clase.
Los terminos clase e intervalo de clase se suelen usar
indistintamente, aunque el intervalo de clase en realidad es un
smbolo para la clase.

38
Un intervalo de clase que, por lo menos teoricamente, no
tenga indicado el lmite de clase superior o el lmite de clase
inferior, se conoce como intervalo de clase abierto.
Por ejemplo, al considerar grupos de edades de personas, un
intervalo que sea 65 anos o mayores es un intervalo de clase
abierto.

39
FRONTERAS DE CLASE

Si las estaturas se registran a la pulgada mas cercana, el


intervalo de clase 60-62 comprende teoricamente todas las
mediciones desde 59.5000 hasta 62.5000 in.
Estos numeros que se indican brevemente mediante los
numeros exactos 59.5 y 62.5 son las fronteras de clase o los
lmites de clase reales; el menor de los numeros (59.5) es la
frontera inferior de clase y el numero mayor (62.5) es la
frontera superior de clase.

40
En la practica, las fronteras de clase se obtienen sumando el
lmite superior de un intervalo de clase al lmite inferior del
intervalo de clase inmediato superior y dividiendo entre 2.

41
Algunas veces, las fronteras de clase se usan para representar a
las clases.
Por ejemplo, las clases de la tabla 2.1 pueden indicarse como
59.5-62.5, 62.5-65.5, etc.
Para evitar ambiguedades cuando se usa esta notacion, las
fronteras de clase no deben coincidir con las observaciones.
Por lo tanto, si una observacion es 62.5, no es posible decidir
si pertenece al intervalo 59.5-62.5 o al intervalo 62.5-65.5

42
TAMANO O AMPLITUD DE UN INTERVALO DE
CLASE

El tamano, o la amplitud, de un intervalo de clase es la


diferencia entre sus fronteras superior e inferior y se le conoce
tambien como amplitud de clase, tamano de clase o
longitud de clase.

43
Si en una distribucion de frecuencia todos los intervalos de
clase tienen la misma amplitud, esta amplitud comun se
denota c.
En este caso, c es igual a la diferencia entre dos lmites
inferiores de clases sucesivas o entre dos lmites superiores de
clases sucesivas.Por ejemplo, en los datos de la tabla 2.1, el
intervalo de clase es

c = 62.5 59.5 = 65.5 62.5 = 3.

44
LA MARCA DE CLASE

La marca de clase es el punto medio del intervalo de clase y


se obtiene sumando los lmites de clase inferior y superior y
dividiendo entre 2.
As, la marca de clase del intervalo 60-62 es

(60 + 62)/2 = 61.

A la marca de clase tambien se le conoce como punto medio


de clase.

45
Para los analisis matematicos posteriores, se supone que todas
las observaciones que pertenecen a un intervalo de clase dado
coinciden con la marca de clase.
As, se considera que todas las estaturas en el intervalo de
clase 60-62 in son de 61 in.

46
REGLAS GENERALES PARA FORMAR UNA DIS-
TRIBUCION DE FRECUENCIAS I

En el conjunto de los datos en bruto, se determina el numero


mayor y el numero menor y se halla, as, el rango (la diferencia
entre los numeros mayor y menor).

47
REGLAS GENERALES PARA FORMAR UNA DIS-
TRIBUCION DE FRECUENCIAS II

Se divide el rango en una cantidad adecuada de intervalos de


clase de una misma amplitud. Si esto no es posible, se usan
intervalos de clase de diferentes amplitudes o intervalos de
clase abiertos. La cantidad de intervalos suele ser de 5 a 20,
dependiendo de los datos. Los intervalos de clase tambien
suelen elegirse de manera que las marcas de clase (o puntos
medios de clase) coincidan con datos observados. Esto tiende
a disminuir el llamado error de agrupamiento en los analisis
matematicos subsiguientes. En cambio, las fronteras de clase
no deben coincidir con datos observados.

48
REGLAS GENERALES PARA FORMAR UNA DIS-
TRIBUCION DE FRECUENCIAS III

Se determina la cantidad de observaciones que caen dentro de


cada intervalo de clase; es decir, se encuentran las frecuencias
de clase. La mejor manera de hacer esto es utilizando una hoja
de conteo.

49
HISTOGRAMAS Y POLIGONOS DE FRECUEN-
CIAS

Los histogramas y los polgonos de frecuencias son dos


representaciones graficas de las distribuciones de frecuencias.

50
Un histograma o histograma de frecuencias consiste en un
conjunto de rectangulos que tienen: a) sus bases sobre un eje
horizontal (el eje X ), con sus centros coincidiendo con las
marcas de clase de longitudes iguales a la amplitud del
intervalo de clase, y b) areas proporcionales a las frecuencias
de clase.

51
Un polgono de frecuencias es una grafica de lnea que
presenta las frecuencias de clase graficadas contra las mar- cas
de clase. Se puede obtener conectando los puntos medios de
las partes superiores de los rectangulos de un histograma.

52
Figura 1.13: Histograma que muestra los puntos medios y las
frecuencias de clase.

53
DISTRIBUCIONES DE FRECUENCIAS RELATIVAS

La frecuencia relativa de una clase es la frecuencia de la clase


dividida entre la suma de las frecuencias de todas las clases y
generalmente se expresa como porcentaje.
Por ejemplo, en la tabla 1.12, la frecuencia relativa de la clase
66-68 es 42/100 = 42 %. Por supuesto, la suma de las
frecuencias relativas de todas las clases es 1, o 100 %.

54
Si en la tabla 1.12 las frecuencias se sustituyen por frecuencias
relativas, la tabla que se obtiene es una distribucion de
frecuencias relativas, distribucion porcentual o tabla de
frecuencias relativas.

55
Las representaciones graficas de las distribuciones de
frecuencias relativas se obtienen a partir de los histogramas o
polgonos de frecuencias, cambiando unicamente, en la escala
vertical, las frecuencias por las frecuencias relativas y
conservando la grafica exactamente igual.
A las graficas que se obtienen se les llama histogramas de
frecuencias relativas (o histogramas porcentuales) y
polgonos de frecuencias relativas (o polgonos
porcentuales), respectivamente.

56
DISTRIBUCIONES DE FRECUENCIAS ACUMULA-
DAS Y OJIVAS

A la suma de todas las frecuencias menores que la frontera


superior de un intervalo de clase dado se le llama frecuencia
acumulada hasta ese intervalo de clase inclusive.
Por ejemplo, en la tabla 1.12, la frecuencia acumulada hasta el
intervalo de clase 66-68 inclusive es 5 + 18 + 42 = 65, lo que
significa que 65 estudiantes tienen una estatura menor a
68.5 in.

57
Figura 1.14: Polgono de frecuencias de las estaturas de los
estudiantes.

58
A una tabla en la que se presentan las frecuencias acumuladas
se le llama distribucion de frecuencias acumuladas, tabla
de frecuencias acumuladas o simplemente distribucion
acumulada, y se presenta en la tabla 2.2 para la distribucion
de las estaturas de los estudiantes de la tabla 1.12.

59
Figura 1.15: Una grafica que muestra las frecuencias acumuladas
menores de cada frontera superior de clase respecto a cada
frontera superior de clase se le conoce como grafica de
frecuencias acumuladas u ojiva.

60
DISTRIBUCIONES DE FRECUENCIAS ACUMULA-
DAS RELATIVAS Y OJIVAS PORCENTUALES

La frecuencia acumulada relativa o frecuencia


acumulada porcentual es la frecuencia acumulada dividida
entre la suma de todas las frecuencias (frecuencia total).

61
Por ejemplo, la frecuencia acumulada relativa de las estaturas
meno- res que 68.5 in es 65/100 = 0.65 o 65 %, lo que
significa que 65 % de los estudiantes tienen estaturas menores
a 68.5 in.

62
Si en la tabla 1.15 se emplean las frecuencias acumuladas
relativas en lugar de las frecuencias acumuladas, se obtiene
una distribucion de frecuencias acumuladas relativas (o
distribucion acumulada porcentual) y una grafica de
frecuencias acumuladas relativas (u ojiva porcentual),
respectivamente.

63
Definiciones y conceptos

Problemas Resueltos

64
Problema Resuelto 1.1.
1 Disponer los numeros 17, 45, 38, 27, 6, 48, 11, 57, 34, 22 en
una ordenacion.
2 Determinar el rango de estos numeros.

65
# -*- coding: utf-8 -*-
"""
Ejercicio 2.1
a) Disponer los numeros 17, 45, 38, 27, 6, 48, 11, 57,
b) Determinar el rango de estos numeros.
"""
miLista = [17,45,38,27,6,48,11,57,34,22]
print(miLista)
miListaOrdenada = sorted(miLista)
print(miListaOrdenada)
rango = max(miLista)-min(miLista)
print(rango)

66
Problema Resuelto 1.2.
En la tabla siguiente se presentan las calificaciones finales que
obtuvieron en matematica 80 alumnos de una universidad.

67
De acuerdo con esta tabla, encontrar:

(a) La calificacion mas alta.


(b) La calificacion mas baja.
(c) El rango.
(d) Las calificaciones de los cinco mejores estudiantes.
(e) Las calificaciones de los cinco peores estudiantes.
(f) La calificacion del alumno que tiene el decimo lugar entre
las mejores calificaciones.
(g) El numero de estudiantes que obtuvieron 75 o mas.
(h) El numero de estudiantes que obtuvieron 85 o menos.
(i) El porcentaje de los estudiantes que obtuvieron
calificaciones mayores a 65 pero no mayores a 85.
(j) Las calificaciones que no aparecen en esta tabla.
68
69
miLista = [68,84,75,83,68,90,62,88,76,93,
73,79,88,73,60,93,71,59,85,75,
61,65,75,87,74,62,95,78,63,72,
66,78,82,75,94,77,69,74,68,60,
96,78,89,61,75,95,60,79,83,71,
79,62,67,97,78,85,76,65,71,75,
65,80,73,57,88,78,62,76,53,74,
86,67,73,81,72,63,76,75,85,77]

70
#La calificacion mas alta.
M=max(miLista); print(M)
#La calificacion mas baja.
m=min(miLista); print(m)
#El rango.
rango=M-m; print(rango)

71
#Ordenamos la lista
miListaOrd = sorted(miLista)
print(miListaOrd)
#Las calificaciones de los cinco mejores estudiantes.
print(miListaOrd[-5:])
#Las calificaciones de los cinco peores estudiantes.
print(miListaOrd[:5])
#La calificacion del alumno que tiene el decimo lugar
#entre las mejores calificaciones.
print(miListaOrd[-10])

72
#El numero de estudiantes que obtuvieron 75 o mas.
mayorQue75 = [elemento for elemento in miListaOrd
if elemento>=75]
print(mayorQue75, len(mayorQue75))
#El numero de estudiantes que obtuvieron 85 o menos.
menorQue85 = [x for x in miListaOrd if x<=85]
print(menorQue85, len(menorQue85))

73
#El porcentaje de los estudiantes
#que obtuvieron calificaciones
#mayores a 65 pero no mayores a 85.
de65a85 = [x for x in miListaOrd if 65<=x<=85]
print(len(de65a85)/len(miLista))
print(1.0*len(de65a85)/len(miLista))

74
#Las calificaciones que no aparecen en esta tabla.
complemento = [x for x in range(0,100+1)
if not(x in miLista)]
print(complemento)

75
Ahora, exploraremos los datos a traves de histogramas. Para
este fin, utilizaremos dos paquetes muy populares de Python:
numpy y matplotlib.

76
Numpy

NumPy es una extension de Python, que le agrega mayor


soporte para vectores y matrices, constituyendo una biblioteca
de funciones matematicas de alto nivel para operar con esos
vectores o matrices.1

1
https://es.wikipedia.org/wiki/NumPy
77
Matplotlib

Matplotlib es una biblioteca para la generacion de graficos a


partir de datos contenidos en listas o arrays en el lenguaje de
programacion Python y su extension matematica NumPy.
Proporciona una API, pylab, disenada para recordar a la de
MATLAB.2

2
https://es.wikipedia.org/wiki/Matplotlib
78
import numpy as np
import matplotlib.pyplot as plt

miLista = [68,84,75,83,68,90,62,88,76,93,
73,79,88,73,60,93,71,59,85,75,
61,65,75,87,74,62,95,78,63,72,
66,78,82,75,94,77,69,74,68,60,
96,78,89,61,75,95,60,79,83,71,
79,62,67,97,78,85,76,65,71,75,
65,80,73,57,88,78,62,76,53,74,
86,67,73,81,72,63,76,75,85,77]

miLista = np.array(miLista)

79
plt.hist(miLista, bins=auto)
# arguments are passed to np.histogram
plt.title("Histogram with auto bins")
plt.show()

80
plt.hist(miLista, bins=[53,64.75,86,97])
# arguments are passed to np.histogram
plt.show()

81
plt.hist(miLista, bins=np.arange(miLista.min(),
miLista.max()+1))
plt.show()

82
plt.hist(miLista,
bins=np.arange(miLista.min(), miLista.max()+1),
align=left)
plt.show()

83
plt.ylabel(Cumulative Frequency)
plt.xlabel(Data)

plt.hist(miLista, bins=auto, histtype=step,


cumulative=True)
# arguments are passed to np.histogram
plt.title("Histogram with auto bins")
plt.show()

84
plt.ylabel(Relative Cumulative Frequency)
plt.xlabel(Data)

plt.hist(miLista, bins=auto,normed=1,
histtype=step, cumulative=True)
# arguments are passed to np.histogram
plt.title("Histogram with auto bins")
plt.show()

85
86
myBins = np.linspace(50,100, (100-50)/5+1)
print myBins
miHistograma = np.histogram(miLista, bins=myBins)
print miHistograma
print miHistograma[0]
print miHistograma[1]

87
print "Intervalo"+8*" "+"Frecuencia"
for k in range(len(myBins)-1):
liminf=myBins[k]
limsup=myBins[k+1]-1
frecuencia=miHistograma[0][k]
print "["+str(liminf)+"-"+str(limsup)+")"+6*" "\
+str(frecuencia)

88
print "Intervalo"+8*" "+"Frecuencia"+2*" "+\
"Elementos en intervalo"
for k in range(len(myBins)-1):
liminf=myBins[k]
limsup=myBins[k+1]-1
frecuencia=miHistograma[0][k]
elementos = []
for x in miLista:
if (liminf<=x and x<limsup):
elementos.append(x)
sep = len("Frecuencia")+2-len(str(frecuencia))
print "["+str(liminf)+"-"+str(limsup)+")"+6*" "+\
str(frecuencia)+12*" "+str(elementos)

89
Que opciones existen para el parametro bins?

1 https://docs.scipy.org/doc/numpy/reference/generated/
numpy.histogram.html
2 https://stackoverflow.com/questions/9141732/how-does-
numpy-histogram-work

90
Ejercicio de practica.
Analice los siguientes datos a traves de histogramas, utilizando
las diferentes opciones para el parametro bins.

[ 5. 4. 6. 5. 4. 6. 6. 4. 5. 3.
6. 6. 6. 3. 5. 5. 5. 5.
6. 3. 5. 4. 5. 6. 6. 5. 6. 3.
5. 6. 5. 5. 6. 6. 6. 5.
5. 5. 6. 7. 5. 4. 5. 3. 5. 4.
5. 5. 6. 5. 6. 4. 4. 5.
4. 5. 5. 5. 6. 7. 4. 5. 5. 5.
6. 3. 7. 4. 5. 6. 4. 5.
6. 6. 4. 7. 5. 4. 6. 5. 5. 1.
6. 5. 5. 5. 6. 6. 5. 6.
5. 5. 4. 4. 6. 5. 5. 6. 4. 4.]

91
Sugerencia

Genere la lista anterior, utilizando el siguiente codigo

import numpy as np
np.random.seed(1234)
mu, sigma = 5, 1 # mean and standard deviation
s = np.random.normal(mu, sigma, 100)
print np.rint(s)

92
Para profundizar...

Una de las mejores plataformas para aprender analisis de


datos es DataCamp. Puede comenzar a dominar Python con
el curso Intro to Python for Data Science.

93
Medidas de tendencia central

94
Indice y subndices

El smbolo Xj representa cualquiera de los valores


X1 , X2 , X3 , ... que puede tomar la variable discreta X.
El smbolo j denota cualquiera de los numeros naturales
1, 2, 3, ... y se le llama ndice (o a veces subndice o tambien
contador).

95
Definicion 2.1 (Sumatoria).

N
X
Xj = X1 + ... + XN
j=1

96
Ejemplo 2.1.
N
X
Xk Yk = X1 Y1 + ... + XN YN
k=1
XN N
X
aXi = aX1 + ... + aXN = a Xn .
i=1 n=1

97
Observacion: Cuando se sobrentiende que el contador
P
j corre sobre los numeros 1, 2, ..., N, escribimos Xj o
simplemente X en lugar de N
P P
j=1 .

98
Linealidad

Problema 2.1.
Si a, b son constantes, demuestre que
X X X
(aX + bY ) = a X +b Y.

99
Promedio

UN promedio es un valor representativo de un conjunto de


datos que tiende a encontrarse en el centro de dicho conjunto.
Por esta razon, tambien se le conoce como medidas de
tendencia central.

100
Se pueden definir varios tipo de promedios:

Media aritmetica;
mediana;
moda;
media geometrica;
media armonico.

101
Observacion: Cada medida de tendencia central tiene
ventajas y desventajas de acuerdo al tipo de datos y el
proposito del uso.

102
Definicion 2.2 (Media aritmetica).

PN
Xj
P
X1 + ... + XN j=1 X
X = = = (2.1)
N N N

103
Ejemplo 2.2.
La media aritmetica de 8, 3, 5, 12, 10 es...

104
Si los numeros X1 , X2 , ..., Xk se presentan con frecuencias
f1 , f2 , ..., fk respectivamente su media aritmetica es
P P
f1 X1 + ... + fk Xk fX fX
X = = P = . (2.2)
f1 + ... + fk f N
P
donde N = f es la suma de frecuencias o total de
casos.

105
Ejemplo 2.3.
Si 5, 8, 6, 2 se presentan con frecuencias 3, 2, 4, 1
respectivamente, su media aritmetica es...

106
Media aritmetica ponderada

Algunas veces, a los numeros X1 , ..., Xk se les asignan ciertos


factores de ponderacion o pesos w1 , ..., wk , tales que

0 %

wi 100 %
P
wi

= 100 %

107
Definicion 2.3 (Media ponderada).
Si w1 , .., wk son pesos tales que 0 wi 1 y wi = 1,
P

entonces la correspondiente media (aritmetica) ponderada de


los numeros X1 , ..., Xk es
P
w1 X1 + ... + wk Xk wX X
X = = P = wX.
w1 + ... + wk w

108
Ejemplo 2.4.
Si en una clase, al examen final se le da el triple del valor que
a los examenes parciales y un estudiante obtiene 85 en el final
y 70 y 90 en los dos examenes parciales, obtener su media
ponderada.

109
1
1 Si wi = N
, obtenemos la media aritmetica usual.
fi
2 Si wi = N
, obtenemos la formula (2.2).

110
Cuando los numeros son muy grandes, se suele utilizar un
pivote P : P
f i di
X = P + ,
N
donde di = Xi P.
En ocasiones, utilizaremos la notacion
P
f i di
d = ,
N
de manera que d es la desviacion promedio y X = P + d.

111
Observacion:
Para datos agrupados, Xi se escoge como la marca de la
iesima clase.

112
La mediana

La mediana X de un conjunto de numeros acomodados en un


orden de magnitud (es decir, en una ordenacion) es el valor
central o la media de dos valores centrales.

113
Ejemplo 2.5.
La mediana de la lista de numeros 3, 4, 5, 6, 8, 8, 8, 10 es...
La mediana de la lista de numeros 5, 5, 7, 9, 11, 12, 15, 18
es..

114
Definicion 2.4 (Mediana para datos agrupados).

N P

2 C<CM f
Mediana = L +
fCM

donde

L es la frontera inferior de la clase mediana, es decir, de


la clase que contiene la mediana;
N es la frecuencia total;
P
C<CM f suma de las frecuencias de todas las clases
anteriores a la clase mediana;
fCM es la frecuencia de la clase mediana.

115
Moda

La moda de una lista de numeros es un valor que se presenta


con la mayor frecuencia f > 1. La moda no es
necesariamente existe ni es unica.

116
Ejemplo 2.6.
La moda de la lista 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 es...
En este caso, diremos que la lista es unimodal.
Cual es la moda de la lista 3, 5, 8, 0, 12, 15, 16?
Cual es la moda de la lista 3, 8, 8, 8, 15, 15, 15? En este
caso diremos que la lista es bimodal.

117
Definicion 2.5 (Moda para datos agrupados).
!
1
Moda = L + c
1 + 2

donde

1 L : Frontera inferior de la clase modal, es decir, de la


clase que contiene la moda.
2 1 : Exceso de frecuencia modal sobre la frecuencia en la
clase inferior inmediata.
3 2 : Exceso de frecuencia modal sobre la frecuencia en la
clase superior inmediata.
4 c : Amplitud del intervalo de la clase modal.

118
Medidas de tendencia central

Python

119
numpy.mean

numpy.mean(a, axis=None, dtype=None, out=None,


keepdims=<class numpy._globals._NoValue>)

Calcula la media aritmetica sobre los elementos de un arreglo. 3

3
https://github.com/numpy/numpy/blob/v1.13.0/numpy/core/fromnumeric.py
L2909
120
Ejemplos

a = np.array([[1, 2], [3, 4]])


print np.mean(a)
#2.5
print np.mean(a, axis=0)
#array([ 2., 3.])
print np.mean(a, axis=1)
#array([ 1.5, 3.5])

121
numpy.median

numpy.median(a, axis=None, out=None,


overwrite_input=False, keepdims=False)

Calcula la mediana de los elementos de un arreglo de


numeros.4

4
https://docs.scipy.org/doc/numpy/reference/generated/numpy.median.html
122
Ejemplos I

import numpy as np

a = np.array([[10, 7, 4], [3, 2, 1]])


print a
#array([[10, 7, 4],6[ 3, 2, 1]])
print np.median(a)
#3.5
print np.median(a, axis=0)
#array([ 6.5, 4.5, 2.5])
print np.median(a, axis=1)
#array([ 7., 2.])

123
Ejemplos II

m = np.median(a, axis=0)
out = np.zeros_like(m)
print np.median(a, axis=0, out=m)
#array([ 6.5, 4.5, 2.5])
print m
#array([ 6.5, 4.5, 2.5])
b = a.copy()
print np.median(b, axis=1, overwrite_input=True)
#array([ 7., 2.])

assert not np.all(a==b)

124
Ejemplos III

b = a.copy()
print np.median(b, axis=None, overwrite_input=True)
#3.5
assert not np.all(a==b)

125
SciPy

SciPy es una biblioteca open source de herramientas y


algoritmos matematicos para Python... SciPy contiene
modulos para optimizacion, algebra lineal, integracion,
interpolacion, funciones especiales, FFT, procesamiento de
senales y de imagen, resolucion de ODEs y otras tareas para la
ciencia e ingeniera. Esta dirigida al mismo tipo de usuarios que
los de aplicaciones como MATLAB, GNU Octave, y Scilab.5

5
https://es.wikipedia.org/wiki/SciPy
126
Moda I

import numpy as np
from scipy import stats

a = np.array([3,5,6,5,6,5,6,6,3,1,5])
print stats.mode(a)
# ModeResult(mode=array([5]), count=array([4]))

127
Moda II

b = np.array([[6, 8, 0, 0],
[3, 3, 0, 3],
[8, 1, 8, 5],
[5, 3, 0, 5],
[4, 7, 5, 3]])

print stats.mode(b)
# ModeResult(mode=array([[3, 3, 0, 3]]),
count=array([[1, 2, 3, 2]]))

128
Moda III

print stats.mode(b, axis=1)


# ModeResult(mode=array([[0],[3],[8],[5],[3]]),
# count=array([[2],[3],[2],[2],[1]]))

print stats.mode(b, axis=None)


# ModeResult(mode=array([3]), count=array([5]))

129
Medidas de tendencia central

Problemas resueltos

130
Problema Resuelto 2.1.

Escribir los terminos de cada una de las siguientes sumas:


6
X
(a) Xj =
j=0
4
(Yk 3)2 =
X
(b)
k=1
XN
(c) a=
k=1
X5
(d) fn X n =
n=2
X3
(e) (Xm a) =
m=0

131
Problema Resuelto 2.2.

De 100 numeros, 20 fueron 4, 40 fueron 5, 30 fueron 6 y los


restantes fueron 7. Encuentre su media aritmetica.

132
Problema Resuelto 2.3.

Los pesos medio de cuatro grupos de estudiantes que constan


de 15, 20, 10 y 18 individuos son 162, 148, 153 y 140 libras,
respectivamente. Encuentre el preso medio de todos los
estudiantes.

133
Problema Resuelto 2.4.

Usando la distribucion de frecuencias de las estaturas que se


presenta en la siguiente tabla, hallar la estatura media de 100
estudiantes de cierta universidad.

134
Problema Resuelto 2.5.

Si las desviaciones de N numeros X1 , .., XN respecto a un


pivote P estan dada por di = Xi P, i = 1, ..., N
respectivamente, demostrar que
P
d
X = P + .
N

135
Problema Resuelto 2.6.

Demostrar que la suma de las desviaciones d1 , d2 , ..., dN de


X1 , X2 , ..., XN usando como pivote su media X es igual a
cero.

136
Problema Resuelto 2.7.

Si Zi = Xi + Yi , i = 1, 2, ..., N, demostrar que Z = X + Y .

137
Problema Resuelto 2.8.

Halle la media aritmetica de los numeros 5,8,11,9,12,6,14 y 10


eligiendo como pivote a) P = 9 y b) P = 20.

138
Problema Resuelto 2.9.

Utilice la marca de la clase media como pivote, para calcular la


estatura de los estudiantes en la tabla 2.4.

139
Problema Resuelto 2.10.

Encontrar el peso mediano a partir de la siguiente tabla

140
Desviacion estandar y otras
medidas de dispersion

141
Dispersion o variacion

Si bien las medidas de tendencia central nos dicen alrededor de


que valores se concentra un arreglo de datos, las medidas de
dispersion nos dan una idea de que tan alejados estan entre
s.
A continuacion, veremos algunas medidas de dispersion
comunmente usadas en estadstica.

142
Rango

El rango de un conjunto de datos es la diferencia entre el


mayor y el menor del conjunto.
Ejemplo 3.1.
El rango del conjunto 2,3,3,5,5,5,8,10,12 es 12 2 = 10.

143
Desviacion media

La desviacion media o desviacion promedio de un


conjunto de N numeros X1 , ..., XN esta definida como
P
Xj X

DM =
N
donde X es la media aritmetica de los numeros y || denota el
valor absoluto.

144
Ejemplo 3.2.
Encuentre la desviacion media de la lista 2, 3, 6, 8, 11.

145
Desviacion estandar

La desviacion estandar de un conjunto de N numeros


X1 , ..., XN se denota como s y esta definida por
v  2
uP s
u
t Xj X X x2j
s= =
N N

donde xj := Xj X.

146
Si X1 , ..., XN se presentan con frecuencias f1 , ..., fN
respectivamente, la desviacion estandar se puede expresar
como
v 2
uP  sP
u f X
t j j X fj x2j
s= =
N N

147
Observacion: En ocasiones, N se reemplaza por N 1
en las formulas anteriores, debido a que esta definicion
aproxima mejor a la poblacion de la que se ha obtenido la
muestra. Pero para muestras muy grandes N > 30
practicamente no hay diferencia.

148
Varianza

La varianza de un conjunto de numeros se define como el


cuadrado s2 de la desviacion estandar s.

149
Observacion: En estadstica, es importante distinguir
entre la desviacion estandar de una poblacion y una
muestra. Para distinguirla, en el primer caso utilizaremos
y en el segundo, continuaremos usando s.

150
Metodos abreviados

2
s2 = X 2 X
2
s 2 = d2 d

151
En las distribuciones normales se tiene que

(a) 68.27 % de los datos esta comprendido entre X s.


(b) 95.45 % de los datos esta comprendido entre X 2s.
(c) 99.73 % de los datos esta comprendido entre X 3s.

152
Si 2 conjuntos de N1 y N2 datos respectivamente tienen
correspondientes s21 y s22 varianzas pero una misma media
aritmetica X, entonces la varianza de la union de ambos
conjuntos es

N1 s21 + N2 s22
s2 = .
N1 + N2

153
Teorema de Chebyshev

1
Para k > 1, por lo menos 1 2 de la distribucion de
k
probabilidad de cualquier variable aleatoria esta a nomas de k
desviaciones estandar de la media.

154
Desviacion estandar y otras
medidas de dispersion

Python

155
numpy.std

numpy.std(a, axis=None, dtype=None, out=None, ddof=0,


keepdims=<class numpy._globals._NoValue>)

Calcule la desviacion estandar a lo largo del eje especificado.


Devuelve la desviacion estandar, una medida de la propagacion
de una distribucion, de los elementos de la matriz. La
desviacion estandar se calcula para la matriz aplanada de
forma predeterminada, de lo contrario sobre el eje
especificado.6
6
https://docs.scipy.org/doc/numpy/reference/generated/numpy.std.html
156
import numpy as np

a = np.array([[1, 2], [3, 4]])


print np.std(a)
#1.1180339887498949
print np.std(a, axis=0)
#array([ 1., 1.])
print np.std(a, axis=1)
#array([ 0.5, 0.5])

157
#In single precision, std() can be inaccurate:
a = np.zeros((2, 512*512), dtype=np.float32)
a[0, :] = 1.0
a[1, :] = 0.1
print np.std(a)
#0.45000005

#Computing the standard deviation in float64


#is more accurate:
print np.std(a, dtype=np.float64)
#0.44999999925494177

158
Desviacion estandar y otras
medidas de dispersion

Problemas resueltos

159
Problema Resuelto 3.1.

Encontrar el rango y las desviaciones media y estandar de los


arreglos

(a) 12, 6, 7, 3, 15, 10, 18, 5


(b) 9, 3, 8, 8, 9, 8, 9, 18.

Compruebe sus resultados con Python.

160
Problema Resuelto 3.2.

Encontrar las desviaciones media y estandar de las estaturas


de 100 estudiantes de la siguiente tabla:

161
Problema Resuelto 3.3.

Encontrar las desviaciones media y estandar de las estaturas


de 100 estudiantes de la siguiente tabla:

162
Problema Resuelto 3.4.

Demostrar que
sP
X2 X 2
P  q
2
s= = X2 X
v
N N
!2
u f X2
uP P
fX
q
2
s= t
= X2 X
N N

163
Problema Resuelto 3.5.

Utilizando las formulas anteriores, encuentre la desviacion


estandar de los datos en la tabla 3.3:

164
Problema Resuelto 3.6.

Si d = X P son desviaciones de X respecto a un pivote P,


demostrar que
v
!2
u f d2
uP P
fd
s= t
.
N N

165
Problema Resuelto 3.7.

Utilizando las formulas anteriores, encuentre la desviacion


estandar de los datos en la tabla 3.3:

166
Problema Resuelto 3.8.

Encuentre la media aritmetica y la desviacion estandar de los


siguientes datos:

167

Você também pode gostar