Você está na página 1de 45

Estadstica Descriptiva

Daniel Felipe Viancha Corts


P&C Pricing Actuary
Registros histricos
La palabra estadstica proviene del vocablo Estado ya que una de sus
principales funciones era/es establecer registros a los gobiernos/estados
en cuanto a su poblacin, cosechas, nacimientos, impuestos, muertes,
etc.

Con total certeza no se puede decir donde naci esta necesidad y estos
trminos pero si podemos evidenciar registros los cuales nos dan una
idea el contexto y momento histrico del empleo de estos trminos e
ideas:
Ao 3000 A.C. En la antigua Babilonia se han encontrado tablillas de
arcillas donde se marcaban registros de ventas y trueques
comerciales, principalmente sobre productos agrcolas (cosechas).
Registros histricos ii
La palabra estadstica proviene del vocablo Estado ya que una de
sus principales funciones era/es establecer registros a los
gobiernos/estados en cuanto a su poblacin, cosechas, nacimientos,
impuestos, muertes, etc.
Se han encontrado papiros que datan del ao 3050 A.C. en Egipto
donde se evidencia la constante elaboracin de censos.
En la Biblia encontramos en el libro de Nmeros el censo que Moiss
realiz despus de salir de Egipto.
Hacia el ao 762 de nuestra era Carlomagno orden hacer un registro
de sus propiedades, as como los bienes de la iglesia.
Registros histricos iii
Hacia 1662 un mercader britnico John Graunt public un tratado
donde se pone en manifiesto cifras brutas de nacimientos y
defunciones ocurridas en Londres durante el periodo de 1604 a 1661,
as como las influencias que ejercan las causas naturales, sociales y
polticas de dichos acontecimientos. Este documento puede
considerarse como el primer trabajo serio en temas estadsticos.
Los que hoy en da conocemos como estadstica moderna comienza a
mediados del siglo XX, uno de los factores determinantes es la
aparicin y popularizacin de los computadores.
Estadstica?...para qu?
Pero a fin de cuentas que es la estadstica?...

Podramos decir que es un conjunto de tcnicas que permiten contar,


ordenar y clasificar datos obtenidos por medio de observaciones con el
fin de hacer comparaciones y sacar conclusiones de ellos!! Tomar
decisiones.

Un anlisis o estudio estadstico consta la mayora de las veces en los


siguientes pasos:
1. Recoleccin de datos.
2. Organizacin y representacin de estos.
3. Anlisis de los datos. (Tcnicas estadsticas).
4. Obtencin de conclusiones.
Trminos bsicos
1. Poblacin: Es el conjunto de todos los elementos a los que se somete
un estudio estadstico.
2. Individuo: O unidad estadstica, es cada uno de los elementos, datos
que compone la poblacin.
3. Muestra: Es un conjunto representativo de la poblacin de
referencia, el nmero de individuos de una muestra es inferior al de
la poblacin.
4. Distribucin de frecuencias: O tabla de frecuencias es una
ordenacin en forma de tabla de los datos estadsticos, asignando a
cada dato su frecuencia correspondiente.
Tipos de variables a tratar
1. Variables cualitativas: Se refieren al tipo de datos que describen
caractersticas o cualidades que poseen los individuos de una
poblacin/muestra. Las variables cualitativas a su vez se dividen en
dos:

Variable cualitativa nominal: modalidades no numricas que no


admiten un criterio de orden, ejemplo: Nivel de estudios, con las
siguientes modalidades: primaria, bachillerato, tcnico, pregrado,
maestra, doctorado, etc.

Variable cualitativa ordina: presenta modalidades no numricas en


las cuales existe un orden: Calificaciones: Excelente, aceptable,
suspendido.
Tipos de variables a tratar ii
1. Variables cuantitativas: son aquellas variables que se representan de
forma numrica y con las cuales podremos realizar operaciones
aritmticas. Estas a su vez se dividen en dos grandes grupos:

Variable discreta: Aquellas las cuales se representan mediante el


conjunto de los nmeros enteros. Ejemplo: Nmero de hijos: 0, 1, 2,
etc.

Variable continua: De manera informal, son aquellas variables


numricas donde sus nmeros incluyen decimales. Ejemplo: Altura
en metros: 1.81 Metros, 1.74 Metros, etc.
Ejemplos de tipos de variables
1. El deporte favorito.
2. Medallas de oro ganadas en competencia deportiva.
3. Peso en Kilogramos.
4. Color de ojos.
5. Nmero de vehculos familiares.
6. Primer apellido.
7. Marca de vehculo a asegurar.
Anlisis exploratorios de datos: Tablas de
Frecuencias
Los primero que se realiza luego de hacer la correspondiente recoleccin
de los datos, es organizarlos y representarlos de tal forma que estos nos
indiquen algo. Esta organizacin podremos verla a partir de tablas de
frecuencias.

Una tabla de frecuencias es una ordenacin en forma de tabla donde a


cada datos podremos asignarle su frecuencia correspondiente.

Frecuencia absoluta: es el nmero de veces que aparece (se repite) un


determinado valor en un estudio estadstico. La suma de todas las
frecuencias absolutas equivale al total de los datos analizados.
Anlisis exploratorios de datos: Tablas de
Frecuencias

Frecuencia relativa: Equivale al cociente entre la frecuencia absoluta de


un determinado valor o categora y el nmero total de datos. La suma de
las frecuencias relativas es igual a 1.

Frecuencia acumulada: Es la suma de las frecuencias relatividades de


todos los valores inferiores o iguales al valor considerado.

Frecuencia relativa acumulada: Es el cociente entre la frecuencia


acumulada
Ejemplo 1: Datos discretos
En la ciudad de Ibagu en el mes de mayo se han presentado las
siguientes temperaturas en grados Celsius:
27, 28, 28, 29, 29, 29, 29, 29, 29, 30, 30, 30, 30, 30, 30, 30, 31, 31, 31, 31,
31, 31, 31, 31, 32, 32, 32, 33, 33, 33, 34.

Grados Frecuencia absoluta Frec Abs acum Frec relativa Frec rel acum
27 1 1 0,032 0,032
28 2 3 0,065 0,097
29 6 9 0,194 0,290
30 7 16 0,226 0,516
31 8 24 0,258 0,774
32 3 27 0,097 0,871
33 3 30 0,097 0,968
34 1 31 0,032 1,000
Total general 31 1,000

Cul es la temperatura media?


Cul es la temperatura modal?
Ejemplo 2: Datos agrupados
A partir de las edades de un grupo de personas, vamos a calcular una
tabla de frecuencias para datos agrupados, en funcin del volumen de
datos, esto puede resumir de forma importante las tablas de frecuencias
antes vistas.
3, 15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44,
31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13.

Intervalos ci fi Fi ni Ni
[0,5) 2,5 1 1 0,025 0,025
[5,10) 7,5 1 2 0,025 0,05
[10,15) 12,5 3 5 0,075 0,125
[15,20) 17,5 3 8 0,075 0,2
[20,25) 22,5 3 11 0,075 0,275
[25,30) 27,5 6 17 0,15 0,425
[30,35) 32,5 7 24 0,175 0,6
[35,40) 37,5 10 34 0,25 0,85
[40,45) 42,5 4 38 0,1 0,95
[45,50) 47,5 2 40 0,05 1
40 1

Cul es la temperatura media?


Cul es la temperatura modal?
Histogramas y diagramas poligonales
Un histograma es una representacin grfica de una variable en forma de barras.
Suele usarse para visualizar variables cuantitativas continuas o discretas y estas se
agrupan en clases (intervalos).
En el eje de las abscisas (eje x) se construyen rectngulos que tienen como base
la amplitud del intervalo, y por altura la frecuencia absoluta o relativa de este.
Para construir un polgono de frecuencia se toman la marca de clase de cada
intervalo, es decir, el punto medio de cada uno de estos.

12

10

0
[0,5) [5,10) [10,15) [15,20) [20,25) [25,30) [30,35) [35,40) [40,45) [45,50)

Histograma Poligono
Ejercicio 1
1. El siguiente diagrama de barras indica el color de cabello de los
alumnos de la clase de Daniel.

Qu tipo de color de pelo predomina?


Cuntos estudiantes son pelirrojos?
Cuntos estudiantes hay en total?
Ejercicio 2
1. El siguiente polgono de frecuencia muestra la media de temperatura
diaria en una ciudad polaca a lo largo de los siete das de la semana.

Construye una tabla de frecuencias a partir del grfico.


Qu da hizo menos frio?
Cul fue la temperatura de los dos primeros das?
Ejercicio 3
1. El siguiente diagrama de barras muestra las notas de los alumnos de
una clase de octavo de bachillerado.

Cuntos estudiantes han suspendido la asignatura?


Cuntos estudiantes han aprobado la asignatura?
Cuntos estudiantes hay en la clase?
Qu nota es la ms comn?
Ejercicio 4
1. Los siguientes valores indican el nmero de comidas al da que hace
un grupo de amigos: 3, 4, 2, 3, 4, 3, 4, 5, 4, 5, 3, 4, 5, 3, 4.

Sabiendo que los expertos recomiendan comer 5 veces al da, podemos


decir que la mayora de estos amigos come correctamente?
Cuntos de ellos comen slo dos veces al da?
Cuntas veces al da come la mayora de las personas encuestadas?
Parmetros estadsticos

Parmetros
Estadsticos

Centralizacin Posicin Dispersin

Media Desviacin
Mediana Moda Cuartiles Deciles Centiles Varianza
aritmtica Tpica
Parmetros estadsticos ii
Medidas de centralizacin: Nos indican entorno a qu valor se
distribuyen los datos.

1. Media aritmtica: Esta medida nos indica el valor promedio de los


datos.

2. Mediana: Es el valor o los valores que dividen la distribucin de los


datos en dos partes. Es la puntuacin de la escala que separa la
mitad superior de la distribucin y la inferior.

3. Moda: Es el valor que mas se distribuye en una distribucin.


Parmetros estadsticos iii
Medidas de posicin: dividen el conjunto de datos en grupos con el
mismo nmero de registros (individuos).

1. Cuartiles: Los cuartiles dividen la distribucin de datos en cuatro


partes iguales.

2. Deciles: Los deciles dividen la distribucin de datos en diez partes


iguales..

3. Percentiles: Dividen la serie de datos en cien partes iguales.


Parmetros estadsticos iv
Medidas de dispersin: nos informan sobre cuanto se alejan del centro
de la distribucin los datos (valores).

1. Rango/Recorrido: El rango es la diferencia entre el valor mayor y el


menor.

2. Desviacin tpica: es una medida del grado de dispersin de los datos


con respecto al valor promedio, es decir, es simplemente el
promedio o variacin esperada con respecto a la media aritmtica.

3. Varianza: Es el cuadrado de la desviacin tpica, al ser sus unidades


cuadrticas no tiene una interpretacin intuitiva de sus resultados.
MEDIDAS DE CENTRALIZACIN

MODA

MEDIANA

MEDIA ARITMTICA
Clculo de la Moda: Datos agrupados

Donde Li es el lmite inferior de la clase modal.


fi es la frecuencia absoluta de la clase modal.
fi-1 es la frecuencia absoluta inmediatamente inferior a la clase modal.
fi+1 es la frecuencia absoluta inmediatamente posterior a la clase modal.
Ai es la amplitud de la clase i.

Ejemplo: A partir de la siguiente tabla de frecuencia, estimar la moda de los datos


agrupados.
fi
[60, 63) 5
[63, 66) 18
[66, 69) 42
[69, 72) 27
[72, 75) 8
Solucin ejercicio:
Lo primero que haremos es identificar los valores que debemos
reemplazar en la formulacin.
La clase modal, es decir, donde tenemos la mayor frecuencia (o cantidad
de casos) es el intervalo de 66 a 69, por tanto:
Li=66
fi=42
fi-1=18
fi+1=27
Ai=3

Por tanto, reemplazando estos valores en la frmula del slide anterior


encontramos un valor de 67.846
Ejercicios!!
Seleccione la respuesta correcta o calcule la moda.

1. Las estaturas en centmetros de un grupo de quince amigos son:


150, 160, 164, 157, 163, 182, 170, 159, 157, 151, 161, 163, 178, 173, 172.
a. 182
b. 163 y 157
c. No tiene moda porque hay dos valores que podran serlo.

2. Las notas de matemticas de los 26 alumnos de una clase son:


6, 2, 4, 4, 5, 5, 6, 3, 8, 6, 5, 3, 7, 6, 5, 6, 4, 4, 4, 3, 5, 5, 4, 6, 7, 4.

Calcula la moda Mo.


Mediana
Como se haba indicado antes, la mediana es una medida de
centralizacin la cual nos permite dividir la data en dos partes iguales.
Ms adelante observaremos que la mediana equivale al percentil 50 de la
distribucin de los datos.
Como hablamos de un orden, la mediana slo puede estimarse sobre
variables cuantitativas. Una ventaja de la mediana sobre el promedio es
que esta no es sensible a valores atpicos, ms adelante entraremos en
estos detalles.
Clculo de la mediana
1. Ordenamos los datos de menor a mayor.
2. Si al contar los datos estos dan un nmero impar, la mediana
corresponder a la puntuacin central, as:
2, 3, 4, 4, 5, 5, 5, 6, 6

Ntese que ese nmero 5 divide la serie en dos partes de igual


cantidad de nmeros.
3. Qu ocurre si la serie de datos tiene un total par de datos?
7, 8, 9, 10, 11, 12

Si les digo que la mediana es 9.5, que creen que habr que hacer
para obtener este resultado? Tiene lgica?
Clculo de la mediana: Datos agrupados
Recordemos que cuando hablamos de datos agrupados, son aquellos que se
encuentran en una tabla de frecuencias!!!

fi Fi
[60, 63) 5 5
[63, 66) 18 23
[66, 69) 42 65
[69, 72) 27 92
[72, 75) 8 100
100

La mediana se encuentra en el intervalo donde la frecuencia acumulada Fi llega


hasta la mitad de la suma de las frecuencias absolutas, es decir, tenemos que
buscar el intervalo donde se encuentre N/2.
Clculo de la mediana: Datos agrupados
Vamos a calcular la mediana para los datos agrupados en la tabla que
encontramos abajo.

fi Fi
[60, 63) 5 5
[63, 66) 18 23
[66, 69) 42 65
[69, 72) 27 92
[72, 75) 8 100
100

N/2=100/2=50
Por consiguiente, la clase donde se encuentra el 50 es el intervalo [66, 69), y por tanto la mediana
ser: 66+[(50-23)/42]*3=67.93
Ejercicios!!
Las faltas de asistencia de 25 estudiantes de una clase son: 0, 1, 1, 1, 3, 2,
2, 7, 1, 2, 1, 0, 0, 0, 1, 2, 1, 2, 1, 2, 0, 0, 4, 6, 7.
Calcular la media de esto.

La estatura en centmetros de un grupo de diecisis amigos:


150, 160, 164, 157, 183, 163, 182, 170, 159, 157, 151, 161, 163, 178, 173,
172.
Media aritmtica
Ahora vamos a definir quizs uno de los trminos estadsticos ms
usados por las personas en el mundo!! tambin conocida como
promedio.

Definimos la media aritmtica como el valor carcterstico de la serie de


datos resultado de la suma de todas las observaciones y dividiendo esto
por el nmero total de datos.

Para datos no agrupados, la frmula para calcular la media es la que


observamos a continuacin:
Media aritmtica: Datos agrupados
Para calcular la media aritmtica en datos agrupados se debe ponderar
todas y cada una de las frecuencias absolutas por la marca de clase de
cada intervalo y el resultado final lo dividimos entre la suma de todas las
frecuencias absolutas.

Ejemplo: en un test realizado a un grupo de 42 estudiantes, se han


obtenido puntuaciones como se muestra en la tabla:
xi fi xi*fi
[10, 20) 15 1 15
[20, 30) 25 8 200
[30, 40) 35 10 350
[40, 50) 45 9 405
[50, 60) 55 8 440
[60, 70) 65 4 260
[70, 80) 75 2 150
42 1820

Por tanto la media aritmtica para datos agrupados o promedio


ponderado equivale a 1820/42=43.33
Observaciones sobre la media
1. La media slo se puede calcular para variables cuantitativas.
2. La media es independiente de la amplitud de los intervalos (para
datos agrupados).
3. La media es muy sensible a los valores extremos (muy grandes o muy
pequeos).
4. Para datos agrupados, la media no se puede estimar si uno de los
intervalos tiene amplitud indeterminada, es decir, el intervalo no se
cierra.

Ante la existencia de datos extremos que medida recomiendan ustedes


como ms representativa?
Ejercicios!!
Las notas de matemticas de 26 alumnos de una clase son:
6, 2, 4, 4, 5, 5, 6, 3, 8, 6, 5, 3, 7, 6, 5, 6, 4, 4, 4, 3, 5, 5, 4, 6, 7, 4
Calcula la media aritmtica de las notas obtenidas. (Tip: agrupa los
datos).

El nmero de veces que va al cine en un mes cada componente de un


grupo de once amigos es:
2, 2, 2, 3, 1, 2, 1, 3, 1, 1, 4.
Calcular la media de forma usual (lineal) y agrupando los datos.
Los resultados son idnticos?
MEDIDAS DE DISPERSIN

VARIANZA

DESVIACIN TPICA
Desviacin tpica
La desviacin tpica desviacin estndar es una medida del grado de
dispersin de los datos con respecto al valor promedio, es decir, es
simplemente el promedio o variacin esperada con respecto a la media
aritmtica.
Su valor est en la misma magnitud que la media aritmtica, de esta
forma son comparables en magnitud.

La frmula de la desviacin tpica es:

Donde los xi son los datos observados, la x con rayita es la notacin que
se le da usualmente al promedio o media aritmtica y el N es el total de
datos analizados.
Desviacin tpica: Datos agrupados

Para datos agrupados vamos a usar la siguiente frmula:

Qu es equivalente a usar esta y es mas sencilla de recordar:

A diferencia del caso anterior, aqu los xi son las marcas de clase de cada
intervalo, y las fi las frecuencias absolutas por clase, respectivamente.
Ejercicio!!

Vamos a calcular la desviacin tpica para los datos agrupados en la


siguiente tabla:
xi fi xi*fi
[10, 20) 15 1 15
[20, 30) 25 8 200
[30, 40) 35 10 350
[40, 50) 45 9 405
[50, 60) 55 8 440
[60, 70) 65 4 260
[70, 80) 75 2 150
42 1820

Cmo lo haran?
Propiedades de la desviacin tpica
1. La desviacin tpica siempre ser un valor mayor o igual que cero, Es
cero, cuando los valores son todos iguales.
2. Si todos los valores son multiplicados por una constante K, la
desviacin tpica queda multiplicada por esa constante.
3. Si tenemos varias distribuciones de datos independientes entre si
con la misma media y conocemos sus respectivas desviaciones
tpicas, se puede calcular la desviacin tpica total, as:

Si todas las muestras son del mismo tamao:

Si las muestras tienen distinto tamao:


Ejercicios
El nmero de transacciones bancarias que una persona realiza al mes
durante 4 meses son: 2, 4, 3, 5.

Cual es la desviacin tpica?

Las notas de matemticas de los 26 alumnos de una clase son: 6, 2, 4, 4,


5, 5, 6, 3, 8, 6, 5, 3, 7, 6, 5, 6, 4, 4, 4, 3, 5, 5, 4, 6, 7, 4.

Calcular la desviacin tpica de las notas obtenidas. (Tip: agrupar los


datos)

Las estaturas en centmetros de un grupo de cinco amigos son: 150, 160,


164, 158, 183.
Taller 1
Las temperaturas mximas en una ciudad durante el mes de junio
fueron:
28 C, 29 C, 28 C, 30 C, 30 C, 29 C, 30 C, 31 C, 29 C, 29 C, 30 C,
31 C, 31 C, 31 C, 32 C, 33 C, 34 C, 34 C, 35 C, 31 C, 31 C, 32 C,
32 C, 33 C, 33 C, 31 C, 32 C, 32 C, 33 C, 33 C, 34 C.

Calcular:
1. Moda
2. Mediana
3. Media
4. Rango
5. Desviacin tipica
6. Construir un diagrama de barras y un polgono de frecuencias.
Taller 1

Estos son datos cualitativos o cuantitativos?


Cul es la variable de inters?
Comente la tendencia de las ganancias de Volkswagen a lo largo del
tiempo. El artculo BusinessWeek (26 de dic de 2005) estim las
ganancias en 2006 en 600 millones o 0.6 mil millones, Indica la figura si
esta estimacin parece razonable?
Taller 1
En una muestra con cinco calificaciones de los estudiantes en un
determinado examen los datos fueron: 72, 65, 82, 90, 76. Cules de las
afirmaciones siguientes son correctas y cules deben cuestionarse como
una generalizacin excesiva?

1. La calificacin promedio de este examen en la muestra de las


calificaciones de cinco estudiantes es 77
2. La calificacin promedio de todos los estudiantes en este examen es
77.
3. Una estimacin para la calificacin promedio de todos los
estudiantes que hicieron el examen es 77.
4. Ms de la mitad de los estudiantes que hicieron en examen tendrn
calificaciones entre 70 y 85.
5. Si se incluyen en la muestra otros cinco estudiantes, sus calificaciones
estarn entre 65 y 90
Taller 1
Un restaurante de Florida emplea cuestionarios en los que pide a sus
clientes que evalen el servicio, la calidad de los alimentos, los cocteles,
los precios y la atmsfera del restaurante. Cada uno de estos puntos se
evala con una escala de ptimo (O), muy bueno (V), bueno (G),
regular(A) y malo (P). Emplee la estadstica descriptiva para resumir los
datos siguientes respecto a la calidad de los alimentos. Qu piensa
acerca de la evaluacin de la calidad de los alimentos de este
restaurante?
GOVGAOVOVGOVA
VOPVOGAOOOGOV
VAGOVPVOOGOOV
OGAOVOOGVAG

Você também pode gostar