Estadística Descriptiva V2.0

Mtra. Laura G. Zúñiga F.
lgzuniga@anahuac.mx
5627-0210 ext. 8423
 Este es un curso de estadística aplicada por lo
que utilizaremos como herramienta Excel.
 La orientación del curso es hacia el análisis
de los resultados obtenidos a través de la
aplicación de los métodos estadísticos, y la
toma de decisiones a partir de datos duros.
1. Introducción
2. Estadística Descriptiva:
a) Tablas de Frecuencia
b) Métodos Gráficos
c) Métodos Numéricos
a)Medidas de Tendencia Central
b)Medidas de Posición
c)Medidas de Dispersión
d)Medidas de Forma
3. Probabilidad
a) Generalidades
b) Esperanza Matemática
c) Distribución Binomial
d) Distribución Poisson
e) Distribución Normal
4. Estadística Inferencial:
a) Estimación
a) Intervalo de Confianza
b) Tamaño de muestra
b) Prueba de Hipótesis
5. Regresión Lineal Simple
 Participación 5%
 Tareas (8) 30%
 Examen parcial 25%
 Examen final 40%
100%
 “La Estadística estudia métodos científicos
para recoger, organizar, resumir y analizar
datos, así como para sacar conclusiones
válidas y tomar decisiones razonables
basadas en tal análisis”
Murray R. Spiegel
 En un estudio estadístico se analiza el
comportamiento de una población.
 La población es el conjunto de todas las
mediciones de interés al experimentador.
 Su tamaño se denota con la letra N.
 Esto es laborioso y costoso (censo), por lo
que se prefiere estudiar una muestra.
 La muestra es un subconjunto de la
población.
 La muestra generalmente se selecciona
aleatoriamente, cada individuo en la
muestra tuvo la misma posibilidad de haber
sido seleccionado.
 La muestra debe ser representativa de la
población.
 Su tamaño se denota con la letra n (función
de Excel: CONTAR (COUNT)).
 Este curso no abarca muestreo (técnicas de
selección de muestras)
 La mayoría de las aplicaciones en su área de
estudio no requiere muestreo: bases de datos
oficiales (Banxico, INEGI, CNBV, etc.) o
empresariales
 En caso de requerirlo, una empresa
especializada puede recabar la información
 La información recabada se organiza:
◦ En arreglos tabulares llamados Tablas de
Frecuencia
◦ De manera gráfica
 A través de valores numéricos que
caracterizan a la muestra:
◦ Valor promedio
◦ Dispersión
◦ Etc.
 Estas características permiten analizar el
comportamiento “típico” de cada muestra.
 Estadística Descriptiva o Deductiva: estudia
los métodos para organizar, sumarizar y
describir un conjunto de datos para que
sus características se vuelvan evidentes. Se
divide en:
◦ Técnicas Gráficas
◦ Técnicas Numéricas.
 Estadística Inferencial o Inductiva: usa la
teoría de probabilidades para generalizar
las características de una población a partir
de las características de una muestra
representativa. Es decir, utiliza estadísticas
muestrales para obtener conclusiones
sobre los verdaderos parámetros de la
población.
 Lo más importante no está en lo que la
muestra nos dice sobre sus miembros
específicos, sino en cómo hacer
inferencias sobre los miembros de la
población que no fueron incluidos en la
muestra.
 Parámetro Pobacional: es un valor
numérico que caracteriza cierta población.
 Estadístico Muestral: es un valor numérico
que caracteriza cierta muestra.
 Se busca estimar el verdadero valor del
parámetro a través de un estadístico.
 A los diferentes fenómenos o
características que se miden en un estudio
estadístico se les denomina variables
aleatorias.
 La diferencia entre variables aleatorias y
variables algebraicas es que nos interesa
saber la probabilidad de ocurrencia de sus
posibles valores antes de que estos
valores sean observados.
Cualitativos
Datos
Discretos
Cuantitativos
Continuos
 Cualitativos:
◦ Arrojan respuesta categóricas.
◦ Miden cualidades
◦ Se les puede asignar después un valor
numérico (codificarlas)
 Cuantitativos:
◦ Producen respuestas numéricas.
◦ Miden cantidades
◦ Podemos tratar un dato cuantitativo como
cualitativo (categorizando)
 Discretos:
◦ Si el número de posibles valores que puede
tomar es contable (número naturales).
◦ Generalmente resultan de un proceso de
conteo
 Continuos:
◦ Si sus posibles valores están en el continuo
(números reales).
◦ Generalmente resultan de un proceso de
medición
 Sirven para organizar los datos
recopilados en la muestra.
 Estas tablas enumeran:
◦ Las clases o categorías de respuesta de donde
se obtuvieron los datos (o los intervalos de
clase si los datos son cuantitativos)
◦ El número o proporción de veces que la clase
se encontró en los datos recopilados.
 Frecuencia (f): Resulta de contar el
número de observaciones que "entran"
en una clase
 Frecuencia Relativa (fr): Es la proporción
de observaciones que "entran" en una
clase:
fi
fri 
n
Puesto en la Número de Porcentaje
empresa ocurrencias (frecuencia
(clase) (frecuencia f) relativa fr)
Secretarial 22 22 %
Analista 45 45 %
Sub-Gerente 20 20 %
Gerente 8 8%
Directivo 5 5%
Total 100 personas 100 %
 Frecuencia Acumulada (fa): Es el número
de observaciones acumuladas hasta la
clase de referencia:
i
fa i   f j
j1
 Frecuencia Relativa Acumulada (fra): es
la proporción de observaciones
acumuladas hasta la clase de referencia:
i
fari   frj
j1
Puesto en la Número de Frecuencia
empresa ocurrencias acumulada
(clase) (frecuencia f) fa
Secretarial 22 22
Analista 45 67
Sub-Gerente 20 87
Gerente 8 95
Directivo 5 100
Total 100 personas
 Las clases están compuestas por
intervalos de valores (intervalos de clase).
 Se busca que la tabla de frecuencia
cumplan con:
◦ Iniciar en el valor más pequeño de la muestra
(el mínimo)
◦ Terminar en el valor más grande de la muestra
(el máximo)
◦ Tener todos la misma amplitud y ser
mutuamente excluyentes.
 Para construir los intervalos de clase:
1. Definir el número de intervalos de

clase (k):
◦ Se aconsejan entre 6 y 15 intervalos
◦ Elegir el menor número k tal que 2k>n
◦ Ej: si n=42 tenemos que:
1 2 3 4 5 6
2 =2 ; 2 =4 ; 2 =8 ; 2 =16 ; 2 =32 ; 2 =64
Por lo tanto, el número de clases k=6
2. Determinar el ancho del intervalo
de clase:
Primero se calcula el rango, que es
la diferencia entre el valor mas
grande y el mas pequeño.
Rango = max - min
(función de Excel: MAX y MIN).
Rango = 31975.47-17752.18
Rango = 14223.29
Posteriormente, se calcula el ancho
(i) como:
i = rango/k
Este resultado se redondea hacia
arriba
(función de Excel: REDONDEAR.MAS
(ROUNDUP)).
i = 14223.29 / 6 = 2370.5483
REDONDEAR.MAS(i,2) = 2370.55
3. Se construyen los intervalos de
clase siguiendo los siguientes
lineamientos:
El primer límite inferior:
LI1 = min = 17752.18
Los siguientes límites superiores:
LIk = LIk-1+ i
LI2 = LI1+ i = 17752.18 + 2370.55
= 20122.73
Cualquier límite superior es:
LSk = LIk+1
Internamente, para mantener la
mutua exclusión, Excel toma estos
límites como si llegaran a una
“unidad”
LI anterior. LS
17752.18 20122.73 - 0.01 = 20122.72
20122.73 22493.28 – 0.01 = 22493.27
4. Habilitar el módulo de ANÁLISIS DE
DATOS. Esto se hace una sola vez.
En Excel 97-2003:
◦ Herramientas (Tools)
◦ Complementos (Adds-In)
◦ Palomeo “Herramientas para Análisis”
(Analysis Toolpack)
En Excel 2007 y Vista:
◦ En el ícono de Microsoft seleccionar
Opciones de Excel (Excel Options)
◦ Seleccionar Complementos (Adds Ins)
◦ Seleccionar “Herramientas para Análisis”
(Analysis ToolPak) y pulsar IR (Go)
◦ Palomear “Herramientas para Análisis”
(Analysis ToolPak) y pulsar ACEPTAR (Ok)
5. Se construye la tabla de frecuencias
a través de la subrutina
HISTOGRAMA.
En Excel 97-2003:
◦ Menú Herramientas (Tools)
◦ Análisis de Datos (Data Analysis)
◦ Histograma (Histogram):
 Seleccionar la muestra de datos como “Rango
de Entrada” (Input Range)
 Seleccionar los límites superiores como
“Rango de Clases” (Bin Range)
En Excel 2007 y Vista:
◦ Menú Datos (Data)
◦ Histograma (Histogram):
 Seleccionar la muestra de datos como “Rango
de Entrada” (Input Range)
 Seleccionar los límites superiores como
“Rango de Clases” (Bin Range)
 Conclusiones:
a. Los datos de la muestra están ordenados
de menor a mayor
b. Lo más frecuente es observar un valor
entre ...
c. Lo menos frecuente es que el valor esté
entre ...
d. Etc.
 Al crear la tabla de frecuencia perdemos
la información original de la muestra.
 La Marca de Clase es el punto medio del
intervalo de clase. Se usa en los métodos
estadísticos como valor estimado de las
observaciones que cayeron dentro de
ese intervalo
LIi  LSi
Xi 
2
 La información de la tabla de frecuencia
se puede graficar de muchas maneras.
 Las más importantes gráficas:
◦ Pie
◦ Barras
◦ Histograma
◦ Polígono
 Se usa con datos cualitativos o
cuantitativos.
 A través de una regla de tres , un círculo
se divide en sectores o “rebanadas”.
gradosi = fri x 360
 Cada “rebanada” representa la
proporción de datos contenidos en una
clase de la tabla de frecuencia.
 Se recomiendan pocas “rebanadas”.
 Para realizar esta gráfica en Excel:
◦ Seleccionar la frecuencia de la tabla
◦ Acceder al asistente para gráficas en Excel
97-2003:
 Seleccionar una gráfica circular
 Colocar los rótulos de categoría:
 La Clase, si la variable es cualitativa
 La Marca de clase, si la variable es cuantitativa
 Colocar los rótulos de datos en “porcentaje”
◦ En Excel 2007 y Vista acceder a Insertar
(Insert):
 Seleccionar una gráfica circular
 Editar los datos correspondientes al eje X, en
Seleccionar Datos y capturando:
 La Marca de clase, si la variable es cuantitativa
 Colocar los rótulos de datos en “porcentaje” a
través de los formatos preestablecidos (Diseño
6).
Precio de Cemex CPO
7%
21%
10.4901
15.6625
2% 20.8349
36%
5% 26.0073
31.1797
36.3521
29%
 Conclusiones:
de menor a mayor
b. Lo más frecuente (36%) es observar un
precio de entre 28.5935 y 33.7658 pesos
por CPO.
c. Lo menos frecuente (2%) es que el CPO
cueste entre 13.0763 y 18.2486 pesos.
d. Etc.
 Se usa con datos cualitativos o
cuantitativos.
 Se puede hacer con la frecuencia o con
la frecuencia relativa.
 Se grafican rectángulos sobre un “eje
cartesiano” en donde cada rectángulo
representa a cada clase en la tabla de
frecuencia.
◦ Se puede graficar al crear la tabla de
frecuencias a través de la subrutina
HISTOGRAMA en Excel palomeando la casilla
“Crear gráfico” (Chart Output).
En esta gráfica Excel utiliza como rótulo para
eje X los límites superiores que se muestran
en la tabla.
Precio de Cemex CPO
16
14
12
10
Frecuencia
8
Frecuencia
0
Clase
 Conclusiones:
a. Lo más frecuente (38%) es observar un
precio de entre 45.72 y 61.05 dólares.
b. Lo menos frecuente es que el petróleo
cueste entre 91.73 y 107.07 dólares.
c. Etc.
 Conclusiones:
de menor a mayor
b. Lo más frecuente es observar un precio de
entre 28.5935 y 33.7658 pesos por CPO.
c. Lo menos frecuente es que el CPO cueste
entre 13.0763 y 18.2486 pesos.
d. Etc.
 También se puede realizar esta gráfica
1. Seleccionar la frecuencia (o la frecuencia
relativa) de la tabla
2. Llamar al asistente para gráficos en Excel
97-2003 (o Insertar en Excel 2007 y
Vista):
◦ Seleccionar una gráfica de columnas (o de
barras)
◦ Colocar los rótulos de categoría (o editar
los valores de X), capturando:
 La Marca de clase, si es cuantitativa
◦ Colocar los rótulos de datos en “valor”
Precio de Cemex CPO
16
15
14
12
12
10
9
8
Series1
4
3
2
2
1
0
10.4901 15.6625 20.8349 26.0073 31.1797 36.3521
 Con este gráfico también nos podemos
dar una idea de la existencia de asimetría
o sesgo en la distribución de frecuencias
de los datos de la muestra.
 El sesgo es el grado de asimetría que tiene

la distribución de frecuencias.
 Una curva insesgada no tiene sesgo
 A medida que se aleja de ésta forma, la
distribución presenta sesgo:
◦ Si la mayor acumulación de frecuencias
es a la izquierda, tiene sesgo positivo o a
la derecha.
◦ Si la mayor acumulación de frecuencias
es a la derecha, tiene sesgo negativo o a
la izquierda.
16
14
12
10
0
1 2 3 4 5 6 7
18
16
14
12
10
0
1 2 3 4 5 6
18
16
14
12
10
0
1 2 3 4 5 6
 Es exclusiva para datos cuantitativos.
 Se grafican rectángulos sobre el eje
cartesiano en donde el área de cada
rectángulo representa
proporcionalmente a cada intervalo de
clase en la tabla de frecuencia.
 Sirve para comparar las magnitudes
representadas en cada intervalo de clase.
 Para realizar esta gráfica en Excel,
◦ Se hace la gráfica de Barras
◦ Ya en la gráfica, reducir la distancia entre barras
a cero:
 Pulsar botón derecho sobre alguna columna
 Seleccionar Formato de Serie de Datos (Format
Data Series)
 En Excel 97-2003: En la pestaña de Opciones (Options)
reducir el “ancho del rango” (Gap Width) a cero.
 En Excel 2007 y Vista: Reducir el “ancho del intervalo” (Gap
Width) a cero.
NOTA: Este procedimiento es válido solo cuando la amplitud es la misma para
cualquier intervalo de clase en la tabla de frecuencias.
Precio de Cemex CPO
16
15
14
12
12
10
9
8
Series1
4
3
2
2
1
0
10.4901 15.6625 20.8349 26.0073 31.1797 36.3521
 Es exclusiva para datos cuantitativos.
 Es una gráfica de punto y línea sobre el
eje cartesiano.
 Sirve para observar la forma de la
distribución de frecuencias.
 Lo importante en el polígono es
mantener el área bajo la curva igual al
área acumulada en el histograma. Para
esto:
◦ Añadir una clase anterior a la primera
(restando la amplitud)
◦ Añadir una clase posterior a la última
(sumando la amplitud)
◦ Adjudicar a ambas clases una frecuencia
igual a cero
◦ Graficar utilizando todas las clases,
incluyendo las añadidas.
◦ Seleccionar la frecuencia o frecuencia relativa
de la tabla (ampliada)
◦ En Excel 97-2003 acceder al asistente para
gráficas:
 Seleccionar una gráfica de dispersión XY, que
muestre los puntos unidos por líneas.
 En la pestaña de Serie (Series), selecciono las
marcas de clase como “valores de X”
 Coloco como Rótulo de Datos (Data Label) los
“valores de Y”.
NOTA: Este procedimiento es válido solo cuando la amplitud es la

misma para cualquier intervalo de clase en la tabla de
frecuencias.
◦ En Excel 2007 y Vista acceder Insertar
(Insert):
 Seleccionar una gráfica de dispersión XY, que
muestre los puntos unidos por líneas.
 Editar los datos seleccionando las marcas de clase
como “valores de X”
 Pulsar el botón derecho estando sobre la gráfica y
seleccionar “Agregar Etiquetas de Datos”.
NOTA: Este procedimiento es válido solo cuando la amplitud es la

misma para cualquier intervalo de clase.
Precio de Cemex CPO
16 15
14
12
12
10 9
8
Frecuencia
4 3
2
2 1
0 0
0
- 5.0000 10.0000 15.0000 20.0000 25.0000 30.0000 35.0000 40.0000 45.0000
 Son métodos estadísticos que ayudan a
caracterizar a una muestra.
 Algunas de las más importantes medidas
son:
◦ Tendencia Central
◦ Posición
◦ Dispersión
◦ Dispersión Conjunta
◦ Forma
 Para calcular todas estas medidas en
Excel 97-2003:
 Acceder a la subrutina Estadística
Descriptiva del módulo de Análisis de
Datos:
◦ Herramientas (Tools)
◦ Estadística Descriptiva (Descriptive
Statistics):
 Seleccionar a los datos de la muestra como
“rango de entrada” (Input Range)
 Seleccionar la opción “Resumen de
Estadísticas” (Summary statistics)
 Para calcular todas estas medidas en
Excel 2007 y Vista:
◦ En el menú de Datos (Data)
◦ Selecciono Análisis de Datos (Data
Analysis)
◦ Selecciono Estadística Descriptiva
(Descriptive Statistics):
 Selecciono a los datos de la muestra como
“rango de entrada” (Input Range)
 Selecciono la opción “Resumen de
Estadísticas” (Summary statistics)
 Estas medidas caracterizan a la región
central de la distribución de frecuencias.
 Las principales son:
◦ Moda
◦ Mediana
◦ Media Aritmética
◦ Media aritmética ponderada
◦ Media Geométrica
 La moda es el valor más frecuente en la
muestra, el que se observa mayor
número de veces.
 Pueden existir varios o ningún valor
modal, la distribución puede ser:
 Amodal: cuando ningún valor se repite
 Unimodal: cuando un solo valor es el más
frecuente
 Bimodal: cuando dos valores son los más
frecuentes
 trimodal,...., polimodal
 En Excel se utiliza la función MODA
(MODE)
 Excel siempre ofrece como resultado un
único valor modal.
 Si la distribución tiene más de un valor
modal, se debe buscar a través de algún
otro mecanismo (ordenando los datos,
haciendo un filtro, haciendo una tabla
dinámica, etc.)
 La mediana se define como el valor
central.
 Es el valor que delimita al 50% de los
datos (siempre acumulándolos de menor
a mayor).
 En Excel se utiliza la función MEDIANA
(MEDIAN).
 La media aritmética es el promedio de
los datos.
N n
X i X i
= i1
X= i1
N n
 El promedio significa que se está
repartiendo por partes iguales el total
(acumulado).
 En Excel se utiliza la función PROMEDIO
(AVERAGE).
 En una
INSESGADA
distribución (SIMÉTRICA)
simétrica, la tres Moda = Mediana = Media Aritmética
medidas de
tendencia central
se ubican en el
mismo lugar
 Con sesgo
positivo o a la SESGO POSITIVO
derecha, el valor
(A LA DERECHA)
Moda < Mediana < Media Aritmética
más pequeño
corresponde a la
moda, le sigue la
mediana y el más
grande será la
media aritmética.
 Con sesgo
negativo o a la SESGO NEGATIVO
izquierda, la (A LA IZQUIERDA)
medida más Media Aritmética < Mediana < Moda
pequeña es la
media
aritmética,
seguida por la
mediana y la
más grande es la
moda.
Precio de Cemex CPO
16 15
14
12
12 Cemex cpo
10 9
8
Media 25.0132167
6
Mediana 27.57925
4
Moda 28.9748
3
2
2 1
0 0
0
- 5.0000 10.0000 15.0000 20.0000 25.0000 30.0000 35.0000 40.0000 45.0000
 Entonces, en cualquier distribución
unimodal se podrá observar que:
Simetría Relación
simétrica o insesgada Moda = Mediana = Media
sesgo positivo o a la Moda < Mediana < Media

derecha
sesgo negativo o a la Moda > Mediana > Media
izquierda
 A diferencia de la media aritmética, en la
media aritmética ponderada se adjudica
diferente “importancia” (wi) a cada uno de
los datos a promediar (Xi).
n
w X
i1
i i
Xp = n
w
i1
i
 La wi puede tomar valores enteros o

decimales. Su suma puede ser diferente
de 1.
 El factor de crecimiento o variación de la
variable X se calcula:
Xt
Yt   1 f 
X t 1
 La tasa de crecimiento o variación
porcentual de la variable X se calcula al
restar 1 al factor de crecimiento:
Xt
f  Yt  1  1
X t 1
 La media geométrica es el factor de
crecimiento promedio.
G  n Y1Y2  Yn
 
 n 1 f1 1 f2 1 fn   1 f
 Por lo que la tasa de crecimiento
promedio de la variable X es:
f  G -1
f  n 1 f1 1 f2 ...1 fn   1
 La media aritmética siempre es mayor
que la geométrica:
XG
 En Excel se utiliza la función
MEDIA.GEOM (GEOMEAN), utilizando
como argumentos los factores de
crecimiento de la variable (1+f)
 Entonces, para calcular la tasa promedio
de crecimiento, al resultado de
MEDIA.GEOM se le resta 1.
 Si se cuenta con los datos de X, la media
geométrica se puede calcular:
G  n Y1Y2 Yn  n (1 f1 )(1 f2 )(1 fn )

X1 X 2 X3 Xn
Gn    
X0 X1 X 2 Xn-1
Xn
Gn
X0
 Una medida de posición es el valor de la
variable aleatoria hasta donde se
acumula p% de las observaciones de la
muestra.
 La mediana es una medida de posición
porque acumula el 50% de las
observaciones de la muestra a su
izquierda (y a su derecha).
 Siempre acumulamos de izquierda a derecha
p%, lo que deja a la derecha (1-p)%
Frecuencia
(1-p)%
p%
Valor de X
 Las medidas de posición reciben
diferentes nombres en función del
número de porciones de p% en que se
puede particionar la distribución de
frecuencias:
◦ Cuartiles: Son cuatro y delimitan al 25%,
50%, 75% y 100% de los datos
acumulados.
En Excel: función CUARTIL (QUARTILE) a
la que hay que darle los datos y el
número de cuartil que se desea calcular.
16
14
12
10
4
25% 25%
25% 25%
0
0 1 2 3 4 5 6 7 8 9 10
Q1 Q2 Q3
Precio de Cemex CPO
16 15
14
12
12 Cemex cpo
10 9
8
C1 20.06735
6 25% C2 27.57925
4
C3 31.0011
3
2 25%
2 25% 1
0
25% 0
0
- 5.0000 10.0000 15.0000 20.0000 25.0000 30.0000 35.0000 40.0000 45.0000
◦ Deciles: Son diez y delimitan al 10%, 20%,
..., 100% de los datos acumulados.
◦ Quintiles: Son cinco y delimitan al 20%,
40%, ... , 100% de los datos acumulados.
◦ Percentiles: Son cien y delimitan al 1%,
2%, ... , 100% de los datos acumulados.
En Excel: función PERCENTIL a la que hay
que darle los datos y la proporción
(decimal) que se desea acumular a la
izquierda de la distribución.
Precio de Cemex CPO
16 15
14
12
12
Cemex cpo
10 9
8 P 80 31.61092
4 3
2 80%
2 1
0
20% 0
0
- 5.0000 10.0000 15.0000 20.0000 25.0000 30.0000 35.0000 40.0000 45.0000
 Estas medidas caracterizan a la
distribución de frecuencias en función
de la gama posible de los valores que
puede tomar la variable aleatoria.
 Las principales medidas son:
◦ Rango
◦ Varianza y Desviación Estándar
◦ Coeficiente de Variación
 Es la diferencia que existe entre el valor
mas grande y el mas pequeño.
rango = max - min
 El rango nos habla de la distancia que
separa a los valores más extremos de la
variable aleatoria.
 Cuando existen valores extremos, no es
conveniente utilizar esta medida de
dispersión.
Precio de Cemex CPO
16 15
14
12
12
Cemex cpo
10 9
8 rango 31.0343
6
4 3
2
2 1
0 0
0
- 5.0000 10.0000 15.0000 20.0000 25.0000 30.0000 35.0000 40.0000 45.0000
16
14
12
10
0
0 1 2 3 4 5 6 7 8 9 10
 La curva rosa tiene el mismo rango que
la curva azul:
rango = 9 – 1 = 8
 Sin embargo, la curva azul tiene valores
extremos por lo que su rango debería de
ser más pequeño (centrado).
rango = 7 – 3 = 4
 ¿Qué podemos hacer?
 La varianza es el promedio de los
cuadrados de las distancias de los datos
a su media aritmética.
N n
 X  X   X  X 
2 2
i i
2 = i1
S2 = i1
N n -1
 La función de Excel que se utiliza es
VARP para la varianza poblacional y VAR
para la varianza muestral.
 En el proceso de inferencia, la varianza
muestral no es un buen estimador
poblacional, a menos que la muestra sea
“grande” (ley de los grandes números).
 La varianza muestral es un estimador
insesgado, funciona para cualquier
tamaño de muestra. Por esta razón se
prefiere utilizar siempre la varianza
muestral.
16
14
12
10
0
0 1 2 3 4 5 6 7 8 9 10
X1 X X2
 En una distribución simétrica, la media
aritmética coincide con la moda.
 El rango a la media aritmética puede ser
positivo o negativo:
(X1 – X) = (2 – 5) = -3
(X2 – X) = (7 – 5) = 2
 Al sumar estos rangos a la media, las
cantidades negativas se cancelan con las
positivas.
 Para evitar que el resultado de la suma
sea cero, se elevan al cuadrado los
rangos a la media:
(X1 – X)2 = (2 – 5) 2 = -32 = 9
(X2 – X)2 = (7 – 5) 2 = 22 = 4
 Al elevar al cuadrado también se tiene
un efecto de ponderación en los rangos,
dando más importancia a las distancias
grandes (alejadas de la media).
 Al ponderar, es menos importante el que
la distribución sea simétrica.
 Como el resultado de la varianza esta
2
expresado en unidades , necesitamos
sacar raíz cuadrada.
 La desviación estándar es la raíz
cuadrada positiva de la varianza.
  2
S S 2
◦ En Excel utilizamos la función DESVESTP

para la poblacional y DESVEST para la
muestral.
 La desviación estándar mide la variación
de los datos en términos absolutos.
 Se interpreta como la distancia promedio
de los datos a su media aritmética.
 Se expresa en las mismas unidades que
las empleadas en los datos.
Precio de Cemex CPO
16 15
14
12
12
Cemex cpo
10 9
8 Media 25.0132167
Desviación
6
estándar (S) 8.71114436
Varianza de la
4 3 muestra (S2) 75.884036
2
2 1
0 0
0
- 5.0000 10.0000 15.0000 20.0000 25.0000 30.0000 35.0000 40.0000 45.0000
16.3020723 33.724361
 Para interpretar la dispersión absoluta,
se construyen intervalos alrededor del
promedio. Con esto se determina en
dónde se sitúan los valores de una
distribución de frecuencia en relación
con la media aritmética. Esto se puede
lograr utilizando:
◦ Teorema de Chebyshev
◦ Regla Emprírica
 Se puede utilizar sin importar cuál es la
forma de la distribución de frecuencias.
 Este teorema garantiza una proporción
mínima de los valores (población) de la
variable aleatoria que se encuentran
contenidos en un intervalo alrededor de
la media aritmética de la distribución.
 El intervalo se construye sumando y
restándole a la media un “cachito” de la
desviación estándar.
 k es la proporción o “cachito” de
desviación estándar que utilizaremos
para construir el intervalo alrededor de
la media aritmética.
X  kS
 A mayor tamaño de k, el intervalo estará
más abierto y mayor proporción de
valores de la variable estarán contenidos
en él.
 Chebyshev propone:
1
proporción  1 2
k
 Por ejemplo: si deseamos un intervalo en
donde estén contenidos al menos el 80%
de los valores de la variable aleatoria:
1
0.80  1 2
k
 Despejando la k:
1
k  2.2360
1- 0.80
 Entonces, el intervalo es:
X  kS  25.01 2.2360  8.71

 25.01  2.2360  8.71 , 25.01  2.2360  8.71
 5.5351 , 44.4913 
que son los límites inferior y superior del
intervalo en donde se encuentran
contenidos al menos el 80% de los
valores posibles de la variable aleatoria,
sin importar la forma de la distribución
de frecuencias.
Precio de Cemex CPO
16 15
14
12
12
Cemex cpo
10 9
8 Media 25.0132167
Desviación
6
estándar (S) 8.71114436
Varianza de la
4 3 muestra (S2) 75.884036
2
2 1
0 Al menos el 80% 0
0
- 5.0000 10.0000 15.0000 20.0000 25.0000 30.0000 35.0000 40.0000 45.0000
5.53509788 44.4913355
 Solo se utiliza cuando la forma de la
distribución de frecuencia es simétrica,
porque se basa en la distribución de
probabilidad Normal.
 Esta regla define tres intervalos de
valores para la variable aleatoria:
1. Aproximadamente el 68% de los datos
(población) se encuentran contenido a
una desviación estándar alrededor de la
media: (X ± 1S)
media: (X ± 2S)

media: (X ± 3S)
16
14
12
10
0
0 1 2 3 4 5 6 7 8 9 10
LI X LS
 El coeficiente de variación mide la
variación relativa de la variable con
respecto a su media aritmética.
 Se utiliza para comparar la dispersión de
dos distribuciones de frecuencia.
 Expresa a la variación de los datos como
porcentaje de su promedio.
S
CV =
X
IPC Cemex cpo
Media 25221.9852 Media 25.0132167

Error típico 716.832712 Error típico 1.34415876
Mediana 25626.5 Mediana 27.57925
Moda #N/A Moda 28.9748
Desviación estándar 4645.60693 Desviación estándar 8.71114436
Varianza de la muestra 21581663.8 Varianza de la muestra 75.884036
Curtosis -1.54813908 Curtosis -0.54890617
Coeficiente de asimetría -0.11041989 Coeficiente de asimetría -0.8137902
Rango 14223.29 Rango 31.0343
Mínimo 17752.18 Mínimo 7.9039
Máximo 31975.47 Máximo 38.9382
Suma 1059323.38 Suma 1050.5551
Cuenta 42 Cuenta 42
CV 0.18418879 0.34826166
 Estas medidas nos dan una idea sobre la
forma y la magnitud de la relación entre
dos variables aleatorias.
 Son:
◦ Covarianza
◦ Coeficiente de Correlación
 La covarianza nos dice de qué manera
"varían" conjuntamente dos variables
aleatorias.
 La covarianza poblacional se calcula:
n
 X μ Y μ 
i1
i X i Y
σ XY =
n
 Esta función estima sesgadamente la
covarianza si el tamaño de la muestra no
es suficientemente grande.
 Por esta razón es mejor utilizar la
covarianza muestral:
 X  XY Y 
n
i i
i1
S XY =
n -1
 En Excel se calcula con la función
COVAR:
◦ Matriz 1: son los datos de la variable X
◦ Matriz 2: son los datos de la variable Y
 En esta función, el orden de las variables
no altera el resultado final.
 El valor de la covarianza no se puede
interpretar porque, al igual que la
desviación estándar, depende de la
magnitud de los valores de las variables.
 Lo que interpretamos es su signo:
Covarianza Significado
=0 No hay relación entre las variables
>0 La relación es directa (mismo sentido)
<0 La relación es inversa (sentidos opuestos)
 El coeficiente de correlación cuantifica la
magnitud de la relación (lineal) que
existe entre dos variables aleatorias, X y
Y.
 XY S XY
 XY = rXY =
 X Y S XS Y
 Calcula la proporción que guarda la
variación conjunta con respecto al
producto de la dispersión individual.
 Toma valores entre -1 y +1.
 Lo utilizamos para interpretar el valor de
la covarianza:
Correlación Significado
=0 No hay relación entre las variables
>0 La relación es directa (mismo sentido) y
de la magnitud que indique su valor.
<0 La relación es inversa (sentidos opuestos)
y de la magnitud que indique su valor.
 Excel calcula el coeficiente de
correlación poblacional a través de la
función COEF.DE.CORREL (CORREL):
◦ Matriz 1: son los datos de la variable X
◦ Matriz 2: son los datos de la variable Y
 En esta función, el orden de las variables

no altera el resultado final.
Covarianza (IPC, Cemex)= 20026.1915
Covarianza positiva relación directa
Correlación (IPC, Cemex)= 0.50692782

Correlación relación media y directa
 Las medidas de forma son:
◦ Sesgo
◦ Curtosis
 El sesgo es el grado de asimetría que
tiene la distribución
 Una curva simétrica tiene sesgo cero
 Medimos en cuánto se aleja la
distribución de una simétrica o
insesgada:
◦ Si el polígono de frecuencias tiene la
mayor acumulación a la izquierda, tiene
sesgo positivo o a la derecha.
◦ Si el polígono de frecuencias tiene la
mayor acumulación a la derecha, tiene
sesgo negativo o a la izquierda
SESGO INSESGADA SESGO
POSITIVO (SIMÉTRICA) NEGATIVO
 En Excel se utiliza la función
COEFICIENTE.ASIMETRIA (SKEW)
Coeficiente de Sesgo
Asimetría
=0 No hay sesgo.
La distribución es insesgada
>0 La distribución tiene sesgo
positivo o a la derecha.
<0 La distribución tiene sesgo
negativo o a la izquierda.
 La curtosis mide qué tan “puntiaguda” es
una distribución, con respecto a la
Normal.
◦ La distribución Normal se considera
mesocúrtica, es el término medio.
◦ Las distribuciones mas puntiagudas que
la Normal se llaman leptocúrticas
◦ Las distribuciones menos puntiagudas
que la Normal se conocen como
platocúrticas
Leptocúrtica
Mesocúrtica
Platocúrtica
 En Excel utilizamos la función CURTOSIS
(KURT)
Función Curtosis Curtosis
=0 Mesocúrtica (Normal)
>0 Leptocúrtica (Alta)
<0 Platocúrtica (Chaparra)

Precio de Cemex CPO
16 15
14
12
12
Cemex cpo
10 9
8 Curtosis -0.54890617
Coeficiente
6
de asimetría -0.8137902
4 3
2
2 1
0 0
0
- 5.0000 10.0000 15.0000 20.0000 25.0000 30.0000 35.0000 40.0000 45.0000

Estadística Descriptiva V2.0

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Estadística Descriptiva V2.0

Enviado por

Direitos autorais:

Formatos disponíveis

Mtra. Laura G. Zúñiga F.

1. Definir el número de intervalos de

 El sesgo es el grado de asimetría que tiene

NOTA: Este procedimiento es válido solo cuando la amplitud es la

NOTA: Este procedimiento es válido solo cuando la amplitud es la

medida más Media Aritmética < Mediana < Moda

sesgo positivo o a la Moda < Mediana < Media

 La wi puede tomar valores enteros o

G  n Y1Y2 Yn  n (1 f1 )(1 f2 )(1 fn )

◦ En Excel utilizamos la función DESVESTP

X  kS  25.01 2.2360  8.71

3. Aproximadamente el 99% de los datos

Media 25221.9852 Media 25.0132167

 En esta función, el orden de las variables

Correlación (IPC, Cemex)= 0.50692782

>0 Leptocúrtica (Alta)

<0 Platocúrtica (Chaparra)

Você também pode gostar