Você está na página 1de 39

Estadı́stica Descriptiva

Estadı́stica Descriptiva
Estadı́stica

Área de Estadı́stica

Departamento de Ciencias Básicas y Modelado


Facultad de Ciencias Naturales e Ingenierı́a
Universidad Jorge Tadeo Lozano
Estadı́stica Descriptiva
Medidas de tendencia central

Medidas de tendencia central

El objetivo es determinar un punto de balance alrededor del cual se


encuentran las observaciones

· Promedio (Media) aritmético


· Mediana
· Moda
Cada una de estas medidas tiene una utilidad particular que
depende de las circunstancias
Estadı́stica Descriptiva
Medidas de tendencia central
Promedio (Media) aritmético

Promedio (Media) aritmético

El promedio es un valor que balancea las distancias a todas las


observaciones. El promedio aritmético de un conjunto de
observaciones es igual a la suma de los valores de las observaciones
dividido en el número de observaciones
N
P
xi
i=1
Promedio poblacional: µ =
N
n
P
xi
i=1
Promedio muestral: X =
n
Estadı́stica Descriptiva
Medidas de tendencia central
Promedio (Media) aritmético

Caracterı́sticas

· La media aritmética se expresa en las mismas unidades de


medida de los datos originales

· La sumatoria de las diferencias entre la media aritmética y


cada uno de los datos es cero

· La precisión de la media dependerá de la representatividad de


la muestra

· La media de una muestra tiende, en general, a tener valores


diferentes cuando se calcula con diferentes muestras de un
mismo tamaño y de la misma población

· La media aritmética se ve afectada por valores extremos


dentro del conjunto de datos
Estadı́stica Descriptiva
Medidas de tendencia central
Promedio (Media) aritmético

Ejemplo
x: dinero semanal invertido en fotocopias por estudiantes de
ciencias
n = 14 estudiantes
x = 3000, 3200, 3900, 3300, 4500, 3500, 3200, 5800, 1800, 7600,
4100, 3000, 9600, 3200

n
P
xi
i=1 3000 + 3200 + 3900 + 3300 + 4500 + 3500 + 3200 + 5800 + 1800 + 7600 + 4100 + 3000 + 9600 + 3200
x = =
n 14

n
P
xi
59700 i=1
x== 4264.286 =
n 14
Los estudiantes de ciencias invierten en promedio $4264.286
por semana en fotocopias
Estadı́stica Descriptiva
Medidas de tendencia central
Promedio (Media) aritmético

Ejemplo - R
x: dinero semanal invertido en fotocopias por estudiantes de
ciencias
n = 14 estudiantes
x = 3000, 3200, 3900, 3300, 4500, 3500, 3200, 5800, 1800, 7600,
4100, 3000, 9600, 3200

copias <- c(3000, 3200, 3900, 3300, 4500, 3500, 3200, 5800, 1800, 7600,
4100, 3000, 9600, 3200)
sum(copias)

## [1] 59700

mean(copias)

## [1] 4264.286
Estadı́stica Descriptiva
Medidas de tendencia central
Mediana

Mediana (m)

La mediana m de una muestra es un valor que se ubica en la


posición central de las estadı́sticas de orden

La mediana es el valor de la variable que se encuentra en la


posición central en un conjunto de datos ordenados. Por esta
razón el 50% de los datos tendrá un valor menor que la mediana y
el restante 50% un valor mayor

Esta medida es especialmente útil para describir el centro de la


distribución de un conjunto de datos cuando hay presencia de
observaciones muy grandes o muy pequeñas que modifican
considerablemente el promedio aritmético
Estadı́stica Descriptiva
Medidas de tendencia central
Mediana

Caracterı́sticas

· Fácil cálculo

· La interpretación no es inmediata

· No se deja influenciar fuertemente por valores extremos

· Menos estable en el muestreo repetido


Estadı́stica Descriptiva
Medidas de tendencia central
Mediana

Cálculo

1 Obtener las estadı́sticas de orden x(1) , x(2) , x(3) , . . . , x(n) .


Ordenar los datos

2 Se determina la posición de la mediana dependiendo si el


número de datos es par o impar, con base en una de las
siguientes fórmulas:

Cuando n es impar: m = X n + 1 !
2

X n  + X n 
+1
Cuando n es par: m = 2 2
2
Estadı́stica Descriptiva
Medidas de tendencia central
Mediana

Ejemplo
x: dinero semanal invertido en fotocopias por estudiantes de ciencias
n = 14 estudiantes
x = 3000, 3200, 3900, 3300, 4500, 3500, 3200, 5800, 1800, 7600, 4100,
3000, 9600, 3200
Datos ordenados
x = 1800, 3000, 3000, 3200, 3200, 3200, 3300, 3500, 3900, 4100, 4500,
5800, 7600, 9600
Como n = 14 es par entonces n ÷ 2 = 14 ÷ 2 = 7 y
n ÷ 2 + 1 = (14 ÷ 2) + 1 = 8
La mediana es el promedio de los datos en las posiciones 7 y 8, es decir:
x(7) + x(8) 3300 + 3500
= = 3400
2 2
Los mitad de los estudiantes de ciencias invierten máximo $3400
por semana en fotocopias
Estadı́stica Descriptiva
Medidas de tendencia central
Mediana

Ejemplo - R

x: dinero semanal invertido en fotocopias por estudiantes de ciencias


n = 14 estudiantes
x = 3000, 3200, 3900, 3300, 4500, 3500, 3200, 5800, 1800, 7600, 4100,
3000, 9600, 3200

sort(copias) # datos ordenados

## [1] 1800 3000 3000 3200 3200 3200 3300 3500 3900 4100 4500 5800 7600 9600

median(copias) # mediana

## [1] 3400
Estadı́stica Descriptiva
Medidas de tendencia central
Moda

Moda

Es el valor de la variable que tenga una frecuencia de ocurrencia


mayor

· Fácil cálculo

· Puede no existir

· Puede no ser única, un conjunto de datos puede tener más de


una moda. Si hay dos modas se dice que el conjunto de datos
es bimodal, si hay tres o más se dice multimodal.

· La interpretación acerca de la centralidad se puede ver


distorsionada en el caso de distribuciones multimodales
Estadı́stica Descriptiva
Medidas de tendencia central
Moda

Ejemplo

x: dinero semanal invertido en fotocopias por estudiantes de


ciencias
n = 14 estudiantes
x = 3000, 3200, 3900, 3300, 4500, 3500, 3200, 5800, 1800, 7600,
4100, 3000, 9600, 3200
En este caso hay una moda (3200) que se repite tres veces
Los estudiantes de ciencias invierten con mas frecuencia
$3200 por semana en fotocopias
Estadı́stica Descriptiva
Medidas de tendencia central
Moda

Ejemplo - R

x: dinero semanal invertido en fotocopias por estudiantes de


ciencias
n = 14 estudiantes
x = 3000, 3200, 3900, 3300, 4500, 3500, 3200, 5800, 1800, 7600,
4100, 3000, 9600, 3200

table(copias) # tabla de frecuencias - conteo

## copias
## 1800 3000 3200 3300 3500 3900 4100 4500 5800 7600 9600
## 1 2 3 1 1 1 1 1 1 1 1
Estadı́stica Descriptiva
Medidas de dispersión

Medidas de dispersión (variabilidad)

Son estadı́sticos que indican el grado de dispersión de un conjunto


de observaciones, permiten establecer el nivel de similaridad
(separación, diferencia) de estas observaciones

· Rango

· Varianza

· Desviación Estándar

· Coeficiente de Variación

· Teorema de Chebyshev
Estadı́stica Descriptiva
Medidas de dispersión
Rango

Rango

Diferencia entre los valores máximo y mı́nimo de un conjunto de


observaciones

R = max{X1 , X2 , ..., Xn } − min{X1 , X2 , ..., Xn } = X(n) − X(1)

Este estadı́stico da una primera idea acerca de lo variable que es


un conjunto de datos
Estadı́stica Descriptiva
Medidas de dispersión
Rango

Ejemplo

x: dinero semanal invertido en fotocopias por estudiantes de


ciencias
n = 14 estudiantes
x = 3000, 3200, 3900, 3300, 4500, 3500, 3200, 5800, 1800, 7600,
4100, 3000, 9600, 3200
Datos ordenados
x = 1800, 3000, 3000, 3200, 3200, 3200, 3300, 3500, 3900, 4100,
4500, 5800, 7600, 9600

R = x[14] − x[1] = 9600 − 1800 = 7800

El estudiante que mas invierte en fotocopias gasta $7800 mas que


aquel que menos invierte
Estadı́stica Descriptiva
Medidas de dispersión
Rango

Ejemplo - R

x: dinero semanal invertido en fotocopias por estudiantes de ciencias


n = 14 estudiantes
x = 3000, 3200, 3900, 3300, 4500, 3500, 3200, 5800, 1800, 7600, 4100,
3000, 9600, 3200
max(copias)
## [1] 9600
min(copias)
## [1] 1800
range(copias)
## [1] 1800 9600
diff(range(copias))
## [1] 7800
Estadı́stica Descriptiva
Medidas de dispersión
Varianza

Varianza poblacional

La varianza de una población de tamaño N es el promedio de los


cuadrados de las desviaciones con respecto a la media aritmética
Al ser un parámetro de la población se usa la letra griega sigma
elevada al cuadrado para designarla:
Varianza Poblacional (σ 2 )

N
(xi − µ)2
P
i=1
σ2 =
N
Estadı́stica Descriptiva
Medidas de dispersión
Varianza

Varianza muestral

La varianza muestral es el casi promedio de los cuadrados de las


desviaciones de los datos con respecto a la media muestral
Se utiliza la letra s elevada al cuadrado para designarla:
Varianza Muestral (s 2 )

n
(xi − x)2
P
2 i=1
s =
n−1

n − 1: Estimador no sesgado de la varianza de la población


Estadı́stica Descriptiva
Medidas de dispersión
Varianza

Caracterı́sticas

Varianza Poblacional (σ 2 ) Varianza Muestral (s 2 )

· Desconocida · Conocida
· Positiva o cero · Positiva o cero
· Unidades al cuadrado · Unidades al cuadrado
El cálculo de varianza ocasiona que las unidades de los datos
originales se alteren y pierdan sentido por estar elevadas al
cuadrado, por lo cual su interpretación no es intuitiva
Estadı́stica Descriptiva
Medidas de dispersión
Desviación estándar

Desviación estándar

La desviación estándar es una medida de dispersión cálculada a


partir de la varianza que se caracteriza por tener las mismas
unidades de la variable original. Es la raı́z cuadrada de la varianza

Desviación Estándar Desviación Estándar Muestral


Poblacional (σ) (s)
√ √
σ = σ2 s = s2
Estadı́stica Descriptiva
Medidas de dispersión
Desviación estándar

Caracterı́sticas

· La desviación estándar, al igual que la media y la varianza, es


sensible a la presencia de datos con valores inusuales

· La desviación estándar siempre es positiva o cero

· Cuanto más pequeña sea la desviación estándar mayor será la


concentración de las observaciones alrededor de la media
Estadı́stica Descriptiva
Medidas de dispersión
Desviación estándar

Ejemplo - R

x: número de accidentes en un cruce por mes


x = 6, 2, 10, 4, 8

accidentes <- c(6, 2, 10, 4, 8)


var(accidentes)

## [1] 10

sd(accidentes)

## [1] 3.162278
Estadı́stica Descriptiva
Medidas de dispersión
Coeficiente de variación (CV)

Coeficiente de variación (CV)

El coeficiente de variación se emplea para comparar la variabilidad


relativa entre grupos que tienen distintas (o las mismas) unidades,
datos que tienen medias diferentes o que pertenecen a categorias
diferentes
s
CV = × 100%
x
El CV es adimensional por lo que permite comparar la dispersión
de variables con unidades diferentes

· CV < 5%: Las observaciones son homogéneas

· 5 ≤ CV ≤ 20%: Las observaciones son medianamente


homogéneas

· CV > 20%: Las observaciones son heterogéneas


Estadı́stica Descriptiva
Medidas de dispersión
Coeficiente de variación (CV)

Ejemplo - R

x: número de accidentes en un cruce por mes


x = 6, 2, 10, 4, 8
3.1623
CV = 100 × = 52.7%
6

accidentes <- c(6, 2, 10, 4, 8)


100 * sd(accidentes) / mean(accidentes)

## [1] 52.70463
Estadı́stica Descriptiva
Medidas de dispersión
Regla empı́rica

Definición de Intervalo

Para la aplicación de la Regla Empı́rica y del Teorema de


Chebyshev es necesario comprender el concepto de intervalo
Definición: Un intervalo es el conjunto de todos los números
incluidos entre dos números dados: un lı́mite inferior y un lı́mite
superior

1.2 1.4 1.6 1.8 2.0 2.2 2.4 2.6 2.8 3.0 3.2 3.4 3.6 3.8 4.0 4.2 4.4 4.6 4.8

Tiempo (horas)

Los lı́mites del intervalo son 1.2 (inferior) y 4.8 (superior) horas
Estadı́stica Descriptiva
Medidas de dispersión
Regla empı́rica

Regla empı́rica

Si el conjunto de datos tiene una distribución simétrica (en forma


de campana) entonces:
· Aproximadamente el 68% de los datos se ubicarán dentro del
intervalo con lı́mites definidos por x ± s

· Aproximadamente el 95% de los datos se ubicarán dentro del


intervalo con lı́mites definidos por x ± 2s

· Aproximadamente el 99% de los datos se ubicarán dentro del


intervalo con lı́mites definidos por x ± 3s
Estadı́stica Descriptiva
Medidas de dispersión
Regla empı́rica

Regla empı́rica
Si las observaciones siguen una distribución en forma de campana,
entonces aproximadamente el 68%, 95% y 99% de los datos se
encuentran a 1, 2 y 3 desviaciones estándar, respectivamente.

68% 95% 99%

0 1 2 3 4
*
5 6 7 8 9 10
Estadı́stica Descriptiva
Medidas de dispersión
Regla empı́rica

Ejemplo - R
En Bogotá, los predios residenciales pagan por concepto de impuesto
predial un promedio $343000 con una desviación estándar de $95000.
Esta variable tiene una distribución en forma de campana. Construya e
interprete un intervalo que abarque tres desviaciones estándar en torno a
la media e interprételo
m <- 343000 # promedio
s <- 95000 # desviación estándar
k <- 3 # valor de k
m - k * s # lı́mite inferior

## [1] 58000

m + k * s # lı́mite superior

## [1] 628000

Al menos el 99% de los predios residenciales pagan entre $58000 y


$628000. El intervalo permite tener una idea del comportamiento de la
distribución de la variable en este segmento
Estadı́stica Descriptiva
Medidas de dispersión
Regla empı́rica

Ejemplo 3
Estadı́stica Descriptiva
Medidas de dispersión
Teorema de Chebyshev

Teorema de Chebyshev

Sea x1 , x2 , . . . , xn un conjunto de observaciones de la variable


aleatoria x y k > 1. Al menos 1 − (1/k 2 ) de las observaciones se
encuentran alejadas máximo k desviaciones estándar del promedio

En el intervalo [µ − k × σ; µ + k × σ] se encuentran por lo menos


1 − (1/k 2 ) de las observaciones
Estadı́stica Descriptiva
Medidas de dispersión
Teorema de Chebyshev

Teorema de Chebyshev

Importante poner atención a las palabras al menos al comienzo de


cada porcentaje. El teorema entrega la minima proporción de los
datos que deben caer dentro de un determinado número de
desviaciones estándar con respecto a la media

El teorema de Chebyshev no dice nada cuando k = 1, porque


1
1 − 2 = 0, lo cual querrı́a decir que al menos el 0% de las
1
observaciones se encuentran dentro de una desviación estándar con
respecto al promedio (lo cual no tiene mucho sentido)
Estadı́stica Descriptiva
Medidas de dispersión
Teorema de Chebyshev

Teorema de Chebyshev
Estadı́stica Descriptiva
Medidas de dispersión
Teorema de Chebyshev

Ejemplo

Una muestra de tamaño n = 50 tiene un promedio x = 28 y una


desviación estándar s = 3. Sin conocer nada más acerca de la
muestra, qué se puede decir del número de observaciones que caen
dentro del intervalo limitado por 22 y 34? Qué se puede decir
acerca de las observaciones que caen por fuera del intervalo?
Estadı́stica Descriptiva
Medidas de dispersión
Teorema de Chebyshev

Ejemplo

Una muestra de tamaño n = 50 tiene un promedio x = 28 y una


desviación estándar s = 3. Sin conocer nada más acerca de la
muestra, qué se puede decir del número de observaciones que caen
dentro del intervalo limitado por 22 y 34? Qué se puede decir
acerca de las observaciones que caen por fuera del intervalo?
El intervalo limitado por 22 y 34 se forma al restar y sumar dos
desviaciones estándar al promedio:
Superior − x 34 − 28
Superior = x + (k × s) → k = = =2
s 3
Estadı́stica Descriptiva
Medidas de dispersión
Teorema de Chebyshev

Ejemplo

El porcentaje de observaciones que caen dentro de los lı́mites a dos


desviaciones estándar del promedio es al menos:

1 1 1
1− 2
= 1 − 2 = 1 − = 1 − 0.25 = 0.75 × 100 = 75%
k 2 4
Como la muestra está constituida por 50 observaciones entonces:
Al menos 50 × 0.75 = 37.5 ≈ 38 observaciones se encuentran
dentro de los lı́mites 28 y 34
Estadı́stica Descriptiva
Medidas de dispersión
Teorema de Chebyshev

Ejemplo
Estadı́stica Descriptiva
Medidas de dispersión
Teorema de Chebyshev

Ejemplo - R
x: número de accidentes en un cruce por mes
x = 6, 2, 10, 4, 8

accidentes <- c(6, 2, 10, 4, 8)


m <- mean(accidentes) # promedio
s <- sd(accidentes) # desviación estándar
k <- 1.5
m - k * s # lı́mite inferior

## [1] 1.256584

m + k * s # lı́mite superior

## [1] 10.74342

Você também pode gostar