Escolar Documentos
Profissional Documentos
Cultura Documentos
Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones
EST 103
Estadstica descriptiva
Outline
Medidas de dispersin
Sesgo y asimetria
Comparacin de distribuciones
EST 103
Estadstica descriptiva
EST 103
Estadstica descriptiva
EST 103
Estadstica descriptiva
EST 103
Estadstica descriptiva
Mediana
Informal: Es el valor que esa "literalmente" en el medio de
los datos.
Formal: Esl el valor que es mayor o igual que el 50% de
los datos. Matemticamente esta definido por
X((n+1)/2)
, n es impar
Xmed =
X
+ X(n/2+1)
(n/2)
, n es par
2
donde n es el nmero total de dato y X(i) representa el
dato que esta en la posicin "i-sima"
EST 103
Estadstica descriptiva
355
432
468
501
555
372
432
469
502
567
384
438
477
508
577
392
439
478
509
580
398
452
481
520
589
403
457
484
521
596
415
459
488
522
617
425
462
488
525
620
426
464
493
525
650
X(25) + X(26)
= (478 + 481)/2 = 479, 5
2
Estadstica descriptiva
1
2
2
3
4
5
6
7
1
2
2
3
4
5
6
8
1
2
2
3
4
5
6
8
1
2
3
3
4
5
6
12
1
2
3
3
4
5
7
12
1
2
3
3
4
5
7
13
1
2
3
4
4
6
7
14
1
2
3
4
5
6
7
16
1
2
3
4
5
6
7
Estadstica descriptiva
Estadstica descriptiva
Ejercicio
Consumo de celular (en minutos) de 43 personas que usan
servicio pre pago de Telefonica en un determinado mes
198
187
150
181
143
150
179
103
175
119
129
110
194
117
179
179
109
142
165
198
156
108
139
180
151
190
134
131
148
181
167
139
138
115
155
139
181
101
121
165
167
108
106
110
Estadstica descriptiva
103
121
148
175
194
106
129
150
179
198
108
131
150
179
108
134
151
179
109
138
155
180
110
139
156
181
110
139
165
181
115
139
165
181
117
142
167
187
Estadstica descriptiva
Media
En el caso los datos sean medianamente simtricos, la
media es otra alternativa para describir el "dato tpico"
Formal: Es la suma de todos los datos dividido por el total
, entonces
de datos. Se le suele denotar por X
n
X
1
=1
X
Xi = (X1 + X2 + + Xn1 + Xn )
n
n
i=1
Estadstica descriptiva
) = 0
(Xi X
i=1
Y
2
Estadstica descriptiva
355
432
468
501
555
372
432
469
502
567
384
438
477
508
577
392
439
478
509
580
398
452
481
520
589
403
457
484
521
596
415
459
488
522
617
425
462
488
525
620
426
464
493
525
650
X
1
= 1
X
Xi =
(300 + 355 + + 650) = 482, 8
50
50
i=1
Estadstica descriptiva
1
2
2
3
4
5
6
7
1
2
2
3
4
5
6
8
1
2
2
3
4
5
6
8
1
2
3
3
4
5
6
12
1
2
3
3
4
5
7
12
1
2
3
3
4
5
7
13
1
2
3
4
4
6
7
14
1
2
3
4
5
6
7
16
1
2
3
4
5
6
7
79
X
1
= 1
X
Xi =
(1 + 1 + + 16) = 4, 4
79
79
i=1
Estadstica descriptiva
La moda
EST 103
Estadstica descriptiva
1
2
2
3
4
5
6
7
1
2
2
3
4
5
6
8
1
2
2
3
4
5
6
8
1
2
3
3
4
5
6
12
1
2
3
3
4
5
7
12
1
2
3
3
4
5
7
13
1
2
3
4
4
6
7
14
1
2
3
4
5
6
7
16
1
2
3
4
5
6
7
EST 103
Estadstica descriptiva
Cuantiles
Sea X1 , X2 , . . . , Xn un conjunto de datos. Entonces
El cuantile de orden p (0 < p < 1) de este conjunto de
datos es el valor qp tal que el 100p% de los datos son
menores o iguales a este.
Definicin:
qp =
X(dnpe) +X(dnpe+1)
2
, np Z
X(dnpe)
, np
/Z
Estadstica descriptiva
Estadstica descriptiva
1
2
2
3
4
5
6
7
1
2
2
3
4
5
6
8
1
2
2
3
4
5
6
8
1
2
3
3
4
5
6
12
1
2
3
3
4
5
7
12
1
2
3
3
4
5
7
13
1
2
3
4
4
6
7
14
1
2
3
4
5
6
7
16
Estadstica descriptiva
1
2
3
4
5
6
7
Estadstica descriptiva
EST 103
Estadstica descriptiva
Estadstica descriptiva
La Varianza
La varianza mide la variabilidad de los valores de un
conjunto de datos con respecto a su media muestral. Esta
se define como:
n
P
S2 =
n
P
)2
(Xj X
j=1
n1
j=1
2
Xj2 nX
n1
Estadstica descriptiva
EST 103
Estadstica descriptiva
Propiedades de la varianza
Se calcula para datos medidos en escala de intervalo o de
razn
Su valor numrico esta expresado en unidades al
cuadrado.
Son sensibles a la existencia de valores atpicos
Supongamos que tenemos los datos X1 , X2 , . . . , Xn y sea
Yi = a + bXi donde a y b son constantes. Entonces
SY2 = b2 SX2
EST 103
Estadstica descriptiva
La desviacin estndar
Definicin: Es la raz cuadrada de la varianza: SX
v
u
n
u 1 X
t
)2
(Xi X
SX =
n1
i=1
Estadstica descriptiva
EST 103
Estadstica descriptiva
El Rango
Es la distancia entre el valor mnimo y el mximo
R = X(n) X(1)
donde X(n) y X(1) es el valor mximo y mnimo,
respectivamente.
Ejemplo: Considerando los datos de los pacientes con
tuberculosis, el rango es dado por
R = X(79) X(1) = 16 1 = 15
Interpretacin: El nmero de personas que cohabitan con
los pacientes varia entre 1 y 16 (R = 15) personas.
EST 103
Estadstica descriptiva
Estadstica descriptiva
El Rango intercuartl
Definicin: Es la distancia entre el primer y tercer cuartil
RIC = Q3 Q1
Note que entre el primer y tercer cuartil estn contenidas
el 50% de las observaciones, donde hemos descartado el
25% de las observaciones ms grandes y el 25% de las
ms pequeas.
Esta es una medida alternativa al rango que no es
afectada por valores extremos y que puede ser utilizada
incluso en variables cualitativas ordinales
EST 103
Estadstica descriptiva
EST 103
Estadstica descriptiva
Estadstica descriptiva
Asimetria de Pearson
Es una forma de medir la asimetria de los datos: Este
puede ser positiva, negativa o 0.
Esta definido por
X Xmed
As = 3
SX
La distribucin puede ser:
Simtrica: As 0
Sesgo a la derecha (cola a la derecha): As > 0
Sesgo a la izquierda (cola a la izquierda): As < 0
EST 103
Estadstica descriptiva
X > Xmed
0 500
X Xmed
1500
Frecuencia
2500
Sesgo a la izquierda
frecuencia
Simtrica
60
80
100
120
600
200
X < Xmed
Frecuencia
1000
Sesgo a la derecha
10
Estadstica descriptiva
EST 103
Estadstica descriptiva
Construccin (continuacin)
4. Construya una linea vertical (imaginaria) superior (Ls) e
inferior (Li):
Ls
= Q3 + 1, 5 RIC
Li
= Q1 1, 5 RIC
EST 103
Estadstica descriptiva
Estadstica descriptiva
16
14
13
10
5
15
EST 103
Estadstica descriptiva
15
10
EST 103
Estadstica descriptiva
Interpretacin:
El 50% de personas respondieron que compartian su casa
con 4 personas o menos (Xmed = 4)
El 50% de los datos "centrales" se encuentran entre 2 y 6
(RIC = 44)
Dado que la linea vertical es mucho mas extensa hacia
arriba, la distribucin de los datos presenta una cola hacia
la derecha (asimetria positiva)
Se presentan 3 valores atpicos en nuestros datos: 13, 14
y 16
EST 103
Estadstica descriptiva
550
500
450
400
300
350
600
650
Estadstica descriptiva
EST 103
Estadstica descriptiva
26
19
20
78
19
36
82
24
26
20
19
35
29
45
69
19
69
32
39
26
20
22
39
25
54
18
21
37
20
39
27
45
19
19
49
98
24
19
22
64
57
22
23
18
42
54
21
18
19
47
21
38
37
21
18
18
23
57
58
37
21
77
31
EST 103
30
18
23
21
18
22
26
19
37
45
Estadstica descriptiva
30
30
70
34
21
28
Q1
20
Xmed
26
n
X
35.23
Q3
42
Mximo
98
Q1
21
Xmed
27
n
X
31.89
Q3
37.25
Mximo
77
Qu diferencias observan?
Qu grafico considera apropiado para describir las
diferencias y/o similitudes entre estas dos distribuciones ?
EST 103
Estadstica descriptiva
frecuencia
frecuencia
10
10
12
12
14
20
40
60
80
100
Edad en hombres
20
40
60
80
100
Edad en mujeres
Estadstica descriptiva
100
80
80
100
60
0
20
40
Edad en mujeres
60
40
0
20
Edad en hombres
Estadstica descriptiva
Conclusin:
La mediana es preferible a la media para ambas
distribuciones dado la presencia de asimetria y valores
atpicos. La mediana de edad en hombres es menor que
en mujeres (26 vs. 27)
La distribucin de edades en hombres tiene mayor
dispersin/variabilidad que la de mujeres (RIC: 22 vs. 16)
Ambas distribuciones tiene asimetria positiva (sesgo por la
derecha). Sim embargo la distribucin de los hombres
tiene mayor asimetria (1,38 vs. 0,95).
EST 103
Estadstica descriptiva
Ejercicios adicionales
EST 103
Estadstica descriptiva