Você está na página 1de 30

Taller de Anlisis Exploratorio de

Datos
Jos Luis Poveda
Rubn Arana
Asimetra, Curtosis y Cuantiles
Cuantiles
Cuartiles
Deciles
Percentiles
Momento
Asimetra
Curtosis
Otras divisiones (cuantiles)
Recordemos que la mediana ubica la posicin
media de la distribucin.
Esto puede extrapolarse, usando
separadores para obtener secciones
distintas.
Ayuda a encontrar datos en posiciones
determinadas
Los ms comunes son los cuartiles, deciles y
percentiles.

1. Cuantiles
Cuantil
Son puntos tomados a intervalos regulares de la
funcin de distribucin de una variable aleatoria.
El cuantil de orden p de una distribucin se define
como:
El valor de la variable que marca un corte de modo
que la proporcin de valores de la poblacin es menor
o igual que
Es decir: el cuantil 0.05 es el lmite a partir del
cual existe un 5% de valores por debajo de l.

1. Cuantiles
Cuartiles
Dividen una distribucin en 4 partes equitativas.
Existen 3, y tienen una definicin similar a la
mediana. Inclusive, la mediana es equivalente al
segundo cuartil.

1. Cuantiles
Cuartiles
El procedimiento para obtenerlos es:
1. Se realiza la siguiente operacin:

=
4
2. A continuacin, se verifica el resultado.
Si el resultado contiene decimales, se toma el
valor redondeado hacia arriba.
Si el resultado es entero, se debe hacer un
promedio entre el valor obtenido y el siguiente.

1. Cuantiles
Percentiles
Es similar a los cuartiles. La gran diferencia
consiste en dividir la distribucin en 100
partes en lugar de 4.

1. Cuantiles
Percentiles
El procedimiento para obtenerlos es:
1. Se realiza la siguiente operacin:

=

2. A continuacin, se verifica el resultado.
Si el resultado contiene decimales, se toma el
valor redondeado hacia arriba.
Si el resultado es entero, se debe hacer un
promedio entre el valor obtenido y el siguiente.

1. Cuantiles
Cuantiles
El procedimiento para obtenerlos es:
=
Donde k es el valor del cuantil que se desea con
0 < < 1, y n es el total de la poblacin.
2. A continuacin, se verifica el resultado.
Si el resultado contiene decimales, se toma el
valor redondeado hacia arriba.
Si el resultado es entero, se debe hacer un
promedio entre el valor obtenido y el siguiente.

1. Cuantiles
Ejemplo
En la tabla de la siguiente diapositiva se
presenta la lista de 30 de las ciudades ms
pobladas en los Estados Unidos.
Encuentra:
1. El cuantil 0.10.
2. El cuantil 0.95.

A. Ejemplo
Ejemplo
Posicin Ciudad 1990 Posicin Ciudad 1990
1 Nueva York, NY 7 322 564 16 Columbus, OH 632 945
2 Los ngeles, CA 3 485 557 17 Milwaukee, WI 628 088
3 Chicago, IL 2 783 726 18 Memphis, TN 610 337
4 Houston, TX 1 629 902 19 Washington, DC 606 900
5 Philadelphia, PA 1 585 577 20 Boston, MA 574 283
6 San Diego, CA 1 110 623 21 Seattle, WA 516 259
7 Detroit, MI 1 027 974 22 El Paso, TX 515 342
8 Dallas, TX 1 007 618 23 Nashville, TN 510 784
9 Phoenix, AZ 983 403 24 Cleveland, OH 505 616
10 San Antonio, TX 935 393 25 New Orleans, LA 496 938
11 San Jos, CA 782 224 26 Denver, CO 467 610
12 Indianpolis, IN 741 952 27 Austin, TX 465 648
13 Baltimore, MD 736 014 28 Fort Worth, TX 447 619
14 San Francisco, CA 723 959 29 Oklahoma City, OK 444 724
15 Jacksonville, FL 672 971 30 Portland, OR 438 802

A. Ejemplo
Ejemplo
Para calcular el percentil 10, primero
aplicamos la frmula anterior:
. = 0.10 = 0.1 30 = 3
El nmero resultante es entero. Entonces para
hallar el dato, tenemos que promediar tanto
el tercer como el cuarto dato.
El orden debe ser ascendente.

A. Ejemplo
Ejemplo 4
Posicin Ciudad 1990 Posicin Ciudad 1990
30 Nueva York, NY 7 322 564 15 Columbus, OH 632 945
29 Los ngeles, CA 3 485 557 14 Milwaukee, WI 628 088
28 Chicago, IL 2 783 726 13 Memphis, TN 610 337
27 Houston, TX 1 629 902 12 Washington, DC 606 900
26 Philadelphia, PA 1 585 577 11 Boston, MA 574 283
25 San Diego, CA 1 110 623 10 Seattle, WA 516 259
24 Detroit, MI 1 027 974 9 El Paso, TX 515 342
23 Dallas, TX 1 007 618 8 Nashville, TN 510 784
22 Phoenix, AZ 983 403 7 Cleveland, OH 505 616
21 San Antonio, TX 935 393 6 New Orleans, LA 496 938
20 San Jos, CA 782 224 5 Denver, CO 467 610
19 Indianpolis, IN 741 952 4 Austin, TX 465 648
18 Baltimore, MD 736 014 3 Fort Worth, TX 447 619
17 San Francisco, CA 723 959 2 Oklahoma City, OK 444 724
16 Jacksonville, FL 672 971 1 Portland, OR 438 802

A. Ejemplo
Ejemplo
El promedio resulta ser:
447 619 + 465 648
= .
2
El cuantil 95 se calcula
0.95 = 0.95 = 0.95 30 = 28.5 29
El dato 29 es el dato de Los ngeles:
3 485 557

A. Ejemplo
Momentos
Antes de definir los conceptos de asimetra y
curtosis, resulta conveniente entender el
concepto de momento en estadstica.
En fsica, un momento determina la fuerza de
un objeto de acuerdo con el movimiento que
este realiza:
Momento traslacional
Momento rotacional

2. Momentos
Momentos en estadstica

Son mtodos que


describen la
tendencia central de
una distribucin de
frecuencias para
medir el grado de
concentracin
respecto a la
tendencia central.
2. Momentos
Momentos centrados
Por analoga, se pueden considerar los datos
obtenidos de la misma forma que las masas
(pesos) discretas de los momentos en fsica.
De esta forma se define en estadstica el momento
centrado r-simo de la siguiente manera:
=
Los primeros dos momentos (r = 1 y 2) estn
relacionados con la media y la varianza.
Si r = 1, al estar centrado, se obtiene 1 = 0.
Si r = 2, 2 = 2 .

2. Momentos
Asimetra o sesgo
La asimetra es una medida que nos permite
determinar si la distribucin de probabilidad
para una variable aleatoria est repartida de
manera uniforme alrededor de la media.

3. Asimetra
Clculo de la asimetra o sesgo
La asimetra tiene diversas definiciones de acuerdo al autor.
La definicin ms usual tiene que ver con el tercer momento:
1
3 3
1 = 3 = 3/2
1
2

Se utiliza el tercer momento puesto que se necesita mantener
los signos y el primer momento implicara llegar a que la suma
de todos los valores es cero.

3. Asimetra
Asimetra positiva o negativa
La asimetra positiva (hacia la derecha) ocurre
cuando los datos descienden de manera ms
lenta del lado derecho, cuando 1 > 0
La asimetra negativa (hacia la izquierda)
ocurre cuando los datos descienden de
manera ms lenta del lado izquierdo, cuando
1 < 0.
La curva es simtrica cuando 1 = 0.

3. Asimetra
Relacin entre las medidas de
tendencia central
En la comparacin en
distribuciones unimodales,
si una curva de frecuencias
es perfectamente simtrica,
coincidirn la media, la
mediana y la moda.
Es decir, si
moda<mediana<media, es
positivamente asimtrica (a
la derecha) y si
media<mediana<moda, es
negativamente asimtrica (a
la izquierda).
2. Asimetra
Otros clculos
Coeficiente de Pearson
Slo debe utilizarse en distribuciones unimodales, uniformes y
moderadamente asimtricas.

=

Coeficiente de Bowley
Relacin entre los cuartiles primero y tercero y la mediana.
3 + 1 2
=
3 1

2. Asimetra
Ejemplo
Determinar la asimetra de los siguientes datos:
100 112 88 105 100 102 98 113
102 87 93 93 117 100 98 92
100 117 97 100 83 67 76 100
106 117 89 83 100 109 109 93
105 108 104 63 81 109 100 98

Primero obtenemos los valores para la media y la desviacin


estndar.
Obtenemos la media = 97.85 y = 12.2994.
Retomamos la frmula:
1 3
3
1 = 3 =
3/2
1
2

B. Ejemplo
Ejemplo
Es necesario calcular la sumatoria del numerador para todos
los valores:
3 = 100 97.85 3 + + 98 97.85 3

= 62610.87
Se divide entre el total de datos:
1 62610.87

= 3 = 1565.27
40
El cubo de la desviacin estndar es 1860.63.
Finalmente:
1 = 0.8413
Esto indica que la asimetra es negativa o hacia la izquierda.
B. Ejemplo
Sesgo en inferencia estadstica
Sesgo de un
estimador puntual
=
Es la diferencia entre
la esperanza de un
estimador menos el
valor del parmetro

3. Asimetra
Curtosis
Mide cun puntiaguda es la distribucin de los datos.
Se basa en el cuarto momento respecto a la media en forma
adimensional.
4 4
= 4 = 4 = 2
2
Se suele denotar por 2
Para una distribucin normal 2 = 4 = 3

4. Curtosis
Curtosis
La curtosis por lo general se define como 2 = 2 3, de tal
forma que la normal tenga un valor de 0 para que sea tomada
como referencia.
Tomando en cuenta la definicin anterior:
Si el valor es cero la distribucin es mesocrtica, es decir, mantiene
forma de campana como la normal.
Si el valor es positivo la distribucin es leptocrtica, o sea, la
distribucin ser ms puntiaguda en la media, con una mayor
concentracin de datos en el centro.
Si el valor es negativo la distribucin es platicrtica, por lo que la
distribucin ser aplastada en el centro, por lo que sus datos tendern
a extenderse ms hacia las colas.

4. Curtosis
Ejemplo
Determinar la curtosis de los siguientes datos:
102
100
102
112
87
88 105

93 93
100
117
100
98
98
113
92

100 117 97 100 83 67 76 100

106 117 89= 83 100 109 109 93
105 108 104 63 81 109 100 98

Ya conocemos la media = 97.85 y = 12.2994.


Nos basamos en la frmula de momentos:
1 4
4
2 = 4 3 = 3
2
1
2

C. Ejemplo
Ejemplo
Calculamos la sumatoria del numerador:
4
= 100 97.85 4
+ + 98 97.85 4

= 3383924.56
Se divide entre el total de datos:
1 3383924.56

= 3 = 84598.114
40
Se eleva a la cuarta la desviacin estndar: 22884.882.
Finalmente:
4 84598.114
2 = 4 3 = 3 = 0.6966
22884.882
Esto indica que la distribucin es leptocrtica.
C. Ejemplo
Referencias
Hernndez, J. (19 de marzo de 2015). Tu vers. Obtenido de
http://www.tuveras.com/estadistica/estadistica02.htm
Medina, S., & al., e. (2008). Bioestadstica: notas de curso.
Mrida.
Pontificia Universidad Catlica de Valparaso. (19 de marzo de
2015). Obtenido de www.ucv.cl/web/estadistica/curtosis.htm
Ross, S. (2001). Probabilidad y estadstica. Mxico: McGraw-
Hill.
Wikipedia. (19 de marzo de 2015). Obtenido de
https://es.wikipedia.org/wiki/Asimetr%C3%ADa_estad%C3%A
Dstica
Wisniewski, P., & Velasco, G. (2001). Problemario de
probabilidad. Mxico: Thomson.

Você também pode gostar