Você está na página 1de 14

Estadstica descriptiva

Claudio Bustos
18 de abril de 2014

Indice
1. La tabla de distribucion de frecuencias 2
2. Tipos de estadsticos 4
3. Estadsticos para variables a nivel nominal 5
4. Estadsticos para variables a nivel ordinal 5
4.1. Estadsticos de orden . . . . . . . . . . . . . . . . . . . . . . . . . 5
4.2. Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4.3. Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.4. Rangos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
5. Estadsticos para variables numericas (intervalares y razon) 8
5.1. Media aritmetica . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
5.2. Estadsticos de dispersion . . . . . . . . . . . . . . . . . . . . . . 9
5.3. Medidas de forma . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
6. Ejemplo de descripci on de datos 12
Referencias 14
Cuando obtenemos datos desde un grupo de personas, el primer paso es
resumir la informacion de tal manera que nos permita entenderlos y dar cuenta,
de una manera preliminar, de nuestras hipotesis. Cada variable debe ser descrita
de acuerdo al nivel de medicion correspondiente.
Si nuestro investigacion se realiza sobre la totalidad de la poblacion estudiada
(que debe ser nita), los resultados que obtenemos usando las tecnicas que
veremos en este captulo corresponderan a los parametros de la poblacion, es
decir, los valores jos que la caracterizan.
Si nuestra investigacion se realiza sobre una muestra de la poblacion, los
resultados se denominan estadsticos de la muestra. Es decir, los estadsticos
son una funcion de la muestra.
Entonces, la labor de la estadstica descriptiva es representar un conjunto de
datos mediante parametros (para una poblacion) o estadsticos (de una muestra)
1
pertinentes al nivel de medicion de los datos obtenidos. Como en general los
estudios se realizan sobre muestras, de ahora en adelante solo hablaremos sobre
estadsticos.
1. La tabla de distribuci on de frecuencias
La forma mas com un de representar los datos de una variable categorica
es a traves de una tabla de distribucion de frecuencias, donde se asocia a ca-
da categora su frecuencia, es decir, el n umero de veces que se presenta en la
muestra.
Si bien las tablas de distribucion de frecuencias se puede usar con variables
numericas, es mas apropiado usarlas por lo general para las categoricas.
Con convencion, se suele denominar n el n umero total de elementos de una
muestra y n
i
el total de elementos de la categora i.
En la version mas simple de la tabla de distribucion de frecuencias, se incluye
el nombre de la variable y el n umero de casos por categora. Se debe notar que
en el caso de variables ordinales, estas deben estar listadas en orden.
Escolaridad n
Basica Inc. 20
Basica Com. 20
Media Inc. 5
Media Com. 3
Superior 2
Total 50
En el caso de las variables ordinales, se puede generar una tabla de distribu-
cion de frecuencias acumuladas, que corresponde a una table de distribucion de
frecuencias a la cual se le agrega una columna en la cual se incluye el n umero
de casos de la variable, sumados al de todas las variables con valor inferior. Solo
es util para variables de nivel ordinal
Escolaridad n f.acum.
B asica Inc. 20 20
Basica Com. 20 40
Media Inc. 5 45
Media Com. 3 48
Superior 2 50
Total 50
La ventaja de esta tabla es que permite responder rapidamente a preguntas
como: Cuantas personas tienen hasta educacion media incompleta?
Una manera muy com un de presentar resultados es a traves de la tabla de
distribucion de frecuencias con porcentajes, correspondiente a una de distribu-
cion de frecuencias a la cual se le agrega el porcentaje de ocurriencia de cada
categora.
2
Si n
i
es el n umero de elementos de la categora i de las k existentes en nuestra
muestra, tenemos que el porcentaje se puede representar como
%(i) =
n
i

k
i=1
n
i
100
Es decir, corresponde al n umero de elementos de la categora i, dividido por
la suma total de elementos, multiplicado por 100.
Escolaridad n %
Basica Inc. 20 40 %
Basica Com. 20 40 %
Media Inc. 5 10 %
Media Com. 3 6 %
Superior 2 4 %
Total 50 100 %
La gran ventaja de la tabla de frecuencias con porcentajes es que la gran ma-
yora de las personas pueden entenderla facilmente, ya que estan familiarizadas
con este estadstico
Aunque los porcentajes son muy comodos de utilizar, es facil que sean ma-
linterpretados en el caso de muestras peque nos, por lo que es recomendable
siempre incluir el n umero de casos.
Por ejemplo, si digo que un 33,3 % de las personas de mi muestra presentan
una baja autoestima, suena mucho mas dramatico que si digo que solo 1 de mis
3 personas encuestadas presenta baja autoestima.
Por lo tanto, recuerden: incluyan siempre el n umero de casos, especialmente
si sus muestras son peque nas (n < 100)
Finalmente, tenemos la la tabla de distribucion de frecuencias con propor-
ciones. En la vida cotidiana, para representar las partes de un todo, uno suele
utilizar proporciones, no porcentajes. Se suele decir a Juan le toca un cuarto
de la pizza, no a Juan le corresponde un 25 % de la pizza.
Mas formalmente, si n
i
es el n umero de elementos de la categora i de las k
existentes en nuestra muestra, tenemos que la proporcion de una categora es
p(i) =
n
i

k
i=1
n
i
Es decir, corresponde al n umero de elementos de la categora i, dividido por
la suma total de elementos. As como la suma de los porcentajes del total de
categoras suma 100, la suma de las proporciones suma 1.
Este dato es muy util en estadstica inferencial, ya que permite representar
la probabilidad de ocurrencia de los distintos elementos si los seleccionamos al
azar.
3
Escolaridad n p
Basica Inc. 20 0,4
Basica Com. 20 0,4
Media Inc. 5 0,1
Media Com. 3 0,06
Superior 2 0,04
Total 50 1
2. Tipos de estadsticos
Si bien existen algunas divergencias en las formas de nombrar los estadsticos,
podemos realizar una primera clasicacion en
Estadsticos de localizacion
Centralidad
Orden
Cuantiles
Estadsticos de variabilidad
Rangos
Desviaciones
Estadsticas de forma de distribucion
Los estadsticos de localizaci on nos entregan informacion sobre determinados
valores importantes de nuestra muestra, que nos pueden servir para clasicar o
tipicarla
Estadsticos de centralidad Entregan informacion sobre los valores centrales
o mas tpicos de la muestra
Estadsticos de orden Al ordenar los elementos, se nalan cual elemento se
encuentra en una posicion especca
Cuantiles dividen a la poblacion en partes iguales, lo que permite clasicar a
los individuos dentro de una poblacion.
Los estadsticos de variabilidad nos permiten determinar que tan variables son
los datos.
Rangos Presentan la dispersion como la diferencia entre dos valores extremos
de la muestra, o el par ordenado de estos valores
Estadsticos de dispersi on Muestran el grado en que los datos se alejan de
un estadstico de centralidad
4
Las medidas de forma indican cual sera la forma que tendra la distribucion.
Existen dos estadsticos principales
Simetra Indica de que manera la distribucion de los valores es similar a ambos
lados de la media
Curtosis Indica el grado de picudez de la distribucion. Alguno preeren decir
que indica el grado en que las colas de la distribucion son pesadas o livianas
Para cada nivel de medicion se dene que estadsticos de posicion, variabi-
lidad y forma son validos. En particular, a nivel nominal los unicos estadsticos
validos son los relacionados con las frecuencias, no presentandose estadsticos
de variabilidad, por ejemplo.
3. Estadsticos para variables a nivel nominal
Recordemos que la unica operacion valida que se puede realizar sobre una va-
riable a nivel nominal, ademas de la identicacion, es contar. Es decir, podemos
se nalar cuantos elementos de la muestra pertenecen a una categora determina-
da, como ya lo vimos en la tabla de distribucion de frecuencias.
La moda es el valor m as frecuente en la muestra y corresponde a un es-
tadstico de centralidad. En la tabla de distribucion de frecuencias, es el valor
mas alto. Una muestra puede tener una moda (unimodal), dos modas (bimodal)
o varias modas (multimodal). Es util en distribuciones con valores discretos y
con bajos n
4. Estadsticos para variables a nivel ordinal
4.1. Estadsticos de orden
El tipo de estadstico basico que surge a nivel ordinal es el estadstico de
orden. Se denomina como x
(i)
al estadstico de orden que entrega el elemento
ubicado en la posicion i, habiendo antes ordenado los elementos.
Para una muestra de tama no n, el estadstico de orden x
(1)
corresponde al
valor mnimo dentro de la muestra, en tanto que x
(n)
corresponde al maximo.
4.2. Mediana
El estadstico de centralidad propio de las mediciones a nivel ordinal es la
mediana, que corresponde al valor que divide a la muestra en dos mitades del
mismo tama no
Si codicamos la variable ordinal como una serie de n umeros correlativos,
las siguientes reglas permiten determinar la mediana
Si n es impar, corresponde a x
(n/2+0,5)
5
Figura 1: Distribucion unimodal
Figura 2: Distribucion multimodal
6
Si n es par:
mediana =
x
(n/2)
+ x
(n/2+1
)
2
Ademas de ser util para representar a variables ordinales, es un muy util para
representar variables numericas asimetricas, ya que es un estadstico robusto que
no se ve menos inuenciado por los valores extremos que la media
4.3. Cuantiles
La mediana, ademas de ser un estadstico de tendencia central o de centrali-
dad, es el cuantil mas importante. Un cuantil es una funcion que entrega uno o
mas valores que permiten dividir a la muestra en partes iguales. De esta manera,
la mediana es el valor que divide a la muestra en dos partes de igual tama no
Como regla general, cuando el n umero de elementos es un m ultiplo del ta-
ma no de la muestra, los cuartiles corresponderan al valor intermedio entre dos
elementos. En caso contrario, cada cuartil correspondera a un valor que permita
dividir a los valores restantes en el n umero de divisiones requeridas.
Los cuantiles mas conocidos son:
Percentiles Dividen a la muestra en 100 partes iguales. Se representan por P
1
,
P
2
... P
99
Deciles Dividen a la muestra en 10 partes iguales. Se representan por D
1
, D
2
... D
9
y corresponden a los percentiles P
10
, P
20
... P
90
, respectivamente.
Quintiles Dividen a la muestra en 5 partes iguales. Se representan por Q
1
, Q
2
,
Q
3
, Q
4
y corresponden a los percentiles P
20
, P
40
, P
60
y P
80
, respectiva-
mente.
Cuartiles Dividen a la muestra en 4 partes iguales. Se representan por C
1
, C
2
,
C
3
y corresponde a los percentiles P
25
, P
50
y P
75
, respectivamente.
Los cuantiles son muy utilizados en psicologa, particularmente en las escalas.
Es muy com un estandarizar los puntajes en funcion de los percentiles o deciles
en la poblacion. Los quintiles se utilizan mucho en economa, ya que permiten
representar bastante bien las distribuciones de ingreso, que son muy asimetricas
Se debe notar que la mediana puede ser expresada como P
50
, D
5
o C
2
,
dependiendo del cuantil utilizado
Como ejemplo, tomemos un vector ya ordenado x R
15
x = (11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25)
T
Como el n umero de elementos es impar, la mediana es x
(15/2+0,5)
= x
(8)
=
18.
Los cuartiles dividen a la muestra en 4 partes iguales. Considerando que la
mediana divide al vector x en dos partes iguales, x

= (11, 12, 13, 14, 15, 16, 17) y


7
x

= (19, 20, 21, 22, 23, 24, 25), los cuartiles C


1
y C
3
corresponden a las medianas
de ambas secciones. Como ambas tienen n umeros impares, corresponden a C
1
=
14 y C
3
= 22.
Los quintiles dividen a la poblacion en 5 partes iguales. Como 15 es m ultiplo
de 5, los quintiles seran todos valores intermedios entre los grupos de 3 valores,
adoptando los valores Q
1
= 13, 5, Q
2
= 16, 5, Q
3
= 19, 5 y Q
4
= 22, 5.
4.4. Rangos
Los estadsticos de variabilidad mas relevantes a nivel ordinal son los rangos.
El rango a secas es la diferencia entre el valor mnimo y maximo, o el par
ordenado que representa los valores mnimo y maximo. No se utiliza mucho, ya
que es muy susceptible a valores extremos, pero puede servir para hacerse una
idea de cuan extendida esta la distribucion.
Los tipos de rangos mas utiles son los derivado de los cuantiles. Los mas
conocidos son:
Rango interdeclico , que considera el 80 % central de la muestra. Se calcula
D
9
D
1
para las variables numericas o se presenta (D
1
, D
9
) para las
ordinales
Rango intercuartlico , o RIC, que considera el 50 % central de la muestra.
Se calcula C
3
C
1
para las variables numericas o se presenta (C
1
, C
3
) para
las variables a nivel ordinal.
En nuestro ejemplo del vector x, tendramos RIC = (14, 22)
En general, se esperara que una variable a nivel ordinal se presentase usando
la mediana y el rango intercuartlico. Si la distribucion es muy asimetrica o
irregular, se pueden presentar quintiles (como en el caso del ingreso) o deciles.
Al usar cuantiles, se debe recordar que para que tengan alg un signica-
do claro deberan existir al menos dos elementos por division. Por ejemplo, si
trabajamos con quintiles al menos deberamos tener 10 elementos para que el
estadstico tuviese razon de ser.
5. Estadsticos para variables numericas (inter-
valares y razon)
Las variables numericas pueden presentarse utilizando los estadsticos dis-
ponibles a nivel nominal y ordinal. Esto es muy util cuando las distribuciones
no son simetricas.
5.1. Media aritmetica
El principal estadstico de centralidad en las variables numericas es la media
aritmetica, la cual corresponde al centro de equilibrio de la distribucion
8
Si x
i
es el elemento i de la muestra, de un total de n, la media es
x =

n
i=1
x
i
n
5.2. Estadsticos de dispersion
Los estadsticos de dispersion mas utilizados en variables numericas son des-
viacion estandar muestral (s) y la varianza muestral(s
2
). La varianza correspon-
de al promedio de desviaciones al cuadrado con respecto a media, en tanto que
la desviacion estandar corresponde a la raz cuadrada de la varianza.
s
2
=

(x
i
x)
2
n 1
s =

(x
i
x)
2
n 1
Gran parte de la estadstica se basa en las propiedades de la desviacion
estandar y la varianza, as que es muy importante entender sus caractersticas
Si han estado atentos a la ecuacion, habran notado que en el denominador
de la varianza no utilizamos n, como en el promedio, sino n 1. Esto tiene re-
lacion con su uso en estadstica inferencial. Este ajuste permite que la varianza
muestral sea un estimador insesgado de la varianza poblacional. La demostra-
cion requiere entender que los conceptos de esperanza y varianza poblacional,
as como el de insesgamiento, ademas de ser un tanto extensa (20 a 30 lneas de
calculo), as que solo se presentara en el anexo para los curiosos. Lo unico que
deben recordar (por ahora) es que para la muestra siempre deben usar n1 en
el denominador de la varianza, en tanto que para la poblaciones pueden ocupar
n
Si bien la media y la desviacion estandar son estadsticos extremandamente
interesantes, particularmente por sus propiedades en la estadstica inferencial,
deben usarse con cuidado con distribuciones con modas locales o asimetricas, ya
que no corresponderan a un buenos representantes de la distribucion. En estos
casos, puede ser necesario utilizar como estadstico de centralidad la mediana o
incluso la solo la moda, si la distribucion es extremadamente irregular, as como
el rango intercuartlico u otros estadsticos de rango, junto con alg un tipo de
graco para mostrar con claridad la estructura de los datos
5.3. Medidas de forma
La asimetra (skew, en ingles) es la medida de simetra / asimetra de las
distribuciones
Una distribucion con asimetra=0 es simetrica. Es decir, sus colas son del
mismo tama no
9
Figura 3: Asimetra negativa
Una distribucion con asimetra negativa tiene su cola izquierda mas larga
que la derecha
Una distribucion con asimetra positiva tiene su cola derecha mas larga
que su izquierda.
Un estimador relativamente insesgado de la asimetra es
asimetra =
1
n

n
i=1
(x
i
x)
3

1
n

n
i=1
(x
i
x)
2

3/2

n(n 1)
n 2
La curtosis indica el grado de concentracion de datos tanto alrededor de la
media como en las colas de la distribucion
La distribucion normal tiene una curtosis igual a 0, funcionando como
referencia.
Una distribucion con curtosis positiva tiene una distribucion mas luda.
a
lrededor
de la media y sus colas son mas largas y gruesas. Se puede pensar que la
distribucion normal fue aplastada por los lados y alada en la punta.
Una distribucion con curtosis negativa tiene una distribucion mas gruesa
alrededor de la media y sus colas son mas cortas y delgadas. Podemos
pensar en una distribucion aplastada por arriba.
10
Figura 4: Asimetra positiva
Un estimador sesgado de la curtosis es
curtosis =
1
n

n
i=1
(x
i
x)
4

1
n

n
i=1
(x
i
x)
2

2
3
Figura 5: Distribucion mesoc urtica, leptoc urtica y platic urtica
11
6. Ejemplo de descripcion de datos
Utilizaremos los datos de un estudio piloto de un instrumento de compren-
sion lectora dirigido a estudiantes de ense nanza media, que fue aplicado a una
muestra de estudiantes de educacion universitaria para establecer un criterio de
referencia de rendimiento superior. El instrumento constaba en el momento de
la aplicacion con 40 temes de seleccion m ultiple y el indicador utilizado para
medir comprension lectora, denominado cl, corresponde al n umero de respuestas
correctas. Se recogio informacion sobre la carrera cursada por el participante,
su edad y sexo.
La descripcion de las variables es mucho mas detallada de lo que usualmente
se hara en un artculo o reporte, pero sirve para entender de mejor manera la
descripcion escrita.
12
Cuadro 1: Base de datos piloto estudio comprension lectora
edad sexo carrera cl
20 1 1 31
19 2 1 29
20 1 1 31
19 2 1 22
19 2 1 26
19 1 1 26
18 2 1 37
19 2 1 31
20 1 1 34
18 2 1 27
19 1 1 37
18 2 1 32
22 2 1 32
20 1 1 28
23 2 2 31
23 2 2 34
20 2 2 25
23 1 2 34
21 2 2 30
24 2 2 30
21 2 2 29
21 2 2 30
20 2 2 24
20 1 2 30
20 2 2 26
20 1 2 34
21 1 2 31
21 2 2 30
20 2 2 28
21 2 2 31
23 1 2 29
20 1 2 20
20 2 2 33
20 2 2 33
20 2 3 28
20 2 3 26
21 1 3 33
22 2 3 28
23 1 3 24
26 1 4 31
20 2 4 36
20 2 4 33
37 2 4 24
23 2 4 28
23 2 4 32
13
Los codigos utilizados en la base de datos para las variables nominales fueron
sexo 1: masculino. 2:femenino
carrera 1: psicologa, 2:pedagoga espa nol, 3: pedagoga m usica, 4: pedagoga
artes plasticas
Por carrera, la distribucion fue la siguiente: 6 hombres y 8 mujeres en psico-
loga; 6 hombres y 14 mujeres en pedagoga en espa nol; 2 hombres y 3 mujeres en
pedagoga en m usica ; y 1 hombres y 5 mujeres en pedagogia en Artes Plasticas.
En total, la muestra estuvo compuesta de 15 hombres y 30 mujeres.
Tal como se observa en la tabla 2, la edad promedio de los participantes
es de 21 a nos, con una desviacion estandar de 2,97. Es necesario notar que la
desviacion en 3 de las 4 carreras no supera 1,35, pero la presencia de un alumno
con 37 a nos aumenta la desviacion de forma importante en pedagoga en Artes
Plasticas, produciendo un importante sesgo positivo en la distribucion total.
Cuadro 2: Media, desviacion estandar, mediana, rango, sesgo y curtosis para la
edad de los participantes, organizados por carrera
Carrera n media d.e mediana rango sesgo curtosis
Psicologa 14 19.28571 1.0690 19 (18, 22) 0.87337 0.47576
P. Espa nol 20 21.10000 1.3337 21 (20, 24) 0.83954 -0.85072
P. M usica 5 21.20000 1.3038 21 (20, 23) 0.25986 -1.95806
P. Artes 6 24.83333 6.3691 23 (20, 37) 1.00914 -0.66778
Total 45 21.04444 2.9692 20 (18, 37) 3.4876 15.86
Con respecto al ndice de comprension lectora, su media es de 29.73 y su
desviacion estandar de 3,82, no existiendo grandes diferencias por carrera en
estos estadsticos. La distribucion en todas las carreras y en el total es simetrica
y mesoc urtica (ver tabla 3)
Cuadro 3: Media, desviacion estandar, mediana, rango, sesgo y curtosis para el
ndice de comprension lectora de los participantes, organizados por carrera
Carrera n media d.e mediana rango sesgo curtosis
Psicologa 14 30.21429 4.2458 31.0 (22, 37) -0.053934 -0.84961
P. Espa nol 20 29.60000 3.6186 30.0 (20, 34) -0.913951 0.35412
P. M usica 5 27.80000 3.3466 28.0 (24, 33) 0.426440 -1.48505
P. Artes 6 30.66667 4.1793 31.5 (24, 36) -0.338920 -1.43334
Total 45 29.73333 3.822184 30 (20, 37) -0.3179426 -0.2749961
Referencias
14

Você também pode gostar