Você está na página 1de 10

Bioestadı́stica M.A. Amparan, S. Marcaida, A.M.

Valle - Estadı́stica descriptiva

Tema 1. Estadı́stica descriptiva.

1.1 Introducción
1.2 Tablas estadı́sticas

1.3 Representaciones gráficas


1.4 Estadı́sticos

1.4.1 Estadı́sticos de tendencia central


1.4.2 Estadı́sticos de posición
1.4.3 Estadı́sticos de dispersión
1.4.4 Estadı́sticos de forma

1.5 Datos agrupados*

1
Bioestadı́stica M.A. Amparan, S. Marcaida, A.M. Valle - Estadı́stica descriptiva

1.1 Introducción
Población: Conjunto de elementos sobre el que se quiere hacer el estudio.
Individuo o unidad estadı́stica: Cada elemento de la población.
Muestra: Subconjunto de la población.
Parámetro: Medida que describe el comportamiento de la variable en estudio sobre la pobla-
ción.
Estadı́stico: Medida que describe el comportamiento de la variable en estudio sobre la mues-
tra.
Estadı́stica descriptiva: Parte de la estadı́stica que proporciona métodos para analizar con-
juntos finitos de datos.
Inferencia estadı́stica: Parte de la estadı́stica que proporciona métodos que nos permiten
realizar generalizaciones.
Variable: Caracterı́stica en estudio sobre los elementos de la población.
- Variable cualitativa o categórica: Cuando la forma que toma sobre cada individuo
no es una cantidad numérica. Las diferentes formas que toma la variable se denominan
modalidades o categorı́as de la variable.
- Variable ordenada: Cuando existe una relación de orden entre las diferentes modalidades
o categorı́as de la variable.
- Variable cuantitativa: Cuando toma un valor numérico sobre cada individuo.
a) Variable cuantitativa continua: Si fijados dos valores de la variable ésta puede
tomar un valor intermedio.
b) Variable cuantitativa discreta: Si toma valores aislados, es decir, si fijados dos
valores de la variable ésta no siempre puede tomar un valor intermedio.
Ejemplos

2
Bioestadı́stica M.A. Amparan, S. Marcaida, A.M. Valle - Estadı́stica descriptiva

1.2 Tablas estadı́sticas


n: número de observaciones
x1 , x2 , . . . , xn
c1 , c2 , . . . , cn

k: número de valores (modalidades) diferentes


xi : i-ésimo valor observado de la variable

x1 < x2 < · · · < xk

fi : frecuencia absoluta del valor xi = número de veces que hemos observado el valor xi
k
X
fi = n
i=1

fi
hi : frecuencia relativa del valor xi =
n
k
X
hi = 1
i=1

pi : porcentaje del valor xi = porcentaje de valores de la forma xi = hi · 100 %


k
X
pi = 100
i=1

Fi : frecuencia absoluta acumulada del valor xi = número de valores menores o iguales a xi

Fi = f1 + f2 + · · · + fi

Hi : frecuencia relativa acumulada del valor xi


Fi
Hi = h1 + h2 + · · · + hi =
n
Pi : porcentaje acumulado del valor xi = porcentaje de valores menores o iguales a xi

Pi = p1 + p2 + · · · + pi = Hi · 100 %

X fi hi pi Fi Hi Pi
x1 f1 h1 p1 % F1 H1 P1 %
· · · · · · ·
· · · · · · ·
· · · · · · ·
xk fk hk pk % Fk = n Hk = 1 Pk = 100 %
TOTAL n 1 100 %

3
Bioestadı́stica M.A. Amparan, S. Marcaida, A.M. Valle - Estadı́stica descriptiva

Variable cualitativa
Ejemplo 0.1 Se ha registrado el color de las flores de 20 azaleas silvestres seleccionadas
aleatoriamente y se han obtenido los siguientes datos:
Blanca - Naranja - Naranja - Naranja - Rosa - Blanca - Blanca - Rosa - Rosa - Rosa
Rosa - Rosa - Blanca - Blanca - Naranja - Naranja - Naranja - Rosa - Rosa - Rosa
Color de las flores de azalea silvestre fi hi pi
Blanca 5 5/20=0.25 25 %
Naranja 6 6/20=0.3 30 %
Rosa 9 9/20=0.45 45 %
20 1 100 %
Variable cuantitativa discreta
Ejemplo 0.2 Se ha contado el número de nidos de golondrinas por hectárea en 36 hectáreas
de una zona y se han obtenido los siguientes resultados:
1, 0, 0, 2, 1, 1, 1, 0, 1, 1, 2, 0, 0, 1, 4, 2, 1, 0, 1, 1, 0, 1, 0, 1, 3, 0, 1, 1, 2, 1, 0, 1, 2, 3, 1, 1.

No de nidos de golondrinas en una hectárea fi hi pi Fi Hi Pi


0 10 10/36 27.78 % 10 10/36 27.78 %
1 18 18/36 50 % 28 28/36 77.78 %
2 5 5/36 13.89 % 33 33/36 91.67 %
3 2 2/36 5.56 % 35 35/36 97.22 %
4 1 1/36 2.78 % 36 36/36 100 %
36 1 100 %
Variable cuantitativa continua
Ejemplo 0.3 Altura (en centı́metros) alcanzada por 40 plantas de laurel en tres meses some-
tidas a condiciones atmosféricas especiales.
183, 163, 152, 157, 165, 173, 180, 164, 160, 166, 157, 168, 167, 156, 155, 178, 169, 171, 175,
169, 168,165, 166, 164, 163, 161, 157, 181, 163, 157, 169, 177, 174, 183, 181, 182, 171, 184, 179,
157.

Si los datos se presentan de manera individual la tabla estadı́stica se realiza como se ha realizado
para una variable discreta.
En muchos casos aunque los datos estén dados de manera individual si el número de datos distintos
es grande se agrupa la información en intervalos o clases.

4
Bioestadı́stica M.A. Amparan, S. Marcaida, A.M. Valle - Estadı́stica descriptiva

Otras veces los datos se presentan agrupados en intervalos. Los intervalos deben ser contiguos y no
debe existir ninguna duda de asignar una observación a un intervalo o clase.

Clases fi xi ai hi pi Fi Hi Pi
(151.5 - 156.5] 3 154 5 0.075 7.5 % 3 0.075 7.5 %
(156.5 - 161.5] 7 159 5 0.175 17.5 % 10 0.25 25 %
(161.5 - 166.5] 9 164 5 0.225 22.5 % 19 0.475 47.5 %
(166.5 - 171.5] 8 169 5 0.2 20 % 27 0.675 67.5 %
(171.5 - 176.5] 3 174 5 0.075 7.5 % 30 0.75 75 %
(176.5 - 181.5] 6 179 5 0.15 15 % 36 0.9 90 %
(181.5 - 186.5] 4 184 5 0.1 10 % 40 1 100 %
40

n: número de observaciones
(li − li+1 ]: i-ésimo intervalo o clase
k: número de diferentes intervalos o clases
fi : frecuencia absoluta del intervalo (li − li+1 ] = número de observaciones que hemos observado en
el intervalo (li − li+1 ]
li + li+1
xi : marca de clase del intervalo (li − li+1 ] = punto medio del intervalo (li − li+1 ] =
2
ai : amplitud del intervalo (li − li+1 ]
fi
hi : frecuencia relativa del intervalo (li − li+1 ] =
n
pi : porcentaje del intervalo (li − li+1 ] = hi · 100 %
Fi : frecuencia absoluta acumulada del intervalo (li − li+1 ] = f1 + f2 + · · · + fi
Fi
Hi : frecuencia relativa acumulada del intervalo (li − li+1 ] = h1 + h2 + · · · + hi =
n
Pi : porcentaje acumulado del intervalo (li − li+1 ] = p1 + p2 + · · · + pi

5
Bioestadı́stica M.A. Amparan, S. Marcaida, A.M. Valle - Estadı́stica descriptiva

1.3 Representaciones gráficas

Variable cualitativa
- Gráfico de sectores
Variable cuantitativa
- Diagrama de tallos y hojas
Variable discreta
- Diagrama de barras
- Diagrama de frecuencias acumuladas
Variable continua
- Histograma
- Polı́gono de frecuencias
- Polı́gono de frecuencias acumuladas u ojiva

6
Bioestadı́stica M.A. Amparan, S. Marcaida, A.M. Valle - Estadı́stica descriptiva

1.4 Estadı́sticos

1.4.1 Estadı́sticos de tendencia central


Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con
un solo número. Este número que se define para tal fin es un estadı́stico de tendencia central.
• Media aritmética a partir de los valores observados:
Pn
x1 + . . . + xn xi
x̄ = = i=1
n n
Media aritmética a partir de la tabla estadı́stica:
Pk
x1 f1 + . . . + xk fk i=1 xi fi
x̄ = =
n n
xi representa los valores de la variable si los datos no se agrupan en intervalos, o bien las
marcas de clase si los datos se agrupan en intervalos.
• Mediana = M e = valor de la variable que deja por debajo de sı́ al 50 % de las observa-
ciones
Si n es par, es la media de las dos observaciones situadas en la mitad

x1 , . . . , x n2 , x n2 +1 , . . . , xn
x n2 + x n2 +1
Me =
2
Si n = 2k + 1 es impar, es la observación que ocupa el valor situado en la mitad

x1 , . . . , xk , xk+1 , . . . , xn
M e = xk+1 = x n+1
2

Ejemplo 0.4 Supongamos que la variable toma valores (n impar)

2−2−2−3−3−4−5−6−7

Me = 3
Ejemplo 0.5 Supongamos que la variable toma valores (n par)

2−2−2−3−3−4−5−6−7−7
3+4
Me =
= 3,5
2
• Moda = M o = valor de la variable que tiene máxima frecuencia.
1.4.2 Estadı́sticos de posición
Estamos interesados en valores de la variable que nos indican cierta posición, en el sentido de
que están caracterizados por superar a cierto porcentaje de observaciones.
• Percentiles: p1 , . . . , p99 . Dividen al conjunto de observaciones en 100 partes que son
aproximadamente iguales.
pj : percentil j-ésimo = valor tal que aproximadamente el j % de los valores de la variable
son menores o iguales que dicho valor.
Pasos a seguir:
jn
a) Calculamos
100
b) Observamos la columna de las Fi . Dos posibilidades

7
Bioestadı́stica M.A. Amparan, S. Marcaida, A.M. Valle - Estadı́stica descriptiva

jn
◦ Si Fi < < Fi+1
100
pj = xi+1 = valor de la variable que le corresponde como frecuencia Fi+1

jn
◦ Si Fi =
100
xi + xi+1
pj =
2
• Deciles: d1 , . . . , d9 . Dividen al conjunto de observaciones en 10 partes que son aproxima-
damente iguales.
• Cuartiles: q1 , q2 , q3 . Dividen al conjunto de observaciones en 4 partes que son aproxima-
damente iguales.
1.4.3 Estadı́sticos de dispersión
Estamos interesados en estudiar la variabilidad. Hay observaciones que están próximas a la
media y otras no. Necesitamos una medida (estadı́stico) que detecte la extensión de la variabi-
lidad de forma que cuando los datos estén agrupados cerca de la media, su valor sea pequeño;
cuando los datos estén bastante alejados de la media, su valor sea grande.
• Rango = R = xn − x1
• Rango intercuartı́lico = RI = q3 − q1
• Varianza muestral a partir de los valores observados:
Pn
2 (x1 − x̄)2 + . . . + (xn − x̄)2 (xi − x̄)2
sn = = i=1
n n
Varianza muestral a partir de la tabla de frecuencias:
Pk
(x1 − x̄)2 f1 + . . . + (xk − x̄)2 fk i=1 (xi − x̄)2 fi
s2n = =
n n
Fórmula de cálculo para s2n :
Pk
x2i fi
s2n = − x̄2
i=1
n
• Cuasivarianza a partir de los valores observados:
Pn
2 (x1 − x̄)2 + . . . + (xn − x̄)2 − x̄)2
i=1 (xi
s = =
n−1 n−1
Cuasivarianza a partir de la tabla de frecuencias:
Pk
2 (x1 − x̄)2 f1 + . . . + (xk − x̄)2 fk − x̄)2 fi
i=1 (xi
s = =
n−1 n−1
Fórmula de cálculo para s2 :
Pk
2 i=1 x2i fi − nx̄2
s =
n−1
p
• Desviación tı́pica muestral = sn = s2n

• Cuasidesviación tı́pica muestral = s = s2
sn
• Coeficiente de variación = CV = 100 %

Se tiene la siguiente relación:
ns2n = (n − 1)s2

8
Bioestadı́stica M.A. Amparan, S. Marcaida, A.M. Valle - Estadı́stica descriptiva

1.4.4 Estadı́sticos de forma


Estamos interesados en saber si los datos se distribuyen de forma simétrica con respecto a un
valor central, o bien si la gráfica que representa la distribución de frecuencias es de una forma
diferente del lado derecho que del lado izquierdo.
El principal de estos estadı́sticos es el coeficiente de asimetrı́a de Fisher, pero su cálculo es
muy engorroso.
m3 Pk
(x −x̄)3 fi
• g1 = 3 , donde m3 = i=1 ni
sn
Basándonos en que si una distribución es simétrica y unimodal, entonces la media, la me-
diana y la moda coinciden, podemos definir otras medidas, como por ejemplo el sesgo, para
distribuciones acampanadas y ligeramente asimétricas.
x̄ − M o
• Sesgo = ν =
sn

9
Bioestadı́stica M.A. Amparan, S. Marcaida, A.M. Valle - Estadı́stica descriptiva

1.5 Datos agrupados*


En muchos casos la información de los datos viene representada en intervalos o clases.

Mediana
Se calcula el intervalo mediano o intervalo que contienen al mediana observando la columna
de las frecuencias absolutas acumuladas: (li , li+1 ]
n
− Fi−1
M e ' li + 2 ai
fi
li : extremo inferior del intervalo que contiene a la mediana
n: número de observaciones
Fi−1 : frecuencia absoluta acumulada del intervalo anterior al que contiene a la mediana
fi : frecuencia absoluta del intervalo que contiene a la mediana
ai : amplitud del intervalo que contiene a la mediana
Moda
Se calcula el intervalo modal o intervalo que tiene mayor número de observaciones por unidad
fi
de amplitud. Se corresponde con el intervalo que tiene mayor .
ai
 
fi fi−1

ai ai−1
M o ' li +     ai
fi fi−1 fi fi+1
− + −
ai ai−1 ai ai+1
li : extremo inferior del intervalo modal
fi : frecuencia absoluta del intervalo modal
ai : amplitud del intervalo modal
fi−1 : frecuencia absoluta del intervalo anterior al intervalo modal
ai−1 : amplitud del intervalo anterior al intervalo modal
fi+1 : frecuencia absoluta del intervalo siguiente al intervalo modal
ai+1 : amplitud del intervalo siguiente al intervalo modal

10

Você também pode gostar