Escolar Documentos
Profissional Documentos
Cultura Documentos
Notas
Indice
1. OBJETIVOS ...................................................................................................................................................... 1
2. MEDIDAS DE DESCRIPCIÓN DE UNA VARIABLE ALEATORIA.................................................................................... 1
3. DESIGUALDAD DE CHEBYCHEV ......................................................................................................................... 9
1. Objetivos
• Obtener e interpretar los índices estadísticos descriptivos basados en momentos
• Obtener e interpretar los índices estadísticos, basados en ordenaciones
• Conocer cuáles son los índices estadísticos adecuados para describir una variable aleatoria
X ni fi
x1 n1 f1
xk nk fk
Entonces, para datos agrupados, la media se calcula como:
n
∑x n i i
x= i =1
n
y si las medidas no están agrupadas en una tabla:
n
∑x i
x= i =1
n
Algunos inconvenientes de la media son:
• Es muy sensible a los valores extremos de la variable: ya que todas las observaciones intervienen
en el cálculo de la media, la aparición de una observación extrema, hará que la media se desplace
en esa dirección. No es recomendable usar la media como medida central en las distribuciones muy
asimétricas;
• Si consideramos una variable discreta, el valor de la media puede no pertenecer al conjunto de
valores de la variable (por ejemplo si tiene decimales, al tratarse de un cálculo aritmético)
2.1.2. Medias generalizadas
Media geométrica
La media geométrica es la raíz n -ésima del producto de los valores de la variable:
xg = n x1 x2 xn
Es decir, la media geométrica es igual al antilogarítmo de la media aritmética de los logaritmos de los
valores de la variable, ya que:
log x1 + log x2 + + log xn
log xg =
n
La media geométrica se suele emplear para promediar porcentajes, tasas y números índices.
Media armónica
La media armónica se define como el recíproco de la media aritmética de los recíprocos:
1 1 1
+ + +
1 x1 x2 xn
=
xa n
n
xa =
1 1 1
+ + +
x1 x2 xn
Se suele utilizar para promediar velocidades, rendimientos y en general magnitudes expresadas en términos
relativos.
Media cuadrática
La media cuadrática es la raíz cuadrada de la media aritmética de los cuadrados:
n
− N i −1
M ed = li −1 + 2 ai
ni
Propiedades de la mediana:
• Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas, ya
que no depende de los valores que toma la variable, sino del orden de las mismas. Por ello es
adecuado su uso en distribuciones asimétricas;
• Es de cálculo rápido y de interpretación sencilla;
• A diferencia de la media, la mediana de una variable discreta es siempre un valor de la variable que
estudiamos (por ejemplo, la mediana de una variable número de hijos toma siempre valores
enteros, no así la media).
Moda
Es cualquier máximo relativo de la distribución de frecuencias, es decir, cualquier valor de la variable que
posea una frecuencia mayor que su anterior y su posterior.
2
Propiedades de la moda:
• Es muy fácil de calcular;
• Puede no ser única.
lk −1 − lk xk nk Nk
n k
Media x1 + x2 + + xn ∑ xi n1 x1 + n2 x2 + + nk xk ∑x n i i
x= = i=1 x= = i =1
N N N N
Primera observación que deja debajo de sí
N N
estrictamente a las observaciones menores: − N i −1
Mediana 2 M ed = li −1 + 2 ai
M ed = x N ni
+1
2
n1′ − n1′−1
M oda = xi de mayor frecuencia M oda = li −1 + ai
Moda
( n′ − n′ ) + ( n′ − n′ )
1 1 −1 1 1+1
3
M ed = P50
(
En el caso de una variable continua, el intervalo donde se encuentra Pk ∈ li −1 , li se calcula buscando el
que deja debajo de si al k % de las observaciones.
k
n − N i −1
Pk = li −1 + 100 ai
ni
En general, el cálculo de los cuantiles (datos ordenados) se basa en la fórmula:
α n − N i −1
Cα = Li −1 +
ni
(L − L )
i i −1
Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes iguales, son
un caso particular de los percentiles:
Q1 = P25
Q2 = P50 = M ed
Q3 = P75
Los deciles son los nueve valores que dividen al conjunto de datos ordenados en diez partes iguales, son
también un caso particular de los percentiles,
Di = P10 i i = 1, 2, ,9
2.3.1. Varianza
Se define como la media de las diferencias cuadráticas de n puntuaciones con respecto a su media
aritmética:
1 n
s2 = ∑
n i=1
( xi − x ) 2
4
2.3.2. Desviación típica
Si queremos que la medida de dispersión sea de la misma dimensionalidad que las observaciones basta
con tomar su raíz cuadrada. Por ello se define la desviación típica,
s ∼ s2
Propiedades de la varianza y desviación típica
• Ambas son sensibles a la variación de cada una de las puntuaciones, es decir, si una puntuación
cambia, cambia con ella la varianza. La razón es que si miramos su definición, la varianza es
función de cada una de las puntuaciones.
• No es recomendable el uso de ellas, cuando tampoco lo sea el de la media como medida de
tendencia central.
• La desviación típica tiene la propiedad de que en el intervalo
def
( x − 2 s, x + 2 s ) ∼ x ± 2s
se encuentra, al menos, el 75 % de las observaciones. Ese porcentaje puede llegar a ser del 95% si
la distribución es normal
∑ x −x i ni
Dx = i =1
n
Si toma valores grandes significa que los valores de la variable se distribuirán en valores alejados de la
media.
∑ x −M i ed ni
DM ed = i =1
n
Si DM ed es grande los valores están dispersos respecto de la mediana.
5
debe ser siempre positiva. De ahí que sólo debemos trabajar con variables positivas, para las que
tenemos con seguridad una media positiva.
• No es invariante ante cambios de origen. Es decir, si a los resultados de una medida le sumamos
una cantidad positiva, b > 0 , para tener y = x + b , entonces CVy < CVx .
• Es invariante a cambios de escala (por ej. el CV de una variable medida en m es una cantidad
adimensional que no cambia si la medición se realiza en cm).
Rango intercuartílico
0.01
Rango
0.00
ma68
1 n p
µp = ∑ xi
n i=1
2.4.1. Momentos respecto al origen (no centrados)
6
n
∑x i
p
ni
mp = i =1
n
Casos particulares:
n
∑x 0
i ni
n
m0 = i =1
= =1
n n
n
∑x n 1
i i
m1 = i =1
=x
n
2.4.2. Momentos respecto a la media (centrados)
∑ (x − x ) i
r
ni
mr = i =1
n
Casos particulares:
n
∑(x − x )
0
i ni
n
m0 = i =1
= =1
n n
n
∑(x − x ) n
1
i i
m1 = i =1
= x−x = 0
n
n
∑(x − x )
2
i ni
m2 = i =1
= σ2
n
2.4.3. Relación entre los momentos centrados y no centrados
La ecuación general que permite convertir un momento de orden n respecto al origen en un momento
centrado es
n
n
µn = ∑ ( −1)
n −i
µi′ x n − i
i i =1
donde x es la media de la distribución; y
µi′ es el momento de orden i respecto al origen.
7
Esta nueva variable carece de unidades y permite hacer comparables dos medidas que en un principio no lo
son. También es aplicable al caso en que se quieran comparar individuos semejantes de poblaciones
diferentes.
∑ (x − x )
i
3
ni
m3
g1 = i =1
3
=
ns s3
Indice de Yule–Bowley
Es un índice basado en 3 cuartiles, que varía entre –1 y 1:
As =
( Q3 − Q2 ) − ( Q2 − Q1 )
Q3 − Q1
Indice “media-mediana/desviación típica”
3 ( x − M ed )
As =
s
Coeficiente de asimetría de Pearson
x − M oda
As =
s
2.5.2. Coeficiente de apuntamiento o curtosis
Miden la mayor o menor cantidad de datos que se agrupan en torno a la moda. Solo tienen sentido en
distribuciones campaniformes, es decir, unimodales simétricas o ligeramente asimétricas.
8
Coeficiente de apuntamiento de Fisher
n
∑ (x − x )
i
4
ni
m4
g2 = i =1
4
−3 = −3
ns s4
donde m4 es el momento empírico de cuarto orden.
Se trata de un coeficiente adimensional, invariante ante cambios de escala y origen. Sirve para medir si una
distribución de frecuencias es muy apuntada o no. Para decir si la distribución es larga y estrecha, hay que
tener un patrón de referencia. El patrón de referencia es la distribución normal o gaussiana, para la cual
m4
= 3 , con lo cual g 2 = 0 .
σ4
Atendiendo a g 2 , las distribuciones se clasifican en:
3. Desigualdad de Chebychev
Para cualquier conjunto de datos (de una población o una muestra) y cualquier constante k mayor que 1, el
porcentaje de los datos que debe caer dentro de k -veces la desviación típica de cualquier lado de la media
1 1
es de por lo menos 1 − 2
. Es decir, al menos el 100 1 − 2 % de los datos se encuentran en el intervalo
k k
( x − k sx , x + k sx ) para k > 1 .
El teorema de Chebychev se aplica a cualquier tipo de datos, pero sólo nos indica “por lo menos qué
porcentaje” debe caer entre ciertos límites.
• Si k = 2 , al menos el 75 % de observaciones se encuentra en el intervalo ( x − 2 s x , x + 2 sx ) ;
9
(a) aproximadamente el 68 % de los valores caerán dentro de una desviación típica de la media, esto
es: ( x − σ , x + σ )
(b) aproximadamente el 95 % de los valores caerán dentro de dos desviaciones típicas de la media,
esto es: ( x − 2 σ , x + 2 σ )
(c) aproximadamente el 99,7 % de los valores caerán dentro de tres desviaciones típicas de la media,
esto es: ( x − 3σ , x + 3σ )
Basándonos en el teorema de Chebychev con k = 2 , ¿qué podemos decir del tamaño de nuestro error, si
vamos a usar la media de una muestra aleatoria de tamaño n = 64 para estimar la media de una población
infinita con σ = 20 ?
Sustituyendo n = 64 y σ = 20 en la fórmula apropiada para el error estándar de la media, se obtiene:
20
σx = = 2,5
64
y, por el teorema de Chebychev, se puede afirmar que como mínimo 1 − 1 = 0, 75 que el error será
22
menor que k σ x = 2 × 2,5 = 5 . Es decir que tenemos una garantía de que en el 75 % de los casos la
media de la población estará entre la media calculada ± 5 .
10