Você está na página 1de 43

CURSO

ESTADISTÍCA GENERAL
UNIDAD 1: MEDIDAS
DE CENTRALIZACIÓN

DOCENTE: HEBERT
CASTILLO PAREDES
PASCO, 2019
MEDIDAS DE TENDENCIA CENTRAL

Estudiaremos algunas estadísticas que serán utilizadas para representar el


centro o promedio de un conjunto de datos.
Consideremos en adelante que contamos con conjunto de n datos: x 1 ,
x 2 , ..., x n , que recordemos representan las mediciones de una variable
tomadas a n elementos de una muestra o una población.
La Media La media (aritmética) es la suma de todos los datos dividido
por el nu´mero de datos. Se suele denotar por una letra con una barra
encima ( x¯). La media muestral presenta las mismas unidades que los
valores de la muestra x 1 , x 2 , ..., x n .

𝑥𝑖 𝑥 1 +𝑥 2 +⋯+𝑥 𝑛
ത 𝑛𝑖 =1
𝑥=σ =
𝑛 𝑛

.
A CONTINUACIÓN PRESENTAMOS ALGUNAS CARACTERÍTICAS DE LA MEDIA:
La media es calculada tomando en cuenta todos los valores de la
muestra.
La media puede verse fuertemente afectada por la presencia de
valores atípicos (observaciones que son muy grandes o muy
pequeñas con respecto al resto de observaciones).
Es el valor de a que minimiza

n
2
Σ ( xj −a)
j =1

No es válida para variables cualitativas.

PUCP 3 / 48
EJEMPLO (CALIDAD DEL AIRE):

Una forma de evaluar la calidad del aire en un ambiente es medir la


cantidad de material particulado menor de 10 micrómetros, el cual
podría tener efectos nocivos en la salud de
las personas. Suponga que se tienen las siguientes mediciones
en µg/m 3 ( microgramo/metro cúbico), que son las unidades
más utilizadas para medir la calidad de aire, durante 6 días en
una ciudad

39.39 39.12 32.08 29.85 48.25 36.09

La media muestral ser´a


39.39 +39.12 +32.08 +29.85 +48.25 +36.09 3
x¯= =37.46 µg/m
6
CONSIDEREMOS AHORA QUE EL PRIMER VALOR SEA REEMPLAZADO POR UN VALOR
ATÍICO QUEDANDO AHORA EL CONJUNTO DE DATOS COMO:

89.39 39.12 32.08 29.85 48.25 36.09

En R la media de estos datos se obtiene mediante:

> x = c(89.39, 39.12, 32.08, 29.85, 48.25, 36.09)


> mean(x)
[ 1 ] 45.79667

Observamos entonces como un único valor atípico grande puede


tener un gran impacto incrementando considerablemente el valor de
la media.
EN OCASIONES SE PRESENTARÁ EL PROBLEMA QUE NECESITAMOS
CALCULAR LA MEDIA DE UN CONJUNTO DE DATOS EN UNA TABLA
DE FRECUENCIAS. ESTE CÁLCULO SE HARÁ POR:

k
∑ xj nj k
j =1
x¯= =Σ jx jf ,
n j =1

donde la variable toma x1, ..., xk valores distintos; n j


representa la frecuencia de cada uno de estos datos y fj es la
frecuencia relativa de cada dato xj . Esta medida se suele
denominar la media ponderada. Como ejemplo consideremos
nuevamente los datos del ejemplo referente al número de
accidentes por día en un mes. Se tiene que en este mes la
media de accidentes por día es de:
0 ×8 +1 ×11+ 2 ×7 +3 ×2 +4×2
x¯= =1.3
30
LA MEDIANA

La mediana es el valor que ocupa la posición central cuando los


datos se ordenan desde el menor hasta el mayor valor. Si
tenemos un conjunto de datos x1, x2, ..., xn, debemos primero
ordenarlos como

x (1) ≤x (2) ≤....≤x (n) ,

donde x (j ) denota al dato que ocupa la posición j, y luego


calcular la mediana como:
𝑥ҧ
𝑛+1 , si n esimpar
2
𝑀𝑒 = 𝑥𝑛 + 𝑥 𝑛+1
2 2
, si n espar
2
A CONTINUACIÓN PRESENTAMOS ALGUNAS APROXIMADAS CARACTERÍSTICAS DE LA
MEDIANA:
• Aproximadamente el 50 % de los datos es menor a la mediana y el 50
% son mayores.
• La mediana es calculada tomando en cuenta solamente los valor(es)
central(es).
• La mediana no es fuertemente afectada por la presencia de valores
atípicos (se dice por tanto robusta).Eselvalorde a que minimiza

σ𝑛𝑗=1 𝑥𝑗 − 𝑎

Esunamedidaválida paravariablescualitativasordinales.
EJEMPLO:

Consideremos nuevamente los datos de calidad de aire y


calculemos ahora la mediana ordenandoprimeramente estos:
29.85 32.08 36.09 39.12 39.39 48.25.
v
⁄−
Me
Como el número de datos n =6 es par, la mediana será el
promedio de las observaciones centrales
x (3) +x (4) 36.09 +39.12
Me= = =37.605
2 2
Al igual que antes consideremos ahora que la observación
39.39 es reemplazada por 89.39, ordenamos los datos
nuevamente
29.85 32.08 36.09 39.12 48.25 89.39

⁄v
Me
y calculando obtenemos M e = 37.605. Observemos que en este
caso la mediana no es influenciada por el valor atípico.
PUCP 9 / 48
LA MODA

Se define la moda como el valor que m´asserepite en un


conjunto dedatos.
Esta medida es poco usada, pero vale comentar que es la u´nica
medida de tendencia central v´alida para variables cualitativas
nominales.
Ejemplo: Para los datos del estado de la calidad del aire la moda
ser´aModerado. En el ejemplo del nu´merode accidentes por dia la
moda ser´a1. Como ningu´n dato se repite en nuestro u´ltimo
ejemplo no hay moda o si se quiere, como otros autores
manifiestan, existen aqu´ımu´ltiples modas.
CUANTILES

El cuantil p (0 < p < 1) de un conjunto de datos x1 , x2 , ..., xn


es el valor qp tal que el 100p % de los Valores Del conjunto de
datos es menor o igual a este valor y el 100(1 − p) % mayores.
Por ejemplo, el cuantil 0.5, q0.5, ser´a la mediana.
Una convenci´on sencilla para calcular los cuantiles, y que es la que
usaremos en el curso, es la siguiente:
r x (k) +x (k+1)
ı 2 , si k esentero
qp={
ıı
ı› x (k∗) , si k no es entero
Dónde k =np y k∗ es el valor de k redondeado por exceso.
COMO CASOS PARTICULARES DE CUANTILES TENEMOS LOS
SIGUIENTES:
 Los cuartiles: dividen a los datos en 4 partes iguales, se denotan por Q1, Q2
y Q3 que serian los cuantiles 0.25, 0.50 y 0.75.

 Los deciles: dividen a los datos en 10 partes iguales, se denotan por D1, D2,
.... y D9 que serian los cuantiles 0.10, 0.20, ... y 0.90.

 Los percentiles: dividen a los datos en 100 partes iguales, se denotan por P1,
P2, ... y P99 que serian los cuantiles 0.01, 0.02,... y 0.99.
EJEMPLO:

Retomando los datos de calidad del aire, calculemos por


ejemplo los cuantiles q0.25 y q0.75.
Para q0.25 tenemos que k =× 6 0.25 =1.5,así k 2∗=y
entonces q 0.25=x (2) =32.08.
Para q0.75 tenemos que k=6 ×0.75 =4.5, así k =5 y ∗
entonces q 0.75=x =(5)
39.39.
As´ıtenemos que el 25 % de las observacioneses
aproximadamente menor o igual a 32.08 y el 75 % son mayores a
este valor. En forma similar podemos decir que el 75 % de las
observaciones es aproximadamente menor o igual a 39.39 y el 25
% son mayores.
Vale comentar que R posee la función quantile para los cuantiles; sin
embargo, el tipo de convención por defecto en ella es la número 7 (que
es más complicada y uno de los 9 tipos que usa R, siendo la de
nosotros la de tipo 2). Ello no debe de ocasionarnos mayor problema,
pues en todos los casos tal valor es imputado. Además conforme n
crezca todas las convenciones tenderán a darnos el mismo valor.
Veamos en R el cálculo con ambas convenciones de la mediana y
tercer cuartil:
> x = c(39.90, 39.12, 32.08, 29.85, 48.25, 36.09)
> sort(x)
[ 1 ] 29.85 32.08 36.09 39.12 39.39 48.25
> c ( q u a n t i l e ( x , 0. 5 ) , quantile(x,0.5,type=2))
50 50
37.605 37.605
> c (quantile(x ,0.75 ) , quantile(x,0.75,type=2))
75 75
39.3225 39.3900
CURSO
ESTADISTÍCA GENERAL
UNIDAD 2: MEDIDAS DE
DISPERSIÓN. MEDIDAS DE
ASIMETRÍA. MEDIA
ASIMÉTRICA. REGRESIÓN Y
CORRELACIÓN LINEAL

DOCENTE: HEBERT
CASTILLO PAREDES

PASCO, 2019
UNIDAD 2: MEDIDAS DE DISPERSIÓN. MEDIDAS
DE ASIMETRÍA. MEDIA ASIMÉTRICA. REGRESIÓN Y
CORRELACIÓN LINEAL
LA VARIANZA Y LA DESVIACIÓN ESTÁNDAR.
Las medidas de dispersión miden la variabilidad de los valores de un
conjunto de datos. Una de las medidas más utilizadas es la varianza.
Ella se define como:

n n
∑ (x j−x¯) 2
∑ x 2j −nx¯ 2
j =1 j =1
S 2= = .
n −1 n −1
Note que esta medida considera las distancias de cada
observación a la media xj − x¯. Así mientras mayor seala
variabilidad, mayor será el valor de algunas xj− x¯.
La variancia
se considera como una especie de media de estasdistancias al
cuadrado.
EJEMPLO

La varianza de los datos para el ejemplo de la calidad de aire es:

(39.392 +39.122+32.08 2 + 29.852 + 48.252 + 36.092− ×6 37.462


S2 =
6 −1
=42.33
En R esto se obtiene con:

> var(x )
[ 1 ] 42.32759
La variancia puede ser difícil de interpretar debido a que
Está medida en unidades al cuadrado de la variable original. Por
esta razón se suele utilizar con mayor frecuencia la desviación
estándar que es definida como la raíz cuadrada de la varianza

𝑠 = 𝑠2.
esta medida si estará en las mismas unidades que la variable en
estudio.
Ejemplo: Considerando los datos del último ejemplo, la
desviación estándar está dada por

𝑆 = 42.33=6.51

la cual tiene unidades en µg/m 3 .


EL RANGO

Es la distancia entre el valor m´ınimo y el m´aximo

R =x (n) −x (1)

Ejemplo: Considerando los datos del u´ltimo ejemplo, el rango


es dado por

R =x (6) −x (1) =48.25 −29.85 =18.4

En R el procedimiento es:
> d i f f ( ra n g e ( x) )
[ 1 ] 18.4
EL RANGO INTERCUARTÍL

Es la distancia entre el primer y tercercuartil

R I C =Q −Q
3 1

Entre el primer y tercer cuantil est´an contenidas el 50 % de las


observaciones, donde hemos descartado el 25 % de las
observaciones m´asgrandes y el 25 % de las m´aspequen˜as.
Esta es una medida alternativa al rango que no se ve afectada
por valores extremos y que puede ser utilizada incluso en
variables cualitativas ordinales..
Ejemplo: Considerando los datos del u´ltimo ejemplo, el rango
intercuartílico está dado por

R I C =39.39 −32.08 =7.31


EL COEFICIENTE DE VARIABILIDAD

El coeficiente de variabilidad es definido como la raz´on


porcentual entre la desviaci´on est´andar y lamedia,

S
CV =100 ×

ASIMETRÍA
UN COEFICIENTE PARA MEDIR CURTOSIS ES EL DE
PEARSON, EL CUAL ESTÁ DEFINIDO POR:

0.5(Q3 −Q 1 )
κ=
D 9 −D 1
Si κ=0.25 los datos son mesocúrticos, si κ>0.25 los datos son
leptocúrticos y si κ<0.25 los datos son Platicúrticos.
Otra medida para medir curtosis es dada por la de Fisher
n
1
n ∑ (x j −x¯) 4
j =1
γ2 = .
S4
En este caso γ 2 =3 indica que los datos sonmesocu´rticos,
γ 2>3 indica que los datos son leptocúrticos y γ 2<3 indica que
los datos son platicúrticos.
TRATAMIENTO CON DATOS AGRUPADOS
Ejemplo
LA COVARIANZA Y LA CORRELACIÓN LINEAL DE PEARSON
EJEMPLO
ANÁLISIS DE REGRESIÓNLINEAL
EJEMPLO:

Você também pode gostar