Você está na página 1de 39

Clculos con el programa R

Introducir el concepto de distribucin normal


Aprender el uso del programa R para realizar
clculos con la distribucin normal
Probabilidad de intervalos
Clculo e interpretacin de cuantiles
Aplicaciones
Criterios diagnstico
Intervalos de normalidad
En muchos casos,
observamos resultados
que presentan una
distribucin simtrica
respecto de la media
muestral.





Las medias muestrales se distribuyen simtricamente alrededor de la media
poblacional, independientemente de la forma de la distribucin de origen.
Las medias muestrales se distribuyen simtricamente alrededor de la media
poblacional, independientemente de la forma de la distribucin de origen.
Las medias muestrales se distribuyen simtricamente alrededor de la media
poblacional, independientemente de la forma de la distribucin de origen.
0.00
0.05
0.10
0.15
0.20
0 5 10 15 20
x
y
La distribucin normal es un modelo estadstico con dos parmetros:
que representa la esperanza (valor medio poblacional) y o que es la raz
cuadrada de la varianza (desviacin estndar).
Nos referiremos a una N(,o).
Grficamente, en el caso N(10,2) seria

=10
o=2
Efecto del valor de
es un parmetro de posicin

Corresponde a la esperanza de la
distribucin (valor medio
poblacional)
0.00
0.05
0.10
0.15
0.20
0 5 10 15 20
seq(0, 20, 0.5)
y
Efecto del valor de o
(desviacin estndar)
o es un parmetro de dispersin

Un valor ms alto indica una mayor
dispersin en los posibles valores.

o
2
corresponde a la varianza de la
distribucin
0.00
0.05
0.10
0.15
0.20
0 5 10 15 20
x
y
La funcin de distribucin corresponde a la P(Xx).
Por ejemplo, para una N(10,2) la probabilidad P(X 12) es:
> x <-12
> mu <-10
> sigma <-2
> pnorm(x,mu,sigma)
[1] 0.8413447
P(X 12) P(X 12)
P(X x)=1-P(X x)
P(X =x)=0
El valor que toma la
funcin de distribucin
en un determinado
punto depende de los
parmetros.
Por ejemplo, P(X12)
ser distinta en
funcin de los
parmetros de la
distribucin de X.
Veamos algunos
ejemplo:
=8 o=2
=14 o=2
=10 o=4
=14 o=4
0.309
0.977
0.691
0.159
Se cumple que
Supongamos una N(14.2, 3.2). Cul es la
probabilidad de observar resultados entre 13 i 15.2?
P(aX b)=P(Xb)-P(Xa)
P(13X 15.2)=P(X15.2)-P(X13)
> a <- 13
> b <- 15.2
> mu <- 14.2
> sigma <- 3.2
> res <- pnorm(b,mu,sigma)-pnorm(a,mu,sigma)
> round(res,2)
[1] 0.27
=8 o=2
=14 o=2
=10 o=4
=14 o=4
0.819
0.533
0.159
0.286
) 12 6 ( s s X P
Una observacin de una
medida que siga una
distribucin normal puede
interpretarse como la suma
de una constante y una
distribucin normal de
esperanza 0, es decir:




Esperamos que un individuo
tenga un valor de .
Sin embargo, al observar una
muestra, los individuos se
distribuyen alrededor de la
media.
i i
i
y
N
N Y
c
o c
o
+ =
)
`

) , 0 (
) , (
) 2 , 0 ( N
i
c
=10
) 2 , 10 ( N
Supongamos que una variable se distribuye segn
una N(12,2). Calculemos P(Y<14):


Si desplazamos la distribucin restando la media,
tendremos una distribucin Z=N(0,2). Calculemos
P(Z<14-12)=P(Z<4)


El resultado es equivalente!!

Podemos especificar el efecto de distintos factores y/o
errores experimentales en un modelo
) , 0 (
) , 0 (
|
o |
o c
c | o
N
N
y
j
ijk
ijk ij j i ijk

+ + + + =
) , 0 ( o c
c | o
N
y
ijk
ijk ij j i ijk

+ + + + =
) , 0 ( o c
c | o
N
y
ijk
ijk j i ijk

+ + + =
) , 0 ( o c
c | o
N
X y
ijk
ijk j j i ijk

+ + + =
El cuantil x
q
corresponde al valor que cumple P(Xx
q
)=q
Supongamos que la concentracin de un metabolito sigue
una distribucin N(100,12). Cul seria el cuantil 95 de esta
distribucin?
Es decir, por debajo de qu valor esperamos encontrar el 95% de los
valores de una muestra?
> q <- 0.95
> mu <- 100
> sigma <- 12
> round(qnorm(q,mu,sigma),1)
[1] 119.7
0.95
0.05
Se conoce como intervalo de normalidad (o de
referencia) (1-o) a los puntos (a,b) que cumplen:
P(Xa)=o/2
P(Xb)=o/2, es decir P(Xb)=1-o/2
En una distribucin normal, corresponde al intervalo
centrado en que cumple P(aXb)=(1-o)

Por lo tanto a ser el cuantil o/2 y b el cuantil 1-o/2
Interpretacin
Los resultados esperados para las observaciones de esta
variable estarn entre a y b con probabilidad 1-o
Consideremos una N(100,4)
El intervalo de referencia que incluye un 95%
de los valores esperados ser:
1-o=0.95, por lo tanto o=0.05 y o/2=0.025
Buscaremos el cuantil 0.025 y el cuantil 0.975
> mu <- 100
> sigma <- 4
> round(c(qnorm(0.025,mu,sigma),qnorm(0.975,mu,sigma)),2)
[1] 92.16 107.84
Podemos introducir los clculos necesarios en una funcin:





Ahora podemos calcular cualquier intervalo de referencia
Ref.Interval <- function(mu,sigma,prob)
{ alfa <- 1-prob
round(c(qnorm(alfa/2,mu,sigma),qnorm(1-alfa/2,mu,sigma)),2)
}
> Ref.Interval(100,4,0.95)
[1] 92.16 107.84
> Ref.Interval(100,4,0.90)
[1] 93.42 106.58
El intervalo de normalidad para una N(100,4) era:
> Ref.Interval(100,4,0.95)
[1] 92.16 107.84
0.95
0.025 0.025
0.975
Se cumple que


La N(0,1) se denomina normal estndar (o tipificada)
Se cumple que
) 1 , 0 (
) , (
N
X
Z
N X

o
|
.
|

\
|

s = s

o
x
Z P x X P
N X
) (
) , (
) 565 . 0 (
3 . 2
54 3 . 55
) 3 . 55 (
) 3 . 2 , 54 (
s =
|
.
|

\
|

s = s

Z P Z P X P
N X
> pnorm(55.3,54,2.3)
[1] 0.714037
> pnorm((55.3-54)/2.3,0,1)
[1] 0.714037
Se cumple que
o
o

q q q
q
q
q
q
z x z
x
q z Z P
q
x
Z P q x X P
+ = =

= s
=
|
|
.
|

\
|

s = s
) (
) (
> q <- 0.95
> mu <- 12
> sigma <- 1.5
> xq <- qnorm(q,mu,sigma)
> zq <- qnorm(q,0,1)
> c(xq,zq,mu+zq*sigma)
[1] 14.467280 1.644854 14.467280
Como hemos visto, el intervalo de normalidad (1-o) es:


Si recordamos que

Tenemos

Pero

Por lo tanto, el intervalo puede ponerse como
) 1 ( ) (
2 / 1 2 /
o
o o
= s s

x X x P
o
q q
z x + =
) 1 ( ) (
2 / 1 2 /
o o o
o o
= + s s +

z X z P
2 / 1 2 / o o
= z z
o
o 2 / 1
z
Supongamos una N(12.1,
1.2). El intervalo de
referencia al 95% es:
Podemos verificar que
obtenemos el mismo
resultado utilizando


o
o 2 / 1
z
> prob <- 0.95
> alfa <- 1-prob
> mu <- 12.1
> sigma <- 1.2
> a <- qnorm(alfa/2,mu,sigma)
> b <- qnorm(1-alfa/2,mu,sigma)
> round(c(a,b),2)
[1] 9.75 14.45
> prob <- 0.95
> alfa <- 1-prob
> mu <- 12.1
> sigma <- 1.2
> zq <- qnorm(1-alfa/2,0,1)
> zq
[1] 1.959964
> round(c(mu-zq*sigma,mu+zq*sigma),2)
[1] 9.75 14.45
Si una determinada caracterstica
sigue una distribucin normal de
media y desviacin estndar o,
entonces para un valor x el z-score
se obtiene como (x-)/o
El z-score es un valor normalizado
que transforma la distribucin
original a una con media 0 i
desviacin estndar 1.
El percentil de un valor x en una
variable con media y d.e. o
puede obtenerse calculando el
percentil de su z-score en una
normal de media 0 y d.e. 1.
Mediante el z-score podemos
comparar la posicin relativa de
valores de varias variables.
Supongamos que en una
poblacin, el peso de los hombres
de una determinada edad tiene
una media de 70 kg. con una d.e.
de 6 kg. Supongamos que para la
misma poblacin, la altura se
ditribuye con una media de 165
cm y una d.e. de 7 cm.
Entonces, un hombre de esta
edad que pese 80 kg. con una
altura de 163 cm, est en el
percentil 95 de peso y el percentil
39 de altura.
Supongamos que en un estudio se determina que la media
de creatinina es de 0.92 mg/dL con una d.e. de 0.33 mg/dL
El intervalo de referencia a partir de estos datos se calcula
(asumiendo distribucin normal) como:





El 95% de los individuos de la poblacin tendrn valores
entre 0.27 y 1.57 mg/dL de creatinina.
o 96 . 1
Supongamos que en una poblacin de sujetos sanos la
distribucin de un metabolito es N(100,5).
En una poblacin patolgica, el metabolito se
encuentra alterado, presentando una distribucin
N(105,4).

Establecimiento de criterios diagnstico
Encontrar un criterio diagnstico que permita clasificar
correctamente al 95% de las personas sanas.
Encontrar un criterio diagnstico que permita clasificar
correctamente al 95% de las personas enfermas.
Esta situacin puede representarse como:
Sanos
N(100,5)
Enfermos
N(105,4)
El criterio diagnstico se
establecer al encontrar un
punto x
d
apropiado para
separar con un error mnimo
a sanos y enfermos.
Valores altos se asociaran a un
diagnstico (+)
Valores bajos se asociaran a un
diagnstico (-)
Sanos
N(100,5)
Enfermos
N(110,4)
x
d
(+) (-)
x
d
(+) (-)
E
S
Especificidad
P(-/S)
x
d
(+) (-)
E
S
Sensibilidad
P(+/E)
Si
S
<
E
la sensibilidad
corresponde a


Por lo tanto, si queremos
una sensibilidad, p.e., de
0.9 hemos de encontrar
el cuantil 0.1 para los
enfermos.
x
d
(+) (-)
E
S
Sensibilidad
P(+/E)
) ( 1 ) ( ) / (
d E d E
x X P x X P E P s = > = +
> muS <- 100
> sigmaS <- 5
> muM <- 110
> sigmaM <- 4
> round(qnorm(0.1,muM,sigmaM),2)
[1] 104.87
Si
S
<
E
la especificidad
corresponde a


Por lo tanto, si queremos
una especificidad , p.e.,
de 0.9 hemos de
encontrar el cuantil 0.9
para los sanos.
) ( ) / (
d S
x X P S P s =
x
d
(+) (-)
E
S
Especificidad
P(-/S)
> muS <- 100
> sigmaS <- 5
> muM <- 110
> sigmaM <- 4
>r ound(qnorm(0.9,muS,sigmaS),2)
[1] 106.41
Si la medida que estamos analizando tiene una distribucin
normal N(,o), entonces la media de n observaciones sigue
una N(,o/n).
Por ejemplo, si X es N(10,3) y tomamos muestra de tamao
15, la media de dichas muestras seguir una distribucin
N(10,3/15).
Podemos comprobar este resultado mediante simulaciones.
Generar muchas muestra de tamao 15 de una N(10,3) y representar
su comportamiento comparndolo con la distribucin esperada
N(10,3/15).
mu<-20
s<-2
curve(dnorm(x,mu,s),10,30, ylim=c(0,0.7))
n<-10
curve(dnorm(x,mu,s/n^0.5),0,40,add=T,col="Blue")
n<-5
curve(dnorm(x,mu,s/n^0.5),0,40,add=T,col="Purple")
n<-3
curve(dnorm(x,mu,s/n^0.5),0,40,add=T,col="Magenta")
Funcin para obtener muestras de una N(,o) y estudiar el
comportamiento de la media de cada muestra
mu <- 10
sigma <- 3
n <- 15
nsamples <- 500
res <- sapply(c(1:5000),f<-function(x)
mean(rnorm(n,mu,sigma)))
hist(res,probability=T)
curve(dnorm(x,mu,sigma/sqrt(n)),6,14,col="red",add=T)
qqnorm(res)
qqline(res)
Curva normal con la probabilidad P(aXb) sombreada








Shadowed.Normal.Plot <- function(a, b, m=10, s=1, add = F, ymax=0.20) {
curve(dnorm(x, mean = m, sd = s), m - 4 * s,m + 4 * s,
add = add, xlab = "X", ylab = "f(x)",ylim=c(0,ymax))
xvals <- seq(a, b, length = 2000)
dvals <- dnorm(xvals, m, s)
polygon(c(xvals, rev(xvals)), c(rep(0, 2000),
rev(dvals)), col = "gray")
abline(h = 0)
}