Probabilidad y Estadística 2011-1 Acordeon 1

Probabilidad y Estadística
B Macías, F Ciencias 2011-1

ACORDEÓN 1 (MUY beta)
I.1 Nociones Básicas
Definición frecuentista de probabilidad: la probabilidad de un evento es la

proporción de veces que sucede en el largo plazo respecto al total de
experimentos / observaciones.
Ejemplos:
la probabilidad de que llueva es del 15%
la probabilidad de que el auto arranque a -20 C es 0.38
Luego veremos que es posible probar (ley grandes números) que en el muy largo
plazo (aún por definir) la probabilidad calculada converge a su probabilidad
real)
Nótese que para los frecuentistas la probabilidad de un evento es un número

real, al que aproximamos usando técnicas diseñadas para eso.
Antes de proceder al cálculo de probabilidades es necesario iniciar con una

conceptualización del fenómeno a estudiar. Lo primero que notamos es que el
cálculo de la probabilidad de que un evento E resulte de tal o cual manera debe
de contrastarse con la probabilidad de que E ocurra de otra. P. ej., al lanzar
una moneda al aire la probabilidad de que una moneda caiga "águila" (siendo un
poco informales con la notación):
P(E=águila)
es complementaria a la probabilidad de que caiga "sol" (el único otro caso

posible), y si la moneda está bien balanceada, tendremos además la intuición de
que:
P(E=águila) = P(E=sol)
Otro ejemplo sería calcular la probabilidad de que el clima en un cierto dia sea
despejado:
P(E'=despejado)
que dependera de las probabilidades de todos los otros casos bajo consideración
(medio nublado, nublado, etc).
Para comenzar requerimos por tanto definir un espacio de muestra Ω conteniendo

todos los posibles resultados de la observación o experimento bajo estudio:
Ω = { despejado, medio nublado, nublado, lluvioso }
Parecería que podemos entonces concebir la probabilidad P como una función que
tiene como dominio . Esto es demasiado limitado, porque además de los cálculos
anteriores, me gustaría poder escribir combinaciones de circunstancias, como:
P(E'=despejado o medio nublado)

P(E'=no sea despejado)
...
La solución consiste en tomar como dominio de P el conjunto A de subconjuntos de

Ω:
A = { 0, {despejado}, {medio nublado}, {nublado}, {lluvioso},

{despejado, medio nublado}, {despejado, nublado}, ...,
{despejado, medio nublado, nublado},...
{despejado, medio nublado, nublado, lluvioso} }
De este modo podemos escribir "la probabilidad de que el día esté nublado","la
probabilidad de que el día esté nublado o lluvioso", y "la probabilidad de que
el día no esté nublado" respectivamente como:
P({nublado})
P({nublado,lluvioso})
P({nublado}C) = P({despejado,medio nublado,lluvioso})
(en el tercer caso el universo respecto al que se complementa es Ω).
Def. Un espacio de muestra Ω es un conjunto de puntos que define los posibles

resultados de un experimento.
Def. Dado el conjunto A de subconjuntos de Ω, un evento es cualquier A en A.
(Para definiciones más precisas, ver p. ej. Hoel pp. 7-8).
Ejemplo. Sea:
Ω = { despejado, medio nublado, lluvioso }
A puede ser:
A = {
{despejado},
{medio nublado},
{lluvioso},
{medio nublado, lluvioso}
}
y un evento puede ser:
{ medio nublado, lluvioso },
o sea, no despejado.
Nota. Tanto el conjunto vacío 0 como Ω están en A y son por lo tanto eventos.
Definimos ahora la probabilidad de un evento como una función que entrega un

número que indica qué tan probable es que el evento suceda. Por convención, la
probabilidad de un evento imposible (el vacío) es cero y la probabilidad de que
ocurra cualquier resultado en el espacio de muestra Ω es uno. Las propiedades de
esta función de probabilidad se introducen a través de los siguientes tres
axiomas:
Def. Dado A un conjunto de subconjuntos sobre Ω, la función P:A --> R es una

medida de probabilidad si:
1. P(Ω)=1
2. P(A)>=0 para toda A en A
3. Para A0, A1, ... ajenos, P(A0+A1 ...)= Σ P(Ai)
(Usaremos "+" para denotar la unión de conjuntos, "*" para la intersección, el

superíndice c en "Ac" para el complemento).
De los axiomas anteriores se siguen algunos lemas inmediatamente.
Lema.
P(0) = 0
P(Ac) = 1-P(A)
P(B) = P(A*B)+P(Ac*B) para cualquier A, B
P(Σi Ai) = 1-P(Πi Ai)
Si A C B, P(A)<=P(B)
P(A)<=1
Ejercicio. Demostrar.
Ejercicio. Demostrar:
P(A+B) = P(A)+P(B)-P(A*B)
P(A+B+C) = P(A)+P(B)+P(C)-P(A*B)-P(A*C)-P(B*C)+P(A*B*C)
Ejercicio. Generalizar.
Def. Una tripleta (Ω,A,P) define un espacio de probabilidad.

I.II Probabilidad Condicional, Bayes
Probabilidad Condicional
Def. La probabilidad condicional de un evento A dado otro evento B se define

como:
P(A|B) = P(A*B)/P(B)
Justificación: usar la interpretación de probabilidad como frecuencia relativa.
De la definición anterior se deriva uno de los teoremas más importantes en

Probabilidad, y de gran aplicación en muchas áreas de la Computación. Supongamos
que Ω está dividido en una partición {A1,...An}:
A1 + A2 +... + An = Ω, con Ai*Aj=0 para todas i,j,i!=j
Para cualquier B,
P(B) = Σk P(B*Ak)
(la unión de A's es Ω), y:
P(B*Ak) = P(Ak)*P(B|Ak)
por la definición de condicionalidad. De aquí se sigue el famoso:
Teorema de Bayes
P(Ai|B) = P(B|Ai)*P(Ai)/P(B)
ó:
P(Ai|B) = P(Ai)*P(B|Ai)/Σk P(Ak)*P(B|Ak)
Ejemplo (H. Sahai, 1992). Un paciente que no fuma sufre insuficiencia

respiratoria (E). Se sabe que:
E1: condición normal, P(E|E1) = .002, con P(E1)=.991

E2: cáncer de pulmón, P(E|E2) = .9, con P(E2) = .001
E3: sarcoidosis, P(E|E3) = .95, con P(E3) = .008
(Nota: E1, E2, E3 definen una partición de Ω; Σ P(Ei) = 1).

P(E) = P(E|E1)*P(E1)+P(E|E2)*P(E2)+P(E|E3)*P(E3)
= .002*.991+.9*.001+.95*.008
= 0.010482
¿Cuál es el diagnóstico más probable?
P(E1|E) = .1991
P(E2|E) = .859
P(E3|E) = .7251
R: sarcoidosis
Nota: si lo único que se desea es la Ei que maximiza P(Ei|E), el cálculo de P(E)

es innecesario).
Ejercicio. Calcular el espacio de probabilidad. Ya dimos una partición de Ω.

Otra más "completa" es:
Ω = { E1*E, E2*E, E3*E, E1*-E, E2*-E, E3*-E }
Podemos calcular:
P(E1*E) = P(E|E1)*P(E1) = .002*.991 = 0.001982

P(E2*E) = P(E|E2)*P(E2) = .9 * .001 = 0.0009
P(E3*E) = P(E|E3)*P(E3) = .95 * .008 = 0.0076
P(E1*-E) = P(-E|E1)*P(E1) = (1-P(E|E1))*P(E1) = 0.989018

P(E2*-E) ... = .0001
P(E3*-E) ... = .0004
La suma total debe de dar 1. Veamos:
Σ P(Ei*E)+P(Ei*-E)= Σ P(E|Ei)P(Ei)+(1-P(E|Ei))P(Ei)
= Σ P(Ei)
= 1
Ejemplo (falsos positivos). Se administra una prueba a un paciente para ver si

tiene una enfermedad E que tiene el 0.1% de la población. Dicha prueba:
P(Positiva|E) = .99
P(Positiva|-E) = .05
Calcular P(-E|Positiva)
P(-E|Positiva) = P(Positiva|-E)*P(-E)/
(P(Positiva|-E)*P(-E)+P(Positiva|E)*P(E))
= .05 * .999 / ( 0.04995 + .99 * .001 )
= .9805
O sea, aunque la prueba sea muy buena, dado que la incidencia de la enfermedad
es muy baja la inmensa mayoría de los pacientes que dan positivo no tienen la
enfermedad.
Def. Dos eventos A y B son independientes si:
P(A*B) = P(A)*P(B)
Que dos eventos sean independientes significa básicamente que la probabilidad de

que ocurra uno no está relacionada con la del otro. Otra manera de poner esto
es:
Lema. Dos eventos A y B son independientes ssi:
P(A|B) = P(A).
Ejercicio. Comprobar que ambas nociones son equivalentes.
La noción puede extenderse.
Def. Los eventos:
A = {Ai, A2, ... An}
son mutuamente independientes (n>=3) ssi::
1. P(A1*A2*...An) = P(A1)*P(A2)*...P(An)
2. Toda subcolección de eventos {Aj1,Aj2,...Ajk} de A con 2<=k<n, son mutuamente

independientes.
I.III Variables Aleatorias
Sigue una de las definiciones centrales de la probabilidad: la noción de

variable aleatoria. La idea detrás es simplemente tener una función que etiquete
con un número real cada uno de los eventos, para poder así referirnos a los
eventos no directamente, sino a "aquellos que tengan tal o cual etiqueta".
Def. Una variable aleatoria discreta en (Ω,A,P) es una funcion X:
X: Ω -> {x1,x2,...}
sobre un espacio de muestra discreto Ω tal que {x1,x2,...} es un conjunto finito

de reales y el conjunto:
{ω ε Ω | X(ω)=xi}
define un evento para toda xi.
Notas
1. Normalmente X es una función total sobre Ω (está definida para cada punto en
Ω).
2. No es necesario restringir el rango a un conjunto finito; nuestros ejemplos

por ahora estarán sin embargo limitados a esta restricción por lo que una
definición más general es innecesaria.
3. El apelativo de "variable aleatoria" es desafortunado, porque estamos en

realidad definiendo una función y no una variable, y una que además no es
aleatoria. Si el nombre causa confusión, se sugiere cambiarlo en la mente por
otro más adecuado como el de "función de etiquetado"
Notacion: P({ω ε Ω | X(ω)=xi}) se abrevia como P(X=xi).
Ejemplo. Modelemos un experimento en el que un apostador tira al aire tres

monedas, de modo que por cada "águila" que caiga gana un peso y por cada "sol"
pierde uno. El espacio de muestra es inmediato:
Ω = { AAA, AAS, ASA, ASS, SAA, SAS, SSA, SSS }
De aquí definimos una función X que mapee cada punto en Ω a la ganancia final
del jugador:
ω = AAA AAS ASA ASS SAA SAS SSA SSS

X(ω) = 3 1 1 -1 1 -1 -1 -3
Nótese que X funciona exactamente como una función que etiqueta cada punto en el
espacio de muestra de manera que ahora puedo referirme a los eventos en los que
se gana 3 pesos, aquellos en los que pierde 1, etc:
P(X=3)
P(X=-1)
...
La función X está definida para capturar la información que es relevante para el

jugador (¿cuánto se gana o pierde?); podríamos desde luego definirla de otra
manera, pero perderíamos la información necesaria al momento de evaluar las
probabilidades. Esto se ve en el siguiente ejercicio.
Ejercicio. Evaluar P(X=xi) para cada xi en {3,1,-1,3} suponiendo monedas bien

balanceadas y que el resultado de lanzar cada moneda es independiente de los
demás.
Ejemplo (constante). Para Ω arbitraria, puedo definir una variable aleatoria

constante X tal que X(ω)=c para toda ω ε Ω. De este modo,
P(X=c) = P({ω ε Ω|X(ω)=c}) = P(Ω) = 1
y:
P(X=c') = P({ω ε Ω|X(ω)=c'}) = P(0) = 0 para c'!=c

I.IV Funciones de Densidad Discretas
Def. Una función de densidad discreta es la función f respecto a una variable

aleatoria discreta X definida por:
f(x) = P(X=x)
para alguna medida de probabilidad P.
Ejemplo (densidad binomial). Regresemos al ejemplo del jugador y las tres

monedas. bajo las suposiciones indicadas se puede ver fácilmente que:
P(X=3) = 1/8
P(X=1) = 3(1/8)
P(X=-1) = 3(1/8)
P(X=-3) = 1/8
P(X=k) = 0 cuando k no esté en {3,1,-1,-3}
Estas ecuaciones definen exactamente la función de densidad asociada. Este

ejemplo conforma además un patrón muy común en problemas probabilísticos. Veamos
cómo generalizarlo.
Digamos que tenemos un modelo experimental muy sencillo, en el que un

experimento solo puede tener dos resultados: "éxito" (denotado por 1) con
probabilidad p, y "fracaso" (0) con probabilidad (1-p). Al realizar n
experimentos independientes entre sí de este tipo defino implícitamente el
espacio de muestra:
Ω = { 000...00, 000...01, 000...10, ..., 111...10, 111...11 }
compuesto por 2n cadenas binarias, cada una de n dígitos binarios. La pregunta

ahora es: ¿cuál es la probabilidad de obtener exactamente k éxitos en estos n
experimentos? Si X es la variable aleatoria asociada al número de éxitos en cada
ω,
P(X=k)= (# cadenas en Ω con k unos) *

P(en una cadena haya k unos y (n-k) ceros)
Como se vió (ayudantía), el primer factor es el llamado coeficiente binomial

C(k,n)=n!/k!(n-k)!; el segundo factor es (cada experimento es independiente de
los demás):
P(A1...An) = Π P(Ai)
donde k de estas Ai son éxitos, y el resto fracasos. Se sigue:
P(A1...An) = Πk P(Ai=1) Πn-k P(Ai=0)

= pk(1-p)n-k
Por tanto, la densidad asociada a este problema, conocida como la densidad

binomial, es:
f(k) = C(k,n) pk(1-p)n-k para k=0,...,n

f(k) = 0 para cualquier otro valor de k
Notación: Son equivalentes:
f es una función de densidad

f es una distribución
Cuando una variable aleatoria X tiene una densidad con un nombre específico,
también se dice que X tiene una distribución del mismo tipo:
X tiene una densidad binomial
X tiene una distribución binomial

Probabilidad y Estadística 2011-1 Acordeon 1

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Probabilidad y Estadística 2011-1 Acordeon 1

Enviado por

Direitos autorais:

Formatos disponíveis

Probabilidad y Estadística

B Macías, F Ciencias 2011-1

I.1 Nociones Básicas

Definición frecuentista de probabilidad: la probabilidad de un evento es la

Nótese que para los frecuentistas la probabilidad de un evento es un número

Antes de proceder al cálculo de probabilidades es necesario iniciar con una

es complementaria a la probabilidad de que caiga "sol" (el único otro caso

Para comenzar requerimos por tanto definir un espacio de muestra Ω conteniendo

Ω = { despejado, medio nublado, nublado, lluvioso }

P(E'=despejado o medio nublado)

La solución consiste en tomar como dominio de P el conjunto A de subconjuntos de

A = { 0, {despejado}, {medio nublado}, {nublado}, {lluvioso},

(en el tercer caso el universo respecto al que se complementa es Ω).

Def. Un espacio de muestra Ω es un conjunto de puntos que define los posibles

Def. Dado el conjunto A de subconjuntos de Ω, un evento es cualquier A en A.

(Para definiciones más precisas, ver p. ej. Hoel pp. 7-8).

Ω = { despejado, medio nublado, lluvioso }

y un evento puede ser:

{ medio nublado, lluvioso },

Definimos ahora la probabilidad de un evento como una función que entrega un

Def. Dado A un conjunto de subconjuntos sobre Ω, la función P:A --> R es una

(Usaremos "+" para denotar la unión de conjuntos, "*" para la intersección, el

De los axiomas anteriores se siguen algunos lemas inmediatamente.

Def. Una tripleta (Ω,A,P) define un espacio de probabilidad.

Def. La probabilidad condicional de un evento A dado otro evento B se define

Justificación: usar la interpretación de probabilidad como frecuencia relativa.

De la definición anterior se deriva uno de los teoremas más importantes en

A1 + A2 +... + An = Ω, con Ai*Aj=0 para todas i,j,i!=j

(la unión de A's es Ω), y:

por la definición de condicionalidad. De aquí se sigue el famoso:

P(Ai|B) = P(Ai)*P(B|Ai)/Σk P(Ak)*P(B|Ak)

Ejemplo (H. Sahai, 1992). Un paciente que no fuma sufre insuficiencia

E1: condición normal, P(E|E1) = .002, con P(E1)=.991

(Nota: E1, E2, E3 definen una partición de Ω; Σ P(Ei) = 1).

¿Cuál es el diagnóstico más probable?

Nota: si lo único que se desea es la Ei que maximiza P(Ei|E), el cálculo de P(E)

Ejercicio. Calcular el espacio de probabilidad. Ya dimos una partición de Ω.

P(E1*E) = P(E|E1)*P(E1) = .002*.991 = 0.001982

P(E1*-E) = P(-E|E1)*P(E1) = (1-P(E|E1))*P(E1) = 0.989018

La suma total debe de dar 1. Veamos:

Ejemplo (falsos positivos). Se administra una prueba a un paciente para ver si

Def. Dos eventos A y B son independientes si:

Que dos eventos sean independientes significa básicamente que la probabilidad de

Lema. Dos eventos A y B son independientes ssi:

Ejercicio. Comprobar que ambas nociones son equivalentes.

La noción puede extenderse.

Def. Los eventos:

A = {Ai, A2, ... An}

son mutuamente independientes (n>=3) ssi::

2. Toda subcolección de eventos {Aj1,Aj2,...Ajk} de A con 2<=k<n, son mutuamente

Sigue una de las definiciones centrales de la probabilidad: la noción de

Def. Una variable aleatoria discreta en (Ω,A,P) es una funcion X:

sobre un espacio de muestra discreto Ω tal que {x1,x2,...} es un conjunto finito

define un evento para toda xi.

2. No es necesario restringir el rango a un conjunto finito; nuestros ejemplos

3. El apelativo de "variable aleatoria" es desafortunado, porque estamos en

Notacion: P({ω ε Ω | X(ω)=xi}) se abrevia como P(X=xi).

Ejemplo. Modelemos un experimento en el que un apostador tira al aire tres

Ω = { AAA, AAS, ASA, ASS, SAA, SAS, SSA, SSS }

ω = AAA AAS ASA ASS SAA SAS SSA SSS

La función X está definida para capturar la información que es relevante para el

Ejercicio. Evaluar P(X=xi) para cada xi en {3,1,-1,3} suponiendo monedas bien

Ejemplo (constante). Para Ω arbitraria, puedo definir una variable aleatoria

P(X=c) = P({ω ε Ω|X(ω)=c}) = P(Ω) = 1

P(Ai|B) = P(Ai)P(B|Ai)/Σk P(Ak)P(B|Ak)

P(E1E) = P(E|E1)P(E1) = .002*.991 = 0.001982

P(E1-E) = P(-E|E1)P(E1) = (1-P(E|E1))*P(E1) = 0.989018