Você está na página 1de 13

Programacin Dinmica

Probabilstica
Introduccin
La programacin dinmica probabilstica
(PDP) difiere de la programacin dinmica
determinstica (PDD) en que
Las condiciones y resultados en cada etapa no son
fijos, sino que tienen un componente de
aleatoriedad
Se hace uso de conceptos de probabilidad en la
obtencin de su solucin
Presentaremos la PDP mediante algunos
problemas prototipo
Un juego de azar
Una variante del juego de ruleta requiere que se gire
una rueda marcada con los nmeros de 1 a n
La probabilidad de que la rueda se detenga en un
nmero i despus de hacerla girar es p
i
Un jugador paga $x para tener derecho a girar la
rueda hasta m veces
El jugador obtiene como ganancia el doble del
nmero que obtiene cuando gira por ltima vez
Suponiendo que el juego se repite un nmero grande
de veces, queremos disear una estrategia ptima
para el jugador
Planteamiento general
Para poner el problema en trminos de
PD, consideremos lo siguiente:
La etapa i corresponde a la i-sima vuelta
de la rueda, i = 1, 2, , m
En cada etapa hay dos alternativas: se gira
la rueda una vez ms o se termina el juego
El estado j del sistema en la etapa i es el
nmero que se obtuvo la ltima vez que se
gir la rueda, el cual est entre 1 y n
Planteamiento general
Sea f
i
(j) = Ganancia mxima esperada
dado que el juego est en la etapa i y
que el resultado de la ltima vuelta fue
j, entonces


( )
( )
1
1
2 , si termina
max
, si contina
n
i
k i
k
j
f j
p f k
+
=

Planteamiento general
La ecuacin recursiva es entonces
( )
( )
1
1
2 , si termina
max , 2,...,
, si contina
n
i
k i
k
j
f j i m
p f k
+
=

= =

( )
1
2
m
f j j
+
=
( ) ( )
1 2
1
0
n
k
k
f p f k
=
=

Planteamiento general
Los clculos comienzan con f
m+1
y
terminan con f
1
, de modo que hay m+1
etapas
f
1
(0) representa el rendimiento
esperado de las m vueltas, as que el
rendimiento esperado neto, R
n
, es
( )
1
0
n
R f x =
Ejemplo
Supongamos que la ruleta est marcada con
los nmeros 1 a 5 y que las probabilidades de
que se detenga en cada nmero son p
1
=
0.30, p
2
= 0.25, p
3
= 0.20, p
4
= 0.15, p
5
=
0.10
El jugador paga $5 por un mximo de cuatro
vueltas
Determine la estrategia ptima para cada una
de las cuatro vueltas y encuentre el
rendimiento esperado neto asociado
Ejemplo
Etapa 5 f
5
(j) = 2j
Resultado de la
vuelta 4 Solucin ptima
j f
5
(j) Decisin
1 2 Terminar
2 4 Terminar
3 6 Terminar
4 8 Terminar
5 10 Terminar
Ejemplo
Etapa 4
f
4
(j) = max{2j,
Suma(p
k
f
5
(k))}
=
max{2j,5}
Resultado de
la vuelta 4
Rendimiento
esperado
Solucin
ptima
j Terminar Girar f
4
(j)
Decisin
1 2 5 5
Girar
2 4 5 5
Girar
3 6 5 6
Terminar
4 8 5 8
Terminar
5 10 5 10
Terminar
Ejemplo
Etapa 3
f
3
(j) = max{2j,
Suma(p
k
f
4
(k))}
= max{2j,6.15}
Resultado de la
vuelta 3 Rendimiento esperado Solucin ptima
j Terminar Girar f
4
(j) Decisin
1 2 6.15 6.15 Girar
2 4 6.15 6.15 Girar
3 6 6.15 6.15 Girar
4 8 6.15 8 Terminar
5 10 6.15 10 Terminar
Ejemplo
En la etapa 1 debe girar. Su ganancia esperada es de 7.31
Etapa 2
f
2
(j) = max{2j,
Suma(p
k
f
3
(k))}
= max{2j,6.8125}
Resultado de la
vuelta 3 Rendimiento esperado Solucin ptima
j Terminar Girar f
4
(j) Decisin
1 2 6.8125 6.8125 Girar
2 4 6.8125 6.8125 Girar
3 6 6.8125 6.8125 Girar
4 8 6.8125 8 Terminar
5 10 6.8125 10 Terminar
Ejemplo
Vuelta nmero Estrategia ptima
1 Comienza el juego. Gire
2
Contine si la vuelta 1 produce 1,2,
o 3; de otra forma, termine
3
Contine si la vuelta 2 produce 1, 2
o 3; de otra forma, termine
4
Contine si la vuelta 3 produce 1 o
2. De otra forma, termine

Você também pode gostar