Você está na página 1de 50

ANALISIS MARKOV

Pengantar

Markov Analysis
• A technique dealing with probabilities of future occurrences with currently known
probabilities
• Numerous applications in
• Business (e.g., market share analysis),
• Bad debt prediction
• University enrollment predictions
• Machine breakdown prediction

TIA 310 2
Pengantar
• Penerapan pemrograman dinamis untuk pemecahan suatu proses keputusan
stokhastik yang dapat dijabarkan oleh sejumlah keadaan yang terhingga.
• Probabilitas transisi antara keadaan dijabarkan dengan sebuah rantai Markov.
• Struktur imbalan dari proses ini juga dijabarkan oleh sebuah matriks dengan elemen-
elemen individual yang mewakili pendapatan (atau biaya) yang dihasilkan oleh
pergerakan dari satu keadaan ke keadaan lainnya.
• Tujuan dari masalah ini adalah menentukan kebijakan optimal yang
memaksimumkan (meminimumkan) pendapatan (biaya) yang diharapkan dari
proses tersebut di panjang tahap-tahap yang terhingga atau tak terhingga.

TIA 310 3
Contoh Petani
• Contoh ini akan dipakai sepanjang bab ini.
• Contoh ini meringkaskan sejumlah penerapan penting dalam bidang sediaan,
penggantian, manajemen arus kas, dan peraturan kapasitas saluran air.
• Setiap tahun, di awal musim tanam, seorang petani menggunakan pengujian kimia
untuk memeriksa kondisi tanah. Bergantung pada hasil pengujian tersebut,
produkstivitas sawah tersebut untuk musim itu dikelompokkan sebagai baik (1),
sedang (2), atau buruk (3).
• Selama bertahun-tahun, petani tersebut melihat bahwa produktivitas tahun
sekarang dapat diasumsikan hanya bergantung pada kondisi tanah tahun lalu.
• Probabilitas transisi di sepanjang periode 1 tahun dari satu keadaan produkstivitas
ke keadaan lainnya dapat direpresentasikan dalam bentuk rantai Markov berikut ini:

TIA 310 4
Contoh Petani
Keadaan sistem tahun depan
1 2 3
Keadaan 1 0,2 0,5 0,3
sistem
2 0 0,5 0,5 = P1
tahun ini
3 0 0 1

• Petani tersebut dapat mengubah probabilitas transisi P1 dengan melakukan


sejumlah tindakan. Umumnya, pupuk dipergunakan untuk memperbaiki
kondisi tanah, yang menghasilkan matriks
1 transisi
2 P2 berikut
3 ini:
1 0,3 0,6 0,1
P2 = 2 0,1 0,6 0,3
3 0,05 0,4 0,55

• Untuk menempatkan masalah ini dari sudut pandang yang tepat, petani tersebut
mengkaitkan suatu fungsi pengembalian laba (atau suatu struktur imbalan)
dengan transisi dari satu keadaan ke keadaan lainnya. Fungsi pengembalian
tersebut dinyatakan sebagai keuntungan atau kerugian dalam periode 1 tahun,
bergantung pada keadaan yang terjadi dalam transisi tersebut.
TIA 310 5
Contoh Petani
• Matriks R1 dan R2 berikut meringkaskan fungsi pengembalian dalam ratusan
dollar yang berkaitan dengan matrik P1 dan P2 secara berturut-turut.
1 2 3
1 7 6 3
R1 = ||rij1||= 2 0 5 1
3 0 0 -1
1 2 3
1 6 5 -1
R2 =||rij2||= 2 7 4 0
3 6 3 -2

• Bagaimana membaca matriks-matriks ini?


• Apa masalah yang dihadapi petani ini?
Apakah kegiatan petani tersebut akan berlanjut untuk sejumlah tahun yang
terbatas (disebut masalah keputusan tahap terhingga) atau praktis
selamanya (masalah keputusan tahap tak terhingga)?

TIA 310 6
Contoh Petani
• Petani tersebut perlu menentukan arah tindakan terbaik yang harus diikuti (gunakan
pupuk atau tidak) dengan diketahui hasil dari pengujian kimia (keadaan sistem).
Proses optimisasi akan didasari oleh maksimasi pendapatan yang diperkirakan.
• Petani tersebut juga tertarik untuk mengevaluasi pendapatan yang diperkirakan yang
dihasilkan dari arah tindakan yang telah ditentukan setiap kali keadaan tertentu
muncul. Misalnya, pupuk dapat dipergunakan setiap kali kondisi tanah buruk
(keadaan 3). Proses pengambilan keputusan dalam kasus ini dikatakan diwakili oleh
kebijakan stasioner (stationary policy).
• Setiap kebijakan stasioner akan dikaitkan dengan satu transisi dan matriks
pengembalian yang berbeda, yang, pada umumnya, dapat dibentuk dari matriks P1,
P2, R1, dan R2. Misalnya, untuk kebijakan stasioner yang menyatakan penggunaan
pupuk hanya ketika kondisi tanah buruk, matriks transisi dan matriks pengembalian
yang dihasilkan, P dan R, secara berturut-turut adalah:

TIA 310 7
Contoh Petani

0,2 0,5 0,3 7 6 3


P= 0 0,5 0,5 R= 0 5 1
0,05 0,4 0,55 6 3 -2

• Bagaimana mendapatkan matriks P dan R itu?


• Apa saja kebijakan stasioner dari masalah petani ini?

TIA 310 8
Model Pemrograman Dinamis Tahap Terhingga
• Petani tersebut merencanakan untuk “pensiun” setelah N tahun.
• Optimalitas di sini didefinisikan sedemikian rupa sehingga petani tersebut akan
mengakumulasikan pendapatan yang diperkirakan tertinggi di akhir N tahun.
• Anggaplah k = 1 dan k = 2 mewakili dua arah tindakan (alternatif) yang tersedia bagi
petani tersebut. Matriks Pk dan Rk mewakili probabilitas transisi dan fungsi imbalan
untuk alternatif k yang diketahui dalam contoh di atas.
• Kita dapat mengekspresikan masalah petani tersebut sebagai sebuah model
pemrograman dinamis (DP) tahap terhingga sebagai berikut.
• Anggaplah bahwa jumlah keadaan untuk setiap tahap (tahun) adalah m (= 3 dalam
contoh petani ini) dan definisikan:
fn(i) = pendapatan optimal yang diperkirakan untuk tahap n, n+1, …, N,
dengan diketahui keadaan sistem (kondisi tanah) di awal tahun n
adalah i.

TIA 310 9
Model Pemrograman Dinamis Tahap Terhingga
• Persamaan rekursif mundur yang mengaitkan fn dan fn+1 dapat ditulis (lihat
gambar di bawah)
 
m 
 
dengan fN+1(j) = 0 untuk semua j f n i   m ax
k 
 pij rij  f n 1 j  , n  1,2,...,N
k k

 j 1 

Tahap n Tahap n + 1

fn(1) 1 1 fn+1(1)

. .
Pi1k. ri1k
. .
. .
Pijk. rijk fn+1 (j)
fn(i) i j
. .
. Pimk. rimk .
. .
fn(m) m m fn+1 (m)

10
Model Pemrograman Dinamis Tahap Terhingga
• Persamaan ini didapat dengan alasan bahwa pendapatan kumulatif, rijk +
fn+1(j), yang dihasilkan dari dicapainya keadaan j di tahap n+1 dari keadaan i di
tahap n terjadi dengan probabilitas pijk.
• Jika vik mewakili pengembalian yang diperkirakan dan dihasilkan dari satu
transisi dari keadaan i dengan diketahui alternatif k, maka vik dapat
diekspresikan sebagai m
k k k
vi   pij rij
• Persamaan rekursif DP itu dapat ditulisj 1sebagai

 
f N i   m ax vi k
k
 m 
 k 
f n i   m axvi 
k 
 pij f n 1 j , n  1,2,...,N  1
k

 j 1 

TIA 310 11
Model Pemrograman Dinamis Tahap Terhingga
• Sebagai contoh, jika pupuk tidak digunakan (k = 1), maka:
v11 = 0,2x7 + 0,5x6 + 0,3x3 = 5,3
v21 = 0x + 0,5x5 + 0,5x1 = 3
v31 = 0x0 + 0x0 + 1x-1 = -1
• Nilai-nilai memperlihatkan bahwa jika kondisi tanah ditemukan baik (keadaan 1) di
awal tahun, satu transisi diperkirakan menghasilkan 5,3 untuk tahun itu. Demikian
pula, jika kondisi tanah sedang (buruk), pendapatan yang diperkirakan adalah 3 (-1)
Contoh 1
• Masalah petani dengan data P1, P2, R1, dan R2. Diasumsikan bahwa horison
perencanaan hanya 3 tahun (N=3).
• Didapatkan nilai-nilai vik adalah:

TIA 310 12
Model Pemrograman Dinamis Tahap Terhingga
i vi1 vi2
1 5,3 4,7
2 3,0 3,1
3 -1,0 0,4
• Tahap 3 (n = 3)
vik Pemecahan optimal
i k=1 k=2 f3(i) k*
1 5,3 4,7 5,3 1
2 3,0 3,1 3,1 2
3 -1,0 0,4 0,4 2
• Tahap 2 (n = 2)
vik+ pi1kf3(1) + pi2kf3(2) + pi3kf3(3) Pemecahan
optimal
i k=1 k=2 f2(i) k*
1 5,3+0,2x5,3+0,5x3,1+0,3x0,4 = 8,03 4,7+0,3x5,3+0,6x3,1+0,1x0,4 = 8,19 8,19 2
2 3,0+0x5,3+0,5x3,1+0,5x0,4 = 4,75 3,1+0,1x5,3+0,6x3,1+0,3x0,4 = 5,61 5,61 2
3 -1,0+0x5,3+0x3,1+1x0,4 = -0,6 0,4+0,05x5,3+0,4x3,1+0,55x0,4 = 2,13 2,13 2

13
Model Pemrograman Dinamis Tahap Terhingga
• Tahap 1 (n = 1)
vik+ pi1kf2(1) + pi2kf2(2) + pi3kf2(3) Pemecahan
optimal
i k=1 k=2 f1(i) k*
1 5,3+0,2x8,19+0,5x5,61+0,3x2,13 = 10,38 4,7+0,3x8,19+0,6x5,61+0,1x2,13 = 10,74 10,74 2

2 3,0+0x8,19+0,5x5,61+0,5x2,13 = 6,87 3,1+0,1x8,19+0,6x5,61+0,3x2,13 = 7,92 7,92 2


3 -1,0+0x8,19+0x5,61+1x2,13 = 1,13 0,4+0,05x8,19+0,4x5,61+0,55x2,13 = 4,23 4,23 2

• Pemecahan optimal memperlihatkan bahwa untuk tahun 1 dan 2, petani tersebut


sebaiknya menggunakan pupuk (k* = 2) tanpa bergantung pada keadaan sistem (kondisi
tanah seperti yang ditunjukkan oleh uji kimia). Tetapi dalam tahun 3, pupuk sebaiknya
hanya digunakan jika sistem tersebut berada dalam keadaan 2 atau 3. Pendapatan total
yang diperkirakan untuk tiga tahun itu adalah f1(1) = 10,74 jika keadaan sistem dalam
tahun 1 adalah baik, f1(2) = 7,92 jika sedang, dan f1(3) = 4,23 jika buruk.
• Pemecahan DP ini disebut juga pendekatan iterasi nilai (value-iteration approach).

14
Model Pemrograman Dinamis Tahap Terhingga
• Masalah petani (horison terhingga) dapat digeneralisasi dengan dua cara.
Pertama, probabilitas transisi dan fungsi pengembalian tidak perlu sama
setiap tahun. Kedua, faktor diskonto dapat dipergunakan terhadap
pendapatan yang diperkirakan dari tahap-tahap yang berturut-turut
sehingga pendapatan f1(i) akan mewakili nilai sekarang dari pendapatan
yang diperkirakan dari semua tahap.
• Generalisasi pertama hanya mengharuskan bahwa nilai pengembalian rijk
dan probabilitas transisi pijk merupakan fungsi tambahan dari tahap yang
bersangkutan, n. Dalam kasus ini, persamaan rekursif DP tersebut menjadi
 
f N i   m ax vi k ,N
k
 m 
 k ,n 
f n i   m axvi
k 
  pij f n 1 j , n  1,2,...,N  1
k ,n

 j 1 

15
Model
• dengan Pemrograman Dinamis Tahap Terhingga

m
vi k ,n
  pijk ,nrijk ,n
j 1
• Generalisasi kedua dicapai sebagai berikut. Anggaplah α (<1) merupakan faktor
diskonto per tahun, yang biasanya dihitung sebagai α = 1/(1+t), dengan t adalah
suku bunga per tahun. Jadi D dollar dalam satu tahun dari sekarang adalah setara
dengan αD dollar sekarang. Pemasukan faktor diskonto akan membuat
persamaan rekursif menjadi:
f N i   m ax vi k
k
 
 m 
 k 
f n i   m axvi  
k 

pij f n 1 j , n  1,2,...,N  1
k

 j 1 
• Secara umum, penggunaan faktor diskonto dapat menghasilkan keputusan
optimum yang berbeda, dibandingkan dengan tidak dipergunakannya faktor
diskonto.

16
Model Pemrograman Dinamis Tahap Terhingga
• Persamaan rekursif DP dapat dipergunakan untuk mengevaluasi setiap
kebijakan stasioner untuk masalah petani ini. Jika kita mengasumsikan
diskonto tidak dipergunakan (yaitu, α = 1), persamaan rekursif untuk
mengevaluasi suatu kebijakan
m
stasioner adalah

f n i   vi 
• dengan pij adalah elemen
pij f n 1 j 
ke-(i,j) dari matriks transisi yang berkaitan engan
j 1

kebijakan tersebut dan vi adalah pendapatan transisi satu langkah yang


diperkirakan dari kebijakan tersebut.
• Misalkan kebijakan stasioner yang menyetakan penggunaan pupuk setiap
kali kondisi tanah adalah buruk (keadaan 3), maka kita memiliki:

0,2 0,5 0,3 7 6 3


P= 0 0,5 0,5 R= 0 5 1
0,05 0,4 0,55 6 3 -2

17
Model Pemrograman Dinamis Tahap Terhingga
• Jadi kita memperoleh
i 1 2 3
vi 5,3 3 0,4

• Dan nilai-nilai fn(i) dihitung


f3(1) = 5,3; f3(2) = 3; f3(3) = 0,4
f2(1) = 5,3 + 0,2x5,3 + 0,5x3 + 0,3x0,4 = 7,98
f2(2) = 3 + 0x5,3 + 0,5x3 + 0,5x0,4 = 4,7
f2(3) = 0,4 + 0,05x5,3 + 0,4x3 + 0,55x0,4 = 2,09
f1(1) = 5,3 + 0,2x7,98 + 0,5x 4,7 + 0,3x 2,09 = 9,87
f1(2) = 3 + 0x7,98 + 0,5x 4,7 + 0,5x 2,09 = 6,39
f1(3) = 0,4 + 0,05x7,98 + 0,4x 4,7 + 0,55x 2,09 = 3,83

18
Model Tahap Tak hingga
• Kita akan menentukan kebijakan jangka panjang optimum dari sebuah
masalah keputusan Markov.
• Evaluasi didasarkan dari sebuah kebijakan berdasarkan maksimasi
(minimasi) pendapatan (biaya) yang diperkirakan per periode transisi.
Misalnya, dalam masalah petani tersebut, pemilih kebijakan terbaik (tahap
tak hingga) didasari oleh pendapatan maksimum yang diperkirakan per
tahun.
• Terdapat dua metode untuk memecahkan masalah tahap tak hingga:
1. Enumerasi (pendaftaran) lengkap, dengan cara mengevaluasi setiap
kebijakan maka pemecahan optimum dapat ditentukan.
Metode ini dapat digunakan hanya jika kebijakan stasioner secara
keseluruhan cukup sedikit untuk perhitungan praktis.
2. Iterasi kebijakan, yaitu menentukan kebijakan optimum dengan
sejumlah kecil iterasi.

19
Metode Enumerasi Lengkap
• Anggaplah bahwa masalah keputusan ini memiliki S kebijakan stasioner,
dan asumsikan bahwa Ps dan Rs adalah transisi (satu langkah) dan matriks
pendapatan yang berkaitan dengan kebijakan ke-s, s = 1, 2, …, S. Langkah-
langkah dari enumerasi adalah sebagai berikut:
Langkah 1: Hitung vis, pendapatan satu langkah (satu periode) yang
diperkirakan dari kebijakan s dengan diketahui keadaan i, i = 1, 2, …, m.
Langkah 2: Hitung πis, probabilitas stasioner jangka panjang dari matriks
transisi Ps yang berkaitan dengan kebijakan s. Probabilitas ini, ketika ada,
dihitung dari persamaan: πsPs  πs
1s   2 s  ...  m s  1

dengan πs = (π1s, π2s,…, πms)


Langkah 3: Tentukan Es, pendapatan yang diperkirakan dari kebijakan s per
langkah transisi (periode), dengan menggunakan rumus: m
s
E   i
s s
vi
i 1

20
Metode Enumerasi Lengkap
Langkah 4: Kebijakan optimum s* ditentukan sedemikian rupa sehingga:
Contoh 1: Masalah petani  
E s*  mdengan
s
ax E s horison perencanaan periode tak hingga
• Di sini ada 8 kebijakan stasioner, yaitu:

Kebijakan Stasioner s Tindakan


1 Tidak menggunakan pupuk sama sekali
2 Menggunakan pupuk tanpa bergantung pada keadaan
3 Gunakan pupuk ketika keadaan 1
4 Gunakan pupuk ketika keadaan 2
5 Gunakan pupuk ketika keadaan 3
6 Gunakan pupuk ketika keadaan 1 atau 2
7 Gunakan pupuk ketika keadaan 1 atau 3
8 Gunakan pupuk ketika keadaan 2 atau 3

TIA 310 21
Metode Enumerasi Lengkap
• Matriks Pk dan Rk untuk kebijakan 3 sampai 8 diturunkan dari matriks untuk
kebijakan 1 dan 2. Karena itu kita memiliki
0,2 0,5 0,3 7 6 3
P1 = 0 0,5 0,5 R1 = 0 5 1
0 0 1 0 0 -1

0,3 0,6 0,1 6 5 -1


P2 = 0,1 0,6 0,3 R2 = 7 4 0
0,05 0,4 0,55 6 3 -2

0,3 0,6 0,1 6 5 -1


P3 = 0 0,5 0,5 R3 = 0 5 1
0 0 1 0 0 -1

0,2 0,5 0,3 7 6 3


P4 = 0,1 0,6 0,3 R4 = 7 4 0
0 0 1 0 0 -1

22
Metode Enumerasi Lengkap
0,2 0,5 0,3 7 6 3
P5 = 0 0,5 0,5 R5 = 0 5 1
0,05 0,4 0,55 6 3 -2

0,3 0,6 0,1 6 5 -1


P6 = 0,1 0,6 0,3 R6 = 7 4 0
0 0 1 0 0 -1

0,3 0,6 0,1 6 5 -1


P7 = 0 0,5 0,5 R7 = 0 5 1
0,05 0,4 0,55 6 3 -2

0,2 0,5 0,3 7 6 3


P8 = k0,1karena
0,6 0,3 R8 = 7 4 0
• Nilai-nilai vi0,05 0,4
itu dapat
0,55
dihitung seperti
6
diberikan
3 -2
dalam tabel berikut
ini:

23
Metode Enumerasi Lengkap
s i=1 i=2 i=3
1 5,3 3 -1
2 4,7 3,1 0,4
3 4,7 3 -1
4 5,3 3,1 -1
5 5,3 3 0,4
6 4,7 3,1 -1
7 4,7 3 0,4
8 5,3 3,1 0,4
• Perhitungan dari probabilitas stasioner tersebut dicapai dengan
menggunakan persamaan:
πsPs = πs
π1 + π2 + … + πm = 1

24
Metode Enumerasi Lengkap
• Sebagai ilustrasi, pertimbangkan s = 2. Persamaan yang berkaitan adalah:
0,3π1 + 0,1π2 + 0,05π3 = π1
0,6π1 + 0,6π2 + 0,4π3 = π2
0,1π1 + 0,3π2 + 0,55π3 = π3
π1 + π2 + π3 = 1
• (Perhatikan bahwa salah satu dari ketiga persamaan pertama adalah
berlebihan.) Pemecahan menghasilkan:
π12 = 6/59, π22 = 31/59, π32 = 22/59
• Dalam kasus ini, pendapatan tahunan yang diperkirakan adalah:
3
 i 2vi 2  59 6 x4,7  31x3,1  22x0,4  2,256
2 1
E 
i 1

• Tabel berikut ini meringkaskan πk dan Ek untuk semua kebijakan stasioner.

25
Metode Enumerasi Lengkap
s π1s π2s π3s Es
1 0 0 1 -1
2 6/59 31/59 22/59 2,256
3 0 0 1 -1
4 0 0 1 -1
5 5/154 69/154 80/154 1,724
6 0 0 1 -1
7 5/137 62/137 70/137 1,734
• Tabel terakhir ini menunjukkan bahwa kebijakan 2 menghasilkan pendapatan
8 12/135 69/135 54/135 2,216
tahunan yang diperkirakan terbesar. Akibatnya, kebijakan jangka panjang
optimum menyatakan penggunaan pupuk tanpa bergantung pada keadaan
sistem.

26
Metode Iterasi Kebijakan Tanpa Diskonto
• Bayangkan jika metode enumerasi lengkap diterapkan untuk masalah petani dengan 4
arah tindakan (bukan dua): tidak menggunakan pupuk, menggunakan pupuk satu kali
selama musim tersebut, menggunakan pupuk dua kali, dan menggunakan pupuk tiga kali.
• Dalam kasus ini, petani tersebut secara keseluruhan memiliki 43 = 256 kebijakan
stasioner. Melakukan enumerasi dari semua kebijakan secara eksplisit bukan hanya sulit,
tetapi juga jumlah perhitungan yang terlibat dalam evaluasi kebijakan ini dapat sangat
besar.
• Karena itu dikembangkan metode iterasi kebijakan sebagai berikut.
• Di bagian sebelumnya sudah diperlihatkan bahwa pengembalian total yang diperkirakan
di tahap n dinyatakan dengan persamaan rekursif:

m
• Persamaan rekursif
f n i  ini
vi  
adalah
Tetapi, bentuk ini harus sedikit
f n 1 j untuk
pij dasar , i  1pengembangan
,2,...,m metode iterasi kebijakan.
dimodifikasi untuk memungkinkan kita untuk mempelajari
j 1
perilaku asimtut dari proses ini.

27
Metode Iterasi Kebijakan Tanpa Diskonto

• Pada intinya, kita mendefinisikan η sebagai jumlah tahap yang tersisa untuk
dipertimbangkan. Ini adalah berbalikan dengan n dalam persamaan di atas,
yang mendefinisikan tahap ke-n. Jadi, persamaan rekursif itu dapat ditulis:
m
  vi  pendapatan
• Catat bahwaffηiadalah pij f 1 j , i  1,2,...,m
kumulatif yang diperkirakan dengan
diketahui η adalah jumlah j 1 tahap yang tersisa untuk dipertimbangkan. Dengan
definisi baru ini, perilaku asimtut dari proses ini dapat diketahui dengan
menganggap η→∞.
• Dengan diketahui bahwa
π = (π1, π2, …, πm)
adalah vektor probabilitas steady state dari matriks transisi P = ||pij|| dan
E = π1v1 + π2v2 + … πmvm
adalah pendapatan yang diperkirakan per tahun seperti dihitung di bagian
sebelumnya, dapat diperlihatkan bahwa untuk η yang sangat besar,
fη(i) = ηE +f(i)

28
Metode Iterasi Kebijakan Tanpa Diskonto

dengan f(i) adalah sebuah bagian konstan yang mewakili titik potong asimtut dari fη(i)
dengan diketahui keadaan i.
• Karena fη(i) adalah pengembalian optimum kumulatif untuk η tahap dengan diketahui
keadaan i dan E adalah pengembalian yang diperkirakan per tahap, kita dapat secara
intuitif melihat mengapa fη(i) sama dengan ηE ditambah faktor koreksi f(i) yang
memperhitungkan keadaan spesifik i. Hasil ini tentu saja mengasumsikan bahwa η
sangat besar.
• Menggunakan informasi ini, persamaan rekursif tersebut dapat ditulis:
m
E  f i   vi   pij   1E  f  j , i  1,2,...,m.
i 1
• Dengan menyederhanakan persamaan di atas, kita memperoleh:
m
E  f i   vi   pij   1E  f  j , i  1,2,...,m.
i 1
• yang menghasilkan m persamaan dan m + 1 variabel yang tidak diketahui, di mana
variabel yang tidak diketahui itu adalah f(1), f(2), …, f(m), dan E.

29
Metode Iterasi Kebijakan Tanpa Diskonto

• Tujuan akhir adalah menentukan kebijakan optimum yang menghasilkan nilai E maksimum. Karena
terdapat m persamaan dengan m+1 variabel yang tidak diketahui, nilai E optimum tidak dapat
ditentukan dalam satu langkah. Sebaliknya, suatu pendekatan iteratif dimanfaatkan yang, dengan
memulai di satu kebijakan secara sembarang, lalu akan menentukan suatu kebijakan baru yang
menghasilkan nilai E yang lebih baik. Proses iteratif tersebut berakhir ketika dua kebijakan yang
berturut-turut adalah identik.
• Proses iteratif ini terdiri dari dua komponen dasar, yang disebut langkah penentuan nilai (value
determination) dan langkah perbaikan kebijakan (policy improvement).
1. Langkah penentuan nilai. Pilihlah satu kebijakan s secara sembarang. Gunakan matriks Ps dan Rs
yang berkaitan dan secara sembarang asumsikan bahwa fs(m) = 0, pecahkan persamaan

m
E  vi   pij s f ss  j   f ss i , i  1,2,..., m
s s s
(b.1)
dengan variabel yang tidak diketahui E , f (1), …, dan f (m-1). Lanjutkan ke tahap perbaikan
j 1
kebijakan.

30
Metode Iterasi Kebijakan Tanpa Diskonto
2. Langkah Perbaikan Kebijakan. Untuk setiap keadaan i, tentukan alternatif k yang menghasilkan:
 m 
 k k s 
s

m axvi  pij f  j , i  1,2,...,m
k adalah nilai-nilai yangditentukan dalam langkah penentuan nilai.]
[Nilai-nilai f (j), j = 1, 2, …, m,
 j 1 
Keputusan optimum yang dihasilkan k untuk keadaan 1, 2, …, m membentuk kebijakan baru t. Jika s
dan t adalah identik, berhenti; t adalah optimum. Jika tidak identik, tetapkan s = t dan kembali ke
langkah penentuan nilai.
• Masalah optimisasi dari langkah perbaikan kebijakan memerlukan penjelasan. Tujuan kita dalam
langkah ini adalah memperoleh max{E}. Seperti diketahui:

m
E  vi   pij f  j   f i
j 1

31
Metode Iterasi Kebijakan Tanpa Diskonto

• Karena f(i) tidak bergantung pada alternatif k, disimpulkan bahwa maksimisasi E di semua alternatif
k adalah setara dengan masalah maksimisasi yang diketahui dalam langkah perbaikan kebijakan.
Contoh: Kita mmecahkan contoh petani tersebut dengan metode iterasi kebijakan.
Iterasi 1
• Kita mulai dengan kebijakan sembarang yang menyatakan tidak diperguna-kannya pupuk. Matriks
yang berkaitan adalah:

0,2 0,5 0,3 7 6 3


• Persamaan dalam langkah iterasi nilai adalah:
P= 0 0,5 0,5 R= 0 5 1
E + f(1) – 0,2f(1) – 0,5f(2) – 0,3f(3) = 5,3 0 0 1 0 0 -1
E + f(2) - 0,5f(2) – 0,5f(3) = 3
E + f(3) - f(3) = -1
• Jika kita secara sembarang menganggap f(3) = 0, persamaan-persamaan tersebut menghasilkan
pemecahan:
E = -1, f(1) = 12,88, f(2) = 8, f(3) = 0

32
Metode Iterasi Kebijakan Tanpa Diskonto
• Selanjutnya, kita menerapkan langkah perbaikan kebijakan. Perhitungan yang
berkaitan diperlihatkan dalam tabel berikut ini.
vik+ pi1kf(1) + pi2kf(2) + pi3kf(3) Pemecahan
optimal
i k=1 k=2 f(i) k*
1 5,3+0,2x12,88+0,5x8+0,3x0 = 11,875 4,7+0,3x12,88+0,6x8+0,1x0 = 13,36 13,36 2
2 3,0+0x12,88+0,5x8+0,5x0 = 7 3,1+0,1x12,88+0,6x8+0,3x0 = 9,19 9,19 2
3 -1,0+0x12,88+0x8+1x0 = -1 0,4+0,05x12,88+0,4x8+0,55x0 = 4,24 4,24 2
• Kebijakan baru ini menyatakan penggunaan pupuk tanpa bergantung pada
keadaan. Karena kebijakan baru ini berbeda dari yang sebelumnya, langkah
penentuan nilai kembali dilakukan.
Iterasi 2
• Matriks yang berkaitan dengan kebijakan baru ini adalah:

0,3 0,6 0,1 6 5 -1


P= 0,1 0,6 0,3 R= 7 4 0
• Matriks ini menghasilkan
0,05 0,4 0,55persamaan-persamaan
6 3 -2 berikut:
E + f(1) – 0,3f(1) – 0,6f(2) – 0,1f(3) = 4,7
TIA 310 33
Metode Iterasi Kebijakan Tanpa Diskonto

E + f(2) – 0,1f(1) – 0,6f(2) – 0,3f(3) = 3,1


E + f(3) – 0,05f(1) – 0,4f(2) – 0,55f(3) = 0,4
• Sekali lagi, dengan menganggap f(3) = 0, kita memperoleh pemecahan:
E = 2,26, f(1) = 6,75, f(2) = 3,79, f(3) = 0
• Perhitungan dalam langkah perbaikan kebijakan diberikan dalam tabel berikut ini:

vik+ pi1kf(1) + pi2kf(2) + pi3kf(3) Pemecahan


optimal
i k=1 k=2 f(i) k*
1 5,3+0,2x6,75+0,5x3,79+0,3x0 = 4,7+0,3x6,75+0,6x3,79+0,1x0 = 8,99 8,99 2
8,54
• Kebijakan 2baru ini, yang menyatakan
3,0+0x6,75+0,5x3,79+0,5x0 penggunaan pupuk=tanpa
= 4,89 3,1+0,1x6,75+0,6x3,79+0,3x0 bergantung
6,05 6,05 2 pada keadaan
adalah identik dengan yang sebelumnya. Jadi, kebijakan terakhir ini optimal dan proses
iteratif berakhir.
3 Secara alamiah,
-1,0+0x6,75+0x3,79+1x0 = -1kesimpulan dengan metode
0,4+0,05x6,75+0,4x3,79+0,55x0 = ini sama
2,25 2 dengan kesimpulan
2,25
yang diperoleh dengan metode enumerasi lengkap.

34
Metode Iterasi Kebijakan Dengan Diskonto

• Dengan diketahui bahwa α (< 1) adalah faktor diskonto, persamaan rekursif tahap terhingga
dapat ditulis sebagai:

 m 
 k 
f i   m axvi  
k 
 pij f 1 j 
k

 j 1
(Perhatikan bahwa η mewakili sejumlah tahap yang masih harus dilalui).
• Dapat dibuktikan bahwa sementara η→∞ (model tahap tak hingga), fη(i) = f(i), dengan f(i)
adalah nilai sekarang (yang didiskonto) dari pendapatan yang diperkirakan dengan diketahui
bahwa sistem tersebut berada dalam keadaan i dan beroperasi dalam horison waktu yang tak
terhingga. Jadi perilaku jangka panjang dari fη(i) sementara η→∞ tidak bergantung dari nilai η.
• Ini berlawanan dengan kasus tanpa diskonto, di mana fη(i) = ηE + f(i), seperti disebutkan di atas.
Hasil ini dapat diperkirkan karena dalam kasus diskonto, pengaruh pendapatan masa
mendatang akan menurun menjadi nol secara asimtut. Pada kenyataannya, nilai sekarang f(i)
akan mendekati nilai konstan sementara η→∞.

35
Metode Iterasi Kebijakan Dengan Diskonto

• Langkah kebijakan iterasi dimodifikasi sebagai berikut.


1. Langkah penentuan nilai. Untuk sebuah kebijakan sembarang s dengan matriks Ps dan Rs,
pecahkan m persamaan:
m
f s
i   vi s
   pij f
s s
 j , i  1,2,..., m (b.2)
j 1
dalam m nilai yang tidak diketahui fs(1), fs(2), …, fs(m). (Catat bahwa di sini terdapat m
persamaan dengan tepat m variabel yang tidak diketahui)
2. Langkah perbaikan kebijakan. Untuk setiap tahap i, tentukan alternatif k yang menghasilkan

 m 
 
di mana fs(j)adalah nilai-nilai
m axvi kyang
dihasilkan t adalah samak dengan


  diperoleh dari langkah
pij k f  penentuan nilai. Jika kebijakan yang
1 , i  1,2 ,...,m
s, berhenti; t optimum.
j
 Jika tidak sama, tetapkan s = t dan kembali
 j 1 
ke langkah penentuan nilai

36
Metode Iterasi Kebijakan Dengan Diskonto

Contoh: Kita akan menyelesaikan contoh terdahulu dengan α = 0,6


• Dengan dimulai dari satu kebijakan sembarang s = {1,1,1}. Matriks P dan R (P1 dan R1 dalam
contoh terdahulu) menghasilkan persamaan:
f(1) – 0,6[0,2f(1) + 0,5f(2) + 0,3f(3)] = 5,3
f(2) – 0,6[ 0,5f(2) + 0,5f(3)] = 3
f(3) – 0,6[ f(3)] = -1
• Pemecahan dari persamaan-persamaan ini menghasilkan:
f(1) = 6,6, f(2) = 3,21, f(3) = -2,5
• Ringkasan iterasi perbaikan kebijakan diberikan dalam tabel berikut ini:

vik+ 0,6[pi1kf(1) + pi2kf(2) + pi3kf(3)] Pemecahan


optimal
i k=1 k=2 f(i) k*
1 5,3+0,6[0,2x6,6+0,5x3,21+0,3x-2,5] = 6,61 4,7+0,6[0,3x6,6+0,6x3,21+0,1x-2,5] = 6,89 6,89 2
2 3,0+0,6[0x6,6+0,5x3,21+0,5x-2,5] = 3,21 3,1+0,6[0,1x6,6+0,6x3,21+0,3x-2,5] = 4,2 4,2 2
3 -1,0+0,6[0x6,6+0x3,21+1x-2,5] = -2,5 0,4+0,6[0,05x6,6+0,4x3,21+0,55x-2,5] = 0,54 0,54 2

37
Metode Iterasi Kebijakan Dengan Diskonto

• Langkah penentuan nilai yang menggunakan P2 dan R2 dalam contoh sebelumnya


menghasilkan persamaan-persamaan berikut:
f(1) – 0,6[0,3f(1) + 0,6f(2) + 0,1f(3)] = 4,7
f(2) – 0,6[0,1f(1) + 0,6f(2) + 0,3f(3)] = 3,1
f(3) – 0,6[0,05f(1) + 0,4f(2) + 0,55f(3)] = 0,4
• Pemecahan dari persamaan-persamaan ini menghasilkan:
f(1) = 8,88, f(2) = 6,62, f(3) = 3,57
• Ringkasan iterasi perbaikan kebijakan diberikan dalam tabel berikut ini:

vik+ 0,6[pi1kf(1) + pi2kf(2) + pi3kf(3)] Pemecahan


optimal
i k=1 k=2 f(i) k*
1 5,3+0,6[0,2x8,88+0,5x6,62+0,3x3,37] = 4,7+0,6[0,3x8,88+0,6x6,62+0,1x3,37] = 8,95 1
8,95 8,88
2 3,0+0,6[0x8,88+0,5x6,62+0,5x3,37] = 3,1+0,6[0,1x8,88+0,6x6,62+0,3x3,37] = 6,62 2
5,99 6,62
3 -1,0+0,6[0x8,88+0x6,62+1x3,37] = 1,02 0,4+0,6[0,05x8,88+0,4x6,62+0,55x3,37] 3,37 2
= 3,37

38
Metode Iterasi Kebijakan Dengan Diskonto

• Karena kebijakan baru {1,2,2} berbeda dengan kebijakan di atas, langkah penentuan nilai
dimasuki kembali dengan menggunakan P8 dan R8 dalam contoh sebelumnya
menghasilkan persamaan-persamaan berikut:
f(1) – 0,6[0,2f(1) + 0,5f(2) + 0,3f(3)] = 5,3
f(2) – 0,6[0,1f(1) + 0,6f(2) + 0,3f(3)] = 3,1
f(3) – 0,6[0,05f(1) + 0,4f(2) + 0,55f(3)] = 0,4
• Pemecahan dari persamaan-persamaan ini menghasilkan:
f(1) = 8,98, f(2) = 6,63, f(3) = 3,38
• Ringkasan iterasi perbaikan kebijakan diberikan dalam tabel berikut ini:

vik+ 0,6[pi1kf(1) + pi2kf(2) + pi3kf(3)] Pemecahan


optimal
i k=1 k=2 f(i) k*
1 5,3+0,6[0,2x8,98+0,5x6,63+0,3x3,38] = 8,98 4,7+0,6[0,3x8,98+0,6x6,63+0,1x3,38] = 8,91 8,98 1
2 3,0+0,6[0x8,98+0,5x6,63+0,5x3,38] = 6,00 3,1+0,6[0,1x8,98+0,6x6,63+0,3x3,38] = 6,63 6,63 2
3 -1,0+0,6[0x8,98+0x6,63+1x3,38] = 1,03 0,4+0,6[0,05x8,98+0,4x6,63+0,55x3,38] = 3,37 3,37 2

39
Metode Iterasi Kebijakan Dengan Diskonto
• Karena kebijakan baru ini {1,2,2} adalah identik dengan kebijakan
sebelumnya, kebijakan ini optimal. Catat bahwa kebijakan diskonto
menghasilkan kebijakan optimal yang berbeda, yang menyatakan tidak
digunakannya pupuk jika keadaan sistem adalah baik (keadaan 1).

40
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov

• Masalah keputusan Markov tahap tak hingga, baik dengan maupun tanpa diskonto,
dapat dirumuskan dan dipecahkan sebagai sebuah program linear.
Masalah Keputusan Markov tanpa diskonto.
• Di bagian seblumhya, sudah diperlihatkan bahwa masalah Markov tahap tak hingga
tanpa diskonto pada akhirnya menyempit menjadi masalah penentuan kebijakan
optimal s*, yang bersesuaian dengan:


m 

sS 

m ax  i vi |  P   , 1   2  ....  m  1,  i  0, i  1,2,...,m
s s s s s s s s s

 i 1 
dengan S adalah kumpulan dari semua kebijakan yang mungkin dalam masalah itu.
Batasan dari masalah ini memastikan bahwa πis, i = 1, 2, …, m mewakili probabilitas
steady-state dari rantai Markov Ps.
• Secara spesifik, setiap kebijakan s dinyatakan dengan sekelompok tindakan yang
tetap (stasioner).
• Kita harus memodifikasi variabel yang tidak diketahui dari masalah ini sedemikian
rupa sehingga pemecahan optimal akan secara otomatis menentukan tindakan
optimal k ketika sistem tersebut berada dalam keadaan i. Kumpulan dari semua
tindakan optimal ini lalu akan mendefinisikan s*, kebijakan optimal.

41
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov

• Tujuan ini dicapai sebagai berikut. Anggaplah


qik = probabilitas kondisional dari memilih alternatif k dengan diketahui sistem
tersebut berada dalam keadaan i
• Jadi, masalah ini dapat diekspresikan sebagai

m  K 
dengan batasan
n E
maksim umka  
 i  qi vi 
k k

i 1  k 1 
m
j    i pij , j  1,2 ,...,m
i 1
1   2  ...   m  1
qi1  qi 2  ...  qi K  1, i  1,2,...,m
 i  0, qi k  0, i dan k
• Catat bahwa pij adalah fungsi dari kebijakan yang dipilih dan karena itu merupakan
fungsi dari alternatif spesifik k dari kebijakan tersebut.

42
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov

• Masalah ini dapat dikonversikan menjadi sebuah program linear dengan


membuat substitusi yang tepat yang melibatkan qik.
• Amati bahwa formulasi tersebut adalah setara dengan masalah semula
hanya jika qik = 1 untuk tepat satu k untuk setiap i, karena hal ini akan
mengurangi jumlah menjadi vik
,Kdiqi kmana
vi k k* adalah alternatif
optimal yang dipilih. k 1

Untungnya, program linear yang kita kembangkan di sini memperhitungkan


kondisi ini secara otomatis.
• Definisikan
wik = πi qik , untuk semua i dan k
• Berdasarkan definisinya, wik mewakili probabilitas gabungan untuk berada
dalam keadaan i dan membuat keputusan k. Dari teori probabilitas kita
mengetahui bahwa:
K
i   wik
k 1

43
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov

• Karena itu
wik
qi k 
K
 wik
k 1

• Jadi kita melihat bahwa batasan m


dapat ditulis sebagai
 i  1
i 1

m K
  wik  1 K

• Juga batasan
i 1 k 1 
secara otomatis
qi k  1
k 1 tersirat berdasarkan cara kita
mendefinisikan qik dalam bentuk wik. Jadi masalah ini dapat ditulis sebagai

m  K 
n E
maksim umka  
 i  qi vi 
k k

i 1  k 1 

44
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov

• dengan batasan
m m K
 w jk    pij k wik  0, j  1,2 ,...,m
i 1 i 1 k 1
m K
  wik  1
i 1 k 1
wik  0 , i  1,2 ,...,m; k  1,2 ,...,K

• Model yang dihasilkan ini merupakan sebuah program linear dalam wik.
• Di sini akan diperlihatkan bahwa pemecahan optimalnya secara otomatis
menjadi qik = 1 untuk satu k untuk setiap i. Pertama, catat bahwa program
linear ini memeliki m persamaan independen (satu persamaan yang berkaitan
dengan π = πP adalah berlebihan). Karena itu, masalah ini harus memiliki m
variabel dasar. Tetapi, dapat diperlihatkan bahwa wik harus positif secara
ketat untuk setidaknya satu k untuk setiap i. Dari kedua hasil ini, kita
menyimpulkan bahwa: w
qi k  ik
K
 wik
k 1

TIA 310 45
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov

hanya dapat memiliki nilai biner (0 atau 1), seperti yang diinginkan. (Pada
kenyataannya, hasil di atas juga memperlihatkan bahwa K di
mana k* adalah alternatif yang bersesuaian dengan wik>0) i   wik  wik
*

k 1
Contoh: Formulasi LP untuk masalah petani tadi tanpa diskonto:
maksimumkan E = 5,3w11 + 4,7w12 + 3w21 + 3,1w22 – w31 + 0,4w32
dengan batasan
w11 + w12 – (0,2w11 + 0,3w12 + 0,1w22 + 0,05w32) = 0
w21 + w22 – (0,5w11 + 0,6w12 + 0,5w21 + 0,6w22 + 0,4w32) = 0
w31 + w32 – (0,3w11 + 0,1w12 + 0,5w21 + 0,3w22 + w31 + 0,55w32) = 0
w11 + w12 + w21 + w22 + w31 + w32) = 1
wik ≥ 0, untuk semua i dan k
• Pemecahan optimalnya adalah w11 = w12 = w31 = 0 dan w12 = 6/59, w22 =
31/59, dan w32 = 22/59. Hasil ini berarti bahwa q12 = q22 = q32 = 1. Jadi,
kebijakan optimal menyatakan dipilihnya alternatif 2 (k = 2) untuk i = 1, 2,
dan 3. Nilai optimal dari E adalah 2,256.

TIA 310 46
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov

• Adalah menarik bahwa nilai-nilai positif dari wik tepat setara dengan nilai-nilai
πi yang berkaitan dengan kebijakan optimal dalam prosedur enumerasi
lengkap. Observasi ini menunjukkan hubungan langsung di antara kedua
metode pemecahan ini.
Masalah Keputusan Markov dengan diskonto.
• Masalah ini diekspresikan dengan persamaan rekursif
 m 
 k 

f i   m axvi  
Persamaan ini
k

pij f  j , i  1,2,...,m
k adalah setaradengan
 j 1 

m

f i   vi  
pij k f  j , i dan k
k
dengan ketentuan bahwa f(i) mencapai nilai minimum untuk setiap i.
j 1
• Sekarang pertimbangkan fungsi tujuan

m
m inim um kan  bi f i 
i 1

47
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov

dengan bi (> 0 untuk semua i) adalah sebuah konstanta sembarang. Dapat


diperlihatkan bahwa optimisasi dari fungsi ini dengan dikenakan
pertidaksamaan yang diberikan akan menghasilkan nilai minimum dari f(i),
seperti yang diinginkan. Jadi masalah ini dapat ditulis sebagai
m
m inim um kan  bi f i 
i 1
dengan batasan

m
f(i) tidak dibatasi,f ii = 1,2,pij…,
k
f  m.
j   vi k , i dan k
j 1
• Sekarang, masalah dual dari masalah ini adalah

48
Pemecahan Pemrograman Linear untuk Masalah Keputusan
Markov

m K
m aksim um ka
n  vi k wik
i 1 k 1
dengan batasan
K m K
 w jk    pij k wik  b j , j  1,2,...,m
k 1 i 1 k 1

wik ≥ 0, untuk i = 1, 2, …, m; k = 1,2, …, K


• Perhatikan bahwa fungsi tujuan ini memiliki bentuk yang sama seperti kasus
tanpa diskonto, sehingga wik dapat diinterpretasikan dengan cara serupa.
Contoh: Contoh petani tadi dengan faktor diskonto α = 0,6. Jika kita
menganggap b1 = b2 = b3 = 1, masalah dual dari LP ini dapat ditulis sebagai

TIA 310 49
Pemecahan Pemrograman Linear untuk Masalah Keputusan
Markov
maksimumkan 5,3w11 + 4,7w12 + 3w21 + 3,1w22 – w31 + 0,4w32
dengan batasan
w11 + w12 – 0,6[0,2w11 + 0,3w12 + 0,1w22 + 0,05w32] = 1
w21 + w22 – 0,6[0,5w11 + 0,6w12 + 0,5w21 + 0,6w22 + 0,4w32] = 1
w31 + w32 – 0,6[0,3w11 +0,1w12+0,5w21+ 0,3w22 + w31 + 0,55w32] = 1
wik ≥ 0, untuk semua i dan k
• Pemecahan optimalnya adalah w12 = w21 = w31 = 0 dan w11 = 1,5678, w22 =
3,3528, dan w32 = 2,8145. Pemecahan ini memperlihatkan bahwa
pemecahan optimal adalah {1,2,2}, seperti yang diperoleh pada contoh
terdahulu..

50

Você também pode gostar