Escolar Documentos
Profissional Documentos
Cultura Documentos
DEWI SINTA
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2015
PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA*
Dewi Sinta
NIM G151110061
RINGKASAN
DEWI SINTA. Metode Ensemble k-Nearest Neighbor untuk Prediksi Harga Beras
di Indonesia. Dibimbing oleh HARI WIJAYANTO dan BAGUS SARTONO.
Analisis deret waktu merupakan hal yang sangat penting dalam setiap
bidang ilmu sains seperti prediksi keuangan, prediksi cuaca, penelitian dan ilmu
medis (Chitra dan Uma 2010). Pada banyak kasus sangat jarang ditemukan data
deret waktu yang memenuhi asumsi. Salah satu penyebabnya adalah adanya
hubungan yang tidak linear antar peubahnya, sehingga sangat diperlukan suatu
metode yang efisien. Banyak metode yang berkembang mengenai prediksi data
deret waktu dengan ukuran data yang besar dan peubah penjelas yang banyak,
seperti metode k-Nearest Neighbor (kNN). Metode kNN dapat digunakan untuk
data yang tidak memenuhi asumsi klasik dan karakteristik data yang tidak linear.
Dalam metode kNN sangat penting untuk memilih nilai k-tetangga
terdekat, karena hal ini dapat mempengaruhi hasil prediksi. Nilai k yang kecil
dapat menghasilkan ragam yang besar pada hasil prediksi, sedangkan nilai k yang
besar dapat mengakibatkan bias model yang besar. Metode alternatif yang
biasanya digunakan untuk mengatasi masalah ini adalah optimasi parameter
dengan menggunakan cross-validation, namun metode ini kurang efisien karena
algoritma training harus diulang kembali untuk k selanjutnya. Teknik ensemble
merupakan suatu metode yang memiliki kemampuan keakuratan prediksi dan
sangat efisien digunakan dalam metode kNN, sehingga tidak perlu dilakukan
pencarian nilai k yang optimal.
Pada prinsipnya teknik ensemble adalah menggabungkan hasil pendugaan
dari banyak model menjadi satu buah pendugaan akhir. Teknik ensemble dapat
diaplikasikan dalam analisis deret waktu untuk menghasilkan keakuratan prediksi.
Sorjamaa et al. (2005) menggunakan mutual information untuk memilih input
prediksi deret waktu dalam kNN. Yu et al. (2009) menggunakan Multiresponse
Sparse Regression (MRSR) sebagai langkah ketiga untuk peringkat masing-
masing k-tetangga terdekat dan terakhir melakukan pendugaan Leave-One-Out
sebagai langkah keempat dalam memilih tetangga terdekat. Sasu (2012)
mengembangkan algoritma kNN untuk prediksi data deret waktu.
Penelitian tersebut menggunakan metode regresi kNN untuk memprediksi
respon atau peubah output, namun dalam penelitian ini akan digunakan
modifikasi prediksi untuk data deret waktu dengan konsep pembobot. Penelitian
ini menerapkan metode kNN tunggal dan ensemble kNN pada data harga beras di
Indonesia agar diperoleh keakuratan prediksi. Penelitian ini bertujuan untuk
mengetahui kinerja metode kNN tunggal dan ensemble kNN, kemudian
memprediksi harga beras di Indonesia menggunakan metode terbaik.
Data yang digunakan dalam penelitian ini adalah data sekunder yang
diperoleh dari Kementerian Pertanian (KEMENTAN) bagian distribusi dan
cadangan pangan. Data dibagi menjadi dua kelompok, data dari Januari 2010
hingga Desember 2011 (t=1 hingga t=24) dijadikan sebagai data training dan
sisanya dari Januari - Desember 2012 (t=25 hingga t=36) sebagai data testing.
Peubah yang digunakan terdiri dari peubah output ( ) yaitu data harga beras per
bulan dari Januari 2010 hingga Desember 2012 sedangkan untuk peubah input
yang digunakan adalah X1 luas panen padi (ha), X2 produktivitas (ku/ha), X3
total produksi padi (ton) dan X4 jumlah penduduk (ribu).
Langkah awal yang dilakukan dalam penelitian ini adalah menghitung
prediksi harga beras dari Januari - Desember 2012 dengan metode kNN tunggal
kemudian melakukan prediksi terhadap kedua metode menggunakan jumlah
tetangga terdekat (k) yang berbeda. Langkah selanjutnya menghitung prediksi
harga beras dengan metode ensemble kNN. Setelah diperoleh hasil prediksi
masing-masing metode selanjutnya dilakukan evaluasi terhadap hasil prediksi
akhir dengan harga beras pada data testing berdasarkan nilai MAPE (Mean
Absolute Percentage Error), MAE (Mean Absolute Error) dan RMSEP (Root
Mean Squared Error of Prediction). Prediksi harga beras di Indonesia
menggunakan metode terbaik berdasarkan nilai MAPE, MAE dan RMSEP
tersebut.
Nilai MAPE, MAE dan RMSEP hasil prediksi harga beras di Indonesia
menunjukkan bahwa metode ensemble kNN memiliki kinerja yang lebih baik
dibandingkan dengan metode kNN tunggal. Nilai-nilai tersebut semakin kecil jika
nilai k yang dicobakan semakin besar, namun jika nilai k yang dicobakan sangat
besar atau mendekati ukuran data training maka ketiga nilai tersebut memberikan
hasil yang besar. Kisaran nilai prediksi harga beras hampir sama dengan harga
beras sebenarnya. Selain itu, prediksi harga beras juga memiliki pola trend yang
hampir sama dengan harga beras sebenarnya.
Time series analysis is often used in any field of science such as financial
forecasting, weather forecasting, and medical science (Chitra and Uma 2010). In
many of the cases are, it is common that the assumptions are violated. One
possible cause is the presence of non-linear relationship between the variables, so
it need an efficient method. Many methods were developed on the prediction of
time series data with large data sizes and large number of explanatory variables,
such as k-Nearest Neighbor (kNN). Which can be used for data that does not meet
the classical assumptions and non-linear characteristics of the data.
In kNN method is very important to choose the number of k-nearest
neighbors because this can affect the predicted results. Small values of k can
produce a great variety on the prediction results, whereas a large value of k can
lead to a large bias of models. Alternative methods are usually used to overcome
this problem is the optimization of parameters using cross-validation, but this
method is less efficient because the training algorithm must be repeated again for
the next k. Ensemble technique is a method that has ability of accuracy prediction
and efficiently used in kNN method, so it is not necessary to search the optimal
value of k.
In principle, the ensemble technique is to combine the results of the
estimation of many models into one final prediction. Ensemble techniques can be
applied in time series analysis to produce accurate predictions. Sorjamaa et al.
(2005) using mutual information to select the input time series prediction in kNN.
Yu et al. (2009) uses Multiresponse Sparse Regression (MRSR) as the third step
in order to rank each k-nearest neighbor and finally perform estimation Leave-
One-Out as the fourth step in choosing the number of nearest neighbors. Sasu
(2012) developed the kNN algorithm for the prediction of time series data.
The study used kNN regression method to predict the response or output
variable, but in this study will be used modify prediction to time series data with a
weighted concept. This research applies the single ensemble kNN method on rice
price data in Indonesia to obtain a prediction accuracy. This study aims to
investigate the performance of single and ensemble kNN methods, and then
predict the rice price in Indonesia using the best method.
The data used in this study is secondary data obtained from the Ministry of
Agriculture (KEMENTAN) in the distribution and food reserves. The data is price
of final sampling recapitulation in some traders in traditional markets from
January 1998 to December 2012. In this study the data were used to predict the
rice price in Indonesia from January 2010 to December 2012. Data were divided
into 2 groups, the data from January 2010 to December 2011 (t = 1 to t = 24) used
as training data and the rest of January to December 2012 (t = 25 to t = 36) as a
testing data. Output variables (Y) used in this study is rice price data month from
January 2010 to December 2012. The input variables in this study are X1 is rice
harvested area (ha), X2 is productivity (ku/ha), X3 is total of rice production (ton)
and X4 is total of population (thousands).
The first step in this research is to calculate the predicted price of rice from
January to December 2012 with a single kNN method then make a prediction of
the model using the number of nearest neighbors (k) are different. The next step is
to calculate the price of rice to the model prediction ensemble kNN. Once the
model is obtained subsequent to evaluate the predicted results with the price of
rice at the end of the testing data is based on the value of MAPE (Mean Absolute
Percentage Error), MAE (Mean Absolute Error) and RMSEP (Root Mean Squared
Error of Prediction). Prediction of rice prices in Indonesia using the best method
based on the value of MAPE, MAE and the RMSEP.
Value of MAPE, MAE and RMSEP prediction results in rice prices in
Indonesia showed that the ensemble kNN method has better performance than the
single kNN method. The values are getting smaller if the tested values of k greater,
however, if the value of k is tested very large or close to the size of the training
data then these values gives great results. The range of the predicted value is
almost equal to the price of rice in rice prices actually. Moreover, rice price
forecast trend also has a pattern similar to the real price of rice.
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini
dalam bentuk apa pun tanpa izin IPB
METODE ENSEMBLE K-NEAREST NEIGHBOR UNTUK
PREDIKSI HARGA BERAS DI INDONESIA
DEWI SINTA
Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister Sains
pada
Program Studi Statistika
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2015
Penguji Luar Komisi pada Ujian Tesis: Dr. Ir. Aji Hamim Wigena, M.Sc
Judul Tesis : Metode Ensemble k-Nearest Neighbor untuk Prediksi Harga Beras
di Indonesia
Nama : Dewi Sinta
NIM : G151110061
Disetujui oleh
Komisi Pembimbing
Diketahui oleh
Dr. Ir. Anik Djuraidah, MS Dr. Ir. Dahrul Syah, M. Sc. Agr
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa taala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang
dipilih dalam penelitian yang dilaksanakan sejak bulan November 2013 ini ialah
data harga beras di Indonesia, dengan judul Metode Ensemble k-Neraest Neighbor
untuk Prediksi Harga Beras di Indonesia. Keberhasilan penulisan tesis ini tidak
lepas dari bantuan, bimbingan, dan arahan dari berbagai pihak.
Terima kasih penulis ucapkan kepada Bapak Dr. Ir. Hari Wijayanto, M.Si.
dan Bapak Dr. Bagus Sartono, M.Si selaku pembimbing yang telah meluangkan
waktu untuk memberikan bimbingan, arahan, dan saran kepada penulis dalam
menyelesaikan tesis ini. Terimakasih untuk Bapak Dr. Ir. Aji Hamim Wigena,
M.Sc selaku penguji tesis dan Bapak Dr. Ir. I Made Sumertajaya, M.Si selaku
Moderator dalam pengujian tesis. Di samping itu, penulis juga mengucapkan
terimakasih kepada seluruh staf administrasi Rektorat dan staf Program Studi
Statistika yang telah turut membantu kelancaran administrasi dalam penyelesaian
tesis ini.
Ungkapan terimakasih terkhusus penulis sampaikan kepada ayahanda
(Karnadi), Ibunda (Pepi Yetni) dan kakak (Lina Karnadi) serta seluruh keluarga
atas doa yang tulus, pengorbanan yang tak ternilai, dukungan dan kasih
sayangnya. Terimakasih juga untuk teman-teman Statistika (S2 dan S3) dan
Statistika Terapan (S2) atas bantuan, saran, dan ilmu yang positif.
Penulis menyadari sepenuhnya bahwa tesis ini masih banyak kekurangan
dan jauh dari kesempurnaan. Oleh karena itu, penulis mengharapkan kritik dan
saran yang bersifat membangun guna menyempurnakan tesis ini dan karya ilmiah
secara utuh. Semoga tesis ini dapat menambah wawasan dan bermanfaat.
Dewi Sinta
DAFTAR ISI
DAFTAR TABEL vi
DAFTAR GAMBAR vi
DAFTAR LAMPIRAN vi
1 PENDAHULUAN 1
Latar Belakang 1
Tujuan Penelitian 2
2 TINJAUAN PUSTAKA 3
Data Deret Waktu 3
Teknik Ensemble 3
k-Nearest Neighbor (kNN) 4
3 METODE PENELITIAN 6
Data 6
Metode Analisis 6
4 HASIL DAN PEMBAHASAN 10
Eksplorasi Data 10
kNN Tunggal dan Ensemble kNN 14
5 SIMPULAN DAN SARAN 17
Simpulan 17
Saran 17
DAFTAR PUSTAKA 17
LAMPIRAN 19
RIWAYAT HIDUP 23
DAFTAR TABEL
1. Nilai MAPE, MAE dan RMSEP hasil prediksi harga beras di Indonesia
menggunakan data testing Januari Desember 2012 15
2. Nilai MAPE, MAE dan RMSEP hasil prediksi harga beras di Indonesia
menggunakan data testing Januari 2011 Desember 2012 15
3. Prediksi harga beras per kilogram di Indonesia Januari Desember 2012 16
DAFTAR GAMBAR
DAFTAR LAMPIRAN
1. PENDAHULUAN
Latar Belakang
Data yang diperoleh pada suatu penelitian seringkali berupa fungsi atas
waktu, dan antar pengamatannya terdapat suatu hubungan (autokorelasi), sehingga
untuk menganalisis hubungan fungsional antara pengamatan dengan waktunya
tidak dapat menggunakan analisis regresi sederhana. Data seperti ini dinamakan
data deret waktu (times series) dan untuk menganalisisnya harus menggunakan
metode analisis data deret waktu. Analisis deret waktu merupakan hal yang sangat
penting dalam setiap bidang ilmu sains seperti prediksi keuangan, prediksi cuaca,
penelitian, ilmu medis dan lain sebagainya (Chitra dan Uma 2010). Pada banyak
kasus sangat jarang ditemukan data deret waktu yang memenuhi asumsi. Salah
satu penyebabnya adalah adanya hubungan yang tidak linear antar peubahnya,
sehingga sangat diperlukan suatu metode yang efisien. Banyak metode yang
berkembang mengenai prediksi data deret waktu dengan ukuran data yang besar
dan peubah penjelas yang banyak, seperti metode Artificial Neural Network
(ANN), Radial Basis Function Networks (RBF), k-Nearest Neighbor (kNN) dan
Self Organizing Map (SOM). Metode kNN dapat digunakan untuk data yang tidak
memenuhi asumsi klasik dan karakteristik data yang tidak linear.
Metode kNN merupakan salah satu algoritma Machine Learning (ML)
yang dianggap sebagai suatu metode yang sederhana untuk diterapkan dalam
analisis data dengan dimensi peubah yang banyak (Alkhatib et al. 2013).
Walaupun metode ini sederhana namun metode ini memiliki kelebihan
dibandingkan metode lain, yaitu dapat menggeneralisasi himpunan data training
yang relatif kecil (Rokach 2010). Pada awalnya kNN merupakan metode untuk
analisis klasifikasi, namun beberapa dekade terakhir digunakan untuk prediksi.
Dalam pendekatan klasifikasi, himpunan data dibagi menjadi himpunan data
training dan data testing. kNN menggunakan ukuran kemiripan untuk
membandingkan data testing yang diberikan dengan data training. kNN memilih k
data dari data training yang dekat dengan data testing dalam memprediksi peubah
output. kNN juga dianggap sebagai lazy learning yang tidak membangun model
atau fungsi, tetapi menghasilkan k-tetangga terdekat dari data training yang
mempunyai kemiripan dengan data testing (Alkhatib et al. 2013). Dalam metode
kNN sangat penting untuk memilih nilai k-tetangga terdekat, karena hal ini dapat
mempengaruhi hasil prediksi. Nilai k yang kecil dapat menghasilkan ragam yang
besar pada hasil prediksi, sedangkan nilai k yang besar dapat mengakibatkan bias
model yang besar. Metode alternatif yang biasanya digunakan untuk mengatasi
masalah ini adalah optimasi parameter dengan menggunakan cross-validation,
namun metode ini kurang efisien karena algoritma training harus diulang kembali
untuk k selanjutnya. Teknik ensemble merupakan suatu metode yang memiliki
kemampuan keakuratan prediksi dan sangat efisien digunakan dalam metode kNN,
sehingga tidak perlu dilakukan pencarian nilai k yang optimal.
Pada prinsipnya teknik ensemble adalah menggabungkan hasil pendugaan
dari banyak model menjadi satu buah pendugaan akhir. Teknik ini tidak memilih
satu model terbaik dari sekian banyak kandidat model dan kemudian melakukan
pendugaan dari model terbaik tersebut, namun menggabungkan hasil pendugaan
dari berbagai model yang ada dengan bobot tertentu. Terdapat dua jenis teknik
2
ensemble yang bisa dilakukan yaitu teknik hybrid dan non-hybrid (De Bock et al.
2010). Teknik hybrid bekerja dengan melibatkan berbagai algoritma pemodelan
dan selanjutnya menggabungkan prediksi yang dihasilkan oleh masing-masing
algoritma menjadi satu prediksi akhir. Sedangkan teknik non-hybrid bekerja
dengan satu jenis algoritma namun menggunakannya berkali-kali untuk
menghasilkan banyak model berbeda, dan selanjutnya hasil prediksi dari model
berbeda digabungkan menjadi satu. Berbagai penelitian menunjukkan bahwa
ensemble mampu memberikan hasil yang lebih akurat. Zhu (2008) menyatakan
bahwa teknik ensemble menjadi salah satu teknik penting dalam peningkatan
kemampuan prediksi dari berbagai model standar. Friedman dan Popescu (2008)
melakukan studi simulasi dan mendapatkan hasil bahwa teknik ensemble
mendeteksi dengan baik peubah yang berpengaruh dan saling berinteraksi. Liu et
al. (2009) menggunakan teknik ensemble dalam membangun model prediksi
ketika data bersifat ill-conditioned seperti pada kasus jumlah kelas yang tidak
seimbang pada data. De Bock et al. (2010) dan Kocev et al. (2013) juga
menyatakan pada pemodelan klasifikasi model pohon ensemble memberikan
ketepatan dugaan yang umumnya lebih tinggi dibandingkan pohon tunggal.
Teknik ensemble dapat diaplikasikan dalam analisis deret waktu untuk
menghasilkan keakuratan prediksi. Sorjamaa et al. (2005) menggunakan mutual
information untuk memilih input prediksi deret waktu dalam kNN. Yu et al.
(2009) menggunakan Multiresponse Sparse Regression (MRSR) sebagai langkah
ketiga untuk peringkat masing-masing k-tetangga terdekat dan terakhir melakukan
pendugaan Leave-One-Out sebagai langkah keempat dalam memilih jumlah
tetangga terdekat. Sasu (2012) mengembangkan algoritma kNN untuk prediksi
data deret waktu. Alkhatib et al. (2013) menggunakan algoritma kNN yang masih
sederhana untuk prediksi stock price. Penelitian tersebut menggunakan metode
regresi kNN untuk memprediksi respon atau peubah output, namun dalam
penelitian ini akan digunakan modifikasi prediksi untuk data deret waktu dengan
konsep pembobot. Penelitian ini menerapkan metode kNN tunggal dan ensemble
kNN pada data harga beras di Indonesia agar diperoleh keakuratan prediksi.
Akurasi prediksi diperlukan untuk membantu pemerintah dalam menetapkan
kebijakan suplay dan demand beras di setiap wilayah sehingga gejolak harga beras
dapat diminimalkan. Oleh karena itu penelitian ini bertujuan untuk mengetahui
kinerja metode kNN tunggal dan ensemble kNN, kemudian memprediksi harga
beras di Indonesia menggunakan metode terbaik.
Tujuan Penelitian
Tujuan dari penelitian ini adalah untuk mengetahui kinerja metode kNN
tunggal dan ensemble kNN, kemudian memprediksi harga beras di Indonesia
menggunakan metode terbaik.
3
2. TINJAUAN PUSTAKA
Data deret waktu adalah data yang dikumpulkan dari waktu kewaktu untuk
menggambarkan perkembangan suatu kegiatan (perkembangan produksi, harga,
jumlah penduduk dan lain sebagainya). Periode waktu dapat berupa tahunan,
mingguan, bulanan, semester, kuartal dan lain-lain. Analisis deret waktu adalah
salah satu prosedur statistika pada data deret waktu yang diterapkan untuk
memprediksi keadaan yang akan datang dalam rangka pengambilan keputusan.
Data deret waktu biasanya dianalisis untuk menemukan pola-pola pertumbuhan
atau perubahan masa lalu yang dapat digunakan untuk memprediksi pola-pola
masa mendatang sejalan dengan kebutuhan operasi bisnis. Beberapa literatur
menyebutkan, bahwa pola data cenderung akan berulang pada periode waktu
mendatang. Identifikasi pola terhadap data deret waktu juga berfungsi untuk
menentukan metode yang akan digunakan untuk menganalisis data tersebut.
Teknik-teknik peramalan data deret waktu digunakan untuk menghitung
perubahan sepanjang waktu dengan memeriksa pola-pola (konstan, musiman,
siklus, dan trend) atau menggunakan informasi mengenai periode waktu
sebelumnya untuk memperkirakan hasil periode mendatang. Jenis pola data sangat
penting untuk diketahui karena akan berpengaruh terhadap hasil prediksi. Ada
beberapa asumsi yang penting yang harus dipenuhi agar data deret waktu dapat
digunakan dalam keperluan prediksi. Beberapa diantaranya adalah adanya
ketergantungan antara kejadian masa mendatang terhadap masa sebelumnya atau
lebih dikenal dengan istilah adanya autokorelasi antara Zt dan Zt-k, kestasioneran
data dan kehomogenan ragam. Akurasi yang dihasilkan dari prediksi deret waktu,
sangat ditentukan oleh seberapa jauh asumsi-asumsi diatas dipenuhi.
Metode yang dilakukan untuk menganalisis data deret waktu seperti moving
average, exsponential smoothing, dekomposisi, ARIMA (Autoregressive
Integrated Moving Average), dan MARIMA (Multivariate Autoregressive
Integrated Moving Average). Sebagian besar metode melibatkan model matematis
terbaik untuk menyatakan perilaku dari sistem yang diamati. Terkadang dalam
mengidentifikasi model memerlukan keahlian khusus karena karakteristik yang
tidak linear pada model cukup sulit untuk diidentifikasi. Perbedaan prediksi
mungkin terjadi pada model yang berbeda jika menggunakan himpunan
pengamatan yang sama. Beberapa analisis dapat diterapkan pada deret waktu
untuk menentukan unsur-unsur statistiknya sehingga dapat memberikan gambaran
mengenai model yang mungkin cocok untuk data tersebut. Pada analisis data deret
waktu yang terpenting adalah koefisien autokorelasi, yaitu hubungan data deret
waktu dengan dirinya sendiri, dengan lag 0, 1, 2 atau lebih periode.
Teknik Ensemble
Teknik ensemble adalah teknik yang tidak memilih satu model terbaik dari
sekian banyak kandidat model dan kemudian melakukan pendugaan dari model
terbaik tersebut, namun menggabungkan hasil pendugaan dari berbagai model
yang ada dengan bobot tertentu. Teknik ensemble menjadi salah satu teknik
penting dalam peningkatan kemampuan prediksi dari berbagai model standar.
4
Teknik ensemble ditentukan dalam dua cara, tahap pertama memilih peubah
output dari anggota ensemble yang terbaik untuk memperoleh prediksi akhir.
Tahap kedua menggabungkan peubah output dari anggota ensemble menggunakan
beberapa algoritma kombinasi (Lim dan Goh 2007). Pada dasarnya teknik
ensemble merupakan teknik peramalan yang mengkombinasikan beberapa peubah
output dari metode peramalan.Teknik ensemble menjadi salah satu metode
peramalan yang popular, khususnya pada prediksi iklim. Studi terakhir telah
menunjukkan bahwa kombinasi beberapa model dapat memperbaiki kekekaran
dan kehandalan, yaitu ensemble (Lusia dan Suhartono 2013).
Salah satu teknik ensemble yang digunakan untuk memprediksi adalah
Weighted Mean (rataan terboboti).
, (1)
dengan merupakan nilai prediksi dari model ke-i dan adalah pembobotnya.
, (2)
kNN memilih k data dari data training yang dekat dengan data testing dalam
memprediksi peubah output. Nilai output dari k data training yang terpilih sebagai
tetangga terdekat digunakan untuk memprediksi nilai output dari data testing yang
tidak diketahui. Regresi kNN menggunakan formula sebagai berikut untuk
memprediksi nilai tersebut (Sorjamaa et al. 2005),
(3)
, (4)
3. METODOLOGI PENELITIAN
Data
Peubah Penelitian
Peubah output ( ) yang digunakan dalam penelitian ini adalah data harga
beras per bulan dari Januari 2010 hingga Desember 2012. Peubah input dalam
penelitian ini adalah X1 luas panen padi (ha), X2 produktivitas (ku/ha), X3 total
produksi padi (ton) dan X4 jumlah penduduk (ribu). Peubah input ini merupakan
data persubround (tiga bulanan) sehingga data terlebih dahulu diinterpolasi agar
menjadi data bulanan. Hal ini perlu dilakukan karena peubah output yang
digunakan merupakan data bulanan.
Metode Analisis
5. Menghitung nilai pembobot untuk setiap data training yang terpilih sebagai
tetangga terdekat, oleh karena data yang dianalisis merupakan data deret
waktu yang memperhatikan urutan data. Data training yang nomor urutnya
jauh dari data testing akan diboboti kecil, sedangkan data training yang dekat
dengan data testing akan diboboti besar, sehingga formula pembobot yang
digunakan adalah dengan = pembobot kNN tunggal untuk tetangga
ke- yang terpilih, = urutan waktu, dan = banyaknya amatan pada data
training. Nilai pembobot ini digunakan untuk memboboti peubah output yang
terpilih menjadi tetangga terdekat.
6. Menghitung prediksi peubah output dengan metode kNN tunggal. Prediksi
bukan hanya menggunakan rata-rata k-tetangga terdekat dari peubah output
seperti halnya regresi kNN. Agar nilai prediksi yang dihasilkan tetap
mengikuti pola data yang memiliki trend, maka dalam penelitian ini prediksi
menggunakan modifikasi metode regresi kNN yaitu dengan menambahkan
faktor koreksi trend dan perubahan waktu, yaitu menggunakan formula
,
dengan = slope dari model regresi antara (waktu) terhadap (peubah
output) sedangkan = Rata-rata selisih antara nomor urut data testing dengan
data training yang terpilih menjadi k tetangga terdekat. dalam hal ini
merupakan faktor koreksi untuk memperhatikan kondisi trend data dan
perubahan data terhadap waktu.
7. Nilai prediksi yang diperoleh pada langkah 1-6 dijadikan sebagai data
training untuk memprediksi peubah output data testing berikutnya.
Banyaknya data training yang digunakan dalam analisis selalu sama yaitu
sebanyak 24 data, sehingga untuk prediksi peubah output yang kedua, data
dengan nomor urut pertama tidak diikutsertakan dalam analisis. Untuk
memprediksi data yang ketiga, data dengan nomor urut pertama dan kedua
tidak diikutsertakan. Hal ini dilakukan juga pada prediksi selanjutnya.
8. Melakukan evaluasi terhadap hasil prediksi akhir dengan harga beras pada
data testing berdasarkan nilai MAPE (Mean Absolute Percentage Error),
MAE (Mean Absolute Error) dan RMSEP (Root Mean Squared Error of
Prediction) menggunakan rumus perhitungan akurasi peramalan tersebut
(Mendenhall et al. 1993):
Tahap II: Menghitung prediksi harga beras dengan metode ensemble KNN.
Langkah-langkah analisis sebagai berikut:
1. Menghitung prediksi menggunakan metode kNN tunggal dengan jumlah
tetangga terdekat (k) berbeda-beda yaitu 3, 4, 6, 9, 10, 12, 15 dan 24. Nilai-
nilai k ini digunakan untuk melihat bagaimana pengaruh nilai k terhadap hasil
prediksi.
2. Menggabungkan kedelapan hasil prediksi tersebut menggunakan formula
, dengan merupakan banyaknya metode kNN tunggal yang
digunakan, pembobot ensemble merupakan korelasi antara data harga
beras dengan prediksi metode kNN tunggal ke-h ( menggunakan formula
. Korelasi menggambarkan besarnya hubungan antara data harga
beras dengan prediksi metode kNN tunggal. Prediksi yang baik akan
mengikuti pola data yang sebenarnya, jika prediksi mengikuti pola trend yang
searah dengan pola data sebenarnya maka korelasi yang dihasilkan besar,
sehingga pembobot wh juga besar.
3. Melakukan evaluasi terhadap hasil prediksi akhir dengan harga beras pada
data testing berdasarkan nilai MAPE, MAE dan RMSEP.
Eksplorasi Data
merupakan akibat dari krisis ekonomi moneter yang terjadi di Indonesia mulai
tahun 1997-1998 yang memberikan pengaruh yang sangat besar terhadap harga
beras. Upaya pemerintah untuk menurunkan harga beras dapat terlihat dari
turunnya harga beras pada penghujung tahun 2000 mencapai harga Rp 2349 per
kilogram. Namun pada tahun 2001 hingga tahun 2004 harga beras terus
meningkat tetapi masih dibawah angka Rp 3000 per kilogram. Selanjutnya
perilaku harga beras mulai meningkat tajam, harga beras melambung tinggi mulai
dari Rp 3335 per kilogram hingga Rp 8700 per kilogram. Adanya kenaikan harga
beras yang cukup besar ini diduga terjadi karena adanya masalah pada pasokan
distribusi (Kusumaningrum 2008).
Data yang digunakan untuk memprediksi harga beras adalah data Januari
2010 hingga Desember 2011. Harga beras pada tahun tersebut kenaikannya mulai
stabil dan tidak terlalu tajam, namun masih memiliki trend yaitu mulai dari harga
Rp 6623 hingga Rp 8705 per kilogram. Hal ini berarti data training yang
digunakan untuk memprediksi harga beras tahun 2012 hanya terdiri dari 24 data
saja. Metode yang digunakan untuk memprediksi harga beras dengan
menggunakan kondisi data training yang sedikit adalah metode kNN, karena salah
satu kelebihan dari metode tersebut adalah memiliki kinerja yang sama dengan
metode lain walaupun data training yang digunakan lebih sedikit (Rokach 2010).
(a) (b)
(c) (d)
Gambar 4 Grafik data : (a) Luas Panen (Ha), (b) Produktivitas (Ku/Ha), (c)
Produksi (Ton), dan (d) Jumlah Penduduk (Ribu)
12
Grafik data pada gambar 4 terdiri dari grafik data luas panen, produktivitas,
produksi dan jumlah penduduk. Ke empat peubah ini merupakan peubah input
yang dapat mempengaruhi harga beras di Indonesia, harga beras merupakan
peubah output. Gambar 4(a) merupakan grafik data luas panen bulanan, data
tersebut merupakan hasil interpolasi data per subround (tiga bulanan) dari tahun
2003 hingga tahun 2012. Pada gambar tersebut membentuk pola musiman.
Pada dasarnya beras tersedia dalam jumlah paling banyak pada satu bulan
setelah periode panen raya yaitu terjadi pada bulan Februari hingga Juni, yang
berarti puncak stok beras terjadi pada bulan Maret hingga Juli. Pada bulan
Februari luas lahan meningkat dibandingkan pada bulan Januari dari sebesar 5.26
juta hektar menjadi 5.37 juta hektar. Begitu juga halnya dengan luas lahan pada
periode-periode selanjutnya, pada bulan Februari tiap tahunnya mengalami
kenaikan dari 5.26 juta hektar menjadi 6.37 juta hektar. Periode panen gadu yang
terjadi berturut-turut pada bulan Juli, Agustus, September dan Oktober. Panen
padi gadu pada umumnya menghasilkan beras bermutu bagus, tetapi jumlahnya
tidak sebanyak beras pada penen raya. Pada periode ini harga beras secara rata-
rata nasional merupakan harga yang sewajarnya, karena adanya keseimbangan
antara pasokan dan permintaan pasar (sapuan 1999). Periode panen kecil adalah
hasil penanaman musim kemarau, yang terdapat di wilayah beririgasi teknis dan
biasanya hamparan panennya tidak luas karena di selang-seling oleh tanaman
palawija atau hortikultura. Panen kecil terjadi pada bulan Nopember, Desember
dan Januari. Pada periode panen ini stok beras sudah menipis, dan pada wilayah-
wilayah lahan kering terjadi musim paceklik.
Pada gambar 4(b) merupakan grafik data produktivitas bulanan, data
tersebut merupakan hasil interpolasi data per subround (tiga bulanan) dari tahun
2003 hingga tahun 2012. Pada gambar data produktivitas padi mengalami trend
dan tidak stasioner dalam rata-rata. Pada periode Februari-Maret 2003 mengalami
kenaikan dari 45.11 kuintal/hektar hingga 46.00 kuintal/hektar. Masih pada
tahun 2003 hingga Desember 2004 terjadi penurunan produktivitas dari 45.69
kuintal/hektar hingga 44.70 kuintal/hektar. Hal itu terjadi untuk tiap tiga bulan
berikutnya, hingga pada Januari 2005 hingga Oktober 2012 produktivitas
mengalami peningkatan dari 45.07 kuintal/hektar sampai 50.17 kuintal/hektar.
Pada penghujung tahun 2012 mengalami penurunan menjadi 46.03 kuintal/hektar.
Penyebab turun naiknya produktivitas dalam budidaya padi sawah adalah
perubahan cuaca di Indonesia mengalami perubahan yang cukup dinamis. Salah
satu kondisi yang dirasakan adalah semakin meningkatnya suhu udara dan tidak
seimbangnya jumlah air di musim kemarau dan musim hujan. Masyarakat
mengalami kekurangan air di musim kemarau dan kebanjiran di musim hujan.
Sementara itu, petani tidak cukup mampu beradaptasi terhadap perubahan cuaca
yang ditandai dengan tidak berubahnya pola penggunaan air pada padi sawah
yang makin terbatas jumlahnya.
Gambar 4(c) merupakan grafik data produksi bulanan, data tersebut
merupakan hasil interpolasi data per subround (tiga bulanan) dari tahun 2003
hingga tahun 2012. Pada gambar tersebut membentuk pola musiman. Produksi
padi mengalami peningkatan hasil yang signifikan, namun hasil produksi padi
berfluktuasi dari tahun ke tahun. Pada Januari 1998 jumlah produksi padi perlahan
mengalami penurunan mulai dari 23.59 juta ton gabah kering giling (GKG)
menjadi 10.31 juta ton pada bulan September. Pada bulan Oktober naik kembali
13
sebesar 12.65 juta ton dan perlahan naik hingga bulan Januari 1999 menjadi 23.55
juta ton begitu seterusnya turun dan naik pada bulan-bulan tertentu. Hal ini
disebabkan oleh luas panen padi yang terjadi pada bulan-bulan tertentu, seperti
pada panen raya terjadi pada bulan Februari hingga Juni, terbukti pada bulan
Februari tiap tahunnya mengalami produksi padi yang besar dibandingkan dengan
bulan lainnya yaitu rata-rata sebesar 23 juta ton bahkan Februari 2012 produksi
padi meningkat menjadi 32.82 juta ton, kenaikan produksi diperkirakan terjadi
karena peningkatan luas panen sebesar 6 juta hektar. Periode panen selanjutnya
adalah panen gadu yang terjadi pada bulan Juli hingga Oktober. Pada Panen padi
gadu pada umumnya menghasilkan beras bermutu bagus, tetapi jumlahnya tidak
sebanyak beras pada penen raya.Terbukti pada periode ini hasil produksi padi
hanya 10 juta hingga 12 juta ton, karena adanya keseimbangan antara pasokan dan
permintaan pasar.
Gambar 4(d) merupakan grafik data jumlah penduduk bulanan, data tersebut
merupakan hasil interpolasi data tahunan dari tahun 1998 hingga tahun 2012. Pada
grafik jumlah penduduk mengalami kenaikan yang signifikan tiap tahun terbukti
pada gambar membentuk pola trend linear. Ledakan pertumbuhan penduduk akan
berdampak pada penyediaan bahan pangan. Terbukti dari tahun 1998 hingga tahun
2012 jumlah penduduk mengalami kenaikan yang signifikan. Meningkatnya
jumlah penduduk harus disertai dengan jumlah bahan pangan yang tersedia
khususnya ketersediaan akan bahan pokok seperti beras. Banyaknya penduduk
akan mengurangi lahan yang akan digunakan untuk pertanian, perternakan, dan
lahan-lahan untuk produksi pangan. Dengan berkurangnya lahan hijau di dunia
karena banyaknya jumlah penduduk, maka kualitas alam dalam penyediaan
kebutuhan manusia khususnya kebutuhan akan beras semakin menurun sebagai
akibat pertumbuhan penduduk. Sikap pemerintah dan masyarakat yang peduli
terhadap keseimbangan antara pertumbuhan jumlah penduduk dan ketersediaan
bahan pangan sangat penting. Bentuk hubungan antara pertumbuhan penduduk
dan pembangunan ekonomi adalah positif di negara maju, tetapi di negara yang
sedang berkembang hubungan tersebut masih negatif. Dalam upaya
menanggulangi kelaparan, kemiskinan dan peningkatan pendidikan, akan sangat
diuntungkan jika angka pertumbuhan penduduk dapat diturunkan agar kuantitas
dan kualitas sumber daya alam akan mengalami penurunan, seiring dengan
tingginya angka pertumbuhan penduduk.
Gambar 3 merupakan pola data untuk peubah output, sedangkan gambar 4
merupakan pola data untuk peubah-peubah input. Gambar 3 dan gambar 4 juga
memperlihatkan hubungan antara peubah input dan peubah output. Kelima peubah
tersebut memperlihatkan pola yang berbeda-beda, yaitu trend dan musiman,
sehingga ada hubungan yang kompleks antara peubah input dan peubah output.
Hal ini mengindikasikan metode deret waktu biasa sulit untuk diterapkan pada
data tersebut, sehingga diperlukan suatu metode yang efisien yang mampu
mengatasi hubungan yang kompleks antar peubah yaitu metode kNN.
14
Pemilihan model akhir yang diperoleh dari satu model yang terbaik
biasanya penduga parameter yang dihasilkan bias dan ragam penduganya
underestimate, selain itu distribusi dari penduga parameter tersebut jauh dari
distribusi normal (Claeskens dan Hjort 2008). Pada faktanya rata-rata merupakan
penduga parameter yang tak bias dan memiliki ragam kecil. Ensemble kNN
menggunakan konsep rata-rata terboboti dari penduga parameter beberapa hasil
prediksi metode kNN tunggal. Metode ini diharapkan menghasilkan hasil prediksi
yang lebih baik dibandingkan metode kNN tunggal.
Tabel 1 Nilai MAPE, MAE dan RMSEP Hasil Prediksi Harga Beras di Indonesia
menggunakan Data Testing Januari Desember 2012
Tabel 1 memperlihatkan nilai MAPE, MAE, dan RMSEP dari hasil prediksi
beberapa metode kNN tunggal dan metode ensemble kNN. Dalam metode kNN
sangat penting untuk memilih nilai k-tetangga terdekat, karena hal ini dapat
mempengaruhi hasil prediksi. Nilai k yang kecil dapat menghasilkan ragam yang
besar pada hasil prediksi, sedangkan nilai k yang besar dapat mengakibatkan bias
model yang besar. Hal ini terlihat pada Tabel 1 bahwa nilai MAPE, MAE, dan
RMSEP hasil prediksi semakin kecil jika nilai k yang dicobakan semakin besar,
namun jika nilai k yang dicobakan sangat besar atau mendekati ukuran data
training maka ketiga nilai tersebut memberikan hasil yang besar.
Tabel 2 Nilai MAPE, MAE dan RMSEP Hasil Prediksi Harga Beras di Indonesia
menggunakan Data Testing Januari 2011 Desember 2012
Tabel 3 Prediksi Harga Beras per kilogram di Indonesia Januari Desember 2012
Simpulan
Nilai MAPE, MAE dan RMSEP hasil prediksi harga beras di Indonesia
menunjukkan bahwa metode ensemble kNN memiliki kinerja yang lebih baik
dibandingkan dengan metode kNN tunggal. Nilai-nilai tersebut semakin kecil jika
nilai k yang dicobakan semakin besar, namun jika nilai k yang dicobakan sangat
besar atau mendekati ukuran data training maka ketiga nilai tersebut memberikan
hasil yang besar. Kisaran nilai prediksi harga beras hampir sama dengan harga
beras sebenarnya. Selain itu, prediksi harga beras juga memiliki pola trend yang
hampir sama dengan harga beras sebenarnya.
Saran
Pada penelitian ini hanya melihat kinerja dari metode kNN tunggal dan
ensemble kNN menggunakan data harga beras dengan empat peubah input. Untuk
penelitian selanjutnya bisa mengkaji kinerja dari metode kNN melalui rancangan
simulasi. Selain itu bisa juga dilakukan dengan menambahkan peubah input yang
mempengaruhi harga beras. Teknik ensemble yang dilakukan dalam penelitian ini
menggunakan perhitungan rata-rata terboboti (Weighted Means), jadi penelitian
selanjutnya bisa dilakukan dengan menggunakan teknik ensemble yang lain.
DAFTAR PUSTAKA
Lim CP, Goh WY. 2007. The Application of an Ensemble of Boosted Elman
Networks to Time Series Prediction: A Benchmark Study. International
Journal of Information and Mathematical Sciences. 3:2-9.
Liu XY, Wu J, Zhou ZH. 2009. Exploratory Undersampling for Class-Imbalance
Learning. IEEE Transactions On Systems, Man and Cybernetics-Part B.
39(2):539-550.
Lusia DA, Suhartono. 2013. Ensemble Method Based on Two Level
ARIMAXFFNN for Rainfall Forecasting in Indonesia. International Journal
of Science and Research (IJSR). Indian online ISSN: 2(2):2319-7064.
Mendenhall W, Reinmuth JE, Beaver RJ. 1993. Statistics for Management and
Economics. California: South-Western College Pub.
Rokach L. 2010. Pattern Classification Using Ensemble Methods. Singapore:
World Scientific Publishing.
Sapuan. 1999. Perkembangan Manajemen Pengendalian Harga Beras di Indonesia,
1969-1999. Agro Ekonomika. 29 (1):19-37.
Sasu A. 2012. K-Nearest Neighbor Algorithm for Univariate Time Series
Prediction. Bulletin Transilvania University of Brasov. 5(54):147-152.
Sorjamaa A, Hao J, Lendasse A. 2005. Mutual Information and k-Nearest
Neighbors Approximator for Time Series Prediction. Di dalam: Duch,
Wlodzislaw, Oja, Erkki, Zadrozny, Slawomir, editor. Artificial Neural
Networks : Formal Models and Their Applications. ICANN; 2005 Sept 11-
15; Warsaw, Poland. Berlin(DE): Springer. p 553-558.
Yu Q, Sorjamaa A, Miche Y, Severin E. 2009. A Methodology for Time Series
Prediction in Finance [tesis]. Bogor (ID): Aalto University.
Zhou HZ. 2012. Ensemble Methods Foundations and Alghoritms. Florida(US):
CRC Pr.
Zhu M. 2008. Kernels and Ensembles. Perspectives on Statistical Learning. The
American Statistisian. 2(62):97-109.
19
Lampiran 1 Data Harga Beras, Luas Panen, Produktivitas, Produksi dan Jumlah
Penduduk di Indonesia dari Januari 1998 - Desember 2012
w<-(urutan.data/n.training); rata2sel<-mean(w*selisih.jarak);
y.pred<-((sum(y.utk.pred*w))/sum(w))+(b1*rata2sel)
pred<-c(pred,y.pred)
#pred.rata2<-c(pred.rata2,y.pred.rata2)
#n.test<-n.test-1
y[var.test]<-y.pred
var.test<-var.test+1
}
error<-y.val-pred
22
Lampiran 3 Hasil Prediksi Harga Beras di Indonesia dengan Metode kNN Tunggal
dan Ensemble kNN Januari Desember 2012
Harga
Tahun
Bulan Beras k=3 k=4 k=6 k=9 k=10 k=12 k=15 k=24 Ensemble
2012 Januari 8198 8635 8546 8507 8411 8372 8408 8292 8293 8389
2012 Februari 8273 8714 8704 8640 8523 8473 8495 8370 8349 8476
2012 Maret 8239 8864 8851 8752 8623 8566 8578 8445 8403 8565
2012 April 8687 8623 8797 8636 8663 8611 8658 8518 8456 8587
2012 Mei 8669 8467 8710 8508 8544 8497 8536 8535 8508 8526
2012 Juni 8470 8696 8587 8577 8467 8479 8454 8426 8558 8506
2012 Juli 8619 8819 8741 8630 8483 8453 8555 8494 8605 8565
2012 Agustus 8626 8830 8741 8662 8572 8537 8573 8557 8650 8615
2012 September 8471 8852 8854 8783 8659 8616 8647 8619 8694 8679
2012 Oktober 8552 8442 8518 8769 8701 8697 8668 8682 8738 8662
2012 Nopember 8619 8500 8468 8681 8681 8690 8699 8746 8781 8689
2012 Desember 8705 8525 8467 8649 8734 8760 8775 8744 8824 8730
23
RIWAYAT HIDUP