Você está na página 1de 16

Proposal Penelitian Desain Riset

Analisis Laten Regresi

Oleh :
Nisa Ulkhairia 140610120028
Irvani Utami 140610120070
Kelas B
Departemen Statistika
Fakultas Matematika dan Ilmu Pengetahuan Alam
Universitas Padjadjaran
2015

BAB I
PENDAHULUAN
1.1 Latar belakang masalah
Dalam penelitian SEM terlibat dua jenis variabel yaitu variable observasi dan laten.
Variabel observasi mempunyai data seperti data angka atau skala penilaian yang diambil dari
kuesioner. Sedang variable laten adalah variabel yang secara tidak langsung teramati namun
peneliti ingin mengetahuinya. Untuk melakukan observasi variable laten peneliti harus
membuat model-model yang mengekspresikan variable-variabel laten sebagai variabel
observasi.

Salah

satu

contoh

variabel

laten

ialah

pengaruh

dari

placebo

(http://www.jonathansarwono.info/amos/sem_amos.htm).
Placebo adalah istilah medis untuk terapi baik dalam bentuk obat-obatan maupun
prosedur-prosedur medis yang tidak memiliki bukti kegunaan bagi kesembuhan pasien.
placebo bukanlah obat pulsu, tetapi obat atau prosedur medis yang dipalsukan oleh dokter
yang diyakini memiliki dampak positif bagi pasien. Efek placebo menunjukkan bahwa
kekuatan pikiran adalah faktor terpenting dalam fungsi tubuh manusia. Karena dengan
kemampuan untuk menciptakan atau menghapuskan gejala dengan seketika, efek obat
sebenarnya

dapat

digantikan

oleh

hanya

dengan

kekuatan

keyakinan

(andihm.weblog.esanggul.ac.id).
Dalam proposal penelitian ini penulis ingin memodelkan efek pacebo terhadap
perbaikan gejala depresi. Efek placebo dalam penelitian ini merupakan variable yang tak
terobervasi atau disebut juga dengan variable laten. Permasalahan permodelan dengan
melibatkan laten variable bukanlah hal yang baru dalam bidang stasistika. Pendekatan nonparametrik yang umum digunakan untuk kasus ini adalah algoritma k-means (Hartigan and
Wong, 1979; MacQueen, 1967) dan model campuran terbatas adalah model dasar untuk
pendekatan ini (e.g. Day, 1969; Fraley and Raftery, 2002; Titterington et al., 1985). Analog
dari model campuran yang terbatas untuk hasil berupa data kategorik adalah laten class
model (Goodman, 1974). Jika tersedia suatu set variable prediktor, model ini bisa
dikembangkan mejadi laten calss regression models (Bandeen-Roche et al., 1997; Leisch,
2004; Wedel and DeSarbo, 1995). Semua model di atas hanya bisa digunakan untuk
mengidentifikasi kelompok laten yang berbeda dalam populasi.

Efek placebo bisa berupa variable laten diskrit yang bisa diukur dengan menggunakan
distribusi bernouli pada model campuran terbatas. Contohya ada tidaknya pengaruh
pemberian placebo terhadap perbaikan gejala depresi pasien. Model campuran terbatas
merupakan model yang diprediksi untuk mengasumsi kemunculan kelompok laten yang
berbeda dalam populasi. Model campuran terbatas menggunakan distribusi bernouli dimana
bernouli digunakan ketika variabel berskala nominal (0 dan 1). Namun, model campuran
tidak bisa memberikan informasi seberapa kuat efek placebo yang diberikan dokter kepada
pasien sehingga diperlukan suatu metode lain yang mampu mempelajari kemanjuran dari
placebo. Untuk mengukur seberapa kuat efek yang diberikan placebo tehadap pasien diajukan
variable latennya harus berupa laten kontiniu (Tarpey & Petkova, 2010). Oleh karena itu
model campuran terbatas tidak bisa digunakan dalam proposal ini.
1.2 Identifikasi masalah
Seperti yang sudah dijelaskan sebelumnya bahwa model campuran terbatas
merupakan model yang diprediksi untuk mengasumsi kemunculan kelompok laten yang
berbeda dalam populasi. Model campuran terbatas menggunakan distribusi bernouli dimana
bernouli digunakan ketika variabel berskala nominal (0 dan 1).
Hal yang dapat diukur dengan menggunakan model campuran terbatas dari efek
placebo yaitu ada atau tidaknya efek tersebut. Namun, ketika peneliti ingin menghitung
kekuatan efek tersebut model campuran terbatas tidak bisa digunakan karena model
campuran terbatas tidak bisa memprediksi kekuatan dari efek tersebut.

Sehingga pada

penelitian ini akan dicari model terbaik untuk mengukur variabel efek placebo tersebut.
1.3 Tujuan penelitian
Tujuan penelitian ini berdasarkan latar belakang masalah dan masalah penelitian
adalah untuk mengembangkan model yang terbaik antara model campuran terbatas atau
model laten regresi yang bisa memunculkan efek latent placebo.

BAB II
TINJAUAN PUSTAKA
2.1 Pendahuluan
Dalam sebuah penelitian, terkadang ada variabel yang tidak bisa diukur secara
langsung, akan tetapi melalui variabel indikator. Salah satu metode statistik yang digunakan
untuk menganalisis variabel laten yaitu analisis kelas laten. Analisis ini bertujuan untuk
mengelompok-kan objek-objek penelitian ke dalam kelompok-kelompok berdasarkan
kesamaan karakteristik dari objek-objek tersebut.
Sebagaimana yang diungkapkan pada masalah penelitian, permasalahan yang muncul
adalah apabila pengelompokan responden juga dipengaruhi oleh variabel yang lain. Sehingga
diperlukan analisis lebih lanjut untuk mengatasi permasalahan tersebut. Salah satu solusi
alternatif dalam hal ini yaitu menggunakan model campuran terbatas dengan analisis regresi
kelas laten.
Dalam statistik, model campuran adalah model probabilistik untuk mewakili
kehadiran sub-populasi dalam suatu populasi secara keseluruhan, tanpa memerlukan data
yang diamati harus mengidentifikasi sub-populasi pada data yang diamati tersebut. Secara
formal model campuran sesuai dengan distribusi campuran yang mewakili distribusi
probabilitas dari pengamatan dalam populasi secara keseluruhan. Namun, sementara masalah
yang terkait dengan distribusi campuran berhubungan dengan penurunan sifat-sifat
keseluruhan populasi dari sub-populasi, model campuran yang digunakan untuk membuat
kesimpulan statistik tentang sifat-sifat dari sub-populasi yang diberikan hanya berupa
pengamatan pada penduduk, tanpa informasi identitas sub-populasi.
Masalah dalam pemodelan dan estimasi parameter populasi dengan perbedaan subpopulasi adalah masalah statistik klasik yang selalu ada dalam pengembangan metodologi.
Pendekatan nonparametrik umum untuk masalah ini untuk data kontinu adalah analisis
cluster dengan menggunakan algoritma seperti k-means algoritma (Hartigan dan Wong,
1979; MacQueen, 1967). Model campuran terbatas adalah model berbasis pendekatan untuk
masalah itu. Misalnya, distribusi normal sering diasumsikan untuk komponen campuran dan
kemungkinan maksimum digunakan untuk memperkirakan parameter di dalam perbedaan
laten sub-populasi.

Model campuran yang terbatas telah diperluas untuk campuran dari perbedaan objek,
seperti regresi linear umum (Wedel dan DeSarbo, 1995), atau model akibat pengacakan
untuk data longitudinal, yaitu model campuran. Analogi dari model campuran terbatas untuk
hasil kategoris adalah model laten kelas (Goodman, 1974). Jika satu set prediktor yang
tersedia, maka model laten kelas untuk hasil kategoris dapat diperluas untuk model regresi
laten. Selanjutnya generalisasi untuk regresi kelas laten adalah model respon pada faktorfaktor laten, seperti dalam analisis faktor.
Penelitian ini membahas mengenai efek placebo dimana placebo itu sendiri ialah
istilah medis untuk terapi baik dalam bentuk obat-obatan maupun prosedur-prosedur medis
yang tidak memiliki bukti kegunaan bagi kesembuhan pasien. Hal yang dapat diukur
menggunakan model campuran (laten class) terbatas dari efek placebo yaitu ada atau tidaknya
efek tersebut. Sedangkan penelitian ini ingin menghitung kekuatan efek placebo tersebut
dimana model campuran terbatas tak dapat lagi digunakan karena model campuran terbatas
tidak bisa memprediksi kekuatan dari efek tersebut. Selain itu, model campuran terbatas
tidak cocok untuk data yang menggunakan variabel laten tak terobservasi.
Misalkan kasus placebo pada penelitian ini, anggap y menunjukkan hasil yang
terukur (gejala keparahan) dan x menunjukkan prediktor laten (efek plasebo). Kemudian kita
bisa memodelkan hasil y sebagai regresi linier sederhana pada x: y = 0 + 1x + .
Masalahnya adalah bahwa x adalah tidak teramati atau laten. Sebuah model regresi dengan
laten prediktor adalah regresi laten. Jika ada dua kelas yang berbeda dari pasien (orang-orang
yang mengalami efek plasebo dan mereka yang tidak) maka x dapat dinyatakan sebagai 0-1
biner regressor indikator dan regresi laten menjadi model campuran terbatas. Di sisi lain, jika
efek plasebo tidak dapat ditentukan sebagai ada atau tidak ada, melainkan kekuatan bervariasi
terus menerus, maka x laten harus kontinu dan model regresi laten adalah hasilnya. Untuk
mempelajari khasiat terapi obat, sifat efek placebo perlu dipahami. Model regresi laten yang
diusulkan dalam penelitian ini memungkinkan distribusi yang fleksibel untuk mekanisme
laten yang mendasari dalam masalah efek plasebo.
Semua model ini berusaha untuk mengidentifikasi kelompok laten yang berbeda
dalam populasi. Namun, model regresi laten menyediakan kerangka kerja yang fleksibel
untuk mengetahui tentang sifat dari variabel laten yang mendasari (terus menerus atau
diskrit) dalam suatu populasi.

2.2 Teori
2.2.1 Analisis Regresi
Analisis regresi adalah analisis yang digunakan untuk menganalisis data dan
mengambil kesimpulan yang bermakna tentang hubungan kebergantungan yang mungkin
ada. Tujuan analisis regresi yaitu untuk mengevaluasi hubungan antara satu peubah dengan
satu peubah lainnya atau satu peubah dengan beberapa peubah lainnya. Peubah dapat
dibedakan menjadi dua jenis, yaitu peubah prediktor atau peubah bebas, dan peubah respons
atau peubah takbebas. Peubah prediktor adalah peubah yang dapat ditentukan atau diatur
(misalnya suhu input) atau yang nilainya dapat diamati. Namun, tidak dapat dikendalikan
(misalnya kelembaban udara luar). Akibat perubahan yang disengaja atau yang terjadi pada
peubah prediktor, suatu pengaruh atau efek dipancarkan ke peubah lain disebut peubah
respons. (Draper & Smith 1992)
Regresi Linear Sederhana
Regresi linear sederhana adalah persamaan regresi yang menggambarkan hubungan
antara satu peubah prediktor (x) dan peubah respons (y), hubungan keduanya dinyatakan
dalam fungsi linear, sehingga hubungan kedua peubah tersebut dapat dituliskan dalam bentuk
persamaan:

dengan
: parameter regresi,

: parameter regresi, : peubah respons, : peubah prediktor,

: galat. (Draper & Smith 1992)


Regresi Linear Berganda
Regresi linear berganda adalah persamaan regresi yang menggambarkan hubungan
antara peubah respons (y) dan banyak peubah prediktor (x). Model regresi linear berganda
yang melibatkan p peubah prediktor adalah

Bentuk umum regresi berganda adalah

dengan

: peubah respons,

: peubah prediktor,

koefisien parameter dengan j = 1, 2,, p,

: perpotongan (intercept),

: galat. (Draper & Smith 1992)

Pendugaan Koefisien Regresi Linear Berganda


Metode kuadrat terkecil adalah suatu metode untuk menghitung koefisien regresi
sampel sebagai penduga koefisien regresi populasi (), sedemikian sehingga jumlah galat

kuadrat memiliki nilai terkecil. Secara matematis, model regresi dapat dinyatakan sebagai
berikut:
= +
dengan ,
Y : vektor peubah respons berukuran n m dengan n adalah banyaknya peubah
respons yang diamati,
X : vektor peubah prediktor berukuran n p, dengan p adalah banyaknya peubah
prediktor,
: vektor koefisien berukuran p m,
: vektor galat berukuran n m yang berdistribusi (0,

). (Draper & Smith 1992)

Asumsi dasar untuk atau , yaitu


1. () = atau = ,
2.

atau

Analisis regresi linear berganda menganalisis pengaruh


dengan menduga koefisien-koefisien

terhadap y

. Analisis ini menggunakan metode

jumlah kuadrat terkecil (least sum square), yaitu dengan meminimumkan

diperoleh

nilai dugaan bagi . (Rencher & Schaalje 2008)


Teorema Estimasi
Jika = + , dengan

rank + 1 < , maka nilai yang meminimumkan

adalah

(Rencher & Schaalje 2008)


Model regresi laten

dengan,
y = vektor respon p-variate
= intercept p-variat
vector slope
= error independen dari predictor x dengan kovarians matrix

Pada persamaan diatas, x merupakan variable tak terobservasi sehingga model diatas
dikatakan model regresi laten untuk mencari estimasi parameter dari model tersebut.
2.2.2 Peubah Acak dan Distribusi
Definisi Peubah Acak
Misalkan adalah ruang contoh dari suatu percobaan acak. Fungsi yang terdefinisi
pada yang memetakan setiap unsur

ke satu dan hanya satu bilangan real =

disebut peubah acak. Ruang dari adalah himpunan bagian bilangan real = {

=,

}. (Hogg et al. 2005)


Definisi Peubah Acak Diskret
Peubah acak dikatakan diskret jika himpunan semua nilai { 1, 2,...} merupakan
himpunan tercacah. (Grimmett & Stizaker1992)
Definisi Peubah Acak Kontinu
Peubah acak dikatakan kontinu jika fungsi distribusi komulatifnya

adalah

. (Hogg et al. 2005)

fungsi kontinu untuk setiap


Definisi Fungsi Distribusi
Jika

suatu peubah acak, fungsi distribusinya didefinisikan sebagai


(,+). (Ghahramani 2000)

(6) untuk setiap

2.2.3 Distribusi Bernoulli


Suatu percobaan acak yang menghasilkan dua kemungkinan (sukses dan gagal)
disebut percobaan Bernoulli. Peubah acak X disebut mempunyai sebaran Bernoulli, jika X
merupakan peubah acak pada percobaan
Bernoulli dengan

Jika p menyatakan peluang sukses, maka X merupakan fungsi kerapatan peluang


,
untuk

= 0, 1. (Hogg & Craig 1995)

Jika populasi mengandung laten sub-populasi, maka predictor x pada persamaan


diatas mengandung distribusi bernouli. Misalkan
fungsi densitas marginal
untuk f(y) yaitu :

,
dan
merupakan sebuah fungsi densitas multivariate normal
dengan rata-rata vector dan matriks kovarians .
Persamaan diatas mengandung asumsi
positive-definite matriks kovarians.

berdistribusi

dimana

adalah

2.2.4 Family Beta dan Distribusi Beta


Definisi Family Beta
Misalkan Y suatu peubah acak dengan

merupakan fungsi kepekatan

peluang dari peubah acak dengan parameter a dan b, maka

dapat dikatakan

sebagai family beta jika dapat dibentuk sebagai berikut:

dengan

dan

> 0,

> 0 merupakan fungsi parameter ( , ). (Johnson et

al. 1995)
Definisi Distribusi Beta
Suatu peubah acak
dan

dikatakan mempunyai distribusi beta dengan parameter > 0

> 0 jika fungsi kepekatannya diberikan oleh


,

dengan

dan

. Rataan dan ragam:

(Hogg & Craig 1995)


Pada penelitian ini, model laten regresi digunakan dengan mengganti predictor
bernouli dengan distibusi kontinu yang menggunakan bentuk U yaitu distribusi beta dengan
fungsi densitas
:

Distribusi keluarga beta menghasilkan bermacam-macam bentuk densitas, termasuk


bentuk U yang menghasilkan nilai kontinu dari distribusi Bernoulli.
Fungsi densitas gabungan untuk dan

Dimana

adalah

adalah distribusi beta. Fungsi marginalnya yaitu

2.2.5 Estimasi
2.2.5.1 Metode Maksimum Likelihood
Metode maximum likelihood adalah suatu metode yang baik untuk memperoleh
sebuah parameter tunggal. Misalkan 1, 2, , masing-masing peubah acak saling bebas
dengan sebaran yang memiliki fungsi kepekatan peluang

; , dengan 01,

adalah ruang contoh. Fungsi kepekatan peluang bersama dari


1, 2,, =

1,

2, ,

dan

adalah

yang disebut juga sebagai fungsi likelihood. Fungsi

sederhana dari x1, x2, ,xn yaitu (x1, x2, , xn), sehingga = u(x1, x2, , xn) membuat
fungsi kemungkinan L maksimum untuk semua

. Statistik u(x1, x2, , xn) disebut

penduga maximum likelihood dari yang dinotasikan dengan = u(X1, X2, , Xn). Untuk
menduga parameter dengan menggunakan metode maximum likelihood tidak bisa secara
langsung karena datanya tidak teramati, untuk itu dapat digunakan algoritma EM.
2.2.5.2 EM-algorithm
Metode yang digunakan dalam model regresi laten dengan laten prediktor
menggunakan distribusi beta yaitu model algoritma EM. Metode algoritma EM merupakan
suatu metode estimasi untuk menemukan kemungkinan maksimum dari perkiraan parameter.
Algoritma EM terbagi atas dua langkah yaitu expectation dan maximization.

Expectation yaitu menghitung nilai kemungkinan estimasi untuk variabel laten


Maximization yaitu menghitung nilai maksimal dari kemungkinan pada langkah
expectation. Pada tahap ini digunakan dugaan maximum likelihood

Tahapan ekspektation
Merupakan tahapan untuk menghitung ekspekasi bersyarat dari fungsi likelihood
dengan prediktor laten. Misalkan adalah suatu nilai awal, maka E-step didefinisikan

Dalam aplikasi pada efek placebo,

didefinisikan sebagai matriks koefisien


(

Dengan dimensi 2xp dimana setiap kolom p berupa intersep dan slop dari koefisien
regresi pada setiap variabel respon p.
Misalkan X merupakan matriks dimana kolom pertama berupa intersep dan kolom
kedua mengandung prediktor latent

, Y merupakan matriks nxp dan


merupakan matriks kovarian definit positif. Model regresi laten dapat ditulis sebagai

Likelihood untuk model regresi laten:


| |

| dan
Misalkan

| menghitung ekspektasi bersyarat dari

dan membutuhkan laten predictor . Ekspektasi bersyarat dari

adalah
[

dan


}](7)
diperoleh

( (; )|

2ln 2

Misalkan

2ln

.5 [

1{

+ ( )}].

. (8)

Persamaan 7 bisa ditulis ulang menjadi


[

)
(

Bagian trace yang berhubungan dengan parameter


[

)
(

)]

)}]. (9)

dapat ditulis:

[
(

[
(

)
)

) ]
)
].

Hasil E-step dapat dinyatakan kembali sebagai berikut :


( (;

)|) = 2 ln 2 2 ln

0.5 [ 1{ + ( )}].

Tahapan maximization
Merupakan tahapan untuk mendapatkan parameter baru dengan memaksimumkan
( (;

)|) yang dinyatakan sebagai berikut:


|

sehingga diperoleh = = 1 .
Proses E-Step dan M-Step ini dilakukan terus secara iteratif sampai diperoleh suatu
nilai dugaan parameter yang konvergen.

BAB III
ANALISIS REGRESI LATEN
3.1 Pendahuluan
Penelitian ini meliputi pencarian informasi yang berhubungan dengan topik yang
dibahas yaitu analisis regresi laten.
3.2 Sumber data
Data yang digunakan untuk penelitian ini adalah data sekunder mengenai pasien
depresi rawat jalan yang bersumber dari Tarpey dan Petkova (2010) dengan komunikasi via
e-mail. Objek penelitian adalah pasien laki-laki dan perempuan berusia 18-65 tahun. Jumlah
responden depresi dalam penelitian adalah 393 orang.
Selain menggunakan data pada aplikasi plasebo diatas, untuk memunculkan model
dan estimasi dilakukan simulasi. Untuk setiap pengaturan parameter, 50 himpunan data
diberikan dengan masing-masing ukuran sampel

n=100 dimana peubah parameter x

berdistribusi beta dengan parameter a=0.5 dan b=0.3.


3.3 Analisis dan pemrograman
Analisis pada penelitian ini menggunakan software R dengan langkah-langkah
penelitian sebagai berikut :
1. Menelusuri model regresi laten yang sesuai.
Seperti yang telah dijelaskan pada tinjauan pustaka, jika populasi terdiri dari
dua sub populasi laten (orang yang mengalami efek plasebo dan orang yang tidak
mengalami efek plasebo), maka prediktor laten memiliki distribusi Bernoulli.
Karena distribusi Bernoulli memiliki probabilitas 0 dan 1, cara alami untuk
mengenarilisasi model campuran terbatas yaitu dengan menggani prediktor bernoulli
0 1 oleh distribusi kontinu pada interval (0,1) yang kepadatannya berbentuk U.
Pada penelitian ini dilakukan suatu simulasi untuk memunculkan model
regresi laten dimana laten regresor x mempunyai distribusi beta dengan parameter a =
0.5 dan b = 0.3. Model regresi laten yang terbentuk sebagai berikut :
y =1 + 6x +

dimana parameter regresi 0 = 1, 1 = 6 dan error berdistribusi normal dengan =


0 dan = 0.5.
Untuk membandingan model regresi laten dan model campuran terbatas
dilakukan juga seperti simulasi diatas. Pada model campuran terbatas, 0 = 1 dan 0+
1 = 2 sehingga dapat dibandingkan hasil model laten regresi dan model campuran
terbatas seperti gambar di bawah ini :

Gambar (1)
2. Mengetimasi parameter model regresi ketika x berupa laten menggunakan algoritma
maximum likelihood dan algoritma EM.
Algoritma EM yang dijelaskan pada

2.2.6.2 bab sebelumnya akan diuji

menggunakan beberapa pengaturan parameter untuk model regresi laten. Pengujian


ini dilakukan dengan melakukan simulasi. Untuk setiap pengaturan parameter, 50
himpunan data diberikan dengan masing-masing ukuran sampel

n=100. Pada

simulasi ini, peubah parameter x berdistribusi beta dengan parameter a=0.5 dan b=0.3
dan menghasilkan kerapatan berbentuk U seperti gambar dibawah :

Gambar (2)

Pada algoritma EM, simulasi tersebut dilakukan dengan iterasi sebanyak 100
kali. Berikut scatterplot dari E[x|yi] iterasi ke-100 dan nilai xi dalam sebuah simulasi
dimana korelasi antar keduanya yaitu 0.985.

Gambar (3)
3. Melakukan aplikasi pada efek placebo
Jumlah responden dalam Tarpey dan Petkova sebanyak 393 orang dalam satu
minggu. Salah satu cara yang digunakan dalam menduga sebaran pasien depresi
selama satu minggu adalah dengan melihat kesesuaian histogram data dimana
histogram menunjukkan bahwa data pasien depresi berdistribusi beta.

Gambar (4)
Untuk membandingkan model terbaik yang sesuai dengan data, dilakukan
pengujian Shaphiro-Wilks untuk normalitas (Shapiro dan Wilks, 1965). Dimana
dilakukan perhitungan korelasi R2 antara quantil pada data yang diobservasi dan
quantil yang sesuai dengan ketertarikan masing-masing model yaitu model laten

regresi atau model campuran terbatas. Selain dengan melihat korelasi R2,
perbandingan model terbaik dapat juga dengan melihat Q-Q plot dari kedua model.
Namun, Q-Q plot tak terlalu memperlihatkan perbedaan signifikan mana model yang
terbaik.

Gamabr (5)

Você também pode gostar