Você está na página 1de 3

I.

TINJAUAN PUSTAKA
A. Analisis Multivariat
Analisis multivariat adalah analisis statistika yang digunakan pada data yang terdiri dari banyak variabel dan
antar variabel saling berkorelasi. Data multivariat tidak hanya terdiri atas satu variabel saja melainkan dapat terdiri
atas lebih dari satu variabel. Model regresi multivariat adalah model regresi dengan lebih dari satu variabel respon
yang saling berkorelasi dan satu atau lebih variabel prediktor (Johnson dan Wichern, 2007).

B. Distribusi Normal Multivariat


Distribusi normal multivariat atau distribusi normal p-variat mempunyai peranan penting dalam metode statistika
multivariat. Normal multivariat adalah suatu perluasan dari distribusi univariat normal sebagai aplikasi pada
variabel yang mempunyai hubungan. Dalam analisis multivariat, asumsi normal multivariat harus diperiksa untuk
memastikan data pengamatannya mengikuti distribusi normal agar statistik inferensia dapat digunakan dalam
menganalisis data tersebut. Diberikan variabel acak 𝑋 = (𝑥1 , 𝑥2 , … , 𝑥𝑝 ) berdistribusi normal dengan

1 1 𝑇
𝑓(𝑥) = 1 𝑒𝑥𝑝 {− (𝑥 − 𝜇) Σ −1 (𝑥 − 𝜇)}
2
2𝜋 2 |Σ|1\2

Secara sederhana ditulis 𝑋~𝑁𝑝 (𝜇, Σ), p=2 disebut bivariate normal dengan:

1 1 𝑋1 −𝜇1 2 𝑋2 −𝜇2 2 𝑋1 −𝜇1 𝑋2 −𝜇2


𝑓(𝑥1 , 𝑥2 ) = 2 ) 𝑒𝑥𝑝 {− 2 ) [( ) +( ) − 2𝜌12 ( )( )]}
2𝜋√𝜎11 𝜎22 (1−𝜌12 2(1−𝜌12 √𝜎11 √𝜎22 √𝜎11 √𝜎22

dengan 𝜌 adalah koefisien korelasi antara 𝑥1 dan 𝑥2 ; |𝜌| ≤ 1.


(Johnson dan Wichern, 2007)
Salah satu cara untuk memeriksa apakah suatu himpunan data mempunyai distribusi normal multivariat,
menggunakan Q-Q plot yang didasarkan pada jarak kuadrat atau jarak mahalanobis. Jarak kuadrat dari vektor
mean populasi berdistribusi Chi-square dengan derajat bebas p.
Misal fungsi densitas distribusi normal p-variat:
1 1
𝑓(𝒙) = 1 𝑒𝑥𝑝 {− 𝑄} , 𝒙 ∈ ℛ 𝑝
2
2𝜋 2 |Σ|1\2
𝑇 −1
dengan 𝑄 = (𝒙 − 𝝁) Σ (𝒙 − 𝝁), fungsi densitas distribusi normal p-variat tersebut akan konstan pada
permukaannya jika kuadrat jarak 𝑄 = (𝒙 − 𝝁)𝑇 Σ −1 (𝒙 − 𝝁) konstan, disebut sebagai kontur.
Constant probability density contour
= {semua 𝒙 sehingga (𝒙 − 𝝁)𝑇 Σ −1 (𝒙 − 𝝁) = 𝑐 2 }
= 𝑠𝑢𝑟𝑓𝑎𝑐𝑒/permukaan elipsoid berpusat di 𝛍
Elipsoid ini berpusat di 𝝁 dan mempunyai sumbu ±𝑐√𝜆𝑖 e𝑖 dengan ∑ e𝑖 = 𝜆𝑖 e𝑖 untuk 𝑖 = 1,2, … , 𝑝. Misal 𝑐 2 =
𝒳𝑝2 (𝛼), sehingga kontur dari constant density distribusi normal p-variat dengan peluang (1 − 𝛼) adalah:
{(𝒙 − 𝝁)𝒕 𝚺 −𝟏 (𝒙 − 𝝁)} ≤ 𝓧𝟐𝒑 (𝜶)
di mana vektor mean populasi 𝜇 diduga dengan vektor mean sampel 𝒙 ̅, dan matriks kovarians populasi Σ diduga
dengan matriks kovarians sampel 𝑺. Pada distribusi normal bivariat, kontur tersebut berbentuk elips.
Langkah-langkah membuat Q-Q plot:
1. Distribusi normal multivariat data dapat diperiksa dengan menghitung jarak pada setiap pengamatan
yaitu
𝑑𝑗2 = (𝑥𝑗 − 𝑥̅ )𝑇 𝑆 −1 (𝑥𝑗 − 𝑥̅ )

dengan 𝑗 = 1,2, … , 𝑛 dan n adalah banyaknya data.

dimana 𝑥𝑗 : vektor observasi sampel ke-j berukuran 𝑝 × 1

𝑥̅ : vektor rata-rata sampel berukuran 𝑝 × 1

𝑆 −1 : invers matriks varian-kovarian sampel berukuran 𝑝 × 𝑝


2. Mengurutkan 𝑑𝑗2 dari terkecil sampai terbesar untuk memperoleh kuantil terobservasi dari distribusi,
yaitu 𝑑12 ≤ 𝑑22 ≤ ⋯ ≤ 𝑑𝑛2
𝑗−0,05
3. Menghitung kuantil harapan dari distribusi 𝒳𝑝2 dengan 𝑞𝑗 = 𝒳𝑝2 ( ) bersesuaian dengan setiap 𝑑𝑗2 ,
𝑛
𝑗−0,05 𝑗−0.05
𝑗 = 1,2, … , 𝑛 dimana 𝒳𝑝2 ( ) merupakan persentil ke 100 ( ) dari distribusi Chi-square
𝑛 𝑛
dengan derajat bebas p.
4.
5. Plot 𝑑𝑗2 versus 𝑞𝑗 untuk 𝑗 = 1,2, … , 𝑛 dan periksa kelinierannya dalam plot. Jika titik-titik tidak
membentuk garis lurus, maka kuantil terobservasi tidak mengikuti distribusi Chi-square, atau dengan
𝑗−0,05
melihat nilai proporsi yang didapatkan dari membandingkan nilai 𝑑𝑗2 ≤ 𝒳𝑝2 ( ), maka data
𝑛
memenuhi asumsi distribusi normal multivariat.

Uji Saphiro-Wilk

Metode Shapiro-Wilk adalah sebuah metode atau rumus perhitungan sebaran data yang dibuat oleh Shapiro dan
Wilk. Metode Shapiro-Wilk adalah metode uji normalitas yang efektif dan valid digunakan untuk sampel
berjumlah kecil. Terdapat beberapa syarat yang harus dipenuhi oleh data yang akan diuji kenormalannya
menggunakan metode ini, yaitu data berskala interval atau rasio (kuantitatif), data merupakan data tunggal yang
belum dikelompokkan pada tabel distribusi frekuensi, dan data sampel diambil secara random. Tahapan pengujian
kenormalan menggunakan Shapiro Wilk:
1. Penentuan hipotesis
𝐻0 : Data berdistribusi normal p-variat
𝐻1 : Data tidak berdistribusi normal p-variat
2. Data diurutkan dari yang terkecil sampai terbesar dan kemudian dibagi menjadi dua untuk dikonversi dalam
Shapiro Wilk.
3. Menghitung statistik uji
1 2
𝑇3 = [∑𝑘𝑖=1 𝑎𝑖 (𝑥𝑛−1+1 − 𝑥𝑖 )]
𝐷
𝐷 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
dengan
𝑎𝑖 : koefisien Saphiro Wilk
𝑥𝑛−𝑖+1 : data ke 𝑛 − 𝑖 + 1
𝑥𝑖 : 𝑑𝑎𝑡𝑎 𝑘𝑒 − 𝑖
𝑥̅ : rata − rata
4. Menghitung signifikansi uji dengan membandingkan signifikansi uji dan nilai tabel Shapiro Wilk untuk dilihat
nilai peluangnya (𝑝). Jika 𝑝 < 𝛼 maka tolak 𝐻0 .

C. Uji Statistik Bartlett


Uji Statistik Bartlett merupakan uji yang didasari pada varians dari data-data yang berukuran besar, sehingga akan
diuji kebebasan antara varians pada masing-masing sampel. Diasumsikan bahwa variansi data di antara sampel
atau kelompok adalah sama. Untuk itu dibuat hipotesis awalnya adalah seluruh varians masing-masing variabel
adalah sama dalam populasi, dan hipotesis alternatifnya adalah paling tidak ada satu varians yang tidak sama,
maka hipotesis awal ditolak. Uji Statistik Bartlett pada penelitian ini bertujuan untuk mengetahui apakah terdapat
hubungan antar variabel dalam kasus multivariat. Dengan asumsi bahwa variansi dari populasi dapat diestimasi
oleh nilai korelasi dari matriks korelasi Pearson, maka akan dihitung Uji Statistik Bartlett dengan membandingkan
distribusi Bartlett dengan distribusi Chi-Kuadrat dengan hipotesis sebagai berikut:
𝐻0 : 𝝆 = 𝑰 (Antar variabel variat tidak berkorelasi atau bersifat independent)
𝐻1 : 𝝆 ≠ 𝑰 (Antar variabel variat berkorelasi atau bersifat dependent)
dengan menggunakan statistik uji:
2
2𝑝 + 5
𝒳ℎ𝑖𝑡𝑢𝑛𝑔 = − (𝑛 − 1 − ) ln|𝑅|
6
di mana p adalah banyaknya variabel variat dan ln|R| adalah nilai-nilai determinan matriks korelasi dari masing-
2 2
masing variabel respon. Tolak 𝐻0 jika 𝒳ℎ𝑖𝑡𝑢𝑛𝑔 > 𝒳𝛼, 1
𝑝(𝑝−1)
yang artinya antar variabel variat berkorelasi atau
2
bersifat dependent.
I. METODOLOGI PENELITIAN

A. Sumber Data
Data yang digunakan dalam penelitian ini adalah data sekunder yang diambil dari website UCI
(archive.ics.uci.edu/ ml/datasets) sebanyak 249 data. Merupakan data jumlah review tempat tujuan yang terdiri
dari beberapa kategori, dari suatu website di India Selatan yang terdiri dari beberapa kategori tempat tujuan.

B. Variabel Penelitian
Variabel yang digunakan dalam penelitian ini adalah sebagai berikut:

1. Variabel X1 adalah jumlah review tujuan perjalanan kategori religi atau tempat-tempat religi yang ada di India
Selatan.
2. Variabel X2 adalah tujuan perjalanan kategori tempat belanja yang ada di India selatan.
C. Langkah-Langkah Analisis Data
1. Melakukan pengujian korelasi antar variabel X1 dan X2 menggunakan Uji Bartlett.
2. Melakukan pengujian distribusi normal multivariat dengan beberapa metode :
2
a. Menghitung proporsi nilai square distance d j yang nilainya kurang dari  2,0.5
2

b. Melakukan pengujian distribusi normal multivariat menggunakan uji Shapiro Wilk’s


3. Melakukan pendeteksian data outlier dan mengatasi data outlier
3. Sumber Data dan Metodologi
3.1. Sumber Data
Sumber data yang digunakan merupakan data sekunder yang diambil dari UCI datasets
(http://archive.ics.uci.edu/ml/datasets/air+quality) dengan jumlah data pada masing- masing variabel 50 data.
Data berupa respons rata-rata per jam dari sensor kimia oksida logam yang tertanam dalam Perangkat Multisensor
Kimia Kualitas Udara yang diletakkan di area tercemar dan di permukaan jalan di kota Italia. Data direkam dari
hari Rabu, 10 Maret 2004 pukul 18.00 sampai hari Jumat, 12 Maret 2004 pukul 19.00 waktu setempat.

D. Variabel Penelitian
Variabel yang digunakan dalam penelitian ini adalah sebagai berikut:

1. Variabel 𝑋1 adalah jumlah kandungan NO2 di udara yang terekam oleh perangkat sensor dengan satuan
𝜇𝑔/𝑚3
2. Variabel 𝑋2 adalah jumlah kandungan CO di udara yang terekam oleh perangkat sensor dengan satuan
𝜇𝑔/𝑚3
E. Langkah-Langkah Analisis Data
1. Melakukan pengujian korelasi antar variabel X1 dan X2 menggunakan Uji Bartlett.
4. Melakukan pengujian distribusi normal multivariat dengan beberapa metode :
2
c. Menghitung proporsi nilai square distance d j yang nilainya kurang dari  2,0.5
2

d. Melakukan pengujian distribusi normal multivariat menggunakan uji Shapiro Wilk’s


5. Melakukan pendeteksian data outlier dan mengatasi data outlier
Langkah-langkah yang digunakan untuk menganalisis data dalam penelitian ini adalah sebagai berikut:

1. Melakukan pengujian distribusi normal multivariat dengan cara:


-
2
Menghitung proporsi nilai square distance d j yang nilainya kurang dari  2,0.5
2

- Melakukan pengujian distribusi normal multivariat menggunakan uji Shapiro Wilk


2. Menggunakan uji Bartlett untuk pengujian korelasi antar variabel 𝑋1 dan 𝑋2 .
3. Mendeteksi ada tidaknya data outlier dan mengatasi data outlier.

Você também pode gostar