Você está na página 1de 16

ANALISIS STATISTIKA MULTIVARIATE

Analisis statistika multivariate adalah analisis statistika yang dikenakan pada data
yang terdiri dari banyak variabel dan antar variabel saling berkorelasi. Beberapa metode
yang termasuk ke dalam golongan analisis ini adalah :
#
Metode
Tujuan
Model
1 Principal
Mereduksi dimensi data dengan cara Yi a' X
Component
membangkitkan variabel baru (komponen maks var(Yi) dan
Analysis
utama) yang merupakan kombinasi linear corr(Yi, Yj)=0
dari variabel asal sedemikan hingga varians
komponen utama menjadi maksimum dan
antar komponen utama bersifat saling bebas
2 Factor
Mereduksi dimensi data dengan cara X CF
Analysis
menyatakan variabel asal sebagai kombinasi maks var(CF)
linear sejumlah faktor, sedemikian hingga
sejumlah faktor tersebut mampu menjelaskan sebesar mungkin keragaman data yang
dijelaskan oleh variabel asal.
3 Cannonical
Menganalisis hubungan antar dua kelompok Ada dua kelompok
Correlation
variabel dengan cara membangkitkan vari- variabel :X dan Y
abel baru pada setiap kelompok. Variabel dibangkitkan variabel
baru tersebut merupakan kombinasi linear baru :
dari variabel asal. Kombinasi linearnya U i a' X dan
ditentukan sedemikian hingga korelasi antar Vi b' Y sehingga
variabel baru yang berasal dari dua ke- corr( U , V ) maks
i
i
lompok menjadi maksimum
U
dan corr( i , V j )=0
4 Multivariate
Memodelkan hubungan antara kelompok Y X
Regression
variabel respon (Y) dengan kelompok
variabel (X) yang diduga mempengaruhi
variabel respon
5 MANOVA
Menganalisis hubungan antara vektor va- Yijk k ik ijk
riabel respon (Y) yang diduga dipengaruhi i=1,...,t j=1,...,ni
oleh beberapa perlakuan (treatment).
k=1,...,p
6 Discriminant Membentuk fungsi yang memisahkan antar
Analysis
kelompok berdasarkan variabel pembeda,
fungsi tsb disusun sedemikian nisbah keragaman data antar dan kelompok maksimum.
7 Cluster
Mengelompokkan data ke dalam beberapa
Analysis
kelompok sedemikian hingga data yang
berada di dalam kelompok yang sama
cenderung mempunyai sifat yang lebih
homogen daripada data yang berada di
kelompok yang berbeda

Analisis Statistika Multivariate

Distribusi Multinormal
Beberapa metode statistika multivariate seperti : MANOVA, dan discriminant
analysis seringkali mensyaratkan terpenuhinya asumsi distribusi multinormal. Asumsi ini
diperlukan karena di dalam MANOVA dan discriminant analysis dilakukan pengujian
dengan menggunakan statistik uji Wilk. Kesimpulan yang diambil berdasarkan statistik
ini dikatakan sahih (valid), jika syarat distribusi multinormal dipenuhi.
Variabel X i , X 2 ,..., X p dikatakan berditribusi normal multivariate dengan
parameter dan jika mempunyai probability density function :
f ( X i , X 2 ,..., X p )

1
( 2 ) p / 2

p/2

1
( X )' 1 ( X )
2

Jika X i , X 2 ,..., X p berdistribusi normal multivariate maka ( X )' 1 ( X )


2
berditribusi p . Berdasarkan sifat ini maka pemeriksaan distribusi multinormal dapat

2
1
dilakukan dengan cara membuat q-q plot dari nilai d i X i X)' S ( X i X , i 1,..., n .
Tahapan dari pembuatan q-q plot ini adalah sebagai berikut (Johnson, 1990)
1. Mulai
2. Tentukan nilai vektor rata-rata : X
3. Tentukan nilai matriks varians-kovarians : S
4. Tentukan nilai jarak Mahalanobis setiap titik pengamatan dengan vektor rata2
1
ratanya d i X i X)' S ( X i X , i 1,..., n

2
2
2
2
5. Urutkan nilai d dari kecil ke besar : d (1) d ( 2 ) d ( 3) ... d ( n )

2
i

6. Tentukan nilai pi

i 1/ 2
, i 1,..., n
n
qi

7. Tentukan nilai q i sedemikian hingga

f (

) d 2 p i

2
(i )

8. Buat scatter-plot d dengan q i


9. Jika scatter-plot ini cenderung membentuk garis lurus dan lebih dari 50 %
2
2
nilai d i p ,0.50
10. Selesai

2
1
Implementasi pembuatan q-q plot dari nilai d i X i X)' S ( X i X , i 1,..., n
dalam macro MINITAB disajikan pada Lampiran 1.

Analisis Statistika Multivariate

Selain dengan memeriksa nilai jarak Mahalanobis setiap pengamatan dengan


vektor rata-ratanya. Menurut Mardia (1974) di dalam Rencher (1995) pemeriksaan
kemultinormalan data dapat juga dikaji melalui nilai multivariate skewnewss ( b1, p ) dan
kurtosisnya ( b2, p )
b1, p

1
n2

g
i 1 j 1

3
ij

dan b2, p

1 n 2
g ii
n i 1

1
sedangkan g ij ( X i X)' S ( X j X)

Jika X i , X 2 ,..., X p dikatakan berditribusi normal multivariate maka :


z1

z2

( p 1)(n 1)(n 3)
b1, p berditribusi p2 ( p 1)( p 2 ) / 6 dan
6 (n 1)( p 1) 6
b2, p p ( p 2)
8 p ( p 2) / n

berdistribusi normal baku.

Penentuan nilai z1, z2 dengan bantuan macro MINITAB disajikan pada Lampiran
2.
Kebebasan antar variabel
Variabel X i , X 2 ,..., X p dikatakan bersifat saling bebas (independent) jika
matriks korelasi antar variabel membentuk matriks identitas. Untuk menguji kebebasan
antar variabel ini dapar dilakukan uji Bartlett sphericity berikut (Morrison, 2005) :
Hipotesis :
Ho : R = I
H1 : R I

2
Statiistik uji : hitung n 1

2
hitung

2 p 5
ln R
6

Terima hipotesis Ho yang berarti antar variabel bersifat saling bebas jika nilai
12
p ( p 1) . Jika hipotesis ini yang diterima maka penggunanan metode
2

multivariate tidak layak terutama metode analisis komponen utama dan analisis faktor.
Penentuan nilai statistik uji Bartlett sphericity dengan bantuan macro MINITAB
disajikan pada Lampiran 3.

Analisis Statistika Multivariate

Kehomogenan Matriks Varians-Kovarians


Beberapa analisis statistika multivariate seperti discriminant analysis dan
MANOVA membutuhkan syarat matriks varians-kovarians yang homogen. Untuk menguji
syarat ini dapat dipergunakan statistik uji Box-M. Hipoteris dan statistik uji Box-M
adalah (Rencher, 1995) :
Hipotesis
Ho : 1 2 ... k
H1 : i j untuk i j
Statistik uji

2
hitung

1
1 k
2(1 c1 ) vi ln S i ln S pool
2
2 i 1

v
ii 1

dan
k

S pool

v S
i 1
k

v
i 1

c1

v
i 1

2 p2 3p 1

6( p 1)(k 1)

1
k

v
i 1

v i ni 1

Terima hipotesis nol yang berarti matriks varians-kovarians bersifat homogen jika
2
hitung
12
2

( k 1) p ( p 1

Analisis Statistika Multivariate

Outlier
Data tidak bersitribusi multinormal atau matriks varians-variansnya tidak homogen
bisa saja disebabkan oleh sedikit pengamatan yang mempunyai pola berbeda dengan
sebagian besar pengamatan. Pengamatan yang mempunyai perilaku seperti ini disebut
outlier. Contoh pengamatan yang merupakan outlier adalah negara Jepang (Gambar 1.)
Statistik uji yang dapat dipakai untuk mendeteksi adanya outlier adalah (Morrison, 2005)
n p 1 nd i2
Fi
2
p n 1 npd i2
Pengamatan ke-i adalah outlier jika Fi F ; p , n p 1 Penentuan adanya outlier
dengan menggunakan macro MINITAB disajikan di Lampiran 4.
10

Japan

8
Belgium
7

Netherland

Germany

Produktivitas

Denmark
France

Italy
Sw eden

UK

US

3
1500

1600

1700

1800

1900

2000

2100

2200

Jam kerja setahun

Gambar 1. Scater-plot produktivitas dan jam-kerja bebarapa negara-negara maju

Analisis Statistika Multivariate

Kegiatan Praktikum
COUNTRY
Afghanistan
Bangladesh
Cambodia
China
Hong Kong
India
Indonesia
Japan
Malaysia
N. Korea
Pakistan
Philippines
S. Korea
Singapore
Taiwan
Thailand
Vietnam

DENSITY
25
800
55
124
5494
283
102
330
58
189
143
221
447
4456
582
115
218

URBAN
18
16
12
26
94
26
29
77
43
60
32
43
72
100
71
22
20

LIFEEXPF
44
53
52
69
80
59
65
82
72
73
58
68
74
79
78
72
68

LIFEEXPM
45
53
50
67
75
58
61
76
66
67
57
63
68
73
72
65
63

LITERACY
29
35
35
78
77
52
77
99
78
99
35
90
96
88
91
93
88

BABYMORT
168
106
112
52
5.8
79
68
4.4
25.6
27.7
101
51
21.7
5.7
5.1
37
46

GDP_CAP
205
202
260
377
14641
275
681
19860
2995
1000
406
867
6627
14990
7055
1800
230

Sumber data : Contoh data SPSS world95.sav


Ketrangan variabel :
Variabel
Penjelasan
Density
Banyaknya penduduk per km persegi
Urban
Persentase penduduk yang tinggal di perkotaan
Lifeexpf
Harapan hidup penduduk perempuan (tahun)
Ligeexpm
Harapan hidup penduduk laki-laki (tahun)
Literacy
Persentase penduduk yang bisa baca-tulis
Babymort
Banyaknya kematian bayi per 1000 kelahiran
Gdp_cap
Penghasilan penduduk per kapita pertahun (US$)
1. Periksa kemultinormalan data kependudukan negara-negara di Asia dengan
2
1
a. Menggunakan q-q plot dari nilai d i X i X)' S ( X i X , i 1,..., n
b. Menggunakan multivariate skewness dan multivariate kurtosis
2. Apakah data di atas layak dianalisis dengan menggunakan analisis statistika
multivariate
3. Tentukan negara-negara yang dianggap outlier, jika ada outlier maka hapus negara
yang paling outlier (Nilai sig_f paling kecil) kemudian lakukan pengujian
kemultinormalan melalui multivariate skewness dan kurtosis.
4. Dengan menggunakan variabel yang sama, ujilah apakah matriks varianskovarians Afrika sama dengan Amerika Latin atau tidak , jika tidak sama, coba
lakukan penghapusan beberapa negara yang dianggap outlier

Analisis Statistika Multivariate

Penyelesaian
1a.

2
1
q-q plot dari nilai d i X i X)' S ( X i X , i 1,..., n untuk data kependudukan
negara-negara di Asia adalah :

MTB > %qq.txt c2-c8

0.529412
distribusi data multinormal
2
1
q-q plot dari nilai d i X i X)' S ( X i X , i 1,..., n

1b.

cenderung

2
2
membentuk garis kurus dan ada lebih dari 50 % (52.9412 %) nilai d i p ,0.50
sehingga data diatas cenderung berdistribusi multinormal.
Pemeriksaan kemultinormalan data melalui multivariate skewness dan kurtosis
adalah :
MTB > %mardia.txt c2-c8
Multivariate skewness
b1
33.2386
z1
115.612
pvalue
0.0126605
Multivariate kurtosis
b2
60.5424
z2
-0.451353
pvalue
0.651735

Pvalue untuk statistik uji


multivariate skewness lebih kecil dari
sehingga data kependudukan negara-negara di Asia cenderung tidak
berdistribusi multinormal

Analisis Statistika Multivariate

2. Kelayakan penggunaan analisis statistika multivariate dapat dikaji melalui dua


sisi yaitu sisi terapan dan sisi statistika. Dari sisi terapan dapat ditunjukkan bahwa
berdasarkan referensi disiplin ilmu kependudukan, variabel-variabel di atas
memang saling terkait satu dengan yang lainnya. Dari disiplin ilmu statistika,
keeratan hubungan antar variabel dapat dilakukan melalui pengujian terhadap
matriks korelasi. Apakah matriks korelasinya membentuk matriks identitas atau
tidak, jika matriks korelasinya setelah diuji berbeda secara significant dengan
matriks identitas maka dapat disimpulkan bahwa ada hubungan antar variabel.
Sehingga data ini layak di analisis dengan menggunakan analisis statistika
multivariate. Jika matriks korelasinya setelah diuji tidak berbeda dengan matriks
identitas, maka diduga sampel yang diperoleh tidak cukup, sehingga disarankan
untuk menambah sampel. Diharapkan setelah dilakukan penambahan sampel
maka hasil pengujian matriks korelasi berbeda dengan matriks identitas. Karena
dari hasil pengujian Bartlett sphericity dapat disimpulkan perlunya penambahan
sampel maka uji ini disebut juga uji kecukupan sampel. Dengan bantuan
MINITAB pengujian ini dapat diilakukan dengan cara :
MTB > %bart.txt c2-c8
chis
pvalue

178.398
0

pvalue dari statistik uji Bartlett sphericity lebih kecil dari 5 %) sehingga dapat
disimpulkan matriks korelasi antar variabel berbeda dengan matriks identitas.
Karena matriks korelasi bukan merupakan matriks identitas maka analisis
statistika multivariate layak untuk digunakan.

Analisis Statistika Multivariate

3. Suatu pengamatan diakatakan outlier jika nilai Fi

n p 1 nd i2

2
p n 1 npd i2

melampaui

Fi F ; p , n p 1 ,

dengan menggunakan macro MINITAB hal ini dapat


diselesaikan dengan cara :
MTB > %outlier.txt c1-c8
Row

COUNTRY

f_value

sig_f

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

Afghanistan
Bangladesh
Cambodia
China
Hong Kong
India
Indonesia
Japan
Malaysia
N. Korea
Pakistan
Philippines
S. Korea
Singapore
Taiwan
Thailand
Vietnam

10.9875
4.8952
4.7223
5.4980
11.0696
4.6708
1.6888
13.6454
6.0117
5.2646
10.5513
2.8156
5.9621
9.4582
4.6465
5.4036
4.7088

3.4699
0.6192
0.5874
0.7394
3.5676
0.5781
0.1624
12.4126
0.8543
0.6911
3.0096
0.2957
0.8427
2.1713
0.5738
0.7196
0.5849

0.043306
0.729851
0.752289
0.646985
0.040074
0.758837
0.987188
0.000564
0.572647
0.679801
0.063477
0.938851
0.579908
0.138178
0.761898
0.660353
0.754010

Ada 3 negara yang dianggap outlier yaitu Jepang, Hongkong dan Afganistan.
Hasil pengujian kemultinormalan setelah Jepang dikeluarkan adalah :
MTB > delete 8 c1-c8
MTB > %mardia.txt c2-c8
Multivariate skewness
b1
30.1551
z1
99.8985
pvalue
0.113626
Multivariate kurtosis
b2
z2
pvalue

56.8194
-1.10122
0.270800

Setelah Jepang dikeluarkan, ternyata data kependudukan Negara-negara di Asia


berdistribusi multinormal. Dari contoh ini dapat ditunjukkan bahwa adanya
outlier dapat menyebabkan data tidak berdistribusi multinormal.

Analisis Statistika Multivariate

4. Pengujian kesamaan matriks varians-kovarian untuk region Afrika dan Amerika


Latin dapat dilakukan dengan cara :
- Memilih negara-negara di region Afrika dan Amerika Latin
klik Data, Select Cases

kemudian klik if dan ketik region=4 or region=6

klik Continue kemudian OK

Analisis Statistika Multivariate

10

Melakuan pengujian kehomogenan matriks varians-kovarians


klik Analyze, Clasify, Discriminant

klik Statistics

klik Continue kemudian OK


Test Results
Box's M
F

Approx.
df1
df2
Sig.

70.555
2.015
28
4918.900
.001

Tests null hypothesis of equal population covariance matrices.

Nilai significance statistik uji Box-M lebih kecil dari 5%, sehingga disimpulkan
matriks varians-kovarians region Afrika dan Amerika Latin tidak homogen, di
duga ketidakhomogenan ini disebabkan adanya outlier.
Analisis Statistika Multivariate

11

Deteksi outlier Negara-negara di Afrika dan Amerika Latin adalah :


MTB > %outlier.txt c1-c8
Row
2
5
34
40

COUNTRY
Barbados
Brazil
Somalia
Zambia

d
30.0922
13.2080
15.7276
16.9353

f_value
17.3411
2.4330
3.2245
3.6709

sig_f
0.000000
0.040604
0.010578
0.005090

Hasil pengujian kehomogenan matriks varians-kovarians setelah Barbados


dikeluarkan adalah :
Test Results
Box's M
F

Approx.
df1
df2
Sig.

55.121
1.564
28
4741.799
.030

Tests null hypothesis of equal population covariance matrices.

Hasil pengujian kehomogenan matriks varians-kovarians setelah Barbados dan


Zambia dikeluarkan adalah :
Test Results
Box's M
F

Approx.
df1
df2
Sig.

51.217
1.441
28
4403.414
.062

Tests null hypothesis of equal population covariance matrices.

Setelah Barbados dan Zambia dikeluarkan maka matriks varians-kovarians sudah


bersifat homogen pada . Seandainya setelah dilakukan pembuangan data
outlier matriks varians-kovarians belum bersifat homogen maka dapat dicoba
dilakukan transfor-masi Box-Cox dengan mencobakan berbagai nilai Hasil
transformasi ini tidak selalu berhasil menghomogenkan matriks varianskovarians. Jika matriks varians-kovarians tidak bisa dihomogenkan maka dapat
dilakukan metode statistika yang lain yang tidak membutukan asumsi ini.

Analisis Statistika Multivariate

12

Lampiran 1. Macro MINITAB untuk memeriksa kemultinormalan DATA dari q2


1
q plot nilai d i X i X)' S ( X i X , i 1,..., n

macro
qq x.1-x.p
mconstant i n p t chis
mcolumn d x.1-x.p dd pi q ss tt
mmatrix s sinv ma mb mc md
let n=count(x.1)
cova x.1-x.p s
invert s sinv
do i=1:p
let x.i=x.i-mean(x.i)
enddo
do i=1:n
copy x.1-x.p ma;
use i.
transpose ma mb
multiply ma sinv mc
multiply mc mb md
copy md tt
let t=tt(1)
let d(i)=t
enddo
set pi
1:n
end
let pi=(pi-0.5)/n
sort d dd
invcdf pi q;
chis p.
plot q*dd
invcdf 0.5 chis;
chis p.
let ss=dd<chis
let t=sum(ss)/n
print t
if t>0.5
note distribusi data multinormal
endif
if t<=0.5
note distribusi data bukan multinormal
endif
endmacro

Analisis Statistika Multivariate

13

Lampiran 2.

Macro MINITAB untuk menguji kemultinormalan data melalui


multivariate skewness dan multivariate kurtosis

macro
mardia y.1-y.p
mconstant i j n p g b1 b2 z1 z2 zz v pp pvalue
mcolumn x.1-x.p y.1-y.p z.1-z.p t
mmatrix s sinv mi mj mjt ma mat mb mc md
let n=count(y.1)
do i=1:p
let x.i=y.i-mean(y.i)
let z.i=x.i/sqrt(n)
enddo
copy z.1-z.p ma
transpose ma mat
multiply mat ma s
invert s sinv
let b1=0
let b2=0
do i=1:n
copy x.1-x.p mi;
use i.
do j=1:n
copy x.1-x.p mj;
use j.
transpose mj mjt
multiply mi sinv mc
multiply mc mjt md
copy md t
let g=t(1)
let b1=b1+g*g*g
if i=j
let b2=b2+g*g
endif
enddo
enddo
let b1=b1/(n*n)
let b2=b2/n
let z1=(p+1)*(n+1)*(n+3)*b1/(6*((n+1)*(p+1)-6))
let z2=(b2-p*(p+2))/sqrt(8*p*(p+2)/n)
let v=p*(p+1)*(p+2)/6
note Multivariate skewness
cdf z1 pp;
chis v.
let pvalue=1-pp
print b1 z1 pvalue
note Multivariate kurtosis
let zz=abs(z2)
cdf zz pp;
normal 0 1.
let pvalue=2*(1-pp)
print b2 z2 pvalue
endmacro

Analisis Statistika Multivariate

14

Lampiran 3. Macro MINITAB untuk menguji kebebasan antar variabel dengan Bartlett
sphericity test
macro
bart x.1-x.p
mconstant i n p d chis pp pvalue v
mcolumn x.1-x.p eigen
mmatrix r
let n=count(x.1)
corr x.1-x.p r
eigenvalues r eigen
let d=0
do i=1:p
let d=d+loge(eigen(i))
enddo
let chis=-(n-1-(2*p+5)/6)*d
let v=p*(p-1)/2
cdf chis pp;
chis v.
let pvalue=1-pp
print chis pvalue
endmacro

Analisis Statistika Multivariate

15

Lampiran 4. Macro MINITAB untuk mendeteksi adanya multivariete outlier


macro
outlier obs y.1-y.p
mconstant i n p df
mcolumn d x.1-x.p y.1-y.p dd pi f_value tt obs p1
mmatrix s sinv ma mb mc md
let n=count(y.1)
cova y.1-y.p s
invert s sinv
do i=1:p
let x.i=y.i-mean(y.i)
enddo
do i=1:n
copy x.1-x.p ma;
use i.
transpose ma mb
multiply ma sinv mc
multiply mc mb md
copy md tt
let d(i)=tt(1)
enddo
let f_value=((n-p-1)*n*d)/(p*(n-1)**2-n*p*d)
let df=n-p-1
cdf f_value p1;
f p df.
let sig_f=1-p1
print obs d f_value sig_f
endmacro

Analisis Statistika Multivariate

sig_f

16

Você também pode gostar