Escolar Documentos
Profissional Documentos
Cultura Documentos
Memiliki matriks kovarians dengan nilai eigen
1
2
P
0
Perhatikan kombinasi linier
p pp p p p p
p p
p p
X X X X Y
X X X X Y
X X X X Y
+ + + = =
+ + + = =
+ + + = =
... '
.
.
... '
... '
2 2 1 1
2 2 22 1 12 2 2
1 2 21 1 11 1 1
k i k i
i i
Y Y Cov
Y Var
=
=
' ) , (
' ) (
1
Dengan menggunakan 2-45
8-2
8-3
Komponen utama adalah kombinasi linier Y
1
,Y
2
,..,Y
p
yang tidak berkorelasi dimana variansi (8-2) sebesar
mungkin
Komponen utama pertama adalah kombinasi linier
dengan variansi maksimum. Yaitu, memaksimumkan
1
=
1
1
.
Jelas bahwa
1
=
1
1
dapat ditingkatkan
dengan mengalikan
1
dengan konstanta.
Komponen Utama Pertama
kombinasi linier
1
yang memaksimumkan
(
1
) ke
1
=1
Komponen Utama Kedua
Kombinasi linier
2
yang memaksimumkan
(
2
) ke
2
=1 dan (
1
,
2
) = 0
Komponen Utama ke-i
kombinasi linier
yang memaksimumkan
(
) ke
=1 (
) = 0, k<i
Result 8.1
Result 8.2
(8-7)
Andaikan X berdistribusi N
p
(,). Kita tahu
bahwa kepadatan(densitas) dari X adalah konstan
dan berpusat pada elipsoid:
Sebuah elips dengan kepadatan konstan dan
komponen utama untuk vektor acak bivariat normal
dengan =0 dan =0,75 ditunjukkan pada gambar
8.1. Kita tahu bahwa komponen utama diperoleh
dengan merotasi sumbu koordinat asal melalui
sebuah sudut hingga bertepatan dengan sumbu dari
elips dengan kepadatan konstan
Komponen utama dapat juga diperoleh dari
variabel yang dibakukan :
(8-9)
11
1 1
1
) (
o
=
X
Z
22
2 2
2
) (
o
=
X
Z
pp
p p
p
X
Z
o
) (
=
Persamaan transformasi Z dapat dinyatakan dalam
bentuk matriks :
(8-10)
dimana matriks diagonal simpangan baku atau
1
2
didefinisikan (2-35) :
) ( ) (
1
2
1
=
X V Z
(
(
(
(
(
=
pp
V
o
o
o
... 0 0
0 ... 0
0 ... 0
22
11
2
1
E(Z)=0 dan
Komponen utama dari Z diperoleh dari vektor eigen
untuk matriks korelasi pada .
Result 8.4
Komponen utama ke-i dari variabel baku Z=[Z
1
,Z
2
,...,Z
p
] dengan Cov(Z) =
diberikan oleh
, i = 1,2,...,p
selain itu,
(8-11)
dan
i,k = 1,2,...,p
dalam hal ini, sebagai pasangan-pasangan
nilai eigen-vektor eigen untuk dengan
) ( ) (
1
2
1
'
=
X V e Y
i i
p Z Var Y Var
p
i
i
p
i
i
= =
= = 1 1
) ( ) (
i ki Zk Yi
e =
,
) , ( ),..., , ( ), , (
2 2 1 1 p p
e e e
0 ...
2 1
> > > >
p
Dari (8-11) bahwa total variansi populasi
(variabel baku) adalah p, jumlah elemen-elemen
diagonal matriks . Gunakan (8-7) dengan Z
sebagai pengganti X, proporsi dari total variansi
yang dijelaskan oleh komponen utama ke-k dari Z
adalah
= , k = 1,2,...,p (8-12)
Proporsi variansi
populasi (baku)
komponen utama
ke-k
p
k
Contoh 8.2
Pasangan nilai eigen-vektor eigen dari adalah
1
=100,16 e
1
=[0,040;0,999]
2
=0,84 e
2
=[0,999;-0,040]
Pasangan nilai eigen-vektor eigen dari adalah
1
=1+ = 1,4 e
1
=[0,707;0,707]
2
=1- = 0,6 e
2
=[0,707;-0,707]
(
=
100 4
4 1
(
=
1 4 , 0
4 , 0 1
=
pp
o
o
o
0 0
0 0
0 0
22
11
(
(
(
(
(
(
(
(
(
=
(
(
(
(
(
(
(
(
(
(
(
(
(
(
0
0
1
0
0
0
0
1
0
0
0 0
0 0
0 0
22
11
ii
pp
o
o
o
o
i ii i
e e o =
dapat disimpulkan bahwa (
) adalah pasangan
nilai eigen-vektor eigen ke-i.
kombinasi linear
, merupakan kumpulan
dari komponen utama yaitu kumpulan asli dari
variabel-variabel acak yang tidak berkorelasi.
Bentuk umum pola lain matriks kovarians
(8-14)
Menghasilkan matriks korelasi
(8-15)
adalah matriks kovarian yang variabelnya dibakukan.
Matriks pada (8-15) menyatakan bahwa variabel
X
1
,X
2
,...,X
p
berkorelasi sama
(
(
(
(
(
=
2 2 2
2 2 2
2 2 2
o o o
o o o
o o o
(
(
(
(
(
=
1
1
1
=
p p p
e
1
,...,
1
,
1
'
1
= = = = 1 ...
3 2 p
=
= =
p
i
i
X
p
X e Y
1
'
1 1
1
p p
p
p
+ =
+ +
=
1 ) 1 ( 1
1
Komponen utama sampel bertujuan untuk mencari kombinasi-
kombinasi linear yang tidak berkorelasi dari karekteristik yang
diukur yang menerangkan sebagian besar variansi dalam sampel.
Misal adalah sampel acak berukuran n dari suatu
populasi p dimensi dengan vektor rata-rata dan matriks kovarians
, maka pada sampel ini memiliki vektor rata-rata dan matriks
kovarians S dan matriks korelasi R.
n
x x x , , ,
2 1
Jika adalah matriks kovarians sampel berukuran p x p dengan pasangan
nilai eigen dan vektor eigen maka komponen utama ke-i
adalah
Dimana dan x adalah observasi pada variabel .
Varians sampel
Kovarians sampel
Total varians sampel
Koefisien korelasi sampel
Komponen utama sampel baik yang didapati dari S maupun R ditulis dengan
notasi meskipun tidak sama.
Observasi sering dipusatkan dengan mengurangkan tetapi hal ini tidak
mempengaruhi S sehingga komponen utama ke-i menjadi
atau
} {
ik
s S =
) , ( , ), , ( ), , (
2 2 1 1 p p
e e e
p , ... 2, , 1 ,
2 2 1 1
'
= + + + = = i x e x e x e x e y
p pi i i i i
0
2 1
> > > >
p
p
X X X , ... , ,
2 1
p k y
k k
,..., 2 , 1 ,
) ( = =
k i , 0 ) , ( = =
k i
y y
2 1
1
1
p
p
i
i s
+ + + = =
=
p k i
s
e
kk
k ki
x y r
k i
,..., 2 , 1 , ,
,
= =
p
Y Y Y
,...,
2 1
j
x x
p , ... 2, 1, i ), ( = = x x e y
i i
n , ... 2, 1, j ; p , ... 2, 1, i ), ( = = = x x e y
i ij
Dengan standardisasi sampel dibentuk
Sehingga p x n matriks data dari observasi yang distandardisasi menjadi
(8-26)
(
(
(
(
(
(
(
(
(
(
(
= =
s
x x
s
x x
s
x x
D z
pp
p pj
j
j
j
j
x x
22
2 2
11
1 1
2 / 1
) (
| |
(
(
(
(
(
(
(
(
(
(
=
(
(
(
(
(
= =
s
x x
s
x x
s
x x
s
x x
s
x x
s
x x
s
x x
s
x x
s
x x
z z z
z z z
z z z
z z z
pp
p pn
pp
p p
pp
p p
n
n
pn p p
n
n
n
Z
2 1
22
2 2
22
2 22
22
2 21
11
1 1
11
1 12
11
1 11
2 1
2 22 21
1 12 11
2 1
, , ,
Akibatnya menghasilkan sampel vektor rata-rata
(8-27)
dan matriks sampel kovarians
(8-28)
0
1 1
1
1
22
2 2
1
11
1 1
1
=
(
(
(
(
(
(
(
(
(
(
= =
=
=
=
n
j
pp
p pj
n
j
j
n
j
j
s
x x
s
x x
s
x x
Z
n n
z
( )( )
'
=
'
|
.
|
\
|
|
.
|
\
|
=
'
1
'
1
'
11
'
11
1
1 1 1
1
1
z Z z Z
n n
Z
n
Z
n
Z Z Sn
(
(
(
(
(
(
(
(
(
=
'
=
pp
pp
pp
p
pp
p
pp
p
pp
p
s
s n
s s
s n
s s
s n
s s
s n
s
s n
s s
s n
s s
s n
s s
s n
s
s n
n
Z Z
n
) 1 ( ) 1 ( ) 1 (
) 1 (
) 1 ( ) 1 (
) 1 (
) 1 ( ) 1 (
1
1
1
1
22
2
11
1
22
2
22
22
22 11
12
11
1
22 11
12
11
11
p , ... 2, , 1 ,
) ( = = i y
i i
k i y y
k i
= = , 0 ) , (
p
2 1
+ + +
p , ... 2, , 1 , ,
,
= = k i e r
i ki z y
k i
n
z z z ,..., ,
2 1
0
2 1
> > > >
p
p ..., 2, 1, i ,
= =
p
i
Contoh 8.5
Tingkat pengembalian mingguan untuk lima bursa/stock (Allied Chemical, du
Pont, Union Carbide, Exxon, dan Texaco) yang didaftarkan di pasar bursa New
York telah ditentukan untuk periode Januari 1975 sampai Desember 1976.
Tingkat pengembalian mingguan digambarkan sebagai (Jumat sekarang yang
menutup harga - Jumat sebelumnya yang menutup harga) / (Jumat
sebelumnya yang menutup harga) yang disesuaikan untuk saham yang
dipecah dan dividen. Data tersebut didaftarkan pada tabel 8.1 dalam latihan.
Pengamatan dalam 100minggu berurutan nampak seperti dengan bebas
dibagi-bagikan, tetapi hanyalah tingkat tarip kembalian ke seberang
bursa/stock dihubungkan, karena, seperti seseorang harapkan, bursa/stock
cenderung untuk pindah bersama-sama sebagai jawaban atas kondisi-kondisi
ekonomi umum.
Jawab:
Misalkan menandakan tingkat pengembalian mingguan yang diamati
untuk Allied Chemical, du Pont, Union Carbide, Exxon, dan Texaco secara
berurutan. Maka
= [0.0054 , 0.0048, 0.0057, 0.0063, 0.0037]
Dan
R adalah matriks kovarians dalam observasi yang distandardisasi.
Nilai eigen dan yang dinormalisasi bersesuaian dengan vektors eigen R adalah
5 2 1
,..., , x x x
(
(
(
(
(
(
=
000 . 1 523 . 0 426 . 0 322 . 0 462 . 0
532 . 0 000 . 1 436 . 0 389 . 0 387 . 0
426 . 0 436 . 0 000 . 1 599 . 0 509 . 0
322 . 0 389 . 0 599 . 0 000 . 1 577 . 0
462 . 0 387 . 0 509 . 0 577 . 0 000 . 1
R
55
5 5
5
22
2 2
2
11
1 1
1
, , ,
s
x x
z
s
x x
z
s
x x
z
=
=
| |
| |
| |
| |
| | 0.385 0.176, - 0.400, - 0.676, 0.451, - , 43 . 3 . 0
0.382 - 0.472, 0.662, - 0.206, 0.387, , 452 . 0
0.435 - 0.541, 0.335, 0.178, 0.612, - , 540 . 0
0.528 - 0.526, - 0.260, 0.509, 0.240, , 809 . 0
0.421 0.421, 0.470, 0.457, 0.464, , 857 . 2
5 5
4 4
3 3
2 2
1 1
= ' =
= ' =
= ' =
= ' =
= ' =
e
e
e
e
e
x
x
Penggunaan variabel yang distandardisasi, kita memperoleh dua
sampel komponen utama yang pertama.
Komponen ini meliputi mewakili populasi sebesar
5 4 3 2 1 1 2
5 4 3 2 1 1 1
582 . 0 526 . 0 260 . 0 509 . 0 240 . 0
421 . 0 421 . 0 470 . 0 457 . 0 464 . 0
z z z z z z e y
z z z z z z e y
+ + = ' =
+ + + + = ' =
% 73 % 100
5
809 . 0 857 . 2
% 100
2 1
=
|
.
|
\
|
=
|
|
.
|
\
|
+
p
Plot dari komponen utama menyatakan dugaan
pengamatan, seperti halnya asumsi normalitas
Plot diperlukan untuk menguji bahwa komponen
utama pertama mendekati distribusi normal ketika
komponen utama tersebut digunakan sebagai data
input dalam analisis tambahan
Komponen utama yang terakhir dapat membangtu
menunjukkan dengan tepat dugaan pengamatan.
Setiap pengamatan
dalam S.
1
+
2
2
1
++
=
1
1
+
2
2
++
Besarnya komponen utama terakhir menentukan seberapa baik pengamatan
pertama yaitu
1
1
+
2
2
++
;1,
;1
berbeda dengan
+
+
dari X.
singkatnya
1. Untuk memeriksa asumsi normalitas, konstruksi diagram scatter untu
pasangan beberapa komponen utama pertama dan buat Q-Q plot dari
nilai-nilai sampel dari setiap komponen utama
2. Konstruksi diagram scatter dan Q-Q plot untuk komponen utama
terakhir. Hal tersebut membantu mengidentifikasi dugaan pengamatan
Pendiagnosaan yang menyertakan komponen utama berlaku sama baik
untuk memeriksa asumsi model regresi berganda multivariat. Jika
diperoleh model yang baik dari suatu metode estimasi maka harus
diperhatikan bahwa untuk model multivariat linear
= 1,2, ,
Komponen utama diperoleh dari matriks kovarian residual
(
)(
=1
;
yang ditentukan dari sampel acak.
Adanya ketergantungan linear diantara residu-residu dari sebuah
analisis regresi linear sehingga nilai eigen terakhir akan bernilai nol
dalam pembulatan error.
Nilai eigen dan vektor eigen berperan penting dalam
analisis komponen utama. Vektor eigen menentukan
variabel maksimum, dan nilai eigen menentukan varians.
Keputusan yang berhubungan dengan kualitas pendekatan
komponen utama dibuat dalam bentuk pasangan nilai
eigen-vektor eigen
dari S atau R.
Karena variasi sampling, sehingga nilai eigen dan vektor
eigen akan berbeda dari populasinya
Anderson dan Girshick telah menentukan teori distribusi
sampel besar di bawah ini untuk nilai eigen
1
, ,
di S.
1. Misalkan adalah matriks diagonal dari nilai eigen
1
, ,
dari , maka (
) diaproksimasi
(0,2
2
)
2. Misalkan
)
2
<1
maka
diaproksimasi
(0,
)
3. Setiap
Untuk n besar
, 2
) dimana
= 1
Interval konfidensi 100 (1 )% untuk
memenuhi
1:(
2
)
2
1;(
2
)
2
Benferonni-type, interval simultan 100 (1 )% untuk m
diperoleh dengan menggantikan (
2
) dengan (
2
)
berkorelasi dan besar korelasinya bergantung pada
1
,
2
, ,
diberikan oleh
akar kuadrat dari elemen-elemen diagonal
1
dimana
ke
dan
ke
Didapatkan interval kepercayaan untuk variansi
populasi komponen utama menggunakan persediaan
harga pada tabel 8.1. Asumsikan persediaan suku dari
hasil yang mewakili gambar dari populasi N(, )
dimana merupakan definit positif dengan nilai eigen
berbeda dengan 1 > 2 > > 5 > 0. karena n= 100
besar, kita gunakan 8.33 dengan i = 1 untuk
mengkrontuksi interval kepercayaan i sebesar 95%
Dari 8.10 didapatkan,
atau
=
, merupakan struktur yang penting dimana nilai eigen dari
tidak berbeda dan hasil sebelumnya tidak digunakan.
Untuk pengujiannya, misalkan
0
=
0
=
1
1
1
><
1
0
Pengujian
0
melwan
1
berdasarkan rasio statistik likelihood, tapi
Lawley telah menunjukkan bahwa prosedur uji kesamaan dapat dibuat
dari elemen diagonal R.
=
1
;1
<1
)
2
<
(
)
2
<1
Matriks korelasi suatu sampel dikonstruksi dari berat tikus
betina (pada contoh 8.6)
Kita akan menggunakan matriks koelasi untuk pengujian
sampel besar, p=4
=
1,0000 0,7501
0,7501 1,0000
0,6329 0,6363
0,6925 0,7386
0,6329 0,6925
0,6363 0,7386
1,0000 0,6625
0,6625 1,0000
Hipotesis :
0
=
0
=
1
1
1
><
1
0
1
=
1
3
0,7501 +0,6329 +0.6363 = 0,6731
1
=
1
3
0,7501 +0,6925 +0,7386 = 0,7271
3
=
1
3
0,6329 +0,6925 +0,6625 = 0,6626
4
=
1
3
0,6363 +0,7386 +0,6625 = 0,6791
=
2
4 4;1
12
+
13
+
14
+
23
+
24
+
34
=
2
12
0,7501 +0,6329 +0,6363 +0,6925 +0,7386 +0.6625
= 0,6855
=
(4;1)
2
1;(1;0,6855)
2
4;(4;2)(1;0,6855)
2
= 2,1329
(
)
2
<
=
(
12
)
2
+(
13
)
2
+(
14
)
2
+(
23
)
2
+(
24
)
2
+(
34
)
2
= 0,1277
(
)
2
<1
= (
1
)
2
+(
2
)
2
+(
3
)
2
+(
4
)
2
= 0,0245
=
(150;1)
(1;0,6855)
2
0,1277 (2,1329)(0,0245)
= 11,4
2
+1 2
2
=
2
5
0.05 = 11,07
Karena T hitung >
2
5
0.05 maka H0 ditolak
Kita akan menunjukkan interpretasi untuk penaksiran data yang didasarkan pada r pertama
komponen utama sampel.
Perhatikan penaksir bentuk
= [
1
,
2
, ,
1
,
2
, ,
Error dari penaksir diukur dari jumlah eror kuadrat np
(
)(
=1
) = (
)
2
=1
=1
(8A-1)
Misalkan
sembarang matrik dengan rank(A) r < min(p,n). Eror dari penaksiran jumlah
kuadrat (8A-1) diminimumkan oleh
, ,
Sehingga kolam ke-j dari A adalah
=
1
1
+
2
2
+ +
Dimana [
1
,
2
, ,
] =
1
,
2
(
, ,
)]
Adalah nilai r pertama komponen utama sampel untuk unit ke-j. Selanjutnya ,
(
)(
=1
) = ( 1)(
+1
+ +
)
Dimana
+1
...
didekati
oleh +
dengan
<1
= 0
(
)(
<1
= (
+ )(
+ )
<1
= (
)(
) +( )( )
<1
(
))(
))
<1
Interpretasi pendekatan bidang dapat dilakukan dimana pengamat menempatkan
bidang melalui dan memindahkannya untuk memperoleh penyebaran terbaik
diantara bayangan dari pengamatan.
Proyeksi deviasi
= (
)
Untuk v=0, jumlah kuadrat panjang dari proyeksi deviasinya
<1
=
<1
= 1
Yang dimaksimumkan oleh =
dan = 0 sehingga
1 = (
)(
<1
=
<1
Dan bidang ini juga memaksimumkan total varians
=
1
( 1)
<1
=
1
( 1)
<1
Untuk r=1,baris ke-i
1
,
2
, ,
dari vektor b =
1
,
2
, ,
.
kuadrat panjang error dari pendekatan adalah kuadrat panjang
2
=
(
)
2
<1
dengan
()
=
sehingga
=
1
1
1
,
1
1
2
,
,
1
1
(
)
=
1
11
,
12
, ,
1
Meminimumkan jumlah kuadrat panjang
2
<1
yang dientukan oleh vektor
komponen utama pertama.
Komponen utama kedua meminimumkan kuantitas yang sama diantara
semua vektor yang tegak lurus dengan pilihan pertama