Você está na página 1de 77

PRIMIJENJENA STATISTIKA

Bilješke s predavanja (prof. dr. sc. Miljenko Huzak)


akademske godine 2014./2015.

Natipkao i uredio:
Kristijan Kilassa Kvaternik

Ova skripta služi samo kao pomoć u praćenju predavanja iz istoimenog kolegija i ne može zamijeniti
prisustvovanje na njima. Bit ću zahvalan svakome tko mi javi bilo koju uočenu grešku u ovoj skripti
(kojih zasigurno ima).

Zagreb, lipanj 2015.


Sadržaj

1 Linearni modeli više varijabli 2


1.1 Uvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Procjena parametara . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Testiranje hipoteza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4 Test o parametru očekivanja višedimenzionalne normalne razdiobe . . . . 23
1.5 Višestruka korelacija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.6 Parcijalna korelacija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
1.7 MANOVA (Višedimenzionalna analiza varijance) . . . . . . . . . . . . . . 35

2 Diskriminacija i alokacija 40
2.1 Procijenjena alokacija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.2 Linearne diskriminacijske koordinate . . . . . . . . . . . . . . . . . . . . 43
2.3 Glavne komponente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3 Neparametarske metode 61
3.1 Mann-Whitney-Wilcoxonov test . . . . . . . . . . . . . . . . . . . . . . . 61
3.2 Spearmanov koeficijent korelacije . . . . . . . . . . . . . . . . . . . . . . 68

4 Faktorska analiza 71
4.1 Metoda maksimalne vjerodostojnosti . . . . . . . . . . . . . . . . . . . . 74
4.2 Procjena pomoću glavnih faktora . . . . . . . . . . . . . . . . . . . . . . 76

1
Poglavlje 1

Linearni modeli više varijabli

1.1 Uvod
Linearni modeli više varijabli su linearni modeli koji imaju više od jedne varijable odziva

Y1 , Y2 , . . . , Yq .

Y > = (Y1 , Y2 , . . . , Yq ) je q-dimenzionalni vektor odziva (i zapisujemo ga kao vektor -


stupac).
Neka je
Y1· , Y2· , . . . , Yn· (1.1)
slučajni uzorak duljine n za vektor odziva Y , pri čemu je Yi·> = (Yi1 , Yi2 , . . . , Yiq ) i-to
opažanje od Y.
Stavimo  
Y1j
 Y2j 
Y·j =  .. 
 
 . 
Ynj
(time smo opisali slučajni uzorak za j-tu komponentu od Y , Yj ). Te vektore možemo
staviti u matricu
   
Y1·> Y11 Y12 · · · Y1q
> 
   Y
 2·  
 Y21 Y22 · · · Y2q 
Y := Y·1 Y·2 · · · Y·q =  ..  =  .. .

.. . . .
 .   . . . .. 
Yn·> Yn1 Yn2 · · · Ynq

Time smo slučajni uzorak (1.1) zapisali u matričnom obliku.


Kao i kod regresijskog modela, označimo sa

x> = (x1 , . . . , xp )

vektor p varijabli poticaja (i pritom stavimo x1 = 1). Slično, neka je sa


   
x>
1· x11 x12 · · · x1p
> 
   x2·   x21 x22 · · ·
  x2p 
X = x·1 x·2 · · · x·p =  ..  =  .. (1.2)

.. . . .. 
 .   . . . . 
>
xn· xn1 xn2 · · · xnp

2
dana matrica dizajna.
Linearni model više varijabli zapisujemo ovako

Y > = x> · B + ε > , (1.3)

gdje je Y > q-dimenzionalni vektor odziva, x> p-dimenzionalni vektor poticaja, B ∈


Mp,q matrica parametara modela, te ε q-dimenzionalni slučajni uzorak (koji predstavlja
slučajnu pogrešku) za koji pretpostavljamo

(E1) Eεε = 0,

(E2) postoji kovarijacijska matrica cov(εε) = Σ ∈ Mq čije elemente označavamo Σ =


[σjj 0 ].

Slučajni uzorak (1.1) iz linearnog modela (1.3) se sada može zapisati

Y = XB + E, (1.4)

gdje je  
ε>1·
   ε>2·

E= ε·1 ε·2 · · · ε·q = .
 
..
 . 
ε>

Pretpostavljamo još

(E3) cov(ε·j ) = σjj In ,

gdje je In jedinična matrica reda n (iz ovog uvjeta zapravo slijedi da su različite kompo-
nente vektora ε nekorelirane).
Iz uvjeta (E1) slijedi
E[E] = 0,
dok iz (E2) i (E3) slijedi

cov(εij , εi0 j 0 ) = σjj 0 δii0 , i, i0 = 1, . . . , n, j, j 0 = 1, . . . , q,

gdje je δ Kroneckerov simbol.

Zadatak 1.1.1. Zapišite jednofaktorski ANOVA model kao regresijski model te metodom
najmanjih kvadrata (LS) procijenite nepoznate parametre.

Rješenje. U jednofaktorskom ANOVA modelu promatramo normalne razdiobe neke var-


ijable u više od dvije populacije (s medusobno jednakim populacijskim varijancama), tj.
za i-tu populaciju (i = 1, . . . , k) imamo slučajni uzorak

Yij ∼ N (µi , σ 2 ), j = 1, . . . , ni .

Zato možemo pisati

Yij = µij + εij , εij ∼ N (0, σ 2 ), i = 1, . . . , k, j = 1, . . . , ni .

3
Uočimo da je dimenzija opservacije q = 1. Sada možemo pisati
       
Y11 µ1 ε11 1 0 ··· 0
 Y12   µ1   ε12   1 0 · · · 0 
 ..   ..   ..   .. .. . . ..
       
. .

 .   .   .   . . 
 Y1n1   µ1   ε1n1   1 0 · · · 0
       

 Y21   µ2   ε21   0 1 · · · 0
       
 
      
 Y22   µ2   ε22   0 1 · · · 0

 µ1
 .   .   .   . .
. .  µ2 
Y =  ..  =  ..  +  ..  =  .. .. . . ..  +E,
        
 ..
 Y2n2   µ2   ε2n2   0 1 · · · 0
       
 . 
 .   .   .   . . .
 ..   ..   ..   .. .. . . ...

| µk
        {z }
 Y   µ   ε   0 0 ··· 1  =B
 k1   k   k1   
 Y   µ   ε   0 0 ··· 1 
 k2   k   k2   
 ..   ..   ..   .. .. . . .. 
 .   .   .   . . . . 
Yknk µk εknk 0 0 ··· 1
| {z }
=X

pri čemu matrica dizajna X ima k stupaca (u prvom stupcu n1 jedinica, zatim sve nule,
u drugom stupcu n1 nula, zatim n2 jedinica i do kraja sve nule i tako sve do posljednjeg
stupca u kojem ima sve nule osim zadnjih nk jedinica).
Za vektor poticaja x> = (x1 , . . . , xk ) imamo

xj = 1{ispitanik pripada j-toj populaciji} .

Ukoliko želimo odrediti procjenitelj B


b nepoznatih parametara µ1 , . . . , µk metodom naj-
manjih kvadrata, trebamo naći minimum funkcije
Φ(B) = |Y − XB|2
= (Y − XB, Y − XB)
= |Y|2 − 2(Y, XB) + (XB, XB)
= |Y|2 − 2(X > Y, B) + ((X > X)B, B).
Pritom s (·, ·) označavamo standardni (euklidski) skalarni produkt, a s | · | standardnu
(euklidsku) normu vektora. Stacionarne točke funkcije Φ dobivamo iz

0 = ∇B Φ(B) = −2X > Y + 2(X > X)B


b = (X > X)−1 X > Y,
⇒B
a odredivanjem Hesseove matrice se pokaže da Φ u toj točki uistinu ima minimum. Dakle,
traženi je procjenitelj
 −1  1   
n1 0 · · · 0 n1
(Y11 + Y12 + . . . + Y1n1 ) Y1
 0 n2 · · · 0   1 (Y21 + Y22 + . . . + Y2n )   Y2 
> −1 > >  n2 2
B = (X X) X Y =  .. ..  X Y =  = .
    
b .. . . .. ..
 . . . .   .   . 
1
0 0 · · · nk nk
(Yk1 + Yk2 + . . . + Yknk ) Yk

Ovaj model možemo reparametrizirati ukoliko stavimo

µ1 = θ 0 ,

4
µ2 = θ 0 + θ 1 ,
µ3 = θ 0 + θ 2 ,
..
.
µk = θ0 + θk−1 .
U primjenama je θ0 srednja vrijednost opažene veličine na kontrolnoj skupini, a θi , i =
1, . . . , k − 1, je doprinos toj vrijednosti nastao zbog različitog tretmana u preostalim
skupinama. Sada je  
1 0 ··· 0
 1 0 ··· 0 
 .. .. . . .. 
 
 . . . . 
 1 0 ··· 0 
 
 1 1 ··· 0 
 


 1 1 ··· 0 
 θ0
 . . . . . ..   θ1 
 . .  
Y= . . .   ..  + E.
 . 
 1 1 ··· 0 

 .. .. . . ...  θk−1
 . . . 
 
 1 0 ··· 1 
 
 1 0 ··· 1 
 
 .. .. . . .. 
 . . . . 
1 0 ··· 1
Ovom smo reparametrizacijom testiranje nulte hipoteze

H 0 : µ1 = µ2 = . . . = µk

sveli na testiranje hipoteze

H0 : θ1 = θ2 = . . . = θk−1 = 0,

tj. na test značajnosti linearnog regresijskog modela (u praksi je realizacija ovog testa
puno jednostavnija jer postoje već gotovi softverski alati).
Zadatak 1.1.2. Nadite MLE1 za parametre θ i σ 2 u višestrukom linearnom regresijskom
modelu.
Rješenje. Model je dan s

Y = Xθθ + ε , ε ∼ N (0, σ 2 In ).

Budući da je Y ∼ Nn (Xθθ , σ 2 In ), vjerodostojnost je dana s

L(θθ , σ 2 ) = fY (Y; θ , σ 2 )
Yn
= fYi (Yi ; θ , σ 2 )
i=1
 
1 1 1 2 −1

= · exp − (σ In ) (Y − Xθθ ), Y − Xθθ .
(2π)n/2 (σ 2 )n/2 2
1
Maximum Likelihood Estimator, procjenitelj maksimalne vjerodostojnosti

5
Sada je log - vjerodostojnost dana s

l(θθ , σ 2 ) = log L(θθ , σ 2 )


n n 1
= − log(2π) − log(σ 2 ) − 2 |Y − Xθθ |2 .
2 2 2σ
Stacionarne točke log - vjerodostojnosti dobivamo iz

∇θ l(θθ , σ 2 ) = 0 ⇔ ∇θ |Y − Xθθ |2 = 0,

l(θθ , σ 2 ) = 0,
∂σ 2

pa vidimo da se MLE za θ , θbM LE , poklapa s procjeniteljem za θ metodom najmanjih


kvadrata, θbLS , i takoder,
1
σ
bM LE = Φ(θb).
n

6
1.2 Procjena parametara
Da bismo procijenili B i Σ iz modela (1.3), napišimo slučajni uzorak (1.4) iz matričnog
u vektorskom obliku
      
Y·1 X B·1 ε·1
 Y·2   X  B·2   ε·2 
= + . (1.5)
      
 .. ...  .. ..
 .    .   . 
Y·q X B·q ε·q
| {z } | {z } | {z } | {z }
nq×1 nq×pq pq×1 nq×1
blok - dijagonalna matrica

Takoder,
      
ε·1 ε·1 σ11 In σ12 In · · · σ1q In
 ε·2   ε·2 
 > >   σ21 In σ22 In · · · σ2q In 
cov   = E   ε·1 ε·2 · · · ε> = ..  .
     
.. .. ·q .. .. ..
 .   .    . . . . 
ε·q ε·q σq1 In σq2 In · · · σqq In

Nadalje, definirajmo preslikavanje


 
A·1
r·s
 A·2 
vec : Mr,s → R , vec(A) =  ,
 
..
 . 
A·s
 
za A = A·1 A·2 · · · A·s ∈ Mr,s . Uočimo da je ovo preslikavanje izomorfizam vek-
torskih prostora. Ukoliko je Y slučajna matrica, imamo vec(EY) = E[vec(Y)], te po
definiciji stavimo cov(Y) := cov(vec(Y)).
Nadalje, definirajmo Kroneckerov produkt: za A = [aij ] ∈ Mp,q , B ∈ Mr,s , stavimo
 
a11 B a12 B · · · a1q B
 a21 B a22 B · · · a2q B 
A ⊗ B := [aij · B] =  .. ..  ∈ Mpr,qs .
 
.. . .
 . . . . 
ap1 B ap2 B · · · apq B

Sada direktno slijedi cov(vec(E)) = Σ ⊗ In , a (1.5) možemo zapisati u ekvivalentnom


obliku
vec(Y) = (Iq ⊗ X) vec(B) + vec(E).
Zadatak 1.2.1. Pokažite da za A ∈ Mp,q , X ∈ Mq,r , B ∈ Mr,s vrijedi

vec(AXB) = (B > ⊗ A) vec(X).

Rješenje. Stavimo A = [aij ]i=1,...,p, j=1,...,q , X = [xij ]i=1,...,q, j=1,...,r , B = [bij ]i=1,...,r, j=1,...,s .
Uočimo da je vec(AXB), (B > ⊗ A) vec(X) ∈ Rps , pa je dovoljno dokazati da su odgo-
varajuće komponente ovih dvaju vektora medusobno jednake. Imamo
 
(AXB)·1
vec(AXB) =  ..
,
 
.
(AXB)·s

7
gdje su vektori (AXB)·i ∈ Rp , i = 1, . . . , s, stupci matrice AXB. Nadalje, imamo
 r 
X
 bj1 AX·j 
    j=1

b11 A b21 A · · · br1 A X·1 r

 X 
 b12 A b22 A · · · br2 A   X·2   bj2 AX·j 

>  
(B ⊗ A) vec(X) =  .. ..   ..  =  ,
 
.. .. j=1
 . . . .  .    ..


b1s A b2s A · · · brs A X·r 
 r . 

 X 
 bjs AX·j 
j=1

pri čemu, zbog podudarnosti dimenzija blokova, blok - matrice možemo množiti kao i
”obične” matrice. Sada vidimo da je dovoljno za svaki i = 1, . . . , s pokazati
r
X
(AXB)·i = bji AX·j ,
j=1

pri čemu su navedeni vektori p-dimenzionalni. Neka su i ∈ {1, . . . , s} i k ∈ {1, . . . , p}


proizvoljni. Ukoliko s [AX]kl označimo element na mjestu (k, l) matrice AX, k-ta je
koordinata vektora (AXB)·i jednaka
r q
r X
X X
[AXB]ki = [AX]kl bli = akm xml bli ,
l=1 l=1 m=1

r
X
dok je k-ta koordinata vektora bji AX·j jednaka
j=1

r r q q
r X
X X X X
bji A>
k· X·j = bji akm xmj = akm xmj bji .
j=1 j=1 m=1 j=1 m=1

Usporedivanjem ovih dviju dvostrukih suma vidimo da su one jednake, pa slijedi tvrdnja.

Lema 1.1. Za sve matrice A, B, C, D te realne brojeve a, b vrijedi

(i) (aA) ⊗ (bB) = ab(A ⊗ B),

(ii) (A + B) ⊗ C = A ⊗ C + B ⊗ C,

(iii) (A ⊗ B) ⊗ C = A ⊗ (B ⊗ C),

(iv) (A ⊗ B)> = A> ⊗ B > ,

(v) (AB) ⊗ (CD) = (A ⊗ C)(B ⊗ D) (ako su A i B, odnosno C i D ulančane),

(vi) ako su A i B regularne, tada je regularna i A ⊗ B te vrijedi

(A ⊗ B)−1 = A−1 ⊗ B −1 ,

8
(vii) ako je Av = λv, Bu = µu, za u 6= 0, v 6= 0, tada je u ⊗ v 6= 0 i

(A ⊗ B)(u ⊗ v) = λµ(u ⊗ v),

(viii) tr(A ⊗ B) = (tr A) · (tr B),

(ix) det(A ⊗ B) = (det A)q (det B)p , A ∈ Mp , B ∈ Mq ,

(x) ukoliko je A > 0, B > 0 (tj. matrice A i B su pozitivno definitne), onda je i


A ⊗ B > 0.

Dokaz. Neka je A = [aij ] ∈ Mk,l , B = [bij ] ∈ Mm,n , C = [cij ] ∈ Mp,q , D = [dij ] ∈ Mr,s .

(i) Slijedi iz definicije množenja matrica skalarima i Kroneckerovog produkta:

(aA) ⊗ (bB) = [aaij bB] = ab[aij B] = ab(A ⊗ B).

(ii) Uz pretpostavku A, B ∈ Mk,l imamo

(A + B) ⊗ C = [(aij + bij )C] = [aij C] + [bij C] = (A ⊗ C) + (B ⊗ C).

(iii) Koristeći svojstvo (i) dobivamo


(i)
(A ⊗ B) ⊗ C = [aij B] ⊗ C = [(aij B) ⊗ C] = [aij (B ⊗ C)] = A ⊗ (B ⊗ C).

(iv) Imamo
(A ⊗ B)> = [aij B]> = [aji B > ] = A> ⊗ B > .

(v) Ako je A ∈ Mk,l , B ∈ Ml,n , C ∈ Mp,q , D ∈ Mq,s , tj. ako su matrice A i B, te C


i D ulančane, tada je A ⊗ C ∈ Mkp,lq i B ⊗ D ∈ Mlq,ns pa vidimo da je produkt
(A ⊗ C)(B ⊗ D) ∈ Mkp,ns dobro definiran. Sada imamo
" l # " l #
X X
(AB) ⊗ (CD) = [[AB]ij CD] = aim bmj CD = (aim C)(bmj D) .
m=1 m=1

l
X
No, izraz (aim C)(bmj D) jest upravo jednak ij-tom bloku matrice (A ⊗ C)(B ⊗
m=1
D (naime, blok matrice možemo množiti kao i ”obične” tako da umjesto običnog
umnoška promatramo (matrični) umnožak odgovarajućih blokova). Odavde slijedi
tražena jednakost.

(vi) Ukoliko su matrice A ∈ Mk i B ∈ Mm regularne, postoje njima inverzne matrice


A−1 i B −1 . No sada, koristeći svojstvo (v), dobivamo
(v)
(A ⊗ B)(A−1 ⊗ B −1 ) = (AA−1 ) ⊗ (BB −1 ) = Ik ⊗ Im = Ikm ,
(v)
(A−1 ⊗ B −1 )(A ⊗ B) = (A−1 A) ⊗ (B −1 B) = Im ⊗ Ik = Imk ,
a odavde po definiciji slijedi da je matrica A ⊗ B regularna s inverzom (A ⊗ B)−1 =
A−1 ⊗ B −1 .

9
(vii) Uočimo da za matrice E, F općenito vrijedi: ukoliko je E ⊗ F = 0, onda je E = 0
ili F = 0. U suprotnom, postoji element eij matrice E različit od nule i F 6= 0, pa
blok eij F matrice E ⊗ F nije nul blok. Odavde slijedi prva tvrdnja (tj. iz u 6= 0 i
v 6= 0 slijedi u ⊗ v 6= 0). Zadana jednakost jest direktna posljedica svojstava (i) i
(v).

(viii) Neka je A ∈ Mk i B ∈ Mm . Blokovi na glavnoj dijagonali matrice A ⊗ B su a11 B,


a22 B, . . ., akk B, pa su elementi na glavnoj dijagonali te matrice elementi glavne
dijagonale matrice B pomnoženi elementima glavne dijagonale matrice A. Zato
slijedi
k X
X m k
X m
X k
X
tr(A ⊗ B) = aii bjj = aii bjj = aii tr B = (tr A)(tr B).
i=1 j=1 i=1 j=1 i=1

(ix) Ukoliko je matrica A singularna, tj. det A = 0, tada su retci matrice A linearno
zavisni (karakterizacija regularnosti matrice pomoću njenog ranga) pa su i retci
matrice A ⊗ B takoder linearno zavisni. Dakle, det(A ⊗ B) = 0 i vrijedi tvrdnja.
Pretpostavimo sada det A 6= 0, tj. da je matrica A regularna. Tada elemen-
tarnim transformacijama (točnije, zamjenom redaka/stupaca i dodavanjem nekog
retka/stupca pomnoženim skalarom nekom drugom retku/stupcu) matricu A možemo
svesti na gornje trokutastu matricu A,e
 
a11 e
e a12 · · · e
a1p
 0 e a22 · · · e
a2p 
A =  .. ..  ,
 
e .. . .
 . . . . 
0 0 ··· e app
p
Y
čija je determinanta det A
e= aii = (−1)l det A, gdje je l ukupan broj zamjena
e
i=1
redaka i stupaca koje smo napravili. No potpuno analogne transformacije možemo
primijeniti i na matricu A ⊗ B, shvaćajući blokove oblika aij B kao njene ”elemente”
   
a11 B a12 B · · · a1p B a11 B e
e a12 B · · · e a1p B
 a21 B a22 B · · · a2p B   0 a22 B · · · e
e a2p B 
A ⊗ B =  .. ..  ∼  .. ..  = Ae ⊗ B.
   
.. . . .. . .
 . . . .   . . . . 
ap1 B ap2 B · · · app B 0 0 ··· e app B

e ⊗ B vrijedi
Za determinantu matrice A
e ⊗ B) = (−1)lq det(A ⊗ B),
det(A

jer smo svaku od l zamjeni redaka/stupaca istovremeno primjenjivali na q parova


e ⊗ B je gornje trokutasta blok matrica
redaka, odnosno stupaca. S druge strane, A
pa je njena determinanta jednaka umnošku determinanti blokova glavne dijagonale
p p
Y Y
p
e ⊗ B) =
det(A det(e
aii B) = (det B) aii )q = (det B)p ((−1)l det A)q .
(e
i=1 i=1

10
Izjednačavanjem lijevih strana posljednjih dviju jednakosti slijedi
(−1)lq det(A ⊗ B) = (det B)p (−1)lq (det A)q
⇒ det(A ⊗ B) = (det A)q (det B)p .

(x) Neka je A = [aij ] ∈ Mp , B = [bij ] ∈ Mq . Uočimo da je tada matrica A ⊗ B ∈ Mpq i


da prema svojstvu (iv) slijedi
(A ⊗ B)> = A> ⊗ B > = A ⊗ B,
tj. matrica A ⊗ B je simetrična. Neka je
 
x1
 x2 
x =  ..  ∈ Rpq \ {0}
 
 . 
xpq
proizvoljan. Označimo
 
x(i−1)q+1
 x(i−1)q+2 
mi =   ∈ Rq , i = 1, . . . , p.
 
..
 . 
xiq
Tada je  p 
X
 a1i Bmi 
 i=1 
 p 
 X 
 a2i Bmi 
(A ⊗ B)x =  i=1
 

 .. 

 . 

 Xp 
api Bmi
 
i=1

(uočimo da ovdje matrice i vektore zapisujemo u blokovima i njihov umnožak u


obliku umnoška odgovarajućih blokova), pa slijedi
p p p p
!
X X X X
((A ⊗ B)x, x) = aji Bmi , mj = aji (Bmi , mj ).
j=1 i=1 j=1 i=1

Budući da je matrica B pozitivno definitna, ona dopušta tzv. faktorizaciju Choleskog,


tj. postoji gornje trokutasta matrica R takva da B = R> R. Odavde slijedi
p p p p
X X X X
((A ⊗ B)x, x) = aji (R> Rmi , mj ) = aji (Rmi , Rmj ).
j=1 i=1 j=1 i=1

Označimo  
αj1
 αj2 
Rmj =  , j = 1, . . . , p.
 
..
 . 
αjq

11
Sada imamo
p p
X X
((A ⊗ B)x, x) = aji (Rmi , Rmj )
j=1 i=1
p p q
XX X
= aji αik αjk
j=1 i=1 k=1
q p p
!
X X X
= aji αik αjk .
k=1 j=1 i=1

Za fiksni k ∈ {1, . . . , q} imamo


 p  
X
 a1i αik  
 i=1        
 p
 X

 α1k  α1k α1k
p p
!
X X  a2i αik   α2k    α2k   α2k 
aji αik αjk =  i=1 ,  = A  ,  > 0,
        
..  .. ..
j=1 i=1
 ..   .    .   . 

 . 
 αpk 

αpk αpk
 X p  
api αik
  
i=1

pri čemu posljednja nejednakost vrijedi zbog pozitivne definitnosti matrice A. Budući
da ne mogu svi vektori Rmj biti nul-vektori (jer ne mogu ni svi vektori Bmj biti
nul-vektori), slijedi da je barem jedna suma na lijevoj strani posljednje jednakosti
strogo pozitivna. Odavde slijedi

((A ⊗ B)x, x) > 0,

a s time i pozitivna definitnost matrice A ⊗ B.

Za matricu A ∈ Mn,s označimo sa L(A) potprostor od Rn razapet stupcima matrice


A.

Teorem 1.2. Neka je Y = Xθθ +εε višestruki linearni regresijski model takav da je Eεε = 0,
cov(εε) = V > 0, X je punog ranga.

(i) Ukoliko je L(V X) = L(XU ) za neku regularnu matricu U , tada je θb = (X > X)−1 X > Y
LS-procjenitelj u odnosu na skalarni produkt ha, bi := (V −1 a, b) u Rn ,
XX
ha, bi = [V −1 ]ij ai bj .
i j

(ii) Ako je L(V X) 6 L(X), tada je l>θb = l> (X > X)−1 X > Y BLUE2 za L(θθ ) := l>θ =
(l, θ ).
2
Best Linear Unbiased Estimator, najbolji linearni nepristrani procjenitelj

12
Uz naše je pretpostavke

(Σ ⊗ Iq )(Iq ⊗ X) = (Iq ⊗ X) (Σ ⊗ Ip ),
| {z }
regularna

pa je ispunjen uvjet (i) (a time i uvjet (ii)) teorema 1.2. Mi za funkciju

Φ(B) = ((Σ ⊗ In )−1 (vec(Y) − (Iq ⊗ X) vec(B)), vec(Y) − (Iq ⊗ X) vec(B))

tražimo argument minimuma, arg min Φ(B), a po prethodnom se teoremu taj argument
B∈Mp,q
podudara s argumentom minimuma funkcije

Ψ(B) = (vec(Y) − (Iq ⊗ X) vec(B), vec(Y) − (Iq ⊗ X) vec(B)).

Imamo

vec(B) \
b = vec(B)
−1
= (Iq ⊗ X)> (Iq ⊗ X) (Iq ⊗ X)> vec(Y)


= Iq ⊗ (X > X)−1 Iq ⊗ X > vec(Y)


 

= Iq ⊗ (X > X)−1 X > vec(Y)




= vec (X > X)−1 X > Y




bLS = (X > X)−1 X > Y.


⇒B

Dokaz teorema 1.2. (i) Prema karakterizaciji LS-procjenitelja vrijedi da je θb LS-procjenitelj


u odnosu na skalarni produkt h·, ·i ako i samo ako je

Yb := X θb = X(X > X)−1 X > Y = HY ∈ Rn

tako da za svaki a ∈ Rp vrijedi hY − Yb , Xai, što je ekvivalentno s Y − Yb ⊥h·,·i L(X)


(dakle, H je ortogonalni projektor na potprostor L(X)).
Neka je a ∈ Rp proizvoljan. Računamo

hY − Yb , Xai = (V −1 (Y − Yb ), Xa)
= (Y − Yb , V −1 Xa)
= [postoji a0 ∈ Rp , a = U a0 ]
= (Y − Yb , V −1 XU a0 )
= [XU a0 ∈ L(XU ) = L(V X)]
= (Y − Yb , V −1 V Xa00 )
= (Y − Yb , Xa00 )
= ((I − H)Y, Xa00 ).

Budući da je M := I − H ortogonalni projektor sa Rn na L(X)⊥ (s obzirom na


euklidski skalarni produkt), slijedi

hY − Yb , Xai = ((I − H)Y, Xa00 ) = 0,

pa vrijedi tvrdnja.

13
(ii) Uočimo da je
h i h i
>b >
Eθ l θ = l Eθ b θ
= l> Eθ (X > X)−1 X > Y
 

= l> (X > X)−1 X > Eθ Y


= l> (X > X)−1 X > Xθθ
= l>θ = L(θθ ),

pa vidimo da je procjenitelj l>θb linearan i nepristran za l>θ .


Neka
 >je sada c> Y proizvoljan linearan nepristran procjenitelj za l>θ , tj. neka vrijedi
Eθ c Y = l θ za svaki θ ∈ Rp . Odavde slijedi c> Xθθ = l> θ za svaki θ ∈ Rp , tj.
>


c> X = l> ⇒ l = X > c.

Računamo
b = c> cov(Y )c − l> (X > X)−1 X > cov(Y )X(X > X)−1 l
Var(c> Y ) − Var(l> θ)
= c> V c − l> (X > X)−1 X > V X(X > X)−1 l
= c> V c − c> HV Hc
= c> (V − HV H)c.

Za x ∈ Rn imamo
HV Hx = HV X (X > X)−1 X > x
| {z }
x0
=HV Xx}0
| {z
Xx00
00
= HXx
= [H je projektor na L(X)]
= Xx00
= V Xx0
= V X(X > X)−1 X > x
= V Hx,

pa slijedi

HV H = V H = [jer je HV H simetrična matrica] = HV.

Zato imamo
V − HV H = (M + H)V (M + H) − HV H
= M V M + M V H + HV M
= M V M,

a odavde zbog pozitivne definitnosti kovarijacijske matrice V i činjenice da je M


projektor

c> (V − HV H)c = c> M V M c = (M V M c, c) = (V M c, c) > 0.

14
Dakle, Var(c> Y ) > Var(l>b θ ), pa vidimo da procjenitelj l>b
θ u klasi svih linearnih
nepristranih procjenitelja za L(θθ ) ima najmanju varijancu. Dakle, l>bθ je BLUE za
L(θθ ).

Pretpostavimo vec(E) ∼ Nnq (0, Σ ⊗ In ). Procijenimo B i Σ metodom maksimalne


vjerodostojnosti. Log-vjerodostojnost je dana s
1
l(B, Σ) = − log det(Σ ⊗ In )
2
1
(Σ ⊗ In )−1 (vec(Y) − (Iq ⊗ B) vec(X)), vec(Y) − (Iq ⊗ B) vec(X) + const.


2
n
n 1X
= − log det Σ − (Yi· − B > xi· )> Σ−1 (Yi· − B > xi· ) + const.
2 2 i=1

Stacionarne točke dobivamo iz jednadžbi

∇B l(B, Σ) = 0 ⇒ B bLS = (X > X)−1 X > Y,


bM LE = B

0 = ∇Σ l(B,
b Σ) =
 
 n 
 n 1 X
> > −1
 −1 > > −1

= ∇Σ 
− 2 log det Σ − 2 Yi· − Y X(X X) xi· Σ Yi· − Y X(X X) xi· 
 i=1 
| {z }
n
e> −1 Y> M e =tr(M YΣ−1 Y> M )=tr(Σ−1 Y> M Y)
P
i=1 i M YΣ i
 
n 1 −1 >
= ∇Σ − log det Σ − tr(Σ Y M Y) .
2 2
Zadatak 1.2.2. Za Σ = [σij ], pokažite
 
∂ −1 ∂
Σ = tr Σ−1 Tij ,

log det Σ = tr Σ
∂σij ∂σij

gdje je Tij matrica koja na mjestima (i, j) i (j, i) ima 1, a na preostalim mjestima 0.
( Uputa: zapišite determinantu matrice pomoću njene adjunkte.)

Takoder vrijedi  
∂ ∂ −1
tr(Σ−1 A) = tr Σ A .
∂x ∂x
Zadatak 1.2.3. Pokažite
∂ −1
Σ = −Σ−1 Tij Σ−1 .
∂σij
Sada iz

0= l(B,
b Σ)
∂σij
slijedi
n  1
0 = − tr Σ−1 Tij + tr Σ−1 Tij Σ−1 Y> M Y .

2 2

15
Pretpostavimo da je
b M LE = 1 Y> M Y
Σ
n
rješenje gornjeg sustava (kao matrični analogon jednodimenzionalnog slučaja) i pret-
postavimo da je ta matrica regularna. Uvrštavanjem u dobivene jednadžbe slijedi

n2  n2
tr (Y> M Y)−1 Tij + tr (Y> M Y)−1 Y> M Y(Y> M Y)−1 Tij = 0,


2 2
pa, uz pretpostavku regularnosti, vidimo da ta matrica uistinu i jest rješenje gornjeg
sustava.

Zadatak 1.2.4. Pokažite

D(AB) = D(A)B + AD(B),


gdje je D = operator diferenciranja, a A i B su matrične funkcije. Koristeći ovu
∂σij
činjenicu i relaciju Σ−1 Σ = I, riješite zadatak 1.2.3.

Zadatak 1.2.5. Pokažite da je


1
Sn := Y> M Y
n − r(X)

nepristran procjenitelj za Σ.

Rješenje. Stavimo Y = [ Y·1 · · · Y·q ]. Imamo

Y·1> M Y·1 · · · · · · Y·1> M Y·q


 
···
  .. .. ..
Y·1> . . .
 
 
>  ..     .. .. 
Y M Y =  .  M Y·1 · · · Y·q = 
 . · · · Y·i> M Y·j · · · . ,

Y·q>  .. ... .. 
 . . 
> >
Y·q M Y·1 · · · ··· · · · Y·q M Y·q

16
i vrijedi

E Y·i> M Y·j = E (Y·i − XB·i )> M (Y·j − XB·j )


   

= E e>
 
·i M e·j
 
ε1j
n n n
" #
X X X  ε2j 
= εki mk1 εki mk2 · · · εki mkn 
 ..


k=1 k=1 k=1
 . 
εnj
" n n
! #
X X
=E εki mkl εlj
l=1 k=1
n X
X n
= mkl E[εki εlj ]
k=1 l=1
= [zbog Eεki = Eεlj = 0 je E[εki εlj ] = cov(εki , εlj )]
X n Xn
= mkl cov(εki , εlj )
k=1 l=1
n X
X n
= mkl σij δkl
k=1 l=1
= σij tr(M ),

pri čemu u prvoj jednakosti koristimo činjenicu da je M ortogonalni projektor na L(X)> .


Budući da je

tr M = tr(I − H) = n − tr H
= [trag projektora jednak je njegovom rangu]
= n − r(H) = n − r(X),

slijedi
E Y·i> M Y·j = (n − r(X))σij ,
 

a odavde slijedi tvrdnja.

17
1.3 Testiranje hipoteza
Pretpostavimo da želimo testirati vrijedi li za model više varijabli

Y = XB + E (F)

hipoteza da je reducirani model


Y = X0 B0 + E (R)
dovoljan (L(X0 ) < L(X)). Pritom pretpostavljamo vec(E) ∼ Nnq (0, Σ ⊗ In ). Dakle,
imamo hipoteze

H0 : (R) je dovoljan ⇔ Y = X0 B0 + E
H1 : (F ) je potreban (neH0 )

Neka je H = X(X > X)−1 X > ortogonalni projektor na L(X) i H0 = X0 (X0> X0 )−1 X0>
ortogonalni projektor na L(X0 ). Vrijedi H0 H = H0 = HH0 . Stavimo i M = I − H,
M0 = I − H0 .
Multivarijatni test modela (R) bazira se na

(i) hipoteznoj statistici

P = Y> (H − H0 )Y = Y> (M0 − M )Y ∈ Mq ,

(ii) pogreškovnoj statistici


G = Y> M Y ∈ Mq .

Gornji test možemo prikazati i u obliku

H0 : Λ> B = C
H1 : Λ> B 6= C

za neke konkretne matrice Λ, C.

Definicija 1.3. Neka su Xi ∼ Nd (µ


µi , Σ), i = 1, . . . , n, nezavisni normalni slučajni vektori
s istom kovarijacijskom matricom Σ. Kažemo da slučajna matrica reda d
d
X
W = Xi Xi>
i=1

ima Wishartovu distribuciju sa n stupnjeva slobode, kovarijacijskom matricom Σ i


matricom parametara necentraliteta
n
!
1 −1 X
Q= Σ µ iµ >
i .
2 i=1

Pišemo W ∼ wd (n, Σ, Q). Ukoliko je Q ≡ 0, kažemo da je Wishartova distribucija


centralna i pišemo W ∼ wd (n, Σ). Ako je i Σ = Id , kraće pišemo W ∼ wd (n).

18
Vrijedi
n
! n n
X X X
Xi Xi> Xi Xi> tr Xi> Xi
 
tr(W ) = tr = tr =
i=1 i=1 i=1
n
X n X
X d
= |Xi |2 = [nezavisnost] = Xij2 ,
i=1 i=1 j=1

i uočimo da sumandi u posljednjem izrazu imaju necentralnu χ2 -distribuciju (Wishartova


je distribucija matrični analogon χ2 -distribucije).

Teorem 1.4. Uz pretpostavke normalnosti, pogreškovna statistika G i HY su nezavisne


slučajne veličine i G ∼ wq (n − p, Σ). Ukoliko još pretpostavimo da vrijedi reducirani
model (R), tada su P i G nezavisne i P ∼ wq (p − p0 , Σ).

Dokaz. Imamo

G = Y> M Y = (XB + E)> M (XB + E) = E > M E.

Takoder vrijedi M = U > DM U , H = U > DH U za matrice


   
1 0
 ...   ... 
   
1 0
   
DH =  , D = ,
   
M
0 1
 
   
 . ..
  .. 
   . 
0 1

koje imaju zaredom p, odnosno n − p jedinica na glavnoj dijagonali, tim redom. Odavde
slijedi
Xn
G = E > M E = (U E)> DM (U E) = (U E)1· (U E)>
1· .
i=p+1

Nadalje,

vec(U E) = (Iq ⊗ U ) vec(E) ∼ N (0, (Iq ⊗ U )(Σ ⊗ In )(Iq ⊗ U )> ).


| {z }
Σ⊗In

Dakle, (U E)1· , i = 1, . . . , n, su nezavisni normalno distribuirani slučajni vektori pa po


definiciji slijedi tvrdnja o distribuciji G.
Takoder,

(U E)>
 

..
.
   
(U E)>1·

>

>  (U E)p·
 
HY = H(XB + E) = XB + HE = XB + U > DH  ..
 = XB + U  .
  
. 0
(U E)>
 

 .. 
 . 
0

19
Vidimo da su HY i G funkcije disjunktnih skupova nezavisnih slučajnih vektora pa su to
nezavisne veličine.
Nadalje,

P = Y> (H − H0 )Y
H0
= Y> (H − H0 )E
= E > U > (DH − DH0 )U E.

Uočimo da je DH − DH0 matrica koja na glavnoj dijagonali ima najprije p0 nula, zatim
p − p0 jedinica, i na kraju n − p nula (i na preostalim mjestima nule). Zato je
p
X
P = (U E)i· (U E)>
i· ∼ wq (p − p0 , Σ).
i=p0 +1

Takoder, istim argumentom kao u slučaju HY i G dobijemo da su P i G nezavisne


statistike.
Za opaženu vrijednost y slučajne matrice (uzorka) Y te hipoteze

H0 : (B, Σ) ∈ Θ0
H1 : (B, Σ) 6∈ Θ0

(gdje je θ0 ⊂ Θ = {(B, Σ) : B ∈ Mp,q , Σ ∈ Mq , Σ > 0}), ako se y nalazi u kritičnom


prostoru oblika  
 max L(B, Σ) 
(B,Σ)∈Θ0
y ∈ Mn,q : < c , c < 1,
 max L(B, Σ) 
(B,Σ)∈Θ

odbacujemo H0 u korist H1 3 .
Pritom su vjerodostojnost L i log-vjerodostojnost l dane s

L(B, Σ) = exp(l(B, Σ)),


nq n 1
l(B, Σ) = − log(2π) − log det Σ − tr(Σ−1 Y> M Y).
2 2 2
Imamo   

> −1 > 1 >
BM L , ΣM L = (X X) X Y, Y M Y ,
b b
n
pa slijedi
 
max L(B, Σ) = L B bM L , Σ
bML
(B,Σ)∈Θ
 nq n b M L − nq

= exp − log(2π) − log det Σ
2 2 2
− nq − nq
− n
= (2π) 2 e 2 (det Σb M L) 2 .

Za nultu hipotezu
H0 : Y = X0 B0 + E
3
Za takve testove kažemo da su testovi omjera vjerodostojnosti.

20
imamo   

> −1 > 1 >
B0 , Σ0 = (X0 X0 ) X0 Y, Y M0 Y ,
b b
n
 
max L(B, Σ) = L B b 0 = (2πe)− nq2 (det Σ
b0 , Σ b 0 )− n2 ,
(B,Σ)∈Θ0

te za omjer vjerodostojnosti imamo


  ! n2  
L Bb0 , Σ
b0
det Σ
bML det nΣbML
2
λ=   <c⇔ <c⇔   < cn .
L BbM L , Σ
bML det Σ
b0 det nΣb0

Uzimajući u obzir definicije pogreškovne i hipotezne statistike, dobivamo


)
b M L = Y> M Y = G

⇒ nΣ b 0 = P + G,
n(Σb0 − Σb M L ) = Y> (M0 − M )Y = P

pa zato
 
n
det n Σ
bML
λ2 =  
det nΣ b0
det G
=
det(G + P )
= [Binet − Cauchy]
det G
=
det G det(I + G−1 P )
= det[(I + G−1 P )−1 ],

pri čemu, gdje je potrebno, pretpostavljamo regularnost odgovarajućih matrica.

Zadatak 1.3.1. Pretpostavimo da je dan linearni model više varijabli Y = XB + E, pri


čemu je vec(E) ∼ Nnq (0, Σ ⊗ In ), Σ > 0. Nadite test omjera vjerodostojnosti za hipoteze

H0 : B = B0
6 B0
H1 : B =

gdje je B0 neka unaprijed zadana matrica.

Rješenje. Zadane su hipoteze ekvivalentne sljedećima

H0 : B − B0 = 0
H1 : B − B0 6= 0

Takoder, zadani model možemo transformirati

Y − XB = X (B − B0 ) +E
| {z }0 | {z }
Z C

⇒ Z = XC + E,

21
te za ovaj izvedeni model testiramo hipoteze

H0 : C = 0
6 0
H1 : C =

Stavimo X0 = 0; za ortogonalni projektor na potprostor L(X0 ) imamo H0 = 0. Takoder,


ako sa p označimo rang od X i ako je H = X(X > X)−1 X > ortogonalni projektor na
potprostor L(X),

G = Z> M Z = (Y − XB0 )> M (Y − XB0 ) ∼ wq (n − p, Σ),


H
P = Z> (H − H0 )Z = (Y − XB0 )> H(Y − XB0 ) ∼0 wq (p, Σ).
Dakle, pogreškovna statistika G i hipotezna statistika P su (uz pretpostavku da je is-
punjena nulta hipoteza H0 ) nezavisne matrice pa iz toga možemo odrediti distribuciju
omjera vjerodostojnosti (i time zapravo odrediti kritično područje testa).

22
1.4 Test o parametru očekivanja višedimenzionalne
normalne razdiobe
µ, Σ), Σ > 0. U ma-
Pretpostavimo da je Y1· , Y2· , . . . , Yn· slučajni uzorak iz modela Nq (µ
tričnom zapisu  
Y1·>
 Y> 
 2· 
Y :=  ..  . (1.6)
 . 
Yn·>
Model za taj uzorak je dan s
Y = 1nµ > + E, (1.7)
gdje je  
ε>1·
 ε>2·

E= , Yi·> = µ> + ε>
i· , i = 1, . . . , n,
 
..
 . 
ε>

te su εi· ∼ Nq (0, Σ), i = 1, . . . , n, nezavisni slučajni vektori. Odavde slijedi vec(E) ∼


Nnq (0, Σ ⊗ In ). Takoder,matrica dizajna i matrica parametara modela su dane s
 
1
 1 
X = 1n =  ..  , B = µ > = [ µ1 µ2 · · · µq ].
 
 . 
1

Za testiranje hipoteza

H0 : µ = µ 0
H1 : µ 6= µ 0

(gdje je µ 0 unaprijed zadan) trebamo test analogan Studentovom T-testu u jednodimen-


zionalnom slučaju. Za procjenitelje maksimalne vjerodostojnosti modela vrijedi

b> = (X > X)−1 X > Y = (1> 1)−1 1> Y


µ
1
= [ 1 1 · · · 1 ][ Y·1 Y·2 · · · Y·q ]
n
= [ Y ·1 Y ·2 · · · Y ·q ]
>
=Y ,

23
b = 1 Y> I − 1(1> 1)−1 1> 2 Y

Σ
n  
1 > 1 >
= Y Y − 11 Y
n n
1  >

= Y> Y − 1Y
n
1 > >

Y − 1Y>

= Y − 1Y
n
1
=
n  > 
Y1· − Y
 > 
1  Y2· − Y 
= Y1· − Y Y2· − Y · · · Yn· − Y  ..

n 
 .


>
Yn· − Y
n
1X  >
= Yi· − Y Yi· − Y
n i=1
n−1
= S,
n
uz n
1 X  >
S= Yi· − Y Yi· − Y .
n − 1 i=1
Imamo n
1 X  >
[S]jj 0 = Yij − Y ·j Yij 0 − Y ·j 0 ,
n − 1 i=1
što je uzoračka kovarijanca izmedu j-te i j 0 -te komponente slučajnog vektora Y (S je tzv.
empirijska kovarijacijska matrica).
Hipotezna je statistika

P = (HY − XB0 )> (HY − XB0 )


 > >
µ> µ>

= 1Y − 1µ 0 1Y − 1µ 0
 > >
= Y − µ 0 |{z}
1 1 Y − µ0
n
 > H0
= n Y − µ0 Y − µ0 ∼ wq (1, Σ),

a pogreškovna
b = (n − 1)S ∼ wq (n − 1, Σ).
G = nΣ
Uz pretpostavku da je ispunjena hipoteza H0 , statistike P i G su nezavisne.
Takoder, zbog
> > > 1
1> HY = 1> 1Y = nY , Y = 1> Y,
n

24
slijedi
 
 >
 1 >
Y = vec Y = vec 1 YIq
n
 
1 >
= Iq ⊗ 1 vec(Y)
n
     
1 > 1 > 1
∼ Nq Iq ⊗ 1 ((Iq ⊗ 1) vec(B)) , Iq ⊗ 1 (Σ ⊗ In ) Iq ⊗ 1
n n n
   
1 1
= Nq (Iq ⊗ 1) µ , Σ ⊗ = Nq µ , Σ
n n

(uočimo da vrijedi vec(Y) ∼ Nnq ((Iq ⊗ 1n ) vec(B), Σ ⊗ In ) = Nnq ((Iq ⊗ 1n ) µ , Σ ⊗ In ))


Želimo odrediti testnu statistiku za dane hipoteze. Definiramo Hotellingovu statis-
tiku kao
T 2 := (n − 1) tr(P G−1 )
 
  1 −1
= (n − 1) tr n Y − µ 0 Y − µ 0 S
n−1
h > i
= n tr Y − µ 0 S −1 Y − µ 0
>
= n Y − µ 0 S −1 Y − µ 0 .


Hotellingova je statistika analogna Studentovoj T-statistici. Test omjera vjerodostojnosti


bit će ekvivalentan testiranju ove statistike uz dano kritično područje ako i samo ako je
omjer vjerodostojnosti bijektivna transformacija te statistike. Sljedeća nam propozicija
govori da to uistinu i jest tako.

Propozicija 1.5. Omjer vjerodostojnosti za testiranje hipoteza

H0 : µ = µ 0
H1 : µ 6= µ 0

je dan s
 − n2
1
λ= 1+ T2 .
n−1
Dokaz. Vrijedi
n
λ = det(In + G−1 P )− 2
 − n2
1 >
S −1 n Y − µ 0 Y − µ 0
 
= det In + .
n−1

Za sredivanje dobivenog izraza koristimo sljedeću pomoćnu tvrdnju.

Lema. Za A ∈ Mp,q i B ∈ Mq,p slijedi

det(Ip + AB) = det(Iq + BA).

25
Dokaz. Imamo   
 
Ip + AB A Ip A Ip 0
= ,
0 Iq −B Iq B Iq
    
Ip A Ip 0 Ip A
= .
0 Iq + BA B Iq −B Iq

Primjenom Binet-Cauchyjevog teorema (i činjenice da je determinanta gornje, tj.


donje trokutaste blok matrice jednaka umnošku determinanti blokova na glavnom
dijagonali) slijedi da matrice na lijevim stranama imaju jednake determinante, a
odavde (primjenom istih argumenata) slijedi tvrdnja. 

Primjenom leme dobivamo


 n
> − 2

1 −1

λ = det In + S n Y − µ0 Y − µ0
n−1
 n
 −2

n > −1
= det 1 + Y − µ0 S Y − µ0
n−1
 − n2
1
= 1+ T2 .
n−1

Zadatak 1.4.1. Neka je A ∼ wd (m), m > d. Pokažite da je tada A g.s. regularna


matrica.

Rješenje. Uočimo da se A po distribuciji može zapisati u obliku


m
D
X
A= Xi Xi> ,
i=1

gdje su slučajni vektori Xi ∼ Nd (0, Id ) nezavisni.


D
Označimo Q> = X1 X2 · · · Xm . Tada A = Q> Q i vrijedi (sa r označavamo
 

rang matrice)

d > r(A) = r(Q> Q) = r(Q> ) = r X1 X2 · · · Xm > r X1 X2 · · · Xd .


   

Tvrdimo   
P det X1 X2 · · · Xd = 0 = 0.
Za to je dovoljno pokazati da determinanta ima neprekidnu distribuciju. No, prema
definiciji determinante
 X
(−1)I(σ) X1σ(1) X2σ(2) · · · Xdσ(d) ,

det X1 X2 · · · Xd =
σ∈Sd

(sa Sd označavamo skup svih permutacija skupa {1, . . . , d}, a sa I(σ) broj inverzija per-
mutacije σ) pa determinanta kao linearna kombinacija umnožaka neprekidnih slučajnih
varijabli i sama ima neprekidnu distribuciju (alternativno, ovu smo činjenicu mogli pokazati
i matematičkom indukcijom po redu matrice, koristeći Laplaceov razvoj).

26
Sada imamo   g.s.
det X1 X2 · · · Xd > 0,
    g.s.
pa je matrica X1 X2 · · · Xd g.s. regularna, a zbog toga je r X1 X2 · · · Xd =
d. Dakle g.s.
d > r(A) > d,
a odavde slijedi tvrdnja.
Pomoću ovog zadatka možemo opravdati upotrebu S −1 , tj. pokazati da S jest regu-
larna matrica. Imamo
(n − 1)S ∼ wq (n − 1, Σ),
uz n − 1 > q (u primjenama je to općenito ispunjeno). Zato
n−1
X
(n − 1)S = Xi Xi> ,
i=1

njd 1 1 njd
gdje X1 , . . . , Xn−1 ∼ Nq (0, I). Zato je Σ− 2 X1 , . . . , Σ− 2 Xn−1 ∼ Nq (0, I) i po definiciji
vrijedi
n−1    1 >
− 12 − 12 1
X
(n − 1)Σ SΣ = Σ− 2 Xi Σ− 2 Xi ∼ wq (n − 1).
i=1
1 1
Dakle, vidimo da je matrica A = (n − 1)Σ− 2 SΣ− 2 regularna pa je i S regularna kao
umnožak regularnih matrica
1 1
S = Σ 2 AΣ 2
(sličan argument zapravo možemo primijeniti općenito kod hipoteznih i pogreškovnih
statistika).
Definicija 1.6. Kažemo da slučajna varijabla Z ima necentralnu F -distribuciju s
parom stupnjeva slobode (m, n) i parametrom necentralnosti δ ako postoje nezavisne
slučajne varijable X ∼ χ2 (m, δ), Y ∼ χ2 (n) takve da
D X/m
Z= .
Y /n
Pišemo Z ∼ F (m, n; δ).
Propozicija 1.7. Ako su Z ∼ Nd (δδ , I), W ∼ wd (m), m > d, nezavisne, tada
 
m − d + 1 > −1 1 >
Z W Z ∼ F d, m − d + 1; δ δ .
d 2
Dokaz. Neka je U slučajna ortogonalna matrica kojoj je prvi redak jednak
Z
|Z|
(takva uistinu postoji, možemo ju dobiti npr. Gram-Schmidtovim postupkom). Tada je
U Z = |Z|e1 i imamo
m − d + 1 > −1 −1
Z W Z = (U Z)> U > W U UZ
d | {z }
V
m − d + 1 2 > −1
= |Z| e1 V e1 .
d
27
Uvjetna distribucija od V uz dano Z = z je Wishartova distribucija w(m) jer je
m
X m
X
UW U> = U Xi Xi> U > = (U Xi )(U Xi )> ,
i=1 i=1

njd njd
a kako je X1 , . . . , Xm ∼ Nd (0, I), to je i U X1 , . . . , U Xm ∼ Nd (0, I). Dakle, V | Z =
z ∼ w(m). Nadalje, budući da uvjetna distribucija od V ne ovisi o Z, bezuvjetno je
V ∼ w(m) i V i Z su nezavisne slučajne veličine.
Stavimo
v11 V12>
 
V = .
V12 V22
Uz pretpostavku regularnosti matrice V22 imamo
  > 
1 1 −1
> V −1 V − v −V > V −1 V V22 V12
V −1 =  v11 −V12 22 12 11 12 22 12
2
,
− v −V >1V −1 V V22−1 V12 V22−1 + v −V|V>12V| −1 V V22−1
11 12 22 12 11 12 22 12

pa slijedi
m − d + 1 > −1 |Z|2 /d
Z W Z= .
d (v11 − V12> V22−1 V12 )/(m − d + 1)
Vrijedi
d  
2
X 1 >
|Z| = Zi2 ∼χ 2
d, δ δ ,
i=1
2

i po konstrukciji je ta varijabla nezavisna od v11 − V12> V22−1 V12 . Preostaje pokazati

R = v11 − V12> V22−1 V12 ∼ χ2 (m − d + 1).


m
njd
X
Stavimo V = Xi Xi> , gdje X1 , . . . , Xm ∼ Nd (0, I). Takoder stavimo
i=1
 
X1>
 X2>   
Q= = X | Y ,
 
..
 . 
>
Xm

gdje je X vektor-stupac, a matrica Y ima d − 1 stupaca. Tada imamo


 >   >
X X X >Y

X  
V = X Y = ,
Y> Y >X Y >Y

a odavde vidimo V22 = Y > Y . Zbog

d − 1 > r(V22 ) = r(Y ) > d − 1

(pri čemu druga nejednakost slijedi iz zadatka 1.4.1), slijedi da je matrica V22 regularna.

28
Nadalje,

R = v11 − V12> V22−1 V12


= X > X − X > Y (Y > Y )−1 Y > X
= X > (I − Y (Y > Y )−1 Y > )X
| {z }
MY

= (MY X, X),

pri čemu smo sa MY označili ortogonalni projektor na L(Y )⊥ . Otprije (pogledati lit-
eraturu kolegija Statistika s 3. godine preddiplomskog studija) da vrijedi (MY X, X) ∼
χ2 (My ). Dakle, R | Y = y ∼ χ2 (m − d + 1), no ta uvjetna distribucija ne ovisi o Y , pa
slijedi R ∼ χ2 (m − d + 1), pa slijedi tvrdnja propozicije.
Propoziciju 1.7 možemo primijeniti u slučaju Hotellingove statistike (želimo odrediti
distribuciju testne statistike).
Propozicija 1.8. Za n > q + 1 imamo
 
n−q 1 1 >
· T2 ∼ F q, n − q; δ δ ,
q n−1 2
√ 1
uz δ = nΣ− 2 (µ
µ − µ 0 ).
Dokaz. Imamo
n−q 1 n−q >
T2 = · n Y − µ 0 [(n − 1)S]−1 Y − µ 0 .

·
q n−1 q
Takoder,
√ √
 
1 1 1

Y − µ 0 ∼ Nd µ − µ 0 , Σ ⇒ nΣ− 2 Y − µ 0 ∼ Nd nΣ− 2 (µ

µ − µ 0 ), Iq ,
n
1 1
(n − 1)S ∼ wg (n − 1, Σ) ⇒ (n − 1) Σ− 2 SΣ− 2 ∼ wq (n − 1),
pa stavljanjem √
1 1 1
nΣ− 2 Y − µ 0 , W = (n − 1)Σ− 2 SΣ− 2

Z=
√ 1
imamo m = n − 1, d = q, δ = nΣ− 2 (µ
µ − µ 0 ) te
n−q 1 n − q > −1
· T2 = Z W Z,
q n−1 q
a odavde, primjenom propozicije 1.7, slijedi tvrdnja.
Korolar 1.9. Uz iste pretpostavke na model (1.7), (1 − α) · 100% pouzdano područje za
vektor parametara µ je slučajni elipsoid
>  (n − 1)q
n Y−µ S −1 Y − µ 6 fα (q, n − q),
n−q
gdje je fα (q, n − q) (1 − α)-kvantil centralne F -distribucije, F (q, n − q).
Dokaz. Slijedi direktno iz propozicije 1.8 uz µ 0 = µ .

29
Zadatak 1.4.2. Uz iste pretpostavke na model (1.7), sprovedite test sljedećih hipoteza

H0 : µ 1 − µ 3 = 0
H1 : µ 1 − =
6 µ 3 6= 0

pri čemu µ = (µ1 , µ2 , . . . , µq ), q > 3.

Rješenje. Stavimo
a> =
 
1 0 −1 0 · · · 1 .
Imamo a>µ = µ1 − µ3 , pa zadane hipoteze možemo zapisati u sljedećem obliku

H0 : a>µ = 0
H1 : a>µ 6= 0

Neka je  
Y1·>
 Y2·> 
Y= , Yi· ∼ Nq (µ
µ, Σ),
 
..
 . 
Yn·>
slučajni uzorak za vektor odziva Y . Definiramo

Xi := a> Yi· = Yi1 − Yi3 ∼ N1 (a>µ , a> Σa),

gdje je matrica a> Σa pozitivno definitna. Tada je


 
X1
 X2 
Ya =  .. 
 
 . 
Xn

slučajni uzorak iz univarijatne normalne distribucije pa je odgovarajuća testna statistika

X n − 0 √ H0
T = n ∼ t(n − 1),
Sn
i problem je sveden na Studentov T -test.

Zadatak 1.4.3. Poopćite zadatak 1.4.2 tako da sprovedete test hipoteza

H0 : A>µ = c
H1 : A>µ 6= c

gdje je A ∈ Mq,r , q > r, r(A) = r, c ∈ Rr .

Rješenje. Neka je  
a>1

>
 a>2

A = .
 
..
 . 
a>
r

30
Definirajmo

Z := YA
 
Y1·>
=  ...  a1 a2 · · · aR
  

Yn·>
 
Y1·> a1 · · · Y1·> ar
=  ... ... ..  .

. 
> >
Yn· a1 · · · Yn· ar

Iz
Y = 1nµ > + E, vec(E) ∼ Nnq (0, Σ ⊗ In )
slijedi
YA = 1n (A>µ )> + EA,
 

vec(EA) = vec(In EA) = (A> ⊗In ) vec(E) ∼ Nnr (A> ⊗ Iq )0, (A> ⊗ In )(Σ ⊗ In )(A> ⊗ In )>  ,
 
| {z }
=(A> ΣA)⊗In

pa uz dodatne supstitucije ν := A>µ , F = EA imamo izvedeni model

Z = 1nν > + F, vec(F ) ∼ Nnr 0, (A> ΣA) ⊗ In ,




pri čemu je matrica (A> ΣA)⊗In pozitivno definitna (matricu Σ smo pomnožili matricom
punog ranga). Hipoteze u skladu s ovim supstitucijama sada glase

H0 : ν = c
H1 : ν 6= c

te je Hotellingova statistika za ove hipoteze dana s


>
T 02 = n Z − c (A> SA)−1 Z − c .


31
1.5 Višestruka korelacija
Definicija 1.10. Neka je  
X1
X=
X2
p-dimenzionalni slučajni vektor (X2 je (p − 1)-dimenzionalni vektor). Tada je koeficijent
višestruke korelacije R izmedu slučajne varijable X1 i slučajnog vektora X2 maksimalni
p−1
X
>
koeficijent korelacije izmedu X1 i t X2 = ti X2i , za sve t ∈ Rp−1 , tj.
i=1

R = max
p−1
corr(X1 , t> X2 ).
t∈R

Pretpostavimo EX = 0 te

σ11 σ >
 
21
cov(X) = , Σ22 = cov(X2 ).
σ 21 Σ22

Za bilo koji λ > 0 imamo

cov(X1 , λt> X2 )
corr(X1 , λt> X2 ) = p
Var X1 Var(λt> X2 )
λ cov(X1 , t> X2 )
= p
λ Var X1 Var(t> X2 )
= corr(X1 , t> X2 ).

Zato bez smanjenja općenitosti možemo uzeti Var(t> X2 ) = 1. Naime,

Var(t> X2 ) = cov(t> X2 ) = t> cov(X2 )t = t> Σ22 t,


1
pa za λ2 := l> Σ2 2l, l 6= 0, stavljanjem t = l imamo Var(t> X2 ) = 1.
λ
Uočimo da je skup T = {t ∈ Rp−1 : t> Σ22 t = 1} kompaktan pa maksimum iz definicijske
relacije za R po tom skupu postoji. Zato imamo
Pp−1 !2
cov(X 1 , X2i )
R2 = max i=1
√ ,
t∈T σ11

Pp−1 !2 2 2
σ> t
 
cov(X1 , X2i ) (t, σ 21 )
i=1
√ = √21 = √
σ11 σ11 σ11
(t, AA−1σ 21 )2 (At, A−1σ 21 )2
= =
σ11 σ11
2 −1
SC |At| |A σ 21 | 2
σ Σ−1σ 21
>
6 = 21 22 ,
σ11 σ11
pri čemu odaberimo skalar λ i matricu A tako da

λt = Σ−1
22 σ 21 , A−1σ 21 = λAt.

32
Dakle,
−1
σ>21 Σ22 σ 21
R2 = .
σ11
Za procjenu koeficijenta višestruke korelacije imamo
>
 
>  v11 v21
(n − 1)S = Y − Y Y−Y =
v21 V22
> −1
⇒R b2 = v21 V22 v21 .
v11
Višestruki se koeficijent korelacije primjenjuje za testiranje hipoteze

H0 : X1 i X2 nezavisni ⇔ R = 0

(naime, u normalnoj distribuciji nekoreliranost povlači nezavisnost).

33
1.6 Parcijalna korelacija
Neka je      
X1 µ1 Σ11 Σ12
X= ∼ Np , , Σ22 > 0,
X2 µ2 Σ21 Σ22
gdje p = p1 + p2 (X1 i X2 su vektori dimenzija p1 i p2 , respektivno), Σ12 = Σ>
21 =
cov(X1 , X2 ).
Lema 1.11.
X1 | X2 = x2 ∼ Np1 µ 1 + Σ12 Σ−1 −1

22 (x2 − µ 2 ), Σ11 − Σ12 Σ22 Σ21

Dokaz. Za B := Σ12 Σ−1


22 vrijedi

Σ11 − Σ12 Σ−1


     
I −B Σ11 Σ12 I 0 22 Σ21 0
= .
0 I Σ21 Σ22 −B > I 0 Σ22
Budući da je
        
I −B X1 µ 1 − Bµ
µ2 I −B Σ11 Σ12 I 0
∼ Np , ,
0 I X2 µ2 0 I Σ21 Σ22 −B > I
slijedi
Σ11 − Σ12 Σ−1
     
X1 − BX2 µ 1 − Bµ
µ2 22 Σ21 0
∼ Np , ,
X2 µ2 0 Σ22
D
pa vidimo da su vektori X1 −BX2 i X2 nezavisni te vrijedi X1 −BX2 | X2 = x2 = X1 −BX2 .
No sada
(X1 | X2 − x2 ) = (X1 − BX2 + BX2 | X2 = x2 )
= (X1 − BX2 | X2 = x2 ) + Bx2
D
= X1 − B(X2 − x2 )
     
I −B X1 I −B 0
∼ − ,
0 I X2 0 I x2
što je tražena distribucija.
Napomena. Ukoliko Σ22 nije regularna, tvrdnja leme vrijedi zamjenom Σ−1 22 general-
− − −1
iziranim inverzom Σ22 od Σ22 , tj. takvom matricom Σ22 za koju vrijedi Σ22 Σ22 Σ−1 −
22 = Σ22 .

Definicija 1.12. Koeficijent parcijalne korelacije izmedu i-te komponente X1i i j-te
komponente X1j vektora X1 je (i, j)-ti element korelacijske matrice
1  −1
D− 2 Σ11 − Σ12 Σ−122 Σ21 D
2,

gdje je D = diag Σ11 − Σ12 Σ−1



22 Σ21 . Oznaka za (i, j)-tu parcijalnu korelaciju je rij | X2 .

Imamo
 
V11 V12
V := (n − 1)S = ∼ wp (n − 1, Σ), V12 = V21> .
V21 V22
Zadatak 1.6.1. Dokažite da vrijedi
V11 − V12 V22−1 V22 ∼ wp1 (n − 1 − p2 , Σ11 − Σ12 Σ−1
22 Σ21 ).

34
1.7 MANOVA (Višedimenzionalna analiza varijance)
Pretpostavimo da imamo k > 2 nezavisnih uzoraka
njd
Yi1 , . . . , Yini ∼ Nq (µ
µi , Σ), i = 1, . . . , k, Σ > 0.

Želimo testirati

H0 : µ 1 = µ 2 = . . . = µ k

Stavimo
Y11>
 
 Y12> 
..
 
 
 . 
>
 
 Y1n    

 Y21>
1 
 1n1 µ>1
 ..   1n2  µ>2

Y= . =  +E,
    
...  ..
 >
Y2n
   . 
2
µ>
 
 ..  1nk k

 .  |
 {z } | {z }
> X B

 Yk1 

 .. 
 . 
>
Ykn k

te uz n = n1 + . . . + nk imamo vec(E) ∼ Nnq (0, Σ ⊗ In ). Imamo

H0 : µ 1 = µ 2 = . . . = µ k ⇔ Y = 1n µ > +E.
|{z} |{z}
X0 B0

Imamo  
1n1
 1n2 
L(X0 ) < L   = L(X).
 
 ... 
1nk
Takoder,

HY = X(X > X)−1 X > Y


1
   
1n1 n1 1>
n1
 
1 Y 1
 1n2 
n2
 1>
n2

  .. 
=
  
...  ..  ..  . 
  .  . 
Yk
1nk 1
nk
1>
nk
 >

1n1 n11 1>

n1 Y1 1n1 Y1
1 > >
1n2 n2 1n2 Y2  

  1n2 Y2 
.
 .. 
 ..
 .  .


1nk n1k 1> Y
nk k 1nk Yk
>

35
Hipotezna je statistika

P = Y> (H − H0 )Y = [(H − H0 )Y]> (H − H0 )Y


 >   >
1n1 Y1 1n1 Y
..   .. 
=   −  .  (H − H0 )Y

.
>
1nk Yk 1nk Y
k
X  >
= n i Yi − Y Yi − Y = SST.
i=1

Pogreškovna je statistika

G = Y> M Y
ni
k X
X  >
= Yij − Yi Yij − Yi
i=1 j=1
k
X
= (ni − 1)Si = SSE.
i=1

Znamo SSE = G ∼ wq (n − k, Σ). Ako vrijedi H0 , imamo još i SST = P ∼ wq (k − 1, Σ)


te su P i G nezavisne statistike. Nadalje, omjer vjerodostojnosti Λ je dan s
2 det SSE
Λn = .
det(SSE + SST )
Definicija 1.13. Kažemo da slučajna varijabla X ima U -distribuciju ako postoje neza-
visne slučajne matrice reda p, W ∼ wp (n), W2 ∼ wp (m), takve da m + n > p i

D det W1
U= ∼ U (p; m, n).
det(W1 + W2 )
U literaturi se ova distribucija još zove i Wilksova λ-distribucija.
Propozicija 1.14. Za omjer vjerodostojnosti Λ, ukoliko je ispunjeno

H0 : µ 1 = µ 2 = . . . = µ k

vrijedi
2
Λ n ∼ U (q; k − 1, n − k).
Napomena. Vrijedi sljedeći asimptotski rezultat
D/H0
−2 log Λ −−−→ χ2 (q(k − 1)) , n → ∞.
| {z }
χ2 (dimΘ−dimΘ0 )

Zadatak 1.7.1. Pokažite da je


1
SSE := S
n−k
nepristran procjenitelj za Σ.

36
Zadatak 1.7.2. Nadite pogreškovnu i hipoteznu statistiku te njihove razdiobe za hipoteze

H0 : Λ> B = C
H1 : Λ> B 6= C

u višestrukom linearnom modelu q varijabli

Y = XB + E

sa n opservacija, pričemu pretpostavljamo

vec(E) ∼ Nnq (0, Σ ⊗ In ), Σ > 0,

r(Λ) = r 6 p, Λ ∈ Mp,r , C ∈ Mr,q .

Rješenje. 1◦ Nadimo procjenitelj vektora parametara θ u višestrukom linearnom mod-


elu jedne varijable
Y = Xθθ + ε
uz uvjet da je A>θ = c. Ovdje se Y ∈ Mn,1 , X ∈ Mn,p , θ ∈ Rp ≡ Mp,1 , A ∈ Mp,r ,
r(A) = r > p, c ∈ Rr ≡ Mr,1 .
Dakle, treba naći θb tako da vrijedi

|Y − X θb|2 = min |Y − Xθθ |2 .


A>θ =c

Gornju jednadžbu rješavamo pomoću Lagrangeovih multiplikatora:


1
L(θθ , λ ) := |Y − Xθθ |2 + λ > (A>θ − c), λ ∈ Rr ,
2
c = (X > X)θθ − X > Y + Aλ
λ = 0,
Dλ L(θθ , λ ) = A>θ − c = 0.
Imamo
λ = X > Y − (X > X)θθ
Dθ L(θθ , λ ) = 0 ⇒ Aλ /(X > X)−1 ·
⇒ (X > X)−1 Aλ
λ = (X > X)−1 X > Y − θ /A> ·
⇒ A> (X > X)−1 Aλ
λ = A> (X > X)−1 X > Y − A>θ .

Uočimo da je A> (X > X)−1 A kvadratna matrica reda r. Takoder, matricu (X > X)−1
možemo dijagonalizirati, tj. možemo pisati D = U (X > X)−1 U > , gdje je D dijag-
onalna, a U ortogonalna matrica. Označimo stupce matrice (U A)> redom sa b1 ,
b2 , . . ., br (oni su linearno nezavisni jer smo matricu A punog ranga pomnožili
regularnom matricom). Sada je

r(A> (X > X)−1 A) = r(A> U > DU A)


  
b>1
= r  ...  D b1 · · · br
   

b>r
 > 
= r bi Dbj = r,

37
pri čemu posljednja jednakost vrijedi jer je b>
 
i Dbj Gramova matrica, i to do-
bivena skalarnim množenjem (u odnosu na odgovarajući težinski skalarni produkt)
r linearno nezavisnih vektora. Dakle, matrica A> (X > X)−1 A je regularna pa imamo
!
> > −1
−1 > > −1 > >
λ = A (X X) A A (X X) X Y − |{z} A θ
=c
−1
⇒ θb = (X > X)−1 X > Y − (X > X)−1 A A> (X > X)−1 A A> (X > X)−1 X > Y − c .


Stavimo
−1
H − H0 := X(X > X)−1 A A> (X > X)−1 A A> (X > X)−1 X > .
Odavde se dobije da je H0 projektor i H0 H = HH0 = H0 , pa H0 projicira na
−1
potprostor od L(X), L(X0 ). Uz c0 := (X > X)−1 A A> (X > X)−1 A c ∈ L(X0 )
(jer H0 c0 = 0) slijedi
X θb = HY − (H − H0 )Y + c0
(želimo usporedivati Y i Xθθ ).
2◦ Primijenimo sada 1◦ na zadane hipoteze. Imamo
vec(Y) = (Iq ⊗ X) vec(B) + vec(E),
pa vrijedi
Λ> B = C ⇔ vec(Λ> BIq ) = vec(C)
⇔ (Iq ⊗ Λ)> vec(B) = vec(C) .
| {z } | {z } | {z }
A> θ c

Prema H0 ,
(Iq ⊗ X) vec(B
b0 ) = (Iq ⊗ H) vec(Y)
− Iq ⊗ X(X > X)−1 Λ(Λ> (X > X)−1 Λ)−1 Λ> (X > X)−1 X > vec(Y)


+ Iq ⊗ X(X > X)−1 Λ(Λ> (X > X)−1 Λ)−1 vec(C)




⇒ XB
b0 = H0 Y + C0 ,
uz C0 := (X > X)−1 Λ(Λ> (X > X)−1 Λ)−1 C.
3◦ Odredimo omjer vjerodostojnosti za zadani test (umjesto fiksne vrijednosti B0 u
izrazu za l(B, Σ) stavimo B
b0 ). Slijedi,

G = Y> M Y, M = IH ,
te
P = (Y − XB0 )> (Y − X Bb0 ) − Y> M Y
= (M Y + X(Bb−B b0 ))> (M Y + X(B b0 )) − Y> M Y
b−B
= [X B
b = HY]
= (HY − X B
b0 )(HY − X B
b0 )
= (HY − H0 Y − C0 )> (HY − H0 Y − C0 )
= ((H − H0 )(Y − C0 ))> ((H − H0 )(Y − C0 ))
= (Y − C0 )> (H − H0 )(Y − C0 ).

38
Imamo G ∼ wq (n − p, Σ), r(H) = p. Uz pretpostavku H0 , G i P su nezavisne i
P ∼ wq (r(H − H0 ), Σ). Budući da je H − H0 projektor, vrijedi
r(H − H0 ) = tr(H − H0 ) = tr(Ir ) = r.

Zadatak 1.7.3. Nadite pogreškovnu i hipoteznu statistiku te njihove razdiobe za hipoteze


H0 : Λ> BΠ = C
H1 : Λ> BΠ 6= C
u modelu sa q varijabli
Y = XB + E
i n opservacija, uz
vec(E) ∼ Nnq (0, Σ ⊗ In ), Σ > 0,
r(Λ) = r 6 p, Λ ∈ Mp,r , Π ∈ Mq,s , r(Π) = s 6 q, C ∈ Mr,s .
Odredite i razdiobu omjera vjerodostojnosti.
Rješenje. Imamo
Y = XB + E /·Π
⇒ YΠ = X(BΠ) + EΠ.
Stavimo    
Y1·> Y1·> Π
YΠ =  ...  Π =  ...  =: Z.
   
Yn·> Yn·>
Dakle, Z = Π> Y . Stavimo još
B
e := BΠ, E
e := EΠ, e := Π> ΣΠ.
Σ
Imamo vec(EΠ) = vec(In EΠ) = (Π> ⊗In ) vec(E) ∼ Nns (0, (Π> ⊗ In )(Σ ⊗ In )(Π> ⊗ In )> ),
| {z }
Π> ΣΠ⊗In
te su izvedene hipoteze
H0 : Λ> B
e=C
H1 : Λ> B
e 6= C

u modelu Z = X B e + E,
e vec(E)e ∼ Nns (0, Σ
e ⊗ In ), Σ
e > 0. Ovime smo zadatak sveli na
prethodni.
Tako je pogreškovna statistika
G = Z> M Z = Π> Y> M YΠ ∼ ws (n − p, Σ),
e

hipotezna
H
P ∼0 ws (r, Π> ΣΠ),
a omjer vjerodostojnosti
2 det G H0
Λn = ∼ U (s; r, n − p).
det(P + G)

39
Poglavlje 2

Diskriminacija i alokacija

Neka je dano k različitih q-dimenzionalnih populacija te neka je zadana jedna opser-


vacija Y ∈ Rq za koju ne znamo kojoj populaciji pripada. Kako ćemo Y alocirati nekoj
populaciji? Tri su moguće metode:
(1) Pretpostavimo da su te populacije zadane svojim vektorima očekivanja µ i i kovari-
jacijskim matricama Σi , i = 1, . . . , k. Za svaki i = 1, . . . , k računamo tzv. Maha-
lanobiusovu udaljenost vektora Y i µ i
Di (Y ) := (Y − µ i )> Σ−1
i (Y − µ i ).

Tada Y alociramo onoj populaciji i0 za koju vrijedi


Di0 (Y ) = min Di (Y ).
16i6k

(2) Ako su nam poznati zakoni razdioba svake od k populacija, tada možemo definirati
vjerodostojnost populacije i
L(i) := f (Y | i),
gdje je f (· | i) gustoća vektora Y u toj populaciji. Sada Y alociramo onoj populaciji
i0 za koju vrijedi
L(i0 ) = max L(i).
16i6k

(3) Bayesovska metoda se koristi ukoliko imamo apriorne informacije (razdiobu) o


indeksu i, prezentiranu gustoću Π(i), i poznate distribucije (gustoće) veličine koju
opažamo kod svih k populacija, f (· | i). Definiramo nove vjerodostojnosti
f (Y | i)Π(i)
L(i | Y ) = k
X
f (Y | j)Π(j)
j=1

i Y alociramo onoj populaciji za koju je ta vjerodostojnost maksimalna.


Napomena. (a) Ukoliko pretpostavimo da je u svim populacijama opažana veličina
q-dimenzionalna normalna, tj. iz Nq (µ µi , Σi ), i = 1, . . . , k, tada je MLE za i (2.
pristup) onaj i0 koji minimizira funkciju
i 7→ det Σi + Di (Y ).
Ukoliko dodatno pretpostavimo jednakost kovarijacijskih matrica Σ1 = Σ2 = . . . =
Σk = Σ, onda se metode 1 i 2 podudaraju.

40
(b) Ukoliko u 3. pristupu imamo
1
Π(i) = , i = 1, . . . , k,
k
tj. apriorne distribucije su uniformne, tada su pristupi 2 i 3 ekvivalentni.

(c) Ako vrijedi (b) i dodatna pretpostavka iz (a), sva su tri pristupa ekvivalentna.

41
2.1 Procijenjena alokacija
Promatrajmo sljedeći praktični problem: prvi i drugi moment zadanih populacijskih raz-
dioba opservacije Y su nepoznati.
Pretpostavimo da opservacija Y u svih k populacija ima q-dimenzionalnu normalnu
µi , Σi ). U tom su slučaju
razdiobu s očekivanjem µ i i kovarijacijskom matricom Σi , Nq (µ
µi i Σi procijenjeni iz modela za Y (opaženih uzoraka iz populacije i). Odgovarajući su
procjenitelji
ni
1 X
bi = Y i· =
µ Yij ,
ni j=1
n
i
1 X
Σ
b i = Si = (Yij − Y i· )(Yij − Y i· )> .
ni − 1 j=1

Neka je sada y novo opažanje od Y iz nepoznate populacije. Tada se Y alocira pomoću

(1) procijenjene Mahalanobiusove udaljenosti

i 7→ (Y − yi )Si−1 (Y − yi ) =: D
b i (Y ),

(2) pomoću MLE


i 7→ det Si + D
b i (Y ).

Pretpostavimo da su sve populacijske kovarijacijske matrice jednake, Σ1 = Σ2 =


. . . = Σ. U tom slučaju iz uzoraka treba procijeniti µ 1 , . . . , µ k , Σ. U tu svrhu koristimo
MANOVA-u
k
1 X
bi = yi , Σ
µ b=S= (ni − 1)Si , n = n1 + . . . + nk .
n − k i=1

Treba minimizirati funkciju


b i (Y ) = (Y − yi· )> S −1 (Y − yi· ) = Y > S −1 Y − 2y>
i 7→ D i· S
−1
Y + y>
i· S
−1
yi· ,

što je ekvivalentno minimiziranju funkcije


b i (Y ) = −2y>
i 7→ K i· S
−1
Y + y>
i· S
−1
yi·

koja je linearna po Y (baza linearne diskriminacijske metode).

Napomena. Ova se metoda zove linearna diskriminacijska metoda. Ta je metoda


robusna na odstupanja od normalnosti, tj. činjenica da prava populacija nije normalna
neće utjecati na metodu, neosjetljiva je na promjene u pretpostavkama.
Tako, na primjer, kod deskriptivnih statistika, aritmetička sredina nije robustan proc-
jenitelj za matematičko očekivanje (na nju jako utječu promjene ekstremnih vrijednosti
u uzorku), dok je medijan robustan procjenitelj za matematičko očekivanje.

42
2.2 Linearne diskriminacijske koordinate
Koordinatni se sustav u Rq transponira na način da se uzorci iz raznih populacija na
neki način maksimalno separiraju u svakoj koordinati. Drugim riječima, treba naći takve
linearne kombinacije komponenata opservacija koje ih maksimalno separiraju od ostalih
grupa populacija. U tu svrhu koristimo jednofaktorski MANOVA model
 
1n1  
µ>
1
 1n2 
 . 
Y = XB + E, X =   , B =  ..  , (2.1)
 
. .
 .  >
µk
1nk

uz vec(E) ∼ Nnq (0, Σ ⊗ In ), Σ > 0.


Za bilo koji vektor y = (y1 , . . . , yq )> ∈ Rq prva se linearna diskriminacijska koordinata
definira kao skalarni produkt
y> a1 ,
gdje se vektor a1 ∈ Rq bira na način da uzorak iz jednodimenzionalnog jednofaktorskog
ANOVA modela
Ya1 = X(Ba1 ) + Ea1 (2.2)
ima maksimalnu moguću vrijednost pripadne F -statistike za testiranje uobičajene nul-
hipoteze o jednakosti očekivanja (maksimizacija F -statistike znači dobivanje najmanje
p-vrijednosti). Ta je statistika (do na faktor koji ne utječe na maksimizaciju)

(Ya1 )> H − n1 1n 1>



n Ya1 a>
1 P a1
F (a1 ) = >
= >
, (2.3)
(Ya1 ) (I − H)Ya1 a1 Ga1
uz
1
1 1>
 
n1 n1 n1
H=
 ..  , n = n1 + . . . + nk ,

.
1
1 1>
nk nk nk

gdje su P i G odgovarajuća hipoetzna i pogreškovna statistika za nul-hipotezu jednakosti


očekivanja u MANOVA modelu.
Druga linearna diskriminacijska koordinata, y> a2 , bira se na način da se maksimizira
izraz
a>2 P a2
F (a2 ) = >
a2 Ga2
uz uvjet a> >
1 Ga2 = 0, tj. da je a2 ⊥ a1 u odnosu na skalarni produkt hx, yi := y Gx.
Sjetimo se,
k
1 X
G=S= (ni − 1)Si .
n − k i=1

Općenito, k-ta linearna diskriminacijska koordinata, y> ak , je ona koja maksimizira izraz

a>
k P ak
F (ak ) = >
ak Gak

uz uvjet da je ak ⊥ a1 , . . . , ak−1 u odnosu na skalarni produkt h·, ·i.

43
Linearne diskriminacijske koordinate ne moraju biti jedinstvene. Madutim, ako uvedemo
dodatni uvjet da su a1 , a2 , . . . , aq normirani vektori, tj. a> i Gai = 1, i = 1, . . . , q (dakle,
q
{a1 , . . . , aq } je ortonormirana baza za R u odnosu na h·, ·i), tada će te koordinate biti
jedinstvene.
−1
 Pokazat ćemo da su a1 , . . . , aq svojstveni vektori matrice G P . Ako stavimo A =
a1 a2 · · · aq ∈ Mq , tada je s
   
Y1·> A Y1·> a1 Y1·> a2 · · · Y1·> aq
YA =  ...  =  ... .. .. .. 
  
. . . 
> > > >
Yn· A Yn· a1 Yn· a2 · · · Yn· aq

dana matrica uzorka u linearnim diskriminacijskim koordinatama.

Lema 2.1. Neka je G simetrična, pozitivno definitna, a P bilo koja simetrična matrica,
obje reda q. Tada postoji dijagonalna matrica Λ i i matrica A, obje reda q, tako da vrijedi

G−1 P A = AΛ, A> GA = I.


 
Napomena. Uz A = a1 a2 · · · aq ∈ Mq , imamo
 
a>1
I = A> GA =  ...  G a1 a2 · · · aq
   

a>q
 
a1 > Ga1 a1 > Ga2 · · · a1 > Gaq
= .. .. .. ..
,
 
. . . .
aq > Ga1 aq > Ga2 · · · aq > Gaq

što je Grammova matrica. Dakle, druga relacija kaže da su stupci matrice A ortonormi-
rana baza za Rq u odnosu na skalarni produkt h·, ·i. Prva relacija kaže da su stupci od
A svojstveni vektori od G−1 P kojima odgovaraju korespondentni elementi na dijagonali
od Λ kao svojstvene vrijednosti.
1 1
Dokaz leme 2.1. Budući da je matrica G− 2 P G− 2 simetrična, ona se može ortogonalno
dijagonalizirati, tj. postoje ortogonalna matrica B i dijagonalna matrica Λ takve da
1 1 1
G− 2 P G− 2 B = BΛ. Stavimo A := G− 2 B i računamo
1 1 1 1
G−1 P A = G− 2 G− 2 P G− 2 B = G− 2 BΛ = AΛ,
1 1
A> GA = B > G− 2 GG− 2 B = B > B = I.

Korolar 2.2. Ako za kvadratnu matricu A vrijedi A> GA = I, tada je G−1 = AA> .

Dokaz. Iz (A> G)A = I slijedi da je A invertibilna, tj. regularna i A−1 = A> G. Zato je i
A> regularna, pa iz A−1 = A> G slijedi i da je G regularna. Odavde slijedi

A−1 = A> G ⇒ A = G−1 (A> )−1 ⇒ G−1 = AA> .

44
Teorem 2.3. Neka je G pozitivno definitna simetrična matrica, a P simetrična, obje
reda q. Tada vektori a1 , a2 , . . . , aq ∈ Rq zadovoljavaju uvjete

a>
1 P a1 a> P a
(I) (I1) = max ,
a>
1 Ga1
a a> Ga

(I2) za svaki i > 2, i 6 q, vrijedi da je a>


i Gaj = 0, za svaki j 6 i − 1, i

a>
 > 
i P ai a Pa >
= max : a Gaj = 0, j 6 i − 1 ,
a>
i Gai a> Ga

ako i samo ako zadovoljavaju uvjet

(II) za svaki i = 1, . . . , q, (ai , φi ) je svojstveni par od G−1 P , pri čemu su φ1 > φ2 >
. . . > φq i vrijedi a>
i Gaj = 0 za i 6= j.

Dokaz. Prema lemi 2.1 postoje svojstveni parovi (a1 , φi ), i = 1, 2, . . . , q, matrice G−1 P
−1 >
i uzmimo da je φ1 > φ2 >  . . . > φq . Tada
 G P A = AΛ, A GA = I za matrice
Λ = diag(φ1 , . . . , φq ) i A = a1 a2 · · · aq . Uočimo:

1◦ Za a 6= 0 želimo maksimizirati funkciju

a> P a
F (a) := .
a> Ga
Ako je A regularna matrica i a 6= 0, onda je c := A−1 a 6= 0. Definirajmo sada
funkciju

c> A> P Ac c> A> GG−1 P Ac


G(c) := F (Ac) = =
c> A> GAc |c|2
q
X 2
φj c(j)
c> (A> GA)Λc c> Λc j=1
= 2
= 2
= q .
|c| |c| X
(j) 2

c
j=1

Dakle, ako F ima ekstrem u točki a, onda G ima ekstrem u točki c = A−1 a.
Obratno, ako G ima ekstrem u točki c, onda F ima ekstrem u točki a = Ac.

2◦ Pogledajmo vektore a0 , a00 i računajmo


 0
c = A−1 a0

0> 00>
a Ga = = c0> A> GAc00 = c0> c00 .
c00 = A−1 a00

Dakle, a1 , . . . , aq su ortogonalni u odnosu na skalarni produkt hb, di := b> Gd


ako i samo ako su vektori c1 = A−1 a1 , . . . , cq = A−1 aq ortogonalni u odnosu na
standardni skalarni produkt (b, d) := b> d.

3◦ (a, φ) je svojstveni par od G−1 P ako i samo ako je (A−1 a, φ) svojstveni par od Λ.

⇒ G−1 P a = φa
⇒ Λc = A−1 (AΛ)c = A−1 G−1 P Ac = A−1 G−1 P a = A−1 φa = φA−1 a = φc

45
⇐ Λc = φc ⇒ G−1 P a = G−1 P Ac = φA−1 a = φc

Dakle, dovoljno je dokazati tvrdnju ekvivalentnu tvrdnji teorema: vektori c1 , . . . , cq ∈ Rq


zadovoljavaju sljedeće uvjete:
c>
1 Λc1 c> Λc
(I1’) = max ,
c>
1 c1
c c> c
(I2’) za i > 2, c>
i cj = 0 za j = 1, 2, . . . , i − 1, i

c>
 > 
i Λci c Λc >
= max : c cj = 0, j = 1, 2, . . . , i − 1 ,
c>
i ci c> c

ako i samo ako


(II’) za svaki i ∈ {1, 2, . . . , q}, (ci , φi ) je svojstveni par za Λ, gdje su φ1 > φ2 > . . . > φq .
Dokaz provodimo matematičkom indukcijom po i.
Baza indukcije: za i = 1,
q
X 2
φj c(j)
c> Λc j=1
>
= q 6 φ1
c c X
(j) 2

c
j=1

q
X 2
⇔ (φj − φ1 ) c(j) 6 0.
j=1
q
X 2
Jednakost je ispunjena za 0 = (φj − φ1 ) c(j) . Ako je φ1 = . . . = φs > φs+1 > . . . >
j=1
φq , tada je jednakost ispunjena ako je c(s+1) = . . . = c (q) = 0, a c(1) , . . . , c(s) bilo koje
realne vrijednosti. Stavimo c1 := c(1) , . . . , c(s) , 0, . . . , 0 . Imamo

c(1) φ1 c(1)
    
φ1
..
.   ..   ..
 .   .
 
 
  (s)  
φ1   c   φ1 c(s)
 
Λc1 =  =  = φ1 c1 ,
 
φs+1  0   0

 
 ..  .   . 
 .   ..   .. 
φq 0 0

tj. (c1 , φ1 ) je svojstveni par od Λ. Obratno, ako je Λc1 = φ1 c1 , c1 6= 0, tada je

c>
1 Λc1 c>
1 φ1 c1 |c1 |2
= = φ1 = φ1 .
c>
1 c1 c>1 c1 |c1 |2
Korak indukcije: pretpostavimo da tvrdnja vrijedi za svaki i < h, tj. vektori c1 , . . . , ch−1
su takvi da vrijedi (I1’) i (I2’) za sve i = 1, 2, . . . , h − 1 ako i samo ako je Λci = φi ci za
i = 1, 2, . . . , h − 1 i c>
i cj = 0 za sve i 6= j koji nisu veći od h − 1. Uvedimo i dodatne
pretpostavke indukcije

46
(j)
(i) za i < h, φi > φj povlači ci = 0,

(ii) ako za svaki i = 1, . . . , h − 1 vrijedi c> ci = 0 i φj > φh , onda je c(j) > 0.

Uočimo da je prva pretpostavka ispunjena za c1 , dok je druga pretpostavka trivijalno


ispunjena jer se ne odnosi na c1 . Treba dokazati da vrijedi

c>
 > 
h Λch c Λc >
= max : c c : j = 0, j = 1, 2, . . . , h − 1
c>
h ch c> c

ako i samo je (ch , φh ) svojstveni par od Λ i c>


i ch = 0, i = 1, 2, . . . , h − 1, te da vrijedi (i)
za i 6 h i (ii) za h + 1.
Pretpostavka (ii) povlači da ako je c ⊥ c1 , . . . , ch−1 , onda
q
X 2
φj c(j)
c> Λc j=h
>
= q 6 φh .
c c X
(j) 2

c
j=h

Neka su sada r i s takvi da je r 6 h 6 s i φr−1 > φr = . . . = φh = . . . = φs > φs+1 osim


ako je r = 1 ili s = q. Tada jednakost u gornjoj nejednakosti vrijedi ako i samo ako je
q
X 2
0= (φj − φh ) c(j)
j=h

⇔ c(j) = 0, j = s + 1, . . . , q
⇔ c(j) = 0, φj > φh .
Neka je ch 6= 0 takav vektor. Za njega vrijedi
 
0

φ1
..  .. 

 .  . 
 0 

φr−1

 
 (r)

φr ch 

 
 ...  
..  = φ c .
Λch = 


 .  h h
 (s) 


 φs  ch 
φs+1 
0 

 
..  

.  .. 
  . 
φq 0

Obrat pokazujemo analogno kao u bazi indukcije.


Preostaje pokazati da (i) i (ii) vrijede za i = h. (i) očito vrijedi iz konstrukcije ch .
Za dokazati (ii) treba pokazati da ako c> ci = 0 za sve i = 1, . . . , h i φj > φh+1 , onda
c(j) = 0. Ekvivalentno, treba pokazati da ako je h < s, onda c(1) = . . . = c(r−1) = 0,
a ako je h = s, onda c(1) = . . . = c(s) = 0. Ako je h < s, tvrdnja slijedi iz induktivne
pretpostavke. U slučaju h = s, pretpostavke indukcije (i) i (ii) te prethodna razmatranja
daju

47
(s+1) (q)
1. ci = . . . = ci = 0 za i = r, . . . , s,

2. c(1) = . . . = c(r−1) = 0.

Definiramo
(r) (s)
di := (ci , . . . , ci ), d := (c(r) , . . . , c(s) ).
Tada je c> ci = 0 ako i samo ako je d> di = 0 za i = r, . . . , s. Kako je dr , . . . , ds
ortogonalna baza za Rs−r+1 , nužno slijedi da je d ≡ 0 pa je c(r) = . . . = c(s) = 0.
Iz teorema slijedi da je nalaženje linearnih diskriminacijskih koordinata ekvivalentno
nalaženju matrice A takve da

G−1 P A = AΛ, A> GA = I, Λ = diag(φ1 , . . . , φq ).

Transformirani su podatci
Z = YA
(isti podatci u n linearnih diskriminacijskih koordinata). Sjetimo se, cov(Y ) = Σ. Za
transformirane je podatke procjena kovarijacijske matrice

c > Y ) = A> GA = I
(n − k)cov(A

(s linearnim diskriminacijskim podatcima smo problem sveli na nezavisnu strukturu).


Ako imamo k nezavisnih grupa, tada barem k − 1 koordinata služi za diskriminaciju
grupa. Ako je k 6 q, tada neke koordinate neće utjecati na diskriminaciju. Sjetimo se,
   
> 1 > 1 >
P = Y H − 11 Y, r H − 11 = k − 1,
n n

pa r(P ) 6 min{q, k − 1}.


Svaki izbor linearnih diskriminacijskih koordinata odgovara
 skupu svojstvenih vektora
matrice G−1 P . Zapišimo A = a1 · · · aq i stavimo A = A∗ A0 , gdje stupci bloka
  

A∗ odgovaraju svojstvenim vektorima pridruženim svojstvenim vrijednostima različitima


od nule, dok stupci bloka A0 odgovaraju svojstvenim vektorima pridruženima svojstvenoj
vrijednosti 0.

Lema 2.4. P A0 = 0.

Dokaz. Iz G−1 P A = AΛ imamo

G−1 P
   
A ∗ A0 = A∗ A 0 Λ,

tj. G−1 P A0 = 0, pa P A0 = 0 jer je G regularna matrica.


Dakle, ako je ah stupac matrice A0 , tada je

a>
h P ah
>
= 0.
ah Gah

Stoga, ukoliko su podatci transformirani u h-tu diskriminacijsku koordinatu, Y ah , tada


je u jednofaktorskom MANOVA modelu vrijednost F statistike za testiranje razlike medu
grupama jednaka 0. Iz ovoga vidimo da ah ne može diskriminirati grupe.

48
Kako pomoću linearnih diskriminacijskih koordinata možemo alocirati nove opser-
vacije? Pretpostavimo da koristimo prvih s 6 q koordinata za diskriminaciju i stavimo
 
As := a1 a2 · · · as .

Standardno pravilo alokacije jest da opservaciju y alociramo populaciji r ako je

(y − Y r· )> As A> > >


s (y − Y r· ) = min (y − Y i· ) As As (y − Y i· ).
16i6k

Uočimo,
s
X
>
(y − Y i· ) As A >
s (y − Y i· ) = ((y − Y i· )> aj )2 .
j=1

Ukoliko je s = q, tada je As = A, As A> s = AA


>
= G−1 . U tom se slučaju alokacija
pomoću linearnih diskriminacijskih koordinata svodi na alokaciju pomoću Mahalanobiusove
udaljenosti. Dokazat ćemo da je to inače ekvivalentno ako uzmemo samo svojstvene vri-
jednosti koje doprinose alokaciji.
Lema 2.5. Ako je k − 1 < q (tj. As = A∗ i s < q), tada je za svaki i ∈ {1, 2, . . . , k}

(Y i· − Y )> A0 = 0.

Skica dokaza. Imamo


k
X
>
P = Y (H − H0 )Y = nj (Y j· − Y )(Y j· − Y )>
j=1
 √

n1 (Y 1· − Y )
 √ √  ..
= n1 (Y 1· − Y ) · · · nk (Y k· − Y )  .

.

n1 (Y k· − Y )

Može se pokazati da je
 √ √ 
L(P ) = L n1 (Y 1· − Y ) · · · nk (Y k· − Y ) .

Specijalno, za i ∈ {1, 2, . . . , k} imamo Y i· − Y ∈ L(P ), pa postoji d ∈ Rq takav da


Y i· − Y = P d. Prema lemi 2.4 slijedi

0 = A> > >


0 P d = A0 P d,

a kako je A> >


0 P d = A0 (Y i· − Y ), vrijedi tvrdnja.

Propozicija 2.6. Ako je k − 1 < q, tada za svaki y ∈ Rq vrijedi

(y − Y i· )> G−1 (y − Y i· ) = (y − Y i· )> A∗ A> > >


∗ (y − Y i· ) + (y − Y ) A0 A0 (y − Y ).

Dokaz. Iz korolara 2.2 slijedi


A>
 
−1 > ∗
= A∗ A > >
 
G = AA = A∗ A 0 ∗ + A 0 A0 ,
A>
0

pa imamo

(y − Y i· )> G−1 (y − Y i· ) = (y − Y i· )> A∗ A> > >


∗ (y − Y i· ) + (y − Y i· ) A0 A0 (y − Y i· ),

49
i vidimo da je dovoljno pokazati A> >
0 (y − Y i· ) = A0 (y − Y ). Vrijedi

A> >
0 (y − Y i· ) = A0 (y − Y − Y i· + Y )
= A> >
0 (y − Y ) − A0 (Y i· − Y ),

a kako je prema lemi 2.5 A>


0 (Y i· − Y ) = 0, slijedi tvrdnja.

Dakle, alokacija pomoću linearnih diskriminacijskih koordinata koje odgovoraju ne-nul


svojstvenim vrijednostima ekvivalentna je alokaciji pomoću Mahalanobiusove udaljenosti.

50
2.3 Glavne komponente
Pretpostavimo da imamo opservaciju Y ∈ Rq , pri čemu je q velik broj. Kako reducirati
dimenziju te opservacije, a da imamo dovoljno informacija za donošenje relevantnih za-
ključaka? Redukcijom se gubi dio informacija o opservaciji pa bismo htjeli minimizirati
taj gubitak. Jedan razuman pristup je sljedeći: odaberemo malen broj linearnih kom-
binacija komponenti od Y tako da imaju sposobnost reproducirati sve komponente od
Y (tj. što veći broj komponenti). Dakle, želimo kreirati mali broj novih varijabli koje
imaju svojstvo da u nekom smislu najbolje predvidaju originalne varijable. Analiza
glavnih komponenti (PCA1 ) pronalazi linearne kombinacije originalnih varijabli koje
su najbolji linearni predviditelji (prediktori) svih originalnih varijabli.
Neka su Y = (Y1 , . . . , Yq )> , X = (X1 , . . . , Xp−1 )> zadani slučajni vektori čije kompo-
nente imaju konačnu varijancu. Označimo
µ Y = EY, µ X = EX,
:= cov(Y, X) := E (Y − µ Y )(X − µ X )> .
 
VY X
Vrijedi cov(Y, X)> = cov(X, Y ), tj. VY>X = VXY . Takoder, stavimo
cov(Y ) ≡ cov(Y, Y ) =: VY Y ,
cov(X) ≡ cov(X, X) =: VXX .
Definicija 2.7. Najbolji linearni prediktor od Y uz dano X je q-dimenzionalni
>
slučajni vektor Yb koji je afina funkcija od X, tj. Yb = βb X + α
b , tako da
 >  
> >
 h > i
E Y − βb X − α b Y − βb X − αb = minq E Y − β > X − α Y − β >X − α .
α ∈R
β ∈Mp−1,q

U oznaci, Yb = P [Y | X].
Sjetimo se, na (Hilbertovom) prostoru L2 su skalarni produkt i norma dani s
p
hU, V i := E(U, V ) = E U > V , kU k = hU, U i.
 

Zato uvjet iz gornje definicije možemo zapisati kao


>
kY − βb X − α
bk = minq kY − β > X − α k,
α ∈R
β ∈Mp−1,q

pa vidimo kako najbolji linearni prediktori predstavljaju svojevrsno poopćenje metode


najmanjih kvadrata.
Zadatak 2.3.1. Pokažite da je
b> (X − µX ),
Yb = P [Y | X] = µY + β

gdje je β
b (bilo koje) rješenje jednadžbe

VXX β = VXY .
Ukoliko je VXX pozitivno definitna (tj. regularna), tada je
−1
βb = VXX VXY .
1
Principal Component Analysis

51
Od sada pa nadalje pretpostavljamo da je ispunjen drugi uvjet gornjeg zadatka.
Takoder, uočimo da za vektor očekivanja i kovarijacijsku matricu najboljeg linearnog
prediktora vrijedi

>
h i
E [P [Y | X]] = E µ Y + βb (X − µ X )
>
= µ Y + βb 0
= µY
= EY,

>
 
cov (P [Y | X]) = cov µ Y + β (X − µ X )
b
 > 
= cov βb X
>
= βb cov(X)βb
> −1 −1
= VXY VXX VXX VXX VXY
−1
= VY X VXX VXY ,

i nadalje,
>
 
cov (Y − P [Y | X]) = cov Y − µ Y − β (X − µ X )
b
>
 
= cov Y − βb X
> > > >
= cov(Y, Y ) − cov(Y, βb X) − cov(βb X, Y ) + cov(βb X, βb X)
= cov(Y, AX) = cov(Y, X)A> , cov(BY, X) = B cov(Y, X)
 
> >
= VY Y − VY X βb − βb VXY + βb VXX βb
−1 −1 −1
= VY Y − VY X VXX VXY − VY X VXX VXY + VY X VXX VXX VXX VXY
= cov(Y ) − cov (P [Y | X]) ,

što je svojevrsna generalizacija rastava varijance iz jednodimenzionalnog slučaja.


Iz definicije problema slijedi da je P [· | X] ortogonalni projektor na potprostor

α + β > X : α ∈ Rq , β ∈ Mp−1,q }

od L2 svih q-dimenzionalnih slučajnih vektora čije komponente imaju konačne varijance.


Automatski slijedi da je P [· | X] linearni operator te da je

α + β > X | X] = α + β > X.
P [α

Specijalno je
P [X >θ | X] = X >θ , θ ∈ Rp−1 .

Propozicija 2.8. Za svaku regularnu matricu A ∈ Mp−1 i svaki vektor a ∈ Rp−1 vrijedi

P [Y | AX + a] = P [Y | X].

52
Dokaz. Uz pretpostavku VXX > 0 računamo
−1
P [Y | AX + a] = µ Y + VY,AX+a VAX+a,AX+a A(X − µ X ).

Imamo

VAX+a,AX+a = cov(AX + a, AX + a) = cov(AX, AX) = A cov(X, X)A> > 0,

VY,AX+a = VY X A> ,
pa slijedi
−1 −1 −1
P [Y | AX + a] = µ Y + VY X A> A> VXX A A(X − µ X ) = P [Y | X].

Propozicija 2.9. Ako je cov(Y, X) = 0, tada je P [Y | X] = EY .

Dokaz. Uz pretpostavku VXX > 0 i VY X = 0 (pretpostavka propozicije) imamo


−1
P [Y | X] = µ Y + VY X VXX (X − µ X ) = µ Y .

Zadatak 2.3.2. Ako je


     
Y µY VY Y VY X
∼ Np+q−1 , ,
X µX VXY VXX

pokažite da tada vrijedi

(a) P [Y | X] = E[Y | X],

(b) uvjetna distribucija od Y uz dano X je Nq (P [Y | X], cov(Y − P [Y | X])).

Pretpostavimo  
Y1
Y = .
Y2
Imamo    
Y1 V11 V12
cov(Y ) = cov = ,
Y2 V21 V22
gdje je Vij = cov(Yi , Yj ), i, j ∈ {1, 2}. Označimo još
>
cov(Yi , X) = ViX , VXi = ViX , EYi = µ i , i = 1, 2.

Propozicija 2.10. Ako je cov(Y, X) = 0, onda


  
Y1
P Y2 = P [Y2 | X] + P [Y2 | Y1 ] − µ 2 .
X

53
Dokaz. Računamo
  
Y1
= E (Y2 − µ 2 ) (Y1 − µ 1 )> (X − µ X )>
  
cov Y2 ,
X
= E (Y2 − µ 2 )(Y1 − µ 1 )> (Y2 − µ 2 )(X − µ X )>
 
 
= V21 V2X ,
       
Y1 Y1 V11 V1X V11 0
cov , = = .
X X VX1 VXX 0 VXX
Ako je VXX > 0 i V11 > 0,
    
Y1
3 V2−1 Y1 − µ 1
P Y2
= µ2 + V 2
Y1
32 3
X Y
Y1 5 4 Y 1 5 X − µx
2 ,4 5 4 ,
X X X
 −1  
  V11 0 Y1 − µ 1
= µ2 + V21 V2X
0 V −1 X − µX
 −1 XX 
  V11 (Y1 − µ 1 )
= µ2 + V21 V2X −1
VXX (X − µ X )
−1
= µ 2 + V21 V11−1 (Y1 − µ 1 ) + V2X VXX (X − µ X ) + µ 2 − µ 2
= P [Y2 | Y1 ] + P [Y2 | X] − µ 2 .

Označimo vektore reziduala:

e(Y | X) := Y − P [Y | X].

Lema 2.11. cov(e(Y1 | X), X) = 0.


Dokaz.
cov(e(Y1 | X), X) = cov(Y1 − P [Y | X], X)
−1

= cov Y1 − µ 1 − V1X VXX (X − µ X ), X
−1

= cov Y1 − V11 VXX X, X
−1
= cov(Y1 , X) − V11 VXX cov(X, X)
−1
= V1X − V1X VXX VXX
= 0.

Propozicija 2.12.
  
Y1
P Y2 = P [Y2 | X] + cov(Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 e(Y1 | X).
X

Dokaz. Imamo
      
Y1 − P [Y1 | X] I B Y1 Y1
= +a=A + a,
X 0 I X X
| {z }
A

54
za konkretnu matricu B (odn. A) i vektor a. Kako je prema propoziciji 2.8
P [Y | AX + a] = P [Y | X],
slijedi
     
Y1 e(Y1 | X) 2.10
P Y2 = P Y2 = P [Y2 | X] + P [Y2 | e(Y1 | X)] − µ 2 ,
X X
pri čemu se možemo pozvati na propoziciju 2.10 jer po lemi 2.11 vrijedi
cov(e(Y1 | X), X) = 0.

Propozicija 2.13.
    
Y1
cov Y2 − P Y2 = cov (Y2 − P [Y2 | X])
X
− cov(Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 cov(e(Y1 | X), Y2 ).
Dokaz. Znamo da je P [Y2 | X] afina funkcija od X, tj. možemo pisati P [Y2 | X] =
β > X − α za konkretne β ∈ Mp−1,q , α ∈ Rq . Sada zbog leme 2.11 imamo
2.11
cov(P [Y2 | X], e(Y1 | X)) = cov(β
β X + α , e(Y1 | X)) = β cov(X, e(Y1 | X)) = 0.
Odavde kao posljedicu dobivamo
cov(e(Y2 | X), e(Y1 | X)) = cov(Y2 , e(Y1 | X))−cov(P [Y2 | X], e(Y1 | X)) = cov(Y2 , e(Y1 | X)).
Transponiranjem ove jednakosti slijedi još i cov(e(Y1 | X), e(Y2 | X)) = cov(e(Y1 | X), Y2 ).
Sada računamo
    
Y1 2.12
= cov Y2 − P [Y2 | X] − cov(Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 e(Y1 | X)

cov Y2 − P Y2
X
= cov e(Y2 | X) − cov(Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 e(Y1 | X)


= cov(e(Y2 | X))
− cov e(Y2 | X), cov(Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 e(Y1 | X)


− cov cov(Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 e(Y1 | X), e(Y2 | X)




+ cov cov(Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 e(Y1 | X)




= cov(e(Y2 | X))
− cov (e(Y2 | X), e(Y1 | X)) cov(e(Y1 | X))−1 cov (e(Y1 | X), Y2 )
| {z }
=cov(Y2 ,e(Y1 |X))

− cov (Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 cov (e(Y1 | X), e(Y2 | X))
| {z }
=cov(e(Y1 |X),Y2 )
−1
+ cov (Y2 , e(Y1 | X)) cov(e(Y1 | X)) ·
· cov(e(Y1 | X)) cov(e(Y1 | X))−1 cov (e(Y1 | X), Y2 )
| {z }
=I
= cov(e(Y2 | X))
− cov (Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 cov (e(Y1 | X), Y2 )
− cov (Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 cov (e(Y1 | X), Y2 )
+ cov (Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 cov (e(Y1 | X), Y2 )
= cov(e(Y2 | X)) − cov (Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 cov (e(Y1 | X), Y2 ) .

55
Propozicija 2.14. cov(Y, Y − P [Y | X]) = cov(Y − P [Y | X]).
Dokaz. Budući da je P [Y | X] afina funkcija od X, analogno kao i na početku dokaza
propozicije 2.13 zaključujemo da vrijedi cov(P [Y | X], Y − P [X | X]) = 0. Sada imamo

cov(Y −P [Y | X]) = cov(Y, Y −P [Y | X])−cov(P [Y | X], Y −P [Y | X]) = cov(Y, Y −P [Y | X]).

Neka je Y = (Y1 , . . . , Yq )> q-dimenzionalni slučajni vektor. Želimo naći nove koordi-
nate
a> > >
1 Y, a2 Y, . . . , aq Y

tako da imaju neka odredena svojstva.


Pretpostavimo EY = µ, cov(Y ) = Σ > 0. Koordinatni vektori a1 , . . . , aq biraju se
tako da su ortogonalni u odnosu na skalarni produkt ha, bi := b> Σa = (Σa, b), tj.

a>
i Σaj = 0, i 6= j.

Odavde za i 6= j slijedi

cov a> > > >



i Y, aj Y = ai cov(Y, Y )aj = ai Σaj = 0,

tj. nove komponente nisu korelirane. Nadalje, koordinate se biraju tako da sekvencijalno
daju optimalnu predikciju od Y (uz dani uvjet ortogonalnosti). Prema tome, a1 se bira
tako da
kY − P [Y | a> >
1 Y ]k = min kY − P [Y | a Y ]k,
a6=0

a za i > 1, ai se bira tako da a>


i Σaj = 0 za j = 1, 2, . . . , i − 1 te

kY − P [Y | a> > q >


i Y ]k = min{kY − P [Y | a Y ]k : a ∈ R \ {0}, a Σaj = 0, j = 1, . . . , i − 1}.

Primijetimo,

kY − P [Y | a> Y ]k2 = E (Y − P [Y | a> Y ])> (Y − P [Y | a> Y ])


 

= tr E (Y − P [Y | a> Y ])> (Y − P [Y | a> Y ])


 

= E tr (Y − P [Y | a> Y ])> (Y − P [Y | a> Y ])


 

= E tr (Y − P [Y | a> Y ])(Y − P [Y | a> Y ])>


 

= tr E (Y − P [Y | a> Y ])(Y − P [Y | a> Y ])>


 

= tr cov(e(Y | a> Y )) .


Definirajmo sada preslikavanje a 7→ Va := cov(e(Y | a> Y )). Za zadane a1 , . . . , ar−1


želimo naći ar tako da
a>r Σaj = 0, j = 1, . . . , r − 1,

tr(Var ) = min{tr(Va ) : a> Σaj = 0, j = 1, . . . , r − 1}.


Uočimo,

Va = cov(e(Y | a> Y )) = VY Y − VY,a> Y Va−1


> Y,a> Y Va> Y,Y

−1 >
= Σ − Σa a> Σa

a Σ,

56
1
tr(Va ) = tr Σ − tr(Σaa> Σ)
a> Σa
1
= tr Σ − · a> Σ2 a
a> Σa
a> Σ2 a
= tr Σ − .
a> Σa
Dakle, minimizacija funkcije a 7→ tr(Va ) ekvivalentna je maksimizaciji funkcije
a> Σ2 a
a 7→ ,
a> Σa
tj. treba naći vektore a1 , . . . , aq ∈ Rq takve da
a> 2
1 Σ a1 a> Σ2 a
(i) = max ,
a>1 Σa1 a6=0 a> Σa

(ii) za i > 1, a>


i Σaj = 0, j = 1, . . . , i − 1, te

a> 2
 > 2 
i Σ ai a Σa >
= max : a Σaj = 0, j = 1, . . . , i − 1 ,
a>i Σai a> Σa

što je po teoremu 2.3 ekvivalentno tome da su a1 , . . . , aq svojstveni vektori od Σ koji


odgovaraju padajućem nizu svojstvenih vrijednosti φ1 > φ2 > . . . > φq > 0 i a1 , . . . , aq
su medusobno ortogonalni u odnosu na skalarni produkt h·, ·i.
Izračunajmo koliko dobro svaka od koordinata a>
i Y predvida Y :

a> 2
i Σ ai
tr(Vai ) = tr Σ −
a> i Σai
φ |ai |2
2
= tr Σ − i 2
φi |ai |
= tr Σ − φi
= φ1 + . . . + φq − φi ,
pri čemu u posljednjoj jednakosti koristimo činjenicu da su tragovi sličnih matrica medusobno
jednaki, a matrica Σ je slična matrici diag{φ1 , . . . , φq }.
Izračunajmo
 kolika
 je predvidivost prvih r glavnih komponenti, 1 6 r 6 q. Uz
Ar := a1 · · · ar imamo ΣAr = Ar Λr , gdje je Λr = diag{φ1 , . . . , φr }. Sada je
top
tr cov e Y | a> >
  
1 Y · ar Y = tr cov e(Y | A r Y )
= tr cov Y − P [Y | A>

r Y]
 −1 > 
= tr Σ − ΣAr A> r ΣA r Ar Σ
 −1 > 2 
= tr Σ − tr A> r ΣA r Ar Σ A r
 −1 > 
>
= tr Σ − tr Ar ΣAr Ar ΣAr Λr
= φ1 + . . . + φq − (φ1 + . . . + φr )
= φr+1 + . . . + φq .
Dakle, prvih r komponenti dobro predvida Y ukoliko je omjer
tr cov e(Y | A>

r Y) φr+1 + . . . + φq
=
tr(cov Y ) φ1 + . . . + φr + φr+1 + . . . + φq

57
vrlo mali (u praksi, ako nije veći od 0.2 za q vrlo velik i r 6 3 - predvidivost bi u
tom slučaju bila 1 − 0.2 = 0.8, tj. 80% ukupne varijabilnosti obuhvaćeno je s prve 3
komponente).
Može se pokazati da prvih r glavnih komponenti ima najbolju prediktivnu vrijednost
medu svim r-koordinatama u Rq . Naime, neka je B ∈ Mq,r bilo koja matrica ranga r.
Tada vrijedi
cov(Y − P [Y | B > Y ]) = Σ − Σ(BΣB)−1 B > Σ
1
 1 1
 1
= Σ 2 I − Σ 2 B(BΣB > )−1 B > Σ 2 Σ 2
1
  1
= Σ 2 I − HL(Σ 21 B) Σ 2 .

Može se pokazati da vrijedi


q
X
>
tr(cov(e(Y | B Y ))) > φj , (2.4)
j=r+1

pa predvidanje glavnim komponentama daje najmanju vrijednost kriterijske funkcije.


Zadatak 2.3.3. (a) Neka su φ1 > φ2 > . . . > φq svojstvene vrijednosti od Σ i v1 , . . . , vq
ortonormirani vektori u Rq . Dokažite
q r r
X X X
(a1) φj 6 vj> Σvj 6 φj ,
j=q−r+1 j=1 j=1
q r
X X
(a2) φj 6 tr(HΣ) 6 φj , za bilo koji ortogonalni projektor H ranga
j=q−r+1 j=1
r > 0.
(b) Dokažite nejednakost (2.4).
Postoje ekvivalentni izvodi glavnih komponenti, a time i njihove interpretacije (npr.
maksimizacija odredenih varijanci). U našem su izvodu glavne komponente dobivene
minimizacijom funkcije
q q
X X
> >
a 7→ tr(cov(YP [Y | a Y ])) = Var(Yj − Pj [Y | a Y ]) = Var(Yj − P [Yj | a> Y ]).
j=1 j=1

Varijance pojedinih komponenti mogu biti nesumjerljive, što može dovesti do grešaka.
Nadalje, odabir glavnih komponenti ovisi i o mjernoj skali. Taj se problem izbjegava
1 1
tako da se umjesto kovarijacijske matrice Σ uzme korelacijska matrica D− 2 ΣD− 2 , gdje
je  
σ11
 σ22 
D = diag(Σ) =   , Σ = [σij ].
 
. .
 . 
σqq
Na taj način umjesto varijabli Y = (Y1 , . . . , Yq )> gledamo njihove standardizirane vrijed-
nosti,
 >
− 21 1 1
Z = D Y = √ Y 1 , . . . , √ Yq .
σ11 σqq

58
Tada je  
− 12 1 1 1 1
cov(Z) = cov D Y = D− 2 cov(Y )D− 2 = D− 2 ΣD− 2 .
Kako odrediti glavne komponente ako Σ nije poznata, ali imamo slučajan uzorak
duljine n od Y ,  
Y1>
Y =  ... ?
 
Yn>
Tada kao procjenu kovarijacijske matrice, Σ,
b možemo uzeti uzoračku kovarijacijsku ma-
tricu n
1 X
S= (Yi − Y )(Yi − Y )>
n − 1 i=1
ili uzoračku korelacijsku matricu
1 1
R = diag(S)− 2 Sdiag(S)− 2 .
 
Takoder, stavljanjem Y za µ Y i uz Ar = a1 · · · ar , imamo

Pb[Y | A> > −1 >


r Yi ] = Y + SAr (Ar SAr ) Ar (Yi − Y ).

Dakle, za kriterijsku funkciju zadanu uzorački imamo


n > 
1 X 
Yi − Pb[Y | A>
r Y i ] Y i − b[Y | A> Yi ] =
P r
n − 1 i=1
n 
!
1 X  >
= tr Yi − Pb[Y | A>
r Y i ] Y i − b[Y | A> Yi ]
P r = (N).
n−1 i=1

Stavimo Pr := Ar (A> −1 > >


r SAr ) Ar S. Vrijedi Pr S = SPr te imamo

Yi − Pb[Y | A> > −1 > >



r Yi ] = I − SAr (Ar SAr ) Ar (Yi − Y ) = SPr (Yi − Y ) = Pr S(Yi − Y ),

te slijedi
n
!
1 X > >
I − Pr> S Yi − Y Yi − Y I − Pr> S
 
(N) = tr
n−1 j=1
 −1 > 
= tr S − SAr A>r SA r Ar S
  
c Y − Pb[Y | A>
= tr cov r Y ]
q
X
= φj (S).
j=r+1

Dakle, empirijskim zadavanjem kriterijske funkcije dobivamo isti rezultat za svojstvene


vrijednosti.
Zadatak 2.3.4. Neka su a1 , . . . , aq ∈ Rq vektori iste norme (|ai | = K > 0) takvi da za
q-dimenzionalni slučajni vektor Y s vektorom očekivanja µ i kovarijacijskom matricom
Σ vrijedi

59
(i) Var(a> >
1 Y ) = sup{Var(a Y ) : |a| = K},

(ii) za i > 1, ai ⊥ a1 , . . . , ai−1 i

Var(a> >
i Y ) = sup{Var(a Y ) : |a| = K, a ⊥ a1 , . . . , ai−1 }.

Primijetite da su tada a1 , . . . , aq ortogonalni vektori. Dokažite da su tada a> >


i Y, . . . , aq Y
glavne komponente od Y .
Uputa: naprije pokažite sljedeće: ako je aj svojstveni vektor od Σ koji odgovara svo-
jstvenoj vrijednosti φj > 0, tada vrijedi ekvivalencija

cov(a> Y, a> > >


j Y ) = a Σaj = 0 ⇔ a aj = 0.

Zatim pokažite da je maksimizacija funkcije a 7→ Var(a> Y ) uz uvjet |a|2 = K 2 ekviva-


lentna (bezuvjetnoj) maksimizaciji funkcije

Var(a> Y )
a 7→ , a 6= 0.
a> a
Zadatak 2.3.5 (Geometrijska interpretacija glavnih komponenti). Neka je dan slučajni
vektor Y ∼ Nq (µ
µ, Σ), Σ > 0, s gustoćom
1 1 −1
f (y) = q · √ e−(y−µµ)Σ (y−µµ) .
(2π) 2 det Σ

Skup svih točaka y ∈ Rq za koje vrijedi f (y) = k je elipsoid (y − µ )> Σ−1 (y − µ ) = c.


Promatrajmo (centrirani) elipsoid a> Σ−1 a = c. Neka su a1 , . . . , aq ∈ Rq vektori smjera
glavnih poluosi tog elipsoida. Svaki se vektor a 6= 0 skaliranjem može dovesti do elementa
elipsoida √
c
a ∈ b ∈ Rq : b> Σ−1 b = c .


a> Σ−1 a
Prema tome, a1 je vektor oblika √
c
√ a
a> Σ−1 a
koji ima maksimalnu moguću (euklidsku) normu

1 c a>1 a1 a> a
a = = max .

1
a> −1 a6=0 a> Σ−1 a
p
c2 a> 1 Σ a1

−1
1 Σ a1

Općenito imamo:
a> a1 a> a
 
(i) > 1 −1 = sup : a 6= 0 .
a1 Σ a1 a> Σ−1 a
(ii) za i > 1, ai je takav da a>
i aj = 0, j = 1, . . . , i − 1, te

a>
 > 
i ai a a >
= sup : a aj = 0, j = 1, . . . , i − 1 .
a> −1
i Σ ai a> Σ−1 a

Dokažite da su tada a> Y, . . . , a> Y glavne komponente od Y .

60
Poglavlje 3

Neparametarske metode

3.1 Mann-Whitney-Wilcoxonov test


Pretpostavimo da su dani slučajni uzorci iz dviju normalnih populacija s jednakim pop-
ulacijskim varijancama
njd
X1 , . . . , Xm ∼ N (µ1 , σ 2 ),
njd
Y1 , . . . , Yn ∼ N (µ2 , σ 2 ).
Pretpostavimo još da su X1 , . . . , Xm , Y1 , . . . , Ym nezavisne slučjne varijable. Testiranje
nulte hipoteze o jednakosti distribucija tih populacija
D
H 0 : X = Y ⇔ µ1 = µ2

svodi se na parametarski Studentov T-test. Kako testirati hipotezu H0 ukoliko nemamo


pretpostavku o distribuciji populacija?
Neka je X1 , . . . , Xn1 slučajni uzorak iz populacije s funkcijom distribucije F i neka
je Y1 , . . . , Yn2 slučajni uzorak iz populacije s funkcijom distribucije G te neka su ta dva
uzorka nezavisna. Želimo testirati hipotezu

H0 : F = G

Primjer 3.1. Pretpostavimo da su opažene vrijednosti za dane uzorke

X : 19, 23, 20, 25, 21, 22


Y : 18, 17, 18, 20, 19

Grafički,
17 18 19 20 21 22 23 24 25
x x x x x x
y y y y
Usporedbom ovih vrijednosti vidimo da je medijan prvog uzorka veći nego medijan drugog
uzorka.

61
Definicija 3.2. Slučajna varijabla X je stohastički veća od slučajne varijable Y ako
za svaki t ∈ R vrijedi

P(Y 6 t) > P(X 6 t) ⇔ FY (t) > FX (t).

Oznaka: X < Y .
Dakle, slučajna varijabla X je stohastički veća od slučajne varijable Y ukoliko je
funkcija distribucije od X manja ili jednaka funkciji distribucije od Y , i to uniformno na
R. Sada nultu hipotezu o jednakosti funkcija distribucije možemo testirati u odnosu na
sljedeće alternative:
H1 : F 6= G
H1 : X je stohastički veće od Y
H1 : Y je stohastički veće od X

Stavimo sada n := n1 + n2 i

Z1 := X1 , . . . , Zn1 := Xn1 , Zn1 +1 := Y1 , . . . , Zn := Yn2 .

Uz pretpostavku da su F i G neprekidne razdiobe, za tzv. uredajne statistike imamo

Z(1) < Z(2) < . . . < Z(n) g.s.

Definirajmo nove slučajne varijable R1 , . . . , Rn ∈ {1, 2, . . . , n}, tzv. rangove, na sljedeći


način. Vrijednost X1 je jednaka nekoj od vrijednosti Z(r1 ) pa stavimo R1 := r1 . Općenito,
vrijednost Xi jednaka je nekoj od vrijednosti Z(ri ) pa je Ri := ri , a vrijednost Yj jednaka
je nekoj od vrijednosti Z(rj ) pa je Rn1 +j := rj .

62
Primjer 3.3. Za x1 = 1, x2 = 0, x3 = 3, x4 = 6, x5 = 7, y1 = 2, y2 = 8, y3 = 9, y4 = 5,
tj.
0 1 2 3 4 5 6 7 8 9
x2 x1 y1 x3 y4 x4 x 5 y2 y3
imamo sljedeće vrijednosti rangova
i 1 2 3 4 5 6 7 8 9
Ri 2 1 4 6 7 3 8 9 5
Definicija 3.4. Wilcoxonova statistika je zbroj rangova od Y1 , . . . , Yn2 ,
n
X
W = Ri .
i=n1 +1

Lema 3.5. Uz pretpostavku F = G, vrijedi


1
P(R1 = r1 , . . . , Rn = rn ) = , (r1 , . . . , rn ) ∈ Sn .
n!
Dokaz. Uz pretpostavku F = G, Z1 , . . . , Zn je slučajan uzorak iz F i Ri = ri ako i samo
ako je Zi = Z(ri ) . Neka je σ = (r1 , . . . , rn ) ∈ Sn permutacija skupa {1, . . . , n}, te neka je
σ −1 = (l1 , . . . , ln ) njoj inverzna permutacija. Imamo

Ri = ri ⇔ Zi = Z(ri ) ⇔ Zli = Z(i) .

Dakle,
P(R1 = r1 , . . . , Rn = rn ) = P(Zl1 = Z(1) , . . . , Zln = Z(n) )
= P(Zl1 < Zl2 < . . . < Zln )
= P(Z1 < Z2 < . . . < Zn ) = k = const.
Iz X
P(R1 = r1 , . . . , Rn = rn ) = k · n! = 1
σ∈Sn

1
slijedi k = , pa vrijedi tvrdnja.
n!
Neka su sada S1 < S2 < . . . < Sn2 uredajne statistike rangova Rn1 +1 < . . . < Rn .
Primjer 3.6. U primjeru 3.3 su rangovi od y1 , . . . , y4

R6 = 3, R7 = 8, R8 = 9, R9 = 5,

pa imamo
S1 = 3, S2 = 5, S3 = 8, S4 = 9.
n
X
Tada je W = Ri = S1 + . . . + Sn2 . Primijetimo da vektor (S1 , . . . , Sn2 ) prima
i=n1 +1
vrijednosti u skupu

{(s1 , . . . , sn2 ) : 1 6 s1 < s2 < . . . < sn2 6 n},

što je familija svih n2 -članih podskupova od {1, . . . , n}. Odredimo zakon razdiobe od
(S1 , . . . , Sn2 ) uz pretpostavku F = G.

63
Teorem 3.7. Uz pretpostavku F = G,
1
P(S1 = s1 , . . . , Sn = sn ) = n
 , 1 6 s1 < . . . < sn2 6 n.
n2

Dokaz. Imamo

P(Rn1 +1 = s1 , . . . , Rn = sn2 ) =
X 1
P(R1 = t1 , . . . , Rn1 = tn1 , Rn1 +1 = s1 , . . . , Rn = sn2 ) = · n1 !,
n!
(t1 ,...,tn )∈S{1,...,n}\{s1 ,...,sn
2}

pa slijedi
X n1 !n2 !
P(S1 = s1 , . . . , Sn2 = sn2 ) = P(Rn1 +1 = si1 , . . . , Rn = sin2 ) =
n!
(si1 ,...,sin )∈S{s1 ,...,sn
2 2}

i vrijedi tvrdnja.
Primjer 3.8. Za n1 = 2 i n2 = 3 nadite nul-distribuciju Wilcoxonove statistike W .
Rješenje. Wilcoxonova statistika je dana s W = R3 + R4 + R5 = S1 + S2 + S3 . Imamo
sljedeću tablicu mogućih vrijednosti uredajnih statistika rangova
X Y
W
T1 T2 S1 S2 S3
1 2 3 4 5 12
1 3 2 4 5 11
1 4 2 3 5 10
1 5 2 3 4 9
2 3 1 4 5 10
2 4 1 3 5 9
2 5 1 3 4 8
3 4 1 2 5 8
3 5 1 2 4 7
4 5 1 2 3 6
pa je zakon razdiobe od W (uz pretpostavku da je ispunjena nulta hipoteza)
 
6 7 8 9 10 11 12
W ∼ 1 1 2 2 2 1 1 .
10 10 10 10 10 10 10

Sada možemo testirati hipoteze


H0 : F = G
H1 : X je stohastički veće od Y
Pretpostavimo da je opažena vrijednost Wilcoxonove statistike w = 11. Tada je p-
vrijednost ovog testa je dana s
1 1
P(W > 11|H0 ) = + = 0.2.
10 10
Uočimo da je egzaktna vrijednost Wilcoxonove statistike w = 11, a nultu ćemo hipotezu
odbacivati za velike vrijednosti te statistike.

64
Napomena. Nul-distribucija Wilcoxonove statistike ne ovisi od distribuciji F = G.

Kako (asimptotski) odrediti nul-distribuciju Wilcoxonove statistike za velike m i n?

Definicija 3.9. Za i ∈ {1, . . . , n1 }, j ∈ {1, . . . , n2 }, definiramo

Uij := 1{Xi <Yj } ,


n1 X
X n2
U := Uij (= # parova (Xi , Yj ) za koje je Xi < Yj ).
i=1 j=1

Statistika U zove se Mann-Whitneyeva statistika.


1
Lema 3.10. U = W − n2 (n2 + 1)
2
Dokaz. Neka su Y(1) < Y(2) < . . . < Y(n2 ) uredajne statistike od Y1 , . . . , Yn2 . Tada je statis-
tika U jednaka broju parova (Xi , Y(j) ) za koje je Xi < Y(j) . Fiksirajmo j ∈ {1, . . . , n2 }.
Broj vrijednosti Xi za koje je Xi < Y(j) jednak je rangu od Y(j) u združenom uzorku uman-
jenom za broj vrijednosti Y1 , . . . , Yn2 koje su manje od Y(j) te još za 1 (jer ne brojimo
Y(j) ), tj. jednak je Rn1 +j − j. Dakle,
n2
X 1
U= (Rn1 +j − j) = W − n2 (n2 + 1).
j=1
2

Napomena. Prethodna nam lema kaže da je Mann-Whitneyeva statistika ekvivalentna


Wilcoxonovoj statistici. Naime, za testiranje nulte hipoteze

H0 : F = G

u odnosu na jednostranu alternativu da je X stohastički manje od Y , kritično područje


za W će biti oblika U > wα , što je ekvivalentno kritičnom području za U , U > uα .

Izračunajmo očekivanje i varijancu Mann-Whitneyeve statistike U uz pretpostavke


njd
X1 , . . . , Xn1 ∼ F,
njd
Y1 . . . , Yn2 ∼ G,
te uz pretpostavku nezavisnosti tih dvaju uzoraka. Definirajmo

p := P(X1 < Y1 ),

q1 := P(X1 < min{Y1 , Y2 }),


q2 := P(Y1 > max{X1 , X2 }).
Imamo n1 X
n2 n1 X
n2
X X
EU = EUij = P(Xi < Xj ),
i=1 j=1 i=1 j=1

65
a kako je Z Z
P(Xi < Yj ) = dF (x)dG(y) = P(X1 < Y1 ) = p,
x<y

slijedi
EU = n1 n2 p.
Nadalje, budući da (općenito) vrijedi jednakost
m
! m m X
m
X X X
Var Xi = Var(Xi ) + 2 cov(Xi , Xj ),
i=1 i=1 i=1 j=1
j6=i

imamo
n1 X
n2
!
X
Var(U ) = Var Uij
i=1 j=1
n1 X
X n2 X
= Var(Uij ) + cov(Uij , Ukl )
i=1 j=1 (i,j)6=(k,l)
X
= n1 n2 p(1 − p) + cov(Uij , Ukl )
(i,j)6=(k,l)
X
= n1 n2 p(1 − p) + (E[Uij · Ukl ] − p2 ).
(i,j)6=(k,l)

Sada razlikujemo slučajeve:


1◦ i 6= k, j 6= l
Tada su Uij = 1{Xi <Yj } i Ukl = 1{Xk <Yl } nezavisne slučajne varijable (jer su to
funkcije različitih nezavisnih slučajnih varijabli), pa imamo cov(Uij , Ukl ) = 0.

2◦ i = k, j 6= l
Za fiksne (i, j), takvih parova (k, l) ima točno n2 − 1. Računamo

cov(Uij , Ukl ) = E(1{Xi <Yj } 1{Xi <Yl } ) − p2


= P({Xi < Yj } ∩ {Xi < Yl }) − p2
= P({Xi < min{Yj , Yl }}) − p2
= q1 − p 2 .

3◦ i 6= k, j = l
Za fiksne (i, j), takvih parova (k, l) ima n1 − 1. Analogno kao u 2◦ ,

cov(Uij , Ukl ) = q2 − p2 .

Dakle,

Var U = n1 n2 p(1 − p) + n1 n2 (n2 − 1)(q1 − p2 ) + n1 n2 (n2 − 1)(q2 − p2 ).

Pretpostavimo sada da je F = G. Imamo

{X1 < Y1 } ∪ {Y1 < X1 } = Ω g.s.

66
pa slijedi
1
P(X1 < Y1 ) + P(Y1 < X1 ) = 1 ⇒ p = .
| {z } | {z } 2
=p =p

Naime, Z Z
P(X1 < Y1 ) = dF (x)dF (y) = P(Y1 < X1 ).
x<y

Nadalje, imamo q1 = P(X1 < min{Y1 , Y2 }). Uočimo da za odnos slučajnih varijabli
X1 , Y1 , Y2 imamo sljedećih 6 mogućih dogadaja

{X1 < Y1 < Y2 }, {Y1 < Y2 < X1 },


{X1 < Y2 < Y1 }, {Y2 < X1 < Y1 },
{Y1 < X1 < Y2 }, {Y2 < Y1 < X1 },

a kako su to sve dogadaji koji (zbog simetrije i nezavisnosti) imaju jednaku vjerojatnost
koja iznosi 16 , imamo

1 1
q1 = P(X1 < min{Y1 , Y2 }) = P({X1 < Y1 < Y2 } ∪ {X1 < Y2 < Y1 }) = 2 · = .
6 3
Analogno dobijemo i
1
q2 = q1 := P(Y1 > max{X1 , X2 }) = .
3
Zato
   
1 1 1 1 1 1
Var U = n1 n2 · · + n1 n2 (n2 − 1) − + n1 n2 (n1 − 1) −
2 2 3 4 3 4
n1 n2
= (3 + n2 − 1 + n1 − 1)
12
n1 n2
= (n1 + n2 + 1)
12
n1 n2
= (n + 1).
12
Teorem 3.11. Neka je X1 , . . . , Xn1 slučajni uzorak iz populacije s neprekidnom distribu-
cijom F , Y1 , . . . , Yn2 slučajni uzorak iz populacije s neprekidnom distribucijom G, te neka
su ti uzorci nezavisni. Tada
U − n1 n2 p(1 − p) D
√ → N (0, 1), min{n1 , n2 } → ∞.
Var U
Korolar 3.12. Uz pretpostavku F = G,
n1 n2
U− 2 D
q → N (0, 1), min{n1 , n2 } → ∞.
1
n n (n
12 1 2
+ 1)

67
3.2 Spearmanov koeficijent korelacije
Neka je dano dvodimenzionalno statističko obilježje (X, Y ). Ukoliko je
  2

σX ρσX σY
(X, Y ) ∼ N (µX , µY ), ,
ρσX σY σY2

tada je s
cov(X, Y )
ρ=
σX σY
dan Pearsonov koeficijent korelacije slučajnih varijabli X i Y . Neka je (X1 , Y1 ), . . . , (Xn , Yn )
slučajan uzorak za (X, Y ). Tada je s
1
Pn
n−1 i=1 (Xi − X n )(Yi − Y n )
R= q q
1
P n 2 1
Pn 2
n−1 i=1 (X i − X n ) n−1 i=1 (Yi − Y n )

dan konzistentan procjenitelj za ρ. Ukoliko populacijska distribucija od (X, Y ) nije bi-


varijatna normalna, kako ćemo izmjeriti korelaciju izmedu X i Y ?
Uredimo komponente od (Xi , Yi ), i = 1, . . . , n. Neka su R1 , . . . , Rn rangovi od
X1 , . . . , Xn , a S1 , . . . , Sn rangovi od Y1 , . . . , Yn . Tada svakom uredenom paru (Xi , Yi )
pridružujemo uredeni par njihovih rangova, (Ri , Si ).

Definicija 3.13. Spearmanov koeficijent korelacije, u oznaci RS , je Pearsonov ko-


eficijent korelacije rangova (Ri , Si ), i = 1, . . . , n,
Pn
i=1 (Ri − R)(Si − S)
RS := qP qP .
n 2 n 2
i=1 (Ri − R) i=1 (Si − S n )

Računamo,
n
1X n+1
R= i= = S,
n i=1 2
n n n
X X n(n + 1)(2n + 1) X 2
Ri2 = 2
i = = Si ,
i=1 i=1
6 i=1
n n
X n(n2 − 1) X 2
2 2
Ri2 − nR = = Si − nS ,
i=1
12 i=1

pa Spearmanov koeficijent korelacije možemo prikazati i u ekvivalentnom obliku


Pn Pn n(n+1)2
Ri Si − nR · S
i=1 i=1 Ri Si − 4
RS = q q = n(n2 −1)
.
Pn 2 2 Pn 2 2
i=1 Ri − nR i=1 Si − nS 12

Uočimo da je RS ∈ [−1, 1]. Nadalje, Ri , Si su permutacije skupa {1, . . . , n} pa za svaki


j ∈ {1, . . . , n} možemo promatrati i = Sj−1 . Stavimo Q = R ◦ S −1 . Imamo
n
X n
X n
X
R i Si = jRSj−1 = jQj .
i=1 j=1 j=1

68
Zato (prema Cauchy-Schwarzovoj nejednakosti) vrijedi |RS | = 1 ako i samo ako postoji
λ ∈ R takav da  
n+1 n+1
j− · λ = Qj − , j = 1, . . . , n,
2 2
što je moguće ako i samo ako je Qj = j za svaki j (tj. R = S, pa za parove (Xk , Yk ),
(Xl , Yl ) vrijedi Xk 6 Xl ako i samo ako je Yk 6 Yl ) ili Qj = n + 1 − j za svaki j (tj.
R = n + 1 − S, pa za parove (Xk , Yk ), (Xl , Yl ) vrijedi Xk 6 Xl ako i samo ako je Yk > Yl ).
Dakle, Spearmanov koeficijent korelacije mjeri koreliranost s obzirom na uredaj (tj.
koliko se dobro veza izmedu varijabli X i Y može opisati monotonom funkcijom). Razlike
izmedu Pearsonovog i Spearmanovog koeficijenta korelacije mogu se vidjeti na sljedećim
slikama.

RP = RS = 1 RP = −1, RS = 1

0 < RP < 1, RS = 1 −1 < RP < 0, RS = −1

Takoder, možemo testirati hipoteze o nezavisnosti

H0 : X i Y su nezavisne
H1 : X i Y su zavisne
√ H
asimptotskim testom, jer vrijedi: nRS ∼0 AN (0, 1).

Primjer 3.14. Odredite egzaktnu distribuciju Spearmanovog koeficijenta korelacije RS


na osnovi uzorka duljine n = 3 iz nekog bivarijatnog obilježja (X, Y ) uz uvjet da su X i
Y nezavisne slučajne varijable.

69
Rješenje. Pretpostavka nezavisnosti X i Y ekvivalentna je pretpostavci da su sve per-
mutacije rangova jednako vjerojatne. Imamo
Pn n(n+1)2 P3 3
j=1 jQj − 4 j=1 jQj − 3 · 4 1X
RS = n(n2 −1)
= 24 = jQj − 6.
12
2 j=1
12

Sve moguće realizacije RS možemo prikazati tablično:

Q1 Q2 Q3 Q1 + 2Q2 + 3Q3 RS
1 2 3 14 1
1 3 2 13 0.5
2 1 3 13 0.5
2 3 1 11 −0.5
3 1 2 11 −0.5
3 2 1 10 −1

Odavde dobivamo egzaktnu distribuciju RS :


 
−1 −0.5 0.5 1
RS ∼ 1 2 2 1 .
6 6 6 6

70
Poglavlje 4

Faktorska analiza

Za n opservacija q-dimenzionalnog slučajnog vektora Y , gdje µ = EY , Σ = cov(Y ), model


za faktorsku analizu je dan s
Y = 1µ µ> + XB + E,
gdje je      
Y1·> 1 µ1
Y =  ...  ∈ Mn,q , 1 =  ..  ∈ Rn , µ =  ..  ∈ Rq .
  
.   . 
Yn·> 1 µq
Imamo: X ∈ Mn,p , E ∈ Mn,q i to su slučajne matrice, a B ∈ Mp,2 i neslučajna je matrica.
Uz to,  
ε>1·
E = [εij ] =  ...  ,
 
ε>n·

gdje Eεij = 0, cov(ε> > >


i· , εk· ) = 0, i 6= k, te je cov(εi· ) = Ψ dijagonalna pozitivno
semidefinitna matrica. Nadalje,  
X1·>
X =  ... 
 
>
Xn·
je slučajna matrica, EXi· = 0, cov(Xi· , Xk· ) = 0, i 6= k, cov(Xi· ) = Ip , cov(Xi· , εk· ) = 0.
Komponente jednog retka matrice X predstavljaju vrijednosti p faktora.
Interpretacija je sljedeća: svaki element opservacije Y je linearna funkcija faktora plus
slučajna pogreška. Različite opservacije imaju nekorelirane pogreške.
Broj faktora p mora biti manji od dimenzije opservacije q. Vrijedi:

Yi· = µ + B > Xi· + εi· ,

Σ = cov(Yi· ) = cov(B > Xi· ) + cov(εi· ) = B > cov(Xi· )B + Ψ = B > B + Ψ.


Zanima nas kovarijacijska matrica Λ = B > B za koju vrijedi

(1) Λ > 0,

(2) r(Λ) = r(B) = p < q.

Napomena. Ako je p = q, tada stavimo Λ := Σ i Ψ := 0.

71
U praksi tražimo B
biΨ
b tako da

b>B
S=B b + Ψ.
b

Cilj nam je odrediti dovolno malen p tako da


b>B
S≈B b+Ψ
b

b ∈ Mp,q , r(B)
za neke B b ∈ Mq koja je dijagonalna te pozitivno semidefinitna.
b =piΨ

Napomena. Ako je U ∈ Mp ortogonalna matrica i Bb rješenje gornjeg problema, tada je


i UB
b takoder rješenje tog problema:
 >
UBb UB b+Ψ b>U >U B
b =B b+Ψ
b =B b>Bb + Ψ.
b

Uvedimo sljedeću terminologiju. Elementi redaka od X zovu se zajednički faktori


(reprezentiraju ih stupci; elementi redaka različite su vrijednosti istog faktora). Elementi
matrice B su koeficijenti faktora (factor loadings). Elementi redaka od E (reprezenti-
raju ih stupci) su unikvitetni ili specifični faktori (unique/specific factors). Dijago-
nalni elementi od B > B = Λ zovu se komunaliteti:
p
X
λjj = βij2 =: h2j , j = 1, . . . , q.
i=1

Dijagonalni elementi matrice Ψ zovu se unikvitet ili posebnost varijable (komponente)


Yj :
σj2 = Ψjj .
Ukupna varijanca:
tr(Σ) = tr(B > B) + tr(Ψ).
Ukupni komunalitet:
q q
k X
X X
>
v = tr(Λ) = tr(B B) = h2j = βij2 .
j=1 i=1 j=1

Reducirana kovarijacijska matrica:

Λ = Σ − Ψ.

Neka je sada U ∈ Mp ortogonalna matrica. Tada je za

µ> + XB + E
Y = 1µ
>
s XB = XU U B = X0 B0 dana nova interpretacija faktora. Stupci matrice B sadrže
| {z } |{z}
X0 B0
koeficijente uz faktore koji objašnjavaju pojedine komponente opservacije, na primjer,
j-ti stupac od B služi za objašnjavanje Y·j :
   
Y1j X1·> B·j " p #
 Y2j   X > B·j 

X
 ..  = Y·j = XB·j =  = Xik Bkj .
   
..
 .   .  j=1
> i=1,...,n
Ynj Xn· B·j

72
Dakle, važni su retci od B: k-ti redak od B sadrži sve koeficijente uz odredeni k-ti
zajednički faktor, tj. q koeficijenata u k-tom retku od B predstavlja utjecaj k-tog za-
jedničkog faktora pojedinim komponentama jedne opservacije.
Tradicionalno, ako pojedini faktor ima sve koeficijente velikog iznosa, znanstvenik iz
područja primjene nastoji imenovati taj faktor kao zajednički atribut svim opservaci-
jama. Bipolarni faktor je faktor koji reprezentiraju koeficijenti velikog iznosa, a koji
su pozitivni ili negativni.

Primjer 4.1. Lawley i Daxwell (1971.) te Johnson i Wichern (1989.) su proučavali


bodove na ispitima grupe od 220 studenata. Opservacija (po studentu) se sastoji od
bodova iz starog gaelskog (irskog) jezika, engleskog jezika, povijesti, aritmetike, algebre
i geometrije. U analizi se koristila uzoračka korelacijska matrica
1 1
R = D− 2 SD− 2 ∈ M6 , D = diag(S).

Za p = 2, metoda maksimalne vjerodostojnosti daje jednu procjenu


 
0.553 0.568 0.392 0.740 0.724 0.595
B
b= ,
−0.429 −0.288 −0.450 0.273 0.211 0.132

Ψ
b = diag(0.510, 0.594, 0.644, 0.377, 0.431, 0.628).

Interpretacija faktora
b>
 
1
B= .
b>
2

Svi elementi od b1 su pozitivne ujednačene vrijednosti. To sugerira da je prvi faktor


onaj koji indicira opću inteligenciju. Drugi je faktor bipolaran s pozitivnim koeficijentima
na matematičkim, a negativnim na nematematičkim predmetima. Taj se faktor može
klasificirati kao matematičko-nematematički faktor.

Faktorska analiza nije metoda/model za objašnjavanje ”ponašanja” podataka, već


analitički, opisno-statistički postupak kojim se istražuje struktura kovarijacijske matrice
s ciljem mogućeg sugeriranja prisutnosti nekih faktora.

73
4.1 Metoda maksimalne vjerodostojnosti
Metoda maksimalne vjerodostojnosti se koristi za procjenu i testiranje hipoteza. Osnovna
pretpostavka jest da su sve slučajne veličine normalno distribuirane.

ξi· := B > Xi· + εi· , i = 1, . . . , n,


 
>
ξ1·
ξ :=  ...  = XB + E.
 
>
ξn·
Kao i prije, Λ = B > B, i iz modela faktorske analize je

µ> + ξ ,
Y = 1µ

gdje je Eξξ = 0, cov(ξi· , ξk· ) = 0 za i 6= k, Σ = cov(ξi· ) = Λ + Ψ, Λ > 0, Ψ > 0 (i


dijagonalna je), r(Λ) = p < q.
Dakle, vjerodostojnost maksimiziramo uz gornja ograničenja na Λ i Ψ. MLE za µ je
b = Y , dok se MLE za Λ i Ψ ne mogu izraziti u zatvorenom obliku.
µ

Zadatak 4.1.1. Dokažite da se traženje MLE za Λ i Ψ svodi na minimizaciju kriterijske


funkcije
(Λ, Ψ) 7→ log det(Λ + Ψ) + tr((Λ + Ψ)−1 Σ bq)

po skupu svih Λ > 0, r(Λ) = p te dijagonalnih Ψ > 0. Ovdje je

b q := n − 1 S.
Σ
n
Prednosti metode maksimalne vjerodostojnosti su sljedeće:

Dobiveni procjenitelji su asimptotski normalni i efikasni1 .

Može se primijeniti asimptotska verzija testa omjera vjerodostojnosti.

Pretpostavimo da je f takva funkcija da je B = f (Λ) gdje je B ∈ Mp,q takva da


je B > B = Λ. Ako je Σ b MLE za Λ, zbog invarijantnosti procjene maksimalnom
vjerodostojnošću na funkcijske transformacije je i B
b := f (Λ)
b MLE za B. Dakako,
postoji više takvih funkcija: naime, za ortogonalnu matricu U ∈ Mp stavimo

f1 (Λ) := U f (Λ).
 
Napomena. Neka su stupci matrice Ap := a1 · · · ap svojstveni vektori od Λ koji
odgovaraju svojstvenim vrijednostima φ1 > φ2 > . . . > φp > 0 od Λ. Tada možemo
staviti p
B := diag( φ1 , . . . , φp )A>
p
p.

”Rotiranjem” B matricom U može se doći do odgovarajuće interpretacije.


1
Kažemo da je procjenitelj efikasan ukoliko je nepristran i postiže svoju donju Cramér-Raovu granicu.
Za više detalja pogledati literaturu iz kolegija Matematička statistika.

74
Primjer 4.2 (Nastavak primjera 4.1). Za p = 2, ortogonalna matrica U je reda 2, tj.
ona je matrica rotacije u R2 i njen se efekt može grafički prikazati. Dvije uobičajene
rotacije su varimax V i quartimax Q. Odgovarajući koeficijenti su
 
0.232 0.321 0.085 0.770 0.723 0.572
BV =
b ,
0.660 0.551 0.591 0.173 0.215 0.213
 
0.260 0.344 0.111 0.777 0.731 0.580
B
bQ = .
0.650 0.536 0.587 0.139 0.184 0.188

Za predvidanja redaka od X (ne opažaju!) imamo:

Zadatak 4.1.2. Pokažite da je

P [Xi· |Y ] = B(Λ + Ψ)−1 (Yi· − µ ).

75
4.2 Procjena pomoću glavnih faktora
To je metoda koja ne koristi pretpostavku o normalnosti. Ako je Ψ poznato, tada je
Λ = Σ − Ψ, pri čemu se pretpostavlja da je Λ > 0 i r(Λ) = p. Ako Σ nije poznata, koristi
se uzoračka kovarijacijska matrica S.
U stvari, za poznato Ψ se traži Λ u klasi svih pozitivno semidefinitnih matrica ranga
p tako da minimiziraju funkciju

Λ 7→ tr((S − Ψ) − Λ).

Neka su φ1 > φ2 > . . . > φq svojstvene vrijednosti


 od S s odgovarajućim svojstvenim
vektorima a1 , . . . , aq , tj. Ap := a1 · · · ap . U odjeljku o glavnim komponentama
pokazali smo da je

tr S − SAp (A> −1 > > −1 >


 
p SAp ) Ap S = min tr S − SB(B SB) B S .
B∈Mq,p
r(B)=p

Očito je SB(B > SB)−1 B > S > 0 ranga p. Dakle, Λ


e := S − Ψ,
 −1
>e e e>
Λ = ΛAp Ap ΛAp
e e e e A p Λ,
e

 
gdje je stupci matrice A ep = e a1 · · · e
ap svojstveni vektori za Λ (a φe1 > . . . > φep >
φep+1 > . . . > φeq svojstvene vrijednosti od Λ).
e Ako smo svojstvene vektore a1 , . . . , ap
odabrali tako da je A> p Ap = Ip , tada je
 
Λ = Ap diag φ1 , . . . , φp A
e e e e e> .
p

Dakle, očito je jedna procjena za B


q q 
B
b = diag φe1 , . . . , e>
φep A p.

U praksi se sprovodi iterativni postupak. Za inicijalnu pretpostavku Ψ0 o Ψ dobijemo


početnu aproksimaciju
e 0 = S − Ψ0 .
Λ
Zatim Ψ1 izračunamo iz dijagonalnih elemenata od S − Λ b 0 i tako nastavimo sve do
konvergencije (sve dok se aproksimacije ne počnu stabilizirati). Uobičajeno je za Ψ0 uzeti
 
1 1
Ψ0 = diag ,..., ,
s11 sqq

gdje S = [sij ], ili Ψ0 = 0.

76

Você também pode gostar