Analiza Vremenskih Nizova

PRIMIJENJENA STATISTIKA
Bilješke s predavanja (prof. dr. sc. Miljenko Huzak)

akademske godine 2014./2015.
Natipkao i uredio:
Kristijan Kilassa Kvaternik
Ova skripta služi samo kao pomoć u praćenju predavanja iz istoimenog kolegija i ne može zamijeniti
prisustvovanje na njima. Bit ću zahvalan svakome tko mi javi bilo koju uočenu grešku u ovoj skripti
(kojih zasigurno ima).
Zagreb, lipanj 2015.

Sadržaj
1 Linearni modeli više varijabli 2

1.1 Uvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Procjena parametara . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Testiranje hipoteza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4 Test o parametru očekivanja višedimenzionalne normalne razdiobe . . . . 23
1.5 Višestruka korelacija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.6 Parcijalna korelacija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
1.7 MANOVA (Višedimenzionalna analiza varijance) . . . . . . . . . . . . . . 35
2 Diskriminacija i alokacija 40
2.1 Procijenjena alokacija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.2 Linearne diskriminacijske koordinate . . . . . . . . . . . . . . . . . . . . 43
2.3 Glavne komponente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3 Neparametarske metode 61
3.1 Mann-Whitney-Wilcoxonov test . . . . . . . . . . . . . . . . . . . . . . . 61
3.2 Spearmanov koeficijent korelacije . . . . . . . . . . . . . . . . . . . . . . 68
4 Faktorska analiza 71
4.1 Metoda maksimalne vjerodostojnosti . . . . . . . . . . . . . . . . . . . . 74
4.2 Procjena pomoću glavnih faktora . . . . . . . . . . . . . . . . . . . . . . 76
1
Poglavlje 1
Linearni modeli više varijabli
1.1 Uvod
Linearni modeli više varijabli su linearni modeli koji imaju više od jedne varijable odziva
Y1 , Y2 , . . . , Yq .
Y > = (Y1 , Y2 , . . . , Yq ) je q-dimenzionalni vektor odziva (i zapisujemo ga kao vektor -

stupac).
Neka je
Y1· , Y2· , . . . , Yn· (1.1)
slučajni uzorak duljine n za vektor odziva Y , pri čemu je Yi·> = (Yi1 , Yi2 , . . . , Yiq ) i-to
opažanje od Y.
Stavimo  
Y1j
 Y2j 
Y·j =  .. 
 
 . 
Ynj
(time smo opisali slučajni uzorak za j-tu komponentu od Y , Yj ). Te vektore možemo
staviti u matricu
   
Y1·> Y11 Y12 · · · Y1q
> 
 Y
 2·  
 Y21 Y22 · · · Y2q 
Y := Y·1 Y·2 · · · Y·q =  ..  =  .. .

.. . . .
 .   . . . .. 
Yn·> Yn1 Yn2 · · · Ynq
Time smo slučajni uzorak (1.1) zapisali u matričnom obliku.

Kao i kod regresijskog modela, označimo sa
x> = (x1 , . . . , xp )
vektor p varijabli poticaja (i pritom stavimo x1 = 1). Slično, neka je sa

   
x>
1· x11 x12 · · · x1p
> 
 x2·   x21 x22 · · ·
  x2p 
X = x·1 x·2 · · · x·p =  ..  =  .. (1.2)

.. . . .. 
 .   . . . . 
>
xn· xn1 xn2 · · · xnp
2
dana matrica dizajna.
Linearni model više varijabli zapisujemo ovako
Y > = x> · B + ε > , (1.3)
gdje je Y > q-dimenzionalni vektor odziva, x> p-dimenzionalni vektor poticaja, B ∈

Mp,q matrica parametara modela, te ε q-dimenzionalni slučajni uzorak (koji predstavlja
slučajnu pogrešku) za koji pretpostavljamo
(E1) Eεε = 0,
(E2) postoji kovarijacijska matrica cov(εε) = Σ ∈ Mq čije elemente označavamo Σ =

[σjj 0 ].
Slučajni uzorak (1.1) iz linearnog modela (1.3) se sada može zapisati
Y = XB + E, (1.4)
gdje je  
ε>1·
 ε>2·

E= ε·1 ε·2 · · · ε·q = .
 
..
 . 
ε>
n·
Pretpostavljamo još
(E3) cov(ε·j ) = σjj In ,
gdje je In jedinična matrica reda n (iz ovog uvjeta zapravo slijedi da su različite kompo-
nente vektora ε nekorelirane).
Iz uvjeta (E1) slijedi
E[E] = 0,
dok iz (E2) i (E3) slijedi
cov(εij , εi0 j 0 ) = σjj 0 δii0 , i, i0 = 1, . . . , n, j, j 0 = 1, . . . , q,
gdje je δ Kroneckerov simbol.
Zadatak 1.1.1. Zapišite jednofaktorski ANOVA model kao regresijski model te metodom
najmanjih kvadrata (LS) procijenite nepoznate parametre.
Rješenje. U jednofaktorskom ANOVA modelu promatramo normalne razdiobe neke var-

ijable u više od dvije populacije (s medusobno jednakim populacijskim varijancama), tj.
za i-tu populaciju (i = 1, . . . , k) imamo slučajni uzorak
Yij ∼ N (µi , σ 2 ), j = 1, . . . , ni .
Zato možemo pisati
Yij = µij + εij , εij ∼ N (0, σ 2 ), i = 1, . . . , k, j = 1, . . . , ni .
3
Uočimo da je dimenzija opservacije q = 1. Sada možemo pisati
       
Y11 µ1 ε11 1 0 ··· 0
 Y12   µ1   ε12   1 0 · · · 0 
 ..   ..   ..   .. .. . . ..
       
. .

 .   .   .   . . 
 Y1n1   µ1   ε1n1   1 0 · · · 0
       

 Y21   µ2   ε21   0 1 · · · 0
       
 
      
 Y22   µ2   ε22   0 1 · · · 0

 µ1
 .   .   .   . .
. .  µ2 
Y =  ..  =  ..  +  ..  =  .. .. . . ..  +E,
        
 ..
 Y2n2   µ2   ε2n2   0 1 · · · 0
       
 . 
 .   .   .   . . .
 ..   ..   ..   .. .. . . ...

| µk
        {z }
 Y   µ   ε   0 0 ··· 1  =B
 k1   k   k1   
 Y   µ   ε   0 0 ··· 1 
 k2   k   k2   
 ..   ..   ..   .. .. . . .. 
 .   .   .   . . . . 
Yknk µk εknk 0 0 ··· 1
| {z }
=X
pri čemu matrica dizajna X ima k stupaca (u prvom stupcu n1 jedinica, zatim sve nule,
u drugom stupcu n1 nula, zatim n2 jedinica i do kraja sve nule i tako sve do posljednjeg
stupca u kojem ima sve nule osim zadnjih nk jedinica).
Za vektor poticaja x> = (x1 , . . . , xk ) imamo
xj = 1{ispitanik pripada j-toj populaciji} .
Ukoliko želimo odrediti procjenitelj B

b nepoznatih parametara µ1 , . . . , µk metodom naj-
manjih kvadrata, trebamo naći minimum funkcije
Φ(B) = |Y − XB|2
= (Y − XB, Y − XB)
= |Y|2 − 2(Y, XB) + (XB, XB)
= |Y|2 − 2(X > Y, B) + ((X > X)B, B).
Pritom s (·, ·) označavamo standardni (euklidski) skalarni produkt, a s | · | standardnu
(euklidsku) normu vektora. Stacionarne točke funkcije Φ dobivamo iz
0 = ∇B Φ(B) = −2X > Y + 2(X > X)B

b = (X > X)−1 X > Y,
⇒B
a odredivanjem Hesseove matrice se pokaže da Φ u toj točki uistinu ima minimum. Dakle,
traženi je procjenitelj
 −1  1   
n1 0 · · · 0 n1
(Y11 + Y12 + . . . + Y1n1 ) Y1
 0 n2 · · · 0   1 (Y21 + Y22 + . . . + Y2n )   Y2 
> −1 > >  n2 2
B = (X X) X Y =  .. ..  X Y =  = .
    
b .. . . .. ..
 . . . .   .   . 
1
0 0 · · · nk nk
(Yk1 + Yk2 + . . . + Yknk ) Yk
Ovaj model možemo reparametrizirati ukoliko stavimo
µ1 = θ 0 ,
4
µ2 = θ 0 + θ 1 ,
µ3 = θ 0 + θ 2 ,
..
.
µk = θ0 + θk−1 .
U primjenama je θ0 srednja vrijednost opažene veličine na kontrolnoj skupini, a θi , i =
1, . . . , k − 1, je doprinos toj vrijednosti nastao zbog različitog tretmana u preostalim
skupinama. Sada je  
1 0 ··· 0
 1 0 ··· 0 
 .. .. . . .. 
 
 . . . . 
 1 0 ··· 0 
 
 1 1 ··· 0 
 


 1 1 ··· 0 
 θ0
 . . . . . ..   θ1 
 . .  
Y= . . .   ..  + E.
 . 
 1 1 ··· 0 

 .. .. . . ...  θk−1
 . . . 
 
 1 0 ··· 1 
 
 1 0 ··· 1 
 
 .. .. . . .. 
 . . . . 
1 0 ··· 1
Ovom smo reparametrizacijom testiranje nulte hipoteze
H 0 : µ1 = µ2 = . . . = µk
sveli na testiranje hipoteze
H0 : θ1 = θ2 = . . . = θk−1 = 0,
tj. na test značajnosti linearnog regresijskog modela (u praksi je realizacija ovog testa
puno jednostavnija jer postoje već gotovi softverski alati).
Zadatak 1.1.2. Nadite MLE1 za parametre θ i σ 2 u višestrukom linearnom regresijskom
modelu.
Rješenje. Model je dan s
Y = Xθθ + ε , ε ∼ N (0, σ 2 In ).
Budući da je Y ∼ Nn (Xθθ , σ 2 In ), vjerodostojnost je dana s
L(θθ , σ 2 ) = fY (Y; θ , σ 2 )
Yn
= fYi (Yi ; θ , σ 2 )
i=1

1 1 1 2 −1

= · exp − (σ In ) (Y − Xθθ ), Y − Xθθ .
(2π)n/2 (σ 2 )n/2 2
1
Maximum Likelihood Estimator, procjenitelj maksimalne vjerodostojnosti
5
Sada je log - vjerodostojnost dana s
l(θθ , σ 2 ) = log L(θθ , σ 2 )

n n 1
= − log(2π) − log(σ 2 ) − 2 |Y − Xθθ |2 .
2 2 2σ
Stacionarne točke log - vjerodostojnosti dobivamo iz
∇θ l(θθ , σ 2 ) = 0 ⇔ ∇θ |Y − Xθθ |2 = 0,
∂
l(θθ , σ 2 ) = 0,
∂σ 2
pa vidimo da se MLE za θ , θbM LE , poklapa s procjeniteljem za θ metodom najmanjih

kvadrata, θbLS , i takoder,
1
σ
bM LE = Φ(θb).
n
6
1.2 Procjena parametara
Da bismo procijenili B i Σ iz modela (1.3), napišimo slučajni uzorak (1.4) iz matričnog
u vektorskom obliku
      
Y·1 X B·1 ε·1
 Y·2   X  B·2   ε·2 
= + . (1.5)
      
 .. ...  .. ..
 .    .   . 
Y·q X B·q ε·q
| {z } | {z } | {z } | {z }
nq×1 nq×pq pq×1 nq×1
blok - dijagonalna matrica
Takoder,
      
ε·1 ε·1 σ11 In σ12 In · · · σ1q In
 ε·2   ε·2 
 > >   σ21 In σ22 In · · · σ2q In 
cov   = E   ε·1 ε·2 · · · ε> = ..  .
     
.. .. ·q .. .. ..
 .   .    . . . . 
ε·q ε·q σq1 In σq2 In · · · σqq In
Nadalje, definirajmo preslikavanje

 
A·1
r·s
 A·2 
vec : Mr,s → R , vec(A) =  ,
 
..
 . 
A·s

za A = A·1 A·2 · · · A·s ∈ Mr,s . Uočimo da je ovo preslikavanje izomorfizam vek-
torskih prostora. Ukoliko je Y slučajna matrica, imamo vec(EY) = E[vec(Y)], te po
definiciji stavimo cov(Y) := cov(vec(Y)).
Nadalje, definirajmo Kroneckerov produkt: za A = [aij ] ∈ Mp,q , B ∈ Mr,s , stavimo
 
a11 B a12 B · · · a1q B
 a21 B a22 B · · · a2q B 
A ⊗ B := [aij · B] =  .. ..  ∈ Mpr,qs .
 
.. . .
 . . . . 
ap1 B ap2 B · · · apq B
Sada direktno slijedi cov(vec(E)) = Σ ⊗ In , a (1.5) možemo zapisati u ekvivalentnom

obliku
vec(Y) = (Iq ⊗ X) vec(B) + vec(E).
Zadatak 1.2.1. Pokažite da za A ∈ Mp,q , X ∈ Mq,r , B ∈ Mr,s vrijedi
vec(AXB) = (B > ⊗ A) vec(X).
Rješenje. Stavimo A = [aij ]i=1,...,p, j=1,...,q , X = [xij ]i=1,...,q, j=1,...,r , B = [bij ]i=1,...,r, j=1,...,s .
Uočimo da je vec(AXB), (B > ⊗ A) vec(X) ∈ Rps , pa je dovoljno dokazati da su odgo-
varajuće komponente ovih dvaju vektora medusobno jednake. Imamo
 
(AXB)·1
vec(AXB) =  ..
,
 
.
(AXB)·s
7
gdje su vektori (AXB)·i ∈ Rp , i = 1, . . . , s, stupci matrice AXB. Nadalje, imamo
 r 
X
 bj1 AX·j 
    j=1

b11 A b21 A · · · br1 A X·1 r

 X 
 b12 A b22 A · · · br2 A   X·2   bj2 AX·j 

>  
(B ⊗ A) vec(X) =  .. ..   ..  =  ,
 
.. .. j=1
 . . . .  .    ..


b1s A b2s A · · · brs A X·r 
 r . 

 X 
 bjs AX·j 
j=1
pri čemu, zbog podudarnosti dimenzija blokova, blok - matrice možemo množiti kao i
”obične” matrice. Sada vidimo da je dovoljno za svaki i = 1, . . . , s pokazati
r
X
(AXB)·i = bji AX·j ,
j=1
pri čemu su navedeni vektori p-dimenzionalni. Neka su i ∈ {1, . . . , s} i k ∈ {1, . . . , p}

proizvoljni. Ukoliko s [AX]kl označimo element na mjestu (k, l) matrice AX, k-ta je
koordinata vektora (AXB)·i jednaka
r q
r X
X X
[AXB]ki = [AX]kl bli = akm xml bli ,
l=1 l=1 m=1
r
X
dok je k-ta koordinata vektora bji AX·j jednaka
j=1
r r q q
r X
X X X X
bji A>
k· X·j = bji akm xmj = akm xmj bji .
j=1 j=1 m=1 j=1 m=1
Usporedivanjem ovih dviju dvostrukih suma vidimo da su one jednake, pa slijedi tvrdnja.
Lema 1.1. Za sve matrice A, B, C, D te realne brojeve a, b vrijedi
(i) (aA) ⊗ (bB) = ab(A ⊗ B),
(ii) (A + B) ⊗ C = A ⊗ C + B ⊗ C,
(iii) (A ⊗ B) ⊗ C = A ⊗ (B ⊗ C),
(iv) (A ⊗ B)> = A> ⊗ B > ,
(v) (AB) ⊗ (CD) = (A ⊗ C)(B ⊗ D) (ako su A i B, odnosno C i D ulančane),
(vi) ako su A i B regularne, tada je regularna i A ⊗ B te vrijedi
(A ⊗ B)−1 = A−1 ⊗ B −1 ,
8
(vii) ako je Av = λv, Bu = µu, za u 6= 0, v 6= 0, tada je u ⊗ v 6= 0 i
(A ⊗ B)(u ⊗ v) = λµ(u ⊗ v),
(viii) tr(A ⊗ B) = (tr A) · (tr B),
(ix) det(A ⊗ B) = (det A)q (det B)p , A ∈ Mp , B ∈ Mq ,
(x) ukoliko je A > 0, B > 0 (tj. matrice A i B su pozitivno definitne), onda je i

A ⊗ B > 0.
Dokaz. Neka je A = [aij ] ∈ Mk,l , B = [bij ] ∈ Mm,n , C = [cij ] ∈ Mp,q , D = [dij ] ∈ Mr,s .
(i) Slijedi iz definicije množenja matrica skalarima i Kroneckerovog produkta:
(aA) ⊗ (bB) = [aaij bB] = ab[aij B] = ab(A ⊗ B).
(ii) Uz pretpostavku A, B ∈ Mk,l imamo
(A + B) ⊗ C = [(aij + bij )C] = [aij C] + [bij C] = (A ⊗ C) + (B ⊗ C).
(iii) Koristeći svojstvo (i) dobivamo

(i)
(A ⊗ B) ⊗ C = [aij B] ⊗ C = [(aij B) ⊗ C] = [aij (B ⊗ C)] = A ⊗ (B ⊗ C).
(iv) Imamo
(A ⊗ B)> = [aij B]> = [aji B > ] = A> ⊗ B > .
(v) Ako je A ∈ Mk,l , B ∈ Ml,n , C ∈ Mp,q , D ∈ Mq,s , tj. ako su matrice A i B, te C

i D ulančane, tada je A ⊗ C ∈ Mkp,lq i B ⊗ D ∈ Mlq,ns pa vidimo da je produkt
(A ⊗ C)(B ⊗ D) ∈ Mkp,ns dobro definiran. Sada imamo
" l # " l #
X X
(AB) ⊗ (CD) = [[AB]ij CD] = aim bmj CD = (aim C)(bmj D) .
m=1 m=1
l
X
No, izraz (aim C)(bmj D) jest upravo jednak ij-tom bloku matrice (A ⊗ C)(B ⊗
m=1
D (naime, blok matrice možemo množiti kao i ”obične” tako da umjesto običnog
umnoška promatramo (matrični) umnožak odgovarajućih blokova). Odavde slijedi
tražena jednakost.
(vi) Ukoliko su matrice A ∈ Mk i B ∈ Mm regularne, postoje njima inverzne matrice

A−1 i B −1 . No sada, koristeći svojstvo (v), dobivamo
(v)
(A ⊗ B)(A−1 ⊗ B −1 ) = (AA−1 ) ⊗ (BB −1 ) = Ik ⊗ Im = Ikm ,
(v)
(A−1 ⊗ B −1 )(A ⊗ B) = (A−1 A) ⊗ (B −1 B) = Im ⊗ Ik = Imk ,
a odavde po definiciji slijedi da je matrica A ⊗ B regularna s inverzom (A ⊗ B)−1 =
A−1 ⊗ B −1 .
9
(vii) Uočimo da za matrice E, F općenito vrijedi: ukoliko je E ⊗ F = 0, onda je E = 0
ili F = 0. U suprotnom, postoji element eij matrice E različit od nule i F 6= 0, pa
blok eij F matrice E ⊗ F nije nul blok. Odavde slijedi prva tvrdnja (tj. iz u 6= 0 i
v 6= 0 slijedi u ⊗ v 6= 0). Zadana jednakost jest direktna posljedica svojstava (i) i
(v).
(viii) Neka je A ∈ Mk i B ∈ Mm . Blokovi na glavnoj dijagonali matrice A ⊗ B su a11 B,

a22 B, . . ., akk B, pa su elementi na glavnoj dijagonali te matrice elementi glavne
dijagonale matrice B pomnoženi elementima glavne dijagonale matrice A. Zato
slijedi
k X
X m k
X m
X k
X
tr(A ⊗ B) = aii bjj = aii bjj = aii tr B = (tr A)(tr B).
i=1 j=1 i=1 j=1 i=1
(ix) Ukoliko je matrica A singularna, tj. det A = 0, tada su retci matrice A linearno
zavisni (karakterizacija regularnosti matrice pomoću njenog ranga) pa su i retci
matrice A ⊗ B takoder linearno zavisni. Dakle, det(A ⊗ B) = 0 i vrijedi tvrdnja.
Pretpostavimo sada det A 6= 0, tj. da je matrica A regularna. Tada elemen-
tarnim transformacijama (točnije, zamjenom redaka/stupaca i dodavanjem nekog
retka/stupca pomnoženim skalarom nekom drugom retku/stupcu) matricu A možemo
svesti na gornje trokutastu matricu A,e
 
a11 e
e a12 · · · e
a1p
 0 e a22 · · · e
a2p 
A =  .. ..  ,
 
e .. . .
 . . . . 
0 0 ··· e app
p
Y
čija je determinanta det A
e= aii = (−1)l det A, gdje je l ukupan broj zamjena
e
i=1
redaka i stupaca koje smo napravili. No potpuno analogne transformacije možemo
primijeniti i na matricu A ⊗ B, shvaćajući blokove oblika aij B kao njene ”elemente”
   
a11 B a12 B · · · a1p B a11 B e
e a12 B · · · e a1p B
 a21 B a22 B · · · a2p B   0 a22 B · · · e
e a2p B 
A ⊗ B =  .. ..  ∼  .. ..  = Ae ⊗ B.
   
.. . . .. . .
 . . . .   . . . . 
ap1 B ap2 B · · · app B 0 0 ··· e app B
e ⊗ B vrijedi
Za determinantu matrice A
e ⊗ B) = (−1)lq det(A ⊗ B),
det(A
jer smo svaku od l zamjeni redaka/stupaca istovremeno primjenjivali na q parova

e ⊗ B je gornje trokutasta blok matrica
redaka, odnosno stupaca. S druge strane, A
pa je njena determinanta jednaka umnošku determinanti blokova glavne dijagonale
p p
Y Y
p
e ⊗ B) =
det(A det(e
aii B) = (det B) aii )q = (det B)p ((−1)l det A)q .
(e
i=1 i=1
10
Izjednačavanjem lijevih strana posljednjih dviju jednakosti slijedi
(−1)lq det(A ⊗ B) = (det B)p (−1)lq (det A)q
⇒ det(A ⊗ B) = (det A)q (det B)p .
(x) Neka je A = [aij ] ∈ Mp , B = [bij ] ∈ Mq . Uočimo da je tada matrica A ⊗ B ∈ Mpq i

da prema svojstvu (iv) slijedi
(A ⊗ B)> = A> ⊗ B > = A ⊗ B,
tj. matrica A ⊗ B je simetrična. Neka je
 
x1
 x2 
x =  ..  ∈ Rpq \ {0}
 
 . 
xpq
proizvoljan. Označimo
 
x(i−1)q+1
 x(i−1)q+2 
mi =   ∈ Rq , i = 1, . . . , p.
 
..
 . 
xiq
Tada je  p 
X
 a1i Bmi 
 i=1 
 p 
 X 
 a2i Bmi 
(A ⊗ B)x =  i=1
 

 .. 

 . 

 Xp 
api Bmi
 
i=1
(uočimo da ovdje matrice i vektore zapisujemo u blokovima i njihov umnožak u

obliku umnoška odgovarajućih blokova), pa slijedi
p p p p
!
X X X X
((A ⊗ B)x, x) = aji Bmi , mj = aji (Bmi , mj ).
j=1 i=1 j=1 i=1
Budući da je matrica B pozitivno definitna, ona dopušta tzv. faktorizaciju Choleskog,

tj. postoji gornje trokutasta matrica R takva da B = R> R. Odavde slijedi
p p p p
X X X X
((A ⊗ B)x, x) = aji (R> Rmi , mj ) = aji (Rmi , Rmj ).
j=1 i=1 j=1 i=1
Označimo  
αj1
 αj2 
Rmj =  , j = 1, . . . , p.
 
..
 . 
αjq
11
Sada imamo
p p
X X
((A ⊗ B)x, x) = aji (Rmi , Rmj )
j=1 i=1
p p q
XX X
= aji αik αjk
j=1 i=1 k=1
q p p
!
X X X
= aji αik αjk .
k=1 j=1 i=1
Za fiksni k ∈ {1, . . . , q} imamo

 p  
X
 a1i αik  
 i=1        
 p
 X

 α1k  α1k α1k
p p
!
X X  a2i αik   α2k    α2k   α2k 
aji αik αjk =  i=1 ,  = A  ,  > 0,
        
..  .. ..
j=1 i=1
 ..   .    .   . 

 . 
 αpk 

αpk αpk
 X p  
api αik
  
i=1
pri čemu posljednja nejednakost vrijedi zbog pozitivne definitnosti matrice A. Budući
da ne mogu svi vektori Rmj biti nul-vektori (jer ne mogu ni svi vektori Bmj biti
nul-vektori), slijedi da je barem jedna suma na lijevoj strani posljednje jednakosti
strogo pozitivna. Odavde slijedi
((A ⊗ B)x, x) > 0,
a s time i pozitivna definitnost matrice A ⊗ B.
Za matricu A ∈ Mn,s označimo sa L(A) potprostor od Rn razapet stupcima matrice

A.
Teorem 1.2. Neka je Y = Xθθ +εε višestruki linearni regresijski model takav da je Eεε = 0,
cov(εε) = V > 0, X je punog ranga.
(i) Ukoliko je L(V X) = L(XU ) za neku regularnu matricu U , tada je θb = (X > X)−1 X > Y
LS-procjenitelj u odnosu na skalarni produkt ha, bi := (V −1 a, b) u Rn ,
XX
ha, bi = [V −1 ]ij ai bj .
i j
(ii) Ako je L(V X) 6 L(X), tada je l>θb = l> (X > X)−1 X > Y BLUE2 za L(θθ ) := l>θ =
(l, θ ).
2
Best Linear Unbiased Estimator, najbolji linearni nepristrani procjenitelj
12
Uz naše je pretpostavke
(Σ ⊗ Iq )(Iq ⊗ X) = (Iq ⊗ X) (Σ ⊗ Ip ),
| {z }
regularna
pa je ispunjen uvjet (i) (a time i uvjet (ii)) teorema 1.2. Mi za funkciju
Φ(B) = ((Σ ⊗ In )−1 (vec(Y) − (Iq ⊗ X) vec(B)), vec(Y) − (Iq ⊗ X) vec(B))
tražimo argument minimuma, arg min Φ(B), a po prethodnom se teoremu taj argument
B∈Mp,q
podudara s argumentom minimuma funkcije
Ψ(B) = (vec(Y) − (Iq ⊗ X) vec(B), vec(Y) − (Iq ⊗ X) vec(B)).
Imamo
vec(B) \
b = vec(B)
−1
= (Iq ⊗ X)> (Iq ⊗ X) (Iq ⊗ X)> vec(Y)

= Iq ⊗ (X > X)−1 Iq ⊗ X > vec(Y)

= Iq ⊗ (X > X)−1 X > vec(Y)

= vec (X > X)−1 X > Y

bLS = (X > X)−1 X > Y.

⇒B
Dokaz teorema 1.2. (i) Prema karakterizaciji LS-procjenitelja vrijedi da je θb LS-procjenitelj

u odnosu na skalarni produkt h·, ·i ako i samo ako je
Yb := X θb = X(X > X)−1 X > Y = HY ∈ Rn
tako da za svaki a ∈ Rp vrijedi hY − Yb , Xai, što je ekvivalentno s Y − Yb ⊥h·,·i L(X)

(dakle, H je ortogonalni projektor na potprostor L(X)).
Neka je a ∈ Rp proizvoljan. Računamo
hY − Yb , Xai = (V −1 (Y − Yb ), Xa)
= (Y − Yb , V −1 Xa)
= [postoji a0 ∈ Rp , a = U a0 ]
= (Y − Yb , V −1 XU a0 )
= [XU a0 ∈ L(XU ) = L(V X)]
= (Y − Yb , V −1 V Xa00 )
= (Y − Yb , Xa00 )
= ((I − H)Y, Xa00 ).
Budući da je M := I − H ortogonalni projektor sa Rn na L(X)⊥ (s obzirom na

euklidski skalarni produkt), slijedi
hY − Yb , Xai = ((I − H)Y, Xa00 ) = 0,
pa vrijedi tvrdnja.
13
(ii) Uočimo da je
h i h i
>b >
Eθ l θ = l Eθ b θ
= l> Eθ (X > X)−1 X > Y

= l> (X > X)−1 X > Eθ Y

= l> (X > X)−1 X > Xθθ
= l>θ = L(θθ ),
pa vidimo da je procjenitelj l>θb linearan i nepristran za l>θ .

Neka
>je sada c> Y proizvoljan linearan nepristran procjenitelj za l>θ , tj. neka vrijedi
Eθ c Y = l θ za svaki θ ∈ Rp . Odavde slijedi c> Xθθ = l> θ za svaki θ ∈ Rp , tj.
>

c> X = l> ⇒ l = X > c.
Računamo
b = c> cov(Y )c − l> (X > X)−1 X > cov(Y )X(X > X)−1 l
Var(c> Y ) − Var(l> θ)
= c> V c − l> (X > X)−1 X > V X(X > X)−1 l
= c> V c − c> HV Hc
= c> (V − HV H)c.
Za x ∈ Rn imamo
HV Hx = HV X (X > X)−1 X > x
| {z }
x0
=HV Xx}0
| {z
Xx00
00
= HXx
= [H je projektor na L(X)]
= Xx00
= V Xx0
= V X(X > X)−1 X > x
= V Hx,
pa slijedi
HV H = V H = [jer je HV H simetrična matrica] = HV.
Zato imamo
V − HV H = (M + H)V (M + H) − HV H
= M V M + M V H + HV M
= M V M,
a odavde zbog pozitivne definitnosti kovarijacijske matrice V i činjenice da je M

projektor
c> (V − HV H)c = c> M V M c = (M V M c, c) = (V M c, c) > 0.
14
Dakle, Var(c> Y ) > Var(l>b θ ), pa vidimo da procjenitelj l>b
θ u klasi svih linearnih
nepristranih procjenitelja za L(θθ ) ima najmanju varijancu. Dakle, l>bθ je BLUE za
L(θθ ).
Pretpostavimo vec(E) ∼ Nnq (0, Σ ⊗ In ). Procijenimo B i Σ metodom maksimalne

vjerodostojnosti. Log-vjerodostojnost je dana s
1
l(B, Σ) = − log det(Σ ⊗ In )
2
1
(Σ ⊗ In )−1 (vec(Y) − (Iq ⊗ B) vec(X)), vec(Y) − (Iq ⊗ B) vec(X) + const.

−
2
n
n 1X
= − log det Σ − (Yi· − B > xi· )> Σ−1 (Yi· − B > xi· ) + const.
2 2 i=1
Stacionarne točke dobivamo iz jednadžbi
∇B l(B, Σ) = 0 ⇒ B bLS = (X > X)−1 X > Y,

bM LE = B
0 = ∇Σ l(B,
b Σ) =
 
 n 
 n 1 X
> > −1
−1 > > −1

= ∇Σ 
− 2 log det Σ − 2 Yi· − Y X(X X) xi· Σ Yi· − Y X(X X) xi· 
 i=1 
| {z }
n
e> −1 Y> M e =tr(M YΣ−1 Y> M )=tr(Σ−1 Y> M Y)
P
i=1 i M YΣ i

n 1 −1 >
= ∇Σ − log det Σ − tr(Σ Y M Y) .
2 2
Zadatak 1.2.2. Za Σ = [σij ], pokažite

∂ −1 ∂
Σ = tr Σ−1 Tij ,

log det Σ = tr Σ
∂σij ∂σij
gdje je Tij matrica koja na mjestima (i, j) i (j, i) ima 1, a na preostalim mjestima 0.
( Uputa: zapišite determinantu matrice pomoću njene adjunkte.)
Takoder vrijedi
∂ ∂ −1
tr(Σ−1 A) = tr Σ A .
∂x ∂x
Zadatak 1.2.3. Pokažite
∂ −1
Σ = −Σ−1 Tij Σ−1 .
∂σij
Sada iz
∂
0= l(B,
b Σ)
∂σij
slijedi
n 1
0 = − tr Σ−1 Tij + tr Σ−1 Tij Σ−1 Y> M Y .

2 2
15
Pretpostavimo da je
b M LE = 1 Y> M Y
Σ
n
rješenje gornjeg sustava (kao matrični analogon jednodimenzionalnog slučaja) i pret-
postavimo da je ta matrica regularna. Uvrštavanjem u dobivene jednadžbe slijedi
n2 n2
tr (Y> M Y)−1 Tij + tr (Y> M Y)−1 Y> M Y(Y> M Y)−1 Tij = 0,

−
2 2
pa, uz pretpostavku regularnosti, vidimo da ta matrica uistinu i jest rješenje gornjeg
sustava.
Zadatak 1.2.4. Pokažite
D(AB) = D(A)B + AD(B),
∂
gdje je D = operator diferenciranja, a A i B su matrične funkcije. Koristeći ovu
∂σij
činjenicu i relaciju Σ−1 Σ = I, riješite zadatak 1.2.3.
Zadatak 1.2.5. Pokažite da je

1
Sn := Y> M Y
n − r(X)
nepristran procjenitelj za Σ.
Rješenje. Stavimo Y = [ Y·1 · · · Y·q ]. Imamo
Y·1> M Y·1 · · · · · · Y·1> M Y·q

 
···
  .. .. ..
Y·1> . . .
 
 
>  ..   .. .. 
Y M Y =  .  M Y·1 · · · Y·q = 
 . · · · Y·i> M Y·j · · · . ,

Y·q>  .. ... .. 
 . . 
> >
Y·q M Y·1 · · · ··· · · · Y·q M Y·q
16
i vrijedi
E Y·i> M Y·j = E (Y·i − XB·i )> M (Y·j − XB·j )

= E e>

·i M e·j
 
ε1j
n n n
" #
X X X  ε2j 
= εki mk1 εki mk2 · · · εki mkn 
 ..


k=1 k=1 k=1
 . 
εnj
" n n
! #
X X
=E εki mkl εlj
l=1 k=1
n X
X n
= mkl E[εki εlj ]
k=1 l=1
= [zbog Eεki = Eεlj = 0 je E[εki εlj ] = cov(εki , εlj )]
X n Xn
= mkl cov(εki , εlj )
k=1 l=1
n X
X n
= mkl σij δkl
k=1 l=1
= σij tr(M ),
pri čemu u prvoj jednakosti koristimo činjenicu da je M ortogonalni projektor na L(X)> .

Budući da je
tr M = tr(I − H) = n − tr H
= [trag projektora jednak je njegovom rangu]
= n − r(H) = n − r(X),
slijedi
E Y·i> M Y·j = (n − r(X))σij ,

a odavde slijedi tvrdnja.
17
1.3 Testiranje hipoteza
Pretpostavimo da želimo testirati vrijedi li za model više varijabli
Y = XB + E (F)
hipoteza da je reducirani model

Y = X0 B0 + E (R)
dovoljan (L(X0 ) < L(X)). Pritom pretpostavljamo vec(E) ∼ Nnq (0, Σ ⊗ In ). Dakle,
imamo hipoteze
H0 : (R) je dovoljan ⇔ Y = X0 B0 + E
H1 : (F ) je potreban (neH0 )
Neka je H = X(X > X)−1 X > ortogonalni projektor na L(X) i H0 = X0 (X0> X0 )−1 X0>
ortogonalni projektor na L(X0 ). Vrijedi H0 H = H0 = HH0 . Stavimo i M = I − H,
M0 = I − H0 .
Multivarijatni test modela (R) bazira se na
(i) hipoteznoj statistici
P = Y> (H − H0 )Y = Y> (M0 − M )Y ∈ Mq ,
(ii) pogreškovnoj statistici

G = Y> M Y ∈ Mq .
Gornji test možemo prikazati i u obliku
H0 : Λ> B = C
H1 : Λ> B 6= C
za neke konkretne matrice Λ, C.
Definicija 1.3. Neka su Xi ∼ Nd (µ

µi , Σ), i = 1, . . . , n, nezavisni normalni slučajni vektori
s istom kovarijacijskom matricom Σ. Kažemo da slučajna matrica reda d
d
X
W = Xi Xi>
i=1
ima Wishartovu distribuciju sa n stupnjeva slobode, kovarijacijskom matricom Σ i

matricom parametara necentraliteta
n
!
1 −1 X
Q= Σ µ iµ >
i .
2 i=1
Pišemo W ∼ wd (n, Σ, Q). Ukoliko je Q ≡ 0, kažemo da je Wishartova distribucija

centralna i pišemo W ∼ wd (n, Σ). Ako je i Σ = Id , kraće pišemo W ∼ wd (n).
18
Vrijedi
n
! n n
X X X
Xi Xi> Xi Xi> tr Xi> Xi

tr(W ) = tr = tr =
i=1 i=1 i=1
n
X n X
X d
= |Xi |2 = [nezavisnost] = Xij2 ,
i=1 i=1 j=1
i uočimo da sumandi u posljednjem izrazu imaju necentralnu χ2 -distribuciju (Wishartova

je distribucija matrični analogon χ2 -distribucije).
Teorem 1.4. Uz pretpostavke normalnosti, pogreškovna statistika G i HY su nezavisne

slučajne veličine i G ∼ wq (n − p, Σ). Ukoliko još pretpostavimo da vrijedi reducirani
model (R), tada su P i G nezavisne i P ∼ wq (p − p0 , Σ).
Dokaz. Imamo
G = Y> M Y = (XB + E)> M (XB + E) = E > M E.
Takoder vrijedi M = U > DM U , H = U > DH U za matrice

   
1 0
 ...   ... 
   
1 0
   
DH =  , D = ,
   
M
0 1
 
   
 . ..
  .. 
   . 
0 1
koje imaju zaredom p, odnosno n − p jedinica na glavnoj dijagonali, tim redom. Odavde
slijedi
Xn
G = E > M E = (U E)> DM (U E) = (U E)1· (U E)>
1· .
i=p+1
Nadalje,
vec(U E) = (Iq ⊗ U ) vec(E) ∼ N (0, (Iq ⊗ U )(Σ ⊗ In )(Iq ⊗ U )> ).

| {z }
Σ⊗In
Dakle, (U E)1· , i = 1, . . . , n, su nezavisni normalno distribuirani slučajni vektori pa po

definiciji slijedi tvrdnja o distribuciji G.
Takoder,
(U E)>
 
1·
..
.
   
(U E)>1·

>

>  (U E)p·
 
HY = H(XB + E) = XB + HE = XB + U > DH  ..
 = XB + U  .
  
. 0
(U E)>
 
n·
 .. 
 . 
0
19
Vidimo da su HY i G funkcije disjunktnih skupova nezavisnih slučajnih vektora pa su to
nezavisne veličine.
Nadalje,
P = Y> (H − H0 )Y
H0
= Y> (H − H0 )E
= E > U > (DH − DH0 )U E.
Uočimo da je DH − DH0 matrica koja na glavnoj dijagonali ima najprije p0 nula, zatim
p − p0 jedinica, i na kraju n − p nula (i na preostalim mjestima nule). Zato je
p
X
P = (U E)i· (U E)>
i· ∼ wq (p − p0 , Σ).
i=p0 +1
Takoder, istim argumentom kao u slučaju HY i G dobijemo da su P i G nezavisne

statistike.
Za opaženu vrijednost y slučajne matrice (uzorka) Y te hipoteze
H0 : (B, Σ) ∈ Θ0
H1 : (B, Σ) 6∈ Θ0
(gdje je θ0 ⊂ Θ = {(B, Σ) : B ∈ Mp,q , Σ ∈ Mq , Σ > 0}), ako se y nalazi u kritičnom

prostoru oblika  
 max L(B, Σ) 
(B,Σ)∈Θ0
y ∈ Mn,q : < c , c < 1,
 max L(B, Σ) 
(B,Σ)∈Θ
odbacujemo H0 u korist H1 3 .
Pritom su vjerodostojnost L i log-vjerodostojnost l dane s
L(B, Σ) = exp(l(B, Σ)),

nq n 1
l(B, Σ) = − log(2π) − log det Σ − tr(Σ−1 Y> M Y).
2 2 2
Imamo

> −1 > 1 >
BM L , ΣM L = (X X) X Y, Y M Y ,
b b
n
pa slijedi

max L(B, Σ) = L B bM L , Σ
bML
(B,Σ)∈Θ
nq n b M L − nq

= exp − log(2π) − log det Σ
2 2 2
− nq − nq
− n
= (2π) 2 e 2 (det Σb M L) 2 .
Za nultu hipotezu
H0 : Y = X0 B0 + E
3
Za takve testove kažemo da su testovi omjera vjerodostojnosti.
20
imamo

> −1 > 1 >
B0 , Σ0 = (X0 X0 ) X0 Y, Y M0 Y ,
b b
n

max L(B, Σ) = L B b 0 = (2πe)− nq2 (det Σ
b0 , Σ b 0 )− n2 ,
(B,Σ)∈Θ0
te za omjer vjerodostojnosti imamo

! n2
L Bb0 , Σ
b0
det Σ
bML det nΣbML
2
λ= <c⇔ <c⇔ < cn .
L BbM L , Σ
bML det Σ
b0 det nΣb0
Uzimajući u obzir definicije pogreškovne i hipotezne statistike, dobivamo

)
b M L = Y> M Y = G
nΣ
⇒ nΣ b 0 = P + G,
n(Σb0 − Σb M L ) = Y> (M0 − M )Y = P
pa zato

n
det n Σ
bML
λ2 =
det nΣ b0
det G
=
det(G + P )
= [Binet − Cauchy]
det G
=
det G det(I + G−1 P )
= det[(I + G−1 P )−1 ],
pri čemu, gdje je potrebno, pretpostavljamo regularnost odgovarajućih matrica.
Zadatak 1.3.1. Pretpostavimo da je dan linearni model više varijabli Y = XB + E, pri

čemu je vec(E) ∼ Nnq (0, Σ ⊗ In ), Σ > 0. Nadite test omjera vjerodostojnosti za hipoteze
H0 : B = B0
6 B0
H1 : B =
gdje je B0 neka unaprijed zadana matrica.
Rješenje. Zadane su hipoteze ekvivalentne sljedećima
H0 : B − B0 = 0
H1 : B − B0 6= 0
Takoder, zadani model možemo transformirati
Y − XB = X (B − B0 ) +E
| {z }0 | {z }
Z C
⇒ Z = XC + E,
21
te za ovaj izvedeni model testiramo hipoteze
H0 : C = 0
6 0
H1 : C =
Stavimo X0 = 0; za ortogonalni projektor na potprostor L(X0 ) imamo H0 = 0. Takoder,

ako sa p označimo rang od X i ako je H = X(X > X)−1 X > ortogonalni projektor na
potprostor L(X),
G = Z> M Z = (Y − XB0 )> M (Y − XB0 ) ∼ wq (n − p, Σ),

H
P = Z> (H − H0 )Z = (Y − XB0 )> H(Y − XB0 ) ∼0 wq (p, Σ).
Dakle, pogreškovna statistika G i hipotezna statistika P su (uz pretpostavku da je is-
punjena nulta hipoteza H0 ) nezavisne matrice pa iz toga možemo odrediti distribuciju
omjera vjerodostojnosti (i time zapravo odrediti kritično područje testa).
22
1.4 Test o parametru očekivanja višedimenzionalne
normalne razdiobe
µ, Σ), Σ > 0. U ma-
Pretpostavimo da je Y1· , Y2· , . . . , Yn· slučajni uzorak iz modela Nq (µ
tričnom zapisu  
Y1·>
 Y> 
 2· 
Y :=  ..  . (1.6)
 . 
Yn·>
Model za taj uzorak je dan s
Y = 1nµ > + E, (1.7)
gdje je  
ε>1·
 ε>2·

E= , Yi·> = µ> + ε>
i· , i = 1, . . . , n,
 
..
 . 
ε>
n·
te su εi· ∼ Nq (0, Σ), i = 1, . . . , n, nezavisni slučajni vektori. Odavde slijedi vec(E) ∼

Nnq (0, Σ ⊗ In ). Takoder,matrica dizajna i matrica parametara modela su dane s
 
1
 1 
X = 1n =  ..  , B = µ > = [ µ1 µ2 · · · µq ].
 
 . 
1
Za testiranje hipoteza
H0 : µ = µ 0
H1 : µ 6= µ 0
(gdje je µ 0 unaprijed zadan) trebamo test analogan Studentovom T-testu u jednodimen-

zionalnom slučaju. Za procjenitelje maksimalne vjerodostojnosti modela vrijedi
b> = (X > X)−1 X > Y = (1> 1)−1 1> Y

µ
1
= [ 1 1 · · · 1 ][ Y·1 Y·2 · · · Y·q ]
n
= [ Y ·1 Y ·2 · · · Y ·q ]
>
=Y ,
23
b = 1 Y> I − 1(1> 1)−1 1> 2 Y

Σ
n
1 > 1 >
= Y Y − 11 Y
n n
1 >

= Y> Y − 1Y
n
1 > >

Y − 1Y>

= Y − 1Y
n
1
=
n  > 
Y1· − Y
 > 
1  Y2· − Y 
= Y1· − Y Y2· − Y · · · Yn· − Y  ..

n 
 .


>
Yn· − Y
n
1X >
= Yi· − Y Yi· − Y
n i=1
n−1
= S,
n
uz n
1 X >
S= Yi· − Y Yi· − Y .
n − 1 i=1
Imamo n
1 X >
[S]jj 0 = Yij − Y ·j Yij 0 − Y ·j 0 ,
n − 1 i=1
što je uzoračka kovarijanca izmedu j-te i j 0 -te komponente slučajnog vektora Y (S je tzv.
empirijska kovarijacijska matrica).
Hipotezna je statistika
P = (HY − XB0 )> (HY − XB0 )

> >
µ> µ>

= 1Y − 1µ 0 1Y − 1µ 0
> >
= Y − µ 0 |{z}
1 1 Y − µ0
n
> H0
= n Y − µ0 Y − µ0 ∼ wq (1, Σ),
a pogreškovna
b = (n − 1)S ∼ wq (n − 1, Σ).
G = nΣ
Uz pretpostavku da je ispunjena hipoteza H0 , statistike P i G su nezavisne.
Takoder, zbog
> > > 1
1> HY = 1> 1Y = nY , Y = 1> Y,
n
24
slijedi

>
1 >
Y = vec Y = vec 1 YIq
n

1 >
= Iq ⊗ 1 vec(Y)
n

1 > 1 > 1
∼ Nq Iq ⊗ 1 ((Iq ⊗ 1) vec(B)) , Iq ⊗ 1 (Σ ⊗ In ) Iq ⊗ 1
n n n

1 1
= Nq (Iq ⊗ 1) µ , Σ ⊗ = Nq µ , Σ
n n
(uočimo da vrijedi vec(Y) ∼ Nnq ((Iq ⊗ 1n ) vec(B), Σ ⊗ In ) = Nnq ((Iq ⊗ 1n ) µ , Σ ⊗ In ))

Želimo odrediti testnu statistiku za dane hipoteze. Definiramo Hotellingovu statis-
tiku kao
T 2 := (n − 1) tr(P G−1 )

1 −1
= (n − 1) tr n Y − µ 0 Y − µ 0 S
n−1
h > i
= n tr Y − µ 0 S −1 Y − µ 0
>
= n Y − µ 0 S −1 Y − µ 0 .

Hotellingova je statistika analogna Studentovoj T-statistici. Test omjera vjerodostojnosti

bit će ekvivalentan testiranju ove statistike uz dano kritično područje ako i samo ako je
omjer vjerodostojnosti bijektivna transformacija te statistike. Sljedeća nam propozicija
govori da to uistinu i jest tako.
Propozicija 1.5. Omjer vjerodostojnosti za testiranje hipoteza
H0 : µ = µ 0
H1 : µ 6= µ 0
je dan s
− n2
1
λ= 1+ T2 .
n−1
Dokaz. Vrijedi
n
λ = det(In + G−1 P )− 2
− n2
1 >
S −1 n Y − µ 0 Y − µ 0

= det In + .
n−1
Za sredivanje dobivenog izraza koristimo sljedeću pomoćnu tvrdnju.
Lema. Za A ∈ Mp,q i B ∈ Mq,p slijedi
det(Ip + AB) = det(Iq + BA).
25
Dokaz. Imamo

Ip + AB A Ip A Ip 0
= ,
0 Iq −B Iq B Iq

Ip A Ip 0 Ip A
= .
0 Iq + BA B Iq −B Iq
Primjenom Binet-Cauchyjevog teorema (i činjenice da je determinanta gornje, tj.

donje trokutaste blok matrice jednaka umnošku determinanti blokova na glavnom
dijagonali) slijedi da matrice na lijevim stranama imaju jednake determinante, a
odavde (primjenom istih argumenata) slijedi tvrdnja.
Primjenom leme dobivamo

n
> − 2

1 −1

λ = det In + S n Y − µ0 Y − µ0
n−1
n
−2

n > −1
= det 1 + Y − µ0 S Y − µ0
n−1
− n2
1
= 1+ T2 .
n−1
Zadatak 1.4.1. Neka je A ∼ wd (m), m > d. Pokažite da je tada A g.s. regularna

matrica.
Rješenje. Uočimo da se A po distribuciji može zapisati u obliku

m
D
X
A= Xi Xi> ,
i=1
gdje su slučajni vektori Xi ∼ Nd (0, Id ) nezavisni.

D
Označimo Q> = X1 X2 · · · Xm . Tada A = Q> Q i vrijedi (sa r označavamo

rang matrice)
d > r(A) = r(Q> Q) = r(Q> ) = r X1 X2 · · · Xm > r X1 X2 · · · Xd .

Tvrdimo
P det X1 X2 · · · Xd = 0 = 0.
Za to je dovoljno pokazati da determinanta ima neprekidnu distribuciju. No, prema
definiciji determinante
X
(−1)I(σ) X1σ(1) X2σ(2) · · · Xdσ(d) ,

det X1 X2 · · · Xd =
σ∈Sd
(sa Sd označavamo skup svih permutacija skupa {1, . . . , d}, a sa I(σ) broj inverzija per-
mutacije σ) pa determinanta kao linearna kombinacija umnožaka neprekidnih slučajnih
varijabli i sama ima neprekidnu distribuciju (alternativno, ovu smo činjenicu mogli pokazati
i matematičkom indukcijom po redu matrice, koristeći Laplaceov razvoj).
26
Sada imamo g.s.
det X1 X2 · · · Xd > 0,
g.s.
pa je matrica X1 X2 · · · Xd g.s. regularna, a zbog toga je r X1 X2 · · · Xd =
d. Dakle g.s.
d > r(A) > d,
a odavde slijedi tvrdnja.
Pomoću ovog zadatka možemo opravdati upotrebu S −1 , tj. pokazati da S jest regu-
larna matrica. Imamo
(n − 1)S ∼ wq (n − 1, Σ),
uz n − 1 > q (u primjenama je to općenito ispunjeno). Zato
n−1
X
(n − 1)S = Xi Xi> ,
i=1
njd 1 1 njd
gdje X1 , . . . , Xn−1 ∼ Nq (0, I). Zato je Σ− 2 X1 , . . . , Σ− 2 Xn−1 ∼ Nq (0, I) i po definiciji
vrijedi
n−1 1 >
− 12 − 12 1
X
(n − 1)Σ SΣ = Σ− 2 Xi Σ− 2 Xi ∼ wq (n − 1).
i=1
1 1
Dakle, vidimo da je matrica A = (n − 1)Σ− 2 SΣ− 2 regularna pa je i S regularna kao
umnožak regularnih matrica
1 1
S = Σ 2 AΣ 2
(sličan argument zapravo možemo primijeniti općenito kod hipoteznih i pogreškovnih
statistika).
Definicija 1.6. Kažemo da slučajna varijabla Z ima necentralnu F -distribuciju s
parom stupnjeva slobode (m, n) i parametrom necentralnosti δ ako postoje nezavisne
slučajne varijable X ∼ χ2 (m, δ), Y ∼ χ2 (n) takve da
D X/m
Z= .
Y /n
Pišemo Z ∼ F (m, n; δ).
Propozicija 1.7. Ako su Z ∼ Nd (δδ , I), W ∼ wd (m), m > d, nezavisne, tada

m − d + 1 > −1 1 >
Z W Z ∼ F d, m − d + 1; δ δ .
d 2
Dokaz. Neka je U slučajna ortogonalna matrica kojoj je prvi redak jednak
Z
|Z|
(takva uistinu postoji, možemo ju dobiti npr. Gram-Schmidtovim postupkom). Tada je
U Z = |Z|e1 i imamo
m − d + 1 > −1 −1
Z W Z = (U Z)> U > W U UZ
d | {z }
V
m − d + 1 2 > −1
= |Z| e1 V e1 .
d
27
Uvjetna distribucija od V uz dano Z = z je Wishartova distribucija w(m) jer je
m
X m
X
UW U> = U Xi Xi> U > = (U Xi )(U Xi )> ,
i=1 i=1
njd njd
a kako je X1 , . . . , Xm ∼ Nd (0, I), to je i U X1 , . . . , U Xm ∼ Nd (0, I). Dakle, V | Z =
z ∼ w(m). Nadalje, budući da uvjetna distribucija od V ne ovisi o Z, bezuvjetno je
V ∼ w(m) i V i Z su nezavisne slučajne veličine.
Stavimo
v11 V12>

V = .
V12 V22
Uz pretpostavku regularnosti matrice V22 imamo
 > 
1 1 −1
> V −1 V − v −V > V −1 V V22 V12
V −1 =  v11 −V12 22 12 11 12 22 12
2
,
− v −V >1V −1 V V22−1 V12 V22−1 + v −V|V>12V| −1 V V22−1
11 12 22 12 11 12 22 12
pa slijedi
m − d + 1 > −1 |Z|2 /d
Z W Z= .
d (v11 − V12> V22−1 V12 )/(m − d + 1)
Vrijedi
d
2
X 1 >
|Z| = Zi2 ∼χ 2
d, δ δ ,
i=1
2
i po konstrukciji je ta varijabla nezavisna od v11 − V12> V22−1 V12 . Preostaje pokazati
R = v11 − V12> V22−1 V12 ∼ χ2 (m − d + 1).

m
njd
X
Stavimo V = Xi Xi> , gdje X1 , . . . , Xm ∼ Nd (0, I). Takoder stavimo
i=1
 
X1>
 X2> 
Q= = X | Y ,
 
..
 . 
>
Xm
gdje je X vektor-stupac, a matrica Y ima d − 1 stupaca. Tada imamo

> >
X X X >Y

X
V = X Y = ,
Y> Y >X Y >Y
a odavde vidimo V22 = Y > Y . Zbog
d − 1 > r(V22 ) = r(Y ) > d − 1
(pri čemu druga nejednakost slijedi iz zadatka 1.4.1), slijedi da je matrica V22 regularna.
28
Nadalje,
R = v11 − V12> V22−1 V12

= X > X − X > Y (Y > Y )−1 Y > X
= X > (I − Y (Y > Y )−1 Y > )X
| {z }
MY
= (MY X, X),
pri čemu smo sa MY označili ortogonalni projektor na L(Y )⊥ . Otprije (pogledati lit-
eraturu kolegija Statistika s 3. godine preddiplomskog studija) da vrijedi (MY X, X) ∼
χ2 (My ). Dakle, R | Y = y ∼ χ2 (m − d + 1), no ta uvjetna distribucija ne ovisi o Y , pa
slijedi R ∼ χ2 (m − d + 1), pa slijedi tvrdnja propozicije.
Propoziciju 1.7 možemo primijeniti u slučaju Hotellingove statistike (želimo odrediti
distribuciju testne statistike).
Propozicija 1.8. Za n > q + 1 imamo

n−q 1 1 >
· T2 ∼ F q, n − q; δ δ ,
q n−1 2
√ 1
uz δ = nΣ− 2 (µ
µ − µ 0 ).
Dokaz. Imamo
n−q 1 n−q >
T2 = · n Y − µ 0 [(n − 1)S]−1 Y − µ 0 .

·
q n−1 q
Takoder,
√ √

1 1 1

Y − µ 0 ∼ Nd µ − µ 0 , Σ ⇒ nΣ− 2 Y − µ 0 ∼ Nd nΣ− 2 (µ

µ − µ 0 ), Iq ,
n
1 1
(n − 1)S ∼ wg (n − 1, Σ) ⇒ (n − 1) Σ− 2 SΣ− 2 ∼ wq (n − 1),
pa stavljanjem √
1 1 1
nΣ− 2 Y − µ 0 , W = (n − 1)Σ− 2 SΣ− 2

Z=
√ 1
imamo m = n − 1, d = q, δ = nΣ− 2 (µ
µ − µ 0 ) te
n−q 1 n − q > −1
· T2 = Z W Z,
q n−1 q
a odavde, primjenom propozicije 1.7, slijedi tvrdnja.
Korolar 1.9. Uz iste pretpostavke na model (1.7), (1 − α) · 100% pouzdano područje za
vektor parametara µ je slučajni elipsoid
> (n − 1)q
n Y−µ S −1 Y − µ 6 fα (q, n − q),
n−q
gdje je fα (q, n − q) (1 − α)-kvantil centralne F -distribucije, F (q, n − q).
Dokaz. Slijedi direktno iz propozicije 1.8 uz µ 0 = µ .
29
Zadatak 1.4.2. Uz iste pretpostavke na model (1.7), sprovedite test sljedećih hipoteza
H0 : µ 1 − µ 3 = 0
H1 : µ 1 − =
6 µ 3 6= 0
pri čemu µ = (µ1 , µ2 , . . . , µq ), q > 3.
Rješenje. Stavimo
a> =

1 0 −1 0 · · · 1 .
Imamo a>µ = µ1 − µ3 , pa zadane hipoteze možemo zapisati u sljedećem obliku
H0 : a>µ = 0
H1 : a>µ 6= 0
Neka je  
Y1·>
 Y2·> 
Y= , Yi· ∼ Nq (µ
µ, Σ),
 
..
 . 
Yn·>
slučajni uzorak za vektor odziva Y . Definiramo
Xi := a> Yi· = Yi1 − Yi3 ∼ N1 (a>µ , a> Σa),
gdje je matrica a> Σa pozitivno definitna. Tada je

 
X1
 X2 
Ya =  .. 
 
 . 
Xn
slučajni uzorak iz univarijatne normalne distribucije pa je odgovarajuća testna statistika
X n − 0 √ H0
T = n ∼ t(n − 1),
Sn
i problem je sveden na Studentov T -test.
Zadatak 1.4.3. Poopćite zadatak 1.4.2 tako da sprovedete test hipoteza
H0 : A>µ = c
H1 : A>µ 6= c
gdje je A ∈ Mq,r , q > r, r(A) = r, c ∈ Rr .
Rješenje. Neka je  
a>1
>
 a>2

A = .
 
..
 . 
a>
r
30
Definirajmo
Z := YA
 
Y1·>
=  ...  a1 a2 · · · aR
 
Yn·>
 
Y1·> a1 · · · Y1·> ar
=  ... ... ..  .

. 
> >
Yn· a1 · · · Yn· ar
Iz
Y = 1nµ > + E, vec(E) ∼ Nnq (0, Σ ⊗ In )
slijedi
YA = 1n (A>µ )> + EA,
 
vec(EA) = vec(In EA) = (A> ⊗In ) vec(E) ∼ Nnr (A> ⊗ Iq )0, (A> ⊗ In )(Σ ⊗ In )(A> ⊗ In )>  ,
 
| {z }
=(A> ΣA)⊗In
pa uz dodatne supstitucije ν := A>µ , F = EA imamo izvedeni model
Z = 1nν > + F, vec(F ) ∼ Nnr 0, (A> ΣA) ⊗ In ,

pri čemu je matrica (A> ΣA)⊗In pozitivno definitna (matricu Σ smo pomnožili matricom
punog ranga). Hipoteze u skladu s ovim supstitucijama sada glase
H0 : ν = c
H1 : ν 6= c
te je Hotellingova statistika za ove hipoteze dana s

>
T 02 = n Z − c (A> SA)−1 Z − c .

31
1.5 Višestruka korelacija
Definicija 1.10. Neka je
X1
X=
X2
p-dimenzionalni slučajni vektor (X2 je (p − 1)-dimenzionalni vektor). Tada je koeficijent
višestruke korelacije R izmedu slučajne varijable X1 i slučajnog vektora X2 maksimalni
p−1
X
>
koeficijent korelacije izmedu X1 i t X2 = ti X2i , za sve t ∈ Rp−1 , tj.
i=1
R = max
p−1
corr(X1 , t> X2 ).
t∈R
Pretpostavimo EX = 0 te
σ11 σ >

21
cov(X) = , Σ22 = cov(X2 ).
σ 21 Σ22
Za bilo koji λ > 0 imamo
cov(X1 , λt> X2 )
corr(X1 , λt> X2 ) = p
Var X1 Var(λt> X2 )
λ cov(X1 , t> X2 )
= p
λ Var X1 Var(t> X2 )
= corr(X1 , t> X2 ).
Zato bez smanjenja općenitosti možemo uzeti Var(t> X2 ) = 1. Naime,
Var(t> X2 ) = cov(t> X2 ) = t> cov(X2 )t = t> Σ22 t,

1
pa za λ2 := l> Σ2 2l, l 6= 0, stavljanjem t = l imamo Var(t> X2 ) = 1.
λ
Uočimo da je skup T = {t ∈ Rp−1 : t> Σ22 t = 1} kompaktan pa maksimum iz definicijske
relacije za R po tom skupu postoji. Zato imamo
Pp−1 !2
cov(X 1 , X2i )
R2 = max i=1
√ ,
t∈T σ11
Pp−1 !2 2 2
σ> t

cov(X1 , X2i ) (t, σ 21 )
i=1
√ = √21 = √
σ11 σ11 σ11
(t, AA−1σ 21 )2 (At, A−1σ 21 )2
= =
σ11 σ11
2 −1
SC |At| |A σ 21 | 2
σ Σ−1σ 21
>
6 = 21 22 ,
σ11 σ11
pri čemu odaberimo skalar λ i matricu A tako da
λt = Σ−1
22 σ 21 , A−1σ 21 = λAt.
32
Dakle,
−1
σ>21 Σ22 σ 21
R2 = .
σ11
Za procjenu koeficijenta višestruke korelacije imamo
>

> v11 v21
(n − 1)S = Y − Y Y−Y =
v21 V22
> −1
⇒R b2 = v21 V22 v21 .
v11
Višestruki se koeficijent korelacije primjenjuje za testiranje hipoteze
H0 : X1 i X2 nezavisni ⇔ R = 0
(naime, u normalnoj distribuciji nekoreliranost povlači nezavisnost).
33
1.6 Parcijalna korelacija
Neka je
X1 µ1 Σ11 Σ12
X= ∼ Np , , Σ22 > 0,
X2 µ2 Σ21 Σ22
gdje p = p1 + p2 (X1 i X2 su vektori dimenzija p1 i p2 , respektivno), Σ12 = Σ>
21 =
cov(X1 , X2 ).
Lema 1.11.
X1 | X2 = x2 ∼ Np1 µ 1 + Σ12 Σ−1 −1

22 (x2 − µ 2 ), Σ11 − Σ12 Σ22 Σ21
Dokaz. Za B := Σ12 Σ−1

22 vrijedi
Σ11 − Σ12 Σ−1

I −B Σ11 Σ12 I 0 22 Σ21 0
= .
0 I Σ21 Σ22 −B > I 0 Σ22
Budući da je

I −B X1 µ 1 − Bµ
µ2 I −B Σ11 Σ12 I 0
∼ Np , ,
0 I X2 µ2 0 I Σ21 Σ22 −B > I
slijedi
Σ11 − Σ12 Σ−1

X1 − BX2 µ 1 − Bµ
µ2 22 Σ21 0
∼ Np , ,
X2 µ2 0 Σ22
D
pa vidimo da su vektori X1 −BX2 i X2 nezavisni te vrijedi X1 −BX2 | X2 = x2 = X1 −BX2 .
No sada
(X1 | X2 − x2 ) = (X1 − BX2 + BX2 | X2 = x2 )
= (X1 − BX2 | X2 = x2 ) + Bx2
D
= X1 − B(X2 − x2 )

I −B X1 I −B 0
∼ − ,
0 I X2 0 I x2
što je tražena distribucija.
Napomena. Ukoliko Σ22 nije regularna, tvrdnja leme vrijedi zamjenom Σ−1 22 general-
− − −1
iziranim inverzom Σ22 od Σ22 , tj. takvom matricom Σ22 za koju vrijedi Σ22 Σ22 Σ−1 −
22 = Σ22 .
Definicija 1.12. Koeficijent parcijalne korelacije izmedu i-te komponente X1i i j-te
komponente X1j vektora X1 je (i, j)-ti element korelacijske matrice
1 −1
D− 2 Σ11 − Σ12 Σ−122 Σ21 D
2,
gdje je D = diag Σ11 − Σ12 Σ−1

22 Σ21 . Oznaka za (i, j)-tu parcijalnu korelaciju je rij | X2 .
Imamo

V11 V12
V := (n − 1)S = ∼ wp (n − 1, Σ), V12 = V21> .
V21 V22
Zadatak 1.6.1. Dokažite da vrijedi
V11 − V12 V22−1 V22 ∼ wp1 (n − 1 − p2 , Σ11 − Σ12 Σ−1
22 Σ21 ).
34
1.7 MANOVA (Višedimenzionalna analiza varijance)
Pretpostavimo da imamo k > 2 nezavisnih uzoraka
njd
Yi1 , . . . , Yini ∼ Nq (µ
µi , Σ), i = 1, . . . , k, Σ > 0.
Želimo testirati
H0 : µ 1 = µ 2 = . . . = µ k
Stavimo
Y11>
 
 Y12> 
..
 
 
 . 
>
 
 Y1n    

 Y21>
1 
 1n1 µ>1
 ..   1n2  µ>2

Y= . =  +E,
    
...  ..
 >
Y2n
   . 
2
µ>
 
 ..  1nk k

 .  |
 {z } | {z }
> X B

 Yk1 

 .. 
 . 
>
Ykn k
te uz n = n1 + . . . + nk imamo vec(E) ∼ Nnq (0, Σ ⊗ In ). Imamo
H0 : µ 1 = µ 2 = . . . = µ k ⇔ Y = 1n µ > +E.
|{z} |{z}
X0 B0
Imamo  
1n1
 1n2 
L(X0 ) < L   = L(X).
 
 ... 
1nk
Takoder,
HY = X(X > X)−1 X > Y

1
   
1n1 n1 1>
n1
 
1 Y 1
 1n2 
n2
 1>
n2

  .. 
=
  
...  ..  ..  . 
  .  . 
Yk
1nk 1
nk
1>
nk
 >

1n1 n11 1>

n1 Y1 1n1 Y1
1 > >
1n2 n2 1n2 Y2  

  1n2 Y2 
.
 .. 
 ..
 .  .


1nk n1k 1> Y
nk k 1nk Yk
>
35
Hipotezna je statistika
P = Y> (H − H0 )Y = [(H − H0 )Y]> (H − H0 )Y

 >   >
1n1 Y1 1n1 Y
..   .. 
=   −  .  (H − H0 )Y

.
>
1nk Yk 1nk Y
k
X >
= n i Yi − Y Yi − Y = SST.
i=1
Pogreškovna je statistika
G = Y> M Y
ni
k X
X >
= Yij − Yi Yij − Yi
i=1 j=1
k
X
= (ni − 1)Si = SSE.
i=1
Znamo SSE = G ∼ wq (n − k, Σ). Ako vrijedi H0 , imamo još i SST = P ∼ wq (k − 1, Σ)

te su P i G nezavisne statistike. Nadalje, omjer vjerodostojnosti Λ je dan s
2 det SSE
Λn = .
det(SSE + SST )
Definicija 1.13. Kažemo da slučajna varijabla X ima U -distribuciju ako postoje neza-
visne slučajne matrice reda p, W ∼ wp (n), W2 ∼ wp (m), takve da m + n > p i
D det W1
U= ∼ U (p; m, n).
det(W1 + W2 )
U literaturi se ova distribucija još zove i Wilksova λ-distribucija.
Propozicija 1.14. Za omjer vjerodostojnosti Λ, ukoliko je ispunjeno
H0 : µ 1 = µ 2 = . . . = µ k
vrijedi
2
Λ n ∼ U (q; k − 1, n − k).
Napomena. Vrijedi sljedeći asimptotski rezultat
D/H0
−2 log Λ −−−→ χ2 (q(k − 1)) , n → ∞.
| {z }
χ2 (dimΘ−dimΘ0 )

1
SSE := S
n−k
nepristran procjenitelj za Σ.
36
Zadatak 1.7.2. Nadite pogreškovnu i hipoteznu statistiku te njihove razdiobe za hipoteze
H0 : Λ> B = C
H1 : Λ> B 6= C
u višestrukom linearnom modelu q varijabli
Y = XB + E
sa n opservacija, pričemu pretpostavljamo
vec(E) ∼ Nnq (0, Σ ⊗ In ), Σ > 0,
r(Λ) = r 6 p, Λ ∈ Mp,r , C ∈ Mr,q .
Rješenje. 1◦ Nadimo procjenitelj vektora parametara θ u višestrukom linearnom mod-

elu jedne varijable
Y = Xθθ + ε
uz uvjet da je A>θ = c. Ovdje se Y ∈ Mn,1 , X ∈ Mn,p , θ ∈ Rp ≡ Mp,1 , A ∈ Mp,r ,
r(A) = r > p, c ∈ Rr ≡ Mr,1 .
Dakle, treba naći θb tako da vrijedi
|Y − X θb|2 = min |Y − Xθθ |2 .

A>θ =c
Gornju jednadžbu rješavamo pomoću Lagrangeovih multiplikatora:

1
L(θθ , λ ) := |Y − Xθθ |2 + λ > (A>θ − c), λ ∈ Rr ,
2
c = (X > X)θθ − X > Y + Aλ
λ = 0,
Dλ L(θθ , λ ) = A>θ − c = 0.
Imamo
λ = X > Y − (X > X)θθ
Dθ L(θθ , λ ) = 0 ⇒ Aλ /(X > X)−1 ·
⇒ (X > X)−1 Aλ
λ = (X > X)−1 X > Y − θ /A> ·
⇒ A> (X > X)−1 Aλ
λ = A> (X > X)−1 X > Y − A>θ .
Uočimo da je A> (X > X)−1 A kvadratna matrica reda r. Takoder, matricu (X > X)−1
možemo dijagonalizirati, tj. možemo pisati D = U (X > X)−1 U > , gdje je D dijag-
onalna, a U ortogonalna matrica. Označimo stupce matrice (U A)> redom sa b1 ,
b2 , . . ., br (oni su linearno nezavisni jer smo matricu A punog ranga pomnožili
regularnom matricom). Sada je
r(A> (X > X)−1 A) = r(A> U > DU A)

  
b>1
= r  ...  D b1 · · · br
  

b>r
>
= r bi Dbj = r,
37
pri čemu posljednja jednakost vrijedi jer je b>

i Dbj Gramova matrica, i to do-
bivena skalarnim množenjem (u odnosu na odgovarajući težinski skalarni produkt)
r linearno nezavisnih vektora. Dakle, matrica A> (X > X)−1 A je regularna pa imamo
!
> > −1
−1 > > −1 > >
λ = A (X X) A A (X X) X Y − |{z} A θ
=c
−1
⇒ θb = (X > X)−1 X > Y − (X > X)−1 A A> (X > X)−1 A A> (X > X)−1 X > Y − c .

Stavimo
−1
H − H0 := X(X > X)−1 A A> (X > X)−1 A A> (X > X)−1 X > .
Odavde se dobije da je H0 projektor i H0 H = HH0 = H0 , pa H0 projicira na
−1
potprostor od L(X), L(X0 ). Uz c0 := (X > X)−1 A A> (X > X)−1 A c ∈ L(X0 )
(jer H0 c0 = 0) slijedi
X θb = HY − (H − H0 )Y + c0
(želimo usporedivati Y i Xθθ ).
2◦ Primijenimo sada 1◦ na zadane hipoteze. Imamo
vec(Y) = (Iq ⊗ X) vec(B) + vec(E),
pa vrijedi
Λ> B = C ⇔ vec(Λ> BIq ) = vec(C)
⇔ (Iq ⊗ Λ)> vec(B) = vec(C) .
| {z } | {z } | {z }
A> θ c
Prema H0 ,
(Iq ⊗ X) vec(B
b0 ) = (Iq ⊗ H) vec(Y)
− Iq ⊗ X(X > X)−1 Λ(Λ> (X > X)−1 Λ)−1 Λ> (X > X)−1 X > vec(Y)

+ Iq ⊗ X(X > X)−1 Λ(Λ> (X > X)−1 Λ)−1 vec(C)

⇒ XB
b0 = H0 Y + C0 ,
uz C0 := (X > X)−1 Λ(Λ> (X > X)−1 Λ)−1 C.
3◦ Odredimo omjer vjerodostojnosti za zadani test (umjesto fiksne vrijednosti B0 u
izrazu za l(B, Σ) stavimo B
b0 ). Slijedi,
G = Y> M Y, M = IH ,
te
P = (Y − XB0 )> (Y − X Bb0 ) − Y> M Y
= (M Y + X(Bb−B b0 ))> (M Y + X(B b0 )) − Y> M Y
b−B
= [X B
b = HY]
= (HY − X B
b0 )(HY − X B
b0 )
= (HY − H0 Y − C0 )> (HY − H0 Y − C0 )
= ((H − H0 )(Y − C0 ))> ((H − H0 )(Y − C0 ))
= (Y − C0 )> (H − H0 )(Y − C0 ).
38
Imamo G ∼ wq (n − p, Σ), r(H) = p. Uz pretpostavku H0 , G i P su nezavisne i
P ∼ wq (r(H − H0 ), Σ). Budući da je H − H0 projektor, vrijedi
r(H − H0 ) = tr(H − H0 ) = tr(Ir ) = r.
Zadatak 1.7.3. Nadite pogreškovnu i hipoteznu statistiku te njihove razdiobe za hipoteze

H0 : Λ> BΠ = C
H1 : Λ> BΠ 6= C
u modelu sa q varijabli
Y = XB + E
i n opservacija, uz
vec(E) ∼ Nnq (0, Σ ⊗ In ), Σ > 0,
r(Λ) = r 6 p, Λ ∈ Mp,r , Π ∈ Mq,s , r(Π) = s 6 q, C ∈ Mr,s .
Odredite i razdiobu omjera vjerodostojnosti.
Rješenje. Imamo
Y = XB + E /·Π
⇒ YΠ = X(BΠ) + EΠ.
Stavimo    
Y1·> Y1·> Π
YΠ =  ...  Π =  ...  =: Z.
   
Yn·> Yn·>
Dakle, Z = Π> Y . Stavimo još
B
e := BΠ, E
e := EΠ, e := Π> ΣΠ.
Σ
Imamo vec(EΠ) = vec(In EΠ) = (Π> ⊗In ) vec(E) ∼ Nns (0, (Π> ⊗ In )(Σ ⊗ In )(Π> ⊗ In )> ),
| {z }
Π> ΣΠ⊗In
te su izvedene hipoteze
H0 : Λ> B
e=C
H1 : Λ> B
e 6= C
u modelu Z = X B e + E,
e vec(E)e ∼ Nns (0, Σ
e ⊗ In ), Σ
e > 0. Ovime smo zadatak sveli na
prethodni.
Tako je pogreškovna statistika
G = Z> M Z = Π> Y> M YΠ ∼ ws (n − p, Σ),
e
hipotezna
H
P ∼0 ws (r, Π> ΣΠ),
a omjer vjerodostojnosti
2 det G H0
Λn = ∼ U (s; r, n − p).
det(P + G)
39
Poglavlje 2
Diskriminacija i alokacija
Neka je dano k različitih q-dimenzionalnih populacija te neka je zadana jedna opser-

vacija Y ∈ Rq za koju ne znamo kojoj populaciji pripada. Kako ćemo Y alocirati nekoj
populaciji? Tri su moguće metode:
(1) Pretpostavimo da su te populacije zadane svojim vektorima očekivanja µ i i kovari-
jacijskim matricama Σi , i = 1, . . . , k. Za svaki i = 1, . . . , k računamo tzv. Maha-
lanobiusovu udaljenost vektora Y i µ i
Di (Y ) := (Y − µ i )> Σ−1
i (Y − µ i ).
Tada Y alociramo onoj populaciji i0 za koju vrijedi

Di0 (Y ) = min Di (Y ).
16i6k
(2) Ako su nam poznati zakoni razdioba svake od k populacija, tada možemo definirati
vjerodostojnost populacije i
L(i) := f (Y | i),
gdje je f (· | i) gustoća vektora Y u toj populaciji. Sada Y alociramo onoj populaciji
i0 za koju vrijedi
L(i0 ) = max L(i).
16i6k
(3) Bayesovska metoda se koristi ukoliko imamo apriorne informacije (razdiobu) o

indeksu i, prezentiranu gustoću Π(i), i poznate distribucije (gustoće) veličine koju
opažamo kod svih k populacija, f (· | i). Definiramo nove vjerodostojnosti
f (Y | i)Π(i)
L(i | Y ) = k
X
f (Y | j)Π(j)
j=1
i Y alociramo onoj populaciji za koju je ta vjerodostojnost maksimalna.

Napomena. (a) Ukoliko pretpostavimo da je u svim populacijama opažana veličina
q-dimenzionalna normalna, tj. iz Nq (µ µi , Σi ), i = 1, . . . , k, tada je MLE za i (2.
pristup) onaj i0 koji minimizira funkciju
i 7→ det Σi + Di (Y ).
Ukoliko dodatno pretpostavimo jednakost kovarijacijskih matrica Σ1 = Σ2 = . . . =
Σk = Σ, onda se metode 1 i 2 podudaraju.
40
(b) Ukoliko u 3. pristupu imamo
1
Π(i) = , i = 1, . . . , k,
k
tj. apriorne distribucije su uniformne, tada su pristupi 2 i 3 ekvivalentni.
(c) Ako vrijedi (b) i dodatna pretpostavka iz (a), sva su tri pristupa ekvivalentna.
41
2.1 Procijenjena alokacija
Promatrajmo sljedeći praktični problem: prvi i drugi moment zadanih populacijskih raz-
dioba opservacije Y su nepoznati.
Pretpostavimo da opservacija Y u svih k populacija ima q-dimenzionalnu normalnu
µi , Σi ). U tom su slučaju
razdiobu s očekivanjem µ i i kovarijacijskom matricom Σi , Nq (µ
µi i Σi procijenjeni iz modela za Y (opaženih uzoraka iz populacije i). Odgovarajući su
procjenitelji
ni
1 X
bi = Y i· =
µ Yij ,
ni j=1
n
i
1 X
Σ
b i = Si = (Yij − Y i· )(Yij − Y i· )> .
ni − 1 j=1
Neka je sada y novo opažanje od Y iz nepoznate populacije. Tada se Y alocira pomoću
(1) procijenjene Mahalanobiusove udaljenosti
i 7→ (Y − yi )Si−1 (Y − yi ) =: D
b i (Y ),
(2) pomoću MLE

i 7→ det Si + D
b i (Y ).
Pretpostavimo da su sve populacijske kovarijacijske matrice jednake, Σ1 = Σ2 =

. . . = Σ. U tom slučaju iz uzoraka treba procijeniti µ 1 , . . . , µ k , Σ. U tu svrhu koristimo
MANOVA-u
k
1 X
bi = yi , Σ
µ b=S= (ni − 1)Si , n = n1 + . . . + nk .
n − k i=1
Treba minimizirati funkciju

b i (Y ) = (Y − yi· )> S −1 (Y − yi· ) = Y > S −1 Y − 2y>
i 7→ D i· S
−1
Y + y>
i· S
−1
yi· ,
što je ekvivalentno minimiziranju funkcije

b i (Y ) = −2y>
i 7→ K i· S
−1
Y + y>
i· S
−1
yi·
koja je linearna po Y (baza linearne diskriminacijske metode).
Napomena. Ova se metoda zove linearna diskriminacijska metoda. Ta je metoda

robusna na odstupanja od normalnosti, tj. činjenica da prava populacija nije normalna
neće utjecati na metodu, neosjetljiva je na promjene u pretpostavkama.
Tako, na primjer, kod deskriptivnih statistika, aritmetička sredina nije robustan proc-
jenitelj za matematičko očekivanje (na nju jako utječu promjene ekstremnih vrijednosti
u uzorku), dok je medijan robustan procjenitelj za matematičko očekivanje.
42
2.2 Linearne diskriminacijske koordinate
Koordinatni se sustav u Rq transponira na način da se uzorci iz raznih populacija na
neki način maksimalno separiraju u svakoj koordinati. Drugim riječima, treba naći takve
linearne kombinacije komponenata opservacija koje ih maksimalno separiraju od ostalih
grupa populacija. U tu svrhu koristimo jednofaktorski MANOVA model
 
1n1  
µ>
1
 1n2 
 . 
Y = XB + E, X =   , B =  ..  , (2.1)
 
. .
 .  >
µk
1nk
uz vec(E) ∼ Nnq (0, Σ ⊗ In ), Σ > 0.

Za bilo koji vektor y = (y1 , . . . , yq )> ∈ Rq prva se linearna diskriminacijska koordinata
definira kao skalarni produkt
y> a1 ,
gdje se vektor a1 ∈ Rq bira na način da uzorak iz jednodimenzionalnog jednofaktorskog
ANOVA modela
Ya1 = X(Ba1 ) + Ea1 (2.2)
ima maksimalnu moguću vrijednost pripadne F -statistike za testiranje uobičajene nul-
hipoteze o jednakosti očekivanja (maksimizacija F -statistike znači dobivanje najmanje
p-vrijednosti). Ta je statistika (do na faktor koji ne utječe na maksimizaciju)
(Ya1 )> H − n1 1n 1>

n Ya1 a>
1 P a1
F (a1 ) = >
= >
, (2.3)
(Ya1 ) (I − H)Ya1 a1 Ga1
uz
1
1 1>
 
n1 n1 n1
H=
 ..  , n = n1 + . . . + nk ,

.
1
1 1>
nk nk nk
gdje su P i G odgovarajuća hipoetzna i pogreškovna statistika za nul-hipotezu jednakosti

očekivanja u MANOVA modelu.
Druga linearna diskriminacijska koordinata, y> a2 , bira se na način da se maksimizira
izraz
a>2 P a2
F (a2 ) = >
a2 Ga2
uz uvjet a> >
1 Ga2 = 0, tj. da je a2 ⊥ a1 u odnosu na skalarni produkt hx, yi := y Gx.
Sjetimo se,
k
1 X
G=S= (ni − 1)Si .
n − k i=1
Općenito, k-ta linearna diskriminacijska koordinata, y> ak , je ona koja maksimizira izraz
a>
k P ak
F (ak ) = >
ak Gak
uz uvjet da je ak ⊥ a1 , . . . , ak−1 u odnosu na skalarni produkt h·, ·i.
43
Linearne diskriminacijske koordinate ne moraju biti jedinstvene. Madutim, ako uvedemo
dodatni uvjet da su a1 , a2 , . . . , aq normirani vektori, tj. a> i Gai = 1, i = 1, . . . , q (dakle,
q
{a1 , . . . , aq } je ortonormirana baza za R u odnosu na h·, ·i), tada će te koordinate biti
jedinstvene.
−1
Pokazat ćemo da su a1 , . . . , aq svojstveni vektori matrice G P . Ako stavimo A =
a1 a2 · · · aq ∈ Mq , tada je s
   
Y1·> A Y1·> a1 Y1·> a2 · · · Y1·> aq
YA =  ...  =  ... .. .. .. 
  
. . . 
> > > >
Yn· A Yn· a1 Yn· a2 · · · Yn· aq
dana matrica uzorka u linearnim diskriminacijskim koordinatama.
Lema 2.1. Neka je G simetrična, pozitivno definitna, a P bilo koja simetrična matrica,
obje reda q. Tada postoji dijagonalna matrica Λ i i matrica A, obje reda q, tako da vrijedi
G−1 P A = AΛ, A> GA = I.

Napomena. Uz A = a1 a2 · · · aq ∈ Mq , imamo
 
a>1
I = A> GA =  ...  G a1 a2 · · · aq
 
a>q
 
a1 > Ga1 a1 > Ga2 · · · a1 > Gaq
= .. .. .. ..
,
 
. . . .
aq > Ga1 aq > Ga2 · · · aq > Gaq
što je Grammova matrica. Dakle, druga relacija kaže da su stupci matrice A ortonormi-
rana baza za Rq u odnosu na skalarni produkt h·, ·i. Prva relacija kaže da su stupci od
A svojstveni vektori od G−1 P kojima odgovaraju korespondentni elementi na dijagonali
od Λ kao svojstvene vrijednosti.
1 1
Dokaz leme 2.1. Budući da je matrica G− 2 P G− 2 simetrična, ona se može ortogonalno
dijagonalizirati, tj. postoje ortogonalna matrica B i dijagonalna matrica Λ takve da
1 1 1
G− 2 P G− 2 B = BΛ. Stavimo A := G− 2 B i računamo
1 1 1 1
G−1 P A = G− 2 G− 2 P G− 2 B = G− 2 BΛ = AΛ,
1 1
A> GA = B > G− 2 GG− 2 B = B > B = I.
Korolar 2.2. Ako za kvadratnu matricu A vrijedi A> GA = I, tada je G−1 = AA> .
Dokaz. Iz (A> G)A = I slijedi da je A invertibilna, tj. regularna i A−1 = A> G. Zato je i
A> regularna, pa iz A−1 = A> G slijedi i da je G regularna. Odavde slijedi
A−1 = A> G ⇒ A = G−1 (A> )−1 ⇒ G−1 = AA> .
44
Teorem 2.3. Neka je G pozitivno definitna simetrična matrica, a P simetrična, obje
reda q. Tada vektori a1 , a2 , . . . , aq ∈ Rq zadovoljavaju uvjete
a>
1 P a1 a> P a
(I) (I1) = max ,
a>
1 Ga1
a a> Ga
(I2) za svaki i > 2, i 6 q, vrijedi da je a>

i Gaj = 0, za svaki j 6 i − 1, i
a>
>
i P ai a Pa >
= max : a Gaj = 0, j 6 i − 1 ,
a>
i Gai a> Ga
ako i samo ako zadovoljavaju uvjet
(II) za svaki i = 1, . . . , q, (ai , φi ) je svojstveni par od G−1 P , pri čemu su φ1 > φ2 >
. . . > φq i vrijedi a>
i Gaj = 0 za i 6= j.
Dokaz. Prema lemi 2.1 postoje svojstveni parovi (a1 , φi ), i = 1, 2, . . . , q, matrice G−1 P
−1 >
i uzmimo da je φ1 > φ2 > . . . > φq . Tada
G P A = AΛ, A GA = I za matrice
Λ = diag(φ1 , . . . , φq ) i A = a1 a2 · · · aq . Uočimo:
1◦ Za a 6= 0 želimo maksimizirati funkciju
a> P a
F (a) := .
a> Ga
Ako je A regularna matrica i a 6= 0, onda je c := A−1 a 6= 0. Definirajmo sada
funkciju
c> A> P Ac c> A> GG−1 P Ac

G(c) := F (Ac) = =
c> A> GAc |c|2
q
X 2
φj c(j)
c> (A> GA)Λc c> Λc j=1
= 2
= 2
= q .
|c| |c| X
(j) 2

c
j=1
Dakle, ako F ima ekstrem u točki a, onda G ima ekstrem u točki c = A−1 a.
Obratno, ako G ima ekstrem u točki c, onda F ima ekstrem u točki a = Ac.
2◦ Pogledajmo vektore a0 , a00 i računajmo

0
c = A−1 a0

0> 00>
a Ga = = c0> A> GAc00 = c0> c00 .
c00 = A−1 a00
Dakle, a1 , . . . , aq su ortogonalni u odnosu na skalarni produkt hb, di := b> Gd

ako i samo ako su vektori c1 = A−1 a1 , . . . , cq = A−1 aq ortogonalni u odnosu na
standardni skalarni produkt (b, d) := b> d.
3◦ (a, φ) je svojstveni par od G−1 P ako i samo ako je (A−1 a, φ) svojstveni par od Λ.
⇒ G−1 P a = φa
⇒ Λc = A−1 (AΛ)c = A−1 G−1 P Ac = A−1 G−1 P a = A−1 φa = φA−1 a = φc
45
⇐ Λc = φc ⇒ G−1 P a = G−1 P Ac = φA−1 a = φc
Dakle, dovoljno je dokazati tvrdnju ekvivalentnu tvrdnji teorema: vektori c1 , . . . , cq ∈ Rq

zadovoljavaju sljedeće uvjete:
c>
1 Λc1 c> Λc
(I1’) = max ,
c>
1 c1
c c> c
(I2’) za i > 2, c>
i cj = 0 za j = 1, 2, . . . , i − 1, i
c>
>
i Λci c Λc >
= max : c cj = 0, j = 1, 2, . . . , i − 1 ,
c>
i ci c> c
ako i samo ako

(II’) za svaki i ∈ {1, 2, . . . , q}, (ci , φi ) je svojstveni par za Λ, gdje su φ1 > φ2 > . . . > φq .
Dokaz provodimo matematičkom indukcijom po i.
Baza indukcije: za i = 1,
q
X 2
φj c(j)
c> Λc j=1
>
= q 6 φ1
c c X
(j) 2

c
j=1
q
X 2
⇔ (φj − φ1 ) c(j) 6 0.
j=1
q
X 2
Jednakost je ispunjena za 0 = (φj − φ1 ) c(j) . Ako je φ1 = . . . = φs > φs+1 > . . . >
j=1
φq , tada je jednakost ispunjena ako je c(s+1) = . . . = c (q) = 0, a c(1) , . . . , c(s) bilo koje
realne vrijednosti. Stavimo c1 := c(1) , . . . , c(s) , 0, . . . , 0 . Imamo
c(1) φ1 c(1)
    
φ1
..
.   ..   ..
 .   .
 
 
  (s)  
φ1   c   φ1 c(s)
 
Λc1 =  =  = φ1 c1 ,
 
φs+1  0   0

 
 ..  .   . 
 .   ..   .. 
φq 0 0
tj. (c1 , φ1 ) je svojstveni par od Λ. Obratno, ako je Λc1 = φ1 c1 , c1 6= 0, tada je
c>
1 Λc1 c>
1 φ1 c1 |c1 |2
= = φ1 = φ1 .
c>
1 c1 c>1 c1 |c1 |2
Korak indukcije: pretpostavimo da tvrdnja vrijedi za svaki i < h, tj. vektori c1 , . . . , ch−1
su takvi da vrijedi (I1’) i (I2’) za sve i = 1, 2, . . . , h − 1 ako i samo ako je Λci = φi ci za
i = 1, 2, . . . , h − 1 i c>
i cj = 0 za sve i 6= j koji nisu veći od h − 1. Uvedimo i dodatne
pretpostavke indukcije
46
(j)
(i) za i < h, φi > φj povlači ci = 0,
(ii) ako za svaki i = 1, . . . , h − 1 vrijedi c> ci = 0 i φj > φh , onda je c(j) > 0.
Uočimo da je prva pretpostavka ispunjena za c1 , dok je druga pretpostavka trivijalno

ispunjena jer se ne odnosi na c1 . Treba dokazati da vrijedi
c>
>
h Λch c Λc >
= max : c c : j = 0, j = 1, 2, . . . , h − 1
c>
h ch c> c
ako i samo je (ch , φh ) svojstveni par od Λ i c>

i ch = 0, i = 1, 2, . . . , h − 1, te da vrijedi (i)
za i 6 h i (ii) za h + 1.
Pretpostavka (ii) povlači da ako je c ⊥ c1 , . . . , ch−1 , onda
q
X 2
φj c(j)
c> Λc j=h
>
= q 6 φh .
c c X
(j) 2

c
j=h
Neka su sada r i s takvi da je r 6 h 6 s i φr−1 > φr = . . . = φh = . . . = φs > φs+1 osim

ako je r = 1 ili s = q. Tada jednakost u gornjoj nejednakosti vrijedi ako i samo ako je
q
X 2
0= (φj − φh ) c(j)
j=h
⇔ c(j) = 0, j = s + 1, . . . , q
⇔ c(j) = 0, φj > φh .
Neka je ch 6= 0 takav vektor. Za njega vrijedi
 
0

φ1
..  .. 

 .  . 
 0 

φr−1

 
 (r)

φr ch 

 
 ...  
..  = φ c .
Λch = 


 .  h h
 (s) 


 φs  ch 
φs+1 
0 

 
..  

.  .. 
  . 
φq 0
Obrat pokazujemo analogno kao u bazi indukcije.

Preostaje pokazati da (i) i (ii) vrijede za i = h. (i) očito vrijedi iz konstrukcije ch .
Za dokazati (ii) treba pokazati da ako c> ci = 0 za sve i = 1, . . . , h i φj > φh+1 , onda
c(j) = 0. Ekvivalentno, treba pokazati da ako je h < s, onda c(1) = . . . = c(r−1) = 0,
a ako je h = s, onda c(1) = . . . = c(s) = 0. Ako je h < s, tvrdnja slijedi iz induktivne
pretpostavke. U slučaju h = s, pretpostavke indukcije (i) i (ii) te prethodna razmatranja
daju
47
(s+1) (q)
1. ci = . . . = ci = 0 za i = r, . . . , s,
2. c(1) = . . . = c(r−1) = 0.
Definiramo
(r) (s)
di := (ci , . . . , ci ), d := (c(r) , . . . , c(s) ).
Tada je c> ci = 0 ako i samo ako je d> di = 0 za i = r, . . . , s. Kako je dr , . . . , ds
ortogonalna baza za Rs−r+1 , nužno slijedi da je d ≡ 0 pa je c(r) = . . . = c(s) = 0.
Iz teorema slijedi da je nalaženje linearnih diskriminacijskih koordinata ekvivalentno
nalaženju matrice A takve da
G−1 P A = AΛ, A> GA = I, Λ = diag(φ1 , . . . , φq ).
Transformirani su podatci
Z = YA
(isti podatci u n linearnih diskriminacijskih koordinata). Sjetimo se, cov(Y ) = Σ. Za
transformirane je podatke procjena kovarijacijske matrice
c > Y ) = A> GA = I
(n − k)cov(A
(s linearnim diskriminacijskim podatcima smo problem sveli na nezavisnu strukturu).

Ako imamo k nezavisnih grupa, tada barem k − 1 koordinata služi za diskriminaciju
grupa. Ako je k 6 q, tada neke koordinate neće utjecati na diskriminaciju. Sjetimo se,

> 1 > 1 >
P = Y H − 11 Y, r H − 11 = k − 1,
n n
pa r(P ) 6 min{q, k − 1}.

Svaki izbor linearnih diskriminacijskih koordinata odgovara
skupu svojstvenih vektora
matrice G−1 P . Zapišimo A = a1 · · · aq i stavimo A = A∗ A0 , gdje stupci bloka

A∗ odgovaraju svojstvenim vektorima pridruženim svojstvenim vrijednostima različitima

od nule, dok stupci bloka A0 odgovaraju svojstvenim vektorima pridruženima svojstvenoj
vrijednosti 0.
Lema 2.4. P A0 = 0.
Dokaz. Iz G−1 P A = AΛ imamo
G−1 P

A ∗ A0 = A∗ A 0 Λ,
tj. G−1 P A0 = 0, pa P A0 = 0 jer je G regularna matrica.

Dakle, ako je ah stupac matrice A0 , tada je
a>
h P ah
>
= 0.
ah Gah
Stoga, ukoliko su podatci transformirani u h-tu diskriminacijsku koordinatu, Y ah , tada

je u jednofaktorskom MANOVA modelu vrijednost F statistike za testiranje razlike medu
grupama jednaka 0. Iz ovoga vidimo da ah ne može diskriminirati grupe.
48
Kako pomoću linearnih diskriminacijskih koordinata možemo alocirati nove opser-
vacije? Pretpostavimo da koristimo prvih s 6 q koordinata za diskriminaciju i stavimo

As := a1 a2 · · · as .
Standardno pravilo alokacije jest da opservaciju y alociramo populaciji r ako je
(y − Y r· )> As A> > >

s (y − Y r· ) = min (y − Y i· ) As As (y − Y i· ).
16i6k
Uočimo,
s
X
>
(y − Y i· ) As A >
s (y − Y i· ) = ((y − Y i· )> aj )2 .
j=1
Ukoliko je s = q, tada je As = A, As A> s = AA

>
= G−1 . U tom se slučaju alokacija
pomoću linearnih diskriminacijskih koordinata svodi na alokaciju pomoću Mahalanobiusove
udaljenosti. Dokazat ćemo da je to inače ekvivalentno ako uzmemo samo svojstvene vri-
jednosti koje doprinose alokaciji.
Lema 2.5. Ako je k − 1 < q (tj. As = A∗ i s < q), tada je za svaki i ∈ {1, 2, . . . , k}
(Y i· − Y )> A0 = 0.
Skica dokaza. Imamo

k
X
>
P = Y (H − H0 )Y = nj (Y j· − Y )(Y j· − Y )>
j=1
 √

n1 (Y 1· − Y )
√ √  ..
= n1 (Y 1· − Y ) · · · nk (Y k· − Y )  .

.
√
n1 (Y k· − Y )
Može se pokazati da je
√ √
L(P ) = L n1 (Y 1· − Y ) · · · nk (Y k· − Y ) .
Specijalno, za i ∈ {1, 2, . . . , k} imamo Y i· − Y ∈ L(P ), pa postoji d ∈ Rq takav da

Y i· − Y = P d. Prema lemi 2.4 slijedi
0 = A> > >

0 P d = A0 P d,
a kako je A> >

0 P d = A0 (Y i· − Y ), vrijedi tvrdnja.
Propozicija 2.6. Ako je k − 1 < q, tada za svaki y ∈ Rq vrijedi
(y − Y i· )> G−1 (y − Y i· ) = (y − Y i· )> A∗ A> > >

∗ (y − Y i· ) + (y − Y ) A0 A0 (y − Y ).
Dokaz. Iz korolara 2.2 slijedi

A>

−1 > ∗
= A∗ A > >

G = AA = A∗ A 0 ∗ + A 0 A0 ,
A>
0
pa imamo
(y − Y i· )> G−1 (y − Y i· ) = (y − Y i· )> A∗ A> > >

∗ (y − Y i· ) + (y − Y i· ) A0 A0 (y − Y i· ),
49
i vidimo da je dovoljno pokazati A> >
0 (y − Y i· ) = A0 (y − Y ). Vrijedi
A> >
0 (y − Y i· ) = A0 (y − Y − Y i· + Y )
= A> >
0 (y − Y ) − A0 (Y i· − Y ),
a kako je prema lemi 2.5 A>

0 (Y i· − Y ) = 0, slijedi tvrdnja.
Dakle, alokacija pomoću linearnih diskriminacijskih koordinata koje odgovoraju ne-nul

svojstvenim vrijednostima ekvivalentna je alokaciji pomoću Mahalanobiusove udaljenosti.
50
2.3 Glavne komponente
Pretpostavimo da imamo opservaciju Y ∈ Rq , pri čemu je q velik broj. Kako reducirati
dimenziju te opservacije, a da imamo dovoljno informacija za donošenje relevantnih za-
ključaka? Redukcijom se gubi dio informacija o opservaciji pa bismo htjeli minimizirati
taj gubitak. Jedan razuman pristup je sljedeći: odaberemo malen broj linearnih kom-
binacija komponenti od Y tako da imaju sposobnost reproducirati sve komponente od
Y (tj. što veći broj komponenti). Dakle, želimo kreirati mali broj novih varijabli koje
imaju svojstvo da u nekom smislu najbolje predvidaju originalne varijable. Analiza
glavnih komponenti (PCA1 ) pronalazi linearne kombinacije originalnih varijabli koje
su najbolji linearni predviditelji (prediktori) svih originalnih varijabli.
Neka su Y = (Y1 , . . . , Yq )> , X = (X1 , . . . , Xp−1 )> zadani slučajni vektori čije kompo-
nente imaju konačnu varijancu. Označimo
µ Y = EY, µ X = EX,
:= cov(Y, X) := E (Y − µ Y )(X − µ X )> .

VY X
Vrijedi cov(Y, X)> = cov(X, Y ), tj. VY>X = VXY . Takoder, stavimo
cov(Y ) ≡ cov(Y, Y ) =: VY Y ,
cov(X) ≡ cov(X, X) =: VXX .
Definicija 2.7. Najbolji linearni prediktor od Y uz dano X je q-dimenzionalni
>
slučajni vektor Yb koji je afina funkcija od X, tj. Yb = βb X + α
b , tako da
>
> >
h > i
E Y − βb X − α b Y − βb X − αb = minq E Y − β > X − α Y − β >X − α .
α ∈R
β ∈Mp−1,q
U oznaci, Yb = P [Y | X].
Sjetimo se, na (Hilbertovom) prostoru L2 su skalarni produkt i norma dani s
p
hU, V i := E(U, V ) = E U > V , kU k = hU, U i.

Zato uvjet iz gornje definicije možemo zapisati kao

>
kY − βb X − α
bk = minq kY − β > X − α k,
α ∈R
β ∈Mp−1,q
pa vidimo kako najbolji linearni prediktori predstavljaju svojevrsno poopćenje metode

najmanjih kvadrata.
b> (X − µX ),
Yb = P [Y | X] = µY + β
gdje je β
b (bilo koje) rješenje jednadžbe
VXX β = VXY .
Ukoliko je VXX pozitivno definitna (tj. regularna), tada je
−1
βb = VXX VXY .
1
Principal Component Analysis
51
Od sada pa nadalje pretpostavljamo da je ispunjen drugi uvjet gornjeg zadatka.
Takoder, uočimo da za vektor očekivanja i kovarijacijsku matricu najboljeg linearnog
prediktora vrijedi
>
h i
E [P [Y | X]] = E µ Y + βb (X − µ X )
>
= µ Y + βb 0
= µY
= EY,
>

cov (P [Y | X]) = cov µ Y + β (X − µ X )
b
>
= cov βb X
>
= βb cov(X)βb
> −1 −1
= VXY VXX VXX VXX VXY
−1
= VY X VXX VXY ,
i nadalje,
>

cov (Y − P [Y | X]) = cov Y − µ Y − β (X − µ X )
b
>

= cov Y − βb X
> > > >
= cov(Y, Y ) − cov(Y, βb X) − cov(βb X, Y ) + cov(βb X, βb X)
= cov(Y, AX) = cov(Y, X)A> , cov(BY, X) = B cov(Y, X)

> >
= VY Y − VY X βb − βb VXY + βb VXX βb
−1 −1 −1
= VY Y − VY X VXX VXY − VY X VXX VXY + VY X VXX VXX VXX VXY
= cov(Y ) − cov (P [Y | X]) ,
što je svojevrsna generalizacija rastava varijance iz jednodimenzionalnog slučaja.

Iz definicije problema slijedi da je P [· | X] ortogonalni projektor na potprostor
α + β > X : α ∈ Rq , β ∈ Mp−1,q }
{α
od L2 svih q-dimenzionalnih slučajnih vektora čije komponente imaju konačne varijance.

Automatski slijedi da je P [· | X] linearni operator te da je
α + β > X | X] = α + β > X.
P [α
Specijalno je
P [X >θ | X] = X >θ , θ ∈ Rp−1 .
Propozicija 2.8. Za svaku regularnu matricu A ∈ Mp−1 i svaki vektor a ∈ Rp−1 vrijedi
P [Y | AX + a] = P [Y | X].
52
Dokaz. Uz pretpostavku VXX > 0 računamo
−1
P [Y | AX + a] = µ Y + VY,AX+a VAX+a,AX+a A(X − µ X ).
Imamo
VAX+a,AX+a = cov(AX + a, AX + a) = cov(AX, AX) = A cov(X, X)A> > 0,
VY,AX+a = VY X A> ,
pa slijedi
−1 −1 −1
P [Y | AX + a] = µ Y + VY X A> A> VXX A A(X − µ X ) = P [Y | X].
Propozicija 2.9. Ako je cov(Y, X) = 0, tada je P [Y | X] = EY .
Dokaz. Uz pretpostavku VXX > 0 i VY X = 0 (pretpostavka propozicije) imamo

−1
P [Y | X] = µ Y + VY X VXX (X − µ X ) = µ Y .
Zadatak 2.3.2. Ako je

Y µY VY Y VY X
∼ Np+q−1 , ,
X µX VXY VXX
pokažite da tada vrijedi
(a) P [Y | X] = E[Y | X],
(b) uvjetna distribucija od Y uz dano X je Nq (P [Y | X], cov(Y − P [Y | X])).
Pretpostavimo
Y1
Y = .
Y2
Imamo
Y1 V11 V12
cov(Y ) = cov = ,
Y2 V21 V22
gdje je Vij = cov(Yi , Yj ), i, j ∈ {1, 2}. Označimo još
>
cov(Yi , X) = ViX , VXi = ViX , EYi = µ i , i = 1, 2.
Propozicija 2.10. Ako je cov(Y, X) = 0, onda

Y1
P Y2 = P [Y2 | X] + P [Y2 | Y1 ] − µ 2 .
X
53
Dokaz. Računamo

Y1
= E (Y2 − µ 2 ) (Y1 − µ 1 )> (X − µ X )>

cov Y2 ,
X
= E (Y2 − µ 2 )(Y1 − µ 1 )> (Y2 − µ 2 )(X − µ X )>

= V21 V2X ,

Y1 Y1 V11 V1X V11 0
cov , = = .
X X VX1 VXX 0 VXX
Ako je VXX > 0 i V11 > 0,

Y1
3 V2−1 Y1 − µ 1
P Y2
= µ2 + V 2
Y1
32 3
X Y
Y1 5 4 Y 1 5 X − µx
2 ,4 5 4 ,
X X X
−1
V11 0 Y1 − µ 1
= µ2 + V21 V2X
0 V −1 X − µX
−1 XX
V11 (Y1 − µ 1 )
= µ2 + V21 V2X −1
VXX (X − µ X )
−1
= µ 2 + V21 V11−1 (Y1 − µ 1 ) + V2X VXX (X − µ X ) + µ 2 − µ 2
= P [Y2 | Y1 ] + P [Y2 | X] − µ 2 .
Označimo vektore reziduala:
e(Y | X) := Y − P [Y | X].
Lema 2.11. cov(e(Y1 | X), X) = 0.

Dokaz.
cov(e(Y1 | X), X) = cov(Y1 − P [Y | X], X)
−1

= cov Y1 − µ 1 − V1X VXX (X − µ X ), X
−1

= cov Y1 − V11 VXX X, X
−1
= cov(Y1 , X) − V11 VXX cov(X, X)
−1
= V1X − V1X VXX VXX
= 0.
Propozicija 2.12.

Y1
P Y2 = P [Y2 | X] + cov(Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 e(Y1 | X).
X
Dokaz. Imamo

Y1 − P [Y1 | X] I B Y1 Y1
= +a=A + a,
X 0 I X X
| {z }
A
54
za konkretnu matricu B (odn. A) i vektor a. Kako je prema propoziciji 2.8
P [Y | AX + a] = P [Y | X],
slijedi

Y1 e(Y1 | X) 2.10
P Y2 = P Y2 = P [Y2 | X] + P [Y2 | e(Y1 | X)] − µ 2 ,
X X
pri čemu se možemo pozvati na propoziciju 2.10 jer po lemi 2.11 vrijedi
cov(e(Y1 | X), X) = 0.
Propozicija 2.13.

Y1
cov Y2 − P Y2 = cov (Y2 − P [Y2 | X])
X
− cov(Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 cov(e(Y1 | X), Y2 ).
Dokaz. Znamo da je P [Y2 | X] afina funkcija od X, tj. možemo pisati P [Y2 | X] =
β > X − α za konkretne β ∈ Mp−1,q , α ∈ Rq . Sada zbog leme 2.11 imamo
2.11
cov(P [Y2 | X], e(Y1 | X)) = cov(β
β X + α , e(Y1 | X)) = β cov(X, e(Y1 | X)) = 0.
Odavde kao posljedicu dobivamo
cov(e(Y2 | X), e(Y1 | X)) = cov(Y2 , e(Y1 | X))−cov(P [Y2 | X], e(Y1 | X)) = cov(Y2 , e(Y1 | X)).
Transponiranjem ove jednakosti slijedi još i cov(e(Y1 | X), e(Y2 | X)) = cov(e(Y1 | X), Y2 ).
Sada računamo

Y1 2.12
= cov Y2 − P [Y2 | X] − cov(Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 e(Y1 | X)

cov Y2 − P Y2
X
= cov e(Y2 | X) − cov(Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 e(Y1 | X)

= cov(e(Y2 | X))
− cov e(Y2 | X), cov(Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 e(Y1 | X)

− cov cov(Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 e(Y1 | X), e(Y2 | X)

+ cov cov(Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 e(Y1 | X)

= cov(e(Y2 | X))
− cov (e(Y2 | X), e(Y1 | X)) cov(e(Y1 | X))−1 cov (e(Y1 | X), Y2 )
| {z }
=cov(Y2 ,e(Y1 |X))
− cov (Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 cov (e(Y1 | X), e(Y2 | X))
| {z }
=cov(e(Y1 |X),Y2 )
−1
+ cov (Y2 , e(Y1 | X)) cov(e(Y1 | X)) ·
· cov(e(Y1 | X)) cov(e(Y1 | X))−1 cov (e(Y1 | X), Y2 )
| {z }
=I
= cov(e(Y2 | X))
− cov (Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 cov (e(Y1 | X), Y2 )
− cov (Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 cov (e(Y1 | X), Y2 )
+ cov (Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 cov (e(Y1 | X), Y2 )
= cov(e(Y2 | X)) − cov (Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 cov (e(Y1 | X), Y2 ) .
55
Propozicija 2.14. cov(Y, Y − P [Y | X]) = cov(Y − P [Y | X]).
Dokaz. Budući da je P [Y | X] afina funkcija od X, analogno kao i na početku dokaza
propozicije 2.13 zaključujemo da vrijedi cov(P [Y | X], Y − P [X | X]) = 0. Sada imamo
cov(Y −P [Y | X]) = cov(Y, Y −P [Y | X])−cov(P [Y | X], Y −P [Y | X]) = cov(Y, Y −P [Y | X]).
Neka je Y = (Y1 , . . . , Yq )> q-dimenzionalni slučajni vektor. Želimo naći nove koordi-
nate
a> > >
1 Y, a2 Y, . . . , aq Y
tako da imaju neka odredena svojstva.

Pretpostavimo EY = µ, cov(Y ) = Σ > 0. Koordinatni vektori a1 , . . . , aq biraju se
tako da su ortogonalni u odnosu na skalarni produkt ha, bi := b> Σa = (Σa, b), tj.
a>
i Σaj = 0, i 6= j.
Odavde za i 6= j slijedi
cov a> > > >

i Y, aj Y = ai cov(Y, Y )aj = ai Σaj = 0,
tj. nove komponente nisu korelirane. Nadalje, koordinate se biraju tako da sekvencijalno
daju optimalnu predikciju od Y (uz dani uvjet ortogonalnosti). Prema tome, a1 se bira
tako da
kY − P [Y | a> >
1 Y ]k = min kY − P [Y | a Y ]k,
a6=0
a za i > 1, ai se bira tako da a>

i Σaj = 0 za j = 1, 2, . . . , i − 1 te
kY − P [Y | a> > q >

i Y ]k = min{kY − P [Y | a Y ]k : a ∈ R \ {0}, a Σaj = 0, j = 1, . . . , i − 1}.
Primijetimo,
kY − P [Y | a> Y ]k2 = E (Y − P [Y | a> Y ])> (Y − P [Y | a> Y ])

= tr E (Y − P [Y | a> Y ])> (Y − P [Y | a> Y ])

= E tr (Y − P [Y | a> Y ])> (Y − P [Y | a> Y ])

= E tr (Y − P [Y | a> Y ])(Y − P [Y | a> Y ])>

= tr E (Y − P [Y | a> Y ])(Y − P [Y | a> Y ])>

= tr cov(e(Y | a> Y )) .

Definirajmo sada preslikavanje a 7→ Va := cov(e(Y | a> Y )). Za zadane a1 , . . . , ar−1

želimo naći ar tako da
a>r Σaj = 0, j = 1, . . . , r − 1,
tr(Var ) = min{tr(Va ) : a> Σaj = 0, j = 1, . . . , r − 1}.

Uočimo,
Va = cov(e(Y | a> Y )) = VY Y − VY,a> Y Va−1

> Y,a> Y Va> Y,Y
−1 >
= Σ − Σa a> Σa

a Σ,
56
1
tr(Va ) = tr Σ − tr(Σaa> Σ)
a> Σa
1
= tr Σ − · a> Σ2 a
a> Σa
a> Σ2 a
= tr Σ − .
a> Σa
Dakle, minimizacija funkcije a 7→ tr(Va ) ekvivalentna je maksimizaciji funkcije
a> Σ2 a
a 7→ ,
a> Σa
tj. treba naći vektore a1 , . . . , aq ∈ Rq takve da
a> 2
1 Σ a1 a> Σ2 a
(i) = max ,
a>1 Σa1 a6=0 a> Σa
(ii) za i > 1, a>

i Σaj = 0, j = 1, . . . , i − 1, te
a> 2
> 2
i Σ ai a Σa >
= max : a Σaj = 0, j = 1, . . . , i − 1 ,
a>i Σai a> Σa
što je po teoremu 2.3 ekvivalentno tome da su a1 , . . . , aq svojstveni vektori od Σ koji

odgovaraju padajućem nizu svojstvenih vrijednosti φ1 > φ2 > . . . > φq > 0 i a1 , . . . , aq
su medusobno ortogonalni u odnosu na skalarni produkt h·, ·i.
Izračunajmo koliko dobro svaka od koordinata a>
i Y predvida Y :
a> 2
i Σ ai
tr(Vai ) = tr Σ −
a> i Σai
φ |ai |2
2
= tr Σ − i 2
φi |ai |
= tr Σ − φi
= φ1 + . . . + φq − φi ,
pri čemu u posljednjoj jednakosti koristimo činjenicu da su tragovi sličnih matrica medusobno
jednaki, a matrica Σ je slična matrici diag{φ1 , . . . , φq }.
Izračunajmo
kolika
je predvidivost prvih r glavnih komponenti, 1 6 r 6 q. Uz
Ar := a1 · · · ar imamo ΣAr = Ar Λr , gdje je Λr = diag{φ1 , . . . , φr }. Sada je
top
tr cov e Y | a> >

1 Y · ar Y = tr cov e(Y | A r Y )
= tr cov Y − P [Y | A>

r Y]
−1 >
= tr Σ − ΣAr A> r ΣA r Ar Σ
−1 > 2
= tr Σ − tr A> r ΣA r Ar Σ A r
−1 >
>
= tr Σ − tr Ar ΣAr Ar ΣAr Λr
= φ1 + . . . + φq − (φ1 + . . . + φr )
= φr+1 + . . . + φq .
Dakle, prvih r komponenti dobro predvida Y ukoliko je omjer
tr cov e(Y | A>

r Y) φr+1 + . . . + φq
=
tr(cov Y ) φ1 + . . . + φr + φr+1 + . . . + φq
57
vrlo mali (u praksi, ako nije veći od 0.2 za q vrlo velik i r 6 3 - predvidivost bi u
tom slučaju bila 1 − 0.2 = 0.8, tj. 80% ukupne varijabilnosti obuhvaćeno je s prve 3
komponente).
Može se pokazati da prvih r glavnih komponenti ima najbolju prediktivnu vrijednost
medu svim r-koordinatama u Rq . Naime, neka je B ∈ Mq,r bilo koja matrica ranga r.
Tada vrijedi
cov(Y − P [Y | B > Y ]) = Σ − Σ(BΣB)−1 B > Σ
1
1 1
1
= Σ 2 I − Σ 2 B(BΣB > )−1 B > Σ 2 Σ 2
1
1
= Σ 2 I − HL(Σ 21 B) Σ 2 .
Može se pokazati da vrijedi

q
X
>
tr(cov(e(Y | B Y ))) > φj , (2.4)
j=r+1
pa predvidanje glavnim komponentama daje najmanju vrijednost kriterijske funkcije.

Zadatak 2.3.3. (a) Neka su φ1 > φ2 > . . . > φq svojstvene vrijednosti od Σ i v1 , . . . , vq
ortonormirani vektori u Rq . Dokažite
q r r
X X X
(a1) φj 6 vj> Σvj 6 φj ,
j=q−r+1 j=1 j=1
q r
X X
(a2) φj 6 tr(HΣ) 6 φj , za bilo koji ortogonalni projektor H ranga
j=q−r+1 j=1
r > 0.
(b) Dokažite nejednakost (2.4).
Postoje ekvivalentni izvodi glavnih komponenti, a time i njihove interpretacije (npr.
maksimizacija odredenih varijanci). U našem su izvodu glavne komponente dobivene
minimizacijom funkcije
q q
X X
> >
a 7→ tr(cov(YP [Y | a Y ])) = Var(Yj − Pj [Y | a Y ]) = Var(Yj − P [Yj | a> Y ]).
j=1 j=1
Varijance pojedinih komponenti mogu biti nesumjerljive, što može dovesti do grešaka.
Nadalje, odabir glavnih komponenti ovisi i o mjernoj skali. Taj se problem izbjegava
1 1
tako da se umjesto kovarijacijske matrice Σ uzme korelacijska matrica D− 2 ΣD− 2 , gdje
je  
σ11
 σ22 
D = diag(Σ) =   , Σ = [σij ].
 
. .
 . 
σqq
Na taj način umjesto varijabli Y = (Y1 , . . . , Yq )> gledamo njihove standardizirane vrijed-
nosti,
>
− 21 1 1
Z = D Y = √ Y 1 , . . . , √ Yq .
σ11 σqq
58
Tada je
− 12 1 1 1 1
cov(Z) = cov D Y = D− 2 cov(Y )D− 2 = D− 2 ΣD− 2 .
Kako odrediti glavne komponente ako Σ nije poznata, ali imamo slučajan uzorak
duljine n od Y ,  
Y1>
Y =  ... ?
 
Yn>
Tada kao procjenu kovarijacijske matrice, Σ,
b možemo uzeti uzoračku kovarijacijsku ma-
tricu n
1 X
S= (Yi − Y )(Yi − Y )>
n − 1 i=1
ili uzoračku korelacijsku matricu
1 1
R = diag(S)− 2 Sdiag(S)− 2 .

Takoder, stavljanjem Y za µ Y i uz Ar = a1 · · · ar , imamo
Pb[Y | A> > −1 >

r Yi ] = Y + SAr (Ar SAr ) Ar (Yi − Y ).
Dakle, za kriterijsku funkciju zadanu uzorački imamo

n >
1 X
Yi − Pb[Y | A>
r Y i ] Y i − b[Y | A> Yi ] =
P r
n − 1 i=1
n
!
1 X >
= tr Yi − Pb[Y | A>
r Y i ] Y i − b[Y | A> Yi ]
P r = (N).
n−1 i=1
Stavimo Pr := Ar (A> −1 > >

r SAr ) Ar S. Vrijedi Pr S = SPr te imamo
Yi − Pb[Y | A> > −1 > >

r Yi ] = I − SAr (Ar SAr ) Ar (Yi − Y ) = SPr (Yi − Y ) = Pr S(Yi − Y ),
te slijedi
n
!
1 X > >
I − Pr> S Yi − Y Yi − Y I − Pr> S

(N) = tr
n−1 j=1
−1 >
= tr S − SAr A>r SA r Ar S

c Y − Pb[Y | A>
= tr cov r Y ]
q
X
= φj (S).
j=r+1
Dakle, empirijskim zadavanjem kriterijske funkcije dobivamo isti rezultat za svojstvene

vrijednosti.
Zadatak 2.3.4. Neka su a1 , . . . , aq ∈ Rq vektori iste norme (|ai | = K > 0) takvi da za
q-dimenzionalni slučajni vektor Y s vektorom očekivanja µ i kovarijacijskom matricom
Σ vrijedi
59
(i) Var(a> >
1 Y ) = sup{Var(a Y ) : |a| = K},
(ii) za i > 1, ai ⊥ a1 , . . . , ai−1 i
Var(a> >
i Y ) = sup{Var(a Y ) : |a| = K, a ⊥ a1 , . . . , ai−1 }.
Primijetite da su tada a1 , . . . , aq ortogonalni vektori. Dokažite da su tada a> >

i Y, . . . , aq Y
glavne komponente od Y .
Uputa: naprije pokažite sljedeće: ako je aj svojstveni vektor od Σ koji odgovara svo-
jstvenoj vrijednosti φj > 0, tada vrijedi ekvivalencija
cov(a> Y, a> > >

j Y ) = a Σaj = 0 ⇔ a aj = 0.
Zatim pokažite da je maksimizacija funkcije a 7→ Var(a> Y ) uz uvjet |a|2 = K 2 ekviva-

lentna (bezuvjetnoj) maksimizaciji funkcije
Var(a> Y )
a 7→ , a 6= 0.
a> a
Zadatak 2.3.5 (Geometrijska interpretacija glavnih komponenti). Neka je dan slučajni
vektor Y ∼ Nq (µ
µ, Σ), Σ > 0, s gustoćom
1 1 −1
f (y) = q · √ e−(y−µµ)Σ (y−µµ) .
(2π) 2 det Σ
Skup svih točaka y ∈ Rq za koje vrijedi f (y) = k je elipsoid (y − µ )> Σ−1 (y − µ ) = c.

Promatrajmo (centrirani) elipsoid a> Σ−1 a = c. Neka su a1 , . . . , aq ∈ Rq vektori smjera
glavnih poluosi tog elipsoida. Svaki se vektor a 6= 0 skaliranjem može dovesti do elementa
elipsoida √
c
a ∈ b ∈ Rq : b> Σ−1 b = c .

√
a> Σ−1 a
Prema tome, a1 je vektor oblika √
c
√ a
a> Σ−1 a
koji ima maksimalnu moguću (euklidsku) normu
√
1 c a>1 a1 a> a
a = = max .

1
a> −1 a6=0 a> Σ−1 a
p
c2 a> 1 Σ a1

−1
1 Σ a1
Općenito imamo:
a> a1 a> a

(i) > 1 −1 = sup : a 6= 0 .
a1 Σ a1 a> Σ−1 a
(ii) za i > 1, ai je takav da a>
i aj = 0, j = 1, . . . , i − 1, te
a>
>
i ai a a >
= sup : a aj = 0, j = 1, . . . , i − 1 .
a> −1
i Σ ai a> Σ−1 a
Dokažite da su tada a> Y, . . . , a> Y glavne komponente od Y .
60
Poglavlje 3
Neparametarske metode
3.1 Mann-Whitney-Wilcoxonov test

Pretpostavimo da su dani slučajni uzorci iz dviju normalnih populacija s jednakim pop-
ulacijskim varijancama
njd
X1 , . . . , Xm ∼ N (µ1 , σ 2 ),
njd
Y1 , . . . , Yn ∼ N (µ2 , σ 2 ).
Pretpostavimo još da su X1 , . . . , Xm , Y1 , . . . , Ym nezavisne slučjne varijable. Testiranje
nulte hipoteze o jednakosti distribucija tih populacija
D
H 0 : X = Y ⇔ µ1 = µ2
svodi se na parametarski Studentov T-test. Kako testirati hipotezu H0 ukoliko nemamo

pretpostavku o distribuciji populacija?
Neka je X1 , . . . , Xn1 slučajni uzorak iz populacije s funkcijom distribucije F i neka
je Y1 , . . . , Yn2 slučajni uzorak iz populacije s funkcijom distribucije G te neka su ta dva
uzorka nezavisna. Želimo testirati hipotezu
H0 : F = G
Primjer 3.1. Pretpostavimo da su opažene vrijednosti za dane uzorke
X : 19, 23, 20, 25, 21, 22

Y : 18, 17, 18, 20, 19
Grafički,
17 18 19 20 21 22 23 24 25
x x x x x x
y y y y
Usporedbom ovih vrijednosti vidimo da je medijan prvog uzorka veći nego medijan drugog
uzorka.
61
Definicija 3.2. Slučajna varijabla X je stohastički veća od slučajne varijable Y ako
za svaki t ∈ R vrijedi
P(Y 6 t) > P(X 6 t) ⇔ FY (t) > FX (t).
Oznaka: X < Y .
Dakle, slučajna varijabla X je stohastički veća od slučajne varijable Y ukoliko je
funkcija distribucije od X manja ili jednaka funkciji distribucije od Y , i to uniformno na
R. Sada nultu hipotezu o jednakosti funkcija distribucije možemo testirati u odnosu na
sljedeće alternative:
H1 : F 6= G
H1 : X je stohastički veće od Y
H1 : Y je stohastički veće od X
Stavimo sada n := n1 + n2 i
Z1 := X1 , . . . , Zn1 := Xn1 , Zn1 +1 := Y1 , . . . , Zn := Yn2 .
Uz pretpostavku da su F i G neprekidne razdiobe, za tzv. uredajne statistike imamo
Z(1) < Z(2) < . . . < Z(n) g.s.
Definirajmo nove slučajne varijable R1 , . . . , Rn ∈ {1, 2, . . . , n}, tzv. rangove, na sljedeći

način. Vrijednost X1 je jednaka nekoj od vrijednosti Z(r1 ) pa stavimo R1 := r1 . Općenito,
vrijednost Xi jednaka je nekoj od vrijednosti Z(ri ) pa je Ri := ri , a vrijednost Yj jednaka
je nekoj od vrijednosti Z(rj ) pa je Rn1 +j := rj .
62
Primjer 3.3. Za x1 = 1, x2 = 0, x3 = 3, x4 = 6, x5 = 7, y1 = 2, y2 = 8, y3 = 9, y4 = 5,
tj.
0 1 2 3 4 5 6 7 8 9
x2 x1 y1 x3 y4 x4 x 5 y2 y3
imamo sljedeće vrijednosti rangova
i 1 2 3 4 5 6 7 8 9
Ri 2 1 4 6 7 3 8 9 5
Definicija 3.4. Wilcoxonova statistika je zbroj rangova od Y1 , . . . , Yn2 ,
n
X
W = Ri .
i=n1 +1
Lema 3.5. Uz pretpostavku F = G, vrijedi

1
P(R1 = r1 , . . . , Rn = rn ) = , (r1 , . . . , rn ) ∈ Sn .
n!
Dokaz. Uz pretpostavku F = G, Z1 , . . . , Zn je slučajan uzorak iz F i Ri = ri ako i samo
ako je Zi = Z(ri ) . Neka je σ = (r1 , . . . , rn ) ∈ Sn permutacija skupa {1, . . . , n}, te neka je
σ −1 = (l1 , . . . , ln ) njoj inverzna permutacija. Imamo
Ri = ri ⇔ Zi = Z(ri ) ⇔ Zli = Z(i) .
Dakle,
P(R1 = r1 , . . . , Rn = rn ) = P(Zl1 = Z(1) , . . . , Zln = Z(n) )
= P(Zl1 < Zl2 < . . . < Zln )
= P(Z1 < Z2 < . . . < Zn ) = k = const.
Iz X
P(R1 = r1 , . . . , Rn = rn ) = k · n! = 1
σ∈Sn
1
slijedi k = , pa vrijedi tvrdnja.
n!
Neka su sada S1 < S2 < . . . < Sn2 uredajne statistike rangova Rn1 +1 < . . . < Rn .
Primjer 3.6. U primjeru 3.3 su rangovi od y1 , . . . , y4
R6 = 3, R7 = 8, R8 = 9, R9 = 5,
pa imamo
S1 = 3, S2 = 5, S3 = 8, S4 = 9.
n
X
Tada je W = Ri = S1 + . . . + Sn2 . Primijetimo da vektor (S1 , . . . , Sn2 ) prima
i=n1 +1
vrijednosti u skupu
{(s1 , . . . , sn2 ) : 1 6 s1 < s2 < . . . < sn2 6 n},
što je familija svih n2 -članih podskupova od {1, . . . , n}. Odredimo zakon razdiobe od
(S1 , . . . , Sn2 ) uz pretpostavku F = G.
63
Teorem 3.7. Uz pretpostavku F = G,
1
P(S1 = s1 , . . . , Sn = sn ) = n
, 1 6 s1 < . . . < sn2 6 n.
n2
Dokaz. Imamo
P(Rn1 +1 = s1 , . . . , Rn = sn2 ) =
X 1
P(R1 = t1 , . . . , Rn1 = tn1 , Rn1 +1 = s1 , . . . , Rn = sn2 ) = · n1 !,
n!
(t1 ,...,tn )∈S{1,...,n}\{s1 ,...,sn
2}
pa slijedi
X n1 !n2 !
P(S1 = s1 , . . . , Sn2 = sn2 ) = P(Rn1 +1 = si1 , . . . , Rn = sin2 ) =
n!
(si1 ,...,sin )∈S{s1 ,...,sn
2 2}
i vrijedi tvrdnja.
Primjer 3.8. Za n1 = 2 i n2 = 3 nadite nul-distribuciju Wilcoxonove statistike W .
Rješenje. Wilcoxonova statistika je dana s W = R3 + R4 + R5 = S1 + S2 + S3 . Imamo
sljedeću tablicu mogućih vrijednosti uredajnih statistika rangova
X Y
W
T1 T2 S1 S2 S3
1 2 3 4 5 12
1 3 2 4 5 11
1 4 2 3 5 10
1 5 2 3 4 9
2 3 1 4 5 10
2 4 1 3 5 9
2 5 1 3 4 8
3 4 1 2 5 8
3 5 1 2 4 7
4 5 1 2 3 6
pa je zakon razdiobe od W (uz pretpostavku da je ispunjena nulta hipoteza)

6 7 8 9 10 11 12
W ∼ 1 1 2 2 2 1 1 .
10 10 10 10 10 10 10
Sada možemo testirati hipoteze

H0 : F = G
H1 : X je stohastički veće od Y
Pretpostavimo da je opažena vrijednost Wilcoxonove statistike w = 11. Tada je p-
vrijednost ovog testa je dana s
1 1
P(W > 11|H0 ) = + = 0.2.
10 10
Uočimo da je egzaktna vrijednost Wilcoxonove statistike w = 11, a nultu ćemo hipotezu
odbacivati za velike vrijednosti te statistike.
64
Napomena. Nul-distribucija Wilcoxonove statistike ne ovisi od distribuciji F = G.
Kako (asimptotski) odrediti nul-distribuciju Wilcoxonove statistike za velike m i n?
Definicija 3.9. Za i ∈ {1, . . . , n1 }, j ∈ {1, . . . , n2 }, definiramo
Uij := 1{Xi <Yj } ,

n1 X
X n2
U := Uij (= # parova (Xi , Yj ) za koje je Xi < Yj ).
i=1 j=1
Statistika U zove se Mann-Whitneyeva statistika.

1
Lema 3.10. U = W − n2 (n2 + 1)
2
Dokaz. Neka su Y(1) < Y(2) < . . . < Y(n2 ) uredajne statistike od Y1 , . . . , Yn2 . Tada je statis-
tika U jednaka broju parova (Xi , Y(j) ) za koje je Xi < Y(j) . Fiksirajmo j ∈ {1, . . . , n2 }.
Broj vrijednosti Xi za koje je Xi < Y(j) jednak je rangu od Y(j) u združenom uzorku uman-
jenom za broj vrijednosti Y1 , . . . , Yn2 koje su manje od Y(j) te još za 1 (jer ne brojimo
Y(j) ), tj. jednak je Rn1 +j − j. Dakle,
n2
X 1
U= (Rn1 +j − j) = W − n2 (n2 + 1).
j=1
2
Napomena. Prethodna nam lema kaže da je Mann-Whitneyeva statistika ekvivalentna

Wilcoxonovoj statistici. Naime, za testiranje nulte hipoteze
H0 : F = G
u odnosu na jednostranu alternativu da je X stohastički manje od Y , kritično područje

za W će biti oblika U > wα , što je ekvivalentno kritičnom području za U , U > uα .
Izračunajmo očekivanje i varijancu Mann-Whitneyeve statistike U uz pretpostavke

njd
X1 , . . . , Xn1 ∼ F,
njd
Y1 . . . , Yn2 ∼ G,
te uz pretpostavku nezavisnosti tih dvaju uzoraka. Definirajmo
p := P(X1 < Y1 ),
q1 := P(X1 < min{Y1 , Y2 }),

q2 := P(Y1 > max{X1 , X2 }).
Imamo n1 X
n2 n1 X
n2
X X
EU = EUij = P(Xi < Xj ),
i=1 j=1 i=1 j=1
65
a kako je Z Z
P(Xi < Yj ) = dF (x)dG(y) = P(X1 < Y1 ) = p,
x<y
slijedi
EU = n1 n2 p.
Nadalje, budući da (općenito) vrijedi jednakost
m
! m m X
m
X X X
Var Xi = Var(Xi ) + 2 cov(Xi , Xj ),
i=1 i=1 i=1 j=1
j6=i
imamo
n1 X
n2
!
X
Var(U ) = Var Uij
i=1 j=1
n1 X
X n2 X
= Var(Uij ) + cov(Uij , Ukl )
i=1 j=1 (i,j)6=(k,l)
X
= n1 n2 p(1 − p) + cov(Uij , Ukl )
(i,j)6=(k,l)
X
= n1 n2 p(1 − p) + (E[Uij · Ukl ] − p2 ).
(i,j)6=(k,l)
Sada razlikujemo slučajeve:

1◦ i 6= k, j 6= l
Tada su Uij = 1{Xi <Yj } i Ukl = 1{Xk <Yl } nezavisne slučajne varijable (jer su to
funkcije različitih nezavisnih slučajnih varijabli), pa imamo cov(Uij , Ukl ) = 0.
2◦ i = k, j 6= l
Za fiksne (i, j), takvih parova (k, l) ima točno n2 − 1. Računamo
cov(Uij , Ukl ) = E(1{Xi <Yj } 1{Xi <Yl } ) − p2

= P({Xi < Yj } ∩ {Xi < Yl }) − p2
= P({Xi < min{Yj , Yl }}) − p2
= q1 − p 2 .
3◦ i 6= k, j = l
Za fiksne (i, j), takvih parova (k, l) ima n1 − 1. Analogno kao u 2◦ ,
cov(Uij , Ukl ) = q2 − p2 .
Dakle,
Var U = n1 n2 p(1 − p) + n1 n2 (n2 − 1)(q1 − p2 ) + n1 n2 (n2 − 1)(q2 − p2 ).
Pretpostavimo sada da je F = G. Imamo
{X1 < Y1 } ∪ {Y1 < X1 } = Ω g.s.
66
pa slijedi
1
P(X1 < Y1 ) + P(Y1 < X1 ) = 1 ⇒ p = .
| {z } | {z } 2
=p =p
Naime, Z Z
P(X1 < Y1 ) = dF (x)dF (y) = P(Y1 < X1 ).
x<y
Nadalje, imamo q1 = P(X1 < min{Y1 , Y2 }). Uočimo da za odnos slučajnih varijabli
X1 , Y1 , Y2 imamo sljedećih 6 mogućih dogadaja
{X1 < Y1 < Y2 }, {Y1 < Y2 < X1 },

{X1 < Y2 < Y1 }, {Y2 < X1 < Y1 },
{Y1 < X1 < Y2 }, {Y2 < Y1 < X1 },
a kako su to sve dogadaji koji (zbog simetrije i nezavisnosti) imaju jednaku vjerojatnost
koja iznosi 16 , imamo
1 1
q1 = P(X1 < min{Y1 , Y2 }) = P({X1 < Y1 < Y2 } ∪ {X1 < Y2 < Y1 }) = 2 · = .
6 3
Analogno dobijemo i
1
q2 = q1 := P(Y1 > max{X1 , X2 }) = .
3
Zato

1 1 1 1 1 1
Var U = n1 n2 · · + n1 n2 (n2 − 1) − + n1 n2 (n1 − 1) −
2 2 3 4 3 4
n1 n2
= (3 + n2 − 1 + n1 − 1)
12
n1 n2
= (n1 + n2 + 1)
12
n1 n2
= (n + 1).
12
Teorem 3.11. Neka je X1 , . . . , Xn1 slučajni uzorak iz populacije s neprekidnom distribu-
cijom F , Y1 , . . . , Yn2 slučajni uzorak iz populacije s neprekidnom distribucijom G, te neka
su ti uzorci nezavisni. Tada
U − n1 n2 p(1 − p) D
√ → N (0, 1), min{n1 , n2 } → ∞.
Var U
Korolar 3.12. Uz pretpostavku F = G,
n1 n2
U− 2 D
q → N (0, 1), min{n1 , n2 } → ∞.
1
n n (n
12 1 2
+ 1)
67
3.2 Spearmanov koeficijent korelacije
Neka je dano dvodimenzionalno statističko obilježje (X, Y ). Ukoliko je
2

σX ρσX σY
(X, Y ) ∼ N (µX , µY ), ,
ρσX σY σY2
tada je s
cov(X, Y )
ρ=
σX σY
dan Pearsonov koeficijent korelacije slučajnih varijabli X i Y . Neka je (X1 , Y1 ), . . . , (Xn , Yn )
slučajan uzorak za (X, Y ). Tada je s
1
Pn
n−1 i=1 (Xi − X n )(Yi − Y n )
R= q q
1
P n 2 1
Pn 2
n−1 i=1 (X i − X n ) n−1 i=1 (Yi − Y n )
dan konzistentan procjenitelj za ρ. Ukoliko populacijska distribucija od (X, Y ) nije bi-

varijatna normalna, kako ćemo izmjeriti korelaciju izmedu X i Y ?
Uredimo komponente od (Xi , Yi ), i = 1, . . . , n. Neka su R1 , . . . , Rn rangovi od
X1 , . . . , Xn , a S1 , . . . , Sn rangovi od Y1 , . . . , Yn . Tada svakom uredenom paru (Xi , Yi )
pridružujemo uredeni par njihovih rangova, (Ri , Si ).
Definicija 3.13. Spearmanov koeficijent korelacije, u oznaci RS , je Pearsonov ko-

eficijent korelacije rangova (Ri , Si ), i = 1, . . . , n,
Pn
i=1 (Ri − R)(Si − S)
RS := qP qP .
n 2 n 2
i=1 (Ri − R) i=1 (Si − S n )
Računamo,
n
1X n+1
R= i= = S,
n i=1 2
n n n
X X n(n + 1)(2n + 1) X 2
Ri2 = 2
i = = Si ,
i=1 i=1
6 i=1
n n
X n(n2 − 1) X 2
2 2
Ri2 − nR = = Si − nS ,
i=1
12 i=1
pa Spearmanov koeficijent korelacije možemo prikazati i u ekvivalentnom obliku

Pn Pn n(n+1)2
Ri Si − nR · S
i=1 i=1 Ri Si − 4
RS = q q = n(n2 −1)
.
Pn 2 2 Pn 2 2
i=1 Ri − nR i=1 Si − nS 12
Uočimo da je RS ∈ [−1, 1]. Nadalje, Ri , Si su permutacije skupa {1, . . . , n} pa za svaki

j ∈ {1, . . . , n} možemo promatrati i = Sj−1 . Stavimo Q = R ◦ S −1 . Imamo
n
X n
X n
X
R i Si = jRSj−1 = jQj .
i=1 j=1 j=1
68
Zato (prema Cauchy-Schwarzovoj nejednakosti) vrijedi |RS | = 1 ako i samo ako postoji
λ ∈ R takav da
n+1 n+1
j− · λ = Qj − , j = 1, . . . , n,
2 2
što je moguće ako i samo ako je Qj = j za svaki j (tj. R = S, pa za parove (Xk , Yk ),
(Xl , Yl ) vrijedi Xk 6 Xl ako i samo ako je Yk 6 Yl ) ili Qj = n + 1 − j za svaki j (tj.
R = n + 1 − S, pa za parove (Xk , Yk ), (Xl , Yl ) vrijedi Xk 6 Xl ako i samo ako je Yk > Yl ).
Dakle, Spearmanov koeficijent korelacije mjeri koreliranost s obzirom na uredaj (tj.
koliko se dobro veza izmedu varijabli X i Y može opisati monotonom funkcijom). Razlike
izmedu Pearsonovog i Spearmanovog koeficijenta korelacije mogu se vidjeti na sljedećim
slikama.
RP = RS = 1 RP = −1, RS = 1
0 < RP < 1, RS = 1 −1 < RP < 0, RS = −1
Takoder, možemo testirati hipoteze o nezavisnosti
H0 : X i Y su nezavisne
H1 : X i Y su zavisne
√ H
asimptotskim testom, jer vrijedi: nRS ∼0 AN (0, 1).
Primjer 3.14. Odredite egzaktnu distribuciju Spearmanovog koeficijenta korelacije RS

na osnovi uzorka duljine n = 3 iz nekog bivarijatnog obilježja (X, Y ) uz uvjet da su X i
Y nezavisne slučajne varijable.
69
Rješenje. Pretpostavka nezavisnosti X i Y ekvivalentna je pretpostavci da su sve per-
mutacije rangova jednako vjerojatne. Imamo
Pn n(n+1)2 P3 3
j=1 jQj − 4 j=1 jQj − 3 · 4 1X
RS = n(n2 −1)
= 24 = jQj − 6.
12
2 j=1
12
Sve moguće realizacije RS možemo prikazati tablično:
Q1 Q2 Q3 Q1 + 2Q2 + 3Q3 RS
1 2 3 14 1
1 3 2 13 0.5
2 1 3 13 0.5
2 3 1 11 −0.5
3 1 2 11 −0.5
3 2 1 10 −1
Odavde dobivamo egzaktnu distribuciju RS :

−1 −0.5 0.5 1
RS ∼ 1 2 2 1 .
6 6 6 6
70
Poglavlje 4
Faktorska analiza
Za n opservacija q-dimenzionalnog slučajnog vektora Y , gdje µ = EY , Σ = cov(Y ), model

za faktorsku analizu je dan s
Y = 1µ µ> + XB + E,
gdje je      
Y1·> 1 µ1
Y =  ...  ∈ Mn,q , 1 =  ..  ∈ Rn , µ =  ..  ∈ Rq .
  
.   . 
Yn·> 1 µq
Imamo: X ∈ Mn,p , E ∈ Mn,q i to su slučajne matrice, a B ∈ Mp,2 i neslučajna je matrica.
Uz to,  
ε>1·
E = [εij ] =  ...  ,
 
ε>n·
gdje Eεij = 0, cov(ε> > >

i· , εk· ) = 0, i 6= k, te je cov(εi· ) = Ψ dijagonalna pozitivno
semidefinitna matrica. Nadalje,  
X1·>
X =  ... 
 
>
Xn·
je slučajna matrica, EXi· = 0, cov(Xi· , Xk· ) = 0, i 6= k, cov(Xi· ) = Ip , cov(Xi· , εk· ) = 0.
Komponente jednog retka matrice X predstavljaju vrijednosti p faktora.
Interpretacija je sljedeća: svaki element opservacije Y je linearna funkcija faktora plus
slučajna pogreška. Različite opservacije imaju nekorelirane pogreške.
Broj faktora p mora biti manji od dimenzije opservacije q. Vrijedi:
Yi· = µ + B > Xi· + εi· ,
Σ = cov(Yi· ) = cov(B > Xi· ) + cov(εi· ) = B > cov(Xi· )B + Ψ = B > B + Ψ.

Zanima nas kovarijacijska matrica Λ = B > B za koju vrijedi
(1) Λ > 0,
(2) r(Λ) = r(B) = p < q.
Napomena. Ako je p = q, tada stavimo Λ := Σ i Ψ := 0.
71
U praksi tražimo B
biΨ
b tako da
b>B
S=B b + Ψ.
b
Cilj nam je odrediti dovolno malen p tako da

b>B
S≈B b+Ψ
b
b ∈ Mp,q , r(B)
za neke B b ∈ Mq koja je dijagonalna te pozitivno semidefinitna.
b =piΨ
Napomena. Ako je U ∈ Mp ortogonalna matrica i Bb rješenje gornjeg problema, tada je

i UB
b takoder rješenje tog problema:
>
UBb UB b+Ψ b>U >U B
b =B b+Ψ
b =B b>Bb + Ψ.
b
Uvedimo sljedeću terminologiju. Elementi redaka od X zovu se zajednički faktori

(reprezentiraju ih stupci; elementi redaka različite su vrijednosti istog faktora). Elementi
matrice B su koeficijenti faktora (factor loadings). Elementi redaka od E (reprezenti-
raju ih stupci) su unikvitetni ili specifični faktori (unique/specific factors). Dijago-
nalni elementi od B > B = Λ zovu se komunaliteti:
p
X
λjj = βij2 =: h2j , j = 1, . . . , q.
i=1
Dijagonalni elementi matrice Ψ zovu se unikvitet ili posebnost varijable (komponente)

Yj :
σj2 = Ψjj .
Ukupna varijanca:
tr(Σ) = tr(B > B) + tr(Ψ).
Ukupni komunalitet:
q q
k X
X X
>
v = tr(Λ) = tr(B B) = h2j = βij2 .
j=1 i=1 j=1
Reducirana kovarijacijska matrica:
Λ = Σ − Ψ.
Neka je sada U ∈ Mp ortogonalna matrica. Tada je za
µ> + XB + E
Y = 1µ
>
s XB = XU U B = X0 B0 dana nova interpretacija faktora. Stupci matrice B sadrže
| {z } |{z}
X0 B0
koeficijente uz faktore koji objašnjavaju pojedine komponente opservacije, na primjer,
j-ti stupac od B služi za objašnjavanje Y·j :
   
Y1j X1·> B·j " p #
 Y2j   X > B·j 
2·
X
 ..  = Y·j = XB·j =  = Xik Bkj .
   
..
 .   .  j=1
> i=1,...,n
Ynj Xn· B·j
72
Dakle, važni su retci od B: k-ti redak od B sadrži sve koeficijente uz odredeni k-ti
zajednički faktor, tj. q koeficijenata u k-tom retku od B predstavlja utjecaj k-tog za-
jedničkog faktora pojedinim komponentama jedne opservacije.
Tradicionalno, ako pojedini faktor ima sve koeficijente velikog iznosa, znanstvenik iz
područja primjene nastoji imenovati taj faktor kao zajednički atribut svim opservaci-
jama. Bipolarni faktor je faktor koji reprezentiraju koeficijenti velikog iznosa, a koji
su pozitivni ili negativni.
Primjer 4.1. Lawley i Daxwell (1971.) te Johnson i Wichern (1989.) su proučavali

bodove na ispitima grupe od 220 studenata. Opservacija (po studentu) se sastoji od
bodova iz starog gaelskog (irskog) jezika, engleskog jezika, povijesti, aritmetike, algebre
i geometrije. U analizi se koristila uzoračka korelacijska matrica
1 1
R = D− 2 SD− 2 ∈ M6 , D = diag(S).
Za p = 2, metoda maksimalne vjerodostojnosti daje jednu procjenu

0.553 0.568 0.392 0.740 0.724 0.595
B
b= ,
−0.429 −0.288 −0.450 0.273 0.211 0.132
Ψ
b = diag(0.510, 0.594, 0.644, 0.377, 0.431, 0.628).
Interpretacija faktora
b>

1
B= .
b>
2
Svi elementi od b1 su pozitivne ujednačene vrijednosti. To sugerira da je prvi faktor

onaj koji indicira opću inteligenciju. Drugi je faktor bipolaran s pozitivnim koeficijentima
na matematičkim, a negativnim na nematematičkim predmetima. Taj se faktor može
klasificirati kao matematičko-nematematički faktor.
Faktorska analiza nije metoda/model za objašnjavanje ”ponašanja” podataka, već

analitički, opisno-statistički postupak kojim se istražuje struktura kovarijacijske matrice
s ciljem mogućeg sugeriranja prisutnosti nekih faktora.
73
4.1 Metoda maksimalne vjerodostojnosti
Metoda maksimalne vjerodostojnosti se koristi za procjenu i testiranje hipoteza. Osnovna
pretpostavka jest da su sve slučajne veličine normalno distribuirane.
ξi· := B > Xi· + εi· , i = 1, . . . , n,

 
>
ξ1·
ξ :=  ...  = XB + E.
 
>
ξn·
Kao i prije, Λ = B > B, i iz modela faktorske analize je
µ> + ξ ,
Y = 1µ
gdje je Eξξ = 0, cov(ξi· , ξk· ) = 0 za i 6= k, Σ = cov(ξi· ) = Λ + Ψ, Λ > 0, Ψ > 0 (i

dijagonalna je), r(Λ) = p < q.
Dakle, vjerodostojnost maksimiziramo uz gornja ograničenja na Λ i Ψ. MLE za µ je
b = Y , dok se MLE za Λ i Ψ ne mogu izraziti u zatvorenom obliku.
µ
Zadatak 4.1.1. Dokažite da se traženje MLE za Λ i Ψ svodi na minimizaciju kriterijske

funkcije
(Λ, Ψ) 7→ log det(Λ + Ψ) + tr((Λ + Ψ)−1 Σ bq)
po skupu svih Λ > 0, r(Λ) = p te dijagonalnih Ψ > 0. Ovdje je
b q := n − 1 S.
Σ
n
Prednosti metode maksimalne vjerodostojnosti su sljedeće:
Dobiveni procjenitelji su asimptotski normalni i efikasni1 .
Može se primijeniti asimptotska verzija testa omjera vjerodostojnosti.
Pretpostavimo da je f takva funkcija da je B = f (Λ) gdje je B ∈ Mp,q takva da

je B > B = Λ. Ako je Σ b MLE za Λ, zbog invarijantnosti procjene maksimalnom
vjerodostojnošću na funkcijske transformacije je i B
b := f (Λ)
b MLE za B. Dakako,
postoji više takvih funkcija: naime, za ortogonalnu matricu U ∈ Mp stavimo
f1 (Λ) := U f (Λ).

Napomena. Neka su stupci matrice Ap := a1 · · · ap svojstveni vektori od Λ koji
odgovaraju svojstvenim vrijednostima φ1 > φ2 > . . . > φp > 0 od Λ. Tada možemo
staviti p
B := diag( φ1 , . . . , φp )A>
p
p.
”Rotiranjem” B matricom U može se doći do odgovarajuće interpretacije.

1
Kažemo da je procjenitelj efikasan ukoliko je nepristran i postiže svoju donju Cramér-Raovu granicu.
Za više detalja pogledati literaturu iz kolegija Matematička statistika.
74
Primjer 4.2 (Nastavak primjera 4.1). Za p = 2, ortogonalna matrica U je reda 2, tj.
ona je matrica rotacije u R2 i njen se efekt može grafički prikazati. Dvije uobičajene
rotacije su varimax V i quartimax Q. Odgovarajući koeficijenti su

0.232 0.321 0.085 0.770 0.723 0.572
BV =
b ,
0.660 0.551 0.591 0.173 0.215 0.213

0.260 0.344 0.111 0.777 0.731 0.580
B
bQ = .
0.650 0.536 0.587 0.139 0.184 0.188
Za predvidanja redaka od X (ne opažaju!) imamo:
P [Xi· |Y ] = B(Λ + Ψ)−1 (Yi· − µ ).
75
4.2 Procjena pomoću glavnih faktora
To je metoda koja ne koristi pretpostavku o normalnosti. Ako je Ψ poznato, tada je
Λ = Σ − Ψ, pri čemu se pretpostavlja da je Λ > 0 i r(Λ) = p. Ako Σ nije poznata, koristi
se uzoračka kovarijacijska matrica S.
U stvari, za poznato Ψ se traži Λ u klasi svih pozitivno semidefinitnih matrica ranga
p tako da minimiziraju funkciju
Λ 7→ tr((S − Ψ) − Λ).
Neka su φ1 > φ2 > . . . > φq svojstvene vrijednosti

od S s odgovarajućim svojstvenim
vektorima a1 , . . . , aq , tj. Ap := a1 · · · ap . U odjeljku o glavnim komponentama
pokazali smo da je
tr S − SAp (A> −1 > > −1 >

p SAp ) Ap S = min tr S − SB(B SB) B S .
B∈Mq,p
r(B)=p
Očito je SB(B > SB)−1 B > S > 0 ranga p. Dakle, Λ

e := S − Ψ,
−1
>e e e>
Λ = ΛAp Ap ΛAp
e e e e A p Λ,
e

gdje je stupci matrice A ep = e a1 · · · e
ap svojstveni vektori za Λ (a φe1 > . . . > φep >
φep+1 > . . . > φeq svojstvene vrijednosti od Λ).
e Ako smo svojstvene vektore a1 , . . . , ap
odabrali tako da je A> p Ap = Ip , tada je

Λ = Ap diag φ1 , . . . , φp A
e e e e e> .
p
Dakle, očito je jedna procjena za B

q q
B
b = diag φe1 , . . . , e>
φep A p.
U praksi se sprovodi iterativni postupak. Za inicijalnu pretpostavku Ψ0 o Ψ dobijemo

početnu aproksimaciju
e 0 = S − Ψ0 .
Λ
Zatim Ψ1 izračunamo iz dijagonalnih elemenata od S − Λ b 0 i tako nastavimo sve do
konvergencije (sve dok se aproksimacije ne počnu stabilizirati). Uobičajeno je za Ψ0 uzeti

1 1
Ψ0 = diag ,..., ,
s11 sqq
gdje S = [sij ], ili Ψ0 = 0.
76

Analiza Vremenskih Nizova

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Analiza Vremenskih Nizova

Enviado por

Direitos autorais:

Formatos disponíveis

PRIMIJENJENA STATISTIKA

Bilješke s predavanja (prof. dr. sc. Miljenko Huzak)

Zagreb, lipanj 2015.

1 Linearni modeli više varijabli 2

Linearni modeli više varijabli

Y > = (Y1 , Y2 , . . . , Yq ) je q-dimenzionalni vektor odziva (i zapisujemo ga kao vektor -

Time smo slučajni uzorak (1.1) zapisali u matričnom obliku.

vektor p varijabli poticaja (i pritom stavimo x1 = 1). Slično, neka je sa

Y > = x> · B + ε > , (1.3)

gdje je Y > q-dimenzionalni vektor odziva, x> p-dimenzionalni vektor poticaja, B ∈

(E2) postoji kovarijacijska matrica cov(εε) = Σ ∈ Mq čije elemente označavamo Σ =

Slučajni uzorak (1.1) iz linearnog modela (1.3) se sada može zapisati

(E3) cov(ε·j ) = σjj In ,

cov(εij , εi0 j 0 ) = σjj 0 δii0 , i, i0 = 1, . . . , n, j, j 0 = 1, . . . , q,

gdje je δ Kroneckerov simbol.

Rješenje. U jednofaktorskom ANOVA modelu promatramo normalne razdiobe neke var-

Zato možemo pisati

Yij = µij + εij , εij ∼ N (0, σ 2 ), i = 1, . . . , k, j = 1, . . . , ni .

xj = 1{ispitanik pripada j-toj populaciji} .

Ukoliko želimo odrediti procjenitelj B

0 = ∇B Φ(B) = −2X > Y + 2(X > X)B

Ovaj model možemo reparametrizirati ukoliko stavimo

sveli na testiranje hipoteze

Budući da je Y ∼ Nn (Xθθ , σ 2 In ), vjerodostojnost je dana s

l(θθ , σ 2 ) = log L(θθ , σ 2 )

pa vidimo da se MLE za θ , θbM LE , poklapa s procjeniteljem za θ metodom najmanjih

Nadalje, definirajmo preslikavanje

Sada direktno slijedi cov(vec(E)) = Σ ⊗ In , a (1.5) možemo zapisati u ekvivalentnom

vec(AXB) = (B > ⊗ A) vec(X).

pri čemu su navedeni vektori p-dimenzionalni. Neka su i ∈ {1, . . . , s} i k ∈ {1, . . . , p}

Lema 1.1. Za sve matrice A, B, C, D te realne brojeve a, b vrijedi

(i) (aA) ⊗ (bB) = ab(A ⊗ B),

(iv) (A ⊗ B)> = A> ⊗ B > ,

(v) (AB) ⊗ (CD) = (A ⊗ C)(B ⊗ D) (ako su A i B, odnosno C i D ulančane),

(vi) ako su A i B regularne, tada je regularna i A ⊗ B te vrijedi

(A ⊗ B)(u ⊗ v) = λµ(u ⊗ v),

(viii) tr(A ⊗ B) = (tr A) · (tr B),

(ix) det(A ⊗ B) = (det A)q (det B)p , A ∈ Mp , B ∈ Mq ,

(x) ukoliko je A > 0, B > 0 (tj. matrice A i B su pozitivno definitne), onda je i

(i) Slijedi iz definicije množenja matrica skalarima i Kroneckerovog produkta:

(aA) ⊗ (bB) = [aaij bB] = ab[aij B] = ab(A ⊗ B).

(ii) Uz pretpostavku A, B ∈ Mk,l imamo

(A + B) ⊗ C = [(aij + bij )C] = [aij C] + [bij C] = (A ⊗ C) + (B ⊗ C).

(iii) Koristeći svojstvo (i) dobivamo

(v) Ako je A ∈ Mk,l , B ∈ Ml,n , C ∈ Mp,q , D ∈ Mq,s , tj. ako su matrice A i B, te C

(vi) Ukoliko su matrice A ∈ Mk i B ∈ Mm regularne, postoje njima inverzne matrice

(viii) Neka je A ∈ Mk i B ∈ Mm . Blokovi na glavnoj dijagonali matrice A ⊗ B su a11 B,

jer smo svaku od l zamjeni redaka/stupaca istovremeno primjenjivali na q parova

(x) Neka je A = [aij ] ∈ Mp , B = [bij ] ∈ Mq . Uočimo da je tada matrica A ⊗ B ∈ Mpq i

(uočimo da ovdje matrice i vektore zapisujemo u blokovima i njihov umnožak u

Budući da je matrica B pozitivno definitna, ona dopušta tzv. faktorizaciju Choleskog,

Za fiksni k ∈ {1, . . . , q} imamo

((A ⊗ B)x, x) > 0,

a s time i pozitivna definitnost matrice A ⊗ B.

Za matricu A ∈ Mn,s označimo sa L(A) potprostor od Rn razapet stupcima matrice

pa je ispunjen uvjet (i) (a time i uvjet (ii)) teorema 1.2. Mi za funkciju

Φ(B) = ((Σ ⊗ In )−1 (vec(Y) − (Iq ⊗ X) vec(B)), vec(Y) − (Iq ⊗ X) vec(B))

Ψ(B) = (vec(Y) − (Iq ⊗ X) vec(B), vec(Y) − (Iq ⊗ X) vec(B)).

= Iq ⊗ (X > X)−1 Iq ⊗ X > vec(Y)

= Iq ⊗ (X > X)−1 X > vec(Y)

= vec (X > X)−1 X > Y

bLS = (X > X)−1 X > Y.

Dokaz teorema 1.2. (i) Prema karakterizaciji LS-procjenitelja vrijedi da je θb LS-procjenitelj