Escolar Documentos
Profissional Documentos
Cultura Documentos
Natipkao i uredio:
Kristijan Kilassa Kvaternik
Ova skripta služi samo kao pomoć u praćenju predavanja iz istoimenog kolegija i ne može zamijeniti
prisustvovanje na njima. Bit ću zahvalan svakome tko mi javi bilo koju uočenu grešku u ovoj skripti
(kojih zasigurno ima).
2 Diskriminacija i alokacija 40
2.1 Procijenjena alokacija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.2 Linearne diskriminacijske koordinate . . . . . . . . . . . . . . . . . . . . 43
2.3 Glavne komponente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3 Neparametarske metode 61
3.1 Mann-Whitney-Wilcoxonov test . . . . . . . . . . . . . . . . . . . . . . . 61
3.2 Spearmanov koeficijent korelacije . . . . . . . . . . . . . . . . . . . . . . 68
4 Faktorska analiza 71
4.1 Metoda maksimalne vjerodostojnosti . . . . . . . . . . . . . . . . . . . . 74
4.2 Procjena pomoću glavnih faktora . . . . . . . . . . . . . . . . . . . . . . 76
1
Poglavlje 1
1.1 Uvod
Linearni modeli više varijabli su linearni modeli koji imaju više od jedne varijable odziva
Y1 , Y2 , . . . , Yq .
x> = (x1 , . . . , xp )
2
dana matrica dizajna.
Linearni model više varijabli zapisujemo ovako
(E1) Eεε = 0,
Y = XB + E, (1.4)
gdje je
ε>1·
ε>2·
E= ε·1 ε·2 · · · ε·q = .
..
.
ε>
n·
Pretpostavljamo još
gdje je In jedinična matrica reda n (iz ovog uvjeta zapravo slijedi da su različite kompo-
nente vektora ε nekorelirane).
Iz uvjeta (E1) slijedi
E[E] = 0,
dok iz (E2) i (E3) slijedi
Zadatak 1.1.1. Zapišite jednofaktorski ANOVA model kao regresijski model te metodom
najmanjih kvadrata (LS) procijenite nepoznate parametre.
Yij ∼ N (µi , σ 2 ), j = 1, . . . , ni .
3
Uočimo da je dimenzija opservacije q = 1. Sada možemo pisati
Y11 µ1 ε11 1 0 ··· 0
Y12 µ1 ε12 1 0 · · · 0
.. .. .. .. .. . . ..
. .
. . . . .
Y1n1 µ1 ε1n1 1 0 · · · 0
Y21 µ2 ε21 0 1 · · · 0
Y22 µ2 ε22 0 1 · · · 0
µ1
. . . . .
. . µ2
Y = .. = .. + .. = .. .. . . .. +E,
..
Y2n2 µ2 ε2n2 0 1 · · · 0
.
. . . . . .
.. .. .. .. .. . . ...
| µk
{z }
Y µ ε 0 0 ··· 1 =B
k1 k k1
Y µ ε 0 0 ··· 1
k2 k k2
.. .. .. .. .. . . ..
. . . . . . .
Yknk µk εknk 0 0 ··· 1
| {z }
=X
pri čemu matrica dizajna X ima k stupaca (u prvom stupcu n1 jedinica, zatim sve nule,
u drugom stupcu n1 nula, zatim n2 jedinica i do kraja sve nule i tako sve do posljednjeg
stupca u kojem ima sve nule osim zadnjih nk jedinica).
Za vektor poticaja x> = (x1 , . . . , xk ) imamo
µ1 = θ 0 ,
4
µ2 = θ 0 + θ 1 ,
µ3 = θ 0 + θ 2 ,
..
.
µk = θ0 + θk−1 .
U primjenama je θ0 srednja vrijednost opažene veličine na kontrolnoj skupini, a θi , i =
1, . . . , k − 1, je doprinos toj vrijednosti nastao zbog različitog tretmana u preostalim
skupinama. Sada je
1 0 ··· 0
1 0 ··· 0
.. .. . . ..
. . . .
1 0 ··· 0
1 1 ··· 0
1 1 ··· 0
θ0
. . . . . .. θ1
. .
Y= . . . .. + E.
.
1 1 ··· 0
.. .. . . ... θk−1
. . .
1 0 ··· 1
1 0 ··· 1
.. .. . . ..
. . . .
1 0 ··· 1
Ovom smo reparametrizacijom testiranje nulte hipoteze
H 0 : µ1 = µ2 = . . . = µk
H0 : θ1 = θ2 = . . . = θk−1 = 0,
tj. na test značajnosti linearnog regresijskog modela (u praksi je realizacija ovog testa
puno jednostavnija jer postoje već gotovi softverski alati).
Zadatak 1.1.2. Nadite MLE1 za parametre θ i σ 2 u višestrukom linearnom regresijskom
modelu.
Rješenje. Model je dan s
Y = Xθθ + ε , ε ∼ N (0, σ 2 In ).
L(θθ , σ 2 ) = fY (Y; θ , σ 2 )
Yn
= fYi (Yi ; θ , σ 2 )
i=1
1 1 1 2 −1
= · exp − (σ In ) (Y − Xθθ ), Y − Xθθ .
(2π)n/2 (σ 2 )n/2 2
1
Maximum Likelihood Estimator, procjenitelj maksimalne vjerodostojnosti
5
Sada je log - vjerodostojnost dana s
∇θ l(θθ , σ 2 ) = 0 ⇔ ∇θ |Y − Xθθ |2 = 0,
∂
l(θθ , σ 2 ) = 0,
∂σ 2
6
1.2 Procjena parametara
Da bismo procijenili B i Σ iz modela (1.3), napišimo slučajni uzorak (1.4) iz matričnog
u vektorskom obliku
Y·1 X B·1 ε·1
Y·2 X B·2 ε·2
= + . (1.5)
.. ... .. ..
. . .
Y·q X B·q ε·q
| {z } | {z } | {z } | {z }
nq×1 nq×pq pq×1 nq×1
blok - dijagonalna matrica
Takoder,
ε·1 ε·1 σ11 In σ12 In · · · σ1q In
ε·2 ε·2
> > σ21 In σ22 In · · · σ2q In
cov = E ε·1 ε·2 · · · ε> = .. .
.. .. ·q .. .. ..
. . . . . .
ε·q ε·q σq1 In σq2 In · · · σqq In
Rješenje. Stavimo A = [aij ]i=1,...,p, j=1,...,q , X = [xij ]i=1,...,q, j=1,...,r , B = [bij ]i=1,...,r, j=1,...,s .
Uočimo da je vec(AXB), (B > ⊗ A) vec(X) ∈ Rps , pa je dovoljno dokazati da su odgo-
varajuće komponente ovih dvaju vektora medusobno jednake. Imamo
(AXB)·1
vec(AXB) = ..
,
.
(AXB)·s
7
gdje su vektori (AXB)·i ∈ Rp , i = 1, . . . , s, stupci matrice AXB. Nadalje, imamo
r
X
bj1 AX·j
j=1
b11 A b21 A · · · br1 A X·1 r
X
b12 A b22 A · · · br2 A X·2 bj2 AX·j
>
(B ⊗ A) vec(X) = .. .. .. = ,
.. .. j=1
. . . . . ..
b1s A b2s A · · · brs A X·r
r .
X
bjs AX·j
j=1
pri čemu, zbog podudarnosti dimenzija blokova, blok - matrice možemo množiti kao i
”obične” matrice. Sada vidimo da je dovoljno za svaki i = 1, . . . , s pokazati
r
X
(AXB)·i = bji AX·j ,
j=1
r
X
dok je k-ta koordinata vektora bji AX·j jednaka
j=1
r r q q
r X
X X X X
bji A>
k· X·j = bji akm xmj = akm xmj bji .
j=1 j=1 m=1 j=1 m=1
Usporedivanjem ovih dviju dvostrukih suma vidimo da su one jednake, pa slijedi tvrdnja.
(ii) (A + B) ⊗ C = A ⊗ C + B ⊗ C,
(iii) (A ⊗ B) ⊗ C = A ⊗ (B ⊗ C),
(A ⊗ B)−1 = A−1 ⊗ B −1 ,
8
(vii) ako je Av = λv, Bu = µu, za u 6= 0, v 6= 0, tada je u ⊗ v 6= 0 i
Dokaz. Neka je A = [aij ] ∈ Mk,l , B = [bij ] ∈ Mm,n , C = [cij ] ∈ Mp,q , D = [dij ] ∈ Mr,s .
(iv) Imamo
(A ⊗ B)> = [aij B]> = [aji B > ] = A> ⊗ B > .
l
X
No, izraz (aim C)(bmj D) jest upravo jednak ij-tom bloku matrice (A ⊗ C)(B ⊗
m=1
D (naime, blok matrice možemo množiti kao i ”obične” tako da umjesto običnog
umnoška promatramo (matrični) umnožak odgovarajućih blokova). Odavde slijedi
tražena jednakost.
9
(vii) Uočimo da za matrice E, F općenito vrijedi: ukoliko je E ⊗ F = 0, onda je E = 0
ili F = 0. U suprotnom, postoji element eij matrice E različit od nule i F 6= 0, pa
blok eij F matrice E ⊗ F nije nul blok. Odavde slijedi prva tvrdnja (tj. iz u 6= 0 i
v 6= 0 slijedi u ⊗ v 6= 0). Zadana jednakost jest direktna posljedica svojstava (i) i
(v).
(ix) Ukoliko je matrica A singularna, tj. det A = 0, tada su retci matrice A linearno
zavisni (karakterizacija regularnosti matrice pomoću njenog ranga) pa su i retci
matrice A ⊗ B takoder linearno zavisni. Dakle, det(A ⊗ B) = 0 i vrijedi tvrdnja.
Pretpostavimo sada det A 6= 0, tj. da je matrica A regularna. Tada elemen-
tarnim transformacijama (točnije, zamjenom redaka/stupaca i dodavanjem nekog
retka/stupca pomnoženim skalarom nekom drugom retku/stupcu) matricu A možemo
svesti na gornje trokutastu matricu A,e
a11 e
e a12 · · · e
a1p
0 e a22 · · · e
a2p
A = .. .. ,
e .. . .
. . . .
0 0 ··· e app
p
Y
čija je determinanta det A
e= aii = (−1)l det A, gdje je l ukupan broj zamjena
e
i=1
redaka i stupaca koje smo napravili. No potpuno analogne transformacije možemo
primijeniti i na matricu A ⊗ B, shvaćajući blokove oblika aij B kao njene ”elemente”
a11 B a12 B · · · a1p B a11 B e
e a12 B · · · e a1p B
a21 B a22 B · · · a2p B 0 a22 B · · · e
e a2p B
A ⊗ B = .. .. ∼ .. .. = Ae ⊗ B.
.. . . .. . .
. . . . . . . .
ap1 B ap2 B · · · app B 0 0 ··· e app B
e ⊗ B vrijedi
Za determinantu matrice A
e ⊗ B) = (−1)lq det(A ⊗ B),
det(A
10
Izjednačavanjem lijevih strana posljednjih dviju jednakosti slijedi
(−1)lq det(A ⊗ B) = (det B)p (−1)lq (det A)q
⇒ det(A ⊗ B) = (det A)q (det B)p .
Označimo
αj1
αj2
Rmj = , j = 1, . . . , p.
..
.
αjq
11
Sada imamo
p p
X X
((A ⊗ B)x, x) = aji (Rmi , Rmj )
j=1 i=1
p p q
XX X
= aji αik αjk
j=1 i=1 k=1
q p p
!
X X X
= aji αik αjk .
k=1 j=1 i=1
pri čemu posljednja nejednakost vrijedi zbog pozitivne definitnosti matrice A. Budući
da ne mogu svi vektori Rmj biti nul-vektori (jer ne mogu ni svi vektori Bmj biti
nul-vektori), slijedi da je barem jedna suma na lijevoj strani posljednje jednakosti
strogo pozitivna. Odavde slijedi
Teorem 1.2. Neka je Y = Xθθ +εε višestruki linearni regresijski model takav da je Eεε = 0,
cov(εε) = V > 0, X je punog ranga.
(i) Ukoliko je L(V X) = L(XU ) za neku regularnu matricu U , tada je θb = (X > X)−1 X > Y
LS-procjenitelj u odnosu na skalarni produkt ha, bi := (V −1 a, b) u Rn ,
XX
ha, bi = [V −1 ]ij ai bj .
i j
(ii) Ako je L(V X) 6 L(X), tada je l>θb = l> (X > X)−1 X > Y BLUE2 za L(θθ ) := l>θ =
(l, θ ).
2
Best Linear Unbiased Estimator, najbolji linearni nepristrani procjenitelj
12
Uz naše je pretpostavke
(Σ ⊗ Iq )(Iq ⊗ X) = (Iq ⊗ X) (Σ ⊗ Ip ),
| {z }
regularna
tražimo argument minimuma, arg min Φ(B), a po prethodnom se teoremu taj argument
B∈Mp,q
podudara s argumentom minimuma funkcije
Imamo
vec(B) \
b = vec(B)
−1
= (Iq ⊗ X)> (Iq ⊗ X) (Iq ⊗ X)> vec(Y)
hY − Yb , Xai = (V −1 (Y − Yb ), Xa)
= (Y − Yb , V −1 Xa)
= [postoji a0 ∈ Rp , a = U a0 ]
= (Y − Yb , V −1 XU a0 )
= [XU a0 ∈ L(XU ) = L(V X)]
= (Y − Yb , V −1 V Xa00 )
= (Y − Yb , Xa00 )
= ((I − H)Y, Xa00 ).
pa vrijedi tvrdnja.
13
(ii) Uočimo da je
h i h i
>b >
Eθ l θ = l Eθ b θ
= l> Eθ (X > X)−1 X > Y
Računamo
b = c> cov(Y )c − l> (X > X)−1 X > cov(Y )X(X > X)−1 l
Var(c> Y ) − Var(l> θ)
= c> V c − l> (X > X)−1 X > V X(X > X)−1 l
= c> V c − c> HV Hc
= c> (V − HV H)c.
Za x ∈ Rn imamo
HV Hx = HV X (X > X)−1 X > x
| {z }
x0
=HV Xx}0
| {z
Xx00
00
= HXx
= [H je projektor na L(X)]
= Xx00
= V Xx0
= V X(X > X)−1 X > x
= V Hx,
pa slijedi
Zato imamo
V − HV H = (M + H)V (M + H) − HV H
= M V M + M V H + HV M
= M V M,
14
Dakle, Var(c> Y ) > Var(l>b θ ), pa vidimo da procjenitelj l>b
θ u klasi svih linearnih
nepristranih procjenitelja za L(θθ ) ima najmanju varijancu. Dakle, l>bθ je BLUE za
L(θθ ).
0 = ∇Σ l(B,
b Σ) =
n
n 1 X
> > −1
−1 > > −1
= ∇Σ
− 2 log det Σ − 2 Yi· − Y X(X X) xi· Σ Yi· − Y X(X X) xi·
i=1
| {z }
n
e> −1 Y> M e =tr(M YΣ−1 Y> M )=tr(Σ−1 Y> M Y)
P
i=1 i M YΣ i
n 1 −1 >
= ∇Σ − log det Σ − tr(Σ Y M Y) .
2 2
Zadatak 1.2.2. Za Σ = [σij ], pokažite
∂ −1 ∂
Σ = tr Σ−1 Tij ,
log det Σ = tr Σ
∂σij ∂σij
gdje je Tij matrica koja na mjestima (i, j) i (j, i) ima 1, a na preostalim mjestima 0.
( Uputa: zapišite determinantu matrice pomoću njene adjunkte.)
Takoder vrijedi
∂ ∂ −1
tr(Σ−1 A) = tr Σ A .
∂x ∂x
Zadatak 1.2.3. Pokažite
∂ −1
Σ = −Σ−1 Tij Σ−1 .
∂σij
Sada iz
∂
0= l(B,
b Σ)
∂σij
slijedi
n 1
0 = − tr Σ−1 Tij + tr Σ−1 Tij Σ−1 Y> M Y .
2 2
15
Pretpostavimo da je
b M LE = 1 Y> M Y
Σ
n
rješenje gornjeg sustava (kao matrični analogon jednodimenzionalnog slučaja) i pret-
postavimo da je ta matrica regularna. Uvrštavanjem u dobivene jednadžbe slijedi
n2 n2
tr (Y> M Y)−1 Tij + tr (Y> M Y)−1 Y> M Y(Y> M Y)−1 Tij = 0,
−
2 2
pa, uz pretpostavku regularnosti, vidimo da ta matrica uistinu i jest rješenje gornjeg
sustava.
∂
gdje je D = operator diferenciranja, a A i B su matrične funkcije. Koristeći ovu
∂σij
činjenicu i relaciju Σ−1 Σ = I, riješite zadatak 1.2.3.
nepristran procjenitelj za Σ.
16
i vrijedi
= E e>
·i M e·j
ε1j
n n n
" #
X X X ε2j
= εki mk1 εki mk2 · · · εki mkn
..
k=1 k=1 k=1
.
εnj
" n n
! #
X X
=E εki mkl εlj
l=1 k=1
n X
X n
= mkl E[εki εlj ]
k=1 l=1
= [zbog Eεki = Eεlj = 0 je E[εki εlj ] = cov(εki , εlj )]
X n Xn
= mkl cov(εki , εlj )
k=1 l=1
n X
X n
= mkl σij δkl
k=1 l=1
= σij tr(M ),
tr M = tr(I − H) = n − tr H
= [trag projektora jednak je njegovom rangu]
= n − r(H) = n − r(X),
slijedi
E Y·i> M Y·j = (n − r(X))σij ,
17
1.3 Testiranje hipoteza
Pretpostavimo da želimo testirati vrijedi li za model više varijabli
Y = XB + E (F)
H0 : (R) je dovoljan ⇔ Y = X0 B0 + E
H1 : (F ) je potreban (neH0 )
Neka je H = X(X > X)−1 X > ortogonalni projektor na L(X) i H0 = X0 (X0> X0 )−1 X0>
ortogonalni projektor na L(X0 ). Vrijedi H0 H = H0 = HH0 . Stavimo i M = I − H,
M0 = I − H0 .
Multivarijatni test modela (R) bazira se na
H0 : Λ> B = C
H1 : Λ> B 6= C
18
Vrijedi
n
! n n
X X X
Xi Xi> Xi Xi> tr Xi> Xi
tr(W ) = tr = tr =
i=1 i=1 i=1
n
X n X
X d
= |Xi |2 = [nezavisnost] = Xij2 ,
i=1 i=1 j=1
Dokaz. Imamo
koje imaju zaredom p, odnosno n − p jedinica na glavnoj dijagonali, tim redom. Odavde
slijedi
Xn
G = E > M E = (U E)> DM (U E) = (U E)1· (U E)>
1· .
i=p+1
Nadalje,
(U E)>
1·
..
.
(U E)>1·
>
> (U E)p·
HY = H(XB + E) = XB + HE = XB + U > DH ..
= XB + U .
. 0
(U E)>
n·
..
.
0
19
Vidimo da su HY i G funkcije disjunktnih skupova nezavisnih slučajnih vektora pa su to
nezavisne veličine.
Nadalje,
P = Y> (H − H0 )Y
H0
= Y> (H − H0 )E
= E > U > (DH − DH0 )U E.
Uočimo da je DH − DH0 matrica koja na glavnoj dijagonali ima najprije p0 nula, zatim
p − p0 jedinica, i na kraju n − p nula (i na preostalim mjestima nule). Zato je
p
X
P = (U E)i· (U E)>
i· ∼ wq (p − p0 , Σ).
i=p0 +1
H0 : (B, Σ) ∈ Θ0
H1 : (B, Σ) 6∈ Θ0
odbacujemo H0 u korist H1 3 .
Pritom su vjerodostojnost L i log-vjerodostojnost l dane s
Za nultu hipotezu
H0 : Y = X0 B0 + E
3
Za takve testove kažemo da su testovi omjera vjerodostojnosti.
20
imamo
> −1 > 1 >
B0 , Σ0 = (X0 X0 ) X0 Y, Y M0 Y ,
b b
n
max L(B, Σ) = L B b 0 = (2πe)− nq2 (det Σ
b0 , Σ b 0 )− n2 ,
(B,Σ)∈Θ0
pa zato
n
det n Σ
bML
λ2 =
det nΣ b0
det G
=
det(G + P )
= [Binet − Cauchy]
det G
=
det G det(I + G−1 P )
= det[(I + G−1 P )−1 ],
H0 : B = B0
6 B0
H1 : B =
H0 : B − B0 = 0
H1 : B − B0 6= 0
Y − XB = X (B − B0 ) +E
| {z }0 | {z }
Z C
⇒ Z = XC + E,
21
te za ovaj izvedeni model testiramo hipoteze
H0 : C = 0
6 0
H1 : C =
22
1.4 Test o parametru očekivanja višedimenzionalne
normalne razdiobe
µ, Σ), Σ > 0. U ma-
Pretpostavimo da je Y1· , Y2· , . . . , Yn· slučajni uzorak iz modela Nq (µ
tričnom zapisu
Y1·>
Y>
2·
Y := .. . (1.6)
.
Yn·>
Model za taj uzorak je dan s
Y = 1nµ > + E, (1.7)
gdje je
ε>1·
ε>2·
E= , Yi·> = µ> + ε>
i· , i = 1, . . . , n,
..
.
ε>
n·
Za testiranje hipoteza
H0 : µ = µ 0
H1 : µ 6= µ 0
23
b = 1 Y> I − 1(1> 1)−1 1> 2 Y
Σ
n
1 > 1 >
= Y Y − 11 Y
n n
1 >
= Y> Y − 1Y
n
1 > >
Y − 1Y>
= Y − 1Y
n
1
=
n >
Y1· − Y
>
1 Y2· − Y
= Y1· − Y Y2· − Y · · · Yn· − Y ..
n
.
>
Yn· − Y
n
1X >
= Yi· − Y Yi· − Y
n i=1
n−1
= S,
n
uz n
1 X >
S= Yi· − Y Yi· − Y .
n − 1 i=1
Imamo n
1 X >
[S]jj 0 = Yij − Y ·j Yij 0 − Y ·j 0 ,
n − 1 i=1
što je uzoračka kovarijanca izmedu j-te i j 0 -te komponente slučajnog vektora Y (S je tzv.
empirijska kovarijacijska matrica).
Hipotezna je statistika
a pogreškovna
b = (n − 1)S ∼ wq (n − 1, Σ).
G = nΣ
Uz pretpostavku da je ispunjena hipoteza H0 , statistike P i G su nezavisne.
Takoder, zbog
> > > 1
1> HY = 1> 1Y = nY , Y = 1> Y,
n
24
slijedi
>
1 >
Y = vec Y = vec 1 YIq
n
1 >
= Iq ⊗ 1 vec(Y)
n
1 > 1 > 1
∼ Nq Iq ⊗ 1 ((Iq ⊗ 1) vec(B)) , Iq ⊗ 1 (Σ ⊗ In ) Iq ⊗ 1
n n n
1 1
= Nq (Iq ⊗ 1) µ , Σ ⊗ = Nq µ , Σ
n n
H0 : µ = µ 0
H1 : µ 6= µ 0
je dan s
− n2
1
λ= 1+ T2 .
n−1
Dokaz. Vrijedi
n
λ = det(In + G−1 P )− 2
− n2
1 >
S −1 n Y − µ 0 Y − µ 0
= det In + .
n−1
25
Dokaz. Imamo
Ip + AB A Ip A Ip 0
= ,
0 Iq −B Iq B Iq
Ip A Ip 0 Ip A
= .
0 Iq + BA B Iq −B Iq
rang matrice)
Tvrdimo
P det X1 X2 · · · Xd = 0 = 0.
Za to je dovoljno pokazati da determinanta ima neprekidnu distribuciju. No, prema
definiciji determinante
X
(−1)I(σ) X1σ(1) X2σ(2) · · · Xdσ(d) ,
det X1 X2 · · · Xd =
σ∈Sd
(sa Sd označavamo skup svih permutacija skupa {1, . . . , d}, a sa I(σ) broj inverzija per-
mutacije σ) pa determinanta kao linearna kombinacija umnožaka neprekidnih slučajnih
varijabli i sama ima neprekidnu distribuciju (alternativno, ovu smo činjenicu mogli pokazati
i matematičkom indukcijom po redu matrice, koristeći Laplaceov razvoj).
26
Sada imamo g.s.
det X1 X2 · · · Xd > 0,
g.s.
pa je matrica X1 X2 · · · Xd g.s. regularna, a zbog toga je r X1 X2 · · · Xd =
d. Dakle g.s.
d > r(A) > d,
a odavde slijedi tvrdnja.
Pomoću ovog zadatka možemo opravdati upotrebu S −1 , tj. pokazati da S jest regu-
larna matrica. Imamo
(n − 1)S ∼ wq (n − 1, Σ),
uz n − 1 > q (u primjenama je to općenito ispunjeno). Zato
n−1
X
(n − 1)S = Xi Xi> ,
i=1
njd 1 1 njd
gdje X1 , . . . , Xn−1 ∼ Nq (0, I). Zato je Σ− 2 X1 , . . . , Σ− 2 Xn−1 ∼ Nq (0, I) i po definiciji
vrijedi
n−1 1 >
− 12 − 12 1
X
(n − 1)Σ SΣ = Σ− 2 Xi Σ− 2 Xi ∼ wq (n − 1).
i=1
1 1
Dakle, vidimo da je matrica A = (n − 1)Σ− 2 SΣ− 2 regularna pa je i S regularna kao
umnožak regularnih matrica
1 1
S = Σ 2 AΣ 2
(sličan argument zapravo možemo primijeniti općenito kod hipoteznih i pogreškovnih
statistika).
Definicija 1.6. Kažemo da slučajna varijabla Z ima necentralnu F -distribuciju s
parom stupnjeva slobode (m, n) i parametrom necentralnosti δ ako postoje nezavisne
slučajne varijable X ∼ χ2 (m, δ), Y ∼ χ2 (n) takve da
D X/m
Z= .
Y /n
Pišemo Z ∼ F (m, n; δ).
Propozicija 1.7. Ako su Z ∼ Nd (δδ , I), W ∼ wd (m), m > d, nezavisne, tada
m − d + 1 > −1 1 >
Z W Z ∼ F d, m − d + 1; δ δ .
d 2
Dokaz. Neka je U slučajna ortogonalna matrica kojoj je prvi redak jednak
Z
|Z|
(takva uistinu postoji, možemo ju dobiti npr. Gram-Schmidtovim postupkom). Tada je
U Z = |Z|e1 i imamo
m − d + 1 > −1 −1
Z W Z = (U Z)> U > W U UZ
d | {z }
V
m − d + 1 2 > −1
= |Z| e1 V e1 .
d
27
Uvjetna distribucija od V uz dano Z = z je Wishartova distribucija w(m) jer je
m
X m
X
UW U> = U Xi Xi> U > = (U Xi )(U Xi )> ,
i=1 i=1
njd njd
a kako je X1 , . . . , Xm ∼ Nd (0, I), to je i U X1 , . . . , U Xm ∼ Nd (0, I). Dakle, V | Z =
z ∼ w(m). Nadalje, budući da uvjetna distribucija od V ne ovisi o Z, bezuvjetno je
V ∼ w(m) i V i Z su nezavisne slučajne veličine.
Stavimo
v11 V12>
V = .
V12 V22
Uz pretpostavku regularnosti matrice V22 imamo
>
1 1 −1
> V −1 V − v −V > V −1 V V22 V12
V −1 = v11 −V12 22 12 11 12 22 12
2
,
− v −V >1V −1 V V22−1 V12 V22−1 + v −V|V>12V| −1 V V22−1
11 12 22 12 11 12 22 12
pa slijedi
m − d + 1 > −1 |Z|2 /d
Z W Z= .
d (v11 − V12> V22−1 V12 )/(m − d + 1)
Vrijedi
d
2
X 1 >
|Z| = Zi2 ∼χ 2
d, δ δ ,
i=1
2
(pri čemu druga nejednakost slijedi iz zadatka 1.4.1), slijedi da je matrica V22 regularna.
28
Nadalje,
= (MY X, X),
pri čemu smo sa MY označili ortogonalni projektor na L(Y )⊥ . Otprije (pogledati lit-
eraturu kolegija Statistika s 3. godine preddiplomskog studija) da vrijedi (MY X, X) ∼
χ2 (My ). Dakle, R | Y = y ∼ χ2 (m − d + 1), no ta uvjetna distribucija ne ovisi o Y , pa
slijedi R ∼ χ2 (m − d + 1), pa slijedi tvrdnja propozicije.
Propoziciju 1.7 možemo primijeniti u slučaju Hotellingove statistike (želimo odrediti
distribuciju testne statistike).
Propozicija 1.8. Za n > q + 1 imamo
n−q 1 1 >
· T2 ∼ F q, n − q; δ δ ,
q n−1 2
√ 1
uz δ = nΣ− 2 (µ
µ − µ 0 ).
Dokaz. Imamo
n−q 1 n−q >
T2 = · n Y − µ 0 [(n − 1)S]−1 Y − µ 0 .
·
q n−1 q
Takoder,
√ √
1 1 1
Y − µ 0 ∼ Nd µ − µ 0 , Σ ⇒ nΣ− 2 Y − µ 0 ∼ Nd nΣ− 2 (µ
µ − µ 0 ), Iq ,
n
1 1
(n − 1)S ∼ wg (n − 1, Σ) ⇒ (n − 1) Σ− 2 SΣ− 2 ∼ wq (n − 1),
pa stavljanjem √
1 1 1
nΣ− 2 Y − µ 0 , W = (n − 1)Σ− 2 SΣ− 2
Z=
√ 1
imamo m = n − 1, d = q, δ = nΣ− 2 (µ
µ − µ 0 ) te
n−q 1 n − q > −1
· T2 = Z W Z,
q n−1 q
a odavde, primjenom propozicije 1.7, slijedi tvrdnja.
Korolar 1.9. Uz iste pretpostavke na model (1.7), (1 − α) · 100% pouzdano područje za
vektor parametara µ je slučajni elipsoid
> (n − 1)q
n Y−µ S −1 Y − µ 6 fα (q, n − q),
n−q
gdje je fα (q, n − q) (1 − α)-kvantil centralne F -distribucije, F (q, n − q).
Dokaz. Slijedi direktno iz propozicije 1.8 uz µ 0 = µ .
29
Zadatak 1.4.2. Uz iste pretpostavke na model (1.7), sprovedite test sljedećih hipoteza
H0 : µ 1 − µ 3 = 0
H1 : µ 1 − =
6 µ 3 6= 0
Rješenje. Stavimo
a> =
1 0 −1 0 · · · 1 .
Imamo a>µ = µ1 − µ3 , pa zadane hipoteze možemo zapisati u sljedećem obliku
H0 : a>µ = 0
H1 : a>µ 6= 0
Neka je
Y1·>
Y2·>
Y= , Yi· ∼ Nq (µ
µ, Σ),
..
.
Yn·>
slučajni uzorak za vektor odziva Y . Definiramo
X n − 0 √ H0
T = n ∼ t(n − 1),
Sn
i problem je sveden na Studentov T -test.
H0 : A>µ = c
H1 : A>µ 6= c
Rješenje. Neka je
a>1
>
a>2
A = .
..
.
a>
r
30
Definirajmo
Z := YA
Y1·>
= ... a1 a2 · · · aR
Yn·>
Y1·> a1 · · · Y1·> ar
= ... ... .. .
.
> >
Yn· a1 · · · Yn· ar
Iz
Y = 1nµ > + E, vec(E) ∼ Nnq (0, Σ ⊗ In )
slijedi
YA = 1n (A>µ )> + EA,
vec(EA) = vec(In EA) = (A> ⊗In ) vec(E) ∼ Nnr (A> ⊗ Iq )0, (A> ⊗ In )(Σ ⊗ In )(A> ⊗ In )> ,
| {z }
=(A> ΣA)⊗In
pri čemu je matrica (A> ΣA)⊗In pozitivno definitna (matricu Σ smo pomnožili matricom
punog ranga). Hipoteze u skladu s ovim supstitucijama sada glase
H0 : ν = c
H1 : ν 6= c
31
1.5 Višestruka korelacija
Definicija 1.10. Neka je
X1
X=
X2
p-dimenzionalni slučajni vektor (X2 je (p − 1)-dimenzionalni vektor). Tada je koeficijent
višestruke korelacije R izmedu slučajne varijable X1 i slučajnog vektora X2 maksimalni
p−1
X
>
koeficijent korelacije izmedu X1 i t X2 = ti X2i , za sve t ∈ Rp−1 , tj.
i=1
R = max
p−1
corr(X1 , t> X2 ).
t∈R
Pretpostavimo EX = 0 te
σ11 σ >
21
cov(X) = , Σ22 = cov(X2 ).
σ 21 Σ22
cov(X1 , λt> X2 )
corr(X1 , λt> X2 ) = p
Var X1 Var(λt> X2 )
λ cov(X1 , t> X2 )
= p
λ Var X1 Var(t> X2 )
= corr(X1 , t> X2 ).
Pp−1 !2 2 2
σ> t
cov(X1 , X2i ) (t, σ 21 )
i=1
√ = √21 = √
σ11 σ11 σ11
(t, AA−1σ 21 )2 (At, A−1σ 21 )2
= =
σ11 σ11
2 −1
SC |At| |A σ 21 | 2
σ Σ−1σ 21
>
6 = 21 22 ,
σ11 σ11
pri čemu odaberimo skalar λ i matricu A tako da
λt = Σ−1
22 σ 21 , A−1σ 21 = λAt.
32
Dakle,
−1
σ>21 Σ22 σ 21
R2 = .
σ11
Za procjenu koeficijenta višestruke korelacije imamo
>
> v11 v21
(n − 1)S = Y − Y Y−Y =
v21 V22
> −1
⇒R b2 = v21 V22 v21 .
v11
Višestruki se koeficijent korelacije primjenjuje za testiranje hipoteze
H0 : X1 i X2 nezavisni ⇔ R = 0
33
1.6 Parcijalna korelacija
Neka je
X1 µ1 Σ11 Σ12
X= ∼ Np , , Σ22 > 0,
X2 µ2 Σ21 Σ22
gdje p = p1 + p2 (X1 i X2 su vektori dimenzija p1 i p2 , respektivno), Σ12 = Σ>
21 =
cov(X1 , X2 ).
Lema 1.11.
X1 | X2 = x2 ∼ Np1 µ 1 + Σ12 Σ−1 −1
22 (x2 − µ 2 ), Σ11 − Σ12 Σ22 Σ21
Definicija 1.12. Koeficijent parcijalne korelacije izmedu i-te komponente X1i i j-te
komponente X1j vektora X1 je (i, j)-ti element korelacijske matrice
1 −1
D− 2 Σ11 − Σ12 Σ−122 Σ21 D
2,
Imamo
V11 V12
V := (n − 1)S = ∼ wp (n − 1, Σ), V12 = V21> .
V21 V22
Zadatak 1.6.1. Dokažite da vrijedi
V11 − V12 V22−1 V22 ∼ wp1 (n − 1 − p2 , Σ11 − Σ12 Σ−1
22 Σ21 ).
34
1.7 MANOVA (Višedimenzionalna analiza varijance)
Pretpostavimo da imamo k > 2 nezavisnih uzoraka
njd
Yi1 , . . . , Yini ∼ Nq (µ
µi , Σ), i = 1, . . . , k, Σ > 0.
Želimo testirati
H0 : µ 1 = µ 2 = . . . = µ k
Stavimo
Y11>
Y12>
..
.
>
Y1n
Y21>
1
1n1 µ>1
.. 1n2 µ>2
Y= . = +E,
... ..
>
Y2n
.
2
µ>
.. 1nk k
. |
{z } | {z }
> X B
Yk1
..
.
>
Ykn k
H0 : µ 1 = µ 2 = . . . = µ k ⇔ Y = 1n µ > +E.
|{z} |{z}
X0 B0
Imamo
1n1
1n2
L(X0 ) < L = L(X).
...
1nk
Takoder,
35
Hipotezna je statistika
Pogreškovna je statistika
G = Y> M Y
ni
k X
X >
= Yij − Yi Yij − Yi
i=1 j=1
k
X
= (ni − 1)Si = SSE.
i=1
D det W1
U= ∼ U (p; m, n).
det(W1 + W2 )
U literaturi se ova distribucija još zove i Wilksova λ-distribucija.
Propozicija 1.14. Za omjer vjerodostojnosti Λ, ukoliko je ispunjeno
H0 : µ 1 = µ 2 = . . . = µ k
vrijedi
2
Λ n ∼ U (q; k − 1, n − k).
Napomena. Vrijedi sljedeći asimptotski rezultat
D/H0
−2 log Λ −−−→ χ2 (q(k − 1)) , n → ∞.
| {z }
χ2 (dimΘ−dimΘ0 )
36
Zadatak 1.7.2. Nadite pogreškovnu i hipoteznu statistiku te njihove razdiobe za hipoteze
H0 : Λ> B = C
H1 : Λ> B 6= C
Y = XB + E
Uočimo da je A> (X > X)−1 A kvadratna matrica reda r. Takoder, matricu (X > X)−1
možemo dijagonalizirati, tj. možemo pisati D = U (X > X)−1 U > , gdje je D dijag-
onalna, a U ortogonalna matrica. Označimo stupce matrice (U A)> redom sa b1 ,
b2 , . . ., br (oni su linearno nezavisni jer smo matricu A punog ranga pomnožili
regularnom matricom). Sada je
37
pri čemu posljednja jednakost vrijedi jer je b>
i Dbj Gramova matrica, i to do-
bivena skalarnim množenjem (u odnosu na odgovarajući težinski skalarni produkt)
r linearno nezavisnih vektora. Dakle, matrica A> (X > X)−1 A je regularna pa imamo
!
> > −1
−1 > > −1 > >
λ = A (X X) A A (X X) X Y − |{z} A θ
=c
−1
⇒ θb = (X > X)−1 X > Y − (X > X)−1 A A> (X > X)−1 A A> (X > X)−1 X > Y − c .
Stavimo
−1
H − H0 := X(X > X)−1 A A> (X > X)−1 A A> (X > X)−1 X > .
Odavde se dobije da je H0 projektor i H0 H = HH0 = H0 , pa H0 projicira na
−1
potprostor od L(X), L(X0 ). Uz c0 := (X > X)−1 A A> (X > X)−1 A c ∈ L(X0 )
(jer H0 c0 = 0) slijedi
X θb = HY − (H − H0 )Y + c0
(želimo usporedivati Y i Xθθ ).
2◦ Primijenimo sada 1◦ na zadane hipoteze. Imamo
vec(Y) = (Iq ⊗ X) vec(B) + vec(E),
pa vrijedi
Λ> B = C ⇔ vec(Λ> BIq ) = vec(C)
⇔ (Iq ⊗ Λ)> vec(B) = vec(C) .
| {z } | {z } | {z }
A> θ c
Prema H0 ,
(Iq ⊗ X) vec(B
b0 ) = (Iq ⊗ H) vec(Y)
− Iq ⊗ X(X > X)−1 Λ(Λ> (X > X)−1 Λ)−1 Λ> (X > X)−1 X > vec(Y)
⇒ XB
b0 = H0 Y + C0 ,
uz C0 := (X > X)−1 Λ(Λ> (X > X)−1 Λ)−1 C.
3◦ Odredimo omjer vjerodostojnosti za zadani test (umjesto fiksne vrijednosti B0 u
izrazu za l(B, Σ) stavimo B
b0 ). Slijedi,
G = Y> M Y, M = IH ,
te
P = (Y − XB0 )> (Y − X Bb0 ) − Y> M Y
= (M Y + X(Bb−B b0 ))> (M Y + X(B b0 )) − Y> M Y
b−B
= [X B
b = HY]
= (HY − X B
b0 )(HY − X B
b0 )
= (HY − H0 Y − C0 )> (HY − H0 Y − C0 )
= ((H − H0 )(Y − C0 ))> ((H − H0 )(Y − C0 ))
= (Y − C0 )> (H − H0 )(Y − C0 ).
38
Imamo G ∼ wq (n − p, Σ), r(H) = p. Uz pretpostavku H0 , G i P su nezavisne i
P ∼ wq (r(H − H0 ), Σ). Budući da je H − H0 projektor, vrijedi
r(H − H0 ) = tr(H − H0 ) = tr(Ir ) = r.
u modelu Z = X B e + E,
e vec(E)e ∼ Nns (0, Σ
e ⊗ In ), Σ
e > 0. Ovime smo zadatak sveli na
prethodni.
Tako je pogreškovna statistika
G = Z> M Z = Π> Y> M YΠ ∼ ws (n − p, Σ),
e
hipotezna
H
P ∼0 ws (r, Π> ΣΠ),
a omjer vjerodostojnosti
2 det G H0
Λn = ∼ U (s; r, n − p).
det(P + G)
39
Poglavlje 2
Diskriminacija i alokacija
(2) Ako su nam poznati zakoni razdioba svake od k populacija, tada možemo definirati
vjerodostojnost populacije i
L(i) := f (Y | i),
gdje je f (· | i) gustoća vektora Y u toj populaciji. Sada Y alociramo onoj populaciji
i0 za koju vrijedi
L(i0 ) = max L(i).
16i6k
40
(b) Ukoliko u 3. pristupu imamo
1
Π(i) = , i = 1, . . . , k,
k
tj. apriorne distribucije su uniformne, tada su pristupi 2 i 3 ekvivalentni.
(c) Ako vrijedi (b) i dodatna pretpostavka iz (a), sva su tri pristupa ekvivalentna.
41
2.1 Procijenjena alokacija
Promatrajmo sljedeći praktični problem: prvi i drugi moment zadanih populacijskih raz-
dioba opservacije Y su nepoznati.
Pretpostavimo da opservacija Y u svih k populacija ima q-dimenzionalnu normalnu
µi , Σi ). U tom su slučaju
razdiobu s očekivanjem µ i i kovarijacijskom matricom Σi , Nq (µ
µi i Σi procijenjeni iz modela za Y (opaženih uzoraka iz populacije i). Odgovarajući su
procjenitelji
ni
1 X
bi = Y i· =
µ Yij ,
ni j=1
n
i
1 X
Σ
b i = Si = (Yij − Y i· )(Yij − Y i· )> .
ni − 1 j=1
i 7→ (Y − yi )Si−1 (Y − yi ) =: D
b i (Y ),
42
2.2 Linearne diskriminacijske koordinate
Koordinatni se sustav u Rq transponira na način da se uzorci iz raznih populacija na
neki način maksimalno separiraju u svakoj koordinati. Drugim riječima, treba naći takve
linearne kombinacije komponenata opservacija koje ih maksimalno separiraju od ostalih
grupa populacija. U tu svrhu koristimo jednofaktorski MANOVA model
1n1
µ>
1
1n2
.
Y = XB + E, X = , B = .. , (2.1)
. .
. >
µk
1nk
Općenito, k-ta linearna diskriminacijska koordinata, y> ak , je ona koja maksimizira izraz
a>
k P ak
F (ak ) = >
ak Gak
43
Linearne diskriminacijske koordinate ne moraju biti jedinstvene. Madutim, ako uvedemo
dodatni uvjet da su a1 , a2 , . . . , aq normirani vektori, tj. a> i Gai = 1, i = 1, . . . , q (dakle,
q
{a1 , . . . , aq } je ortonormirana baza za R u odnosu na h·, ·i), tada će te koordinate biti
jedinstvene.
−1
Pokazat ćemo da su a1 , . . . , aq svojstveni vektori matrice G P . Ako stavimo A =
a1 a2 · · · aq ∈ Mq , tada je s
Y1·> A Y1·> a1 Y1·> a2 · · · Y1·> aq
YA = ... = ... .. .. ..
. . .
> > > >
Yn· A Yn· a1 Yn· a2 · · · Yn· aq
Lema 2.1. Neka je G simetrična, pozitivno definitna, a P bilo koja simetrična matrica,
obje reda q. Tada postoji dijagonalna matrica Λ i i matrica A, obje reda q, tako da vrijedi
a>q
a1 > Ga1 a1 > Ga2 · · · a1 > Gaq
= .. .. .. ..
,
. . . .
aq > Ga1 aq > Ga2 · · · aq > Gaq
što je Grammova matrica. Dakle, druga relacija kaže da su stupci matrice A ortonormi-
rana baza za Rq u odnosu na skalarni produkt h·, ·i. Prva relacija kaže da su stupci od
A svojstveni vektori od G−1 P kojima odgovaraju korespondentni elementi na dijagonali
od Λ kao svojstvene vrijednosti.
1 1
Dokaz leme 2.1. Budući da je matrica G− 2 P G− 2 simetrična, ona se može ortogonalno
dijagonalizirati, tj. postoje ortogonalna matrica B i dijagonalna matrica Λ takve da
1 1 1
G− 2 P G− 2 B = BΛ. Stavimo A := G− 2 B i računamo
1 1 1 1
G−1 P A = G− 2 G− 2 P G− 2 B = G− 2 BΛ = AΛ,
1 1
A> GA = B > G− 2 GG− 2 B = B > B = I.
Korolar 2.2. Ako za kvadratnu matricu A vrijedi A> GA = I, tada je G−1 = AA> .
Dokaz. Iz (A> G)A = I slijedi da je A invertibilna, tj. regularna i A−1 = A> G. Zato je i
A> regularna, pa iz A−1 = A> G slijedi i da je G regularna. Odavde slijedi
44
Teorem 2.3. Neka je G pozitivno definitna simetrična matrica, a P simetrična, obje
reda q. Tada vektori a1 , a2 , . . . , aq ∈ Rq zadovoljavaju uvjete
a>
1 P a1 a> P a
(I) (I1) = max ,
a>
1 Ga1
a a> Ga
a>
>
i P ai a Pa >
= max : a Gaj = 0, j 6 i − 1 ,
a>
i Gai a> Ga
(II) za svaki i = 1, . . . , q, (ai , φi ) je svojstveni par od G−1 P , pri čemu su φ1 > φ2 >
. . . > φq i vrijedi a>
i Gaj = 0 za i 6= j.
Dokaz. Prema lemi 2.1 postoje svojstveni parovi (a1 , φi ), i = 1, 2, . . . , q, matrice G−1 P
−1 >
i uzmimo da je φ1 > φ2 > . . . > φq . Tada
G P A = AΛ, A GA = I za matrice
Λ = diag(φ1 , . . . , φq ) i A = a1 a2 · · · aq . Uočimo:
a> P a
F (a) := .
a> Ga
Ako je A regularna matrica i a 6= 0, onda je c := A−1 a 6= 0. Definirajmo sada
funkciju
Dakle, ako F ima ekstrem u točki a, onda G ima ekstrem u točki c = A−1 a.
Obratno, ako G ima ekstrem u točki c, onda F ima ekstrem u točki a = Ac.
3◦ (a, φ) je svojstveni par od G−1 P ako i samo ako je (A−1 a, φ) svojstveni par od Λ.
⇒ G−1 P a = φa
⇒ Λc = A−1 (AΛ)c = A−1 G−1 P Ac = A−1 G−1 P a = A−1 φa = φA−1 a = φc
45
⇐ Λc = φc ⇒ G−1 P a = G−1 P Ac = φA−1 a = φc
c>
>
i Λci c Λc >
= max : c cj = 0, j = 1, 2, . . . , i − 1 ,
c>
i ci c> c
q
X 2
⇔ (φj − φ1 ) c(j) 6 0.
j=1
q
X 2
Jednakost je ispunjena za 0 = (φj − φ1 ) c(j) . Ako je φ1 = . . . = φs > φs+1 > . . . >
j=1
φq , tada je jednakost ispunjena ako je c(s+1) = . . . = c (q) = 0, a c(1) , . . . , c(s) bilo koje
realne vrijednosti. Stavimo c1 := c(1) , . . . , c(s) , 0, . . . , 0 . Imamo
c(1) φ1 c(1)
φ1
..
. .. ..
. .
(s)
φ1 c φ1 c(s)
Λc1 = = = φ1 c1 ,
φs+1 0 0
.. . .
. .. ..
φq 0 0
c>
1 Λc1 c>
1 φ1 c1 |c1 |2
= = φ1 = φ1 .
c>
1 c1 c>1 c1 |c1 |2
Korak indukcije: pretpostavimo da tvrdnja vrijedi za svaki i < h, tj. vektori c1 , . . . , ch−1
su takvi da vrijedi (I1’) i (I2’) za sve i = 1, 2, . . . , h − 1 ako i samo ako je Λci = φi ci za
i = 1, 2, . . . , h − 1 i c>
i cj = 0 za sve i 6= j koji nisu veći od h − 1. Uvedimo i dodatne
pretpostavke indukcije
46
(j)
(i) za i < h, φi > φj povlači ci = 0,
c>
>
h Λch c Λc >
= max : c c : j = 0, j = 1, 2, . . . , h − 1
c>
h ch c> c
⇔ c(j) = 0, j = s + 1, . . . , q
⇔ c(j) = 0, φj > φh .
Neka je ch 6= 0 takav vektor. Za njega vrijedi
0
φ1
.. ..
. .
0
φr−1
(r)
φr ch
...
.. = φ c .
Λch =
. h h
(s)
φs ch
φs+1
0
..
. ..
.
φq 0
47
(s+1) (q)
1. ci = . . . = ci = 0 za i = r, . . . , s,
2. c(1) = . . . = c(r−1) = 0.
Definiramo
(r) (s)
di := (ci , . . . , ci ), d := (c(r) , . . . , c(s) ).
Tada je c> ci = 0 ako i samo ako je d> di = 0 za i = r, . . . , s. Kako je dr , . . . , ds
ortogonalna baza za Rs−r+1 , nužno slijedi da je d ≡ 0 pa je c(r) = . . . = c(s) = 0.
Iz teorema slijedi da je nalaženje linearnih diskriminacijskih koordinata ekvivalentno
nalaženju matrice A takve da
Transformirani su podatci
Z = YA
(isti podatci u n linearnih diskriminacijskih koordinata). Sjetimo se, cov(Y ) = Σ. Za
transformirane je podatke procjena kovarijacijske matrice
c > Y ) = A> GA = I
(n − k)cov(A
Lema 2.4. P A0 = 0.
G−1 P
A ∗ A0 = A∗ A 0 Λ,
a>
h P ah
>
= 0.
ah Gah
48
Kako pomoću linearnih diskriminacijskih koordinata možemo alocirati nove opser-
vacije? Pretpostavimo da koristimo prvih s 6 q koordinata za diskriminaciju i stavimo
As := a1 a2 · · · as .
Uočimo,
s
X
>
(y − Y i· ) As A >
s (y − Y i· ) = ((y − Y i· )> aj )2 .
j=1
(Y i· − Y )> A0 = 0.
Može se pokazati da je
√ √
L(P ) = L n1 (Y 1· − Y ) · · · nk (Y k· − Y ) .
pa imamo
49
i vidimo da je dovoljno pokazati A> >
0 (y − Y i· ) = A0 (y − Y ). Vrijedi
A> >
0 (y − Y i· ) = A0 (y − Y − Y i· + Y )
= A> >
0 (y − Y ) − A0 (Y i· − Y ),
50
2.3 Glavne komponente
Pretpostavimo da imamo opservaciju Y ∈ Rq , pri čemu je q velik broj. Kako reducirati
dimenziju te opservacije, a da imamo dovoljno informacija za donošenje relevantnih za-
ključaka? Redukcijom se gubi dio informacija o opservaciji pa bismo htjeli minimizirati
taj gubitak. Jedan razuman pristup je sljedeći: odaberemo malen broj linearnih kom-
binacija komponenti od Y tako da imaju sposobnost reproducirati sve komponente od
Y (tj. što veći broj komponenti). Dakle, želimo kreirati mali broj novih varijabli koje
imaju svojstvo da u nekom smislu najbolje predvidaju originalne varijable. Analiza
glavnih komponenti (PCA1 ) pronalazi linearne kombinacije originalnih varijabli koje
su najbolji linearni predviditelji (prediktori) svih originalnih varijabli.
Neka su Y = (Y1 , . . . , Yq )> , X = (X1 , . . . , Xp−1 )> zadani slučajni vektori čije kompo-
nente imaju konačnu varijancu. Označimo
µ Y = EY, µ X = EX,
:= cov(Y, X) := E (Y − µ Y )(X − µ X )> .
VY X
Vrijedi cov(Y, X)> = cov(X, Y ), tj. VY>X = VXY . Takoder, stavimo
cov(Y ) ≡ cov(Y, Y ) =: VY Y ,
cov(X) ≡ cov(X, X) =: VXX .
Definicija 2.7. Najbolji linearni prediktor od Y uz dano X je q-dimenzionalni
>
slučajni vektor Yb koji je afina funkcija od X, tj. Yb = βb X + α
b , tako da
>
> >
h > i
E Y − βb X − α b Y − βb X − αb = minq E Y − β > X − α Y − β >X − α .
α ∈R
β ∈Mp−1,q
U oznaci, Yb = P [Y | X].
Sjetimo se, na (Hilbertovom) prostoru L2 su skalarni produkt i norma dani s
p
hU, V i := E(U, V ) = E U > V , kU k = hU, U i.
gdje je β
b (bilo koje) rješenje jednadžbe
VXX β = VXY .
Ukoliko je VXX pozitivno definitna (tj. regularna), tada je
−1
βb = VXX VXY .
1
Principal Component Analysis
51
Od sada pa nadalje pretpostavljamo da je ispunjen drugi uvjet gornjeg zadatka.
Takoder, uočimo da za vektor očekivanja i kovarijacijsku matricu najboljeg linearnog
prediktora vrijedi
>
h i
E [P [Y | X]] = E µ Y + βb (X − µ X )
>
= µ Y + βb 0
= µY
= EY,
>
cov (P [Y | X]) = cov µ Y + β (X − µ X )
b
>
= cov βb X
>
= βb cov(X)βb
> −1 −1
= VXY VXX VXX VXX VXY
−1
= VY X VXX VXY ,
i nadalje,
>
cov (Y − P [Y | X]) = cov Y − µ Y − β (X − µ X )
b
>
= cov Y − βb X
> > > >
= cov(Y, Y ) − cov(Y, βb X) − cov(βb X, Y ) + cov(βb X, βb X)
= cov(Y, AX) = cov(Y, X)A> , cov(BY, X) = B cov(Y, X)
> >
= VY Y − VY X βb − βb VXY + βb VXX βb
−1 −1 −1
= VY Y − VY X VXX VXY − VY X VXX VXY + VY X VXX VXX VXX VXY
= cov(Y ) − cov (P [Y | X]) ,
α + β > X : α ∈ Rq , β ∈ Mp−1,q }
{α
α + β > X | X] = α + β > X.
P [α
Specijalno je
P [X >θ | X] = X >θ , θ ∈ Rp−1 .
Propozicija 2.8. Za svaku regularnu matricu A ∈ Mp−1 i svaki vektor a ∈ Rp−1 vrijedi
P [Y | AX + a] = P [Y | X].
52
Dokaz. Uz pretpostavku VXX > 0 računamo
−1
P [Y | AX + a] = µ Y + VY,AX+a VAX+a,AX+a A(X − µ X ).
Imamo
VY,AX+a = VY X A> ,
pa slijedi
−1 −1 −1
P [Y | AX + a] = µ Y + VY X A> A> VXX A A(X − µ X ) = P [Y | X].
Pretpostavimo
Y1
Y = .
Y2
Imamo
Y1 V11 V12
cov(Y ) = cov = ,
Y2 V21 V22
gdje je Vij = cov(Yi , Yj ), i, j ∈ {1, 2}. Označimo još
>
cov(Yi , X) = ViX , VXi = ViX , EYi = µ i , i = 1, 2.
53
Dokaz. Računamo
Y1
= E (Y2 − µ 2 ) (Y1 − µ 1 )> (X − µ X )>
cov Y2 ,
X
= E (Y2 − µ 2 )(Y1 − µ 1 )> (Y2 − µ 2 )(X − µ X )>
= V21 V2X ,
Y1 Y1 V11 V1X V11 0
cov , = = .
X X VX1 VXX 0 VXX
Ako je VXX > 0 i V11 > 0,
Y1
3 V2−1 Y1 − µ 1
P Y2
= µ2 + V 2
Y1
32 3
X Y
Y1 5 4 Y 1 5 X − µx
2 ,4 5 4 ,
X X X
−1
V11 0 Y1 − µ 1
= µ2 + V21 V2X
0 V −1 X − µX
−1 XX
V11 (Y1 − µ 1 )
= µ2 + V21 V2X −1
VXX (X − µ X )
−1
= µ 2 + V21 V11−1 (Y1 − µ 1 ) + V2X VXX (X − µ X ) + µ 2 − µ 2
= P [Y2 | Y1 ] + P [Y2 | X] − µ 2 .
e(Y | X) := Y − P [Y | X].
Propozicija 2.12.
Y1
P Y2 = P [Y2 | X] + cov(Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 e(Y1 | X).
X
Dokaz. Imamo
Y1 − P [Y1 | X] I B Y1 Y1
= +a=A + a,
X 0 I X X
| {z }
A
54
za konkretnu matricu B (odn. A) i vektor a. Kako je prema propoziciji 2.8
P [Y | AX + a] = P [Y | X],
slijedi
Y1 e(Y1 | X) 2.10
P Y2 = P Y2 = P [Y2 | X] + P [Y2 | e(Y1 | X)] − µ 2 ,
X X
pri čemu se možemo pozvati na propoziciju 2.10 jer po lemi 2.11 vrijedi
cov(e(Y1 | X), X) = 0.
Propozicija 2.13.
Y1
cov Y2 − P Y2 = cov (Y2 − P [Y2 | X])
X
− cov(Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 cov(e(Y1 | X), Y2 ).
Dokaz. Znamo da je P [Y2 | X] afina funkcija od X, tj. možemo pisati P [Y2 | X] =
β > X − α za konkretne β ∈ Mp−1,q , α ∈ Rq . Sada zbog leme 2.11 imamo
2.11
cov(P [Y2 | X], e(Y1 | X)) = cov(β
β X + α , e(Y1 | X)) = β cov(X, e(Y1 | X)) = 0.
Odavde kao posljedicu dobivamo
cov(e(Y2 | X), e(Y1 | X)) = cov(Y2 , e(Y1 | X))−cov(P [Y2 | X], e(Y1 | X)) = cov(Y2 , e(Y1 | X)).
Transponiranjem ove jednakosti slijedi još i cov(e(Y1 | X), e(Y2 | X)) = cov(e(Y1 | X), Y2 ).
Sada računamo
Y1 2.12
= cov Y2 − P [Y2 | X] − cov(Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 e(Y1 | X)
cov Y2 − P Y2
X
= cov e(Y2 | X) − cov(Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 e(Y1 | X)
= cov(e(Y2 | X))
− cov e(Y2 | X), cov(Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 e(Y1 | X)
= cov(e(Y2 | X))
− cov (e(Y2 | X), e(Y1 | X)) cov(e(Y1 | X))−1 cov (e(Y1 | X), Y2 )
| {z }
=cov(Y2 ,e(Y1 |X))
− cov (Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 cov (e(Y1 | X), e(Y2 | X))
| {z }
=cov(e(Y1 |X),Y2 )
−1
+ cov (Y2 , e(Y1 | X)) cov(e(Y1 | X)) ·
· cov(e(Y1 | X)) cov(e(Y1 | X))−1 cov (e(Y1 | X), Y2 )
| {z }
=I
= cov(e(Y2 | X))
− cov (Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 cov (e(Y1 | X), Y2 )
− cov (Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 cov (e(Y1 | X), Y2 )
+ cov (Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 cov (e(Y1 | X), Y2 )
= cov(e(Y2 | X)) − cov (Y2 , e(Y1 | X)) cov(e(Y1 | X))−1 cov (e(Y1 | X), Y2 ) .
55
Propozicija 2.14. cov(Y, Y − P [Y | X]) = cov(Y − P [Y | X]).
Dokaz. Budući da je P [Y | X] afina funkcija od X, analogno kao i na početku dokaza
propozicije 2.13 zaključujemo da vrijedi cov(P [Y | X], Y − P [X | X]) = 0. Sada imamo
Neka je Y = (Y1 , . . . , Yq )> q-dimenzionalni slučajni vektor. Želimo naći nove koordi-
nate
a> > >
1 Y, a2 Y, . . . , aq Y
a>
i Σaj = 0, i 6= j.
Odavde za i 6= j slijedi
tj. nove komponente nisu korelirane. Nadalje, koordinate se biraju tako da sekvencijalno
daju optimalnu predikciju od Y (uz dani uvjet ortogonalnosti). Prema tome, a1 se bira
tako da
kY − P [Y | a> >
1 Y ]k = min kY − P [Y | a Y ]k,
a6=0
Primijetimo,
= tr cov(e(Y | a> Y )) .
−1 >
= Σ − Σa a> Σa
a Σ,
56
1
tr(Va ) = tr Σ − tr(Σaa> Σ)
a> Σa
1
= tr Σ − · a> Σ2 a
a> Σa
a> Σ2 a
= tr Σ − .
a> Σa
Dakle, minimizacija funkcije a 7→ tr(Va ) ekvivalentna je maksimizaciji funkcije
a> Σ2 a
a 7→ ,
a> Σa
tj. treba naći vektore a1 , . . . , aq ∈ Rq takve da
a> 2
1 Σ a1 a> Σ2 a
(i) = max ,
a>1 Σa1 a6=0 a> Σa
a> 2
> 2
i Σ ai a Σa >
= max : a Σaj = 0, j = 1, . . . , i − 1 ,
a>i Σai a> Σa
a> 2
i Σ ai
tr(Vai ) = tr Σ −
a> i Σai
φ |ai |2
2
= tr Σ − i 2
φi |ai |
= tr Σ − φi
= φ1 + . . . + φq − φi ,
pri čemu u posljednjoj jednakosti koristimo činjenicu da su tragovi sličnih matrica medusobno
jednaki, a matrica Σ je slična matrici diag{φ1 , . . . , φq }.
Izračunajmo
kolika
je predvidivost prvih r glavnih komponenti, 1 6 r 6 q. Uz
Ar := a1 · · · ar imamo ΣAr = Ar Λr , gdje je Λr = diag{φ1 , . . . , φr }. Sada je
top
tr cov e Y | a> >
1 Y · ar Y = tr cov e(Y | A r Y )
= tr cov Y − P [Y | A>
r Y]
−1 >
= tr Σ − ΣAr A> r ΣA r Ar Σ
−1 > 2
= tr Σ − tr A> r ΣA r Ar Σ A r
−1 >
>
= tr Σ − tr Ar ΣAr Ar ΣAr Λr
= φ1 + . . . + φq − (φ1 + . . . + φr )
= φr+1 + . . . + φq .
Dakle, prvih r komponenti dobro predvida Y ukoliko je omjer
tr cov e(Y | A>
r Y) φr+1 + . . . + φq
=
tr(cov Y ) φ1 + . . . + φr + φr+1 + . . . + φq
57
vrlo mali (u praksi, ako nije veći od 0.2 za q vrlo velik i r 6 3 - predvidivost bi u
tom slučaju bila 1 − 0.2 = 0.8, tj. 80% ukupne varijabilnosti obuhvaćeno je s prve 3
komponente).
Može se pokazati da prvih r glavnih komponenti ima najbolju prediktivnu vrijednost
medu svim r-koordinatama u Rq . Naime, neka je B ∈ Mq,r bilo koja matrica ranga r.
Tada vrijedi
cov(Y − P [Y | B > Y ]) = Σ − Σ(BΣB)−1 B > Σ
1
1 1
1
= Σ 2 I − Σ 2 B(BΣB > )−1 B > Σ 2 Σ 2
1
1
= Σ 2 I − HL(Σ 21 B) Σ 2 .
Varijance pojedinih komponenti mogu biti nesumjerljive, što može dovesti do grešaka.
Nadalje, odabir glavnih komponenti ovisi i o mjernoj skali. Taj se problem izbjegava
1 1
tako da se umjesto kovarijacijske matrice Σ uzme korelacijska matrica D− 2 ΣD− 2 , gdje
je
σ11
σ22
D = diag(Σ) = , Σ = [σij ].
. .
.
σqq
Na taj način umjesto varijabli Y = (Y1 , . . . , Yq )> gledamo njihove standardizirane vrijed-
nosti,
>
− 21 1 1
Z = D Y = √ Y 1 , . . . , √ Yq .
σ11 σqq
58
Tada je
− 12 1 1 1 1
cov(Z) = cov D Y = D− 2 cov(Y )D− 2 = D− 2 ΣD− 2 .
Kako odrediti glavne komponente ako Σ nije poznata, ali imamo slučajan uzorak
duljine n od Y ,
Y1>
Y = ... ?
Yn>
Tada kao procjenu kovarijacijske matrice, Σ,
b možemo uzeti uzoračku kovarijacijsku ma-
tricu n
1 X
S= (Yi − Y )(Yi − Y )>
n − 1 i=1
ili uzoračku korelacijsku matricu
1 1
R = diag(S)− 2 Sdiag(S)− 2 .
Takoder, stavljanjem Y za µ Y i uz Ar = a1 · · · ar , imamo
te slijedi
n
!
1 X > >
I − Pr> S Yi − Y Yi − Y I − Pr> S
(N) = tr
n−1 j=1
−1 >
= tr S − SAr A>r SA r Ar S
c Y − Pb[Y | A>
= tr cov r Y ]
q
X
= φj (S).
j=r+1
59
(i) Var(a> >
1 Y ) = sup{Var(a Y ) : |a| = K},
Var(a> >
i Y ) = sup{Var(a Y ) : |a| = K, a ⊥ a1 , . . . , ai−1 }.
Var(a> Y )
a 7→ , a 6= 0.
a> a
Zadatak 2.3.5 (Geometrijska interpretacija glavnih komponenti). Neka je dan slučajni
vektor Y ∼ Nq (µ
µ, Σ), Σ > 0, s gustoćom
1 1 −1
f (y) = q · √ e−(y−µµ)Σ (y−µµ) .
(2π) 2 det Σ
Općenito imamo:
a> a1 a> a
(i) > 1 −1 = sup : a 6= 0 .
a1 Σ a1 a> Σ−1 a
(ii) za i > 1, ai je takav da a>
i aj = 0, j = 1, . . . , i − 1, te
a>
>
i ai a a >
= sup : a aj = 0, j = 1, . . . , i − 1 .
a> −1
i Σ ai a> Σ−1 a
60
Poglavlje 3
Neparametarske metode
H0 : F = G
Grafički,
17 18 19 20 21 22 23 24 25
x x x x x x
y y y y
Usporedbom ovih vrijednosti vidimo da je medijan prvog uzorka veći nego medijan drugog
uzorka.
61
Definicija 3.2. Slučajna varijabla X je stohastički veća od slučajne varijable Y ako
za svaki t ∈ R vrijedi
Oznaka: X < Y .
Dakle, slučajna varijabla X je stohastički veća od slučajne varijable Y ukoliko je
funkcija distribucije od X manja ili jednaka funkciji distribucije od Y , i to uniformno na
R. Sada nultu hipotezu o jednakosti funkcija distribucije možemo testirati u odnosu na
sljedeće alternative:
H1 : F 6= G
H1 : X je stohastički veće od Y
H1 : Y je stohastički veće od X
Stavimo sada n := n1 + n2 i
62
Primjer 3.3. Za x1 = 1, x2 = 0, x3 = 3, x4 = 6, x5 = 7, y1 = 2, y2 = 8, y3 = 9, y4 = 5,
tj.
0 1 2 3 4 5 6 7 8 9
x2 x1 y1 x3 y4 x4 x 5 y2 y3
imamo sljedeće vrijednosti rangova
i 1 2 3 4 5 6 7 8 9
Ri 2 1 4 6 7 3 8 9 5
Definicija 3.4. Wilcoxonova statistika je zbroj rangova od Y1 , . . . , Yn2 ,
n
X
W = Ri .
i=n1 +1
Dakle,
P(R1 = r1 , . . . , Rn = rn ) = P(Zl1 = Z(1) , . . . , Zln = Z(n) )
= P(Zl1 < Zl2 < . . . < Zln )
= P(Z1 < Z2 < . . . < Zn ) = k = const.
Iz X
P(R1 = r1 , . . . , Rn = rn ) = k · n! = 1
σ∈Sn
1
slijedi k = , pa vrijedi tvrdnja.
n!
Neka su sada S1 < S2 < . . . < Sn2 uredajne statistike rangova Rn1 +1 < . . . < Rn .
Primjer 3.6. U primjeru 3.3 su rangovi od y1 , . . . , y4
R6 = 3, R7 = 8, R8 = 9, R9 = 5,
pa imamo
S1 = 3, S2 = 5, S3 = 8, S4 = 9.
n
X
Tada je W = Ri = S1 + . . . + Sn2 . Primijetimo da vektor (S1 , . . . , Sn2 ) prima
i=n1 +1
vrijednosti u skupu
što je familija svih n2 -članih podskupova od {1, . . . , n}. Odredimo zakon razdiobe od
(S1 , . . . , Sn2 ) uz pretpostavku F = G.
63
Teorem 3.7. Uz pretpostavku F = G,
1
P(S1 = s1 , . . . , Sn = sn ) = n
, 1 6 s1 < . . . < sn2 6 n.
n2
Dokaz. Imamo
P(Rn1 +1 = s1 , . . . , Rn = sn2 ) =
X 1
P(R1 = t1 , . . . , Rn1 = tn1 , Rn1 +1 = s1 , . . . , Rn = sn2 ) = · n1 !,
n!
(t1 ,...,tn )∈S{1,...,n}\{s1 ,...,sn
2}
pa slijedi
X n1 !n2 !
P(S1 = s1 , . . . , Sn2 = sn2 ) = P(Rn1 +1 = si1 , . . . , Rn = sin2 ) =
n!
(si1 ,...,sin )∈S{s1 ,...,sn
2 2}
i vrijedi tvrdnja.
Primjer 3.8. Za n1 = 2 i n2 = 3 nadite nul-distribuciju Wilcoxonove statistike W .
Rješenje. Wilcoxonova statistika je dana s W = R3 + R4 + R5 = S1 + S2 + S3 . Imamo
sljedeću tablicu mogućih vrijednosti uredajnih statistika rangova
X Y
W
T1 T2 S1 S2 S3
1 2 3 4 5 12
1 3 2 4 5 11
1 4 2 3 5 10
1 5 2 3 4 9
2 3 1 4 5 10
2 4 1 3 5 9
2 5 1 3 4 8
3 4 1 2 5 8
3 5 1 2 4 7
4 5 1 2 3 6
pa je zakon razdiobe od W (uz pretpostavku da je ispunjena nulta hipoteza)
6 7 8 9 10 11 12
W ∼ 1 1 2 2 2 1 1 .
10 10 10 10 10 10 10
64
Napomena. Nul-distribucija Wilcoxonove statistike ne ovisi od distribuciji F = G.
H0 : F = G
p := P(X1 < Y1 ),
65
a kako je Z Z
P(Xi < Yj ) = dF (x)dG(y) = P(X1 < Y1 ) = p,
x<y
slijedi
EU = n1 n2 p.
Nadalje, budući da (općenito) vrijedi jednakost
m
! m m X
m
X X X
Var Xi = Var(Xi ) + 2 cov(Xi , Xj ),
i=1 i=1 i=1 j=1
j6=i
imamo
n1 X
n2
!
X
Var(U ) = Var Uij
i=1 j=1
n1 X
X n2 X
= Var(Uij ) + cov(Uij , Ukl )
i=1 j=1 (i,j)6=(k,l)
X
= n1 n2 p(1 − p) + cov(Uij , Ukl )
(i,j)6=(k,l)
X
= n1 n2 p(1 − p) + (E[Uij · Ukl ] − p2 ).
(i,j)6=(k,l)
2◦ i = k, j 6= l
Za fiksne (i, j), takvih parova (k, l) ima točno n2 − 1. Računamo
3◦ i 6= k, j = l
Za fiksne (i, j), takvih parova (k, l) ima n1 − 1. Analogno kao u 2◦ ,
cov(Uij , Ukl ) = q2 − p2 .
Dakle,
66
pa slijedi
1
P(X1 < Y1 ) + P(Y1 < X1 ) = 1 ⇒ p = .
| {z } | {z } 2
=p =p
Naime, Z Z
P(X1 < Y1 ) = dF (x)dF (y) = P(Y1 < X1 ).
x<y
Nadalje, imamo q1 = P(X1 < min{Y1 , Y2 }). Uočimo da za odnos slučajnih varijabli
X1 , Y1 , Y2 imamo sljedećih 6 mogućih dogadaja
a kako su to sve dogadaji koji (zbog simetrije i nezavisnosti) imaju jednaku vjerojatnost
koja iznosi 16 , imamo
1 1
q1 = P(X1 < min{Y1 , Y2 }) = P({X1 < Y1 < Y2 } ∪ {X1 < Y2 < Y1 }) = 2 · = .
6 3
Analogno dobijemo i
1
q2 = q1 := P(Y1 > max{X1 , X2 }) = .
3
Zato
1 1 1 1 1 1
Var U = n1 n2 · · + n1 n2 (n2 − 1) − + n1 n2 (n1 − 1) −
2 2 3 4 3 4
n1 n2
= (3 + n2 − 1 + n1 − 1)
12
n1 n2
= (n1 + n2 + 1)
12
n1 n2
= (n + 1).
12
Teorem 3.11. Neka je X1 , . . . , Xn1 slučajni uzorak iz populacije s neprekidnom distribu-
cijom F , Y1 , . . . , Yn2 slučajni uzorak iz populacije s neprekidnom distribucijom G, te neka
su ti uzorci nezavisni. Tada
U − n1 n2 p(1 − p) D
√ → N (0, 1), min{n1 , n2 } → ∞.
Var U
Korolar 3.12. Uz pretpostavku F = G,
n1 n2
U− 2 D
q → N (0, 1), min{n1 , n2 } → ∞.
1
n n (n
12 1 2
+ 1)
67
3.2 Spearmanov koeficijent korelacije
Neka je dano dvodimenzionalno statističko obilježje (X, Y ). Ukoliko je
2
σX ρσX σY
(X, Y ) ∼ N (µX , µY ), ,
ρσX σY σY2
tada je s
cov(X, Y )
ρ=
σX σY
dan Pearsonov koeficijent korelacije slučajnih varijabli X i Y . Neka je (X1 , Y1 ), . . . , (Xn , Yn )
slučajan uzorak za (X, Y ). Tada je s
1
Pn
n−1 i=1 (Xi − X n )(Yi − Y n )
R= q q
1
P n 2 1
Pn 2
n−1 i=1 (X i − X n ) n−1 i=1 (Yi − Y n )
Računamo,
n
1X n+1
R= i= = S,
n i=1 2
n n n
X X n(n + 1)(2n + 1) X 2
Ri2 = 2
i = = Si ,
i=1 i=1
6 i=1
n n
X n(n2 − 1) X 2
2 2
Ri2 − nR = = Si − nS ,
i=1
12 i=1
68
Zato (prema Cauchy-Schwarzovoj nejednakosti) vrijedi |RS | = 1 ako i samo ako postoji
λ ∈ R takav da
n+1 n+1
j− · λ = Qj − , j = 1, . . . , n,
2 2
što je moguće ako i samo ako je Qj = j za svaki j (tj. R = S, pa za parove (Xk , Yk ),
(Xl , Yl ) vrijedi Xk 6 Xl ako i samo ako je Yk 6 Yl ) ili Qj = n + 1 − j za svaki j (tj.
R = n + 1 − S, pa za parove (Xk , Yk ), (Xl , Yl ) vrijedi Xk 6 Xl ako i samo ako je Yk > Yl ).
Dakle, Spearmanov koeficijent korelacije mjeri koreliranost s obzirom na uredaj (tj.
koliko se dobro veza izmedu varijabli X i Y može opisati monotonom funkcijom). Razlike
izmedu Pearsonovog i Spearmanovog koeficijenta korelacije mogu se vidjeti na sljedećim
slikama.
RP = RS = 1 RP = −1, RS = 1
H0 : X i Y su nezavisne
H1 : X i Y su zavisne
√ H
asimptotskim testom, jer vrijedi: nRS ∼0 AN (0, 1).
69
Rješenje. Pretpostavka nezavisnosti X i Y ekvivalentna je pretpostavci da su sve per-
mutacije rangova jednako vjerojatne. Imamo
Pn n(n+1)2 P3 3
j=1 jQj − 4 j=1 jQj − 3 · 4 1X
RS = n(n2 −1)
= 24 = jQj − 6.
12
2 j=1
12
Q1 Q2 Q3 Q1 + 2Q2 + 3Q3 RS
1 2 3 14 1
1 3 2 13 0.5
2 1 3 13 0.5
2 3 1 11 −0.5
3 1 2 11 −0.5
3 2 1 10 −1
70
Poglavlje 4
Faktorska analiza
(1) Λ > 0,
71
U praksi tražimo B
biΨ
b tako da
b>B
S=B b + Ψ.
b
b ∈ Mp,q , r(B)
za neke B b ∈ Mq koja je dijagonalna te pozitivno semidefinitna.
b =piΨ
Λ = Σ − Ψ.
µ> + XB + E
Y = 1µ
>
s XB = XU U B = X0 B0 dana nova interpretacija faktora. Stupci matrice B sadrže
| {z } |{z}
X0 B0
koeficijente uz faktore koji objašnjavaju pojedine komponente opservacije, na primjer,
j-ti stupac od B služi za objašnjavanje Y·j :
Y1j X1·> B·j " p #
Y2j X > B·j
2·
X
.. = Y·j = XB·j = = Xik Bkj .
..
. . j=1
> i=1,...,n
Ynj Xn· B·j
72
Dakle, važni su retci od B: k-ti redak od B sadrži sve koeficijente uz odredeni k-ti
zajednički faktor, tj. q koeficijenata u k-tom retku od B predstavlja utjecaj k-tog za-
jedničkog faktora pojedinim komponentama jedne opservacije.
Tradicionalno, ako pojedini faktor ima sve koeficijente velikog iznosa, znanstvenik iz
područja primjene nastoji imenovati taj faktor kao zajednički atribut svim opservaci-
jama. Bipolarni faktor je faktor koji reprezentiraju koeficijenti velikog iznosa, a koji
su pozitivni ili negativni.
Ψ
b = diag(0.510, 0.594, 0.644, 0.377, 0.431, 0.628).
Interpretacija faktora
b>
1
B= .
b>
2
73
4.1 Metoda maksimalne vjerodostojnosti
Metoda maksimalne vjerodostojnosti se koristi za procjenu i testiranje hipoteza. Osnovna
pretpostavka jest da su sve slučajne veličine normalno distribuirane.
µ> + ξ ,
Y = 1µ
b q := n − 1 S.
Σ
n
Prednosti metode maksimalne vjerodostojnosti su sljedeće:
f1 (Λ) := U f (Λ).
Napomena. Neka su stupci matrice Ap := a1 · · · ap svojstveni vektori od Λ koji
odgovaraju svojstvenim vrijednostima φ1 > φ2 > . . . > φp > 0 od Λ. Tada možemo
staviti p
B := diag( φ1 , . . . , φp )A>
p
p.
74
Primjer 4.2 (Nastavak primjera 4.1). Za p = 2, ortogonalna matrica U je reda 2, tj.
ona je matrica rotacije u R2 i njen se efekt može grafički prikazati. Dvije uobičajene
rotacije su varimax V i quartimax Q. Odgovarajući koeficijenti su
0.232 0.321 0.085 0.770 0.723 0.572
BV =
b ,
0.660 0.551 0.591 0.173 0.215 0.213
0.260 0.344 0.111 0.777 0.731 0.580
B
bQ = .
0.650 0.536 0.587 0.139 0.184 0.188
75
4.2 Procjena pomoću glavnih faktora
To je metoda koja ne koristi pretpostavku o normalnosti. Ako je Ψ poznato, tada je
Λ = Σ − Ψ, pri čemu se pretpostavlja da je Λ > 0 i r(Λ) = p. Ako Σ nije poznata, koristi
se uzoračka kovarijacijska matrica S.
U stvari, za poznato Ψ se traži Λ u klasi svih pozitivno semidefinitnih matrica ranga
p tako da minimiziraju funkciju
Λ 7→ tr((S − Ψ) − Λ).
gdje je stupci matrice A ep = e a1 · · · e
ap svojstveni vektori za Λ (a φe1 > . . . > φep >
φep+1 > . . . > φeq svojstvene vrijednosti od Λ).
e Ako smo svojstvene vektore a1 , . . . , ap
odabrali tako da je A> p Ap = Ip , tada je
Λ = Ap diag φ1 , . . . , φp A
e e e e e> .
p
76