Escolar Documentos
Profissional Documentos
Cultura Documentos
Robustna statistika
Mentor: Student:
Uvod....................................................................................................................................................................... 3
Primeri robustne i ne-robustne statistike...............................................................................................................4
Definicija.................................................................................................................................................................5
Matematičko očekivanje i varijansa.......................................................................................................................6
Primer: Podaci brzine svetlosti...............................................................................................................................8
Procena položaja................................................................................................................................................9
Procena razmere..............................................................................................................................................10
Ručno traženje nepravilnosti............................................................................................................................11
Veliki broj aplikacija..........................................................................................................................................11
Mere robustnosti..................................................................................................................................................12
Prelomna tačka.................................................................................................................................................12
Primer: podaci brzine svetlosti.....................................................................................................................12
Empirijska funkcija uticaja................................................................................................................................13
Funkcija uticaja i kriva osetljivosti....................................................................................................................15
Poželjne osobine..................................................................................................................................................16
Odbojna tačka..................................................................................................................................................16
Bruto-greška osetljivosti...................................................................................................................................16
Lokalno-pomeranje osetljivosti........................................................................................................................16
M-procenjivači......................................................................................................................................................17
Osobine M-procenjivača...................................................................................................................................19
Funkcija uticaja M-procenjivača.......................................................................................................................19
Izbor ψ i ρ.........................................................................................................................................................19
Robustni parametarski pristupi............................................................................................................................20
Primer: podaci brzine svetlosti.........................................................................................................................21
Teorija robustne odluke.......................................................................................................................................22
Zaključak.............................................................................................................................................................23
Literatura.............................................................................................................................................................24
Uvod
Robustna statistika želi da pruži metode koje oponašaju popularne statističke metode, ali
koje nisu preterano osetljive na mala odstupanja od pretpostavki modela. U statistici, klasični
modeli se pretežno oslanjaju na pretpostavke koje se cesto ne ostvaruju u praksi. Naročito,
često se predpostavlja da su ostaci podataka normalno raspoređeni, ili bar približno, ili da se
može osloniti na teoremu centralne graničnosti da pruži normalnu raspodelu procena.
Nažalost, kada ima smetnji u podacima, klasične metode često pružaju veoma loše rezultate.
Medijana je robustna mera centralne tendencije, dok matematičko očekivanje nije; na primer,
medijanja ima prelomnu tačku na 50%, dok očekivana vrednost ima prelomnu tačku od 0%(jedan
veliki uzorak može je poremetiti).
Apsolutna devijacija medijane i međukvartilna varijansa su robustne mere statističke disperzije, dok
standardna devijacija i varijansa nisu.
Tema bliska ovoj je otporna statistika, koja je otporna na efekte ekstremnih vrednosti. Većina
statistika je ili robustno ili otporno, ili nijedno.
Matematičko očekivanje i varijansa
uzorka sa
x 1 ,..., x n .
tj. očekivana vrednost uzorka je jednaka očekivanoj sredini populacije, a njena varijansa je
σ2
E ( x̄ )=m , Var ( x̄ ) =
jednaka varijansi populacije podeljenoj sa veličinom uzorka, tj: n
2
Odakle sledi da rastom uzorka σ ( x̄ ) će opadati i težiti nuli, kada n ↦ ∞ . To znači da će
verovatnoća da će se x̄ naći u odredjenoj okolini oko m težiti jedinici kada n ↦ ∞ , tj. тј. za
dovoljno veliki obim uzoraka moći ćemo, skoro sigurno, da tvrdimo da će se sredina uzorka malo
razlikovati od sredine populacije. Ako pretpostavimo da Х ima na populaciji normalnu raspodelu, tj.
X : N ( m;σ 2 ) , kod uzorka izvučenog iz ove populacije sredina uzorka će imati normalnu raspodelu
σ2
( )
x̄: N m;
n , odakle sledi da će i statistika
z ¿=
x̄−m
σ
√n
koja predstavlja standardizovanu
¿ x̄−m
z= √ n : N ( 0,1 )
sredinu uzorka imati standardizovanu normalnu raspodelu: σ .
tako da funkcija
2Φ ( σε √n)−1 bude jednaka zadatoj verovatnoći.
Za koji obim uzorka n možemo, sa zadatom verovatnoćom, tvrditi da će se sredina
uzorka i sredina populacije razlikovati za manje od datog broja ε . To će biti ona vrednost n za
koju funkcija
2Φ ( σε √n)−1 ima vrednost zadane verovatnoće.
Primer: Podaci brzine svetlosti
Iako veliki deo podataka izgleda manje ili više normalno raspodeljeno, postoje dve očigledne
smetnje. Ove smetnje imaju veliki uticaj na očekivanu vrednost, povlačeći je ka sebi, a od
sredine većeg dela podataka. Samim tim, ako se očekivana vrednost koristi za pronalaženje
sredine podataka, ona je, u neku ruku, pristrasna kada su smetnje prisutne.
Slike (c) i (d) prikazuju grafik početne raspodele za očekivanu vrednost (c) i za 10% skraćenu
očekivanu vrednost (d). Skraćena očekivana vrednost je jednostavan robustni procenjivač
lokacije koja briše određeni procenat posmatranja(10% u datom slučaju) sa svake strane
podataka, zatim računa očekivanu vrednost na uobičajen način. Analiza je vršena u R i 10000
početnih uzoraka su korišćeni i za osnovnu i za skraćenu očekivanu vrednost.
Raspodela očekivanih vrednosti je očigledno mnogo šira nego ta kod 10% skraćene
očekivane vrednosti(grafici imaju istu skalu). Takođe se primećuje da, dok raspodela
skraćene očekivane vrednosti deluje približno normalnoj raspodeli, raspodela osnovne
očekivane vrednosti je pomerena ulevo. Dakle, u ovom uzorku od 66 posmatranja, samo 2
smetnje čine teoremu centralnog limita neupotrebljivom.
Metode robustne statistike, od kojih je skraćena očekivana vrednost jednostavan primer, teže
da prevaziđu klasične statističke metode u prisustvu nepravilnosti, ili, opštije, kada početne
parametarske predpostavke nisu tačne.
Dok skraćena očekivana vrednost radi dobro u odnosu na očekivanu vrednost u ovom
primeru, dostupni su i bolji procenjivači. U stvari, očekivana vrednost, medijana i skraćena
očekivana vrednost su svi specijalni slučajevi M-procenjivača.
Procena razmere
Nepravilnosti u podacima brzine svetlosti imaju više nego samo nepovoljan efekat na
očekivanu vrednost; uobičajeni procenjivač razmere je standardna devijacija, a ova veličina je
pod još nepovoljnijim uticajem nepravilnosti zbog toga što u račun ulaze kvadrati očekivane
vrednosti devijacije, pa su efekti nepravilnosti prenaglašeni.
Grafici naslici ispod prikazuju početnu raspodelu standardne devijacije, medijanu apsolutne
devijacije(MAD) i Qn procenjivač razmere (Rousseeuw and Croux, 1993). Grafici su bazirani
na početnim uzorcima od 10000 za svaki procenjivač i dodato je malo normalnog nasumičnog
šuma na uzorkovane podatke. Slika (a) prikazuje raspodelu standardne devijacije, (b)
medijane apsolutne devijacije i (c) Qn-a.
Raspodela standardne devijacije je haotična i široka, kao rezultat nepravilnosti. MAD se bolje
ponaša, a Qn je malo efikasniji od MAD. Ovaj primerak uzorka demonstrira da kada su
nepravilnosti prisutne, standardna devijacija ne može biti preporučena kao procenjivač
razmere.
Ručno traženje nepravilnosti
Tradicionalno, statističari bi rčno pretraživali podatke tražeći nepravilnosti, i uklanjali ih,
najčešće proveravajući izvor podataka da vide da li su nepravilnosti pogrešno zabeležene.
Zaista, u primeru brzine svetlosti, navedenom iznad, lako je primetiti i ukloniti dve
nepravilnosti pre nastavljanja sa bilo kakvom daljom analizom. Naime, u modernom vremenu,
grupe podataka se često sastoje od velikih brojeva varijabli koje se mere na velikim brojevima
eksperimentalnih jedinica. Samim tim, ručno traženje nepravilnosti je često nepraktično.
Nepravilnosti se često javljaju tako da prikrivaju jedne druge. Kao primer, uzmimo malu
jednovarijabilnu grupu podataka sa jednom srednjom i jednom velikom nepravilnošću.
Procenena standardna devijacije biće veoma uvećana od strane veće nepravilnosti. Rezultat
je da srednja nepravilnost deluje relativno normalno. Istog trenutka kada se velika
nepravilnost otkloni, procenjena standardna devijacija se smanjuje, i srednja nepravilnost
sada deluje neobično.
Prelomna tačka
Intuitivno, prelomna tačka procenjivača je broj netačnih posmatranja(npr. proizvoljno velika
posmatranja) koja procenjivač može da obradi pre nego što da proizvoljno veliki rezultat. Na
primer, , za n nezavisnih nasumičnih promenljivih i istih
U primeru brzine svetlosti, uklanjanje dva najniža posmatranja čini da se očekivana vrednost
promeni sa 26.2 na 27.75, promena od 1.55. Procena razmere određena Qn metodom je 6.3.
Dalje, možemo da podelimo kvadratnim korenom veličine uzorka da dobijemo robustnu
standardnu grešku, i nalazimo da je ova veličina 0.78. Dakle, promena u očekivanoj vrednosti
koja je nastala uklanjanjem nepravilnosti jednaka je približno dvostrukoj robustnoj standardnoj
grešci.
10% skraćena očekivana vrednost podataka brzine svetlosti je 27.43. Oklanjanje dva
nedostatka i preračunavanje daju 27.67. Očigledno, skraćena očekivana vrednost je pod
manjim uticajem nedostataka i ima višu prelomnu tačku.
Primetimo da ako zamenimo najniže posmatranje, -44 sa -1000, očekivana vrednost postaje
11.73, dok je 10% skraćena očekivana vrednost i dalje 27.43. U mnogim oblastima
primenjene statistike, redovno je za podatke da se logaritmuju približno simetriji. Veoma male
vrednosti postaju velike negativne kada se logaritmuju, a nule postaju negativne beskonačne.
Zato je ovaj primer od praktičnog interesa.
Empirijska funkcija uticaja daje nam uvid u to kako se procenjivač ponaša kada promenimo
jednu tacku u uzorku i kada se oslanja na podatke(npr. bez predpostavki modela). Na slici
gore je Tukey-eva dvotežinska funkcija, koja, kako ćemo videti kasnije, je primer toga kako
"dobra" empirijska funkcija uticaja treba da izgleda. Kontekst je sledeci:
1. je prostor verovatnoće,
2. je prostor mere (prostor stanja),
3. Θ je prostor parametra, dimenzije ,
4. (Γ,S) je prostor mere,
5. je projekcija,
6. je set svih mogućih raspodela Σ
Na primer,
Ovaj oblik funkcije uticaja je analogno ostalim oblicima funkcije uticaja, kao što je impulsni
odgovor: meri osetljivost na vrednost u tački.
Funkcija uticaja i kriva osetljivosti
Umesto da se oslanjamo isključivo na podatke, možemo koristiti raspodelu nasumičnih
promenljivih. Ovaj pristup je prilično drugačiji od onog iz prethodnog pasusa. Ono što sad
pokušavamo da uradimo je da vidimo šta se dešava sa procenjivačem kada blago menjamo
raspodelu podataka: on preuzima raspodelu, i meri osetljivost na promene u ovoj raspodeli.
Kao kontrast, empirijsta funkcija uticaja, preuzima skup uzorka, i meri osetljivost na promene
u uzorku.
Neka je G neka raspodela u A. Šta se dešava kada podaci ne prate model F nego neki drugi,
malo drugačiji "idući ka" G?
Gledamo u: ,
Ona opisuje efekat beskonačno malog zagađenja u tački x u proceni koju tražimo,
standardizovanu od strane mase t zagađenja. Za robustni procenjivač, želimo ograničenu
funkciju uticaja, tj. onu koja ne ide u beskonačno kada x postaje proizvoljno veliko.
Poželjne osobine
Osobine funkcije uticaja koje joj omogućavaju poželjan učinak su:
1. Odbojna tačka ρ * ,
2. Mala bruto-greška osetljivost γ * ,
3. Mala lokalno-pomeranje osetljivost λ * .
Odbojna tačka
Bruto-greška osetljivosti
Lokalno-pomeranje osetljivosti
This value, which looks a lot like a Lipschitz constant, represents the effect of shifting an
observation slightly from x to a neighbouring point y, i.e., add an observation at y and remove
one at x.
M-procenjivači
, gde je ρ neka funkcija. MLE su znači specijalan oblik M-procenjivača (otud i ime:
"Maximum likelihood type" estimators).
Za kvadratne greške, ρ(x) se povećava rastućom stopom, dok kod apsolutnih grešaka raste
konstantnom stopom. Kada se koristi vinzorajzing, mešavina ova dva efekta se javlja: za male
vrednosti x, ρ raste kvadratnom stopom, ali kada se je odabrani prag dostignut(1.5 u ovom
primeru) stopa rasta postaje konstantna. Ovaj vinzorizovan procenjivač je takođe poznat i kao
Huberova funkcija gubitka. Tukey-eva dvotežinska(takođe poznata i kao bikvadratna) funkcija
se ponaša slično kao kvadratna greška u početku, ali kod većih grešaka, funkcija se sužava
.
Osobine M-procenjivača
Primetimo da se M-procenjivači ne neophodno odnose prema funkciji verovatne gustine.
Samim tim, direktni pristupi zaključivanju koji nastaju od teorije verovatnosti ne mogu,
uopšteno, da se koriste.
Kako su M-procenjivači normalni samo asimptotski, za male uzorke može biti odgovarajuće
korišćenje alternativnih pristupa zaključivanju, kao što su početne predpostavke. Međutim, M-
procenjivači nisu neophodno jedinstveni(npr. može biti više od jednog rešenja koje
zadovoljava jednačinu). Takođe, moguće je da bilo koji posebni početni uzorak sadrži više
nepravilnosti nego što je procenjivačeva prelomna tačka. Stoga, određena doza opreza je
potrebna kod pravljnjea početnih šema.
Naravno, kao što smo videli sa primerom brzine svetlosti, očekivana vrednost ima normalnu
raspodelu samo asimptotski i kada su nepravilnosti prisutne aproksimacija može biti veoma
loša čak i kod prilično velikih uzoraka. Međutim, klasični statistički testovi, uključujući i one
bazirane na očekivanoj vrednosti, u uglavnom ograničeni iznad nominalnih veličina testa. Ovo
ne važi za M-procenjivače i greške I vrste mogu biti znatno iznad nominalnog nivoa. Ove
osobine ne "omalovažavaju" M-procenu u bilo kom smislu. Tone samo ukazuju da je malo
pažnje potrebno pri njihovom korišćenju, što važi i za druge metode procene.
Izbor ψ i ρ
U mnogo praktičnih situacija, izbor funkcije ψ nije kritičan za dobijanje dobre robustne
procene, i mnogi izbori daju slične rezultate koji nude velika unapređenja, u pogledu
efikasnosti i opterećenja, ispred klasičnih procena pri prisustvu nepravilnosti.
Teoretski, funkcije ψ trebaju biti preferirane, i Tukey-eva dvotežinska(takođe poznata i kao
bikvadratna) funkcija je popularan izbor. Preporučuje se dvotežinska funkcija sa efikasnošću
na normalnom postavljenom na 85%
Po kontrastu, teorije odluka koje nisu zasnovane na verovatnoći, kao što su minimax i
minimax sa žaljenjem su nezavisne u odnosu na predpostavke o verovatnoćama ishoda,
zaviseći samo od evaluacije mogućih ishoda i njihovih poželjnosti. Analiza scenarija i stres
testiranje su neformalne metode koje se ne zasnivaju na verovatnoći, dok je info-gap teorija
odluka formalna robustna teorija odluka.
Zaključak
Robust Regression and Outlier Detection, Peter J. Rousseeuw and Annick M. Leroy,
Wiley, 1987 (republished in paperback, 2003)
Robust Statistics - Theory and Methods, Ricardo Maronna, Doug Martin and Victor
Yohai, Wiley, 2006