Analiza Podataka - Robustna Statistika

UNIVERZITET U BEOGRADU
FAKULTET ORGANIZACIONIH NAUKA
Seminarski rad iz predmeta Analiza Podataka
Robustna statistika
Mentor: Student:
Profesor Zoran Radojičić Stupljanin Maja 488/06
Beograd, oktobar 2010.

Sadržaj:
Uvod....................................................................................................................................................................... 3
Primeri robustne i ne-robustne statistike...............................................................................................................4
Definicija.................................................................................................................................................................5
Matematičko očekivanje i varijansa.......................................................................................................................6
Primer: Podaci brzine svetlosti...............................................................................................................................8
Procena položaja................................................................................................................................................9
Procena razmere..............................................................................................................................................10
Ručno traženje nepravilnosti............................................................................................................................11
Veliki broj aplikacija..........................................................................................................................................11
Mere robustnosti..................................................................................................................................................12
Prelomna tačka.................................................................................................................................................12
Primer: podaci brzine svetlosti.....................................................................................................................12
Empirijska funkcija uticaja................................................................................................................................13
Funkcija uticaja i kriva osetljivosti....................................................................................................................15
Poželjne osobine..................................................................................................................................................16
Odbojna tačka..................................................................................................................................................16
Bruto-greška osetljivosti...................................................................................................................................16
Lokalno-pomeranje osetljivosti........................................................................................................................16
M-procenjivači......................................................................................................................................................17
Osobine M-procenjivača...................................................................................................................................19
Funkcija uticaja M-procenjivača.......................................................................................................................19
Izbor ψ i ρ.........................................................................................................................................................19
Robustni parametarski pristupi............................................................................................................................20
Primer: podaci brzine svetlosti.........................................................................................................................21
Teorija robustne odluke.......................................................................................................................................22
Zaključak.............................................................................................................................................................23
Literatura.............................................................................................................................................................24
Uvod
Robustna statistika želi da pruži metode koje oponašaju popularne statističke metode, ali
koje nisu preterano osetljive na mala odstupanja od pretpostavki modela. U statistici, klasični
modeli se pretežno oslanjaju na pretpostavke koje se cesto ne ostvaruju u praksi. Naročito,
često se predpostavlja da su ostaci podataka normalno raspoređeni, ili bar približno, ili da se
može osloniti na teoremu centralne graničnosti da pruži normalnu raspodelu procena.
Nažalost, kada ima smetnji u podacima, klasične metode često pružaju veoma loše rezultate.
Ovo se može proučavati empirijski, proučavanjem raspodele uzorka različitih procenjivača u

mešovitom modelu, gde se dodaje mala količina(1-5% je često dovoljno) zagađenja. Na
primer, može se koristiti mešavina sa 95% normalne raspodele, i 5% normalne raspodele sa
istom očekivanom vrednošću, ali znatno većom standardnom devijacijom(greške).
Kako bi kvantifikovali robustnost metode, neophodno je definisati neke mere robustnosti.

Možda najpoznatije od ovih mera su prelomna tačka i funkcija uticaja, opisane dalje u tekstu.
Robustna parametarska statistikaima sklonost da se oslanja na zamenu normalne raspodele

u klasičnim metodama sa studentovom raspodelom sa niskim stepenom slobode(u praksi se
pokazalo da su se često intervali 4-5 stepeni slobode pokazali korisnim) ili sa mešavino dve ili
više raspodela.
Primeri robustne i ne-robustne statistike
Medijana je robustna mera centralne tendencije, dok matematičko očekivanje nije; na primer,
medijanja ima prelomnu tačku na 50%, dok očekivana vrednost ima prelomnu tačku od 0%(jedan
veliki uzorak može je poremetiti).
Apsolutna devijacija medijane i međukvartilna varijansa su robustne mere statističke disperzije, dok
standardna devijacija i varijansa nisu.
Skraćeni procenjivači i vinzorizovani procenjivači su opšte metode za činjenje statistike robustnijom.

M-procenjivači su opšta klasa robustne statistike.
Definicija
Postoje različite definicije "robustne statistike". Striktno govoreći, robustna statistika je

otporna na greške u rezultatima, nastale devijacijama iz pretpostavki(npr. normalnost). Ovo
znači da ako su pretpostavke samo delimično ostvarene, robustni procenjivač će i dalje imati
prihvatljivu efikasnost, i prihvatljivo malu pristrasnost, kao i osobinu asimptotičke
nepristrasnosti, odnostno pristrasnost će težiti nuli kako uzorak raste u beskonačno.
Jedan od najbitnijih slučajeva je raspodelna robustnost. Klasične statističke procedure su

osetljive na "dugorepost"(npr. kada raspodela podataka ima višu stopu praćenja od
pretpostavljene normalne raspodele). Stoga, u kontekstu robustne statistike, raspodelno
robustno i otporno na smetnje su sinonimi.
Tema bliska ovoj je otporna statistika, koja je otporna na efekte ekstremnih vrednosti. Većina
statistika je ili robustno ili otporno, ili nijedno.
Matematičko očekivanje i varijansa
Neka je aritmetička sredina obeležja X na populaciji jednaka m , a njegova varijansa ima
vrednost σ2 , tj. neka je

2
m=E ( x ) ,σ =Var ( x ) , pri čemu je X slučajna promenljiva vezana za
neki eksperiment.Posmatrajmo uzorak veličine n ,izvučen iz ove populacije, označimo elemente
uzorka sa
x 1 ,..., x n .
Aritmetička sredina uzoraka (sredina uzorka) je statistika data funkcijom :

n
1 1 1 1
x̄= ∑ x i= x1 + x 2 +. ..+ x n
n i=1 n n n
Statistika x̄ je linearna funkcija slučajne promenljive i koje su međusobno


x
nezavisne i sve imaju istu raspodelu, pa je očekivana vrednost ove statistike jednaka linearnoj
funkciji očekivanih vrednosti promenljive
x i . Očekivana vrednost i varijansa svake
promenljive jednaka je m i σ2 populacije, zato je:

1
E ( x̄ )= nm=m
n
1 1
Var ( x̄ )= 2 nσ 2 = σ 2 ,
n n
tj. očekivana vrednost uzorka je jednaka očekivanoj sredini populacije, a njena varijansa je
σ2
E ( x̄ )=m , Var ( x̄ ) =
jednaka varijansi populacije podeljenoj sa veličinom uzorka, tj: n
2
Odakle sledi da rastom uzorka σ ( x̄ ) će opadati i težiti nuli, kada n ↦ ∞ . To znači da će
verovatnoća da će se x̄ naći u odredjenoj okolini oko m težiti jedinici kada n ↦ ∞ , tj. тј. za
dovoljno veliki obim uzoraka moći ćemo, skoro sigurno, da tvrdimo da će se sredina uzorka malo
razlikovati od sredine populacije. Ako pretpostavimo da Х ima na populaciji normalnu raspodelu, tj.
X : N ( m;σ 2 ) , kod uzorka izvučenog iz ove populacije sredina uzorka će imati normalnu raspodelu
σ2
( )
x̄: N m;
n , odakle sledi da će i statistika
z ¿=
x̄−m
σ
√n
koja predstavlja standardizovanu
¿ x̄−m
z= √ n : N ( 0,1 )
sredinu uzorka imati standardizovanu normalnu raspodelu: σ .
Ovaj rezultat može da se iskoristi za određivanje verovatnoće pojedinih događaja, najčešće
verovatnoća razlika sredine uzorka x̄ i sredine populacije m. To je dogadjaj oblika:
|x̄−m|≤ε , ε> 0⇒ P {| x̄−m|≤ε }=2 Φ ( σε √ n)−1

Za odredjene vrednosti ε ,n,σ 2 , može se odrediti verovatnoća iz tablica za funkciju normalne
raspodele. Obrnuto, za zadatu verovatnoću može se odrediti okolina sredine m.
 Za odredjivanje raspodele sredine uzorka x̄ za svaku populaciju koristi se centralna
granična teorema: ako je očekivana vrednost (sredina) populacije m, a varijansa σ 2 , tada

2
raspodela sredine x̄ uzorka teži normalnoj raspodeli sa sredinom m i varijansom σ /n (kada
n neograničeno raste), pa za dovoljno veliko n možemo reći da će sredina uzorka x̄ imati
2
približno normalnu raspodelu tj. .

( σn )
x̄ : ( ¿ ) N m;
 Na osnovu ove teoreme, normalna raspodela postaje univerzalno primenljiva, pa se
zato najčešće koristi. Za jednu grupu podataka osnovno što treba računati je njihova sredina.
Uz ovu teoremu se mogu lako rešavati sledeći problemi:
 Kolika je verovatnoća da će se sredina uzorka i sredina populacije razlikovati za manje

od datog broja ε?
P {| x̄−m|<ε }≈2 Φ ( σε √ n)−1

 Odrediti interval oko sredine uzorka, tako da sa zadanom verovatnoćom tvrdimo da će
sredina populacije biti u tom intervalu; to će biti interval ( x̄−ε , x̄+ε ) , pri čemu ε treba odrediti
tako da funkcija
2Φ ( σε √n)−1 bude jednaka zadatoj verovatnoći.
 Za koji obim uzorka n možemo, sa zadatom verovatnoćom, tvrditi da će se sredina
uzorka i sredina populacije razlikovati za manje od datog broja ε . To će biti ona vrednost n za
koju funkcija
2Φ ( σε √n)−1 ima vrednost zadane verovatnoće.
Primer: Podaci brzine svetlosti
Iako veliki deo podataka izgleda manje ili više normalno raspodeljeno, postoje dve očigledne
smetnje. Ove smetnje imaju veliki uticaj na očekivanu vrednost, povlačeći je ka sebi, a od
sredine većeg dela podataka. Samim tim, ako se očekivana vrednost koristi za pronalaženje
sredine podataka, ona je, u neku ruku, pristrasna kada su smetnje prisutne.
Takođe, za raspodelu očekivane vrednosti je poznato da je asimptotički normalna zbog

teoreme centralnog limita. Ali ipak, smetnje mogu da učine raspodelu očekivane vrednosti ne-
normalnom čak i za prilično velike grupe podataka. Pored ove ne-normalnosti, očekivana
vrednost je takođe beskorisna u prisustvu smetnji i manje varijabilne mere lociranja su
dostupne.
Procena položaja
Grafik ispod prikazuje grafik gustine podataka brzine svetlosti(slika (a)). Takođe je prikazan i
normalan QQ-grafik(slika (b)). Smetnje se jasno vide na ovim graficima.
Slike (c) i (d) prikazuju grafik početne raspodele za očekivanu vrednost (c) i za 10% skraćenu
očekivanu vrednost (d). Skraćena očekivana vrednost je jednostavan robustni procenjivač
lokacije koja briše određeni procenat posmatranja(10% u datom slučaju) sa svake strane
podataka, zatim računa očekivanu vrednost na uobičajen način. Analiza je vršena u R i 10000
početnih uzoraka su korišćeni i za osnovnu i za skraćenu očekivanu vrednost.
Raspodela očekivanih vrednosti je očigledno mnogo šira nego ta kod 10% skraćene
očekivane vrednosti(grafici imaju istu skalu). Takođe se primećuje da, dok raspodela
skraćene očekivane vrednosti deluje približno normalnoj raspodeli, raspodela osnovne
očekivane vrednosti je pomerena ulevo. Dakle, u ovom uzorku od 66 posmatranja, samo 2
smetnje čine teoremu centralnog limita neupotrebljivom.
Metode robustne statistike, od kojih je skraćena očekivana vrednost jednostavan primer, teže
da prevaziđu klasične statističke metode u prisustvu nepravilnosti, ili, opštije, kada početne
parametarske predpostavke nisu tačne.
Dok skraćena očekivana vrednost radi dobro u odnosu na očekivanu vrednost u ovom
primeru, dostupni su i bolji procenjivači. U stvari, očekivana vrednost, medijana i skraćena
očekivana vrednost su svi specijalni slučajevi M-procenjivača.
Procena razmere
Nepravilnosti u podacima brzine svetlosti imaju više nego samo nepovoljan efekat na
očekivanu vrednost; uobičajeni procenjivač razmere je standardna devijacija, a ova veličina je
pod još nepovoljnijim uticajem nepravilnosti zbog toga što u račun ulaze kvadrati očekivane
vrednosti devijacije, pa su efekti nepravilnosti prenaglašeni.
Grafici naslici ispod prikazuju početnu raspodelu standardne devijacije, medijanu apsolutne
devijacije(MAD) i Qn procenjivač razmere (Rousseeuw and Croux, 1993). Grafici su bazirani
na početnim uzorcima od 10000 za svaki procenjivač i dodato je malo normalnog nasumičnog
šuma na uzorkovane podatke. Slika (a) prikazuje raspodelu standardne devijacije, (b)
medijane apsolutne devijacije i (c) Qn-a.
Raspodela standardne devijacije je haotična i široka, kao rezultat nepravilnosti. MAD se bolje
ponaša, a Qn je malo efikasniji od MAD. Ovaj primerak uzorka demonstrira da kada su
nepravilnosti prisutne, standardna devijacija ne može biti preporučena kao procenjivač
razmere.
Ručno traženje nepravilnosti
Tradicionalno, statističari bi rčno pretraživali podatke tražeći nepravilnosti, i uklanjali ih,
najčešće proveravajući izvor podataka da vide da li su nepravilnosti pogrešno zabeležene.
Zaista, u primeru brzine svetlosti, navedenom iznad, lako je primetiti i ukloniti dve
nepravilnosti pre nastavljanja sa bilo kakvom daljom analizom. Naime, u modernom vremenu,
grupe podataka se često sastoje od velikih brojeva varijabli koje se mere na velikim brojevima
eksperimentalnih jedinica. Samim tim, ručno traženje nepravilnosti je često nepraktično.
Nepravilnosti se često javljaju tako da prikrivaju jedne druge. Kao primer, uzmimo malu
jednovarijabilnu grupu podataka sa jednom srednjom i jednom velikom nepravilnošću.
Procenena standardna devijacije biće veoma uvećana od strane veće nepravilnosti. Rezultat
je da srednja nepravilnost deluje relativno normalno. Istog trenutka kada se velika
nepravilnost otkloni, procenjena standardna devijacija se smanjuje, i srednja nepravilnost
sada deluje neobično.
Ovaj problem prikrivanja se pogoršava sa povećanjem složenosti podataka. Na primer, u

regresionim problemima, dijagnostički grafici se koriste za otkrivanje nepravilnosti. Tu je
uobičajeno da kada se par nepravilnosti otkloni, ostale postaju vidljive. Problem je još gori u
višim dimenzijama.
Robustne metode pružaju automatske načine otkrivanja, smanjivanja(ili uklanjanja) i

obeležavanja nepravilnosti, uglavnom uklanjajući potrebu za ručnom pretragom.
Veliki broj aplikacija

Iako se ovde bavimo opštim principima jednovarijabilnih statističkih metoda, robustne metode
postoje takođe i za regresione probleme, uopštene linearne probleme i parametarsku procenu
različitih raspodela.
Mere robustnosti
Osnovni alati za opisivanje i merenje robustnosti su prelomna tačka, funkcija uticaja i kriva
osetljivosti.
Prelomna tačka
Intuitivno, prelomna tačka procenjivača je broj netačnih posmatranja(npr. proizvoljno velika
posmatranja) koja procenjivač može da obradi pre nego što da proizvoljno veliki rezultat. Na
primer, , za n nezavisnih nasumičnih promenljivih i istih
realizacija , možemo koristiti da procenimo očekivanu

vrednost. Takav procenjivač ima prelomnu tačku 0 zato što učiniti proizvoljno velikim ako
samo menjamo bilo koji iz niza .
Što je viša prelomna tačka procenjivača, to je on robustniji. Intuitivno, razumemo da prelomna

tačka ne može prekoračiti 50% zato što ako je više od pola posmatranja zagađeno, nije
moguće praviti razliku između tražene i kontaminirane raspodele. Zato je, maksimalna
prelomna tačka 0.5 i postoje procenjivači koji dostižu takvu prelomnu tačku. Na primer,
medijana ima prelomnu tačku 0.5. X% skraćena očekivana vrednost ima prelomnu tačku od X
% za odabrani nivo X.
Statistike sa visokim prelomnim tačkama ponekad se nazivaju rezistentnim(otpornim)

statistikama.
Primer: podaci brzine svetlosti
U primeru brzine svetlosti, uklanjanje dva najniža posmatranja čini da se očekivana vrednost
promeni sa 26.2 na 27.75, promena od 1.55. Procena razmere određena Qn metodom je 6.3.
Dalje, možemo da podelimo kvadratnim korenom veličine uzorka da dobijemo robustnu
standardnu grešku, i nalazimo da je ova veličina 0.78. Dakle, promena u očekivanoj vrednosti
koja je nastala uklanjanjem nepravilnosti jednaka je približno dvostrukoj robustnoj standardnoj
grešci.
10% skraćena očekivana vrednost podataka brzine svetlosti je 27.43. Oklanjanje dva
nedostatka i preračunavanje daju 27.67. Očigledno, skraćena očekivana vrednost je pod
manjim uticajem nedostataka i ima višu prelomnu tačku.
Primetimo da ako zamenimo najniže posmatranje, -44 sa -1000, očekivana vrednost postaje
11.73, dok je 10% skraćena očekivana vrednost i dalje 27.43. U mnogim oblastima
primenjene statistike, redovno je za podatke da se logaritmuju približno simetriji. Veoma male
vrednosti postaju velike negativne kada se logaritmuju, a nule postaju negativne beskonačne.
Zato je ovaj primer od praktičnog interesa.
Empirijska funkcija uticaja
Tukey-eva dvotežinska funkcija
Empirijska funkcija uticaja daje nam uvid u to kako se procenjivač ponaša kada promenimo
jednu tacku u uzorku i kada se oslanja na podatke(npr. bez predpostavki modela). Na slici
gore je Tukey-eva dvotežinska funkcija, koja, kako ćemo videti kasnije, je primer toga kako
"dobra" empirijska funkcija uticaja treba da izgleda. Kontekst je sledeci:
1. je prostor verovatnoće,
2. je prostor mere (prostor stanja),
3. Θ je prostor parametra, dimenzije ,
4. (Γ,S) je prostor mere,
5. je projekcija,
6. je set svih mogućih raspodela Σ
Na primer,
1. je bilo koji prostor verovatnoće,

2. ,
3.
4. ,
5. definisan sa: γ(x,y) = x.
Definicija empirijske funkcije je: Neka je i i

je uzorak ovih promenljivih. je procenjivač. neka je
. Empirijska funkcija uticaja EIFi pri i-tom posmatranju je definisana kao:
Šta ovo u stvari znači je da mi menjamo i-tu vrednost sa proizvoljnom vrednošću i

posmatramo izlaz iz procenjivača.
Ovaj oblik funkcije uticaja je analogno ostalim oblicima funkcije uticaja, kao što je impulsni
odgovor: meri osetljivost na vrednost u tački.
Funkcija uticaja i kriva osetljivosti
Umesto da se oslanjamo isključivo na podatke, možemo koristiti raspodelu nasumičnih
promenljivih. Ovaj pristup je prilično drugačiji od onog iz prethodnog pasusa. Ono što sad
pokušavamo da uradimo je da vidimo šta se dešava sa procenjivačem kada blago menjamo
raspodelu podataka: on preuzima raspodelu, i meri osetljivost na promene u ovoj raspodeli.
Kao kontrast, empirijsta funkcija uticaja, preuzima skup uzorka, i meri osetljivost na promene
u uzorku.
Neka je A konveksan podskup skupa svih ograničenih mera na . Mi želimo da procenimo

parametar raspodele F u A. Neka je funkcional asimptotska vrednost
nekog niza procenjivača . Predpostavimo da je ovaj funkcional Fisher konzistentan,
npr. . Ovo znači da kod modela F, niz procenjivača asimtotski meri
tačnu količinu.
Neka je G neka raspodela u A. Šta se dešava kada podaci ne prate model F nego neki drugi,
malo drugačiji "idući ka" G?
Gledamo u: ,
što predstavlja usmereni izvod T od F, u smeru G.
Neka . Δx je mera verovatnoće koja dodeljuje x masu 1. Izabrali smo da je G = Δx.

Funkcija uticaja je onda definisana kao:
Ona opisuje efekat beskonačno malog zagađenja u tački x u proceni koju tražimo,
standardizovanu od strane mase t zagađenja. Za robustni procenjivač, želimo ograničenu
funkciju uticaja, tj. onu koja ne ide u beskonačno kada x postaje proizvoljno veliko.
Poželjne osobine
Osobine funkcije uticaja koje joj omogućavaju poželjan učinak su:
1. Odbojna tačka ρ * ,
2. Mala bruto-greška osetljivost γ * ,
3. Mala lokalno-pomeranje osetljivost λ * .
Odbojna tačka
Bruto-greška osetljivosti
Lokalno-pomeranje osetljivosti
Ova vrednost, koja izgleda kao Lipschitz-ova konstanta,predstavlja efekat pomeranja

posmatranja blago sa x na susednu tačku y, npr. dodati posmatranje na y a ukloniti ono sa x.
This value, which looks a lot like a Lipschitz constant, represents the effect of shifting an
observation slightly from x to a neighbouring point y, i.e., add an observation at y and remove
one at x.
M-procenjivači
( Matematički kontext ove oblasti dat je u oblasti empirijske funkcije uticaja)
Istorijski gledano, nekoliko pristupa robustnim procenama je predstavljano, uključujući i R-

rpocenjivače i L-procenjivače. Međutim, M-procenjivači kako se sada čini, dominiraju ovim
poljem kao rezultat njihove opštosti, visoke prelomne tačke i njihove efikasnosti.
M - procenjivači su uopštenje procenjivača maksimalne verovatnoće(MLE). Ono što
pokušavamo da sa njima uradimo je da maksimiziramo ili, ekvivalentno,
minimiziramo . 1964, Huber je predložio uopštavanje ovoga na minimizaciju
, gde je ρ neka funkcija. MLE su znači specijalan oblik M-procenjivača (otud i ime:
"Maximum likelihood type" estimators).
Minimizacija može često da se uradi diferencijacijom ρ i rešavanjem
, gde (ako ρ ima izvod).
Predloženo je nekoliko opcija za ρ i ψ. Dve slike ispod predstavljaju 4 funkcije ρ i njihove ψ.
Za kvadratne greške, ρ(x) se povećava rastućom stopom, dok kod apsolutnih grešaka raste
konstantnom stopom. Kada se koristi vinzorajzing, mešavina ova dva efekta se javlja: za male
vrednosti x, ρ raste kvadratnom stopom, ali kada se je odabrani prag dostignut(1.5 u ovom
primeru) stopa rasta postaje konstantna. Ovaj vinzorizovan procenjivač je takođe poznat i kao
Huberova funkcija gubitka. Tukey-eva dvotežinska(takođe poznata i kao bikvadratna) funkcija
se ponaša slično kao kvadratna greška u početku, ali kod većih grešaka, funkcija se sužava
.
Osobine M-procenjivača
Primetimo da se M-procenjivači ne neophodno odnose prema funkciji verovatne gustine.
Samim tim, direktni pristupi zaključivanju koji nastaju od teorije verovatnosti ne mogu,
uopšteno, da se koriste.
Može se pokazati da su M-procenjivači asimptotski sa normalnom raspodelom, tako da sve

dok se njihove standardne greške mogu obraditi, približan pristup zaključivanju je dostupan.
Kako su M-procenjivači normalni samo asimptotski, za male uzorke može biti odgovarajuće
korišćenje alternativnih pristupa zaključivanju, kao što su početne predpostavke. Međutim, M-
procenjivači nisu neophodno jedinstveni(npr. može biti više od jednog rešenja koje
zadovoljava jednačinu). Takođe, moguće je da bilo koji posebni početni uzorak sadrži više
nepravilnosti nego što je procenjivačeva prelomna tačka. Stoga, određena doza opreza je
potrebna kod pravljnjea početnih šema.
Naravno, kao što smo videli sa primerom brzine svetlosti, očekivana vrednost ima normalnu
raspodelu samo asimptotski i kada su nepravilnosti prisutne aproksimacija može biti veoma
loša čak i kod prilično velikih uzoraka. Međutim, klasični statistički testovi, uključujući i one
bazirane na očekivanoj vrednosti, u uglavnom ograničeni iznad nominalnih veličina testa. Ovo
ne važi za M-procenjivače i greške I vrste mogu biti znatno iznad nominalnog nivoa. Ove
osobine ne "omalovažavaju" M-procenu u bilo kom smislu. Tone samo ukazuju da je malo
pažnje potrebno pri njihovom korišćenju, što važi i za druge metode procene.
Funkcija uticaja M-procenjivača

Može da se pokaže da je funkcija uticaja M-procenjivača T proporcionalna u odnosu na ψ, što
znači da možemo izvesti osobine takvog procenjivača(kao što su njegova odbojna tačka,
bruto-greška osetljivosti...) kada znamo njegovu ψ funkciju.
IF(x;T,F) = M − 1ψ(x,T(F)) sa dato od: .
Izbor ψ i ρ
U mnogo praktičnih situacija, izbor funkcije ψ nije kritičan za dobijanje dobre robustne
procene, i mnogi izbori daju slične rezultate koji nude velika unapređenja, u pogledu
efikasnosti i opterećenja, ispred klasičnih procena pri prisustvu nepravilnosti.
Teoretski, funkcije ψ trebaju biti preferirane, i Tukey-eva dvotežinska(takođe poznata i kao
bikvadratna) funkcija je popularan izbor. Preporučuje se dvotežinska funkcija sa efikasnošću
na normalnom postavljenom na 85%
Robustni parametarski pristupi

M-procenjivači nisu neophodno povezani sa funkcijom gustine pa nisu ni u potpunosti
parametarski. Potpuno parametarski pristupi robustnom modeliranju i zaključivanju, i Bajesovi
i verovatnosni pristupi, najčešće se suočavaju sa veoma opterećenim raspodelama kao što je
Studentova t-raspodela.
Za t-raspodelu sa v stepeni slobode može se prikazati da:
Za v = 1, t-raspodela je ekvivalentna Košijevoj raspodeli. Primetimo da se stepeni slobode

ponekad nazivaju i parametrima kurtoznosti. To je parametar koji kontroliše opterećenost
raspodele. U principu, v moda se proceni iz podataka kao i svaki drugi parametar. U praksi
često se dešava da bude više lokalnih maksimuma kada je v dozvoljeno da varira. Kao
takvom, često je da se v fiksira na vrednost oko 4 ili 6. Slika ispod prikazuje funkciju ψ za 4
različite vrednosti v.
Primer: podaci brzine svetlosti
Za podatke brzine svetlosti, dozvoljavanjem parametru da varira i maksimizirajući

verovatnoću, dobijamo
Fiksirajući ν = 4 i maksimizirajući verovatnoću dobijamo

Teorija robustne odluke
Teorija odluke se zasniva na maksimiziranju očekivane vrednosti ili očekivane hipoteze

korisnosti je osetljiva na predpostavke o verovatnoćama različitih ishoda, naročito ako je
očekivanost dominirana od strane retkih ekstremnih događaja.
Po kontrastu, teorije odluka koje nisu zasnovane na verovatnoći, kao što su minimax i
minimax sa žaljenjem su nezavisne u odnosu na predpostavke o verovatnoćama ishoda,
zaviseći samo od evaluacije mogućih ishoda i njihovih poželjnosti. Analiza scenarija i stres
testiranje su neformalne metode koje se ne zasnivaju na verovatnoći, dok je info-gap teorija
odluka formalna robustna teorija odluka.
Zaključak
Robustna statistika se bavi veoma realnim problemom statističke primene: efektom

narušavanja modela koji se koristi za analizu podataka. U poslednjih 40 godina došlo je do
neverovatnog napretka u teoriji robustne statistike, ali nažalost većina ovih procedura još
uvek nije rasprostranjena u praksi. Razlog koji govori u korist ograničenog korišćenja
robustne statistike jesu visoki troškovi obrade velikog broja ovih tehnika.
Nedostatak lakog za upotrebu i dobro dokumentovanog kompjuterskog koda takođe ne

pomaže. U poslednjih par godina konsolidacija projekta R kao široko dostupnog, moćnog i
svestranog kompjuterskog programa za statističku analizu je rezultovao time da je veliki broj
ljudi istovremeno počeo da razvija i objavljuje R kodovve koji implementuju tehnike robustne
statistike.
Jedan od glavnih ciljeva ovog projekta je da organizuje razvoj alata u R koji bi

implementovali metode robustne statistike u mnoge modele koji se široko koriste.
Literatura
 Robust Statistics - The Approach Based on Influence Functions, Frank R. Hampel,

Elvezio M. Ronchetti, Peter J. Rousseeuw and Werner A. Stahel, Wiley, 1986
(republished in paperback, 2005)
 Robust Statistics, Peter. J. Huber, Wiley, 1981 (republished in paperback, 2004)
 Robust Regression and Outlier Detection, Peter J. Rousseeuw and Annick M. Leroy,
Wiley, 1987 (republished in paperback, 2003)
 Hettmansperger, T. P.; McKean, J. W. (1998). Robust nonparametric statistical

methods. Kendall's Library of Statistics. 5 (First ed.). London: Edward Arnold.
 Robust Statistics - Theory and Methods, Ricardo Maronna, Doug Martin and Victor
Yohai, Wiley, 2006
 Alternatives to the Median Absolute Deviation, P. J. Rousseeuw and C. Croux, C.,

Journal of the American Statistical Association, 88, 1993

Analiza Podataka - Robustna Statistika

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Analiza Podataka - Robustna Statistika

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERZITET U BEOGRADU

FAKULTET ORGANIZACIONIH NAUKA

Seminarski rad iz predmeta Analiza Podataka

Profesor Zoran Radojičić Stupljanin Maja 488/06

Beograd, oktobar 2010.

Ovo se može proučavati empirijski, proučavanjem raspodele uzorka različitih procenjivača u

Kako bi kvantifikovali robustnost metode, neophodno je definisati neke mere robustnosti.

Robustna parametarska statistikaima sklonost da se oslanja na zamenu normalne raspodele

Skraćeni procenjivači i vinzorizovani procenjivači su opšte metode za činjenje statistike robustnijom.

Postoje različite definicije "robustne statistike". Striktno govoreći, robustna statistika je

Jedan od najbitnijih slučajeva je raspodelna robustnost. Klasične statističke procedure su

Neka je aritmetička sredina obeležja X na populaciji jednaka m , a njegova varijansa ima

vrednost σ2 , tj. neka je

neki eksperiment.Posmatrajmo uzorak veličine n ,izvučen iz ove populacije, označimo elemente

Aritmetička sredina uzoraka (sredina uzorka) je statistika data funkcijom :

Statistika x̄ je linearna funkcija slučajne promenljive i koje su međusobno

promenljive jednaka je m i σ2 populacije, zato je:

Ovaj rezultat može da se iskoristi za određivanje verovatnoće pojedinih događaja, najčešće

verovatnoća razlika sredine uzorka x̄ i sredine populacije m. To je dogadjaj oblika:

|x̄−m|≤ε , ε> 0⇒ P {| x̄−m|≤ε }=2 Φ ( σε √ n)−1

raspodele. Obrnuto, za zadatu verovatnoću može se odrediti okolina sredine m.

 Za odredjivanje raspodele sredine uzorka x̄ za svaku populaciju koristi se centralna

granična teorema: ako je očekivana vrednost (sredina) populacije m, a varijansa σ 2 , tada

približno normalnu raspodelu tj. .

Uz ovu teoremu se mogu lako rešavati sledeći problemi:

 Kolika je verovatnoća da će se sredina uzorka i sredina populacije razlikovati za manje

P {| x̄−m|<ε }≈2 Φ ( σε √ n)−1

Takođe, za raspodelu očekivane vrednosti je poznato da je asimptotički normalna zbog

Ovaj problem prikrivanja se pogoršava sa povećanjem složenosti podataka. Na primer, u

Robustne metode pružaju automatske načine otkrivanja, smanjivanja(ili uklanjanja) i

Veliki broj aplikacija

realizacija , možemo koristiti da procenimo očekivanu

Što je viša prelomna tačka procenjivača, to je on robustniji. Intuitivno, razumemo da prelomna

Statistike sa visokim prelomnim tačkama ponekad se nazivaju rezistentnim(otpornim)

Primer: podaci brzine svetlosti

Empirijska funkcija uticaja

Tukey-eva dvotežinska funkcija

1. je bilo koji prostor verovatnoće,

Definicija empirijske funkcije je: Neka je i i

Šta ovo u stvari znači je da mi menjamo i-tu vrednost sa proizvoljnom vrednošću i

Neka je A konveksan podskup skupa svih ograničenih mera na . Mi želimo da procenimo

što predstavlja usmereni izvod T od F, u smeru G.

Neka . Δx je mera verovatnoće koja dodeljuje x masu 1. Izabrali smo da je G = Δx.

Ova vrednost, koja izgleda kao Lipschitz-ova konstanta,predstavlja efekat pomeranja

( Matematički kontext ove oblasti dat je u oblasti empirijske funkcije uticaja)

Istorijski gledano, nekoliko pristupa robustnim procenama je predstavljano, uključujući i R-

M - procenjivači su uopštenje procenjivača maksimalne verovatnoće(MLE). Ono što

pokušavamo da sa njima uradimo je da maksimiziramo ili, ekvivalentno,

minimiziramo . 1964, Huber je predložio uopštavanje ovoga na minimizaciju

Minimizacija može često da se uradi diferencijacijom ρ i rešavanjem

, gde (ako ρ ima izvod).

Predloženo je nekoliko opcija za ρ i ψ. Dve slike ispod predstavljaju 4 funkcije ρ i njihove ψ.

Može se pokazati da su M-procenjivači asimptotski sa normalnom raspodelom, tako da sve

Funkcija uticaja M-procenjivača

IF(x;T,F) = M − 1ψ(x,T(F)) sa dato od: .

Robustni parametarski pristupi

Za t-raspodelu sa v stepeni slobode može se prikazati da:

Za v = 1, t-raspodela je ekvivalentna Košijevoj raspodeli. Primetimo da se stepeni slobode

Za podatke brzine svetlosti, dozvoljavanjem parametru da varira i maksimizirajući

Fiksirajući ν = 4 i maksimizirajući verovatnoću dobijamo

Teorija odluke se zasniva na maksimiziranju očekivane vrednosti ili očekivane hipoteze

Robustna statistika se bavi veoma realnim problemom statističke primene: efektom

Nedostatak lakog za upotrebu i dobro dokumentovanog kompjuterskog koda takođe ne