Escolar Documentos
Profissional Documentos
Cultura Documentos
1. Infootsing
Nide: Malle soovib oma uurimists rkida oma kla inimeste mlestustest, mis seonduvad
julukommetega nende lapseplvekodus. Jukul on plaanis lhemalt uurida ilmastiku muutumist
kodukandis. Kalle tahaks teada saada, kuidas on inimesed harjunud euro kasutamisega. Sassi aga
huvitab, milliseid veebilehti tema eakaaslased kige enam klastavad ja milliseid nad kige petlikemaks
peavad.
Et oma ksimustele vastused saada, on neil kigil on vaja koguda andmeid. Aga mil viisil on mistlik ja
vimalik andmeid koguda, et uurimist tulemused oleksid usaldusvrsed?
Andmete saamiseks vib lbi viia otseseid mtmisi vi kasutada andureid (mta vib nt temperatuuri,
inimese pikkust, jooksu aega, vms), kasutada olemasolevaid allikaid (arhiivimaterjalid, inimeste
veebipostitused vi blogid, meediatekstid, fotod ja pildid, logid, vms), korraldada vaatlusi, ksitlusi vi
testimist. Seega, lhtuvalt sellest, mida me uurida tahame, vib andmetena kasutada vga erinevaid
allikaid, kuid silmas tuleb pidada, et ei mindaks vastuollu eetikaga ning et uurimist lbiviija tunneks
hsti vastavat tpi andmete analsimiseks sobivaid meetodeid.
Andmete edasise ttlemise ja analsimise seisukohast ei ole tihti mrav kas, andmed on kogutud
kirjalikult, suuliselt vi visuaalse vaatluse teel vaid hoopis see, kuivrd uurija mrab kindlaks vi jtab
avatuks selle, millisel kujul peavad kogutavad andmed olema (konkreetsed arvud, valikud etteantud
variantide hulgast, vaba tekst, jms). Uurimismeetodite kontekstis rgitakse siinkohal tihti
kvantitatiivsetest ja kvalitatiivsetest meetoditest. Kuna need mrksnad on uurimistde lbiviimise juures
vga laia thendusvljaga, viks andmete kogumisest rkides eelistada snapaarile kvantitatiivne
kvalitatiivne sisult konkreetsemaid mrksnu: struktureeritud ja struktureerimata andmekogumise viisid ja
andmed.
Loomulikult vib ette kujutada ka vahepealset varianti, kus vastajale esitatakse kas kirjalikult vi suuliselt
vastamiseks avatud st ilma vastusevariantideta, kuid kllalt konkreetseid ksimusi, millele eeldatakse
vastaja oma tlgendusest lhtuvat, kuid siiski suhteliselt lhidat vastust. Sellisel juhul viks rkida
poolstruktureeritud andmekogumise meetodist.
Tavaprased andmekogumismeetodid:
***
pshholoogilisi ja sotsiaalseid nhtusi (nt hoiakud, vrtused, hinnangud, jms) mtvad testid
***
lesanne. Meenuta koos kaaslastega, mil viisil olete ise andmeid kogunud (vi ninud kogutavat) ja
tida jrgmine tabel rhmatna.
Tihti meldakse, et kuna oleme ise vastanud paljudele ksimustikele ning erinevate ksimuste esitamine
on kigile inimestele igapevane tegevus, siis on ksimustiku koostamine vga lihtne tegevus.
Uurimistde lbiviimise juures tuleb aga tihti ette, et uurijale nii selgena nivad ksimused ei ole vastaja
jaoks hsti arusaadavad, mistttu jvad uurijal vastused saamata vi siis on saadud vastuste e andmete
kvaliteet vga madal. Silmas tuleb aga pidada, et andmete kvaliteet on kogu uuringu kvaliteedi aluseks
sellest ksi ei piisa heade ja usaldusvrsete tulemuste saamiseks, kuid kui andmete kvaliteet on kehv,
siis ei aita kski andmete analsimise meetod saada hid tulemusi! Seeprast ole ksimustiku
koostamise juures eriti hoolas, ksi petaja vi kellegi kogenuma abi ning pa jrgida alljrgnevalt
toodud juhiseid.
lesanne. Koostatud nidisksimustel 2. ja 3. pole vastusevariante vlja toodud. Kas sina toimiksid
samuti vi lisaksid nendele ksimustele vastusevariandid? Phjenda vastust.
lesanne. Jtka niteankeeti 3-5 ksimusega nii, et Liise poolt kaardistatud teemad oleksid kaetud.
lesanne. Arutlege grupis, miks kirjalikes (eriti posti teel korraldatud) ksitlustes pole tavaliselt soovitav
esitada avatud ksimusi?
lesanne. Arutle, mis on avatud ja struktureeritud ksimuste eelised ja puudused vi piirangud?
Nide. Kuna Kirsti on usin arvutikasutaja ning teab, kuivrd palju lihtsamaks vib infotehnoloogia
kasutamine muuta t tegemise ja spradega suhtlemise, otsustas ta ka andmete kogumisel kasutada
interneti vimalusi ning koostas veebiphise ksimustiku kasutades selleks programmi Google Forms.
Valmis ksimustiku aadressi edastas Kirsti oma spradele e-maili teel, postitas foorumisse ning
Facebooki. Esimesel peval laekus 23 vastust, teisel 11 ning jrgmistel pevadel vastuseid enam ei
tulnud.
lesanne: Arutle, mis visid olla phjused, et Kirsti loodetud mitmesaja vastuse asemel sai ainult pisut
le kolmekmne vastuse?
Veebiphisel andmekogumisel on omad tugevused: aja ja raha kulu suure hulga vastajateni judmiseks
ja andmete kogumiseks on minimaalsed ning uuritavad saavad valida nendele sobiva aja vastamiseks.
Siiski juhtub praktikas tihti, et veebiphiselt saadetud ksitlusele ei saada soovitud hulgal vastuseid, sest
igapevases informatsioonitulvas jb saadetud ksitlus mrkamata vi seda lihtsalt ignoreeritakse kuna
vastamise palve saanutel puudub huvi teema vastu ja seetttu ka motivatsioon oma aega panustada.
Vastajate motivatsiooni vib vhendada ka see, kui prdumine ja ksitlus on lohakalt, oskamatult vi
vigaselt vormistatud, sisaldades kirjavigu, ebakorrektset keelekasutust, ebasobivat vi vastamist segavat
kujundust, vms. Arvestada tuleb ka sellega, et kik sihtgrupid ei pruugi olla aktiivsed ja vilunud
arvutikasutajad, mistttu sellisel teel saadetud ksitlus ei jua nendeni vi jb vastamine toppama
vheste arvutikasutusoskuste tttu.
Suurema osaluse tagamiseks peaks vastajate poole prdumine olema motiveeriv ning vajadusel
informeeritakse vastajaid eelnevalt uuringu toimumisest niteks telefoni teel.
Veebiphiseid ksitluste koostamise ja lbiviimise programme on mitmeid. Alljrgnevas on vrdlevalt
kirjeldatud mnda neist. Pane thele, et osad programmid on sna piiratud vimalustega, kuid algajale
kasutajale lihtsamad, teised jlle on vga professionaalset lhenemist lubavad, aga seelbi ka
keerulisemad kasutada. Valida tuleb see, mis vastab parimal viisil sinu eesmrkidele ja oskustele.
petused lihtsamate programmide Google Formi ja Zoho kasutamiseks leiad www.tlu.ee/~kairio/akufailid
http://www.limesurvey.org/
lesanne. Too niteid teemadest ja sihtrhmadest, mille/kelle uurimisel sobiks kasutada veebiphiseid
andmekogumisvahendeid ja mille/kelle puhul mitte.
lesanne. Koosta vastajaid motiveeriv prdumine (kaaskiri) palumaks neil osaleda pt.2.2. nites
ksitletud uuringus (teemaks tegurid, mis mjutavad klassikaaslaste valikuid peale keskhariduse
omandamist).
2.4. Pisut teooriat, mida hea teada ja arvestada juba enne andmete
kogumist
Nide: Ats oli kokku kogunud suure hulga andmeid ja neid juba ka analsinud, kuid kui ta oma tulemusi
petajale nitas, tles viimane, et analsiks valitud meetodid ei ole andmetele kohased ja uuris, miks
Ats oli valinud just sellised ksimused ja valikvastused, kui ta oma ksimustikku koostas?
Ats ei osanud midagi kosta ja ksis, kas ta siis ei saagi kogutud andmeid analsida? petaja rahustas
Atsi, et mingi analsi saab ka tema kogutud andmete phjal lbi viia, kuid samas mainis, et jrgmine
kord tasub analsi vimaluste peale melda juba enne andmete kogumist ja selleks on vaja teada pisut
teooriat!
Niisiis, enne kui (jrgmine kord) otsustad, mil viisil ja milliste konkreetsete vahendite vi meetoditega oma
uurimists andmeid koguma hakata, pime selgeks neli andmeanalsi juures mdapsmatut
mrksna: objekt, tunnus, vrtus ja skaala ning rgime pisut erinevatest struktureeritud andmete
tpidest. hest kljest aitab nende mistete teadmine paremini vastavatest teemadest rkida ja aru
saada, teisest kljest aitavad laiemad teadmised andmete olemusest kaasa parema ja usaldusvrsema
analsitulemuse saamisele.
Tuletame meelde, et vastavalt sellele, mida me uurida tahame, kogume me andmeid kas inimeste,
koolide, valgete hiirte, kalendrikuude, kartulipldude vms kohta. Kiki selliseid indiviide vi ksusi,
kelle/mille kest vi kohta on me andmeid kogume, nimetatakse statistilises andmeanalsis
OBJEKTIDEKS. Andmeid koguma asudes oleme valmis melnud mingid neid objekte iseloomustavad
omadused, mis meid huvitavad, niteks: vrvus, vanus, hind, kaal, arvamus millegi suhtes, jne selliseid
omadusi nimetatakse muutujateks. Omadusi, mida saab mta nii (vi mis on juba kokku vetud nii), et
iga objekti jaoks saadakse ainult ks vastus ehk ks hik infot nimetatakse TUNNUSTEKS. Objektid ja
tunnused peavad olema valitud enne andmete kogumist ning andmete kogumise kigus pame saada
tulemuse vi vastuse iga objekti kohta kigi meid huvitavate tunnuste likes - statistika terminoloogiast
lhtudes on need VRTUSED. Nii vivad tunnuse haridus vimalikud vrtused olla niteks
algharidus, phiharidus, keskharidus ja krgharidus, aga tunnuse vanus vrtused niteks arvud
12, 27, 6, jne.
Neme, et andmed ehk vrtused vivad olla nii arvud kui snad. Kik tunnused vimalikud vrtused
kokku moodustavad SKAALA. Niteks inimese pikkust mtes vtame kasutusele harjumusprase
arvskaala, mida neme mdulindil, ksimustikku koostades peame aga tihti ksimustele
vastusevariandid vlja mtlema ehk vastavate tunnuste jaoks skaala ise konstrueerima. Vimalikest
vrtustest e skaalast, sltub, mis tpi tunnusega on tegu ja sellest omakorda, milliseid analsi
meetodeid vastava tunnuse analsimiseks saab kasutada. igeks analsimeetodi valikuks tuleb osata
teha vahet vhemalt kolmel tunnuste phitbil: NIMITUNNUSED, JRJESTUSTUNNUSED ja
INTERVALLTUNNUSED. Praktilise andmeanalsi seisukohast on intervalltunnusel olulised alamtbid,
mistttu saame alljrgneva jaotuse, kus tpe eristavateks vtmeksimusteks on see,
- kas vastuseid e vrtusi saab heselt jrjestada vi mitte?,
- kas vastustest/vrtustest moodustatud skaalal tekkivad vahemikud on vrdsed vi mitte? ning
- kas vimalikke erinevaid vastuseid e vrtusi on vhe vi palju?
Intervalltunnused paljude erinevate vrtustega (nt palk: 926 eur, 1003 eur, 1442 eur, ...)
lesanne: Vaadake alltoodud ksimusi ja kujutledes, et selliseid andmeid saaksite koguda nt saja kooli
kohta, otsustage, mis tpi tunnuse moodustavad iga ksimuse phjal saadavad andmed?
Nide: Malle soovib oma uurimists rkida oma kla inimeste mlestustest, mis seonduvad
julukommetega nende lapseplvekodus. Kalle tahaks vrrelda huvitegevuse vimalusi maa ja
linnakoolides. Sassi aga huvitab, milliseid veebilehti tema eakaaslased kige enam klastavad ja milliseid
nad kige petlikemaks peavad.
Et oma ksimustele vastused saada, on neil kigil vaja koguda andmeid. Aga kuidas otsustada, kellelt
andmeid koguda?
Kui me hoolikalt loeme nites toodud uurimist eesmrkide snastusi, siis neme, et need mravad
kll ra sihtrhma, kellelt vi mille kohta andmeid koguda, kuid ei piiritle seda vga tpselt. Niteks Malle
puhul on selleks oma kla inimesed, Kalle puhul maa ja linna koolid ning Sassi puhul tema
eakaaslased.
lesanne: Arutle, kas Malle, Kalle ja Sass suudaksid koguda andmeid kigi sihtrhma liikmete e
objektide kest/kohta?
On selge, et tegelikus elus ei ole tihti vimalik vaadelda, mta, loendada vi ksitleda kiki objekte, keda
meie esialgsed uurimiseesmrgid sihtrhmana kirjeldavad. Olukorra lahendamise ks vimalus on
piiritleda sihtrhm kitsamalt arvestades sellega, kelle kest vi milliste objektide kohta me tegelikult
suudame andmeid koguda ning teha oma jreldused ka ainult selle grupi kohta, mille kohta on meil
andmed olemas. Algajatel uurijatel, kelle on veel vhe oskusi ning napib ka ajalist ning rahalist ressurssi
uurimist lbiviimiseks, on tihti mistlik just selline tagasihoidlik strateegia valida.
Tsisemate uuringute eesmrgiks on aga tihti ka ldistuste tegemine st mingi laiema objektide hulga
kirjeldamine, mille kiki objekte ei ole uuringu kigus reaalselt vimalik (ega ka mttekas) vaadelda.
Niteks pshholoog, kes uurib valgete hiirte ppimisvimet, loodab, et saavutatud tulemused ning seega
ka jreldused kehtivad kigi valgete hiirte puhul - mitte ainult praegu olemasolevate, vaid ka veel
sndimata hiirte puhul ning ta vib isegi loota, et tema tulemusi vib sedavrd ldistada, et need selgitaks
inimese ppimist.
ldistavate jrelduste aluseks vib olla teoreetiline teadmine objektide sarnasuses kohta, uuritud
objektide tpilisus vi statistiline tenosus. Viimasel juhul rgitakse andmete kogumisel valimist, mille
phjal saab teha jreldusi ldkogumi kohta.
LDKOGUMI (ehk populatsiooni) all meldakse kiki juhtumeid vi situatsioone, mille kohta uurijad
soovivad, et nende poolt saadud jreldused vi prognoosid kehtiksid.
Niteks vivad erinevate valdkondade esindajad tahta uurida (kigi) Tallinna koolilaste pimotivatsiooni;
ra arvata erinevatel eksamitel lbipsevate pilaste (ld)arvu; ennustada viljasaaki (kigil) uue
vetisega vetatavatel pldudel; jne. ldkogumist uurimiseks valitud (suhteliselt vikest) objektide gruppi
nimetatakse VALIMIKS.
lesanne. Too nide olukorrast, kus kogu ldkogumi uurimine ei ole praktiliselt vimalik.
lesanne. Too nide ldkogumist, mille kiki objekte oleks vimalik uurida, kuid see oleks vga
ressursikulukas.
Selleks, et valimi phjal ldkogumi kohta statistiliste meetodite abil ldistatud jreldusi teha, tuleb
valimi liikmed valida JUHUSLIKULT. Juhuslikult ei ole antud kontekstis sugugi mitte snonm
suvalisele; juhuslikkus statistikas thendab, et igal ldkogumi liikmel peab olema vrdne vimalus
valimisse valitud saada.
lesanne. Millist tpi valimi soovitaksid sina Jussil moodustada, et see oleks juhuslik ning annaks
levaate kikide kooli pilaste arvamusest.
lesanne. Sstemaatilist valimit saab koostada ka nimekirja olemasolu korral. Too nide.
lesanne. Arutle oma pinginaabriga, millisel viisil viks moodustada valimi Eesti avaliku arvamuse
ksitluste lbiviimisel.
lesanne. Kui reeglina kaasatakse Eestis avaliku arvamuse ksitlustesse umbes 1000 inimest, siis kui
suur on tenosus, et sina satud juhuvaliku tulemusena valimisse?
lesanne: Arutle, kas sellisel viisil lbiviidud anals on mistlik? Kui Malle ind poleks raugenud, kas ja
kuivrd oleksid tema analsi tulemused olnud piiratud? Kuidas andmete analsimise juures tmahtu
vhendada ja analsitulemuste usaldusvrsust tsta?
Enne arvulisel vi struktureeritud kujul olevate andmete analsima asumist on mistlik andmed
sisestada andmetabelisse kasutades selleks mnd ruudulise tlehega arvutiprogrammi (nt MS Excel,
OpenOffice.org Calc, Statistica, SPSS, jne) ning kasutada hiljem andmete analsimisel arvuti abi.
Viimane pstab meid korduvast ja aeganudvast andmete loendamisest ning vimaldab kiiresti ja
mugavalt kasutada samu andmeid uute sisuliste analsiksimuste vastamiseks.
Algandmetest andmetabelit koostades tuleb eelkige meeles pidada, et ige andmetabel peab olema
askeetlik st hsti lihtsa ja alati samasuguse phistruktuuriga: iga objekt saab endale tabelis he rea, iga
tunnus omale he veeru ning iga vrtus he lahtri.
Toon kaks nidet andmetabelitest, mis on mlemad korrektse lesehitusega, kuigi esimese puhul on tegu
koolipilaste ning teisel puhul professionaalide poolt koostatud tabeliga.
Mugava ja paindliku analsi tagamiseks tuleb andmetabeli koostamisel arvestada veel mitmete
reeglitega, millest olulisemad on jrgmised:
Igale tunnusele/veerule antakse nimi, mis peab olema unikaalne st teistest erinev ning suhteliselt
lhike, sest pikkade nimede puhul vtab igete tunnuste otsimine analsi kigus vga palju aega; ei
kasutata mitut veergu hendavaid pealkirju jms!
Igas lahtris tohib olla ainult ks vrtus e ks hik infot st mitut vastust hte lahtrisse sisestada ei tohi!
Seega, kui he ankeedi ksimuse puhul on vastajal lubatud valida mitu vastusevarianti, annab iga
variant andmetabelis eraldi tunnuse/veeru.
hes veerus tohivad olla ainult ht tpi andmed st kui on otsustatud tunnuse snaliste vrtuste
asemel kasutada arvulisi koode, siis arvude vahele muid smboleid ei sisestata; puuduva
vastuse/vrtuse jaoks meldakse vlja sobiv arvuline kood vi jetakse vastav lahter lihtsalt thjaks.
lesanne. Lisaks uurimuse teemaga seonduvatele ksimustele kogutakse vastajate kohta selleks, et
vrrelda tulemusi niteks soo, vanuse, hariduse, elukoha vi mnede muude huvipakkuvate tunnuste
likes, ka vastavaid sotsiaal-demograafilisi andmeid.
Koosta ksimustiku alltoodud taustatunnuste osa kohta andmetabel ja sisesta sinna enda kohta kivad
andmed.
Andmete sisestamisel andmetabelisse peab olema vga hoolikas, et vltida sisestusvigu, sest tihti pole
hiljem vimalik neid vigu leida. Samas peaks enne andmete sisulist analsi siiski veenduma, et andmete
sisestamisel pole tekkinud tpilisi ja kergesti tuvastatavaid npuvigu. Niteks on tpilised vead sellised,
kus arvude sisestamisel on koma jnud panemata vi on see sattunud valesse kohta; kodeeritud
andmete puhul on koodi 2 asemel sisestatud 22 vi koodi 5 asemel 55; tekstina sisestatavate
andmete puhul on sama vrtuse jaoks kasutatud erinevaid snu (nt Harjumaa ja Harju maakond) vi
on tekkinud kirjaviga (nt Tallinn asemel on sisestatud Talliin); vms.
Selliste vigade leidmiseks vib kasutada erinevaid tarkvara vimalusi, kuid Exceli puhul on ks vga
nutikas lahendus kasutada filtreerimist. Valides Data/Sort&Filter/Filter lisatakse kigi tunnuste/veergude
pisele valikunupp, millel klpsides kuvatakse rippmens kik veerust leitud erinevad vrtused. Kui
nende hulgas on selliseid, mis antud tunnuse puhul pole lubatud, siis saab need sama filtreerimise
vimalust kasutades les leida ning vastavalt parandada (vajadusel tuleb ige vrtuse teadasaamiseks
otsida les vastava objekti mtmistulemuste leht vi ksimustik!).
Teeme parandused ning eemaldame filtris mratud tingimuse (Clear Filter form Regioon)
Snalise tunnuse korral saame kasutada teksti filtreid (Text Filters), mis
pakuvad laiemaid vimalusi andmete filtreerimisel. Niteks saab mrata,
kas mingi fraas sisaldub (vi ei sisaldu) filtreeritavates kirjetes. Samuti saab
mrata, millise thega/fraasiga algavad vi lpevad filtreeritavad kirjed.
lesanne. Vaata tunnuse Tegevus sisestatud vrtusi. Arutle, milliseid vrtuseid viks koondada
heks vrtuseks ja vii see koodamine lbi?
lesanne. Paranda andmestikus esinevad sisestusvead (Leibkonna suuruseks on sisestatud 50, peaks
olema 5; kooliskidud aastate arvu 80 asemel peaks olema 8). Leia lisaks veel hes tunnuses esinev
sisestusviga.
Eeldame nd, et oleme andmete kogumise, sisestamise ja korrastamise etapid lbinud ja saame
alustada andmete analsimist. Kuidas aga otsustada, millist meetodit oma andmete analsimiseks
kasutama peaksid?
Anals algab ksimuse snastamisest andmete kohta nt. Kui suur osa ksitlusele vastanutest
omavad Facebooki kontot?, Kuidas jagunevad spordipeval saadud jooksutulemused?, Kas ja kui
palju hommikul ja htul mdetud hutemperatuurid erinevad?, Kas kitumise hinne on seotud hindega
klassijuhataja poolt petatud aines?, jne. Pane thele, et need andmete analsi suunavad ksimused
erinevad nii uurimisksimustest, mis suunavad uurimistd tervikuna, kui ka ksimustikus vastajatele
esitatud ksimustest!
Sammud andmete analsi lbiviimisel
Snastan konkreetse andmetest lhtuva ksimuse, millele tahan vastust saada
Valin pstitatud ksimusest lhtudes kasutadaolevate andmete jaoks sobiva analsimeetodi
Tulemuste esitlemiseks valin andmete olemust ja tulemuste sisu parimal viisil vlja toova ning
sihtrhmale arusaadava ja esitluse kohale sobiva esitlusviisi ning visuaalse kujunduse.
Analsi tuleks alustada lihtsamate hte tunnust korraga puudutavate ksimustega, mis annavad
andmetest esialgse ldise levaate. Peale esialgsete kokkuvtete ja levaadete tegemist andmetest on
vimalik asuda uurima ka erinevusi ja seoseid.
Nide. 10. klasside pilaste seas viidi lbi uuring internetikasutuse kohta. Muuhulgas ksiti ka seda, kui
sageli pilased klastavad Facebooki portaali, kusjuures vastamiseks anti ette viis vastusevarianti.
Esmased analsi eeldavad ksimused viks olla nt. sellised:
Kui suur osa pilasi kasutab Facebooki iga pev?,
Kas ja kui palju leidub neid pilasi, kes Facebooki ldse ei kasuta?
Mis on kige tpilisem kasutussagedus ehk millise vastusevariantidest on valinud kige suurem osa
pilastest?.
Vastuse saamiseks seda tpi ksimustele tuleb loendamise teel leida erinevate vastutusevariantide e.
vrtuste esinemissagedused. Arvuti abil vastavat analsi lbi viies tuleb tunda nii tavapraste
statistiliste meetodite nimesid, kui ka kasutada oleva tarkvara vimalusi. Edaspidises on toodud nited
Eesti koolides kige laiemalt kttesaadava andmeanalsi vimaldava tarkvara MS Excel baasil.
3.2.1. Sagedustabel
Isegi kui esmane ksimus eeldab ainult he vastusevariandi e vrtuse esinemissageduse leidmist,
koostatakse arvuti abil analsi lbi viies mugavuse ja analsi kompaktsuse tttu reeglina vastava
tunnuse kiki vrtusi kokkuvttev sagedustabel, mis viks antud nite puhul vlja nha selline:
Tabelis 1. on lisaks sagedustele (vastajate arv) vlja toodud ka iga vrtuse esinemise osakaal
protsentides, mis lihtsustab andmetest levaate saamist.
lesanne. Anna levaade andmestiku pilased.xls tunnuse Kuidas oled ppinud arvutit kasutama?
vrtustest. Kujunda tabelit ning otsusta, kas antud tunnuse vrtuseid oleks korrektne suuruse
jrjekorda paigutada vi mitte.
lesanne. Pstita andmestiku pilased.xls kohta 2 esmast andmeanalsi ksimust. Koosta pstitatud
ksimuste kohta sagedustabelid ning kirjuta nendele jreldused.
JTA
Sagedustabel loendab tunnuse vrtuste esinemissagedused. Tunnuse vrtuste jaotumisest
levaatlikuma pildi saamiseks lisatakse tabelisse ka protsendid.
MEELDE
Kui tunnuse vrtustel on sisuline jrjestus, siis tabeli ridu sageduste jrgi ei jrjestata.
Nide: Maril on analsi tulemusena koostatud sagedustabel, kuid ta on kuulnud, et analsi tulemusi
peaks esitama alati diagrammina. Mari khkleb, sest ta on ka tabelina esitatud tulemusi ninud ja ei oska
seetttu otsustada, mil moel oma analsi tulemust teistele siis esitlema peaks.
lesanne: Mtle ja arutle, millal viks oma tulemusi esitleda tabelina ning millal diagrammina ning kas on
veel mni esitlemise vimalus?
Tulemuste esitlusviisi valik sltub mitmetest teguritest: nt, kas tulemusi esitatakse paberil vi suulises
ettekandes, kes on sihtrhm ja mis on nende eeldatavad teadmised uurimuse teemavaldkonnas ning
statistiliste meetodite alal, jms, kuid esmathtis on, et esitlusviis toetaks parimal viisil tulemuste sisust
kiiret ja iget arusaamist ning oleks kompaktne.
Nide: Tulemus, mida Mari tahtis oma ts esitada, ngi Google Formi poolt koostatud kokkuvttena
vlja nii:
Kuna nagu tulemustest selgub, klastavad kik 20 ksitlusele vastanut eKooli igapevaselt ei ole antud
juhul otstarbekas tulemuste esitamiseks kasutada ei tabelit ega ka diagrammi, sest lihtne lause aitab
kogu tulemuse kenasti ja arusaadavalt edasi anda.
lesanne: 2008.a. TNS Emori lbiviidud heategevusliku kitumise uuringu tulemuste esitamiseks on all
toodud kaks vimalust (A sektordiagramm ja B tekst). Kaalu mlema variandi tugevusi ja nrkuseid ning
otsusta, milline nendest on parem viis andmete esitamiseks suulises ettekandes ja uurimist kirjalikus
raportis.
A. SEKTORDIAGRAMM B. TEKST
2008.a. heategevuses osalenud isikute osakaal 2008.a. TNS Emori lbiviidud uuringus
heategevuslikust kitumisest selgus,
et 87% vastajatest on viimase aasta
jooksul heategevusega hel vi teisel
ei ole heategevuses osalenud; 13%
moel kokku puutunud.
Tulemusi kirjalikult uurimist raportis esitledes tuleb arvestada, et igale lisatud tabelile, diagrammile ja
joonisele tuleb tekstiosas viidata ning tabelis vi diagrammil olev sisu seletatakse tekstiosas lahti.
Lahtiseletuseks ei sobi tabelis vi diagrammil oleva arvulise info ks-hene leskirjutamine tekstina.
Niteks EI SOBI eelmise punkti Tabelis 1. Toodud tulemuste lahtiseletamiseks jrgmine tekst:
47 pilast ei kasuta Facebooki portaali ldse, 184 pilast kasutab kllaltki regulaarselt, kuid mitte iga pev.
84 pilast kasutab portaali mitu korda pevas, 101 kasutab tavaliselt kord pevas ja 224 pilast kasutab
Facebooki sna harva.
Tabelis vi diagrammil olevate arvuliste tulemuste lahtiseletamisel uurimust tekstis tuleks vlja tuua
ldised tendentsid (nt. le poolte vastanutest kasutavad portaali mitu korda pevas vi ligikaudu 85%
vastanutest kasutab portaali vhemalt ks kord pevas) ning see, mis on t sisulises kontekstis antud
tulemi korral oluline ja mida tahetakse esile tsta.
lesanne. Ksi oma klassi pilastelt, kui sageli nemad Facebooki portaali klastavad. Soovi korral
kasuta nites toodud skaalat. Koosta vastustest sagedustabel. Kirjuta tekst, mis sobib saadud
sagedustabeli lahtiseletuseks.
lesanne. Siim viis lbi uuringu, milles osales 48 poissi ja 72 trdukut. Antud tulemuste esitamiseks
koostas Siim jrgmise sagedustabeli.
Arv %
Poiss 48 40%
Tdruk 72 60%
KOKK 120 100%
U
Phjenda, kas Siim peaks vi ei peaks koostatud sagedustabelit oma ts uuringu tulemuste esitamiseks
kasutama.
lesanne. Too niteid tunnustest, mille tulemuste esitamiseks on sobivaim viis kasutada ainult teksti.
lesanne. Too niteid tunnustest, mille puhul tulemuste esitamiseks tuleks tekstile lisaks esitada ka tabel
vi diagramm.
Nide. Moonika viis oma klassis lbi lhiuuringu sellest, kui paljud tema klassikaaslased on kokku
puutunud heategevusega. Kokku osales uuringus 26 pilast.
Tulemuste esitamisel kaalus Moonika kahe variandi vahel, kas esitada tulemused sagedustena (A) vi
protsentuaalselt (B).
A. Kokku vastas 26 pilast, kellest 8 on hea- B. Kokku vastas 26 pilast, kellest 31% on hea-
tegevusega kokku puutunud. tegevusega kokku puutunud.
Vikeste valimite korral on mistlik tulemused esitada sagedustena. Protsentide kasutamine vib
lugejatele edastada kallutatud pildi andmetest e tekitada ettekujutuse nagu oleks uuritud isikute hulgas
tegelikust rohkem vastajaid. Niteks esitades uuringu tulemusi sellisel kujul: uuringus osales 17 inimest,
kellest 23,5% olid teinud rahalisi annetusi eelmise aasta jooksul, on 23,5% taga tegelikult vaid 4 inimest.
Seega, korrektsem viis tulemuste esitamiseks oleks jrgmine: uuringus osales 17 inimest, kellest 4 olid
teinud rahalisi annetusi eelmise aasta jooksul. Soovi korral vib levaatlikkuse tstmiseks sagedusele
sulgudes lisada osakaalu: uuringus osales 17 inimest, kellest 4 (23%) olid teinud rahalisi annetusi
eelmise aasta jooksul.
Suurte valimite korral (kui vastajaid on rohkem kui 100), vib tulemuste esitamisel kasutada ka ainult
protsente. Niteks: Uuringus osales 350 pilast, kellest 12% olid annetanud oma mnguasjad
heategevuslikuks otstarbeks.
JTA
he vi kahe arvulise nitaja esitamiseks kasuta teksti, mitte tabelit ega diagrammi.
Kui vastajaid on alla saja, kasuta tulemuste esitamisel sagedusi. Kui vastajaid on le saja, kasuta
protsente.
MEELDE
Ksitluste lbiviimise tarkvara poolt koostatud analsi suhtu ettevaatlikkusega ning mtle lbi, kas
3.2.2. Tulpdiagramm
Nide: TNS Emori andmetel vaatasid Eesti elanikud novembris 2011 televiisorit
0 tundi
keskmiselt 4 tundi pevas. Meie kasutuses olevas andmestikus pilased.xlsx on alla 1 tunni
olemas tunnus Aeg teleri vi video vaatamiseks pevas, mille vrtused on kogutud 1-2 tundi
3-4 tundi
krvaltoodud skaalal.
le 5 tunni
Vastuste jagunemise kirjeldamiseks saame koostada sagedustabeli, kuid kuna tunnusel on vimalikke
vrtusi rohekm kui paar tkki (kokku 5), siis vime tulemuste esitamiseks kaaluda ka diagrammi
koostamist.
Tulpdiagrammi koostamnine
Tulpdiagrammi koostamiseks MS Exceli abil kasutame eelnevalt koostatud
sagedustabelit.
Mrgistame kokkuvetud andmed ning valime Insert/Charts/Column
Tulpdiagrammi kujundamine
Tulba krguse tpseks kirjeldamiseks on vimalik lisada tulpadele tulba tpset krgust vljendavad
sildid. Selleks mrgista tulbad ning vali: Layout/Labels/Data Labels
Lisatud andmesiltide kujundamiseks mrgista sildid ning vali: Layout/Labels/More Data Label Options
Andmesiltide lisamisel tuleb lhtuda sellest, et joonisel olevad numbrid ja jooned ei kattuks/likuks
vaid oleksid selgelt loetavad. Vajadusel lohista lisatud sildid ise sobivasse kohta vi eemalda jooniselt
abijooned.
Tulpdiagrammile pealkirja lisamiseks vali: Layout/Labels/Chart Title/Above Chart
Tulpade muutmiseks mrgista tulbad ning vali: Format/Shape Styles
Kui loodud tulpdiagramm kirjeldab vaid he tunnuse vrtuseid, ei ole tulpade krvale kuvatavat
legendi vaja. Selle asemel on mistlik lisada selgitus (pilaste arv) y-teljele.
Y-teljele selgituse lisamiseks vali: Layout/Labels/Axis Titles/Primary Vertical Axis Title/Rotated Title
Joonis 1. Tulpdiagramm
lesanne: Arutle, kas antud tulemustest saab kiirema ja parema levaate sagedustabelist vi
tulpdiagrammilt ning phjenda, millise valiku teeksid sina antud tulemuste esitlemiseks?
Nide 2. Martin koostas eesti keele tunni raames uuringu kaaspilaste lugemisharjumustest ning ksis
muuhulgas ka seda, mis liiki oli tema kooli 10.klasside pilaste viimati loetud raamat.
Tulemused koondas Martin jrgnevasse tabelisse:
Mis liiki raamatut viimati lugesid? pilaste arv
Kriminaalromaanid, pnevus 26
Teatmeteosed 26
Ajaloolised ja eluloolised romaanid 24
Matka- ja reisiraamatud 27
KOKKU 103
lesanne. Sisesta sagedustabelis toodud andmed Exceli tlehele ja koosta nende phjal tulpdiagramm.
Vaata vaikimisi loodavat diagrammi (toodud all) ja too vlja puudused diagrammi kujunduses, mida oleks
vaja parema levaate saamiseks umber kujundada
Kui tulpasid kirjedavad tekstid on pikad, siis paigutub tekst tavaliselt automaatselt nii, et seda on
ebamugav lugeda (kaldu, ksteise alla vms.). Parema loetavuse saavutamiseks tuleks tulpdiagrammi
teljed ra vahetada. Selleks mrgista tulpdiagramm ning vali: Design/Change Chart Type/Bar
3.2.3. Sektordiagramm
Nide. Anna luges looduspetuse pikust lauset Kige suurem maailmajagu maailmas on Aasia, mis
moodustab kogu maismaa pinnast 30% ja tal tekkis tahmine saada kompaktset levaadet kui suure osa
maismaast hlmavad teised maailmajaod.
Terviku jaotumist osadeks kirjeldatakse tihti sektordiagrammi abil, milles kik kategoorid kokku
moodustavad 100% ning mis toob selgelt vlja iga kategooria osa tervikust.
Nide: Vastajatel paluti hinnata vitega pilased kituvad tunnis paremini, kui seal arvuteid kasutada
nusolekut 4-palli skaalal. Vastuste jagunemise illustreerimiseks vime kasutada sektordiagrammi.
Sektordiagrammi koostamiseks:
Koonda tunnuse vrtused sagedustabelisse (Pivot Table) ja vajadusel sorteeri
tabeli read sobivasse jrjekorda
Mrgista kokkuvetud andmed
Vali Insert/Pie
Sektordiagrammi kujundamine
lesanne. Mtle ja arutle, kas alljrgnevad sektordiagrammid esitlevad vastvaid andmeid parimal
vimalikul viisil?
Jta meelde:
- ra kasuta kujundusviisi, kus kik sektorid on ksteisest eraldatud, sest see vhendab diagrammi
levaatlikkust! Sektori vljatstmist kasutatakse siis, kui ks sektoritest on tulemuste kontekstis
teistest olulisem vi kesksem ning seda soovitakse seeprast rhutada ning esile tsta. Reeglina
ei tsteta vlja kige suuremat sektorit.
- Soovituslikult viks hel sektordiagrammil olla 3-9 sektorit. Liiga paljude sektorite esitamine hel
diagrammil vhendab levaatlikkust. Vajadusel henda viksemad sektorid hiseks sektoriks
Muu, mis paigutatakse diagrammil viimaseks.
- Kolmemtmelisus loob olukorra, kus eespool asetsevad sektorid tunduvad visuaalselt suuremad
kui tagumised, mistttu on mistlik seda kujundusviisi vltida.
Nide: Liina de Mari on otsustanud paar kilo alla vtta, sest kik tema sbrad
Pilt
langetavat kaalu. Liinal tekib seepeal huvi teada saada, kuivrd populaarne on kaalu tdruku
langetamine koolipilaste seas? Ta otsustab koolis lbi viia vikese uuringu, mille st
raames ta ksib pilaste kaalu, pikkust, rahuolu oma kehakaaluga ning seda, kas
pilased toituvad tervislikult ning mitu korda ndalas nad treeninguga tegelevad.
Lisaks eelnevas lesandes vlja toodud jrjestus- ja nimiskaalat kasutavatele tunnustele, sisaldas Liina
ksimustik ka arvskaalal mdetavaid tunnuseid: pikkus, kaal ja treeninguga tegelemise sagedus
ndalas. Lisaks arvutas Liina vlja iga pilase kehamassiindeksi (KMI) ja tahtis selle phjal saada
levaadet, kui suur osa pilastest on lekaalulised, kui suur osa normkaalus ning kui suur osa on
alakaalus. Ta kasutas saadud andmete analsimiseks tuttavat tulpdiagrammi ja sai alljrgneva
tulemuse:
Tulpdiagramm
4
3
2
Vastajate arv 1
0
lesanne. Kas antud analsi tulemus aitab pstitatud ksimusele kiiresti ja selgesti vastuse saada?
Phjenda vastust!
Kuna tunnuse KMI vrtused on komakohtadega arvud, siis on sisuliselt iga pilase KMI pisut erinev kigi
teiste pilaste KMI-st. Kui sellise paljude erinevate vrtustega arvtunnuse kohta koostada tavaline
tulpdiagramm, siis tulemus on tiesti ebalevaatlik, sest tulpadena kantakse diagrammile
arvutiprogrammide poolt tunnuse kik erinevad vrtused hekaupa. laltoodud diagrammilt on nha, et
suurem osa KMI-test esineb ks kord (enamus tulpasid on krgusega 1) ning on vaid mned vrtused,
mis korduvad 2 vi 3 korda. Seega, tulpdiagramm ei anna levaatlikku pilti seda laadi andmete jaotusest
ning selle kasutamine antud olukorras ei ole asjakohane. Jrelikult tuleb leida mni teine andmete
analsimise meetod, mis paremini sobiks.
3.2.4. Histogramm
lesanne. Kas alltoodud analsi tulemus aitab pstitatud ksimusele kiiremini ja paremini selge vastuse
saada kui laltoodud joonisel olnud tulpdiagramm? Phjenda vastust!
Mille poolest erinevad need kaks diagrammi?
Histogrammis on koondatud KMI vrtused vahemikesse ning iga tulp nitab konkreetsesse vahemikku
kuuluvate vastajate arvu.
Kuna antud histogrammi vahemikud on valitud nii, et nende otspunktid lhevad kokku arstide poolt
mratud ala- ja lekaalulisuse piiridega, siis nitab histogramm, et alakaalulisi e. neid, kelle KMI on alla
19 punkti on pilaste seas
rohkem (11 pilast) kui
lekaalulisi (8 pilast).
Joonis 2. Histogramm
pilaste KMI vrtustest
Histogramm on
tulpdiagrammi spetsiifiline
alamliik, kus telgede
thendused on alati
heselt mratud.
Histogramm sobib ainult arvtunnuste kirjeldamiseks, kuna sellel teljel, millele tulbad toetuvad, on alati arv-
vrtustest moodustatud vahemikud. Kuna seal, kus lppeb eelmine vahemik, algab kohe jrgmine, siis
on histogrammil sisuliselt sobilik tulbad asetada vahetult ksteise krvale. Tulpade krgus histogrammil
kirjeldab alati antud vahemiku sagedust e seda, mitu tulemust (vi kui suur osa tulemustest) antud
vahemikku ji.
lesanne. Nimeta, millised nites 1. toodud tunnustest on veel arvtunnused, millel on palju erinevaid
vrtuseid.
lesanne. Mille poolest erinevad tulpdiagramm ja histogramm? Too vlja nii sisulised kui ka visuaalsed
erinevused.
Kui vahemike otspunkte ei sisestata, moodustab Excel vahemikud ise, mis annab kll kiire levaate
andmete jagunemisest, kuid ei ole sisuliselt sobivaim lahendus.
Histogrammi loomiseks kasutame
lisavahendit Data/Data Analysis.
Data Analysis sisaldab, lisaks
histogrammile, mitmeid erinevaid
andmeanalsi vahendeid, millega
tutvume jrgmistes tundides.
Histogrammi loomise aknas tuleb mrata piirkond (Input Range), kus asuvad vrtused, millest
histogrammi koostama hakatakse. Meie
nites on selleks tunnuseks KMI.
Histogramm
30
20
10
Frequency 0
Bin
Eelnevalt arutlesime, et histogrammil on ige paigutada tulbad vahetult ksteise krvale, sest seal, kus
lppeb eelmine vahemik, algab kohe
jrgmine. Selleks vali tulbad, tee
paremklikk tulpade peal ning vali
Format Data Series/Gap Width/No
Gap
lesanne. Arutle ja phjenda, kas tunnuse dede-vendade arv vrtuste jaotusest levaate saamiseks
sobib paremini tulpdiagramm vi histogramm?
lesanne. Koosta andmestiku treening.xlsx tunnuse kaal kohta histogramm ning kujunda saadud
tulemit.
lesanne. Leia andmestikust pilased.xlsx tunnus, mille vrtuseid oleks sobilik esitada histogrammi abil.
Koosta histogramm, kujunda saadud tulemit ning kirjuta sellele uurimuse tekstis toodav lahtiseletus.
JTA
Selleks, et arvtunnuste analsimiseks sobivaid meetodeid valida, tuleb teha vahet, kas tegemist on
vheste erinevate vrtustega arvtunnusega vi paljude erinevate vrtustega arvtunnusega. Kui
arvtunnusel on vhe erinevaid vrtusi, siis saab kasutada nii tavalist sagedustabelit kui
MEELDE
tulpdiagrammi, sest ksikute arv-vrtuste phjal tekkivaid gruppe on vhe ja nad mahuvad kenasti
lesanne 2. Mtle, mis tpi on tunnused kaal ja treeningu sagedus. Lisa omalt poolt kaks nidet
erinevat tpi arvtunnuste kohta.
Nide: Pt.3.2 toodud nites judsime tulemuseni , et 54,2% ksitlusele vastanutest klastab Facebooki
portaali mitu korda pevas.
Aga kui me sooviksime teha jreldusi mitte ainult vastanute vaid ka kogu ldkogumi kohta. Seega
tahaksime nd andmete phjal teada:
Kui suur osa Eesti pilastest (e tema uuringu ldkogumist) klastab Facebooki lehte mitu korda pevas?
Mtle veel! Kui me oleme uurinud vaid vikest
lesanne. Tta jrgnev skeem iseseisvalt lbi.
osa ldkogumist, kas on loogiline eeldada, et
meie valimi tulemus on tpselt sama, mis
Kui 54,2% valimist klastab Facebooki lehte mitu saaksime ldkogumis kui me teaksime kigi
korda pevas, kas me saame sellest jreldada, JA
ldkogumi objektide kohta vastavaid andmeid?
et ka tpselt 54,2% ldkogumist klastab
Facebooki lehte mitu korda pevas?
ige! Selle, et valimi ja ldkogumi protsendid
EI tulevad kllaltki sarnased tagab see, et meil on
ige! Valimi ja ldkogumi protsendid ei pruugi juhuvalim, mis esindab ldkogumit sna hsti.
JA Aga kui sarnased need valimi ja ldkogumi
olla vrdsed, kuid kas need vivad olla kllaltki
sarnased? protsendid siis ikkagi on?
EI
Matemaatiliste valemitega on seda vimalik
Mtle veel. Juhuvalimi koostamisega tagati, et vga tpselt vlja arvutada.
see esindaks vimalikult hsti ldkogumit. Valimi phjal arvutatud arvkarakteristikud
Vikese tenosusega on vimalik erandlik (antud juhul grupi osakaal) on vastavate
olukord, et valimi tulemus on vga erinev ldkogumi parameetrite hindamise aluseks,
ldkogumi omast, kuid eeldusel, et valimi kuid valimilt ldkogumile jrelduste
objektid on valitud juhuslikult, tulevad reeglina tegemisel tuleb alati arvestada juhusliku
valimi tulemused kllaltki sarnased ldkogumi veaga, mida arvestades saame ldkogumi
vastavatele nitajatele. parameetri kohta VAHEMIKHINNANGU
Kas statistilise jreldamise tpsus sltub meie See on tepoolest nii. Mida suurem on valim,
JA
ksutuses oleva valimi suurusest? seda tpsem on meie hinnang ldkogumile.
Lisaks valimi suurusele on veel teisigi tegureid,
Praktikas vib muidugi tulla ette ka olukord, kus mis mjutavad hinnangute tpsust, kuid philine
uurijat huvitav sihtrhm on suhteliselt vike (vi ja htlasi meie poolt mjutatav on just valimi
uurimiseks eraldatud ressursid vga suured) ning suurus.
ta suudab vajalikud andmed koguda (praktiliselt) Seega, suurendades valimit saame suurendada
kigi ldkogumi liikmete kohta. Sel juhul oma ldistavate jrelduste tpsust.
rgitakse kiksest uuringust vi Kui tpseks me saame oma jreldustes minna?
juhtumianalsist, ning eeldades, et Kas me vime ldkogumi kohta vita midagi
andmekogumise meetodid on olnud sellised, JA 100% tenosusega?
mille puhul mtmisinstrumendist tingitud
juhusliku vea arvestamine ei ole thtis, vib EI
vajalike jrelduste tegemiseks piirduda
olemasolevaid andmeid kokkuvtvate Suurendades valimit saame suurendada oma
meetoditega. jrelduse tpsust, kuid me ei saa kunagi elda,
et ldkogumi parameeter on 100%-lise
kindlusega vrdne he konkreetse arvnitajaga.
Statistiline jreldamine on alati seotud statistilise
(Vlja arvatud juhul, kui me mdame kiki
e juhusliku veaga. Kas seda viga on vimalik ra
ldkogumi objekte.)
hoida vi krvaldada?
Parim, mis me teha saame, on vita, et
alamgrupi osakaal ldkogumis vi mistahes teine
Vimalikku juhuslikku viga statistilise jreldamise ldkogumi arvkarakteristik (nt ldkogumi
kigus ei suuda krvaldada kski valem ega keskvrtus) asub he vi teise tenosusega
statistiline meetod. Kll aga vimaldavad hes vi teises vrtuste vahemikus.
viimased meil seda viga hinnata - mta.
JTA
Valimilt ldkogumile jrelduste tegemise e ldistamise kigus tekkida viva juhusliku vea arvutamisel
tuleb lhtuda vastavatest valemitest, mis on vlja ttatud kigi philiste arvnitajate jaoks (s.h
MEELDE
Nide. Hindame pt.3.2 nites toodud andmete phjal, mitu protsenti ldkogumi liikmetest klastab
Facebooki lehte mitu korda pevas.
p=54,22% (vastava vrtuse osakaal valimis) Kui suur osa ldkogumi liikmetest klastab
N=640 (valimi suurus) Facebooki lehte mitu korda pevas?
Lahendus.
Rakendame reeglit:
95% tenosusega asub ldkogumi parameeter vahemikus: valimi arvnitaja vrtus 2 st.viga
St.viga%=
p(100 p)
N
54,22(10054,22)
640
=
2482,19
640
=1,97
Arvutuste phjal saame jreldada, et nende pilaste osakaal kigi Eesti pilaste seas (e ldkogumis), kes
klastavad Facebooki lehte mitu korda pevas, jb 95% tenosusega vahemikku 50,3% ... 58,2%
lesanne. Leia kui suur osa Eesti pilastest ei klasta Facebooki lehte ldse. Snasta jreldus ja selgita
tulemust oma snadega.
lesanne. Kui kikidest Eesti koolidest valitud juhuvalimi uurimisel saadi teada, et likooli soovib edasi
ppima minna 46%. Millise hinnangu saab selle phjal anda ldkogumi vastavale osakaalule kui uuritud
valimi suurus oli 1500 pilast?
lesanne. 2006.a. lbiviidud uuringus Lapsed ja internet selgus, et uuritud 6-14.aastastest lastest on
interneti jututoas vi suhtlusprogrammis kontakti loonud vrastega kohtumas kinud 6% vastanutest.
Hinnake, kui suur osa Eesti 6.-14.aastastest lastest oli 2006.aasta seisuga vrastega kohtumas kinud,
kui on teada, et valimisse kuulus 145 pilast ja 2006.a. seisuga oli Eestis 122 985 6.-14.aastast last.
Mis on kige madalam ja kige Mis on mtmiste keskmine Kui sarnased vi erinevad on
krgem saadud tulemus? tase? saadud tulemused?
Kigile nendele ksimustele vastuse saamiseks on vlja ttatud matemaatilised algoritmid vi valemid,
mis olemasolevaid andmeid hel vi teisel viisil kokku vttes annavad tulemuseks andmete teatud
aspekti kirjeldava arvulise tulemuse. Viimaseid nimetatakse andmeanalsi kontekstis
ARVNITAJATEKS (vahel ka statistikuteks).
Suurem osa arvnitajatest on meldud kasutamiseks arvutunnuste korral, kuid leidub ka selliseid, mida
saab kasutada jrjestustunnuste vi koguni nimitunnuste puhul.
3.3.1. Keskmised
Nide. Mia otsustas 11.klassis sooritada keemia riigieksami ning kogus eelnevalt selle eksami kohta
informatsiooni 50-lt oma kooli abituriendilt, kes olid keemia riigieksami sooritanud. Muuseas ksis Mia
neilt riigieksamil saadud tulemust. Mia lootis, et eelmisel aastal koolikaaslaste poolt saadud
eksamitulemuste analsimine annab talle parema pildi tema enda vimalustest. Kuna Mia arvas, et tal
on keemias teistega vrreldes sna keskmine tase, tahtis ta kohe teada, mis oli eelmisel aastal eksami
sooritanute keskmine tulemus, aga pnev oli teada saada ka seda, kas keegi kukkus eksamil lbi vi mis
oli ldse kige madalam ja kige krgem saadud tulemus?
Mia oli koolikaaslastega vestlemise kigus kik 50 eksamitulemust jrjest paberile kirjutanud, kuid
niimoodi lbisegi olevast 50-st tulemusest oli vga raske midagi vlja lugeda.
Matemaatika petaja soovitas, et parema levaate saamiseks tulemuste jagunemisest, viks tulemused
jrjestada kasvamise vi kahanemise jrjekorda saades niimoodi VARIATSIOONIREA. Mia pusis tkk
aega kuid sai tulemused nnelikult kasvamise jrjekorda:
Prast tuli Mial phe, et seda jrjestamist saanuks veelgi mugavamalt teha, kui kik 50 tulemust Exceli
tlehel hte veergu e tunnusesse sisestada ja siis andmete sorteerimise funktsiooni kasutada!
Peale sorteerimist on lihtne nha, mis oli kige madalam ja kige krgem tulemus (ehk statistika
terminoloogias kasutades leida minimaalne ja maksimaalne vrtus): need olid vastavalt 62 ja 96
punkti.
Sellisest kasvavas jrjekorras antud vaatlustulemuste reast on kerge leida ka jaotuse keskel paiknevat
vrtust ehk MEDIAANI. Mediaan on selline vrtus, mis jagab vaatlustulemused kahte ossa nii, et
pooled vaatlustulemused on mediaanist viksemad ja pooled suuremad.
Nide. Kui meil on teada seitsme petaja kohta nende keskmine kontrolltde parandamise aeg ndalas
(tundides) ning ajad on jrjestatud kasvamise jrjekorda:
0 2 3 4 6 6 10
siis saame elda, et mediaan on 4 (tundi ndalas), sest vrtus 4 asub tulemuste rea keskel.
Kui meil on aga paaris arv vaatlustulemusi, siis ei saa me nende hulgast leida hte, millest oleks vrdne
arv viksemaid ja suuremaid vrtusi. Seeprast leitakse sel juhul vrtus, mis asub tpselt kahe
variatsioonireas keskel asuva vrtuse vahel.
***
Mia nites pilaste keemiaeksami tulemuste kohta on 25-es vrtus 79 ning 26-es 80. Et leida tpselt
79 80
79,5
2
nende vahel paiknevat vrtust, tuleb need vrtused kokku liita ning jagada kahega: .
Seega mediaaniks on 79,5 palli. Viimasest arvnitajast saame teha nd omakorda sisulise tlgenduse ja
elda, et poolte pilaste eksamitulemus ji alla 79,5 punkti ja pooltel pilastel oli see le 79,5 punkti.
Nide. Kasutame Mia kogutud andmeid (keemia.xlsx) ning arvutame eksamitulemuste mediaani Excelis.
Arvnitajate leidmiseks kasutame Exceli funktsioone (Formulas/Insert Function vi klpsate
valemirea alguses paiknevat funktsioonide nuppu)
Mediaani arvutamiseks valime funktsiooni MEDIAN ning sisestame andmepiirkonna (hiirega mrgistades.
***
Tuletame selle algoritmi meelde: Aritmeetilise keskmise leidmiseks tuleb kik vaatlustulemused kokku liita
ning saadud summa jagada vaatlustulemuste arvuga. Leiame nd eelnevas nites toodud petajate
kontrolltde parandamise aja aritmeetilise keskmise:
0 2 3 4 6 6 10 31
x 4,4
7 7
tundi ndalas.
Kui meil on aga teada, et algandmetena kasutatud arvud ei olnud tpsed vaid mardatud vi
hinnangulised (st petajad ei pruugi kontrolltid parandada tpselt 2 vi 6 tundi vaid ligikaudu nii palju)
siis peame ka arvnitaja phjal jreldust tehes jma algandemete tpsuse tasemele ja tlema, et
keskmiselt parandavad petajad kontrolltid 4 kuni 5 tundi ndalas.
Nide. Kasutame taaskord Mia kogutud andmeid (keemia.xlsx) ning arvutame eksamitulemuste
keskvrtuse Excelis.
Vrreldes kahte erinevat keskmist tendentsi vljendavat suurust: mediaani ja aritmeetilist keskmist,
neme, et nad on keemaieksami tulemuste puhul natuke erinevad, kuid siiski kllalt sarnased. Vaatame
aga hte teist nidet:
Nide. Vaadake kahte alljrgnevat jaotust. Mlemas on toodud viie inimese kuupalgad:
I 800 1000 1400 1700 1900
II 700 1100 1300 1600 3900
Mediaanid kahes grupis on kllalt sarnased: I > 1400 , II > 1300 . Arvutades aga vlja keskvrtused
saame, et keskvrtus esimeses grupis on 1360 , mis on mediaaniga kllalt sarnane, kuid teises grupis
on keskvrtus 1720 , millest on kik peale he vrtuse madalamad.
Esimese grupi puhul saame me nii mediaani kui keskvrtuse abil ige ettekujutuse grupi liikmete
keskmisest palgast. Kuid kumb keskmistest annab parema ettekujutuse tavaprasest palga suurusjrgust
teises grupis?
Teises grupis tuleks keskmist tendentsi vljendava suurusena (keskvrtusele lisaks) kasutada mediaani,
sest keskvrtus on tugevalt mjutatud hest ebatpilisest, teistest vga erinevast vrtusest, mediaani
aga sellised ekstreemsed vrtused ei mjuta.
JTA
lesanne. Tooge niteid andmetest, mille keskmise taseme kirjeldamiseks peaks lisaks keskvrtusele
kasutama ka mediaani.
lesanne. Tida jrgmine tabel, kirjutades igasse lahtrisse, kas seda arvnitajat on antud tunnuse korral
korrektne arvutada ja vimalik sisuliselt tlgendada vi mitte.
Tunnus Mediaan Keskvrtus
Sugu
Vanus
Sissetulek
(0-199, 200-399, 400-599, 600-799, 800 ja rohkem)
Kui thtis on riiete ostmisel kaubamrk?
(vga oluline, oluline, vhe oluline, ldse ei ole oluline)
Lemmik kaubamrk
lesanne. Kasutage andmestiku treening.xlsx andmeid ning leidke pilaste pikkuse ja kaalu keskvrtus
ja mediaan. Otsustage, milliseid arvnitajaid te antud tunnuste korral keskmise taseme kirjeldamiseks
kasutaksite. Phjendage vastust.
Kuigi keskmised on kige tuntumad ja enamkasutatavad arvnitajad, ei anna ainult keskmise teadmine
meile andmete kohta tit pilti. Seetttu tuleb osata ksida ja analsida ka seda, kuivrd erinevad vi
sarnased on tulemused/vrtused omavahel.
Nide. Esimese klassi lapsevanematel paluti 7-palli ssteemis hinnata kuivrd thtsaks nad peavad
seda, et kool arendaks lastes jrgmisi vrtusi:
Mlemal juhul saame keskmiseks thtsuse hinnanguks 4 palli, kuid ometi neme selgelt, et
lastevanemate arvamused nende kahe aspekti arendamise thtsuse osas ei ole tpselt hesugused:
kohuse- ja vastutustunde arendamise osas on lapsevanemad olnud suhteliselt ksmeelselt arvamusel, et
see on keskmise thtsusega, kuid aktiivsuse ja ettevtlikkuse arendamist on osad lastevanematest
pidanud vga thtsaks, teised jlle ldse mitte thtsaks st vastajate arvamused on olnud vga erinevad.
Sellist vrtuste omavahelise erinevuse mra nimetatakse statistikas HAJUVUSEKS. Hajuvus ongi
keskmise krval teine oluline andmete jaotust iseloomustav suurus.
lesanne Vrrelge kahte jrgnevat punkt-diagrammi, kus on kujutatud kahe erineva pilasterhma
testitulemused. Mis on teie arvates kige suurem erinevus nende kahe jaotuse vahel? Kas te oskate
elda, milline juba vaadeldud arvnitajatest aitab seda erinevust kirjeldada?
**
******
** ** ******* * * *
* *** * ************** ****** * * *
60 65 70 75 80 85 90 95 100
Diagrammidele peale vaadates vime kohe nha, et esimene jaotus on rohkem vlja venitatud st
testitulemused grupis A on rohkem hajunud kui grupis B. Jaotuse hajuvust saame kige lihtsamini
vljendada arvutades jaotuse ulatuse (suurima ja vhima vrtuse vahe). Meie nites:
grupis A on ulatus = 96 - 62 = 34 punkti
grupis B on ulatus = 88 - 70 = 18 punkti
Seega, saaksime ulatuse phjal ka siis, kui meil andmetest diagrammi tehtud ei ole, teha jrelduse, et
grupis B on tulemuste omavahelised erinevused e hajuvus palju viksem kui grupis A.
Ulatus on kige ldisem ja lihtsamini leitav hajuvuse nitaja, kuid tema suur puudus on selles, et ta sltub
ainult jaotuse kahest kige rmisest vrtusest, mis vivad aga mingil phjusel olla teistest vga
erinevad nn ekstreemsed vrtused (tuletage meelde nidet palkadest!). Seeprast on selle nitaja
usaldatavus grupi kui terviku iseloomustamisel vike ning teda kasutatakse vaid jaotusest kige ldisema
pildi saamiseks.
Kige sagedamini kasutatav hajuvuse nitaja on aga STANDARDHLVE. Nagu aritmeetiline keskmine,
nii vtab ka standardhlve arvesse kik vaatlustulemused.
Kui meie vaatlustulemused on kik hesugused (nt kik lapsevanemad hindasid mtlemisoskuse
arendamist kooli poolt vga thtsaks st valisid 7-palli skaalal vastuseks 7), siis andmetes hajuvust ei ole
ning mistahes hajuvuse nitaja peaks andma vastuseks 0. Tavaliselt on aga vaatlustulemused hajuvad
ning ksikud tulemused erinevad (hlbivad) keskvrtusest enamal vi vhemal mral. Standardhlve
ongi selline arvkarakteristik, mis vimaldab meil elda, kui palju ksikud tulemused grupi aritmeetilisest
keskmisest (keskmiselt) erinevad. Mida suurem on hajuvus, seda suuremad on erinevused ning seda
suurem on ka standardhlve.
Nide. Vaatame eelpool toodud nidet lapsevanemate hinnangutest. Kumba jaotuse puhul allolevatest on
teie arvates standardhlve suurem?
x4
1) Kohuse- ja vastutustunne (viie lapsevanema vastused: 3 4 4 4 5 )
x4
2) Aktiivsus, ettevtlikus (viie lapsevanema vastused: 1 2 3 7 7 )
Vrtused teises reas on rohkem hajunud (st. nad erinevad ehk hlbivad keskvrtusest rohkem) kui
esimeses reas. Seega vime arvata, et standardhlve on suurem teises reas olevate andmete puhul.
Arutluse kontrollimiseks sisestame hinnangud Exceli tabelisse ning arvutame mlema jaotuse
standardhlbed.
Funktsioon STDEV arvutab mrgistatud andmepiirkonna standardhlbe.
Nagu nha, on esimese jaotuse
standardhlve palju viksem kui teise
jaotuse puhul ning jb alla he palli, sest
le he palli ei erinenud selle jaotuse puhul
grupi keskmisest ju kellegi arvamus! Kui
meil oleks tegemist suurema hulga
andmetega (nt 68 lapsevanema arvamused),
siis andmetele peale vaatamine (nagu antud
vikeses nites) meile head levaadet vastuste hajuvusest ei annaks, kuid olles vlja arvutanud, et
vastuste standardhlve aktiivsuse ja ettevtlikkuse thtsuse hinnangute puhul on s = 2,8 palli ning
kohuse- ja vastutustunde thtsuse hinnangute puhul ainult s = 0,7 palli, saaksime kohe andmete kohta
teha jrelduse, et aktiivsuse ja ettevtlikkuse arendamise thtsuse osas lksid lastevanemate arvamused
omavahel lahku e anti vga erinevaid hinnanguid, aga kohuse- ja vastutustunde thtsust hindasid
lapsevanemad vga sarnaselt. Pane thele, et hajuvuse nitaja phjal ei saa teha jreldust selle kohta,
kumba hinnati thtsamaks; selleks on vaja teada ka keskmist!
JTA
Ulatus on kige lihtsamini leitav hajuvuse nitaja, kuid tema suur puudus on selles, et ta sltub ainult
jaotuse kahest kige rmisest vrtusest, mis vivad aga mingil phjusel olla teistest vga
erinevad.
MEELDE
lesanne. Kogutud andmete phjal arvutati meeste vanuse standardhlbe vrtuseks 12 ja naiste
vanuse standardhlbe vrtuseks 7. Milline vide on ige?
a) Mehed on vanemad
b) Naised on vanemad
c) Meeste vanused on rohkem koondunud mber oma grupi keskmise vanuse
d) Naiste vanused on rohkem koondunud mber oma grupi keskmise vanuse
lesanne. Vasta andmestiku treening.xlsx ning eelnevalt tidetud tabeli phjal jrgmistele ksimustele.
1 Kokku osales uuringus _______________ pilast.
2 pilaste keskmine kaal oli 64,3 kg ning mediaan 64 kg. Kuna mediaan ja keskvrtus on vga
__________________, vime jreldada, et jaotusel ei ole
_____________________________________ vrtuseid.
3 Pooled pilastest olid lhemad ja pooled pikemad kui __________________ cm.
4 Pikkuste jaotuse ulatus oli ____________cm. See thendab, et
________________________________
________________________________________________________________________________
__.
5 Kige lhem pilane kaalus __________________ kg. ja kige pikem __________________ kg.
6 Uuritud pilaste pikkuste standardhlve oli __________________ cm ning kaalude standardhlve
__________________ kg. Kirjeldades jaotuste standardhlbeid saame elda, et __________
________________________________________________________________________________.
Nide. Vaatame taas ptk 3.2.4. ksitletud Liina uuringut kaalu langetamisest koolipilaste seas.
Uuritud pilaste pikkuse ja kaalu suhtest arvutati vlja KMI (kehamassiindeks) ning selle keskvrtus
valimis oli 21,55. Kas ja millise hinnangu saame selle valimi tulemuse phjal anda kigi Eesti pilaste KMI
kohta?
Soovides saadud keskmise phjal teha statistilist ldistust ldkogumile e kikidele Eesti pilastele,
peame silmas pidama, et see on korrektne ainult juhul kui valim esinduslik st on koostatud juhuslikkuse
phimttel, mis tagab, et igal Eesti kooli pilasel on olnud vrdne tenosus valimisse sattuda. Kui see
tingimus on tidetud kasutame ldkogumi keskvrtuse hindamiseks ptk. 3.2.4. esitatud mttekiku ning
reegleid:
68% tenosusega asub ldkogumi parameeter vahemikus: valimi arvnitaja vrtus 1 st.viga
95% tenosusega asub ldkogumi parameeter vahemikus: valimi arvnitaja vrtus 2 st.viga
99% tenosusega asub ldkogumi parameeter vahemikus: valimi arvnitaja vrtus 2,5 st.viga
s
st . viga x
= n
Lahendus.
Rakendame reeglit:
95% tenosusega asub ldkogumi parameeter vahemikus: valimi parameeter 2 st.viga
s
st . viga x
= n
2,24 2,24
Asendades valemis thistused konkreetsete vrtustega, saame, et
st . viga x = =
117 10,82
=0,21
Seega, oleme vastanud ksimusele, millisesse vahemikku jb ldkogumi keskmine KMI ning vime
elda, et see keskmine asub 95%-lise tenosusega vahemikus 21,13 ... 21,97 ehk mardatult saame
elda, et Eesti pilaste KMI jb 21 ja 22 vahele.
lesanne. Arutle, mis juhtub vahemikuga, kuhu jb teatava tenosusega ldkogumi parameeter juhul
kui me suurendame valimi suurust? Kas see vahemik muutub laiemaks vi kitsamaks?
lesanne. 10-ndate klasside pilastest koostatud juhuvalimi keskmine matemaatika aastahinne oli 3,86.
Hinnete standardhlve oli 0,4 ja valimi suurus 2500. Arvuta, millisesse vahemikku jb kikide Eesti 10-
ndate klassi pilaste keskmine matemaatika aastahinne.
lesanne. Kasuta andmestikku pilased.xlsx ning leia, millisesse vahemikku jb ldkogumi e kikide
pilaste keskmine arvutikasutusaeg ndalas.
KORDA JA
ldkogumi all meldakse kiki juhtumeid vi situatsioone, mille kohta uurijad soovivad, et
nende poolt saadud jreldused, oletused vi prognoosid kehtiksid. Uurimiseks valitud
(suhteliselt vikest) objektide gruppi nimetatakse valimiks.
Selleks, et valim annaks ldkogumi kohta objektiivset ja usaldatavat informatsiooni, tuleb
JTA
Hiljem lisame!
3.4. Erinevuste anals.
3.4.1.