Brkic RapidMiner

SVEUILITE U ZAGREBU FAKULTET ORGANIZACIJE I INFORMATIKE VARADIN
Brki Alen
RAPIDMINER I SKLADITA PODATAKA

Seminar iz kolegija Skladita podataka i poslovna inteligencija
Varadin, 2013.
SVEUILITE U ZAGREBU FAKULTET ORGANIZACIJE I INFORMATIKE VARADIN
Prezime i ime: BRKI Alen, redoviti student, MB: 41740/12-R
RAPIDMINER I SKLADITA PODATAKA

Seminar iz kolegija Skladita podataka i poslovna inteligencija
Nositelj kolegija: prof.dr.sc. Kornelije Rabuzin Mentor: prof.dr.sc. Kornelije Rabuzin
Varadin, lipanj 2013.
SADRAJ
1. Uvod ............................................................................................................................................ 1 2. Skladite podataka (data warehouse) .......................................................................................... 2 2.1. Elementi skladita podataka ................................................................................................. 3 2.2. Prednosti i nedostaci koritenja skladita podataka .............................................................. 4 3. Data mining ................................................................................................................................. 5 3.1. Kako radi data mining .......................................................................................................... 5 3.2. Prednosti i nedostaci ............................................................................................................. 7 4. Dizajn skladita podataka ............................................................................................................ 8 4.1. Logiki dizajn ....................................................................................................................... 8 5. Skladite podataka kao ETL alat ................................................................................................. 9 6. RapidMiner................................................................................................................................ 11 6.1. Glavne znaajke RapidMiner softvera ............................................................................... 16 7. Primjer ....................................................................................................................................... 15 8. Zakljuak ................................................................................................................................... 16 Literatura ....................................................................................................................................... 17
1. Uvod
Dizajneri i administratori klasinih sustava i aplikacija voeni su eljom za savrenstvom, kako samog dizajna tako i svih drugih dijelova projekta koji su preuzeli. Oni smatraju, i to s pravom, da ako ele postii taj cilj, tj. dizajnirati i razviti savren proizvod (sustav), prije poetka bilo kakvog rada na dizajnu, prvo moraju prikupiti sve potrebne podatke i zadovoljiti sve preduvjete koje projekt pred njih postavlja. Takav je pristup logian i ima smisla, no ipak se ne moe primijeniti prilikom izgradnje skladita podataka. Naime, takav je pristup dobar za operacijske aplikacije i njihovu okolinu gdje se procesi izvode repetitivno i gdje se svi preduvjeti mogu prepoznati prije poetka rada za dizajnu i izgradnji sustava. Kod skladita podataka, problem se javlja upravo kod predvianja svih moguih preduvjeta. Veina tih preduvjeta se, kod skladita podataka, saznaje tek nakon to je skladite ve zavreno i u njega uitani podaci nad kojima se mogu vriti analize. Dakle, prije izgradnje skladita podataka, poznat je samo jedan malen dio ukupnih preduvjeta. Zbog toga se skladita podataka grade iterativno, u malim fazama razvoja. Prva takva mala faza razvoja nije postignuta dugotrajnim uenjem i skupljanjem ogromnih koliina podataka i pokuavanjem predvianja svih moguih preduvjeta. Ovdje je kljuno da je pojedinac zaduen za izgradnju skladita podataka sposoban brzo prolaziti kroz korake dizajna i razvoja skladita iako nema sve potrebne podatke, informacije i/ili preduvjete. U ovom e radu biti rijei o skladitima podataka i data miningu te e biti prikazan jedan besplatan softver za upravljanje skladitima podataka u kojemu e biti prikazan jedan kratki primjer na istu temu. Rad se sastoji od osam meusobno povezanih tema koje tvore logiku cjelinu. Prvo je poglavlje uvodno, u drugom se govori o skladitima podataka, koji su njihovi elementi te su navedene njihove prednosti i nedostaci. U treem poglavlju govori se o data miningu dok se etvrto koncentrira na logiki dizajn skladita podataka. U petom poglavlju govori se o skladitu podataka kao ETL alatu a na njega se vee esto poglavlje u kojemu je predstavljen softver poduzea Rapid-I, RapidMiner. Sedmo poglavlje rezervirano je za praktini primjer te na kraju, u osmom poglavlju, autor iznosi svoje zakljune misli.
2. Skladite podataka (data warehouse)

Prvi koncept skladita podataka predstavio je Bill Inman 1981. godine. On tvrdi da je jedan od temeljnih stupova klijent-server arhitektura shvaanje da postoji razlika izmeu operacijskih i procesa koji omau prilikom donoenja odluka te da takve procese treba razdvojiti. Inmon definira skladite podataka kao: odvojenu bazu podataka ija je svrha pruanje potpore prilikom donoenja odluka (decision support), koja obino sadri ogromne koliine podataka. S druge strane, autor Richard Hackthorn skladite podataka definira kao: kolekciju objekata koji sadre podatke a namijenjeni su distribuciji meu poslovnom zajednicom. Openito govorei, skladite podataka moemo definirati kao sustava ija je svrha pruiti korisnicima potporu prilikom donoenja odluka. Skladite podataka skuplja podatke iz vie izvora, koji mogu ali i ne moraju biti razliiti, pod okriljem jedinstvene sheme (naina prikupljanja podataka) na jednom jedinstvenom mjestu. Dakle, skladite podataka je inteligentan servis koji moe prikupljati i upravljati podacima iz vie razliitih izvora. Ti se podaci dalje mogu distribuirati po potrebi. Skladite podataka je subjektno orijentirana, integrirana, vremenski ovisna,
nepromjenjiva kolekcija podataka ija je svrha pomoi korisniku prilikom odluivanja. U sljedeim e redovima ova definicija biti rastavljena na sastavne dijelove te e svaki dio biti pojedinano objanjen: - subjektno orijentirano (Subject-oriented): skladite podataka koje se moe koristiti za analizu specifinih podruja u poduzeu (npr: podsustav financija). - integrirano (Integrated): skladite podataka koje integrira podatke iz vie razliitih izvora. Na primjer, izvor A i izvor B mogu imati potpuno razliite naine definiranja i identifikacije odreenog klijenta, ali e skladite podataka imati samo jedan nain za definiciju i identifikaciju bilo kojeg klijenta poduzea. - vremenski ovisno (Time-variant): u skladitu podataka se mogu pronai podaci koji su u njega pohranjeni prije vie od godinu dana. - nepromjenjiva (Non-volatile): Jednom kad se podaci pohrane u skladite, vie se nikada ne mogu primijeniti ili modificirati na nikakav mogu nain.
2.1. Elementi skladita podataka
Svako skladite podataka se u biti sastoji od etiri meusobno povezana elementa: 1. Menader za replikaciju podataka: ovaj sklop upravlja dupliciranjem (kopiranjem) i distribucijom podataka preko baza podataka uz nalog i definiciju korisnika. Korisnici definiraju podatke koji se trebaju kopirati, njihov izvor i konano odredite. Ovaj se sklop isto tako bavi auriranjem i transformacijom podataka kao i obnavljanjem (refresh) koje se svodi na potpunu zamjenu svih podataka u skladitu, za razliku od auriranja koje samo dodaje nove podatke na postojei skup. 2. Informacijska baza podataka: to je baza podataka koja organizira i pohranjuje kopije podataka s vie razliitih izvora. Ovaj se sklop moe prikazati kao server za potporu odluivanju koji transformira, agregira i dodaje vrijednost podacima koji su prikupljeni iz razliitih izvora. posebnu vanost sklopu daje injenica da pohranjuje i meta-podatke na dvije razine: na razinu sustava i na semantikoj razini. 3. Direktorij informacija: direktorij informacija je skup funkcija tehnikog direktorija, poslovnog direktorija te sustava za navigaciju informacijama. Njegova osnovna funkcija je pomoi korisnicima da pronau koji su podaci dostupni na razliitim bazama podataka. Isto tako daje informacije o formatu podataka i o nain pristupa tim podacima. Zbog svojih funkcionalnosti, ovaj je direktorij neizostavan dio sustava za upravljanje skladitem podataka. Ovaj direktoriji dolazi do meta-podataka preko otkrivanja koje su sve baze podataka ukljuene u mreu te preko postavljanja upita (queries) na njihove repozitorije za meta-podatke. Administratori baza podataka ovakve direktorije koriste kako bi dobili pristup meta-podacima na razini sustava, kako bi mogli nadzirati izvore podataka (dana sources), odredita podataka, pravila o ienju i transformaciji podataka te da bi dobili uvid u detalje o izvjetajima. 4. Potpora za DSS alate: ovakav se vid potpore alatima za potporu odluivanju, a koji se koriste u skladitu podataka, prua preko SQL upitnog jezika poto veina skladita podrava ili ODBC ili neki drugi protokol. Administrator baze podataka mora moi biti u stanju prikupiti podatke iz razliitih izvora, replicirati ih (kopirati), oistiti ih, pohraniti ih, katalogizirati ih te ih uiniti dostupnim alatima za potporu odluivanju (Decision Support Tools).
2.2. Prednosti i nedostaci koritenja skladita podataka

Prednosti: skladite podataka je raunalni sustav za pohranu podataka koritenjem skladita podataka, poduzee/organizacija moe analizirati informacije koje posjeduje te tako moe pronai poveznice koje e omoguiti donoenje nekih vrlo vanih odluka u poslovanju preko skladita podataka, korisnici mogu pristupiti veoma velikoj koliini informacija i podataka koji se mogu koristiti prilikom rjeavanja raznih problema to e, veoma vjerojatno, dovesti do poveanja profita poduzea/organizacije podaci u skladitu su, zbog svoje organiziranosti, konzistentni koritenjem skladita podataka, podaci iz razliitih izvora mogu se skupiti i pohraniti na jednom jedinstvenom mjestu na nain koji korisnicima omoguava lagan pristup unutar skladita se moe kreirati struktura koja e omoguiti da se promjene mogu vriti nad pohranjenim podacima te potom prenijeti na operacijski sustav poto su podaci prikupljeni iz razliitih izvora a pohranjeni su na jednoj lokaciji, to poduzeu/organizaciji omoguava da te podatke analizira pojedinano a ne kao cjelinu omoguava poduzeima/organizacijama da odgode donoenje vanih odluka dok se ne prikupe svi potrebni podaci i informacije uvelike olakava donoenje stratekih odluka
Nedostaci: prije nego se podaci mogu pohraniti u skladite, oni moraju biti ekstrahirani, oieni i transformirani, to traje jako dugo problemi s kompatibilnosti (nove dizajnirani transakcijski sustav moda nee biti kompatibilan sa skladitem koje koristi drugaiji sustav, to stvara trokove vlasnicima skladita jer se njihovi zaposlenici prvo moraju obuiti za rad s tim novim sustavom) problemi sa sigurnou skladita (propusti koji omoguavaju pristup skladitu preko interneta) danas skladita podataka predstavljaju neprocjenjiv resurs za poduzea/organizaciji pa je logino pretpostaviti da e ta ista poduzea/organizacije bez prevelikog razmiljanja uliti ogromne resurse u skladite to, na kraju, teti poslovanju tog poduzea/organizacije potreba konstantnog nadzora i odravanja skladita
3. Data mining
Data mining je raunalni proces koji se koristi za analizirane ogromne koliine podataka u potrazi za podacima od znaaja za korisnika. Najee se koristi u poduzeima koja se bave maloprodajom (retail). Data mining poduzeima omoguuje utvrivanje veza meu internim faktorima, kao to su cijena, pozicioniranje proizvoda/usluge, vjetine zaposlenika, te veza meu eksternim faktorima, kao to su ekonomski indikatori, konkurencija i demografija klijenata. Isto im tako omoguava da predvide kakav e utjecaj na prodaju, zadovoljstvo klijenata i profit imati pojedini poslovni elementi. Koritenjem data mininga, poduzea/organizacije mogu iskoristiti podatke o kupnji pojedinog kupca te za njega sloiti personaliziranu promotivnu ponudu. Alati za data mining mogu predvidjeti ponaanje subjekta i budue trendove time omoguavajui poduzeima/organizacijama da donose pozitivne poslovne odluke. Ti alati mogu pomoi prilikom donoenja poslovnih odluka za ije donoenje obino treba jako puno vremena i ostalih resursa. Ovi alati pretrauju baze podataka u potrazi za skrivenim dizajnima i analitikim informacijama koje specijalisti moda ne bi pronali jer se nalaze izvan njihovi oekivanja.
3.1. Kako radi data mining
Data mining, za razliku od tehnologija koje razvijaju odvojene transakcijske i analitike sustave, prua vezu izmeu tih sustava. Softver za data mining analizira veze (relationships) i uzorke (patterns) u pohranjenim podacima o transakcijama preko otvorenih upita (open ended queries). Danas je dostupno nekoliko razliitih tipova analitikog softvera: statistiki za uenje ureaja (machine learning) neuralne ree
Openito, postoje etiri tipa veza koje ovaj tip softvera pokuava pronai meu podacima: 1. klase (classes): pohranjeni podaci se koriste kako bi se pronale predodreene grupe. Na primjer, lanac restorana moe pretraivati (mine) podatke o kupnji klijenata kako bi utvrdili koji klijenti kad dolaze i to obino naruuju. Ove informacije mogu se koristiti kako bi se poveao promet u restoranu preko specijalnih dnevnih ponuda.
2. klasteri (clusters): podaci su grupirani prema logikim vezama ili preferencijama klijenata. Na primjer, podaci se mogu pretraivati (mine) kako bi se identificirali segmenti trita ili afiniteti klijenata. 3. asocijacije (associations): podaci se mogu pretraivati kako bi se prepoznale asocijacije. 4. sekvencijalni uzorci (sequential patterns): podaci se mogu pretraivati kako bi se mogli predvidjeti uzorci ponaanja i/ili trendovi. Data mining proces se sastoji od pet glavnih elemenata: 1. ekstrahiranje, transformacija i uitavanje podataka u sustav skladita podataka 2. pohrana i upravljanje podacima u multi-dimenzionalnoj bazi podataka 3. omoguiti poslovnim analitiarima i ostalim IT profesionalcima pristup podacima 4. analizirati podatke posredstvom aplikacijskog softvera 5. prezentirati podatke u korisnim obliku i formatu (grafovi, tablice)
Postoje razliite razine data mininga koje su dostupne korisnicima: umjetne neuralne mree: ne-linearni modeli koji ue kroz trening i nalie na bioloke neuralne mree. genetiki algoritmi: tehnike optimizacije koje koriste procese kao to su genetiko kombiniranje, mutiranje i prirodno selektiranje prirodnoj evoluciji. stabla odluivanja: drveu nalike strukture koje predstavljaju setove odluka. Ove odluke generiraju pravila za klasificiranje skupova podataka. metoda najblieg susjeda: tehnika koja klasificira svaki zapis u skupu podataka prema skupu klasa onog zapisa koji mu najvie nalikuje. indukcija pravila: ekstrakcija korisnih if-then pravila iz podataka baziranih na statistikoj znaajnosti. vizualizacija podataka: vizualna interpretacija kompleksnih veza multi-dimenzionalnih podataka. Grafiki alati se koriste za ilustraciju veza meu podacima. u dizajniranju koje se temelji na
3.2. Prednosti i nedostaci
Prednosti: marketing: data mining pomae u izgradnji modela baziranih na povijesnim podacima kako bi se predvidjelo tko e i kako odgovoriti na novi marketinki plan poduzea/organizacije. Takvo predvianje moe pomoi u odabiru prave metode prodaje koja e rezultirati poveanjem profita i zadovoljstva klijenata jer im je pruena najbolja mogua usluga/proizvod kroz analizu trita, poduzee/organizacija moe izgraditi odgovarajui plan poslovanja pomae poduzeima/organizacijama da ponude odgovarajue popuste na odreene proizvode u svrhu privlaenja novih klijenata financije: veina financijskih poduzea preko data mininga dolazi do podataka o kreditima i zajmovima jer se veina njihovih modela kreira iz podataka iz njihovih skladita podataka, koja su popunjena podacima iz baza podataka klijenata tog poduzea data mining pomae ministarstvima kod analize zapisa financijskih transakcija kako bi se razvili uzorci koji e moi identificirati bilo koji oblik novanog kriminala (npr. online prijevara) Nedostaci: problemi s privatnosti: ljudi se boje da e njihove privatne podatke i informacije, koje oni skupljaju, biti iskoriteni za ne-etike radnje koje bi mogle nanijeti tetu, kako njima samima tako i poduzeima/organizacijama u kojima su zaposleni najvei problem data mininga, kao i bilo kojeg drugog aspekta IT poslovanja, jest sigurnost. Poduzea/organizacije skupljaju podatke o svojim zaposlenicima i klijentima u svojim skladitima podataka, koja su podlona napadima od strane hakera jer su ti podaci od velike vanosti za konkurenciju poduzea svaki podatak koji poduzee/organizacija prikupi u svojim skladitima, lako se moe iskoristiti u pogrene svrhe od strane pojedinaca koji djeluju ne-etiki kako bi stekli prednost nad svojom konkurencijom.
4. Dizajn skladita podataka

Dizajn skladita podataka moemo podijeliti na logiki dizajn, OLAP dizajn i Data mining dizajn. U ovom e radu biti objanjen samo logiki dizajn.
4.1. Logiki dizajn
Logiki dizajn skladita podataka definiran je pristupom koji se temelji na dimenzijskim modeliranju podataka. Za razliku od procesa koji se temelje na entity-relationship modelu ili na UML-u, logiki dizajn skladita podataka definiran je dimenzijskim modeliranjem podataka. Kako bi se minimizirala mogunost pojave zajednikih operacija koje usporavaju upite nad bazom podataka, normalizacija nije jedan od glavnih principa u dizajnu skladita podataka. Shema je kolekcija objekata baze podataka, koja ukljuuje tablice, poglede, indekse i sinonime, te postoji mnogo razliitih naina na koje se jedna takva shema moe postaviti. U sljedeim redovima ovog rada bit e predstavljene dvije sheme koje se najee koriste u dimenzijskom modeliranju podataka. Rije je dakako o shemi zvijezde i shemi snjene pahulje: shema zvijezde: je vrlo vjerojatno najjednostavnija shema za skladite podataka. Naziv je dobila po svom obliku. Naime, ER dijagram ove sheme nalikuje zvijezdi, gdje krakovi izviru iz jedne sredinje toke. Sredite dijagrama je velika tablica injenica dok krakove predstavljaju dimenzijske tablice. Za ovu je shemu karakteristina pojava jedne ili vie vrlo velikih injeninih tablica koje sadre primarne informacije o skladitu podataka, te vie manjih dimenzijskih tablica (lookup tablice) od kojih svaka sadri informacije o zapisima za odreeni atribut u injeninoj tablici. Ova shema se dii brzim odgovorima na upite. shema snjene pahulje: ova je shema skladita podataka neto sloenija od sheme zvijezde iako je njena podvrsta. Naziv je dobila zato to joj dijagram slii snjenoj pahulji. Ove sheme normaliziraju dimenzije kako bi se otklonila redundancija. Drugim rijeima, podaci koji se nalaze u dimenzijskim tablicama su grupirani u viestruke tablice umjesto u jednu veliku tablicu. Iako ovaj nain grupiranja podataka tedi prostor, on isto tako poveava broj dimenzijskih tablica to za posljedicu ima vie vanjskih kljueva i veza meu tablicama. Rezultat toga su sloeniji upiti i smanjene performanse tih upita.
5. Skladite podataka kao ETL alat

Sve je tee pronai IT poduzee/organizaciju koja nema, ne razmatra ideju ili nije u procesu izgradnje skladita podataka. Iako je sama priroda skladita podataka podlona debati, skladita podataka se dizajniraju i izgrauju s jedinstvenom svrhom: pruiti poduzeu/organizaciji efikasno analitiko izvjetavanje. Zbog injenice da se sve vie poduzea/organizacija opredjeljuje za izgradnju skladita podataka, nije teko shvatiti zato je tehnologija izrade takvih skladita uvelike napredovala u zadnjim godinama. Napredak tehnologije je donio snienje cijena iste te napredak u svim povezanim tehnologijama (npr. serveri za upite). Skladita podataka se, sad ve tradicionalno, grade koristei razne dostupne alate: ERD alati za modeliranje za izgradnju modela alati za bazu podataka kojima se izgrauje baza podataka i u nju uitavaju podaci razni programski jezici za ekstrakciju, transformaciju podataka alati za sortiranje pomou kojih se kreiraju agregacije te ETL alati za spajanje raznih funkcionalnosti u jedan, integrirani paket
Iako su prednosti ETL (Extract, Transform, Load) alata oite i dobro dokumentirane, jo uvijek postoji otpor njihovoj kupnji i koritenju u projektima koji se odnose na skladita podataka. Izgleda da jo uvijek postoji percepcija da su takvi alati ili nepotrebni ili izrazito novi da njihovo koritenje predstavlja rizik. Takva je naime bila situacija poetkom ovog tisuljea. Danas je situacija obrnuta tj. ETL alati su sastavni dio svakog skladita podataka. ETL alat je, po definiciji, integrirani skup alata koja je svrha ekstrakcija, transformacija i uitavanje podataka u skladita podataka. Takvo rjeenje punjenja skladita podataka je dijametralno razliito od do tad koritenih metoda, koje su se sastojale u krpanju zajedno nekolicine alata koji su obavljali istu zadau. Iako bi i ta druga metoda postigla isti rezultat, samo to bi to trajalo puno due, izgubili bi se vani podaci poto se alati ne nalaze na jednom mjestu. ETL alati prikupljaju informacije o transformacijama podataka (poslovna pravila) iz ETL procesa te ih spremaju u repozitorij meta-podataka. Taj, centralizirani, repozitorij moe omoguiti komunikaciju izmeu lanova tima koji se bavi razvojem, izgradnjom i odravanjem
skladita podataka ali i s krajnjim korisnicima, strunjacima u polju baza podataka te arhitektima baza i skladita podataka i razno raznim developerima. Jedini nedostatak koritenja ovih alata jest njihova cijena. Takvi alati nisu jeftini i jo treba uraunati troak njihova koritenja, koji moe ukljuivati odravanje, obuku zaposlenika itd. No, ako se u obzir uzme cijena programera koji e napisati jedinstveni set operacija koje mogu raditi isto to i ETL alati, ipak se uvia prednost takvih alata te se svi njihovi popratni trokovi mogu zanemariti.
10
6. Preduvjeti za skladita podataka

Skladite podataka gradi se na potpuno drugaije od klasinih operacijskih okruenja. Jedno takvo operacijsko okruenje gradi se oko ivotnog ciklusa procesa koji zahtjeva da se potrebne komponente identificiraju, da se provede potrebna analiza koju e popratiti implementacija te se trai da se sve potrebe procesa znaju prije poetka rada. Upravo tu lei problem. Analitiar sustava za potporu odluivanju nikako ne moe znati sve preduvjete koje e njegov proces trebati. Takvi se preduvjeti otkivaju tijekom postupka pokuaj-pogreka, gdje se provode razni scenariji koji ukljuuju taj proces te se promatra njegovo ponaanje. Takav postupak spada pod model istraivanja, koji je potpuno razliit od modela razvoja kakav je potreban za izgradnju skladita podataka. U nastavku e biti navedeni i objanjeni preduvjeti za uspjenu izgradnju skladita podataka: kompletan model podataka: poetak svakog dizajna i razvoja skladita podataka je odgovarajui model podataka, bez kojeg je teko ak i zamisliti izgradnju skladita podataka zato to on slui kao mapa ra razvoj. Takav se model podataka razvija iz korporativnog modela podataka koji u dubinu definira aktivnosti. Model podataka sastoji se od subjektnih podruja, entiteta, poduzea/organizacije. U model su ukljuene i veze meu tim entitetima. Model podataka, ili barem njegova prva iteracija, mora biti gotov prije prvog poetka koraka izgradnje skladita podataka. odabrana tehnologija: kako bi se moglo poeti s izgradnjom skladita podataka, prvo je potrebno odabrati svu potrebnu tehnologiju. Izbor tehnologije, i hardver i softver, ovisi o nekoliko faktora: o volumen podataka koji e skladite morati moi pohraniti o brzina pristupa podacima o povijest poduzea/organizacije o razina na kojoj se skladite gradi o koliko e korisnika moi pristupiti skladitu o kakve e sve vrste analiza biti podrane o cijena tehnologije i povezani trokovi, itd.
11
Prilikom izbora tehnologije, kako je ve navedeno, mora se izabrati i hardver i softver. Kad se misli na hardver, obino se govori o serverima i s njima povezanoj tehnologiji. Softver koji se odabire, za osnovnu manipulaciju podacima, bira se s obzirom na hardver. odreena veliina skladita podataka: istraivanja su pokazala da se zdravlje softverske platforme i hardvera za skladita podataka, provjerava grubim odreivanjem veliine podataka. Ako je softver i hardver prevelik za potrebe skladita podataka koje je uvati podatke, tj. predvia se jako mala iskoristivost softvera i hardvera, predlae se da se odustane od provedbe prvog koraka izgradnje skladita podataka dok se tehnologija i koliina podataka ne skaliraju.
12
7. RapidMiner
RapidMiner, proizvod (freeware software) poduzea Rapid-I, je komplet alata za poslovnu analitiku sa snanim fokusom na data mining, text mining i prediktivnoj analizi. Ovaj softver koristi iroku lepezu deskriptivnih i prediktivnih tehnika koje korisniku pomau prilikom donoenja profitabilnih odluka. Poduzee Rapid-I svojim klijentima prua usluge i softver za poslovnu analitiku. Poduzee je osnovano 2006, godine u Dortmundu u Njemakoj iako je razvoj samog softvera RapidMiner poeo jo 2001. godine. Poduzee danas ima poslovne partnere u vie od 30 zemalja na svim naseljenim kontinentima te je do danas njihov proizvod s Interneta preuzet vie od 30 milijuna puta. Ovaj softver za poslovnu analitiku koristi vie od 400 poduzea u preko 40 zemalja. Zbog svoje pouzdanosti i kvalitete, RapidMiner je danas jedan od vodeih besplatnih alata za poslovnu analitiku. Tu je dospio zato to: nema naknade za koritenje softvera predstavlja fleksibilna i lako priutiva potpora za donoenje poslovnih odluka prisutan je brz razvoj softvera zajamena je operativna pouzdanost je fleksibilan i jednostavan za koritenje instalacija traje manje od pet minuta velikim poduzeima nudi sve potrebne performanse i skalabilnost
Cilj data mininga je oduvijek bio pronai veze u veoma velikim spremitima podataka. U tu je svrhu poduzee Rapid-I razvilo nekoliko tehnika: stream mining: umjesto premjetanja svih podataka iz skladita u memoriju, samo se neki dijelovi provode kroz proces analize. in-database-mining: umjesto voenja podataka prema algoritmu, ovdje se algoritmi vode prema podacima. Zbog toga je izvoenje analize direktno podrano od strane baze podataka. Do nedavno, takvo je rjeenje bilo dostupno samo individualnim pruateljima usluga baza podataka, kao to su IBM i Oracle, uz vrlo ogranienu primjenu. Rapid-I sad nudi ovo rjeenje za velik broj procedura za analizu podataka. Radoop: je prva grafika konekcija za Hadoop za rad s analitikom velike koliine podataka (terabajti ili ak petabajti podataka mogu si e prenositi i analizirati). Radoop kombinira snage RapidMinera i Hadoopa.
13
Niti jedan drugi, besplatno dostupan, alat na tritu ne prua ni priblino jednaku razinu analitinosti kao RapirMiner. Ta se razine postie, meu ostalim, zahvaljujui odlinim upravljanjem meta-podacima i inteligentnom analizom samog dizajna procesa. Uz sve to, korisniku su na raspolaganju i sljedee pogodnosti: propagacija meta-podataka: stari princip pokuaja i pogreke zamijenjen je novim sustavom koji korisniku nudi opciju praenja rezultata u realnom vremenu, tj. korisnik vie ne mora ekati da se proces zavri, to je obino trajalo dosta dugo, kako vi vidio utjecaj svojih akcija na taj proces nego sve promjene moe nadgledati u realnom vremenu to mu omoguuje da proces prekine ako rezultati ne idu njemu u korist. trenutana detekcija pogreaka: ako RapidMiner prepozna nekakvu pogreku u dizajnu procesa, odmah e o tome obavijestiti korisnika. Dakle, pogreke se vie ne otkrivaju samo tijekom izvrenja procesa (execute), kad je ve kasno da bi se mogle ispraviti, nego softver odmah reagira kad korisnik uini neto pogreno. brzi popravci: ova se opcija nadovezuje na prijanju, ako softver prepozna nekakvu pogreku odmah e preporuiti nekoliko moguih rjeenja za istu. Sve to korisnik mora uiniti jest odabrati rjeenje koje eli i kliknuti na njega. profiler: RapidMiner moe kontinuirano nadzirati pohranu i ponaanje analize kako bi otkrio uska grla, tj. mjesta u procesu gdje se znaajno usporava obrada i analiza podataka, te uz pomo alata za vizualizaciju na jednostavan nain korisniku pokazuje problematina mjesta u procesu. ekstenzija za zajednicu: ova znaajka RapidMiner softvera povezuje korisnika s drugim analitiarima koji isto koriste RapidMiner preko Web 2.0 portala myExperiment.org. Svi procesi na tom portalu, koje su na njega postavili analitiari koji kriste RapidMiner softver, mogu se s njega preuzeti i uitati direktno u RapidMiner gdje se onda taj proces moe pregledati, analizirati itd. preporuitelj: ovaj softver kontinuirano nadzire i analizira analizu procesa i daje klijentu razne preporuke koje mogu voditi do poboljanja procesa i njegovih performansi. Ono to se trai jest proces koji e rasteretiti klijenta ali u isto vrijeme i poveati svoje performanse. Ova znaajka RapidMinera ne samo da pomae poetnicima u kreiranju dobrog procesa nego i ubrzava rad strunjaka, ostavljajui ih slobodnima da se posvete drugim problemima. asistent za inteligentna otkria: ovaj asistent automatski kreira analizu procesa na temelju ulaznih podataka i specifikacija. One se temelji na uenju koje je dobiveno iz analize
14
tisua i tisua procesa te predlae korake koje je potrebno provesti kako bi se dobili podaci koji imaju potencijal ostvariti veoma dobre rezultate. MLW arobnjak: ovaj asistent se koncentrira iskljuivo na generiranje optimalnih klasifikacija za procese prema dobivenim skupovima podataka. Da bi to mogao obaviti, ovaj asistent izraunava tzv. land-mark karakteristike izvornih podataka te generira predvianje koje pokazuje koji e proces poluiti najbolje rezultate. Rapid-I, kao i mnotvo drugih poduzea/organizacija, klijentima pruaju mnoge dodatke i ekstenzije za RapidMiner softver. Ti se dodaci klijentima nude preko Rapid-I Marketplacea, trgovine aplikacijama koja je orijentirana na analitika rjeenja i algoritme. To je jedina trgovina takvog sadraja koja danas postoji i slui za daljnju distribuciju besplatnog i softvera otvorenog koda. Uz ve spomenute dodatke MLW arobnjaka i Radoop, RapidMiner ima preko 50 drugih dodataka i asistenata. U nastavku e biti navedeni samo neki od njih: R connector: za rad s R modelima i skriptama koje se mogu, bez problema, integrirati u RapidMiner procese. Weka: dodaje vie od stotinu dodatnih operatora iz dobro poznate knjinice i indeksa Weka Text: prua statistiku analizu teksta preko uitavanja teksta iz razliitih izvora (obini tekst, HTML, pdf, rtf itd.). Isto tako moe transformirati tekst posredstvom mnotva razliitih filtra. Web: prua pristup Internetu te nudi specifine operatore za rad sa sadrajem web stranica. Semantic Web: omoguuje modeliranje podataka iz semantikog weba te prua mogunost transformacije RDF-a u strukturirane setove podataka i prua mogunost modeliranja istih. Image processing: omoguava ekstrakciju opisnih karakteristika iz grafikih podataka i specifinu transformaciju i analizu tih podataka, ukljuujui segmentiranje i analizu dijelova podataka. Information extraction: prua tehnike za ekstrakciju informacija iz nestrukturiranog teksta.
15
7.1. Glavne znaajke RapidMiner softvera
viestruka suelja pristup i upravljanje podacima vrednovanje procesa, podataka i informacija
modeliranje podataka
bayesian modeliranje regresija koritenje neuralnih mrea podrka za vektorsko modeliranje i ureaje razluivanje bazirano na modelima stvaranje modela podataka i procesa evaluacija modela podataka i procesa skriptiranje kontrola procesa automatska optimizacija podataka i procesa koritenje makro naredbi kreiranje raznih izvjetaja omoguuje pristup serverima kreiranje procesima izvjetaja baziranih na
uzorkovanje dijeljenje (dijelove) podataka na particije
transformiranje podataka i procesa brisanje podataka zamjena podataka selekcija i ponderiranje podataka i procesa
generiranje atributa statistika grafovi i vizualizacija traenje slinosti meu podacima i procesima
klasteriranje analiza i vrednovanje trita koritenje stabala odluivanja indukcija pravila
koritenje raznih ekstenzija
16
8. Primjer
15
9. Zakljuak
16
Literatura
17

Brkic RapidMiner

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Brkic RapidMiner

Enviado por

Direitos autorais:

Formatos disponíveis

SVEUILITE U ZAGREBU FAKULTET ORGANIZACIJE I INFORMATIKE VARADIN

RAPIDMINER I SKLADITA PODATAKA

SVEUILITE U ZAGREBU FAKULTET ORGANIZACIJE I INFORMATIKE VARADIN

Prezime i ime: BRKI Alen, redoviti student, MB: 41740/12-R

RAPIDMINER I SKLADITA PODATAKA

Nositelj kolegija: prof.dr.sc. Kornelije Rabuzin Mentor: prof.dr.sc. Kornelije Rabuzin

Varadin, lipanj 2013.

2. Skladite podataka (data warehouse)

2.1. Elementi skladita podataka

2.2. Prednosti i nedostaci koritenja skladita podataka

3.1. Kako radi data mining

3.2. Prednosti i nedostaci

4. Dizajn skladita podataka

4.1. Logiki dizajn

5. Skladite podataka kao ETL alat

6. Preduvjeti za skladita podataka

7.1. Glavne znaajke RapidMiner softvera

viestruka suelja pristup i upravljanje podacima vrednovanje procesa, podataka i informacija

uzorkovanje dijeljenje (dijelove) podataka na particije

klasteriranje analiza i vrednovanje trita koritenje stabala odluivanja indukcija pravila

koritenje raznih ekstenzija

Você também pode gostar