Você está na página 1de 12

1

Data mining
Tem de cas Reete de Calculatoare si Internet

Ing. Olga Aldea Prof. Coordonator tefan Stncescu

Introducere (1)
Descoperirea de cunotine din bazele de date (Kowledge Discovery in Databases KDD) sau extragerea de date (Data Mining - DM) sunt folosite pentru a prelucra cantiti mari de informaii i date disponibile. Conform Fayyad [2] exist mai multe etape n procesul de KDD (vezi Fig. 1)
Selectarea Preprocesarea Transformarea Extragerea datelor Interpretarea (evaluarea) rezultatelor

Fig. 1. Etapele procesului de KDD [1]

Introducere (2)
DM folosete o varietate de algoritmi grupate n principalele componente ale DM:
Modelul reprezentat printr-o funcie n spaiu unidimensional sau multidimensional Criteriile de preferin unele se pot baza pe ordonare, altele pe interpolare, etc Algoritmi de selecie conduc la selectarea modelului, a datelor i a criteriilor Stabilirea abaterilor algoritmi de determinare a deviaiei i stabilitii

Iniial, KDD i DM se foloseau pentru a denumi acelai lucru, dar n ultimul timp s-a fcut o difereniere clar: KDD se folosete pentru a extrage informaii din bazele de date, iar DM este procesul de aplicare a algoritmilor de descoperire a cunotinelor, fiind etap a procesului KDD.

Pattern-uri pentru data mining


Metodele statistice sunt cele mai apropiate metode tradiionale de analiz a datelor fa de data mining. [1] Data mining poate folosi date din depozite de date, nu numai din baze de date, ceea ce reprezint un avantaj. [1] n funcie de tipul obiectivelor propuse, se pot alege una sau mai multe metode. [1] Dup scopul funcional, metodele data mining sunt: [1]
Predictive realizeaz previziuni pentru sistemul sau fenomenul studiat Descriptive descriu fenomene din sistemul studiat, pe baza modelelor descoperite

n funcie de tipul de nvare exist doup metode de data mining: [1]

Metode supervizate de nvare definirea categoriilor iniiale se face de ctre un agent extern (ex. metode statistice, arbori de decizie, reele neuronale) Metode nesupervizate de invare nu se folosete etichetarea obiectelor (ex. Clustering, reguli de asociere)

Clasificarea sistemelor de data mining


Criterii de clasificare:
Categoria de depozit de date ce conine informaiile crora li se aplic procesul de DM:
Dup modelul de date folosit la construirea depozitului, exist sisteme de DM relaionale, tranzacionale, data warehouse, obiecturale, relaional-obiecturale sau heteorgene Dup tipul datelor manipulate, exist sisteme de DM temporale, secveniale, text, mutimedia, pentru fluxuri de date, pentru Web.

Categoria de tehnici integrate pentru ndeplinirea funciei:


Sisteme DM ce integreaz o singur tehnic (ex. Caracterizarea i discriminarea datelor, clasificare i predicie, grupare i analiz excepii) Sisteme DM ce integreaz tehnici multiple pentru a descoperi categorii diferite de modele

Nivelul de abstracie - sisteme DM ce extrag modele de date pe un singur nivel de abstracie sau pe mai multe nivele de abstacie Frecvena de aplicare sisteme ce prelucreaz datele regulat sau la intervale neregulate de timp Modul de interaciune sistemele DM pot interaciona (sau nu) cu utilizatorul n timpul procesului de extragere de date Metoda de analiz analizeaz datele n funcie de:
Modelul de date n jurul cruia se construiete depozitul de date Forma de analiz a datelor crora li se aplic data mining

Domeniul de aplicabilitate sisteme DM adaptate la specificul domeniilor de activitate (finane, comer, telecomunicaii, e-mail etc).

Metode clasice de data mining (1)


Cele mai cunoscute metode clasice de data mining sunt: Metodele statistice
Regresia Metodele lineare generalizate Arborii de regresie Analiza variabilitii Metodele cu efect mixt Analiza de factor Analiza discriminant Seriile de timp Analiza de supravieuire Tehnica k-NN presupune c ntregul set de antrenare include att datele ct i clasificrile dorite pentru fiecare item. K reprezint numrul de cazuri similare sau numrul de articole din grup. Algoritmul k-NN are doi parametri principali: [7]
numrul celor mai apropiate (similare) cazuri k o metric pentru msurarea similaritii

Vecinii - Algoritmul celor mai apropiai k-vecini

Algoritmul k-NN este bazat pe conceptul de distan iar aceasta necesit o metric pentru determinarea distanelor.

Metode clasice de data mining (2)


Clustering gruparea datelor multi-dimensioanle n clustere definite algoritmic
n general, pentru a putea folosi un algoritm de clasificare, este nevoie ca mai nti s se precizeze: [ 3]
a) Un tip de distan ntre punctele unui spaiu multidimensional. b) O strategie de alegere a punctului reprezentativ (adic a centrului) pentru orice grupare de puncte. Cei mai muli oameni au tendina de a alege media aritmetic (adic centrul de greutate). c) Un tip de distan ntre dou grupe de puncte. Cele mai folosite asemenea distane iau n considerare distana ntre puncte aleas anterior;

Odat ce au fost efectuate alegerile, un algoritm ierarhic de clasificare va funciona n felul urmtor: [8]
Pasul 1. Fiecare punct este considerat ca grup separat (de 1 punct). Pasul 2. Cele mai apropiate dou grupe sunt amalgamate ntr-o grupare mai mare (dendrogram, Fig. 2). Pasul 3. Se aplica o procedur de tiere asupra dendrogramei; n acest fel se identific numrul obiectiv de grupe (clusters), apoi componena fiecreia.

Fig. 2. Exemplu de dendrogram

Tehnici de noua generaie


Printre tehnicile de noua generaie pentru data mining se numr: arborii, reelele i regulile. Reelele
Reelele neuronale sunt sisteme dinamice, al cror comportament poate fi caracterizat prin urmrirea strilor la momente diferite de timp. Starea unei reele la un moment dat este definit de ansamblul nivelurilor de activare a neuronilor i de intensitile conexiunilor dintre neuroni. Reelele neuronale nu opereaz dect direct asupra variabilelor numerice . Pentru seturi de date cu numr mare de atribute, folosirea reelelor neuronale devine nefezabil . Reeaua odat instruit poate realiza predicii rapide pentru instane noi . Astfel, reelele neuronale sunt utilizate cu succes n probleme care necesit rspuns n timp real . Reelele neuronale nu restrictioneaz output-ul la un singur atribut.

Regulile de asociere

Msurile cheie n cadrul extragerii regulilor de asociere sunt suportul (la proporia n care o relaie apare n date) i ncrederea (probabilitatea de a gsi un antecedent avnd o consecin). Regulile de asociere se folosesc pentru a gsi mulimile frecvente de articole n bazele de date ce conin tranzaciile consumatorului, problem cunoscut sub denumirea de analiza coului de cumprturi (market basket analysis). n cazul analizei click-urilor se lucreaz pe o baz de date cu sesiunile serverului care nregistreaz solicitrile utilizatorilor. Determinarea linkurilor frecvente i a regulilor de asociere este esenial pentru problema analizei click-urilor, modul n care utilizatorii navigheaz pe Internet i acceseaz diverse site-uri.

Tehnici de noua generaie (2)


Arborii de decizie
Un arbore de decizie (Decision Tree) este un model de clasificare sau estimare care poate fi privit ca un arbore. Ideea de baz a algoritmilor de arbori de decizie este utilizarea unui criteriu de divizare pentru a determina cel mai predictiv factor i amplasarea lui ca prim punct de decizie n arbore i n continuare s execute o cutare de factori predictivi pentru a construi subarborii pn cnd nu mai exist date de procesat. Modelul de arbore de decizie va crea reguli asupra datelor de estimat variabila int . Dei arborii de decizie au fost dezvoltai iniial ca instrumente exploratorii pentru rafinarea i preprocesarea datelor pentru tehnici statistice, ei sunt din ce n ce mai mult utilizai pentru predicie . Algoritmul CART (Classification And Regression Trees):
Segmenteaz un set de date crend subarbori binari. Msura pe baza creia este preferat un predictor altuia este valoarea entropiei. Este relativ robust n raport cu datele lips. Dac o valoare lipsete pentru un predictor particular ntr-o nregistrare particular, la construirea arborelui acea nregistrare nu va fi utilizat n realizarea determinrii ramificrii optimale. Cnd CART este utilizat pentru a prezice asupra unor date noi, valorile lips pot fi manipulate prin intermediul substitutelor (surrogates). Substitutele sunt valori de ramificare i predictori care simuleaz ramificarea real din arbore i pot fi utilizate cnd lipsesc datele pentru predictorul dorit.

10

Tehnici de noua generaie (3)


Arborii de decizie (2):
Algoritmul CHAID (Chi Square Automatic Interaction Detection):
Segmenteaz setul de date crend subarbori oarecare Necesit de obicei o mai mare pregtire a datelor Este popular n cercetrile de marketing n contextul studiilor de segmentare a pieei Paii algoritmului sunt:
Pregtirea predictorilor. Fuziunea categoriilor. Selectarea valorii de separare.

11

Concluzii
Posibilitatea de stocare a volumelor mari de date duce la nevoia de a extrage diferite informaii pe baza acestor date. Astfel, folosirea Data Mining este util n vederea obinerii diferitelor statistici sau previziuni ntr-o gam larg de domenii. Fiind un domeniu relativ nou, metodele vechi de explorare a datelor (regresie, clostering) sunt nlocuite cu metode noi care sunt din ce n ce mai performante (de exemplu, arborii de decizie). Arborele de decizie i algoritmul care l creeaz pot fi complicai, ns rezultatul poate fi prezentat ntr-un mod uor de neles, lucru care poate fi extrem de folositor n luarea deciziilor n afaceri. Astfel arborele de decizie este situat n topul modelelor predictive. El poate fi utilizat ns, n egal msur, i n aplicaiile de clasificare ce sunt solicitate n diverse domenii cum ar fi experimentele tiinifice, aprobrile de credite, target marketing, store location, analizele financiare, customer segmentation, detectarea fraudelor etc. Se observ dou elemente interesante la acest tip de arbore: el divide datele la fiecare punct de ramificare fr s piard nici o dat, numrul total de nregistrri din nodul printe fiind egal cu suma nregistrrilor coninute n cei doi subarbori fii; este uor de neles cum a fost construit modelul, n contrast cu alte modele concurente cum ar fi reele neuronale etc. Datorit naltului lor nivel de automatism i uurinei de translatare a modelelor construite cu arbori de decizie n SQL, pentru utilizarea n baze de date relaionale, tehnologia este uor de integrat n procese IT deja existentele, necesitnd puin preprocesare i reducere a datelor, sau extragere a lor cu scop precis pentru Data Mining.

12

Bibliografie
[1] Arun K. Pujari Data mining techniques Universities Press, 2001 [2] Fayyad U.M., Piatetski-Shapiro G., Smyth P. and Uthurusamy R., Advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, 1996 [3] Barbara, D. An introduction to cluster analysis for data mining

Você também pode gostar