Escolar Documentos
Profissional Documentos
Cultura Documentos
Data mining
Tem de cas Reete de Calculatoare si Internet
Introducere (1)
Descoperirea de cunotine din bazele de date (Kowledge Discovery in Databases KDD) sau extragerea de date (Data Mining - DM) sunt folosite pentru a prelucra cantiti mari de informaii i date disponibile. Conform Fayyad [2] exist mai multe etape n procesul de KDD (vezi Fig. 1)
Selectarea Preprocesarea Transformarea Extragerea datelor Interpretarea (evaluarea) rezultatelor
Introducere (2)
DM folosete o varietate de algoritmi grupate n principalele componente ale DM:
Modelul reprezentat printr-o funcie n spaiu unidimensional sau multidimensional Criteriile de preferin unele se pot baza pe ordonare, altele pe interpolare, etc Algoritmi de selecie conduc la selectarea modelului, a datelor i a criteriilor Stabilirea abaterilor algoritmi de determinare a deviaiei i stabilitii
Iniial, KDD i DM se foloseau pentru a denumi acelai lucru, dar n ultimul timp s-a fcut o difereniere clar: KDD se folosete pentru a extrage informaii din bazele de date, iar DM este procesul de aplicare a algoritmilor de descoperire a cunotinelor, fiind etap a procesului KDD.
Metode supervizate de nvare definirea categoriilor iniiale se face de ctre un agent extern (ex. metode statistice, arbori de decizie, reele neuronale) Metode nesupervizate de invare nu se folosete etichetarea obiectelor (ex. Clustering, reguli de asociere)
Nivelul de abstracie - sisteme DM ce extrag modele de date pe un singur nivel de abstracie sau pe mai multe nivele de abstacie Frecvena de aplicare sisteme ce prelucreaz datele regulat sau la intervale neregulate de timp Modul de interaciune sistemele DM pot interaciona (sau nu) cu utilizatorul n timpul procesului de extragere de date Metoda de analiz analizeaz datele n funcie de:
Modelul de date n jurul cruia se construiete depozitul de date Forma de analiz a datelor crora li se aplic data mining
Domeniul de aplicabilitate sisteme DM adaptate la specificul domeniilor de activitate (finane, comer, telecomunicaii, e-mail etc).
Algoritmul k-NN este bazat pe conceptul de distan iar aceasta necesit o metric pentru determinarea distanelor.
Odat ce au fost efectuate alegerile, un algoritm ierarhic de clasificare va funciona n felul urmtor: [8]
Pasul 1. Fiecare punct este considerat ca grup separat (de 1 punct). Pasul 2. Cele mai apropiate dou grupe sunt amalgamate ntr-o grupare mai mare (dendrogram, Fig. 2). Pasul 3. Se aplica o procedur de tiere asupra dendrogramei; n acest fel se identific numrul obiectiv de grupe (clusters), apoi componena fiecreia.
Regulile de asociere
Msurile cheie n cadrul extragerii regulilor de asociere sunt suportul (la proporia n care o relaie apare n date) i ncrederea (probabilitatea de a gsi un antecedent avnd o consecin). Regulile de asociere se folosesc pentru a gsi mulimile frecvente de articole n bazele de date ce conin tranzaciile consumatorului, problem cunoscut sub denumirea de analiza coului de cumprturi (market basket analysis). n cazul analizei click-urilor se lucreaz pe o baz de date cu sesiunile serverului care nregistreaz solicitrile utilizatorilor. Determinarea linkurilor frecvente i a regulilor de asociere este esenial pentru problema analizei click-urilor, modul n care utilizatorii navigheaz pe Internet i acceseaz diverse site-uri.
10
11
Concluzii
Posibilitatea de stocare a volumelor mari de date duce la nevoia de a extrage diferite informaii pe baza acestor date. Astfel, folosirea Data Mining este util n vederea obinerii diferitelor statistici sau previziuni ntr-o gam larg de domenii. Fiind un domeniu relativ nou, metodele vechi de explorare a datelor (regresie, clostering) sunt nlocuite cu metode noi care sunt din ce n ce mai performante (de exemplu, arborii de decizie). Arborele de decizie i algoritmul care l creeaz pot fi complicai, ns rezultatul poate fi prezentat ntr-un mod uor de neles, lucru care poate fi extrem de folositor n luarea deciziilor n afaceri. Astfel arborele de decizie este situat n topul modelelor predictive. El poate fi utilizat ns, n egal msur, i n aplicaiile de clasificare ce sunt solicitate n diverse domenii cum ar fi experimentele tiinifice, aprobrile de credite, target marketing, store location, analizele financiare, customer segmentation, detectarea fraudelor etc. Se observ dou elemente interesante la acest tip de arbore: el divide datele la fiecare punct de ramificare fr s piard nici o dat, numrul total de nregistrri din nodul printe fiind egal cu suma nregistrrilor coninute n cei doi subarbori fii; este uor de neles cum a fost construit modelul, n contrast cu alte modele concurente cum ar fi reele neuronale etc. Datorit naltului lor nivel de automatism i uurinei de translatare a modelelor construite cu arbori de decizie n SQL, pentru utilizarea n baze de date relaionale, tehnologia este uor de integrat n procese IT deja existentele, necesitnd puin preprocesare i reducere a datelor, sau extragere a lor cu scop precis pentru Data Mining.
12
Bibliografie
[1] Arun K. Pujari Data mining techniques Universities Press, 2001 [2] Fayyad U.M., Piatetski-Shapiro G., Smyth P. and Uthurusamy R., Advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, 1996 [3] Barbara, D. An introduction to cluster analysis for data mining