Escolar Documentos
Profissional Documentos
Cultura Documentos
เสนอ
ดร.วรรณภา มหามณีรัตน์
คณะผู้จัดทำำ
2. นางอัจฉรา พูลโพธิท
์ อง รหัส 5020428006
สำขำเทคโนโลยีกำรตัดสินใจและกำรจัดกำร คณะสถิติประยุกต์
สถำบันบัณฑิตพัฒนบริหำรศำสตร์
2
AS714 Data Mining
คำำนำำ
ในปั จจุบน
ั แต่ละองค์กรมีการจัดเก็บข้อมูลลงในฐานข้อมูลท่ีมีขนาดใหญ่ขึ้น ตาม
การเจริญเติบโตของเศรษฐกิจ ข้อมูลมหาศาลเหล่านัน ้ หากมีการนำามาวิเคราะห์เพ่ ือหา
Knowledge Discovery in Databases (KDD) การค้นหาความรู้ในฐานข้อมูล หรือ เรียกอีกอย่าง
หน่ึงว่า Data mining คือ การค้นหาส่ิงท่ีสำาคัญของสารสนเทศท่ีมค
ี วามหมายโดยนัย ไม่
ทราบมาก่อน และมีแนวโน้มว่าจะมีประโยชน์ โดยทำาการค้นหาจากข้อมูลในฐานข้อมูล
งานทางด้าน Data Mining มีการใช้เทคนิคท่ีแตกต่างกันออกไปมากมาย และด้วยประโยชน์ท่ี
ได้รับจากการทำา Data Mining ซ่ึงเป็ นท่ีรู้จักกันอย่างแพร่หลายนัน
้ ทำาให้มีการ
พัฒนา Software ต่าง ๆ เพ่ ือช่วยวิเคราะห์ออกมามากมายเช่นกัน โดยหน่ึงใน Software ท่ีได้
รับความนิยมนัน
้ ได้แก่ Weka Software ซ่ึงนอกจากจะเป็ น Open source แล้ว ประสิทธภาพใน
การวิเคราะห์ก็ยังมีประสิทธิผลเป็ นท่ียอมรับ รวมทัง้ความสะดวกในการใช้งาน
จัดทำาโดย
กลุ่ม 10 (DTM#2)
19 กันยายน 2552
3
AS714 Data Mining
บทที่ 1
กำร Download โปรมแกรม WEKA
้ ตอนท่ี1: ไปท่ี address http://www.cs.waikato.ac.nz/ml/weka/
ขัน
รูปที่ 1
4
AS714 Data Mining
รูปที่ 2
้ ตอนท่ี4: หลังจากนัน
ขัน ้ จะมี web browser ขึ้นมาใหม่ และให้รอสักครู่ เพ่ ือรอหน้า
จอแสดงการยืนยันเพ่ ือ downloads แต่ถ้าหาก Pop up ไม่ขึ้น ให้ คลิก ท่ี “direct link”
หรือ “mirror” (ดังรูป 3)
5
AS714 Data Mining
รูปที่ 3
คลิกท่ี “Use this mirror” แล้วรอสักครู่
รูปที่ 4
6
AS714 Data Mining
คลิกป่ ุม “Run” เพ่ ือทำาการ Install WEKA โดยไม่ต้องการ save ไว้ท่ี Hard disk
คลิกป่ ุม “Save” เพ่ ือทำาการ save ไฟล์ “weak-3-6-1jre.exe”ไว้ท่ีฮาร์ดดิส เพ่ ือ
ทำาการ Install
(ในท่ีนีข้อเลือกการ Save)
รูปที่ 5
7
AS714 Data Mining
หลังจากนัน
้ เลือกท่ีเก็บไฟล์ Install
รูปที่ 6
รอการ Download
รูปที่ 7
8
AS714 Data Mining
รูปที่ 8
9
AS714 Data Mining
บทที่ 2
กำรลงโปรแกรม WEKA
้ ตอนท่ี 1: เปิ ดโปรแกรม Weka 3.6.1 ในกรณีนีโ้ปรแกรมถูกเก็บอยูท
ขัน ่ ่ี G: จึงเร่ิม
ต้นการทำางานด้วยการเปิ ด My Computer จากนัน
้ คลิกท่ี G:\
รูปที่ 9
10
AS714 Data Mining
รูปที่ 10
้ ตอนท่ี 3: เม่ ือรันหน้าจอโปรแกรม Weka 3.6.1 ขึ้นมา ให้คลิกท่ี Next เพ่ ือประมวล
ขัน
ผลต่อไป
รูปที่ 11
11
AS714 Data Mining
รูปที่ 12
จากภาพนี้ คลิกท่ี Next เพ่ ือทำาการ Install
รูปที่ 13
12
AS714 Data Mining
รูปที่ 14
13
AS714 Data Mining
รูปที่ 15
ภาพนีจ้ะแสดงการประมวลผลการติดตัง้โปรแกรม
รูปที่ 16
14
AS714 Data Mining
รูปที่ 17
รูปที่ 18
15
AS714 Data Mining
แสดงขัน
้ ตอนการเร่ิมติดตัง้ J2SE
รูปที่ 19
16
AS714 Data Mining
รูปที่ 20
17
AS714 Data Mining
โปรแกรมทำาการติดตัง้ลงสู่ C:\
รูปที่ 21
18
AS714 Data Mining
รูปที่ 22
รูปที่ 23
19
AS714 Data Mining
รูปที่ 24
รูปที่ 25
20
AS714 Data Mining
บทที่ 3
แนะนำำโปรแกรม WEKA
• WEKA ย่อมาจาก Waikato Environment for Knowledge Analysis
• WEKA เป็ น Software free ท่ีสามารถ download ภายใต้ GNU General Public License
• มีโมดูลย่อยสำาหรับจัดการข้อมูล
ประเภทของแฟ้ มข้อมูลท่ีรับได้
1. แฟ้ มข้อมูลท่ีรับต้องอยู่ในรูปแบบ ASCII อาจเป็ น arff, csv, C45
2. เก็บโดยใช้ ASCII
21
AS714 Data Mining
o บรรทัดถัดมาให้ใส่ลักษณะประจำาเรียงตามลำาดับ
• @data
• 1,2,3,4
22
AS714 Data Mining
ID,SEX,PASS/FAIL,Score,Class
1,M,Pass,45.5,B
2,F,Pass,56.78,B
3,M,Pass,89,A
4,F,Pass,77,A
5,M,Fail,32,C
6,F,Fail,12,D
7,M,Fail,35,C
หลังเปิ ดแฟ้ มข้อมูล sample01.csv
สถิติในซอฟต์แวร์ Weka
• ช่ ือของลักษณะประจำา
• จำานวนข้อมูลท่ีขาดหายไปเทียบเป็ นเปอร์เซ็นต์กับจำานวนข้อมูล
ทัง้หมด
• ค่าท่ีแตกต่างกันทัง้หมดในลักษณะประจำา
ตัวอย่ำงสถิติของลักษณะประจำำ SEX
o ช่ ือลักษณะประจำา SEX
o ชนิดของค่าของลักษณะประจำาเป็ น Nominal
o ในลักษณะประจำานีไ้ม่มีค่าท่ีหายไป
o ค่าท่ีแตกต่างกันมีเพียงสองค่าคือ M กับ F
o ค่าท่ีไม่ซ้ำาไม่มี
ตัวอย่ำงสถิติของลักษณะประจำำ SCORE
o ช่ ือลักษณะประจำา Score
o ชนิดของค่าของลักษณะประจำาเป็ น Numeric
o ในลักษณะประจำาไม่มีข้อมูลท่ีขาดหายไป
o จำานวนค่าท่ีแตกต่างกันทัง้หมดมี 10 ตัว
o ค่าแต่ละตัวมีเพียงหน่ ึงเดียว (ไมมีค่าท่ีซ้ำากันเลย)
24
AS714 Data Mining
• ค่าต่ำาสุด Minimum = 10
• ค่าสูงสุด Maximum = 89
• ค่าเฉล่ียเลขคณิต Mean = 48.728
• ส่วนเบ่ียงเบนมาตรฐาน StdDev = 26.585
รูปที่ 26
25
AS714 Data Mining
รูปที่ 27
รูปที่ 28
26
AS714 Data Mining
• Applications (ส่วนลูกศรสีเขียว)
2. Experimenter: โปรแกรมท่ีออกแบบการทดลองและการทดสอบผล
3. KnowledgeFlow: โปรแกรมออกแบบผังการไหลของความรู้
1. Program
ประกอบด้วยส่วนต่างๆดังนี้
27
AS714 Data Mining
รูปที่ 29
-Memory usage: แสดงหน่วยความจำาท่ีถก
ู ใช้
รูปที่ 30
-Exit: ออกจากโปรแกรม
2. Visualization
สำาหรับดูข้อมูลใน Weka ในหลายรูปแบบ ประกอบด้วยส่วนต่างๆดังนี้
28
AS714 Data Mining
รูปที่ 31
-ROC: แสดง ROC (receiver operating characteristic) curve ท่ีเก็บไว้ก่อนหน้านี้
รูปที่ 32
29
AS714 Data Mining
-GraphVisualizer: แสดงภาพกราฟ XML BIF หรือ DOT format เช่น Bayesian networks
-BoundaryVisualizer: อนุญาติให้แสดงขอบเขตการตัดสินใจประเภทข้อมูลในสอง
มิติ
รูปที่ 33
3. Tools
โปรแกรมอ่ ืนๆ ท่ีมีประโยชน์
30
AS714 Data Mining
รูปที่ 34
- SqlViewer: แสดง Sql เพ่ ือท่ีจะ query ข้อมูลทางฐานข้อมูล
4. Help
แหล่งท่ีมาบนอินเตอร์เนตสำาหรับ WEKA หาได้ท่ีน่ี
31
AS714 Data Mining
- SystemInfo: รายการภายในบางอย่างท่ีเก่ียวกับสภาพแวดล้อมของ
Java/WEKA เช่น the CLASSPATH
รูปที่ 35
32
AS714 Data Mining
บทที่ 4
Explorer
User Interface
Section Tabs
รูปที่ 36
1. Preprocess: การเตรียมข้อมูล
2. Classify: รวมโมดูลการทำาเหมืองข้อมูลแบบจัดแบ่งประเภท
3. Cluster: รวมโมดูลการทำาเหมืองข้อมูลแบบเกาะกลุ่ม
33
AS714 Data Mining
ส่วนประกอบอื่นของ Explorer
รูปที่ 37
Status Box
แสดงการประมวลผลปั จจุบันของซอฟต์แวร์ Weka มีการแจ้งการผิดพลาด
แต่ไม่มีรายละเอียด เม่ ือกดเมาส์ขวา เราสามารถเลือกการแสดงหน่วยความจำาท่ี
ใช้ได้
Log Button
แสดงบั น ทึ ก การเรี ย กใช้ งานซอฟต์ แวร์ Weka ทั ง้หมด ความผิด พลาดท่ี
เกิดขึ้นจะแสดงในส่วนนี้
Bird icon
แสดงรูปนกกีวี ถ้ามีการประมวลผลนกกีวีจะขยับตัวไปมา มิฉะนัน
้ จะนัง่
เฉยๆ
Graphical output
บริเวณแสดงตัวอย่างกราฟ
1. Preprocessing
Loading Data
1. Open file…
34
AS714 Data Mining
รูปที่ 38
2. Open URL…
รูปที่ 39
35
AS714 Data Mining
3. Open DB…
รูปที่ 40
4. Generate…
36
AS714 Data Mining
รูปที่ 41
รูปที่ 42
37
AS714 Data Mining
Supervised รวมโมดูลท่ีแปลงข้อมูลแบบอัตโนมัติท่ีมีการควบคุมด้วยพารามิเตอร์ท่ีผู้
ใช้กำาหนด แบ่งเป็ นสองหมวดใหญ่ คือ ลักษณะประจำา (attribute) กับข้อมูลแต่ละ
ระเบียน (instance)
รูปที่ 43
38
AS714 Data Mining
ตัวอย่างการใช้งาน Preprocess
สรุปค่าสถิติของลักษณะประจำา
ท่ีถูกเลือก
รายการของลักษณะ
ประจำาท่ีเลือกได้ กราฟหน่ึงตัวแปรของลักษณะ
ประจำาท่ีถกู เลือก ประจำาท่ีถูกเลือกไว้
กำรอ่ำนผลลัพธ์
จำานวนลักษณะประจำาท่ีมีทัง้หมด 5 ตัวเรียงตามลำาดับดังนี้
มีจำานวนระเบียนทัง้หมด 14 ระเบียน
39
AS714 Data Mining
40
AS714 Data Mining
กรำฟของหน่ึงตัวแปร
41
AS714 Data Mining
กรำฟของสองตัวแปร
42
AS714 Data Mining
สมกำรถดถอยและสหสัมพันธ์
o ซอฟต์แวร์ Weka คำานวณหาสมการถดถอยเชิงเส้น เฉพาะลักษณะประจำา
ท่ีเป็ นจำานวน
• นำาข้อมูลเข้าซอฟต์แวร์ Weka
• เลือกแถบ Classify
• ในกลุ่มของโมดูล Classifier กด Choose เลือกฟั งก์ชัน (Functions) แล้ว
เลือก LinearRegression
• เปล่ียน Test Option ให้ Use Training Set
• เลือกลักษณะประจำาใต้กล่อง Test Option เฉพาะท่ีมี (Num) ข้างหน้า
• กด Start
• ผลลัพธ์จะแสดงในกล่อง Classifier Output
43
AS714 Data Mining
2. Classification
รูปที่ 44
44
AS714 Data Mining
รูปที่ 45
เป็ นการสร้าตัวแบบ Classifier ท่ีสามารถแบ่งแยกข้อมูลออกตามคลาสหรือลักษณะ
ประจำาเป้ าหมายท่ีกำาหนด ตัวแบบท่ีต้องการอาจเป็ น
• bayes: ใช้หลักของเบย์หรือตัวแบบเชิงความน่าจะเป็ น
• meta: การทำาตัวแบบให้ดีขึ้นโดยการเรียนข้อมูลเมตา
• misc: วิธก
ี ารสร้างตัวแบบวิธอ
ี ่ ืน
• trees: การสร้างตัวแบบโดยใช้ต้นไม้
• rules: การสร้างตัวแบบโดยใช้กฎ
45
AS714 Data Mining
3. Clustering
รูปที่ 46
46
AS714 Data Mining
สมกำรถดถอยเชิงเส้นของ Petallength
• นำาข้อมูลเข้าซอฟต์แวร์ Weka
• เลือกแถบ Classify
• ในกลุ่มของโมดูล Classifier กด Choose เลือกฟั งก์ชัน (Functions) แล้ว
เลือก Logistic
• เปล่ียน Test Option ให้ Use Training Set
• เลือกลักษณะประจำาใต้กล่อง Test Option เฉพาะท่ีมี (Nom)
• กด Start
• ผลลัพธ์จะแสดงในกล่อง Classifier Output
47
AS714 Data Mining
สมกำรถดถอยเชิงเส้นของ Play
48
AS714 Data Mining
4. Associate
คลิกป่ ุม Choose เพ่ ือเลือก Associator
รูปที่ 47
หลังจากนัน
้ คลิกป่ ม
ุ Start จะแสดงผลลัพธ์ดังรูป 48
49
AS714 Data Mining
รูปที่ 48
5. Select Attribute
50
AS714 Data Mining
รูปที่ 49
51
AS714 Data Mining
รูปที่ 50
6. Visualize
52
AS714 Data Mining
รูปที่ 51
53
AS714 Data Mining
Appendix
54
AS714 Data Mining
ตัวกรองท่ีใช้ในซอฟต์แวร์ Weka
ตัวอย่ำงแฟ้ มข้อมูล sample01.cvs
ID.SEX,PASS/FAIL,Score,Class
1,M,Pass,45.5,B
2,F,Pass,56.78,B
3,M,Pass,89,A
4,F,Pass,77,A
5,M,Fail,32,C
6,F,Fail,12,D
7,M,Fail,35,C
8,F,Pass,62,B
9,M,Pass,68,B+
10,F,Fail,10,D
55
AS714 Data Mining
กำรใช้ตัวกรองในซอฟต์แวร์ Weka
o ตัวกรองแบ่งออกเป็ นสองลักษณะคือ
• Supervised รวมโมดูลท่ีแปลงข้อมูลแบบอัตโนมัติท่ีมีการควบคุมด้วย
พรารามิเตอร์ท่ีผู้ใช้กำาหนด แบ่งเป็ นสองหมวดใหญ่ คือลักษณะ
ประจำา (attribute) กับข้อมูลแต่ละระเบียน (instance)
56
AS714 Data Mining
ตัวกรอง
กำรกำำจัดลักษณะประจำำ
57
AS714 Data Mining
เรากำาจัดลักษณะประจำาท่ีไม่ต้องการออกโดยทำาเคร่ ืองหมายถูกหน้าลักษณะ
ประจำาท่ีต้องการแล้วกดป่ ุม Remove
ตัวกรองแบบอัตโนมัติ Supervised
o ประกอบด้วย
58
AS714 Data Mining
AttributeSelection
o ตัวกรองท่ีเลือกลักษณะประจำาท่ีนำามาวิเคราะห์แบบอัตโนมัติ โดยผู้ใช้
กำาหนดตัวประเมินในกล่อง evaluator และวิธีการค้นในกล่อง search
o กดป่ ุม OK
o แล้วกดป่ ุม Apply
ClassOrder
59
AS714 Data Mining
Discretize
60
AS714 Data Mining
o กดป่ ุม OK
o แล้วกดป่ ุม Apply
Discretize Help
NominalToBinary
61
AS714 Data Mining
Resample
62
AS714 Data Mining
SpreadSubsample
63
AS714 Data Mining
o ตัวกรองท่ีใช้สุ่มเลือกตัวอย่างท่ีมีการกำาหนดสัดส่วนของการกระจาย โดย
ผู้ใช้กำาหนดค่าการกระจายในกล่อง distributionSpread
StratifiedRemoveFolds
64
AS714 Data Mining
o แล้วกดป่ ุม Apply
ตัวกรองท่ีผู้ใช้กำำหนดเอง Unsupervised
o เราจะเลือกอธิบายตัวรองบางตัวเท่านัน
้ สำาหรับตัวกรองอ่ ืน ผู้ใช้สามารถ
อ่านได้จาก Help ของซอฟต์แวร์ Weka
65
AS714 Data Mining
ตัวกรองท่ีผู้ใช้กำำหนดเองกับลักษณะประจำำ
o Add filter
o AddExpression filter
o NominalToBinary filter
o NumericToBinary filter
o NumericTransform filter
o Remove filter
o Standardize filter
o AddCluster filter
o Discretize filter
o Normalize filter
o RemoveType filter
66
AS714 Data Mining
Add filter
o กดป่ ุม OK
o แล้วกดป่ ุม Apply
AddCluster filter
o กำาหนดลักษณะประจำาท่ีไม่นำามาใช้ในการการวิเคราะห์การเกาะกลุ่มใน
ignoredAttributeIndices
67
AS714 Data Mining
o กดป่ ุม OK
o แล้วกดป่ ุม Apply
AddExpression filter
o ตัวกรองเพ่ิมลักษณะประจำาตามนิพจน์จากลักษณะประจำาท่ีกำาหนด
เลือก addExpression พิมพ์นิพจน์ท่ีต้องการสร้างลักษณะประจำาใหม่
o กดป่ ุม OK
o แล้วกดป่ ุม Apply
Discretize filter
68
AS714 Data Mining
o กำาหนดจำานวนกล่องท่ีต้องการใน bins
o กดป่ ุม OK
o แล้วกดป่ ุม Apply
ผลกำรใช้ตัวกรอง Discretize
69
AS714 Data Mining
o กำาหนดดรรชนีของลักษณะประจำาใน attributeIndex
o กดป่ ุม OK
o แล้วกดป่ ุม Apply
NominalToBinary filter
o กดป่ ุม OK
70
AS714 Data Mining
o แล้วกดป่ ุม Apply
Normalize filter
o กดป่ ุม Apply
71
AS714 Data Mining
o กดป่ ุม Apply
o กดป่ ุม OK
o แล้วกด Apply
72
AS714 Data Mining
Remove filter
o กดป่ ุม OK
o แล้วกดป่ ุม Apply
RemoveType filter
o ตัวกรองกำาจัดลักษณะประจำาตามชนิดของลักษณะประจำาเลือก
RemoveType โดยเลือกชนิดท่ีต้องการกำาจัดใน attributeType
o กดป่ ุม OK
o แล้วกดป่ ุม Apply
ReplaceMissing Value
73
AS714 Data Mining
o ตัวกรองการแทนค่าท่ีขาดหายไปเลือก ReplaceMissingValue
• แทนด้วยค่าเฉล่ียสำาหรับลักษณะประจำาท่ีเป็ นจำานวน
o ตัวกรองเปล่ียนข้อมูลให้อยู่ในรูปท่ีมีการแจกแจงมาตรฐานโดยใช้ z-score
โดยเลือก
o กดป่ ุม OK
o แล้วกดป่ ุม Apply
74
AS714 Data Mining
ตัวกรองท่ีตัวกรองท่ีผู้ใช้กำำหนดเองกับระเบียน
o Randomize
o RemoveFolds
o RemovePercentage
o RemoveRange
o RemoveWithValues
o Resample
Randomize filter
o กดป่ ุม OK
o แล้วกดป่ ุม Apply
RemoveFold filter
75
AS714 Data Mining
o กดป่ ุม OK
o แล้วกดป่ ุม Apply
RemovePercentage filter
o กดป่ ุม OK
o แล้วกดป่ ุม Apply
76
AS714 Data Mining
RemoveRange filter
o กดป่ ุม OK
o แล้วกดป่ ุม Apply
RemoveWithValues filter
o กดป่ ุม OK
o แล้วกดป่ ุม Apply
Resample filter
o กดป่ ุม OK
o แล้วกดป่ ุม Apply
สรุป
o โมดูลในการเตรียมข้อมูลในซอฟต์แวร์ Weka เรียก ตัวกรอง (Filters) แบ่ง
ออกเป็ น
78
AS714 Data Mining
• Supervised
• Unsupervised
o นอกจากนีเ้ราเลือกใช้ตัวกรองกับลักษณะประจำา หรือระเบียบ
กำรทำำเหมืองข้อมูลแบบกฎเช่ ือมโยง
o ใช้กับ Market Basket analysis
o กฎบ่งบอกพฤติกรรมการซ้ือของลูกค้า
กำรเตรียมแฟ้ มข้อมูล
o ลักษณะประจำาของสินค้าคือช่ ือสินค้าท่ีพิจารณา
80
AS714 Data Mining
แฟ้ ม market.arff
81
AS714 Data Mining
กำรเลือกขัน
้ ตอนวิธี Apriori
o เลือกแถบ Associate
ตัวเลือกในขัน
้ ตอนวิธี Apriori
82
AS714 Data Mining
o ปรับค่า min confidence ในกล่อง minMetric โดย metricType เป็ น Confidence เช่น
0.5 (หมายถึงค่าความเช่ ือมัน
่ ต่ำาสุด 50%)
กำรประมวลผลของขัน
้ ตอนวิธี Apriori
83
AS714 Data Mining
16 กฎท่ีได้จำก market.arff
84
AS714 Data Mining
แฟ้ ม weather.nominal.arff
ผลลัพธ์ท่ีได้จำก weather.nominal.arff
85
AS714 Data Mining
8 กฎท่ีได้จำก weather.nominal.arff
86
AS714 Data Mining
o แฟ้ มข้อมูลท่ีถูกนำามาใช้ในการวิเคราะห์ต้องประกอบด้วยลักษณะประจำา
ท่ีเป็ น Nominal หรือ Ordinal เท่านัน
้
ต้นไม้กำรตัดสินใจในซอฟต์แวร์ Weka
o การทำาเหมืองข้อมูลการจัดจำาแนกประเภท Classification
87
AS714 Data Mining
o การเตรียมข้อมูลสำาหรับการจัดจำาแนกประเภท
o การเลือกใช้ต้นไม้การตัดสินใจ
กำรทำำเหมืองข้อมูลกำรจัดจำำแนกประเภท
o เป็ นการสร้างตัวแบบ Classifier ท่ีสามารถแบ่งแยกข้อมูล (ตัวอย่าง) ออก
ตามคลาสหรือลักษณะประจำาเป้ าหมายกำาหนด
o ตัวแบบท่ีต้องการอาจเป็ น
• Bayes ใช้หลักของเบย์หรือตัวแบบเชิงความน่าจะเป็ น
• Misc วิธีการสร้างตัวแบบวิธอ
ี ่ ืน
• Trees การสร้างตัวแบบโดยใช้ต้นไม้
• Rules การสร้างตัวแบบโดยใช้กฎ
88
AS714 Data Mining
ลักษณะประจำาเป้ าหมายเป็ น
ลักษณะประจำาสุดท้ายในตาราง
ตัวอย่างมีทัง้หมด 14 ตัวอย่าง
และมีลักษณะประจำาท่ีไม่ใช่
ลักษณะประจำาเป้ าหมาย 4 ตัว
กำรเตรียมแฟ้ มข้อมูล
o กำาหนดลักษณะประจำาเป้ าหมายให้เป็ นลักษณะประจำาสุดท้าย
89
AS714 Data Mining
o บางขัน ้ ตอนวิธีใช้สร้างต้นไม้การตัดสินใจต้องการลักษณะประจำาท่ีมีค่าไม่
ต่อเน่ ืองเท่านัน้ ดังนัน
้ เราจำาเป็ นต้องเปล่ียนลักษณะประจำาท่ีมีค่าต่อ
เน่ ืองให้เป็ นลักษณะประจำาท่ีมีค่าไม่ต่อเน่ ือง
o ในกรณีท่ีมีระเบียนน้อย เราอาจใช้ k-fold cross validation หรือ leave-one-out
o ในกรณีท่ีมีระเบียนมากพอ เราควรแบ่งกัน
้ ระเบียนบางส่วนเป็ น Validation,
Test data และท่ีเหลือนำามาใช้เป็ น Training data สัดส่วนท่ีใช้อาจเป็ น 3/10, 3/10
กับ 4/10
90
AS714 Data Mining
91
AS714 Data Mining
temperature มีค่าต่างกัน 3
ค่า
92
AS714 Data Mining
93
AS714 Data Mining
ผู้ใช้เลือกป่ ม
ุ choose ใต้
classifiers
เลือกป่ ุม classifiers
เลือกต้นไม้ trees
ผู้ใช้กำาหนดเลือก use
training set เพ่ ือใช้ทุก
ตัวอย่างในการสร้าง
ต้นไม้
ผู้ใช้เลือกลักษณะป
ประจำาเป้ าหมายท่ี
ต้องการ โดยปกติ
ลักษณะประจำาสุดท้าย
จะถูกเลือก
94
AS714 Data Mining
รายงานผลลัพธ์ของตัว
แบบ กับข้อมูล training
แฟ้ ม weather.arff
@relation weather
95
AS714 Data Mining
@data
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
rainy,70,96,FALSE,yes
rainy,68,80,FALSE,yes
rainy,65,70,TRUE,no
overcast,64,65,TRUE,yes
sunny,72,95,FALSE,no
sunny,69,70,FALSE,yes
rainy,75,80,FALSE,yes
sunny,75,70,TRUE,yes
overcast,72,90,TRUE,yes
96
AS714 Data Mining
overcast,81,75,FALSE,yes
rainy,71,91,TRUE,no
o กดป่ ุม OK
o แล้วกด Apply
กำรทำำเหมืองข้อมูลแบบจัดจำำแนกประเภท ID3
98
AS714 Data Mining
o เลือก Id3 ในกล่อง Classify ใต้แถบ Classify โดย classifiers trees Id3
o กดป่ ุม Start
o จะได้ผลลัพธ์ดังรูปด้านซ้าย
ต้นไม้ท่ีได้จำก ID3
99
AS714 Data Mining
a b <-- classified as
9 0 | a = yes
0 5 | b = no
กำรทำำเหมืองข้อมูลแบบจัดจำำแนกประเภท J48
100
AS714 Data Mining
o เลือก J48 ในกล่อง Classify ใต้แถบ Classify โดย classifiers trees J48
o กดป่ ุม Start
o จะได้ผลลัพธ์ดังรูปด้านซ้าย
101
AS714 Data Mining
ต้นไม้ท่ีได้จาก J48
a b <-- classified as
9 0 | a = yes
0 5 | b = no
สรุป
o การทำาเหมืองข้อมูลแบบจัดจำาแนกประเภท มีขัน
้ ตอนวิธีในการสร้างตัว
แบบมากมาย
o การใช้ต้นไม้ในการบ่งบอกตัวแบบก็เป็ นหน่ ึงในวิธีดังกล่าว
o สำาหรับขัน
้ ตอนวิธี Id3 ลักษณะประจำาทุกตัวต้องมีค่าไม่ต่อเน่ ือง
o แต่ขัน
้ ตอนวิธี J48 ลักษณะประจำาเป็ นต้องมีค่าไม่ต่อเน่ ือง
102
AS714 Data Mining
กำรทำำเหมืองข้อมูลกำรจัดจำำแนกประเภท
o ตัวแบบการทำาเหมืองข้อมูลแบบจำาแนกประเภท
• Bayes ใช้หลักของเบย์หรือตัวแบบเชิงความน่าจะเป็ น
• Meta ตัวแบบเมตา
• Misc วิธีการสร้างตัวแบบวิธอ
ี ่ ืน
• Trees ตัวแบบในรูปต้นไม้
• Rules ตัวแบบในรูปกฎ
กำรทำำเหมืองข้อมูลกำรจัดจำำแนกประเภท
o เร่ิมการทำางานของซอฟต์แวร์ Weka เปิ ดโมดูล Explorer
103
AS714 Data Mining
ตัวอย่ำงกำรเลือกหลักของเบย์อย่ำงง่ำย
104
AS714 Data Mining
o เลือกป่ ุม classifiers
o เลือก bayes
o เลือกขัน
้ ตอนวิธี NaïveBayesSimple
105
AS714 Data Mining
ผลลัพธ์ท่ีได้จำก NaiveBayesSimple
106
AS714 Data Mining
กำรใช้ตัวแบบ NaiveBayesSimple
o Pr(X|play=yes)·Pr(play=yes) = Pr(outlook=sunny|
o play=yes)·Pr(temperature=mild|play=yes)· Pr(humidity=normal|play=yes)
o Pr(X|play=no)·Pr(play=no) = Pr(outlook=sunny|
o play=no)·Pr(temperature=mild|play=no)· Pr(humidity=normal|play=no)
ปั ญหำของผลลัพธ์ของ NaiveBayesSimple
107
AS714 Data Mining
o กดป่ ุม Start
108
AS714 Data Mining
ผลลัพธ์ท่ีได้จำก NaiveBayes
a b <-- classified as
9 0 | a = yes
1 4 | b = no
สรุป
109
AS714 Data Mining
o การทำาเหมืองข้อมูลแบบจำาแนกประเภทใช้หลักของเบย์ ใข้การสร้าง
ตารางความถ่ี แล้วประมาณเป็ นความน่าจะเป็ นแบบมีเง่ ือนไข
o NaiveBayesSimple คือการใช้ความน่าจะเป็ นแบบมีเง่ ือนไข โดยท่ีสมมุติว่า
ลักษณะประจำาแต่ละลักษณะประจำาเป็ นอิสระต่อกัน
o NaiveBayes เป็ นการคำานวณหาค่าความน่าจะเป็ นแบบมีเง่ ือนไขโดยใช้
Laplace estimator (เติมหน่ ึงหน่วยในตารางความถ่ี)
ตัวแบบกำรทำำเหมืองข้อมูลแบบจัดจำำแนกประเภท
• Bayes ใช้หลักของเบย์หรือตัวแบบเชิงความน่าจะเป็ น
110
AS714 Data Mining
• Meta การทำาตัวแบบให้ดีขึ้นโดยการเรียนข้อมูลเมตา
• Misc วิธีการสร้างตัวแบบวิธอ
ี ่ ืน
• Trees การสร้างตัวแบบโดยใช้ต้นไม้
• Rules การสร้างตัวแบบโดยใช้กฎ
กำรทำำเหมืองแบบจำำแนกประเภท
• ตัวแบบเครือข่ายประสาทสามารถรับลักษณะประจำาท่ีมีค่าต่อเน่ ืองและค่า
ไม่ต่อเน่ ืองได้เลือกแถบ Classify
ตัวอย่ำงกำรเลือกเครือข่ำยประสำท
111
AS714 Data Mining
112
AS714 Data Mining
รูปภำพนำมธรรมของเครือข่ำยประสำม
113
AS714 Data Mining
ผลลัพธ์ท่ีได้จำกเครือข่ำยประสำท
114
AS714 Data Mining
กำรใช้ตัวแบบเครือข่ำยประสำท
• จากผลลัพธ์ของตัวแบบเครือข่ายประสาท เราพบว่าผลลัพธ์ท่ีได้คือค่าถ่วง
น้ำาหนัก การใช้งานผู้ใช้ต้องเปล่ียนค่าของตัวแปรนำาเข้าทัง้หมดเป็ น
จำานวน แล้วคำานวณค่าผลรวมของค่าถ่วงน้ำาหนักท่ีได้กับค่าของตัวแปร
นำาเข้า ผ่านฟั งก์ชันขอบแล้ว ส่งต่อไปจนถึง Output node
115
AS714 Data Mining
116
AS714 Data Mining
• หลังจากบันทึกตัวแบบเครือข่ายประสาท ผู้ใช้ต้องการทดสอบโดย
เตรียมข้อมูล Test data
• ขัน
้ ตอนในการทดสอบข้อมูล Test data
o เลือก classify
117
AS714 Data Mining
118
AS714 Data Mining
ผลลัพธ์ท่ีได้จำกเครือข่ำยประสำท
119
AS714 Data Mining
กำรเลือกค่ำท่ีทำำนำยจำกตัวแบบ
120
AS714 Data Mining
กำรอ่ำนค่ำท่ีทำำนำยจำกตัวแบบ
121
AS714 Data Mining
สรุป
• ขัน
้ ตอนวิธีการทำาเหมืองข้อมูลแบบจำาแนกประเภทโดยใช้เครือข่าย
ประสาทในซอฟต์แวร์ WEKA คือ MultiLayerPerceptron
• การเรียนรู้ท่ีเกิดขึ้นคือ การหาค่าถ่วงน้ำาหนักของเครือข่ายประสาทท่ี
เช่ ือมจาก Input Layer ไป Hidden Layer ไป Output Layer
• ปรกติผลลัพธ์ท่ีได้ของเครือข่ายประสาทจะมีประสิทธิภาพดี ผู้ใช้ต้องมี
การเลือกพารามิเตอร์ท่ีเหมาะสม เช่น Hidden nodes, learning rate,
momentum, training time
นิยำมผังกำรไหลของควำมรู้
122
AS714 Data Mining
• ผังการไหลของความรู้ คือแผนภาพท่ีแสดงถึงการได้มาของความรู้
(Knowledge) โดยผ่านกระบวนการ ขัน
้ ตอนวิธี การแสดงผลท่ีใช้ในการทำา
เหมืองข้อมูล
หน้ำจอเร่ิมต้นของผังกำรไหลของควำมรู้
123
AS714 Data Mining
รำยกำรของผังกำรไหลของควำมรู้
124
AS714 Data Mining
ส่วนประกอบหลักของผังกำรไหลของควำมรู้
125
AS714 Data Mining
• DataSources: กำาหนดแหล่งข้อมูลท่ีอ่านเข้าผัง
• DataSinks: กำาหนดการบันทึกข้อมูลหรือจุดสุดท้ายของกระบวนการ
• Filters: ขัน
้ ตอนการจัดการเตรียมข้อมูล
• Classifiers: การสร้างตัวแบบและวิธีการในการจัดจำาแนดประเภท
• Clusterers: การใช้ขัน
้ ตอนวิธีการวิเคราะห์การเกาะกลุ่ม
• Associations: การใช้ขัน
้ ตอนวิธีการหากฎเช่ ือมโยง
126
AS714 Data Mining
• เร่ิมจากเลือกแถบ DataSources
ตัวอย่ำงผังกำรไหลท่ีแสดงข้อควำมของข้อมูล
127
AS714 Data Mining
• เลือกแถบ Visualization
กำรแสดงผลของท่ีสัญลักษณ์ภำพนำมธรรม
128
AS714 Data Mining
• ผลลัพธ์ท่ีได้แสดงทางภาพด้านซ้าย
129
AS714 Data Mining
กำรเพ่ิมขัน
้ ตอนในกำรกรอง Missing value
130
AS714 Data Mining
กำรเพ่ิมขัน
้ ตอน Discretization
131
AS714 Data Mining
132
AS714 Data Mining
กำรเพ่ิมขัน
้ ตอน Normalization
133
AS714 Data Mining
กำรเพ่ิมขัน
้ ตอน Standardize
134
AS714 Data Mining
135
AS714 Data Mining
กำรบันทึกข้อมูลลงแฟ้ ม csv
• แปลงข้อมูลให้เหมาะสม
137
AS714 Data Mining
• เปล่ียนสถานท่ีท่ีต้องการเก็บไปตำาแหน่งท่ีต้องการเก็บ โดยเพ่ิม
prefix ให้กับช่ ือแฟ้ มท่ีต้องการ
โครงกำรทำำเหมืองข้อมูลโดยใช้ผังกำรไหล
138
AS714 Data Mining
• แนวทางวางผังการไหล:
• เร่ิมจากการอ่านแฟ้ ม iris.arff
• กำาหนดลักษณะประจำาท่ีใช้แทนคลาส
• ใช้ขัน
้ ตอนวิธี J48
• แสดงผลลัพธ์
กำรอ่ำน iris.arff
139
AS714 Data Mining
• เลือกคลาสเป้ าหมาย
140
AS714 Data Mining
141
AS714 Data Mining
กำรเรียกใช้ขัน
้ ตอนวิธี J48
142
AS714 Data Mining
กำรแสดงผลท่ีได้จำกผังกำรไหล
143
AS714 Data Mining
144
AS714 Data Mining
ผลลัพธ์ท่ีได้ในรูปเน้ือควำมของ J48
145
AS714 Data Mining
ผลลัพธ์ในรูปต้นไม้กำรตัดสินใจ
146
AS714 Data Mining
สรุป
• การออกแบบผังการไหลโดยปรกติ
• Filter ใช้ในการเตรียมข้อมูล
147
AS714 Data Mining
• Classifier/Clusterers/Association ใช้ในการสร้างตัวแบบในการทำาเหมือง
ข้อมูล
• Evaluation ใช้ในการเลือกตัวแบบ
• Visualization ใช้ในการแสดงผลลัพธ์ของการทำาเหมืองข้อมูล
• DataSinks ใช้ในการเก็บผลลัพธ์
ขัน
้ ตอนวิธีกำรวิเครำะห์กำรเกำะกลุม
่ ใน WEKA
• Cobweb ใช้หลักการจัดจำาแนกโดยต้นไมและความน่าจะเป็ น
• DBScan วิธีการเกาะกลุ่มโดยใช้ความหนาแน่น
• EM การเกาะกลุ่มโดยใช้ค่าคาดคะแนท่ีมากท่ีสุด
• FarthestFirst การเกาะกลุ่มโดยเลือกตัวท่ีไกลท่ีสุดก่อน
• MakeDensityBasedClusterer วิธีการเกาะกลุ่มท่ีใช้หลายวิธีรวมกัน
• OPTICS วิธีการเกาะกลุ่มโดยใช้หลักความหนาแน่น
• SimpleKMeans วิธีการเกาะกลุ่มแบบแบ่งกัน
้ โดยใช้ค่าเฉล่ียหรือฐานนิยม
• XMeans วิธีการเกาะกลุ่มท่ีไม่ต้องกำาหนดค่า K
148
AS714 Data Mining
ตัวอย่ำงกำรเลือกขัน
้ ตอนวิธีกำรเกำะกลุ่ม
แฟ้ ม weather.arff
@relation weather
149
AS714 Data Mining
@data
rainy,68,80,FALSE,yes
sunny,69,70,FALSE,yes
rainy,65,70,TRUE,no
overcast,64,65,TRUE,yes
sunny,85,85,FALSE,no
overcast,83,86,FALSE,yes
overcast,91,75,FALSE,yes
sunny,80,90,TRUE,no
sunny,72,95,FALSE,no
rainy,70,96,FALSE,yes
rainy,75,80,FALSE,yes
rainy,71,91,TRUE,no
overcast,72,90,TRUE,yes
sunny,75,70,TRUE,yes}
150
AS714 Data Mining
กำรเตรียมแฟ้ มข้อมูล
• กำาจัดลักษณะประจำาท่ีมีค่าเพียงค่าเดียวออก
• ในกรณีท่ีต้องการเปรียบเทียบการเกาะกลุ่มกับลักษณะประจำาเป้ าหมายท่ี
สนใจ ให้เลือก Classes to cluster evaluation ในการวิเคราะห์ ซอฟต์แวร์ WEKA
จะไม่ใช้ลักษณะประจำาเป้ าหมายในการคิดระยะ
ขัน
้ ตอนกำรเกำะกลุ่มโดย K-Means
151
AS714 Data Mining
• เลือกแถบ Cluster
ผลลัพธ์ท่ีได้จำก SimpleKMeans
152
AS714 Data Mining
153
AS714 Data Mining
• กราฟแสดงผลของการกำาหนดกลุ่มได้ดังภาพด้านขวา
สรุป
• การทำาเหมืองข้อมูลแบบการวิเคราห์การเกาะกลุ่มมีขัน
้ ตอนวิธีให้เลือก
ใช้อยู่ 9 แบบสำาหรับ WEKA 3.5.3
154
AS714 Data Mining
155