AS714 Final Project กลุ่ม 10 - Ver2.0

AS714 Data Mining
DATA MINING TOOL

WEKA
เสนอ
ดร.วรรณภา มหามณีรัตน์
คณะผู้จัดทำำ
1. นางสาวอารีวรรณ อ่อนเถ่ ือน รหัส 5020428005
2. นางอัจฉรา พูลโพธิท
์ อง รหัส 5020428006
3. นางสาวรัตติกาล เมืองแก้ว รหัส 5020428012
4. นางสาวกฤติยาวรรณ อุดมสุข รหัส

5020428016
เอกสำรนีเ้ป็ นส่วนหน่ึงของวิชำ AS 714 เหมืองข้อมูล

ภำคเรียนท่ี 1 ประจำำกำรศึกษำ 2552
1
AS714 Data Mining
สำขำเทคโนโลยีกำรตัดสินใจและกำรจัดกำร คณะสถิติประยุกต์
สถำบันบัณฑิตพัฒนบริหำรศำสตร์
2
AS714 Data Mining
คำำนำำ
ในปั จจุบน
ั แต่ละองค์กรมีการจัดเก็บข้อมูลลงในฐานข้อมูลท่ีมีขนาดใหญ่ขึ้น ตาม
การเจริญเติบโตของเศรษฐกิจ ข้อมูลมหาศาลเหล่านัน ้ หากมีการนำามาวิเคราะห์เพ่ ือหา
Knowledge Discovery in Databases (KDD) การค้นหาความรู้ในฐานข้อมูล หรือ เรียกอีกอย่าง
หน่ึงว่า Data mining คือ การค้นหาส่ิงท่ีสำาคัญของสารสนเทศท่ีมค
ี วามหมายโดยนัย ไม่
ทราบมาก่อน และมีแนวโน้มว่าจะมีประโยชน์ โดยทำาการค้นหาจากข้อมูลในฐานข้อมูล
งานทางด้าน Data Mining มีการใช้เทคนิคท่ีแตกต่างกันออกไปมากมาย และด้วยประโยชน์ท่ี
ได้รับจากการทำา Data Mining ซ่ึงเป็ นท่ีรู้จักกันอย่างแพร่หลายนัน
้ ทำาให้มีการ
พัฒนา Software ต่าง ๆ เพ่ ือช่วยวิเคราะห์ออกมามากมายเช่นกัน โดยหน่ึงใน Software ท่ีได้
รับความนิยมนัน
้ ได้แก่ Weka Software ซ่ึงนอกจากจะเป็ น Open source แล้ว ประสิทธภาพใน
การวิเคราะห์ก็ยังมีประสิทธิผลเป็ นท่ียอมรับ รวมทัง้ความสะดวกในการใช้งาน
จัดทำาโดย
กลุ่ม 10 (DTM#2)
19 กันยายน 2552
3
AS714 Data Mining
บทที่ 1
กำร Download โปรมแกรม WEKA
้ ตอนท่ี1: ไปท่ี address http://www.cs.waikato.ac.nz/ml/weka/
ขัน
้ ตอนท่ี2: คลิกท่ี Download ท่ีอยู่ซ้ายมือของเวปไซต์

ขัน
รูปที่ 1
4
AS714 Data Mining
้ ตอนท่ี3: เลือกในส่วนของ Windows (ดังรูป) เลือก

ขัน
Stable GUI version Windows  version “weka-3-6-1jre.exe” แล้วทำาการคลิกท่ี

“here”
้ ตอนท่ี4: หลังจากนัน
ขัน ้ จะมี web browser ขึ้นมาใหม่ และให้รอสักครู่ เพ่ ือรอหน้า
จอแสดงการยืนยันเพ่ ือ downloads แต่ถ้าหาก Pop up ไม่ขึ้น ให้ คลิก ท่ี “direct link”
หรือ “mirror” (ดังรูป 3)
5
AS714 Data Mining
คลิกท่ี “Use this mirror” แล้วรอสักครู่
6
AS714 Data Mining
้ ตอนท่ี5: หน้าจอแสดงการยืนยันเพ่ ือ Downloads

ขัน
 คลิกป่ ุม “Run” เพ่ ือทำาการ Install WEKA โดยไม่ต้องการ save ไว้ท่ี Hard disk
 คลิกป่ ุม “Save” เพ่ ือทำาการ save ไฟล์ “weak-3-6-1jre.exe”ไว้ท่ีฮาร์ดดิส เพ่ ือ
ทำาการ Install
(ในท่ีนีข้อเลือกการ Save)
 ป่ ุม “Cancel” เพ่ ือทำาการยกเลิก
7
AS714 Data Mining
หลังจากนัน
้ เลือกท่ีเก็บไฟล์ Install
รอการ Download
8
AS714 Data Mining
หน้าจอแสดงการ Download เสร็จสิน

้
9
AS714 Data Mining
บทที่ 2
กำรลงโปรแกรม WEKA
้ ตอนท่ี 1: เปิ ดโปรแกรม Weka 3.6.1 ในกรณีนีโ้ปรแกรมถูกเก็บอยูท
ขัน ่ ่ี G: จึงเร่ิม
ต้นการทำางานด้วยการเปิ ด My Computer จากนัน
้ คลิกท่ี G:\
10
AS714 Data Mining
้ ตอนท่ี 2: หลังจากเปิ ด G:\ แล้ว ให้คลิกท่ี weka-3-6-1jre เพ่ ือทำาการรันโปรแกรม

ขัน
้ ตอนท่ี 3: เม่ ือรันหน้าจอโปรแกรม Weka 3.6.1 ขึ้นมา ให้คลิกท่ี Next เพ่ ือประมวล
ขัน
ผลต่อไป
คลิกท่ี I Agree เพ่ ือแสดงการยอมรับ จากนัน

้ โปรแกรมจะประมวลผลหน้าถัดไป
11
AS714 Data Mining
จากภาพนี้ คลิกท่ี Next เพ่ ือทำาการ Install
12
AS714 Data Mining
เลือกสถานท่ีท่ีต้องการเก็บโปรแกรม ในกรณีนีจ้ะเลือก C:\ จากนัน

้ คลิก
ท่ี Next เพ่ ือดำาเนินการต่อไป
คลิก Install เพ่ ือเร่ิมต้นการติดตัง้โปรแกรม
13
AS714 Data Mining
ภาพนีจ้ะแสดงการประมวลผลการติดตัง้โปรแกรม
14
AS714 Data Mining
จากภาพท่ีแล้ว เม่ ือประมวลผลเสร็จแล้ว จะแสดงหน้าจอนีข้ึ้นมา เรา

ไม่ต้องคลิกปิ ด เพราะหน้าจอนีจ้ะถูกปิ ดโดยอัตโนมัติหลังจากการติดตัง้เสร็จ
เรียบร้อย
หน้าจอนีจ้ะแสดงขึ้นมาเพ่ ือบอกให้ทราบว่าโปรแกรมกำาลังจะติดตัง้ ถ้า

หากต้องการยกเลิกการติดตัง้ให้คลิกท่ี Cancel
15
AS714 Data Mining
แสดงขัน
้ ตอนการเร่ิมติดตัง้ J2SE
16
AS714 Data Mining
เลือก Typical แล้วคลิกท่ี Accept เพ่ ือยอมรับและดำาเนินการต่อ
17
AS714 Data Mining
โปรแกรมทำาการติดตัง้ลงสู่ C:\
18
AS714 Data Mining
คลิกท่ี Finish เพ่ ือเป็ นการยืนยันการติดตัง้โปรแกรมเสร็จเรียบร้อย
19
AS714 Data Mining
แสดงการเปิ ดโปรแกรม Weka 3.6.1
แสดงการหน้าจอการทำางานของโปรแกรม Weka 3.6.1
20
AS714 Data Mining
บทที่ 3
แนะนำำโปรแกรม WEKA
• WEKA ย่อมาจาก Waikato Environment for Knowledge Analysis
• WEKA เป็ น Software free ท่ีสามารถ download ภายใต้ GNU General Public License
• เขียนโดยใช้ภาษา Java ทัง้หมด
• สร้างขึ้นมาโดยเน้นกับ การเรียนรู้ดว้ ยเคร่ ือง (Machine Learning) กับการทำา

เหมืองข้อมูล
• มีโมดูลย่อยสำาหรับจัดการข้อมูล
• ใช้ Graphic User Interface / GUI และคำาสัง่ในการสัง่ให้ Software ประมวลผล
ประเภทของแฟ้ มข้อมูลท่ีรับได้
1. แฟ้ มข้อมูลท่ีรับต้องอยู่ในรูปแบบ ASCII อาจเป็ น arff, csv, C45
2. ในกรณีแฟ้ มข้อมูลอยู่ในเครือข่ายผู้ใช้สามารถเรียกใช้โดยอาศัย URL
3. หรืออาจใช้ข้อมูลท่ีอยู่ในฐานข้อมูลท่ีเช่ ือมโยงผ่าน JDBC
แฟ้ มข้อมูลแบบ Arff

1. ARFF = Attribute-Relation File Format
2. เก็บโดยใช้ ASCII
21
AS714 Data Mining
 @relation name เป็ นบรรทัดท่ีบอกช่ ือตารางข้อมูลเชิงสัมพันธ์
 @attribute att-name type เป็ นบรรทัดท่ีบอกช่ ือลักษณะประจำาและชนิด
 numeric หรือ real หมายถึงลักษณะประจำาเก็บเป็ นตัวเลข
 (v1, v2, …, vn) หมายถึงลักษณะประจำาเก็บค่าไม่ต่อเน่ ือง
 @data เป็ นบรรทัดท่ีบอกถึงแถวท่ีตามมาจะเป็ นข้อมูล แถวละหน่ ึง

ระเบียนเรียงตามลักษณะประจำาท่ีบอกไว้ข้างต้น คัน
่ ด้วยคอมมา
กำรเตรียมแฟ้ ม Arff
o ใช้โปรแกรมในการสร้าง text file ใดก็ได้ เช่น notepad
o บรรทัดแรกให้ใส่ @relation relation_name
o บรรทัดถัดมาให้ใส่ลักษณะประจำาเรียงตามลำาดับ
• @attribute att_name value
o ได้ @data ข้อมูลใส่เรียงตามลำาดับการปรากฏของลักษณะประจำา
• @data
• 1,2,3,4
ตัวอย่ำงแฟ้ มข้อมูล sample01.csv
22
AS714 Data Mining
ID,SEX,PASS/FAIL,Score,Class
1,M,Pass,45.5,B
2,F,Pass,56.78,B
3,M,Pass,89,A
4,F,Pass,77,A
5,M,Fail,32,C
6,F,Fail,12,D
7,M,Fail,35,C
หลังเปิ ดแฟ้ มข้อมูล sample01.csv
สถิติในซอฟต์แวร์ Weka
o สถิติหน่ ึงตัวแปร (Univariate Statistic) เป็ นการวิเคราะห์สถิติท่ีใช้เพียงหน่ ึง

ลักษณะประจำา = ตัวแปร ประกอบด้วย
• ช่ ือของลักษณะประจำา
• ชนิดของลักษณะประจำา มีเพียงสองชนิดคือ Nominal หรือ Numeric

23
AS714 Data Mining
• จำานวนข้อมูลท่ีขาดหายไปเทียบเป็ นเปอร์เซ็นต์กับจำานวนข้อมูล
ทัง้หมด
• ค่าท่ีแตกต่างกันทัง้หมดในลักษณะประจำา
• ค่าท่ีมีเพียงค่าเดียว คิดเป็ นเปอร์เซ็นต์เทียบกับค่าทัง้หมด
ตัวอย่ำงสถิติของลักษณะประจำำ SEX
o ช่ ือลักษณะประจำา SEX
o ชนิดของค่าของลักษณะประจำาเป็ น Nominal
o ในลักษณะประจำานีไ้ม่มีค่าท่ีหายไป
o ค่าท่ีแตกต่างกันมีเพียงสองค่าคือ M กับ F
• ค่าท่ีเป็ น M มีจำานวน 5 ตัว
• ค่าท่ีเป็ น F มีจำานวน 5 ตัว
o ค่าท่ีไม่ซ้ำาไม่มี
ตัวอย่ำงสถิติของลักษณะประจำำ SCORE
o ช่ ือลักษณะประจำา Score
o ชนิดของค่าของลักษณะประจำาเป็ น Numeric
o ในลักษณะประจำาไม่มีข้อมูลท่ีขาดหายไป
o จำานวนค่าท่ีแตกต่างกันทัง้หมดมี 10 ตัว
o ค่าแต่ละตัวมีเพียงหน่ ึงเดียว (ไมมีค่าท่ีซ้ำากันเลย)
24
AS714 Data Mining
• ค่าต่ำาสุด Minimum = 10
• ค่าสูงสุด Maximum = 89
• ค่าเฉล่ียเลขคณิต Mean = 48.728
• ส่วนเบ่ียงเบนมาตรฐาน StdDev = 26.585
หลักการใช้ Explorer ของ WEKA 3.6.1
เร่ิมการใช้โปรแกรม WEKA ด้วยการ คลิกท่ี ICON บนหน้าจอ
หรือทำาการเลือกท่ีเมนู Start Program  Weka 3.6.1  Weka 3.6
25
AS714 Data Mining
โปรแกรมหลักของ WEKA 3.6.1

โปรแกรมจะปรากฎหน้าจอหลัก (Weka GUI Chooser) จะประกอบด้วย 2 ส่วน ดังรูป
26
AS714 Data Mining
• Applications (ส่วนลูกศรสีเขียว)
1. Explorer: โปรแกรมท่ีออกแบบในลักษณะ GUI (Graphical User Interface)
2. Experimenter: โปรแกรมท่ีออกแบบการทดลองและการทดสอบผล
3. KnowledgeFlow: โปรแกรมออกแบบผังการไหลของความรู้
4. Simple CLI: เป็ นโปรแกรมท่ีรับคำาสัง่การทำางานผ่านการพิมพ์
• Menu bar (ส่วนลูกศรสีแดง)
1. Program
ประกอบด้วยส่วนต่างๆดังนี้
-LogWindow: เปิ ด log ทัง้หมดท่ีเก็บได้ ท่ีฝัง stdout หรือ stderr
27
AS714 Data Mining
-Memory usage: แสดงหน่วยความจำาท่ีถก
ู ใช้
-Exit: ออกจากโปรแกรม
2. Visualization
สำาหรับดูข้อมูลใน Weka ในหลายรูปแบบ ประกอบด้วยส่วนต่างๆดังนี้
-Plot: สำาหรับแสดงกราฟชุดข้อมูลในลักษณะ 2 มิติ
28
AS714 Data Mining
-ROC: แสดง ROC (receiver operating characteristic) curve ท่ีเก็บไว้ก่อนหน้านี้
-TreeVisualizer: สำาหรับแสดงกราฟมีทิศทาง (directed graphs) เช่น decision tree
29
AS714 Data Mining
-GraphVisualizer: แสดงภาพกราฟ XML BIF หรือ DOT format เช่น Bayesian networks
-BoundaryVisualizer: อนุญาติให้แสดงขอบเขตการตัดสินใจประเภทข้อมูลในสอง
มิติ
3. Tools
โปรแกรมอ่ ืนๆ ท่ีมีประโยชน์
- ArffViewer: โปรแกม MDI (Multiple Document Interface) ท่ีใช้ดู ARFF ไฟล์ในรูป

แบบ spreadsheet
30
AS714 Data Mining
- SqlViewer: แสดง Sql เพ่ ือท่ีจะ query ข้อมูลทางฐานข้อมูล
- Bayes net editor: โปรแกรมท่ีใช้แก้ไข,ทำาให้มองเห็น และ เรียนรู้เก่ียวกัน

Bayes nets
4. Help
แหล่งท่ีมาบนอินเตอร์เนตสำาหรับ WEKA หาได้ท่ีน่ี
- Weka homepage: เปิ ดหน้าต่าง Brower ไปท่ีโฮมเพจของ WEKA

(http://www.cs.waikato.ac.nz/~ml/weka/)
- HOWTOs,code snippets, etc.: Weka Wiki ทัว่ๆไป ท่ีรวบรวมตัวอย่างมากมาย

และ วิธีการพัฒนาและการใช้ของ WEKA (http://weka.wiki.sourceforge.net/)
31
AS714 Data Mining
- Weka on Sourceforge: โฮมเพจโปรเจ็คของ WEKA บน Sourceforge.net

(http://sourceforge.net/projects/weka/)
- SystemInfo: รายการภายในบางอย่างท่ีเก่ียวกับสภาพแวดล้อมของ
Java/WEKA เช่น the CLASSPATH
32
AS714 Data Mining
บทที่ 4
Explorer
User Interface
Section Tabs
1. Preprocess: การเตรียมข้อมูล
2. Classify: รวมโมดูลการทำาเหมืองข้อมูลแบบจัดแบ่งประเภท
3. Cluster: รวมโมดูลการทำาเหมืองข้อมูลแบบเกาะกลุ่ม
4. Associate: รวมโมดูลการทำาเหมืองข้อมูลแบบกฎเช่ ือมโยง
5. Select attributes: รวมโมดูลสำาหรับการวิเคราะห์ความเก่ียวพันของลักษณะ

ประจำา
6. Visualize: นำาเสนอข้อมูลด้วยภาพนามธรรมสองมิติ
33
AS714 Data Mining
ส่วนประกอบอื่นของ Explorer
Status Box
แสดงการประมวลผลปั จจุบันของซอฟต์แวร์ Weka มีการแจ้งการผิดพลาด
แต่ไม่มีรายละเอียด เม่ ือกดเมาส์ขวา เราสามารถเลือกการแสดงหน่วยความจำาท่ี
ใช้ได้
Log Button
แสดงบั น ทึ ก การเรี ย กใช้ งานซอฟต์ แวร์ Weka ทั ง้หมด ความผิด พลาดท่ี
เกิดขึ้นจะแสดงในส่วนนี้
Bird icon
แสดงรูปนกกีวี ถ้ามีการประมวลผลนกกีวีจะขยับตัวไปมา มิฉะนัน
้ จะนัง่
เฉยๆ
Graphical output
บริเวณแสดงตัวอย่างกราฟ
1. Preprocessing
Loading Data
1. Open file…
34
AS714 Data Mining
เม่ ือคลิกท่ีปุ่มจะปรากฎหน้าจอดังรูปด้านล่างเพ่ ือเลือกไฟล์ข้อมูลท่ี

เก็บไว้ใน Hard disk
2. Open URL…
เม่ ือคลิกท่ีปุ่มจะปรากฎหน้าจอดังรูปด้านล่างเพ่ ือให้ใส่ Address ท่ีจัด

เก็บข้อมูล
35
AS714 Data Mining
3. Open DB…
เม่ ือคลิกท่ีปุ่มจะปรากฎหน้าจอดังรูปด้านล่างเพ่ ืออ่านข้อมูลจาก

ฐานข้อมูล
4. Generate…
เม่ ือคลิกท่ีปุ่มจะปรากฎหน้าจอดังรูปด้านล่างเพ่ ือเลือกข้อมูลท่ีจัด

เก็บไว้หลากหลาย และเม่ ือคลิกท่ีปุ่ม choose จะปรากฎ DataGenerator
36
AS714 Data Mining
Working with filter
37
AS714 Data Mining
ตัวกรอง (Filters) รวบรวมโมดูลในขัน

้ การเตรียมข้อมูล จะแบ่งออกเป็ น 2 ลักษณะ คือ
 Supervised รวมโมดูลท่ีแปลงข้อมูลแบบอัตโนมัติท่ีมีการควบคุมด้วยพารามิเตอร์ท่ีผู้
ใช้กำาหนด แบ่งเป็ นสองหมวดใหญ่ คือ ลักษณะประจำา (attribute) กับข้อมูลแต่ละ
ระเบียน (instance)
 Unsupervised รวมโมดูลท่ีแปลงข้อมูลท่ีผู้ใช้กำาหนดเอง แบ่งเป็ นสองหมวดใหญ่ คือ

ลักษณะประจำา (attribute) กับข้อมูลแต่ละระเบียน (instance)
และหากต้องการเอาท่ีจะเอา Attribute ออก ทำาการกดป่ ุม Remove (รูปท่ี 43)
38
AS714 Data Mining
ตัวอย่างการใช้งาน Preprocess
กดปุ่ม Open file เปิดแฟ้ม weather.arff
สรุปค่าสถิติของลักษณะประจำา
ท่ีถูกเลือก
รายการของลักษณะ
ประจำาท่ีเลือกได้ กราฟหน่ึงตัวแปรของลักษณะ
ประจำาท่ีถกู เลือก ประจำาท่ีถูกเลือกไว้
กำรอ่ำนผลลัพธ์
 จำานวนลักษณะประจำาท่ีมีทัง้หมด 5 ตัวเรียงตามลำาดับดังนี้
- outlook, temperature, humidity, windy, play
 มีจำานวนระเบียนทัง้หมด 14 ระเบียน
 สำาหรับลักษณะประจำา outlook เป็ นลักษณะประจำาประเภท Nominal ท่ี

พิจารณาไม่มีข้อมูลในระเบียนท่ีขาดหายไป มีค่าท่ีแตกต่างกันทัง้หมด 3
ค่า ซ่ ึงแต่ละค่าไม่มีเพียงค่าเดียวเลย
 ค่าของลักษณะประจำาคือ sunny มี 5 ระเบียน overcast มี 4 ระเบียน rainy มี 5

ระเบียน
39
AS714 Data Mining
ลักษณะประจำำอ่ ืนๆ ใน weather.arff
40
AS714 Data Mining
กรำฟของหน่ึงตัวแปร
41
AS714 Data Mining
 ซอฟต์แวร์ Weka สามารถแสดงกราฟในมุมมองของแต่ละลักษณะประจำา

โดยใช้กราฟแท่ง โดยกดท่ี Visualize all
กรำฟของสองตัวแปร
 ซอฟต์แวร์ Weka แสดงกราฟระหว่างลักษณะประจำาสองลักษณะแถบ

Visualize
 กราฟดังกล่าวเรียกว่า Scatter plot ซ่ ึงแต่ละจุดแสดงระเบียนหน่ ึงระเบียน
แต่ละแกนแทนค่าของลักษณะประจำาแต่ละค่า
 เราปรับขนาดของกราฟโดยเปล่ียน PlotSize และเปล่ียนขนาดของจุด โดย
เปล่ียน PointSize แล้วกดป่ ุม Update
 สีของจุดส่ ือแต่ละคลาสท่ีปรากฎในข้อมูล
42
AS714 Data Mining
กำรเลือกแสดง Scatter Plot
 ซอฟต์แวร์ Weka สามารถเลือกแสดงกราฟของสองลักษณะประจำาคู่ใดๆ

 กดป่ ุม Select Attributes
 แล้วเลือกเฉพาะลักษณะประจำาท่ีต้องการพิจารณา (กด Ctrl ระหว่างเลือก)
 กดป่ ุม Update
สมกำรถดถอยและสหสัมพันธ์
o ซอฟต์แวร์ Weka คำานวณหาสมการถดถอยเชิงเส้น เฉพาะลักษณะประจำา
ท่ีเป็ นจำานวน
• นำาข้อมูลเข้าซอฟต์แวร์ Weka
• เลือกแถบ Classify
• ในกลุ่มของโมดูล Classifier กด Choose เลือกฟั งก์ชัน (Functions) แล้ว
เลือก LinearRegression
• เปล่ียน Test Option ให้ Use Training Set
• เลือกลักษณะประจำาใต้กล่อง Test Option เฉพาะท่ีมี (Num) ข้างหน้า
• กด Start
• ผลลัพธ์จะแสดงในกล่อง Classifier Output
43
AS714 Data Mining
2. Classification
44
AS714 Data Mining
เป็ นการสร้าตัวแบบ Classifier ท่ีสามารถแบ่งแยกข้อมูลออกตามคลาสหรือลักษณะ
ประจำาเป้ าหมายท่ีกำาหนด ตัวแบบท่ีต้องการอาจเป็ น
• bayes: ใช้หลักของเบย์หรือตัวแบบเชิงความน่าจะเป็ น
• functions: ตัวแบบในรูปของฟั งก์ชัน
• lazy: ตัวแบบท่ีเก็บตัวอย่าง การตัดสินใจเกิดเม่ ือตัวอย่างใหม่ถูกนำาเข้าเท่านัน

้
• meta: การทำาตัวแบบให้ดีขึ้นโดยการเรียนข้อมูลเมตา
• misc: วิธก
ี ารสร้างตัวแบบวิธอ
ี ่ ืน
• trees: การสร้างตัวแบบโดยใช้ต้นไม้
• rules: การสร้างตัวแบบโดยใช้กฎ
45
AS714 Data Mining
3. Clustering
46
AS714 Data Mining
สมกำรถดถอยเชิงเส้นของ Petallength
o ในกรณีท่ีลักษณะประจำาท่ีต้องการไม่ใช่จำานวน ให้ใช้ Logistic Regression
• นำาข้อมูลเข้าซอฟต์แวร์ Weka
• เลือกแถบ Classify
• ในกลุ่มของโมดูล Classifier กด Choose เลือกฟั งก์ชัน (Functions) แล้ว
เลือก Logistic
• เปล่ียน Test Option ให้ Use Training Set
• เลือกลักษณะประจำาใต้กล่อง Test Option เฉพาะท่ีมี (Nom)
• กด Start
• ผลลัพธ์จะแสดงในกล่อง Classifier Output
47
AS714 Data Mining
สมกำรถดถอยเชิงเส้นของ Play
48
AS714 Data Mining
4. Associate
คลิกป่ ุม Choose เพ่ ือเลือก Associator
หลังจากนัน
้ คลิกป่ ม
ุ Start จะแสดงผลลัพธ์ดังรูป 48
49
AS714 Data Mining
5. Select Attribute
50
AS714 Data Mining
51
AS714 Data Mining
6. Visualize
52
AS714 Data Mining
53
AS714 Data Mining
Appendix
54
AS714 Data Mining
ตัวกรองท่ีใช้ในซอฟต์แวร์ Weka
ตัวอย่ำงแฟ้ มข้อมูล sample01.cvs
ID.SEX,PASS/FAIL,Score,Class
1,M,Pass,45.5,B
2,F,Pass,56.78,B
3,M,Pass,89,A
4,F,Pass,77,A
5,M,Fail,32,C
6,F,Fail,12,D
7,M,Fail,35,C
8,F,Pass,62,B
9,M,Pass,68,B+
10,F,Fail,10,D
55
AS714 Data Mining
กำรใช้ตัวกรองในซอฟต์แวร์ Weka
o ตัวกรอง (Filters) รวบรวมโมดูลในขัน

้ การเตรียมข้อมูล
o ตัวกรองแบ่งออกเป็ นสองลักษณะคือ
• Supervised รวมโมดูลท่ีแปลงข้อมูลแบบอัตโนมัติท่ีมีการควบคุมด้วย
พรารามิเตอร์ท่ีผู้ใช้กำาหนด แบ่งเป็ นสองหมวดใหญ่ คือลักษณะ
ประจำา (attribute) กับข้อมูลแต่ละระเบียน (instance)
56
AS714 Data Mining
• Unsupervised รวมโมดูลท่ีแปลงข้อมูลท่ีผู้ใช้กำาหนดเอง แบ่งเป็ นสอง

หมวดใหญ่คือ ลักษณะประจำา (attribute) กับข้อมูลแต่ละระเบียน
(instance)
ตัวกรอง
กำรกำำจัดลักษณะประจำำ
57
AS714 Data Mining
เรากำาจัดลักษณะประจำาท่ีไม่ต้องการออกโดยทำาเคร่ ืองหมายถูกหน้าลักษณะ
ประจำาท่ีต้องการแล้วกดป่ ุม Remove
ตัวกรองแบบอัตโนมัติ Supervised
o ประกอบด้วย
• ลักษณะประจำา : AttrivuteSelection, ClassOrder, Discretize, NominalToBinary
• ระเบียน : Resample, SpreadSubsample, StratifiedREmoveFolds
58
AS714 Data Mining
AttributeSelection
o ตัวกรองท่ีเลือกลักษณะประจำาท่ีนำามาวิเคราะห์แบบอัตโนมัติ โดยผู้ใช้
กำาหนดตัวประเมินในกล่อง evaluator และวิธีการค้นในกล่อง search
o กดป่ ุม OK
o แล้วกดป่ ุม Apply
ClassOrder
59
AS714 Data Mining
o ตัวกรองเรียบฃำาดับคลาส โดยผู้ใช้กำาหนดการเรียงในกล่อง classOrder

และ seed
o กดป่ ุม OK แล้วกดป่ ุม Apply
Discretize
o ตัวกรองแปลงค่าต่อเน่ ืองให้เป็ นค่าไม่ต่อเน่ ือง โดยผู้ใช้เลือกลักษณะ

ประจำาท่ีต้องการเปล่ียนในกล่อง attributeIndices และผู้ใช้กำาหนดตัว
เลือกโดยดู Help ในหน้าถัดไป
60
AS714 Data Mining
Discretize Help
NominalToBinary
61
AS714 Data Mining
o ตัวกรองแปลงค่า Nominal ให้เป็ นค่า Binary โดยผู้ใช้กำาหนดค่าตัวเลือก
Resample
62
AS714 Data Mining
o ตัวกรองท่ีใช้สุ่มเลือกตัวอย่าง โดยมีการสุ่มแบบแทนค่ากลับคืน โดยผู้ใช้

กำาหนดค่าจำานวนตัวอย่างในกล่อง sampleSizePercent
SpreadSubsample
63
AS714 Data Mining
o ตัวกรองท่ีใช้สุ่มเลือกตัวอย่างท่ีมีการกำาหนดสัดส่วนของการกระจาย โดย
ผู้ใช้กำาหนดค่าการกระจายในกล่อง distributionSpread
StratifiedRemoveFolds
64
AS714 Data Mining
o ตัวกรองท่ีใช้สุ่มเลือกกลุ่มตัวอย่างออกเป็ นชุด fold โดยผู้ใช้กำาหนดตัว

เลือก
ตัวกรองท่ีผู้ใช้กำำหนดเอง Unsupervised
o เราจะเลือกอธิบายตัวรองบางตัวเท่านัน
้ สำาหรับตัวกรองอ่ ืน ผู้ใช้สามารถ
อ่านได้จาก Help ของซอฟต์แวร์ Weka
o ลักษณะประจำา : Add, AddCluster, AddExpression, AddNoise, ClusterMembership,

Copy, Discretize, FirstOrder, MakeIndicator, MergTwoValues, NominalToBinary, Normalize,
NumericToBinary, NumericTransform, Obfuscate, PKIDiscretize, NumericToBinary,
NumericTransform, Obfuscate, PKIDiscretize, RandomProjection, Remove, RemoveType,
65
AS714 Data Mining
RemoveUseless, ReplaceMissingValues, Standardize, StringToNominal,

StringToWordVector, Swap Values, TimeSeriesData, TimeSeriesTranslate
o ระเบียน : Normalize, NonSparseToSpare, Randomize, RemoveFolds,

RemoveMisclassified, RemovePercentage, RemoveRange, RemoveWithValues, Resample,
SparseToNonSparse
ตัวกรองท่ีผู้ใช้กำำหนดเองกับลักษณะประจำำ
o Add filter
o AddExpression filter
o NominalToBinary filter
o NumericToBinary filter
o NumericTransform filter
o Remove filter
o ReplaceMissing Values filter
o Standardize filter
o AddCluster filter
o Discretize filter
o Normalize filter
o RemoveType filter
66
AS714 Data Mining
Add filter
o ตัวกรองเพ่ิมลักษณะประจำา เลือก Add โดยเพ่ิมลักษณะประจำาท่ีมีค่าตัง้

ต้นคือ missing value
AddCluster filter
o ตัวกรองเพ่ิมลักษณะประจำาตามการเกาะกลุ่ม เลือก addCluster เลือกวิธี

การเกาะกลุ่มเช่น SimpleKMeans
o กำาหนดลักษณะประจำาท่ีไม่นำามาใช้ในการการวิเคราะห์การเกาะกลุ่มใน
ignoredAttributeIndices
67
AS714 Data Mining
AddExpression filter
o ตัวกรองเพ่ิมลักษณะประจำาตามนิพจน์จากลักษณะประจำาท่ีกำาหนด
เลือก addExpression พิมพ์นิพจน์ท่ีต้องการสร้างลักษณะประจำาใหม่
Discretize filter
68
AS714 Data Mining
o ตัวกรองแปลงเป็ นค่าไม่ต่อเน่ ือง ผู้ใช้เลือกลักษณะประจำาในช่อง

attributeIndices ตามลำาดับลักษณะประจำาท่ก ี ำาหนด
o กำาหนดจำานวนกล่องท่ีต้องการใน bins
o เราสามารถแบ่งแบบ equal width หรือ equal depth โดยปรับเป็ น False ท่ี

useEqualFrequency
ผลกำรใช้ตัวกรอง Discretize
MergeTwo Values filter
69
AS714 Data Mining
o ตัวกรองรวมค่าสองค่าเป็ นหน่ ึง เลือก MergeTwo Values
o กำาหนดดรรชนีของลักษณะประจำาใน attributeIndex
o กำาหนดค่าใน firstValueIndex และ secondValueIndex
NominalToBinary filter
o เลือกตัวกรองแปลงค่าไม่ต่อเน่ ืองเป็ นค่า 0 หรือ 1 เลือก NominalToBinary
o กำาหนดดรรชนีของลักษณะประจำาใน attributeIndices ท่ีต้องการ
70
AS714 Data Mining
Normalize filter
o ตัวกรองเปล่ียนเป็ นค่ามาตรฐานเลือก Normalize เพ่ ือปรับลักษณะประจำา

ทุกลักษณะประจำาเฉพาะลักษณะประจำาท่ีเป็ นจำานวน จะถูกแปลงให้มีค่า
อยู่ในช่วง 0-1 โดยใช้สูตร
o กดป่ ุม Apply
Numeric ToBinary filter
71
AS714 Data Mining
o ตัวกรองแปลงข้อมูลจำานวนให้เป็ นค่า 0 หรือ 1 เลือก NumericToBinary

โดยเปล่ียนทุกลักษณะประจำาท่ีเป็ นจำานวน ค่าจำานวนท่ีเป็ น 0 จะยังคง
ค่า 0 แต่ค่าท่ีไม่ใช่ 0 จะเปล่ียนเป็ น 1 ทัง้หมด
o กดป่ ุม Apply
Numeric Transform filter
o ตัวกรองแปลงโดยใช้ฟังก์ชันจำานวนเลือก NumericTransform จะแปลงค่า

ในลักษณะประจำาตามฟั งก์ชันท่ก
ี ำาหนดเช่น abs
o แล้วกด Apply
72
AS714 Data Mining
Remove filter
o ตัวกรองกำาจัดลักษณะประจำา เลือก Remove โดย attributeIndices
RemoveType filter
o ตัวกรองกำาจัดลักษณะประจำาตามชนิดของลักษณะประจำาเลือก
RemoveType โดยเลือกชนิดท่ีต้องการกำาจัดใน attributeType
ReplaceMissing Value
73
AS714 Data Mining
o ตัวกรองการแทนค่าท่ีขาดหายไปเลือก ReplaceMissingValue
• แทนด้วยค่าเฉล่ียสำาหรับลักษณะประจำาท่ีเป็ นจำานวน
• แทนด้วยฐานนิยมสำาหรับลักษณะประจำาท่ีเป็ นค่าไม่ต่อเน่ ือง

Standardize filter
o ตัวกรองเปล่ียนข้อมูลให้อยู่ในรูปท่ีมีการแจกแจงมาตรฐานโดยใช้ z-score
โดยเลือก
74
AS714 Data Mining
ตัวกรองท่ีตัวกรองท่ีผู้ใช้กำำหนดเองกับระเบียน
o Randomize
o RemoveFolds
o RemovePercentage
o RemoveRange
o RemoveWithValues
o Resample
Randomize filter
o ตัวกรองสลับสุ่ม เลือก Randomize เพ่ ือให้มก

ี ารเรียบระเบียนแบบสุ่ม
RemoveFold filter
75
AS714 Data Mining
o ตัวกรองกำาจัดชุดระเบียน เลือก RemoveFold เพ่ ือกำาจัดข้อมูลตามจำานวนชุด

ตามจำานวนชุดทัง้หมดใน numFolds
o กดป่ ุม Save เพ่ ือบันทึกชุดระเบียน
RemovePercentage filter
o ตัวกรองกำาจัดระเบียนตามเปอร์เซนต์เลือก RemovePercentage เพ่ ือลด

จำานวนข้อมูล โดยเอาออกเท่ากับจำานวนเปอร์เซ็นต์ท่ีกำาหนดใน
percentage
76
AS714 Data Mining
RemoveRange filter
o ตัวกรองกำาจัดระเบียนในพิสัยท่ีกำาหนดเลือก RemoveRange เพ่ ือลดจำานวน

ข้อมูลท่ีกำาหนดใน instancesindices
RemoveWithValues filter
o ตัวกรองกำาจัดข้อมูลตามค่า เลือก RemoveWith Values เพ่ ือลดจำานวนข้อมูล

ออกโดยใช้ attributeIndex
77
AS714 Data Mining
o ค่าท่ีต่ำากว่า splitPoint จะถูกกำาจัดทิง้
Resample filter
o ตัวกรองสุ่มใหม่ เลือก Resample เพ่ ือให้มีการสุ่มข้อมูลใหม่ โดยกำาหนด

เป็ นเปอร์เซ็นต์ใน sampleSizePercent
o กดป่ ุม save เพ่ ือบันทึกข้อมูล
สรุป
o โมดูลในการเตรียมข้อมูลในซอฟต์แวร์ Weka เรียก ตัวกรอง (Filters) แบ่ง
ออกเป็ น
78
AS714 Data Mining
• Supervised
• Unsupervised
o นอกจากนีเ้ราเลือกใช้ตัวกรองกับลักษณะประจำา หรือระเบียบ
กฎเช่ ือมโยงในซอฟต์แวร์ Weka

79
AS714 Data Mining
กำรทำำเหมืองข้อมูลแบบกฎเช่ ือมโยง
o ใช้กับ Market Basket analysis
o กฎบ่งบอกพฤติกรรมการซ้ือของลูกค้า
o ปรกติใช้กับฐานข้อมูลเชิงสัมพันธ์ท่ีบันทึกเป็ น Transaction โดยท่ีแต่ละ

ระเบียนคือการซ้ือสินค้าในหน่ ึงครัง้
o ผลลัพธ์ท่ีต้องการได้คือ กฎแสดงความสัมพันธ์ของการซ้ือสินค้าต่างชนิด
กันโดยไม่ขึ้นกับลูกค้าคนใดคนหน่ ึง
ข้อมูลท่ีนำำมำใช้
กำรเตรียมแฟ้ มข้อมูล
o ลักษณะประจำาของสินค้าคือช่ ือสินค้าท่ีพิจารณา
o ลักษณะประจำาตัวแรกคือรหัสการซ้ือสินค้า TID ท่ีไม่นำามาใช้ในการ

วิเคราะห์ ใช้เพ่ ือการเช่ ือมโยงกลับไปยังฐานข้อมูลเร่ิมต้นเท่านัน
้
80
AS714 Data Mining
o ค่าในลักษณะประจำาเป็ น Boolean เช่นกำาหนดค่าท่ีเป็ นไปได้คือ y แทนการ

ใช้ตัวเลข 1
• ตัวอย่าง การซ้ือ T100,I1,I2 เขียนเป็ น T100, 1, 1, ?, ?, ? ในซอฟต์แวร์

Weka สัญลักษณ์ ? แทนค่าท่ีหายไป (missing value)
แฟ้ ม market.arff
กำรเปิ ดแฟ้ ม Market.arff
81
AS714 Data Mining
กำรเลือกขัน
้ ตอนวิธี Apriori
o เลือกแถบ Associate
o ภายใต้ Associator เลือก Apriori
ตัวเลือกในขัน
82
AS714 Data Mining
o ปรับค่า min support ในกล่อง lowerBoundMinSuport เช่น 0.2 (หมายถึงค่า

สนับสนุนต่ำาสุด 20%)
o ปรับค่า min confidence ในกล่อง minMetric โดย metricType เป็ น Confidence เช่น
0.5 (หมายถึงค่าความเช่ ือมัน
่ ต่ำาสุด 50%)
o ปรับจำานวนกฎท่ีแสดงผลในกล่อง numRules เช่น 100
กำรประมวลผลของขัน
83
AS714 Data Mining
16 กฎท่ีได้จำก market.arff
ความหมายของกฎท่ี 1:การซ้ือสินค้าของลูกค้าท่ีมีสินค้า I5 แล้วจะมีสินค้า I1

เสมอ
ความหมายของกฎท่ี 2:การซ้ือสินค้าของลูกค้าท่ีมีสินค้า I4 แล้วจะมีสินค้า I2
เสมอ
ลักษณะข้อมูลท่ีไม่ใช่ตะกร้ำซ้ือ
84
AS714 Data Mining
o การทำาเหมืองข้อมูลแบบกฎเช่ ือมโยงสามารถนำาไปใช้กบ ั ข้อมูลท่ีไม่ใช่

transaction ได้ โดยใช้การเข้ารหัสของลักษณะประจำาเป็ นชนิด Nominal หรือ
Ordinal
o ซอฟต์แวร์ Weka ใช้การเข้ารหัส dummy coding คือซอฟต์แวร์จะแปลงค่าของ

Nominal หรือ Ordinal หน่ ึงค่าแทนด้วยตัวแปรทวิภาค เช่น
• ลักษณะประจำา outlook มีคา่ ท่ีเป็ นไปได้คือ overcast, sunny, rainy แล้ว

ตัวแปรทวิภาคเขียนได้เป็ น outlook = overcast, outlook = sunny, outlook =
rainy
แฟ้ ม weather.nominal.arff
ผลลัพธ์ท่ีได้จำก weather.nominal.arff
85
AS714 Data Mining
8 กฎท่ีได้จำก weather.nominal.arff
ความหมายของกฎท่ี 1:ถ้าสภาพอากาศเป็ น overcast แล้ว play = yes เสมอ
ความหมายของกฎท่ี 2:ถ้าอุณหภูมิเป็ น cool แล้วความช้ืนจะปรกติ (narmal) เสมอ
ความหมายของกฎท่ี 3:ถ้าความช้ืนปรกติและไม่มีลม windy = FALSE แล้ว play = yes

เสมอ
สรุป
86
AS714 Data Mining
o แฟ้ มข้อมูลท่ีถูกนำามาใช้ในการวิเคราะห์ต้องประกอบด้วยลักษณะประจำา
ท่ีเป็ น Nominal หรือ Ordinal เท่านัน
้
o ข้อมูลในลักษณะ transaction เป็ นข้อมูล Nominal และการไม่ซ้ือใช้? (missing

value) แทน
TID, atri_1, attri_2,…, attri_n
• เม่ ือ TID แทนรหัสการซ้ือและแต่ละ attri_i มีค่า y หรือ ?
o เลือก Associate และใช้ Apriori ใต้ Associator
o ปรับค่าพารามิเตอร์ min support กับ min confidence และ numRules ท่ีต้องการ

แล้วสัง่ให้ประมวลผล
ต้นไม้กำรตัดสินใจในซอฟต์แวร์ Weka
o การทำาเหมืองข้อมูลการจัดจำาแนกประเภท Classification
87
AS714 Data Mining
o การเตรียมข้อมูลสำาหรับการจัดจำาแนกประเภท
o การเลือกใช้ต้นไม้การตัดสินใจ
o ผลลัพธ์ท่ีได้โดยใช้ ID3 ซ่ ึงไม่ใช่ลก

ั ษณะประจำาท่ีเป็ นค่าต่อเน่ ือง
o ผลลัพธ์ท่ีได้โดยใช้ J48 ซ่ ึงไม่ใช่ลก

ั ษณะประจำาท่ีเป็ นค่าต่อเน่ ืองและไม่ต่อ
เน่ ือง
กำรทำำเหมืองข้อมูลกำรจัดจำำแนกประเภท
o เป็ นการสร้างตัวแบบ Classifier ท่ีสามารถแบ่งแยกข้อมูล (ตัวอย่าง) ออก
ตามคลาสหรือลักษณะประจำาเป้ าหมายกำาหนด
o ตัวแบบท่ีต้องการอาจเป็ น
• Bayes ใช้หลักของเบย์หรือตัวแบบเชิงความน่าจะเป็ น
• Functions ตัวแบบในรูปของฟั งก์ชัน
• Lazy ตัวแบบท่ีเก็บตัวอย่าง การตัดสินใจเกิดเม่ ือตัวอย่างใหม่ถูกนำา

เข้าเท่านัน
้
• Meta การทำาตัวแบบให้ดีขึ้น โดยการเรียนข้อมูลเมตา
• Misc วิธีการสร้างตัวแบบวิธอ
ี ่ ืน
• Trees การสร้างตัวแบบโดยใช้ต้นไม้
• Rules การสร้างตัวแบบโดยใช้กฎ
88
AS714 Data Mining
แฟ้ มตัวอย่ำง Weather.nominal.arff
ลักษณะประจำาเป้ าหมายเป็ น
ลักษณะประจำาสุดท้ายในตาราง
ตัวอย่างมีทัง้หมด 14 ตัวอย่าง
และมีลักษณะประจำาท่ีไม่ใช่
ลักษณะประจำาเป้ าหมาย 4 ตัว
o กำาหนดลักษณะประจำาเป้ าหมายให้เป็ นลักษณะประจำาสุดท้าย
89
AS714 Data Mining
o บางขัน ้ ตอนวิธีใช้สร้างต้นไม้การตัดสินใจต้องการลักษณะประจำาท่ีมีค่าไม่
ต่อเน่ ืองเท่านัน้ ดังนัน
้ เราจำาเป็ นต้องเปล่ียนลักษณะประจำาท่ีมีค่าต่อ
เน่ ืองให้เป็ นลักษณะประจำาท่ีมีค่าไม่ต่อเน่ ือง
o ในกรณีท่ีมีระเบียนน้อย เราอาจใช้ k-fold cross validation หรือ leave-one-out
o ในกรณีท่ีมีระเบียนมากพอ เราควรแบ่งกัน
้ ระเบียนบางส่วนเป็ น Validation,
Test data และท่ีเหลือนำามาใช้เป็ น Training data สัดส่วนท่ีใช้อาจเป็ น 3/10, 3/10
กับ 4/10
กำรใช้งำนซอฟต์แวร์ Weka explorer
90
AS714 Data Mining
o เร่ิมการทำางานของซอฟต์แวร์ Weka เปิ ดโมดูล Explorer
o เปิ ดแฟ้ ม Weather.nominal.arff
o แปลงลักษณะประจำาท่ีมีค่าต่อเน่ ืองเป็ นลักษณะประจำาท่ีมีค่าไม่ต่อเน่ ือง

โดยใช้ Filter ก่อนเลือกแถบ Classify
91
AS714 Data Mining
Outlook มีค่าต่างกัน 3 ค่า
temperature มีค่าต่างกัน 3
ค่า
92
AS714 Data Mining
humidity มีค่าต่างกัน 2 ค่า
windy มีค่าต่างกัน 2 ค่า
93
AS714 Data Mining
ผู้ใช้เลือกป่ ม
ุ choose ใต้
classifiers
เลือกป่ ุม classifiers
เลือกต้นไม้ trees
 ผู้ใช้กำาหนดเลือก use
training set เพ่ ือใช้ทุก
ตัวอย่างในการสร้าง
ต้นไม้
 ผู้ใช้เลือกลักษณะป
ประจำาเป้ าหมายท่ี
ต้องการ โดยปกติ
ลักษณะประจำาสุดท้าย
จะถูกเลือก
94
AS714 Data Mining
 รายงานผลลัพธ์ของตัว
แบบ กับข้อมูล training
 Confusion matrix แสดง

ค่าท่ีได้จากตัวแบบ (ด้าน
บน) กับค่าจริง (ด้านล่าง)
ผลลัพธ์ท่ีดีต้องไม่มีค่า
นอก diagonal
แฟ้ ม weather.arff
@relation weather
@attribute outlook {sunny, overcast, rainy}
@attribute temperature real
95
AS714 Data Mining
@attribute humidity real
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}
@data
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
rainy,70,96,FALSE,yes
rainy,65,70,TRUE,no
overcast,64,65,TRUE,yes
sunny,69,70,FALSE,yes
sunny,75,70,TRUE,yes
96
AS714 Data Mining
rainy,71,91,TRUE,no
กำรเปล่ียนลักษณะประจำำให้เป็ นค่ำไม่ต่อเน่ ือง
o เลือก Discretize ในกล่อง Filter โดยเลือก filter unsupervised attribute
o ปรับค่าในกล่อง bins ให้เหมาะสม เช่นกำาหนดให้เป็ น 3 กล่อง

97
AS714 Data Mining
o แล้วกด Apply
ผลท่ีได้จำกแปลงเป็ นค่ำไม่ต่อเน่ ือง
กำรทำำเหมืองข้อมูลแบบจัดจำำแนกประเภท ID3
98
AS714 Data Mining
o เลือก Id3 ในกล่อง Classify ใต้แถบ Classify โดย classifiers trees Id3
o เลือก Use Training set ในกล่อง Test option
o กดป่ ุม Start
o จะได้ผลลัพธ์ดังรูปด้านซ้าย
ต้นไม้ท่ีได้จำก ID3
99
AS714 Data Mining
ต้นไม้การตัดสินใจดังกล่าวสามารถจำาแนก play ถูกต้อง 100%
=== Confusion Matrix ===
a b <-- classified as
9 0 | a = yes
0 5 | b = no
กำรทำำเหมืองข้อมูลแบบจัดจำำแนกประเภท J48
100
AS714 Data Mining
o เลือก J48 ในกล่อง Classify ใต้แถบ Classify โดย classifiers trees J48
o เราไม่จำาเป็ นต้องเปล่ียนลักษณะประจำาให้เป็ นชนิดท่ีมีค่าไม่ต่อเน่ ือง
o เลือก Use Training set ในกล่อง Test option
o จะได้ผลลัพธ์ดังรูปด้านซ้าย
101
AS714 Data Mining
ต้นไม้ท่ีได้จาก J48
ต้นไม้การตัดสินใจดังกล่าวสามารถจำาแนก play ถูกต้อง 100%
9 0 | a = yes
0 5 | b = no
สรุป
o การทำาเหมืองข้อมูลแบบจัดจำาแนกประเภท มีขัน
้ ตอนวิธีในการสร้างตัว
แบบมากมาย
o การใช้ต้นไม้ในการบ่งบอกตัวแบบก็เป็ นหน่ ึงในวิธีดังกล่าว
o สำาหรับขัน
้ ตอนวิธี Id3 ลักษณะประจำาทุกตัวต้องมีค่าไม่ต่อเน่ ือง
o แต่ขัน
้ ตอนวิธี J48 ลักษณะประจำาเป็ นต้องมีค่าไม่ต่อเน่ ือง
102
AS714 Data Mining
o ตัวแบบการทำาเหมืองข้อมูลแบบจำาแนกประเภท
• Lazy ตัวแบบท่ีการตัดสินใจเกิดเม่ ือตัวอย่างใหม่ถูกนำาเข้า
• Meta ตัวแบบเมตา
ี ่ ืน
• Trees ตัวแบบในรูปต้นไม้
• Rules ตัวแบบในรูปกฎ
o เร่ิมการทำางานของซอฟต์แวร์ Weka เปิ ดโมดูล Explorer
103
AS714 Data Mining
o เปิ ดแฟ้ ม Weather.nominal.arff
o แปลงลักษณะประจำาท่ีมีค่าต่อเน่ ืองเป็ นลักษณะประจำาท่ีมีค่าไม่ต่อเน่ ือง

โดยใช้ Filter ก่อนเลือกแถบ Classify
ตัวอย่ำงกำรเลือกหลักของเบย์อย่ำงง่ำย
104
AS714 Data Mining
o ผู้ใช้เลือกป่ ุม choose ใต้ classifiers
o เลือกป่ ุม classifiers
o เลือก bayes
o เลือกขัน
้ ตอนวิธี NaïveBayesSimple
105
AS714 Data Mining
o ผู้ใช้กำาหนดเลือก use training set เพ่ ือใช้ทุกตัวอย่างในการสร้างตัวแบบของ

เบย์
o ผู้ใช้เลือกลักษณะประจำาเป้ าหมายท่ีต้องการ โดยปกติลักษณะประจำา
สุดท้ายจะถูกเลือก
o ผู้ใช้กดป่ ุม Start เพ่ ือเร่ิมสร้างตัวแบบของเบย์
ผลลัพธ์ท่ีได้จำก NaiveBayesSimple
106
AS714 Data Mining
กำรใช้ตัวแบบ NaiveBayesSimple
o สมมติว่าเราพบข้อมูล (outlook=sunny, temperature=mild,humidity=normal,

windy=TRUE)
o Pr(X|play=yes)·Pr(play=yes) = Pr(outlook=sunny|
o play=yes)·Pr(temperature=mild|play=yes)· Pr(humidity=normal|play=yes)
o ·Pr(windy=TRUE|play=yes)· Pr(play=yes) = 0.25·0.41667·0.63636·0.3636·0.625 =

0.015064
o Pr(X|play=no)·Pr(play=no) = Pr(outlook=sunny|
o play=no)·Pr(temperature=mild|play=no)· Pr(humidity=normal|play=no)
o ·Pr(windy=TRUE|play=no)· Pr(play=no) =0.5·0.375·0.2857·0.5714·0.375 = 0.011478
o เราสรุปว่า X ควรเป็ น yes
ปั ญหำของผลลัพธ์ของ NaiveBayesSimple
107
AS714 Data Mining
o ในกรณีค่าความน่าจะเป็ นบางช่วงเป็ นศูนย์ เราพบว่าหลักการของเบย์อาจ

ไม่สามารถเลือกค่าของคลาสเป้ าหมายท่ีต้องการได้ เพราะเม่ ือนำาความน่า
จะเป็ นศูนย์คูณด้วยตัวเลขใดๆ ก็จะได้คา่ ศูนย์
o วิธีการแก้ปัญหาใช้ Laplace Estimator กล่าวคือ การบวกหน่ ึงหน่วยเข้าในทุก
ค่าของตารางความถ่ี ก่อนการประมาณความน่าจะเป็ น
o หลักการดังกล่าวถูกใช้ใน NaiveBayes
กำรทำำเหมืองข้อมูลแบบจำำแนกประเภทด้วย NaiveBayes ท่ใี ช้ Laplace estimator
Confusion Matrix แสดง

ผลลัพธ์ท่ีได้จากการ
จำาแนกประเภทโดยตัวแบบ
กับข้อมูลจริง
o เลือก NaiveBayes ในกล่อง Classify ใต้แถบ Classify  โดย classifier bayes

 NaiveBayes
o เลือก Use training set ในกล่อง Test options
108
AS714 Data Mining
ผลลัพธ์ท่ีได้จำก NaiveBayes
Class yes: P(C) = 0.63
outlook: Discrete Estimator. Counts = 3 5 4 (Total = 12)
temperature: Discrete Estimator. Counts = 3 5 4 (Total = 12)
humidity: Discrete Estimator. Counts = 4 7 (Total = 11)
windy: Discrete Estimator. Counts = 4 7 (Total = 11)
Class no: P(C) = 0.38
outlook: Discrete Estimator. Counts = 4 1 3 (Total = 8)
temperature: Discrete Estimator. Counts = 3 3 2 (Total = 8)
humidity: Discrete Estimator. Counts = 5 2 (Total = 7)
windy: Discrete Estimator. Counts = 4 3 (Total = 7)
9 0 | a = yes
1 4 | b = no
o ตัวแบบของเบย์ท่ีได้สามารถจำาแนก play ถูกต้อง 92.8571%
สรุป
109
AS714 Data Mining
o การทำาเหมืองข้อมูลแบบจำาแนกประเภทใช้หลักของเบย์ ใข้การสร้าง
ตารางความถ่ี แล้วประมาณเป็ นความน่าจะเป็ นแบบมีเง่ ือนไข
o NaiveBayesSimple คือการใช้ความน่าจะเป็ นแบบมีเง่ ือนไข โดยท่ีสมมุติว่า
ลักษณะประจำาแต่ละลักษณะประจำาเป็ นอิสระต่อกัน
o NaiveBayes เป็ นการคำานวณหาค่าความน่าจะเป็ นแบบมีเง่ ือนไขโดยใช้
Laplace estimator (เติมหน่ ึงหน่วยในตารางความถ่ี)
o การกำาหนดคลาสของตัวอย่างจากตัวแบบ NaiveBayes คำานวณโดยหาค่า

ความน่าจะเป็ นของคลาสท่ีมากท่ีสุด
ตัวแบบกำรทำำเหมืองข้อมูลแบบจัดจำำแนกประเภท
110
AS714 Data Mining
• Lazy ตัวแบบท่ีการตัดสินใจเกิดเม่ ือตัวอย่างใหม่ถูกนำาเข้า
• Meta การทำาตัวแบบให้ดีขึ้นโดยการเรียนข้อมูลเมตา
ี ่ ืน
• Trees การสร้างตัวแบบโดยใช้ต้นไม้
• Rules การสร้างตัวแบบโดยใช้กฎ
กำรทำำเหมืองแบบจำำแนกประเภท
• เร่ิมการทำางานของซอฟต์แวร์ WEKA เปิ ดโมดูล Explorer
• เปิ ดแฟ้ ม weather.arff
• ตัวแบบเครือข่ายประสาทสามารถรับลักษณะประจำาท่ีมีค่าต่อเน่ ืองและค่า
ไม่ต่อเน่ ืองได้เลือกแถบ Classify
ตัวอย่ำงกำรเลือกเครือข่ำยประสำท
111
AS714 Data Mining
112
AS714 Data Mining
รูปภำพนำมธรรมของเครือข่ำยประสำม
113
AS714 Data Mining
ผลลัพธ์ท่ีได้จำกเครือข่ำยประสำท
114
AS714 Data Mining
กำรใช้ตัวแบบเครือข่ำยประสำท
• จากผลลัพธ์ของตัวแบบเครือข่ายประสาท เราพบว่าผลลัพธ์ท่ีได้คือค่าถ่วง
น้ำาหนัก การใช้งานผู้ใช้ต้องเปล่ียนค่าของตัวแปรนำาเข้าทัง้หมดเป็ น
จำานวน แล้วคำานวณค่าผลรวมของค่าถ่วงน้ำาหนักท่ีได้กับค่าของตัวแปร
นำาเข้า ผ่านฟั งก์ชันขอบแล้ว ส่งต่อไปจนถึง Output node
• การคำานวณดังกล่าวมักมีความยุ่งยาก เพ่ ือให้ผู้ใช้ซอฟต์แวร์ WEKA

สามารถนำาตัวแบบไปใช้ได้ ผู้ใช้ต้องบันทึกตัวแบบ แล้วใช้ตัวแบบกับ
แฟ้ มตัวอย่างกำาหนด
115
AS714 Data Mining
116
AS714 Data Mining
กำรใช้ตัวแบบเครือข่ำยประสำทกับ test data
• หลังจากบันทึกตัวแบบเครือข่ายประสาท ผู้ใช้ต้องการทดสอบโดย
เตรียมข้อมูล Test data
• ขัน
้ ตอนในการทดสอบข้อมูล Test data
o ใช้ซอฟต์แวร์ WEKA เปิ ด Test data
o เลือก classify
o กดเมาส์ขวาท่ีกล่อง Result list เลือก Load model
o เลือก Supplied test set เปิ ดแฟ้ ม Test data
o กดเมาส์ขวา เลือก Re-evaluate model on current test set
117
AS714 Data Mining
118
AS714 Data Mining
ผลลัพธ์ท่ีได้จำกเครือข่ำยประสำท
119
AS714 Data Mining
กำรเลือกค่ำท่ีทำำนำยจำกตัวแบบ
120
AS714 Data Mining
กำรอ่ำนค่ำท่ีทำำนำยจำกตัวแบบ
• ผู้ใช้สามารถดูผลลัพธ์ท่ีทำานายเปรียบเทียบกับคลาสเป้ าหมาย โดย

ใช้ ArffViewer
• ลักษณะประจำาท่ีได้จากการทำานายจะขึ้นด้วยคำาว่า Predicted แล้วตาม

ด้วยช่ ือคลาสเป้ าหมาย เช่น คลาสเป้ าหมายช่ ือ class ได้คลาสทำานาย
ช่ ือ predictedclass
121
AS714 Data Mining
สรุป
• ขัน
้ ตอนวิธีการทำาเหมืองข้อมูลแบบจำาแนกประเภทโดยใช้เครือข่าย
ประสาทในซอฟต์แวร์ WEKA คือ MultiLayerPerceptron
• การเรียนรู้ท่ีเกิดขึ้นคือ การหาค่าถ่วงน้ำาหนักของเครือข่ายประสาทท่ี
เช่ ือมจาก Input Layer ไป Hidden Layer ไป Output Layer
• ปรกติผลลัพธ์ท่ีได้ของเครือข่ายประสาทจะมีประสิทธิภาพดี ผู้ใช้ต้องมี
การเลือกพารามิเตอร์ท่ีเหมาะสม เช่น Hidden nodes, learning rate,
momentum, training time
นิยำมผังกำรไหลของควำมรู้
122
AS714 Data Mining
• ผังการไหลของความรู้ คือแผนภาพท่ีแสดงถึงการได้มาของความรู้
(Knowledge) โดยผ่านกระบวนการ ขัน
้ ตอนวิธี การแสดงผลท่ีใช้ในการทำา
เหมืองข้อมูล
• แผนภาพท่ีสร้างใช้สัญลักษณ์ (Icon) ท่ีส่ือถึงกระบวนการ ขัน

้ ตอน วิธี
การแสดงผลหน่ ึงลักษณะหรือหน่ ึงแบบ
• เส้นท่ีเช่ ือมโยงระหว่างสัญลักษณ์แสดงการไหลของข้อมูล (Data) ท่ีผ่าน

กระบวนการ (icon) จนถึงความรู้ท่ีได้
ตัวอย่าง การไหลของข้อมูลเพ่ ือให้ได้ความรู้
DataSources  Filter  Classifier  Evaluator  Visualization
หน้ำจอเร่ิมต้นของผังกำรไหลของควำมรู้
123
AS714 Data Mining
รำยกำรของผังกำรไหลของควำมรู้
New Layout สร้างผังการไหล
Save Layout เก็บผังท่ีสร้างไว้ใน Knowledge Flow

Layout บันทึกลง แฟ้ มข้อมูลเพ่ ือนำากลับมาใช้
Open Layout เปิ ดแฟ้ มข้อมูลท่ีเก็บผังท่ีสร้างไว้

แล้ว เพ่ ือนำากลับมาใช้ใหม่
Selection เปล่ียนเมาส์ให้เป็ นตัวชี เ้พ่ ือเลือก

ภาพสัญลักษณ์หรือเส้นเช่ ือม
124
AS714 Data Mining
Display help แสดงข้อความอธิบายการใช้เคร่ ือง

มือของผังการไหลของความรู้
Stop all execution หยุดการประมวลผลทุก

อย่างท่ีเกิดข่ึน
ส่วนประกอบหลักของผังกำรไหลของควำมรู้
125
AS714 Data Mining
• DataSources: กำาหนดแหล่งข้อมูลท่ีอ่านเข้าผัง
• DataSinks: กำาหนดการบันทึกข้อมูลหรือจุดสุดท้ายของกระบวนการ
• Filters: ขัน
้ ตอนการจัดการเตรียมข้อมูล
• Classifiers: การสร้างตัวแบบและวิธีการในการจัดจำาแนดประเภท
• Clusterers: การใช้ขัน
้ ตอนวิธีการวิเคราะห์การเกาะกลุ่ม
• Associations: การใช้ขัน
้ ตอนวิธีการหากฎเช่ ือมโยง
• Evaluation: ประเมินและแบ่งเซตข้อมูลออกเป็ นส่วนๆ
• Visualization: สำาหรับแสดงผลลัพธ์ดว้ ยภาพนามธรรม
126
AS714 Data Mining
• เร่ิมจากเลือกแถบ DataSources
• เลือกสัญลักษณ์ ArffLoader เมาส์เปล่ียนเป็ นเคร่ ืองหมายกากบาท
• กดเมาท์ในบริเวณ Knowledge Flow Layout
• กดเมาส์ปุ่มขาท่ี ArffLoader เลือก Configure
• เลือกแฟ้ มท่ีช่ือ weather.arff
ตัวอย่ำงผังกำรไหลท่ีแสดงข้อควำมของข้อมูล
127
AS714 Data Mining
• เลือกแถบ Visualization
• กดเมาท์ท่ี Text Viewer เมาส์ เปล่ียนเป็ นเคร่ ืองหมายกากบาท
• กดเมาท์ปุ่มขวาเพ่ ือเช่ ือม ArffLoader ไปยัง TextViewer โดยเลือก dataset

บนเมนูของ weather.arff
• กดเมาท์ปุ่มขวาท่ี ArffLoader โดยเลือก Start loading ใต้รายการ Action
กำรแสดงผลของท่ีสัญลักษณ์ภำพนำมธรรม
128
AS714 Data Mining
• หลังจากเลือก Start loading ได้รายการ Action ของ ArffLoader
• ช่ ือแฟ้ มท่ีอ่านจะปรากฎใต้ภาพ ArffLoader
• แสดงข้อความโดยเลือก Show results ภายใต้รายการใน TextViewer

โดยกดเมาส์ปุ่มขวา
• ผลลัพธ์ท่ีได้แสดงทางภาพด้านซ้าย
129
AS714 Data Mining
กำรเพ่ิมขัน
้ ตอนในกำรกรอง Missing value
• เร่ิมจาก DataSources โดยใช้ ArffLoader
• เลือก Configure.. แล้วเลือกแฟ้ ม labor.arff
• เลือกแถบ Filters ท่ีเรียก Replace Missing Values เพ่ ือเติมค่าท่ีหายไป
• เลือกแถบ Visualization แล้วเลือก TextViewer เพ่ ือแสดงผลลัพธ์
130
AS714 Data Mining
้ ตอน Discretization
131
AS714 Data Mining
• เลือก Configure… แล้วเลือกแฟ้ ม lobor.arff
• เลือกแถบ Filters แล้วเลือก Discretize เพ่ ือเปล่ียนตัวแปรท่ีมีค่าต่อ

เน่ ืองเป็ นตัวแปรท่ีมีค่าไม่ต่อเน่ ือง
• เลือก TextViewer จากแถบ Visualization
132
AS714 Data Mining
้ ตอน Normalization
• เลือก Configure… แล้วเลือกแฟ้ ม labor.arff
133
AS714 Data Mining
• เลือกแถบ Filters ท่ีเรียก Nomalize เพ่ ือแปลงตัวแปรท่ีมีค่าต่อ

เน่ ืองให้อยู่ในช่วง [0,1]
้ ตอน Standardize
134
AS714 Data Mining
• เลือก configure… แล้วเลือกแฟ้ ม labor.arff
• เลือกแถบ Filters ท่ีเรียก Standardize เพ่ ือแปลงตัวแปรให้มีคา่ ตกอยู่ใน

ช่วงของการกระจายแบบปรกติมาตรฐาน
135
AS714 Data Mining
กำรบันทึกข้อมูลลงแฟ้ ม csv
• ซอฟต์แวร์ WEKA สามารถแปลงข้อมูลให้อยู่ในรูปแบบ csv เพ่ ือนำาไป

ใช้กับซอฟต์แวร์อ่ืน เช่น Calc
• เร่ิมจากเลือก ArffLoader ใน DataSources

136
AS714 Data Mining
• แปลงข้อมูลให้เหมาะสม
• เลือกแถบ DataSinks แล้วเลือก CSV saver
• เลือกแฟ้ มข้อมูล Arff ท่ีต้องการ แล้วเลือก Start Loading
137
AS714 Data Mining
กำรบันทึกลงแฟ้ ม CSV (ต่อ)
• เลือก Configure… ในเมนูของ CSV saver
• เปล่ียนสถานท่ีท่ีต้องการเก็บไปตำาแหน่งท่ีต้องการเก็บ โดยเพ่ิม
prefix ให้กับช่ ือแฟ้ มท่ีต้องการ
• เก็บข้อมูลโดยเลือก Start loading ใน ArffLoader
โครงกำรทำำเหมืองข้อมูลโดยใช้ผังกำรไหล
138
AS714 Data Mining
• กำาหนดข้อมูลในแฟ้ ม iris.arff ให้หาตัวต้นไม้การตัดสินใจท่ีดท

ี ่ีสุด
โดยใช้ 5 fold cross-validation กับขัน
้ ตอนวิธี J48 แสดงผลลัพธ์ท่ีได้ในรูป
แบบต้นไม้
• แนวทางวางผังการไหล:
DataSource  Evaluation  J48  Visualization
• เร่ิมจากการอ่านแฟ้ ม iris.arff
• กำาหนดลักษณะประจำาท่ีใช้แทนคลาส
• แบ่งข้อมูลออกเป็ น 5 ส่วนเพ่ ือทำา cross-validation
• ใช้ขัน
้ ตอนวิธี J48
• แสดงผลลัพธ์
กำรอ่ำน iris.arff
139
AS714 Data Mining
• เลือก ArffLoader จากแถบ DataSources
• ปรับแต่งให้เลือกแฟ้ ม iris.arff จาก Configure… เมนู
• เลือก Class Assignment จากแถบ Evaluation
• เลือกคลาสเป้ าหมาย
กำรแยกออกเป็ น k-fold cross validation
140
AS714 Data Mining
• เลือก Cross Validation FoldMaker จากแถบ Evaluation
• ปรับแต่งให้มีจำานวน fold เท่ากับ 5
• ส่งข้อมูล DataSet จาก Class Assigner
141
AS714 Data Mining
กำรเรียกใช้ขัน
้ ตอนวิธี J48
• เลือก J48 จากแถบ Classifiers
142
AS714 Data Mining
• โยงข้อมูลจาก Cross Validation FoldMaker โดยเลือก training set และ

test set โยงไปท่ี J48
• สัง่ให้ข้อมูลนำาเข้า โดยเลือก Start loading จาก ArffLoader
กำรแสดงผลท่ีได้จำกผังกำรไหล
143
AS714 Data Mining
• เลือก Classifiers PerformanceEvaluators จากแถบ Evaluation
• โยงข้อมูลจาก J48 โดยเลือก batchClassifiers โยงไปท่ี

ClassifiersPerformanceEvaluators
• สร้าง TextViewer และ/หรือ Graph Viewer จาก Visualization
144
AS714 Data Mining
ผลลัพธ์ท่ีได้ในรูปเน้ือควำมของ J48
• เลือก Start Loading จากแถบ ArffLoader
• รอจนจบ แล้วเลือก Show results จาก TextViewer
145
AS714 Data Mining
• ผลลัพธ์ท่ีได้แสดงดังรูปซ้ายซ่ ึงให้ค่าท่ีถูกต้อง 96%
• ใน Confusion Matrix แสดงผลจากการเปรียบเทียบกับกลุ่มท่ีสนใจ
ผลลัพธ์ในรูปต้นไม้กำรตัดสินใจ
146
AS714 Data Mining
สรุป
• การออกแบบผังการไหลโดยปรกติ
DataSource  Filter  Classifier/Clusterers/Association  Evaluation  Visualization 

DataSinks
• Filter ใช้ในการเตรียมข้อมูล
147
AS714 Data Mining
• Classifier/Clusterers/Association ใช้ในการสร้างตัวแบบในการทำาเหมือง
ข้อมูล
• Evaluation ใช้ในการเลือกตัวแบบ
• Visualization ใช้ในการแสดงผลลัพธ์ของการทำาเหมืองข้อมูล
• DataSinks ใช้ในการเก็บผลลัพธ์
ขัน
้ ตอนวิธีกำรวิเครำะห์กำรเกำะกลุม
่ ใน WEKA
• Cobweb ใช้หลักการจัดจำาแนกโดยต้นไมและความน่าจะเป็ น
• DBScan วิธีการเกาะกลุ่มโดยใช้ความหนาแน่น
• EM การเกาะกลุ่มโดยใช้ค่าคาดคะแนท่ีมากท่ีสุด
• FarthestFirst การเกาะกลุ่มโดยเลือกตัวท่ีไกลท่ีสุดก่อน
• Filtered Cluster การเกาะกลุ่มท่ีผ่านการกรองก่อน
• MakeDensityBasedClusterer วิธีการเกาะกลุ่มท่ีใช้หลายวิธีรวมกัน
• OPTICS วิธีการเกาะกลุ่มโดยใช้หลักความหนาแน่น
• SimpleKMeans วิธีการเกาะกลุ่มแบบแบ่งกัน
้ โดยใช้ค่าเฉล่ียหรือฐานนิยม
• XMeans วิธีการเกาะกลุ่มท่ีไม่ต้องกำาหนดค่า K
148
AS714 Data Mining
ตัวอย่ำงกำรเลือกขัน
้ ตอนวิธีกำรเกำะกลุ่ม
แฟ้ ม weather.arff
@relation weather
@attribute outlook {sunny, overcast, rainy }
@attribute temperature real
@attribute humidity real
@attribute windy { TRUE, FALSE }
@attribute play { yes, no }
149
AS714 Data Mining
@data
sunny,69,70,FALSE,yes
rainy,65,70,TRUE,no
sunny,80,90,TRUE,no
rainy,71,91,TRUE,no
sunny,75,70,TRUE,yes}
150
AS714 Data Mining
• กำาจัดลักษณะประจำาท่ีมีค่าแตกต่างกันทัง้หมดออกก่อน เช่น คีย์หลัก

(Primary Key)
• กำาจัดลักษณะประจำาท่ีมีค่าเพียงค่าเดียวออก
• ลักษณะประจำาท่ีใช้อาจเป็ น Numeric หรือ Categorical ก็ได้
• ในกรณีท่ีต้องการเปรียบเทียบการเกาะกลุ่มกับลักษณะประจำาเป้ าหมายท่ี
สนใจ ให้เลือก Classes to cluster evaluation ในการวิเคราะห์ ซอฟต์แวร์ WEKA
จะไม่ใช้ลักษณะประจำาเป้ าหมายในการคิดระยะ
ขัน
้ ตอนกำรเกำะกลุ่มโดย K-Means
151
AS714 Data Mining
• เปิ ดโมดูล Explorer ของซอฟต์แวร์ WEKA
• เปิ ดแฟ้ ม weather.arff
• เลือกแถบ Cluster
• เลือกแถบ SimpleKMeans ในกล่อง Clusterer
ผลลัพธ์ท่ีได้จำก SimpleKMeans
152
AS714 Data Mining
• เลือก Classes to clusters evaluation เพ่ ือเปรียบเทียบผลท่ีได้จากการเกาะ

กลุ่มกับคลาสเป้ าหมายท่ีต้องการ
• ลักษณะประจำาท่ีอยู่เหนือป่ ุม start ต้องเป็ นคลาสเป้ าหมายท่ีต้องการ
• กดป่ ุม Start จะได้ผลลัพธ์ดังรูปด้านบน
ผลท่ีได้จำกกำรเลือก Visualize cluster assignment
153
AS714 Data Mining
• เลือก Visualize cluster assignments โดยกดเมาส์ปุ่มขวาจากผลลัพธ์ในกล่อง

Result list
• กราฟแสดงผลของการกำาหนดกลุ่มได้ดังภาพด้านขวา
สรุป
• การทำาเหมืองข้อมูลแบบการวิเคราห์การเกาะกลุ่มมีขัน
้ ตอนวิธีให้เลือก
ใช้อยู่ 9 แบบสำาหรับ WEKA 3.5.3
• ถ้าผู้ใช้ต้องการเปรียบเทียบระหว่างกลุ่มกับคลาส เลือกใช้ Classes to

cluster evaluation
• เราสามารถดูด้วยภาพนามธรรมโดยเลือก Visualize cluster assignment
154
AS714 Data Mining
155

AS714 Final Project กลุ่ม 10 - Ver2.0

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

AS714 Final Project กลุ่ม 10 - Ver2.0

Enviado por

Direitos autorais:

Formatos disponíveis

AS714 Data Mining

DATA MINING TOOL

1. นางสาวอารีวรรณ อ่อนเถ่ ือน รหัส 5020428005

3. นางสาวรัตติกาล เมืองแก้ว รหัส 5020428012

4. นางสาวกฤติยาวรรณ อุดมสุข รหัส

เอกสำรนีเ้ป็ นส่วนหน่ึงของวิชำ AS 714 เหมืองข้อมูล

้ ตอนท่ี2: คลิกท่ี Download ท่ีอยู่ซ้ายมือของเวปไซต์

้ ตอนท่ี3: เลือกในส่วนของ Windows (ดังรูป) เลือก

Stable GUI version Windows  version “weka-3-6-1jre.exe” แล้วทำาการคลิกท่ี

้ ตอนท่ี5: หน้าจอแสดงการยืนยันเพ่ ือ Downloads

 ป่ ุม “Cancel” เพ่ ือทำาการยกเลิก

หน้าจอแสดงการ Download เสร็จสิน

้ ตอนท่ี 2: หลังจากเปิ ด G:\ แล้ว ให้คลิกท่ี weka-3-6-1jre เพ่ ือทำาการรันโปรแกรม

คลิกท่ี I Agree เพ่ ือแสดงการยอมรับ จากนัน

เลือกสถานท่ีท่ีต้องการเก็บโปรแกรม ในกรณีนีจ้ะเลือก C:\ จากนัน

คลิก Install เพ่ ือเร่ิมต้นการติดตัง้โปรแกรม

จากภาพท่ีแล้ว เม่ ือประมวลผลเสร็จแล้ว จะแสดงหน้าจอนีข้ึ้นมา เรา

หน้าจอนีจ้ะแสดงขึ้นมาเพ่ ือบอกให้ทราบว่าโปรแกรมกำาลังจะติดตัง้ ถ้า

เลือก Typical แล้วคลิกท่ี Accept เพ่ ือยอมรับและดำาเนินการต่อ

คลิกท่ี Finish เพ่ ือเป็ นการยืนยันการติดตัง้โปรแกรมเสร็จเรียบร้อย

แสดงการเปิ ดโปรแกรม Weka 3.6.1

แสดงการหน้าจอการทำางานของโปรแกรม Weka 3.6.1

• เขียนโดยใช้ภาษา Java ทัง้หมด

• สร้างขึ้นมาโดยเน้นกับ การเรียนรู้ดว้ ยเคร่ ือง (Machine Learning) กับการทำา

• ใช้ Graphic User Interface / GUI และคำาสัง่ในการสัง่ให้ Software ประมวลผล

2. ในกรณีแฟ้ มข้อมูลอยู่ในเครือข่ายผู้ใช้สามารถเรียกใช้โดยอาศัย URL

3. หรืออาจใช้ข้อมูลท่ีอยู่ในฐานข้อมูลท่ีเช่ ือมโยงผ่าน JDBC

แฟ้ มข้อมูลแบบ Arff

 @relation name เป็ นบรรทัดท่ีบอกช่ ือตารางข้อมูลเชิงสัมพันธ์

 @attribute att-name type เป็ นบรรทัดท่ีบอกช่ ือลักษณะประจำาและชนิด

 numeric หรือ real หมายถึงลักษณะประจำาเก็บเป็ นตัวเลข

 (v1, v2, …, vn) หมายถึงลักษณะประจำาเก็บค่าไม่ต่อเน่ ือง

 @data เป็ นบรรทัดท่ีบอกถึงแถวท่ีตามมาจะเป็ นข้อมูล แถวละหน่ ึง

o ใช้โปรแกรมในการสร้าง text file ใดก็ได้ เช่น notepad

o บรรทัดแรกให้ใส่ @relation relation_name

• @attribute att_name value

o ได้ @data ข้อมูลใส่เรียงตามลำาดับการปรากฏของลักษณะประจำา

ตัวอย่ำงแฟ้ มข้อมูล sample01.csv

o สถิติหน่ ึงตัวแปร (Univariate Statistic) เป็ นการวิเคราะห์สถิติท่ีใช้เพียงหน่ ึง

• ชนิดของลักษณะประจำา มีเพียงสองชนิดคือ Nominal หรือ Numeric

• ค่าท่ีมีเพียงค่าเดียว คิดเป็ นเปอร์เซ็นต์เทียบกับค่าทัง้หมด

• ค่าท่ีเป็ น M มีจำานวน 5 ตัว

• ค่าท่ีเป็ น F มีจำานวน 5 ตัว

หลักการใช้ Explorer ของ WEKA 3.6.1

เร่ิมการใช้โปรแกรม WEKA ด้วยการ คลิกท่ี ICON บนหน้าจอ

หรือทำาการเลือกท่ีเมนู Start Program  Weka 3.6.1  Weka 3.6

โปรแกรมหลักของ WEKA 3.6.1

1. Explorer: โปรแกรมท่ีออกแบบในลักษณะ GUI (Graphical User Interface)

4. Simple CLI: เป็ นโปรแกรมท่ีรับคำาสัง่การทำางานผ่านการพิมพ์

• Menu bar (ส่วนลูกศรสีแดง)

-LogWindow: เปิ ด log ทัง้หมดท่ีเก็บได้ ท่ีฝัง stdout หรือ stderr

-Plot: สำาหรับแสดงกราฟชุดข้อมูลในลักษณะ 2 มิติ

-TreeVisualizer: สำาหรับแสดงกราฟมีทิศทาง (directed graphs) เช่น decision tree

- ArffViewer: โปรแกม MDI (Multiple Document Interface) ท่ีใช้ดู ARFF ไฟล์ในรูป

- Bayes net editor: โปรแกรมท่ีใช้แก้ไข,ทำาให้มองเห็น และ เรียนรู้เก่ียวกัน

- Weka homepage: เปิ ดหน้าต่าง Brower ไปท่ีโฮมเพจของ WEKA

- HOWTOs,code snippets, etc.: Weka Wiki ทัว่ๆไป ท่ีรวบรวมตัวอย่างมากมาย

- Weka on Sourceforge: โฮมเพจโปรเจ็คของ WEKA บน Sourceforge.net

4. Associate: รวมโมดูลการทำาเหมืองข้อมูลแบบกฎเช่ ือมโยง

5. Select attributes: รวมโมดูลสำาหรับการวิเคราะห์ความเก่ียวพันของลักษณะ

เม่ ือคลิกท่ีปุ่มจะปรากฎหน้าจอดังรูปด้านล่างเพ่ ือเลือกไฟล์ข้อมูลท่ี

เม่ ือคลิกท่ีปุ่มจะปรากฎหน้าจอดังรูปด้านล่างเพ่ ือให้ใส่ Address ท่ีจัด

เม่ ือคลิกท่ีปุ่มจะปรากฎหน้าจอดังรูปด้านล่างเพ่ ืออ่านข้อมูลจาก