Você está na página 1de 155

AS714 Data Mining

DATA MINING TOOL


WEKA

เสนอ
ดร.วรรณภา มหามณีรัตน์

คณะผู้จัดทำำ

1. นางสาวอารีวรรณ อ่อนเถ่ ือน รหัส 5020428005

2. นางอัจฉรา พูลโพธิท
์ อง รหัส 5020428006

3. นางสาวรัตติกาล เมืองแก้ว รหัส 5020428012

4. นางสาวกฤติยาวรรณ อุดมสุข รหัส


5020428016

เอกสำรนีเ้ป็ นส่วนหน่ึงของวิชำ AS 714 เหมืองข้อมูล


ภำคเรียนท่ี 1 ประจำำกำรศึกษำ 2552
1
AS714 Data Mining

สำขำเทคโนโลยีกำรตัดสินใจและกำรจัดกำร คณะสถิติประยุกต์
สถำบันบัณฑิตพัฒนบริหำรศำสตร์

2
AS714 Data Mining

คำำนำำ
ในปั จจุบน
ั แต่ละองค์กรมีการจัดเก็บข้อมูลลงในฐานข้อมูลท่ีมีขนาดใหญ่ขึ้น ตาม
การเจริญเติบโตของเศรษฐกิจ ข้อมูลมหาศาลเหล่านัน ้ หากมีการนำามาวิเคราะห์เพ่ ือหา
Knowledge Discovery in Databases (KDD) การค้นหาความรู้ในฐานข้อมูล หรือ เรียกอีกอย่าง
หน่ึงว่า Data mining คือ การค้นหาส่ิงท่ีสำาคัญของสารสนเทศท่ีมค
ี วามหมายโดยนัย ไม่
ทราบมาก่อน และมีแนวโน้มว่าจะมีประโยชน์ โดยทำาการค้นหาจากข้อมูลในฐานข้อมูล
งานทางด้าน Data Mining มีการใช้เทคนิคท่ีแตกต่างกันออกไปมากมาย และด้วยประโยชน์ท่ี
ได้รับจากการทำา Data Mining ซ่ึงเป็ นท่ีรู้จักกันอย่างแพร่หลายนัน
้ ทำาให้มีการ
พัฒนา Software ต่าง ๆ เพ่ ือช่วยวิเคราะห์ออกมามากมายเช่นกัน โดยหน่ึงใน Software ท่ีได้
รับความนิยมนัน
้ ได้แก่ Weka Software ซ่ึงนอกจากจะเป็ น Open source แล้ว ประสิทธภาพใน
การวิเคราะห์ก็ยังมีประสิทธิผลเป็ นท่ียอมรับ รวมทัง้ความสะดวกในการใช้งาน

จัดทำาโดย

กลุ่ม 10 (DTM#2)

19 กันยายน 2552

3
AS714 Data Mining

บทที่ 1
กำร Download โปรมแกรม WEKA
้ ตอนท่ี1: ไปท่ี address http://www.cs.waikato.ac.nz/ml/weka/
ขัน

้ ตอนท่ี2: คลิกท่ี Download ท่ีอยู่ซ้ายมือของเวปไซต์


ขัน

รูปที่ 1

4
AS714 Data Mining

้ ตอนท่ี3: เลือกในส่วนของ Windows (ดังรูป) เลือก


ขัน

Stable GUI version Windows  version “weka-3-6-1jre.exe” แล้วทำาการคลิกท่ี


“here”

รูปที่ 2
้ ตอนท่ี4: หลังจากนัน
ขัน ้ จะมี web browser ขึ้นมาใหม่ และให้รอสักครู่ เพ่ ือรอหน้า
จอแสดงการยืนยันเพ่ ือ downloads แต่ถ้าหาก Pop up ไม่ขึ้น ให้ คลิก ท่ี “direct link”
หรือ “mirror” (ดังรูป 3)

5
AS714 Data Mining

รูปที่ 3
คลิกท่ี “Use this mirror” แล้วรอสักครู่

รูปที่ 4

6
AS714 Data Mining

้ ตอนท่ี5: หน้าจอแสดงการยืนยันเพ่ ือ Downloads


ขัน

 คลิกป่ ุม “Run” เพ่ ือทำาการ Install WEKA โดยไม่ต้องการ save ไว้ท่ี Hard disk
 คลิกป่ ุม “Save” เพ่ ือทำาการ save ไฟล์ “weak-3-6-1jre.exe”ไว้ท่ีฮาร์ดดิส เพ่ ือ
ทำาการ Install
(ในท่ีนีข้อเลือกการ Save)

 ป่ ุม “Cancel” เพ่ ือทำาการยกเลิก

รูปที่ 5

7
AS714 Data Mining

หลังจากนัน
้ เลือกท่ีเก็บไฟล์ Install

รูปที่ 6
รอการ Download

รูปที่ 7

8
AS714 Data Mining

หน้าจอแสดงการ Download เสร็จสิน


รูปที่ 8

9
AS714 Data Mining

บทที่ 2
กำรลงโปรแกรม WEKA
้ ตอนท่ี 1: เปิ ดโปรแกรม Weka 3.6.1 ในกรณีนีโ้ปรแกรมถูกเก็บอยูท
ขัน ่ ่ี G: จึงเร่ิม
ต้นการทำางานด้วยการเปิ ด My Computer จากนัน
้ คลิกท่ี G:\

รูปที่ 9

10
AS714 Data Mining

้ ตอนท่ี 2: หลังจากเปิ ด G:\ แล้ว ให้คลิกท่ี weka-3-6-1jre เพ่ ือทำาการรันโปรแกรม


ขัน

รูปที่ 10

้ ตอนท่ี 3: เม่ ือรันหน้าจอโปรแกรม Weka 3.6.1 ขึ้นมา ให้คลิกท่ี Next เพ่ ือประมวล
ขัน
ผลต่อไป

รูปที่ 11

คลิกท่ี I Agree เพ่ ือแสดงการยอมรับ จากนัน


้ โปรแกรมจะประมวลผลหน้าถัดไป

11
AS714 Data Mining

รูปที่ 12
จากภาพนี้ คลิกท่ี Next เพ่ ือทำาการ Install

รูปที่ 13

12
AS714 Data Mining

เลือกสถานท่ีท่ีต้องการเก็บโปรแกรม ในกรณีนีจ้ะเลือก C:\ จากนัน


้ คลิก
ท่ี Next เพ่ ือดำาเนินการต่อไป

รูปที่ 14

คลิก Install เพ่ ือเร่ิมต้นการติดตัง้โปรแกรม

13
AS714 Data Mining

รูปที่ 15

ภาพนีจ้ะแสดงการประมวลผลการติดตัง้โปรแกรม

รูปที่ 16

14
AS714 Data Mining

จากภาพท่ีแล้ว เม่ ือประมวลผลเสร็จแล้ว จะแสดงหน้าจอนีข้ึ้นมา เรา


ไม่ต้องคลิกปิ ด เพราะหน้าจอนีจ้ะถูกปิ ดโดยอัตโนมัติหลังจากการติดตัง้เสร็จ
เรียบร้อย

รูปที่ 17

หน้าจอนีจ้ะแสดงขึ้นมาเพ่ ือบอกให้ทราบว่าโปรแกรมกำาลังจะติดตัง้ ถ้า


หากต้องการยกเลิกการติดตัง้ให้คลิกท่ี Cancel

รูปที่ 18

15
AS714 Data Mining

แสดงขัน
้ ตอนการเร่ิมติดตัง้ J2SE

รูปที่ 19

16
AS714 Data Mining

เลือก Typical แล้วคลิกท่ี Accept เพ่ ือยอมรับและดำาเนินการต่อ

รูปที่ 20

17
AS714 Data Mining

โปรแกรมทำาการติดตัง้ลงสู่ C:\

รูปที่ 21

18
AS714 Data Mining

คลิกท่ี Finish เพ่ ือเป็ นการยืนยันการติดตัง้โปรแกรมเสร็จเรียบร้อย

รูปที่ 22

รูปที่ 23

19
AS714 Data Mining

แสดงการเปิ ดโปรแกรม Weka 3.6.1

รูปที่ 24

แสดงการหน้าจอการทำางานของโปรแกรม Weka 3.6.1

รูปที่ 25

20
AS714 Data Mining

บทที่ 3
แนะนำำโปรแกรม WEKA
• WEKA ย่อมาจาก Waikato Environment for Knowledge Analysis

• WEKA เป็ น Software free ท่ีสามารถ download ภายใต้ GNU General Public License

• เขียนโดยใช้ภาษา Java ทัง้หมด

• สร้างขึ้นมาโดยเน้นกับ การเรียนรู้ดว้ ยเคร่ ือง (Machine Learning) กับการทำา


เหมืองข้อมูล

• มีโมดูลย่อยสำาหรับจัดการข้อมูล

• ใช้ Graphic User Interface / GUI และคำาสัง่ในการสัง่ให้ Software ประมวลผล

ประเภทของแฟ้ มข้อมูลท่ีรับได้
1. แฟ้ มข้อมูลท่ีรับต้องอยู่ในรูปแบบ ASCII อาจเป็ น arff, csv, C45

2. ในกรณีแฟ้ มข้อมูลอยู่ในเครือข่ายผู้ใช้สามารถเรียกใช้โดยอาศัย URL

3. หรืออาจใช้ข้อมูลท่ีอยู่ในฐานข้อมูลท่ีเช่ ือมโยงผ่าน JDBC

แฟ้ มข้อมูลแบบ Arff


1. ARFF = Attribute-Relation File Format

2. เก็บโดยใช้ ASCII

21
AS714 Data Mining

 @relation name เป็ นบรรทัดท่ีบอกช่ ือตารางข้อมูลเชิงสัมพันธ์

 @attribute att-name type เป็ นบรรทัดท่ีบอกช่ ือลักษณะประจำาและชนิด

 numeric หรือ real หมายถึงลักษณะประจำาเก็บเป็ นตัวเลข

 (v1, v2, …, vn) หมายถึงลักษณะประจำาเก็บค่าไม่ต่อเน่ ือง

 @data เป็ นบรรทัดท่ีบอกถึงแถวท่ีตามมาจะเป็ นข้อมูล แถวละหน่ ึง


ระเบียนเรียงตามลักษณะประจำาท่ีบอกไว้ข้างต้น คัน
่ ด้วยคอมมา
กำรเตรียมแฟ้ ม Arff

o ใช้โปรแกรมในการสร้าง text file ใดก็ได้ เช่น notepad

o บรรทัดแรกให้ใส่ @relation relation_name

o บรรทัดถัดมาให้ใส่ลักษณะประจำาเรียงตามลำาดับ

• @attribute att_name value

o ได้ @data ข้อมูลใส่เรียงตามลำาดับการปรากฏของลักษณะประจำา

• @data

• 1,2,3,4

ตัวอย่ำงแฟ้ มข้อมูล sample01.csv

22
AS714 Data Mining

ID,SEX,PASS/FAIL,Score,Class
1,M,Pass,45.5,B
2,F,Pass,56.78,B
3,M,Pass,89,A
4,F,Pass,77,A
5,M,Fail,32,C
6,F,Fail,12,D
7,M,Fail,35,C
หลังเปิ ดแฟ้ มข้อมูล sample01.csv

สถิติในซอฟต์แวร์ Weka

o สถิติหน่ ึงตัวแปร (Univariate Statistic) เป็ นการวิเคราะห์สถิติท่ีใช้เพียงหน่ ึง


ลักษณะประจำา = ตัวแปร ประกอบด้วย

• ช่ ือของลักษณะประจำา

• ชนิดของลักษณะประจำา มีเพียงสองชนิดคือ Nominal หรือ Numeric


23
AS714 Data Mining

• จำานวนข้อมูลท่ีขาดหายไปเทียบเป็ นเปอร์เซ็นต์กับจำานวนข้อมูล
ทัง้หมด

• ค่าท่ีแตกต่างกันทัง้หมดในลักษณะประจำา

• ค่าท่ีมีเพียงค่าเดียว คิดเป็ นเปอร์เซ็นต์เทียบกับค่าทัง้หมด

ตัวอย่ำงสถิติของลักษณะประจำำ SEX

o ช่ ือลักษณะประจำา SEX

o ชนิดของค่าของลักษณะประจำาเป็ น Nominal

o ในลักษณะประจำานีไ้ม่มีค่าท่ีหายไป

o ค่าท่ีแตกต่างกันมีเพียงสองค่าคือ M กับ F

• ค่าท่ีเป็ น M มีจำานวน 5 ตัว

• ค่าท่ีเป็ น F มีจำานวน 5 ตัว

o ค่าท่ีไม่ซ้ำาไม่มี

ตัวอย่ำงสถิติของลักษณะประจำำ SCORE

o ช่ ือลักษณะประจำา Score
o ชนิดของค่าของลักษณะประจำาเป็ น Numeric
o ในลักษณะประจำาไม่มีข้อมูลท่ีขาดหายไป
o จำานวนค่าท่ีแตกต่างกันทัง้หมดมี 10 ตัว
o ค่าแต่ละตัวมีเพียงหน่ ึงเดียว (ไมมีค่าท่ีซ้ำากันเลย)

24
AS714 Data Mining

• ค่าต่ำาสุด Minimum = 10
• ค่าสูงสุด Maximum = 89
• ค่าเฉล่ียเลขคณิต Mean = 48.728
• ส่วนเบ่ียงเบนมาตรฐาน StdDev = 26.585

หลักการใช้ Explorer ของ WEKA 3.6.1

รูปที่ 26

เร่ิมการใช้โปรแกรม WEKA ด้วยการ คลิกท่ี ICON บนหน้าจอ

หรือทำาการเลือกท่ีเมนู Start Program  Weka 3.6.1  Weka 3.6

25
AS714 Data Mining

รูปที่ 27

โปรแกรมหลักของ WEKA 3.6.1


โปรแกรมจะปรากฎหน้าจอหลัก (Weka GUI Chooser) จะประกอบด้วย 2 ส่วน ดังรูป

รูปที่ 28

26
AS714 Data Mining

• Applications (ส่วนลูกศรสีเขียว)

1. Explorer: โปรแกรมท่ีออกแบบในลักษณะ GUI (Graphical User Interface)

2. Experimenter: โปรแกรมท่ีออกแบบการทดลองและการทดสอบผล

3. KnowledgeFlow: โปรแกรมออกแบบผังการไหลของความรู้

4. Simple CLI: เป็ นโปรแกรมท่ีรับคำาสัง่การทำางานผ่านการพิมพ์

• Menu bar (ส่วนลูกศรสีแดง)

1. Program
ประกอบด้วยส่วนต่างๆดังนี้

-LogWindow: เปิ ด log ทัง้หมดท่ีเก็บได้ ท่ีฝัง stdout หรือ stderr

27
AS714 Data Mining

รูปที่ 29
-Memory usage: แสดงหน่วยความจำาท่ีถก
ู ใช้

รูปที่ 30
-Exit: ออกจากโปรแกรม

2. Visualization
สำาหรับดูข้อมูลใน Weka ในหลายรูปแบบ ประกอบด้วยส่วนต่างๆดังนี้

-Plot: สำาหรับแสดงกราฟชุดข้อมูลในลักษณะ 2 มิติ

28
AS714 Data Mining

รูปที่ 31
-ROC: แสดง ROC (receiver operating characteristic) curve ท่ีเก็บไว้ก่อนหน้านี้

รูปที่ 32

-TreeVisualizer: สำาหรับแสดงกราฟมีทิศทาง (directed graphs) เช่น decision tree

29
AS714 Data Mining

-GraphVisualizer: แสดงภาพกราฟ XML BIF หรือ DOT format เช่น Bayesian networks

-BoundaryVisualizer: อนุญาติให้แสดงขอบเขตการตัดสินใจประเภทข้อมูลในสอง
มิติ

รูปที่ 33

3. Tools
โปรแกรมอ่ ืนๆ ท่ีมีประโยชน์

- ArffViewer: โปรแกม MDI (Multiple Document Interface) ท่ีใช้ดู ARFF ไฟล์ในรูป


แบบ spreadsheet

30
AS714 Data Mining

รูปที่ 34
- SqlViewer: แสดง Sql เพ่ ือท่ีจะ query ข้อมูลทางฐานข้อมูล

- Bayes net editor: โปรแกรมท่ีใช้แก้ไข,ทำาให้มองเห็น และ เรียนรู้เก่ียวกัน


Bayes nets

4. Help
แหล่งท่ีมาบนอินเตอร์เนตสำาหรับ WEKA หาได้ท่ีน่ี

- Weka homepage: เปิ ดหน้าต่าง Brower ไปท่ีโฮมเพจของ WEKA


(http://www.cs.waikato.ac.nz/~ml/weka/)

- HOWTOs,code snippets, etc.: Weka Wiki ทัว่ๆไป ท่ีรวบรวมตัวอย่างมากมาย


และ วิธีการพัฒนาและการใช้ของ WEKA (http://weka.wiki.sourceforge.net/)

31
AS714 Data Mining

- Weka on Sourceforge: โฮมเพจโปรเจ็คของ WEKA บน Sourceforge.net


(http://sourceforge.net/projects/weka/)

- SystemInfo: รายการภายในบางอย่างท่ีเก่ียวกับสภาพแวดล้อมของ
Java/WEKA เช่น the CLASSPATH

รูปที่ 35

32
AS714 Data Mining

บทที่ 4
Explorer

User Interface
Section Tabs

รูปที่ 36

1. Preprocess: การเตรียมข้อมูล

2. Classify: รวมโมดูลการทำาเหมืองข้อมูลแบบจัดแบ่งประเภท

3. Cluster: รวมโมดูลการทำาเหมืองข้อมูลแบบเกาะกลุ่ม

4. Associate: รวมโมดูลการทำาเหมืองข้อมูลแบบกฎเช่ ือมโยง

5. Select attributes: รวมโมดูลสำาหรับการวิเคราะห์ความเก่ียวพันของลักษณะ


ประจำา
6. Visualize: นำาเสนอข้อมูลด้วยภาพนามธรรมสองมิติ

33
AS714 Data Mining

ส่วนประกอบอื่นของ Explorer

รูปที่ 37

Status Box
แสดงการประมวลผลปั จจุบันของซอฟต์แวร์ Weka มีการแจ้งการผิดพลาด
แต่ไม่มีรายละเอียด เม่ ือกดเมาส์ขวา เราสามารถเลือกการแสดงหน่วยความจำาท่ี
ใช้ได้
Log Button
แสดงบั น ทึ ก การเรี ย กใช้ งานซอฟต์ แวร์ Weka ทั ง้หมด ความผิด พลาดท่ี
เกิดขึ้นจะแสดงในส่วนนี้
Bird icon
แสดงรูปนกกีวี ถ้ามีการประมวลผลนกกีวีจะขยับตัวไปมา มิฉะนัน
้ จะนัง่
เฉยๆ
Graphical output
บริเวณแสดงตัวอย่างกราฟ
1. Preprocessing

Loading Data
1. Open file…
34
AS714 Data Mining

เม่ ือคลิกท่ีปุ่มจะปรากฎหน้าจอดังรูปด้านล่างเพ่ ือเลือกไฟล์ข้อมูลท่ี


เก็บไว้ใน Hard disk

รูปที่ 38
2. Open URL…

เม่ ือคลิกท่ีปุ่มจะปรากฎหน้าจอดังรูปด้านล่างเพ่ ือให้ใส่ Address ท่ีจัด


เก็บข้อมูล

รูปที่ 39

35
AS714 Data Mining

3. Open DB…

เม่ ือคลิกท่ีปุ่มจะปรากฎหน้าจอดังรูปด้านล่างเพ่ ืออ่านข้อมูลจาก


ฐานข้อมูล

รูปที่ 40
4. Generate…

เม่ ือคลิกท่ีปุ่มจะปรากฎหน้าจอดังรูปด้านล่างเพ่ ือเลือกข้อมูลท่ีจัด


เก็บไว้หลากหลาย และเม่ ือคลิกท่ีปุ่ม choose จะปรากฎ DataGenerator

36
AS714 Data Mining

รูปที่ 41

Working with filter

รูปที่ 42

37
AS714 Data Mining

ตัวกรอง (Filters) รวบรวมโมดูลในขัน


้ การเตรียมข้อมูล จะแบ่งออกเป็ น 2 ลักษณะ คือ

 Supervised รวมโมดูลท่ีแปลงข้อมูลแบบอัตโนมัติท่ีมีการควบคุมด้วยพารามิเตอร์ท่ีผู้
ใช้กำาหนด แบ่งเป็ นสองหมวดใหญ่ คือ ลักษณะประจำา (attribute) กับข้อมูลแต่ละ
ระเบียน (instance)

 Unsupervised รวมโมดูลท่ีแปลงข้อมูลท่ีผู้ใช้กำาหนดเอง แบ่งเป็ นสองหมวดใหญ่ คือ


ลักษณะประจำา (attribute) กับข้อมูลแต่ละระเบียน (instance)

และหากต้องการเอาท่ีจะเอา Attribute ออก ทำาการกดป่ ุม Remove (รูปท่ี 43)

รูปที่ 43

38
AS714 Data Mining

ตัวอย่างการใช้งาน Preprocess

กดปุ่ม Open file เปิดแฟ้ม weather.arff

สรุปค่าสถิติของลักษณะประจำา
ท่ีถูกเลือก

รายการของลักษณะ
ประจำาท่ีเลือกได้ กราฟหน่ึงตัวแปรของลักษณะ
ประจำาท่ีถกู เลือก ประจำาท่ีถูกเลือกไว้

กำรอ่ำนผลลัพธ์
 จำานวนลักษณะประจำาท่ีมีทัง้หมด 5 ตัวเรียงตามลำาดับดังนี้

- outlook, temperature, humidity, windy, play

 มีจำานวนระเบียนทัง้หมด 14 ระเบียน

 สำาหรับลักษณะประจำา outlook เป็ นลักษณะประจำาประเภท Nominal ท่ี


พิจารณาไม่มีข้อมูลในระเบียนท่ีขาดหายไป มีค่าท่ีแตกต่างกันทัง้หมด 3
ค่า ซ่ ึงแต่ละค่าไม่มีเพียงค่าเดียวเลย

 ค่าของลักษณะประจำาคือ sunny มี 5 ระเบียน overcast มี 4 ระเบียน rainy มี 5


ระเบียน

39
AS714 Data Mining

ลักษณะประจำำอ่ ืนๆ ใน weather.arff

40
AS714 Data Mining

กรำฟของหน่ึงตัวแปร

41
AS714 Data Mining

 ซอฟต์แวร์ Weka สามารถแสดงกราฟในมุมมองของแต่ละลักษณะประจำา


โดยใช้กราฟแท่ง โดยกดท่ี Visualize all

กรำฟของสองตัวแปร

 ซอฟต์แวร์ Weka แสดงกราฟระหว่างลักษณะประจำาสองลักษณะแถบ


Visualize
 กราฟดังกล่าวเรียกว่า Scatter plot ซ่ ึงแต่ละจุดแสดงระเบียนหน่ ึงระเบียน
แต่ละแกนแทนค่าของลักษณะประจำาแต่ละค่า
 เราปรับขนาดของกราฟโดยเปล่ียน PlotSize และเปล่ียนขนาดของจุด โดย
เปล่ียน PointSize แล้วกดป่ ุม Update
 สีของจุดส่ ือแต่ละคลาสท่ีปรากฎในข้อมูล

42
AS714 Data Mining

กำรเลือกแสดง Scatter Plot

 ซอฟต์แวร์ Weka สามารถเลือกแสดงกราฟของสองลักษณะประจำาคู่ใดๆ


 กดป่ ุม Select Attributes
 แล้วเลือกเฉพาะลักษณะประจำาท่ีต้องการพิจารณา (กด Ctrl ระหว่างเลือก)
 กดป่ ุม Update

สมกำรถดถอยและสหสัมพันธ์
o ซอฟต์แวร์ Weka คำานวณหาสมการถดถอยเชิงเส้น เฉพาะลักษณะประจำา
ท่ีเป็ นจำานวน
• นำาข้อมูลเข้าซอฟต์แวร์ Weka
• เลือกแถบ Classify
• ในกลุ่มของโมดูล Classifier กด Choose เลือกฟั งก์ชัน (Functions) แล้ว
เลือก LinearRegression
• เปล่ียน Test Option ให้ Use Training Set
• เลือกลักษณะประจำาใต้กล่อง Test Option เฉพาะท่ีมี (Num) ข้างหน้า
• กด Start
• ผลลัพธ์จะแสดงในกล่อง Classifier Output
43
AS714 Data Mining

2. Classification

รูปที่ 44

44
AS714 Data Mining

รูปที่ 45
เป็ นการสร้าตัวแบบ Classifier ท่ีสามารถแบ่งแยกข้อมูลออกตามคลาสหรือลักษณะ
ประจำาเป้ าหมายท่ีกำาหนด ตัวแบบท่ีต้องการอาจเป็ น

• bayes: ใช้หลักของเบย์หรือตัวแบบเชิงความน่าจะเป็ น

• functions: ตัวแบบในรูปของฟั งก์ชัน

• lazy: ตัวแบบท่ีเก็บตัวอย่าง การตัดสินใจเกิดเม่ ือตัวอย่างใหม่ถูกนำาเข้าเท่านัน


• meta: การทำาตัวแบบให้ดีขึ้นโดยการเรียนข้อมูลเมตา

• misc: วิธก
ี ารสร้างตัวแบบวิธอ
ี ่ ืน

• trees: การสร้างตัวแบบโดยใช้ต้นไม้

• rules: การสร้างตัวแบบโดยใช้กฎ
45
AS714 Data Mining

3. Clustering

รูปที่ 46

46
AS714 Data Mining

สมกำรถดถอยเชิงเส้นของ Petallength

o ในกรณีท่ีลักษณะประจำาท่ีต้องการไม่ใช่จำานวน ให้ใช้ Logistic Regression

• นำาข้อมูลเข้าซอฟต์แวร์ Weka

• เลือกแถบ Classify
• ในกลุ่มของโมดูล Classifier กด Choose เลือกฟั งก์ชัน (Functions) แล้ว
เลือก Logistic
• เปล่ียน Test Option ให้ Use Training Set
• เลือกลักษณะประจำาใต้กล่อง Test Option เฉพาะท่ีมี (Nom)
• กด Start
• ผลลัพธ์จะแสดงในกล่อง Classifier Output

47
AS714 Data Mining

สมกำรถดถอยเชิงเส้นของ Play

48
AS714 Data Mining

4. Associate
คลิกป่ ุม Choose เพ่ ือเลือก Associator

รูปที่ 47
หลังจากนัน
้ คลิกป่ ม
ุ Start จะแสดงผลลัพธ์ดังรูป 48

49
AS714 Data Mining

รูปที่ 48

5. Select Attribute

50
AS714 Data Mining

รูปที่ 49

51
AS714 Data Mining

รูปที่ 50

6. Visualize

52
AS714 Data Mining

รูปที่ 51

53
AS714 Data Mining

Appendix

54
AS714 Data Mining

ตัวกรองท่ีใช้ในซอฟต์แวร์ Weka
ตัวอย่ำงแฟ้ มข้อมูล sample01.cvs

ID.SEX,PASS/FAIL,Score,Class

1,M,Pass,45.5,B

2,F,Pass,56.78,B

3,M,Pass,89,A

4,F,Pass,77,A

5,M,Fail,32,C

6,F,Fail,12,D

7,M,Fail,35,C

8,F,Pass,62,B

9,M,Pass,68,B+

10,F,Fail,10,D

55
AS714 Data Mining

กำรใช้ตัวกรองในซอฟต์แวร์ Weka

o ตัวกรอง (Filters) รวบรวมโมดูลในขัน


้ การเตรียมข้อมูล

o ตัวกรองแบ่งออกเป็ นสองลักษณะคือ

• Supervised รวมโมดูลท่ีแปลงข้อมูลแบบอัตโนมัติท่ีมีการควบคุมด้วย
พรารามิเตอร์ท่ีผู้ใช้กำาหนด แบ่งเป็ นสองหมวดใหญ่ คือลักษณะ
ประจำา (attribute) กับข้อมูลแต่ละระเบียน (instance)

56
AS714 Data Mining

• Unsupervised รวมโมดูลท่ีแปลงข้อมูลท่ีผู้ใช้กำาหนดเอง แบ่งเป็ นสอง


หมวดใหญ่คือ ลักษณะประจำา (attribute) กับข้อมูลแต่ละระเบียน
(instance)

ตัวกรอง

กำรกำำจัดลักษณะประจำำ

57
AS714 Data Mining

เรากำาจัดลักษณะประจำาท่ีไม่ต้องการออกโดยทำาเคร่ ืองหมายถูกหน้าลักษณะ
ประจำาท่ีต้องการแล้วกดป่ ุม Remove

ตัวกรองแบบอัตโนมัติ Supervised

o ประกอบด้วย

• ลักษณะประจำา : AttrivuteSelection, ClassOrder, Discretize, NominalToBinary

• ระเบียน : Resample, SpreadSubsample, StratifiedREmoveFolds

58
AS714 Data Mining

AttributeSelection

o ตัวกรองท่ีเลือกลักษณะประจำาท่ีนำามาวิเคราะห์แบบอัตโนมัติ โดยผู้ใช้
กำาหนดตัวประเมินในกล่อง evaluator และวิธีการค้นในกล่อง search

o กดป่ ุม OK

o แล้วกดป่ ุม Apply

ClassOrder

59
AS714 Data Mining

o ตัวกรองเรียบฃำาดับคลาส โดยผู้ใช้กำาหนดการเรียงในกล่อง classOrder


และ seed

o กดป่ ุม OK แล้วกดป่ ุม Apply

Discretize

o ตัวกรองแปลงค่าต่อเน่ ืองให้เป็ นค่าไม่ต่อเน่ ือง โดยผู้ใช้เลือกลักษณะ


ประจำาท่ีต้องการเปล่ียนในกล่อง attributeIndices และผู้ใช้กำาหนดตัว
เลือกโดยดู Help ในหน้าถัดไป

60
AS714 Data Mining

o กดป่ ุม OK

o แล้วกดป่ ุม Apply

Discretize Help

NominalToBinary

61
AS714 Data Mining

o ตัวกรองแปลงค่า Nominal ให้เป็ นค่า Binary โดยผู้ใช้กำาหนดค่าตัวเลือก

o กดป่ ุม OK แล้วกดป่ ุม Apply

Resample

62
AS714 Data Mining

o ตัวกรองท่ีใช้สุ่มเลือกตัวอย่าง โดยมีการสุ่มแบบแทนค่ากลับคืน โดยผู้ใช้


กำาหนดค่าจำานวนตัวอย่างในกล่อง sampleSizePercent

o กดป่ ุม OK แล้วกดป่ ุม Apply

SpreadSubsample

63
AS714 Data Mining

o ตัวกรองท่ีใช้สุ่มเลือกตัวอย่างท่ีมีการกำาหนดสัดส่วนของการกระจาย โดย
ผู้ใช้กำาหนดค่าการกระจายในกล่อง distributionSpread

o กดป่ ุม OK แล้วกดป่ ุม Apply

StratifiedRemoveFolds

64
AS714 Data Mining

o ตัวกรองท่ีใช้สุ่มเลือกกลุ่มตัวอย่างออกเป็ นชุด fold โดยผู้ใช้กำาหนดตัว


เลือก
o กดป่ ุม OK

o แล้วกดป่ ุม Apply

ตัวกรองท่ีผู้ใช้กำำหนดเอง Unsupervised

o เราจะเลือกอธิบายตัวรองบางตัวเท่านัน
้ สำาหรับตัวกรองอ่ ืน ผู้ใช้สามารถ
อ่านได้จาก Help ของซอฟต์แวร์ Weka

o ลักษณะประจำา : Add, AddCluster, AddExpression, AddNoise, ClusterMembership,


Copy, Discretize, FirstOrder, MakeIndicator, MergTwoValues, NominalToBinary, Normalize,
NumericToBinary, NumericTransform, Obfuscate, PKIDiscretize, NumericToBinary,
NumericTransform, Obfuscate, PKIDiscretize, RandomProjection, Remove, RemoveType,

65
AS714 Data Mining

RemoveUseless, ReplaceMissingValues, Standardize, StringToNominal,


StringToWordVector, Swap Values, TimeSeriesData, TimeSeriesTranslate

o ระเบียน : Normalize, NonSparseToSpare, Randomize, RemoveFolds,


RemoveMisclassified, RemovePercentage, RemoveRange, RemoveWithValues, Resample,
SparseToNonSparse

ตัวกรองท่ีผู้ใช้กำำหนดเองกับลักษณะประจำำ
o Add filter

o AddExpression filter

o NominalToBinary filter

o NumericToBinary filter

o NumericTransform filter

o Remove filter

o ReplaceMissing Values filter

o Standardize filter

o AddCluster filter

o Discretize filter

o Normalize filter

o RemoveType filter

66
AS714 Data Mining

Add filter

o ตัวกรองเพ่ิมลักษณะประจำา เลือก Add โดยเพ่ิมลักษณะประจำาท่ีมีค่าตัง้


ต้นคือ missing value

o กดป่ ุม OK

o แล้วกดป่ ุม Apply

AddCluster filter

o ตัวกรองเพ่ิมลักษณะประจำาตามการเกาะกลุ่ม เลือก addCluster เลือกวิธี


การเกาะกลุ่มเช่น SimpleKMeans

o กำาหนดลักษณะประจำาท่ีไม่นำามาใช้ในการการวิเคราะห์การเกาะกลุ่มใน
ignoredAttributeIndices

67
AS714 Data Mining

o กดป่ ุม OK

o แล้วกดป่ ุม Apply

AddExpression filter

o ตัวกรองเพ่ิมลักษณะประจำาตามนิพจน์จากลักษณะประจำาท่ีกำาหนด
เลือก addExpression พิมพ์นิพจน์ท่ีต้องการสร้างลักษณะประจำาใหม่

o กดป่ ุม OK

o แล้วกดป่ ุม Apply

Discretize filter

68
AS714 Data Mining

o ตัวกรองแปลงเป็ นค่าไม่ต่อเน่ ือง ผู้ใช้เลือกลักษณะประจำาในช่อง


attributeIndices ตามลำาดับลักษณะประจำาท่ก ี ำาหนด

o กำาหนดจำานวนกล่องท่ีต้องการใน bins

o เราสามารถแบ่งแบบ equal width หรือ equal depth โดยปรับเป็ น False ท่ี


useEqualFrequency

o กดป่ ุม OK

o แล้วกดป่ ุม Apply

ผลกำรใช้ตัวกรอง Discretize

MergeTwo Values filter

69
AS714 Data Mining

o ตัวกรองรวมค่าสองค่าเป็ นหน่ ึง เลือก MergeTwo Values

o กำาหนดดรรชนีของลักษณะประจำาใน attributeIndex

o กำาหนดค่าใน firstValueIndex และ secondValueIndex

o กดป่ ุม OK

o แล้วกดป่ ุม Apply

NominalToBinary filter

o เลือกตัวกรองแปลงค่าไม่ต่อเน่ ืองเป็ นค่า 0 หรือ 1 เลือก NominalToBinary

o กำาหนดดรรชนีของลักษณะประจำาใน attributeIndices ท่ีต้องการ

o กดป่ ุม OK

70
AS714 Data Mining

o แล้วกดป่ ุม Apply

Normalize filter

o ตัวกรองเปล่ียนเป็ นค่ามาตรฐานเลือก Normalize เพ่ ือปรับลักษณะประจำา


ทุกลักษณะประจำาเฉพาะลักษณะประจำาท่ีเป็ นจำานวน จะถูกแปลงให้มีค่า
อยู่ในช่วง 0-1 โดยใช้สูตร

o กดป่ ุม Apply

Numeric ToBinary filter

71
AS714 Data Mining

o ตัวกรองแปลงข้อมูลจำานวนให้เป็ นค่า 0 หรือ 1 เลือก NumericToBinary


โดยเปล่ียนทุกลักษณะประจำาท่ีเป็ นจำานวน ค่าจำานวนท่ีเป็ น 0 จะยังคง
ค่า 0 แต่ค่าท่ีไม่ใช่ 0 จะเปล่ียนเป็ น 1 ทัง้หมด

o กดป่ ุม Apply

Numeric Transform filter

o ตัวกรองแปลงโดยใช้ฟังก์ชันจำานวนเลือก NumericTransform จะแปลงค่า


ในลักษณะประจำาตามฟั งก์ชันท่ก
ี ำาหนดเช่น abs

o กดป่ ุม OK

o แล้วกด Apply

72
AS714 Data Mining

Remove filter

o ตัวกรองกำาจัดลักษณะประจำา เลือก Remove โดย attributeIndices

o กดป่ ุม OK

o แล้วกดป่ ุม Apply

RemoveType filter

o ตัวกรองกำาจัดลักษณะประจำาตามชนิดของลักษณะประจำาเลือก
RemoveType โดยเลือกชนิดท่ีต้องการกำาจัดใน attributeType

o กดป่ ุม OK

o แล้วกดป่ ุม Apply

ReplaceMissing Value

73
AS714 Data Mining

o ตัวกรองการแทนค่าท่ีขาดหายไปเลือก ReplaceMissingValue

• แทนด้วยค่าเฉล่ียสำาหรับลักษณะประจำาท่ีเป็ นจำานวน

• แทนด้วยฐานนิยมสำาหรับลักษณะประจำาท่ีเป็ นค่าไม่ต่อเน่ ือง


Standardize filter

o ตัวกรองเปล่ียนข้อมูลให้อยู่ในรูปท่ีมีการแจกแจงมาตรฐานโดยใช้ z-score
โดยเลือก

o กดป่ ุม OK

o แล้วกดป่ ุม Apply

74
AS714 Data Mining

ตัวกรองท่ีตัวกรองท่ีผู้ใช้กำำหนดเองกับระเบียน
o Randomize

o RemoveFolds

o RemovePercentage

o RemoveRange

o RemoveWithValues

o Resample

Randomize filter

o ตัวกรองสลับสุ่ม เลือก Randomize เพ่ ือให้มก


ี ารเรียบระเบียนแบบสุ่ม

o กดป่ ุม OK

o แล้วกดป่ ุม Apply

RemoveFold filter

75
AS714 Data Mining

o ตัวกรองกำาจัดชุดระเบียน เลือก RemoveFold เพ่ ือกำาจัดข้อมูลตามจำานวนชุด


ตามจำานวนชุดทัง้หมดใน numFolds

o กดป่ ุม Save เพ่ ือบันทึกชุดระเบียน

o กดป่ ุม OK

o แล้วกดป่ ุม Apply

RemovePercentage filter

o ตัวกรองกำาจัดระเบียนตามเปอร์เซนต์เลือก RemovePercentage เพ่ ือลด


จำานวนข้อมูล โดยเอาออกเท่ากับจำานวนเปอร์เซ็นต์ท่ีกำาหนดใน
percentage

o กดป่ ุม OK

o แล้วกดป่ ุม Apply

76
AS714 Data Mining

RemoveRange filter

o ตัวกรองกำาจัดระเบียนในพิสัยท่ีกำาหนดเลือก RemoveRange เพ่ ือลดจำานวน


ข้อมูลท่ีกำาหนดใน instancesindices

o กดป่ ุม OK

o แล้วกดป่ ุม Apply

RemoveWithValues filter

o ตัวกรองกำาจัดข้อมูลตามค่า เลือก RemoveWith Values เพ่ ือลดจำานวนข้อมูล


ออกโดยใช้ attributeIndex
77
AS714 Data Mining

o ค่าท่ีต่ำากว่า splitPoint จะถูกกำาจัดทิง้

o กดป่ ุม OK

o แล้วกดป่ ุม Apply

Resample filter

o ตัวกรองสุ่มใหม่ เลือก Resample เพ่ ือให้มีการสุ่มข้อมูลใหม่ โดยกำาหนด


เป็ นเปอร์เซ็นต์ใน sampleSizePercent

o กดป่ ุม save เพ่ ือบันทึกข้อมูล

o กดป่ ุม OK

o แล้วกดป่ ุม Apply

สรุป
o โมดูลในการเตรียมข้อมูลในซอฟต์แวร์ Weka เรียก ตัวกรอง (Filters) แบ่ง
ออกเป็ น

78
AS714 Data Mining

• Supervised

• Unsupervised

o นอกจากนีเ้ราเลือกใช้ตัวกรองกับลักษณะประจำา หรือระเบียบ

กฎเช่ ือมโยงในซอฟต์แวร์ Weka


79
AS714 Data Mining

กำรทำำเหมืองข้อมูลแบบกฎเช่ ือมโยง
o ใช้กับ Market Basket analysis

o กฎบ่งบอกพฤติกรรมการซ้ือของลูกค้า

o ปรกติใช้กับฐานข้อมูลเชิงสัมพันธ์ท่ีบันทึกเป็ น Transaction โดยท่ีแต่ละ


ระเบียนคือการซ้ือสินค้าในหน่ ึงครัง้
o ผลลัพธ์ท่ีต้องการได้คือ กฎแสดงความสัมพันธ์ของการซ้ือสินค้าต่างชนิด
กันโดยไม่ขึ้นกับลูกค้าคนใดคนหน่ ึง
ข้อมูลท่ีนำำมำใช้

กำรเตรียมแฟ้ มข้อมูล
o ลักษณะประจำาของสินค้าคือช่ ือสินค้าท่ีพิจารณา

o ลักษณะประจำาตัวแรกคือรหัสการซ้ือสินค้า TID ท่ีไม่นำามาใช้ในการ


วิเคราะห์ ใช้เพ่ ือการเช่ ือมโยงกลับไปยังฐานข้อมูลเร่ิมต้นเท่านัน

80
AS714 Data Mining

o ค่าในลักษณะประจำาเป็ น Boolean เช่นกำาหนดค่าท่ีเป็ นไปได้คือ y แทนการ


ใช้ตัวเลข 1

• ตัวอย่าง การซ้ือ T100,I1,I2 เขียนเป็ น T100, 1, 1, ?, ?, ? ในซอฟต์แวร์


Weka สัญลักษณ์ ? แทนค่าท่ีหายไป (missing value)

แฟ้ ม market.arff

กำรเปิ ดแฟ้ ม Market.arff

81
AS714 Data Mining

กำรเลือกขัน
้ ตอนวิธี Apriori

o เลือกแถบ Associate

o ภายใต้ Associator เลือก Apriori

ตัวเลือกในขัน
้ ตอนวิธี Apriori
82
AS714 Data Mining

o ปรับค่า min support ในกล่อง lowerBoundMinSuport เช่น 0.2 (หมายถึงค่า


สนับสนุนต่ำาสุด 20%)

o ปรับค่า min confidence ในกล่อง minMetric โดย metricType เป็ น Confidence เช่น
0.5 (หมายถึงค่าความเช่ ือมัน
่ ต่ำาสุด 50%)

o ปรับจำานวนกฎท่ีแสดงผลในกล่อง numRules เช่น 100

กำรประมวลผลของขัน
้ ตอนวิธี Apriori

83
AS714 Data Mining

16 กฎท่ีได้จำก market.arff

ความหมายของกฎท่ี 1:การซ้ือสินค้าของลูกค้าท่ีมีสินค้า I5 แล้วจะมีสินค้า I1


เสมอ
ความหมายของกฎท่ี 2:การซ้ือสินค้าของลูกค้าท่ีมีสินค้า I4 แล้วจะมีสินค้า I2
เสมอ
ลักษณะข้อมูลท่ีไม่ใช่ตะกร้ำซ้ือ

84
AS714 Data Mining

o การทำาเหมืองข้อมูลแบบกฎเช่ ือมโยงสามารถนำาไปใช้กบ ั ข้อมูลท่ีไม่ใช่


transaction ได้ โดยใช้การเข้ารหัสของลักษณะประจำาเป็ นชนิด Nominal หรือ
Ordinal

o ซอฟต์แวร์ Weka ใช้การเข้ารหัส dummy coding คือซอฟต์แวร์จะแปลงค่าของ


Nominal หรือ Ordinal หน่ ึงค่าแทนด้วยตัวแปรทวิภาค เช่น

• ลักษณะประจำา outlook มีคา่ ท่ีเป็ นไปได้คือ overcast, sunny, rainy แล้ว


ตัวแปรทวิภาคเขียนได้เป็ น outlook = overcast, outlook = sunny, outlook =
rainy

แฟ้ ม weather.nominal.arff

ผลลัพธ์ท่ีได้จำก weather.nominal.arff

85
AS714 Data Mining

8 กฎท่ีได้จำก weather.nominal.arff

ความหมายของกฎท่ี 1:ถ้าสภาพอากาศเป็ น overcast แล้ว play = yes เสมอ

ความหมายของกฎท่ี 2:ถ้าอุณหภูมิเป็ น cool แล้วความช้ืนจะปรกติ (narmal) เสมอ

ความหมายของกฎท่ี 3:ถ้าความช้ืนปรกติและไม่มีลม windy = FALSE แล้ว play = yes


เสมอ
สรุป

86
AS714 Data Mining

o แฟ้ มข้อมูลท่ีถูกนำามาใช้ในการวิเคราะห์ต้องประกอบด้วยลักษณะประจำา
ท่ีเป็ น Nominal หรือ Ordinal เท่านัน

o ข้อมูลในลักษณะ transaction เป็ นข้อมูล Nominal และการไม่ซ้ือใช้? (missing


value) แทน

TID, atri_1, attri_2,…, attri_n

• เม่ ือ TID แทนรหัสการซ้ือและแต่ละ attri_i มีค่า y หรือ ?

o เลือก Associate และใช้ Apriori ใต้ Associator

o ปรับค่าพารามิเตอร์ min support กับ min confidence และ numRules ท่ีต้องการ


แล้วสัง่ให้ประมวลผล

ต้นไม้กำรตัดสินใจในซอฟต์แวร์ Weka

o การทำาเหมืองข้อมูลการจัดจำาแนกประเภท Classification

87
AS714 Data Mining

o การเตรียมข้อมูลสำาหรับการจัดจำาแนกประเภท

o การเลือกใช้ต้นไม้การตัดสินใจ

o ผลลัพธ์ท่ีได้โดยใช้ ID3 ซ่ ึงไม่ใช่ลก


ั ษณะประจำาท่ีเป็ นค่าต่อเน่ ือง

o ผลลัพธ์ท่ีได้โดยใช้ J48 ซ่ ึงไม่ใช่ลก


ั ษณะประจำาท่ีเป็ นค่าต่อเน่ ืองและไม่ต่อ
เน่ ือง

กำรทำำเหมืองข้อมูลกำรจัดจำำแนกประเภท
o เป็ นการสร้างตัวแบบ Classifier ท่ีสามารถแบ่งแยกข้อมูล (ตัวอย่าง) ออก
ตามคลาสหรือลักษณะประจำาเป้ าหมายกำาหนด
o ตัวแบบท่ีต้องการอาจเป็ น

• Bayes ใช้หลักของเบย์หรือตัวแบบเชิงความน่าจะเป็ น

• Functions ตัวแบบในรูปของฟั งก์ชัน

• Lazy ตัวแบบท่ีเก็บตัวอย่าง การตัดสินใจเกิดเม่ ือตัวอย่างใหม่ถูกนำา


เข้าเท่านัน

• Meta การทำาตัวแบบให้ดีขึ้น โดยการเรียนข้อมูลเมตา

• Misc วิธีการสร้างตัวแบบวิธอ
ี ่ ืน

• Trees การสร้างตัวแบบโดยใช้ต้นไม้

• Rules การสร้างตัวแบบโดยใช้กฎ

88
AS714 Data Mining

แฟ้ มตัวอย่ำง Weather.nominal.arff

ลักษณะประจำาเป้ าหมายเป็ น
ลักษณะประจำาสุดท้ายในตาราง

ตัวอย่างมีทัง้หมด 14 ตัวอย่าง
และมีลักษณะประจำาท่ีไม่ใช่
ลักษณะประจำาเป้ าหมาย 4 ตัว

กำรเตรียมแฟ้ มข้อมูล
o กำาหนดลักษณะประจำาเป้ าหมายให้เป็ นลักษณะประจำาสุดท้าย
89
AS714 Data Mining

o บางขัน ้ ตอนวิธีใช้สร้างต้นไม้การตัดสินใจต้องการลักษณะประจำาท่ีมีค่าไม่
ต่อเน่ ืองเท่านัน้ ดังนัน
้ เราจำาเป็ นต้องเปล่ียนลักษณะประจำาท่ีมีค่าต่อ
เน่ ืองให้เป็ นลักษณะประจำาท่ีมีค่าไม่ต่อเน่ ือง
o ในกรณีท่ีมีระเบียนน้อย เราอาจใช้ k-fold cross validation หรือ leave-one-out

o ในกรณีท่ีมีระเบียนมากพอ เราควรแบ่งกัน
้ ระเบียนบางส่วนเป็ น Validation,
Test data และท่ีเหลือนำามาใช้เป็ น Training data สัดส่วนท่ีใช้อาจเป็ น 3/10, 3/10
กับ 4/10

กำรใช้งำนซอฟต์แวร์ Weka explorer

90
AS714 Data Mining

o เร่ิมการทำางานของซอฟต์แวร์ Weka เปิ ดโมดูล Explorer

o เปิ ดแฟ้ ม Weather.nominal.arff

o แปลงลักษณะประจำาท่ีมีค่าต่อเน่ ืองเป็ นลักษณะประจำาท่ีมีค่าไม่ต่อเน่ ือง


โดยใช้ Filter ก่อนเลือกแถบ Classify

91
AS714 Data Mining

Outlook มีค่าต่างกัน 3 ค่า

temperature มีค่าต่างกัน 3
ค่า

92
AS714 Data Mining

humidity มีค่าต่างกัน 2 ค่า

windy มีค่าต่างกัน 2 ค่า

93
AS714 Data Mining

ผู้ใช้เลือกป่ ม
ุ choose ใต้
classifiers

เลือกป่ ุม classifiers

เลือกต้นไม้ trees

 ผู้ใช้กำาหนดเลือก use
training set เพ่ ือใช้ทุก
ตัวอย่างในการสร้าง
ต้นไม้

 ผู้ใช้เลือกลักษณะป
ประจำาเป้ าหมายท่ี
ต้องการ โดยปกติ
ลักษณะประจำาสุดท้าย
จะถูกเลือก

94
AS714 Data Mining

 รายงานผลลัพธ์ของตัว
แบบ กับข้อมูล training

 Confusion matrix แสดง


ค่าท่ีได้จากตัวแบบ (ด้าน
บน) กับค่าจริง (ด้านล่าง)
ผลลัพธ์ท่ีดีต้องไม่มีค่า
นอก diagonal

แฟ้ ม weather.arff

@relation weather

@attribute outlook {sunny, overcast, rainy}

@attribute temperature real

95
AS714 Data Mining

@attribute humidity real

@attribute windy {TRUE, FALSE}

@attribute play {yes, no}

@data

sunny,85,85,FALSE,no

sunny,80,90,TRUE,no

overcast,83,86,FALSE,yes

rainy,70,96,FALSE,yes

rainy,68,80,FALSE,yes

rainy,65,70,TRUE,no

overcast,64,65,TRUE,yes

sunny,72,95,FALSE,no

sunny,69,70,FALSE,yes

rainy,75,80,FALSE,yes

sunny,75,70,TRUE,yes

overcast,72,90,TRUE,yes

96
AS714 Data Mining

overcast,81,75,FALSE,yes

rainy,71,91,TRUE,no

กำรเปล่ียนลักษณะประจำำให้เป็ นค่ำไม่ต่อเน่ ือง

o เลือก Discretize ในกล่อง Filter โดยเลือก filter unsupervised attribute

o ปรับค่าในกล่อง bins ให้เหมาะสม เช่นกำาหนดให้เป็ น 3 กล่อง


97
AS714 Data Mining

o กดป่ ุม OK

o แล้วกด Apply

ผลท่ีได้จำกแปลงเป็ นค่ำไม่ต่อเน่ ือง

กำรทำำเหมืองข้อมูลแบบจัดจำำแนกประเภท ID3

98
AS714 Data Mining

o เลือก Id3 ในกล่อง Classify ใต้แถบ Classify โดย classifiers trees Id3

o เลือก Use Training set ในกล่อง Test option

o กดป่ ุม Start

o จะได้ผลลัพธ์ดังรูปด้านซ้าย

ต้นไม้ท่ีได้จำก ID3

99
AS714 Data Mining

ต้นไม้การตัดสินใจดังกล่าวสามารถจำาแนก play ถูกต้อง 100%

=== Confusion Matrix ===

a b <-- classified as

9 0 | a = yes

0 5 | b = no

กำรทำำเหมืองข้อมูลแบบจัดจำำแนกประเภท J48

100
AS714 Data Mining

o เลือก J48 ในกล่อง Classify ใต้แถบ Classify โดย classifiers trees J48

o เราไม่จำาเป็ นต้องเปล่ียนลักษณะประจำาให้เป็ นชนิดท่ีมีค่าไม่ต่อเน่ ือง

o เลือก Use Training set ในกล่อง Test option

o กดป่ ุม Start

o จะได้ผลลัพธ์ดังรูปด้านซ้าย

101
AS714 Data Mining

ต้นไม้ท่ีได้จาก J48

ต้นไม้การตัดสินใจดังกล่าวสามารถจำาแนก play ถูกต้อง 100%

=== Confusion Matrix ===

a b <-- classified as

9 0 | a = yes

0 5 | b = no

สรุป
o การทำาเหมืองข้อมูลแบบจัดจำาแนกประเภท มีขัน
้ ตอนวิธีในการสร้างตัว
แบบมากมาย
o การใช้ต้นไม้ในการบ่งบอกตัวแบบก็เป็ นหน่ ึงในวิธีดังกล่าว

o สำาหรับขัน
้ ตอนวิธี Id3 ลักษณะประจำาทุกตัวต้องมีค่าไม่ต่อเน่ ือง

o แต่ขัน
้ ตอนวิธี J48 ลักษณะประจำาเป็ นต้องมีค่าไม่ต่อเน่ ือง

102
AS714 Data Mining

กำรทำำเหมืองข้อมูลกำรจัดจำำแนกประเภท

o ตัวแบบการทำาเหมืองข้อมูลแบบจำาแนกประเภท

• Bayes ใช้หลักของเบย์หรือตัวแบบเชิงความน่าจะเป็ น

• Functions ตัวแบบในรูปของฟั งก์ชัน

• Lazy ตัวแบบท่ีการตัดสินใจเกิดเม่ ือตัวอย่างใหม่ถูกนำาเข้า

• Meta ตัวแบบเมตา

• Misc วิธีการสร้างตัวแบบวิธอ
ี ่ ืน

• Trees ตัวแบบในรูปต้นไม้

• Rules ตัวแบบในรูปกฎ

กำรทำำเหมืองข้อมูลกำรจัดจำำแนกประเภท
o เร่ิมการทำางานของซอฟต์แวร์ Weka เปิ ดโมดูล Explorer
103
AS714 Data Mining

o เปิ ดแฟ้ ม Weather.nominal.arff

o แปลงลักษณะประจำาท่ีมีค่าต่อเน่ ืองเป็ นลักษณะประจำาท่ีมีค่าไม่ต่อเน่ ือง


โดยใช้ Filter ก่อนเลือกแถบ Classify

ตัวอย่ำงกำรเลือกหลักของเบย์อย่ำงง่ำย

104
AS714 Data Mining

o ผู้ใช้เลือกป่ ุม choose ใต้ classifiers

o เลือกป่ ุม classifiers

o เลือก bayes

o เลือกขัน
้ ตอนวิธี NaïveBayesSimple

105
AS714 Data Mining

o ผู้ใช้กำาหนดเลือก use training set เพ่ ือใช้ทุกตัวอย่างในการสร้างตัวแบบของ


เบย์
o ผู้ใช้เลือกลักษณะประจำาเป้ าหมายท่ีต้องการ โดยปกติลักษณะประจำา
สุดท้ายจะถูกเลือก
o ผู้ใช้กดป่ ุม Start เพ่ ือเร่ิมสร้างตัวแบบของเบย์

ผลลัพธ์ท่ีได้จำก NaiveBayesSimple

106
AS714 Data Mining

กำรใช้ตัวแบบ NaiveBayesSimple

o สมมติว่าเราพบข้อมูล (outlook=sunny, temperature=mild,humidity=normal,


windy=TRUE)

o Pr(X|play=yes)·Pr(play=yes) = Pr(outlook=sunny|

o play=yes)·Pr(temperature=mild|play=yes)· Pr(humidity=normal|play=yes)

o ·Pr(windy=TRUE|play=yes)· Pr(play=yes) = 0.25·0.41667·0.63636·0.3636·0.625 =


0.015064

o Pr(X|play=no)·Pr(play=no) = Pr(outlook=sunny|

o play=no)·Pr(temperature=mild|play=no)· Pr(humidity=normal|play=no)

o ·Pr(windy=TRUE|play=no)· Pr(play=no) =0.5·0.375·0.2857·0.5714·0.375 = 0.011478

o เราสรุปว่า X ควรเป็ น yes

ปั ญหำของผลลัพธ์ของ NaiveBayesSimple

107
AS714 Data Mining

o ในกรณีค่าความน่าจะเป็ นบางช่วงเป็ นศูนย์ เราพบว่าหลักการของเบย์อาจ


ไม่สามารถเลือกค่าของคลาสเป้ าหมายท่ีต้องการได้ เพราะเม่ ือนำาความน่า
จะเป็ นศูนย์คูณด้วยตัวเลขใดๆ ก็จะได้คา่ ศูนย์
o วิธีการแก้ปัญหาใช้ Laplace Estimator กล่าวคือ การบวกหน่ ึงหน่วยเข้าในทุก
ค่าของตารางความถ่ี ก่อนการประมาณความน่าจะเป็ น
o หลักการดังกล่าวถูกใช้ใน NaiveBayes

กำรทำำเหมืองข้อมูลแบบจำำแนกประเภทด้วย NaiveBayes ท่ใี ช้ Laplace estimator

Confusion Matrix แสดง


ผลลัพธ์ท่ีได้จากการ
จำาแนกประเภทโดยตัวแบบ
กับข้อมูลจริง

o เลือก NaiveBayes ในกล่อง Classify ใต้แถบ Classify  โดย classifier bayes


 NaiveBayes

o เลือก Use training set ในกล่อง Test options

o กดป่ ุม Start

108
AS714 Data Mining

ผลลัพธ์ท่ีได้จำก NaiveBayes

Class yes: P(C) = 0.63

outlook: Discrete Estimator. Counts = 3 5 4 (Total = 12)

temperature: Discrete Estimator. Counts = 3 5 4 (Total = 12)

humidity: Discrete Estimator. Counts = 4 7 (Total = 11)

windy: Discrete Estimator. Counts = 4 7 (Total = 11)

Class no: P(C) = 0.38

outlook: Discrete Estimator. Counts = 4 1 3 (Total = 8)

temperature: Discrete Estimator. Counts = 3 3 2 (Total = 8)

humidity: Discrete Estimator. Counts = 5 2 (Total = 7)

windy: Discrete Estimator. Counts = 4 3 (Total = 7)

=== Confusion Matrix ===

a b <-- classified as

9 0 | a = yes

1 4 | b = no

o ตัวแบบของเบย์ท่ีได้สามารถจำาแนก play ถูกต้อง 92.8571%

สรุป
109
AS714 Data Mining

o การทำาเหมืองข้อมูลแบบจำาแนกประเภทใช้หลักของเบย์ ใข้การสร้าง
ตารางความถ่ี แล้วประมาณเป็ นความน่าจะเป็ นแบบมีเง่ ือนไข
o NaiveBayesSimple คือการใช้ความน่าจะเป็ นแบบมีเง่ ือนไข โดยท่ีสมมุติว่า
ลักษณะประจำาแต่ละลักษณะประจำาเป็ นอิสระต่อกัน
o NaiveBayes เป็ นการคำานวณหาค่าความน่าจะเป็ นแบบมีเง่ ือนไขโดยใช้
Laplace estimator (เติมหน่ ึงหน่วยในตารางความถ่ี)

o การกำาหนดคลาสของตัวอย่างจากตัวแบบ NaiveBayes คำานวณโดยหาค่า


ความน่าจะเป็ นของคลาสท่ีมากท่ีสุด

ตัวแบบกำรทำำเหมืองข้อมูลแบบจัดจำำแนกประเภท
• Bayes ใช้หลักของเบย์หรือตัวแบบเชิงความน่าจะเป็ น

110
AS714 Data Mining

• Functions ตัวแบบในรูปของฟั งก์ชัน

• Lazy ตัวแบบท่ีการตัดสินใจเกิดเม่ ือตัวอย่างใหม่ถูกนำาเข้า

• Meta การทำาตัวแบบให้ดีขึ้นโดยการเรียนข้อมูลเมตา

• Misc วิธีการสร้างตัวแบบวิธอ
ี ่ ืน

• Trees การสร้างตัวแบบโดยใช้ต้นไม้

• Rules การสร้างตัวแบบโดยใช้กฎ

กำรทำำเหมืองแบบจำำแนกประเภท

• เร่ิมการทำางานของซอฟต์แวร์ WEKA เปิ ดโมดูล Explorer

• เปิ ดแฟ้ ม weather.arff

• ตัวแบบเครือข่ายประสาทสามารถรับลักษณะประจำาท่ีมีค่าต่อเน่ ืองและค่า
ไม่ต่อเน่ ืองได้เลือกแถบ Classify

ตัวอย่ำงกำรเลือกเครือข่ำยประสำท

111
AS714 Data Mining

112
AS714 Data Mining

รูปภำพนำมธรรมของเครือข่ำยประสำม

113
AS714 Data Mining

ผลลัพธ์ท่ีได้จำกเครือข่ำยประสำท
114
AS714 Data Mining

กำรใช้ตัวแบบเครือข่ำยประสำท

• จากผลลัพธ์ของตัวแบบเครือข่ายประสาท เราพบว่าผลลัพธ์ท่ีได้คือค่าถ่วง
น้ำาหนัก การใช้งานผู้ใช้ต้องเปล่ียนค่าของตัวแปรนำาเข้าทัง้หมดเป็ น
จำานวน แล้วคำานวณค่าผลรวมของค่าถ่วงน้ำาหนักท่ีได้กับค่าของตัวแปร
นำาเข้า ผ่านฟั งก์ชันขอบแล้ว ส่งต่อไปจนถึง Output node

• การคำานวณดังกล่าวมักมีความยุ่งยาก เพ่ ือให้ผู้ใช้ซอฟต์แวร์ WEKA


สามารถนำาตัวแบบไปใช้ได้ ผู้ใช้ต้องบันทึกตัวแบบ แล้วใช้ตัวแบบกับ
แฟ้ มตัวอย่างกำาหนด

115
AS714 Data Mining

116
AS714 Data Mining

กำรใช้ตัวแบบเครือข่ำยประสำทกับ test data

• หลังจากบันทึกตัวแบบเครือข่ายประสาท ผู้ใช้ต้องการทดสอบโดย
เตรียมข้อมูล Test data

• ขัน
้ ตอนในการทดสอบข้อมูล Test data

o ใช้ซอฟต์แวร์ WEKA เปิ ด Test data

o เลือก classify

o กดเมาส์ขวาท่ีกล่อง Result list เลือก Load model

o เลือก Supplied test set เปิ ดแฟ้ ม Test data

o กดเมาส์ขวา เลือก Re-evaluate model on current test set

117
AS714 Data Mining

118
AS714 Data Mining

ผลลัพธ์ท่ีได้จำกเครือข่ำยประสำท

119
AS714 Data Mining

กำรเลือกค่ำท่ีทำำนำยจำกตัวแบบ
120
AS714 Data Mining

กำรอ่ำนค่ำท่ีทำำนำยจำกตัวแบบ

• ผู้ใช้สามารถดูผลลัพธ์ท่ีทำานายเปรียบเทียบกับคลาสเป้ าหมาย โดย


ใช้ ArffViewer

• ลักษณะประจำาท่ีได้จากการทำานายจะขึ้นด้วยคำาว่า Predicted แล้วตาม


ด้วยช่ ือคลาสเป้ าหมาย เช่น คลาสเป้ าหมายช่ ือ class ได้คลาสทำานาย
ช่ ือ predictedclass

121
AS714 Data Mining

สรุป

• ขัน
้ ตอนวิธีการทำาเหมืองข้อมูลแบบจำาแนกประเภทโดยใช้เครือข่าย
ประสาทในซอฟต์แวร์ WEKA คือ MultiLayerPerceptron

• การเรียนรู้ท่ีเกิดขึ้นคือ การหาค่าถ่วงน้ำาหนักของเครือข่ายประสาทท่ี
เช่ ือมจาก Input Layer ไป Hidden Layer ไป Output Layer

• ปรกติผลลัพธ์ท่ีได้ของเครือข่ายประสาทจะมีประสิทธิภาพดี ผู้ใช้ต้องมี
การเลือกพารามิเตอร์ท่ีเหมาะสม เช่น Hidden nodes, learning rate,
momentum, training time

นิยำมผังกำรไหลของควำมรู้
122
AS714 Data Mining

• ผังการไหลของความรู้ คือแผนภาพท่ีแสดงถึงการได้มาของความรู้
(Knowledge) โดยผ่านกระบวนการ ขัน
้ ตอนวิธี การแสดงผลท่ีใช้ในการทำา
เหมืองข้อมูล

• แผนภาพท่ีสร้างใช้สัญลักษณ์ (Icon) ท่ีส่ือถึงกระบวนการ ขัน


้ ตอน วิธี
การแสดงผลหน่ ึงลักษณะหรือหน่ ึงแบบ

• เส้นท่ีเช่ ือมโยงระหว่างสัญลักษณ์แสดงการไหลของข้อมูล (Data) ท่ีผ่าน


กระบวนการ (icon) จนถึงความรู้ท่ีได้

ตัวอย่าง การไหลของข้อมูลเพ่ ือให้ได้ความรู้

DataSources  Filter  Classifier  Evaluator  Visualization

หน้ำจอเร่ิมต้นของผังกำรไหลของควำมรู้

123
AS714 Data Mining

รำยกำรของผังกำรไหลของควำมรู้

New Layout สร้างผังการไหล

Save Layout เก็บผังท่ีสร้างไว้ใน Knowledge Flow


Layout บันทึกลง แฟ้ มข้อมูลเพ่ ือนำากลับมาใช้

Open Layout เปิ ดแฟ้ มข้อมูลท่ีเก็บผังท่ีสร้างไว้


แล้ว เพ่ ือนำากลับมาใช้ใหม่

Selection เปล่ียนเมาส์ให้เป็ นตัวชี เ้พ่ ือเลือก


ภาพสัญลักษณ์หรือเส้นเช่ ือม

124
AS714 Data Mining

Display help แสดงข้อความอธิบายการใช้เคร่ ือง


มือของผังการไหลของความรู้

Stop all execution หยุดการประมวลผลทุก


อย่างท่ีเกิดข่ึน

ส่วนประกอบหลักของผังกำรไหลของควำมรู้

125
AS714 Data Mining

• DataSources: กำาหนดแหล่งข้อมูลท่ีอ่านเข้าผัง

• DataSinks: กำาหนดการบันทึกข้อมูลหรือจุดสุดท้ายของกระบวนการ

• Filters: ขัน
้ ตอนการจัดการเตรียมข้อมูล

• Classifiers: การสร้างตัวแบบและวิธีการในการจัดจำาแนดประเภท

• Clusterers: การใช้ขัน
้ ตอนวิธีการวิเคราะห์การเกาะกลุ่ม

• Associations: การใช้ขัน
้ ตอนวิธีการหากฎเช่ ือมโยง

• Evaluation: ประเมินและแบ่งเซตข้อมูลออกเป็ นส่วนๆ

• Visualization: สำาหรับแสดงผลลัพธ์ดว้ ยภาพนามธรรม

126
AS714 Data Mining

• เร่ิมจากเลือกแถบ DataSources

• เลือกสัญลักษณ์ ArffLoader เมาส์เปล่ียนเป็ นเคร่ ืองหมายกากบาท

• กดเมาท์ในบริเวณ Knowledge Flow Layout

• กดเมาส์ปุ่มขาท่ี ArffLoader เลือก Configure

• เลือกแฟ้ มท่ีช่ือ weather.arff

ตัวอย่ำงผังกำรไหลท่ีแสดงข้อควำมของข้อมูล

127
AS714 Data Mining

• เลือกแถบ Visualization

• กดเมาท์ท่ี Text Viewer เมาส์ เปล่ียนเป็ นเคร่ ืองหมายกากบาท

• กดเมาท์ปุ่มขวาเพ่ ือเช่ ือม ArffLoader ไปยัง TextViewer โดยเลือก dataset


บนเมนูของ weather.arff

• กดเมาท์ปุ่มขวาท่ี ArffLoader โดยเลือก Start loading ใต้รายการ Action

กำรแสดงผลของท่ีสัญลักษณ์ภำพนำมธรรม

128
AS714 Data Mining

• หลังจากเลือก Start loading ได้รายการ Action ของ ArffLoader

• ช่ ือแฟ้ มท่ีอ่านจะปรากฎใต้ภาพ ArffLoader

• แสดงข้อความโดยเลือก Show results ภายใต้รายการใน TextViewer


โดยกดเมาส์ปุ่มขวา

• ผลลัพธ์ท่ีได้แสดงทางภาพด้านซ้าย

129
AS714 Data Mining

กำรเพ่ิมขัน
้ ตอนในกำรกรอง Missing value

• เร่ิมจาก DataSources โดยใช้ ArffLoader

• เลือก Configure.. แล้วเลือกแฟ้ ม labor.arff

• เลือกแถบ Filters ท่ีเรียก Replace Missing Values เพ่ ือเติมค่าท่ีหายไป

• เลือกแถบ Visualization แล้วเลือก TextViewer เพ่ ือแสดงผลลัพธ์

130
AS714 Data Mining

กำรเพ่ิมขัน
้ ตอน Discretization

131
AS714 Data Mining

• เร่ิมจาก DataSources โดยใช้ ArffLoader

• เลือก Configure… แล้วเลือกแฟ้ ม lobor.arff

• เลือกแถบ Filters แล้วเลือก Discretize เพ่ ือเปล่ียนตัวแปรท่ีมีค่าต่อ


เน่ ืองเป็ นตัวแปรท่ีมีค่าไม่ต่อเน่ ือง

• เลือก TextViewer จากแถบ Visualization

132
AS714 Data Mining

กำรเพ่ิมขัน
้ ตอน Normalization

• เร่ิมจาก DataSources โดยใช้ ArffLoader

• เลือก Configure… แล้วเลือกแฟ้ ม labor.arff

133
AS714 Data Mining

• เลือกแถบ Filters ท่ีเรียก Nomalize เพ่ ือแปลงตัวแปรท่ีมีค่าต่อ


เน่ ืองให้อยู่ในช่วง [0,1]

• เลือกแถบ Visualization แล้วเลือก TextViewer เพ่ ือแสดงผลลัพธ์

กำรเพ่ิมขัน
้ ตอน Standardize

134
AS714 Data Mining

• เร่ิมจาก DataSources โดยใช้ ArffLoader

• เลือก configure… แล้วเลือกแฟ้ ม labor.arff

• เลือกแถบ Filters ท่ีเรียก Standardize เพ่ ือแปลงตัวแปรให้มีคา่ ตกอยู่ใน


ช่วงของการกระจายแบบปรกติมาตรฐาน

• เลือกแถบ Visualization แล้วเลือก TextViewer เพ่ ือแสดงผลลัพธ์

135
AS714 Data Mining

กำรบันทึกข้อมูลลงแฟ้ ม csv

• ซอฟต์แวร์ WEKA สามารถแปลงข้อมูลให้อยู่ในรูปแบบ csv เพ่ ือนำาไป


ใช้กับซอฟต์แวร์อ่ืน เช่น Calc

• เร่ิมจากเลือก ArffLoader ใน DataSources


136
AS714 Data Mining

• แปลงข้อมูลให้เหมาะสม

• เลือกแถบ DataSinks แล้วเลือก CSV saver

• เลือกแฟ้ มข้อมูล Arff ท่ีต้องการ แล้วเลือก Start Loading

137
AS714 Data Mining

กำรบันทึกลงแฟ้ ม CSV (ต่อ)

• เลือก Configure… ในเมนูของ CSV saver

• เปล่ียนสถานท่ีท่ีต้องการเก็บไปตำาแหน่งท่ีต้องการเก็บ โดยเพ่ิม
prefix ให้กับช่ ือแฟ้ มท่ีต้องการ

• เก็บข้อมูลโดยเลือก Start loading ใน ArffLoader

โครงกำรทำำเหมืองข้อมูลโดยใช้ผังกำรไหล

138
AS714 Data Mining

• กำาหนดข้อมูลในแฟ้ ม iris.arff ให้หาตัวต้นไม้การตัดสินใจท่ีดท


ี ่ีสุด
โดยใช้ 5 fold cross-validation กับขัน
้ ตอนวิธี J48 แสดงผลลัพธ์ท่ีได้ในรูป
แบบต้นไม้

• แนวทางวางผังการไหล:

DataSource  Evaluation  J48  Visualization

• เร่ิมจากการอ่านแฟ้ ม iris.arff

• กำาหนดลักษณะประจำาท่ีใช้แทนคลาส

• แบ่งข้อมูลออกเป็ น 5 ส่วนเพ่ ือทำา cross-validation

• ใช้ขัน
้ ตอนวิธี J48

• แสดงผลลัพธ์

กำรอ่ำน iris.arff

139
AS714 Data Mining

• เลือก ArffLoader จากแถบ DataSources

• ปรับแต่งให้เลือกแฟ้ ม iris.arff จาก Configure… เมนู

• เลือก Class Assignment จากแถบ Evaluation

• เลือกคลาสเป้ าหมาย

กำรแยกออกเป็ น k-fold cross validation

140
AS714 Data Mining

• เลือก Cross Validation FoldMaker จากแถบ Evaluation

• ปรับแต่งให้มีจำานวน fold เท่ากับ 5

• ส่งข้อมูล DataSet จาก Class Assigner

141
AS714 Data Mining

กำรเรียกใช้ขัน
้ ตอนวิธี J48

• เลือก J48 จากแถบ Classifiers

142
AS714 Data Mining

• โยงข้อมูลจาก Cross Validation FoldMaker โดยเลือก training set และ


test set โยงไปท่ี J48

• สัง่ให้ข้อมูลนำาเข้า โดยเลือก Start loading จาก ArffLoader

กำรแสดงผลท่ีได้จำกผังกำรไหล

143
AS714 Data Mining

• เลือก Classifiers PerformanceEvaluators จากแถบ Evaluation

• โยงข้อมูลจาก J48 โดยเลือก batchClassifiers โยงไปท่ี


ClassifiersPerformanceEvaluators

• สร้าง TextViewer และ/หรือ Graph Viewer จาก Visualization

144
AS714 Data Mining

ผลลัพธ์ท่ีได้ในรูปเน้ือควำมของ J48

• เลือก Start Loading จากแถบ ArffLoader

• รอจนจบ แล้วเลือก Show results จาก TextViewer

145
AS714 Data Mining

• ผลลัพธ์ท่ีได้แสดงดังรูปซ้ายซ่ ึงให้ค่าท่ีถูกต้อง 96%

• ใน Confusion Matrix แสดงผลจากการเปรียบเทียบกับกลุ่มท่ีสนใจ

ผลลัพธ์ในรูปต้นไม้กำรตัดสินใจ

146
AS714 Data Mining

สรุป

• การออกแบบผังการไหลโดยปรกติ

DataSource  Filter  Classifier/Clusterers/Association  Evaluation  Visualization 


DataSinks

• Filter ใช้ในการเตรียมข้อมูล

147
AS714 Data Mining

• Classifier/Clusterers/Association ใช้ในการสร้างตัวแบบในการทำาเหมือง
ข้อมูล

• Evaluation ใช้ในการเลือกตัวแบบ

• Visualization ใช้ในการแสดงผลลัพธ์ของการทำาเหมืองข้อมูล

• DataSinks ใช้ในการเก็บผลลัพธ์

ขัน
้ ตอนวิธีกำรวิเครำะห์กำรเกำะกลุม
่ ใน WEKA

• Cobweb ใช้หลักการจัดจำาแนกโดยต้นไมและความน่าจะเป็ น

• DBScan วิธีการเกาะกลุ่มโดยใช้ความหนาแน่น

• EM การเกาะกลุ่มโดยใช้ค่าคาดคะแนท่ีมากท่ีสุด

• FarthestFirst การเกาะกลุ่มโดยเลือกตัวท่ีไกลท่ีสุดก่อน

• Filtered Cluster การเกาะกลุ่มท่ีผ่านการกรองก่อน

• MakeDensityBasedClusterer วิธีการเกาะกลุ่มท่ีใช้หลายวิธีรวมกัน

• OPTICS วิธีการเกาะกลุ่มโดยใช้หลักความหนาแน่น

• SimpleKMeans วิธีการเกาะกลุ่มแบบแบ่งกัน
้ โดยใช้ค่าเฉล่ียหรือฐานนิยม

• XMeans วิธีการเกาะกลุ่มท่ีไม่ต้องกำาหนดค่า K

148
AS714 Data Mining

ตัวอย่ำงกำรเลือกขัน
้ ตอนวิธีกำรเกำะกลุ่ม

แฟ้ ม weather.arff

@relation weather

@attribute outlook {sunny, overcast, rainy }

@attribute temperature real

@attribute humidity real

@attribute windy { TRUE, FALSE }

@attribute play { yes, no }

149
AS714 Data Mining

@data

rainy,68,80,FALSE,yes

sunny,69,70,FALSE,yes

rainy,65,70,TRUE,no

overcast,64,65,TRUE,yes

sunny,85,85,FALSE,no

overcast,83,86,FALSE,yes

overcast,91,75,FALSE,yes

sunny,80,90,TRUE,no

sunny,72,95,FALSE,no

rainy,70,96,FALSE,yes

rainy,75,80,FALSE,yes

rainy,71,91,TRUE,no

overcast,72,90,TRUE,yes

sunny,75,70,TRUE,yes}

150
AS714 Data Mining

กำรเตรียมแฟ้ มข้อมูล

• กำาจัดลักษณะประจำาท่ีมีค่าแตกต่างกันทัง้หมดออกก่อน เช่น คีย์หลัก


(Primary Key)

• กำาจัดลักษณะประจำาท่ีมีค่าเพียงค่าเดียวออก

• ลักษณะประจำาท่ีใช้อาจเป็ น Numeric หรือ Categorical ก็ได้

• ในกรณีท่ีต้องการเปรียบเทียบการเกาะกลุ่มกับลักษณะประจำาเป้ าหมายท่ี
สนใจ ให้เลือก Classes to cluster evaluation ในการวิเคราะห์ ซอฟต์แวร์ WEKA
จะไม่ใช้ลักษณะประจำาเป้ าหมายในการคิดระยะ
ขัน
้ ตอนกำรเกำะกลุ่มโดย K-Means

151
AS714 Data Mining

• เปิ ดโมดูล Explorer ของซอฟต์แวร์ WEKA

• เปิ ดแฟ้ ม weather.arff

• เลือกแถบ Cluster

• เลือกแถบ SimpleKMeans ในกล่อง Clusterer

ผลลัพธ์ท่ีได้จำก SimpleKMeans

152
AS714 Data Mining

• เลือก Classes to clusters evaluation เพ่ ือเปรียบเทียบผลท่ีได้จากการเกาะ


กลุ่มกับคลาสเป้ าหมายท่ีต้องการ

• ลักษณะประจำาท่ีอยู่เหนือป่ ุม start ต้องเป็ นคลาสเป้ าหมายท่ีต้องการ

• กดป่ ุม Start จะได้ผลลัพธ์ดังรูปด้านบน

ผลท่ีได้จำกกำรเลือก Visualize cluster assignment

153
AS714 Data Mining

• เลือก Visualize cluster assignments โดยกดเมาส์ปุ่มขวาจากผลลัพธ์ในกล่อง


Result list

• กราฟแสดงผลของการกำาหนดกลุ่มได้ดังภาพด้านขวา

สรุป

• การทำาเหมืองข้อมูลแบบการวิเคราห์การเกาะกลุ่มมีขัน
้ ตอนวิธีให้เลือก
ใช้อยู่ 9 แบบสำาหรับ WEKA 3.5.3

• ถ้าผู้ใช้ต้องการเปรียบเทียบระหว่างกลุ่มกับคลาส เลือกใช้ Classes to


cluster evaluation

• เราสามารถดูด้วยภาพนามธรรมโดยเลือก Visualize cluster assignment

154
AS714 Data Mining

155

Você também pode gostar