• Tidak ada hasil yang ditemukan

การพัฒนาระบบสารสนเทศเพอื่ การพยากรณ์ผู้เข้าศึกษาโดยผ่านเครือข่ายอินเทอร์เน็ต

N/A
N/A
Protected

Academic year: 2023

Membagikan "การพัฒนาระบบสารสนเทศเพอื่ การพยากรณ์ผู้เข้าศึกษาโดยผ่านเครือข่ายอินเทอร์เน็ต"

Copied!
65
0
0

Teks penuh

(1)

รายงานการวิจัย เรื่อง

การพัฒนาระบบสารสนเทศเพื่อการพยากรณ์ผู้เข้าศึกษา โดยผ่านเครือข่ายอินเทอร์เน็ต

โดย

สุมิตรา นวลมีศรี

ได้รับทุนอุดหนุนจากมหาวิทยาลัยราชภัฏสวนสุนันทา

ปีงบประมาณ 2555

(2)

รายงานการวิจัย เรื่อง

การพัฒนาระบบสารสนเทศเพื่อการพยากรณ์ผู้เข้าศึกษา โดยผ่านเครือข่ายอินเทอร์เน็ต

โดย

สุมิตรา นวลมีศรี

ได้รับทุนอุดหนุนจากมหาวิทยาลัยราชภัฏสวนสุนันทา

ปีงบประมาณ 2555

(3)

กิตติกรรมประกาศ

รายงานการวิจัยเรื่อง การพัฒนาระบบสารสนเทศเพื่อการพยากรณ์ผู้เข้าศึกษาโดยผ่าน เครือข่ายอินเทอร์เน็ตเสร็จสมบูรณ์ ด้วยความอนุเคราะห์และช่วยเหลืออย่างดียิ่งของบุคคล หลายท่านและหน่วยงานที่กรุณาให้ข้อมูล สนับสนุน ให้ค าแนะน าและข้อคิดเห็นต่าง ๆ ใน การวิจัยมาโดยตลอด

ขอขอบพระคุณสถาบันวิจัยและพัฒนา มหาวิทยาลัยราชภัฏสวนสุนันทา ที่สนับสนุนทุน การวิจัยและขอขอบคุณกองบริการการศึกษาที่ให้ความอนุเคราะห์ด้านข้อมูลส าหรับด าเนินการวิจัย ในครั้งนี้

ขอขอบคุณ นายลาภ พุ่มหิรัญ ที่ช่วยเหลืองานวิจัยในการพัฒนาและทดสอบตัวแบบการ พยากรณ์ รวมทั้งการจัดท ารูปแบบบทความวิจัยเพื่อน าเสนอการประชุมวิชาการระดับนานาชาติท า ให้งานวิจัยนี้ส าเร็จและน าไปเผยแพร่ในระดับนานาชาติ

ขออ านาจบารมีคุณพระศรีรัตนตรัย จงดลบันดาลให้บุคคลเหล่านี้จงมีชีวิตที่มีความสุขทั้ง ในด้านชีวิตส่วนตัว ครอบครัวและหน้าที่การงาน ผู้วิจัยจะเก็บความรู้สึกปรารถนาดีนี้ไว้ตลอดไป

สุมิตรา นวลมีศรี

15 สิงหาคม 2555

(4)

Abstract

Research Title Developing Information System to Forecast the Student Admission via the Internet.

Author Miss Sumitra Nuanmeesri Academic Year 2012

………..

Admission for new students to study at bachelor degree level in any institution is very important. This will directly affect to the education budget and planning for management of the curriculum. This research issue presents developing information system to forecast the student admission via the internet by rule of decision tree classification techniques to predict accurately and precisely student admission.

In the experiment, operation of a special issue made use of modeling and testing via model prediction for new students. Rules using decision tree techniques: k-fold cross-validation 3 models, percentage split 3 models, and a model from training set and test set were employed. The model was built and tested with 7 kinds of modeling. The experimental results for forecasting new students via rules using decision tree techniques, the model from training sets and test set which showed higher efficiency than the other model with correctly classified instant equal to 94%, precision was 94.30%, recall was 94% and F-measure was 93.70%. In conclusion, the model calculated data from each test accurately and forecasted efficiently the student admission.

Researchers have taken the decision tree classification rules to develop the information system to forecast the student admission via the internet. The efficient system was tested to use means and standard deviations by four specialists and forty personals. The results of the efficient system testing were averaged by the specialist 4.17 and the value of the personnel 4.34. The system performance is good satisfactory and can be applied to forecast the student admission.

Keywords : Forecasting, Classification, Decision Tree, Student Admission

(5)

บทคัดย่อ

ชื่อรายงานการวิจัย การพัฒนาระบบสารสนเทศเพื่อการพยากรณ์ผู้เข้าศึกษาโดยผ่านเครือข่าย อินเทอร์เน็ต

ชื่อผู้วิจัย นางสาวสุมิตรา นวลมีศรี

ปีที่ท าการวิจัย 2555

………..

การรับสมัครผู้เข้าศึกษาในระดับปริญญาตรีในสถาบันอุดมศึกษานับเป็นสิ่งที่ส าคัญเป็น อย่างมาก เนื่องจากจะส่งผลโดยตรงต่อการจัดการศึกษาและการวางแผนงบประมาณเพื่อการบริหาร สถาบันการศึกษา งานวิจัยนี้จึงพัฒนาระบบสารสนเทศเพื่อการพยากรณ์ผู้เข้าศึกษาโดยผ่าน เครือข่ายอินเทอร์เน็ตเพื่อช่วยในการพยากรณ์ผู้เข้าศึกษาได้อย่างถูกต้องและแม่นย า

การด าเนินการวิจัย ผู้วิจัยสร้างและทดสอบการตัวแบบการพยากรณ์ผู้เข้าศึกษา โดยใช้กฎ การจ าแนกเทคนิคต้นไม้ตัดสินใจด้วยวิธีการตรวจสอบไขว้ จ านวน 3 ตัวแบบ วิธีการแบ่งข้อมูล แบบสุ่มด้วยการแบ่งร้อยละ จ านวน 3 ตัวแบบและวิธีการแบ่งข้อมูลสร้างตัวแบบและทดสอบออก จากกัน จ านวน 1 ตัวแบบรวมทั้งสิ้น 7 ตัวแบบการพยากรณ์ ผลจากการศึกษาพบว่า วิธีการแบ่ง ข้อมูลสร้างตัวแบบและทดสอบออกจากกันได้ค่าประสิทธิภาพต่าง ๆ สูงกว่าตัวแบบอื่น ๆ โดยมีค่า ความถูกต้องเท่ากับ 94% ค่าความแม่นย าเท่ากับ 94.30% ค่าความระลึกเท่ากับ 94% และค่าความ ถ่วงดุลเท่ากับ 93.70% แสดงว่าตัวแบบที่สร้างด้วยวิธีการแบ่งข้อมูลสร้างตัวแบบและทดสอบออก จากกันมีความถูกต้องและแม่นย าในการพยากรณ์ผู้เข้าศึกษา

ผู้วิจัยได้น ากฎการจ าแนกเทคนิคต้นไม้ตัดสินใจที่ได้มาพัฒนาเป็นระบบสารสนเทศเพื่อ การพยากรณ์ผู้เข้าศึกษาโดยผ่านเครือข่ายอินเทอร์เน็ต โดยท าการประเมินประสิทธิภาพของระบบ ด้วยค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน จากกลุ่มตัวอย่าง 2 กลุ่ม คือ ผู้เชี่ยวชาญจ านวน 4 คนและ บุคลากรจ านวน 40 คน ผลการประเมินประสิทธิภาพของระบบมีค่าเฉลี่ยจากผู้เชี่ยวชาญเท่ากับ 4.17 และผลการทดสอบค่าเฉลี่ยจากบุคลากรเท่ากับ 4.34 กล่าวได้ว่าระบบสารสนเทศเพื่อการพยากรณ์

ผู้เข้าศึกษาโดยผ่านเครือข่ายอินเทอร์เน็ตมีประสิทธิภาพอยู่ในเกณฑ์ดีและสามารถน าไปประยุกต์

เพื่อใช้ในการพยากรณ์ผู้เข้าศึกษาได้อย่างมีประสิทธิภาพ

ค าส าคัญ : การพยากรณ์, การจ าแนก, ต้นไม้ตัดสินใจ, ผู้เข้าศึกษา

(6)

สารบัญ

หนา

บทคัดยอภาษาไทย ก

บทคัดยอภาษาอังกฤษ ข

กิตติกรรมประกาศ ค

สารบัญ ง

สารบัญภาพ ฉ

สารบัญตาราง ช

บทที่ 1 บทนํา 1

1.1 ความเปนมาและความสําคัญของปญหา 1

1.2 วัตถุประสงคของการวิจัย 2

1.3 สมมุติฐานการวิจัย 2

1.4 ขอบเขตของการวิจัย 2

1.5 ประโยชนที่คาดวาจะไดรับ 2

บทที่ 2 ทฤษฎีและงานวิจัยที่เกี่ยวของ 3

2.1 การทําเหมืองขอมูล 3

2.2 กฎการจําแนก 8

2.3 ตนไมตัดสินใจ 9

2.4 อินเทอรเน็ต 10

2.5 ภาษาเอชทีเอ็มแอล 11

2.6 การวิเคราะหและออกแบบดวยยูเอ็มแอล 12

2.7 ฐานขอมูลมายเอสคิวแอล 13

2.8 ภาษาพีเอชพี 14

2.9 งานวิจัยที่เกี่ยวของ 15

บทที่ 3 วิธีการดําเนินการวิจัย 19

3.1 การศึกษาและรวบรวมขอมูลที่เกี่ยวของ 19

3.2 การรวบรวม คัดเลือกและจัดเตรียมขอมูลเพื่อการประมวลผล 20

3.3 การสรางตัวแบบเพื่อการพยากรณ 30

3.4 การทดสอบตัวแบบเพื่อการพยากรณ 32

(7)

สารบัญ (ตอ)

หนา

3.5 การวิเคราะหระบบ 37

3.6 การออกแบบระบบ 39

3.7 การพัฒนาระบบ 41

3.8 การประเมินประสิทธิภาพของระบบ 46

บทที่ 4 ผลการดําเนินการวิจัย 48

4.1 ผลการประเมินประสิทธิภาพของระบบโดยผูเชี่ยวชาญ 48

4.2 ผลการประเมินประสิทธิภาพของระบบโดยบุคลากร 49

บทที่ 5 สรุปผลและขอเสนอแนะ 51

5.1 สรุปและอภิปรายผล 51

5.3 ขอเสนอแนะ 53

บรรณานุกรม 55

(8)

สารบัญภาพ

ภาพที่ หนา

3-1 ตัวอยางรูปแบบของไฟลนามสกุล ARFF ที่ใชในการประมวลผลโปรแกรมเวกา 30 3-2 แสดงคาประสิทธิภาพที่ไดจากโปรแกรมเวกาที่ใชพัฒนาตัวแบบดวยวิธีตาง ๆ 36 3-3 แสดงกฎการจําแนกเทคนิคตนไมตัดสินใจจากวิธีการแบงขอมูลสรางตัวแบบ 37

และทดสอบออกจากกัน

3-4 แสดงแผนภาพกรณีของระบบสารสนเทศเพื่อการพยากรณผูเขาศึกษาโดยผาน 38 เครือขายอินเทอรเน็ต

3-5 แผนผังแสดงความสัมพันธระหวางตารางและขอมูล 39

3-6 แสดงการเลือกวิธีการพยากรณผูเขาศึกษารายบุคคล 42

3-7 แสดงการเลือกระบุคาขอมูลเพื่อการพยากรณผูเขาศึกษารายบุคคล 43

3-8 แสดงผลการพยากรณผูเขาศึกษารายบุคคล 43

3-9 แสดงการเลือกวิธีการพยากรณผูเขาศึกษาหลายบุคคล 44 3-10 แสดงการเลือกไฟลนําเขาขอมูลผูเขาศึกษาเพื่อพยากรณผูเขาศึกษาหลายบุคคล 44

3-11 แสดงผลการพยากรณผูเขาศึกษาหลายบุคคล 45

5-1 แสดงแผนภูมิคาเฉลี่ยการประเมินประสิทธิภาพของระบบโดยผูเชี่ยวชาญ 52 และบุคลากร

(9)

สารบัญตาราง

ตารางที่ หนา

3-1 ความหมายของคุณลักษณะประจําที่ใชประมวลผล 20

3-2 รายละเอียดการกําหนดรหัสประเภทการรับสมัครหรือสถานที่รับสมัคร 21

3-3 การกําหนดรหัสจังหวัด 21

3-4 การกําหนดรหัสสาขาวิชาที่เปดรับสมัคร 24

3-5 รายละเอียดคลาสของผลลัพธ (Class Label) ผลการสอบคัดเลือกเปนผูเขาศึกษา 29 3-6 คาประสิทธิภาพที่ไดจากการพัฒนาและทดสอบตัวแบบการพยากรณดวยวิธีตาง ๆ 35

3-7 applystudent_temp 40

3-8 rule 40

3-9 province 41

3-10 program 41

3-11 ตารางเปรียบเทียบผลการประเมินคาประสิทธิภาพของระบบ 46

4-1 ผลการประเมินประสิทธิภาพของระบบโดยผูเชี่ยวชาญ 48

4-2 ผลการประเมินประสิทธิภาพของระบบโดยบุคลากร 50

5-1 คาเฉลี่ยการประเมินประสิทธิภาพของระบบโดยผูเชี่ยวชาญและบุคลากร 52

(10)

บทที่ 1 บทน ำ

1.1 ควำมเป็นมำและควำมส ำคัญของปัญหำ

สถาบันอุดมศึกษาต่างต้องการได้นักศึกษาที่มีความสามารถในการศึกษาและสามารถส าเร็จ การศึกษาในระยะเวลาที่ก าหนด โดยมีการเปิดรับสมัครหลายวิธีเพื่อให้ได้ผู้สมัครที่มีความสามารถ ผ่านการคัดเลือกเข้าเป็นนักศึกษาในระดับอุดมศึกษา การสมัครจึงถือเป็นสิ่งที่ส าคัญเป็นอย่างมาก เนื่องจากจะส่งผลโดยตรงต่อสถาบันการศึกษาในด้านการจัดการศึกษาและการวางแผนงบประมาณ เพื่อการบริหารและจัดการสถาบันการศึกษาประจ าปี ซึ่งส่วนใหญ่จะค านวณจากยอดจ านวน นักศึกษาของสถาบันการศึกษา นักศึกษาของสถาบันการศึกษาได้มาจากจ านวนของผู้สมัครเข้า ศึกษาที่สามารถสอบผ่านเข้าเป็นนักศึกษาของสถาบันการศึกษา การรับสมัครผู้เข้าศึกษาในแต่ละปี

การศึกษาสถาบันการศึกษาจึงจ าเป็นต้องมีการประชาสัมพันธ์ในรูปแบบต่าง ๆ เช่น การจัดงานโอ เพ่นเฮ้าส์ (Open house) การเดินทางไปประชาสัมพันธ์และรับสมัครตรงตามโรงเรียนระดับมัธยม ต่าง ๆ การติดป้ายประกาศ หรือแม้กระทั่งการประชาสัมพันธ์รับสมัครทางวิทยุ โทรทัศน์และ หนังสือพิมพ์ เพื่อให้ได้ผู้สมัครเข้าศึกษาเป็นจ านวนมาก ท าให้สถาบันการศึกษามีโอกาสคัดเลือก ผู้สมัครที่มีความรู้ ความสามารถและมีโอกาสผ่านการสอบคัดเลือกเข้าเป็นนักศึกษาของ สถาบันการศึกษา แต่การประชาสัมพันธ์ในรูปแบบต่าง ๆ เหล่านั้นอาจไม่ทั่วถึงหรือไม่ใช่

กลุ่มเป้าหมายที่แท้จริง ท าให้สูญเสียงบประมาณเป็นจ านวนมากเมื่อเทียบกับจ านวนนักศึกษาที่

ได้รับหรือสอบผ่านคัดเลือกเข้าศึกษาต่อในระดับปริญญาตรี

ข้อมูลผู้สมัครเข้าศึกษาในระดับอุดมศึกษาโดยทั่วไปสถาบันการศึกษาจะมีระบบการจัดเก็บ เป็นฐานข้อมูลไว้เป็นจ านวนมาก แต่ส่วนใหญ่ข้อมูลเหล่านั้นไม่ได้ถูกน ามาใช้ให้เกิดประโยชน์ใน การวิเคราะห์มากนัก ซึ่งข้อมูลเหล่านั้นสามารถที่จะน าไปประมวลผลใหม่เพื่อค้นหาความสัมพันธ์

ของข้อมูลที่ซ่อนเร้นอยู่ให้เป็นสารสนเทศที่เป็นประโยชน์ต่อทางสถาบันการศึกษาได้ ดังนั้นผู้วิจัย จึงมีแนวคิดในการน าเทคนิคเหมืองข้อมูล (Data Mining) มาประยุกต์ใช้ในการวิเคราะห์เพื่อหากฎ ความสัมพันธ์ต่าง ๆ ของข้อมูลผู้สมัคร โดยใช้เทคนิคเหมืองข้อมูลกฎการจ าแนกเทคนิคต้นไม้

ตัดสินใจ (Decision Tree) น าไปสร้างเป็นระบบสารสนเทศเพื่อการพยากรณ์ผู้เข้าศึกษาโดยผ่าน เครือข่ายอินเทอร์เน็ต เพื่อเป็นการให้ค าแนะน าส าหรับสถาบันการศึกษาในการคัดเลือกผู้เข้าศึกษา ในระดับอุดมศึกษา การประชาสัมพันธ์การรับสมัครผู้เข้าศึกษาและการรับสมัครผู้เข้าศึกษาได้อย่าง

(11)

2

ถูกต้อง เหมาะสมตรงกับกลุ่มเป้าหมายที่จะเป็นนักศึกษาในอนาคตของสถาบันการศึกษาและ สามารถได้นักศึกษาที่คาดว่าจะสามารถส าเร็จการศึกษาได้ภายในระยะเวลาที่ก าหนด

1.2 วัตถุประสงค์ของกำรวิจัย

1.2.1 เพื่อพัฒนาระบบสารสนเทศเพื่อการพยากรณ์ผู้เข้าศึกษาโดยผ่านเครือข่าย อินเทอร์เน็ต

1.2.2 เพื่อประเมินประสิทธิภาพของระบบสารสนเทศเพื่อการพยากรณ์ผู้เข้าศึกษาโดยผ่าน เครือข่ายอินเทอร์เน็ต

1.3 สมมุติฐำนกำรวิจัย

ระบบสารสนเทศเพื่อการพยากรณ์ผู้เข้าศึกษาโดยผ่านเครือข่ายอินเทอร์เน็ตมีประสิทธิภาพ อยู่ในระดับดี

1.4 ขอบเขตของกำรวิจัย

ข้อมูลที่ใช้ในการสร้างตัวแบบและทดสอบการพยากรณ์ผู้เข้าศึกษาเพื่อพัฒนาระบบ สารสนเทศเพื่อการพยากรณ์ผู้เข้าศึกษาโดยผ่านเครือข่ายอินเทอร์เน็ต ใช้ข้อมูลผู้สมัครเข้าศึกษาใน ระดับปริญญาตรี มหาวิทยาลัยราชภัฏสวนสุนันทา ปี 2552 – 2553 จ านวน 23,000 ชุดข้อมูล 1.5 ประโยชน์ที่คำดว่ำจะได้รับ

1.5.1 เพื่อได้ตัวแบบระบบสารสนเทศเพื่อการพยากรณ์ผู้เข้าศึกษาที่สามารถพยากรณ์ผู้เข้า ศึกษาในระดับอุดมศึกษาได้

1.5.2 เพื่อเป็นเครื่องมือส าหรับการวิเคราะห์และเผยแพร่ข้อมูลการพยากรณ์ผู้เข้าศึกษา ระดับอุดมศึกษา

1.5.3 เพื่อเป็นเครื่องมือที่ช่วยในวางแผนด้านการสมัครแก่สถาบันการศึกษา 1.5.4 เพื่อเป็นแนวทางการศึกษาแก่หน่วยงานอื่นที่ต้องการพยากรณ์ผู้เข้าศึกษา

(12)

บทที่ 2

ทฤษฎีและงานวิจัยที่เกี่ยวข้อง

การศึกษาและท าวิจัยการพัฒนาระบบสารสนเทศเพื่อการพยากรณ์ผู้เข้าศึกษาโดยผ่าน เครือข่ายอินเทอร์เน็ต ผู้วิจัยได้ศึกษาทฤษฎีและงานวิจัยที่เกี่ยวข้องดังนี้

2.1 การท าเหมืองข้อมูล 2.2 กฎการจ าแนก 2.3 ต้นไม้ตัดสินใจ 2.4 อินเทอร์เน็ต 2.5 ภาษาเอชทีเอ็มแอล

2.6 วิเคราะห์และออกแบบด้วยยูเอ็มแอล 2.7 ฐานข้อมูลมายเอสคิวแอล

2.8 ภาษาพีเอชพี

2.9 งานวิจัยที่เกี่ยวข้อง 2.1 การท าเหมืองข้อมูล

การท าเหมืองข้อมูล (Data Mining) เป็นการกลั่นกรองข้อมูลและสืบค้นความรู้ที่เป็น ประโยชน์จากฐานข้อมูลขนาดใหญ่ (Large Information) ขบวนการในการท าเหมืองข้อมูลเป็น ขั้นตอนที่ส าคัญในการค้นหาองค์ความรู้ในฐานข้อมูล (Knowledge Discovery in Database : KDD) เป็นการน าข้อมูลจ านวนมากที่มีอยู่มาวิเคราะห์และสืบค้นความรู้ สารสนเทศหรือสิ่งที่ส าคัญที่ซ่อน อยู่ เพื่อให้ได้สารสนเทศที่สามารถน าไปใช้งานได้ (Howard, H., et al., 2010) ส าหรับประกอบการ ตัดสินใจต่าง ๆ เช่น การวิเคราะห์พฤติกรรมผู้บริโภคในการเลือกซื้อสินค้าของห้างสรรพสินค้าเพื่อ น าไปใช้ในจัดรายการโปรโมชั่นเพื่อการส่งเสริมการขายสินค้าในการด าเนินงานของ ห้างสรรพสินค้า เป็นต้น

2.1.1 ขั้นตอนการท าเหมืองข้อมูล การท าเหมืองข้อมูลเป็นวิธีการที่ให้ได้มาซึ่งองค์ความรู้

ที่ซ้อนอยู่ในฐานข้อมูลขนาดใหญ่ โดยมีขั้นตอนการท าเหมืองข้อมูลดังนี้

(1) การท าความสะอาดข้อมูล (Data Cleaning and Pre-Processing) ข้อมูลที่น ามาใช้

ในการท าเหมืองข้อมูลมีปริมาณมาก จ าเป็นต้องมีขั้นตอนในการกรองข้อมูลเพื่อเลือกข้อมูลที่

สามารถน าไปสู่ความรู้ที่ต้องการได้ตรงประเด็นหรือตรงความต้องการ โดยไม่น าข้อมูลที่ไม่ครบ สมบูรณ์มาใช้ในการประมวลผลเพื่อจัดท าเหมืองข้อมูล ท าให้ได้ข้อมูลที่มีคุณภาพ จากนั้นจะน า

(13)

4

ข้อมูลที่ผ่านการเลือกมาท าความสะอาดข้อมูล โดยการแก้ไขข้อมูลให้ถูกต้องสมบูรณ์ด้วยการปรับ ค่าให้อยู่ในขอบเขตที่ถูกต้องหรือก าจัดค่าข้อมูลที่ไม่สมบูรณ์ด้วยวิธีการเติมข้อมูลตามที่ควรจะเป็น ลงไปเพิ่มเติม เช่น การแก้ไขค่าว่าง (Null) ของข้อมูลโดยอาจใส่ค่าศูนย์กรณีน าไปรวมค่า เพื่อไม่ให้

มีผลกระทบต่อการรวมค่าข้อมูลหรือใส่ค่าหนึ่งแทนกรณีที่ต้องน าไปค านวณค่าทางคณิตศาสตร์คูณ หรือหาร เพื่อไม่ให้มีผลกระทบต่อการค านวณค่าข้อมูล เป็นต้น ในขั้นตอนนี้ช่วยให้ได้ข้อมูลที่มี

คุณภาพมากยิ่งขึ้นส าหรับน าไปวิเคราะห์

(2) การรวบรวมข้อมูล (Data Integration) การจัดท าเหมืองข้อมูลต้องใช้ข้อมูล ปริมาณมาก อาจจ าเป็นต้องมีการรวบรวมข้อมูลทั้งหมดที่ต้องการจากหลาย ๆ แหล่งข้อมูล ซึ่ง ข้อมูลอาจจัดเก็บอยู่ในรูปแบบที่แตกต่างกันออกไปหรืออยู่ในหลายฐานข้อมูล ซึ่งต้องมีการ รวบรวมข้อมูลแล้วท าให้ข้อมูลอยู่ในรูปแบบเดียวกันก่อน ซึ่งในขั้นตอนนี้ผลลัพธ์ที่ได้มักถูกจัดเก็บ ไว้ในคลังข้อมูล (Data Warehouses)

(3) การคัดเลือกข้อมูล (Data Selection) เป็นวิธีการเลือกและดึงเอาเฉพาะข้อมูลที่

เกี่ยวข้องหรือที่ต้องการจะน าไปวิเคราะห์มาใช้ (Task-relevant Data) โดยระบุถึงแหล่งของข้อมูลที่

จะน ามาท าเหมืองข้อมูลและแนวทางการน าข้อมูลที่ต้องการออกจากฐานข้อมูล เพื่อน าไปสร้างกลุ่ม ของข้อมูลส าหรับใช้ในการพิจารณาหรือค้นหาองค์ความรู้ต่อไป

(4) การแปลงข้อมูล (Data Transformation) เป็นวิธีการปรับเปลี่ยนข้อมูลให้มีค่าที่

เหมาะสมส าหรับการท าเหมืองข้อมูลในด้านการค านวณและการสืบค้นในกระบวนการท าเหมือง ข้อมูล ตลอดจนให้ข้อมูลนั้นสื่อความหมายในการประกอบการตัดสินใจ เช่น ข้อมูลของสินค้าเป็น ข้อมูลที่มีค่า “ใกล้ชิด” และ “คอลเกต” มีการเปลี่ยนค่าให้เป็น “ยาสีฟัน” หรือการแบ่งกลุ่มรายได้

ของลูกค้าออกเป็นช่วงรายได้ จะช่วยให้การวิเคราะห์และสืบค้นความสัมพันธ์ที่เกิดขึ้นใน ฐานข้อมูลท าได้โดยง่ายและสร้างความเหมาะสมในการตัดสินใจมากขึ้น

(5) การจัดรูปแบบข้อมูล (Data Transaction Identification) เป็นวิธีการจัดข้อมูลให้

อยู่ในรูปแบบที่เหมาะสมและถูกต้องเพื่อให้สามารถน าไปเข้าสู่กระบวนการจัดท าเหมืองข้อมูล วิธี

นี้นิยมใช้ในการท าข้อมูลให้อยู่ในรูปแบบตาราง (Table) มีลักษณะเป็นแถวและสดมภ์หรือคอลัมน์

ที่มีความสัมพันธ์กัน

(6) การค้นหารูปแบบ (Pattern Discovery) เป็นวิธีการก าหนดรูปแบบในการ วิเคราะห์และสืบค้นเพื่อให้ได้ผลลัพธ์ที่ต้องการ สามารถแบ่งเป็น รูปแบบการวิเคราะห์ (Pattern Analysis) กฎจ าแนกเชิงความสัมพันธ์ (Association Rules) การจ าแนกประเภทข้อมูลและการ พยากรณ์ (Classification and Prediction) การแบ่งกลุ่มข้อมูลแบบอัตโนมัติ (Clustering) และ รูปแบบการท างานตามล าดับ (Sequential Patterns) เป็นต้น

(14)

5

(7) การวิเคราะห์รูปแบบ (Pattern Analysis) เป็นการน าผลลัพธ์จากการสืบค้นข้อมูล ที่สัมพันธ์กันที่ผ่านกระบวนการจัดท าเหมืองข้อมูลมาท าการวิเคราะห์เพื่อช่วยประกอบการ ตัดสินใจหรือการวางแผนการด าเนินงานต่าง ๆ ในอนาคต

2.1.2 สถาปัตยกรรมระบบการท าเหมืองข้อมูล การท าเหมืองข้อมูลมีสถาปัตยกรรมของ ระบบที่มีลักษณะลูกข่ายแม่ข่าย (Client-Server) ประกอบด้วย ฐานข้อมูลและแหล่งข้อมูลอื่นที่

จัดเป็นคลังข้อมูล ข้อมูลในคลังข้อมูลเป็นข้อมูลเริ่มต้นส าหรับน าไปใช้ในการท าเหมืองข้อมูล โดย มีฐานข้อมูลแม่ข่ายซึ่งก็คือคลังข้อมูลแม่ข่ายท าหน้าที่น าเข้าข้อมูลจากแหล่งข้อมูลต่าง ๆ ที่ผ่าน ขั้นตอนการท าความสะอาด การรวบรวมข้อมูลและการเลือกข้อมูลมาเรียบร้อยแล้ว (John, G.

Hendricks, 2000) เพื่อน าไปให้เอนจิ้นของเหมืองข้อมูล (Data Mining Engine) ท าการประมวลผล ในส่วนของการหากฎความสัมพันธ์ การจ าแนกประเภทและการจัดกลุ่มต่อไป เป็นต้น ทั้งนี้อาจจะ อาศัยองค์ความรู้ที่มีอยู่หรือจากการสังเคราะห์ความรู้ได้ใหม่ในขั้นตอนนี้ไปช่วยประมวลผลตาม รูปแบบของผลลัพธ์ที่ได้ แล้วน าเสนอความรู้ที่ได้ผ่านส่วนติดต่อผู้ใช้งาน เพื่อให้ผู้ใช้สามารถน าไป ประกอบการตัดสินใจจากความรู้ที่ได้จากการสังเคราะห์

2.1.3 ประเภทข้อมูลที่ใช้ท าเหมืองข้อมูล จากสถาปัตยกรรมระบบการท าเหมืองข้อมูล จ าเป็นต้องน าข้อมูลจากแหล่งข้อมูลต่าง ๆ มารวบรวมไว้ก่อนจะน าไปสู่กระบวนการประมวลผล ในการสืบค้นความรู้โดยส่วนมากข้อมูลจะจัดเก็บอยู่ในรูปแบบดังนี้

(1) ฐานข้อมูลรายการ (Transactional Database) คือ ฐานข้อมูลที่ประกอบด้วย ข้อมูลที่จัดเก็บได้จากการปฏิบัติการประจ าวันในขั้นตอนการด าเนินงานของผู้ใช้งานระบบ โดยที่

แต่รายการจะเป็นเหตุการณ์ในขณะใดขณะหนึ่งในการปฏิบัติงานประจ าวัน เช่น รายการ ใบเสร็จรับเงิน จะเก็บข้อมูลที่ประกอบไปด้วยรหัสใบเสร็จรับเงิน รหัสลูกค้า ชื่อลูกค้า วัน เวลาที่

ซื้อสินค้าและรายการสินค้า เป็นต้น

(2) ฐานข้อมูลเชิงสัมพันธ์ (Relational Database) คือ ฐานข้อมูลที่จัดเก็บข้อมูลไว้ใน รูปแบบของตารางที่มีความสัมพันธ์กัน โดยแต่ละตารางจะประกอบไปด้วยแถว (Row) และสดมภ์

(Column) ที่มีความสัมพันธ์กัน ข้อมูลที่จัดเก็บในฐานข้อมูลเชิงสัมพันธ์ทั้งหมดจะถูกแสดงไว้

ภายใต้แบบจ าลองเชิงสัมพันธ์ (Entity Relationship Model)

(3) ฐานข้อมูลขั้นสูง (Advanced Database) คือ ฐานข้อมูลที่จัดเก็บข้อมูลในรูปแบบ อื่น ๆ เช่น ข้อมูลเชิงวัตถุ (Object-Oriented) ข้อมูลที่อยู่ในแฟ้มข้อความ (Text File) ข้อมูลมัลติมีเดีย เช่น เสียง รูปภาพและภาพเคลื่อนไหว เป็นต้น

(4) คลังข้อมูล (Data Warehouse) คือ ฐานข้อมูลขนาดใหญ่ที่รวบรวมฐานข้อมูลจาก หลายแหล่งหลายช่วงเวลา ซึ่งอาจมีโครงสร้างการจัดเก็บที่แตกต่างกันมารวมไว้ที่เดียวกันและเป็น

(15)

6

ที่ส าหรับจัดเก็บและรวบรวมข้อมูลจากหลายแหล่งมาเก็บไว้ภายใต้รูปแบบข้อมูลเดียวกัน ท าให้

สะดวกต่อการน าไปใช้งาน ส่วนมากในการรวบรวมฐานข้อมูลนิยมก าหนดความถี่ในการจัดเก็บ และรวบรวมข้อมูลไว้ในคลังข้อมูล เช่น วันละครั้ง สัปดาห์ละครั้งหรือเดือนละครั้ง เป็นต้น

2.1.4 การขุดค้นข้อมูลจากเหมืองข้อมูล การท าเหมืองข้อมูลมีฟังก์ชันการท างานส าหรับ การขุดค้นข้อมูลดังนี้

(1) การวิเคราะห์คุณสมบัติ (Characterization) และการแยกแยะ (Discrimination) ข้อมูล มีรายละเอียดดังนี้

(ก) การวิเคราะห์คุณสมบัติ เป็นการค้นหาคุณลักษณะทั่วไปหรือภาพรวม ของข้อมูล เช่น การค้นลักษณะทั่วไปของการซื้อแพ็คเกจการตรวจสุขภาพของเพศหญิงที่มีบุตร ยากที่มียอดเพิ่มขึ้นมา 20%

(ข) การแยกแยะข้อมูล เป็นการเปรียบเทียบคุณลักษณะทั่วไปหรือเปรียบเทียบ ภาพรวมระหว่างข้อมูลตั้งแต่สองชุดขึ้นไป เช่น การซื้อแพ็คเกจการตรวจสุขภาพของเพศหญิงที่

มีบุตรยากที่มียอดเพิ่มขึ้นมา 20% กับการซื้อแพ็คเกจการตรวจสุขภาพของเพศหญิงแบบอื่นที่มี

ยอดขายลดลง 10% เป็นต้น

(2) การหาความสัมพันธ์ของข้อมูล (Association) เป็นการจัดแบ่งข้อมูลโดยระบุ

ตามความสัมพันธ์ของข้อมูลที่มีผลต่อกัน ซึ่งข้อมูลจะผ่านการกลั่นกรองข้อมูลก่อนแล้วจึงน ามา จัดรวมเป็นกลุ่มของข้อมูลจ าพวกเดียวกัน ส่วนมากนิยมใช้ในการค้นหาความสัมพันธ์ของข้อมูล ที่มีขนาดใหญ่เพื่อจัดกลุ่มข้อมูลที่มีความสัมพันธ์กันให้สามารถเห็นข้อมูลเป็นกลุ่มที่มีขนาดเล็ก ลง เพื่อให้ง่ายต่อการน าข้อมูลที่จัดกลุ่มแล้วไปวิเคราะห์หรือพยากรณ์ปรากฏการณ์ต่าง ๆ เช่น การวิเคราะห์การซื้อสินค้าของลูกค้า (Market Basket Analysis) ในห้างสรรพสินค้า

(ก) การจัดหมวดหมู่ (Classification ) ข้อมูลและการวิเคราะห์การถดถอย (Regression) เป็นการจัดกลุ่มรายการอ้างอิงที่มีการจ าแนกประเภทและจัดกลุ่มของรายการ เช่น บริษัทแห่งหนึ่งต้องการทราบเหตุผลใดที่ลูกค้าบางกลุ่มยังซื่อสัตย์และภักดีต่อยี่ห้อสินค้า (Brand Loyalty) ของบริษัทและในขณะที่ลูกค้าอีกกลุ่มกลับเปลี่ยนใจไปซื้อสินค้าของคู่แข่งขัน การ ค้นหาค าตอบนี้ นักวิเคราะห์ต้องค้นหาลักษณะนิสัยของลูกค้าที่เปลี่ยนใจไปซื้อสินค้าของคู่แข่ง หรือค้นหาลักษณะของลูกค้าที่ซื่อสัตย์และภักดีต่อยี่ห้อสินค้า โดยอาศัยข้อมูลในการซื้อสินค้า ของลูกค้าในอดีตมาทดสอบกับแบบจ าลองเพื่อวิเคราะห์ผลว่า สาเหตุใดที่ลูกค้าบางกลุ่มซื่อสัตย์

และบางกลุ่มไม่ซื่อสัตย์ต่อยี่ห้อสินค้าขององค์กร เพื่อไม่ให้บริษัทต้องสูญเสียลูกค้าไปให้แก่

คู่แข่งขัน

(16)

7

(ข) การวิเคราะห์การรวมกลุ่มหรือการแบ่งแยกข้อมูล (Cluster Analysis or Segmentation) เป็นการน าข้อมูลที่มีลักษณะรูปแบบหรือแนวโน้มที่เหมือนกันมารวมเป็นกลุ่ม เดียวกัน เพื่อช่วยในการลดขนาดข้อมูลที่มีจ านวนมาก การวิเคราะห์การรวมกลุ่มหรือการ แบ่งแยกข้อมูลจะไม่มีผลลัพธ์ (Output) ตัวแปรอิสระ (Independent Variable) และไม่มีการจัด โครงร่างของวัตถุ เป็นเทคนิคที่เรียนรู้จากข้อมูลโดยไม่ต้องอาศัยการสอน (Unsupervised Learning) อาศัยพื้นฐานของข้อมูลในอดีตเป็นฐานในการวิเคราะห์และแบ่งแยก เช่น เมื่อบริษัท ต้องการทราบลักษณะความเหมือนที่มีในกลุ่มของลูกค้า โดยค้นหาลักษณะเฉพาะของลูกค้า กลุ่มเป้าหมาย แล้วน ามาจัดรวมกลุ่มเพื่อสร้างเป็นกลุ่มของลูกค้าที่มีลักษณะเดียวกัน ท าให้

บริษัทสามารถท าการแยกกลุ่มของข้อมูลลูกค้าออกเป็นกลุ่ม ๆ เพื่อน าเสนอรายการสินค้าในการ ส่งเสริมการขายสินค้าในอนาคตให้กับกลุ่มลูกค้าที่ได้จัดแบ่งไว้

(3) การประเมิน (Estimation) และการพยากรณ์ (Prediction) มีรายละเอียดดังนี้

(ก) การประเมิน เป็นการประเมินข้อมูลที่ไม่สามารถก าหนดค่าหรือ คุณสมบัติที่ชัดเจนได้จากข้อมูลจ านวนมาก เพื่อใช้จัดการกับข้อมูลที่มีผลแบบต่อเนื่อง เช่น การประเมินจ านวนเด็กชายต่อหนึ่งครอบครัว การประเมินรายได้ของบิดาต่อครัวเรือนและการ ประเมินน ้าหนักของบุคคลในครอบครัว เป็นต้น

(ข) การพยากรณ์ มีลักษณะคล้ายกับการจัดหมวดหมู่ข้อมูลและการประเมิน แต่จะแตกต่างกันตรงที่ข้อมูลจะถูกแยกจัดล าดับในการพยากรณ์ค่าในอนาคต โดยอาศัยข้อมูลใน อดีตมาสร้างเป็นแบบจ าลอง เพื่อน าใช้ไปใช้ในการพยากรณ์สิ่งที่จะเกิดขึ้นในอนาคต เช่น การ พยากรณ์ว่าลูกค้าลักษณะแบบใดหรือกลุ่มใดที่บริษัทอาจจะสูญเสียไปในอีกหกเดือนข้างหน้า หรือการพยากรณ์ยอดซื้อสินค้าจากลูกค้าเมื่อบริษัทมีการลดราคาสินค้าลงอีก 20% เป็นต้น

(4) การบรรยาย (Description) และการแสดงภาพของข้อมูล (Visualization) มี

รายละเอียดดังนี้

(ก) การบรรยาย เป็นการหาค าอธิบายถึงสิ่งที่จะเกิดขึ้น โดยอาศัยข้อมูลจาก ฐานข้อมูลเดิมที่มีอยู่มาใช้ประกอบการอธิบาย เช่น กลุ่มลูกค้าที่มีการศึกษาหรือรายได้สูงจะ เลือกซื้อสินค้าในห้างสรรพสินค้ามากกว่าซื้อสินค้าในร้านขายของช าใกล้บ้าน

(ข) การแสดงภาพของข้อมูล เป็นการน าเสนอข้อมูลที่อยู่ในรูปแบบกราฟิก (Graphic) หรือน าเสนอในลักษณะภาพ 2 มิติ โดยแสดงข้อมูลให้เป็นรูปธรรมเพื่อช่วยให้เกิด ความเข้าใจได้ง่ายขึ้น เช่น บริษัทมีความต้องการที่จะขยายสาขาใหม่ในเขตพื้นที่ภาคตะวันออก ของประเทศไทย เพื่อพิจารณาสถานที่ตั้งที่เหมาะสมที่สุดในการแข่งขันกับบริษัทคู่แข่ง บริษัท

(17)

8

จึงใช้แผนที่แสดงที่ตั้งของคู่แข่งขันทางธุรกิจที่มีสาขาอยู่ในเขตพื้นที่ดังกล่าวและเขตพื้นที่

ใกล้เคียง เป็นต้น 2.2 กฎการจ าแนก

กฎการจ าแนก (Classification Rule) เป็นเทคนิคหนึ่งในการจ าแนกประเภทข้อมูล ที่ใช้ใน การค้นหาความรู้บนฐานข้อมูลขนาดใหญ่ โดยมีกระบวนการสร้างแบบจ าลองเพื่อจัดการข้อมูลให้

อยู่ในกลุ่มที่ก าหนดให้มีความแตกต่างระหว่างข้อมูล โดยกฎที่ได้จะน าไปใช้ในการพยากรณ์ต่อไป กฎการจ าแนกจึงเป็นกระบวนการจัดแบ่งข้อมูลตามลักษณะของวัตถุประสงค์ โดยมีกระบวนการ วิเคราะห์เซตของกลุ่มข้อมูล (Data Object) ที่ยังไม่ได้มีการจัดแบ่งประเภท เพื่อสร้างแบบจ าลอง จัดการข้อมูลให้อยู่ในรูปของชุดข้อมูล (Class) หรือประเภทที่ก าหนด โดยจะน าข้อมูลส่วนหนึ่งจาก ข้อมูลทั้งหมดมาเข้าสู่กระบวนการสอนให้ระบบเรียนรู้ (Training Data) เพื่อจ าแนกข้อมูลออกเป็น กลุ่มตามที่ได้ก าหนดไว้ ผลลัพธ์ที่ได้จากระบบการเรียนรู้คือแบบจ าลองที่สามารถน ามาจัดประเภท ข้อมูล (Classifier Model) และจะน าข้อมูลอีกส่วนหนึ่งมาใช้เป็นข้อมูลส าหรับทดสอบ (Testing Data) ความถูกต้องของแบบจ าลองที่ได้ ผลลัพธ์ที่ได้จะน าไปใช้เปรียบเทียบกับกลุ่มที่หามาได้จาก การผ่านกระบวนการเรียนรู้จากแบบจ าลองเพื่อทดสอบความถูกต้อง (ปรีชา ยามันสะบีดี และคณะ, 2548) โดยจะมีการปรับปรุงแบบจ าลองจนกว่าจะได้ค่าความถูกต้องในระดับที่น่าพอใจ ในการ พยากรณ์จะน าข้อมูลใหม่เข้ามาผ่านกฎการจ าแนกที่ได้จากแบบจ าลอง เพื่อให้แบบจ าลองสามารถ พยากรณ์กลุ่มของข้อมูลใหม่ได้อย่างถูกต้อง

กฎการจ าแนกในการท าเหมืองข้อมูลเป็นการวิเคราะห์เซตของกลุ่มข้อมูล (Data Object) ที่

ยังไม่จัดแบ่งประเภท เพื่อสร้างแบบจ าลองออกเป็นชุดข้อมูล (Class) ซึ่งลักษณะของคลาสถูก อธิบายโดยกลุ่มของคุณสมบัติ (Attribute) และกลุ่มของข้อมูล (Training Data Set) ที่ใช้ในการสร้าง กฎการจ าแนกจากแบบจ าลอง ซึ่งมีรูปแบบดังนี้

IF <Conditions> THEN <Class> หรือ “ถ้า <เงื่อนไข> แล้ว <คลาส>”

ในขั้นตอนการจ าแนกข้อมูลตามเทคนิคกฎการจ าแนก สามารถแบ่งได้เป็น 2 ขั้นตอน ขั้นตอนที่ 1 การสร้างแบบจ าลองตัวแบบ (Classifier Model) เป็นการน าข้อมูลส่วนหนึ่ง มาเข้าสู่ระบบเรียนรู้ผ่านกระบวนการของอัลกอริทึมการจ าแนก (Classification Algorithm) ซึ่ง ผลลัพธ์ที่ได้จะอยู่ในรูปของแบบจ าลองกฎการจ าแนก

(18)

9

ขั้นตอนที่ 2 การใช้แบบจ าลองกฎการจ าแนกเพื่อการพยากรณ์ (Prediction) สิ่งที่

ต้องการรู้ในอนาคตโดยมีจุดมุ่งหมายในการแก้ไขปัญหา จากแบบจ าลองจะน าข้อมูลใหม่เข้ามา เพื่อให้จ าแนกข้อมูล โดยการน าผลลัพธ์ที่ได้ท าการเปรียบเทียบกับแบบจ าลองการจ าแนกและ วิเคราะห์เพื่อตัดสินใจความเป็นไปได้ของข้อมูลนั้น

2.3 ต้นไม้ตัดสินใจ

ต้นไม้ตัดสินใจ (Decision Tree) เป็นเทคนิคในการสร้างแบบจ าลองวิธีหนึ่งที่นิยมใช้ใน การพยากรณ์ (Prediction) หรือการจ าแนกข้อมูล (Classification) ที่มีลักษณะการท างานเหมือน โครงสร้างต้นไม้ และมีการสร้างกฎต่าง ๆ เพื่อน าไปช่วยใช้ในการประกอบการตัดสินใจ ซึ่งต้นไม้

ตัดสินใจเป็นแบบจ าลองที่ง่ายต่อการเข้าใจและง่ายต่อการปรับเปลี่ยนเป็นกฎการจ าแนก (Classification Rules) โดยทั่วไปอัลกอริทึมพื้นฐานของการสร้างต้นไม้ตัดสินใจ คือ อัลกอริทึม ละโมบ (Greedy Algorithm) โดยจะสร้างต้นไม้จากบนลงล่างแบบวนซ ้า (Recursive) ด้วยวิธีการ แบ่งปัญหาใหญ่เป็นปัญหาย่อย (Divide-and-Conquer) รูปแบบของต้นไม้ตัดสินใจจะประกอบด้วย โหนดแรกสุดที่เรียกว่าโหนดราก (Root node) จากโหนดรากจะแตกออกเป็นโหนดลูกและที่โหนด ลูกก็จะมีลูกของตัวเองซึ่งโหนดในระดับสุดท้ายจะเรียกว่าใบหรือลีฟโหนด (Leaf Node) แต่ละ โหนดแสดงคุณลักษณะ (Attribute) ที่ใช้ทดสอบข้อมูล แต่ละกิ่งแสดงผลลัพธ์ในการทดสอบตาม เงื่อนไขและลีฟโหนดแสดงกลุ่มข้อมูลหรือคลาส (Class) ที่ก าหนดไว้

การจ าแนกกลุ่มของข้อมูลได้มาจากการทดสอบค่าคุณลักษณะต่าง ๆ ของข้อมูลเหล่านั้น ตามหลักการพื้นฐานของโครงสร้างต้นไม้ตัดสินใจที่ประกอบไปด้วยโหนดรากของต้นไม้แล้ว แตกกิ่งไปจนถึงใบในลักษณะจากบนลงล่าง (Top-Down) (บุญมา เพ่งช่วน, 2548) โดยแต่ละ โหนดก็คือเกณฑ์ในการตัดสินใจ การสร้างต้นไม้ตัดสินใจมีขั้นตอนดังนี้

2.3.1 สร้างโหนดรากซึ่งเป็นโหนดแรกสุดและมีเพียงโหนดเดียวแสดงถึงข้อมูลชุดสอน การเรียนรู้ (Training Set)

2.3.2 ตรวจสอบว่าข้อมูลทั้งหมดนั้นอยู่ในกลุ่มเดียวกันหรือไม่ หากอยู่ในกลุ่มเดียวกัน ให้ก าหนดโหนดนั้นเป็นใบแล้วตั้งชื่อใบตามกลุ่มข้อมูลนั้น

2.3.3 หากตรวจสอบแล้วพบว่าข้อมูลทั้งหมดนั้นประกอบด้วยข้อมูลหลายกลุ่มปะปน กัน ให้ท าการวัดค่าเกน (Gain) จากค่าคุณลักษณะส าหรับใช้เป็นเกณฑ์ในการคัดเลือกและจัด กลุ่มข้อมูลตามค่าคุณลักษณะ

ค่าที่ใช้ในการตัดสินใจว่า จะใช้ตัวแปรใดส าหรับการแบ่งข้อมูลโดยวิธีการก าหนด โครงสร้างต้นไม้ตัดสินใจจะเป็นการเลือกข้อมูลตามล าดับของตัววัดคือค่าเกนที่สูงที่สุดจะถือว่า

(19)

10

เป็นข้อมูลเริ่มต้นและข้อมูลถัดไปที่มีค่าลดหลั่นกันตามล าดับ เช่น ก าหนดให้มีการพิจารณาจาก กลุ่มข้อมูล 2 คลาส คือ P และ Nโดยจ านวนตัวอย่างในคลาส P คือ p ตัว และจ านวนตัวอย่างใน คลาส N คือ n ตัว

ค่าของกลุ่มข้อมูล คือ ค่าคาดคะเนที่กลุ่มตัวอย่างต้องใช้จ านวนบิตในการแยกคลาส P และ N โดยนิยามตามสมการที่ 2-1

  







p n

n n

p n n

p p n

p n p p

I , log2 log2 (2-1) ค่าคาดคะเนข้อมูล (Entropy) การใช้ลักษณะประจ า A ซึ่งก าหนด A คือ ลักษณะประจ า ที่แบ่ง S ออกเป็น {S1, S2, ,Sv} โดยให้ S1 มีตัวอย่างจากคลาส P จ านวน p1 และตัวอย่างจาก คลาส N จ านวน n1 ดังสมการที่ 2-2

   1 1

1

1

1 I p ,n

n p

n A p

E

v

i

(2-2)

ดังนั้นค่าเกนของข้อมูล (Data Gain) ที่ได้จากการแยกข้อมูลด้วยลักษณะประจ า A เป็น ดังสมการที่ 2-3

   p n E A I

A

Gain( ) , (2-3)

ค่าที่เป็นรูปแบบหนึ่งของการใช้ต้นไม้ตัดสินใจที่พัฒนาเพิ่มเติมโดยไม่ได้ใช้ค่าเกนเป็น ตัวแบ่ง แต่ใช้อัตราค่าเกน (Gain ratio) เป็นตัวแบ่งดังสมการที่ 2-4

Gain ratio =

SplitInfo

Gain (2-4)

2.4 อินเทอร์เน็ต

อินเทอร์เน็ต (Internet) มาจากค าเต็มว่า International Network คือ การเชื่อมต่อเครือข่าย คอมพิวเตอร์ขนาดใหญ่ โดยการเชื่อมอินเทอร์เน็ตต้องใช้บริการของไอเอสพี (ISP) ย่อมาจาก Internet Service Provider ซึ่งเป็นองค์กรที่ท าหน้าที่เป็นผู้ที่คอยให้บริการเชื่อมต่ออินเทอร์เน็ตและ

Referensi

Dokumen terkait

Berdasarkan hasil penelitian yang diperoleh, nilai akurasi tertinggi yaitu membandingkan tanpa oversampling menggunakan K-Fold Cross Validation Logistic regression