• Tidak ada hasil yang ditemukan

วิธีการด าเนินการวิจัย

3.3 การสร้างตัวแบบเพื่อการพยากรณ์

การสร้างตัวแบบพยากรณ์ของระบบสารสนเทศเพื่อการพยากรณ์ผู้เข้าศึกษาโดยผ่าน เครือข่ายอินเทอร์เน็ต โดยใช้กฎการจ าแนกเทคนิคต้นไม้ตัดสินใจ มีขั้นตอนในการพัฒนาตัวแบบ การเรียนรู้เพื่อสร้างกฎการจ าแนกเทคนิคต้นไม้ตัดสินใจด้วยชุดข้อมูลที่จัดเตรียมไว้เพื่อการสร้างตัว แบบเมื่อได้กฎการจ าแนกเทคนิคต้นไม้ตัดสินใจแล้ว จะน าข้อมูลส่วนที่เป็นชุดทดสอบตัวแบบ มา ทดสอบความถูกต้องของกฎการจ าแนก ซึ่งน ามาจัดท าเป็นระบบสารสนเทศเพื่อการพยากรณ์ผู้เข้า ศึกษาโดยผ่านเครือข่ายอินเทอร์เน็ต

ขั้นตอนวิธีการพัฒนาตัวแบบการสร้างตัวแบบพยากรณ์ของระบบสารสนเทศเพื่อการ พยากรณ์ผู้เข้าศึกษาโดยผ่านเครือข่ายอินเทอร์เน็ต โดยใช้กฎการจ าแนกเทคนิคต้นไม้ตัดสินใจนั้น เลือกใช้โปรแกรมเวกา (WEKA) ในการสร้างตัวแบบพยากรณ์ที่อาศัยเทคนิคต้นไม้การตัดสินใจ ด้วยอัลกอริทึม C4.5 (หรือ J48) ซึ่งอัลกอริทึมดังกล่าวเป็นอัลกอริทึมที่เป็นที่รู้กันและนิยมน ามาใช้

อย่างแพร่หลาย C4.5 ได้ถูกพัฒนาขึ้นโดย Quinlan ซึ่งเป็นการพัฒนาต่อยอดมาจากอัลกอริทึม ID3 (Remco, R. Bouckert, et al., 2007) การพัฒนาตัวแบบพยากรณ์ของระบบสารสนเทศเพื่อการ

31

พยากรณ์ผู้เข้าศึกษาโดยผ่านเครือข่ายอินเทอร์เน็ต มีวิธีการสร้างตัวแบบที่แตกต่างกัน 3 วิธี คือ วิธีการตรวจสอบไขว้ (k-Fold Cross Validation) วิธีการแบ่งข้อมูลแบบสุ่มด้วยการแบ่งร้อยละ (Percentage Split) และวิธีการแบ่งข้อมูลสร้างตัวแบบและทดสอบออกจากกัน (Training Set and Test Set) (บุญเสริม กิจศิริกุล, 2546) โดยแต่ละวิธีมีลักษณะการสร้างตัวแบบดังนี้

3.3.1 วิธีการตรวจสอบไขว้ เป็นวิธีการแบ่งข้อมูลแบบสุ่มโดยจะใช้ข้อมูลผู้สมัครเข้าศึกษา ทั้งหมดจ านวนทั้งสิ้น 23,000 ชุดข้อมูล ซึ่งเรียกว่า N จ านวน แล้วน ามาแบ่งข้อมูลออกเป็นส่วน ๆ ย่อย ๆ จ านวน k ส่วน (Fold) โดยที่แต่ละส่วนจะมีขนาดเท่ากับ N หารด้วย k แล้วน าข้อมูลจากส่วน แรกมาเป็นข้อมูลชุดทดสอบ (Test Set) กับข้อมูลส่วนที่เหลือหรือข้อมูลชุดสร้างตัวแบบ(Training Set) ทีละส่วนจนครบ k-1 ส่วน ถือว่าครบหนึ่งรอบ แล้วจึงเปลี่ยนมาใช้ข้อมูลส่วนที่สองเป็นข้อมูล ชุดทดสอบในรอบที่สอง แล้วเริ่มทดสอบกับข้อมูลส่วนที่เหลือไปเรื่อย ๆ จนครบเช่นเดียวกับรอบ ที่หนึ่ง ดังนั้นวิธีนี้จะท าซ ้าโดยเปลี่ยนข้อมูลชุดทดสอบไปจนครบทุกส่วนเป็นจ านวน k รอบ ส าหรับขั้นตอนวิธีนี้ผู้วิจัยได้ก าหนดค่า k ไว้จ านวน 3 ค่า คือ 5, 10 และ 100 ตามล าดับ ท าให้ได้ตัว แบบการพยากรณ์จ านวน 3 ตัวแบบ

3.3.2 วิธีการแบ่งข้อมูลแบบสุ่มด้วยการแบ่งร้อยละ โปรแกรมเวกาจะท าการแบ่งชุดข้อมูล แบบสุ่มออกเป็นสองชุดตามร้อยละที่ก าหนดไว้ เป็นข้อมูลชุดสร้างตัวแบบและชุดทดสอบ ทั้งนี้

ผู้วิจัยก าหนดการแบ่งข้อมูลชุดทดสอบออกเป็นร้อยละ 10, 20 และ 66 ตามล าดับ ท าให้ได้ตัวแบบ การพยากรณ์จ านวน 3 ตัวแบบ

3.3.3 วิธีการแบ่งข้อมูลสร้างตัวแบบและทดสอบออกจากกัน โดยแบ่งชุดข้อมูลผู้สมัครเข้า ศึกษาทั้งหมดจ านวนทั้งสิ้น 23,000 ข้อมูล ออกเป็นอัตราส่วน 80 ต่อ 20 ด้วยวิธีการสุ่มตัวอย่างแบบ แบ่งกลุ่ม (Cluster Sampling) และการสุ่มตัวอย่างแบบแบ่งชั้น (Stratified Random Sampling) ตามล าดับ โดยการแบ่งกลุ่มข้อมูลตามจังหวัดและตามคลาสผลลัพธ์ท าให้ได้ข้อมูลสองชุดที่มีการ กระจายตัวทั่วถึงจะท าให้ได้ข้อมูลชุดสร้างตัวแบบจ านวน 18,400 ชุดข้อมูลเพื่อน าไปใช้ในการ สร้างตัวแบบและข้อมูลชุดทดสอบจ านวน 4,600 ชุดข้อมูลส าหรับน าไปใช้ในการทดสอบตัวแบบ การพยากรณ์

จากวิธีการดังกล่าวทั้ง 3 วิธี เมื่อน าไปสร้างตัวแบบการพยากรณ์ด้วยโปรแกรมเวกาแล้ว จะ ท าให้ได้ตัวแบบการพยากรณ์ที่มีความแตกต่างกันจ านวน 7 ตัวแบบ

ในการสร้างตัวแบบการพยากรณ์ผู้เข้าศึกษา โดยใช้เทคนิคต้นไม้ตัดสินใจ จะใช้

โปรแกรมเวกา อัลกอริทึม C4.5 มีวิธีการดังนี้

(1) น าข้อมูลที่ได้จัดเตรียมไว้ซึ่งอยู่ในรูปแบบของไฟล์นามสกุล ARFF ส าหรับ สร้างตัวแบบการพยากรณ์เข้าสู่โปรแกรมเวกา

32

(2) ท าการสร้างตัวแบบตามโมเดลการพยากรณ์ผู้เข้าศึกษา โดยใช้กฎการจ าแนก เทคนิคต้นไม้ตัดสินใจ อัลกอริทึม C4.5 (หรือ J48) โปรแกรมเวกาจะแสดงโมเดลของกฎการ จ าแนกต้นไม้ตัดสินใจ ด้วยอัลกอริทึม C4.5 โดยงานวิจัยนี้วิธีการสร้างตัวแบบและทดสอบตัวแบบ การพยากรณ์ที่แตกต่างกัน 3 วิธีการหลัก คือ

(ก) วิธีการตรวจสอบไขว้จะระบุค่า Folds เป็นจ านวน 5, 10 และ 100 ตามล าดับ การทดสอบ ท าให้ได้ตัวแบบการพยากรณ์จ านวน 3 ตัวแบบตามล าดับ

(ข) วิธีการแบ่งข้อมูลแบบสุ่มด้วยการแบ่งร้อยละให้ระบุค่า ร้อยละ (%) ส าหรับแบ่งข้อมูลชุดทดสอบเป็นร้อยละ 10, 20 และ 66 ตามล าดับ ท าให้ได้ตัวแบบการพยากรณ์

จ านวน 3 ตัวแบบออกมาตามล าดับ

(ค) วิธีการแบ่งข้อมูลสร้างตัวแบบและทดสอบออกจากกัน เป็นวิธีสุดท้ายโดย ก าหนดการเลือกหัวข้อ Use Training Set เพื่อฝึกสอนข้อมูลชุดสร้างตัวแบบก่อน จากนั้นจึงเลือก Supplied Test Set ส าหรับทดสอบตัวแบบเป็นล าดับถัดไป ทั้งนี้ได้ก าหนดค่า Confident Factor เท่ากับ 0.25 หรือ 25% ซึ่งเป็นค่าโดยปริยายของโปรแกรมเวกา

3.4 การทดสอบตัวแบบเพื่อการพยากรณ์

จากการสร้างตัวแบบพยากรณ์ของระบบสารสนเทศเพื่อการพยากรณ์ผู้เข้าศึกษาโดยผ่าน เครือข่ายอินเทอร์เน็ต โดยใช้กฎการจ าแนกเทคนิคต้นไม้ตัดสินใจ ด้วยวิธีการตรวจสอบไขว้

จ านวน 3 ตัวแบบ วิธีการแบ่งข้อมูลแบบสุ่มด้วยการแบ่งร้อยละ จ านวน 3 ตัวแบบและวิธีการแบ่ง ข้อมูลสร้างตัวแบบและทดสอบออกจากกันนั้น เมื่อท าการสร้างตัวแบบการพยากรณ์เสร็จเรียบร้อย แล้ว จะต้องท าการทดสอบความถูกต้องในการท านายของตัวแบบการพยากรณ์ โดยการน าข้อมูลชุด ทดสอบที่แบ่งออกไว้ทั้งหมดจ านวน 4,600 ชุดข้อมูล หรือคิดเป็นร้อยละ 20 มาใช้ในการทดสอบ ตัวแบบการพยากรณ์ โดยมีขั้นตอนดังนี้

3.4.1 น าข้อมูลชุดทดสอบที่เตรียมไว้เข้าสู่โปรแกรมเวกา ตามขั้นตอนเช่นเดียวกับขั้นตอน ในการสร้างตัวแบบโดยเลือกค่า Test Options เป็นค่า Supplied Test Set

3.4.2 ท าการทดสอบตามโมเดลของกฎการจ าแนกต้นไม้ตัดสินใจที่ได้มา เช่นเดียวกับ ขั้นตอนในการสร้างตัวแบบโดยการกดปุ่ม Start แล้วจะได้กฎการจ าแนกต้นไม้ตัดสินใจ พร้อมค่า ประสิทธิภาพต่าง ๆ ได้แก่ ค่าความถูกต้อง (Correctness) ที่แสดงอยู่ในค่า Correctly Classified Instance ค่าความแม่นย า (Precision) ค่าความระลึก (Recall) และค่าความถ่วงดุล (F-Measure) (พวงทิพย์ แท่นแสดง และลือพล พิพานเมฆาภรณ์, 2550) ส าหรับรายละเอียดการวัดค่า ประสิทธิภาพของตัวแบบการพยากรณ์จะกล่าวเป็นล าดับถัดไป

33

วิธีการวัดประสิทธิภาพของแบบจ าลองต้นไม้ตัดสินใจโดยใช้ข้อมูลทดสอบ เพื่อการวัดค่า ประสิทธิภาพต่าง ๆ มีหลักการค านวณดังนี้

(1) ค่าความถูกต้อง ค านวณจากค่าของผลลัพธ์ที่ถูกต้องโดยพิจารณาจากข้อมูลของ ผลลัพธ์เดียวกัน ดังสมการที่ 3-1

ค่าความถูกต้อง = จ านวนข้อมูลที่จ าแนกได้ถูกต้อง (3-1) จ านวนข้อมูลทั้งหมด

(2) ค่าความระลึก (Recall) ค านวณจากค่าผลลัพธ์ที่ถูกต้องโดยพิจารณาจากข้อมูล ของผลลัพธ์เดียวกัน ดังสมการที่ 3-2

ค่าความระลึก = จ านวนข้อมูลที่จ าแนกได้ถูกต้องของกลุ่มนั้น (3-2) จ านวนข้อมูลที่อยู่ในกลุ่มนั้นจริง

(3) ค่าความแม่นย า ค านวณจากค่าผลลัพธ์ที่ถูกต้องโดยพิจารณาจากจ านวนข้อมูล ทั้งหมดที่ถูกจ าแนกมีผลลัพธ์เดียวกัน ดังสมการที่ 3-3

ค่าความแม่นย า = จ านวนข้อมูลที่จ าแนกได้ถูกต้องของกลุ่มนั้น (3-3) จ านวนข้อมูลที่ถูกจ าแนกว่าเป็นกลุ่มนั้นทั้งหมด

(4) ค่าความถ่วงดุล เป็นค่าประสิทธิภาพโดยรวมระหว่างค่าความแม่นย าและค่า ความระลึก โดยค านวณจากค่าเฉลี่ยระหว่างค่าความแม่นย าและความระลึก ดังสมการที่ 3-4

ค่าความถ่วงดุล = (ค่าความแม่นย า x ค่าความระลึก) x 2 (3-4)

(ค่าความแม่นย า + ค่าความระลึก)

หลังจากการทดสอบตัวแบบการพยากรณ์แล้ว ด้วยการวัดประสิทธิภาพจากผลการท านาย ตัวแบบการพยากรณ์ ตามกฎการจ าแนกเทคนิคต้นไม้ตัดสินใจด้วยโปรแกรมเวกาแล้ว จะท าให้

ทราบค่าประสิทธิภาพต่าง ๆ ได้แก่ ค่าความถูกต้อง ค่าความแม่นย า ค่าความระลึกและค่าความ ถ่วงดุล ซึ่งสามารถน าตัวแบบการพยากรณ์ที่พัฒนาแล้วทั้ง 7 ตัวแบบ มาเปรียบเทียบค่า

34

ประสิทธิภาพเพื่อคัดเลือกตัวแบบที่เหมาะสมและมีความถูกต้องในการท านายหรือพยากรณ์จ านวน ผู้เข้าศึกษา จากการสร้างตัวแบบการพยากรณ์ผู้เข้าศึกษาโดยใช้กฎการจ าแนกเทคนิคต้นไม้ตัดสินใจ ด้วยวิธีการตรวจสอบไขว้ จ านวน 3 ตัวแบบและวิธีการแบ่งข้อมูลแบบสุ่มด้วยการแบ่งร้อยละ จ านวน 3 ตัวแบบนั้น (นฤพนต์ ว่องประชานุกูล, 2548) โปรแกรมเวกาจะท าการสร้างและทดสอบ ความถูกต้องในการท านายของตัวแบบไปพร้อมกันจนได้กฎการจ าแนกต้นไม้ตัดสินใจและค่า ประสิทธิภาพในการทดสอบออกมา (ชนวัฒน์ ศรีสอ้าน, 2551) การทดสอบความถูกต้องในการ ท านายของตัวแบบการพยากรณ์จะน าข้อมูลชุดทดสอบที่แบ่งออกไว้ทั้งหมดจ านวน 4,600 ข้อมูล หรือคิดเป็นร้อยละ 20 มาใช้ในการทดสอบตัวแบบการพยากรณ์ ซึ่งมีขั้นตอนดังนี้

(1) น าข้อมูลชุดทดสอบที่เตรียมไว้เข้าสู่โปรแกรมเวกาเช่นเดียวกับขั้นตอนในการสร้างตัว แบบโดยเลือกค่า Test Options เป็นค่า Supplied Test Set

(2) ท าการทดสอบตามโมเดลของกฎการจ าแนกต้นไม้ตัดสินใจเช่นเดียวกับขั้นตอนในการ สร้างตัวแบบโดยการกดปุ่ม Start แล้วจะได้กฎการจ าแนกต้นไม้ตัดสินใจ พร้อมค่าประสิทธิภาพ ต่าง ๆ ได้แก่ ค่าความถูกต้อง ที่แสดงอยู่ในค่า Correctly Classified Instance ค่าความแม่นย า ค่า ความระลึกและค่าความถ่วงดุล ส าหรับรายละเอียดการวัดค่าประสิทธิภาพของตัวแบบการพยากรณ์

จากการพัฒนาตัวแบบการพยากรณ์ผู้เข้าศึกษา โดยใช้กฎการจ าแนกเทคนิคต้นไม้ตัดสินใจ ตัวแบบการพยากรณ์ที่ได้จากการพัฒนาด้วยวิธีการตรวจสอบไขว้ การแบ่งข้อมูลแบบสุ่มด้วยการ แบ่งร้อยละและการแบ่งข้อมูลสร้างตัวแบบและทดสอบออกจากกัน โดยใช้ชุดข้อมูลจ านวน 23,000 ชุดข้อมูล ให้ผลของค่าประสิทธิภาพต่าง ๆ ได้แก่ ค่าความถูกต้องของตัวแบบการพยากรณ์ ค่าความ แม่นย า ค่าความระลึกและค่าความถ่วงดุล แสดงดังตารางที่ 3-6

ผลการทดสอบตัวแบบพยากรณ์ทุกตัวแบบ มีความสามารถในการจ าแนกกลุ่มได้ดี ซึ่งมีค่า ความถูกต้องมากกว่า 92.00% ขึ้นไป เมื่อพิจารณาตัวแบบการพยากรณ์ที่ถูกพัฒนาด้วยวิธีการ ตรวจสอบไขว้ ชนิด 5-Fold 10-Fold และ 100-Fold มีค่าความถูกต้องในการจ าแนกอยู่ที่ 93.96%

93.97% และ 93.97% ส่วนค่าประสิทธิภาพอื่น ๆ ได้แก่ ค่าความแม่นย า ค่าความระลึกและค่าความ ถ่วงดุลมีค่าเท่ากันทั้ง 3 ตัวแบบ โดยมีค่าประสิทธิภาพทั้ง 3 ค่าอยู่ที่ 94.30% 94.00% และ 93.60%

ตามล าดับ ดังนั้นการพัฒนาตัวแบบการพยากรณ์ด้วยวิธีตรวจสอบไขว้แบบ 10-Fold และ 100-Fold มีค่าประสิทธิภาพต่าง ๆ เท่ากันและสูงกว่าวิธีตรวจสอบไขว้แบบ 5-Fold

ตัวแบบการพยากรณ์ที่ถูกพัฒนาด้วยวิธีการแบ่งข้อมูลแบบสุ่มด้วยการแบ่งร้อยละ 10 20 และ 66 มีค่าความถูกต้องในการจ าแนกอยู่ที่ 92.08% 92.63% และ 93.73% ตามล าดับ มีค่าความ แม่นย าอยู่ที่ 92.70% 93.20% และ 94.10% ตามล าดับ มีค่าความระลึกอยู่ที่ 92.10% 92.60% และ 93.70% ตามล าดับ ส่วนค่าความถ่วงดุลมีค่าอยู่ที่ 91.40% 92.00% และ 93.30% ตามล าดับ ดังนั้น