การสร้างแบบจ าลอง - ONLINE COURSE RECOMMENDATIONUSING A HYBRID RECOMMENDATION TECHNIQUE

3.6.1 เทคนิคการกรองข้อมูลตามเนื้อหา (Content-based Filtering)

การสร้างแบบจ าลองตามเทคนิคการกรองข้อมูลตามเนื้อหา (Content-based Filtering) จากตัวอย่างภาพประกอบ 32 เริ่มต้นจากการส ารวจชุดข้อมูล Course Data และท า การวิเคราะห์ข้อมูลที่สามารถน ามาใช้ในการแนะน ารายวิชา จากนั้นท าการเตรียมข้อมูลเพื่อพร้อม ที่จะน ามาใช้งาน โดยแบ่งข้อมูลออกเป็น 2 ชุดและน าไปท ากระบวนการแตกเวกเตอร์ของค าจาก ข้อมูลที่เตรียมไว้โดยใช้เทคนิคของ TF-IDF ซึ่งเป็นการค านวณค่าน ้าหนักค าแต่ละค า ดังตัวอย่าง ภาพประกอบ 33 ค าในแต่ละคอลัมน์หมายถึงค าที่ได้มาจากค าในชื่อของแต่ละรายวิชา (course_name) โดยจะท าการทดสอบข้อมูล 2 ชุด ชุดแรกคือ course_name และชุดที่ 2 คือ รายละเอียดของรายวิชา โดยท ากระบวนการเดียวกัน แต่ละค่าที่ได้จะน ามาหาค่าความคล้ายคลึง กัน (Cosine Similarity) จากนั้นได้ท าการสร้างเป็นค าแนะน าของรายวิชาจากค่าความคล้ายคลึง ของ Cosine ที่มีค่าสูงสุด 10 อันดับ

ภาพประกอบ 32 การสร้างแบบจ าลองตามเทคนิคการกรองข้อมูลตามเนื้อหา

ภาพประกอบ 33 กระบวนการแตกเวกเตอร์ค าโดยใช้เทคนิค TF-IDF 3.6.2 เทคนิคการกรองข้อมูลแบบพึ่งพาผู้ใช้ร่วม (Collaborative Filtering)

การสร้างแบบจ าลองตามเทคนิคการกรองข้อมูลแบบพึ่งพาผู้ใช้ร่วม (Collaborative Filtering) จากภาพประกอบ 34 เริ่มต้นจากการน าชุดข้อมูล Rating Data มาท าการส ารวจข้อมูล และวิเคราะห์ข้อมูล จากนั้นเตรียมข้อมูลให้พร้อมก่อนน าไปใช้งานโดยท าการลบข้อมูลซ ้า ซึ่งเป็น รายการที่มีผู้เรียนได้ท าการให้คะแนนซ ้า โดยเลือกคอลัมน์ที่จ าเป็นในการสร้างแบบจ าลอง ส าหรับ การใช้ Library ของ Scikit Learn ที่มีชื่อว่า Surprise เป็นไลบรารีที่เป็นการสร้าง Recommender System โดยเฉพาะ โดยใช้ข้อมูลที่เป็นคะแนน (rating), รหัสผู้ใช้งาน (user_id), และรายการ

43 (item_id) โดยที่ item_id ของข้อมูลที่ท าการวิจัยนี้คือรายวิชาหรือ course_no ดังนั้นข้อมูลที่จะ น ามาใช้ในเทคนิคการกรองข้อมูลแบบพึ่งพาผู้ใช้ร่วมในงานวิจัยนี้ใช้ข้อมูล user_id, course_no และ rating เท่านั้น จากนั้นท าการแบ่งสัดส่วนของข้อมูล (Split Data) ออกเป็น ข้อมูลการสอน (Training Data) และข้อมูลการทดสอบ (Testing Data) ในอัตราส่วน 80:20 ตามล าดับ โดยน า Training Data มาทดสอบกับอัลกอริทึมของ Surprise ได้แก่ SVD, SVD++, NMF, Slope One, Co-Clustering และ BaselineOnly เป็นต้น จากนั้นท าการเปรียบเทียบประสิทธิภาพการท างาน ของแต่ละอัลกอริทึม และประเมินประสิทธิภาพของอัลกอริทึม โดยใช้ค่า Root Mean Square Error (RMSE) และ Mean Absolute Error (MAE) ที่มีค่าน้อยที่สุดซึ่งเป็นค่าที่ดีแสดงว่า แบบจ าลองที่ได้ประมาณค่าได้ใกล้เคียงกับความจริง

ภาพประกอบ 34 การสร้างแบบจ าลองตามเทคนิคการกรองข้อมูลแบบพึ่งพาผู้ใช้ร่วม 3.6.3 เทคนิคการกรองข้อมูลแบบผสม (Hybrid Filtering)

การสร้างแบบจ าลองของเทคนิคการกรองข้อมูลแบบผสม ได้น าวิธีการจากเทคนิค การกรองข้อมูลตามเนื้อหา (Content-based Filtering) และเทคนิคการกรองข้อมูลแบบพึ่งพาผู้ใช้

ร่วม (Collaborative Filtering) มาท างานร่วมกัน โดยเริ่มต้นจากข้อมูลผู้ใช้คนหนึ่ง โดยใช้เทคนิค การกรองข้อมูลแบบพึ่งพาผู้ใช้ร่วมที่ให้ผลลัพธ์การประเมินประสิทธิภาพของแบบจ าลองที่มีค่า RMSE และ MAE ที่ดีที่สุดหรือมีค่าต ่าที่สุด จากนั้นน าผลลัพธ์ที่ได้มาประมวลผลร่วมกับการใช้

เทคนิคการกรองข้อมูลตามเนื้อหา เมื่อแบบจ าลองทั้งสองท างานร่วมกัน จึงได้ท าการแนะน า ค่าสูงสุด 5 อันดับในการแนะน ารายวิชาให้กับผู้เรียน ดังภาพประกอบที่ 36

ภาพประกอบ 35 แสดงแบบจ าลองของเทคนิคการกรองแบบผสม

Dalam dokumen ONLINE COURSE RECOMMENDATIONUSING A HYBRID RECOMMENDATION TECHNIQUE (Halaman 55-58)