If a customer review contains only a few words, this can pose a problem for traditional short text classification analysis methods. This is because a few words in a short text cannot represent the characteristic space and relationship between words and documents. As a result, there is tremendous interest in short-text customer sentiment analysis.
การศึกษานี้มีวัตถุประสงค์เพื่อนำเสนอวิธีการจัดการกับบทวิจารณ์ของลูกค้าโดยใช้การจัดประเภทข้อความสั้น รูปแบบการถ่วงน้ำหนักสามแบบและอัลกอริธึมการเรียนรู้ของเครื่องสองแบบจะถูกเปรียบเทียบและใช้เพื่อสร้างแบบจำลองตัวแยกประเภทความคิดเห็นของลูกค้า ตารางที่ 4-7 ผลการทดลองจำแนกความคิดเห็นด้วยแบบจำลอง KNN แบบจำลองการตรวจสอบข้าม 10 เท่าพร้อมการถ่วงน้ำหนัก tf-idf..52 ตารางที่ 4-8 ผลลัพธ์ของการทดสอบการจำแนกประเภทแบบโปร่งใสด้วยแบบจำลอง Ensemble แบบจำลองการตรวจสอบข้าม 10 เท่าพร้อมการถ่วงน้ำหนัก tf-idf..52 ส่วนของตาราง 4-9 สรุป ผลการทดสอบจัดอันดับคะแนนของแต่ละรุ่นตามขั้นตอนเดิม
การนำเสนอ..53 ตารางที่ 4-10 ผลการทดลองการจำแนกประเภทการทบทวนด้วยแบบจำลอง cross SVM 10 เท่า
หลักการและเหตุผล
วัตถุประสงค์ของการวิจัย
ความสำคัญของการวิจัย
ขอบเขตของงานวิจัย
นิยามศัพท์เฉพาะ
ทฤษฎีที่เกี่ยวข้อง
- การวิเคราะห์ความรู้สึก (Sentiment Analysis)
- การจำแนกความรู้สึก (Sentiment Classification)
- ปัญหาของการวิเคราะห์ความรู้สึก
- การจำแนกหมวดหมู่เอกสาร (Text Classification)
- การตัดคำ (Word Segmentation หรือ Tokenization)
- การตัดคำหยุด (Stop Word)
- การให้น้ำหนักคำ (Term Weighting)
- การเรียนรู้เครื่อง (Machine Learning)
- เทคนิควิธีของการเรียนรู้เครื่อง
- การสร้างโมเดล Ensemble
- การวัดประสิทธิภาพ (Evaluation)
เขื่อนในเวลาเช้า เขื่อน | ใน | | เช้า | ถือเป็นวิวธรรมชาติที่สวยงามค่ะ | คือ | สวยงาม | โดยธรรมชาติ | มุมมอง เทคนิค Ensemble เป็นเทคนิคที่ใช้เรียนรู้โมเดลในการเรียนรู้ของเครื่องโดยเฉพาะ เป้าหมายคือการเพิ่มประสิทธิภาพของแบบจำลองโดยใช้แบบจำลองการจำแนกจำนวน 20 แบบเพื่อช่วยค้นหาคำตอบ แนวคิดการทำงานของเทคนิค Ensemble สามารถแสดงได้ดังรูปที่ 2-9
24 TN (ผลบวกลวง) หมายถึง จำนวนเอกสารที่สามารถจำแนกประเภทเป็นลบได้ และถูกต้อง FP (ผลบวกลวง) หมายถึง จำนวนเอกสารที่สามารถจัดประเภทได้เป็นประเภทบวก แต่ไม่ FN (ผลลบจริง) หมายถึง จำนวนเอกสารที่สามารถจัดอยู่ในประเภทเชิงลบ
งานวิจัยที่เกี่ยวข้อง
ชุดข้อมูลที่ใช้ (Dataset)
ชุดข้อมูลที่เป็นบทวิจารณ์หรือการแสดงความคิดเห็นในเว็บไซต์
กระบวนการดำเนินงานวิจัยที่นำเสนอ (Research Methodology)
การเตรียมข้อมูลก่อนการประมวลผล (Data Pre-processing)
ขั้นตอนที่ 1: การตัดคำเป็นกระบวนการแยกแต่ละคำออกจากประโยคโดยใช้ช่องว่างเพื่อแบ่งขอบเขตของคำ ต่อไปนี้เป็นวิธีตัดคำออกจากเอกสารทั้งหมด 2) การถ่วงน้ำหนักโดยใช้ tf-idf ต่อมาหลังจากหาค่า tf และ idf แล้ว ก็จะเข้าสู่ขั้นตอนการให้น้ำหนักกับคำใน BOW หรือค่า tf ที่พบในตารางที่ 3-2
ปรับค่าของคำด้วยค่าขั้วความรู้สึก (Polarity of Sentiment Word)
การสร้างโมเดลจำแนกความรู้สึกของข้อความสั้นแบบผสมผสาน
- การสร้างโมเดลจำแนกความรู้สึกของข้อความสั้นด้วยซัพพอร์ตเว็กเตอร์แมชชีน
- การสร้างโมเดลจำแนกความรู้สึกของข้อความสั้นด้วยนาอีฟเบย์
- การสร้างโมเดลจำแนกความรู้สึกของข้อความสั้นด้วย K-nearest neighbor 39
จากเอกสารทั้งหมด 5 ฉบับ มีเอกสารเชิงบวก 3 ฉบับ และเอกสารเชิงลบ 2 ฉบับ ดังนั้น กลุ่มที่เป็นบวกจึงมีเอกสารทั้งหมด 2 ฉบับ จากทั้งหมด 4 ฉบับ และกลุ่มเชิงลบมี 2 เอกสารจากทั้งหมด 4 ฉบับ เอกสาร เอกสาร จากนั้นจึงกำหนดความน่าจะเป็นที่คีย์เวิร์ดอยู่ในเอกสารแต่ละคลาส แยกกันความน่าจะเป็นจะได้มาจากสมการ (3.7)
กระบวนการดำเนินงานวิจัยที่ปรับปรุง (Improved Research Methodology)
ชุดข้อมูลที่ใช้ในการทดสอบ
ผลการทดลอง
การทดลองการจำแนกบทวิจารณ์ของแต่ละโมเดลตามกระบวนการเดิมที่นำเสนอ
การทดลองการจำแนกบทวิจารณ์ของแต่ละโมเดลตามกระบวนการใหม่ที่นำเสนอ
จากผลการทดลองจำแนก Rating Model แต่ละแบบโดยใช้ Word Weighting แบบ tf-icf พบว่าการสร้างแบบจำลองด้วย Voting Ensemble ให้ผลการทดลองดีที่สุด ผลการวัดประสิทธิภาพของแบบจำลองที่ได้รับคือ ความแม่นยำ = 0.97, การเรียกคืน = 0.98, ความแม่นยำ = 0.97 และ F1 = 0.97
วิจารณ์ผลการทดลอง
59 เนื่องจาก tf-icf เน้นไปที่คำที่ปรากฏในแต่ละ class ซึ่งแตกต่างจาก tf และ tf-idf ซึ่งไม่ถือเป็น class แต่มันให้น้ำหนักกับคำพูดทุกประเภท แต่ในส่วนของรันไทม์ tf และ tf-idf ต้องใช้เวลาน้อยกว่าเพราะขั้นตอนการคำนวณไม่ซับซ้อน
บทสรุปของการวิจัย
61 เมื่อให้น้ำหนักคำแล้วอยู่ในรูปแบบ Vector Space Model หรือ Pocket Word โดยจะเข้าสู่กระบวนการเรียนรู้การจำแนกประเภทเอกสารและกระบวนการทดสอบการจำแนกเอกสารในลักษณะผสมผสานโดยใช้ข้อมูลเอกสารในการเรียนรู้ เป็นเอกสารที่มีความคิดเห็นเชิงบวกจำนวน 2,800 ฉบับ และเอกสารที่มีความคิดเห็นเชิงลบจำนวน 2,800 ฉบับ เพื่อสร้างแบบจำลองผสมกับ Ensemble Model ภายใต้กระบวนการลงคะแนนโดยใช้ 3 เทคนิค ได้แก่ Support Vector Machine, Naive Bayes และ K เพื่อนบ้านที่ใกล้ที่สุดโดยใช้ข้อมูลชุดคำสั่ง เรียนชุดเดียวกัน
ปัญหาอุปสรรคที่พบ
แนวทางการพัฒนางานวิจัยทางด้านการจำแนกความรู้สึกข้อความสั้น
Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.