• Tidak ada hasil yang ditemukan

A Hybrid Method for Sentiment Classification of Short Texts

N/A
N/A
Nguyễn Gia Hào

Academic year: 2023

Membagikan "A Hybrid Method for Sentiment Classification of Short Texts"

Copied!
83
0
0

Teks penuh

If a customer review contains only a few words, this can pose a problem for traditional short text classification analysis methods. This is because a few words in a short text cannot represent the characteristic space and relationship between words and documents. As a result, there is tremendous interest in short-text customer sentiment analysis.

การศึกษานี้มีวัตถุประสงค์เพื่อนำเสนอวิธีการจัดการกับบทวิจารณ์ของลูกค้าโดยใช้การจัดประเภทข้อความสั้น รูปแบบการถ่วงน้ำหนักสามแบบและอัลกอริธึมการเรียนรู้ของเครื่องสองแบบจะถูกเปรียบเทียบและใช้เพื่อสร้างแบบจำลองตัวแยกประเภทความคิดเห็นของลูกค้า ตารางที่ 4-7 ผลการทดลองจำแนกความคิดเห็นด้วยแบบจำลอง KNN แบบจำลองการตรวจสอบข้าม 10 เท่าพร้อมการถ่วงน้ำหนัก tf-idf..52 ตารางที่ 4-8 ผลลัพธ์ของการทดสอบการจำแนกประเภทแบบโปร่งใสด้วยแบบจำลอง Ensemble แบบจำลองการตรวจสอบข้าม 10 เท่าพร้อมการถ่วงน้ำหนัก tf-idf..52 ส่วนของตาราง 4-9 สรุป ผลการทดสอบจัดอันดับคะแนนของแต่ละรุ่นตามขั้นตอนเดิม

การนำเสนอ..53 ตารางที่ 4-10 ผลการทดลองการจำแนกประเภทการทบทวนด้วยแบบจำลอง cross SVM 10 เท่า

หลักการและเหตุผล

วัตถุประสงค์ของการวิจัย

ความสำคัญของการวิจัย

ขอบเขตของงานวิจัย

นิยามศัพท์เฉพาะ

ทฤษฎีที่เกี่ยวข้อง

  • การวิเคราะห์ความรู้สึก (Sentiment Analysis)
  • การจำแนกความรู้สึก (Sentiment Classification)
  • ปัญหาของการวิเคราะห์ความรู้สึก
  • การจำแนกหมวดหมู่เอกสาร (Text Classification)
  • การตัดคำ (Word Segmentation หรือ Tokenization)
  • การตัดคำหยุด (Stop Word)
  • การให้น้ำหนักคำ (Term Weighting)
  • การเรียนรู้เครื่อง (Machine Learning)
  • เทคนิควิธีของการเรียนรู้เครื่อง
  • การสร้างโมเดล Ensemble
  • การวัดประสิทธิภาพ (Evaluation)

เขื่อนในเวลาเช้า เขื่อน | ใน | | เช้า | ถือเป็นวิวธรรมชาติที่สวยงามค่ะ | คือ | สวยงาม | โดยธรรมชาติ | มุมมอง เทคนิค Ensemble เป็นเทคนิคที่ใช้เรียนรู้โมเดลในการเรียนรู้ของเครื่องโดยเฉพาะ เป้าหมายคือการเพิ่มประสิทธิภาพของแบบจำลองโดยใช้แบบจำลองการจำแนกจำนวน 20 แบบเพื่อช่วยค้นหาคำตอบ แนวคิดการทำงานของเทคนิค Ensemble สามารถแสดงได้ดังรูปที่ 2-9

24 TN (ผลบวกลวง) หมายถึง จำนวนเอกสารที่สามารถจำแนกประเภทเป็นลบได้ และถูกต้อง FP (ผลบวกลวง) หมายถึง จำนวนเอกสารที่สามารถจัดประเภทได้เป็นประเภทบวก แต่ไม่ FN (ผลลบจริง) หมายถึง จำนวนเอกสารที่สามารถจัดอยู่ในประเภทเชิงลบ

งานวิจัยที่เกี่ยวข้อง

ชุดข้อมูลที่ใช้ (Dataset)

ชุดข้อมูลที่เป็นบทวิจารณ์หรือการแสดงความคิดเห็นในเว็บไซต์

กระบวนการดำเนินงานวิจัยที่นำเสนอ (Research Methodology)

การเตรียมข้อมูลก่อนการประมวลผล (Data Pre-processing)

ขั้นตอนที่ 1: การตัดคำเป็นกระบวนการแยกแต่ละคำออกจากประโยคโดยใช้ช่องว่างเพื่อแบ่งขอบเขตของคำ ต่อไปนี้เป็นวิธีตัดคำออกจากเอกสารทั้งหมด 2) การถ่วงน้ำหนักโดยใช้ tf-idf ต่อมาหลังจากหาค่า tf และ idf แล้ว ก็จะเข้าสู่ขั้นตอนการให้น้ำหนักกับคำใน BOW หรือค่า tf ที่พบในตารางที่ 3-2

ปรับค่าของคำด้วยค่าขั้วความรู้สึก (Polarity of Sentiment Word)

การสร้างโมเดลจำแนกความรู้สึกของข้อความสั้นแบบผสมผสาน

  • การสร้างโมเดลจำแนกความรู้สึกของข้อความสั้นด้วยซัพพอร์ตเว็กเตอร์แมชชีน
  • การสร้างโมเดลจำแนกความรู้สึกของข้อความสั้นด้วยนาอีฟเบย์
  • การสร้างโมเดลจำแนกความรู้สึกของข้อความสั้นด้วย K-nearest neighbor 39

จากเอกสารทั้งหมด 5 ฉบับ มีเอกสารเชิงบวก 3 ฉบับ และเอกสารเชิงลบ 2 ฉบับ ดังนั้น กลุ่มที่เป็นบวกจึงมีเอกสารทั้งหมด 2 ฉบับ จากทั้งหมด 4 ฉบับ และกลุ่มเชิงลบมี 2 เอกสารจากทั้งหมด 4 ฉบับ เอกสาร เอกสาร จากนั้นจึงกำหนดความน่าจะเป็นที่คีย์เวิร์ดอยู่ในเอกสารแต่ละคลาส แยกกันความน่าจะเป็นจะได้มาจากสมการ (3.7)

กระบวนการดำเนินงานวิจัยที่ปรับปรุง (Improved Research Methodology)

ชุดข้อมูลที่ใช้ในการทดสอบ

ผลการทดลอง

การทดลองการจำแนกบทวิจารณ์ของแต่ละโมเดลตามกระบวนการเดิมที่นำเสนอ

การทดลองการจำแนกบทวิจารณ์ของแต่ละโมเดลตามกระบวนการใหม่ที่นำเสนอ

จากผลการทดลองจำแนก Rating Model แต่ละแบบโดยใช้ Word Weighting แบบ tf-icf พบว่าการสร้างแบบจำลองด้วย Voting Ensemble ให้ผลการทดลองดีที่สุด ผลการวัดประสิทธิภาพของแบบจำลองที่ได้รับคือ ความแม่นยำ = 0.97, การเรียกคืน = 0.98, ความแม่นยำ = 0.97 และ F1 = 0.97

วิจารณ์ผลการทดลอง

59 เนื่องจาก tf-icf เน้นไปที่คำที่ปรากฏในแต่ละ class ซึ่งแตกต่างจาก tf และ tf-idf ซึ่งไม่ถือเป็น class แต่มันให้น้ำหนักกับคำพูดทุกประเภท แต่ในส่วนของรันไทม์ tf และ tf-idf ต้องใช้เวลาน้อยกว่าเพราะขั้นตอนการคำนวณไม่ซับซ้อน

บทสรุปของการวิจัย

61 เมื่อให้น้ำหนักคำแล้วอยู่ในรูปแบบ Vector Space Model หรือ Pocket Word โดยจะเข้าสู่กระบวนการเรียนรู้การจำแนกประเภทเอกสารและกระบวนการทดสอบการจำแนกเอกสารในลักษณะผสมผสานโดยใช้ข้อมูลเอกสารในการเรียนรู้ เป็นเอกสารที่มีความคิดเห็นเชิงบวกจำนวน 2,800 ฉบับ และเอกสารที่มีความคิดเห็นเชิงลบจำนวน 2,800 ฉบับ เพื่อสร้างแบบจำลองผสมกับ Ensemble Model ภายใต้กระบวนการลงคะแนนโดยใช้ 3 เทคนิค ได้แก่ Support Vector Machine, Naive Bayes และ K เพื่อนบ้านที่ใกล้ที่สุดโดยใช้ข้อมูลชุดคำสั่ง เรียนชุดเดียวกัน

ปัญหาอุปสรรคที่พบ

แนวทางการพัฒนางานวิจัยทางด้านการจำแนกความรู้สึกข้อความสั้น

Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.

Referensi

Dokumen terkait

การเปรียบเทียบความพึงพอใจของผู้ปกครองนักเรียนต่อการบริหารของโรงเรียนกุญแจคริสเตียนวิทยา ระดับประถมศึกษา จําแนกตามอาชีพของผู้ปกครอง โดยรวมและรายด้านแตกต่างกันอย่างไม่มีนัยสําคัญ ทางสถิติ