Generating Efficient Rules for Associative Classification

Associative classification is a classification technique that combines classification and association rule extraction for classifying invisible data. In the literature, the associative classification technique has been found to be more accurate than traditional classification techniques and provides a classifier that is easy to interpret using association rules. However, if a minimum support threshold is given, a large number of frequent rules will be generated.

These problems are very intensive, especially when an input dataset has a large number of dimensions. A vertical data representation technique is implemented to avoid unnecessary line items and speed up mining processes. The experimental results show that the proposed algorithm is archiving in terms of accuracy, number of line items generated, classifier construction time and memory usage, compared to the well-known algorithms, CBA, CMAR and FACA.

หลักการและเหตุผล

วัตถุประสงค์ของการวิจัย

ความสำคัญของการวิจัย

ขอบเขตของการวิจัย

นิยามศัพท์เฉพาะ

การจำแนกข้อมูล (Classification)

กฎความสัมพันธ์ (Association Rule)

การทำเหมืองเซตรายการความถี่ (Frequent Itemset Mining)

กฎความสัมพันธ์ (Association Rule)

การจำแนกข้อมูลเชิงความสัมพันธ์ (Associative Classification)

การเรียงกฎ (Rule Sorting)

การแทนค่าข้อมูล (Data Representation)

การแทนค่าข้อมูลแนวนอน (Horizontal Data Representation)

การแทนค่าข้อมูลแนวตั้ง (Vertical Data Representation)

การดำเนินการเซตผลต่าง (Different Sets)

การวัดประสิทธิภาพการจำแนก (Evaluation)

ค่าความถูกต้อง (Accuracy)
ค่าความแม่นยำ (Precision)
ค่าความระลึก (Recall)
ค่าเฉลี่ยประสิทธิภาพโดยรวม (F-Measure)
การแบ่งข้อมูลเพื่อวัดประสิทธิภาพแบบ K-Fold Cross-Validation

การแยกข้อมูลในการตรวจสอบข้าม 10 เท่าหมายถึงการแบ่งข้อมูลออกเป็น 10 ชุดและทำการทดสอบ 10 รอบ ในรอบแรกจะใช้ชุดข้อมูล 1 เพื่อทดสอบประสิทธิภาพของแบบจำลอง และชุดข้อมูล 2 ถึง 10 จะเป็นรอบที่สอง ชุดข้อมูลที่สองจะเป็นชุดทดสอบ ในขณะที่ชุดข้อมูล

งานวิจัยที่เกี่ยวข้อง

งานวิจัยที่ใช้พื้นฐานเทคนิค Apriori

งานวิจัยที่ใช้พื้นฐานโครงสร้างต้นไม้

งานวิจัยที่ใช้พื้นฐานการแสดงผลแนวตั้งและการอินเทอร์เซกชัน

MAC สร้างกฎในตัวแยกประเภทน้อยกว่า MCAR ถึง 9.79 กฎโดยเฉลี่ยจากชุดข้อมูลทั้งหมด หลังจากการแนะนำอัลกอริธึม MCAC แล้ว Abdelhamid และเพื่อนร่วมงานของเขาได้พัฒนาการแสดงข้อมูลแนวตั้งในอัลกอริธึม eMCAC (Enhanted MCAC) [3] ความแตกต่างจาก MCAC คือ นอกเหนือจากการจัดรูปแบบข้อมูลในแนวตั้งแล้ว ค่าสนับสนุนก็คำนวณเช่นกัน ค่าความเชื่อมั่นจะคำนวณเป็นค่าเฉลี่ยระหว่างรายการและชั้นเรียน ในขณะที่ค่าสนับสนุนประกอบด้วยองค์ประกอบและคลาส ขั้นตอนการค้นพบกฎ เริ่มต้นด้วยการค้นหาความยาวของรายการกฎ 1 ชุดรายการ (F1) และคำนวณค่าสนับสนุนจากจำนวน TID ที่มีชุดรายการ กฎข้อใดปรากฏในหลายคลาส (หลายกฎ) สร้างกฎตามคลาสทั้งหมดแยกกัน จากนั้นใช้จุดตัดทั้งหมดของ F1 เพื่อค้นหากฎรายการ ขนาด 2 ชุดของรายการ (F2) ขั้นตอนที่สองคือการสร้างกฎ eMCAC เลือกเฉพาะกฎที่ผ่านค่าสนับสนุน น้อยที่สุดและกำจัดกฎที่ไม่ถูกต้องหากกฎมีชุดองค์ประกอบเดียวกันแต่ปรากฏในคลาสที่แตกต่างกัน Hadi และคณะ [5] ศึกษาและพบว่ากฎการแข่งขันที่สร้างจากชุดข้อมูลจำนวนมากนั้นใช้เวลานานและต้องใช้ทรัพยากรมาก ดังนั้น พวกเขาสร้าง FACA (Fast Associative Sorting Algorithm) สำหรับการค้นพบเว็บไซต์

งานวิจัยที่เน้นการเพิ่มประสิทธิภาพการค้นหากฎรายการ

งานวิจัยที่เน้นการขุดค้นเซตรายการความถี่

งานวิจัยด้านการขุดค้นกฎรายการระบุคลาสและการค้นหาด้วยเงื่อนไข

งานวิจัยที่เน้นการลดการสร้างกฎคู่แข่ง

โดยการตั้งค่ารายการความยาวสูงสุด จะลดประสิทธิภาพการจำแนกประเภทลงเล็กน้อยระหว่าง -5.33% ถึง 1.11% ประสิทธิภาพการจำแนกประเภทของวิธี 2ARC-CF จะเพิ่มขึ้นเล็กน้อยตามชุดรายการแบบปิด ในขณะที่ชุดรายการความยาวสูงสุด ซึ่งทำให้ประสิทธิภาพลดลงเล็กน้อยสำหรับวิธี 2ARC-RF ชุดรายการปิด และชุดรายการความยาวสูงสุด ลดประสิทธิภาพของลักษณนามลงอย่างมากเนื่องจากบรรทัดฐาน ความแม่นยำที่เพิ่มขึ้น/ลดลงค่อนข้างแปรผัน โดยมีตัวเลขตั้งแต่ -1.33% ถึง 1.8% และ -3.99%

การรวบรวมข้อมูล (Data Collection)

การเตรียมข้อมูล (Data Preparation)

การแปลงข้อมูล (Data Transformation)

การแทนค่าข้อมูล (Data Representation)

ขั้นตอนวิธีที่นำเสนอ (ECARG Algorithm)

การสร้างกฎรายการความยาว 1
การลบกฎซ้ำซ้อน
การขยายกฎ
การสร้างคลาสเริ่มต้น

Sunny ใน Outlook ปรากฏในธุรกรรมหมายเลข 1, 2, 8, 9 และ 11 โดยปรากฏเป็น g Outlook( ไม่ ไม่เท่ากับ 100% ดังนั้นกฎจึงขยายออกไป เมื่อตรวจพบค่าความเชื่อมั่นของกฎรายการ Outlook . , ทำให้กฎรายการ g Outlook Sunny( , , ความชื้นสูง, )→ไม่ เพื่อหยุดการขยายกฎ ดำเนินการต่อสำหรับการขยายกฎโดยเริ่มจากกฎรายการ g( ความชื้นสูง, , )→ ไม่ มีคำสั่งเดียวเท่านั้น

การวัดประสิทธิภาพ (Evaluation)

การแบ่งข้อมูลเพื่อวัดประสิทธิภาพ (Cross Validation)
การวัดประสิทธิภาพการจำแนก
จำนวนกฎเฉลี่ยที่ถูกสร้าง
เวลาเฉลี่ยในการสร้างแบบจำลอง
การวัดปริมาณการใช้หน่วยความจำเฉลี่ย

ไม่ว่าในสมการ 3.10 การวิจัยนี้จะคาดการณ์ข้อมูลหลายชั้น (หลายชั้น) ดังนั้นค่า หน่วยความจำเฉลี่ยของรุ่น คำนวณจากผลรวมของค่าหน่วยความจำของคลาสทั้งหมดหารด้วยจำนวนคลาส วิธีการคำนวณแสดงไว้ในสมการ 3.11

การเปรียบเทียบประสิทธิภาพ (Comparison)

การตั้งค่าการทดลอง

ผลการประเมินประสิทธิภาพ

ผลการประเมินค่าความถูกต้อง

ผลการประเมินจำนวนกฎเฉลี่ยที่สร้างได้

ผลการประเมินเวลาเฉลี่ยในการสร้างแบบจำลอง

ผลการประเมินการใช้หน่วยความจำเฉลี่ยในการสร้างแบบจำลอง

ผลการประเมินค่าความแม่นยำ

ผลการประเมินค่าความระลึก

ผลการประเมินค่าประสิทธิภาพโดยรวม

ผลการวิเคราะห์การใช้คลาสเริ่มต้น (Default class) สำหรับการจำแนกข้อมูล

ผลลัพธ์ของการประเมินความถูกต้องของกฎความสัมพันธ์จะระบุคลาสและคลาสเริ่มต้นในโมเดล ผลลัพธ์ของอัลกอริทึม ECARG แสดงไว้ในตาราง 4.9 คอลัมน์ 2 แสดงการกระจายข้อมูลระหว่างคลาส คลาสที่เป็นตัวหนาเป็นคลาสเริ่มต้นในโมเดล คอลัมน์ที่ 3 แสดงระยะห่างระหว่างคลาส Distribute ที่ปรากฏมากที่สุดในชุดข้อมูลกับคลาสที่ปรากฏน้อยที่สุดในชุดข้อมูล จากผลการทดลอง พบว่ากฎ ของความสัมพันธ์ที่ระบุคลาสในโมเดลมีความแม่นยำเฉลี่ย 67.06% และคลาสเริ่มต้นมีความแม่นยำ 67.06% ความแม่นยำเฉลี่ย 16.97% บ่งชี้ว่ากฎที่สร้างขึ้นมีประสิทธิผลในการจำแนกประเภท เมื่อตรวจสอบอย่างละเอียด พบว่า จากข้อมูลมะเร็งเต้านมหลังผ่าตัดและโอเอกซ์ ความแม่นยำเริ่มต้นของชั้นเรียนสูงกว่าความแม่นยำของกฎสหสัมพันธ์ของชั้นเรียน 49.95%

ผลการวิเคราะห์ลักษณะข้อมูล

สรุปผลการวิจัย

อภิปรายผลการวิจัย

ผลการทดลองแสดงให้เห็นว่าแบบจำลองที่ได้รับจากอัลกอริธึม ECARG กลายเป็นแบบคาดการณ์ได้ ข้อมูลมีความแม่นยำ 84.02% เมื่อเราพิจารณาเฉพาะค่าความแม่นยำสำหรับกฎความสัมพันธ์เฉพาะคลาสที่สร้างขึ้นเท่านั้น จากอัลกอริธึมที่เสนอ พบว่า สามารถทำนายข้อมูลได้ถูกต้องโดยเฉลี่ย 67.07% ในขณะที่คลาสมาตรฐานทำนายได้ถูกต้องโดยเฉลี่ย 16.97% ข้อมูลดังกล่าวแสดงให้เห็นว่ามีการกำหนดวิธีการค้นหากฎความสัมพันธ์

ข้อเสนอแนะ

การจำแนกข้อมูลที่ไม่สมดุล (Imbalance data)

การจำแนกข้อมูลแบบกระจาย (Sparse data classification)

PrePost+: An efficient N-lists-based algorithm for mining frequent items via Child-Parent Equivalence pruning.