• Tidak ada hasil yang ditemukan

การค้นหาเทคนิคเหมืองข้อมูลเพื่อสร้างโมเดลการวิเคราะห์โรคอัตโนมัติ

N/A
N/A
Protected

Academic year: 2023

Membagikan "การค้นหาเทคนิคเหมืองข้อมูลเพื่อสร้างโมเดลการวิเคราะห์โรคอัตโนมัติ"

Copied!
131
0
0

Teks penuh

สับที่หล่วิมสัว Correlation-Based Feature Subset Selection (CFS) และ จว The aim of this research was to find data mining techniques to create a model of efficiency in the automated analysis of disease classification for medical data sets by experimenting with 7 algorithms, including Naive Bayes, Multilayer Perceptron, Radial Basis Function Network, Support Vector Machine, K-Nearest Neighbor, Decision Tree, Ripper. Comparative study of feature selection methods with correlation-based feature subset selection (CFS) and feature selection method based on correlation measurement and relevance and redundancy analysis (FCBF) including testing algorithms on single learning and multiple learning by increasing efficiency and improving classification by Bagging and Boosting.

From the experimental results of this research showed that all the models were built efficiently in the classification of the disease up to 80% when the feature is not reduced. And when the ranking accuracy (Accuracy) by data set type found that hypothyroid data set in Decision Tree for the best performance is 99.57%, leukemia data in Naive Bayes or Support Vector Machine for performance the best is 98.61%, Breast-w data set in Support Vector Machine for best performance is 96.99%, Lymphography data set in Support Vector Machine for best performance is 86, 48%, Hepatitis data set in radial basis function or K-nearest neighbor for best performance is 85.80%, Heart-c data set in support vector device for best performance is 84 .15%, Heart Statlog data in Basic Radial Function or Support Vector Machine for the best performance is 84.07% respectively. Optimization with multiple learning methods using the resulting Bagging and Boosting algorithm increases accuracy for some datasets.

The reduction of features with Correlation-based Feature Subset Selection (CFS) and Feature selection method based on correlation criterion and relevance & redundancy analysis (FCBF) resulted in performance accuracy to similar non-reducing features. But to reduce the dimensions of the features, the saving of resources of the computer system and the time to also learn to build models.

บทนํา 1.1 ความเป็นมาและความสําคัญของปัญหา

วัตถุประสงค์

ขอบเขตของการวิจัย

Feature Network, Support Vector Machine, K-Nearest Neighbor, Decision Tree, Ripper รวมถึงการศึกษาเปรียบเทียบการลดคุณลักษณะที่เหมาะสมที่สุดโดยการเลือกส่วนย่อยของคุณลักษณะตามความสัมพันธ์ (CFS) และวิธีการเลือกคุณลักษณะตามการวัดความสัมพันธ์และความเกี่ยวข้องและความซ้ำซ้อน การวิเคราะห์ (FCBF) รวมถึงการทดสอบด้วย single learning และ multiple learning algorithms โดยวิธี optimization โดยวิธี bagging and boosting โดยทดสอบกับข้อมูลทางการแพทย์ 13 ชุด ประกอบด้วย มะเร็งเต้านม เต้านม เบาหวาน หัวใจ ซี สถิติหัวใจ ,ตับอักเสบ,ไฮโปไทรอยด์,มะเร็งเม็ดเลือดขาว,โรคตับ,มะเร็งปอด,ต่อมน้ำเหลือง,ผู้ป่วยหลังผ่าตัด,เนื้องอกระยะแรกเท่านั้น

ประโยชน์ที่คาดว่าจะได้รับ

ต่อไปในอนาคต

บทที่ 2

เหมืองข้อมูล

ด้วยกัน

เทคนิคการทําเหมืองข้อมูล

การวิเคราะห์ความสัมพันธ์ (Association Analysis)

  • อัลกอริทึมการแบ่งประเภท (Classifier Algorithm)

ภาพที่ 2.5 เนอีฟเบย์

ภาพที่ 2.6 เคเนียเรสเนเบอร์

เพอร์เซ็ปตรอนหลายชั้น (Multi-Layer Perceptron)

การลดมิติข้อมูล (Feature Selection)

การประเมินโมเดล

ผลการตรวจสอบความถูกต้องข้ามมักใช้เป็นตัวเลือกการสร้างแบบจำลอง เช่น สถาปัตยกรรมเครือข่าย แบบจำลองการจัดประเภท สถาปัตยกรรมเครือข่าย แบบจำลองการจัดประเภท (Classification Model) ตัวอย่างเช่น ในการจำแนกข้อมูลโดยใช้เทคนิคการทำเหมืองข้อมูล เช่น Neural Network หรือ Decision Tree จะต้องแบ่งข้อมูลออกเป็นชุดฝึกและชุดทดสอบ แต่บางครั้งอาจมีปัญหาในการเลือกข้อมูลที่ดีและง่ายเหมือนข้อมูลทดสอบผลการจัดประเภทดีเกินจริง ดังนั้นจึงคิดค้นการตรวจสอบข้าม k-fold เพื่อแก้ปัญหา

แบบจําลองการวิเคราะห์โรคอัตโนมัติ

กลุ่มข้อมูลและประเภทข้อมูล

ข้อมูล

แอททริ

บิวต์

สูญ หาย

มะเร็งเต้านม

ในโลหิต

การวัดประสิทธิภาพ

ภาพที่ 3.2 Confusion matrix

Measure = 2*Precision*Recall/(Precision+Recall)

บทที่ 4 ผลการวิจัย

Boosting

Correlation-based Feature Subset Selection (CFS)

ตาราง 4.38 ประสิทธิภาพของการสังเคราะห์แบบจำลองในการลดคุณลักษณะด้วย CFS และการเรียนรู้ ตาราง 4.39 ประสิทธิภาพของการสังเคราะห์แบบจำลองในการลดคุณลักษณะด้วย CFS และการเรียนรู้ ตาราง 4.40 ประสิทธิภาพของการสังเคราะห์แบบจำลองในการลดคุณลักษณะด้วย CFS และการเรียนรู้

ตาราง 4.41 ประสิทธิภาพการสังเคราะห์แบบจำลองสำหรับการลดฟังก์ชันด้วย CFS และหนัง ตาราง 4.42 ประสิทธิภาพการสังเคราะห์แบบจำลองสำหรับการลดฟังก์ชันด้วย CFS และหนัง ตาราง 4.43 ประสิทธิภาพการสังเคราะห์แบบจำลองสำหรับการลดฟังก์ชันด้วย CFS และหนัง

ตาราง 4.44 การเปรียบเทียบประสิทธิภาพอัตรา TP ในการกำหนดคุณลักษณะ CVS ตาราง 4.45 การเปรียบเทียบประสิทธิภาพความแม่นยำในการกำหนดคุณลักษณะ CVS ตาราง 4.46 การเปรียบเทียบประสิทธิภาพการเรียกคืนในคุณลักษณะ CVS

ตารางที่ 4.47 การเปรียบเทียบประสิทธิภาพ F-Measure เมื่อกำหนดลักษณะเฉพาะโดย CFS ตารางที่ 4.48 เปรียบเทียบประสิทธิภาพของความแม่นยำเมื่อกำหนดลักษณะเฉพาะด้วย CFS ผลการทดลองของตาราง 4.48 เมื่อกำหนดลักษณะเฉพาะโดย CFS และการเรียนรู้

Feature selection method based on correlation measureand relevance & redundancy analysis (FCBF)

ตาราง 4.50 ประสิทธิภาพการสังเคราะห์โมเดลเมื่อลดแอตทริบิวต์ด้วย FCBF และการเรียนรู้ ตาราง 4.51 ประสิทธิภาพการสังเคราะห์โมเดลเมื่อลดแอตทริบิวต์ด้วย FCBF และการเรียนรู้ ตาราง 4.52 ประสิทธิภาพการสังเคราะห์โมเดลเมื่อลดแอตทริบิวต์ด้วย FCBF และการเรียนรู้

ตาราง 4.53 ประสิทธิภาพการสังเคราะห์โมเดลเมื่อลดคุณลักษณะด้วย FCBF และการเรียนรู้ ตาราง 4.54 ประสิทธิภาพการสังเคราะห์โมเดลเมื่อลดคุณลักษณะด้วย FCBF และการเรียนรู้ ตาราง 4.55 ประสิทธิภาพการสังเคราะห์โมเดลเมื่อลดคุณลักษณะด้วย FCBF และการเรียนรู้

ตาราง 4.56 การเปรียบเทียบประสิทธิภาพของอัตรา TP เมื่อทำการจำแนกคุณลักษณะด้วย FCBF ตาราง 4.57 การเปรียบเทียบประสิทธิภาพของความแม่นยำเมื่อกำหนดคุณลักษณะด้วย FCBF ตาราง 4.58 การเปรียบเทียบประสิทธิภาพของการเรียกคืนเมื่อทำการจำแนกคุณลักษณะด้วย FCBF

ตาราง 4.59 การเปรียบเทียบประสิทธิภาพการวัดค่า F เมื่อกำหนดลักษณะเฉพาะด้วย FCBF ตาราง 4.60 เปรียบเทียบประสิทธิภาพด้วยความแม่นยำเมื่อกำหนดคุณลักษณะด้วย FCBF ผลการทดลองจากตาราง 4.60 สำหรับการกำหนดคุณลักษณะด้วย FCBF และการเรียนรู้

ตารางที่ 4.61 การเปรียบเทียบประสิทธิภาพความแม่นยำของการเรียนรู้แบบเดี่ยวและการเรียนรู้แบบหลายการเรียนรู้

S VM KNN J4 8 R ipp

ที่สุดคือ 50.14%

สรุป อภิปรายผล และข้อเสนอแนะ 5.1 สรุป

อภิปรายผล

นัยสําคัญ

ข อเสนอแนะ

ประวัติผู้วิจัย

ประวัติการศึกษา

ตําแหน่งและสถานที่ทํางาน

มหาวิทยาลัยราชภัฏสวนสุนันทา

ผลงานทางวิชาการ

สารสนเทศ (NCCIT06) สถาบันเทคโนโลยีพระจอมเกล้าพระนครเหนือ

มหาวิทยาลัย

Nivet Chirawichitchai , Parinya Sa-nguansat, Phayung Meesad

Referensi

Dokumen terkait

Analisis yang dimaksud di dalam penelitian ini adalah usaha untuk mengetahui bagaimana kemampuan penalaran proposional siswa dalam menyelesaikan soal matematika