FEATURE SELECTION UNTUK KLASIFIKASI TEKS DENGAN MEKANISME WITHIN CLASS POPULARITY(WCP)
Ratna Pertiwi¹, Deni Saepudin², Intan Nurma Yulita³
¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
Abstrak
Berkembangnya teknologi di dunia maya membuat jumlah informasi berupa artikel berita semakin banyak. Untuk itu, diperlukan suatu kategorisasi terhadap artikel yang memudahkan pembaca mencari informasi dengan menerapkan salah satu fungsionalitas dari data mining, yaitu klasifikasi. Akan tetapi, masalah utama yang terjadi pada kategorisasi artikel ini adalah tingginya dimensi dari data yang dapat mengganggu kategorisasinya itu sendiri. Oleh karena itu, harus dilakukan pemilihan terhadap beberapa atribut yang dapat berpengaruh besar terhadap hasil kategorisasi, yaitu Feature Selection.
Feature selection memiliki kemampuan mengurangi dimensionalitas suatu data sehingga dapat meningkatkan efektivitas dari classifier. Beberapa mekanisme feature selection telah
dikembangkan dalam pengklasifikasian teks, seperti mutual information dan chi-square yang telah dianggap sebagai mekanisme yang efektif.
Pada Tugas Akhir ini, akan dibahas sebuah metode lain yang dikenal dengan nama within class popularity yang digunakan untuk pengklasifikasian teks. Dataset yang digunakan adalah artikel berita berbahasa Indonesia yang berasal dari web dan menggunakan beberapa classifier, seperti: Naïve Bayes, dan k-Nearest Neighbor (kNN).
Selain itu, dilakukan pula analisis perbandingan terhadap metode within class popularity dengan mutual information dan chi-square dengan menggunakan classifier dan berdasarkan hasil analisis diketahui bahwa within class popularity memliki kinerja yang lebih baik dibanding mutual information dan chi-square.
Kata Kunci : within class popularity, feature selection, klasifikasi teks, classifier
Abstract
With the development of technology, large numbers of information like news articles are available on the internet. Hence text categorization is needed by applying classification as one of data mining task. However, the major problem of text categorization is the high dimensionality of data. Therefore, we need to select some representative attributes to improve performance of text categorization. One of technique to do this is feature selection.
Feature selection can reduce the high dimensionality, so, the effectiveness of classifier improves. A number of Feature selection mechanisms have been explored in text classification, among which mutual information, information gain, and chi-square are considered most effective. In this final assessment, will be discussed the other methods known by the name of Within Class Popularity that is used for text classification. The dataset used is Indonesian language news articles from the web and using multiple classifiers, such as Naive Bayes, and k-Nearest Neighbor (kNN).
In addition, also conducted a comparative analysis of within class popularity methods with mutual information and chi-square by using the classifiers and based on the analysis results is known that within class popularity have better performance than the mutual information and chi-square. Keywords : Text classification, within class popularity, Feature selection, classifier
Powered by TCPDF (www.tcpdf.org)
1
BAB I
PENDAHULUAN
1.1
Latar Belakang Masalah
Teknologi web yang berkembang sangat pesat berakibat pada populasi informasi yang semakin besar. Seiring berkembangnya jumlah informasi baik informasi secara lisan maupun yang berbentuk tulisan kadangkala menjadi permasalahan saat seseorang hanya ingin mendapatkan atau mencari sebuah informasi tertentu. Permasalah tersebut sangat sering ditemukan jika sebuah web tidak melakukan pengelompokkan atau pengklasifikasian berdasarkan kata kunci mengenai informasi yang ada.
Klasifikasi adalah pengelompokan suatu data ke dalam kelas-kelas yang telah didefinisikan sebelumnya di dalam sebuah sistem. Klasifikasi sering digunakan untuk memudahkan pemakainya dalam mengelompokkan sesuatu dengan tujuan dapat mencari data tersebut di kemudian hari tanpa harus membuang waktu dan energi yang banyak. Klasifikasi dapat diterapkan di semua bidang kehidupan termasuk dalam teks. Akan tetapi, pengklasifikasi teks biasanya memiliki kesulitan yang sangat tinggi dari sudut pandang dimensi ruang fitur dan
munculnya data noise yang membuat kinerja tinggi dari suatu algoritma. Untuk
alasan itulah, penggunaan Feature selection sangat dibutuhkan sebagai metode
yang digunakan untuk pemilihan atribut yang berpengaruh dalam
pengklasifikasian teks.
Feature selection didefinisikan oleh banyak penulis dengan melihat dari berbagai sudut. Sebuah prosedur standar yang dapat digunakan untuk mengurangi
dimensi ruang fitur. Berbagai metode Feature selection, seperti: Information
Gain, Term Frequency, Mutual information, Chi-Square Statics, dan Gini index
(Yang and Pedersen, 1997; Shankar and Karypis, 2000). Mutual information tidak
cocok digunakan untuk term dengan nilai peluang bersyarat yang sama namun
memiliki perbedaan jumlah frekuensi. Sementara Chi-Square tidak dapat
diandalkan untuk term-term yang memiliki frekuensi rendah.
Selain 5 metode Feature selection di atas, ada pula mekanisme Feature
selection yang disebut Within Class Popularity (WCP). WCP merupakan sebuah
metode yang membahas dua isu penting dari Feature selection untuk klasifikasi
teks, yaitu tidak meratanya distribusi dari probabilitas kelas sebelumnya dan kebaikan global dari sebuah fitur.
Berdasarkan pemaparan di atas, Tugas Akhir ini meneliti dan menganalisa
suatu mekanisme Feature selection yang disebut Within Class Popularity (WCP)
dalam mengklasifikasikan teks berbahasa Indonesia. Kinerja dari Within Class
popularity (WCP) ini kemudian dibandingkan dengan kinerja metode yang paling
umum digunakan dalam pengklasifikasian teks yaitu: Mutual Information (MI),
2
1.2
Perumusan Masalah
Penelitian pada tugas akhir ini merupakan implementasi mekanisme Within
Class Popularity, Mutual Information, dan Chi-Square dalam pengklasifikasian teks. Namun, Tugas Akhir ini lebih fokus tentang bagaimana penggunaan dan
perbandingan Within Class Popularity (WCP) dengan menggunakan beberapa text
classifier yang digunakan dalam pengklasifikasian teks. Adapun batasan masalah yang digunakan dalam Tugas Akhir ini adalah :
a. Hanya mengklasifikasikan dokumen teks pada satu kelas (single label).
b. Dataset yang digunakan adalah artikel berita berbahasa Indonesia yang
didapatkan dari website okezone, kompas, dan detik serta bersifat offline dan
disimpan dalam file berekstensi .txt.
c. Proses pemilihan feature hanya dilakukan dengan cara scoring.
d. Feature hanya berupa kata dan bukan frase.
1.3
Tujuan
a. Menganalisa mekanisme Feature selection yang disebut Within Class
Popularity (WCP) dalam pengklasifikasian teks.
b. Menganalisis perbandingan kinerja dari WCP dengan Mutual Information,
dan Chi-Square.
c. Menganalisis perbandingan Within Class Popularity (WCP) dengan
menggunakan beberapa text classifier.
1.4
Metodologi Penelitian
a. Studi literatur
Mencari referensi yang berkaitan dengan text classification dan Feature
selection.
b. Pengumpulan data
Mengumpulkan data collection yang berasal dari website okezone, kompas,
dan detik dan nantinya digunakan dalam latihan dan pengujian dari metode yang digunakan.
c. Analisis dan perancangan sistem
Melakukan analisis dan juga rencana sistem yang akan dibangun, mulai dari requirement, arsitektur, fungsionalitas, antarmuka sistem dan juga bahasa pemrograman yang akan digunakan.
d. Implementasi dan pembangunan sistem
Implementasi dan pembangunan sistem diterapkan sesuai dengan analisis dan juga perancangan sistem sebelumnya. Pembangunan sistem memperhatikan
segala requirement, aturan serta pola dalam perancangan yang telah dilakukan
sebelumnya.
e. Pengujian dan analisis
Pengujian dapat dilakukan jika keseluruhan sistem telah selesai dibangun.
f. Pengambilan kesimpulan dan pembuatan laporan.
Powered by TCPDF (www.tcpdf.org)
34
BAB V
PENUTUP
4.1
Kesimpulan
Dari hasil analisis dan pengujian pada bab sebelumnya dalam tugas akhir ini, maka didapatkan kesimpulan :
1. Within Class Popularity dapat dipertimbangkan sebagai salah satu metode
feature selection yang efektif untuk dataset berita yang berasal dari website
okezone, kompas, dan detik dengan classifier Naïve Bayes dan kNN. Hal ini
terbukti dari hasil pengujian feature selection dengan Within Class Popularity
dapat menghasilkan nilai f-measure dan akurasi yang lebih besar daripada hasil
klasifikasi data testing dengan menggunakan CHI dan Mutual Information.
2. Pemilihan feature pada within class popularity, mutual information, dan
chi-square bergantung pada frekuensi kemunculan feature dalam kategori dan
jumlah kategori dimana feature tersebut muncul serta pemilihan feature ini
berpengaruh terhadap model klasifikasi yang dihasilkan.
3. WCP memiliki nilai Recall, Precision, dan F-Measure yang selalu lebih tinggi
dibanding MI dan CHI saat berada di kategori Internasional baik dengan menggunakan classifier Naïve Bayes ataupun kNN.
4. WCP memiliki akurasi yang sudah tinggi walaupun dengan kondisi pemilihan
feature 10% dan terus bergerak naik sampai pada pemilihan feature 100%
dengan akurasi 98% untuk classifier Naïve Bayes dan 97% untuk classifier kNN.
4.2
Saran
1. Within Class Popularity dapat digunakan untuk mengklasifikasikan dokumen
selain Bahasa Indonesia dan mengganti daftar kata stopword sesuai dengan
bahasa yang digunakan dalam dokumen.
2. Menggunakan tahapan stemming dalam preprocessing dalam pengklasifikasian
teks.
3. Menggunakan classifier lain untuk metode within class popularity dalam
mengklasifikasikan teks, seperti: Seed Based dan Support Vector Machine
35
DAFTAR PUSTAKA
[1] Adiwijaya, Igg. 2006. Text mining dan Knowledge Discovery. Komunitas Data
mining Indonesia & Soft-computing Indonesia.
[2] Huan, Liu, and Yu, Lei. 2005. Toward Integrating Feature Selection Algorithms for
Classification and Clustering. Dept. of Computer Science and Engineering, Arizona State University, Tempe, USA.
[3] Lewis, D. D. 1992. Representation and learning in information retrieval. Ph.D.
Dissertation, Amherst, MA, USA.
[4] Shang, Wenqian, et.al. 2007. A Novel Feature Selection Algorithm for Text
Categorization. In Expert System Application, New York, USA.
[5] Singh, Sanasam Ranbir, et.al. 2010. Feature Selection for Text Categorization Based
on Gini Coefficient of Inequality. In Proceedings of the Fourth Workshop on Feature Selection in Data Mining.Hyderabad, India.
[6] Tan, Pang-ning, et.al. 2006. Introduction to Data mining. Pearson education, Inc.
[7] Tien Dung Do, Hui, Fong. 2006. Associative Feature Selection for Text mining.
Nanyang Technological University.
[8] Wiener, E, et.al. 1995. A neural network approach to topic spotting. In Proceedings
of the Fourth Annual Symposium on Document Analysis and Information Retrieval (SDAIR’98).
[9] Written, Ian H, and Eibe Frank. 2005. Data Mining: Practical Machine Learning
Tools and Techniques second edition. San Francisco: MorganKaufmann Publisher.
[10] Yang, Yiming, and Jan O. Pederson. 1997. A Comparative Study on Feature
selection in Text Categorization. In Proceeding of the 14th International Conference on Machine Learning, 412-420, Nashville, USA.
[11] Yu, Lei and Liu, Huan. 2003. Feature Selection for High-Dimensional Data: A Fast
Correlation-Based Filter Solution. In Proceedings of the Twentieth International Conference on Machine Learning (ICML-2003), Washington DC,USA.
Powered by TCPDF (www.tcpdf.org)