FEATURE SELECTION UNTUK KLASIFIKASI TEKS DENGAN MEKANISME WITHIN CLASS POPULARITY(WCP)

(1)

FEATURE SELECTION UNTUK KLASIFIKASI TEKS DENGAN MEKANISME WITHIN CLASS POPULARITY(WCP)

Ratna Pertiwi¹, Deni Saepudin², Intan Nurma Yulita³

¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Abstrak

Berkembangnya teknologi di dunia maya membuat jumlah informasi berupa artikel berita semakin banyak. Untuk itu, diperlukan suatu kategorisasi terhadap artikel yang memudahkan pembaca mencari informasi dengan menerapkan salah satu fungsionalitas dari data mining, yaitu klasifikasi. Akan tetapi, masalah utama yang terjadi pada kategorisasi artikel ini adalah tingginya dimensi dari data yang dapat mengganggu kategorisasinya itu sendiri. Oleh karena itu, harus dilakukan pemilihan terhadap beberapa atribut yang dapat berpengaruh besar terhadap hasil kategorisasi, yaitu Feature Selection.

Feature selection memiliki kemampuan mengurangi dimensionalitas suatu data sehingga dapat meningkatkan efektivitas dari classifier. Beberapa mekanisme feature selection telah

dikembangkan dalam pengklasifikasian teks, seperti mutual information dan chi-square yang telah dianggap sebagai mekanisme yang efektif.

Pada Tugas Akhir ini, akan dibahas sebuah metode lain yang dikenal dengan nama within class popularity yang digunakan untuk pengklasifikasian teks. Dataset yang digunakan adalah artikel berita berbahasa Indonesia yang berasal dari web dan menggunakan beberapa classifier, seperti: Naïve Bayes, dan k-Nearest Neighbor (kNN).

Selain itu, dilakukan pula analisis perbandingan terhadap metode within class popularity dengan mutual information dan chi-square dengan menggunakan classifier dan berdasarkan hasil analisis diketahui bahwa within class popularity memliki kinerja yang lebih baik dibanding mutual information dan chi-square.

Kata Kunci : within class popularity, feature selection, klasifikasi teks, classifier

Abstract

With the development of technology, large numbers of information like news articles are available on the internet. Hence text categorization is needed by applying classification as one of data mining task. However, the major problem of text categorization is the high dimensionality of data. Therefore, we need to select some representative attributes to improve performance of text categorization. One of technique to do this is feature selection.

Feature selection can reduce the high dimensionality, so, the effectiveness of classifier improves. A number of Feature selection mechanisms have been explored in text classification, among which mutual information, information gain, and chi-square are considered most effective. In this final assessment, will be discussed the other methods known by the name of Within Class Popularity that is used for text classification. The dataset used is Indonesian language news articles from the web and using multiple classifiers, such as Naive Bayes, and k-Nearest Neighbor (kNN).

In addition, also conducted a comparative analysis of within class popularity methods with mutual information and chi-square by using the classifiers and based on the analysis results is known that within class popularity have better performance than the mutual information and chi-square. Keywords : Text classification, within class popularity, Feature selection, classifier

Powered by TCPDF (www.tcpdf.org)

(2)

1

BAB I

PENDAHULUAN

1.1 Latar Belakang Masalah

Teknologi web yang berkembang sangat pesat berakibat pada populasi informasi yang semakin besar. Seiring berkembangnya jumlah informasi baik informasi secara lisan maupun yang berbentuk tulisan kadangkala menjadi permasalahan saat seseorang hanya ingin mendapatkan atau mencari sebuah informasi tertentu. Permasalah tersebut sangat sering ditemukan jika sebuah web tidak melakukan pengelompokkan atau pengklasifikasian berdasarkan kata kunci mengenai informasi yang ada.

Klasifikasi adalah pengelompokan suatu data ke dalam kelas-kelas yang telah didefinisikan sebelumnya di dalam sebuah sistem. Klasifikasi sering digunakan untuk memudahkan pemakainya dalam mengelompokkan sesuatu dengan tujuan dapat mencari data tersebut di kemudian hari tanpa harus membuang waktu dan energi yang banyak. Klasifikasi dapat diterapkan di semua bidang kehidupan termasuk dalam teks. Akan tetapi, pengklasifikasi teks biasanya memiliki kesulitan yang sangat tinggi dari sudut pandang dimensi ruang fitur dan

munculnya data noise yang membuat kinerja tinggi dari suatu algoritma. Untuk

alasan itulah, penggunaan Feature selection sangat dibutuhkan sebagai metode

yang digunakan untuk pemilihan atribut yang berpengaruh dalam

pengklasifikasian teks.

Feature selection didefinisikan oleh banyak penulis dengan melihat dari berbagai sudut. Sebuah prosedur standar yang dapat digunakan untuk mengurangi

dimensi ruang fitur. Berbagai metode Feature selection, seperti: Information

Gain, Term Frequency, Mutual information, Chi-Square Statics, dan Gini index

(Yang and Pedersen, 1997; Shankar and Karypis, 2000). Mutual information tidak

cocok digunakan untuk term dengan nilai peluang bersyarat yang sama namun

memiliki perbedaan jumlah frekuensi. Sementara Chi-Square tidak dapat

diandalkan untuk term-term yang memiliki frekuensi rendah.

Selain 5 metode Feature selection di atas, ada pula mekanisme Feature

selection yang disebut Within Class Popularity (WCP). WCP merupakan sebuah

metode yang membahas dua isu penting dari Feature selection untuk klasifikasi

teks, yaitu tidak meratanya distribusi dari probabilitas kelas sebelumnya dan kebaikan global dari sebuah fitur.

Berdasarkan pemaparan di atas, Tugas Akhir ini meneliti dan menganalisa

suatu mekanisme Feature selection yang disebut Within Class Popularity (WCP)

dalam mengklasifikasikan teks berbahasa Indonesia. Kinerja dari Within Class

popularity (WCP) ini kemudian dibandingkan dengan kinerja metode yang paling

umum digunakan dalam pengklasifikasian teks yaitu: Mutual Information (MI),

(3)

2

1.2 Perumusan Masalah

Penelitian pada tugas akhir ini merupakan implementasi mekanisme Within

Class Popularity, Mutual Information, dan Chi-Square dalam pengklasifikasian teks. Namun, Tugas Akhir ini lebih fokus tentang bagaimana penggunaan dan

perbandingan Within Class Popularity (WCP) dengan menggunakan beberapa text

classifier yang digunakan dalam pengklasifikasian teks. Adapun batasan masalah yang digunakan dalam Tugas Akhir ini adalah :

a. Hanya mengklasifikasikan dokumen teks pada satu kelas (single label).

b. Dataset yang digunakan adalah artikel berita berbahasa Indonesia yang

didapatkan dari website okezone, kompas, dan detik serta bersifat offline dan

disimpan dalam file berekstensi .txt.

c. Proses pemilihan feature hanya dilakukan dengan cara scoring.

d. Feature hanya berupa kata dan bukan frase.

1.3 Tujuan

a. Menganalisa mekanisme Feature selection yang disebut Within Class

Popularity (WCP) dalam pengklasifikasian teks.

b. Menganalisis perbandingan kinerja dari WCP dengan Mutual Information,

dan Chi-Square.

c. Menganalisis perbandingan Within Class Popularity (WCP) dengan

menggunakan beberapa text classifier.

1.4 Metodologi Penelitian

a. Studi literatur

Mencari referensi yang berkaitan dengan text classification dan Feature

selection.

b. Pengumpulan data

Mengumpulkan data collection yang berasal dari website okezone, kompas,

dan detik dan nantinya digunakan dalam latihan dan pengujian dari metode yang digunakan.

c. Analisis dan perancangan sistem

Melakukan analisis dan juga rencana sistem yang akan dibangun, mulai dari requirement, arsitektur, fungsionalitas, antarmuka sistem dan juga bahasa pemrograman yang akan digunakan.

d. Implementasi dan pembangunan sistem

Implementasi dan pembangunan sistem diterapkan sesuai dengan analisis dan juga perancangan sistem sebelumnya. Pembangunan sistem memperhatikan

segala requirement, aturan serta pola dalam perancangan yang telah dilakukan

sebelumnya.

e. Pengujian dan analisis

Pengujian dapat dilakukan jika keseluruhan sistem telah selesai dibangun.

f. Pengambilan kesimpulan dan pembuatan laporan.

(4)

34

BAB V

PENUTUP

4.1 Kesimpulan

Dari hasil analisis dan pengujian pada bab sebelumnya dalam tugas akhir ini, maka didapatkan kesimpulan :

1. Within Class Popularity dapat dipertimbangkan sebagai salah satu metode

feature selection yang efektif untuk dataset berita yang berasal dari website

okezone, kompas, dan detik dengan classifier Naïve Bayes dan kNN. Hal ini

terbukti dari hasil pengujian feature selection dengan Within Class Popularity

dapat menghasilkan nilai f-measure dan akurasi yang lebih besar daripada hasil

klasifikasi data testing dengan menggunakan CHI dan Mutual Information.

2. Pemilihan feature pada within class popularity, mutual information, dan

chi-square bergantung pada frekuensi kemunculan feature dalam kategori dan

jumlah kategori dimana feature tersebut muncul serta pemilihan feature ini

berpengaruh terhadap model klasifikasi yang dihasilkan.

3. WCP memiliki nilai Recall, Precision, dan F-Measure yang selalu lebih tinggi

dibanding MI dan CHI saat berada di kategori Internasional baik dengan menggunakan classifier Naïve Bayes ataupun kNN.

4. WCP memiliki akurasi yang sudah tinggi walaupun dengan kondisi pemilihan

feature 10% dan terus bergerak naik sampai pada pemilihan feature 100%

dengan akurasi 98% untuk classifier Naïve Bayes dan 97% untuk classifier kNN.

4.2 Saran

1. Within Class Popularity dapat digunakan untuk mengklasifikasikan dokumen

selain Bahasa Indonesia dan mengganti daftar kata stopword sesuai dengan

bahasa yang digunakan dalam dokumen.

2. Menggunakan tahapan stemming dalam preprocessing dalam pengklasifikasian

teks.

3. Menggunakan classifier lain untuk metode within class popularity dalam

mengklasifikasikan teks, seperti: Seed Based dan Support Vector Machine

(5)

35

DAFTAR PUSTAKA

[1] Adiwijaya, Igg. 2006. Text mining dan Knowledge Discovery. Komunitas Data

mining Indonesia & Soft-computing Indonesia.

[2] Huan, Liu, and Yu, Lei. 2005. Toward Integrating Feature Selection Algorithms for

Classification and Clustering. Dept. of Computer Science and Engineering, Arizona State University, Tempe, USA.

[3] Lewis, D. D. 1992. Representation and learning in information retrieval. Ph.D.

Dissertation, Amherst, MA, USA.

[4] Shang, Wenqian, et.al. 2007. A Novel Feature Selection Algorithm for Text

Categorization. In Expert System Application, New York, USA.

[5] Singh, Sanasam Ranbir, et.al. 2010. Feature Selection for Text Categorization Based

on Gini Coefficient of Inequality. In Proceedings of the Fourth Workshop on Feature Selection in Data Mining.Hyderabad, India.

[6] Tan, Pang-ning, et.al. 2006. Introduction to Data mining. Pearson education, Inc.

[7] Tien Dung Do, Hui, Fong. 2006. Associative Feature Selection for Text mining.

Nanyang Technological University.

[8] Wiener, E, et.al. 1995. A neural network approach to topic spotting. In Proceedings

of the Fourth Annual Symposium on Document Analysis and Information Retrieval (SDAIR’98).

[9] Written, Ian H, and Eibe Frank. 2005. Data Mining: Practical Machine Learning

Tools and Techniques second edition. San Francisco: MorganKaufmann Publisher.

[10] Yang, Yiming, and Jan O. Pederson. 1997. A Comparative Study on Feature

selection in Text Categorization. In Proceeding of the 14th International Conference on Machine Learning, 412-420, Nashville, USA.

[11] Yu, Lei and Liu, Huan. 2003. Feature Selection for High-Dimensional Data: A Fast

Correlation-Based Filter Solution. In Proceedings of the Twentieth International Conference on Machine Learning (ICML-2003), Washington DC,USA.