Klasifikasi Topik pada Lirik Lagu dengan Metode Multinomial Naïve Bayes

(1)

Klasifikasi Topik pada Lirik Lagu dengan

Metode Multinomial Naïve Bayes

Rifqi Abdul Aziz #1, Mohamad Syahrul Mubarok *2, Adiwijaya #3 # School of Computing, Telkom University

Bandung (40257) Indonesia 1 _{[email protected]}

2 _{[email protected]} 3 _{[email protected]}

Abstract

The current system for categorizing songs on application like iTunes on the iPhone has been able to categorize songs by genre, artist, and album. However, there has been no categorization song by song topics, categorizing songs based on topic is still done manually. This research aims to create a system that categorizes songs by song topics using lyrics as research objects. This research begins by collecting lyrics from many website which serve as research dataset, then data preprocessing is done, consisting of case folding, tokenization, stopword removal and stemming. The next step is to do feature selection by using chi-square. Furthermore, feature extraction will be on the feature selection results by using bag of words. Classifier building is then performed to be used in the classification process. The next step is to clasify song lyrics on test data into a class topic by using multinomial naïve bayes method. The last step in this research is to evaluate system by calculating accuracy, precision, recall and f1-measure. Topic class in this system are love, friendship, nasionalism, family, religion, and negative content. The performance of this system in this study, the f1-measure values at 88.91% and accuracy at 96.00%.

Keywords: Classification, Song lyrics, Chi square, Multinomial naïve bayes

Abstrak

Saat ini sistem pengkategorian lagu pada aplikasi pemutar musik seperti iTunes pada iPhone sudah mampu mengkategorikan lagu berdasarkan genre, artist, dan album. Namun belum terdapat pengkategorian lagu berdasarkan topik lagu, sehingga untuk mengkategorikan lagu berdasar topik ini masih dilakukan secara manual. Penelitian ini bertujuan untuk membuat sistem yang mampu mengkategorikan lagu berdasarkan topik lagu dengan menggunakan lirik lagu sebagai objek penelitian. Penelitian ini diawali dengan mengumpulkan lirik lagu dari berbagai website penyedia lirik lagu sebagai dataset penelitian, kemudian dilakukan preprocessing data yang terdiri dari case

folding, tokenization, stopword removal dan stemming. Tahap selanjutnya yaitu melakukan feature selection dengan menggunakan metode chi-square. Selanjutnya hasil feature selection tersebut

dilakukan feature extraction dengan menggunakan metode bag of words. Selanjutnya dilakukan pembangunan classifier yang nantinya digunakan pada saat proses klasifikasi. Tahap selanjutnya yaitu melakukan klasifikasi lirik lagu pada data testing kedalam sebuah kelas topik tertentu dengan menggunakan metode multinomial naïve bayes. Tahap terakhir pada penelitian ini yaitu mengevaluasi sistem dengan menghitung accuracy, precission, recall, dan f1-measure. Kelas topik lagu yang dihasilkan pada sistem ini yaitu cinta, persahabatan, nasionalisme, keluarga, religi dan konten negatif. Performansi sistem yang dihasilkan pada penelitian ini didapatkan nilai f1-measure sebesar 88.91% dan nilai akurasi 96.00%.

Kata Kunci: Klasifikasi, Lirik lagu, Chi square, Multinomial naïve bayes

socj.telkomuniversity.ac.id/indosc doi:10.21108/indosc.2016.131

(2)

I. INTRODUCTION

umlah lagu khususnya di Indonesia semakin lama akan semakin bertambah banyak dan beragam, terbukti dari banyak bermunculannya single bahkan album yang diluncurkan oleh group musik/penyanyi setiap waktunya. Dari hal tersebut diperlukan suatu sistem yang mampu mengkategorikan lagu untuk memudahkan pendengar dalam melakukan pencarian lagu. Saat ini aplikasi pemutar musik seperti iTunes pada iPhone, laya pada Android sudah mampu mengkategorikan lagu berdasarkan genre, artist, dan album. Namun, belum terdapat pengkategorian lagu berdasarkan topik lagu, sehingga untuk mengkategorikan lagu berdasar topik ini masih dilakukan secara manual. Salah satu cara untuk melakukan kategorisasi lagu berdasarkan topik lagu tersebut dapat diselesaikan dengan menggunakan machine learning. Lirik merupakan salah satu komponen yang penting pada sebuah karya lagu. Lirik dapat didefinisikan sebagai rangkaian kata-kata yang merupakan ungkapan, perasaan dan pikiran pencipta lagu [1], sehingga dengan lirik lagu tersebut kita dapat mengetahui pesan yang terkandung pada sebuah lagu. Dari hal tersebut, lirik dapat digunakan sebagai objek penelitian pada text classification. Pada penelitian ini dibuat sebuah sistem yang mampu mengkategorikan lagu berdasarkan topik lagu seperti penelitian yang telah dilakukan oleh Jose P. G. Mahedero, Alvaro Martinez, dan Pedro Cano [2]. Kelas topik yang dihasilkan pada penelitian ini yaitu cinta, persahabatan, keluarga, religi, nasionalisme dan konten negatif.

II.LITERATURE REVIEW

Pada bab ini akan dibahas mengenai kajian apa saja yang dijadikan sebagai landasan teori pada text classification. Berikut adalah kajian yang digunakan pada penelitian ini.

A. Text Classification

Menurut Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze [3], Text classification atau bisa disebut text categorization merupakan proses pengelompokan dokumen kedalam suatu kelas tertentu. Permasalahan utama pada text classification yaitu bagaimana sistem mampu menentukan kelas sebenarnya pada dokumen dengan memanfaatkan informasi-informasi yang terdapat pada dokumen tersebut. Salah satu cara untuk melakukan text classification tersebut dapat diselesaikan dengan menggunakan supervised machine learning, dimana proses klasifikasi dokumen dilakukan berdasarkan dokumen-dokumen yang telah dipelajari oleh sistem sebelumnya.

B. Sampling

Sampling merupakan teknik pengambilan data sampel dari populasi [4]. Menurut Chawla, dan Nitesh V [5], ketidakseimbangan data antar kelas telah menjadi permasalahan pada machine learning. Ketidakseimbangan ini terjadi karena pada dasarnya data yang terdapat di dunia nyata memiliki jumlah yang berbeda-beda, terdapat kelas yang memiliki jumlah data banyak (mayoritas), dan terdapat kelas yang memliki jumlah datanya sedikit (minoritas). Teknik sampling yang dapat dilakukan untuk menangani permasalahan imbalance data tersebut diantaranya dengan melakukan undersampling atau oversampling. Dari kedua metode sampling tersebut, berdasarkan penelitian yang dilakukan oleh Alexander Yun-chung Liu, B.S, random undersampling telah terbukti secara empiris sebagai metode resampling yang paling efektif dalam menangangi permasalahan imbalance data [6]. Menurut Sheldon M. Ross proses sampling ini dikatakan valid jika dilakukan minimal sebanyak 30 kali [7].

C. Chi Square

Chi square yang dilambangkan dengan 𝜒"_{merupakan metode yang digunakan untuk menghitung nilai} ketergantungan dua variabel, dimana pada text classification metode ini digunakan untuk menghitung ketergantungan antara kata dengan kelas [8]. Perhitungan chi square dirumuskan dengan persamaan (1) [9].

𝜒"₌ 𝑓𝑜 − 𝑓𝑒 " 𝑓𝑒

(1)

(3)

Dimana 𝜒 merupakan nilai chi-square, fo merupakan jumlah frekuensi kata yang diamati, dan 𝑓𝑒 merupakan nilai ekspektasi dari data yang diamati atau theoretical frequency. Dalam melakukan feature selection chi-square ini, critic score ditentukan berdasarkan level of significance (𝛼) dan degree of freedom. Kata yang lolos pada feature selection ini adalah kata yang memiliki jumlah nilai chi-square melebihi nilai kritis yang sudah ditentukan.

D. Multinomial Naïve Bayes

Menurut Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze [3], Multinomial Naïve Bayes merupakan metode klasifikasi supervised learning untuk menentukan nilai probabilistik sebuah dokumen terhadap suatu kelas. Algoritma machine learning ini memiliki ciri utama asumsi yang kuat (naïve) terhadap ketertidakgantungan (independence). Pada text classification, algoritma ini memiliki dua asumsi yaitu asumsi Bag of Words yang berasumsi bahwa posisi kata dalam dokumen tidak berpengaruh dan Conditional Independence dimana masing-masing probabilitas setiap feature saling independence. Perhitungan Multinomial Naïve Bayes dirumuskan pada persamaan (2).

𝑃 𝑐|𝑑 ∝ 𝑃 c 𝑃(𝑡1|𝑐) 341567

(2) Dimana 𝑃 𝑐|𝑑 merupakan posterior probability dokumen terhadap suatu kelas, 𝑃 c merupakan prior probability suatu kelas, 𝑃(𝑡1|𝑐) merupakan conditional/likelihood probability sebuah term dengan given class c, dan 𝑛9 merupakan jumlah term pada dokumen.Tujuan utama dari text classification yaitu mencari kelas terbaik pada sebuah dokumen. Penentuan kelas tersebut dilakukan dengan cara mencari nilai posterior probability tertinggi (maximum a posteriori) dengan menggunakan persamaan (3).

𝐶;<== arg 𝑚𝑎𝑥

E∈ℂ 𝑃 𝑐|𝑑 = arg 𝑚𝑎𝑥 E∈ℂ 𝑃 c ₃₄₁₅₆ 𝑃(𝑡1|𝑐) 7

(3)

III. RESEARCH METHOD

Gambaran umum dari sistem yang dibuat pada penelitian ini ditunjukkan pada Gambar 1.

Gambar 1 Gambaran Umum Sistem

(4)

TABLEI GAMBARAN UMUM SISTEM

No Tahap Input Proses Output

1 Preprocessing Dataset Membersikan dataset agar sistem lebih mudah dalam melakukan kompterisasi data teks tersebut, dan mereduksi kata yang kurang penting (stopword). Proses ini terdiri dari case folding,

tokenization, stopword removal, dan stemming.

Dataset hasil preprocess.

2 Sampling Dataset hasil

preprocess Proses sampling dengan menggunakan metode random undersampling. Dataset hasil sampling. 3 Spliting

Dataset

Dataset hasil sampling

Proses membagi dataset menjadi data training dan data testing.

Data training dan data testing 4 Feature

Selection

Term pada data training

Melakukan seleksi term dengan menggunakan metode chi square.

Kumpulan term yang lolos seleksi fitur 5 Feature Extraction Term hasil seleksi dan data training

Melakukan ekstraksi fitur dengan menggunakan representasi model bag of words, yaitu dengan cara menghitung jumlah kemunculan term pada data training.

Bag of words

6 Pembangunan Classifier

Bag of Words Membangun model classifier dengan menghitung prior probability semua kelas, dan likelihood probability semua term.

Model classifier (prior probability dan likelihood probability) 7 Klasifikasi Data testing

dan model classifier

Melakukan klasifikasi pada data testing dengan menggunakan metode

multinomial naïve bayes.

Hasil klasifikasi 8 Evaluasi

Sistem

Hasil Klasifikasi

Mengevaluasi sistem dengan

menghitung nilai accuracy, precision, recall, dan f1-measure.

Nilai evaluasi sistem

IV. RESULTS AND DISCUSSION

A. Dataset

Jumlah data lirik lagu yang telah dikumpulkan adalah sebanyak 1326 data. Dataset lirik ini terdiri dari 6 kelas kategori topik (cinta, persahabatan, nasionalisme, keluarga, religi, dan negatif) yang telah diberikan label secara manual (hand-labeling). Berikut rincian dataset lirik lagu ditunjukkan pada Tabel 2.

TABLE2 RINCIAN DATASET

Kelas Jumlah Lirik Lagu

Cinta 250 Persahabatan 195 Nasionalisme 199 Keluarga 193 Religi 250 Negatif 239 Total 1326

(5)

B. Skenario Pengujian

1. Menganalisis pengaruh persentase pembagian data training dan data testing dengan menggunakan satu dataset yang telah dilakukan random undersampling, dimana masing-masing persentase pembagian data training dan data testing dilakukan pengujian sebanyak 30 kali yaitu dengan 30 pembagian data training dan data testing berbeda yang ditentukan secara acak. Persentase pembagian data training dan data testing yang digunakan yaitu 15-85%, 25%-75%, 35%-65% 50%-50, 65%-35%,75%-25% dan 85%-15%.

2. Menganalisis hasil klasifikasi dari dataset random undersampling dengan menggunakan 30 dataset yang telah dilakukan random undersampling. Masing-masing dataset dillakukan pengujian sebanyak 30 kali yaitu dengan menggunakan 30 data training dan data testing berbeda yang ditentukan secara acak.

3. Menganalisis pengaruh penggunaan level of significance pada feature selection Chi-Square dengan menggunakan dataset random undersampling terbaik yang telah dilakukan pada skenario pengujian sebelumnya. level of significance yang digunakan pada pengujian ini yaitu 0,0005, 0.001, 0.005, 0.01, 0.05, dan 0.1. Masing-masing penggunaan level of significance dilakukan pengujian sebanyak 30 kali yaitu dengan dengan menggunakan 30 data training dan data testing berbeda yang ditentukan secara acak. 4. Membandingkan performansi sistem metode klasifikasi berbeda dengan menggunakan satu dataset random

undersampling. Metode klasifikasi yang digunakan pada pengujian ini yaitu Multinomial Naïve Bayes, Support Vector Machine, Simple Logistic, dan Decision Tree (J48).

C. Hasil Pengujian

Hasil pengujian pada penelitian ini terdiri dari empat bagian, yaitu analisis peresentase pembagian data training dan data testing, analisis hasil klasifikasi pada dataset random undersampling, analisis pengaruh level of significance pada feature selection chi-square, dan analisis perbandingan performansi sistem dengan menggunakan metode klasifikasi yang lain.

1) Analisis hasil Pengujian Persentase Pembagian Data Training dan Data Testing

Pengujian ini dilakukan untuk mengetahui pengaruh persentase pembagian data training dan data testing terhadap performansi sistem. Rincian pembagian data training dan data testing pengujian ini ditunjukkan pada Gambar 2.

Gambar 2 Pembagian Data Training dan Data Testing

Hasil perbandingan performansi sistem masing-masing persentase pembagian data training dan data testing ditunjukkan pada Gambar 3.

174 288 408 576 750 870 984 984 870 750 576 408 288 174 0 200 400 600 800 1000 1200 15%-85% 25%-75% 35%-65% 50%-50% 65%-35% 75%-25% 85%-15% Persentase Pembagian Data Training-Testing Data Training Data Testing

(6)

Gambar 3 Perbandingan Performansi Sistem Persentase Pembagian Data Training Data Testing

Berdasarkan Gambar 3, dapat disimpulkan bahwa semakin banyak data training maka semakin baik pula performansi sistem yang dihasilkan. Hal tersebut terjadi karena semakin banyak jumlah data training maka semakin banyak pula jumlah kata pada bag of words yang dilakukan proses pembelajaran oleh sistem, sehingga sistem memiliki knowledge yang lebih banyak. Rincian hasil klasifikasi dengan nilai evaluasi terbaik pengujian ini ditunjukkan pada Tabel 3.

TABLE3

RINCIAN HASIL KLASIFIKASI TERBAIK PENGUJIAN PERSENTASE PEMBAGIAN DATA TRAINING DAN DATA TESTING Kelas Accuracy Precision Recall F1-Measure Microaverage

F1-Measure Microaverage Accuracy Cinta 96.23% 82.66% 100.00% 90.63% 88.00% 95.63% Persahabatan 95.03% 83.87% 89.66% 86.67% Nasionalisme 98.08% 96.43% 93.10% 94.74% Keluarga 93.87% 91.30% 72.41% 80.77% Religi 94.44% 85.71% 82.76% 84.21% Negatif 96.23% 89.66% 89.66% 89.66%

2) Analisis Hasil Klasifikasi pada Dataset Random Undersampling

Pengujian ini dilakukan untuk mencari dataset yang memiliki nilai performansi sistem terbaik. Hasil perbandingan rata-rata microaverage f1-measure dari masing-masing dataset random undersampling ditunjukkan pada Gambar 4.

75.10 77.79 79.53 80.85 81.82 82.16 82.70 89.88 91.18 91.98 92.58 92.99 93.14 93.36 0.00 20.00 40.00 60.00 80.00 100.00 15%-85% 25%-75% 35%-65% 50%-50% 65%-35% 75%-25% 85%-15% Persentase Pembagian Data Training-Testing Microaverage F1-Measure Microaverage Accuracy

(7)

Gambar 4 Rata-Rata Microaverage F1-measure masing-masing Dataset Random Undersampling

Berdasarkan Gambar 4, rata-rata microaverage f1-measure pada 30 dataset random undersampling berada pada rentang 81.39% sampai 83.95%. Hal tersebut menunjukan bahwa performansi sistem klasifikasi topik pada lirik lagu dengan menggunakan metode Multinomial Naïve Bayes ini mampu menghasilkan performansi sistem cukup baik. Rincian hasil klasifikasi dengan nilai evaluasi terbaik pada pengujian ini ditunjukkan pada Tabel 4.

TABLE4

RINCIAN HASIL KLASIFIKASI TERBAIK PENGUJIAN DATASET RANDOM UNDERSAMPLING Kelas Accuracy Precision Recall F1-Measure Microaverage

F1-Measure Microaverage Accuracy Cinta 96.97% 90.00% 93.75% 91.84% 88.91% 96.00 % Persahabatan 95.17% 84.31% 89.58% 86.87% Nasionalisme 95.88% 89.36% 87.50% 88.42% Keluarga 96.60% 91.49% 89.58% 90.53% Religi 95.52% 90.91% 83.33% 86.96% Negatif 95.88% 87.76% 89.58% 88.66%

3) Analisis Pengaruh Level of Significance Feature Selection Chi-square

Pengujian ini dilakukan untuk mengetahui pengaruh penggunaan level of significance pada feature selection chi-square (𝜒"_{). Pemilihan level of significance ini mempengaruhi jumlah kata yang lolos pada feature} selection. Hasil perbandingan jumlah kata yang berhasil terseleksi pada masing-masing penggunaan level of significance ditunjukkan pada Gambar 5.

82. 16 82. 69 82. 35 82.67 82. 78 83. 15 83.45 83. 41 83. 02 82. 83 83. 10 83.43 83. 03 83.30 _83.19 81. 39 82. 91 82. 28 83. 27 82. 76 83. 10 82. 69 83. 14 82. 97 82. 86 83. 72 82. 93 83. 95 82. 79 82. 92 1 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 2 0 2 1 2 2 2 3 2 4 2 5 2 6 2 7 2 8 2 9 3 0 RA TA -RA TA M IC RO AV ER AG E F1 -ME AS U RE RANDOM UNDERSAMPLING

(8)

Gambar 5 Perbandingan Jumlah Kata pada Bag of Words

Berdasarkan Gambar 5, dapat disimpulkan bahwa semakin kecil nilai level of significance maka semakin sedikit kata yang lolos pada feature selection. Hal ini dikarenakan semakin kecil nilai level of significance, semakin tinggi nilai critic scorenya yang menyebabkan proses seleksi menjadi lebih ketat. Jumlah kata yang berhasil pada feature selection ini tentunya mempengaruhi waktu pembangunan model classifier. Berikut hasil perbandingan waktu pembangunan model classifer masing-masing level of significance dan tanpa penggunaan feature selection (0) ditunjukkan pada Gambar 6.

Gambar 6 Perbandingan Waktu Pembangunan Classifier

Berdasarkan Gambar 6, ditunjukkan bahwa semakin kecil nilai level of significance maka semakin cepat waktu untuk membangun model classifier. Penggunaan feature selection ini mampu mereduksi jumlah feature yang banyak dan mampu mempercepat waktu pembangunan model classifier 66%-80% lebih cepat dibandingkan tanpa menggunakan feature selection. Penggunaan level of significance memiliki pengaruh terhadap performansi sistem, hasil perbandingan performansi sistem masing-masing penggunaan level of significance dan tanpa penggunaan feature selection (0) ditunjukkan pada Gambar 7.

3224 489 537 655 764 1057 1229 0 500 1000 1500 2000 2500 3000 3500 0.00 0.0005 0.001 0.005 0.01 0.05 0.1 Ju m la h Ka ta Level of Significance 206.48 43.49 52.05 54.40 57.05 60.79 70.85 0 50 100 150 200 250 0.00 0.0005 0.001 0.005 0.01 0.05 0.1 Wa kt u Pr os es (S ec on d) Level of Significance

(9)

Gambar 7 Perbandingan Hasil Evaluasi Level of Significance Berbeda

Berdasarkan Gambar 7, ditunjukkan bahwa semakin kecil nilai level of significance maka semakin kecil nilai performansi sistemnya. Hal tersebut dikarenakan semakin kecil nilai level of significance maka semakin banyak feature yang hilang, sehingga jumlah kata yang dipelajari oleh sistem lebih sedikit dan kemungkinan sebuah feature dianggap sebagai unknown word lebih tinggi. Penggunaaan feature selection chi-square pada penelitian ini belum mampu meningkatkan performansi sistem, namun mampu mereduksi jumlah feature yang sangat banyak sehigga classifier yang dibangun lebih efisien dan mampu mempercepat proses pembangunan model classifier. Rincian hasil klasifikasi dengan nilai evaluasi terbaik pada pengujian ini ditunjukkan pada Tabel 5.

TABLE5

RINCIAN HASIL KLASIFIKASI TERBAIK PENGUJIAN LEVEL OF SIGNIFICANCE Kelas Accuracy Precision Recall

F1-Measure Microaverage F1-Measure Microaverage Accuracy Cinta 94.38% 81.13% 89.58% 85.15% 87.51% 95.45% Persahabatan 95.09% 81.82% 93.75% 87.38% Nasionalisme 96.55% 93.33% 87.50% 90.32% Keluarga 95.82% 83.64% 95.83% 89.32% Religi 95.09% 97.30% 75.00% 84.71% Negatif 95.82% 93.02% 83.33% 87.91%

4) Perbandingan Performansi Sistem dengan Metode Klasifikasi Lain.

Pengujian ini dilakukan untuk mengetahui perbandingan performansi sistem dari beberapa metode klasifikasi yaitu Multinomial Naïve Bayes, Support Vector Machine, Simple Logistic, dan Decision Tree (J48). Hasil perbandingan performansi sistem masing-masing metode klasifikasi ditunjukkan pada Tabel 6.

83.95 82.12 82.33 82.62 82.64 83.25 83.39 93.91 _93.17 _93.25 93.36 93.37 93.62 93.68 75.00 80.00 85.00 90.00 95.00 0 0.0005 0.001 0.005 0.01 0.05 0.1 Level of Significance Rata-Rata Microaverage F1-Measure Rata-rata Microaverage Accuracy

(10)

TABLE6

PERBANDINGAN PERFORMANSI SISTEM METODE KLASIFIKASI

Metode Average F1-Measure

Multinomial Naïve Bayes 82.30 % SVM (Radial Basis Function) 81.00 %

SVM (Sigmoid) 80.90 %

SVM (Linear) 80.80 %

Simple Logistic 77.00 %

Decision Tree (J48) 69.30 %

Berdasarkan Tabel 6, dapat disimpulkan bahwa untuk studi kasus klasifikasi topik lirik lagu pada penelitian ini, metode Multinomial Naïve Bayes memiliki performansi sistem yang paling baik dibandingkan dengan metode klasifikasi lainnya.

V. CONCLUSION

Penggunaan metode Multinomial Naïve bayes pada penelitian ini mampu menghasilkan performansi yang baik dengan nilai f1-measure 88.91% dan nilai akurasi 96.00%. Persentase pembagian data training dan data testing terbaik pada penelitian ini yaitu pada persentase pembagian data 85%-15%. Penggunaan feature selection chi-square pada penelitian ini belum mampu meningkatkan performansi sistem namun mampu mereduksi jumlah feature yang banyak dan mampu mempercepat waktu pembentukan classifier 66%-80% lebih cepat dibandingkan tanpa menggunakan feature selection.

ACKNOWLEDGMENT

Penulis mengucapkan terima kasih kepada reviewers dan pihak lainnya yang sudah membantu menyelesaikan penelitian ini.

REFERENCES

[1] Y. RM and Siswandi, Pendidikan Seni Budaya, Bogor: yudhistira, 2008.

[2] J. P. G. Mahedero, A. Martinez and P. Cano, "NATURAL LANGUAGE PROCESSING of LYRICS," 2005.

[3] C. D. Manning, P. Raghavan and H. Schütze, "Text classification and Naive Bayes," in An Introduction to Information Retrieval, Cambridge, Cambridge UP, 2009.

[4] Eriyanto, Teknik Sampling Analisis Opini Publik, Yogyakarta: Lkis , 2007.

[5] N. V. Chawla, "Data Mining for Imbalanced Datasets : An Overview," in Data Mining and Knowledge Discovery Handbook, Springer US, 2005, pp. 853-867.

[6] A. Y.-c. Liu, "The Effect of Oversampling and Undersampling on Classifying Imbalanced Text Datasets," p. 8, 2004. [7] S. M. Ross, Introductory Statistics : Third Edition, Los Angeles: Elsevier, 2010.

[8] D. A. Said, "DIMENSIONALITY REDUCTION TECHNIQUES FOR ENHANCING AUTOMATIC TEXT CATEGORIZATION," p. 30, 2007.

[9] J. E. Nesbitt, CHI-SQUARE, Manchester: Manchester University Press, 1966.