• Tidak ada hasil yang ditemukan

BAB II LANDASAN TEORI

2.7 Text Classification

Dalam kultur modern, teks merupakan bentuk paling umum dari pertukaran informasi secara formal (Witten, 2004). Menurut Kamruzzaman dkk. (2010), terdapat sejumlah besar dokumen berbasis teks yang tersedia dalam bentuk elektronik. Pencarian pola pada data dapat dilakukan dengan data mining (Witten, 2004). Jika data mining berkaitan dengan proses mencari pola pada data, text

mining berkaitan dengan proses mencari pola pada teks (Witten, 2004). Tujuan

utama dari text mining adalah untuk memungkinkan pengguna mengekstrak informasi dari sumber yang berupa teks dan berkaitan dengan operasi-operasi seperti mendapatkan kembali informasi, klasifikasi, dan perangkuman (Korde dan

Mahender, 2012). Text classification merupakan salah satu contoh dari text mining (Sebastiani, 2001). Text classification akan mengklasifikasikan dokumen berupa teks secara otomatis berdasarkan kategori-kategori yang telah ditetapkan sebelumnya, misalnya olahraga, politik, atau seni (Korde dan Mahender, 2012).

Ketika mengklasifikasi suatu dokumen, tidak ada informasi lain yang digunakan selain isi dari dokumen itu sendiri dan dalam pendekatan machine

learning, data pelatihan terdiri dari sekumpulan contoh dokumen yang berupa teks

untuk setiap kategori (Witten, 2004). Menurut Witten (2004), model untuk setiap kategori dibangun menggunakan kata-kata (feature) yang ada dalam teks yang dijadikan data pelatihan, baik sebagian kecil maupun seluruh kata kecuali

stopwords, beserta dengan jumlah kemunculannya (nilai dari feature). Model yang

dihasilkan kemudian digunakan untuk memprediksi apakah kategori tersebut dapat disematkan pada dokumen baru berdasarkan kata-kata yang terdapat pada dokumen tersebut atau dapat juga memperhitungkan jumlah kemunculan masing-masing kata (Witten, 2004). Jika kata-kata dalam teks disebut dengan feature, dokumen direpresentasikan sebagai bag of words yang mengabaikan urutan kata-kata dan efek kontekstual dari urutan kata-kata tersebut (Witten, 2004). Tahap pertama dari proses klasifikasi teks adalah melakukan preprocessing (Vijayarani dkk., 2015). Menurut Korde dan Mahender (2012), umumnya, langkah yang dilakukan dalam

preprocessing adalah sebagai berikut.

1. Tokenisasi

Dokumen diperlakukan sebagai sebuah string dan dipartisi menjadi daftar token. Metode ini digunakan untuk mengolah konten dari teks menjadi kata-kata tunggal (Vijayarani dkk., 2015). Pada tahap ini, karakter-karakter tertentu seperti

tanda baca juga dihilangkan (Harjanta, 2015). Sebelum tokenisasi dilakukan, semua huruf pada teks diubah menjadi huruf kecil atau huruf kapital semua (Harjanta, 2015). Dilakukan juga proses filter terhadap kata yang berawalan bukan huruf (Ganisaputra dan Tan, 2013).

2. Penghapusan stopwords

Proses ini merupakan proses penghapusan kata-kata yang tidak berpengaruh pada sebuah proses klasifikasi (Hidayatullah dan Azhari, 2015). Contoh dari

stopword bahasa Inggris adalah is, a, all, dan lain-lain (Ganisaputra dan Tan, 2013).

Untuk Bahasa Indonesia, seperti nama bulan, kata ganti, kata hubung, dan lain-lain (Ganisaputra dan Tan, 2013). Preposisi (seperti kata “di”, “untuk”, “bersama”, “sampai dengan”, dan lain-lain) dan konjungsi (seperti kata “dan”, “atau”, “serta”, dan lain-lain) dalam Bahasa Indonesia juga dieliminasi dalam tahap ini (Firdaus dkk., 2014).

3. Stemming

Proses stemming mengonversi kata-kata menjadi kata dasarnya dan meliputi pengetahuan linguistik yang bersifat language-dependent (Sharma dan Jain, 2015). Tujuan dari proses stemming adalah menghilangkan imbuhan-imbuhan baik itu berupa prefiks, sufiks, maupun konfiks yang ada pada setiap kata (Kurniawan dkk., 2012). Proses stemming dilakukan dengan menggunakan algoritma Nazief dan Adriani yang dapat melakukan stemming dengan presisi tinggi (Agusta, 2009). Algoritma Nazief dan Adriani memiliki tahapan sebagai berikut (Asian dkk., 2005). 1. Cari kata di dalam kamus. Jika ditemukan, diasumsikan bahwa kata tersebut adalah kata dasar dan algoritma berhenti. Jika tidak ditemukan, lakukan langkah 2.

2. Hilangkan inflectional suffixes bila ada. Dimulai dari inflectional particle (“-lah”, “-kah”, “-tah”, dan “-pun”), kemudian possessive pronoun (“-ku”, “-mu”, dan “-nya”). Kemudian cari kata pada kamus. Jika ditemukan, algoritma berhenti. Jika kata tidak ditemukan dalam kamus, lakukan langkah 3.

3. Hilangkan derivation suffixes (“-an”, ”-i”). Cari kata di dalam kamus. Jika ditemukan, algoritma berhenti. Jika kata tidak ditemukan, lakukan langkah 3a. a. Jika akhiran “-an” dihapus dan ditemukan akhiran “-k”, akhiran “-k”

dihapus. Lalu, lakukan langkah 4. Jika kata ditemukan, algoritma berhenti. Jika kata tidak ditemukan, lakukan langkah 3b.

b. Akhiran yang telah dihapus (“-i”, “-an”, atau “-kan”) dikembalikan.

4. Hilangkan derivation prefix (“di-”, “ke-”, “se-”, “me-”, “be-”, “pe-”, “te-”) dengan iterasi maksimum tiga kali.

a. Iterasi berhenti jika:

 Terjadi kombinasi awalan dan akhiran yang dilarang seperti yang dijabarkan pada Tabel 2.1.

Tabel 2.1 Kombinasi Awalan dan Akhiran yang Tidak Diizinkan (Agusta, 2009)

Awalan Akhiran yang Tidak Diizinkan

be- -i

di- -an

ke- -i, -kan

me- -an

se- -i, -kan

 Awalan yang dideteksi saat ini sama dengan awalan yang telah dihilangkan sebelumnya.

b. Identifikasi tipe awalan dan hilangkan. Awalan terdiri dari dua tipe, yaitu sebagai berikut.

 Jika awalan dari kata adalah “di-”, “ke-”, dan “se-”, awalan dapat langsung dihilangkan dari kata.

 Jika awalan dari kata adalah “me-”, “be-”, “pe-”, dan “te-”, proses tambahan dibutuhkan untuk melakukan pemenggalan. Aturan pemenggalan kata dapat dilihat pada Lampiran 5.

c. Jika kata tidak ditemukan dalam kamus, ulangi langkah 4. Jika ditemukan, algoritma berhenti.

d. Lakukan recoding. Langkah ini dilakukan berdasarkan tipe awalan dan dapat menghasilkan kata yang berbeda. Aturan recoding dapat dilihat pada Lampiran 5. Recoding dilakukan dengan menambahkan karakter recoding di awal kata yang dipenggal. Karakter recoding adalah huruf kecil setelah tanda hubung (“-”) atau berada sebelum tanda kurung jika mengacu pada daftar aturan pemenggalan yang terlampir (Firdaus dkk., 2014).

5. Jika semua langkah gagal, input kata yang diuji pada algoritma ini dianggap sebagai kata dasar.

Selain aturan stemming berdasarkan algoritma Nazief dan Adriani, terdapat beberapa aturan tambahan untuk mengatasi kegagalan stemming dalam beberapa jenis imbuhan. Aturan tersebut dijabarkan sebagai berikut (Asian dkk., 2005). 1. Penambahan partikel “-pun” pada daftar inflectional suffix.

2. Jika sebuah kata diawali dengan “ber-” dan memiliki inflectional suffix “-lah”, prefix dihapus sebelum suffix.

3. Jika sebuah kata diawali dengan “ber-” dan memiliki derivation suffix “-an”, prefix dihapus sebelum suffix.

4. Jika sebuah kata diawali dengan “men-” dan memiliki derivation suffix “-i”, prefix dihapus sebelum suffix.

5. Jika sebuah kata diawali dengan “di-” dan memiliki derivation suffix “-i”,

prefix dihapus sebelum suffix.

6. Jika sebuah kata diawali dengan “pe-” dan memiliki derivation suffix “-i”,

prefix dihapus sebelum suffix.

7. Jika sebuah kata diawali dengan “ter-” dan memiliki derivation suffix “-i”,

prefix dihapus sebelum suffix.

Setelah melalui preprocessing, teks dapat diklasifikasikan menggunakan beberapa pendekatan machine learning, yaitu supervised dan unsupervised

learning (Tsarev dkk., 2013). Menurut Tsarev dkk. (2013), pada pendekatan

supervised, kategori telah ditetapkan sebelumnya dan pemberian label kategori

dilakukan terhadap set dokumen sampel atau dokumen pelatihan (training), sedangkan pada pendekatan unsupervised, yang disebut juga dengan document

clustering, klasifikasi harus dilakukan seluruhnya tanpa referensi ke informasi

eksternal (kategori tidak ditetapkan terlebih dahulu). Penelitian ini dilakukan menggunakan pendekatan supervised learning karena kategori telah ditetapkan sebelumnya dan dokumen sampel telah diberi label kategori yang sesuai. Salah satu algoritma pengklasifikasian teks yang menggunakan pendekatan supervised

Dokumen terkait