Untuk pustaka pendukung, disajikan secara ringkas mengenai hasil penelitian terkait dan tori klasifikasi menggunakan Naïve Bayes Classifier. 2.1. Hasil Penelitian Terkait
Ridwan, dkk (2013) telah melakukan penelitian tentang judul penerapan data mining untuk evaluasi kinerja akademik mahasiswa menggunakan algoritma Naïve Bayes Classifier (NBC). Penelitian ini difokuskan untuk mengevaluasi kinerja akademik mahasiswa pada tahun ke-2 dan diklasifikasikan dalam kategori mahasiswa yang dapat lulus tepat waktu atau tidak. Kemudian dari klasifikasi tersebut, sistem akan memberikan rekomendasi solusi untuk memandu mahasiswa lulus dalam waktu yang paling tepat dengan nilai optimal berdasarkan histori nilai yang telah ditempuh mahasiswa.
Azis (2011) pernah melakukan penelitian dengan judul Implementasi Naïve Bayes Classifier (NBC) sebagai sistem pendukung keputusan pada
Personal Resource Planning berbasis Mobile. Penelitian ini terfokus pada salah satu modul PRP yaitu budget planning untuk pembelanjaan atau pengeluaran berdasarkan probabilitas. Hasil dari metode NBC akan dijadikan bahan dasar pada saat perhitungan untuk mendapatkan sistem rekomendasi pada modul budget planning. User akan mendapatkan rekomendasi pengeluaran apa yang paling diprioritaskan sesuai dengan hasil perhitungan probabilitas terbesar.
2.2. Text Mining
Menurut Fieldman (2007), Text Mining adalah proses ekstraksi pola (informasi dan pengetahuan yang berguna) dari sejumlah besar sumber data yang tak terstruktur. Penambangan teks memiliki tujuan dan menggunakan proses yang sama dengan penambangan data, namun memiliki masukan yang berbeda. Masukan untuk penambangan teks adalah data yang tidak (atau kurang) terstruktur, seperti dokumen Word, PDf, kutipan teks, dll. Sedangkan untuk masukan penambangan data adalah data yang terstruktur.
2.3. Text Preprocessing
Teks pada umumnya memiliki banyak noise dan struktur kata yang tidak baik. Untuk mengambil ekstraksi fitur pada teks, terlebih dahulu harus dilakukan text preprocessing. Struktur data ynag baik memudahkan proses komputerisasi secara otomatis. Menurut Fieldman (2007), pada Text Mining, informasi yang akan digali berisi informasi yang strukturnya sembarang. Oleh karena itu diperlukan proses pengubahan bentuk menjadi data yang terstruktur sesuai kebutuhannya untuk proses dalam data mining, yang biasanya akan menjadi
nilai-nilai numerik. Proses ini sering disebut Text Preprocessing.
Setelah data menjadi data yang terstruktur, data tersebut dapat diolah lebih lanjut. Beberapa proses yang dilakukan pada text preprosesing adalah case folding, tokenizing, stop word removal, dan
stemming.
Gambar 1. Proses Text Preprocessing
a. Case folding
Menurut Fieldman (2007), case folding adalah mengubah semua huruf dalam dokumen menjadi
huruf kecil. Hanya huruf ‘a’ sampai dengan ‘Z’
yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter.
b. Tokenizing
Menurut Salton (1989), tokenizing merupakan proses pemisahan suatu rangkaian karakter berdasarkan karakter spasi, dan mungkin pada waktu yang bersamaan dilakukan juga proses penghapusan karakter tertentu, seperti tanda baca. Token seringkali disebut sebagai term (kata), sebagai contoh sebuah token merupakan suatu urutan karakter dari dokumen tertentu yang dikelompokkan sebagai unit semantic yang berguna untuk diproses.
c. Filtering / stop word
Menurut Fieldman (2007), tahap filtering adalah tahap mengambil kata-kata penting dari hasil
tokenizing. Bisa menggunakan algoritma stoplist (membuang kata yang kurang penting) atau wordlist (menyimpan kata penting). Stoplist / stopword adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of- words.
d. Stemming
Menurut Tala (2003), proses stemming
digunakan untuk mengubah term yang masih melekat dalam term tersebut awalan, sisipan dan akhiran. Proses stemming dilakukan dengan cara menghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan (prefixes), sisipan
(infixes), akhiran (suffixes) dan confixes (kombinasi dari awalan dan akhiran) pada kata turunan.
C-137
2.4. KlasifikasiSalah satu tugas utama dari data mining adalah klasifikasi. Klasifikasi digunakan untuk menempatkan bagian yang tidak diketahui pada data ke dalam kelompok yang sudah diketahui. Klasifikasi menggunakan variabel target dengan nilai nominal. Dalam satu set pelatihan, variabel target sudah diketahui. Dengan pembelajaran dapat ditemukan hubungan antara fitur dengan variabel target. Menurut Han (2006), ada dua langkah dalam proses klasifikasi:
a. Pembelajaran (learning) : pelatihan data dianalisis oleh algoritma klasifikasi.
b. Klasifikasi: data yang diujikan digunakan untuk mengkalkulasi akurasi dari aturan klasifikasi. Jika akurasi dianggap dapat diterima, aturan dapat diterapkan pada klasifikasi data tuple yang baru.
Dua tahapan klasifikasi adalah :
a. Learning / training : Pembelajaran
menggunakan data training (untuk naïve bayes classifier, nilai probabilitas dihitung dalam proses pembelajaran)
b. Testing : menguji model menggunakan data testing. (bing liu, web data mining)
Gambar 2. Tahapan Klasifikasi 2.5. Naïve Bayes Classifier
Naïve Bayes Classifier (NBC) merupakan algoritma yang sederhana yang bisa digunakan untuk proses klasifikasi dengan menggunakan metode probablistik.
Jika X adalah vektor masukan yang berisi fitur dan Y adalah label kelas, Naive Bayes dituliskan dengan P(X|Y). Notasi tersebut berarti probabilitas label kelas Y didapatkan setelah fitur-fitur X diamati, notasi ini disebut juga Probabilitas akhir (posterior probability) untuk Y, sedang P(Y) disebut probabilitas awal (prior probability).
Selama proses pelatihan harus dilakukan pembelajaran probabilitas akhir P(X|Y) pada model untuk setiap kombinasi X dan Y berdasarkan informasi yang didapat dari data latih. Dengan membangun model tersebut, suatu data uji X dapat diklasifikasikan dengan mencari nilai Y dengan memaksimalkan nilai P(X | Y) yang didapat.
Formulasi Naïve Bayes untuk klasifikasi adalah :
𝑝(𝑤𝑖|𝐶𝑗) = 𝑁𝑁𝑐𝑤𝑐+𝑉+ 1 (1) Dimana :
𝑁𝑐𝑤 : jumlah kata 𝑤𝑖 yang ada dalam
dokumen training yang masuk ke dalam kategori 𝐶𝑗
𝑁𝑐 : jumlah semua kata yang ada dalam dokumen training yang masuk kedalam kategori 𝐶𝑗(tanpa menghiraukan ada kata ang sama atau tidak)
V adalah jumlah total jenis kata yang ada dalam dokumen training (kata yang sama hanya dihitung 1)
Menurut Han (2006), NBC menggunakan algoritma Bayessian untuk menghitung nilai total probabilitas. Prinsip dari NBC adalah probabilitas suatu kata akan masuk ke dalam suatu suatu kategori
(posterior probability), didasarkan pada nilai probabilitas tertinggi yang telah dimiliki sebelumnya
(prior probability),yang dimiliki teks yang bersangkutan untuk suatu ketegori tertentu.
Misalnya kata “processor” pada koleksi data
memiliki probabilitas untuk kategori “komputer”
sebesar 0.9, sedangkan untuk kategori “elektronik”
sebesar 0.3. Sehingga kalau pada proses pengujian
ditemukan kata “processor” maka akan masuk ke
dalam kategori “komputer”.Dengan kata lain, NBC
menggunakan asumsi bahwa kemunculan atau ketidakmunculan dari suatu kata atau fitur tidak terkait dengan kemunculan atau ketidakmunculan fitur yang lain.
3. Metode Penelitian
Pada bagian ini akan diuraikan metode yang digunakan untuk simulasi proses klasifikasi
3.1 Studi Pustaka
Melakukan studi literatur dengan cara mempelajari berbagai referensi dari buku, e-book, jurnal nasional/internasional,dll yang berhubungan dengan penelitian yang akan dilakukan.
3.2 Data
Data yang digunakan untuk simulasi dalam penelitian ini adalah judul tugas akhir mahasiswa sebagai data training dan data testing.
1. Data training : Data yang digunakan sebagai
data training adalah 10 data judul tugas akhir mahasiswa beserta 4 nama dosen pembimbing.
2. Data testing : Untuk data testing
menggunakan 1 judul tugas akhir yang nantinya akan diklasifikasikan ke 4 nama dosen. 3.3 Metode Pengolahan Data
Secara umum proses klasifikasi menggunakan naïve bayes ditunjukkan pada Gambar 3.