C-136 2.Kajian Pustaka - RANCANG BANGUN SISTEM INFORMASI MONITORI

Untuk pustaka pendukung, disajikan secara ringkas mengenai hasil penelitian terkait dan tori klasifikasi menggunakan Naïve Bayes Classifier. 2.1. Hasil Penelitian Terkait

Ridwan, dkk (2013) telah melakukan penelitian tentang judul penerapan data mining untuk evaluasi kinerja akademik mahasiswa menggunakan algoritma Naïve Bayes Classifier (NBC). Penelitian ini difokuskan untuk mengevaluasi kinerja akademik mahasiswa pada tahun ke-2 dan diklasifikasikan dalam kategori mahasiswa yang dapat lulus tepat waktu atau tidak. Kemudian dari klasifikasi tersebut, sistem akan memberikan rekomendasi solusi untuk memandu mahasiswa lulus dalam waktu yang paling tepat dengan nilai optimal berdasarkan histori nilai yang telah ditempuh mahasiswa.

Azis (2011) pernah melakukan penelitian dengan judul Implementasi Naïve Bayes Classifier (NBC) sebagai sistem pendukung keputusan pada

Personal Resource Planning berbasis Mobile. Penelitian ini terfokus pada salah satu modul PRP yaitu budget planning untuk pembelanjaan atau pengeluaran berdasarkan probabilitas. Hasil dari metode NBC akan dijadikan bahan dasar pada saat perhitungan untuk mendapatkan sistem rekomendasi pada modul budget planning. User akan mendapatkan rekomendasi pengeluaran apa yang paling diprioritaskan sesuai dengan hasil perhitungan probabilitas terbesar.

2.2. Text Mining

Menurut Fieldman (2007), Text Mining adalah proses ekstraksi pola (informasi dan pengetahuan yang berguna) dari sejumlah besar sumber data yang tak terstruktur. Penambangan teks memiliki tujuan dan menggunakan proses yang sama dengan penambangan data, namun memiliki masukan yang berbeda. Masukan untuk penambangan teks adalah data yang tidak (atau kurang) terstruktur, seperti dokumen Word, PDf, kutipan teks, dll. Sedangkan untuk masukan penambangan data adalah data yang terstruktur.

2.3. Text Preprocessing

Teks pada umumnya memiliki banyak noise dan struktur kata yang tidak baik. Untuk mengambil ekstraksi fitur pada teks, terlebih dahulu harus dilakukan text preprocessing. Struktur data ynag baik memudahkan proses komputerisasi secara otomatis. Menurut Fieldman (2007), pada Text Mining, informasi yang akan digali berisi informasi yang strukturnya sembarang. Oleh karena itu diperlukan proses pengubahan bentuk menjadi data yang terstruktur sesuai kebutuhannya untuk proses dalam data mining, yang biasanya akan menjadi

nilai-nilai numerik. Proses ini sering disebut Text Preprocessing.

Setelah data menjadi data yang terstruktur, data tersebut dapat diolah lebih lanjut. Beberapa proses yang dilakukan pada text preprosesing adalah case folding, tokenizing, stop word removal, dan

stemming.

Gambar 1. Proses Text Preprocessing

a. Case folding

Menurut Fieldman (2007), case folding adalah mengubah semua huruf dalam dokumen menjadi

huruf kecil. Hanya huruf ‘a’ sampai dengan ‘Z’

yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter.

b. Tokenizing

Menurut Salton (1989), tokenizing merupakan proses pemisahan suatu rangkaian karakter berdasarkan karakter spasi, dan mungkin pada waktu yang bersamaan dilakukan juga proses penghapusan karakter tertentu, seperti tanda baca. Token seringkali disebut sebagai term (kata), sebagai contoh sebuah token merupakan suatu urutan karakter dari dokumen tertentu yang dikelompokkan sebagai unit semantic yang berguna untuk diproses.

c. Filtering / stop word

Menurut Fieldman (2007), tahap filtering adalah tahap mengambil kata-kata penting dari hasil

tokenizing. Bisa menggunakan algoritma stoplist (membuang kata yang kurang penting) atau wordlist (menyimpan kata penting). Stoplist / stopword adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of- words.

d. Stemming

Menurut Tala (2003), proses stemming

digunakan untuk mengubah term yang masih melekat dalam term tersebut awalan, sisipan dan akhiran. Proses stemming dilakukan dengan cara menghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan (prefixes), sisipan

(infixes), akhiran (suffixes) dan confixes (kombinasi dari awalan dan akhiran) pada kata turunan.

C-137

2.4. Klasifikasi

Salah satu tugas utama dari data mining adalah klasifikasi. Klasifikasi digunakan untuk menempatkan bagian yang tidak diketahui pada data ke dalam kelompok yang sudah diketahui. Klasifikasi menggunakan variabel target dengan nilai nominal. Dalam satu set pelatihan, variabel target sudah diketahui. Dengan pembelajaran dapat ditemukan hubungan antara fitur dengan variabel target. Menurut Han (2006), ada dua langkah dalam proses klasifikasi:

a. Pembelajaran (learning) : pelatihan data dianalisis oleh algoritma klasifikasi.

b. Klasifikasi: data yang diujikan digunakan untuk mengkalkulasi akurasi dari aturan klasifikasi. Jika akurasi dianggap dapat diterima, aturan dapat diterapkan pada klasifikasi data tuple yang baru.

Dua tahapan klasifikasi adalah :

a. Learning / training : Pembelajaran

menggunakan data training (untuk naïve bayes classifier, nilai probabilitas dihitung dalam proses pembelajaran)

b. Testing : menguji model menggunakan data testing. (bing liu, web data mining)

Gambar 2. Tahapan Klasifikasi 2.5. Naïve Bayes Classifier

Naïve Bayes Classifier (NBC) merupakan algoritma yang sederhana yang bisa digunakan untuk proses klasifikasi dengan menggunakan metode probablistik.

Jika X adalah vektor masukan yang berisi fitur dan Y adalah label kelas, Naive Bayes dituliskan dengan P(X|Y). Notasi tersebut berarti probabilitas label kelas Y didapatkan setelah fitur-fitur X diamati, notasi ini disebut juga Probabilitas akhir (posterior probability) untuk Y, sedang P(Y) disebut probabilitas awal (prior probability).

Selama proses pelatihan harus dilakukan pembelajaran probabilitas akhir P(X|Y) pada model untuk setiap kombinasi X dan Y berdasarkan informasi yang didapat dari data latih. Dengan membangun model tersebut, suatu data uji X dapat diklasifikasikan dengan mencari nilai Y dengan memaksimalkan nilai P(X | Y) yang didapat.

Formulasi Naïve Bayes untuk klasifikasi adalah :

𝑝(𝑤𝑖|𝐶𝑗) = 𝑁_𝑁𝑐𝑤_𝑐_+𝑉+ 1 (1) Dimana :

 _𝑁_𝑐𝑤 : jumlah kata 𝑤_𝑖 yang ada dalam

dokumen training yang masuk ke dalam kategori 𝐶_𝑗

 _𝑁_𝑐 : jumlah semua kata yang ada dalam dokumen training yang masuk kedalam kategori 𝐶_𝑗(tanpa menghiraukan ada kata ang sama atau tidak)

 V adalah jumlah total jenis kata yang ada dalam dokumen training (kata yang sama hanya dihitung 1)

Menurut Han (2006), NBC menggunakan algoritma Bayessian untuk menghitung nilai total probabilitas. Prinsip dari NBC adalah probabilitas suatu kata akan masuk ke dalam suatu suatu kategori

(posterior probability), didasarkan pada nilai probabilitas tertinggi yang telah dimiliki sebelumnya

(prior probability),yang dimiliki teks yang bersangkutan untuk suatu ketegori tertentu.

Misalnya kata “processor” pada koleksi data

memiliki probabilitas untuk kategori “komputer”

sebesar 0.9, sedangkan untuk kategori “elektronik”

sebesar 0.3. Sehingga kalau pada proses pengujian

ditemukan kata “processor” maka akan masuk ke

dalam kategori “komputer”.Dengan kata lain, NBC

menggunakan asumsi bahwa kemunculan atau ketidakmunculan dari suatu kata atau fitur tidak terkait dengan kemunculan atau ketidakmunculan fitur yang lain.

3. Metode Penelitian

Pada bagian ini akan diuraikan metode yang digunakan untuk simulasi proses klasifikasi

3.1 Studi Pustaka

Melakukan studi literatur dengan cara mempelajari berbagai referensi dari buku, e-book, jurnal nasional/internasional,dll yang berhubungan dengan penelitian yang akan dilakukan.

3.2 Data

Data yang digunakan untuk simulasi dalam penelitian ini adalah judul tugas akhir mahasiswa sebagai data training dan data testing.

1. Data training : Data yang digunakan sebagai

data training adalah 10 data judul tugas akhir mahasiswa beserta 4 nama dosen pembimbing.

2. Data testing : Untuk data testing

menggunakan 1 judul tugas akhir yang nantinya akan diklasifikasikan ke 4 nama dosen. 3.3 Metode Pengolahan Data

Secara umum proses klasifikasi menggunakan naïve bayes ditunjukkan pada Gambar 3.

C-138

Dalam dokumen RANCANG BANGUN SISTEM INFORMASI MONITORI (Halaman 136-138)