Prosiding SENTIA 2015 Politeknik Negeri Malang Volume 7 ISSN:

(1)

C-135

KLASIFIKASI TUGAS AKHIR UNTUK MENENTUKAN DOSEN

PEMBIMBING MENGGUNAKAN NAÏVE BAYES CLASSIFIER (NBC)

Putri Elfa Mas`udia1

Politeknik Negeri Malang

E-mail : [email protected]

Abstrak

Pemilihan dosen pembimbing tugas akhir yang sesuai dengan kompetensi sering menjadi

polemik yang harus dilakukan oleh sang pengambil keputusan (Decision Maker) dalam hal ini adalah

ketua program studi. Dosen pembimbing yang sesuai dan berkompeten akan mampu mengarahkan dan

menentukan keberhasilan tugas akhir mahasiswa yang dibimbing.

Data mining dapat diterapkan untuk mengklasifikasikan judul tugas akhir berdasarkan

keahlian dan pengalaman dosen pembimbing, dengan memasukkan judul tugas akhir beserta nama

dosen pembimbing tahun sebelumnya sebagai data training. Salah satu metode klasifikasi adalah

menggunakan Naïve Bayes Classifier (NBC).

Pada penelitian ini akan disimulasikan proses klasifikasi tugas akhir. input dari sistem ini

adalah data training dan data testing. Data training berupa 10 judul tugas akhir mahasiswa dan 4

nama dosen pembimbing . Sedangkan Data testing berupa judul tugas akhir yang akan diklasifikasikan

ke 4 nama dosen pembimbing. output dari sistem ini adalah rekomendasi nama dosen yang didapatkan

melalui perhitungan probabilistik pada proses klasifikasi menggunakan Naïve Bayes Classifier (NBC).

Learning dilakukan terhadap 10 judul tugas akhir dan 4 dosen pembimbing sebagai data training, hasil probabilitas klasifikasi data testing adalah P(Sarosa) = 0.00797, P(Azam) = 0.000332, P(Anshori) = 0.0099667 dan P(Koesmarijanto) = 0.00049. Dari hasil perhitungan, terlihat bahwa nilai probabilitas P(MA Anshori) lebih besar, maka MA.Anshori direkomendasikan untuk membimbing judul tugas akhir yang digunakan sebagai data

testing

Kata kunci : Naïve Bayes Classifier, data mining, data training, data testing, dosen pembimbing

1. Pendahuluan

Pada bagian pendahuluan disajikan latar belakang dan tujuan penelitian.

1.1. Latar Belakang

Tugas akhir merupakan syarat utama yang harus ditempuh mahasiswa untuk bisa lulus dan mendapatkan gelar. Dalam proses pengerjaan tugas akhir, mahasiswa membutuhkan dosen pembimbing sebagai tempat untuk berkonsultasi. Agar proses pengerjaan tugas akhir berjalan lancar dibutuhkan dosen pembimbing yang kompeten dibidang tersebut. Dosen pembimbing yang sesuai dan berkompeten akan mampu mengarahkan dan menentukan keberhasilan tugas akhir mahasiswa yang dibimbing. Penentuan dosen pembimbing tugas akhir biasanya dilakukan oleh KPS (Ketua Program Studi) dengan mencocokkan antara judul tugas akhir dengan keahlian masing-masing dosen.

Banyak pemodelan yang dapat digunakan untuk pengambilan keputusan salah satunya adalah menggunakan data mining. Menurut McLeod (2007),

Data mining adalah proses menemukan hubungan

dalam data yang tidak diketahui oleh pengguna dan menyajikannya dengan cara yang dapat dipahami sehingga hubungan tersebut dapat menjadi dasar pengambilan keputusan.

Berdasarkan latar belakang tersebut maka pada penelitian ini akan disimulasikan proses klasifikasi judul tugas akhir untuk merekomendasikan dosen pembimbing yang sesuai dengan kompetensi judul tugas akhir.

Pada penelitian ini, akan dilakukan pencarian pola terhadap data histori judul tugas akhir mahasiswa beserta dosen pembimbingnya sebagai

data training, dengan harapan peneliti bisa

mengklasifikasikan judul tugas akhir yang baru sebagai data testing melalui pola tersebut. Judul tugas akhir tersebut akan diklasifikasikan ke dalam 4 dosen. Metode klasifikasi yang dipakai adalah Naive

bayes classifier (NBC), Menurut Kamaruzaman

(2004), NBC telah sering digunakan sebagai metode pengklasifikasi dokumen teks dengan akurasi yang cukup baik. Dan menurut Santosa (2007) ide dasar dari Teorema Bayes adalah menangani masalah yang bersifat hipotesis yakni mendesain suatu klasifikasi untuk memisahkan objek.

1.2. Tujuan Penelitian

Adapun tujuan dari penelitian ini adalah : 1. Mempermudah KPS (Ketua Program Studi)

dalam menentukan dosen pembimbing tugas akhir.

2. Merekomendasikan dosen pembimbing yang keahliannya sesuai dengan topik tugas akhir.

(2)

C-136

2. Kajian Pustaka

Untuk pustaka pendukung, disajikan secara ringkas mengenai hasil penelitian terkait dan tori klasifikasi menggunakan Naïve Bayes Classifier.

2.1. Hasil Penelitian Terkait

Ridwan, dkk (2013) telah melakukan penelitian tentang judul penerapan data mining untuk evaluasi kinerja akademik mahasiswa menggunakan algoritma Naïve Bayes Classifier (NBC). Penelitian ini difokuskan untuk mengevaluasi kinerja akademik mahasiswa pada tahun ke-2 dan diklasifikasikan dalam kategori mahasiswa yang dapat lulus tepat waktu atau tidak. Kemudian dari klasifikasi tersebut, sistem akan memberikan rekomendasi solusi untuk memandu mahasiswa lulus dalam waktu yang paling tepat dengan nilai optimal berdasarkan histori nilai yang telah ditempuh mahasiswa.

Azis (2011) pernah melakukan penelitian dengan judul Implementasi Naïve Bayes Classifier

(NBC) sebagai sistem pendukung keputusan pada Personal Resource Planning berbasis Mobile.

Penelitian ini terfokus pada salah satu modul PRP yaitu budget planning untuk pembelanjaan atau pengeluaran berdasarkan probabilitas. Hasil dari metode NBC akan dijadikan bahan dasar pada saat perhitungan untuk mendapatkan sistem rekomendasi pada modul budget planning. User akan mendapatkan rekomendasi pengeluaran apa yang paling diprioritaskan sesuai dengan hasil perhitungan probabilitas terbesar.

2.2. Text Mining

Menurut Fieldman (2007), Text Mining adalah proses ekstraksi pola (informasi dan pengetahuan yang berguna) dari sejumlah besar sumber data yang tak terstruktur. Penambangan teks memiliki tujuan dan menggunakan proses yang sama dengan penambangan data, namun memiliki masukan yang berbeda. Masukan untuk penambangan teks adalah data yang tidak (atau kurang) terstruktur, seperti dokumen Word, PDf, kutipan teks, dll. Sedangkan untuk masukan penambangan data adalah data yang terstruktur.

2.3. Text Preprocessing

Teks pada umumnya memiliki banyak noise dan struktur kata yang tidak baik. Untuk mengambil ekstraksi fitur pada teks, terlebih dahulu harus dilakukan text preprocessing. Struktur data ynag baik memudahkan proses komputerisasi secara otomatis. Menurut Fieldman (2007), pada Text

Mining, informasi yang akan digali berisi informasi

yang strukturnya sembarang. Oleh karena itu diperlukan proses pengubahan bentuk menjadi data yang terstruktur sesuai kebutuhannya untuk proses dalam data mining, yang biasanya akan menjadi

nilai-nilai numerik. Proses ini sering disebut Text

Preprocessing.

Setelah data menjadi data yang terstruktur, data tersebut dapat diolah lebih lanjut. Beberapa proses yang dilakukan pada text preprosesing adalah case

folding, tokenizing, stop word removal, dan stemming.

Gambar 1. Proses Text Preprocessing

a. Case folding

Menurut Fieldman (2007), case folding adalah mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf ‘a’ sampai dengan ‘Z’ yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter.

b. Tokenizing

Menurut Salton (1989), tokenizing merupakan proses pemisahan suatu rangkaian karakter berdasarkan karakter spasi, dan mungkin pada waktu yang bersamaan dilakukan juga proses penghapusan karakter tertentu, seperti tanda baca. Token seringkali disebut sebagai term (kata), sebagai contoh sebuah token merupakan suatu urutan karakter dari dokumen tertentu yang dikelompokkan sebagai unit semantic yang berguna untuk diproses.

c. Filtering / stop word

Menurut Fieldman (2007), tahap filtering adalah tahap mengambil kata-kata penting dari hasil

tokenizing. Bisa menggunakan algoritma stoplist

(membuang kata yang kurang penting) atau wordlist (menyimpan kata penting). Stoplist / stopword adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam pendekatan

bag-of-words. d. Stemming

Menurut Tala (2003), proses stemming

digunakan untuk mengubah term yang masih melekat dalam term tersebut awalan, sisipan dan akhiran. Proses stemming dilakukan dengan cara menghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan (prefixes), sisipan

(infixes), akhiran (suffixes) dan confixes (kombinasi dari awalan dan akhiran) pada kata turunan.

(3)

C-137

2.4. Klasifikasi

Salah satu tugas utama dari data mining adalah klasifikasi. Klasifikasi digunakan untuk menempatkan bagian yang tidak diketahui pada data ke dalam kelompok yang sudah diketahui. Klasifikasi menggunakan variabel target dengan nilai nominal. Dalam satu set pelatihan, variabel target sudah diketahui. Dengan pembelajaran dapat ditemukan hubungan antara fitur dengan variabel target. Menurut Han (2006), ada dua langkah dalam proses klasifikasi:

a. Pembelajaran (learning) : pelatihan data dianalisis oleh algoritma klasifikasi.

b. Klasifikasi: data yang diujikan digunakan untuk mengkalkulasi akurasi dari aturan klasifikasi. Jika akurasi dianggap dapat diterima, aturan dapat diterapkan pada klasifikasi data tuple yang baru.

Dua tahapan klasifikasi adalah :

a. Learning / training : Pembelajaran menggunakan data training (untuk naïve bayes classifier, nilai probabilitas dihitung dalam proses pembelajaran)

b. Testing : menguji model menggunakan data

testing. (bing liu, web data mining)

Gambar 2. Tahapan Klasifikasi

2.5. Naïve Bayes Classifier

Naïve Bayes Classifier (NBC) merupakan

algoritma yang sederhana yang bisa digunakan untuk proses klasifikasi dengan menggunakan metode probablistik.

Jika X adalah vektor masukan yang berisi fitur dan Y adalah label kelas, Naive Bayes dituliskan dengan P(X|Y). Notasi tersebut berarti probabilitas label kelas Y didapatkan setelah fitur-fitur X diamati, notasi ini disebut juga Probabilitas akhir (posterior

probability) untuk Y, sedang P(Y) disebut

probabilitas awal (prior probability).

Selama proses pelatihan harus dilakukan pembelajaran probabilitas akhir P(X|Y) pada model untuk setiap kombinasi X dan Y berdasarkan informasi yang didapat dari data latih. Dengan membangun model tersebut, suatu data uji X dapat diklasifikasikan dengan mencari nilai Y dengan memaksimalkan nilai P(X | Y) yang didapat.

Formulasi Naïve Bayes untuk klasifikasi adalah :

𝑝(𝑤𝑖|𝐶𝑗) = 𝑁_𝑁𝑐𝑤+ 1

𝑐+𝑉 (1)

Dimana :

 𝑁𝑐𝑤 : jumlah kata 𝑤𝑖 yang ada dalam

dokumen training yang masuk ke dalam kategori 𝐶𝑗

 𝑁𝑐 : jumlah semua kata yang ada dalam

dokumen training yang masuk kedalam kategori 𝐶𝑗(tanpa menghiraukan ada kata

ang sama atau tidak)

 V adalah jumlah total jenis kata yang ada dalam dokumen training (kata yang sama hanya dihitung 1)

Menurut Han (2006), NBC menggunakan algoritma Bayessian untuk menghitung nilai total probabilitas. Prinsip dari NBC adalah probabilitas suatu kata akan masuk ke dalam suatu suatu kategori

(posterior probability), didasarkan pada nilai

probabilitas tertinggi yang telah dimiliki sebelumnya

(prior probability),yang dimiliki teks yang bersangkutan untuk suatu ketegori tertentu. Misalnya kata “processor” pada koleksi data memiliki probabilitas untuk kategori “komputer” sebesar 0.9, sedangkan untuk kategori “elektronik” sebesar 0.3. Sehingga kalau pada proses pengujian ditemukan kata “processor” maka akan masuk ke dalam kategori “komputer”.Dengan kata lain, NBC menggunakan asumsi bahwa kemunculan atau ketidakmunculan dari suatu kata atau fitur tidak terkait dengan kemunculan atau ketidakmunculan fitur yang lain.

3. Metode Penelitian

Pada bagian ini akan diuraikan metode yang digunakan untuk simulasi proses klasifikasi

3.1 Studi Pustaka

Melakukan studi literatur dengan cara mempelajari berbagai referensi dari buku, e-book, jurnal nasional/internasional,dll yang berhubungan dengan penelitian yang akan dilakukan.

3.2 Data

Data yang digunakan untuk simulasi dalam penelitian ini adalah judul tugas akhir mahasiswa sebagai data training dan data testing.

1. Data training : Data yang digunakan sebagai

data training adalah 10 data judul tugas akhir

mahasiswa beserta 4 nama dosen pembimbing. 2. Data testing : Untuk data testing

menggunakan 1 judul tugas akhir yang nantinya akan diklasifikasikan ke 4 nama dosen.

3.3 Metode Pengolahan Data

Secara umum proses klasifikasi menggunakan naïve bayes ditunjukkan pada Gambar 3.

(4)

C-138

Gambar 3. Proses Umum Klasifikasi Naïve

Bayes

Data training disini berupa 10 judul tugas

akhir yang telah diklasifikasikan pada 4 dosen pembimbing. Sebelum dilakukan proses klasifikasi, data ini harus melalui proses text preprocessing, tujuannya untuk menghilangkan noise, struktur kata yang tidak baik, dan untuk mempermudah proses klasifikasi menggunakan naive bayes.

Data testing berupa judul tugas akhir yang

nantinya akan diklasifikasikan ke 4 nama dosen sebagai rekomendasi dosen pembimbing. Data ini juga melalui text preprocessing sebelum akhirnya dihitung probabilitasnya menggunakan naive bayes

classifier. Adapun data training dalam penelitian ini

ditunjukkan dalam Tabel 1.

Tabel 1 Data training

Sedangkan data testing ditunjukkan dalam Tabel 2.

Tabel 2 Data testing

3.3.1 Text Preprocessing

Baik data training maupun data testing akan melalui text preprocessing sebelum diolah lebih lanjut menggunakan naive bayes classifier (NBC). Proses text preprocessing ditunjukkan dalam Gambar 4, 5, 6, dan 7.

Gambar 4. Proses Case Folding

Gambar 5 Proses Tokenisasi

(5)

C-139

Gambar 7. Proses Stemming

4. Hasil dan Pembahasan

Sebelum data dihitung probabilitasnya dengan NBC, data harus melalui text preprocessing supaya lebih mudah dalam perhitungan. Hasil teks preprocessing ditunjukkan dalam Tabel 3 dan Tabel 4.

Tabel 3. Hasil Text Preprocessing untuk Data Training

Tabel 4. Hasil Text Preprocessing untuk Data Testing

4.1 Pengujian Data Testing

Dari dataset tersebut akan diklasifikasikan menjadi 4 buah kelas klasifikasi yaitu:

Kategori 1 (

𝐶

₁) : M.Sarosa Kategori 2 (

𝐶

₂) : Azam Muzakim Kategori 3 (

𝐶

₃) : MA Anshori Kategori 4 (

𝐶

₄) : Koesmarijanto

Dengan mengacu dari Gambar 10 nilai (𝐶1) = 3/10 ,

𝑝(𝐶2) = 2/10 , 𝑝(𝐶3) = 2/10 , 𝑝(𝐶4) = 3/10 dan probabilitas masing-masing kata (image, process,

deteksi, kecepatan, kendaraan, basis, android)

adalah:

Perhitungan Probabilitas P(Sarosa)

𝑝(𝑖𝑚𝑎𝑔𝑒 | 𝐶1) = 0 + 1 23 + 63= 1 86 𝑝(𝑝𝑟𝑜𝑐𝑒𝑠𝑠 | 𝐶1) =_{23 + 63}0 + 1 =₈₆1 𝑝(𝑑𝑒𝑡𝑒𝑘𝑠𝑖 | 𝐶1) = 0 + 1 23 + 63= 1 86 𝑝(𝑘𝑒𝑐𝑒𝑝𝑎𝑡𝑎𝑛 | 𝐶1) = 0 + 1 23 + 63= 1 86 𝑝(𝑘𝑒𝑛𝑑𝑎𝑟𝑎𝑎𝑛 | 𝐶1) =_{23 + 86}0 + 1 =₈₆1 𝑝(𝑏𝑎𝑠𝑖𝑠 | 𝐶1) =_{23 + 86}3 + 1 =₈₆4 𝑝(𝑎𝑛𝑑𝑟𝑜𝑖𝑑 | 𝐶1) = 3 + 1 23 + 86= 4 86 𝑝( 𝐶 1 | 𝑑11) = 𝑝(𝐶1). 𝑝(𝑖𝑚𝑎𝑔𝑒 | 𝐶1). 𝑝(𝑝𝑟𝑜𝑐𝑒𝑠𝑠| 𝐶1). 𝑝(𝑑𝑒𝑡𝑒𝑘𝑠𝑖| 𝐶1). 𝑝(𝑘𝑒𝑐𝑒𝑝𝑎𝑡𝑎𝑎𝑛| 𝐶1). 𝑝(𝑘𝑒𝑛𝑑𝑎𝑟𝑎𝑎𝑛| 𝐶1). 𝑝(𝑏𝑎𝑠𝑖𝑠| 𝐶1). 𝑝(𝑎𝑛𝑑𝑟𝑜𝑖𝑑| 𝐶1) 𝑝( 𝐶 1 | 𝑑11 ) = 3 10. 1 86. 1 86. 1 86 1 86. 1 86. 4 86 4 86= 48 6020 = 𝟎. 𝟎𝟎𝟕𝟗𝟕

Probabilitas masing-masing dosen dihitung berdasarkan rumus 1. Hasil dari perhitungan probabilitas tiap kata pada tiap dosen ditunjukkan pada Tabel 5.

Tabel 5. Hasil Probabilitas Tiap Kata Pada Tiap Dosen

Dari probabilitas tiap kata yang didapat pada Gambar 11, akan dilakukan perhitungan total tiap data testing dengan masing-masing dosen P (Cn | dn) dimana Cn adalah kategori dosen dan dn adalah data testing. Hasil perhitungan probabilitas P (Cn | dn) ditunjukkan dalam Tabel 6.

Tabel 6. Hasil Probabilitas Tiap Dosen pada Data Testing.

Dari hasil perhitungan, terlihat bahwa nilai probabilitas P(MA Anshori) atau 𝑝( 𝐶3| 𝑑511 ) lebih

besar, sehingga dokumen testing atau dokumen 𝑑11

masuk ke dalam klasifikasi 𝐶 3. Dengan kata lain

judul tugas akhir “Image Processing untuk

(6)

C-140

android” masuk dalam klasifikasi dosen pembiming MA. Anshori.

4. Kesimpulan

Metode klasifikasi Naïve Bayes Classifier (NBC) dapat digunakan untuk mengklasifikasikan judul tugas akhir ke sejumlah nama dosen pembimbing.

Learning dilakukan terhadap 10 judul tugas akhir dan 4 dosen pembimbing sebagai data training, hasil probabilitas klasifikasi data testing adalah P(Sarosa) = 0.00797, P(Azam) = 0.000332, P(Anshori) = 0.0099667 dan P(Koesmarijanto) = 0.00049. Dari hasil perhitungan, terlihat bahwa nilai probabilitas P(MA Anshori) lebih besar, maka MA.Anshori direkomendasikan untuk membimbing judul tugas akhir yang digunakan sebagai data

testing.

5. Saran

Terdapat banyak metode untuk klasifikasi,

diharapkan untuk para pengembang dapat

menggunakan metode tersebut untuk objek

yang sama dan membandingkan metode

klasifikasi mana yang paling baik dalam kasus

klasifikasi tugas akhir untuk menentukan dosen

pembimbing.

6. Daftar Pustaka

Azis, Gilang Abdul. (2011). Implementasi Naïve

Bayes Classifier Sebagai System Pendukung Keputusan Pada Personal Resource Planning Berbasis Mobile. Jurnal Ilmu Komputer

Feldman, Ronen, and James Sanger. (2007). The

Text Mining Handbook Advanced Approaches in Analyzing Unstrustured Data. Cambridge;

New York : Cambridge University Press. Kamaruzzaman,S.M.Chowdhury Mofizur Rahman.

(2004). Text Categorization using Association

Rule and Naive Bayes Classifier. Asian Journal

of Information Technology, Vol. 3, No. 9, pp 657-665, Sep. 2004

McLeod, Jr.R. dan G.P. Schell. (2007). Management

Information System. 10th ed. Pearson Education, Inc. Ali Akbar Yulianto dan Afia R. Fitriati (penterjemah). 2008. Sistem Informasi Manajemen. Edisi 10. Nina Setyaningsih (editor). Salemba Empat. Jakarta.

Ridwan, Mujib. dkk (2013). Penerapan Data Mining

untuk Evaluasi Kinerja Akademik Mahasiswa Menggunakan Algoritma Naive bayes classifier (NBC). Jurnal EECCIS Vol.7 No.1, PP 59-64

Juni 2013.

Santosa, B. (2007). Data Mining: Teknik

Pemanfaatan Data untuk Keperluan Bisnis.

Graha Ilmu. Yogyakarta.

Salton, G, (1989). Automatic Text Processing :The

Transformation, Analysis, and Retrieval of Information by Computer, Addison-Wesley,

Boston, MA, USA

Tala, F. Z. (2003). A Study of Stemming Effect on

Information Retrieval in Bahasa Indonesia,

M.S. Thesis.