• Tidak ada hasil yang ditemukan

KLASIFIKASI BAHAN PUSTAKA BERDASARKAN DEWEY DECIMAL CLASSIFICATION DENGAN MENGGUNAKAN METODE NAÏVE BAYES CLASSIFIER

N/A
N/A
Protected

Academic year: 2021

Membagikan "KLASIFIKASI BAHAN PUSTAKA BERDASARKAN DEWEY DECIMAL CLASSIFICATION DENGAN MENGGUNAKAN METODE NAÏVE BAYES CLASSIFIER"

Copied!
6
0
0

Teks penuh

(1)

1

Abstract - Classification of literature is systematic arrangement of books, another literature and catalog or index entry from subject as a way for them easier to reading and looking information. The research will discuss about classification of automatic drive call number which is classify the library materials by Dewey Decimal Classification (DDC) with Naive Bayes Classifier method. In this research also apply the text mining method as a way for making the first subject of a literature. By using 7512 trained data and 80 tested data. The result are 69 true classified tested data and 11 left is not correct. The result is 86.25 % accuracy of the real compatible class from Naive Bayes Classifier class prediction.

Key words: Classification of literature, Dewey Decimal Classification (DDC), Naive Bayes Classifier, and text mining

I. PENDAHULUAN1

Bagi seorang pustakawan, hal yang wajib dilakukan ketika menerima sebuah bahan pustaka atau buku baru adalah menentukan nomor klasifikasi atau nomor panggil buku tersebut. Karena tidak semua buku dilengkapi dengan Katalog Dalam Terbitan (KDT). Namun buku-buku dari Penerbit Balai Pustaka biasanya sudah dilengkapi dengan nomor klasifikasi, sehingga hal ini memudahkan pustakawan dalam mengolah buku. Akan tetapi jika ternyata sebuah buku tidak dilengkapi dengan KDT, maka tugas pustakawan adalah menentukan nomor klasifikasi atau nomor panggil buku tersebut.

Dalam bidang perpustakaan pengertian klasifikasi adalah penyusunan sistematis terhadap buku dan bahan pustaka lain, atau katalog, atau entri indeks berdasarkan subyek, sebagai cara yang berguna bagi mereka yang membaca atau mencari informasi [1]. Dari pengertian ini klasifikasi mempunyai fungsi yaitu: sebagai tata penyusunan buku di jajaran rak, serta sebagai sarana penyusunan entri bibliografis pada katalog, dan indeks dalam tata susunan yang sistematis. Salah satu cara menentukan klasifikasi bahan pustaka adalah dengan menggunakan sistem klasifikasi Dewey Decimal Classification (DDC).

Dewey Decimal Classification (DDC) yang juga biasa disebut dengan Sistem Desimal Dewey merupakan sebuah sistem yang diciptakan oleh Melvil Dewey pada tahun 1876, dan sejak itu telah banyak dimodifikasi dan dikembangkan hingga saat ini versi terakhir DDC adalah DDC 23. DDC termasuk ke dalam sistem klasifikasi hierarki. DDC dituliskan dengan tiga digit angka, angka pertama menunjukkan kelas utama, angka kedua menunjukkan kelas

divisi, dan angka ketiga menunjukkan kelas section. Kelas utama adalah kelas seperti 100, 200, sampai 900. Kelas divisi adalah kelas seperti 110, 120, 130, sampai 190 (angka persepuluhan), dan kelas section adalah kelas dengan angka antara 111-119. Klasifikasi dokumen menggunakan sistem DDC memerlukan penentuan subjek fokus disiplin dokumen, atau jika diperlukan pendekatan dari bentuk dokumen. Setiap dokumen perpustakaan yang diolah menggunakan sistem DDC akan dimasukkan ke dalam satu dari kelas yang ada pada sistem DDC [2].

Akan tetapi karena terlalu banyak angka klasifikasi yang terdapat dalam sistem DDC berdampak pada sulitnya seorang pustakawan dalam menentukan nomor klasifikasi bahan pustaka dikarenakan kemampuan mengingat seorang pustakawan yang terbatas dan mustahil mengingat semua angka klasifikasi yang ada. Dari hasil observasi penulis terhadap objek penelitian yang dalam hal ini adalah perpustakaan Akademi Farmasi Nusaputera didapatkan hasil bahwa selama ini dalam menentukan angka klasifikasi masih menggunakan cara manual yaitu pertama pustakawan menentukan subyek terdekat bahan pustaka. Kemudian mencari klasifikasi yang tepat berdasarkan subyek yang sudah ditentukan sebelumnya secara manual dan menentukan angka klasifikasi berdasarkan buku panduan DDC. Tentu saja hal ini akan membuat kerja dari pustakawan menjadi lebih lama, kurang efektif dan efisien karena harus bekerja dua kali, yaitu menentukan angka klasifikasi bahan pustaka dan menginputkan angka klasifikasi ke dalam sistem yang ada. Ditambah lagi pengetahuan yang minim dari pustakawan tentang semua ilmu pengetahuan yang ada di dalam bahan pustaka menyebabkan klasifikasi dengan sistem manual ini menjadi lebih sulit.

KLASIFIKASI BAHAN PUSTAKA BERDASARKAN DEWEY DECIMAL

CLASSIFICATION DENGAN MENGGUNAKAN METODE NAÏVE BAYES

CLASSIFIER PADA PERPUSTAKAAN AKADEMI FARMASI

NUSAPUTERA SEMARANG

(2)

metode data mining yang dapat diterapkan untuk mengatasi masalah tersebut. Algoritma-algoritma dalam text mining dibuat untuk dapat mengenali data yang sifatnya semi terstruktur misalnya sinopsis, abstrak, maupun isi dari dokumen-dokumen [3]. Oleh karena itu pada penelitian kali ini akan dikembangkan sebuah solusi baru untuk mengklasifikasikan bahan pustaka berdasarkan DDC secara otomatis menggunakan teknik text mining.

Text mining, mengacu pada proses mengambil informasi berkualitas tinggi dari teks. Informasi berkualitas tinggi biasanya diperoleh melalui peramalan pola dan kecenderungan melalui sarana seperti pembelajaran pola statistik. Proses text mining yang khas meliputi kategorisasi teks, text clustering, ekstraksi konsep/entitas, produksi taksonomi granular, sentiment analysis, penyimpulan dokumen, dan pemodelan relasi entitas (yaitu, pembelajaran hubungan antara entitas bernama).

Beberapa metode yang sering digunakan untuk proses klasifikasi pada text mining adalah Support Vector Machine (SVM), Naïve Bayes Classifier (NBC), C45, K-Nearest Neighbor, K-Means dan algoritma genetika [4]. Pada hasil eksperimen [5] untuk kategorisasi teks berbahasa Indonesia didapatkan bahwa SVM menunjukkan performasi yang sedikit lebih baik dengan akurasi 92,5% dibandingkan metode NBC dengan akurasi 90% padahal metode NBC adalah metode yang jauh lebih koonvensional dan lebih sederhana. Sedangkan untuk metode K-Nearest Neighbor didapatkan hasil akurasi 29,17%, dan 77,5% untuk metode C45. Oleh karena itu pada penelitian kali ini dipilih metode Naïve Bayes Classifier (NBC) dengan alasan lebih sederhana tetapi memiliki tingkat akurasi yang tingi dan tingginya kecepatan dalam proses pelatihan dan klasifikasi [6].

II. METODEYANGDIUSULKAN A. Tinjauan Studi

Fatimah Wulandini dan Anto Satriyo Nugroho dalam (Text Classification Using Support Vector Machine for Webmining Based Spation Temporal Analysis of the Spread of Tropical Diseases, 2009) melakukan penelitian untuk mengkategorikan teks berbahasa Indonesia ke dalam suatu kelas-kelas tertentu dengan menggunakan 360 instances. Data tersebut dibagi menjadi 120 instances sebagai data uji dan 240 instances sebagai data latih serta didapatkan hasil seperti ditunjukan tabel 1:

Table 1. Hasil Eksperimen Fatimah Wulandini dan Anto Satriyo Nugroho

Metode Akurasi

SVM 92,5%

K-Nearest Neighbor 29,17% Naïve Bayes Classifier 90%

C45 77,5%

Tebel 1 menunjukkan performasi yang tidak berbeda jauh antara metode SVM dan NBC walaupun metode NBC adalah

Ni Wayan Sumartini Saraswati dalam (Text Mining dengan Metode Naïve Bayes Classifier dan Support Vector Machines untuk Sentiment Analysis, 2011) melakukan penelitian untuk mengklasifikasikan sebuah opini yang diberikan oleh user ke dalam kelas opini positif ataukah opini negatif. Eksperimen ini dilakukan dengan menggunakan data review film dalam teks berbahasa inggris yang diambil dari http://www.cs.cornell.edu/people/pabo/movie-review-data/ dan rubrik Bali Terkini yang dimuat di harian Bali Post dari bulan Januari 2010 sampai

Februari 2011 untuk opini berbahasa Indonesia. Dari hasil penelitian tersebut didapatkan hasil bahwa Metode NBC memberikan hasil dengan akurasi hingga 80,18% untuk data uji opini positif berbahasa Inggris, dan memberikan hasil dengan akurasi hingga 83,86% untuk data uji opini negatif berbahasa Inggris. Untuk data berbahasa Indonesia metode NBC memberikan hasil dengan akurasi hingga 74,29% pada data uji opini positif dan hingga 87,14% pada data uji opini negatif.

Ni Made Ari Lestari, I Ketut Gede Darma Putra, dan AA Ketut Agung Cahyawan dalam (Personality Types Classification for Indonesian Text in Partners Searching Website Using Naïve Bayes Methods, 2013) melakukan penelitian untuk mengklasifikasikan sifat seseorang dari detail data diri yang diberikan. Eksperimen ini menggunakan 160 data latih dan 40 data uji. Dari penelitian tersebut didapatkan hasil bahwa metode NBC dapat mengklasifikasikan sifat seseorang dari detail data diri yang diberikan dengan tingkat akurasi yang cukup tinggi, yaitu mencapai 92,5%.

Aida Indriani dalam (Klasifikasi Data Forum dengan menggunakan Metode Naïve Bayes Classifier, 2014) melakukan penelitian untuk mengklasifikasikan data forum diskusi sekitar mata kuliah maupun tugas akhir atau skripsi. Penenelitian ini menggunakan total 21 data, 6 diantaranya digunakan sebagai data latih dan 15 lainnya digunakan sebagai data uji. Dari 15 data uji yang diteliti diperoleh akurasi kecocokan kelas sebenarnya terhadap kelas prediksi dengan NBC sebesar 73%.

Dalam skripsi Mila Della Rahma Nasution seorang mahasiswa Institut Pertanian Bogor dalam (Penentuan Nomor Panggil Otomatis Berbasis DDC pada Dokumen Perpustakaan menggunakan Naïve Bayes) melakukan penelitian untuk mengklasifikasikan tesis dan desertasi berdasarkan disiplin ilmu dengan mengacu pada aturan Dewey Decimal Classification (DDC). Dari 114 dokumen latih dan 76 dokumen uji didapatkan hasil bahwa akurasi dalam penerapan metode klasifikasi Naïve Bayes dalam penentuan nomor panggil otomatis berbasis DDC dengan penggunaan stemming sebesar 45.26% dan akurasi yang dihasilkan tanpa penggunaan stemming sebesar 44.21%. Sedangkan dalam penempatan kelas utama DDC, akurasi sistem klasifikasi Naïve Bayes dengan penggunaan stemming menghasilkan akurasi sebesar 81% dan tanpa penggunaan stemming sebesar 55%.

(3)

3

B. Text Mining

Text mining adalah satu langkah dari analisis teks yang dilakukan secara otomatis oleh komputer untuk menggali informasi yang berkualitas dari suatu rangkaian teks yang terangkum dalam sebuah dokumen. Prosedur utama dalam metode ini terkait dengan menemukan kata-kata yang dapat mewakili isi dari dokumen untuk selanjutnya dilakukan analisis keterhubungan antar dokumen dengan menggunakan metode statistik tertentu seperti analisis kelompok, klasifikasi dan asosiasi. Tahapan dalam text mining secara umum adalah tokenizing, filtering, stemming, tagging, dan analyzing [10].

Tokenizing merupakan tahapan untuk memisah deretan kata didalam kalimat, paragraf atau menjadi token atau potongan kata tunggal atau termed word. Tahapan ini juga menghilangkan karakter-karakter tertentu seperti tanda baca dan merubah semua token ke bentuk huruf kecil (lower case). Filtering merupakan proses seleksi terhadap kata-kata yang dihasilkan dari proses tokenizing atau biasa disebut dengan proses penghapusan stop words. Stop words disefinisikan sebagai term yang tidak berhubungan (irrelevant) dengan subyek utama dari database meskipun kata tersebut sering hadir di dalam dokumen [4]. Proses filtering dapat dilakukan dengan algoritma stop list maupun word list. Algoritma stop list akan membuang kata-kata yang tidak penting seperti kata ganti, kata keterangan, kata sambung, kata depan dan kata sandang. Sebaliknya, algoritma word list akan menyimpan kata-kata yang penting. Proses stemming kemudian dilakukan untuk mencari kata dasar dari setiap kata yang telah lolos proses filtering.

Kata-kata yang muncul di dalam dokumen sering mempunyai banyak varian morfologik. Karena itu, setiap kata yang bukan stop words harus direduksi ke dalam stemmed word (term) yang cocok, dengan cara menghilangkan awalan atau akhiran dari sebuah kata sehingga hanya didapat bentuk akarnya. Proses ini biasa disebut dengan stemming.

C. Naïve Bayes Classifier

Naïve Bayes Classifier (NBC) adalah metode klasifikasi yang berdasarkan probabilitas dan Teorema Bayesian dengan asumsi bahwa setiap variable X bersifat bebas (independence). Dengan kata lain, NBC mengansumsikan bahwa keberadaan sebuah atribut (variable) tidak ada kaitannya dengan keberadaan atribut (variable) yang lain.

Metode NBC menempuh dua tahap dalam proses klasifikasi teks, yaitu tahap pelatihan dan tahap klasifikasi. Pada tahap pelatihan dilakukan proses analisis terhadap sampel dokumen berupa pemilihan vocabulary, yaitu kata yang mungkin muncul dalam koleksi dokumen sampel yang sedapat mungkin dapat menjadi representasi dokumen. Selanjutnya adalah penentuan probabilitas prior bagi tiap kategori berdasarkan sampel dokumen. Pada tahap klasifikasi ditentukan nilai kategori dari suatu dokumen berdasarkan term yang muncul dalam dokumen yang diklasifikasikan. Perhitungan perbandingan antara term pada data uji dengan setiap kelas yang ada dapat dihitung dengan

menggunakan persamaan (2). 𝑝 = 𝐽𝑢𝑚𝑙𝑎ℎ 𝑘𝑒𝑙𝑎𝑠 𝑎𝑖 𝐽𝑢𝑚𝑙𝑎ℎ 𝑘𝑒𝑙𝑎𝑠 𝑑𝑎𝑡𝑎 𝑙𝑎𝑡𝑖ℎ (1) 𝑃(𝑎𝑖|𝑣𝑗) =𝑛𝑐+ 𝑚 . 𝑝 𝑛 + 𝑚 (2) Dimana :

n = jumlah term pada data latih v = 𝑣𝑗 𝑛𝑐 = jumlah term dimana v = 𝑣𝑗 dan 𝑎𝑖 p = probabilitas setiap kelas dalam data latih m = jumlah term pada data uji

Sedangkan untuk menentukan klasifikasi pada data uji, ditentukan dengan cara mencari nilai maksimal (argument of the maximum) dari hasil perkalian P(𝑣𝑗) dan semua himpunan P(𝑎𝑖│𝑣𝑗) untuk setiap 𝑣𝑗 anggota dari v.

𝑉𝑛𝑏 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑣𝑗∈𝑣𝑃(𝑣𝑗) ∏ 𝑃(𝑎𝑖|𝑣𝑗) (3)

D. Confussion Matrix

Confusion matrix adalah sebuah table yang menyatakan jumlah data uji yang benar diklasifikasikan dan jumlah data uji yang salah diklasifikasikan Contoh confusion matrix untuk klasifikasi biner ditunjukkan pada tabel berikut

Table 2 Confussin Matrix untuk klasifikasi biner Kelas Prediksi 1 0 Kelas Sebenarnya 1 TP FN 0 FP TN

Keterangan untuk table 2 dinyatakan sebagai berikut:

• True Positive (TP), yaitu jumlah dokumen dari kelas 1 yang benar diklasifikasikan sebagai kelas 1.

• True Negative, yaitu jumlah dokumen dari kelas 0 yang benar diklasifikasikan sebagai kelas 0.

• False Positive (FP), yaitu jumlah dokumen dari kelas 0 yang salah diklasifikasikan sebagai kelas 1.

• False Negative (FN), yaitu jumlah dokumen dari kelas 1 yang salah diklasifikasikan sebagai kelas 0.

Perhitungan akurasi dinyatakan dalam persamaan (4) [11]. 𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =𝑇𝑜𝑡𝑎𝑙 𝑃𝑟𝑒𝑑𝑖𝑘𝑠𝑖 𝐵𝑒𝑛𝑎𝑟

(4)

Gambar 1 Arsitektur Sistem

Tahap pertama dimulai dari proses pre-pocessing koleksi bahan pustaka, yang dimulai dari proses tokenisasi yaitu proses menghilangkan tanda baca, angka, dan dalam proses ini semua token akan dirubah menjadi huruf kecil. Selanjutnya adalah proses stemming, yaitu proses mengubah term kembali menjadi bentuk akar dengan cara menghilangkan awalan atau akhiran yang ada. Dan diakhiri oleh proses filtering atau yang biasa disebut dengan penghapusan stop-words, proses ini berfungsi menghapus kata yang tidak berhubungan dengan subjek utama database seperti kata sambung, kata tanya, dll.

Data bahan pustaka hasil pre-pocessing kemudian akan dibagi menjadi dua yaitu data latih dan data uji. Dari data latih, dengan menggunakan metode NBC dilakukan perhitungan untuk menghasilkan nilai probabilitas setiap kelas. Nilai probailitas setiap kelas yang dihasilkan digunakan untuk melakukan klasifikasi data uji sehingga menghasilkan data uji yang terklasifikasi.

Tahap terakhir dari klasifikasi bahan pustaka berdasarkan DDC ini adalah mengukur persentase ketepatan (akurasi) dalam menentukan klasifikasi yang diperoleh dengan menggunakan metode NBC. Akurasi klasifikasi data uji akan diukur dengan menggunakan Confusion Matrix.

IV. HASIL&PEMBAHASAN

Data yang digunakan dalam penelitian ini adalah sebanyak 7192 data bahan pustaka dengan jumlah kelas DDC sebanyak 325. Selanjutnya dari 7192 data bahan pustaka yang ada akan dibagi menjadi 2 bagian, yaitu data latih dan data uji yang masing-masing dibagi menjadi 7512 data latih dan 80 data uji.

A. Pre-pocessing

Pre-processing dilakukan terhadap seluruh bahan pustaka yang akan diklasifikasikan dengan metode NBC guna menemukan subjek utama dari sebuah bahan pustaka.

Table 3. Contoh Koleksi Bahan Pustaka No Judul Bahan Pustaka Kelas DDC

1 101 ramuan tradisional 615

2 AHFS-drugs information 1 615 3 AHFS-drugs information 2 615

4 Al Quran dan sains 297

5 Aljabar linear 512

Pada tabel 3 terdapat 5 contoh koleksi bahan pustaka (data laatih) yang mempunyai kelas masing-masing yaitu ada 3 data mempunyai kelas “615”, 1 data mempunyai kelas “297” dan 1 data mempunyai kelas “512”. Selanjutnya akan dilakukan tahapan pertama pre-processing, yaitu tokenisasi.

Table 4. Hasil Tokenisasi Bahan Pustaka No Judul Bahan Pustaka Kelas DDC

1 ramuan tradisional 615

2 ahfs drugs information 615

3 ahfs drugs information 615

4 al quran dan sains 297

5 aljabar linear 512

Tabel 4 merupakan data bahan pustaka yang telah melewati tahap pertama proses pre-pocessing yaitu tokenisasi. Data dipecah menjadi token (term), huruf pada term diubah menjadi huruf kecil semua dan semua tanda baca dan angka dihilangkan. Selanjutnya tahap kedua dalam pre-processing yaitu stemming. Hasil stemming bahan putakas ditunjukan pada tabel 5.

Table 5. Hasil Stemming Bahan Pustaka No Judul Bahan Pustaka Kelas DDC

1 ramu tradisional 615

2 ahfs drugs information 615

3 ahfs drugs information 615

4 al quran dan sains 297

5 aljabar linear 512

Tabel 5 merupakan data bahan pustaka yang telah melewati tahap stemming. Sebagai contoh data bahan pustaka nomor 1 mengalami proses stemming pada kata “ramuan”, yang diubah menjadi “ramu” dengan menghilangkan imbuhan –an. Setelah melawati tahap stemming , langkah terakhir yaitu filtering, atau penghapusan stop-words merupakan proses menghapus kata-kata yang tidak berhubungan dengan subjek utama database. Hasil proses filtering bahan putakas ditunjukan pada tabel 6.

Table 6. Hasil Filtering Bahan Pustaka No Judul Bahan Pustaka Kelas DDC

1 ramu tradisional 615

2 ahfs drugs information 615

3 ahfs drugs information 615

4 al quran sains 297

(5)

5

Pada tabel 6, diperoleh kumpulan kata hasil filtering. Ada beberapa kata yang dihapus, contohnya pada data bahan pustaka nomor 3. Kata “dan” dihilangkan karena kata “dan” merupakan kata sambung dan tidak berhubungan dengan subjek utama database.

B. Naïve Bayes Classifier

Tahapan awal pada proses NBC yaitu dengan menghitung probabilitas masing-masing kelas terhadap keseluruhan data latih. Sebagai contoh akan dihitung nilai probabilitas untuk kelas DDC 001, seperti berikut:

𝑝(001) = 𝐽𝑢𝑚𝑙𝑎ℎ 𝑘𝑒𝑙𝑎𝑠 001 𝐽𝑢𝑚𝑙𝑎ℎ 𝑑𝑎𝑡𝑎 𝑙𝑎𝑡𝑖ℎ 𝑝(001) = 135

7512 𝑝(001) = 0.01797

Langkah berikutnya adalah melakukan pengklasifikasian terhadap data uji dengan menggunakan probabilitas dari setiap kelas yang telash diperoleh. Berikut adalah contoh data yang akan diklasifikasikan dengan metode NBC.

Table 7. Data Uji

No Judul Bahan Pustaka Kelas DDC 1 Analisis obat tradisional ? Sebelum data uji diklasifikasikan dengan metode NBC akan dilakukan tahapan pre-processing sama seperti yang dilali data latih. Table 8 menunjukan hasil pre-processing terhadap data uji.

Table 8. Hasil Preprocessing Data Uji No Judul Bahan Pustaka Kelas DDC

1 analisis obat tradisional ?

Langkah selanjutnya akan ditentukan nilai m (jumlah term pada data uji), n (jumlah term pada data latih dimana 𝑣 = 𝑣𝑗), dan nc (jumlah term dimana 𝑣 = 𝑣𝑗 dan 𝑎𝑖) untuk setiap kelas yang ada dan untuk setiap term yang terdapat pada data uji. Tabel 25 menunujukan nilai untuk setiap term pada kelas pertama yaitu kelas 001.

Table 9. Nilai Untuk Term pada Kelas 001 (Pengetahuan)

𝑻𝒆𝒓𝒎 𝒏 𝒑 𝒎 𝒏𝒄

analisis 619 0,01797 3 7

obat 619 0,01797 3 0

tradisional 619 0,01797 3 0

Dari nilai-nilai yang telah diperoleh dan dengan menggunakan persamaan 2 dilakukan perhitungan sebagai berikut: 𝑃(𝑎𝑖|𝑣𝑗) =𝑛𝑐+ 𝑚 . 𝑝 𝑛 + 𝑚 𝑃(001|𝑎𝑛𝑎𝑙𝑖𝑠𝑖𝑠) =7 + 3 . 0,01797 619 + 3 = 0,01134 𝑃(001|𝑜𝑏𝑎𝑡) =0 + 3 . 0,01797 619 + 3 = 8,6672 × 10−5 𝑃(001|𝑡𝑟𝑎𝑑𝑖𝑠𝑖𝑜𝑛𝑎𝑙) =0 + 3 . 0,01797 619 + 3 = 8,6672 × 10−5 Selanjutnya akan ditentukan nilai kemungkinan untuk

data uji dipredikisi sebagai kelas 001, dengan cara seperti berikut: 𝑉(001) = 𝑝 ∗ 𝑃(001|𝑎𝑛𝑎𝑙𝑖𝑠𝑖𝑠) ∗ 𝑃(001|𝑜𝑏𝑎𝑡) ∗ 𝑃(001|𝑡𝑟𝑎𝑑𝑖𝑠𝑖𝑜𝑛𝑎𝑙) 𝑉(001) = 0,01797 ∗ 0,01134 ∗ 8,6672 × 10−5 8,6672 × 10−5 𝑉(001) =1,53089 × 10−12

Dengan cara yang sama, akan dicari probabilitas setiap kelas yang ada pada data latih atau dengan kata lain akan diulangi sebanyak 325 kali hingga ke kelas terakhir yaitu kelas 994. Tabel berikut merupakan hasil V untuk beberapa kelas yang ada pada data latih:

Table 10. Hasil Preprocessing Data Uji

Kelas Disiplin Ilmu V(Kelas)

001 Pengetahuan 1,53089 × 10−12

615 Farmakologi & terapi 5,00328 × 10−8 994 Sejarah Australia 1,50614 × 10−17 Dengan menggunakan persamaan 3, akan kelas prediksi NBC dengan cara mencari nilai maksimal dari hasil perhitungan probabilitas tiap-tiap kelas, dan diperoleh hasil sebagai berikut:

𝑉𝑛𝑏 = 𝑎𝑟𝑔𝑚𝑎𝑥( 𝑉(001) | 𝑉(615) |… | 𝑉(994)) 𝑉𝑛𝑏 = 𝑎𝑟𝑔𝑚𝑎𝑥( 1,53089 × 10−12 | 5,00328 × 10−8

| … | 1,50614 × 10−17)

𝑉𝑛𝑏 =5,00328 × 10−8

Nilai maksimal yang diperoleh dari perhitungan diatas yaitu 5,00328 × 10−8. Dan nilai tersebut merupakan nilai untuk kelas DDC “615”. Jadi kesimpulannya adalah bahan pustaka dengan judul “Analisis Obat Tradisonal” diprediksi masuk ke dalam kelas DDC “615”

(6)

Dari 80 data uji yang telah diklasifikasikan dengan menggunakan metode Naïve Bayes Classifier diperoleh hasil sebagai berikut: 69 data diklasifikasikan dengan benar dan 11 sisanya diklasifikasikan dengan kurang tepat. Dari hasil tersebut dapat dicari akurasi metode Naïve Bayes Classifier dalam kasus penelitian ini dengan cara sebagai berikut:

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = Total Prediksi Benar

Total Prediksi Benar + Tidak Benar× 100% 𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 69

80× 100% 𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 86,25%

Kesimpulan yang diperoleh yaitu, dari 80 data uji diperoleh akurasi kecocokan kelas sebenarnya terhadap kelas prediksi dengan NBC sebesar 86,25%.

V. PENUTUP A. Kesimpulan

Dari hasil penelitian klasifikasi bahan pustaka berdasarkan DDC dengan menggunakan metode Naïve Bayes Classifier dapat disimpulkan bahwa metode Naïve Bayes Classifier dapat digunakan untuk mengklasifikasikan bahanpustaka berdasarkan DDC karena mempunyai akurasi kecocokan kelas sebenarnya terhadap kelas prediksi NBC yang cukup tinggi yaitu sebesar 86,25% dari dari total 80 data uji dan 7512 data latih.

B. Saran

Beberapa hal yang perlu dikembangkan dalam penelitian ini adalah:

1. Menggunakan kelas DDC yang lebih lengkap dan beragam dan menambah data latih untuk dapat lebih meninggkatkan akurasi.

2. Menggunakan metode perhitungan klasifikasi lain, seperti Support Vector Machine (SVM), C45, K-Nearest Neighbor, dan K-Means untuk mencari metode yang paling efektif dan memiliki akurasi yang paling tinggi dalam mengklasifikasikan bahan pustaka berdasarkan DDC.

REFERENCES

[1] Sulistyo-Basuki, Pengantar Ilmu Perpustakaan, Jakarta: Gramedia Pustaka Utama, 1991.

[2] M. D. R. Nasution, "Penentuan Nomor Panggil Otomatis Berbasis DDC pada Dokumen Perpustakaan Menggunakan Klasifikasi Naive Bayes," in Skripsi Institut Pertanian Bogor, Bogor, 2013.

[3] V. Grupta and G. Lehal, "A Survey of Text Mining Tecniques and Application," Journal of Emerging Technologies in Web Intelligence, vol. 1, pp. 60-75, 2009.

[4] A. Indriani, Klasifikasi Data Forum dengan Menggunakan Metode Naive Bayes Classifier, Yogyakarta: Seminar Nasional Aplikasi Teknologi Informasi (SNASTI), 2014.

[5] F. Wulandini and A. S. Nugroho, "Text Classification Using Support Vector Machine for Webmining Based Spation Temporal Analysis of the Spread of Tropical Diseases," International Conference on Rural

[6] N. W. S. Saraswati, "Text Mining dengan Metode Naive Bayes Classifier dan Support Vector Machines untuk Sentiment Analysis," in Tesis Universitas UDAYANA DENPASAR, Bali, 2011. [7] Indonesia, "Undang – undang Perpustakaan Nomor 43 Tahun 2007,"

Graha Ilmu, Yogyakarta.

[8] S. Basuki, Pengantar Ilmu Perpustakaan, Jakarta: Gramedia Pustaka Utama, 1993.

[9] Wikipedia, "Wikipedia," 27 Juni 2013. [Online]. Available: http://id.wikipedia.org/wiki/Klasifikasi_Desimal_Dewey. [Accessed 6 October 2014].

[10] K. R. Prilianti and H. Wijaya, "Aplikasi Text Mining untuk Automatisasi Penentuan Tren Topik Skripsi dengan Metode K-Mens Clustering," Jurnal Cybermatika, vol. 2, 2014.

[11] P. Kristina, "Klasifikasi Dokumen Tumbuhan Obat menggunakan Algoritma KNN Fuzzy," in Thesis Fakultas Matematika dan Ilmu Pengetahuan ALAM IPB , Bogor, 2011.

[12] F. Nur, "Desimal Dewey Klasifikasi (DDC)," 5 Desember 2012.

[Online]. Available:

https://fitriainur45.wordpress.com/2012/12/05/desimal-dewey-klasifikasi-ddc/. [Accessed 29 Januari 2015].

[13] Perpustakaan Universitas Andalas, 25 Juni 2013. [Online]. Available: http://pustaka.unand.ac.id/index.php/15-ddc. [Accessed 24 September 2014].

Referensi

Dokumen terkait

Salah satu tujuan pokok diberlakukannya Undang-Undang Nomor 5 Tahun 1960 tentang Peraturan Dasar Pokok-Pokok Agraria (UUPA) adalah untuk mewujudkan kepastian hak milik

Artinya bahwa dalam pembentukan konsep diri pada peserta didik, penanaman dan pemahaman tentang nilai-nilai yang terdapat dalam pendidikan karakter akan

terlampir).JadwPelaksanaan penelitian dilakukan setelah mendapatkan persetujuan dari dosen pembimbing. Penelitian dilaksanakan pada semester.. Penulis terlebih dahulu

Karakteristik followers akun Twitter @EHIndonesia yang terdiri dari jenis kelamin, usia, tingkat pendidikan, jenis pekerjaan, tingkat pemasukan, dan tempat tinggal tidak

Korelasi paling kuat yang bersifat positif antara stres kerja dengan kepuasan kerja terdapat pada pengukuran fisiologis pada skala stres kerja dengan pekerjaan itu

Segala puji dan syukur penulis panjatkan kepada Allah SWT yang telah memberikan rahmat dan hidayahNya sehingga penulis dapat meyusun proposal skripsi dengan judul

[r]

Pemintaan akan parkir akibat adanya kegiatan perkantoran, sekolah dan Taman Kota yang menjadi tempat bermain anak- anak dan tempat hiburan masyarakat pada