Penentuan Nomor Panggil Otomatis Berbasis DDC pada Dokumen Perpustakaan Menggunakan Klasifikasi Naive Bayes

(1)

PENENTUAN NOMOR PANGGIL OTOMATIS BERBASIS DDC

PADA DOKUMEN PERPUSTAKAAN MENGGUNAKAN

KLASIFIKASI

NAIVE BAYES

MIRA DELLA RAHMA NASUTION

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN INSTITUT PERTANIAN BOGOR

(2)

(3)

PERNYATAAN MENGENAI SKRIPSI DAN

SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA

Dengan ini saya menyatakan bahwa skripsi berjudul Penentuan Nomor Panggil Otomatis Berbasis DDC pada Dokumen Perpustakaan Menggunakan Klasifikasi Naive Bayes adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.

(4)

ABSTRAK

MIRA DELLA RAHMA NASUTION. Penentuan Nomor Panggil Otomatis Berbasis DDC pada Dokumen Perpustakaan Menggunakan Klasifikasi Naive Bayes. Dibimbing oleh JULIO ADISANTOSO.

Penelitian ini membahas tentang klasifikasi nomor panggil otomatis yang mengklasifikasikan dokumen perpustakaan sesuai dengan skema klasifikasi Dewey decimal classification (DDC). Tujuan penelitian ini adalah menentukan nomor panggil dokumen perpustakaan secara otomatis dengan kelas berbasis DDC menggunakan metode klasifikasi naive Bayes. Penelitian ini dibangun dengan menerapkan kosakata terkendali untuk mengetahui kelas DDC dari setiap dokumen. Dokumen yang digunakan dalam penelitian ini sebanyak 190 dokumen yang terdiri atas 114 dokumen latih dan 76 dokumen uji. Pemilihan fitur yang digunakan adalah information gain. Hasil dari pemilihan fitur akan digunakan sebagai dasar dalam pembuatan model klasifikasi. Dalam pembuatan model klasifikasi dilakukan penghitungan similarity menggunakan Natural Language ToolKit (NLTK) antara token hasil dari proses pemilihan fitur dengan token yang terdapat pada kosakata terkendali. Akurasi yang dihasilkan dalam penerapan metode klasifikasi naive Bayes dengan penggunaan stemming sebesar 45.26% dan akurasi yang dihasilkan tanpa penggunaan stemming sebesar 44.21%.

Kata kunci: Dewey decimal classification, information gain, klasifikasi naive Bayes, kosakata terkendali, Natural Language ToolKit

ABSTRACT

MIRA DELLA RAHMA NASUTION. Automatic Call Number Classification Based on DDC for Library Document using Naive Bayes Classification. Supervised by JULIO ADISANTOSO.

This research discusses automatic call number classification for library document with Dewey decimal classification (DDC) scheme. The goal of this research is to determine the call number of library document automatically based on DDC using naive Bayes classification. This research uses control vocabulary to determine DDC class of each document. Documents used in this are 190 documents with 114 training documents and 76 testing documents. This research uses information gain for feature selection. Result of the feature selection will be used as a reference in modelling classification. In modelling classification, a similarity calculation between results of token feature selection processing and control vocabulary using Natural Language ToolKit (NLTK) is performed. The accuracy obtained in the application of the naive Bayes method with the use of stemming is 45.26% and the non-stemming is 44.21%.

(5)

Skripsi

sebagai salah satu syarat untuk memperoleh gelar Sarjana Ilmu Komputer

pada

Departemen Ilmu Komputer

PENENTUAN NOMOR PANGGIL OTOMATIS BERBASIS DDC

PADA DOKUMEN PERPUSTAKAAN MENGGUNAKAN

KLASIFIKASI

NAIVE BAYES

MIRA DELLA RAHMA NASUTION

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN INSTITUT PERTANIAN BOGOR

(6)

(7)

Judul Skripsi : Penentuan Nomor Panggil Otomatis Berbasis DDC pada Dokumen Perpustakaan Menggunakan Klasifikasi Naive Bayes

Nama : Mira Della Rahma Nasution NIM : G64104037

Disetujui oleh

Ir Julio Adisantoso, MKom Pembimbing

Diketahui oleh

Dr Ir Agus Buono, MSi MKom Ketua Departemen Ilmu Komputer

(8)

PRAKATA

Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan Agustus 2012 ini ialah klasifikasi, dengan judul Penentuan Nomor Panggil Otomatis Berbasis DDC pada Dokumen Perpustakaan Menggunakan Klasifikasi Naive Bayes.

Terima kasih penulis ucapkan kepada Bapak Ir Julio Adisantoso, MKom selaku pembimbing yang telah memberikan arahan, dan saran selama penelitian ini berlangsung. Terima kasih juga penulis ucapkan kepada Bapak Sony Hartono Wijaya, SKom MKom dan Bapak Musthafa, SKom MSc selaku dosen penguji dari penulis yang telah bersedia memberikan pengarahan, saran, dan kritik kepada penulis pada saat sidang kelulusan dilaksanakan. Ungkapan terima kasih juga disampaikan kepada ibu, kakak, serta seluruh keluarga, atas segala doa dan kasih sayangnya. Teman-teman Ilkom angkatan 5, Wahyu Dias, Dealis Hendra, dan Ahmad Somadi selaku teman seperjuangan bimbingan. Terima kasih atas persaudaraan, semangat dan kebersamaannya selama ini. Andri Setyawan terima kasih atas kesabaran, pengertian, dan bantuan yang selama ini diberikan kepada penulis.

Penulis menyadari bahwa masih terdapat kekurangan dalam penulisan skripsi ini. Semoga karya ilmiah ini bermanfaat.

(9)

DAFTAR ISI

DAFTAR TABEL vi

DAFTAR GAMBAR vi

DAFTAR LAMPIRAN vi

PENDAHULUAN 1

Latar Belakang 1

Perumusan Masalah 2

Tujuan Penelitian 3

Manfaat Penelitian 3

Ruang Lingkup Penelitian 3

METODE PENELITIAN 3

Pengumpulan Dokumen 5

Praproses Dokumen 5

Pengindeksan 6

Natural Language ToolKit 8

Klasifikasi Naive Bayes 9

Evaluasi 10

Lingkungan Pengembangan 11

HASIL DAN PEMBAHASAN 11

Pengumpulan Dokumen 11

Praproses Dokumen 11

Pemilihan Fitur 12

Natural Language ToolKit 13

Pengujian Kinerja Sistem 14

SIMPULAN DAN SARAN 17

Simpulan 17

Saran 17

DAFTAR PUSTAKA 18

LAMPIRAN 19

(10)

DAFTAR TABEL

1 Banyaknya dokumen dengan kata t dalam kelas c 8

2 Kontingensi evaluasi set pengambilan dokumen 10

3 Dokumen tesis dan disertasi perpustakan IPB 12

4 Kelas utama DDC 13

5 Kelas divisi DDC 13

6 Kelas section DDC 13

7 Contoh hasil penghitungan similarity 14

8 Hasil akurasi setiap dokumen kelas DDC berdasarkan pengaruh

stemming 16

DAFTAR GAMBAR

1 Diagram alur tahap penelitian 4

2 Format koleksi dokumen 5

3 Diagram alur proses pembentukan model klasifikasi 15

DAFTAR LAMPIRAN

1 Daftar stopword yang digunakan dalam tahapan praproses 19 2 Contoh hasil tokenisasi dengan menggunakan stemming dan tanpa

menggunakan stemming 20

3 Contoh distribusi sebaran penciri dokumen pada setiap DDC 21 4 Confusion matrix hasil klasifikasi naive Bayes menggunakan stemming 22 5 Confusion matrix hasil klasifikasi naive Bayes tanpa menggunakan

stemming 23

6 Nilai recall precision pada sistem temu kembali untuk pengujian sistem

klasifikasi menggunakan stemming 24

7 Nilai recall precision pada sistem temu kembali untuk pengujian sistem

(11)

21

PENDAHULUAN

Latar Belakang

Dokumen perpustakaan berbasis digital saat ini sudah sangat banyak, baik di perpustakaan umum maupun perpustakaan institusi. Dalam pengelolaan dokumen perpustakaan, baik digital maupun tertulis dilakukan klasifikasi terhadap dokumen tersebut agar dokumen lebih mudah dicari kembali. Saat ini koleksi dokumen di perpustakaan pada umumnya diolah menggunakan sistem DDC (Dewey decimal classification) untuk pengklasifikasiannya, dan menggunakan CAB thesaurus untuk membantu memutuskan kelas yang sesuai dengan subjek dokumen tersebut. Penentuan nomor panggil dokumen dilihat dari berbagai sudut, antaralain dari sudut materi bacaan. Walaupun sudah menggunakan DDC dan CAB thesaurus, namun dalam pelaksanaannya masih manual yang berdampak pada lamanya pengolahan dokumen (Setyawan 2012). Hal ini juga berdampak pada lamanya dokumen terdaftar dalam perpustakaan.

Klasifikasi terdiri atas dua jenis, yaitu klasifikasi berbasis teks dan klasifikasi berbasis kosakata terkendali. Klasifikasi berbasis teks merupakan klasifikasi yang banyak digunakan pada klasifikasi dokumen web, sedangkan klasifikasi berbasis kosakata terkendali merupakan klasifikasi dengan penempatan kata sebagai skema klasifikasi yang berbeda dan juga memiliki karakteristik yang berbeda dari tingkat hierarki (Hasugian 2006). Kosakata terkendali merupakan koleksi kata atau kode yang sudah tersedia untuk digunakan pada pengindeksan sistem.

Perbedaan mendasar klasifikasi berbasis teks dengan klasifikasi berbasis kosakata terkendali adalah klasifikasi berbasis teks dibangun secara manual dan tidak memiliki kontrol bahasa sehingga sering terjadi kesalahan dalam penempatan kelas dokumen. Sedangkan klasifikasi berbasis kosakata terkendali memiliki perangkat untuk mengontrol masalah polisemi, sinonim, dan homonim (Golub 2006).

Keunggulan dari penggunaan kosakata terkendali mempunyai representasi dokumen yang konsisten. Kosakata atau istilah yang digunakan dalam pengindeksan dokumen pada saat input ke sistem adalah kosakata yang terkendali dan standar. Oleh karena itu, bila kosakata tersebut dijadikan sebagai kueri untuk pencarian atau penelusuran, maka sudah pasti akan tetap mewakili dan merepresentasikan dokumen yang sama seperti pada saat input sistem dilakukan. Demikian juga dengan penentuan nomor panggil, apabila seorang pustakawan ingin menempatkan suatu dokumen dalam rak dengan subjek tertentu, misalnya “microbiology”, maka sistem akan menemukan kelas dokumen karena representasi dokumen tetap konsisten, sehingga kosakata terkendali dapat menjadi acuan dasar dalam pengembangan penentuan nomor panggil berbasis DDC.

(12)

2

klasifikasi yang diciptakan oleh Melvil Dewey pada tahun 1876, dan sejak itu telah banyak dimodifikasi dan dikembangkan hingga saat ini versi terakhir DDC adalah DDC 22. DDC termasuk ke dalam sistem klasifikasi hierarki. DDC terdiri atas dua bagian yaitu kelas dan keterangan (Hardjoprakoso 1993). DDC dituliskan dengan tiga digit angka, angka pertama menunjukkan kelas utama, angka kedua menunjukkan kelas divisi, dan angka ketiga menunjukkan kelas section. Kelas utama adalah kelas seperti 100, 200, sampai 900. Kelas divisi adalah kelas seperti 110, 120, 130, sampai 190 (angka persepuluhan), dan kelas section adalah kelas dengan angka antara 111-119. Klasifikasi dokumen menggunakan sistem DDC memerlukan penentuan subjek dokumen fokus disiplin dokumen, atau jika diperlukan pendekatan dari bentuk dokumen (Mortimer 2000). Setiap dokumen perpustakaan yang diolah menggunakan sistem DDC akan dimasukkan ke dalam satu dari kelas yang ada pada sistem DDC.

Penelitian tentang penentuan nomor panggil otomatis berbasis DDC pada dokumen perpustakaan belum banyak ditemukan. Dalam penelitian Setyawan (2012) diimplementasikan penentuan subjek otomatis berbasis DDC menggunakan metode lin similarity dengan akurasi 20 persen. Metode lin similarity merupakan metode yang sudah tersedia di Natural Languange ToolKit (NLTK) dengan menggunakan brown information content (IC). Metode lin similarity digunakan untuk mencari kemiripan antara dua kata berdasarkan IC dengan menghitung hiponim dari dua kata, dan menggunakan nilai kata pada IC berbeda dengan path similarity yang hanya menghitung jarak antara dua kata.

Penelitian berdasarkan kosakata terkendali yang mendasari subjek pada DDC telah banyak dilakukan. Svenonius (2003) mencoba menerapkan desain kosakata terkendali pada DDC menggunakan semantic. Golub (2006) menjelaskan tentang penggunaan kosakata terkendali dalam klasifikasi subjek otomatis pada halaman web tekstual dalam pencarian. Saat ini kosakata terkendali sudah digunakan oleh sejumlah layanan web, terutama yang menyediakan informasi bagi pengguna akademis.

Penelitian yang akan dibangun menerapkan kosakata terkendali untuk mengetahui kelas DDC dari setiap dokumen dengan menggunakan klasifikasi naive Bayes. Penelitian ini dibangun dengan harapan dapat membuktikan pernyataan Golub (2006) tentang penggunaan kosakata terkendali berfungsi dengan baik dalam pengindeksan, abstraksi dokumen, dan klasifikasi otomatis tekstual. Penelitian ini juga dibangun dengan harapan dapat memperbaiki sistem yang telah dibangun sebelumnya dan dapat meningkatkan akurasi yang maksimal dari penelitian sebelumnya.

Perumusan Masalah

Pertanyaan yang ingin dijawab melalui penelitian ini adalah:

1 Apakah metode klasifikasi naive Bayes dapat diterapkan pada penentuan nomor panggil berbasis DDC?

2 Seberapa baik metode klasifikasi naive Bayes dalam mengklasifikasikan dokumen perpustakaan?

(13)

3 Tujuan Penelitian

Penelitian ini bertujuan untuk menentukan nomor panggil dokumen secara otomatis berbasis DDC menggunakan metode kosakata terkendali dan klasifikasi naive Bayes serta menguji relevansi kelas yang dihasilkan dilihat dari segi penentuan oleh pustakawan secara manual dan oleh komputer secara otomatis.

Manfaat Penelitian

Manfaat dari penelitian ini adalah membantu tugas pustakawan dalam menentukan nomor panggil DDC dokumen perpustakaan dan mempermudah pengguna dalam mencari informasi tentang buku dengan memberi masukan ke sistem berupa nomor panggil DDC dari suatu buku.

Ruang Lingkup Penelitian

Ruang lingkup dalam penelitian ini adalah:

1 Korpus terdiri atas dokumen abstrak tesis dan disertasi IPB berbahasa Inggris dengan format XML.

2 Menempatkan kelas berbasis DDC dalam kosakata terkendali untuk memastikan setiap dokumen memiliki kelas masing-masing.

3 Kelas DDC yang digunakan adalah kelas DDC yang memenuhi kriteria sebagai dokumen latih dan dokumen uji.

4 Penghitungan similarity menggunakan NLTK dengan bahasa pemrograman Python.

METODE PENELITIAN

(14)

4

dilakukan evaluasi terhadap kinerja sistem klasifikasi yang dihasilkan. Evaluasi kinerja dari sistem klasifikasi dilakukan dengan menggunakan recall dan precision yang bertujuan untuk mendapatkan persentase ketepatan suatu dokumen masuk ke dalam kelas DDC sesuai dengan kelasnya.

Mulai

Pengumpulan dokumen

Dokumen latih Dokumen uji

DDC

Kosakata Pengindeksan Pengindeksan

Tokenisasi

Stemming

Pemilihan fitur

Pembobotan

Tokenisasi

Stemming

Pembobotan

NLTK

Klasifikasi naive Bayes

Selesai Evaluasi

Gambar 1 Diagram alur tahap penelitian I Praproses Dokumen

(15)

5 Pengumpulan Dokumen

Dokumen yang digunakan pada penelitian ini berupa abstrak tesis dan disertasi. Sebanyak 190 dokumen yang diambil secara acak dari repository IPB (http://repository.ipb.ac.id) dan data kelas dokumen diambil dari online access public catalog (OPAC) perpustakaan IPB (katalog.perpustakaan.ipb.ac.id/ senayan3-stable11/).

Dokumen yang digunakan berformat XML dengan contoh format dokumen yang terdapat pada Gambar 2. Dokumen dikelompokkan ke dalam tag sebagai berikut:

 <DOC></DOC>, tag ini mewakili keseluruhan dokumen dan melingkupi tag-tag lain yang lebih spesifik.

 <DOCNO></DOCNO>, tag ini menunjukkan nomor dari koleksi dokumen.

 <TITLE></TITLE>, tag ini menunjukkan judul dari dokumen.

 <AUTHOR></AUTHOR>, tag ini menunjukkan nama penulis dokumen.

 <TEXT></TEXT>, tag ini menunjukkan abstrak dari dokumen.

 <KEYWORD></KEYWORD>, tag ini menunjukkan kata penting dari dokumen.

 <SUBJECT></SUBJECT>, tag ini menunjukkan kelas dari dokumen.

Praproses Dokumen

Tahap praproses diawali dengan pembagian dokumen menjadi dua, yaitu dokumen latih dan dokumen uji dengan persentase 60:40 sehingga diperoleh 114 dokumen latih dan 76 dokumen uji. Dokumen latih digunakan sebagai input pelatihan pengklasifikasian naive Bayes, sedangkan dokumen uji digunakan untuk menguji model klasifikasi hasil dari pelatihan sistem klasifikasi.

Gambar 2 Format koleksi dokumen

<DOC>

<TITLE>An Alternative Policy in the Management of Kamali Coast as the Result of Reclamation in the Town of Bau-Bau, which Minimizes the Environmental Impact</TITLE> <AUTHOR>Faizu, Wadi Afdal</AUTHOR>

<TEXT>The reclamation of Kamali Coast in Bau-Bau was conducted in 2004. This has led to the loss of potential coastal biological resources, especially some of the marine bio-resources, damaged ecosystem of sea grass and coral reefs. It has also caused changes in the landscape (geomorphology) that have an impact on the changes in ocean currents, sedimentation patterns and a shallower estuary of Bau-Bau River. The study was conducted to find appropriate alternative policies, related to the ecosystem management efforts at Kamali Coast resulting from the reclamation in the Town of Bau-Bau, which minimized the environmental impact. It tried to analyze the existing social, economic, and environmental conditions before and after reclamation and used the analytical hierarchy process (AHP).</TEXT>

<KEYWORD>reclamation, coastal, policy</KEYWORD> <SUBJECT>T 502 FAI a</SUBJECT>

(16)

6

Pengindeksan

Pengindeksan merupakan cara untuk mendapatkan istilah-istilah yang dianggap mewakili isi dari dokumen. Pengindeksan dapat dilakukan secara manual atau otomatis. Jika dengan cara manual, dibutuhkan campur tangan manusia yang bertugas untuk memilih istilah-istilah yang terdapat pada dokumen untuk dijadikan penciri dokumen yang merepresentasikan dokumen tersebut. Sedangkan pada pengindeksan yang dilakukan secara otomatis, pemilihan penciri dokumen dilakukan secara otomatis menggunakan program komputer.

Ketepatan pemilihan istilah merupakan isu yang menentukan kinerja dari sistem yang dihasilkan. Pada dasarnya setiap kata yang muncul pada dokumen dapat dijadikan penciri dokumen. Namun jika semua kata dijadikan penciri dokumen, disamping ukuran indeks menjadi besar, belum tentu kata/term yang dijadikan penciri dokumen merepresentasikan isi dokumen secara keseluruhan.

Pada tahap pengindeksan dokumen latih, terdapat empat proses yang dilakukan, yaitu:

1 Tokenisasi

Proses pengindeksan diawali dengan lowercasing, tokenisasi, dan pembuangan stopwords. Lowercasing adalah proses untuk mengubah semua huruf mejadi huruf non-capital agar menjadi case-insensitive pada saat dilakukan pemrosesan teks dokumen. Tokenisasi adalah suatu tahap pemrosesan teks yang dibagi menjadi unit-unit kecil yang disebut token atau term, yang dapat berupa suatu kata atau angka. Token yang dimaksud dalam penelitian ini adalah kata atau term. Proses tokenisasi dilakukan sesuai dengan aturan berikut :

 Teks dipotong menjadi token. Karakter yang dianggap sebagai karakter pemisah token didefinisikan dengan ekspresi regular berikut:

/[\s\-+\/*0-9%,.\"\];()\':=`?\[!@><]+/

 Token yang terdiri atas karakter numerik saja tidak diikutsertakan.

Stopwords merupakan daftar kata-kata yang dianggap tidak memiliki makna. Kata yang tercantum dalam daftar ini dibuang dan tidak ikut diproses pada tahap selanjutnya. Kata-kata yang termasuk dalam stopwords pada umumnya merupakan kata-kata yang sering muncul di setiap dokumen sehingga kata tersebut tidak dapat digunakan sebagai penciri suatu dokumen. Lampiran 1 merupakan daftar stopword yang terdiri dari kumpulan kata yang paling sering muncul dalam dokumen.

2 Stemming

Stemming adalah proses penghilangan prefiks dan sufiks dari kueri dan istilah-istilah dokumen. Stemming dilakukan atas dasar asumsi bahwa kata-kata yang memiliki stem yang sama memiliki makna yang serupa sehingga pengguna tidak keberatan untuk memperoleh dokumen-dokumen yang didalamnya terdapat kata-kata dengan stem yang sama dengan kueri (Ridha 2002).

Teknik-teknik stemming dapat dikategorikan menjadi:

 Berdasarkan aturan sesuai bahasa tertentu

 Berdasarkan kamus

(17)

7 Dalam hal efisiensi stemming bertujuan untuk mengurangi jumlah kata-kata unik dalam indeks sehingga mengurangi kebutuhan ruang penyimpanan untuk indeks dan mempercepat proses pencarian.

Algoritma Porter, menggunakan suatu fungsi penghitung ukuran kata untuk mencegah stemming menghasilkan stem yang terlalu pendek. Diasumsikan minimal stem hasil berukuran dua kecuali jika token berukuran kurang dari dua. Contoh penghilangan prefiks dan sufiks dari kueri sebagai

Pemilihan fitur merupakan suatu proses memilih subset dari setiap kata unik yang ada di dalam himpunan dokumen latih yang akan digunakan sebagai fitur di dalam klasifikasi dokumen (Manning et al. 2008). Fitur yang dihasilkan akan mencerminkan pola dari setiap dokumen latih dengan baik, yang pada akhirnya dapat meningkatkan kinerja klasifikasi karena sudah menghilangkan fitur-fitur yang tidak perlu. Disamping itu, pemilihan fitur akan menurunkan ukuran matrik data sehingga dapat menurunkan waktu komputasi.

Estévez et al. (2009) menyatakan ada beberapa metode pemilihan fitur yang baik untuk proses klasifikasi dokumen, yaitu pemilihan fitur berbasis frekuensi, information gain, dan . Metode paling sederhana adalah pemilihan fitur berbasis frekuensi, yaitu dengan menentukan nilai ambang batas tertentu (threshold) bagi frekuensi suatu kata dalam dokumen untuk dijadikan sebagai fitur dokumen tersebut.

Information gain merupakan metode pemilihan fitur berbasis teori informasi yang disebut sebagai mutual information atau disingkat menjadi MI (Guyon dan Elisseeff 2003). Misalkan U dan C adalah dua peubah acak kontinu dengan fungsi kepekatan peluang bersama f(u,c) dan fungsi kepekatan peluang marjinal masing-masing adalah f(u) dan f(c). MI antara U dan C didefinisikan sebagai

, ∬f u,c log_ff_uu_f,c_c u c (1) Jika U dan C adalah dua peubah acak diskret, maka MI antara U dan C dapat dituliskan sebagai

, ∑ ∑p u,c log_pp_uu_p,c_c

c

u

dimana p(u) adalah fungsi massa peluang marjinal U, p(c) adalah fungsi massa peluang marjinal C, dan p(u,c) adalah fungsi massa peluang bersama U dan C. Oleh karena itu, pemilihan fitur berbasis MI dapat dilakukan dengan menghitung nilai MI kata t pada kelas c, sehingga U didefinisikan sebagai peubah acak kemunculan kata t dalam dokumen, dan C didefinisikan sebagai peubah acak keberadaan dokumen di dalam kelas c. Selanjutnya nilai peluang pada Persamaan 2 diduga menggunakan frekuensi kata dan dokumen dari koleksi dokumen latih, sehingga MI antara U dan C dapat dituliskan sebagai

(18)

8

Tabel 1 Banyaknya dokumen dengan kata t dalam kelas c t = 1 t = 0 ∑

c = 1 N11 N01 N.1 c = 0 N10 N00 N.0

∑ N1. N0. N..

4 Pembobotan

Proses selanjutnya pada pengindeksan adalah pemberian bobot dari setiap token atau kandidat fitur dari setiap dokumen yang diperoleh dari hasil pemilihan fitur. Pembobotan yang digunakan adalah term frequency (tf). Pembobotan tf adalah algoritma pembobotan yang menentukan bobot dokumen berdasarkan kemunculan kata/term. Semakin sering sebuah kata/term muncul, semakin tinggi bobot dokumen untuk kata/term tersebut dan sebaliknya.

Natural Language ToolKit

Natural Language ToolKit (NLTK) merupakan penelitian tentang Natural Language Processing (NLP) yang dibangun dengan bahasa pemrograman Python, dikembangkan sejak tahun 2001 di University of Pennsylvania (Bird et al. 2009). NLTK mempunyai banyak fungsi dan modul untuk membantu penelitian dibidang NLP, salah satunya adalah fungsi similarity dan modul wordnet. NLTK mempunyai empat keunggulan, yaitu:

 Simplicity, NLTK memberikan pengguna pengetahuan singkat tentang NLP, tanpa harus memahami keseluruhan NLP.

 Consistency, NLTK dibuat dengan antarmuka, struktur data yang konsisten, dan metode dengan penamaan yang mudah.

 Extensibility, NLTK memungkinkan penambahan modul baru untuk menyelesaikan masalah-masalah NLP.

 Modularity, NLTK memungkinkan modul digunakan secara independen tanpa memerlukan modul yang lain.

Dalam pembuatan model klasifikasi dilakukan penghitungan similarity menggunakan NLTK antara token hasil dari proses pemilihan fitur dengan token yang terdapat pada kosakata terkendali. Metode penghitungan similarity yang digunakan adalah lin similarity. Konsep dari lin similarity adalah mencari kemiripan atara dua kata berdasarakan information content (IC) dari least common subsumer (LCS). LCS adalah hiponim dari dua kata yang dicari kemiripannya.

(19)

9

l s lar t l s i _i _i , dengan lcs_ic(x,y) adalah nilai dari lcs antara dua kata, ic(x) adalah nilai dari kata pertama pada IC, ic(y) adalah nilai dari kata kedua pada IC.

Klasifikasi Naive Bayes

Menurut Manning et al. (2008), peluang Bayes dapat digunakan untuk menghitung peluang bersyarat, yaitu peluang kejadian apabila suatu kejadian diketahui. Metode ini dapat memprediksi kemungkinan anggota suatu kelas berdasarkan sampel yang berasal dari anggota kelas tersebut. Klasifikasi naive Bayes termasuk dalam model multinomial yang mengambil jumlah kata yang muncul pada sebuah dokumen. Pada model ini sebuah dokumen terdiri atas beberapa kejadian kemunculan kata. Berdasarkan asumsi Bayes, kemungkinan tiap kejadian kemunculan kata dalam tiap dokumen adalah saling bebas.

Berdasarkan teori Bayes, peluang dokumen d untuk masuk ke dalam kelas c atau P(c|d) ditunjukkan pada Persamaan 5,

c| c c

(5) dengan P(d|c) adalah peluang kemunculan dokumen d di kelas c, P(c) adalah peluang awal suatu dokumen masuk ke dalam kelas c, dan P(d) adalah peluang awal kemunculan dokumen d. Peluang awal kemunculan dokumen d dapat diabaikan karena memiliki nilai yang sama untuk seluruh kelas c, sehingga Persamaan 5 dapat disederhanakan menjadi Persamaan 6, yaitu

c c c (6) Persamaan untuk menghitung nilai peluang dokumen masuk ke dalam kelas c dan peluang kemunculan dokumen d berada pada kelas c adalah

c c_dan_̂ _c_∏ _t_c

dengan Tcd adalah peluang kemunculan token d dalam kelas c , 1 adalah laplace smoothing, T.cadalah jumlah seluruh token dalam kelas c, |v| adalah banyaknya

(20)

10

dokumen latih, dan penghitungan jumlah kata yang terdapat pada dokumen yang berada dalam satu kelas yang sama pada DDC. Hasil matrik kata pada data latih digunakan pada sistem klasifikasi untuk mengklasifikasikan dokumen baru.

Nilai peluang kata yang didapat kemudian digunakan untuk melakukan penghitungan naive Bayes pada dokumen uji untuk setiap kelasnya, kemudian diambil nilai peluang yang terbesar pada nilai penghitungan naive Bayes untuk menentukan kelas dari dokumen uji.

Evaluasi

Evaluasi kinerja sistem dilakukan dengan menghitung nilai recall dan precision dari 190 dokumen untuk mendapatkan persentase ketepatan suatu dokumen masuk ke dalam kelas DDC tertentu dalam sistem temu kembali. Recall dan precision adalah dua kriteria yang digunakan untuk mengevaluasi tingkat efektifitas kinerja sistem temu kembali informasi. Recall adalah rasio jumlah dokumen relevan yang ditampilkan terhadap jumlah seluruh dokumen yang relevan.

Precision adalah rasio jumlah dokumen relevan yang ditampilkan terhadap jumlah seluruh dokumen yang ditampilkan (Manning et al. 2008). Gagasan ini dapat diperjelas dengan memeriksa kontingensi set pengambilan dokumen yang ditunjukkan pada Tabel 2.

Tabel 2 Kontingensi evaluasi set pengambilan dokumen

Relevan Non-relevan

Retrieved true positives (tp) false positives (fp) Not retrieved false negatives (fp) true negatives (tn)

Dengan penghitungan recall dan precision dijelaskan pada Persamaan 10 dan 11. Penghitungan akurasi sistem klasifikasi ditunjukkan oleh Persamaan 12.

r c s _{tp fp}tp (10)

call _{tp fn}tp

(11)

kurasi _{tp fp fn tn} tp tn

Menurut Baeza-Yates dan Riberio-Neto (1999), algoritma temu kembali yang dievaluasi menggunakan beberapa dokumen berbeda akan menghasilkan nilai R-P yang berbeda untuk masing-masing dokumen. Average precision (AVP) diperlukan untuk menghitung rata-rata tingkat precision pada 11 tingkat recall, yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0 dihitung dengan Persamaan 13

(r) ∑ r

(21)

11 dengan P(rj) adalah AVP pada level recall r, Nq adalah jumlah dokumen yang digunakan, dan Pi(r) adalah precision pada level recall r untuk dokumen ke-i.

Lingkungan Pengembangan

Lingkungan pengembangan adalah kumpulan fasilitas yang diperlukan dalam melaksanakan penelitian, baik berupa perangkat keras maupun perangkat lunak. Pada penelitian ini lingkungan pengembangan yang digunakan adalah sebagai berikut:

 Perangkat lunak: Windows 7 Ultimate, Notepad++, MySQL, Microsoft Office 2010, XAMPP, dan Opera

 Perangkat keras: CPU Intel Core i5 @2.40 GHz dan 4 GB RAM.

 Bahasa pemrograman: PHP dan Python.

HASIL DAN PEMBAHASAN

Pengumpulan Dokumen

Dokumen yang digunakan pada penelitian ini sebanyak 190 dokumen yang terdiri atas dokumen tesis dan disertasi, dengan kelas utama DDC 500 dan 600. Kelas utama DDC dengan rentang kelas 100, 200, 300, 400, 700, 800, dan 900 tidak dapat digunakan dalam penelitian karena dalam pengumpulan dokumen korpus kelas-kelas tersebut sangat jarang ditemukan dalam koleksi di perpustakaan Institut Pertanian Bogor. Dokumen yang digunakan dapat dilihat pada Tabel 3.

Setiap dokumen tesis dan disertasi yang diolah menggunakan sistem DDC akan dimasukkan ke dalam satu dari kelas utama yang ada pada sistem DDC. Kelas utama DDC dapat dilihat pada Tabel 4. Selanjutnya dokumen akan menempati kelas divisi dan kelas section, setiap kelas utama mempunyai 10 kelas divisi. Tabel 5 merupakan contoh kelas divisi dari DDC kelas utama 500. Selanjutnya, masing-masing dari kelas divisi mempunyai sedikitnya 10 kelas section. Tabel 6 merupakan contoh kelas section dari DDC kelas divisi 510-519.

Praproses Dokumen

(22)

12

Tabel 3 Dokumen tesis dan disertasi perpustakan IPB

Kelas DDC Disiplin ilmu Jumlah dokumen

Tesis Disertasi

502 Miscellany of Nature Sciences 2 8

519 Applied Mathematics 8 2

551 Geology 3 7

556 Geology of Africa 1 9

582 Specific Vegetative Characteristics 6 4

595 Crustacea 4 6

598 Aves 7 3

599 Mammalia 1 9

613 Promotion of Health, Personal Health 5 5

630 Farming 6 4

631 Specific Techniques of Agriculture 4 6

632 Plant Injuries 2 8

Penggunaan tag keyword pada dokumen dapat mempengaruhi nilai pembobotan tf, karena pada dokumen abstrak tesis dan disertasi IPB tidak semua dokumen mempunyai tag keyword. Ada beberapa dokumen abstrak tidak mempunyai tag keyword. Dokumen abstrak tesis dan disertasi yang tidak mempunyai tag keyword nilai token yang diboboti akan lebih kecil daripada dokumen yang mempunyai tag keyword. Contoh hasil tokenisasi dengan menggunakan stemming dan tanpa menggunakan stemming dapat dilihat pada Lampiran 2.

Pemilihan Fitur

(23)

13

500-509 Miscellany of Nature Sciences 510-519 Mathematics

515 Analysis, Theory of Functions 516 Geometry

517 Null

518 Algorithms

519 Applied Mathematics

Natural Language ToolKit

(24)

14

penghitungan similarity antara token hasil pemilihan fitur dengan kosakata terkendali pada kelas DDC menggunakan fungsi lin similarity. Hasil penghitungan similarity yang diperoleh merupakan model klasifikasi yang akan digunakan sebagai dasar untuk melakukan penempatan dokumen uji dalam kelas DDC.

Tabel 7 Contoh hasil penghitungan similarity Token kandidat fitur Kosakata terkendali Similarity

study mathematics 0.181492

Dalam penentuan model klasifikasi dilakukan penentuan nilai treshold, yaitu token dengan hasil similarity kurang dari sama dengan nol tidak akan menjadi model klasifikasi. Gambar 3 merupakan diagram alur proses pembentukan model klasifikasi dokumen pada kelas DDC.

Pengujian Kinerja Sistem

Proses evaluasi yang dilakukan terdiri atas dua proses evaluasi. Evaluasi pertama adalah pengujian tingkat akurasi sistem klasifikasi, dan evaluasi berikutnya adalah pengujian tingkat akurasi sistem temu kembali informasi menggunakan recall dan precision. Evaluasi sistem dilakukan sesuai hasil klasifikasi dokumen yang dikembalikan kepada pengguna.

1 Akurasi Sistem Klasifikasi

(25)

15 nomor panggil otomatis berbasis DDC dari sistem klasifikasi naive Bayes dengan menggunakan stemming sebesar 45.26% dan tanpa menggunakan stemming sebesar 44.21%.

Tokenisasi

Nilai term

frequency = 1 ?

Tidak

Information gain (pemilihan fitur)

Hasil pemilihan fitur = 0 ?

Tidak

NLTK Mulai

Similarity = 0 ? Ya

Model klasifikasi Tidak

Selesai

Selesai Ya _Selesai Ya _Selesai Lakukan stemming ?

Tidak Ya

(26)

16

Hal ini menunjukkan bahwa penggunaan stemming tidak berpengaruh besar dalam peningkatan akurasi sistem klasifikasi dalam penentuan kelas section DDC. Penelitian pengaruh stemming juga dilakukan pada setiap dokumen uji dengan menghitung hasil akurasi pengujian setiap dokumen kelas section DDC. Tabel 8 merupakan hasil akurasi setiap dokumen kelas section DDC dengan menggunakan stemming dan tanpa menggunakan stemming.

Dalam penempatan kelas utama DDC, hasil penelitian menunjukkan bahwa akurasi sistem klasifikasi dokumen yang menempati kelas utama DDC yang relevan dengan penggunaan stemming sebesar 81% dan tanpa menggunakan stemming sebesar 55%. Hasil klasifikasi menunjukkan pengaruh penggunaan stemming berperan besar dalam peningkatan akurasi pada penempatan level kelas utama dokumen dalam kelas DDC.

2 Akurasi Sistem Temu Kembali Informasi

(27)

17 Hal ini sejalan dengan metode pembobotan tf yang hanya memperhatikan frekuensi kemunculan kata suatu dokumen tanpa memperhatikan kedekatan kata yang terdapat pada dokumen uji. Lampiran 6 dan 7 merupakan nilai AVP dengan menggunakan 11 titik recall pada setiap kelas DDC yang digunakan.

SIMPULAN DAN SARAN

Simpulan

Dari hasil penelitian penentuan nomor panggil otomatis berbasis DDC pada dokumen perpustakaan menggunakan klasifikasi naive Bayes dapat disimpulkan bahwa :

1 Akurasi yang dihasilkan dalam penerapan metode klasifikasi naive Bayes dalam penentuan nomor panggil otomatis berbasis DDC dalam klasifikasi kelas section DDC dengan penggunaan stemming sebesar 45.26% dan akurasi yang dihasilkan tanpa penggunaan stemming sebesar 44.21%. Sedangkan dalam penempatan kelas utama DDC, akurasi sistem klasifikasi naive Bayes dengan penggunaan stemming menghasilkan akurasi sebesar 81% dan tanpa penggunaan stemming sebesar 55%. Hasil akurasi sistem klasifikasi menunjukkan bahwa metode klasifikasi naive Bayes terbukti dapat meningkatkan akurasi dari penelitian sebelumnya.

2 Hasil klasifikasi naive Bayes menunjukkan penggunaan stemming tidak berpengaruh besar dalam peningkatan akurasi sistem klasifikasi.

3 Hasil rata-rata recall dan precision menunjukkan nilai akurasi sebesar 29% dengan menggunakan stemming sedangkan tanpa menggunakan stemming nilai akurasi sebesar 28%.

Saran

Beberapa hal yang perlu dikembangkan dalam penelitian ini adalah:

1 Menggunakan kelas DDC yang lebih lengkap dan beragam dan dokumen korpus yang lebih banyak.

2 Penelitian ini menggunakan metode pemilihan fitur information gain untuk memilih penciri dokumen. Disarankan untuk menggunakan metode pemilihan fitur yang lain, seperti pemilihan fitur berbasis frekuensi kemunculan kata, karena metode yang digunakan dalam penelitian ini membutuhkan waktu komputasi yang lama dalam melakukan pemilihan fitur dokumen.

3 Mempertimbangkan ukuran kepentingan kata dari hasil pemilihan fitur dalam klasifikasi dokumen uji.

(28)

18

sebagai usaha mencari hyperplane terbaik yang berfungsi sebagai pemisah dua buah kelas pada ruang input. Hyperplane dalam ruang vektor berdimensi d adalah anak ruang berdimensi d-1 yang membagi ruang vektor tersebut ke dalam dua bagian yang masing-masing berkorespondensi pada kelas yang berbeda (Cristianini dan Shawe-Taylor 2000).

DAFTAR PUSTAKA

Baeza-Yates R, Riberio-Neto B. 1999. Modern Information Retrieval. Wokingham (UK): Addison Wesley.

Bird S, Klein E, Loper E. 2009. Natural Language Processing with Phyton. California US : O’Reilly.

Estévez PA, Tesmer M, Perez CA, Zurada JM. 2009. Normalized mutual information feature selection. IEEE Transactions on Neural Networks. 20(2):189-201.

Cristianini N, Shawe-Taylor. 2000. An Introduction to Support Vector Machines: and Other Kernel-Based Learning Methods. Cambridge (GB): Cambridge University Press.

Golub K. 2006. Using controlled vocabularies in automated subject classification of textual web pages, in the context of browsing. TCDL Bulletin. 2(2):1-11. Guyon I, Elisseeff A. 2003. An introduction to variable and feature selection.

Journal of Machine Learning Research. 3(1):1157-1182.

Hardjoprakoso M. 1993. Terjemahan Ringkasan Klasifikasi Desimal Dewey dan Indeks Relatif. Jakarta (ID): Perpustakaan Nasional.

Hasugian J. 2006. Penggunaan bahasa alamiah dan kosakata terkendali dalam sistem temu balik informasi berbasis teks. Jurnal Studi Perpustakaan dan Informasi. 2(2):72-80.

Manning CD, Raghavan P, Schutze H. 2008. Introduction to Information Retrieval. Cambridge (GB): Cambridge University Press.

Mortimer M. 2000. Learn Dewey Decimal Classification. Ed ke-22. Texas (US): Total Recall Publication.

Ridha A. 2002. Pengindeksan otomatis dengan istilah tunggal untuk dokumen berbahasa indonesia [skripsi]. Bogor (ID): Institut Pertanian Bogor.

Setyawan A. 2012. Penentuan subjek otomatis berbasis DDC pada dokumen perpustakaan menggunakan algoritma lin similarity [skripsi]. Bogor (ID): Institut Pertanian Bogor.

(29)

19 Lampiran 1 Daftar stopword yang digunakan dalam tahapan praproses

a have other we affecting b

as himself she's which although beginnings

at his should while always begins

didn't itself these yours anywhere becomes

do let's they yourself apparently becoming

does me they'd yourselves approximately been

doesn't more they'll a are before

doing most they're able aren beforehand

don't mustn't they've about arent begin

down my this above arise beginning

during myself those abst around beginnings

(30)

20

(31)

21 Lampiran 3 Contoh distribusi sebaran penciri dokumen pada setiap DDC

Kandidat fitur Kelas dokumen DDC

502 519 551 556 582 595 598 599 613 630 631 632 633 634 636 639 658 664 665

study         

analysis       

water      

development       

based      

species    

population    

area      

model        

data      

rice   

management       

level         

forest     

habitat  

growth      

group     

fruit  

production       

method       

(32)

22

Lampiran 4 Confusion matrix hasil klasifikasi naive Bayes menggunakan stemming

Aktual Prediksi

502 519 551 556 582 595 598 599 613 630 631 632 633 634 636 639 658 664 665 Outlier

502 4 1 2 1 1 1

519 1 8 1

551 1 6 1 1 1

556 1 3 3 1 1 1

582 1 4 1 1 2 1

595 2 1 0 1 2 1 1 2

598 1 5 1 1 1 1

599 1 1 1 6 1

613 1 5 4

630 1 2 2 2 1 1 1

631 1 1 1 4 1 2

632 1 1 1 2 4 1

633 7 1 1 1

634 1 1 1 5 1 1

636 8 1 1

639 1 1 1 1 2 2 2

658 1 1 1 2 5

664 1 3 6

(33)

23 Lampiran 5 Confusion matrix hasil klasifikasi naive Bayes tanpa menggunakan stemming

Aktual Prediksi

502 519 551 556 582 595 598 599 613 630 631 632 633 634 636 639 658 664 665 Outlier

502 5 5

519 7 1 2

551 1 3 1 5

556 2 3 5

582 7 1 2

595 2 2 1 5

598 6 1 1 2

599 3 3 4

613 1 2 4 1 2

630 1 1 4 4

631 1 1 7 1

632 6 1 3

633 1 2 7

634 1 3 6

636 1 6 1 2

639 1 2 1 6

658 1 5 4

664 1 1 1 5 2

(34)

24

Lampiran 6 Nilai recall precision pada sistem temu kembali untuk pengujian sistem klasifikasi menggunakan stemming

Recall 502 519 551 556 582 595 598 599 613 630 631 632 633 634 636 639 658 664 665

0 1 1 1 0.5 0.75 - 1 1 1 0.5 1 0.5 1 0.5 1 0.5 1 1 1

0.1 1 1 1 0.5 0.75 - 1 1 1 0.5 1 0.5 1 0.5 1 0.5 1 1 1

(35)

25 Lampiran 7 Nilai recall precision pada sistem temu kembali untuk pengujian sistem klasifikasi tanpa menggunakan stemming

Recall 502 519 551 556 582 595 598 599 613 630 631 632 633 634 636 639 658 664 665

0 0.67 1 0.5 1 1 0.33 1 1 1 0.5 1 1 0.4 1 1 0.5 0.8 1 0.5

0.1 0.67 1 0.5 1 1 0.33 1 1 1 0.5 1 1 0.4 1 1 0.5 0.8 1 0.5

(36)

21

RIWAYAT HIDUP

Penulis dilahirkan di Medan Sumatera Utara pada tanggal 8 Maret 1987 dari ayah Abdul Kadir Nasution (alm) dan ibu Nurhayani Lubis. Penulis adalah puteri kedua dari 4 bersaudara. Tahun 2006 penulis lulus dari SMA Muhammadiyah Mataram dan pada tahun yang sama penulis lulus seleksi masuk Institut Pertanian Bogor (IPB) melalui jalur PMDK dan diterima di Diploma IPB Program Keahlian Manajemen Informatika. Tahun 2009 penulis lulus dari Diploma IPB dan pada tahun 2010 penulis melanjutkan pendidikan di Program Alih Jenis Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, IPB.