1
PENENTUAN SUBJEK OTOMATIS BERBASIS DDC PADA DOKUMEN PERPUSTAKAAN MENGGUNAKAN
ALGORITME LIN SIMILARITY
ANDRI SETYAWAN
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR
BOGOR
2012
PENENTUAN SUBJEK OTOMATIS BERBASIS DDC PADA DOKUMEN PERPUSTAKAAN MENGGUNAKAN
ALGORITME LIN SIMILARITY
ANDRI SETYAWAN
Skripsi
sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR
BOGOR
2012
ABSTRACT
ANDRI SETYAWAN. Automatic Subject Classification Based on DDC System for Library Document. Supervised by FIRMAN ARDIANSYAH.
Subject classification for library document with Dewey Decimal Classification (DDC) system is difficult to perform manually. The goal of this research is to make an application that automatically do perform subject classification for library document using similarity method. We use Natural Language ToolKit (NLTK) with Wordnet module to find similarity between keyword and DDC class. DDC is a hierarchy classification. We use Lin Similarity to find similarity between two words, with Brown corpus for Information Content (IC) of Wordnet. Wordnet can find similarity for only noun and verb, so we do not process other kinds of word. We use 30 documents combination of theses and dissertations in Bogor Agriculture University. We use 3 different methods to decide the relevant class of DDC which is similar to a document keyword. The first method is maximum-maximum method, the second one is maximum-average method, and the third method is maximum-minimum method. The first method results in 6 documents having the same main class, 2 documents having the same division class, and 0 document having the same section class. The second method results in 5 documents having the same main class, 1 document having the same division class, and 0 document having the same section class. The third method results in 3 documents having the same main class, 2 documents having the same division class, and 0 document having the same section class.
Keyword: Dewey Decimal Classification, Automatic Subject Classification, Lin Similarity, Natural Language ToolKit
Judul Skripsi : Penentuan Subjek Otomatis Berbasis DDC pada Dokumen Perpustakaan miMenggunakan Algoritme Lin Similarity
Nama : Andri Setyawan NIM : G64096008
Disetujui:
Pembimbing
Firman Ardiansyah SKom MSi NIP 19790522 200501 1 003
Diketahui:
Ketua Departemen Ilmu Komputer
Dr Ir Agus Buono MSi MKom NIP 19660702 199302 1 001
Tanggal Lulus:
iii
PRAKATA
Alhamdulillahirabbil’alamin, segala puji dan syukur penulis panjatkan ke hadirat Allah Subhanahuwa ta’ala atas segala karunia-Nya, sehingga penulis dapat menyelesaikan tugas akhir yang berjudul “Penentuan Subjek Semi Otomatis Berbasis DDC pada Dokumen Perpustakaan Menggunakan Algoritme Lin Similarity”.
Penulis juga menyampaikan ucapan terima kasih kepada:
1 Ibunda tersayang Rubiyatun, Ayah tercinta Sakiyo Adhi Saputra, kakak, dan keponakanku yang tidak henti-hentinya memberikan doa, kasih sayang, dan dukungan kepada penulis.
2 Bapak Firman Ardiansyah SKom MSi selaku dosen pembimbing yang telah memberikan arahan dan bimbingan dengan sabar kepada penulis dalam menyelesaikan tugas akhir ini.
3 Bapak Sony Hartono Wijaya SKom MKom dan Bapak Ahmad Ridha SKom MS selaku dosen penguji, dan seluruh dosen, dan staf Departemen Ilmu Komputer FMIPA IPB.
4 Teman-teman satu bimbingan, Wahyu Dwi Suryanto dan Ihsan Satria Rama yang selalu memberikan masukan, saran, dan semangat kepada penulis.
5 Teman-teman Alih Jenis Ilkom Angkatan 4 (2009) atas segala kebersamaan, bantuan, dan motivasi yang telah diberikan kepada penulis.
6 Teman-teman PT. BeIT Inovasi Tiwikrama, dan Promoote atas pengertian waktu yang diberikan kepada penulis.
7 Mira Della Rahma Nasution, yang selalu sabar, mengerti, dan memberikan semangat kepada penulis.
Penulis menyadari bahwa masih terdapat kekurangan dalam penulisan skripsi ini. Semoga skripsi ini bermanfaat.
Bogor, Agustus 2012
Andri Setyawan
RIWAYAT HIDUP
Penulis dilahirkan di Bogor, Jawa Barat pada tanggal 15 Januari 1989 dari Ibu Rubiyatun dan Bapak Sakiyo Adhi Saputra. Penulis merupakan anak kedua dari dua bersaudara. Pada tahun 2006, penulis lulus dari Sekolah Menengah Kejuruan (SMK) Negeri 1 Cibinong, dan pada tahun yang sama diterima di Diploma IPB Program Keahlian Manajemen Informatika. Pada tahun 2009 penulis lulus dari Diploma IPB dan pada tahun yang sama diterima di Program Alih Jenis Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, IPB.
v
DAFTAR ISI
Halaman
DAFTAR TABEL ... vi
DAFTAR GAMBAR ... vi
DAFTAR LAMPIRAN ... vi
PENDAHULUAN ... 1
Latar Belakang ... 1
Tujuan ... 1
Ruang Lingkup ... 1
TINJAUAN PUSTAKA ... 1
Dewey Decimal Classification (DDC) ... 1
Natural Language ToolKit (NLTK) ... 2
Wordnet ... 2
Similarity dalam Wordnet NLTK ... 2
METODE PENELITIAN ... 3
Pengumpulan Dokumen ... 3
Praproses Keyword dan Keterangan ... 3
Penghitungan Similarity ... 3
Evaluasi Hasil Percobaan ... 4
Lingkungan Pengembangan ... 4
HASIL DAN PEMBAHASAN ... 4
Pengumpulan Dokumen ... 4
Praproses Keyword dan Keterangan ... 4
Penghitungan Similarity ... 5
Evaluasi ... 6
SIMPULAN DAN SARAN ... 7
Simpulan ... 7
Saran ... 7
DAFTAR PUSTAKA ... 7
LAMPIRAN ... 8
DAFTAR TABEL
Halaman
1 Kelas utama DDC ... 2
2 Dokumen tesis dan disertasi ... 4
3 Kelas utama DDC setelah praproses data ... 5
4 Contoh penghitungan similarity dengan metode s1,s2,s3 ... 5
5 Penghitungan similarity antara keyword dan kelas divisi ... 6
6 Penghitungan similarity antara keyword dan kelas section ... 6
DAFTAR GAMBAR
Halaman 1 Skema implementasi metode. ... 32 Skema penghitungan similarity. ... 4
3 Grafik evaluasi 30 dokumen dengan metode s1. ... 7
4 Grafik evaluasi 30 dokumen dengan metode s2. ... 7
5 Grafik evaluasi 30 dokumen dengan metode s3. ... 7
DAFTAR LAMPIRAN
Halaman 1 Antarmuka implementasi ... 92 Hasil similarity 30 dokumen ... 10
PENDAHULUAN
Latar Belakang
Dokumen perpustakaan berbasis digital saat ini sudah sangat banyak, baik di perpustakaan umum maupun perpustakaan institusi. Dalam pengelolaan dokumen perpustakaan, baik digital maupun tertulis dilakukan klasifikasi terhadap dokumen tersebut agar dokumen lebih mudah dicari kembali. Ada beberapa sistem klasifikasi utama dokumen perpustakaan yang dikenal di Indonesia, seperti Library of Congress Classification (LOC), Dewey Decimal Classification (DDC), dan Universal Decimal Classification (UDC). Walaupun kadang- kadang digunakan juga klasifikasi menurut keinginan pembaca atau sistem pengelompokan buatan sendiri, kebanyakan perpustakaan lebih suka menggunakan salah satu dari sistem klasifikasi dokumen utama yang ada karena sistemnya dikenal luas (Hardjoprakoso 1993).
Seorang pustakawan dalam mengelola
dokumen perpustakaan harus
mengklasifikasikan dokumen ke dalam salah satu dari sistem klasifikasi tersebut. Jika perpustakaan tersebut menggunakan sistem DDC di perpustakaannya, sebuah dokumen harus diklasifikasikan dengan sistem DDC.
Sebelum pustakawan menempatkan suatu dokumen ke dalam rak, pustakawan harus mengetahui dengan benar kelas dari dokumen tersebut. Dalam DDC, penentuan kelas dapat dicari dari subjek dokumen tersebut. Subjek sebuah dokumen perpustakaan dapat ditinjau dari berbagai sudut, contohnya dari jenis dokumen atau dari inti dokumen tersebut. Untuk menemukan subjek sebuah dokumen ada beberapa metode yang digunakan untuk mengklasifikasikan subjek dokumen perpustakaan, salah satunya adalah metode Keyword In Context, Keyword Out Of Context (KWIC KWOC).
Saat ini dokumen di perpustakaan IPB diolah menggunakan sistem DDC untuk pengklasifikasiannya, dan menggunakan CAB Thesaurus untuk membantu memutuskan kelas yang sesuai dengan subjek dokumen tersebut, sedangkan penentuan subjeknya dilihat dari berbagai sudut oleh pustakawan yang mengolah dokumen tersebut, contohnya dilihat dari sudut bacaan, dari tipe dokumen, atau dari maksud penulis, untuk dokumen tesis dan disertasi subjek ditentukan dari keyword dokumennya.
Walaupun sudah menggunakan DDC dan CAB Thesaurus, dalam pelaksanaannya klasifikasi masih dilakukan secara manual. Hal itu berdampak pada lamanya pengolahan dokumen perpustakaan.
Tujuan
Penelitian ini bertujuan membuat aplikasi yang dapat menentukan subjek secara otomatis dengan kelas berbasis DDC menggunakan metode menghitung similarity antar dua kata dengan NLTK (Natural Language ToolKit).
Kata yang dicari similarity-nya adalah keterangan kelas DDC dengan keyword dari dokumen perpustakaan, serta menguji relevansi kelas yang dihasilkan dilihat dari segi penentuan oleh pustakawan (manual) dan oleh komputer (otomatis).
Ruang Lingkup
Ruang lingkup penelitian ini dibatasi pada:
• Penghitungan similarity menggunakan Natural Language ToolKit (NLTK) dengan bahasa pemograman python, dengan modul Wordnet.
• Penghitungan similarity Menggunakan fungsi lin_similarity.
• Kelas DDC 000-099 tidak digunakan karena merupakan kelas untuk dokumen yang bersubjek karya umum (general).
• Hanya kata benda dan kata kerja pada keyword dokumen yang digunakan.
• Menggunakan metadata tesis dan disertasi IPB berbahasa Inggris.
TINJAUAN PUSTAKA
Dewey Decimal Classification (DDC)
Sebuah sistem klasifikasi yang diciptakan oleh Melvil Dewey pada tahun 1876, dan sejak itu telah banyak dimodifikasi dan dikembangkan hingga saat ini versi terakhir DDC adalah DDC 22. DDC termasuk ke dalam sistem klasifikasi hirarki. DDC terdiri atas dua bagian yaitu kelas dan keterangan (Hardjoprakoso 1993). DDC dituliskan dengan tiga digit angka, angka pertama menunjukkan kelas utama, angka kedua menunjukkan kelas divisi, dan angka ketiga menunjukkan kelas section-nya. Kelas utama adalah kelas seperti 100, 200, sampai 900. Kelas divisi adalah kelas seperti 110, 120, 130, sampai 190 (angka persepuluhan), dan kelas section adalah kelas dengan angka antara 111-119. Klasifikasi dokumen menggunakan sistem DDC memerlukan penentuan subjek dokumen, fokus disiplin dokumen, atau jika diperlukan pendekatan dari bentuk dokumen (Mortimer 2000). Setiap dokumen perpustakaan yang diolah menggunakan sistem DDC akan dimasukkan ke dalam satu dari kelas yang ada
di sistem DDC. Contoh kelas utama dari DDC dapat dilihat pada Tabel 1.
Tabel 1 Kelas utama DDC Kelas Disiplin Ilmu
000 General
100 Phylosophy, Psychology
200 Religion
300 Social
400 Language
500 Science, Mathematics
600 Technology
700 Art, Fine, Sport
800 Literature
900 Geography, History
Natural Language ToolKit (NLTK)
NLTK dikembangkan sejak tahun 2001 di University of Pennsylvania, untuk membantu dalam penelitian tentang Natural Language Processing (NLP) (Bird 2009). NLTK mempunyai empat keunggulan, yaitu:
• Simplicity, NLTK memberikan pengguna pengetahuan singkat tentang NLP, tanpa harus memahami keseluruhan NLP.
• Consistency, NLTK dibuat dengan antarmuka, dan struktur data yang konsisten, juga metode dengan penamaan yang mudah.
• Extensibility, NLTK memungkinkan penambahan modul baru untuk menyelesaikan masalah-masalah NLP.
• Modularity, NLTK memungkinkan modul digunakan secara independen tanpa memerlukan modul yang lain.
NLTK mempunyai banyak fungsi dan modul untuk membantu penelitian di bidang NLP, salah satunya adalah fungsi similarity dan modul Wordnet.
Wordnet
Wordnet adalah elektronik lexical database yang dikembangkan oleh tim Prof. George Miller di Universitas Princeton, sejak tahun 1985. Kata-kata di dalam Wordnet akan disusun dalam synonym sets (synsets). Setiap kata di dalam Wordnet memiliki hubungan hypernim/hyponim (Miller 1995).
Wordnet di dalam NLTK sangat cocok digunakan untuk menghitung similarity karena terdapat hubungan similarity kata benda
NLTK versi 2.0 terdapat 9 hirarki terpisah untuk kata benda dengan 80.000 konsep dan 554 hirarki untuk kata kerja dengan 135.000 konsep (Hliaoutakis et al 2006). Kata sifat (adjectives) belum memiliki hubungan similarity dalam bentuk hirarki, jadi pencarian similarity untuk kata sifat belum dapat dilakukan di modul Wordnet NLTK.
Similarity dalam Wordnet NLTK
Similarity dalam Wordnet didapatkan dari seberapa mirip kata A dengan kata B, dalam konsep hirarki Wordnet (synsets). Contohnya adalah kata car lebih mirip ke kata boat daripada ke kata tree, karena kata car dan kata boat mempunyai ancestor konsep yang sama yaitu kata vehicle (Bird 2009). Adapun beberapa jenis similarity dalam modul Wordnet NLTK adalah:
• Path Similarity
Path Similarity mencari kemiripan antara dua kata berdasarkan jarak terdekat antara kata berdasarkan hubungan hypernim/hyponim di dalam Wordnet.
• Lch Similarity (Leacock-Chodorow)
Sama dengan Path Similarity, namun pada Lch Similarity dihitung juga maksimum dari kedalaman taksonomi hypernim/hyponim kata yang dicari kemiripannya. Rumus umumnya adalah:
-log(p/2d) ………(1) dengan:
p = jarak terpendek antara dua kata.
d = kedalaman taksonomi hypernim/hyponim.
• Wup Similarity (Wu-Palmer)
Wup Similarity mencari kemiripan antara dua kata berdasarkan kedalaman dari dua kata dalam taksonomi hypernim/hyponim Wordnet, dan kedalaman dari Least Common Subsumer (LCS) dari dua kata tersebut. LCS adalah hyponim dari dua kata yang dicari kemiripannya.
• Lin Similarity
Lin Similarity mencari kemiripan antara dua kata berdasarkan Information Content (IC) dari LCS. Adapun rumus Lin Similarity adalah:
(2.0*lcs_ic)/(ic1+ic2)……….(2) dengan:
lcs_ic = nilai dari lcs antara dua kata.
ic1 = nilai dari kata 1 pada IC.
ic2 = nilai dari kata 2 pada IC.
Penelitian ini menggunakan Lin Similarity
Ic_brown adalah korpus yang dibuat pada tahun 1961 di Universitas Brown. Korpus Brown mengandung jutaan teks dari 500 sumber, yang telah dikategorikan berdasarkan jenisnya, seperti berita, editorial, dan lain-lain (Bird 2009).
METODE PENELITIAN
Tahapan yang akan dilakukan pada penelitian ini dapat dilihat pada Gambar 1.
Gambar 1 Skema implementasi metode.
Pengumpulan Dokumen
Dokumen yang digunakan pada penelitian ini adalah dokumen abstrak tesis dan disertasi.
Bagian keyword diambil dari repository IPB (http://repository.ipb.ac.id) dan data kelas diambil dari perpustakaan IPB pada bagian Online Access Pubic Catalog (OPAC) (katalog.perpustakaan.ipb.ac.id/senayan3- stable11/). Sebanyak 30 dokumen tesis dan disertasi diambil secara acak.
Praproses Keyword dan Keterangan
Data yang sudah dikumpulkan akan diproses dengan cara mencari similarity/kemiripan kata
antara keyword dokumen dan keterangan kelas pada DDC. Keyword yang digunakan adalah keyword yang diberikan oleh penulis tesis atau disertasi, jadi kata-kata dalam keyword dapat mengandung istilah biologi ataupun singkatan.
Keyword dan keterangan pada kelas DDC yang akan diproses adalah kata benda (noun) dan kata kerja (verb). Kata-kata seperti kata sifat, istilah biologi, dan singkatan akan dihilangkan karena tidak dapat dicari kemiripannya. Keterangan pada sistem DDC diolah dengan ketentuan jika keterangan terdiri atas dua kata atau lebih, setiap kata akan dipisahkan, namun tetap mempunyai kelas yang sama.
Penghitungan Similarity
Similarity akan dihitung menggunakan fungsi lin_similarity yang tersedia di NLTK dengan menggunakan brown IC. Lin Similarity digunakan karena merupakan penghitungan similarity berdasarkan seberapa mirip pengertian antara dua kata. Lin similarity menghitung LCS dari dua kata, dan menggunakan nilai kata pada IC berbeda dengan path similarity yang hanya menghitung jarak/path antara dua kata.
Penentuan kelas yang relevan pada setiap level kelas di DDC adalah mencari nilai maksimum dari beberapa metode, yaitu:
• s1 = mencari nilai maksimum-maksimum similarity untuk setiap keterangan kelas, dengan keyword dokumen.
• s2 = mencari nilai maksimum rata-rata similarity untuk setiap keterangan kelas, dengan keyword dokumen.
• s3 = mencari nilai maksimum minimum similarity untuk setiap keterangan kelas, dengan keyword dokumen.
Metode yang dipilih akan digunakan hingga mendapatkan similarity antara keyword dan kelas section. Dalam menentukan kelas DDC pada aplikasi ini, pertama akan dicari similarity antara keyword dan keterangan pada sembilan kelas utama dari DDC. Proses ini akan menghasilkan satu atau lebih kelas utama yang relevan. Setelah itu, akan dicari similarity antara keyword dan keterangan kelas divisi dari DDC sehingga menghasilkan satu atau lebih kelas divisi yang relevan. Terdapat beberapa kelas divisi yang kosong (belum digunakan). Jika hal ini ditemukan, akan langsung dicari similarity antara keyword dan keterangan pada kelas section. Setelah kelas divisi yang relevan didapatkan, langkah selanjutnya adalah mencari similarity antara keyword dan keterangan pada kelas section sehingga menghasilkan kelas
section yang relevan. Skema dari penentuan similarity dapat dilihat pada Gambar 2.
Gambar 2 Skema penghitungan similarity.
Evaluasi Hasil Percobaan
Tahap evaluasi dilakukan secara objektif dengan membandingkan kelas yang dihasilkan oleh sistem dengan kelas asli dokumen, apakah hasilnya sama sampai digit section yang dimilikinya, atau sampai kelas divisi, atau hanya kelas utamanya saja yang sama.
Lingkungan Pengembangan
Lingkungan pengembangan yang digunakan pada penelitian ini adalah:
• Prosesor Intel Core i5 2.3 GHz.
• RAM 4 GB DDR3.
• MAC OSX 10.7.
• Harddisk 320 GB.
• PHP dan Python.
HASIL DAN PEMBAHASAN
Pengumpulan Dokumen
Dokumen yang digunakan pada penelitian ini sebanyak 30 dokumen yang terdiri atas dokumen tesis dan disertasi, dengan kelas DDC antara 100 sampai 900. Namun karena beberapa kelas seperti kelas 200 (Agama) sangat jarang jumlah koleksinya di Institut Pertanian Bogor, beberapa kelas tidak ada dokumennya dalam penelitian ini, namun kelas tersebut tetap digunakan dalam penghitungan similarity.
Contoh dokumen yang digunakan dapat dilihat pada Lampiran 1, dan 30 dokumen yang dikumpulkan dapat dilihat pada Tabel 2.
Tabel 2 Dokumen tesis dan disertasi Dokumen Kelas Tipe
1 712 Tesis
2 332 Tesis
3 633 Tesis
4 711 Tesis
5 631 Tesis
6 519 Tesis
7 633 Tesis
8 632 Tesis
9 595 Tesis
10 316 Tesis
11 339 Tesis
12 579 Tesis
13 338 Tesis
14 636 Tesis
15 638 Disertasi
16 636 Disertasi
17 316 Tesis
18 613 Tesis
19 334 Tesis
20 159 Tesis
21 633 Tesis
22 633 Disertasi
23 633 Disertasi
24 711 Disertasi
25 658 Disertasi
26 330 Disertasi
27 639 Disertasi
28 556 Disertasi
29 633 Disertasi
30 504 Disertasi
Praproses Keyword dan Keterangan
Pembersihan kata dalam keyword dan keterangan kelas saat ini dilakukan secara manual, dengan cara menghapus kata-kata dalam keyword dan keterangan. Adapun contoh dari keyword yang akan dicari nilai similarity dengan keterangan kelas adalah:
Garden City Concept, Historical Landscape, Preservation Plan.
Keyword di atas akan dibersihkan dari kata- kata selain kata benda dan kata kerja sehingga menghasilkan:
Garden City Concept, Landscape, Preservation Plan.
Kata historical akan dihapus karena merupakan kata sifat. Hasil dari praproses dokumen adalah kata-kata dalam keyword dan keterangan kelas yang akan dicari kemiripannya. Jumlah kata hasil praproses keywod dan keterangan sangat beragam.
Keterangan dalam kelas yang terdiri atas dua kata atau lebih akan dipisahkan, namun tetap menggunakan kelas yang sama. Kelas utama yang akan digunakan berbeda dengan kelas pada Tabel 1. Contoh kelas utama yang akan digunakan pada penelitian ini dapat dilihat pada Tabel 3.
Tabel 3 Kelas utama DDC setelah praproses data
Kelas Disiplin Ilmu
100 Phylosophy
100 Psychology
200 Religion
300 Social
400 Language
500 Science
500 Mathematics
600 Technology
700 Art
700 Fine
700 Sport
800 Literature
900 Geography
900 History
Jumlah kelas utama yang akan dicari nilai kemiripannya terhadap keyword menjadi 14 kelas utama. Kelas divisi dan kelas section juga akan dipisahkan menjadi satu kata untuk setiap kelas seperti pada kelas utama.
Penghitungan Similarity
Sesuai dengan metode penelitian, penghitungan similarity dilakukan dengan menggunakan Lin Similarity. Similarity dihitung antara keyword dari dokumen dan keterangan masing-masing kelas. Terdapat tiga metode (s1,s2,s3) yang digunakan untuk menentukan kelas DDC yang relevan pada level kelas utama, kelas divisi, dan kelas section.
Ketiga metode ini akan digunakan pada setiap
30 dokumen. Jadi, setiap dokumen akan dihitung tiga kali menggunakan metode yang berbeda. Contoh penghitungan similarity untuk keyword garden city concept, landscape, preservation plan, dengan keterangan kelas 500 (science) dan keterangan kelas 700 (sport) menggunakan metode s1, s2, dan s3. Dapat dilihat pada Tabel 4.
Tabel 4 Contoh penghitungan similarity dengan metode s1,s2,s3
500- science 700- sport
garden 0 0
city 0 0
concept 0.570850334 0.270401581
landscape 0 0
preservation 0.186301347 0.3624762
plan 0.492911084 0.234150734
Maksimum (s1) 0.570850334 0.3624762 Rata rata (s2) 0.208343794 0.175643531 Minimum(s3) 0.143120866 0.143120866 Dari Tabel 4 dapat dilihat bahwa dengan metode s1, nilai similarity antara keyword dan keterangan kelas 500 lebih besar daripada nilai similarity antara keyword dengan keterangan kelas 700. Jadi, untuk metode s1 selanjutnya akan masuk ke dalam kelas utama 500 untuk mencari nilai similarity antara keyword dan keterangan kelas divisi 500. Namun untuk metode s3 nilai similarity antara keyword dan keterangan kelas 700 lebih besar, daripada nilai similarity antara keyword dengan keterangan kelas 500. Jadi, untuk metode s3, selanjutnya akan masuk ke dalam kelas utama 700 untuk mencari nilai similarity antara keyword dan keterangan kelas divisi 700.
Penghitungan similarity di kelas divisi dan section sama dengan penghitungan di kelas utama. Jika ditemukan kelas divisi yang kosong (belum digunakan), akan langsung dicari nilai similarity antara keyword dan keterangan ke dalam kelas section-nya. Hasil penghitungan similarity antara keyword dengan keterangan kelas divisi 700 menggunakan metode s3 dapat dilihat pada Tabel 5.
Dilihat dari Tabel 5, penghitungan similarity dengan metode s3 antara keyword dan keterangan divisi kelas 700 menghasilkan nilai maksimum 0.346887634 yang dimiliki oleh kelas divisi 710 (landscape art).
Dapat dilihat bahwa kelas divisi 740 belum digunakan, oleh karena itu langsung dicari similarity antara keyword dan keterangan kelas section 740 (741-749).
Tabel 5 Penghitungan similarity antara keyword dan kelas divisi
Kelas Divisi Nilai S3
700 Arts 0.198517920
710 Landscape 0.346887634
710 Art 0.143120866
720 Philosophy 0.180421855
720 Theory 0.165297459
720 Architecture 0.111077841
730 Philosophy 0.180421855
730 Theory 0.165297459
730 Plastic 0.075131309
730 Arts 0.198517920
740 Kosong Cari di section 741 -749
750 Painting 0.132406832
760 Graphic 0.107043254
760 Art 0.143120866
770 Photography 0.222508016
770 Photograph 0.141318276
780 Philosophy 0.180421855
780 Music 0.079106285
790 Recreation 0.270946213
790 Activity 0.341973764
Hasil maksimum s3 di section 741- 749
0.270946213
Maksimum 0.346887634
Kelas 710
Setelah mendapatkan kelas divisi 710 sebagai kelas divisi dengan nilai similarity terbesar, langkah selanjutnya adalah mencari nilai similarity antara keyword dan keterangan kelas section 711-719. Contoh penghitungan kelas section dengan metode s3 dapat dilihat pada Tabel 6.
Hasil akhir penghitungan similarity untuk menentukan kelas DDC yang relevan dengan metode s3 menghasilkan kelas 711 sebagai kelas dari dokumen dengan keyword garden city concept, landscape, preservation plan. Kelas dokumen asli dengan keyword tersebut adalah 712.
Tabel 6 Penghitungan similarity antara keyword dan kelas section Kelas Section Nilai S3
711 Area 0.484605898
711 Planning 0.208208529
712 Landscape 0.346887634
712 Architecture 0.111077841
712 Landscape 0.346887634
712 Design 0.211127657
713 Landscape 0.346887634
713 Design 0.211127657
713 Trafficway 0.000000000
714 Specific 0.169632383
714 Element 0.181724685
714 Landscape 0.346887634
714 Design 0.211127657
715 Plan 0.198063520
715 Landscape 0.346887634
715 Design 0.211127657
717 Structure 0.169449368
717 Landscape 0.346887634
717 Design 0.211127657
718 Lanscape 0.000000000
718 Design 0.211127657
718 Cemetry 0.000000000
719 Natural 0.124086610
719 Landscape 0.346887634
Hasil maksimum s3
di section 741-749 0.270946213
Maksimum 0.484605898
Kelas 711
Evaluasi
Evaluasi dilakukan dengan menguji 30 dokumen percobaan ke dalam aplikasi penentuan subjek ini dengan metode s1, s2, dan s3. Setiap dokumen akan diberi bobot yang berbeda sesuai dengan kesamaan digit kelas yang dihasilkan dibandingkan dengan digit kelas asli dokumen. Adapun bobot yang diberikan untuk setiap dokumen adalah:
• 100 untuk dokumen yang menghasilkan kelas yang sama dengan kelas dokumen aslinya.
• 75 untuk dokumen yang menghasilkan kelas yang sama sampai kelas divisi dengan kelas dokumen aslinya.
• 25 untuk dokumen yang menghasilkan kelas yang sama hanya kelas utama, dengan kelas pada dokumen aslinya.
• 0 untuk dokumen yang menghasilkan kelas yang benar-benar berbeda dengan kelas pada dokumen aslinya.
Grafik hasil evaluasi 30 dokumen dengan menggunakan metode s1 dapat dilihat pada Gambar 3, untuk metode s2 dapat dilihat pada Gambar 4, dan untuk metode dapat dilihat pada Gambar 5.
Gambar 3 Grafik evaluasi 30 dokumen dengan metode s1.
Gambar 4 Grafik evaluasi 30 dokumen
dengan metode s2.
Gambar 5 Grafik evaluasi 30 dokumen
dengan metode s3.
Sesuai dengan grafik pada Gambar 2, Gambar 3, dan Gambar 4 dengan menggunakan metode s1 sebanyak 24 dokumen bernilai 0, sebanyak 6 dokumen bernilai 25 dan 2 dokumen bernilai 50. Metode s2 menghasilkan 25
dokumen bernilai 0, 5 dokumen bernilai 25, dan 1 dokumen bernilai 50. Metode s3 menghasilkan 27 dokumen bernilai 0, 3 dokumen bernilai 25, dan 2 dokumen bernilai 50. Ketiga metode di atas belum menghasilkan dokumen yang bernilai 100. Adapun hasil similarity dari 30 dokumen dapat dilihat pada Lampiran 2.
SIMPULAN DAN SARAN
Simpulan
Dari hasil penelitian ini dapat disimpulkan bahwa penentuan subjek berbasis DDC menggunakan penghitungan similarity kata kerja dan kata benda dari NLTK kurang berhasil, karena dengan ketiga metode yang digunakan tidak ada dokumen yang menghasilkan nilai 100, sedikitnya dokumen yang bernilai 75, dan karena yang digunakan adalah kata dalam keyword bukan frasa keyword tersebut.
Saran
Saran untuk penelitian selanjutnya adalah:
• Menggunakan penghitungan similarity lain selain Lin Similarity.
• Mencari pembobotan frase agar kata yang di hitung kemiripannya mewakili maksud dari frase keyword dokumen.
• Menggunakan korpus lain selain brown corpus untuk istilah istilah fisika biologi.
• Menggunakan stemming sehingga tidak ada keyword yang terbuang disebabkan kata tersebut bukan termasuk noun atau verb.
DAFTAR PUSTAKA
Bird S, Klein E, Loper E. 2009. Natural Language Processing with Python. California:
O’Reily.
Hardjoprakoso M. 1993. Terjemahan Ringkasan Klasifikasi Desimal Dewey dan Indeks Relatif.
Jakarta: Perpustakaan Nasional.
Hliaoutakis A, Varelas G, Voutsakis E, and Pertakis EGM. 2006. Information Retrieval by Semantic Similarity. IJSWIS 3(3):55-73.
Miller GA. 1995. Wordnet: A Lexical Database for English. Communication of the ACM 38:39-41.
Mortimer M. 2000. Learn Dewey Decimal Classification. Ed ke-22. Texas: TotalRecall Publication, Inc.
0 5 10 15 20 25 30
Salah Utama Divisi Section
Jumlah
Hasil Penentuan Kelas
0 5 10 15 20 25 30
Salah Utama Divisi Section
Jumlah
Hasil Penentuan Kelas
0 5 10 15 20 25 30
Salah Utama Divisi Section
Jumlah
Hasil Penentuan Kelas
LAMPIRAN
Lampiran 1 Antarmuka implementasi
Lampiran 2 Hasil similarity 30 dokumen
Kelas Utama Kelas Divisi Kelas Section
AVG MAX MIN AVG MAX MIN AVG MAX MIN
Tesis 500 500 700 710 710 710 711
Tesis 700 700 700
Tesis 700 200 200
Tesis 200 200 700 790 790 710 717
Tesis 700 700 700
Tesis 700 500 700 590 550 590
Tesis 700 700 700
Tesis 700 700 700
Tesis 100 600 700 200
Tesis 200 400 700
Tesis 200 200 700
Tesis 500 500 400 500 540 550 500 550 500
Tesis 700 200 700
Tesis 300 300 700
Disertasi 700 700 700
Disertasi 500 500 700
Tesis 600 600 700
Tesis 700 700 700
Tesis 200 200 700
Tesis 100 100 200 700 150 150 170 156 158 155 158
Tesis 500 500 500
Disertasi 700 700 700
Disertasi 200 700 200
Disertasi 200 300 700 790 720 748
Disertasi 700 700 700
Disertasi 200 300 400 380 300 362 352
Disertasi 500 500 700
Disertasi 500 600 700 540 500 540 590
Disertasi 600 600 400 640 600 620 660 690 650
Disertasi 500 500 700 540 500 540 590 501 506 506