PENENTUAN SUBJEK OTOMATIS BERBASIS DDC PADA DOKUMEN PERPUSTAKAAN MENGGUNAKAN ALGORITME LIN SIMILARITY ANDRI SETYAWAN

(1)

1

PENENTUAN SUBJEK OTOMATIS BERBASIS DDC PADA DOKUMEN PERPUSTAKAAN MENGGUNAKAN

ALGORITME LIN SIMILARITY

ANDRI SETYAWAN

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

BOGOR

2012

(2)

PENENTUAN SUBJEK OTOMATIS BERBASIS DDC PADA DOKUMEN PERPUSTAKAAN MENGGUNAKAN

ALGORITME LIN SIMILARITY

ANDRI SETYAWAN

Skripsi

sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

BOGOR

2012

(3)

ABSTRACT

ANDRI SETYAWAN. Automatic Subject Classification Based on DDC System for Library Document. Supervised by FIRMAN ARDIANSYAH.

Subject classification for library document with Dewey Decimal Classification (DDC) system is difficult to perform manually. The goal of this research is to make an application that automatically do perform subject classification for library document using similarity method. We use Natural Language ToolKit (NLTK) with Wordnet module to find similarity between keyword and DDC class. DDC is a hierarchy classification. We use Lin Similarity to find similarity between two words, with Brown corpus for Information Content (IC) of Wordnet. Wordnet can find similarity for only noun and verb, so we do not process other kinds of word. We use 30 documents combination of theses and dissertations in Bogor Agriculture University. We use 3 different methods to decide the relevant class of DDC which is similar to a document keyword. The first method is maximum-maximum method, the second one is maximum-average method, and the third method is maximum-minimum method. The first method results in 6 documents having the same main class, 2 documents having the same division class, and 0 document having the same section class. The second method results in 5 documents having the same main class, 1 document having the same division class, and 0 document having the same section class. The third method results in 3 documents having the same main class, 2 documents having the same division class, and 0 document having the same section class.

Keyword: Dewey Decimal Classification, Automatic Subject Classification, Lin Similarity, Natural Language ToolKit

(4)

Judul Skripsi : Penentuan Subjek Otomatis Berbasis DDC pada Dokumen Perpustakaan miMenggunakan Algoritme Lin Similarity

Nama : Andri Setyawan NIM : G64096008

Disetujui:

Pembimbing

Firman Ardiansyah SKom MSi NIP 19790522 200501 1 003

Diketahui:

Ketua Departemen Ilmu Komputer

Dr Ir Agus Buono MSi MKom NIP 19660702 199302 1 001

Tanggal Lulus:

(5)

iii

PRAKATA

Alhamdulillahirabbil’alamin, segala puji dan syukur penulis panjatkan ke hadirat Allah Subhanahuwa ta’ala atas segala karunia-Nya, sehingga penulis dapat menyelesaikan tugas akhir yang berjudul “Penentuan Subjek Semi Otomatis Berbasis DDC pada Dokumen Perpustakaan Menggunakan Algoritme Lin Similarity”.

Penulis juga menyampaikan ucapan terima kasih kepada:

1 Ibunda tersayang Rubiyatun, Ayah tercinta Sakiyo Adhi Saputra, kakak, dan keponakanku yang tidak henti-hentinya memberikan doa, kasih sayang, dan dukungan kepada penulis.

2 Bapak Firman Ardiansyah SKom MSi selaku dosen pembimbing yang telah memberikan arahan dan bimbingan dengan sabar kepada penulis dalam menyelesaikan tugas akhir ini.

3 Bapak Sony Hartono Wijaya SKom MKom dan Bapak Ahmad Ridha SKom MS selaku dosen penguji, dan seluruh dosen, dan staf Departemen Ilmu Komputer FMIPA IPB.

4 Teman-teman satu bimbingan, Wahyu Dwi Suryanto dan Ihsan Satria Rama yang selalu memberikan masukan, saran, dan semangat kepada penulis.

5 Teman-teman Alih Jenis Ilkom Angkatan 4 (2009) atas segala kebersamaan, bantuan, dan motivasi yang telah diberikan kepada penulis.

6 Teman-teman PT. BeIT Inovasi Tiwikrama, dan Promoote atas pengertian waktu yang diberikan kepada penulis.

7 Mira Della Rahma Nasution, yang selalu sabar, mengerti, dan memberikan semangat kepada penulis.

Penulis menyadari bahwa masih terdapat kekurangan dalam penulisan skripsi ini. Semoga skripsi ini bermanfaat.

Bogor, Agustus 2012

Andri Setyawan

(6)

RIWAYAT HIDUP

Penulis dilahirkan di Bogor, Jawa Barat pada tanggal 15 Januari 1989 dari Ibu Rubiyatun dan Bapak Sakiyo Adhi Saputra. Penulis merupakan anak kedua dari dua bersaudara. Pada tahun 2006, penulis lulus dari Sekolah Menengah Kejuruan (SMK) Negeri 1 Cibinong, dan pada tahun yang sama diterima di Diploma IPB Program Keahlian Manajemen Informatika. Pada tahun 2009 penulis lulus dari Diploma IPB dan pada tahun yang sama diterima di Program Alih Jenis Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, IPB.

(7)

v

DAFTAR ISI

Halaman

DAFTAR TABEL ... vi

DAFTAR GAMBAR ... vi

DAFTAR LAMPIRAN ... vi

PENDAHULUAN ... 1

Latar Belakang ... 1

Tujuan ... 1

Ruang Lingkup ... 1

TINJAUAN PUSTAKA ... 1

Dewey Decimal Classification (DDC) ... 1

Natural Language ToolKit (NLTK) ... 2

Wordnet ... 2

Similarity dalam Wordnet NLTK ... 2

METODE PENELITIAN ... 3

Pengumpulan Dokumen ... 3

Praproses Keyword dan Keterangan ... 3

Penghitungan Similarity ... 3

Evaluasi Hasil Percobaan ... 4

Lingkungan Pengembangan ... 4

HASIL DAN PEMBAHASAN ... 4

Pengumpulan Dokumen ... 4

Praproses Keyword dan Keterangan ... 4

Penghitungan Similarity ... 5

Evaluasi ... 6

SIMPULAN DAN SARAN ... 7

Simpulan ... 7

Saran ... 7

DAFTAR PUSTAKA ... 7

LAMPIRAN ... 8

(8)

DAFTAR TABEL

Halaman

1 Kelas utama DDC ... 2

2 Dokumen tesis dan disertasi ... 4

3 Kelas utama DDC setelah praproses data ... 5

4 Contoh penghitungan similarity dengan metode s1,s2,s3 ... 5

5 Penghitungan similarity antara keyword dan kelas divisi ... 6

6 Penghitungan similarity antara keyword dan kelas section ... 6

DAFTAR GAMBAR

Halaman 1 Skema implementasi metode. ... 3

2 Skema penghitungan similarity. ... 4

3 Grafik evaluasi 30 dokumen dengan metode s1. ... 7

DAFTAR LAMPIRAN

Halaman 1 Antarmuka implementasi ... 9

2 Hasil similarity 30 dokumen ... 10

(9)

PENDAHULUAN

Latar Belakang

Dokumen perpustakaan berbasis digital saat ini sudah sangat banyak, baik di perpustakaan umum maupun perpustakaan institusi. Dalam pengelolaan dokumen perpustakaan, baik digital maupun tertulis dilakukan klasifikasi terhadap dokumen tersebut agar dokumen lebih mudah dicari kembali. Ada beberapa sistem klasifikasi utama dokumen perpustakaan yang dikenal di Indonesia, seperti Library of Congress Classification (LOC), Dewey Decimal Classification (DDC), dan Universal Decimal Classification (UDC). Walaupun kadang- kadang digunakan juga klasifikasi menurut keinginan pembaca atau sistem pengelompokan buatan sendiri, kebanyakan perpustakaan lebih suka menggunakan salah satu dari sistem klasifikasi dokumen utama yang ada karena sistemnya dikenal luas (Hardjoprakoso 1993).

Seorang pustakawan dalam mengelola

dokumen perpustakaan harus

mengklasifikasikan dokumen ke dalam salah satu dari sistem klasifikasi tersebut. Jika perpustakaan tersebut menggunakan sistem DDC di perpustakaannya, sebuah dokumen harus diklasifikasikan dengan sistem DDC.

Sebelum pustakawan menempatkan suatu dokumen ke dalam rak, pustakawan harus mengetahui dengan benar kelas dari dokumen tersebut. Dalam DDC, penentuan kelas dapat dicari dari subjek dokumen tersebut. Subjek sebuah dokumen perpustakaan dapat ditinjau dari berbagai sudut, contohnya dari jenis dokumen atau dari inti dokumen tersebut. Untuk menemukan subjek sebuah dokumen ada beberapa metode yang digunakan untuk mengklasifikasikan subjek dokumen perpustakaan, salah satunya adalah metode Keyword In Context, Keyword Out Of Context (KWIC KWOC).

Saat ini dokumen di perpustakaan IPB diolah menggunakan sistem DDC untuk pengklasifikasiannya, dan menggunakan CAB Thesaurus untuk membantu memutuskan kelas yang sesuai dengan subjek dokumen tersebut, sedangkan penentuan subjeknya dilihat dari berbagai sudut oleh pustakawan yang mengolah dokumen tersebut, contohnya dilihat dari sudut bacaan, dari tipe dokumen, atau dari maksud penulis, untuk dokumen tesis dan disertasi subjek ditentukan dari keyword dokumennya.

Walaupun sudah menggunakan DDC dan CAB Thesaurus, dalam pelaksanaannya klasifikasi masih dilakukan secara manual. Hal itu berdampak pada lamanya pengolahan dokumen perpustakaan.

Tujuan

Penelitian ini bertujuan membuat aplikasi yang dapat menentukan subjek secara otomatis dengan kelas berbasis DDC menggunakan metode menghitung similarity antar dua kata dengan NLTK (Natural Language ToolKit).

Kata yang dicari similarity-nya adalah keterangan kelas DDC dengan keyword dari dokumen perpustakaan, serta menguji relevansi kelas yang dihasilkan dilihat dari segi penentuan oleh pustakawan (manual) dan oleh komputer (otomatis).

Ruang Lingkup

Ruang lingkup penelitian ini dibatasi pada:

• Penghitungan similarity menggunakan Natural Language ToolKit (NLTK) dengan bahasa pemograman python, dengan modul Wordnet.

• Penghitungan similarity Menggunakan fungsi lin_similarity.

• Kelas DDC 000-099 tidak digunakan karena merupakan kelas untuk dokumen yang bersubjek karya umum (general).

• Hanya kata benda dan kata kerja pada keyword dokumen yang digunakan.

• Menggunakan metadata tesis dan disertasi IPB berbahasa Inggris.

TINJAUAN PUSTAKA

Dewey Decimal Classification (DDC)

Sebuah sistem klasifikasi yang diciptakan oleh Melvil Dewey pada tahun 1876, dan sejak itu telah banyak dimodifikasi dan dikembangkan hingga saat ini versi terakhir DDC adalah DDC 22. DDC termasuk ke dalam sistem klasifikasi hirarki. DDC terdiri atas dua bagian yaitu kelas dan keterangan (Hardjoprakoso 1993). DDC dituliskan dengan tiga digit angka, angka pertama menunjukkan kelas utama, angka kedua menunjukkan kelas divisi, dan angka ketiga menunjukkan kelas section-nya. Kelas utama adalah kelas seperti 100, 200, sampai 900. Kelas divisi adalah kelas seperti 110, 120, 130, sampai 190 (angka persepuluhan), dan kelas section adalah kelas dengan angka antara 111-119. Klasifikasi dokumen menggunakan sistem DDC memerlukan penentuan subjek dokumen, fokus disiplin dokumen, atau jika diperlukan pendekatan dari bentuk dokumen (Mortimer 2000). Setiap dokumen perpustakaan yang diolah menggunakan sistem DDC akan dimasukkan ke dalam satu dari kelas yang ada

(10)

di sistem DDC. Contoh kelas utama dari DDC dapat dilihat pada Tabel 1.

Tabel 1 Kelas utama DDC Kelas Disiplin Ilmu

000 General

100 Phylosophy, Psychology

200 Religion

300 Social

400 Language

500 Science, Mathematics

600 Technology

700 Art, Fine, Sport

800 Literature

900 Geography, History

Natural Language ToolKit (NLTK)

NLTK dikembangkan sejak tahun 2001 di University of Pennsylvania, untuk membantu dalam penelitian tentang Natural Language Processing (NLP) (Bird 2009). NLTK mempunyai empat keunggulan, yaitu:

• Simplicity, NLTK memberikan pengguna pengetahuan singkat tentang NLP, tanpa harus memahami keseluruhan NLP.

• Consistency, NLTK dibuat dengan antarmuka, dan struktur data yang konsisten, juga metode dengan penamaan yang mudah.

• Extensibility, NLTK memungkinkan penambahan modul baru untuk menyelesaikan masalah-masalah NLP.

• Modularity, NLTK memungkinkan modul digunakan secara independen tanpa memerlukan modul yang lain.

NLTK mempunyai banyak fungsi dan modul untuk membantu penelitian di bidang NLP, salah satunya adalah fungsi similarity dan modul Wordnet.

Wordnet

Wordnet adalah elektronik lexical database yang dikembangkan oleh tim Prof. George Miller di Universitas Princeton, sejak tahun 1985. Kata-kata di dalam Wordnet akan disusun dalam synonym sets (synsets). Setiap kata di dalam Wordnet memiliki hubungan hypernim/hyponim (Miller 1995).

Wordnet di dalam NLTK sangat cocok digunakan untuk menghitung similarity karena terdapat hubungan similarity kata benda

NLTK versi 2.0 terdapat 9 hirarki terpisah untuk kata benda dengan 80.000 konsep dan 554 hirarki untuk kata kerja dengan 135.000 konsep (Hliaoutakis et al 2006). Kata sifat (adjectives) belum memiliki hubungan similarity dalam bentuk hirarki, jadi pencarian similarity untuk kata sifat belum dapat dilakukan di modul Wordnet NLTK.

Similarity dalam Wordnet NLTK

Similarity dalam Wordnet didapatkan dari seberapa mirip kata A dengan kata B, dalam konsep hirarki Wordnet (synsets). Contohnya adalah kata car lebih mirip ke kata boat daripada ke kata tree, karena kata car dan kata boat mempunyai ancestor konsep yang sama yaitu kata vehicle (Bird 2009). Adapun beberapa jenis similarity dalam modul Wordnet NLTK adalah:

• Path Similarity

Path Similarity mencari kemiripan antara dua kata berdasarkan jarak terdekat antara kata berdasarkan hubungan hypernim/hyponim di dalam Wordnet.

• Lch Similarity (Leacock-Chodorow)

Sama dengan Path Similarity, namun pada Lch Similarity dihitung juga maksimum dari kedalaman taksonomi hypernim/hyponim kata yang dicari kemiripannya. Rumus umumnya adalah:

-log(p/2d) ………(1) dengan:

p = jarak terpendek antara dua kata.

d = kedalaman taksonomi hypernim/hyponim.

• Wup Similarity (Wu-Palmer)

Wup Similarity mencari kemiripan antara dua kata berdasarkan kedalaman dari dua kata dalam taksonomi hypernim/hyponim Wordnet, dan kedalaman dari Least Common Subsumer (LCS) dari dua kata tersebut. LCS adalah hyponim dari dua kata yang dicari kemiripannya.

• Lin Similarity

Lin Similarity mencari kemiripan antara dua kata berdasarkan Information Content (IC) dari LCS. Adapun rumus Lin Similarity adalah:

(2.0*lcs_ic)/(ic1+ic2)……….(2) dengan:

lcs_ic = nilai dari lcs antara dua kata.

ic1 = nilai dari kata 1 pada IC.

ic2 = nilai dari kata 2 pada IC.

Penelitian ini menggunakan Lin Similarity

(11)

Ic_brown adalah korpus yang dibuat pada tahun 1961 di Universitas Brown. Korpus Brown mengandung jutaan teks dari 500 sumber, yang telah dikategorikan berdasarkan jenisnya, seperti berita, editorial, dan lain-lain (Bird 2009).

METODE PENELITIAN

Tahapan yang akan dilakukan pada penelitian ini dapat dilihat pada Gambar 1.

Gambar 1 Skema implementasi metode.

Pengumpulan Dokumen

Dokumen yang digunakan pada penelitian ini adalah dokumen abstrak tesis dan disertasi.

Bagian keyword diambil dari repository IPB (http://repository.ipb.ac.id) dan data kelas diambil dari perpustakaan IPB pada bagian Online Access Pubic Catalog (OPAC) (katalog.perpustakaan.ipb.ac.id/senayan3- stable11/). Sebanyak 30 dokumen tesis dan disertasi diambil secara acak.

Praproses Keyword dan Keterangan

Data yang sudah dikumpulkan akan diproses dengan cara mencari similarity/kemiripan kata

antara keyword dokumen dan keterangan kelas pada DDC. Keyword yang digunakan adalah keyword yang diberikan oleh penulis tesis atau disertasi, jadi kata-kata dalam keyword dapat mengandung istilah biologi ataupun singkatan.

Keyword dan keterangan pada kelas DDC yang akan diproses adalah kata benda (noun) dan kata kerja (verb). Kata-kata seperti kata sifat, istilah biologi, dan singkatan akan dihilangkan karena tidak dapat dicari kemiripannya. Keterangan pada sistem DDC diolah dengan ketentuan jika keterangan terdiri atas dua kata atau lebih, setiap kata akan dipisahkan, namun tetap mempunyai kelas yang sama.

Penghitungan Similarity

Similarity akan dihitung menggunakan fungsi lin_similarity yang tersedia di NLTK dengan menggunakan brown IC. Lin Similarity digunakan karena merupakan penghitungan similarity berdasarkan seberapa mirip pengertian antara dua kata. Lin similarity menghitung LCS dari dua kata, dan menggunakan nilai kata pada IC berbeda dengan path similarity yang hanya menghitung jarak/path antara dua kata.

Penentuan kelas yang relevan pada setiap level kelas di DDC adalah mencari nilai maksimum dari beberapa metode, yaitu:

• s1 = mencari nilai maksimum-maksimum similarity untuk setiap keterangan kelas, dengan keyword dokumen.

• s2 = mencari nilai maksimum rata-rata similarity untuk setiap keterangan kelas, dengan keyword dokumen.

• s3 = mencari nilai maksimum minimum similarity untuk setiap keterangan kelas, dengan keyword dokumen.

Metode yang dipilih akan digunakan hingga mendapatkan similarity antara keyword dan kelas section. Dalam menentukan kelas DDC pada aplikasi ini, pertama akan dicari similarity antara keyword dan keterangan pada sembilan kelas utama dari DDC. Proses ini akan menghasilkan satu atau lebih kelas utama yang relevan. Setelah itu, akan dicari similarity antara keyword dan keterangan kelas divisi dari DDC sehingga menghasilkan satu atau lebih kelas divisi yang relevan. Terdapat beberapa kelas divisi yang kosong (belum digunakan). Jika hal ini ditemukan, akan langsung dicari similarity antara keyword dan keterangan pada kelas section. Setelah kelas divisi yang relevan didapatkan, langkah selanjutnya adalah mencari similarity antara keyword dan keterangan pada kelas section sehingga menghasilkan kelas

(12)

section yang relevan. Skema dari penentuan similarity dapat dilihat pada Gambar 2.

Gambar 2 Skema penghitungan similarity.

Evaluasi Hasil Percobaan

Tahap evaluasi dilakukan secara objektif dengan membandingkan kelas yang dihasilkan oleh sistem dengan kelas asli dokumen, apakah hasilnya sama sampai digit section yang dimilikinya, atau sampai kelas divisi, atau hanya kelas utamanya saja yang sama.

Lingkungan Pengembangan

Lingkungan pengembangan yang digunakan pada penelitian ini adalah:

• Prosesor Intel Core i5 2.3 GHz.

• RAM 4 GB DDR3.

• MAC OSX 10.7.

• Harddisk 320 GB.

• PHP dan Python.

HASIL DAN PEMBAHASAN

Pengumpulan Dokumen

Dokumen yang digunakan pada penelitian ini sebanyak 30 dokumen yang terdiri atas dokumen tesis dan disertasi, dengan kelas DDC antara 100 sampai 900. Namun karena beberapa kelas seperti kelas 200 (Agama) sangat jarang jumlah koleksinya di Institut Pertanian Bogor, beberapa kelas tidak ada dokumennya dalam penelitian ini, namun kelas tersebut tetap digunakan dalam penghitungan similarity.

Contoh dokumen yang digunakan dapat dilihat pada Lampiran 1, dan 30 dokumen yang dikumpulkan dapat dilihat pada Tabel 2.

Tabel 2 Dokumen tesis dan disertasi Dokumen Kelas Tipe

1 712 Tesis

2 332 Tesis

3 633 Tesis

4 711 Tesis

5 631 Tesis

6 519 Tesis

7 633 Tesis

8 632 Tesis

9 595 Tesis

10 316 Tesis

11 339 Tesis

12 579 Tesis

13 338 Tesis

14 636 Tesis

15 638 Disertasi

16 636 Disertasi

17 316 Tesis

18 613 Tesis

19 334 Tesis

20 159 Tesis

21 633 Tesis

22 633 Disertasi

23 633 Disertasi

24 711 Disertasi

25 658 Disertasi

26 330 Disertasi

27 639 Disertasi

28 556 Disertasi

29 633 Disertasi

30 504 Disertasi

Praproses Keyword dan Keterangan

Pembersihan kata dalam keyword dan keterangan kelas saat ini dilakukan secara manual, dengan cara menghapus kata-kata dalam keyword dan keterangan. Adapun contoh dari keyword yang akan dicari nilai similarity dengan keterangan kelas adalah:

Garden City Concept, Historical Landscape, Preservation Plan.

Keyword di atas akan dibersihkan dari kata- kata selain kata benda dan kata kerja sehingga menghasilkan:

(13)

Garden City Concept, Landscape, Preservation Plan.

Kata historical akan dihapus karena merupakan kata sifat. Hasil dari praproses dokumen adalah kata-kata dalam keyword dan keterangan kelas yang akan dicari kemiripannya. Jumlah kata hasil praproses keywod dan keterangan sangat beragam.

Keterangan dalam kelas yang terdiri atas dua kata atau lebih akan dipisahkan, namun tetap menggunakan kelas yang sama. Kelas utama yang akan digunakan berbeda dengan kelas pada Tabel 1. Contoh kelas utama yang akan digunakan pada penelitian ini dapat dilihat pada Tabel 3.

Tabel 3 Kelas utama DDC setelah praproses data

Kelas Disiplin Ilmu

100 Phylosophy

100 Psychology

200 Religion

300 Social

400 Language

500 Science

500 Mathematics

600 Technology

700 Art

700 Fine

700 Sport

800 Literature

900 Geography

900 History

Jumlah kelas utama yang akan dicari nilai kemiripannya terhadap keyword menjadi 14 kelas utama. Kelas divisi dan kelas section juga akan dipisahkan menjadi satu kata untuk setiap kelas seperti pada kelas utama.

Penghitungan Similarity

Sesuai dengan metode penelitian, penghitungan similarity dilakukan dengan menggunakan Lin Similarity. Similarity dihitung antara keyword dari dokumen dan keterangan masing-masing kelas. Terdapat tiga metode (s1,s2,s3) yang digunakan untuk menentukan kelas DDC yang relevan pada level kelas utama, kelas divisi, dan kelas section.

Ketiga metode ini akan digunakan pada setiap

30 dokumen. Jadi, setiap dokumen akan dihitung tiga kali menggunakan metode yang berbeda. Contoh penghitungan similarity untuk keyword garden city concept, landscape, preservation plan, dengan keterangan kelas 500 (science) dan keterangan kelas 700 (sport) menggunakan metode s1, s2, dan s3. Dapat dilihat pada Tabel 4.

Tabel 4 Contoh penghitungan similarity dengan metode s1,s2,s3

500- science 700- sport

garden 0 0

city 0 0

concept 0.570850334 0.270401581

landscape 0 0

preservation 0.186301347 0.3624762

plan 0.492911084 0.234150734

Maksimum (s1) 0.570850334 0.3624762 Rata rata (s2) 0.208343794 0.175643531 Minimum(s3) 0.143120866 0.143120866 Dari Tabel 4 dapat dilihat bahwa dengan metode s1, nilai similarity antara keyword dan keterangan kelas 500 lebih besar daripada nilai similarity antara keyword dengan keterangan kelas 700. Jadi, untuk metode s1 selanjutnya akan masuk ke dalam kelas utama 500 untuk mencari nilai similarity antara keyword dan keterangan kelas divisi 500. Namun untuk metode s3 nilai similarity antara keyword dan keterangan kelas 700 lebih besar, daripada nilai similarity antara keyword dengan keterangan kelas 500. Jadi, untuk metode s3, selanjutnya akan masuk ke dalam kelas utama 700 untuk mencari nilai similarity antara keyword dan keterangan kelas divisi 700.

Penghitungan similarity di kelas divisi dan section sama dengan penghitungan di kelas utama. Jika ditemukan kelas divisi yang kosong (belum digunakan), akan langsung dicari nilai similarity antara keyword dan keterangan ke dalam kelas section-nya. Hasil penghitungan similarity antara keyword dengan keterangan kelas divisi 700 menggunakan metode s3 dapat dilihat pada Tabel 5.

Dilihat dari Tabel 5, penghitungan similarity dengan metode s3 antara keyword dan keterangan divisi kelas 700 menghasilkan nilai maksimum 0.346887634 yang dimiliki oleh kelas divisi 710 (landscape art).

(14)

Dapat dilihat bahwa kelas divisi 740 belum digunakan, oleh karena itu langsung dicari similarity antara keyword dan keterangan kelas section 740 (741-749).

Tabel 5 Penghitungan similarity antara keyword dan kelas divisi

Kelas Divisi Nilai S3

700 Arts 0.198517920

710 Landscape 0.346887634

710 Art 0.143120866

720 Philosophy 0.180421855

720 Theory 0.165297459

720 Architecture 0.111077841

730 Philosophy 0.180421855

730 Theory 0.165297459

730 Plastic 0.075131309

730 Arts 0.198517920

740 Kosong Cari di section 741 -749

750 Painting 0.132406832

760 Graphic 0.107043254

760 Art 0.143120866

770 Photography 0.222508016

770 Photograph 0.141318276

780 Philosophy 0.180421855

780 Music 0.079106285

790 Recreation 0.270946213

790 Activity 0.341973764

Hasil maksimum s3 di section 741- 749

0.270946213

Maksimum 0.346887634

Kelas 710

Setelah mendapatkan kelas divisi 710 sebagai kelas divisi dengan nilai similarity terbesar, langkah selanjutnya adalah mencari nilai similarity antara keyword dan keterangan kelas section 711-719. Contoh penghitungan kelas section dengan metode s3 dapat dilihat pada Tabel 6.

Hasil akhir penghitungan similarity untuk menentukan kelas DDC yang relevan dengan metode s3 menghasilkan kelas 711 sebagai kelas dari dokumen dengan keyword garden city concept, landscape, preservation plan. Kelas dokumen asli dengan keyword tersebut adalah 712.

Tabel 6 Penghitungan similarity antara keyword dan kelas section Kelas Section Nilai S3

711 Area 0.484605898

711 Planning 0.208208529

712 Landscape 0.346887634

712 Architecture 0.111077841

712 Landscape 0.346887634

712 Design 0.211127657

713 Landscape 0.346887634

713 Design 0.211127657

713 Trafficway 0.000000000

714 Specific 0.169632383

714 Element 0.181724685

714 Landscape 0.346887634

714 Design 0.211127657

715 Plan 0.198063520

715 Landscape 0.346887634

715 Design 0.211127657

717 Structure 0.169449368

717 Landscape 0.346887634

717 Design 0.211127657

718 Lanscape 0.000000000

718 Design 0.211127657

718 Cemetry 0.000000000

719 Natural 0.124086610

719 Landscape 0.346887634

Hasil maksimum s3

di section 741-749 0.270946213

Maksimum 0.484605898

Kelas 711

Evaluasi

Evaluasi dilakukan dengan menguji 30 dokumen percobaan ke dalam aplikasi penentuan subjek ini dengan metode s1, s2, dan s3. Setiap dokumen akan diberi bobot yang berbeda sesuai dengan kesamaan digit kelas yang dihasilkan dibandingkan dengan digit kelas asli dokumen. Adapun bobot yang diberikan untuk setiap dokumen adalah:

• 100 untuk dokumen yang menghasilkan kelas yang sama dengan kelas dokumen aslinya.

• 75 untuk dokumen yang menghasilkan kelas yang sama sampai kelas divisi dengan kelas dokumen aslinya.

(15)

• 25 untuk dokumen yang menghasilkan kelas yang sama hanya kelas utama, dengan kelas pada dokumen aslinya.

• 0 untuk dokumen yang menghasilkan kelas yang benar-benar berbeda dengan kelas pada dokumen aslinya.

Grafik hasil evaluasi 30 dokumen dengan menggunakan metode s1 dapat dilihat pada Gambar 3, untuk metode s2 dapat dilihat pada Gambar 4, dan untuk metode dapat dilihat pada Gambar 5.

Gambar 3 Grafik evaluasi 30 dokumen dengan metode s1.

Gambar 4 Grafik evaluasi 30 dokumen

dengan metode s2.

Gambar 5 Grafik evaluasi 30 dokumen

dengan metode s3.

Sesuai dengan grafik pada Gambar 2, Gambar 3, dan Gambar 4 dengan menggunakan metode s1 sebanyak 24 dokumen bernilai 0, sebanyak 6 dokumen bernilai 25 dan 2 dokumen bernilai 50. Metode s2 menghasilkan 25

dokumen bernilai 0, 5 dokumen bernilai 25, dan 1 dokumen bernilai 50. Metode s3 menghasilkan 27 dokumen bernilai 0, 3 dokumen bernilai 25, dan 2 dokumen bernilai 50. Ketiga metode di atas belum menghasilkan dokumen yang bernilai 100. Adapun hasil similarity dari 30 dokumen dapat dilihat pada Lampiran 2.

SIMPULAN DAN SARAN

Simpulan

Dari hasil penelitian ini dapat disimpulkan bahwa penentuan subjek berbasis DDC menggunakan penghitungan similarity kata kerja dan kata benda dari NLTK kurang berhasil, karena dengan ketiga metode yang digunakan tidak ada dokumen yang menghasilkan nilai 100, sedikitnya dokumen yang bernilai 75, dan karena yang digunakan adalah kata dalam keyword bukan frasa keyword tersebut.

Saran

Saran untuk penelitian selanjutnya adalah:

• Menggunakan penghitungan similarity lain selain Lin Similarity.

• Mencari pembobotan frase agar kata yang di hitung kemiripannya mewakili maksud dari frase keyword dokumen.

• Menggunakan korpus lain selain brown corpus untuk istilah istilah fisika biologi.

• Menggunakan stemming sehingga tidak ada keyword yang terbuang disebabkan kata tersebut bukan termasuk noun atau verb.

DAFTAR PUSTAKA

Bird S, Klein E, Loper E. 2009. Natural Language Processing with Python. California:

O’Reily.

Hardjoprakoso M. 1993. Terjemahan Ringkasan Klasifikasi Desimal Dewey dan Indeks Relatif.

Jakarta: Perpustakaan Nasional.

Hliaoutakis A, Varelas G, Voutsakis E, and Pertakis EGM. 2006. Information Retrieval by Semantic Similarity. IJSWIS 3(3):55-73.

Miller GA. 1995. Wordnet: A Lexical Database for English. Communication of the ACM 38:39-41.

Mortimer M. 2000. Learn Dewey Decimal Classification. Ed ke-22. Texas: TotalRecall Publication, Inc.

0 5 10 15 20 25 30

Salah Utama Divisi Section

Jumlah

Hasil Penentuan Kelas

0 5 10 15 20 25 30

Jumlah

0 5 10 15 20 25 30

Jumlah

(16)

LAMPIRAN

(17)

Lampiran 1 Antarmuka implementasi

(18)

Lampiran 2 Hasil similarity 30 dokumen

Kelas Utama Kelas Divisi Kelas Section

AVG MAX MIN AVG MAX MIN AVG MAX MIN

Tesis 500 500 700 710 710 710 711

Tesis 700 700 700

Tesis 700 200 200

Tesis 200 200 700 790 790 710 717

Tesis 700 700 700

Tesis 700 500 700 590 550 590

Tesis 700 700 700

Tesis 100 600 700 200

Tesis 200 400 700

Tesis 200 200 700

Tesis 500 500 400 500 540 550 500 550 500

Tesis 700 200 700

Tesis 300 300 700

Disertasi 700 700 700

Tesis 600 600 700

Tesis 700 700 700

Tesis 200 200 700

Tesis 100 100 200 700 150 150 170 156 158 155 158

Tesis 500 500 500

Disertasi 200 300 700 790 720 748

Disertasi 200 300 400 380 300 362 352

Disertasi 500 600 700 540 500 540 590

Disertasi 600 600 400 640 600 620 660 690 650

Disertasi 500 500 700 540 500 540 590 501 506 506