• Tidak ada hasil yang ditemukan

Clustering Dokumen Skripsi Berdasarkan Abstrak dengan Menggunakan Bisecting K-Means

N/A
N/A
Protected

Academic year: 2017

Membagikan "Clustering Dokumen Skripsi Berdasarkan Abstrak dengan Menggunakan Bisecting K-Means"

Copied!
30
0
0

Teks penuh

(1)

CLUSTERING

DOKUMEN SKRIPSI BERDASARKAN

ABSTRAK DENGAN MENGGUNAKAN

BISECTING

K-MEANS

NURUL ARIFIN SUBANDI

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN INSTITUT PERTANIAN BOGOR

(2)
(3)

PERNYATAAN MENGENAI SKRIPSI DAN

SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA

Dengan ini saya menyatakan bahwa skripsi berjudul Clustering Dokumen Skripsi Berdasarkan Abstrak dengan Menggunakan Bisecting K-Means adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.

(4)

ABSTRAK

NURUL ARIFIN SUBANDI. Clustering Dokumen Skripsi Berdasarkan Abstrak dengan Menggunakan Bisecting K-Means. Dibimbing oleh AHMAD RIDHA.

Kebutuhan terhadap pencarian data skripsi terus meningkat setiap tahunnya seiring bertambahnya jumlah mahasiswa. Pencarian referensi dengan menelusuri dokumen satu per satu memakan banyak waktu dan tenaga. Oleh sebab itu, sebuah sistem yang mampu mengelompokkan dokumen secara otomatis dibutuhkan. Penelitian ini mengembangkan sistem untuk melakukan clustering terhadap dokumen skripsi secara otomatis berdasarkan abstrak yang ada dalam dokumen. Metode yang digunakan adalah Bisecting K-Means untuk clustering data. Data yang digunakan pada penelitian ini adalah skripsi Ilmu Komputer IPB yang terdiri atas 78 dokumen abstrak berbahasa Indonesia dan 113 dokumen abstrak berbahasa Inggris. Dari hasil yang diperoleh dapat disimpulkan bahwa clustering dokumen dengan menggunakan Bisecting K-Means dapat dilakukan dengan nilai threshold i (jarak internal cluster) terbaik untuk clustering abstrak bahasa Indonesia adalah 0.67, yang menghasilkan rand index sebesar 0.867 dan nilai i terbaik untuk clustering abstrak bahasa Inggris adalah 0.55 yang menghasilkan rand index sebesar 0.862.

Kata kunci: abstrak, Bisecting K-Means, clustering.

ABSTRACT

NURUL ARIFIN SUBANDI. Skripsi Based Document Clustering Using Abstract with Bisecting K-Means. Supervised by AHMAD RIDHA.

The need of thesis data searching increases every year along with the increase in the number of students. Search of reference by tracing documents one by one takes a lot of time. Therefore, a system that is capable of clustering documents automatically is necessary. This study developed a system to perform clustering of theses automatically based on their abstracts. It used bisecting K-means method to cluster the data. The data in this research were from IPB’s Computer Science bachelor theses, comprising 78 abstracts in Indonesian and 113 abstracts in English. The result showed that clustering the documents using bisecting K-means could be done with the best value of i threshold (internal cluster distance) of 0.67 for the Indonesian abstracts resulting in a rand index of 0.867, while the best i threshold value for the English abstracts was 0.55 resulting in a rand index of 0.862.

(5)

Skripsi

sebagai salah satu syarat untuk memperoleh gelar Sarjana Ilmu Komputer

pada

Departemen Ilmu Komputer

CLUSTERING

DOKUMEN SKRIPSI BERDASARKAN

ABSTRAK DENGAN MENGGUNAKAN

BISECTING

K-MEANS

NURUL ARIFIN SUBANDI

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN INSTITUT PERTANIAN BOGOR

(6)

Penguji:

(7)
(8)

Judul Skripsi : Clustering Dokumen Skripsi Berdasarkan Abstrak dengan Menggunakan Bisecting K-Means

Nama : Nurul Arifin Subandi NIM : G64114018

Disetujui oleh

Ahmad Ridha, SKom MS Pembimbing

Diketahui oleh

Dr Ir Agus Buono, MSi MKom Ketua Departemen

(9)

PRAKATA

Puji dan syukur penulis kehadirat Allah subhanahu wata’ala atas segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Shalawat berserta salam juga penulis sampaikan kepada Nabi Muhammad shalallahu ’alaihi wa sallam, berserta para keluarga, shahabat dan umatnya hingga akhir zaman.

Banyak pihak yang telah membantu penulis hingga terselesaikannya tugas akhir ini. Oleh sebab itu, penulis ingin mengucapkan rasa terima kasih kepada: 1. Ayahanda Subandi dan Ibunda Suparti serta kakak penulis Arbyanto dan Ari

Nurita yang senantiasa mendoakan, memotivasi, dan memberikan kasih sayangnya kepada penulis.

2. Bapak Ahmad Ridha, Skom MS selaku dosen pembimbing yang telah membimbing dan mengarahkan penulis selama penelitian tugas akhir ini. 3. Bapak Dr Ir Agus Buono, MSi MKom dan Bapak Firman Ardiansyah, SKom

MSi selaku dosen penguji.

4. Keluarga besar Pondok Pesantren Nurul Imdad Bogor yang selalu mendidik, mendoakan dan memotivasi penulis.

5. Seluruh teman-teman Ilkomerz atas ilmu, semangat, dan dukungannya, khusunya : Selvya Rossalina, Niken Ratna Pertiwi, Suci Hitmawati, Mujahid Hasan, Nana Suryana, Endrik Sugiyanto dan Catur Teguh Oktavian.

6. Keluarga besar BARAYA IPB, khususnya : Elinda Safitri, Ridiarsih, Cepi Mangku Bumi, Fazmi Nawafi, Rahmi Amelinda, Abdul Haris Maulana dan Astari Ratnadya.

Penulis menyadari bahwa masih terdapat kekurangan dalam penulisan skripsi ini. Namun, penulis berharap dengan segala kekurangan yang ada semoga tulisan ini bisa memberikan manfaat kelak di kemudian hari. Amin.

Bogor, Juni 2014

(10)

DAFTAR ISI

DAFTAR TABEL v

DAFTAR GAMBAR v

DAFTAR LAMPIRAN v

PENDAHULUAN 10

Latar Belakang 10

Tujuan Penelitian 10

Ruang Lingkup Penelitian 10

METODE 2

Koleksi Dokumen 2

Praproses 2

Pemodelan Ruang Vektor 3

Clustering 5

Evaluasi 5

Lingkungan Pengembangan 6

HASIL DAN PEMBAHASAN 6

Pengambilan dan Pemilihan Data 6

Pengelompokan Manual 7

Praproses Data 7

Bisecting K-Means 7

Validasi Hasil Clustering 10

SIMPULAN DAN SARAN 10

Simpulan 10

Saran 10

DAFTAR PUSTAKA 10

LAMPIRAN 12

(11)

DAFTAR TABEL

1 Jumlah term hasil dari tokenisasi 7

2 Serangkaian percobaan mencari posisi nilai i terbaik untuk kategori

kategori abstrak bahasa Indonesia 8

3 Serangkaian percobaan mencari posisi nilai i terbaik untuk kategori

abstrak bahasa Inggris 8

4 Hasil percobaan clustering pada kategori abstrak bahasa Indonesia 9 5 Hasil percobaan clustering pada kategori abstrak bahasa Inggris 9

DAFTAR GAMBAR

1 Skema Penelitian 2

2 Contoh dokumen abstrak bahasa Indonesia 3

3 Contoh dokumen abstrak bahasa Inggris 3

4 Ilustrasi kesamaan cosine similarity 5

DAFTAR LAMPIRAN

(12)

PENDAHULUAN

Latar Belakang

Mengelola informasi dari sekumpulan dokumen teks yang jumlahnya sangat besar tentunya bukan pekerjaan yang mudah karena butuh waktu lama dan tenaga kerja yang tidak sedikit. Di sisi lain, setiap orang menginginkan waktu yang cepat dalam memperoleh informasi yang diinginkan, sebagaimana yang diungkapkan oleh Nah (2004). Bila ditinjau dari volume dokumen teks yang berada di internet, perpustakaan digital, dan web intranet perusahaan yang sangat besar, suatu sistem yang efisien diperlukan untuk mengekstraksi informasi agar waktu untuk mendapatkan informasi menjadi lebih pendek.

Salah satu masalah yang terjadi dalam pengelolaan informasi adalah pencarian data skripsi yang dilakukan oleh mahasiswa. Kebutuhan terhadap pencarian data skripsi terus meningkat setiap tahunnya seiring bertambahnya jumlah mahasiswa. Seringkali mahasiswa/orang yang mencari sumber referensi kesulitan untuk mencari referensi terkait dengan topik penelitiannya. Tentu saja ini dapat menghambat kinerja para mahasiswa dalam melakukan penelitian. Untuk mengatasi permasalahan yang sering dialami mahasiswa, diperlukan sebuah metode yang dapat mengorganisir dan mengklasifikasi dokumen secara otomatis untuk mempermudah pencarian informasi yang relevan dengan kebutuhan. Penelitian ini mengembangkan sistem untuk melakukan clustering terhadap dokumen skripsi secara otomatis berdasarkan abstrak yang ada dalam dokumen.

Pada penelitian sebelumnya, Ramdani (2011) yang melakukan clustering pada dokumen berita berbahasa Indonesia menggunakan Bisecting K-Means, dan menemukan bahwa clustering berdasarkan dokumen berita dapat dilakukan dan nilai akurasi mencapai 87.3%. Ramdani (2011) menggunakan data dokumen dengan domain yang berbeda, sehingga tingkat perbedaan antar dokumen cukup tinggi. Oleh karena itu, penelitian ini mencoba menggunakan metode Bisecting K-Means untuk clustering data pada satu domain Ilmu Komputer yang memiliki tingkat perbedaan yang rendah.

Tujuan Penelitian

Tujuan dari penelitian ini adalah menerapkan algoritme Bisecting K-Means untuk mengelompokkan dokumen skripsi berdasarkan abstraknya.

Ruang Lingkup Penelitian

Ruang lingkup penelitian ini meliputi:

1 Data yang digunakan pada penelitian ini adalah skripsi Ilmu Komputer IPB dengan format PDF.

(13)

2

3 Penelitian ini menggunakan algoritme Bisecting K-means untuk clustering.

METODE

Penelitian ini dilakukan dengan beberapa tahap, seperti yang ditunjukan pada Gambar 1. Data yang akan digunakan dalam penelitian ini adalah koleksi abstrak dokumen skripsi. Selain koleksi abstrak, penelitian ini juga menggunakan stopwords yang merupakan daftar kata buang yang akan digunakan pada praproses. Setelah praproses, tahap selanjutnya adalah melakukan pemodelan ruang vektor untuk pembobotan terhadap term dan merepresentasikan dokumen ke dalam bentuk vektor. Hasil dari praproses adalah matriks document-concept yang kemudian akan dikelompokkan menjadi K cluster. Pada tahap akhir, dilakukan evaluasi menggunakan rand index terhadap hasil clustering.

Gambar 1 Skema Penelitian

Koleksi Dokumen

Koleksi dokumen yang digunakan dalam penelitian ini diperoleh dari perpustakaan Ilmu Komputer IPB dengan jumlah 191 dokumen, yang terdiri dari 78 dokumen abstrak berbahasa Indonesia dan 113 dokumen abstrak berbahasa Inggris. Dokumen yang masih dalam format PDF kemudian diekstrak menjadi plain text dan diambil bagian abstraknya, setelah itu dibagi ke dalam 2 kategori, yaitu abstrak berbahasa Indonesia dan abstrak berbahasa Inggris. Adapun contoh abstrak berbahasa Indonesia dan abstrak berbahasa Inggris dapat dilihat pada Gambar 2 dan Gambar 3.

Praproses

Pada tahap praproses dilakukan beberapa tahapan, yaitu lowercasing, tokenisasi, dan pembuangan stopwords. Lowercasing adalah proses mengubah semua huruf menjadi huruf kecil. Hal ini dilakukan agar setiap kata pada dokumen menjadi case-sensitif pada saat pemrosesan teks dokumen.

Tokenisasi adalah proses untuk membagi teks input menjadi unit-unit kecil yang disebut token (Manning et al. 2009). Token atau biasa disebut juga term bisa berupa suatu kata, angka atau tanda baca. Pada penelitian ini tanda baca dihilangkan sehingga tidak dianggap sebagai token.

Stopwords adalah daftar kata-kata yang dianggap tidak memiliki makna. Kata yang tercantum dalam daftar ini dibuang dan tidak ikut diproses pada tahap selanjutnya. Pada umumnya kata-kata yang masuk ke dalam stopwords memiliki

Dokumen Ekstraksi

Text Praproses

Pemodelan

Ruang Vektor Clustering Evaluasi

(14)

3 tingkat kemunculan yang tinggi di tiap dokumen sehingga kata tersebut tidak dapat digunakan sebagai penciri suatu dokumen. Stopwords yang digunakan pada penelitian ini sama seperti penelitian Ridha (2004), sedangkan stopwords untuk abstrak bahasa Inggris diambil dari koleksi stopwords University of Glasglow dengan alamat url http://ir.dcs.gla.ac.uk/resources/linguistic_utils/stop_words.

Gambar 2 Contoh dokumen abstrak bahasa Indonesia

Gambar 3 Contoh dokumen abstrak bahasa Inggris

Pemodelan Ruang Vektor

(15)

4

pengelompokan vektor berdasarkan suatu fungsi similarity antara dua vektor tersebut. Dengan demikian koleksi dokumen dapat dituliskan sebagai matriks kata-dokumen X sebagai berikut:

X = {xij } i = 1, 2,…, t ; j=1, 2, …, n

dengan xij adalah bobot term i dalam dokumen ke j.

Dalam pemodelan ruang vektor, pembobotan dasar dilakukan dengan menghitung frekuensi kemunculan term dalam dokumen karena dipercaya bahwa frekuensi kemunculan term (term frequency, tf) merupakan petunjuk sejauh mana term tersebut mewakili isi dokumen. Hal ini berarti semakin banyak term tersebut terdapat di dalam dokumen yang berbeda, maka nilainya semakin besar dan memiliki pengaruh yang semakin besar pula pada clustering dokumen. Pada tahap selanjutnya, dilakukan penhitungan jumlah dokumen dalam koleksi yang mengandung term tertentu atau disebut dengan document frequency (df). Tahapan terahir dalam pemodelan ruang vektor adalah menghitung nilai tf-idf, dengan idf adalah invers document frequency menggunakan persamaan:

idft N/dft

Sedangkan untuk tf-idf menggunakan persamaan: tf-idft,d = tfd,t * idft

N = Jumlah dokumen dalam koleksi

dft = Jumlah dokumen yang mengandung term yang bersangkutan tfd,t = Frekuensi dari kemunculan sebuah term dalam dokumen yang

bersangkutan

Dari persamaan tersebut dapat dipahami bahwa tf-idft,d memberikan bobot

term t dalam dokumen d yang memiliki hubungan:

1 Bobot tinggi ketika kemunculan t dalam jumlah dokumen yang kecil.

2 Lebih rendah ketika kemunculan term sedikit dalam sebuah dokumen atau muncul dalam banyak dokumen.

3 Paling rendah ketika muncul di hampir seluruh dokumen (Manning et al. 2009). Penelitian ini menggunakan ukuran cosine similarity untuk pengukur jarak antar vektor dokumen. Kesamaan cosine similarity memiliki sifat semakin besar nilai persamaannya, semakin dekat jarak kedua vektor, dan berarti semakin mirip kedua dokumen tersebut. Ilustrasi tentang hal ini dapat dilihat pada Gambar 4.

Perhitungan jarak antara 2 dokumen di dan dj adalah dengan menghitung

kesamaan cosine similarity dari representasi vektor dokumen �(di) dan �(dj).

Vektor dokumen merupakan term frequency yang merepresentasikan jumlah term pada tiap dokumen. Kesamaan cosine similarity diformulasikan sebagai berikut:

Pembilang menunjukkan perkalian dalam atau dot product antara 2 vektor �(di)

dan �(dj). Penyebut menunjukkan perkalian panjang jarak masing-masing vektor

(16)

5

Gambar 4 Ilustrasi kesamaan cosine similarity

Clustering

Dalam model ruang vektor dikenal 2 pendekatan algoritme clustering, yaitu hierarki dan partisi (Jain dan Dubes 1988). Algoritme hierarki memiliki dua pendekatan, yaitu divisive dan aglomerative. Penelitian ini mengggunakan algoritme Bisecting K-means untuk clustering, yang merupakan penggabungan antara divisive clustering dan partitional clustering.

Bisecting K-means meiliki algoritme sebagai berikut:

1 Ambil satu cluster untuk dipecah dengan K-means (bisecting step). 2 Pilih satu dokumen yang akan dijadikan sebagai centroid awal.

3 Hitung jarak setiap dokumen terhadap centroid dengan menggunakan ukuran cosine similarity. Dokumen yang memiliki jarak lebih besar dari threshold akan berada dalam satu cluster dengan centroid, sedangkan yang lebih kecil dari threshold akan membentuk cluster baru.

4 Ulangi langkah 1 sampai 3 sebanyak ITER kali, dan ambil hasil terbaik yang memiliki overal similarity terbesar.

5 Ulangi langkah 1 sampai 4 sampai didapatkan K buah cluster.

Jumlah ITER yang digunakan dalam penelitian ini adalah 1 sehingga pembagian menjadi dua (bisection) menggunakan K-Means hanya dilakukan satu kali untuk setiap fase.

Evaluasi

(17)

6

Berikut adalah persamaan Rand Index:

Keterangan: RI = Rand Index

TP = True Positive / banyaknya pasangan dokumen yang berada pada cluster yang sama dalam pengelompokan manual sekaligus pada pengelompokan oleh sistem.

FP = False Positive / banyaknya pasangan dokumen yang berada pada cluster yang berbeda dalam pengelompokan manual tetapi berada pada satu cluster dalam pengelompokan oleh sistem.

TN = True Negative / banyaknya pasangan dokumen yang berada cluster yang berbeda dalam pengelompokan manual sekaligus pada pengelompokan oleh sistem.

FN = False Positive / banyaknya pasangan dokumen yang berada pada cluster yang sama dalam pengelompokan manual tetapi berada pada cluster yang berbeda dalam pengelompokan oleh sistem.

Pengelompokan yang dilakukan dengan cara manual dalam penelitian ini merupakan pengelompokan dokumen yang telah dianggap benar.

Lingkungan Pengembangan

Spesifikasi perangkat keras dan perangkat lunak yang digunakan untuk penelitian ini adalah sebagai berikut:

Perangkat keras:

(18)

7 kemudian diekstrak menjadi plain text dan diambil bagian abstraknya, setelah itu dibagi ke dalam 2 kategori, yaitu abstrak berbahasa Indonesia dan abstrak berbahasa Inggris. Contoh data abstrak bahasa Indonesia pada penelitian ini dapat dilihat pada Lampiran 1.

Pengelompokan Manual

Pengelompokkan manual dilakukan berdasarkan pada kesamaan topik skripsi. Kesamaan topik antar-skripsi diketahui dengan cara membaca abstrak pada setiap dokumen. Jika ditemukan topik skripsi yang tidak mempunyai kelompok, pengelompokkan dilakukan dengan melihat dosen pembimbing pada skripsi tersebut. Hal ini dilakukan dengan mengasumsikan bahwa seorang dosen pembimbing akan membimbing mahasiswa pada satu domain topik. Hasil pengelompokan manual untuk setiap kategori dokumen adalah 14 cluster untuk setiap kategori bahasa Indonesia dan 12 cluster untuk kategori bahasa Inggris. Adapun anggota untuk setiap cluster dapat dilihat pada Lampiran 2.

Praproses Data

Praproses data terbagi dalam beberapa tahapan, yaitu: lowercasing, tokenisasi, dan pembuangan stopwords. Lowercasing dilakukan agar setiap kata pada dokumen menjadi case-sensitif pada saat pemrosesan teks dokumen. Tokenisasi menghasilkan suatu unit-unit kecil yang disebut token atau term. Dalam proses tokenisasi, white space digunakan untuk melakukan pemecahan token pada setiap dokumen, dalam penelitian ini term yang bertipe integer tidak digunakan dalam proses clustering, sehingga pada saat tokeniasi term bertipe tersebut dihapus. Jumlah term awal hasil dari tokenisasi memiliki jumlah yang lebih besar dibandingkan setelah dilakukan pengurangan stopwords. Hal ini dapat dilihat pada Tabel 2. Setelah term didapat, proses pembobotan dengan tf-idf dilakukan. Hasil dari pembobotan tf-idf ini digunakan dalam proses clustering dengan menggunakan Bisecting K-Means.

Tabel 1 Jumlah term hasil dari tokenisasi

Bahasa Indonesia Bahasa Inggris

(19)

8

Tabel 2 Serangkaian percobaan mencari posisi nilai i terbaik untuk kategori bahasa Indonesia

Nilai i terbaik yang digunakan pada clustering Bisecting K-means ditentukan dengan melakukan serangkaian percobaan. Serangkaian percobaan pertama adalah dengan melakukan clustering untuk setiap kategori dokumen dengan menggunakan nilai i = 0.1 sampai dengan nilai i = 1.00 dihasilkan kemungkinan nilai i terbaik untuk bahasa Indonesia berada di antara 6.00-8.00 dan kemungkinan nilai i terbaik untuk dokumen bahasa Inggris berada di antara 5.00-7.00. Hasil percobaan dapat dilihat pada Tabel 3 dan Tabel 4, sedangkan data percobaan selengkapnya dapat dilihat pada Lampiran 5 dan Lampiran 6.

Tabel 3 Serangkaian percobaan mencari posisi nilai i terbaik untuk kategori bahasa Inggris

(20)

9 Tabel 4 Hasil percobaan clustering pada kategori abstrak bahasa Indonesia

i Jumlah dipilih karena memiliki rata-rata rand index yang sudah cukup baik, yaitu 0. 867 dan jumlah cluster sama dengan atau mendekati jumlah cluster manual, yaitu 14. Nilai i lebih besar dari 0.70 memiliki rata-rata rand index yang lebih baik tetapi menghasilkan jumlah cluster yang lebih banyak. Jumlah cluster yang melebihi jumlah cluster manual memungkinkan adanya dokumen yang awalnya berada dalam satu cluster menjadi terpisah.

Tabel 5 Hasil percobaan clustering pada kategori abstrak bahasa Inggris i Jumlah dipilih karena memiliki rata-rata rand index yang sudah cukup baik, yaitu 0. 862 dan jumlah cluster sama dengan atau mendekati jumlah cluster manual, yaitu 12.

(21)

10

Validasi Hasil Clustering

Validasi hasil clustering pada penelititan ini dilakukan dengan menggunakan ukuran akurasi rand index. Hasil clustering untuk setiap kategori abstrak menghasilkan nilai rand index yang kurang dari 1.00. Hal ini menunjukkan bahwa masih terdapat kesalahan clustering yang dilakukan oleh sistem. Kesalahan ini terjadi bisa disebabkan oleh tingkat kemiripan antar dokumen yang rendah sehingga dokumen tersebut dimasukkan ke dalan cluster terdekat. Contoh pasangan dokumen false positive bahasa Indonesia dan bahasa Inggris dapat dapat dilihat pada Lampiran 3 dan 4.

Lampiran 3 adalah pasangan dokumen D22 dan D24 seharusnya tidak berada dalam satu cluster, karena dokumen D22 membahas masalah Perangkat Lunak Pembelajaran, sedangkan dokumen D24 membahas tentang Kinerja Interkoneksi IPv4 dan IPv6.

SIMPULAN DAN SARAN

Simpulan

Berdasarkan hasil yang diperoleh dapat disimpulkan bahwa clustering dokumen dengan menggunakan Bisecting K-Means dapat dilakukan. Ditinjau dari segi hasil, nilai i terbaik untuk clustering abstrak bahasa Indonesia adalah 0.67 yang menghasilkan rand index sebesar 0.867 dan nilai i terbaik untuk clustering abstrak bahasa Inggris adalah 0.55 yang menghasilkan rand index sebesar 0. 862.

Saran

Penelitian ini menerapkan algoritme Bisecting K-Means untuk mengelompokkan dokumen skripsi berdasarkan abstraknya dan belum memberikan bobot untuk kata yang diambil dari judul skripsi dan kata kunci. Untuk penelitian selanjutnya disarankan memberikan bobot tambahan untuk kata yang diambil dari judul skripsi dan kata kunci dalam abstrak.

DAFTAR PUSTAKA

Jain AK, Dubes RC. 1988. Algorithm for Clustering Data. New Jersey (US) : Prentice Hall.

Manning CD, Raghavan P, Schutze H. 2009. An Introduction to Information Retrieval. Cambridge (OB) : Cambridge University Press.

(22)

11 Ramdani H. 2011. Clustering konsep dokumen berbahasa Indonesia menggunakan Bisecting K-Means [skripsi]. Bogor (ID) :Institut Pertanian Bogor.

(23)

12

Lampiran 1 Contoh hasil ekstraksi data abstrak bahasa Indonesia

(24)

13

Lampiran 2 Contoh hasil ekstraksi data abstrak bahasa Inggris

(25)

14

(26)

15

(27)

16

Lampiran 5 Hasil percobaan clustering pada kategori abstrak bahasa Inggris

(28)

17

Lampiran 6 Contoh pasangan dokumen false positive bahasa Indonesia D22

DIAN WIRADARYA. INTEGRASI TEKS, GAMBAR, AUDIO DAN VIDEO DALAM PERANGKAT LUNAK PEMBELAJARAN. Dibimbing oleh Kudang Boro Seminar dan Panji Wasmana. Perangkat lunak pembelajaran saat ini menggunakan multimedia. Hal ini mengubah paradigma belajar menjadi membaca, melihat, mendengar, mengamati, dan mengerjakan. Tapi, pembuat perangkat lunak pembelajaran ini haruslah orang yang memahami bahasa pemograman karena tidak ada aplikasi khusus yang menyediakan template untuk membuat perangkat lunak pembelajaran. Penelitian ini akan menganalisis, merancang dan membuat prototipe perangkat lunak yang menampung template untuk membuat perangkat lunak pembelajaran. Perangkat lunak yang dibangun merupakan perangkat lunak yang mudah digunakan sehingga orang yang tidak paham bahasa pemograman pun dapat menggunakannya. Aplikasi yang dibangun diberi nama Perangkat Lunak Pembelajaran Institut Pertanian Bogor (PLPIPB) ), yaitu PLPIPB EDITOR dan PLPIPB APLIKASI. Kedua aplikasi ini dapat dijalankan terpisah dan memiliki fungsi yang berbeda. PLPIPB EDITOR digunakan untuk melakukan integrasi objek multimedia dan PLPIPB APLIKASI digunakan untuk menjalankan aplikasi hasil integrasi PLPIPB EDITOR. Dengan demikian, aplikasi hasil integrasi tersebut dapat disebarluaskan tanpa bisa diedit. Kelebihan sistem ini dari aplikasi yang telah ada adalah penggunaan bahasa Indonesia untuk fungsi-fungsi yang dimiliki, besar program yang relatif kecil dan tingkat kompleksitas penggunaan sistem yang relatif rendah.

D29

(29)

18

baik. Hasil pengujian juga menunjukkan satu kelemahan NAT-PT, yaitu ketidakmampuannya menangani paket-paket yang terfragmentasi.

Lampiran 7 Contoh pasangan dokumen false positive bahasa Inggris D80

SUTANTO. Infrastructure Integration of VoIP Technology on Smartphone (Android) and PABX in IPB Computer Network Environment. Under the supervision of ENDANG PURNAMA GIRI. Voice over Internet Protocol (VoIP) has become a widely used communication media. The increase of internet and number of smartphone users has become important factors that supports the broader use of VoIP technology. While on the other hand the number users of Public Switched Telephone Network (PSTN) is still quite a lot, even in office buildings are usually equipped with a device Private Automatic Branch eXchange (PABX). The purposes of this research is to interconnect VoIP networks and PABX network on IPB computer network and also develop a VoIP client application for Android. In this research the use of Android smartphone is limited on Wi-Fi network. The method used in this study consisted of: study of the network topology of IPB, installation of VoIP server, interconnection between VoIP network and PABX, interconnection VoIP server and server of Lightweight Directory Access Protocol, and development of VoIP client application for smartphones. Communication between VoIP and PABX on the IPB computer network has been established, and a VoIP client application for smartphones has been developed. The values of delay, jitter and packet loss are 43.74 ms, 14.76 ms, and 0.81% respectively and the value of Mean Opinion Score (MOS) is between 4 and 4.3. It can be concluded that the quality of VoIP networks in IPB is good. Keywords: VoIP, VoIP and PBX integration, VoIP Application for Android, VoIP in Wi-Fi Network.

D99

(30)

19 JPEG2000 at quality level 50, but output quality of EZW is better than output quality JPEG2000 (PSNR: 39,217 versus 36,289). Compression with EZW method can offer better results than the method of JPEG and JPEG2000 on condition adjacent to each other in quality of output or compression ratio.

Gambar

Gambar 4 Ilustrasi kesamaan cosine similarity
Tabel 2 Serangkaian percobaan mencari posisi nilai i terbaik untuk kategori bahasa Indonesia
Tabel 5 Hasil percobaan clustering pada kategori abstrak bahasa Inggris

Referensi

Dokumen terkait

Penyelenggara akan bekerjasama dengan Kemenristekdikti untuk mempromosikan acara ini kepada lebih dari 5 juta mahasiswa aktif; serta bekerjasama dengan sejum- lah

Oleh karena itu bumi perkemahan Sandi Yudha Universitas Sriwijaya dapat menjadi pilihan wisata kabupaten Ogan Ilir karena dengan penerapan pendekatan arsitektur

Fasilitas umum tersebut, antara lain ada- lah papan pengumuman pada pintu ma- suk kawasan dan di Desa Sawah Luhur, perbaikan dan penambahan pos jaga yang terletak di

Sedangkan Arsyad (2002) menyatakan bahwa media (bentuk jamak dari medium), merupakan kata yang berasal dari bahasa latin medius secara harafiah berarti tengah,

 Penerbitan PP dan Perpres mengenai pendaftaran tenaga kerja dan program jaminan sosial yang memuat penyederhanaan proses menjadi secara simultan 1 hari kerja, dari semula

February 2021 Principal’s Message February Message When I think of February, three things come to mind: Love and Red.. Our motto is Lead with Love and there is no better role model

Topik skripsi ini berfokus pada bagaimana model bantuan luar negeri dan pendekatan China pada negara-negara di Afrika yang dianggap cocok dan membuat banyak

Tujuan pengobatan adalah untuk mengurangi pembatasan dalam mobilitas jaringan lunak dari struktur periartikular, untuk meningkatkan arthrokinematic dan gerak