PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

(1)

Rendy Handoyo, R. Rumani M, Surya Michrandi Nasution | JSM STMIK Mikroskil 73

! ! "# $ "% $&'% $ (")$! *

1,2,3_{Gedung N$203, Program Studi Sistem Komputer,}

Fakultas Teknik Elektro $ Universitas Telkom, Jl. Telekomunikasi No. 1, Bandung 40257

1_{[email protected],}2_{[email protected],}3_{[email protected]}

+()% ,

Penyebaran berita saat ini semakin tersebar luas semenjak perkembangan dunia internet yang semakin pesat. Perkembangan dunia internet membuat berita yang tersebar semakin beragam dan berjumlah sangat besar. Pembaca berita akan kesulitan untuk memperoleh berita yang diinginkan jika berita tersebut tidak terkelompok dengan baik. Dan jika harus dikelompokkan secara manual membutuhkan waktu yang sangat lama. Oleh sebab itu, menjadi solusi untuk mengatasi masalah tersebut. akan mengelompokkan dokumen berita berdasarkan tingkat kemiripan dari dokumen tersebut.

Metode merupakan metode pengelompokan .

Metode mengelompokkan dokumen didasarkan pada jarak terdekat antar dokumen. Komputasi merupakan komputasi yang mahal dan kompleks.

Sedangkan metode merupakan metode pengelompokan .

Metode mengelompokkan dokumen didasarkan pada jarak terdekat dengan $ nya. merupakan metode pengelompokan yang sederhana dan dapat digunakan dengan mudah. Tetapi pada jenis data tertentu, tidak dapat memberikan segementasi data dengan baik, sehingga kelompok yang terbentuk tidak murni data yang sama.

Metode pengujian yang digunakan untuk mengukur kualitas adalah

dan . Berdasarkan hasil pengujian yang dilakukan, dapat disimpulkan, bahwa metode memiliki performansi yang lebih baik dibandingkan dengan

metode . Nilai selalu lebih unggul

dibandingkan dengan . Pertambahan jumlah dokumen membuat nilai

semakin kecil sedangkan terkadang menghasilkan nilai yang negatif. Untuk nilai selalu bernilai 1 sedangkan tidak pernah bernilai 1. Hasil pertambahan jumlah dan jumlah dokumen memberikan

pengaruh terhadap nilai dan . Hal ini berarti selalu

menghasilkan dokumen yang sama, sedangkan masih bercampur dengan dokumen yang lain.

) ," &$: ,

'"-"

(2)

Dokumen berita yang telah dikelompokkan akan tersusun dengan terstrukrtur dan rapi sesuai dengan kemiripan dokumen tersebut. Dokumen yang akan dikelompokkan dalam sistem pengelompokan ini adalah berita berita yang disimpan di dalam . Berita merupakan informasi yang memiliki pembahasan yang bermacam macam. Karena itulah, dibutuhkan suatu sistem pengelompokan supaya berita berita tersebut tersusun berdasarkan topik $ topik yang sama.

Sistem pengelompokan ini akan dikelompokkan menggunakan metode

dan . Metode merupakan teknik pengelompokan

yang bekerja berdasarkan prinsip algoritma . Sedangkan

merupakan teknik pengelompokan yang bekerja berdasarkan . Prinsip kerja dari pengelompokan dilakukan secara bertahap. Dan disetiap iterasi dari pengelompokan hanya ada satu pemilihan penggabungan suatu dokumen terhadap dokumen lainnya. Sedangkan prinsip kerja dari pengelompokan adalah mengelompokkan dokumen secara acak karena dipengaruhi . Dan disetiap iterasi dari pengelompokkan memungkinkan untuk terjadinya lebih dari satu pemilihan dokumen yang akan digabungkan.

Sistem pengelompokan dokumen ini dilakukan dengan membandingkan performansi dari dua metode tersebut. Parameter yang digunakan untuk membandingkan performansi

metode tersebut adalah dan diperoleh

dengan menghitung jarak rata $ rata antar dokumen dalam satu . Setelah itu dilakukan penghitungan jarak antara suatu dokumen dengan dokumen lain yang berada dalam

lain, dan yang diambil adalah jarak yang terdekat. Sedangkan pengujian , dilakukan secara . Pengujian yang dimaksud adalah, dengan memeriksa setiap dokumen dalam suatu apakah merupakan dokumen yang mirip atau berada dalam satu kategori yang sama.

.$ "() ,

! adalah proses " (proses pembelajaran sendiri) yang mengelompokkan kumpulan dokumen berdasarkan hubungan kemiripannya dan memisahkannya ke dalam beberapa kelompok. [6]

merupakan pemrosesan awal dokumen agar diperoleh suatu nilai yang dapat dipelajari oleh sistem .[8]

! " #

merupakan suatu tahap yang mengubah huruf besar menjadi huruf kecil.[6]

$ %!

# adalah proses pemotongan seluruh urutan karakter menjadi satu potongan kata.[6]

& ' # ( )!

$ " merupakan proses penghapusan semua kata yang tidak memiliki makna.[6]

(3)

adalah proses membentuk suatu kata menjadi kata dasarnya. Algoritma yang digunakan dalam sistem pengelompokkan ini adalah algoritma Nazief – Adriani [4]

( + ,

$ merupakan proses pemberian bobot suatu dalam suatu

- ( " . /

% & (TF) adalah pembobotan yang menghitung frekuensi kemunculan sebuah pada suatu dokumen

% ( , ') = ( , ') [6] (1)

- 0 ( " . /

( % & (DF) adalah pembobotan yang menghitung frekuensi kemunculan

sebuah pada kumpulan dokumen )(% ( ) =

( ) [6] (2)

* #+!+!) / /

Pembobotan TF • IDF adalah suatu pengukuran statistik untuk mengukur seberapa penting sebuah dalam kumpulan dokumen

% * )(% ( , ') = % ( , ') • )(% ( ) [6] (3)

!%# -$( ($

Normalisasi merupakan proses penyetaraan jumlah kata yang berbeda$beda pada setiap dokumen.

$ ($ ) = ( )

( ) ( ) … ( ) [6] (4)

*1 ! # 0 1

VSM merupakan metode yang merepresentasikan data atau & dalam bentuk vektor.

0 ! !

( adalah proses penghitungan jarak antara suatu dokumen dengan dokumen lainnya.

( yang digunakan adalah + dengan rumus sebagai berikut : d(i,j) = √|xi1 – xj1|2 + |xi2 – xj2|2 + … + |xin – xjn|2 [2] (5)

(4)

2. Setiap data dianggap sebagai . Kalau n = jumlah data dan c = jumlah , berarti ada c = n.

3. Menghitung jarak / / antar

4. Cari dua yang mempunyai jarak antar yang minimal dan gabungkan (c = c$ 1). Setelah semua jarak diketahui, selanjutnya dikelompokkan dokumen$dokumen yang memiliki jarak terdekat.

5. Jika c > 3, kembali ke langkah 3

#+ % 2, ' - 2, ' # )! $! 345

4 !

merupakan metode yang termasuk ke dalam golongan algoritma .

Langkah$langkah dari metode adalah sebagi berikut : [7] 1. Tentukan nilai k sebagai jumlah yang ingin dibentuk. 2. Bangkitkan k (titik pusat ) awal secara acak.

3. Hitung jarak setiap data ke masing$masing menggunakan rumus korelasi antar

dua objek ( + ( )

4. Kelompokkan setiap data berdasarkan jarak terdekat antara data dengan nya. 5. Tentukan posisi baru ( k C ) dengan cara menghitung nilai rata$rata dari data

yang ada pada yang sama.

Dimana , adalah jumlah dokumen dalam k dan $ adalah dokumen dalam

k.

6. Kembali ke langkah 3 jika posisi baru dengan lama, tidak sama.

#+ % 2, ' - 2, ' # )! ([7]

6 7 -" ($

2 , 33

(5)

metode dan . Tahapan perhitungan adalah sebagai

berikut:

1. Hitung rata$rata jarak dari suatu dokumen misalkan i dengan semua dokumen lain yang

berada dalam satu

( ) = _{| |} ∑ j ∈ A, j≠i ( ') [1] (7) dengan j adalah dokumen lain dalam satu A dan d(i,j) adalah jarak antara dokumen i dengan j.

2. Hitung rata$rata jarak dari dokumen i tersebut dengan semua dokumen di lain, dan diambil nilai terkecilnya.

, - =

| |∑ ∈ ( ') [1] (8)

dengan ( ) adalah jarak rata$rata dokumen i dengan semua objek pada lain C dimana A ≠ C.

/( ) = C ≠ A d(i,C) [3] (9)

3. Nilai nya adalah:

( ) = ( ) ( )_{( ( ), ( ))} [3] (10)

6 / 3 5

(kemurnian) suatu direpresentasikan sebagai anggota yang paling banyak sesuai (cocok) di suatu kelas. dapat dihitung dengan rumus berikut :

(') = ! , '- (11)

Total nilai dapat dihitung dengan rumusi berikut :

= ∑_!" (') (12)

* $ 2% # ( 8 ( $() #

(6)

2".$ $() #

($- 2".$

Pengujian ini bertujuan untuk melihat pengaruh jumlah dokumen, jumlah , dan metode dalam mengelompokkan dokumen. Skenario$skenario pengujiannya adalah menguji performansi yang dibangun dengan 4 kategori (25%, 50%, 75% dan 100% ) dengan jumlah adalah 3, 4, 5, 6, 7, 8, 9, dan 10.

#+ % $- $ , 33 " )", !,"#

#+ % $- $ / " )", !,"#

(7)

#+ % 6 $- $ / " )", !,"#

#+ % 9 $- $ , 33 " )", 6 !,"#

(8)

#+ % $- $ , 33 " )", !,"#

#+ % $- $ / " )", !,"#

-$($( %+ $ 2 %;!%# ($ $ 2- $ , 2 8-"() %$ 2 (

Setelah dilakukan pengujian secara keseluruhan, diperoleh hasil bahwa algoritma memiliki performansi yang lebih baik jika dibandingkan dengan algoritma . Hal ini dapat dilihat dari perbandingan nilai dan dari kedua

metode tersebut. Nilai dari dan metode selalu

lebih tinggi jika dibandingkan dengan metode . Kurang optimalnya metode

ini disebabkan karena proses inisialisasi yang dilakukan secara acak pada saat pembangkitan awal. Pembangkitan awal tersebut ditujukan untuk memasukkan dokumen $ dokumen ke setiap sesuai dengan jumlah yang telah ditentukan sebelumnya. Karenanya, sangat sulit untuk memperoleh hasil awal yang unik. Walaupun untuk pengujian dilakukan pengulangan sebanyak 30 kali, hasil pengujiaan$pengujian tersebut belum tentu merepresentasikan suatu yang baik. Akibatnya yang diperolehpun bukanlah yang didominasi dengan dokumen$ dokumen yang lebih banyak kemiripannya. Sehingga iterasi$iterasi setelah pembangkitan

awal tersebut akan menghasilkan yang kurang tepat. Dengan demikian yang akan terbentuk pada akhirnya bukanlah yang memiliki nilai yang mendekati 1.

(9)

, nilainya akan semakin besar jika jumlah semakin bertambah. Dan sebaliknya jika jumlah semakin kecil, maka nilai dari akan semakin kecil. Untuk nilai , variasi penambahan jumlah hanya berpengaruh terhadap metode . Jika jumlah semakin besar, maka nilai dari mrtode akan semakin kecil sedangkan sebaliknya, jika jumlah semakin kecil, maka nilai dari akan semakin besar. Nilai untuk metode secara umum selalu bernilai 1. Artinya hampir disetiap selalu dihasilkan anggota kelompok yang selalu mirip dengan anggota yang lainnya.

Sedangkan dengan melakukan variasi penambahan jumlah dokumen, perubahan yang tampak hanya terjadi untuk nilai . Penambahan jumlah dokumen tidak memberikan perubahan nilai yang sangat berbeda terhadap nilai . Untuk nilai

jika jumlah dokumen semakin besar, maka nilai dari

semakin kecil, dan jika jumlah dokumennya semakin kecil maka nilai dari nya menjadi semakin besar.

Jika dilihat dari nilai nya, metode membutuhkan jumlah

yang lebih banyak untuk menyamai nilai metode .

Sebagai contoh, pada pengujian 25 dokumen dengan 3 , metode memiliki nilai sebesar 0.047325055. Untuk mencapai nilai

yang hampir sama dengan nilai tersebut

diatas, diperlukan jumlah metode sebanyak 10 . Dengan kondisi ini

(10 ), hasil pengujian nilai metode adalah

0.0456749737981.

($#<"-

1. Metode memilliki performansi yang lebih baik dibandingkan dengan metode ; berdasarkan data yang ada, hubungan antara nilai performansi dengan jumlah dokumen dapat dinyatakan dengan persamaan berikut : = 00 > 6?1 @ 1 > 4 dimana y menyatakan nilai performansi dalam %, dan x menyatakan jumlah dokumen. 2. Jumlah memberikan pengaruh terhadap nilai dan . Jika jumlah

bertambah, maka nilai akan bertambah, sedangkan nilai akan mengecil. Jika jumlah berkurang, maka nilai

akan semakin mengecil, sedangkan semakin membesar.

3. Jumlah dokumen memberikan pengaruh terhadap nilai . Jika jumlah dokumen berkurang, maka nilai menjadi semakin membesar. Sedangkan untuk jumlah dokumen memberikan pengaruh yang acak terhadap

, bervariasi antara 0.21 $ 0.24.

%

1. Untuk metode dapat dikembangkan lebih lanjut suatu metode untuk inisialisasi awal.

2. Sistem pengelompokan ini dapat dikembangkan menjadi sistem pemeriksaan kemungkinan adanya plagiarisme di dalam penulisan karya tulis ilmiah, seperti jurnal ilmiah, tesis, desertasi, dan sebagainya.

3. Penelitian selanjutnya dapat dikembangkan untuk membandingkan metode$metode

dan yang lainnya seperti " ,

(10)

; % ($

[1] Al$Zoubi, Moh’d Belal, Mohammad al Rawi, 2008, + , Journal of Computer Science.

[2] Feldman, Ronen., James Sanger, 2006. ! / , New York: Cambridge University Press.

[3] Han, Jiawei., Micheline Kamber, Jian Pei, 2012, ( & USA : Morgan Kaufmann.

[4] Keke, Dyan., Rian Chikita, Agus Dwi Kuncoro, 2012, 0 # , Universitas Gajah Mada.

[5] Li, Yanjun., Congnan Luo, Soon M. Chung, May 2008, ! $ %

/ 1 ( IEEE. Volume : 20, No.5

[6] Manning, Christopher D., Prabhakar Raghavan, Hinrich Schutze, 2009, )

) 2 " , Cambridge: Cambridge University Presss.

[7] Srivastava, Ashok., Mehran Sahami, 2009, ! USA : Taylor and Francis Group, LLC.