Rendy Handoyo, R. Rumani M, Surya Michrandi Nasution | JSM STMIK Mikroskil 73
! ! "# $ "% $&'% $ (")$! *
1,2,3 Gedung N$203, Program Studi Sistem Komputer,
Fakultas Teknik Elektro $ Universitas Telkom, Jl. Telekomunikasi No. 1, Bandung 40257
1sianipar.rendy@yahoo.co.id, 2rumani@telkomuniversity.ac.id, 3smn@ittelkom.ac.id
+()% ,
Penyebaran berita saat ini semakin tersebar luas semenjak perkembangan dunia internet yang semakin pesat. Perkembangan dunia internet membuat berita yang tersebar semakin beragam dan berjumlah sangat besar. Pembaca berita akan kesulitan untuk memperoleh berita yang diinginkan jika berita tersebut tidak terkelompok dengan baik. Dan jika harus dikelompokkan secara manual membutuhkan waktu yang sangat lama. Oleh sebab itu, menjadi solusi untuk mengatasi masalah tersebut. akan mengelompokkan dokumen berita berdasarkan tingkat kemiripan dari dokumen tersebut.
Metode merupakan metode pengelompokan .
Metode mengelompokkan dokumen didasarkan pada jarak terdekat antar dokumen. Komputasi merupakan komputasi yang mahal dan kompleks.
Sedangkan metode merupakan metode pengelompokan .
Metode mengelompokkan dokumen didasarkan pada jarak terdekat dengan $ nya. merupakan metode pengelompokan yang sederhana dan dapat digunakan dengan mudah. Tetapi pada jenis data tertentu, tidak dapat memberikan segementasi data dengan baik, sehingga kelompok yang terbentuk tidak murni data yang sama.
Metode pengujian yang digunakan untuk mengukur kualitas adalah
dan . Berdasarkan hasil pengujian yang dilakukan, dapat disimpulkan, bahwa metode memiliki performansi yang lebih baik dibandingkan dengan
metode . Nilai selalu lebih unggul
dibandingkan dengan . Pertambahan jumlah dokumen membuat nilai
semakin kecil sedangkan terkadang menghasilkan nilai yang negatif. Untuk nilai selalu bernilai 1 sedangkan tidak pernah bernilai 1. Hasil pertambahan jumlah dan jumlah dokumen memberikan
pengaruh terhadap nilai dan . Hal ini berarti selalu
menghasilkan dokumen yang sama, sedangkan masih bercampur dengan dokumen yang lain.
) ," &$: ,
'"-"
Rendy Handoyo, R. Rumani M, Surya Michrandi Nasution | JSM STMIK Mikroskil 74
Dokumen berita yang telah dikelompokkan akan tersusun dengan terstrukrtur dan rapi sesuai dengan kemiripan dokumen tersebut. Dokumen yang akan dikelompokkan dalam sistem pengelompokan ini adalah berita berita yang disimpan di dalam . Berita merupakan informasi yang memiliki pembahasan yang bermacam macam. Karena itulah, dibutuhkan suatu sistem pengelompokan supaya berita berita tersebut tersusun berdasarkan topik $ topik yang sama.
Sistem pengelompokan ini akan dikelompokkan menggunakan metode
dan . Metode merupakan teknik pengelompokan
yang bekerja berdasarkan prinsip algoritma . Sedangkan
merupakan teknik pengelompokan yang bekerja berdasarkan . Prinsip kerja dari pengelompokan dilakukan secara bertahap. Dan disetiap iterasi dari pengelompokan hanya ada satu pemilihan penggabungan suatu dokumen terhadap dokumen lainnya. Sedangkan prinsip kerja dari pengelompokan adalah mengelompokkan dokumen secara acak karena dipengaruhi . Dan disetiap iterasi dari pengelompokkan memungkinkan untuk terjadinya lebih dari satu pemilihan dokumen yang akan digabungkan.
Sistem pengelompokan dokumen ini dilakukan dengan membandingkan performansi dari dua metode tersebut. Parameter yang digunakan untuk membandingkan performansi
metode tersebut adalah dan diperoleh
dengan menghitung jarak rata $ rata antar dokumen dalam satu . Setelah itu dilakukan penghitungan jarak antara suatu dokumen dengan dokumen lain yang berada dalam
lain, dan yang diambil adalah jarak yang terdekat. Sedangkan pengujian , dilakukan secara . Pengujian yang dimaksud adalah, dengan memeriksa setiap dokumen dalam suatu apakah merupakan dokumen yang mirip atau berada dalam satu kategori yang sama.
.$ "() ,
! adalah proses " (proses pembelajaran sendiri) yang mengelompokkan kumpulan dokumen berdasarkan hubungan kemiripannya dan memisahkannya ke dalam beberapa kelompok. [6]
merupakan pemrosesan awal dokumen agar diperoleh suatu nilai yang dapat dipelajari oleh sistem .[8]
! " #
merupakan suatu tahap yang mengubah huruf besar menjadi huruf kecil.[6]
$ %!
# adalah proses pemotongan seluruh urutan karakter menjadi satu potongan kata.[6]
& ' # ( )!
$ " merupakan proses penghapusan semua kata yang tidak memiliki makna.[6]
Rendy Handoyo, R. Rumani M, Surya Michrandi Nasution | JSM STMIK Mikroskil 75
adalah proses membentuk suatu kata menjadi kata dasarnya. Algoritma yang digunakan dalam sistem pengelompokkan ini adalah algoritma Nazief – Adriani [4]
( + ,
$ merupakan proses pemberian bobot suatu dalam suatu
- ( " . /
% & (TF) adalah pembobotan yang menghitung frekuensi kemunculan sebuah pada suatu dokumen
% ( , ') = ( , ') [6] (1)
- 0 ( " . /
( % & (DF) adalah pembobotan yang menghitung frekuensi kemunculan
sebuah pada kumpulan dokumen )(% ( ) =
( ) [6] (2)
* #+!+!) / /
Pembobotan TF • IDF adalah suatu pengukuran statistik untuk mengukur seberapa penting sebuah dalam kumpulan dokumen
% * )(% ( , ') = % ( , ') • )(% ( ) [6] (3)
!%# -$( ($
Normalisasi merupakan proses penyetaraan jumlah kata yang berbeda$beda pada setiap dokumen.
$ ($ ) = ( )
( ) ( ) … ( ) [6] (4)
*1 ! # 0 1
VSM merupakan metode yang merepresentasikan data atau & dalam bentuk vektor.
0 ! !
( adalah proses penghitungan jarak antara suatu dokumen dengan dokumen lainnya.
( yang digunakan adalah + dengan rumus sebagai berikut : d(i,j) = √|xi1 – xj1|2 + |xi2 – xj2|2 + … + |xin – xjn|2 [2] (5)
Rendy Handoyo, R. Rumani M, Surya Michrandi Nasution | JSM STMIK Mikroskil 76
2. Setiap data dianggap sebagai . Kalau n = jumlah data dan c = jumlah , berarti ada c = n.
3. Menghitung jarak / / antar
4. Cari dua yang mempunyai jarak antar yang minimal dan gabungkan (c = c$ 1). Setelah semua jarak diketahui, selanjutnya dikelompokkan dokumen$dokumen yang memiliki jarak terdekat.
5. Jika c > 3, kembali ke langkah 3
#+ % 2, ' - 2, ' # )! $! 345
4 !
merupakan metode yang termasuk ke dalam golongan algoritma .
Langkah$langkah dari metode adalah sebagi berikut : [7] 1. Tentukan nilai k sebagai jumlah yang ingin dibentuk. 2. Bangkitkan k (titik pusat ) awal secara acak.
3. Hitung jarak setiap data ke masing$masing menggunakan rumus korelasi antar
dua objek ( + ( )
4. Kelompokkan setiap data berdasarkan jarak terdekat antara data dengan nya. 5. Tentukan posisi baru ( k C ) dengan cara menghitung nilai rata$rata dari data
yang ada pada yang sama.
Dimana , adalah jumlah dokumen dalam k dan $ adalah dokumen dalam
k.
6. Kembali ke langkah 3 jika posisi baru dengan lama, tidak sama.
#+ % 2, ' - 2, ' # )! ([7]
6 7 -" ($
2 , 33
Rendy Handoyo, R. Rumani M, Surya Michrandi Nasution | JSM STMIK Mikroskil 77
metode dan . Tahapan perhitungan adalah sebagai
berikut:
1. Hitung rata$rata jarak dari suatu dokumen misalkan i dengan semua dokumen lain yang
berada dalam satu
( ) = | | ∑ j ∈ A, j≠i ( ') [1] (7) dengan j adalah dokumen lain dalam satu A dan d(i,j) adalah jarak antara dokumen i dengan j.
2. Hitung rata$rata jarak dari dokumen i tersebut dengan semua dokumen di lain, dan diambil nilai terkecilnya.
, - =
| |∑ ∈ ( ') [1] (8)
dengan ( ) adalah jarak rata$rata dokumen i dengan semua objek pada lain C dimana A ≠ C.
/( ) = C ≠ A d(i,C) [3] (9)
3. Nilai nya adalah:
( ) = ( ) ( )( ( ), ( )) [3] (10)
6 / 3 5
(kemurnian) suatu direpresentasikan sebagai anggota yang paling banyak sesuai (cocok) di suatu kelas. dapat dihitung dengan rumus berikut :
(') = ! , '- (11)
Total nilai dapat dihitung dengan rumusi berikut :
= ∑!" (') (12)
* $ 2% # ( 8 ( $() #
Rendy Handoyo, R. Rumani M, Surya Michrandi Nasution | JSM STMIK Mikroskil 78
2".$ $() #
($- 2".$
Pengujian ini bertujuan untuk melihat pengaruh jumlah dokumen, jumlah , dan metode dalam mengelompokkan dokumen. Skenario$skenario pengujiannya adalah menguji performansi yang dibangun dengan 4 kategori (25%, 50%, 75% dan 100% ) dengan jumlah adalah 3, 4, 5, 6, 7, 8, 9, dan 10.
#+ % $- $ , 33 " )", !,"#
#+ % $- $ / " )", !,"#
Rendy Handoyo, R. Rumani M, Surya Michrandi Nasution | JSM STMIK Mikroskil 79
#+ % 6 $- $ / " )", !,"#
#+ % 9 $- $ , 33 " )", 6 !,"#
Rendy Handoyo, R. Rumani M, Surya Michrandi Nasution | JSM STMIK Mikroskil 80
#+ % $- $ , 33 " )", !,"#
#+ % $- $ / " )", !,"#
-$($( %+ $ 2 %;!%# ($ $ 2- $ , 2 8-"() %$ 2 (
Setelah dilakukan pengujian secara keseluruhan, diperoleh hasil bahwa algoritma memiliki performansi yang lebih baik jika dibandingkan dengan algoritma . Hal ini dapat dilihat dari perbandingan nilai dan dari kedua
metode tersebut. Nilai dari dan metode selalu
lebih tinggi jika dibandingkan dengan metode . Kurang optimalnya metode
ini disebabkan karena proses inisialisasi yang dilakukan secara acak pada saat pembangkitan awal. Pembangkitan awal tersebut ditujukan untuk memasukkan dokumen $ dokumen ke setiap sesuai dengan jumlah yang telah ditentukan sebelumnya. Karenanya, sangat sulit untuk memperoleh hasil awal yang unik. Walaupun untuk pengujian dilakukan pengulangan sebanyak 30 kali, hasil pengujiaan$pengujian tersebut belum tentu merepresentasikan suatu yang baik. Akibatnya yang diperolehpun bukanlah yang didominasi dengan dokumen$ dokumen yang lebih banyak kemiripannya. Sehingga iterasi$iterasi setelah pembangkitan
awal tersebut akan menghasilkan yang kurang tepat. Dengan demikian yang akan terbentuk pada akhirnya bukanlah yang memiliki nilai yang mendekati 1.
Rendy Handoyo, R. Rumani M, Surya Michrandi Nasution | JSM STMIK Mikroskil 81
, nilainya akan semakin besar jika jumlah semakin bertambah. Dan sebaliknya jika jumlah semakin kecil, maka nilai dari akan semakin kecil. Untuk nilai , variasi penambahan jumlah hanya berpengaruh terhadap metode . Jika jumlah semakin besar, maka nilai dari mrtode akan semakin kecil sedangkan sebaliknya, jika jumlah semakin kecil, maka nilai dari akan semakin besar. Nilai untuk metode secara umum selalu bernilai 1. Artinya hampir disetiap selalu dihasilkan anggota kelompok yang selalu mirip dengan anggota yang lainnya.
Sedangkan dengan melakukan variasi penambahan jumlah dokumen, perubahan yang tampak hanya terjadi untuk nilai . Penambahan jumlah dokumen tidak memberikan perubahan nilai yang sangat berbeda terhadap nilai . Untuk nilai
jika jumlah dokumen semakin besar, maka nilai dari
semakin kecil, dan jika jumlah dokumennya semakin kecil maka nilai dari nya menjadi semakin besar.
Jika dilihat dari nilai nya, metode membutuhkan jumlah
yang lebih banyak untuk menyamai nilai metode .
Sebagai contoh, pada pengujian 25 dokumen dengan 3 , metode memiliki nilai sebesar 0.047325055. Untuk mencapai nilai
yang hampir sama dengan nilai tersebut
diatas, diperlukan jumlah metode sebanyak 10 . Dengan kondisi ini
(10 ), hasil pengujian nilai metode adalah
0.0456749737981.
($#<"-
($#<"-
1. Metode memilliki performansi yang lebih baik dibandingkan dengan metode ; berdasarkan data yang ada, hubungan antara nilai performansi dengan jumlah dokumen dapat dinyatakan dengan persamaan berikut : = 00 > 6?1 @ 1 > 4 dimana y menyatakan nilai performansi dalam %, dan x menyatakan jumlah dokumen. 2. Jumlah memberikan pengaruh terhadap nilai dan . Jika jumlah
bertambah, maka nilai akan bertambah, sedangkan nilai akan mengecil. Jika jumlah berkurang, maka nilai
akan semakin mengecil, sedangkan semakin membesar.
3. Jumlah dokumen memberikan pengaruh terhadap nilai . Jika jumlah dokumen berkurang, maka nilai menjadi semakin membesar. Sedangkan untuk jumlah dokumen memberikan pengaruh yang acak terhadap
, bervariasi antara 0.21 $ 0.24.
%
1. Untuk metode dapat dikembangkan lebih lanjut suatu metode untuk inisialisasi awal.
2. Sistem pengelompokan ini dapat dikembangkan menjadi sistem pemeriksaan kemungkinan adanya plagiarisme di dalam penulisan karya tulis ilmiah, seperti jurnal ilmiah, tesis, desertasi, dan sebagainya.
3. Penelitian selanjutnya dapat dikembangkan untuk membandingkan metode$metode
dan yang lainnya seperti " ,
Rendy Handoyo, R. Rumani M, Surya Michrandi Nasution | JSM STMIK Mikroskil 82
; % ($
[1] Al$Zoubi, Moh’d Belal, Mohammad al Rawi, 2008, + , Journal of Computer Science.
[2] Feldman, Ronen., James Sanger, 2006. ! / , New York: Cambridge University Press.
[3] Han, Jiawei., Micheline Kamber, Jian Pei, 2012, ( & USA : Morgan Kaufmann.
[4] Keke, Dyan., Rian Chikita, Agus Dwi Kuncoro, 2012, 0 # , Universitas Gajah Mada.
[5] Li, Yanjun., Congnan Luo, Soon M. Chung, May 2008, ! $ %
/ 1 ( IEEE. Volume : 20, No.5
[6] Manning, Christopher D., Prabhakar Raghavan, Hinrich Schutze, 2009, )
) 2 " , Cambridge: Cambridge University Presss.
[7] Srivastava, Ashok., Mehran Sahami, 2009, ! USA : Taylor and Francis Group, LLC.