Analisis Dan Implementasi Algoritma Active Fuzzy Constrained Clustering Untuk Pengelompokan Dokumen

(1)

JURIKOM (Jurnal Riset Komputer), Vol. 9 No. 2, April 2022 e-ISSN 2715-7393 (Media Online), p-ISSN 2407-389X (Media Cetak) DOI 10.30865/jurikom.v9i2.3980 Hal 194−201 http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom

Analisis Dan Implementasi Algoritma Active Fuzzy Constrained Clustering Untuk Pengelompokan Dokumen

Syaros Parendo¹, Yanuar Firdaus AW², Angelina Prima K³ Fakultas Informatika, Informatika, Universitas Telkom, Bandung, Indonesia

Email: ¹[email protected], ^2,*[email protected], ^*[email protected], Email Penulis Korespondensi: [email protected]

Submitted 03-04-2022; Accepted 09-04-2022; Published 29-04-2022 Abstrak

Teknik pengelompokan dokumen teks secara otomatis menjadi suatu bidang penelitian yang penting di mana volume jumlah dokumen teks melalui media digital semakin berkembang pesat. Teknik ini dikenal dengan istilah document clustering. Document clustering merupakan metode pengelompokan dokumen berdasarkan karakteristik kemiripannya. Untuk mengelompokkan dokumen tersebut, digunakan salah satu algoritma clustering yaitu Active Fuzzy Constrained Clustering (AFCC), yaitu dilakukan penggabungan antara metode fuzzy dan semi-supervised clustering dimana dokumen teks sebagai bag of words akan di hitung nilai kata yang mengandung arti dengan Vector Space Model (VSM). Algoritma AFCC diidentifikasikan dengan penggunaan pairwise constraint dan centroid dalam cluster-nya. Dokumen masukan yang diujikan pada penelitian adalah kumpulan dokumen dalam BBC News Archives. Berdasarkan penelitian yang telah dilakukan, dengan menggunakan parameter input meliputi jumlah cluster maksimal, jumlah constraint per iterasi maksimal dan jumlah iterasi maksimal, algoritma AFCC mampu menghasilkan pengelompokan dokumen teks yang memiliki karakteristik artikel berita. Pengukuran performansi hasil clustering pada penelitian ini menggunakan pendekatan Confusion Matrix, dimana dapat dihasilkan rata-rata nilai precision dan recall sebesar 0,53, serta nilai akurasi sebesar 0,52.

Kata Kunci: Document; Active Fuzzy Constrained Clustering; Pairwise Constraint; BBC News Archives; Confusion Matrix Abstract

Text document clustering techniques automatically become an important research in which volume of text document via digital media is growing rapidly. This technique is known as document clustering. Document clustering is a method of grouping documents based on their similarity. For groupping these documents, one of the clustering algorithms is used, namely Active Fuzzy Constrained Clustering (AFCC), which combines fuzzy and semi-supervised clustering methods where text documents as a bag of words will be calculated with the value of meaningful words using the Vector Space Model. (VSM). The AFCC algorithm is identified by the use of pairwise constraint and centroid in its cluster. The input documents tested in the research are a collection of documents in the BBC News Archives. Based on the research that has been done, using the parameters of the maximum number of clusters, the maximum number of constraints per iteration and the maximum number of iterations, the AFCC algorithm results in grouping text documents that are news article. Performance measurement of clustering results in this research uses the Confusion Matrix approach, which can be generated with an average precision and recall value of 0.53, and an accuracy value of 0.52.

Keywords: Document; Active Fuzzy Constrained Clustering; Pairwise Constraint; BBC News Archives; Confusion Matrix

1. PENDAHULUAN

Kemajuan teknologi saat ini menjadikan semakin banyak media massa berbasis digital, khususnya media elektronik [1].

Artikel berita pada media digital pun ikut meningkat sebagai sumber informasi dan pengetahuan bagi masyarakat. Oleh karena itu, artikel berita yang berbentuk dokumen teks secara otomatis menjadi suatu bidang penelitian yang sangat diminati. Dalam domain keilmuan ini terdapat dua pendekatan yang berkembang, yaitu supervised dan unsupervised learning [2]. Pada supervised learning atau sering disebut juga dengan kategorisasi, kategori dokumen teks telah terdefinisi sebelumnya [3]. Sedangkan pada unsupervised learning atau clustering, dokumen teks akan dikelompokkan menjadi clusters di mana dokumen teks yang memiliki banyak persamaan akan berada dalam satu cluster dan dokumen yang memiliki banyak perbedaan akan berada dalam cluster yang berbeda [4]. Pengelompokan dokumen teks dengan metode clustering ini biasa disebut dengan document clustering. Dalam prakteknya, tidak semua dokumen dapat dikelompokan dengan metode supervised atau unsupervised learning, karena tidak semua dokumen memiliki data input dan output yang sama. Untuk menyelesaikan kasus seperti ini, maka dapat digunakan algoritma semi-supervised clustering [5].

Penelitian sebelumnya yang dilakukan oleh [6] telah menerapkan algoritma Active Fuzzy Constrained Clustering untuk mengelompokkan dokumen dari Twenty News Group Text data, dengan pengukuran nilai akurasi menggunakan pendekatan F-Measure. Dalam penelitiannya, disebutkan bahwa algoritma Active Fuzzy Constrained Clustering dapat digunakan tidak hanya untuk mengelompokkan image, namun juga dokumen teks. Dalam penelitiannya, performansi clustering yang diukur adalah nilai akurasi. Penelitian selanjutnya yang dilakukan oleh [7] juga menerapkan algoritma AFCC yang berfokus pada pengembangan dalam tahapan pemodelan dokumen. Dalam penelitiannya, digunakan Generalized Vector Space Model dengan menambahkan informasi semantik dari kamus kata wordnet. Penelitian selanjutnya yang dilakukan oleh [8] meneliti tentang masalah pengelompokan wilayah desa/kelurahan menggunakan algoritma Fuzzy C-means clustering di seluruh wilayah Provinsi Kalimantan Timur. Penelitiannya merekomendasikan

(2)

JURIKOM (Jurnal Riset Komputer), Vol. 9 No. 2, April 2022 e-ISSN 2715-7393 (Media Online), p-ISSN 2407-389X (Media Cetak) DOI 10.30865/jurikom.v9i2.3980 Hal 194−201 http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom jumlah kelompok yang tepat berdasarkan beberapa indeks validitas kelompok sehingga dapat mengelompokkan wilayah desa sesuai klasifikasinya.

Dengan merujuk kepada penelitian yang disebut, maka penelitian kali ini menerapkan kembali algoritma yang sama untuk mengelompokkan dokumen teks. Pada penelitian ini digunakan salah satu algoritma clustering yang mengkombinasikan metode fuzzy dan semi-supervised clustering, yaitu Active Fuzzy Constrained Clustering (AFCC) untuk mengelompokkan dokumen teks. Pairwise constraint digunakan sebagai informasi tambahan agar hasil clustering menjadi semakin padat, karena batasan antar cluster semakin jelas. Hal ini didukung karena pada algoritma AFCC juga menggunakan konsep aglomerasi, di mana kardinalitas setiap cluster dihitung [9].

Tujuan dari penelitian ini adalah untuk mengetahui performansi clustering yang dihasilkan pada dataset dengan karakteristik yang berbeda. BBC News Archives merupakan kumpulan artikel berita yang telah memiliki class label [10].

Dataset BBC News Archives merupakan salah satu sumber data teks bersifat publik yang terdiri atas 2.225 dokumen berita yang dikelompokkan dalam 5 (lima) kategori, yaitu: business, entertainment, politics, sports, dan technology [11]. Pada penelitian ini juga dilakukan pengujian terhadap beberapa dataset yang tidak hanya bisa dilihat tingkat kestabilan akurasi, namun juga dilakukan analisis pengukuran performansi meliputi precision, dan recall menggunakan metode confusion matrix [12].

2. METODOLOGI PENELITIAN

Arsitektur yang dibangun untuk pengelompokan dokumen teks menggunakan algoritma Active Fuzzy Constrained Clustering yang dikembangkan dalam penelitian ini bisa dilihat pada gambar 1 berikut:

Gambar 1. Gambaran Arsitektur Sistem

Pada gambar 1, dijelaskan bahwa dataset berupa file teks yang diinputkan dari user, kemudian dilakukan preprocessing. Hasil preprocessing tersebut kemudian diolah dengan clustering menggunakan Active Fuzzy Constrained Clustering (AFCC) sehingga didapatkan dokumen teks yang telah dikelompokan. Kemudian dilakukan pengukuran performansi hasil clustering menggunakan metode confusion matrix untuk mengetahui nilai precision, recall, dan accuracy.

2.1 Preprocessing

Preprocessing merupakan suatu tahapan yang digunakan agar data asli yang masih mentah siap diproses. Tahapan preprocessing yang digunakan pada penelitian ini adalah stopword removal dan stemming. Stopword removal merupakan proses menghapus kata-kata yang tidak memiliki makna berarti pada dokumen, seperti kata sambung [13]. Stemming merupakan proses untuk memetakan dan menguraikan bentuk dari suatu kata menjadi kata dasar.

2.2 Build Vector

Setelah dilakukan preprocessing, proses selanjutnya adalah pemodelan dokumen dalam bentuk yang terstruktur. Pada penelitian ini digunakan salah satu cara pemodelan dokumen, yaitu vector space model. Pada vector space model, masing- masing dokumen diskemakan menjadi vektor, di mana setiap dimensi pada vektor tersebut menjelaskan kata unik pada sekelompok kata dari dataset. Skema pembobotan yang digunakan dalam penelitian ini adalah TF-IDF (Term Frequency- Inverse Document Frequency). Term Frequency merupakan frekuensi kemunculan suatu kata dalam dokumen [14].

Inverse Document Frequency merupakan frekuensi kemunculan kata tersebut pada seluruh dataset, yang digunakan sebagai faktor pembagi. Berikut perhitungan bobot menggunakan skema TF-IDF:

𝑤_𝑗𝑖= 𝑡𝑓_𝑗𝑖× 𝑖𝑑𝑓_𝑖= 𝑡𝑓_𝑗𝑖∙ log (^𝑁

𝑑𝑓_𝑖) (1)

Dimana 𝑡𝑓𝑗𝑖 adalah frekuensi munculnya kata i pada dokumen j, N adalah banyaknya dokumen dalam dataset, dan 𝑑𝑓𝑖 adalah frekuensi munculnya kata i dalam dataset. Selanjutnya, agar dapat dilakukan untuk pengelompokan dokumen,

(3)

JURIKOM (Jurnal Riset Komputer), Vol. 9 No. 2, April 2022 e-ISSN 2715-7393 (Media Online), p-ISSN 2407-389X (Media Cetak) DOI 10.30865/jurikom.v9i2.3980 Hal 194−201 http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom 𝑆(𝑥𝑗, 𝑥𝑘) = ∑𝑚 𝑥𝑗𝑙∙ 𝑥𝑘𝑙

𝑙=1 (2)

Dimana 𝑺(𝒙_𝒋, 𝒙_𝒌) adalah nilai kemiripan antara dokumen ke-j dan dokumen ke-k, 𝒙_𝒋 adalah dokumen ke-j, m adalah banyaknya kata yang digunakan, dan 𝒙𝒋𝒍 adalah dokumen ke-j yang mengandung kata l.

2.3 Active Fuzzy Constrained Clustering

Active Fuzzy Constrained Clustering merupakan algoritma partitional clustering yang mengelompokkan dataset ke dalam beberapa cluster berdasarkan kemiripannya. Di mana diperlukan jumlah cluster awal sebagai inisialisasi. Agar dapat menentukan karakteristik cluster yang dihasilkan, maka dalam algoritma partitional juga digunakan objective function maupun criterion function. Dengan adanya clusters yang terbentuk, maka objective function tersebut dapat dioptimalkan. Sehingga diharapkan, tingkat kemiripan objek dalam sebuah cluster tersebut bisa tinggi dan lebih rendah untuk cluster yang berbeda. Karena AFCC juga termasuk metode semi supervised clustering, maka diperlukan informasi tambahan seperti pairwise constraint dan class label [15]. Pairwise constraint bisa menentukan apakah 2 (dua) buah objek termasuk dalam cluster yang sama atau tidak, dengan constraint must link atau cannot link [16]. Yang membedakan must link dan cannot link adalah keberadaan hubungan antar objek dalam suatu cluster. Jika kedua objek harus berada dalam cluster yang sama, maka disebut must link constraint, sebaliknya jika harus berada dalam cluster yang berbeda dinamakan cannot link constraint. Sedangkan class label merupakan informasi kelas dari sebuah data tertentu. Salah satu contoh algoritma yang menggunakan metode semi supervised clustering adalah Active Fuzzy Constrained Clustering.

AFCC adalah algoritma untuk mengelompokkan dokumen yang menggabungkan metode semi supervised dan fuzzy, serta menggunakan pairwise constraints antar objek [6]. Pada AFCC, setiap cluster diindikasikan dengan sebuah centroid. Centroid sebuah cluster merupakan rata-rata dari data items (dalam hal ini dokumen) pada suatu cluster [17].

Karena yang diperhitungkan merupakan rata-rata dari suatu kumpulan objek, maka perhitungan yang dilakukan adalah jumlah keseluruhan objek dibagi kardinalitas cluster tersebut. Untuk fuzzy clustering, perhitungan tersebut disesuaikan dengan bobot yang dimiliki setiap dokumen. Cluster dikatakan padat jika objek-objek dalam suatu cluster semakin dekat dengan centroid nya. Pada konsep AFCC, aglomerasi yang dilakukan berdasarkan nilai anggota setiap dokumen terhadap cluster tersebut atau kardinalitas cluster. Ketika kardinalitas cluster tersebut lebih kecil dari nilai inisialisasi, maka cluster tersebut akan dihapus. Sehingga kardinalitas seluruh cluster akan dicek dalam setiap iterasi.

a. Centroid

Centroid sebuah cluster merupakan rata-rata dari data items (dalam hal ini dokumen) pada suatu cluster. Karena yang diperhitungkan merupakan rata-rata dari suatu kumpulan objek, maka perhitungan yang dilakukan adalah jumlah keseluruhan objek dibagi kardinalitas cluster tersebut. Untuk fuzzy clustering, perhitungan tersebut disesuaikan dengan bobot yang dimiliki setiap dokumen. Perhitungan dalam menentukan centroid sebuah cluster yaitu :

𝝁𝒌 =^∑^𝑵^𝒊=𝟏^(𝒖^𝒊𝒌^𝟐^)𝒙^𝒊

∑^𝑵_𝒊=𝟏(𝒖_𝒊𝒌)^𝟐 (1)

Di mana 𝜇𝑘 adalah centroid dari cluster ke-k, N adalah jumlah dokumen, 𝑢𝑖𝑘 adalah nilai anggota dari dokumen i terhadap cluster k, dan 𝑥𝑖 adalah dokumen ke-i.

b. Nilai Anggota

Nilai angota memiliki perhitungan sebagai berikut :

𝒖_𝒓𝒔= 𝒖_𝒓𝒔^𝑭𝑪𝑴+ 𝒖_𝒓𝒔𝑪𝒐𝒏𝒔𝒕𝒓𝒂𝒊𝒏𝒕𝒔+ 𝒖_𝒓𝒔^{𝑩𝒊𝒂𝒔} (2)

dengan : 1. 𝒖_𝒓𝒔^𝑭𝑪𝑴=

𝟏 𝟏−𝑺(𝒅𝒓,𝝁𝒔)

∑ ^𝟏

𝟏−𝑺(𝒅𝒓,𝝁𝒔) 𝑪𝒌=𝟏

(3) 2. 𝑢𝑟𝑠𝐶𝑜𝑛𝑠𝑡𝑟𝑎𝑖𝑛𝑡𝑠 = ^𝛼

2(1−𝑆(𝑑_𝑟,𝜇_𝑠))(𝐶𝑣_𝑟− 𝐶𝑣_𝑟𝑠) (4)

3. 𝑢_𝑟𝑠^{𝐵𝑖𝑎𝑠} = ^𝛽

1−𝑆(𝑑_𝑟,𝜇_𝑠)(𝑁_𝑠− 𝑁_𝑟) (5)

Di mana 𝑢_𝑟𝑠 adalah nilai anggota dokumen ke-r terhadap cluster ke-s, 𝜇_𝑠 adalah centroid dari cluster ke-s, C adalah jumlah cluster, α adalah indikator tingkat supervisi dalam proses clustering, 𝐶_𝑣_𝑟 adalah nilai rata-rata dari pelanggaran pairwise constraint untuk dokumen ke-r, 𝐶𝑣_𝑟𝑠 adalah nilai pelanggaran pairwise constraints untuk dokumen ke-r, jika dokumen tersebut menjadi anggota dari cluster ke-s, 𝛽 adalah indikator tingkat agglomerasi dalam proses clustering, 𝑁_𝑠 adalah kardinalitas dari cluster ke-s, 𝑁_𝑟 adalah nilai rata-rata kardinalitas seluruh cluster berdasarkan bobot sesuai dengan jarak dengan dokumen ke-r, dan 𝑆(𝑑𝑟, 𝜇𝑠) adalah fungsi kosinus untuk dokumen r dan centroid dari cluster s.

(4)

JURIKOM (Jurnal Riset Komputer), Vol. 9 No. 2, April 2022 e-ISSN 2715-7393 (Media Online), p-ISSN 2407-389X (Media Cetak) DOI 10.30865/jurikom.v9i2.3980 Hal 194−201 http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom c. Aglomerasi

Pada konsep AFCC, agglomerasi yang dilakukan berdasarkan nilai anggota setiap dokumen terhadap cluster tersebut atau kardinalitas cluster. Ketika kardinalitas cluster tersebut lebih kecil dari nilai inisialisasi, maka cluster tersebut akan dihapus. Sehingga kardinalitas seluruh cluster akan dicek dalam setiap iterasi. Berikut adalah perhitungan kardinalitas cluster :

𝑁_𝑠= ∑^𝑁_𝑖=1𝑢_𝑖𝑠 (6)

Di mana 𝑁𝑠 adalah kardinalitas dari cluster ke-s, N adalah jumlah dokumen, dan 𝑢𝑖𝑠 adalah nilai anggota dari dokumen ke-i terhadap cluster ke-s.

d. Pairwise Constraint

Pemberian pairwise constraint pada AFCC dilakukan bertahap untuk setiap iterasi. Dengan penggunaan pairwise constraints juga diharapkan clusters yang dihasilkan bisa semakin padat, karena batasan antar cluster tersebut semakin jelas. Pairwise constraint ini harus didefinisikan dengan jelas terhadap clusters yang tidak padat. Oleh karena itu, perlu dilakukan perhitungan densitas cluster, di mana cluster dengan densitas terendah merupakan calon cluster yang tidak padat. Setelah ditemukan cluster yang tidak terpisah dengan jelas, maka dibuatlah virtual boundary dengan threshold tertentu. Dokumen yang berada pada virtual boundary ini, didefinisikan sebagai ambigous points. Antar ambigous points ini kemudian diberikan pairwise constraint [18]. Kemudian AFCC akan memilih dokumen 𝒙_𝒋 dari kelompok dokumen yang berada pada virtual boundary tadi.

Kemudian terdapat kelompok yang disebut non-redundant, di mana kelompok ini berisi dokumen yang telah diberikan pairwise constraint. Dokumen yang dipilih dalam kelompok non-redundant adalah dokumen yang terdekat jaraknya antara 𝑥𝑖 dan 𝑥𝑖, dengan perhitungan sebagai berikut:

𝑥_𝑗= 𝑎𝑟𝑔𝑚𝑎𝑥_𝑥𝜖𝑆𝑚𝑖𝑛_𝑖𝑑(𝑥, 𝑥_𝑖) (7)

Di mana S adalah kelompok data 𝑥𝑖 non-redundant, dan 𝑥𝑖 adalah item terpilih 2.4 Confusion Matrix

Confusion matrix merupakan metode yang digunakan untuk melakukan pengukuran performansi atau tingkat kebenaran proses clustering [19], seperti dijelaskan pada tabel 1 berikut:

Tabel 1. Confusion matrix

Nilai Prediksi: Yes Nilai Prediksi: No

Nilai Aktual: Yes TP FN

Nilai Aktual: No FP TN

Di mana TP adalah jumlah data yang kelas aktualnya adalah kelas positif dan kelas prediksinya adalah kelas positif, FN adalah jumlah data yang kelas aktualnya adalah kelas positif dan kelas prediksinya adalah kelas negatif, FP adalah jumlah data yang kelas aktualnya adalah negatif dan kelas prediksinya adalah kelas positif, dan TN jumlah data yang kelas aktualnya adalah negatif dan kelas prediksinya adalah kelas negatif [20].

Berikut perhitungan confusion matrix untuk menghitung presicion, recall, dan nilai accuracy [21]:

a. Precision

Precision digunakan untuk mengukur tingkat ketepatan informasi yang diharapkan user dengan keluaran dari sistem.

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = ^𝑇𝑃

(𝑇𝑃+𝐹𝑃) (8)

b. Recall

Recall digunakan untuk mengikur tingkat keberhasilan system dalam menemukan kembali informasi.

𝑅𝑒𝑐𝑎𝑙𝑙 = ^𝑇𝑃

(𝑇𝑃+𝐹𝑁) (9)

c. Accuracy

Accuracy digunakan untuk mengukur kinerja sebuah metode.

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = ^{𝑇𝑃+𝑇𝑁}

(𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁) (10)

3. HASIL DAN PEMBAHASAN

Masukan yang diujikan pada penelitian adalah kumpulan artikel berita dalam BBC News Archives dari tahun 2004-2005, yang terdiri atas 2.225 dokumen berita yang dikelompokkan dalam 5 (lima) kategori, yaitu: business, entertainment, politics, sports, dan technology. Untuk kategori sports sendiri terdiri dari 737 dokumen yang terdiri dari athletics, cricket,

(5)

JURIKOM (Jurnal Riset Komputer), Vol. 9 No. 2, April 2022 e-ISSN 2715-7393 (Media Online), p-ISSN 2407-389X (Media Cetak) DOI 10.30865/jurikom.v9i2.3980 Hal 194−201 http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom direktori untuk nantinya menjadi inputan dalam sistem. Di dalam sistem juga terdapat direktori untuk menampung hasil dari proses stopword removal, stemming, build vector, cluster per iterasi, serta hasil akhir clustering.

3.1 Pengujian dengan Koleksi Data yang Berbeda

Pada skenario pertama, dilakukan pengujian untuk mengetahui kestabilan performasi clustering dengan algoritma AFCC.

Oleh karenanya, pada skenario 1 ini akan digunakan dataset dari BBC News Archives yang dikelompokan menjadi 3(tiga) dataset seperti dijelaskan pada tabel 2 berikut:

Tabel 2. Dataset pengujian

Dataset Deskripsi Class labels

1 Tema sangat berbeda dan jumlah masing-masing file kelas sama Entertainment, Tech 2 Tema sangat berbeda dan jumlah masing-masing kelas berbeda Business, Politics

3 Tema mirip Sport.Football,

Sport.Tennis

Masing-masing dataset hanya diujikan untuk 2 class labels dengan maksimal cluster adalah 2. Hal ini karena minimum class labels untuk pengujian dengan confusion matrix adalah 2. Dataset pertama berisi kumpulan dokumen teks dengan tema yang sangat berbeda dan jumlah masing-masing file kelas yang sama. Pada dataset 1 digunakan masing- masing 10 file teks pada class labels: entertainment dan tech. Dataset 2 berisi kumpulan dokumen teks dengan tema yang berbeda, namun jumlah masing-masing kelas berbeda, yaitu 15 file teks pada class labels: business dan 5 file teks pada class labels: politics. Sedangkan dataset 3 berisi kumpulan dokumen teks dengan tema mirip yang berasal dari class labels: sport, yaitu 10 file teks football dan 10 file teks tennis.

Tabel 3. Performansi clustering dengan koleksi data berbeda

Dataset Precision Recall Accuracy

1 0,5000 0,5000 0,5000

2 0,5333 0,5253 0,5000

3 0,5500 0,5549 0,5500

Rata-rata 0,5278 0,5267 0,5167

Gambar 2. Grafik performansi clustering dengan koleksi data yang berbeda

Berdasarkan hasil dari pengujian skenario 1 yang bisa dilihat pada tabel 3 dan gambar 2, maka nilai akurasi yang dihasilkan untuk pengelompokan dokumen teks dengan algoritma AFCC bisa berbeda. Nilai akurasi lebih tinggi dihasilkan dari data dengan tema mirip, yaitu dataset 3. Sedangkan nilai akurasi lebih rendah dihasilkan dari dataset dengan tema sangat berbeda (dataset 1 dan 2). Hal ini bisa terjadi karena inisialisasi cluster awal dilakukan dengan acak [17]. Tetapi dari beberapa percobaan yang telah dilakukan, terlihat bahwa nilai akurasi nya stabil, yaitu berkisar di 0,52, dengan nilai precision dan recall sebesar 0,53.

3.2 Pengujian dengan Maksimal Cluster yang Berbeda

Pada skenario 2, dilakukan pengujian untuk mengetahui bagaimana pengaruh jumlah maksimal cluster pada saat inisialisasi awal. Dataset yang digunakan pada skenario 2 adalah dataset dengan tema mirip yang berada dalam class labels: sport.

Untuk jumlah maksimal cluster 2, dokumen teks yang diujikan adalah 10 dokumen football dan 10 dokumen tennis. 7 0,4700

0,4800 0,4900 0,5000 0,5100 0,5200 0,5300 0,5400 0,5500 0,5600

DATASET A DATASET B DATASET C

Nilai

Performansi Clustering dengan Koleksi Data yang Berbeda

Precision Recall Accuracy

(6)

JURIKOM (Jurnal Riset Komputer), Vol. 9 No. 2, April 2022 e-ISSN 2715-7393 (Media Online), p-ISSN 2407-389X (Media Cetak) DOI 10.30865/jurikom.v9i2.3980 Hal 194−201 http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom dokumen athletics, 7 dokumen football, dan 6 dokumen tennis diujikan dengan jumlah maksimal cluster 3. Sedangkan untuk jumlah maksimal cluster 4, dokumen yang diujikan masing-masing sebanyak 5 file teks dengan kategori athletics, football, tennis, dan cricket. Berikut contoh dataset yang digunakan dalam pengujian skenario 2 yang dijabarkan pada tabel 4:

Tabel 4. Dataset pengujian dengan maksimal cluster yang berbeda Max Cluster Label kelas Jumlah dokumen

2 football

tennis

10 10 3 athletics

football tennis

7 7 6 4 athletics

football tennis cricket

5 5 5 5

Tabel 5. Performansi clustering dengan maksimal cluster yang berbeda Max Cluster Precision Recall Accuracy

2 0,5000 0,5000 0,5000

3 0,4048 0,3968 0,5013

4 0,2500 0,2542 0,4032

Rata-rata 0,3849 0,3837 0,4682

Gambar 3. Grafik performansi clustering dengan jumlah maksimal cluster yang berbeda

Berdasarkan hasil dari pengujian skenario 2 yang bisa dilihat pada tabel 5 dan gambar 3, maka jumlah cluster maksimal yang diinisialisasikan oleh user cukup berpengaruh terhadap nilai akurasi yang dihasilkan. Dari tabel terlihat bahwa secara rata-rata semakin banyak jumlah cluster maksimal yang diinputkan, maka nilai akurasi yang dihasilkan semakin kecil. Hal ini dapat disebabkan karena semakin banyak jumlah cluster, maka nilai keanggotaan suatu dokumen terhadap clusters tersebut juga semakin bervariasi. Oleh karena itu, nilai jumlah cluster maksimal berbanding terbalik dengan nilai akurasi yang dihasilkan.

3.3 Pengujian Maksimal Constraint per Iterasi yang Berbeda

Pada skenario 3, dilakukan pengujian untuk mengetahui bagaimana pengaruh jumlah maksimal constraint yang diberikan per iterasi. Dataset yang digunakan pada skenario 3 adalah dataset dengan tema mirip yang berada dalam class labels:

sport. Jumlah dokumen teks yang diujikan pada skenario 3 masing-masing sebanyak 10 dokumen dengan kategori football dan tennis. Berikut adalah contoh dataset yang digunakan pada pengujian skenario 3 yang dijabarkan pada tabel 6:

Tabel 6. Dataset pengujian dengan maksimal constraint yang berbeda Max Cluster Label kelas Jumlah dokumen

0,0000 0,1000 0,2000 0,3000 0,4000 0,5000 0,6000

Max Cluster 2 Max Cluster 3 Max Cluster 4

Nilai

Performansi Clustering dengan Jumlah Maksimal Cluster yang Berbeda

(7)

JURIKOM (Jurnal Riset Komputer), Vol. 9 No. 2, April 2022 e-ISSN 2715-7393 (Media Online), p-ISSN 2407-389X (Media Cetak) DOI 10.30865/jurikom.v9i2.3980 Hal 194−201 http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom

Tabel 7. Performansi clustering dengan maksimal constraint yang berbeda Max Constraint Precision Recall Accuracy

2 0,5500 0,5505 0,5500

4 0,7000 0,7000 0,7000

6 0,7500 0,7525 0,7500

Rata-rata 0,6667 0,6677 0,6667

Gambar 4. Grafik performansi clustering dengan jumlah maksimal constraint yang berbeda

Berdasarkan hasil dari pengujian skenario 3 yang bisa dilihat pada tabel 7 dan gambar 4, maka semakin tinggi jumlah maksimal constraint yang diberikan dalam tiap iterasi, maka nilai akurasi yang dihasilkan semakin meningkat semakin meningkat. Oleh karena itu, pemberian pairwise constraint terbukti dapat meningkatkan nilai akurasi hasil clustering.

4. KESIMPULAN

Berdasarkan hasil penelitian yang telah dilakukan, maka dapat diambil kesimpulan bahwa algoritma Active Fuzzy Constrained Clustering (AFCC) dapat diterapkan untuk pengelompokan dokumen teks dengan karakteristik artikel berita.

Dari hasil pengujian dengan koleksi data yang berbeda, akurasi yang dihasilkan dari document clustering adalah stabil.

Untuk pengujian dengan maksimal cluster yang berbeda, diperoleh hasil bahwa karena algoritma AFCC menggunakan konsep aglomerasi dalam pembentukan cluster, maka jumlah maksimal cluster tidak cukup mempengaruhi performasi hasil clustering. Sedangkan pengujian dengan penggunaan pairwise constraint dapat membantu meningkatkan akurasi hasil clustering pada suatu koleksi dokumen. Akurasi hasil clustering akan semakin tinggi, pada saat jumlah pairwise constraint yang diberikan semakin banyak. Untuk pengukuran nilai precision, recall, dan akurasi hasil clustering dengan metode Confusion Matrix juga mampu menghasilkan nilai yang lebih detail menggambarkan hasil clustering.

REFERENCES

[1] W. Setiawan, “Era Digital dan Tantangannya,” Semin. Nas. Pendidik., p. 1, 2017.

[2] J. E. van Engelen and H. H. Hoos, “A survey on semi-supervised learning,” Mach. Learn., vol. 109, no. 2, pp. 373–440, 2020, doi: 10.1007/s10994-019-05855-6.

[3] L. Akritidis and P. Bozanis, “A supervised machine learning classification algorithm for research articles,” Proc. ACM Symp.

Appl. Comput., no. June 2019, pp. 115–120, 2013, doi: 10.1145/2480362.2480388.

[4] N. Amruthnath and T. Gupta, “A research study on unsupervised machine learning algorithms for early fault detection in predictive maintenance,” 2018 5th Int. Conf. Ind. Eng. Appl. ICIEA 2018, no. April, pp. 355–361, 2018, doi:

10.1109/IEA.2018.8387124.

[5] A. Cholaquidis, R. Fraiman, and M. Sued, On semi-supervised learning, vol. 29, no. 4. 2020. doi: 10.1007/s11749-019-00690- 2.

[6] R. A. Pramadhanty, “STUDI DAN IMPLEMENTASI ACTIVE FUZZY CONSTRAINED,” Tugas Akhir, 2018, [Online].

Available: https://digilib.itb.ac.id/index.php/gdl/view/8980

[7] J. H. Kusuma and K. Maulana, “Analisis Active Fuzzy Constrained Clustering Dengan Menggunakan Vektor Model Untuk Pengelompokan,” pp. 175–182, 2011.

[8] R. R. Syoer and Y. Wahyudin, “Studi Kasus Pengelompokkan Desa di Provinsi Kalimantan Timur ( CLUSTER ANALYSIS 0,0000

0,1000 0,2000 0,3000 0,4000 0,5000 0,6000 0,7000 0,8000

Max Constraint 2 Max Constraint 4 Max Constraint 6

Nilai

Performansi Clustering dengan Jumlah Constraint yang Berbeda

(8)

JURIKOM (Jurnal Riset Komputer), Vol. 9 No. 2, April 2022 e-ISSN 2715-7393 (Media Online), p-ISSN 2407-389X (Media Cetak) DOI 10.30865/jurikom.v9i2.3980 Hal 194−201 http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom WITH FUZZY CLUSTERING ALGORITHM Case Study Grouping Villages in Kalimantan Timur Province ),” Stat. Ahli Madya, BPS Provinsi Kalimantan Timur, pp. 1–11, 2021.

[9] L. Li, J. M. Garibaldi, D. He, and M. Wang, “Semi-supervised fuzzy clustering with feature discrimination,” PLoS One, vol. 10, no. 9, pp. 1–13, 2015, doi: 10.1371/journal.pone.0131160.

[10] D. Greene, “ML Resources Dataset : BBC Dataset : BBCSport,” pp. 3–4, 2006.

[11] A. Kondas, “Text data classification with BBC news article dataset,” pp. 1–10, 2019.

[12] L. Pham, C. Baume, Q. Kong, T. Hussain, W. Wang, and M. Plumbley, “An Audio-Based Deep Learning Framework For BBC Television Programme Classification,” Eur. Signal Process. Conf., vol. 2021-August, pp. 56–60, 2021, doi:

10.23919/EUSIPCO54536.2021.9616310.

[13] D. H. K. Al-Khafaji and A. T. Habeeb, “Efficient Algorithms for Preprocessing and Stemming of Tweets in a Sentiment Analysis System,” IOSR J. Comput. Eng., vol. 19, no. 3, pp. 44–50, 2017, doi: 10.9790/0661-1903024450.

[14] S. Fauziah, D. N. Sulistyowati, and T. Asra, “Optimasi Algoritma Vector Space Model Dengan Algoritma K-Nearest Neighbour Pada Pencarian Judul Artikel Jurnal,” J. Pilar Nusa Mandiri, vol. 15, no. 1, pp. 21–26, 2019, doi: 10.33480/pilar.v15i1.27.

[15] J. Arora, M. Tushir, and R. Kashyap, “EAI Endorsed Transactions Improving Semi-Supervised Classification using Clustering,”

vol. 7, no. 2019, pp. 1–9, 2019.

[16] Z. Wang, S.-S. Wang, L. Bai, W.-S. Wang, and Y.-H. Shao, “Fuzzy Discriminant Clustering with Fuzzy Pairwise Constraints,”

vol. X, no. X, pp. 1–15, 2021, [Online]. Available: http://arxiv.org/abs/2104.08546

[17] Z. Cebeci and C. Cebeci, “A fast algorithm to initialize cluster centroids in fuzzy clustering applications,” Inf., vol. 11, no. 9, pp.

1–15, 2020, doi: 10.3390/INFO11090446.

[18] C. Xiong, D. M. Johnson, and J. J. Corso, “Active Clustering with Model-Based Uncertainty Reduction,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, no. 1, pp. 5–17, 2017, doi: 10.1109/TPAMI.2016.2539965.

[19] A. U. Fitriyadi, “Algoritma K-Means dan K-Medoids Analisis Algoritma K-Means dan K-Medoids Untuk Clustering Data Kinerja Karyawan Pada Perusahaan Perumahan Nasional,” Kilat, vol. 10, no. 1, pp. 157–168, 2021, doi:

10.33322/kilat.v10i1.1174.

[20] Karsito and S. Susanti, “Klasifikasi Kelayakan Peserta Pengajuan Kredit Rumah Dengan Algoritma Naïve Bayes Di Perumahan Azzura Residencia,” J. Teknol. Pelita Bangsa, vol. 9, pp. 43–48, 2019.

[21] R. K. Dinata, S. Safwandi, N. Hasdyna, and N. Azizah, “Analisis K-Means Clustering pada Data Sepeda Motor,” INFORMAL Informatics J., vol. 5, no. 1, p. 10, 2020, doi: 10.19184/isj.v5i1.17071.