Kombinasi Pembobotan Symmetrical Uncertainty Pada K-Means Clustering Dalam Peningkatan Kinerja Pengelompokan Data
Suranta Bill Fatric Ginting1, Sawaluddin2, Muhammad Zarlis1*
1 Fakultas Ilmu Komputer dan Teknologi Informasi, Universitas Sumatera Utara, Medan, Indonesia
2 Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Sumatera Utara, Medan, Indonesia Email: 1[email protected], 2[email protected] 3,*[email protected]
Email Penulis Korespondensi: [email protected]
Abstrak−Berdasarkan beberapa penelitian yang mengkaji tentang metode K-Means Clustering, bahwa ditemukan pada K- Means Clustering salah satu kelemahan yakni terletak pada proses penentuan titik pusat klister yang juga berimplikasi pada perhitungan distance dalam penentuan kemiripan antar data untuk memperoleh kesimpulan dari data tersebut akan diletakkan pada suatu klaster. Dan hal tersebut disebabkan juga dari pengaruh persentase dari atribut yang digunakan. Apabila atribut yang digunakan kurang relevan tingkat pengaruhnya dan juga memiliki sedikit kontribusi yang rendah terhadap data maka hal tersebut dapat memberikan dampak yang cukup berpengaruh terhadap hasil klasterisasi. Maka dari permasalahan tersebut, pada riset ini, penulis mengusulkan untuk penggunaan metode dalam perhitungan bobot atribut data pada proses klasterisasi yaitu menggunakan Symmetrical Uncertainty. Untuk melakukan pengujian terhadap metode yang diusulkan, maka penelitian ini menggunakan dataset dari UCI Machine Learning yang terdiri dari Iris dengan jumlah data sebanyak 150 data dan Wine Quality dengan jumlah data sebanyak 178 data. Evaluasi kinerja clustering yang diusulkan berdasarkan nilai Davies-Bouldin Index (DBI). Hasil pengujian pada penelitian ini terlihat bahwa dengan metode yang diusulkan dapat menghasilkan nilai Davies- Bouldin Index (DBI) yang signifikan lebih kecil.
Kata Kunci: Clustering; K-Means Clustering; Symmetrical Uncertainty; Davies-Bouldin Index
Abstract−Based on several studies that examine the K-Means Clustering method, it was found that in K-Means Clustering one of the weaknesses lies in the process of determining the center point of the cluster which also has implications for distance calculations in determining the similarity between data to obtain conclusions from the data. a cluster. And this is also caused by the influence of the percentage of the attributes used. If the attributes used are less relevant to their level of influence and also have a low contribution to the data, this can have a significant impact on the results of clustering. So from these problems, in this research, the author proposes to use the method in calculating the weight of data attributes in the clustering process, namely using Symmetrical Uncertainty. To test the proposed method, this research uses a dataset from UCI Machine Learning which consists of Iris with 150 data and Wine Quality with 178 data. The evaluation of the proposed clustering performance is based on the Davies-Bouldin Index (DBI) value. The test results in this study show that the proposed method can produce a significantly smaller Davies-Bouldin Index (DBI) value.
Keywords: Clustering; K-Means Clustering; Symmetrical Uncertainty; Davies-Bouldin Index
1. PENDAHULUAN
Dalam beberapa penelitian ditemukan kelemahan dari metode K-Means Clustering dalam menentukan klasterisasi atau pengelompokan dari suatu data. Salah satu penyebabnya yaitu yang dipicu oleh pengaruh dari penentuan titik pusat cluster atau centroid dalam proses klasterisasi yang mengakibatkan nilai kinerja dari K-Means Clustering menjadi kurang maksimal [1]. Kemudian masalah lainnya yaitu dikarenakan nilai centroid awal yang dipilih secara random memiliki sensitifitas yang tidak tepat serta tidak menjamin hasil pengelompokan data yang baik [2][3].
Maka idalam ipenentuan iawal ipusat icluster isangat berpengaruh iterhadap ihasil idari iproses mengelompokan data. Hal tersebut menyebabkan munculnya berbagai metode dalam menentukan titik pusat klaster, seperti yang dilakukan [1] yang menggunakan algortima neighborhood model dan [4] menentukan pusat cluster awal dengan cara Biogeography Based Optimization.
Adapun menurut Kuhkan pada tahun 2016 [5], untuk solusi pada permasalahan optimasi dalam kinerja klasterisasi salah satunya yaitu idapat idiatasi idengan icara imemberikan ibobot untuk isetiap iattribute untuk melihat tingkat korelasi dari atribut yang digunakan pada proses klasterisasi dan memberikan pengaruh yang cukup signifikan dalam penentuan titik pusat cluster atau centroid.
Kemudian dalam salah satu riset yang meneliti tentang performa metode pembobotan atribut yaitu pada penelitian Kumar & Sree pada Tahun 2014 [6]. Pada penelitian tersebut membandingkan performa dari beberapa metode pembobotan atribut yang terdiri dari Chi Square, Information Gain, Gain Ratio, Relief, dan Symmetrical Uncertainty dalam melakukan seleksi atribut pada evaluasi jawaban otomatis berbasis deskriptif. Hasil penelitian tersebut menunjukkan bahwa Symmetrical Uncertainty memperoleh hasil yang lebih unggul dibandingkan metode lainnya untuk evaluasi otomatis jawaban deskriptif.
Kemudian pada penelitian ini, untuk mengoptimasi hasil dari kinerja K-Means Clustering, penulis akan menggunakan metode Symmetrical Uncertainty sebagai metode pembobotan atribut dari data yang akan diujikan pada proses klasterisasi yang dimana bobot yang dihasilkan akan dinormalisasakan idengan menggunakan persamaan inormalisasi imin-max, dimana ibobot terendah isetelah idinormalisasi iadalah i0 idan ibobot itertinggi setelah idinormalisasi iadalah 1 [7]. Sehingga dengan menggunakan pembobotan atribut berdasarkan Symmetrical Uncertainty, nantinya dapat memberikan korelasi yang baik bagi data sebelum dilakukannya clustering dan
DOI 10.30865/mib.v6i1.3366
memberikan pengaruh yang signifikan untuk penentuan centroid pada K-Means Clustering dan diharapkan mampu dalam meningkatkan performa pada K-Means Clustering
Kemudian dalam melihat pembuktian dari metode yang diusulkan pada riset ini, bahwa adanya perbedaan keberhasilan pada penyelesaian metode yang diusulkan tersebut dan dengan pengujian klasterisasi menggunakan cara konvensional, maka pada riset ini pembuktiannya akan dilakukan dengan evaluasi kinerja clustering dengan menggunakan perhitungan Davies-Boulding Index (DBI) untuk proses clustering. Daviesi-iBouldin Index iadalah salah isatu imetode iyang ibertujuan iuntuk mengevaluasi iproses iclustering ipada isuatu imetode iklasterisasi yang ididasarkan ipada inilai ikohesi idan iseparasi [8]. iSehingga nantinya idapat idiketahui ikorelasi iantar iiterasi pada iproses clustering idari metode ipenentuan ititik ipusat icluster berdasarkan pembobotan iatribut iSymmetrical Uncertainty iterhadap peningkatan ikualitas icluster iberdasarkan inilai iDaviesi-iBouldin Index (DBI) iyang diperoleh.
2. METODOLOGI PENELITIAN
2.1 Tahapan Penelitian
Tahapan pada penelitian ini dilakukan dengan tahapan penelitian pada Gambar 1 berikut.
Gambar 1. Tahapan Penelitian
Adapun keterangan tahapan penelitian pada Gambar 1 menggambarkan langkah-langkah yang diterapkan pada penelitian ini yaitu sebagai berikut:
2.1.1 Dataset
Pada ipenelitian ini, iuntuk imengetahui ikinerja idari imetode iyang diusulkan imaka idiujikan imenggunakan beberapa data set yang berasal dari iUCI iMachine iLearning iRepository idiantaranya adalah iData Set Iris dan Wine Quality.
Data Set Iris merupakan salah satu data set yang didonasikan oleh Fisher (1936). Data set ini iterdiri idari 150 records idengan 4 attributes dan 3 ikelas, idimana isetiap ikelas idata iterdiri idari 50 records yang dikontribusikan oleh Marshall pada tahun 1988. Kemudian Wine Quality merupakan data set yang terdiri dari 178 records, 13 attributes dan memiliki 3 kelas, data ini didonasikan oleh Aerbehard pada tahun 1991.
2.1.2 Symmetrical Uncertainty
Symmetrical Uncertainty digunakan untuk melakukan pembobotan fitur yang bekerja dengan menggunakan entropy dalam mengukur heterogenitas dalam suatu himpunan data. Langkah-langkah untuk menghitung Symmetrical Uncertainty sebagai berikut [9]:
a. Menghitung nilai Entropy dengan persamaan berikut:
𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) = ∑𝑛𝑖=1− 𝑝𝑖 ∗ log2𝑝𝑖 (1)
b. Menghitung nilai Information Gain dengan persamaan berikut:
𝐼𝑛𝑓𝑜𝐺𝑎𝑖𝑛 = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) − ∑𝑛𝑖=1|𝑆|𝑆|𝑖| × 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆𝑖) (2) c. Menghitung inilai iSymmetrical iUncertainty idengan menggunakan ipersamaan iberikut:
𝑆𝑈 = 2 ×𝐼𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛 𝐺𝑎𝑖𝑛 (𝑆,𝐴)
𝐻(𝑆)+𝐻(𝐴) (3)
d. Menghitung nilai bobot Symmetrical Uncertainty dengan menggunakan persamaan normalisasi min-max [7]
dengan persamaan berikut:
𝑊𝑖= (𝐺𝑖−𝑀𝑖𝑛 (𝐺))
𝑀𝑎𝑥 (𝐺)−𝑀𝑖𝑛 (𝐺)× (0.9) + 0.1 (4)
2.1.3 Perhitungan K-Means Clustering
K-Means iClustering imerupakan imetode umum dan paling sederhana dalam clustering [10]. K-Means digunakan dalam mengelompokkkan data menjadi beberapa kelompok tanpa mengetahui target kelasnya. Hasil proses cluster dipengaruhi oleh pada nilai centroid awal. Proses K-Means isebagai iberikut:
a. Menentukan nilai k (jumlah cluster) yang ingin dibentuk b. Memilih centroid awal sesuai nilai k
c. Menghitung Euclidean Distance antar data ke titik pusat dengan cara:
𝑑𝑖𝑠𝑡(𝑥, 𝑦) = √∑𝑛𝑖=1(𝑥𝑖− 𝑦𝑖)2 (5)
d. Mengelompokkan data berdasarkan kedekatan data dengan cluster awal.
e. Menghitung mean idari idata iyang iberada ipada centroid yang sama untuk menentukan cluster centroid baru dengan cara:
𝑣𝑖𝑗= 1
𝑁𝑖∑𝑛𝑘=0𝑥𝑘𝑗 (6)
f. Ulangi ke langkah tiga jika ianggota icentroid ibaru idengan centroid ilama itidak isama.
2.2 Evaluasi Hasil Clustering dengan Davies-Bouldin Index
Davies-Bouldin iIndex ibertujuan iuntuk imengevaluasi icluster pada isuatu imetode iclustering iyang ididasarkan pada inilai kohesi idan iseparasi [8]. iLangkah-langkah iuntuk imenghitung Daviesi-iBouldin iIndex iadalah sebagai iberikut:
a. Menghitung iSum iof iSquare iWithin icluster (SSW) iuntuk mengetahui imatriks ikohesi idalam isebuah cluster ike-i iyang dirumuskan isebagai iberikut:
𝑆𝑆𝑊𝑖 = 1
𝑚𝑖∑𝑚𝑖𝑗=1𝑑(𝑥𝑗, 𝑐𝑖) (7)
b. Menghitung iSum iof iSquare iBetween (SSB) iuntuk mengetahui iseparasi iantar cluster dengan persamaan berikut:
𝑆𝑆𝐵𝑖, 𝑗 = 𝑑(𝑐𝑖, 𝑐𝑗) (8)
c. Menghitung iRatio iuntuk imengetahui inilai iperbandingan antara icluster ike-i idan icluster ike-j. iNilai rasio idihitung menggunakan ipersamaan isebagai iberikut.
𝑅𝑖𝑖 =𝑆𝑆𝑊𝑖+𝑆𝑆𝑊𝑗
𝑆𝑆𝐵𝑖𝑗 (9)
d. Menghitung iDavies-Bouldin iIndex (DBI) idengan menggunakan ipersamaan iberikut.
𝐷𝐵𝐼 =1
𝑘∑𝑘𝑖=1𝑚𝑎𝑥𝑖≠𝑗(𝑅𝑖,𝑗) (10)
e. Semakin kecil nilai DBI yang diperoleh,imaka semakin baik cluster yang diperoleh [11].
3. HASIL DAN PEMBAHASAN
3.1 Hasil Penelitian
Dalam menguji perolehan dari kinerja metode yang diusulkan pada riset ini, akan membandingkan hasil kinerja clustering yang dihasilkan dari pengujian K-Means Clustering secara konvensional dan pengujian K-Means Clustering dengan dikombinasikan menggunakan pembobotan Symmetrical Uncertainty.
Langkah pertama yaitu menghitung bobot atribut dari Iris Dataset dan Wine Quality Dataset dengan menggunakan Symmetrical Uncertainty dengan beberapa proses yaitu menghitung nilai entropy seluruh data berdasarkan jumlah dari nilai entropy setiap partisi menggunakan persamaan (1). Selanjutnya, menghitung information gain dari setiap atribut berdasarkan persamaan (2). Selanjutnya menghitung Symmetrical uncertainty
DOI 10.30865/mib.v6i1.3366
dari setiap atribut dihitung berdasarkan persamaan (3). Kemudian menghitung nilai bobot symmetrical uncertainty untuk setiap atribut berdasarkan normalisasi min-max dari nilai symmetrical uncertainty menggunakan persamaan (4). Adapun hasil dari pembobotan atribut menggunakan symmetrical uncertainty pada Iris Dataset dan Wine Quality Dataset dapat dilihat pada Tabel 1 dan Tabel 2 berikut.
Tabel 1. Bobot Symmetrical Uncertainty Pada Iris
No. Atribut Nilai Symmetrical
Uncertainty
Bobot Symmetrical Uncertainty
1 Sepal Length 0.409 0.268
2 Sepal Width 0.240 0
3 Petal Length 0.806 0.898
4 Petal Width 0.871 1.000
Tabel 2. Bobot Symmetrical Uncertainty Pada Wine Quality
No. Atribut Nilai Symmetrical
Uncertainty
Bobot Symmetrical Uncertainty
1 Alcohol 0.410 0.579
2 Malic Acid 0.283 0.287
3 Ash 0.159 0
4 Alcanity of Ash 0.227 0.156
5 Magnesium 0.250 0.210
6 Total Phenols 0.380 0.511
7 Flavanoid 0.592 1.000
8 Nonflavanoid Phenols 0.174 0.034
9 Proanthocyanins 0.219 0.139
10 Color Intensity 0.499 0.785
11 Hue 0.382 0.516
12 OD280/OD315 0.511 0.813
13 Proline 0.483 0.749
Setelah bobot atribut diperoleh, maka kemudian melakukan klasterisasi pada masing-masing data set dengan K-Means Clustering. Langkah yang dilakukan yaitu penentuan centroid terlebih dahulu yang dimana banyaknya jumlah centroid yang ditentukan yaitu berdasarkan banyaknya jumlah class pada data set. Pada Iris Dataset dan Wine Quality Dataset mempunyai tiga class. Maka dari itu untuk penentuan centroid dari masing- masing data set yaitu K = 3.
Setelah hasil perhitungan jarak dari clustering sampai iterasi terakhir (ke-9), selanjutnya dilakukan perhitungan nilai kinerja dari masing-masing iterasi dengan perhitungan Davies-Bouldin Index (DBI) berdasarkan persamaan (10). Adapun hasil perhitungan Davies-Bouldin Index (DBI) dari masing-masing iterasi dapat dilihat pada Tabel 3 berikut.
Tabel 3. lHasil Pengujian Clustering Pada Iris Dataset
K-Means Konvensional K-Means Konvensional + Symmetrical Uncertainty
Iterasi Ke-. Nilai DBI Iterasi Ke- Nilai DBI
1 0.171782 1 0.124567
2 0.147293 2 0.098075
3 0.144156 3 0.095431
4 0.141259 - -
5 0.137834 - -
6 0.135146 - -
7 0.133096 - -
8 0.132090 - -
9 0.130816 - -
10 0.129551 - -
11 0.129547 - -
Rata-Rata 0.139324 Rata-Rata 0.106024
Tabel 4. lHasil Pengujian Clustering Pada Wine Quality Dataset K-Means Konvensional K-Means Konvensional + Symmetrical
Uncertainty
Iterasi Ke-. Nilai DBI Iterasi Ke- Nilai DBI
1 0.788616 1 0.670773
K-Means Konvensional K-Means Konvensional + Symmetrical Uncertainty
2 0.140627 2 0.084415
3 0.083719 3 0.081543
4 0.108200 4 0.090412
5 0.141050 5 0.119523
6 0.174632 6 0.119523
7 0.194327 - -
8 0.203345 - -
9 0.205159 - -
Rata-Rata 0.139324 Rata-Rata 0.194365
3.2 Pembahasan
Pada bagian ini melakukan pembahasan mengenai metode yang diusulkan yaitu penentuan pembobotan atribut menggunakan Symmetrical Uncertainty pada iK-Means iClustering isecara konvensional iterhadap iproses clustering, imaka idilakukan perbandingan itotal irata-rata ihasil ievaluasi iclustering idari kedua dataset.
Perbandingan irata-rata ihasil ievaluasi iclustering idari kedua imetode iterhadap ikedua idataset iyang idigunakan dapat dilihat ipada iTabel i5 idan iTabel i6 iberikut.
Tabel 5. Hasil Evaluasi Berdasarkan Jumlah Iterasi Convergen
No. Data Set
Jumlah Iterasi Yang Dihasilkan K-Means Clustering
Konvensional
K-Means Clustering + Symmetrical Uncertainty
1 Iris 11 3
2 Wine Quality 9 6
Pada Tabel 5 imenunjukkan ijumlah irata-rata iiterasi iyang dibutuhkan iuntuk imencapai ikonvergen idalam proses clustering. iPada iIris iDataset, ijumlah irata-rata iiterasi iyang dibutuhkan iuntuk iclustering ipada
iK-Means iClustering isecara konvensional iadalah isebanyak 11 iterasi, isedangkan idengan menggunakan iK-
Means Clustering + iSymmetrical iUncertainty yang idiusulkan, ijumlah iiterasi iyang idibutuhkan iuntuk mencapai konvergen iadalah 3 iterasi. iPada iWine iQuality Dataset, ijumlah irata-rata iiterasi iyang idibutuhkan iuntuk clustering ipada iK-Means iClustering isecara ikonvensional adalah isebanyak 9 iterasi, isedangkan idengan menggunakan iK-Means iClustering + iSymmetrical iUncertainty iyang idiusulkan, jumlah iiterasi iyang dibutuhkan iuntuk imencapai ikonvergen adalah i6 iiterasi. iSecara ikeseluruhan, irata-rata ijumlah iiterasi yang diperoleh idari ikedua imetode itersebut idapat idilihat ipada grafik idi iGambar 2 iberikut.
Gambar 2. Grafik Perbandingan Hasil Jumlah Iterasi Seluruh Data Set
Perbandingan irata-rata ihasil ievaluasi iclustering iberdasarkan Daviesi-iBouldin iIndex (DBI) idari ikedua metode iterhadap kedua idataset iyang idigunakan idapat idilihat ipada iTabel 4.32 berikut iini.
Tabel 6. Hasil Evaluasi Berdasarkan Davies-Bouldin Index (DBI) No. Data Set
Nilai Davies-Bouldin Index
K-Means Konvensional K-Means Clustering + Symmetrical Uncertainty
1 Iris 0.139324 0.106024
11 9
3 6
I R I S D A T A S E T W I N E Q U A L I T Y D A T A S E T
JUMLAH ITERASI
P E R B A N D I N G A N J U M L A H I T E R A S I
K-Means Konvensional K-Means + Symmetrical Uncertainty
DOI 10.30865/mib.v6i1.3366 No. Data Set
Nilai Davies-Bouldin Index
K-Means Konvensional K-Means Clustering + Symmetrical Uncertainty
2 Wine Quality 0.226630 0.194365
Berdasarkan Tabel 6, diketahui bahwa pada Iris Dataset, jumlah rata-rata inilai iDBI yang diperoleh pada K-Means Konvensional iadalah isebesar 0.139324, isedangkan idengan menggunakan iK-Means iClustering + Symmetrical iUncertainty yang idiperoleh iadalah isebesar 0.106024.
Sedangkan ipada Wine iQuality iDataset, ijumlah irata-rata nilai Davies-Bouldin Index (DBI) yang diperoleh pada K-Means Konvensional adalah sebesar 0.226630, isedangkan idengan menggunakan iK-Means iClustering + iSymmetrical iUncertainty diperoleh isebesar 0.194365. Secara ikeseluruhan, rata-rata nilai Davies- Bouldin Index (DBI) iyang idiperoleh idari ikedua imetode tersebut idapat idilihat ipada igrafik idi iGambar 4.2 iberikut.
Gambar 3. Grafik Perbandingan Davies-Bouldin Index (DBI) Seluruh Data Set
4. KESIMPULAN
Berdasarkan hasil pengujian yang dilakukan, K-Means Clustering dengan pembobotan atribut Symmetrical Uncertainty dalam memberikan pengaruh pada penentuan centroid, dapat meningkatkan kinerja pada K-Means Clustering. Dengan kombinasi Symmetrical Uncertainty terbukti dapat meminimalkan jumlah iterasi pada K- Means Clustering yang dimana pada Iris Dataset memperoleh jumlah iterasi pada K-Means Clustering secara konvensional sebanyak 11 iterasi, kemudian setelah diujikan dengan K-Means Clustering dengan Symmetrical Uncertainty menjadi 3 iterasi. Sedangkan pada Wine Quality Dataset memperoleh jumlah iterasi pada K-Means Clustering secara konvensional sebanyak 9 iterasi, kemudian setelah diujikan dengan K-Means Clustering dengan Symmetrical Uncertainty menjadi 6 iterasi. Pada Iris Dataset, ijumlah irata-rata inilai Davies-Bouldin Index (DBI) yang idiperoleh iuntuk iproses iclustering pada iK-Means Konvensional iadalah isebesar 0.139324, isedangkan dengan imenggunakan iK-Means Clustering + Symmetrical Uncertainty iyang idiusulkan, inilai iDaviesi-iBouldin Index (DBI) yang idiperoleh adalah isebesar 0.106024. Sedangkan ipada iWine Quality iDataset, ijumlah irata- rata inilai iDavies-Bouldin Index (DBI) iyang idiperoleh iuntuk iproses iclustering ipada iK-Means Konvensional adalah sebesar 0.226630, sedangkan idengan menggunakan iK-Means iClustering + iSymmetrical iUncertainty yang idiusulkan, inilai Daviesi-iBouldin iIndex i(DBI) iyang diperoleh iadalah isebesar 0.194365.
REFERENCES
[1] V. Kumar, J. K. Chhabra, and D. Kumar, "Initializing Cluster Center for K-Means Using Biogeography Based Optimization," In International Conference on Advances in Computing, Communication and Control. pp. 448-456.
Springer, Berlin, Heidelberg, 2011.
[2] C. Xiong, Z. Hua, K. Lv, and X. Li, "An Improved K-means Text Clustering Algorithm by Optimizing Initial Cluster Centers," In 2016 7th International Conference on Cloud Computing and Big Data (CCBD), pp. 265-268, 2016.
[3] F. Gorunescu, "Data Mining: Concepts, Models and Techniques," vol. 12. Springer Science & Business Media, 2011.
0,139324 0,22663
0,106024 0,194365
I R I S D A T A S E T W I N E Q U A L I T Y D A T A S E T
DAVIES-BOULDIN INDEX(DBI)
P E R B A N D I N G A N N I L A I D A V I E S - B O U L D I N I N D E X ( D B I )
K-Means Konvensional K-Means + Symmetrical Uncertainty
[4] F. Cao, J. Liang, and G. Jiang, "An Initialization Method for the K-Means Algorithm Using Neighborhood Model," Computers & Mathematics with Applications, vol. 58, no. 3, pp. 474-483, 2009.
[5] M. Kuhkan, "A Method to Improve the Accuracy of K-Nearest Neighbor Algorithm," International Journal of Computer Engineering and Information Technology, vol. 8, no. 6, pp. 90-95, 2016.
[6] C. S. Kumar, and R. J. Sree, "Application of Ranking Based Attribute Selection Filters to Perform Automated Evaluation of Descriptive Answers Through Sequential Minimal Optimization Models," ICTACT Journal on Soft Computing, vol.
92, no. 2012, pp. 124-132, 2014.
[7] C. Saranya, and G. Manikandan, "A Study on Normalization Techniques for Privacy Preserving Data Mining,"
International Journal of Engineering and Technology (IJET), vol. 5, no. 3, pp. 2701-2704, 2013
[8] R.W. Nurul, S. Defiyanti, and M. Jajuli, "Implementasi Algoritma K-Means Dalam Pengklasteran Mahasiswa Pelamar Beasiswa," Jurnal Ilmiah Teknologi dan Komputer (JITTER). vol. 1, no. 2. pp. 126-134, 2015.
[9] M. Piao, Y. Piao, and J. Y. Lee, "Symmetrical uncertainty-based feature subset generation and ensemble learning for electricity customer classification," Symmetry, vol. 11, no. 4, pp. 498-503, 2019.
[10] M. A. Syakur, B. K. Khotimah, E. M. S. Rochman, and B. D. Satoto, "Integration K-Means Clustering Method and Elbow Method for Identification of the Best Customer Profile Cluster," IOP Conference Series: Materials Science and Engineering, vol. 336, no. 1, pp. 12-17, 2018.
[11] Q. Zhan, "An Improved K-Means Algorithm Based on Structure Features," Journal of Software. vol. 12, no. 1, 62-80, 2017.