Pengelompokan Artikel Berbahasa Indonesia Dengan Menggunakan Reduksi Fitur Information Gain Thresholding Dan K-Means

(1)

Fakultas Ilmu Komputer

3822

Pengelompokan Artikel Berbahasa Indonesia Dengan Menggunakan

Reduksi Fitur Information Gain Thresholding Dan K-Means

Novia Agusvina1_{, Indriati}2_{, Nurudin Santoso}3

Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya Email:1_{noviaagusvina@student.ub.ac.id ,}2

_{indriati.tif@ub.ac.id,}

3_{nurudin.santoso@ub.ac.id}

Abstrak

Semakin banyaknya artikel yang tersebar di situs internet, menyulitkan pengguna dalam menemukan artikel yang diinginkan. Salah satu penyedia layanan artikel online adalah Kompas.com. Untuk menghadapi persaingan antar industri media massa, langkah yang dilakukan Kompas.com adalah memberikan fitur yang memudahkan pengguna, seperti fitur rekomendasi artikel terkait. Namun, dalam penerapannya Kompas.com masih kurang maksimal sehingga tetap kalah dengan media massa online lainnya. Pada penelitian ini, peneliti mengimplementasikan metode reduksi fitur Information Gain Thresholding dan K-Means untuk membuat kelompok artikel terkait. Tujuan dari penelitian ini adalah untuk memperbaiki sistem artikel terkait dari Kompas.com. Dalam pengimplementasian digunakan bahasa java. Pada tahap awal dilakukan preprocessing untuk mengurangi gangguan dalam data, selanjutnya dilakukan reduksi fitur untuk mengurangi fitur yang digunakan agar proses kebih cepat, kemudian dilakukan pembobotan sebagai dasar untuk menghitung jarak antar dokumen, setelah menemukan nilai jarak awal atau centroid , pengelompokan dapat dilakukan. Hasil menunjukan bahwa pengelompokan artikel dengan metode Information Gain Thresholding dan K-Means mampu menghasilkan kelompok dokumen yang baik dengan nilai silhouette coefiecient sebesar 0.9595 dan purity measure sebesar 0.75 dengan penggunaan 3 cluster dan batas ambang untuk reduksi fitur terbaik adalah 0.04 dengan nilai kemurnian data jauh lebih baik dibandingkan tanpa reduksi fitur.

Kata kunci: artikel online, reduksi fitur, information gain thresholding, pengelompokan, K-Means Abstract

The increasing number of articles spread on the internet site, making it difficult for users to find the desired article. One of the online article service providers is Kompas.com. To face the competition among mass media industry, Kompas.com step is to provide features that facilitate the user, such as features related article recommendations. However, in its application Kompas.com is still less than the maximum so it remains inferior to other online mass media. In this study, researchers implemented a method of reducing the features of Information Gain Thresholding and K-Means to create a group of related articles. The purpose of this study is to improve the system related articles from Kompas.com. In implementing the use of java language. In the early stages of preprocessing to reduce the disturbance in the data, then the feature reduction is done to reduce the features used for faster process, then weighted as the basis for calculating the distance between documents, after finding the distance of the initial distance or centroid, grouping can be done. The results show that the clustering of articles using Information Gain Threshold and K-Means is good enough, has criteria of silhouette coefficient of 0.9595 and a purity measure of 0.75 with 3 clusters and 0.04 threshold limit, this conclude that it gives better purity compared to without feature reduction.

Keywords: online articles, feature reduction, information gain thresholding, clustering, K-Means

1. PENDAHULUAN

Artikel online merupakan salah satu sumber informasi yang umum dan dapat dengan mudah ditemukan di situs internet (Lonnberg dan Yregard, 2013). Salah satu penyedia layanan

(2)

Fitur artikel terkait merupakan salah satu penerapan dari konsep pengelompokan (Tan, dkk, 2006). Dalam pengelompokan artikel terkait, Kompas.com menggunakan tipe soft clustering dimana setiap objek dapat memiliki kelompok lebih dari satu satu (Zade, dkk, 2017).

Menurut Ghosh dan Dubay (2013) metode Fuzzy c-means, salah satu metode soft clustering, sebenarnya tidak lebih baik dari metode hard clustering, yaitu k-means. Walaupun sebenaranya metode tersebut mampu menangani data yang tidak lengkap dan informasi campuran, namun hasil pengelompokan dan waktu komputasi tidak lebih baik dari metode hard clustering.

Pada penelitian ini, peneliti ingin memperbaiki fitur artikel terkait pada Kompas.com dengan metode hard-clustering. Penelitian mengenai pengelompokan artikel sendiri sebenarnya sudah banyak dilakukan. Salah satunya adalah penelitian oleh Zade, dkk, dimana dalam penelitiannya digunakan objek berupa dokumen. Hasil dari penelitian tersebut yaitu ukuran dokumen yang besar memberi keuntungan pada metode K-Means untuk meningkatkan ukuran kesamaan. Metode K-Means adalah metode untuk mengelompokan objek sebanyak k partisi (Zade, dkk, 2017).

Sedangkan dokumen yang besar berarti memiliki fitur kata yang banyak. Oleh karena itu dibutuhkan seleksi fitur untuk mengurangi dimensi fitur untuk meningkatkan kinerja algoritma (Maulida, 2016).

Seleksi fitur sendiri merupakan teknik reduksi dimensi yang digunakan untuk memperkecil matrik data namun masih memperhatikan kepentingan kata.

Penelitian mengenai penambahan reduksi fitur pada pengelompokan dokumen pernah diteliti oleh Dewi (2013). Dalam penelitian tersebut didapatkan hasil yang berbeda antara pengelompokan dokumen hanya dengan metode K-Means dengan pengelompokan dengan Metode K-Means yang dibantu seleksi fitur DF-Threshold. Dengan adanya reduksi fitur terdapat pengaruh terhadap fitur yang dipilih dan keragaman dokumen. Namun tidak menutup kemungkinan bahwa penggunan metode reduksi fitur yang lain akan menghasilkan akurasi yang berbeda (Dewi, 2013).

Berdasarkan uraian diatas maka pada penelitian ini akan digunakan metode K-Means untuk pengelompokan artikel dan memanfaatkan teknik reduksi fitur Information Gain Thresholding. Alasan dari penggunaan metode

K-Means untuk pengelompakan yaitu karena metode K-Means terbukti akurat (Zade, dkk, 2017; Subandi, 2014). Seadngkan penambahan metode information gain thresholding adalah agar fitur yang diproses dapat dikurangi dan komputasi menjadi lebih cepat (Dewi, 2013).

Diharapkan hasil dari pengelompokan dapat digunakan industri media massa sebagai referensi pembangunan sistem artikel terkait.

2. LANDASAN KEPUSTAKAAN 2.1. Pengelompokan (Clustering)

Pengelompokan adalah proses mengelompokan objek yang memiliki kesamaan ke dalam suatu kelompok yang memainkan peran yang penting bagi manusia untuk menganalisis dan menggambarkan kumpulan objek tersebut (Tan,dkk, 2006).

Menurut Tan, dkk (2006) kegunaan dari pengelompokan adalah untuk peringkasan, kompresi, dan menemukan objek terdekat. Pengelompokan dibagi menjadi beberapa tipe, seperti :

• Hirarki dan Partisi

• Eksklusif, overlapping, dan fuzzy

• Lengkap dan Sebagian

Pengelompokan memiliki hubungan yang erat dengan masalah pengurangan dimensi. Data berdimensi tinggi sering kali menantang untuk dianalisis, karena semakin meningkatnya keberagamanan data. Metode klastering dapat dilihat sebagai perpaduan antara metode seleksi fitur / dimensionality reduction dengan pengelompokan (Aggarwal dan Reddy, 2014).

2.2. Text Mining

Text mining memiliki definisi menggali data berupa teks yang sumbernya berupa dokumen untuk mencari kata kata yang dapat mewakili dokumen. Ilmu Text Mining digunakan untuk mengubah kumpulan teks menjadi numerik sehingga dapat dikomputasikan. Teknik ini disebut sebagai teknik pre-processing (Sari dan Puspaningrum, 2013).

2.2.1 Pre-processing

(3)

pre-processing meliputi tokenisasi, stopword removal, dan stemming (Zaini, dkk, 2017).

Tokenisasi adalah proses memotong kalimat menjadi potongan- potongan kata, yang disebut token, dan pada saat yang sama karakter-karakter tertentu, seperti tanda baca dihapus (Manning, 2008). Sedangkan Stopword Removal adalah pembuangan kata yang sering muncul tapi tidak memiliki makna yang penting (Kogilavani dan Balasubramani, 2010).

Selanjutnya

tahapan

terkahir

yaitu

stemming. Stemming merupakan teknik untuk

mengubah token menjadi kata dasar. Kata dasar biasanya digunakan di beberapa artikel dengan berbahagai imbuhan yang bisa jadi sama atau berbeda (Zaini, dkk, 2017).

2.2.3 Pembobotan TF-IDF

Term Frequency dan Inverse Document Frequency (TF-IDF) merupakan pembobotan yang sering digunakan dalam penelusuran informasi dan text mining (Turney dkk, 2010).

Mencari nila term-frequency melalui persamaan 1

Tft,d = 1+ 10Log tf (1)

Dimana setiap variable dijelaskan sebagai berikut :

tf : term frekuensi atau banyaknya kata pada dokumen

Tft,d : term frekuensi atau banyaknya kata t pada dokumen d atau pembobotan local

Mencari nilai inverse document- frequency melalui persamaan 2

idft = 10log n/dft (2)

Idft : inverse document- frequency atau pembobotan global

n : banyaknya dokumen

dft : banyaknya dokumen yang memiliki kata t.

Dari persamaan 1 dan persamaan 2 baru bisa ditentukan nilai bobotnya (Wt,d) dengan mengalikan kedua persamaan sehingga menjadi persamaan 3

Wt,d = tft,d x idft (3)

Dimana:

Tftd : term frekuensi atau banyaknya kata pada

dokumen atau pembobotan local

Idft : inverse document frequency atau pembobotan global

Wt,d : nilai bobot akhir kata

Kemudian lakukan normalisasi pada bobot yang telah didapatkan dengan menggunakan persamaan 4.

𝑊𝑡,𝑑 √∑𝑛 (𝑊𝑡,𝑑)2

𝑡=1

(4)

Dimana :

n : banyaknya kata t : iterasi kata ke- Wt,d : nilai bobot akhir kata

Pembobotan tf-idf digunakan untuk mengukur seberapa penting suatu kata dalam suatu dokumen. Untuk perhitungan tf-idf pada dapat dilihat pada implementasi.

2.2.3 Cosine Similarity

Dalam tahap ini kemiripan dokumen skripsi dengan setiap dokumen yang ada dihitung. Hitung kemiripan vektor query Q dengan setiap dokumen yang ada. Kemiripan antar dokumen dapat menggunakan cosine similarity. Rumus di tuliskan pada persamaan 5.

cos 𝜃𝑘𝑖= ∑ (𝑑𝑘 𝑖𝑘𝑑𝑗𝑘) (5)

Dimana diketahui nilai variabel dari persamaan 5

k : jumlah dokumen dik : panjang dokumen ke i

djk : panjang dokumen ke query

cos𝜃𝑘𝑗 : kedekatan dokumen yang dicari

2.3. Data Mining

2.3.1 Information Gain Thresholding

(4)

Entropy(S) = - Σ|𝑆_𝑠𝑖|𝑙og|𝑆_𝑠𝑖| (6)

Kemudian dari rumus entropy diatas dapat dicari nilai Information Gain dengan persamaan 7.

InfoGain (S,A) = (7) Entropy(S) - Σ|𝑆𝑣|𝑆𝑣

∈𝑉𝑎𝑙𝑢𝑒(𝐴) 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑣)

Dimana S adalah jumlah seluruh fitur, A adalah kategori, Sv adalah jumlah sampel untuk nilai v, v adalah nilai yang mungkin untuk kategori A, Si adalah fitur ke I, dan Value(A) adalah himpunan nilai-nilai yang mungkin untuk kategori A.

Fitur yang dipilih adalah fitur dengan nilai Information Gain yang tidak sama dengan nol dan lebih besar dari suatu nilai threshold tertentu. Ide dibalik Information Gain untuk memilih fitur adalah menyatakan fitur dengan informasi yang paling signifikan terhadap kategori.

2.3.2 K-Means

Metode k-means adalah algoritma pembelajaran tanpa data latih. Metode ini paling sederhana dan paling banyak digunakan. Prosedur pengelompokan dari metode ini adalah mendefiniskan kelompok k dan satu k center untuk setiap cluster. (Zade, dkk, 2017)

Algoritma K-Means merupakan algoritma untuk mengelompokan dokumen berdasarkan jarak terdekat. Menurut Adiningsih (2007), tahap penyelesaian algoritma K-Means adalah sebagai berikut:

1. Menentukan K buah titik yang merepresentasikan obyek pada setiap cluster (centroid awal).

2. Menetapkan setiap objek pada cluster dengan posisi centroid terdekat. Adapun cara untuk menentukan jarak yaitu dengan menggunakan persamaan 5.

3. Jika semua objek sudah dikelompokkan maka dilakukan perhitungan ulang dalam menentukan centroid yang baru.

4. Untuk menentukan centroid baru persamaan yang digunakan dituliskan pada persamaan 8.

𝐶𝑖 =𝑥𝑖+⋯+𝑥_{∑ 𝑥} 𝑛 (8)

Keterangan:

x1 = nilai data record ke-1 x2 = nilai data record ke-2

Σx = jumlah data record

5. Ulangi langkah 2 dan 3 sampai centroid tidak berubah

3. METODE PENELITIAN

Metodologi penelitian yang dilakukan dalam

Skripsi dengan judul “Pengelompokan Artikel

Berbahasa Indonesia dengan Reduksi Fitur Information Gain Thresholding dan K-Means” dijelaskan melalui beberapa tahapan yang diilustrasikan dalam diagram blok metode penelitian sebagai berikut

Gambar 1 Diagram Blok Metode Penelitian

Berdasarkan bagan di atas, tahapan

penelitian skripsi dapat dijelaskan

sebagai berikut:

1. Melakukan studi literatur terkait

metode dan teknik yang digunakan

dalam penelitian

2. Melakukan analisa terhadap kebutuhan

sistem.

3. Melakukan perancangan sistem

4. Melakukan implementasi berdasarkan

dari hasil analisa dan perancangan yang

telah dilakukan sebelumnya.

Melakukan pengujian terhadap sistem,

dengan menggunakan parameter

–

parameter

tertentu, untuk mengetahui tingkat akurasi

sistem.

3.1 Teknik Pengumpulan Data

(5)

digunakan dalam penelitian ini merupakan metode studi dokumen, dimana pengumpulan data tidak ditujukan langsung kepada subjek penelitian melainkan dengan meneliti berbagai macam data yang berguna untuk bahan analisis. Sedangkan data yang digunakan dalam penelitian ini merupakan data primer. Data primer adalah data yang didapatkan secara langsung dengan cara mengamati objek penelitian. Pengumpulan data primer dilakukan dengan mengamati beberapa situs artikel online, salah satunya adalah Kompas.com. Hal ini dilakukan untuk mendapatkan data berupa artikel berita.

3.2 Metode yang Digunakan

Penelitian ini menggunakan teknik information gain thresholding untuk reduksi fitur dan metode k-means untuk pengelompokan dokumen. Metode reduksi fitur dan metode pengelompokan yang digunakan dala penelitian ini sudah dapat menyelesaikan beberapa permasalahan. Teknik information gain thresholding mampu menyelesaikan masalah seperti terlalu banyaknya fitur yang digunakan dalam suatu penelitian dan untuk metode k-means sendiri sudah banyak digunakan untuk menyelesaikan masalah pengelompokan non-hirarki. Teknik dan metode ini akan diimplementasi dalam bahasa Java dalam penelitian ini. Karena dalam penelitian ini program yang dikembangakan merupakan program berbasis desktop.

3.3 Kebutuhan Sistem

Dalam pembuatan aplikasi pengelompokan artikel berbahasa indonesia dengan reduksi fitur information gain thresholding dan k-means memerlukan beberapa kebutuhan baik berupa kebutuhan perangkat lunak maupun perangkat keras. Berikut ini adalah kebutuhan perangkat lunak dan perangkat keras serta data yang dibutuhkandalam penelitian:

1. Kebutuhan Perangkat Keras, meliputi:

• Processor Intel® Core i3-3717U CPU @1,80 GHz

• RAM 4,00 GB

• Harddisk 500 GB

• Monitor 14”

2. Kebutuhan Perangkat Lunak, meliputi:

• Operating System Windows 7 32 bit

• Netbeans IDE 8.0.2

• Bahasa Pemrograman Java

3.4 Implementasi

Implementasi sistem tersebut meliputi:

1. Pembuatan antarmuka pengguna berupa halaman halaman program. Adapun rancangan antarmuka yang ingin dibuat ditunjukan pada gambar 2

Gambar 2 Rancangan Antarmuka

2. Penerapan pre-processing

3. Penerapan algoritma reduksi fitur information gain thresholding untuk mengurangi fitur yang diolah sehingga komputasi lebih ringan

4. Penerapan metode k-means untuk mendapatkan hasil berupa artikel dalam kelompok tertentu.

3.5 Pengujian

Pengujian sistem ini dilakukan agar dapat menunjukkan bahwa aplikasi dapat bekerja sesuai yang diharapkan. Pengujian sistem yang dilakukan yaitu, menggunakan shilloutte index, purity, dan uji coba batas ambang information gain untuk reduksi fitur.

Tujuan pengujian dengan menggunakan silhoutte coefficient adalah untuk mengetahui kualitas dari cluster atau kelompok. Sedangkan pengujian purity digunakan untuk mengetahui tingkat kemurnian data dalam suatu cluster. Yang terkahir adalah pengujian dengan membandingkan hasil pengelompokan dengan dan tanpa reduksi fitur, hal ini dilakukan untuk mengetahui apakah metode information gain thresholding dapat membantu dalam pengelompokan.

4. PENGUJIAN DAN ANALISIS

(6)

percobaan sebanyak 5 kali untuk nilai centroid awal yang berbeda beda. Hasil dari penentuan centroid awal tidak banyak memengaruhi hasil dari purity dan nilai batas ambang. Namun, penentuan centroid awal ini memengaruhi nilai dari shiloutte index, dimana setiap penentuan centroid awal yang berbeda untuk setiap percobaan akan menghasilkan kelompok yang berbeda pula.

Hal ini dikarenakan centroid merupakan acuan titik awal, sehingga jika centroid yang digunakan berbeda maka jarak antar data dengan centroid juga berbeda. Hal inilah yang kemudian menyebabkan hasil pengelompokan berbeda. Namun secara keseluruhan, penentuan centroid awal tidak banyak memengaruhi hasil pengelompokan. Maka dari itu penentuan centroid awal dapat dilakukan secara acak.

Berbeda dengan penentuan jumlah kelompok. Untuk penentuan jumlah kelompok, metode K-Means sangat terpengaruhi. Semakin sedikit sedikit kelompok yang digunakan, menunjukan hasil kemurnian dan shiloutte index yang tidak baik, hal ini juga terjadi ketika kelompok yang dibuat juga terlalu banyak.

Hal ini dikarenakan ketika nilai k yang ditentukan terlalu kecil, keberagaman kelompok kecil akibatnya artikel dipaksa masuk ke beberapa kelompok kecil yang sebenarnya memiliki kedekatan masih jauh.

Sebaliknya ketika kelompok yang dibuat terlalu besar, pengelompokan juga tidak efektif karna semakin beragamnya centroid yang ada. Sehingga artikel dikelompokan berdasarkan jarak yang terlalu kecil. Sedangkan ketika k yang ditentukan tidak terlalu kecil dan terlalu besar yaitu pada nilai 3 ditunjukan nilai shiloutte coefiecient mencapai 0.9595 dimana dalam hal ini menunjukan suatu pengelompokan yang baik dan nilai purity yaitu 0.75 yang dapat dibilang cukup baik juga. Suatu pengelompokan dikatakan buruk jika shiloutte coefiecient berada dibawah 0.5. Sedangkan ketika nilai shiloutte coefiecient berada diantara nilai 0.7 hingga 0.5 keatas, maka kelompok yang terbentuk dapat dianggap sebagai jumlah yang tepat. Sedangkan untuk purity yang mendekati nilai -1 maka dapat dikatakan bahwa data yang terkelompok tidak masuk ke kelompok yang tepat. Sedangkan jika mendekati nilai 1 maka data sudah terkelompok dengan tepat.

Hasil ini dapat dilihat melalui gambar 3 dan gambar 4

Gambar 3 Grafik Pengujian silhoutte

Gambar 4 Grafik Pengujian Purity

Selain penentuan jumlah k, reduksi fitur merupakan salah satu hal yang memengaruhi hasil dari pengelompokan. Reduksi fitur mampu membantu dalam memperingan proses komputasi, selain itu hasil pengelompokan dibuktikan mampu menghasilkan pengelompokan yang baik.

Hal ini ditunjukan dengan tanpa adanya reduksi fitur atau nilai batas ambang 0, hasil kemurnian data dala suatu kelompok dalam tingkat buruk dengan memroses 510 fitur kata. Sedangkan dengan adanya reduksi fitur dengan batas ambang 0.04, dengan memroses hanya 2 fitur hasil purity menununjukan nilai 0.7 yang artinya kemurnian dalam tingkat baik.. Hasil ini ditunjukan pada gambar 5.

Gambar 5 Grafik pengujian Reduksi Fitur dan Purity

Sehingga dapat diartikan bahwa untuk pengelompokan artikel dengan data sebanyak 120 dan memiliki kategori awal 3, lebih baik

0 1 2

2 3 5 7 9 11 13 15

Silhoutte Coefficient

Shilloutte Index

0 0.2 0.4 0.6

2 3 5 7 9 11 13

Purity

0 0.5 1

0 0.02 0.04 0.07 0.09 0.1 0.4

Purity Measure

(7)

dibentuk kelompok artikel terkait sebanyak 3 kelompok. Karena pembentukan 3 kelompok memiliki tingkat keakuratan dan kemurnian yang baik.

5. KESIMPULAN DAN SARAN

Pada penelitian ini pengelompokan artikel dibangun menggunakan bahasa Java dengan menerapkan dua metode yaitu reduksi fitur Information Gain thresholding dan pengelompokan dengan K-Means. Pada tahap awal dilakukan preprocessing untuk mengurangi gangguan dalam data, selanjutnya dilakukan reduksi fitur untuk mengurangi fitur yang digunakan agar proses kebih cepat, kemudian dilakukan pembobotan sebagai dasar untuk menghitung jarak antar dokumen, setelah menemukan nilai jarak awal atau centroid, pengelompokan dapat dilakukan.

Pada penelitian ini didapatkan hasil pengelompokan artikel dengan metode Information Gain Thresholding dan K-Means mampu menghasilkan kelompok dokumen yang baik dengan nilai silhouette coefiecient sebesar 0.9595 dan purity measure sebesar 0.75 dengan penggunaan 3 cluster dan batas ambang untuk reduksi fitur terbaik adalah 0.04 dengan kemurnian data lebih baik dibandingkan tanpa reduksi fitur.

Berdasarkan uji coba yang telah dilakukan dan kesimpulan yang didapatkan, maka saran untuk pengembangan penelitian ini yaitu dalam penelitian selanjutnya, diharapkan industri media massa dapat mecoba menggunakan metode reduksi fitur lainnya yang mampu mengurangi waktu komputasi lebih baik dari metode information gain thresholding dan dalam percobaan penentuan jumlah kelompok yang digunakan, diharapkan industri media massa memerhatikan jumlah data yang digunakan.

6. DAFTAR PUSTAKA

Chandra, Denny Nathaniel, Gede Indrawan, dan I Nyoman Sukajaya. 2016. Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram. JITIKA

Dewi, Rakhmatika. 2013. Pemilihan fitur dokumen Bahasa Indonesia untuk pengelompokan dengan Metode

k-means. Institut Pertanian Bogor: Bogor Junaidillah, Fadlil dan Wayan Firdaus

Mahmudy. 2007. Pembuatan Sistem Rekomendasi Menggunakan Decision Tree dan

Clustering. ResearchGate

Lonnberg Marcus dan Love Yregard. 2013. Large scale news article clustering. Chalmers University of Technology: Sweden

Maulida, Indah, Addy Suyatno, Heliza Rahmania Hatta. 2016. Seleksi Fitur Pada

Dokumen Abstrak Teks Bahasa Indonesia Menggunakan Metode Information Gain. ResearchGate

Sari, Yuita Arum dan Eva Yulia Puspaningrum. 2013. Pencarian Semantik Dokumen Berita Menggunakan Essential Dimensionof Latent Semantic Indexing dengan Memakai Reduksi Fitur Document Frequency dan Information Gain Thresholding. Seminar Nasional Teknologi Informasi dan Multimedia: Yogyakarta

Subandi, Nurul Arifin. 2014. Clustering dokumen skripsi berdasarkan Abstrak dengan menggunakan Bisecting k-means. Institut Pertanian Bogor: Bogor Wilkinson, Leland, Engelman, Laszlo, Corter,

James, and Coward, Mark. 1998. Cluster analysis, in. SYSTAT 12 Statistics, Wilkinson, Leland (ed.). SPSS Inc: Chicago.

Yang, Yaming dan Pedersen, 1997, J.O. A Comparative Study on Feature Selection in Text Categorization, School of Computer Science. Carnegie Mellon University: USA

Zade, Jaya, Dr. G. R. Bamnote, Prof. P. K. Agrawal. 2017. Text Document Clustering Using K-Means Algorithm With Its Analysis And Implementation. IJIR: India