• Tidak ada hasil yang ditemukan

MODEL KLASTERISASI GENRE CERPEN KOMPAS MENGGUNAKAN K-MEANS

N/A
N/A
Protected

Academic year: 2021

Membagikan "MODEL KLASTERISASI GENRE CERPEN KOMPAS MENGGUNAKAN K-MEANS"

Copied!
8
0
0

Teks penuh

(1)

38 http://research. pps. dinus. ac. id

MODEL KLASTERISASI GENRE CERPEN KOMPAS

MENGGUNAKAN K-MEANS

Hario Guritno1, Stefanus Santosa2

1Pascasarjana Teknik Informatika Universitas Dian Nuswantoro 2Politeknik Negeri Semarang

ABSTRACT

Information in the form of a text document can be found at any time on print media. Every time the community is faced with the current wave of information like the arrival in the form of unstructured text documents and have penetrated our lives and culture. Unstructured information comes closer all the entities of the world community. The mass media published the newspaper every day is the biggest contributor to human relations around the world. KOMPAS newspaper published every Sunday always insert the rubric of short stories in it. There is a problem to distinguish the genre of stories with one another. This research proposed a model of classify KOMPAS short stories with K-Means algorithm to get the solution. Accuracy of this proposed model using the Davies Bouldin Index (DBI) is 0.001. Keywords: clustering, genre, K-Means.

1. PENDAHULUAN

Informasi yang berkembang sebagai bagian relasi antarmanusia dalam peradaban modern saat ini, setiap hari diproduksi media massa cetak. Perkembangan itu dapat dilihat pada segenap media yang berkait dengan teks dokumen, yang menguasai seluruh entitas masyarakat dunia.

Gelombang teks dokumen menyebar ke seluruh dunia, karena semua entitas dunia menggunakan interaksi dalam bentuk teks dokumen. Teks dokumen yang kini sudah merambah hidup dan budaya manusia ini sering tidak terstruktur. Hal ini memunculkan masalah dalam pemahaman kategori/ tema/ inti/ isi pesan yang terkandung dalam dokumen.

Gelombang informasi dalam format yang tidak terstruktur hadir setiap hari dalam media penerbitan koran, salah satunya adalah rubrik cerita pendek (cerpen) yang setiap hari Minggu muncul di koran KOMPAS.

Harian KOMPAS terbit sejak 28 Juni 1965, yang berarti telah published hingga kini (Januari 2015) dalam rentang waktu 49 tahun dan 7 bulan. Jika hitung tiap tahun diisi 57 minggu, maka dapat dihitung KOMPAS Minggu sudah terbit lebih dari 2.821 kali.

Pengelompokan atau klaterisasi genre cerpen KOMPAS Minggu secara manual dapat dilakukan apabila telah mendapatkan pengertian tentang tema/ inti ceritanya. Namun klasterisasi genre cerpen KOMPAS Minggu tak bisa dilakukan berdasarkan hasil pembacaan secara manual saja. Cerpen KOMPAS Minggu terbit satu minggu sekali dan telah mencapai jumlah besar yang tak mungkin bisa dihafal berdasar pengamatan selagi membaca.

Cerpen KOMPAS Minggu diisi oleh teks dokumen hasil kreativitas para Cerpenis berbagai kalangan sehingga sangat beragam isinya dan sangat beragam judul dan temanya, sehingga tidak tepat bila dilakukan klasterisasi berdasarkan judulnya saja.

KOMPAS memiliki sirkulasi oplah rata-rata 500.000 eksemplar per hari, dengan rata-rata jumlah pembaca mencapai 1.850.000 orang perhari yang terdistribusi ke seluruh wilayah Indonesia.. Hasil survey pembaca tahun 2008, Profil pembaca koran KOMPAS mayoritas berasal dari kalangan (Strata Ekonomi dan Sosial) menengah ke atas yang tercermin dari latar belakang pendidikan dan kondisi keuangan.

Munculnya cerpen yang hadir tiap pekan dalam penerbitan KOMPAS, menghadirkan banyak cerpen yang inti ceritanya hampir mirip dan nyaris saling terkait. Inilah yang menyebabkan masyarakat mengalami kesulitan ketika berhadapan dengan banyak sekali cerpen dan harus membedakan satu per satu secara manual, karena tak bisa teridentifikasi sewaktu membaca saja.

(2)

http://research. pps. dinus. ac. id , 39 Banyak metode penelitian yang dikembangkan dalam melakukan klasterisasi dari sekumpulan besar teks dokumen yang beredar dan kini menjadi satu tantangan yang besar. M. Weber, M. Welling dan P.Perona, menggunakan unsupervised clustering untuk pengelompokan dokumen. Klasterisasi jika dilakukan secara manual membutuhkan waktu lama dan menyulitkan. Klasterisasi sangat memerlukan upaya berupa mekanisme yang cepat dan obyektif. Dalam area text minning dan information retrieval, pemanfaatan unsupervised clustering sangat banyak dilakukan [1].

Anil K. Jain, et.al. menegaskan bahwa secara umum terdapat dua teknik utama dalam proses

klasterisasi yaitu hierarchical dan partitional[2].

Dyah Herawatie dkk. melakukan penelitian dan perbandingan dilakukan dengan menggunakan F-Measure dan akurasi sebagai ukuran kualitas ketepatan hasil pengelompokan terhadap artikel media

masa berbahasa Indonesia yang diambil dari website KOMPAS dan Detik [3].

Menurut Bridge - melalui Dyah Herawatie dkk. -, penelitian itu tidaklah gampang karena dalam analisis teks yang dijalankan harus menghadapi sekitar 80% - 85% bentuk informasi tersebut dalam format tidak terstruktur. Kesulitan ini muncul dalam penelitian teks dokumen dari ranah pengelompokan dokumen (clustering). Hasil penelitian Dyah Herawatie dkk. yang membandingkan penggunaan K-Means, Bisecting K-K-Means, K-Median dan K-Medoid ternyata hasil terbaik adalah K-Means yang hanya dengan menggunakan 10% sampai 30% fitur yang digunakan telah menghasilkan pengelompokan yang memuaskan [3].

Mohammad Rizal Arief, dkk. melakukan penelitian klasterisasi teks menggunakan metode

Max-Max Roughness (MMR) dengan pengayaan similaritas kata dan hasil yang diperoleh menunjukkan bahwa metode ini dibandingkan hasil metode K-Means dengan pembobotan ternyata dapat meningkatkan kualitas hasil klasterisasi rata-rata sebesar 30,28% [4].

Diah Pudi Langgeni, dkk., melakukan penelitian analisis terhadap kumpulan artikel-artikel yang

berasal dari media surat kabar KOMPAS (www.kompas.com) sebanyak 120 artikel dengan 6 kategori dan 225 artikel dengan 6 kategori dalam penelitiannya tentang perbandingan metode feature selection yang menggunakan Term Contributiondan Document Frequency. Kesimpulan yang dapat diambil adalah bahwa nilai precision dan entropy pada kedua percobaan di atas, memiliki pola yang hampir sama, namun masih fluktuatif. Hal ini berarti feature selection tidak selalu dapat memperbaiki kualitas atau performansi clustering. Pada percobaan pertama, performansi clustering mengalami penurunan pada pembuangan term sebesar 40%. Oleh karena itu perlu dicari titik maksimal pada feature selection yang menghasilkan nilai performansi yang terbaik. Pada kedua percobaan di atas, diperoleh hasil bahwa

feature selection akan memperoleh hasil terbaik pada pembuangan term 96% untuk Term Contributiondan 94% untuk Document Frequency [5].

Kestrilia Rega Prilianti, dkk. membuat aplikasi text mining untuk automasi penentuan tren topik dengan metode K-Means Clustering di Universitas Ma Chung - Malang, ternyata hasilnya diperoleh rata-rata nilai purity sebesar 0,76 yang artinya sekitar 76% dokumen yang diolah telah berhasil dikelompokkan dengan benar oleh sistem [6].

Amir Hamzah menyatakan eksperimennya menunjukkan bahwa pembobotan sampel dapat meningkatkan kinerja klastering sebesar 12,8% untuk pembobotan dengan keyword dan title dan meningkatkan kinerja klastering 9,8% untuk pembobotan dengan title saja [7].

Alternatif yang ada menurut penulis adalah dengan melakukan pengelompokan cerpen-cerpen KOMPAS menggunakan algoritma K-Means. K-Means klastering memiliki kemampuan yang baik. Algoritma ini dikenal simpel, sederhana dan dapat melakukan klasterisasi text dokumen besar.Varian klastering K-Means dipilih menjadi metode penelitian genre cerpen KOMPAS dengan tujuan memberikan batasan dan perbedaan genre cerpen KOMPAS dari segenap kemiripan yang ada dalam cerpen KOMPAS.

Klastering cerpen KOMPAS menggunakan metoda Unsupervised Feature selection. Berkaitan dengan metode ini Han dan Kamber menyatakan bahwa teknik unsupervised metode clustering dapat dilakukan melalui pendekatan partitional clustering, hierarchical clustering, density-based clustering,

grid-based clustering dan model-based clustering [8].

Michael Steinbach, George Karypis and Vipin Kumar, menyimpulkan bahwa klasterisasi dokumen

bertujuan membagi dokumen dalam beberapa kelompok sedemikian hingga dokumen-dokumen dalam klaster yang sama (intra-klater) memiliki kesamaan yang tinggi, sementara dokumen-dokumen dalam klaster yang berbeda (inter-klaster) memiliki kesamaan yang rendah [9].

(3)

40 http://research. pps. dinus. ac. id Guna mengukur akurasi dari model yang terbentuk dapat digunakan beberapa alat ukur. Desy Purwaningtyas Putri dkk., dalam penelitian indikator ketenagakerjaan di Jawa Timur, hasil penelitiannya mengarah pada validasi pengukuran akurasi dengan segenap pilihan metode yang diterapkan. Pengukuran dengan Indeks Davies Bouldin (DBI) adalah metode pengukuran terbaik. Hasil penelitian menyebutkan DBI yang minimum yaitu 0,202 menghasilkan 6 kelompok [10]. Indeks Davies

Bouldin (DBI) dipandang lebih akurat dibanding pengukuran akurasi menggunakan Jarak Mahalanobis

dan Jarak Korelasi Pearson, Metode Hierarchis yang mengedepankan Single Linkage, Average Linkage,

Complete Linkage, Ward dan Centroid [11].

2. LANDASAN TEORI 2.1. Text mining

Pengelompokan teks dokumen atau klasterisasi jika dilakukan secara manual membutuhkan waktu lama dan menyulitkan. Untuk klasterisasi teks dokumen besar sangat memerlukan upaya berupa mekanisme yang cepat dan objektif. Dalam area text minning dan information retrieval, pemanfaatan unsupervised

clustering sangat banyak dilakukan [1].

Dalam klasterisasi terdapat dua teknik utama dalam proses klasterisasi yaitu hierarchical dan

partitional [2].

Pada system text mining terdiri dari komponen text preprocessing, feature selection dan komponen

data mining. Komponen text preprocessing berfungsi untuk mengubah data tekstual yang tidak

terstruktur sebagaimana dokumen ke dalam data terstruktur dan disimpan ke dalam basis data. Fitur

selection akan memilih kata yang tepat dan berpengaruh. Komponen data mining akan menjalankan

teknik data mining pada output dari komponen sebelumnya [3].

2.2. Text Preprocessing

Tahap preprocessing dalam text mining pada dokumen berupa case folding, tokenizing, filtering,

stemming, tagging dan analyzing.

Case folding menjalankan tugas mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya

huruf “a” sampai dengan “z” yang diterima. Karakter selain huruf dihilangkan.

Tahap tokenizing – juga dikenal sebagai parsing – adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya.

Tahap filtering adalah tahap mengambil kata-kata penting dari hasil token.Tahapan ini bisa juga menggunakan algoritma stoplist (membuang kata-kata yang tidak penting) atau wordlist (menyimpan kata penting). Kelompok stoplist atau stopword adalah kata-kata yang tidak deskriptif yang bisa dibuang dalam kaidah bag-of-words. Dalam hal ini contoh stopword adalah “yang”, “dan”, “dari”, “di” dan seterusnya.

Untuk mendapatkan kondisi teks dalam bentuk bersih (clean), maka dilakukan penghilangan kata awalan dan akhiran serta penghilangan kata yang tidak perlu dari seluruh rangkaian teks yang saat ini terdapat pada 10.000 kata dalam Kamus Besar Bahasa Indonesia. Dari 10.000 kata pada kamus, hanya didapatkan teks yang setiap saat digunakan sebanyak 8.093 kata, lainnya dipandang sangat tidak perlu diolah (bag words).

Tahap stemming adalah tahapan mencari root kata dari tiap kata hasil filtering. Pada tahapan ini berlangsung proses pengembalian bentukan kata ke dalam suatu representasi yang sama.

Tahap tagging yakni tahap mencari bentuk awal/root dari tiap kata lampau atau kata hasil stemming.

Tagging tidak dipakai untuk teks berbahasa Indonesia disebabkan teks bahasa Indonesia tidak memiliki

bentuk lampau.

Terakhir adalah analyzing yaitu tahap penentuan seberapa jauh keterhubungan kata-kata antar-dokumen yang ada. Untuk melakukan analisis pada tahap analyzing dapat digunakan algoritma IF/IDF(Term Frequency – Inversed Document Frequency) dan algoritma Vector Space Model .

2.3. Clustering

(4)

http://research. pps. dinus. ac. id , 41

Clustering (klastering) didefinisikan sebagai upaya mengelompokkan data ke dalam klaster sedemikian

sehingga data di dalam klaster yang sama memiliki lebih kesamaan dibandingkan dengan data pada klaster yang berbeda. Bisa juga diartikan sebagai proses untuk mendefinisikan pemetaan.

Pengklasteran pada penelitian ini menggunakan algoritma K Means. K Means Clustering adalah metode kuantisasi vektor, berasal dari pemrosesan sinyal, yang populer untuk analisis cluster dalam

data mining. K-Means clustering bertujuan untuk partisi n pengamatan ke dalam kelompok k. Setiap

pengamatan milik cluster dengan rata-rata terdekat, melayani sebagai prototipe dari cluster. K-Means

Clustering adalah salah satu algoritma yang dipandang bagus untuk proses klasterisasi.

… (1)

K-Means memilih secara acak k buah data sebagai centroid. Kemudian menempatkan data dalam cluster yang terdekat, dihitung dari titik tengah cluster (centroid). Centroid baru akan ditentukan bila

semua data telah ditempatkan dalam cluster terdekat. Proses penentuan centroid dan penempatan data dalam cluster diulangi sampai nilai centroid konvergen.

3. MODEL KLASTERISASI GENRE CERPEN KOMPAS MENGGUNAKAN K-MEANS

Kerangka pemikiran dari penelitian ini dimaksudkan untuk menciptakan Model Klasterisasi Genre Cerpen KOMPAS. Penyusunan model ini dilakukan untuk sekumpulan cerpen (cerita pendek) yang dimuat di harian KOMPAS yang terbit tiap hari Minggu. Sejak 1965 jumlah penerbitan cerpen telah mencapai lebih dari 2.821 kali dalam berbagai genre. Pengelompokan atau klaterisasi genre cerpen KOMPAS Minggu secara manual dapat dilakukan apabila telah mendapatkan pengertian tentang tema/ inti ceritanya. Namun klasterisasi genre cerpen KOMPAS Minggu tak bisa dilakukan berdasarkan hasil pembacaan secara manual saja.

Pekerjaan klasterisasi dokumen dalam jumlah besar memang tidak bisa dilakukan dalam tempo cepat tanpa melibatkan algoritma komputasi. Penelitian ini memanfaatkan kemampuan klasterisasi yang dimiliki oleh algoritma K-Means. Algoritma ini paling banyak dikenal, dan dasar pemikirannya sangat sederhana.

K-Means merupakan salah satu metode pengelompokan data nonhierarki (sekatan, partitional) yang

berusaha mempartisi data yang ada ke dalam bentuk dua atau lebih kelompok. Algoritma ini mempartisi data ke dalam kelompok sedemikian rupa agar data yang berkarakteristik sama dimasukkan ke dalam satu kelompok yang sama dan data yang berkarakteristik berbeda dikelompokkan ke dalam kelompok yang lain. Hal ini dilakukan secara bertahap hingga diperoleh kelompok yang tetap.

Berikut ini adalah ilustrasi kemampuan K-Means dalam melakukan partisi mulai dari sebelum ditemukannya partisi kelompok ( gambar 1.a hingga ditemukannya partisi kelompok yang terdiri dari tiga kluster (gambar 1.d).

Gambar 1. Ilustrasi Kemampuan Partisi K-Means dalam Klasterisasi

Sebelum K-Means melakukan tugas pengelompokan, diperlukan informasi awal tentang objek yang menjadi bahan kajian; termasuk berapa kira-kira jumlah cluster yang mungkin. Teknik ini menentukan objek ke dalam k kelompok atau cluster awal. Penentuan k kelompok awal sangat membantu K-Means dalam proses klasterisasi.

(5)

42 http://research. pps. dinus. ac. id Pada penelitian ini pengelompokan awal diberikan dalam 4 kategori:

a. Kategori cerpen Keluarga. b. Kategori cerpen Percintaan. c. Kategori cerpen Relegius. d. Kategori cerpen Sejarah.

Empat kategori ini menjadi awal empat pusat klaster yang digunakan K-Means untuk menentukan anggota- anggota klaster pada setiap pusat klaster. Penentuan anggota dilakukan dengan mengidentifikasi kemiripan antar-objek.

K-Means mampu mencari kemiripan objek yang satu dengan yang lain dengan mencari jarak

kemiripan dan ketidakmiripan.. Jika jarak dua objek atau dua titik cukup dekat, maka dua objek itu mirip. Semakin dekat berarti semakin tinggi kemiripannya.

Misalnya X = {x1, x2, x3, ... .., xn} adalah himpunan titik data dan V = {v1, v2, ..., Vc} adalah himpunan pusat.

a. Secara acak dipilih 'c' pusat klaster.

b. Perhitungan jarak antara setiap titik data dan pusat klaster.

c. Penetapan titik data ke pusat cluster yang jauh dari pusat cluster minimal semua pusat klaster . d. Perhitungan ulang pusat cluster baru menggunakan:

…….. (2)

'ci' merupakan jumlah titik data dalam klaster.

e. Perhitungan ulang jarak antara setiap titik data dan pusat klaster yang diperoleh baru.

f. Jika tidak ada titik data yang dipindahkan kemudian berhenti, jika tidak dilakukan perhitungan ulang dari langkah c.

Berdasarkan penjelasan di atas dengan kesederhanaan algoritma K-Means dan kemampuannya dalam menentukan kemiripan objek satu dengan yang lain hingga dicapai konvergensi, maka dapat diduga bahwa K-Means mampu melakukan klasterisasi genre cerpen KOMPAS dengan akurasi yang baik. Pengukuran akurasi dilakukan dengan Indeks Davies Bouldin (DBI).

Hasil penelitian ini berupa model yang di-proposed sebagai “Model Klasterisasi Genre Cerpen KOMPAS Menggunakan K-Means”.

4. METODE PENELITIAN

4.1. Perhitungan Nilai Document Frequency

Document Frequency adalah jumlah dokumen yang mengandung suatu term tertentu. Tiap term akan

dihitung nilai Document Frequency-nya (DF). Lalu term tersebut diseleksi berdasarkan jumlah nilai DF. Jika nilai DF berada di bawah threshold yang telah ditentukan, maka term tersebut akan dibuang.

4.2. Perhitungan Term Contribution

Ide dasar Term Contributionadalah bahwa hasil dari clustering text sangat tergantung pada kesamaan dokumen, kontribusi dari sebuah term dapat dipandang sebagai kontribusinya terhadap kesamaan dokumen.

4.3. Perhitungan Term Frequensy (TF)

Term Frequency adalah suatu metode untuk menghitung bobot tiap term dalam text. Pada metode ini,

tiap term diasumsikan memiliki nilai kepentingan yang sebanding dengan jumlah kemunculan term tersebut pada text. Bobot sebuah term t pada sebuah text dirumuskan dalam persamaan berikut:

TF (tk, dj) = f (tk, dj)… (3)

4.4. Perhitungan Inverse Document Frequency (IDF)

Metode Inverse Document Frequency (IDF) adalah pembobotan yang menghitung kemunculan sebuah token pada kumpulan dokumen.

(6)

http://research. pps. dinus. ac. id , 43 Nilai IDF sebuah term dirumuskan dalam:

IDF (t) = log (N /df (t))… (4)

4.5. Clustering

Proses pengklasteran dilakukan dengan tahapan sebagai berikut. Input: vektor dokumen D, k.

Output: k cluster dokumen.

a. pemilihan secara acak vektor sebagai centroid b. perulangan

penempatan data (vektor) dalam cluster atau centroid terdekat. perhitungan centroid baru dari cluster yang terbentuk.

c. hingga centroid tidak berubah lagi.

4.6. Pengukuran Akurasi

Guna mengukur akurasi dari model yang terbentuk dapat digunakan beberapa alat ukur. Desy Purwaningtyas Putri dkk., dalam penelitian indikator ketenagakerjaan di Jawa Timur, hasil penelitiannya mengarah pada validasi pengukuran akurasi dengan segenap pilihan metode yang diterapkan. Pengukuran dengan Indeks Davies Bouldin (DBI)

5. HASIL PENELITIAN Hasil Pengumpulan Data

Dari sekitar lebih dari 2.821 kali KOMPAS berdasarkan rutinitas penerbitan sejak 1965, dapat dihimpun sampel lewat perburuan virtual sebanyak 100 file cerpen.

Penetapan parameter Genre pada Data Set sebagai titik centroid. Parameter genre pada Data Set:

Data 1 : genre cerpen Keluarga. Data 2 : genre cerpen Percintaan. Data 3 : genre cerpen Relegius. Data 4 : genre cerpen Sejarah.

Tabel berikut ini menunjukkan kategori awal yang ditetapkan dan jumlah cerpen yang dianalisis.

Jumlah Cerpen KOMPAS yang Diteliti

NO GENRE JUMLAH 1. Cerpen Keluarga 25 2. Cerpen Percintaan 25 3. Cerpen Relegius 25 4. Cerpen Sejarah 25 Total 100

Hasil Pengklasteran Menggunakan Metode K-Means Clustering

Sebelum pengklasteran dilakukan pemilihan genre cerpen KOMPAS untuk menentukan parameter dalam pembuatan Data Set. Dalam penelitian ini dipilih 4 klaster, meliputi: klaster Keluarga, klaster Percintaan, klaster Religius dan klaster Sejarah. Masing-masing kategori diwakili 2 cerpen, meliputi: a. Cerpen Keluarga diwakili oleh cerpen-cerpen: “Ibu Tahu Rahasiaku” karya Puthut EA dan

“Laki-laki Pemanggul Goni” karya Budi Darma.

b. Cerpen Percintaan diwakili oleh cerpen-cerpen: “Cintaku Jauh di Pulau Komodo” karya Seno Gumiro Ajidarma dan “Kekasih Bulan Sepenggal” karya Eka Kurniawan.

c. Cerpen Relegius diwakili oleh cerpen-cerpan: “Agama Apa yang Pantas bagi Pohon-Pohon?” karya Eko Triono dan “Botol Kubur” karya Arman AZ.

(7)

44 http://research. pps. dinus. ac. id d. Cerpen Sejarah diwakili oleh cerpen-cerpen: “Tiada Darah di Lamalera” karya Martin Aleida dan

“Tanah Merah” karya Dwicipta.

Daftar Pengklasteran Cerpen Hasil Penelitian

NO. GENRE CERPEN SEBELUM PROSES SETELAH PROSES 1. Keluarga 25 45 2. Religius 25 37 3. Sejarah 25 9 4 Percintaan 25 9

Dari proses klasterisasi yang telah dilakukan diperoleh hasil seperti yang tercantum pada tabel di atas. Terdapat perbedaan antara pengelompokan yang dilakukan secara manual dengan pengelompokan yang dilakukan oleh K-Means Clustering. Perbedaan terbesar ada pada hasil analisis genre Keluarga, yang diikuti semakin kecil pada genre Sejarah, Percintaan, dan Religius. Tingkat kepercayaan terhadap kebenaran “Model Klasterisasi Genre Cerpen KOMPAS Menggunakan K-Means” ini dapat dibuktikan melalui pengukuran akurasi dari model tersebut dengan menggunakan Davies Bouldin Index (DBI).

Hasil Perhitungan Akurasi Menggunakan Davies Bouldin Index (DBI)

Metode validasi klaster dari hasil klasterisasi menggunakan Indeks Davies Bouldin yang merupakan pendekatan pengukuran jarak intra-klaster [11]. Davies Bouldin Index (DBI) dikenalkan oleh David L. Davies dan Donald W. Bouldin tahun 1979. Pengukur akurasi DBI ini adalah metrik untuk mengevaluasi hasil algoritma clustering.

Davies-Bouldin Index digunakan untuk memaksimalkan jarak inter-cluster di antara cluster Ci dan

Cj, pada saat yang sama juga mencoba meminimalkan jarak antar-titik dalam cluster.

… (9)

.... (5)

C = {C1,.., Ck} merupakan clustering dari N objek Dengan: ….(6) ….(7) Keterangan: Ci : cluster ke i ci :centroid cluster ke i

Ukuran dari Davies-Bouldin Index adalah nilai rata-rata yang similar antara setiap cluster dan itu merupakan yang paling mirip. Apabila memiliki nilai Davies-Bouldin yang lebih rendah berarti konfigurasi cluster telah baik.

Hasil akhir validasi/akurasi Davies Bouldin Index (DBI) yang mencapai 0.001 menunjukkan bahwa proses klastering dengan K-Means ini mencapai tingkat akurasi tinggi dengan konfigurasi klaster sangat baik.







k i i

R

k

DB

1

.

1

j i k j ij i

R

R

 



, ,.. 1

max

||

||

)

var(

)

var(

j i j i j i ij

c

c

C

C

R









(8)

http://research. pps. dinus. ac. id , 45

6. KESIMPULAN

Penelitian yang dilakukan dengan metode eksperimen terhadap cerpen KOMPAS ini dimaksudkan untuk membedakan cerpen satu dengan yang lain yang selama ini sulit dideteksi. Secara manual cerpen- cerpen sulit dikelompokkan berdasarkan genrenya karena terlihat mirip antar-satu dengan yang lain. Guna mengatasi hal tersebut maka disusunlah model klasterisasi genre cerpen menggunakan algoritma

K-Means. Dari hasil pengujian terhadap “Model Klasterisasi Genre Cerpen KOMPAS Menggunakan

K-Means”yang terbentuk menunjukkan Index Davies Bouldin berada pada 0.001. Hal ini membuktikan

bahwa tingkat akurasi model ini menunjukkan hasil yang sesuai dengan harapan.

UCAPAN TERIMAKASIH

Penelitian ini dapat terselesaikan karena bantuan berbagai pihak. Oleh karena itu peneliti berterimakasih kepada pihak-pihak yang mendukung terlaksananya penelitian yaitu para pembimbing penelitian, penguji,, serta pihak-pihak lain yang mendukung terlaksananya penelitian ini.

PERNYATAAN ORIGINALITAS

“Saya menyatakan dan bertanggung jawab dengan sebenarnya bahwa Artikel ini adalah hasil karya sendiri kecuali cuplikan dan ringkasan yang masing-masing telah saya jelaskan sumbernya”.[ HARIO GURITNO-P31.2013.01358]

DAFTAR PUSTAKA

[1] M. Wiber, M. Welling, and P.Perona.“Unsupervised Learning of Models for Recognition”. In Proc. 6 th Euro.Conf,Comput,Vision, Dublin, Ireland, Juni 2000.

[2] Jain A.K,, Murty, M.N. and Flyn, P.J. 1999. “Data Clustering: A Review”. ACM Computing Survey Vol 31, No.3, Hal.264-323.

[3] Dyah Herawatie dkk..“Perbandingan Algoritma Pengelompokan Non-Hierarki untuk Dataset Dokumen” Seminar Nasional Aplikasi Teknologi Informasi (SNATI) Yogyakarta, 2014.

[4] Mohammad Rizal Arif, Daniel O Siahaan, Isye Arieshanti, “Klaterisasi Teks Menggunakan Metode Max-Max Roughness (MMR) dengan Pengayaan Similaritas Kata”, Jurnal Ilmiah KURSOR Menuju Solusi Teknologi Informasi, Vol.5, No.4, 4 Juli 2010, pp. 246-255.

[5] Diah Pudi Langgeni, ZK. Abdurahman Baizal, Yanuar Firdaus, A.W, “Clustering Artikel Berita Berbahasa Indonesia Menggunakan Unsupervised Feature Selection”, Seminar Nasional Informatika 2010 (SemnasIF 2010), 2010. pp. D-1 – D10.

[6] Kestrilia Rega Prilianti dan Hendra Wijaya, “Aplikasi Text mining untuk Automasi Penentuan Tren Topik Skripsi dengan Metode K-Means Clustering”, Jurnal Cybermatika Vol.2 No.1.Juni 2014.

[7] Amir Hamzah, “Peningkatan Kinerja Clustering Dokumen Teks Menggunakan Pembobotan Sampel”, Seminar Nasional Informatika 2011 (SemnasIF 20111), 2011, pp. D-8 – DD-15. [8] Han, J., and Kamber, M., , “Data mining: Concept and Technique”, Morgan Kaufman, 2000. [9] Michael Steinbach, George Karypis dan Vipin Kumar, “A Comparison of Document Clustering

Techniques,”Technical Report Report Number: 00-034Date of Submission: 5/23/2000, Department of Computer Science and Engineering University of Minnesota, Minneapolis, MN 55455-0159 USA, 2000.

[10] Putri, Dessy Purwaningtyas, Swasono Rahardjo, Hendro Permadi. “Analisis Kelompok Metode Hirarki untuk Pengelompokan Kota/Kabupaten di Jawa Timur Berdasarkan Indikator Ketenagakerjaan” Jurnal Matematika-Fakultas MIPA, Universitas Negeri Malang, Vol.1, No.2 , 2013

[11] Davies, D.L.; Bouldin, D.W. “A Cluster Separation Measure”, IEEE Transactions on Pattern Analysis and Machine Intelligence (2); 224, 1979.

Gambar

Gambar 1. Ilustrasi Kemampuan Partisi K-Means dalam Klasterisasi

Referensi

Dokumen terkait

Umumnya emisi gas buang ini terjadi karena pembakaran yang tidak sempurna dari pembakaran mesin serta lepasnya partikel-partikel, karena kurang tercukupinya oksigen dalam

Berdasarkan fakta dilapangan menunjukkan bahwa pertumbuhan unsur aktivitas perkotaan yang terjadi pada koridor Hertasning secara spesifik terjadi pada pusat, titik

pembelajaran Discovery Learning terhadap hasil belajar Dasar Desain di SMKS Garudaya Bontonompo. Subjek penelitian adalah Siswa Kelas X Busana dengan jumlah 27 orang

Penelitian ini bertujuan untuk mengetahui 1) Kelengkapan dan kondisi sarana Laboratorium Administrasi Perkantoran di SMK Muhamamdiyah 1 Wates, 2) Kelengkapan dan

Jenis patung sepasang pengantin duduk, kebanyakan dan jenis kayu jati dan sengon, kualitas sedang-baik, finishing dengan cat, ukuran sedang besar (sampai tinggi 1,5

Tujuan pengobatan adalah untuk mengurangi pembatasan dalam mobilitas jaringan lunak dari struktur periartikular, untuk meningkatkan arthrokinematic dan gerak

Berdasarkan sumber-sumber literatur offline, online dan standar IEEE 802.3 dan IEEE 802.11b serta hasil wawancara dengan pengelola perpustakaan Pustaka Bogor dan STP Jurluhkan

Sehingga alat bukti yang digunakan oleh Penuntut Umum dalam perkara ini tidak menjadikan hakim yakin dengan tuntutan yang diajukan kepada terdakwa, tidak heran apabila dalam