HASIL DAN PEMBAHASAN Karakteristik Dokumen

INDONESIA MENGGUNAKAN

HASIL DAN PEMBAHASAN Karakteristik Dokumen

Seluruh dokumen yang digunakan berbahasa Indonesia. Koleksi dokumen memiliki enam kelas dengan tiap kelas memiliki tema yang berbeda. Tema tiap kelompok dokumen bisa dianggap tidak memiliki keterhubungan atau memiliki hubungan yang jauh dengan kelas lain.

Digunakan 3 koleksi dokumen yang berasal dari sumber yang sama dengan jumlah setiap koleksi 400, 500, dan 600 dokumen. Seluruh dokumen berformat plain-text yang memiliki ekstensi *.txt. Struktur tulisan mirip dengan dokumen xml yang terdiri atas DOC, NODOC, AUTHOR, DATE, TEXT, dan P. Untuk lebih jelasnya dapat dilihat pada Gambar 2.

Gambar 2 Struktur dokumen teks. Dalam penelitian ini, pemrosesan teks hanya dilakukan pada teks yang berada di antara tanda <TEXT> dan </TEXT> sehingga judul, tanggal, pengarang, dan nomor dokumen tidak ikut di proses.

Menghapus Stopwords dan Term dengan df < Treshold

Pada tahap praproses dilakukan penghapusan stopword dan term yang document-frequency kurang dari threshold. Jumlah term awal memiliki jumlah yang lebih besar dibandingkan setelah dilakukan pengurangan stopwords dan treshold. Hal tersebut dapat dilihat pada Tabel 1. Dari data ini dapat dihitung jumlah term (kata unik) berkurang sebesar 10948, 12201, 13531 term atau berkurang sebesar 90,2%, 89,9% dan 89,6% secara berurutan untuk koleksi dokumen dengan jumlah 400, 600, dan 500 dokumen. Tabel 1 Jumlah term dalam koleksi.

Evaluasi Kinerja Sistem

Dimensi dokumen yang telah dikurangi dimensinya dapat disamakan dengan kecocokan dokumen ke konsep yang terbungkus dalam

Koleksi dokumen

Jumlah dokumen 400 500 600 Total term awal 12125 13564 15093 Menghapus

stopwords dan term dengan df < treshold 1183 1363 1562 Jumlah kelas 6 6 6 <DOC> <DOCNO>MI_lingkungan_4_8</DOCNO >

<TITLE>Perkebunan Sawit Harus

Kembangkan Wisata Lingkungan</TITLE> <AUTHOR>Agus Utantoro</AUTHOR> <DATE>Selasa, 03 Februari 2009</DATE> <TEXT> <P>Fakultas Kehutanan

Universitas Gajah Mada (UGM) Yogyakarta ... </P> </TEXT>

6 means. Metode ini merupakan penggabungan

antara divisive clustering dan partitional clustering.

Algoritme bisecting K-means akan membagi koleksi dokumen menjadi cluster. Pembagian diawali dengan membagi koleksi dokumen menjadi dua bagian. Pembagian ini dilakukan dengan menggunakan K-means. Jumlah ITER yang digunakan dalam penelitian ini adalah 1 sehingga pembagian menjadi dua (bisection) menggunakan K-means hanya dilakukan satu kali untuk setiap fase. Hasil dari pembagian ini akan menjadi kandidat untuk dilakukan pembagian kembali hingga jumlah cluster yang diinginkan tercapai. Cluster yang dipilih untuk dibagi dua adalah cluster yang memiliki overall similarity terendah dari keseluruhan kandidat cluster.

Penelitian ini melakukan percobaan menggunakan tiga koleksi dengan jumlah dokumen berbeda. Untuk tujuan mengukur akurasi, setiap matriks document-concept dikelompokkan menjadi enam cluster sesuai dengan pengelompokan secara manual. Hasil pengelompokan ini yang kemudian dievaluasi menggunakan rand index dan F-measure.

Evaluasi

Evaluasi hasil cluster menggunakan dua cara yaitu dengan menggunakan rand index dan F-measure seluruh cluster hasil clustering. Untuk menghitung rand index dan F-measure dibutuhkan pengetahuan mengenai pengelompokan dokumen yang telah dianggap benar. Dalam penelitian ini, pengelompokan dokumen yang telah dianggap benar adalah pengelompokan yang dilakukan dengan cara manual.

HASIL DAN PEMBAHASAN Karakteristik Dokumen

Menghapus Stopwords dan Term dengan df < Treshold

Evaluasi Kinerja Sistem

Dimensi dokumen yang telah dikurangi dimensinya dapat disamakan dengan kecocokan dokumen ke konsep yang terbungkus dalam

Koleksi dokumen

Jumlah dokumen 400 500 600 Total term awal 12125 13564 15093 Menghapus

stopwords dan term dengan df < treshold 1183 1363 1562 Jumlah kelas 6 6 6 <DOC> <DOCNO>MI_lingkungan_4_8</DOCNO >

<TITLE>Perkebunan Sawit Harus

Kembangkan Wisata Lingkungan</TITLE> <AUTHOR>Agus Utantoro</AUTHOR> <DATE>Selasa, 03 Februari 2009</DATE> <TEXT> <P>Fakultas Kehutanan

Universitas Gajah Mada (UGM) Yogyakarta ... </P> </TEXT>

7 centroid (Karypis G & Han E 2000). Matriks

document-concept yang terbentuk pada tahap concept-indexing kemudian dilakukan pengelompokan menggunakan bisecting K-means (tahap clustering). Hasil dari pengelompokan ini merupakan hasil akhir dari sistem yang selanjutnya akan dievaluasi. Pengukuran keakuratan hasil clustering dilakukan dengan menggunakan rand index dan F-measure. Semakin besar nilai rand index dan F-measure maka hasil clustering semakin baik.

Gambar 3 Diagram nilai rand index pada jumlah dimensi berbeda untuk clustering dokumen menggunakan bisecting K-means dengan concept indexing (centroid rata-rata). Untuk mengetahui pengaruh jumlah dimensi matriks document-concept yang dihasilkan pada tahap concept-indexing terhadap hasil clustering, dilakukan percobaan dengan menggunakan jumlah dimensi 3, 6, 9, 15, dan 25. Pengaruh perbedaan dimensi terhadap rand index untuk hasil clustering dokumen dengan menggunakan centroid rata-rata dapat dilihat pada Gambar 3 sedangkan yang menggunakan centroid maksimum dapat dilihat pada Lampiran 2. Jumlah dimensi matriks document-concept mempengaruhi hasil clustering. Ini ditunjukkan dengan perubahan nilai rand index pada dimensi document-concept yang berbeda. Pada Gambar 3 terlihat bahwa jumlah dimensi di atas jumlah kelas yaitu 6, nilai rand index lebih tinggi dibandingkan ketika dimensinya dibawah jumlah kelas. Pada percobaan ini rand index yang paling tinggi ketika jumlah dimensi 25 dengan jumlah dokumen 400 dan nilai rand index yang paling rendah dicapai ketika jumlah dimensi 3 dengan jumlah dokumen 600 yang mana jumlah dimensi kurang dari jumlah kelas koleksi dokumen.

Salah satu tujuan penelitian ini adalah mengukur pengaruh concept indexing terhadap clustering dokumen menggunakan bisecting K-means. Concept indexing memberi pengaruh positif terhadap bisecting K-means. Ini ditunjukkan dengan meningkatnya rand index. Dari tiga percobaan yang dilakukan yaitu menggunakan 400, 500, dan 600 dokumen. Perbandingan dilakukan antara clustering yang menggunakan bisecting K-means murni, bisecting K-means dengan concept indexing (centroid rata-rata) dan (centroid maksimum) dengan jumlah dimensi 25. Hasil perbandingan antara bisecting K-means murni dengan bisecting K-means menggunakan concept indexing (centroid rata-rata) menunjukkan bahwa rand index meningkat sebesar 0,07, 0,09, dan 0,02 secara berturut-turut untuk jumlah dokumen 400, 500, dan 600. Perbadingan rand index untuk clustering dokumen menggunakan bisecting K-means dengan concept indexing (centroid rata-rata) dan (centroid maksimum) tidak jauh berbeda. Untuk koleksi dengan jumlah 400 dokumen, nilai rand index sama yaitu 0,92 sedangkan untuk koleksi dokumen dengan jumlah 500 dan 600 dokumen nilai rand index menggunakan centroid maksimum bernilai 0,94 dan 0,96 yang mana lebih tinggi 0,01 dan 0,04 daripada yang menggunakan centroid rata-rata. Hal ini dapat dilihat pada Gambar 4.

Gambar 4 Diagram perbandingan nilai rand index antara bisecting K-means dan bisecting K-means dengan concept indexing (centroid rata-rata) dan (centroid maksimum) pada jumlah dimensi 25. 3 6 9 15 25 400 0.84 0.87 0.89 0.88 0.95 500 0.82 0.89 0.89 0.92 0.93 600 0.82 0.87 0.92 0.92 0.92 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 R and Inde x Jumlah dimensi 400 500 600 BSCKM _0.88 _0.84 _0.90 BSCKM+CI(m eans) ^0.95 ^0.93 ^0.92 BSCKM+CI(M ax) ^0.95 ^0.94 ^0.96 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 R and Inde x Jumlah dokumen

8 Tanpa CI 3 6 9 15 25 400 70.50 73.34 78.67 75.16 83.86 91.15 500 _107.51 _97.95 _115.49 _118.90 _129.40 _143.18 600 153.46 134.63 168.69 173.14 195.18 210.70 0.00 50.00 100.00 150.00 200.00 250.00 W akt u pr o ses ( det ik) Jumlah dimensi

Pada Gambar 4 terjadi fluktuasi rand index pada clustering dokumen menggunakan bisecting K-means. Ketika jumlah dokumen 400, rand index bernilai 0,88, ketika jumlah dokumen 500, rand index menurun menjadi 0,84 dan ketika jumlah dokumen 600 rand index meningkat menjadi 0,90. Perubahan ini karena inisialisasi centroid yang berdeda pada bisecting K-means, lebih tepatnya pada saat pembagian kelompok dokumen menjadi dua

sub-cluster yang dilakukan oleh means. K-means melakukan inisialisasi centroid secara acak. Pemilihan centroid awal yang berbeda akan mempengaruhi hasil clustering. Hal serupa terjadi ketika bisecting K-means dengan concept indexing, walaupun perubahan rand index tidak signifikan fruktuasi ini sama disebabkan inisialisasi centroid yang berbeda.

Pengukuran kualitas dan pemeringkatan algoritme clustering dapat berubah-ubah

Centroid (0-2)

Centroid 0 Centroid 1 Centroid 2

penelitian 15.31 pendidikan 32.28 antasari 8.44

tanaman 13.92 sekolah 23.74 tersangka 6.20

perlakuan 4.91 un 22.01 ganda 5.51

buah 4.35 siswa 15.74 kasus 5.06

percobaan 4.19 ujian 14.68 putra 5.03

produksi 3.28 nasional 14.59 pasangan 4.98

hama 2.98 pemerintah 8.52 pemain 4.81

insektisida 2.88 soal 7.95 jakarta 4.54

varietas 2.79 daerah 7.59 metro 4.28

jeruk 2.77 guru 7.28 pembunuhan 4.02

Centroid (3-5)

Centroid 3 Centroid 4 Centroid 5

indonesia 19.43 hutan 14.18 ekonomi 11.08

ekonomi 9.56 kawasan 11.79 harga 9.83

mahasiswa 6.59 masyarakat 8.17 2009 8.82

jakarta 6.44 ikan 6.31 indonesia 8.79

masyarakat 6.09 wilayah 6.13 pemerintah 8.28

presiden 5.89 air 6.08 negara 6.97

universitas 5.58 daerah 5.99 pertumbuhan 6.24

pasar 4.84 laut 5.93 bank 6.05

dunia 4.69 pemerintah 5.72 minyak 5.49

gubernur 4.61 lahan 5.10 triliun 5.44

Tabel 2 Sepuluh bobot terbesar term dalam centroid.

9 tergantung pada jenis pengukuran yang

digunakan (Steinbach M, Karypis & Kumar V, 2000). Dalam penelitian ini dilakukan pengukuran hasil clustering kembali menggunakan F-measure. Pengukuran kualitas hasil clustering menggunakan F-measure menunjukkan korelasi positif terhadap pengukuran menggunakan rand index. Hasil pengukuran menggunakan F-measure dapat di lihat pada Lampiran 3, Lampiran 4 dan Lampiran 5.

Waktu Proses

Jumlah dimensi dan banyaknya data akan mempengaruhi waktu proses. Semakin besar dimensi dan jumlah data maka waktu proses akan semakin lama. Hal tersebut dapat dilihat pada Gambar 5 dengan seiring meningkatnya jumlah dokumen dan term maka waktu proses akan meningkat. Peningkatan ini dapat diamati pada bisecting K-means selisih waktu antara koleksi dokumen yang berjumlah 400 dan 500 dengan jumlah term setelah dikurangi stopwords masing-masing 1183 dan 1363 adalah 37 detik. Selain dipengaruhi dua hal yaitu banyaknya data dan dimensi, metode yang digunakan juga dapat mempengaruhi waktu proses. Peningkatan waktu proses antara bisecting K-means murni dan bisecting K-means dengan concept indexing dapat dilihat pada Gambar 5. Peningkatan ini dipengaruhi oleh jumlah dimensi pada matriks document-concept semakin besar jumlah dimensi maka semakin lama waktu proses.

Konsep dalam Koleksi

Dalam proses pengurangan dimensi dalam concept indexing, dilakukan pengurangan dimensi dengan cara mengelompokkan koleksi dokumen ke dalam k kelompok/dimensi dan menghasilkan matriks centroid-term. Matrik centroid-term ini kemudian dikalikan dengan matrik document-term yang kemudian menghasilkan matrik document-concept yang memiliki dimensi sebayak k. Idealnya dengan jumlah kelompok/dimensi yang kecil sebuah centroid akan memperoleh konsep dari dokumen yang lebih banyak. Tabel 2 merupakan 10 bobot term tertinggi pada centroid yang diperoleh dengan mengelompokkan matriks document-term pada sebuah koleksi menjadi 6 kelompok/dimensi.

Kita berasumsi bahwa algorime clustering menghasilkan pengelompokan yang baik, yaitu dokumen-dokumen dalam sebuah cluster mirip satu sama lain dan tidak mirip dengan dukumen-dokumen dalam cluster yang berbeda.

Vektor centroid akan memberikan mekanisme peringkasan terhadap isi sekumpulan dokumen. Sebagai contoh, dari keenam tema bacaan tampak bahwa centroid 0 mewaliki dokumen yang bertemakan pernelitian di bidang pertanian. Ini ditunjukkan dengan term yang memiliki bobot tertinggi dalam centroid berhubungan dengan pertanian. Sebagai contoh terdapat term seperti “penelitian”, “tanaman”, dan “hama” yang mana sering muncul dalam

dokumen yang bertemakan penelitian di bidang pertanian. Untuk centroid 1, 4, 5 secara berurutan lebih cenderung memiliki konsep pendidikan, lingkungan dan ekonomi. Akan tetapi untuk centroid 2 dan 3 kata-kata masih belum spesifik menuju konsep tertentu. Hal ini karena kesalahan pengelompokan.

Dalam dokumen Clustering konsep dokumen berbahasa Indonesia menggunakan Bisecting K-means (Halaman 32-36)