4 HASIL DAN PEMBAHASAN - Web Document Clustering Through Metafile Generation for Digraph Struct

Penelitian ini dibuat menggunakan bahasa pemrograman PHP untuk tahapan praproses data, implementasi algoritme DIG dan pembangkitan metafile penyusun struktur digraf. Representasi digraf menggunakan software Graphviz 2.30. Tampilan halaman praproses data dapat dilihat Gambar 8.

Gambar 8 Tampilan praproses data

Berdasarkan Gambar 8 untuk tahapan praproses data selain dilakukan proses tokenisasi, penghapusan kata hubung yang terdapat pada daftar stop-word dan pengambilan kata dasar (stemming), dilakukan juga proses dimentional reduction. Proses dimentional reduction akan melakukan pembacaan isi dokumen dan akan melakukan pembatasan oleh dua nilai yang menjadi threshold untuk mendapatkan hasil pengelompokan yang terbaik.

Nilai pertama adalah banyaknya kata yang memiliki nilai Term Frequency (TF) tinggi akan tetapi tidak mewakili topik dalam dokumen (document frequency threshold). Hal ini ditemukan di sebagian besar dokumen REUTERS-21578. Dalam pengujian ditemukan setidaknya 3 kata yang selalu memiliki nilai TF tinggi akan tetapi tidak relevan terhadap topik dalam dokumen. Kata tersebut adalah : pct, mln dan dlrs. Oleh karena itu untuk mendapatkan hasil pengelompokan dan representasi digraf yang lebih baik, maka beberapa kata tersebut sebaiknya dihilangkan dalam proses pengelompokan sehingga perlu ditentukan nilai document frequency threshold yang ingin dihilangkan yakni 2-3 kata berdasarkan pengujian praproses data.

Nilai kedua adalah banyaknya kata yang memiliki nilai TF tinggi dan mewakili topik dalam dokumen (relevant words), dan jumlah kemunculannya minimal lebih dari (jumlah dokumen – n) kali atau maksimal lebih dari jumlah dokumen yang diproses.

Praproses data pada 20 dokumen uji dilakukan dengan membandingkan hasil pengelompokan yang didapat dengan dan tanpa penyertaan nilai document frequency threshold dan penetapan nilai bobot Term Frequency (TF) agar hasil pengelompokan hanya akan menampilkan kemunculan kata lebih dari 20 kali. Hasil pengelompokan 20 dokumen dengan variasi nilai document frequency threshold dan nilai bobot Term Frequency = 0 ditampilkan pada Tabel 2 dan Tabel 3.

Tabel 2 Hasil pengelompokan 20 dokumen dengan document frequency threshold=0

Kata Kemunculan pct 50 mln 40 year 30 billion 28 stock 26 bankamerica 26 quarter 25 company 25 sales 23

Tabel 3 Hasil pengelompokan 20 dokumen dengan document frequency threshold=2

Kata Kemunculan year 30 billion 28 stock 26 bankamerica 26 quarter 25 company 25 sales 23

Berdasarkan hasil pengelompokan di atas dapat dijelaskan bahwa penetapan nilai document frequency threshold sebesar 0 (nol) akan menampilkan kata-kata yang frekuensi kemunculan dokumennya lebih dari 20 kali tanpa melakukan pembatasan kata-kata yang tidak relevan. Kata yang tidak relevan yang dimaksud adalah kata pct dan mln. Dua kata tersebut selalu ditemukan di setiap dokumen dan muncul lebih dari satu kali. Hal tersebut ditandai dengan jumlah kemunculan terbesar di antara kata-kata lain di dokumen tersebut. Berdasarkan hal itu maka mekanisme algoritme dikembangkan untuk membatasi kemunculan kata yang sering muncul tapi tidak relevan dengan menghilangkan kata yang bobot kemunculannya terbesar sebanyak nilai input document frequency threshold. Oleh karena itu ketika nilai document frequency threshold diubah menjadi 2, maka dapat diartikan bahwa algoritme akan menghilangkan dua kata dengan nilai frekuensi kemunculannya paling besar yakni kata pct dan mln.

Penentuan nilai bobot Term Frequency (TF) digunakan untuk melakukan pembatasan jumlah kata yang akan ditampilkan sebagai hasil pengelompokan berdasarkan minimal kemunculan kata di sejumlah dokumen yang diuji yakni lebih dari 20 kali (Lewis 1997). Pada pemrosesan 20 dokumen di atas, maka penetapan nilai TF

adalah sebesar 0. Nilai tersebut dipakai agar menghasilkan minimal kemunculan yang didapat sejumlah (jumlah dokumen – n) kali.

Praproses data pada 25 dokumen latih dilakukan dengan membandingkan hasil pengelompokan yang didapat dengan dan tanpa penyertaan nilai document frequency threshold dan penetapan nilai bobot Term Frequency (TF) agar hasil pengelompokan hanya akan menampilkan kemunculan kata lebih dari 20 kali. Hasil pengelompokan 25 dokumen dengan variasi nilai document frequency threshold dan nilai bobot Term Frequency = 0 ditampilkan pada Tabel 4 dan Tabel 5.

Tabel 4 Hasil pengelompokan 25 dokumen dengan document frequency threshold=0

Kata Kemunculan pct 54 mln 47 year 35 billion 32 company 29 quarter 28 bankamerica 26 sales 23 debt 22

Tabel 5 Hasil pengelompokan 25 dokumen dengan document frequency threshold=3

Kata Kemunculan billion 32 company 29 quarter 28 bankamerica 26 sales 23 debt 22

Berdasarkan hasil pengelompokan di atas dapat dijelaskan bahwa penetapan nilai document frequency threshold sebesar 3 akan menampilkan kata-kata yang frekuensi kemunculan dokumennya lebih dari 20 kali dan melakukan pembatasan kata-kata yang tidak relevan sebanyak 3 kata yakni pct, mln dan year. Tiga kata tersebut selalu ditemukan di setiap dokumen dan muncul lebih dari satu kali. Hal tersebut ditandai dengan jumlah kemunculan terbesar di antara kata-kata lain di dokumen tersebut.

Penentuan nilai bobot Term Frequency (TF) pada percobaan dengan 25 dokumen didasarkan pada rumus (jumlah dokumen – n) agar dapat menampilkan hasil pengelompokan dokumen dengan kemunculan lebih dari 20 kali. Oleh karena itu nilai n=5 pada input nilai TF digunakan untuk melakukan pembatasan jumlah kata yang akan ditampilkan sebagai hasil pengelompokan berdasarkan minimal kemunculan kata di sejumlah dokumen yang diuji yakni tetap lebih dari 20 kali (Lewis 1997).

Implementasi algoritme pada 50 dokumen latih menggunakan nilai document frequency threshold=3 dan nilai bobot TF=30 menghasilkan sebanyak 23 kata dengan kemunculan lebih dari 20 kali. Hasil pengelompokan dapat dilihat pada Lampiran 1.

Implementasi pada 100 dokumen latih menggunakan nilai document frequency threshold=3 dan nilai bobot TF=80 menghasilkan sebanyak 95 kata dengan kemunculan lebih dari 20 kali. Hasil percobaan dapat dilihat pada Lampiran 2.

Hasil implementasi untuk 20, 25, 50 dan 100 dokumen dengan perubahan nilai document frequency threshold dan nilai bobot Term Frequency (TF) sangat penting dilakukan untuk mendapatkan hasil pengelompokan yang lebih baik dan mendapatkan representasi digraf yang lebih baik pula.

Hasil implementasi algoritme dilanjutkan dengan pembangkitan metafile yang merupakan bahasa terstruktur penyusun struktur digraf yang akan mendefinisikan komponen digraf seperti node, edge dan path. Format bahasa yang digunakan adalah DOT language dengan unsur node yakni kata-kata yang terpilih dari hasil implementasi algoritme DIG pada praproses data; unsur edge adalah keterhubungan kata-kata dalam dokumen; dan unsur path adalah pengelompokan kata berdasarkan warna pada graf. Berikut adalah format metafile penyusun digraf untuk representasi dokumen tunggal dari hasil pengelompokan 20 dokumen uji dengan nilai document frequency threshold=2 dan nilai TF=0.

digraph {

graph [fontname = "Arial", fontsize = 36, style = "bold", nodesep=3] node [style=filled fillcolor="gray80"]

"year=>30" "billion=>28" "stock=>26" "bankamerica=>26" "quarter=>25"

“bankamerica=> 26" -> "billion=>28" [color=red,penwidth=3.0]; "bankamerica=> 26" -> "stock=>26" [color=green,penwidth=3.0]; "bankamerica=> 26" -> "stock=>26" [color=orange,penwidth=3.0]; "stock=>26" -> "bankamerica=>26" -> "stock=>26"

[color=darkslateblue,penwidth=3.0];

"bankamerica=>26" -> "billion=>28" -> "year=>30" [color=darkseagreen,penwidth=3.0];

}

Metafile di atas sebagai bentukan output antara dari proses pengelompokan. Output hasil pengelompokan (metafile) akan menjadi input awal penyusunan struktur digraf untuk representasi digraf pada interface aplikasi. Tampilan digraf dari input metafile dapat dilihat pada Gambar 9.

Representasi digraf yang disajikan pada Gambar 9 dapat dilihat hasil pengelompokan dokumen dengan melihat nilai Term Frequency (TF) dari kata-kata yang sering muncul pada dokumen uji. Dari implementasi 20 dokumen REUTER-21578 dengan nilai document frequency threshold = 2 dan nilai bobot TF relevant words = 0 atau sejumlah dokumen yang diproses, maka didapat 4 kata yang sering ditemukan pada pembandingan dokumen pertama dan kedua yakni : year, billion, bankamerica dan stock. Di sisi lain, kata quarter ditemukan pada pembandingan dokumen lainnya. Warna pada digraf mewakili kelompok yang terbentuk dari implementasi algoritme DIG. Jalur asiklik pada digraf menunjukkan keterkaitan kata yang sering muncul di beberapa dokumen, dan jalur siklik menunjukkan ada beberapa kata yang sama yang muncul pada sebuah dokumen.

Langkah selanjutnya adalah menganalisis tingkat akurasi dari pencarian dan temu kembali informasi dengan menghitung nilai precision, recall dan accuracy hasil pengelompokan pada 20 dokumen uji. Hasil perhitungan ditampilkan pada Tabel 6.

Tabel 6 Perhitungan precision, recall dan accuracy pada 20 dokumen

Node Cluster result

Search

result TP FP FN TN Precision Recall Accuracy

Year 30 39 20 9 10 196 69% 67% 92% billion 28 28 20 0 8 205 100% 71% 97% Stock 26 31 20 5 6 200 80% 77% 95% bankamerica 26 28 20 2 6 203 91% 77% 97% quarter 25 29 20 4 5 201 83% 80% 96% company 25 27 20 2 5 203 91% 80% 97% Sales 23 23 20 0 3 205 100% 87% 99% sumofcluster 183 meanofprecision 87,73% sumofsearch 205 meanofrecall 76,99% numofdocs 20 meanofaccuracy 96,00%

Dari tabel di atas dapat dikatakan bahwa implementasi algoritme DIG pada pengelompokan sebanyak 20 dokumen menghasilkan nilai precision sebesar 87,73%, nilai recall sebesar 76,99% dan memiliki tingkat akurasi yang sangat baik yakni 96%. Hasil perhitungan untuk 25, 50 dan 100 dokumen lainnnya menunjukkan kecenderungan penurunan untuk nilai precision dan recall akan tetapi kecenderungan peningkatan untuk nilai accuracy (dapat dilihat pada Lampiran 3, Lampiran 4, Lampiran 5). Gambar 10 menunjukkan grafik perbandingan ukuran precision, recall dan accuracy terhadap 20, 25, 50 dan 100 dokumen.

Gambar 10 Grafik nilai precision, recall dan accuracy pada dokumen uji

Gambar 10 menunjukkan metode DIG memiliki nilai precision, recall dan accuracy lebih dari 70% sehingga dapat dikatakan metode DIG memberikan hasil yang baik dalam pengelompokan dokumen REUTERS.

Dalam dokumen Web Document Clustering Through Metafile Generation for Digraph Structuring Using Document Index Graph Algorithm (Halaman 31-37)