RIWAYAT HIDUP - Web Document Clustering Through Metafile Generation for Digraph Structuring Usi

Budi dilahirkan di Karawang, 5 Agustus 1978. Penulis merupakan anak tunggal dari pasangan Maksin Sia dan Melly Maryati. Tahun 2002, penulis lulus sarjana pada Departemen Ilmu Komputer Institut Pertanian Bogor. Penulis melanjutkan jenjang Magister pada tahun 2011 di Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor (IPB).

Penulis bekerja sebagai dosen di Program Diploma IPB dari tahun 2007 sampai sekarang. Bidang keahlian penulis adalah Sistem Informasi dan pemrograman khususnya pemrograman berbasis web. Kegiatan penelitian penulis pada Program Diploma IPB berkaitan dengan implementasi e-learning sebagai alternatif alat evaluasi proses belajar mengajar.

1 PENDAHULUAN

Latar Belakang

Dokumen web adalah salah satu sumber daya pada sebuah sistem berbasis web yang banyak ditemukan dalam bentuk tekstual misalnya dokumen teks, dokumen web, artikel dan paper dan lain sebagainya (Hammouda, et al., 2004). Peningkatan volume data khususnya pada dokumen teks saat ini memberikan implikasi terhadap isu yang berkaitan dengan akurasi temu kembali informasi dan kecepatan akses terhadap informasi yang ditelusuri. Implikasi tersebut menjadi pemicu penggunaan teknik pengelolaan dan analisis data. Teknik yang dimaksud adalah membagi kumpulan dokumen ke dalam kelompok-kelompok yang berbeda sehingga dokumen yang terdapat pada suatu kelompok akan mengandung informasi yang sama dan terkait satu sama lain. Oleh karena itu diperlukan sebuah metode pengelompokan dokumen agar memudahkan dalam pengambilan informasi sesuai kebutuhan user.

Clustering merupakan salah satu teknik yang dapat digunakan untuk menemukan keterkaitan antar dokumen. Tujuan pengelompokan adalah untuk memisahkan sekumpulan dokumen ke dalam beberapa kelompok atau cluster dengan menilai kemiripan antar dokumen dari segi isi. Pada umumnya teknik pengelompokan dilandasi oleh 4 (empat) konsep tahapan yakni: (1) Praproses data, (2) Penghitungan kemiripan (similarity measure), (3) Pemilihan metode pengelompokan (cluster method), dan (4) Algoritme pengelompokan yang digunakan. Banyak metode yang dapat dipakai dalam pengelompokan dokumen seperti dengan Sufﬁx Tree, Single Pass Clustering maupun K-Nearest Neighbour. Kebanyakan metode pengelompokan dokumen berbasis pemodelan ruang vektor yang merepresentasikan dokumen sebagai ﬁtur vektor dari term yang muncul pada semua dokumen (Hammouda 2004). Pengelompokan dengan metode seperti ini hanya memperhatikan analisis single term, tanpa memperhatikan analisis berbasis frasa. Idealnya proses pengelompokan sebaiknya tidak hanya memperhatikan analisis single term saja, akan tetapi perlu diperhatikan juga analisis frasa dari suatu dokumen. Dengan analisis frasa, kesamaan antar dokumen akan dihitung berdasarkan pencocokan frasa.

Penelitian Oren Zamir (1998), melakukan analisis pengelompokan dokumen berbasis analisis frasa dengan pendekatan Suffix Tree Clustering (STC). Metode

tersebut pada dasarnya melibatkan penggunaan struktur “trie” (tree sederhana) untuk merepresentasikan suffix yang digunakan bersama antar dokumen. Berdasarkan suffix dilakukan identifikasi cluster dasar dari dokumen, dan akan digabungkan ke dalam cluster akhir berdasarkan algoritme connected-component graph. Metode ini diklaim memiliki nilai kompleksitas n log(n) dan menghasilkan cluster yang baik, akan tetapi model tree yang terbentuk dapat dikatakan memiliki nilai redundansi yang tinggi pada kasus term dari suffix yang disimpan pada tree.

Penelitian Hammouda (2004) yang berjudul “Efficient Phrase-Based Document Indexing for Web Document Clustering”, mengusulkan struktur baru dalam merepresentasikan sebuah dokumen yakni Document Index Graph (DIG). DIG adalah sebuah graf berarah yang dibangun oleh gugus vertex dan edge. Setiap vertex mewakili sebuah kata unik dalam keseluruhan gugus dokumen yang ada. Dua kata berurut dalam sebuah kalimat akan saling terhubung dengan edge berarah dalam graf. Sebuah kalimat digambarkan sebagai sebuah jalur dari vertex-vertex yang berurut sesuai dengan kata-

kata dalam kalimat tersebut. DIG memungkinkan untuk mengenali pencocokan frasa antar dokumen. Ketika sebuah dokumen baru diproses, maka algoritme akan membentuk atau membangun sebuah daftar kesamaan antar dokumen tersebut dengan semua dokumen sebelumnya telah disimpan. Penelitian tersebut dapat menangkap struktur dari kalimat pada sebuah set dokumen dibanding hanya kata tunggal saja. Dokumen yang dianalisis pada penelitian adalah dokumen HTML. Hasil pemodelannya adalah bentuk XML yang terstruktur dengan baik sesuai dengan dokumen HTML yang asli namun dengan tingkat signifikansi yang ditugaskan kebagian yang berbeda di dokumen asli. Hasil penelitian menyimpulkan bahwa kualitas cluster yang terbentuk dari pemodelan DIG lebih baik hasilnya dibanding dengan pemodelan berbasis ruang vektor. Di samping itu, penelitian ini menyimpulkan bahwa ukuran kemiripan berbasis frasa memiliki tingkat akurasi yang tinggi dengan syarat telah memperhatikan pengujian terhadap faktor-faktor yang mempengaruhi derajat overlap antar dokumen.

Penelitian Ernawati (2009) yang berjudul “Klusterisasi Dokumen Berita Berbahasa Indonesia Menggunakan Document Index Graph”, menunjukkan bahwa algoritme DIG dapat diimplementasikan untuk mendeteksi kesamaan berbasis frasa dan menangani overlap clustering. Walaupun tidak selalu terjadi, kesamaan berbasis frasa dapat memperbaiki performansi cluster berdasarkan pengukuran f-measure dan entropy. Ada beberapa titik kesamaan berbasis frasa justru dapat mengurangi nilai performansi, oleh karena itu perlu dicari titik optimal similarity blend factor dan similarity threshold.

Berdasarkan perkembangan peningkatan volume data pada dokumen web saat ini dan mencermati implikasi dari perkembangan tersebut serta mempelajari hasil penelitian yang telah dilakukan sebelumnya, maka usulan pemodelan representasi dokumen pada penelitian ini adalah melakukan pengelompokan dokumen menggunakan algoritme Document Index Graph (DIG). Model ini melakukan proses indeks terhadap dokumen dengan tetap menjaga struktur kalimat dalam dokumen asli. Hal ini memungkinkan kita untuk menggunakan pencocokan frasa lebih informatif daripada pencocokan kata-kata individu. Selain itu, DIG juga menangkap berbagai tingkat

signifikansi dari kalimat asli, sehingga memungkinkan kita untuk menggunakan kalimat secara signifikan. Suffix tree adalah struktur yang paling dekat dengan model DIG, tetapi suffix tree memiliki kendala ketika terjadi redundansi yang besar (Huang 2011). Model DIG yang diusulkan bukan hanya perpanjangan atau perangkat tambahan suffix tree, tetapi DIG memiliki perspektif yang berbeda tentang bagaimana pencocokan frasa dapat

lebih eﬁsien, tanpa perlu menyimpan informasi yang berlebihan. Penelitian terkait yang telah dijelaskan sebelumnya mengarahkan penulis kepada fokus dan posisi penelitian yang akan dilakukan berdasarkan pada pekerjaan yang belum dilakukan pada penelitian sebelumnya. Posisi penelitian dapat ditampilkan pada Gambar 1.

Gambar 1 Posisi penelitian

Pekerjaan yang dilakukan pada penelitian “Pengelompokan Dokumen Web melalui Pembangkitan Metafile Penyusun Struktur Digraf menggunakan Algoritme Document Index Graph (DIG)” adalah menerapkan teknik text clustering menggunakan REUTER 21578 dataset dengan menggunakan pemodelan berbasis graf dan menggunakan algoritme DIG. Untuk tahapan pekerjaan akan dilakukan kolaborasi antara perancangan pada system document clustering secara umum dengan tahapan document clustering menggunakan representasi DIG. Adapun tahapan perancangan sistem document clustering secara umum meliputi : (1) Tahap preprocessing data; (2) Analisis semantik/sintaksis; (3) Representasi dokumen; (4) Pengelompokan dokumen ; (5) Evaluasi pengelompokan. Tahapan document clustering menggunakan representasi DIG meliputi : (1) Identifikasi struktur dokumen atau tahapan praproses data; (2) Representasi dokumen menggunakan DIG; (3) Penghitungan ukuran kesamaan dokumen; (4) Proses pengelompokan dengan algoritme DIG.

Tujuan Penelitian

Penelitian ini mempunyai tujuan mengimplementasikan algoritme Document Index Graph (DIG) untuk proses pengelompokan dokumen dan menggunakan metafile untuk menyusun struktur digraf sebagai representasi hasil implementasi algoritme DIG tersebut.

Ruang Lingkup

Adapun ruang lingkup penelitian ini adalah :

1 Dokumen web yang digunakan adalah dokumen SGML yang telah terstruktur dalam hal ini artikel berita REUTER-21578,

2 Implementasi praproses data dilakukan dengan melakukan perhitungan nilai Term Frequency (TF) dengan menentukan nilai intra-cluster threshold dan nilai inter-cluster threshold

3 Output algoritme berupa metafile yang akan digunakan sebagai input lanjutan untuk representasi struktur digraf

4 Menganalisis implikasi hasil penelitian dari sisi akurasi data dengan pengukuran nilai prosentase Precision, Recall dan Accuracy.

2 TINJAUAN PUSTAKA

Text mining

Text mining adalah teknik penambangan data yang berupa teks dengan sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisis keterhubungan antar dokumen (Langgeni 2010).

Metode pada text mining terdiri atas komponen text pre-processing, feature selection, dan komponen data mining. Komponen text pre-processing berfungsi untuk mengubah data tekstual yang tidak terstruktur seperti dokumen ke dalam data terstruktur dan disimpan ke dalam database. Feature selection akan memilih kata yang tepat dan berpengaruh pada proses klasifikasi atau proses pengelompokan. Komponen terakhir akan menjalankan teknik data mining pada output dari komponen sebelumnya.

Text Clustering

Dalam penyusunannya, penggalian teks mempunyai beberapa tahapan yaitu pemrosesan awal, penyusunan data model, clustering, proses lanjutan, visualisasi dan ontologi. Text clustering merupakan salah satu fungsi fundamental dalam penggalian teks. Text clustering didefinisikan sebagai proses untuk memecah suatu kumpulan teks dokumen ke dalam klasifikasi yang berbeda-beda, sehingga beberapa dokumen dalam satu grup kategori dapat menunjukkan kesamaan topik (Fang 2005). Text clustering sangat berpengaruh dalam penggalian teks karena menunjukkan topik yang terdapat dalam dokumen dan mengidentifikasikan kata kunci dari setiap topik.

Teknik pengelompokan (Clustering) adalah sebuah teknik pembelajaran tanpa pengawasan (unsupervised learning) yang bertujuan untuk mengelompokkan seperangkat objek abstrak atau objek fisik ke dalam kelas-kelas objek yang sama (Wang 2006). Pengelompokan pada dokumen membagi gugus dokumen ke dalam kelompok yang belum terdefinisi berdasarkan kesamaan dokumennya. Jumlah kelompok yang dihasilkan bersifat tetap atau acak tergantung dari algoritme yang digunakan. Teknik pengelompokan dokumen adalah cabang ilmu yang melibatkan temu kembali informasi, kecerdasan buatan, data mining, dan pemrosesan natural language. Secara umum, pengelompokan dokumen adalah metode pengelolaan dokumen yang efisien untuk temu kembali informasi dan data mining khususnya untuk data teks (Wang 2006).

Otomatisasi proses klasifikasi pada teks berkaitan dengan proses distribusi berdasarkan kategori atau kelas dari seperangkat dokumen-dokumen yang didasari pada karakteristik tertentu. Unsupervised classification atau clustering adalah metode yang digunakan untuk melakukan proses penemuan dan otomatisasi pengelompokan dari kelas-kelas tersembunyi dan belum teridentifikasi (Amine 2009).

The Reuters-21578 dataset

Koleksi dokumen Reuters-21578 terdapat pada berita online REUTERS tahun 1987. Dokumen-dokumen tersebut disusun dan dilakukan pengindeksan berdasarkan

beberapa kategori oleh beberapa personel di REUTERS antara lain : Sam Dobbins, Mike Topliss, Steve Weinstein, Peggy Andersen, Monica Cellio, Phil Hayes, Laura Knecht, Irene Nirenburg.

Menurut Hotho (2009), koleksi teks Reuters-215781 terdiri atas 21.578 dokumen. Koleksi ini sangat menarik untuk evaluasi, sebagai bagian dari kehadiran klasifikasi. Koleksi berisi 135 topik. Agar lebih umum, topik merujuk kepada istilah 'kelas' di sekuel. Untuk memungkinkan evaluasi, topik dibatasi menjadi 12344 dokumen yang telah diklasifikasikan secara manual oleh Reuters. Beberapa dari dokumen tersebut tidak dapat diberikan oleh para ahli untuk salah satu kelas yang telah ditetapkan, oleh karena itu kelas tersebut dikumpulkan dalam sebuah kelas tambahan atau „defnoclass‟.

Karakteristik dataset ini adalah menggunakan bahasa markup yakni menggunakan tag SGML dan menghasilkan DTD dari bentukan SGML tersebut sehingga batasan dari bagian penting sebuah dokumen tidak ambigu atau tidak rancu. Selain itu dataset ini memiliki seperangkat kategori yang baku untuk setiap definisi dari 5 (lima) field pengendali kosakata. Karakteristik lainnya adalah dokumen-dokumen diberikan nomor ID baru berdasarkan urutan kronologis dan dikumpulkan per 1000 dokumen dalam sebuah file yang diurutkan berdasarkan ID.

Text Preprocessing

Teks yang akan dilakukan proses text mining, pada umumnya memiliki beberapa karakteristik di antaranya adalah memiliki dimensi yang tinggi, terdapat noise pada data, dan terdapat struktur teks yang tidak baik. Cara yang digunakan dalam mempelajari suatu data teks, adalah dengan terlebih dahulu menentukan fitur-fitur yang mewakili setiap kata untuk setiap fitur yang ada pada dokumen.

Sebelum menentukan fitur-fitur yang mewakili, diperlukan tahap preprocessing yang dilakukan secara umum dalam text mining pada dokumen, yaitu case folding, tokenizing, filtering, stemming, tagging dan analyzing. Case folding adalah mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf „a‟ sampai dengan „z‟ yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter. Tahap tokenizing / parsing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. Tahap filtering adalah tahap mengambil kata-kata penting dari hasil token. Bisa menggunakan algoritme stoplist (membuang kata yang kurang penting) atau wordlist (menyimpan kata penting). Stoplist / stopword adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words. Contoh stopwords adalah “yang”, “dan”, “di”, “dari” dan seterusnya. Tahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering. Pada tahap ini dilakukan proses pengembalian berbagai bentukan kata ke dalam suatu representasi yang sama. Tahap ini kebanyakan dipakai untuk teks berbahasa inggris dan lebih sulit diterapkan pada teks berbahasa Indonesia. Hal ini dikarenakan bahasa Indonesia tidak memiliki rumus bentuk baku yang permanen.

Document Index Graph

Document Index Graph (DIG) adalah sebuah graf berarah G=(V, E). Notasi V adalah node yang tiap node mewakili kata unik di dalam sebuah dokumen. Edge menggambarkan pasangan dari node. Setiap dokumen berisi beberapa kalimat dengan

kata yang mungkin berulang di antara dokumen tersebut. Jika sebuah frasa tampil lebih dari sekali maka frekuensi dari kata individual pembentuk frasa akan bertambah (Hammouda 2004).

Pencocokan frasa antar dokumen bertugas untuk mencari shared-paths pada graf antar dokumen-dokumen tersebut. Hal ini dilakukan dengan membuat struktur graf dan membangun graf untuk melakukan phrase matching. Representasi graf untuk data sangat cocok mengingat setiap dokumen berisi sejumlah kalimat yang mungkin akan saling overlap dalam dokumen lain. Jika sebuah frasa tampil di lebih dari satu dokumen, maka frekuensi dari kata unik yang membangun frasa tersebut akan bertambah. Pencocokan frasa antara dokumen sama artinya dengan menemukan shared paths dalam graf di dokumen yang berbeda. Representasi dokumen menggunakan Document Index Graph ditampilkan pada Gambar 2.

Gambar 2 Representasi dokumen dengan DIG (Hammouda 2004)

Metafile Penyusun Graf

Metafile penyusun graf dikenal dengan bahasa DOT. Bahasa DOT menggambarkan graf-graf berarah secara hirarki. Bahasa DOT dieksekusi sebagai sebuah program berbasis baris perintah (command line), memiliki layanan visualisasi berbasis web atau dengan aplikasi atau interface berbasis grafik. Bahasa DOT memiliki fitur merepresentasi algoritme untuk penempatan dan penggambaran hubungan node dan edge; pemberian label dari setiap edge; penggambaran struktur data; representasi cluster (Gansner 2006).

Precision, Recall dan Accuracy

Precision, recall dan accuracy digunakan pada pengukuran kinerja pada sebagian besar kajian pengenalan pola (pattern recognition) dan temu kembali informasi (information retrieval). Precision dan recall adalah dua perhitungan yang banyak digunakan untuk mengukur kinerja dari sistem/metode yang digunakan. Precision adalah tingkat ketepatan antara informasi yang diminta oleh pengguna dengan jawaban yang diberikan oleh sistem. Recall adalah tingkat keberhasilan sistem dalam menemukan kembali sebuah informasi. Accuracy didefinisikan sebagai tingkat kedekatan antara nilai prediksi dengan nilai aktual. Ilustrasi pada Gambar 3 memberikan gambaran perbedaan antara precision, recall dan accuracy.

Gambar 3 Perbedaan accuracy dan precision (Raharjo, 2011)

Pengukuran nilai precision, recall dan accuracy secara umum mengacu pada rumus pada Gambar 4 :

3 METODE

Metode penelitian metafile penyusun struktur digraf menggunakan algoritme Document Index Graph (DIG) terdiri atas beberapa tahapan yaitu tahap analisis masalah dan studi literatur dari penelitian terkait, tahap praproses data, tahap implementasi algoritme, tahap pembangkitan metafile, tahap representasi digraf dan tahap analisis output hasil pengelompokan. Metode penelitian dapat dilihat pada Gambar 5.

Mulai Analisa Masalah Studi Literatur Penelitian terkait Tokenisasi Stop-word removal Stemming Penetapan nilai jarak intercluster Penetapan nilai jarak intracluster Penetapan jumlah dokumen Konfigurasi Verteks dan Edge

Struktur digraf untuk dokumen tunggal Struktur digraf untuk dokumen gabungan Identifikasi klusterisasi yang dihasilkan Selesai

Praproses data Implementasi

Document Index Graph Pembangkitan _Metafile

Representasi Digraf

Analisis hasil klusterisasi

Gambar 5 Metode penelitian

Perlakuan pada penelitian ini adalah: jumlah dokumen yang digunakan untuk dokumen latih dan dokumen uji, term frequency threshold sebagai batas frekuensi kemunculan kata yang akan digunakan untuk pengelompokan dan outputmetafile yang dihasilkan. Faktor dan level penelitian ini ditampilkan pada Tabel 1.

Tabel 1 Faktor dan level penelitian

Faktor Level

Jumlah Dokumen Pengujian algoritme dilakukan pada 20 dokumen uji dan 50-100 dokumen latih Stemming Analisis Masalah Studi Literatur Penelitian Terkait Analisis hasil Clustering Konfigurasi

Pengukuran nilai precision, recall dan accuracy dilakukan pengujian terhadap 20, 25, 50 dan 100 dokumen latih

Term Frequent Threshold Batas kemunculan kata pada dokumen minimal 20 kali

Output metafile Menggunakan format bahasa DOT untuk penyusunan struktur digraf untuk dokumen tunggal dan dokumen gabungan

Analisis Masalah dan Studi Pustaka

Pada tahap ini dilakukan analisis dan studi pustaka terhadap permasalahan yang dihadapi. Permasalahan tersebut yaitu mengenai peningkatan volume data pada dokumen web yang berkembang saat ini meskipun format dokumen yang ditemukan telah terstruktur dengan baik. Fenomena tersebut dapat diatasi dengan melakukan teknik text mining dengan melakukan proses pengelompokan terhadap dokumen-dokumen web dengan merujuk pada pola-pola dan keterkaitan isi dalam dokumen-dokumen tersebut. Pengelolaan informasi dengan text mining memberikan gambaran dari topik dalam satu set besar dokumen tanpa harus membaca isi dokumen satu per satu. Hal ini dapat dilakukan dengan pengelompokan.

Pencarian dan pembelajaran mengenai literatur yang berkaitan dengan penelitian, yang dilakukan yaitu menerapkan algoritme pengelompokan yang mudah difahami baik secara input, proses maupun output. Salah satu algoritme yang telah dikembangkan dari penelitian sebelumnya adalah algoritme Document Index Graph (DIG). Literatur tersebut dapat berupa buku, jurnal, dan media yang dapat dibuktikan kebenarannya.

Tahap Praproses Data

Tahap praproses data mengubah bentuk asli data tekstual ke dalam struktur dokumen yang siap untuk proses data mining, dan telah dapat mengidentifikasi fitur teks yang paling signifikan yang dapat menentukan perbedaan di antara kategori- kategori tertentu (Srividhya 2010). Dengan kata lain, tahap ini adalah proses penggabungan sebuah dokumen baru ke dalam sistem temu kembali informasi dan menentukan fitur-fitur yang mewakili setiap kata untuk setiap fitur yang ada pada dokumen.

Data penelitian yang digunakan untuk pengujian pengelompokan menggunakan data REUTERS-21578. Data tersebut merupakan koleksi dari dokumen-dokumen yang pernah ditulis di REUTERS newswire (format SGML) pada tahun 1987. Dokumen- dokumen tersebut memiliki karakteristik data kategorikal dan disusun kembali dan dilakukan pengindeksan dalam beberapa kategori oleh para staf di Reuters (UCI KDDI Archive, 1999). Data berisi 21578 dokumen berita yang terbagi dalam 9603 data training, 3299 dokumen uji, dan 8676 dokumen yang tidak digunakan. Dokumen terdiri

atas 5 atribut yakni TOPICS, LEWISSPLIT, CGISPLIT, OLDID, NEWID. Pada kasus kategorisasi teks, data REUTERS-21578 terdiri atas 5 kategori berdasarkan isi dokumen yakni Exchange, Orgs, People, Places, Topics.

Tahapan praproses data dalam konteks text mining adalah sebagai berikut (Srividhya 2010) :

 Stop-word removal. Menghilangkan kata-kata yang sering digunakan tapi tidak memuat informasi yang signifikan (the, of, and, to)

 Stemming. Proses ini akan mencari kata dasar dari sebuah kata (user, used, users -> USE)

 Document index. Teknik pencarian keyword yang tepat dari setiap dokumen (pemodelan graf). Salah satu metode document index adalah term weighting. Term weighting adalah pembobotan kata pada setiap kemunculannya di setiap dokumen dan menunjukkan pentingnya kata tersebut (menghitung bobot node di setiap edge).  Dimentional reduction. Menentukan jumlah dokumen yang di dalamnya terdapat kata yang sering muncul dan menghilangkan kata yang jarang muncul. Jika kata yang muncul tidak melebihi n dokumen yang ditetapkan sebagai nilai threshold maka kata tersebut dapat dihilangkan.

Implementasi Algoritme Document Index Graph (DIG)

DIG merupakan algoritme pembangun digraf. Digraf yang dibangun merupakan graf berarah. Arah digraf menunjukkan struktur kalimat. Digraf yang dibangun merupakan komponen dari :

1. Node. Node berisi kata unik dari setiap kalimat dalam dokumen.

2. Edge. Merupakan penghubung antarnode. Pada edge terdapat informasi berupa nomor edge, posisi kata tersebut dalam kalimat dan dalam dokumen.

3. Path. Node pada digraf berisi informasi tentang kata unik dalam sebuah dokumen. Jalur atau path yang dibentuk oleh node dan edge merupakan representasi dari sebuah kalimat tertentu.

Algoritme Document Index Graph sebagai berikut (Hammouda 2004) : 1. Proses satu per satu kalimat pada setiap dokumen.

2. Setiap kata yang belum ada di dalam kumpulan digraf, maka akan ditambahkan sebagai node.

3. Jika kata sudah ada dalam kumpulan digraf, maka buat edge baru.

4. Untuk setiap kata yang bertetangga,hubungkan dengan edge.

5. Untuk mendapatkan matching phrase, buat daftar data dokumen-dokumen yang mempunyai edge yang serupa ke dalam sebuah tabel.

6. Jika matching phrase berikutnya mempunyai edge yang merupakan

kelanjutan dari edge sebelumnya, maka gabungkan pada matching

phrase sebelumnya.

7. Jika kata yang muncul tidak melebihi n dokumen yang ditetapkan sebagai nilai threshold maka kata tersebut dapat dihilangkan

Ilustrasi pembentukan digraf menggunakan algoritme DIG pada dokumen di bawah ini dapat dijelaskan dengan contoh isi dokumen dan gambar berikut :

 Dokumen a : river rafting, mild river rafting, river rafting trips  Dokumen b : wild river adventures, river rafting vacation plan

Dalam dokumen Web Document Clustering Through Metafile Generation for Digraph Structuring Using Document Index Graph Algorithm (Halaman 46-67)