BAB IV PERANCANGAN DAN IMPLEMENTASI
4.3 Perancangan Proses
4.3.1 Ekstraksi Konsep Dokumen
Proses ini berfungsi untuk melakukan ekstraksi konsep dari koleksi dokumen yang ada pada database. Proses ini memiliki dua tahapan utama yaitu ekstraksi kata kunci menggunakan metode Rapid Automatic Keyphrase Extraction, dan ekstraksi konsep menggunakan metode Latent Semantic
Analysis. Pada proses ini pengguna memasukkan parameter
berupa jumlah kata kunci teratas yang diambil pada tahap ekstraksi kata kunci menggunakan metode Rapid Automatic
Keyphrase Extraction.
Proses ekstraksi konsep dokumen pada perangkat lunak dimulai dengan tahap ekstraksi kata kunci menggunakan metode Rapid Automatic Keyphrase Extraction (RAKE). Kata kunci merupakan kata-kata yang dianggap penting apabila termasuk dalam peringkat 10 – 20 kata yang memiliki nilai skor terbesar dari sebuah dokumen. Setelah itu kata kunci dari seluruh dokumen tersebut dijadikan input pada tahap ekstraksi konsep dokumen menggunakan metode Latent Semantic
Analysisi (LSA). Hasil dari proses ini berupa konsep beserta
vektor konsep.
1. Ekstraksi kata kunci
Proses ekstraksi kata kunci menggunakan metode Rapid Automatic Keyphrase Extraction memilki 5 tahapan utama, yaitu ekstraksi kandidat kata kunci, menghitung matriks co-ocurrence, menghitung nilai rasio, menghitung nilai fitur dasar, memilih kata kunci dengan nilai fitur tertinggi. Langkah-langkah ekstraksi kata kunci sebagai berikut:
➢ Input : Dokumen Musrenbang ➢ Output : kata kunci
Langkah-langkah
1. Data teks stopword dan tanda baca di dokumen 2. Ubah seluruh huruf pada usulan kegiatan menjadi
huruf kecil
4. Pisahkan isi usulan kegiatan menurut tanda baca 5. Simpan seluruh kata dan frase sebagai kandidat
kata kunci
6. Hitung matriks co-occurrence tiap kata
7. Hitung frekuensi kemunculan setiap kata di dalam dokumen 𝑓𝑟𝑒𝑞(𝑤)
8. Hitung nilai degree setiap kata deg (𝑤) 9. Hitung nilai rasio kata, 𝑟𝑎𝑠𝑖𝑜(𝑤) = deg (𝑤)
𝑓𝑟𝑒𝑞(𝑤) setiap kata
10. Hitung nilai fitur setiap kandidat kata kunci dengan cara menambahkan milai rasio tiap kata yang ada pada kandidat kata kunci
11. Penggolongan kandidat frase kunci
12. Urutkan nilai fitur kandidat kata kunci dari kecil ke besar
Berikut langkah-langkah proses dari metode Rapid Automatic
Keyphrase Extraction (RAKE)
Tabel 4.2 Dokumen Sebelum diolah Usulan ID Usulan Kegiatan
44697 Pengurasan saluran air / got di Jln Rajawali Selatan I dan II RT 002, 03, 04, 006 RW 02 45023 Pengadaan sarana dan prasarana Posyandu
(almari) di RW.08 Kel. Jelambar
a. Ekstraksi Kandidat
Tahap ekstraksi kandidat akan dilakukan proses preprocessing data yang meliputi
1. Case Folding yaitu mengubah huruf besar menjadi huruf kecil, menghilangkan angka dan menghilangkan tanda baca
2. Filtring yaitu menghilangkan kata yang tidak penting (stopword)
3. Proses Tokenezing yang memisahkan kata berdasarkan tanda baca dan stopword
Tabel 4.3 Hasil Preprocessing
No Kandidat Kata Kunci
1 pengurasan saluran air 2 got 3 jln rajawali selatan 4 pengadaan sarana 5 prasarana posyandu 6 almari 7 kel 8 jelambar
b. Menghitung Matrik Co-Occurrence tiap kata
Setelah kandidat kata kunci didapatkan, langkah selanjutnya adalah menghitung matriks co-ocurrence. Matriks
co-ocurrence memetakan frekuensi kemunculan suatu kata dan
Tabel 4.4 Matrik Co-Occurrence dengan Usulan Id 44697
c. Menghiitung Rasio
Nilai rasio merupakan perbandingan antara derajat kata dengan frekuensi kata. Derajat kata adalah jumlah kemunculan kata pada dokumen ditambah jumlah frase yang mengandung kata tersebut. Derajat kata pada matriks co-ocurrence didapat dari penjumlahan satu kolom atau satu baris. Frekuensi kata adalah jumlah kemunculan kata dalam teks.
Tabel 4.5 Menghitung Rasio Term p en gu ras a n salu ran
air got jln raj
awali se lat an pengurasan 1 1 1 saluran 1 1 1 air 1 1 1 got 1 jln 1 1 1 rajawali 1 1 1 selatan 1 1 1 Term p en gu ras a n salu ran
air got jln raj
awali se lat an pengurasan 1 1 1 saluran 1 1 1 air 1 1 1 got 1 jln 1 1 1 rajawali 1 1 1 selatan 1 1 1 deg(w) 3 3 3 1 3 3 3 freq(w) 1 1 1 1 1 1 1 rasio 3 3 3 1 3 3 3
d. Menghitung Nilai Fitur Dasar (NFD)
Nilai fitur dasar merupakan nilai penjumlahan rasio kata yang ada pada kandidat kata kunci. Nilai tersebut kemudian diurutkan berdasarkan nilai tertinggi sampai terendah.
Tabel 4.6 Nilai Fitur Dasar
e. Pemilihan kandidat frase kunci dengan skor tertinggi Setelah kandidat kata kunci diberi nilai, selanjutnya dipilih sejumlah k. Berikut hasil RAKE dengan mengambil 2 kata kunci
Tabel 4.7 Kata Kunci
No Kata Kunci
1 pengurasan saluran air 2 jln rajawali selatan
Untuk dokumen dengan usulan id 45023 dilakukan langkah yang sama dengan usulan id 44697. Tabel 4.8 hasil kata kunci proses RAKE dengan mengambil 2 kata kunci.
Tabel 4.8 Kata Kunci
No Kata Kunci 1 prasarana posyandu 2 pengadaan sarana Term p en gu ras a n S alu ra n
air got jln raj
awali se lat an pengurasan 1 1 1 saluran 1 1 1 air 1 1 1 got 1 jln 1 1 1 rajawali 1 1 1 selatan 1 1 1 deg(w) 3 3 3 1 3 3 3 freq(w) 1 1 1 1 1 1 1 rasio 3 3 3 1 3 3 3 NFD 3 + 3 + 3 = 9 1 3 + 3 + 3 = 9
2. Pembentukan vektor konsep
Proses pembentukan vektor konsep menggunakan metode
Latent Semantic Analysis memilki 3 tahapan utama yaitu
membangun matriks kemunculan tiap kata kunci pada tiap dokumen, menghitung nilai invers document frequency (idf), dan mengaplikasikan metode Singular Value Decomposition pada matriks yang telah dibentuk. Langkah-langkah pembentukan vektor konsep adalah sebagai berikut:
➢ Input : dokumen dan kata kunci ➢ Output : konsep beserta vektor konsep ➢ Langkah-langkah:
1. Hitung frekuensi kemunculan kata kunci pada dokumen (tf)
2. Hitung jumlah koleksi dokumen yang ada (D)
3. Hitung jumlah dokumen yang mengandung kata kunci tersebut (df)
4. Hitung tf x (1 + log(D) – log(df)) yang merupakan nilai inverse document frequency (idf) setiap kata 5. Dekomposisi matriks invers document frequency (idf)
tersebut menjadi matriks U, matriks
Σ, serta matriks
V. Matriks U merupakan vektor kata kunci,
Matriks Σ merupakan vektor sigma, dan Matriks
V merupakan vektor dokumen
6.
Hitung k =
√𝑗𝑢𝑚𝑙𝑎ℎ 𝑘𝑜𝑙𝑜𝑚 𝑚𝑎𝑡𝑟𝑖𝑘𝑠yang
merupakan nilai batas pemotongan kolom pada
matriks U, Σ, dan V.
7.
Kembalikan matriks ke bentuk awal dengan
mengalikan metrik U, Σ, dan 𝑉
𝑇8.
Simpan seluruh konsep beserta matriks barisnya
sebagai vektor konsep.
Gambar 4.3 Proses Pembentukan Vektor Konsep Berikut langkah-langkah proses dari metode Latent Semantic
Analysis yang meliputi proses TF-IDF dan Singular Value Decomposition.
a. Term frequency-invers document frequency (TF-IDF) Tahap awal proses TF-IDF adalah menghitung nilai TF yaitu jumlah kata yang muncul di dokumen. Matriks TF dari hasil ekstraksi 2 kata kunci dapat dilihat di Tabel 4.9.
Mulai Hitung D, tf, dan df kata kunci Dekomposisi matriks (SVD) menggunakan JAMA Hitung k Potong matriks U, S, V menjadi k kolom Hitung U*S*VT Hitung tf x (1 + log (D)
– log(df)) kata kunci
Selesai Database kata kunci Matriks idf Matriks U, S,V U, S, V Matriks Vektor Konsep U, S, V
Tabel 4.9 Matriks TF
Term D1 D2
pengurasan saluran air 1 jln rajawali selatan 1
prasarana posyandu 1
pengadaan sarana 1
Langkah selanjutnya dihitung pembobotan atau TF-IDF. Proses perhitungan pembobotan matriks ditampilkan sebagai berikut
𝑊𝑖,𝑗= 𝑡𝑓𝑖,𝑗 × 𝑖𝑑𝑓𝑗= 𝑡𝑓𝑖,𝑗 × log (𝑁
𝑑𝑓𝑗) + 1 Tabel 4.10 Perhitungan Bobot TF-IDF 𝑊11= 1 x log (2 1) + 1 = 1 x (0.3010 + 1) = 1.3010 𝑊12 = 0 𝑊21= 1 x log (2 1) + 1 = 1 x (0.3010 + 1) = 1.3010 𝑊22 = 0 𝑊31 = 0 𝑊32 = 1 x log (2 1) + 1 = 1 x (0.3010 + 1) = 1.3010 𝑊41 = 0 𝑊42 = 1 x log (2 1) + 1 = 1 x (0.3010 + 1) = 1.3010
Tabel 4.11 Bobot TF-IDF
D1 D2
pengurasan saluran air 1.301 0 jln rajawali selatan 1.301 0
prasarana posyandu 0 1.3010
pengadaan sarana 0 1.3010