Ekstraksi Konsep Dokumen - Perancangan Proses

BAB IV PERANCANGAN DAN IMPLEMENTASI

4.3 Perancangan Proses

4.3.1 Ekstraksi Konsep Dokumen

Proses ini berfungsi untuk melakukan ekstraksi konsep dari koleksi dokumen yang ada pada database. Proses ini memiliki dua tahapan utama yaitu ekstraksi kata kunci menggunakan metode Rapid Automatic Keyphrase Extraction, dan ekstraksi konsep menggunakan metode Latent Semantic

Analysis. Pada proses ini pengguna memasukkan parameter

berupa jumlah kata kunci teratas yang diambil pada tahap ekstraksi kata kunci menggunakan metode Rapid Automatic

Keyphrase Extraction.

Proses ekstraksi konsep dokumen pada perangkat lunak dimulai dengan tahap ekstraksi kata kunci menggunakan metode Rapid Automatic Keyphrase Extraction (RAKE). Kata kunci merupakan kata-kata yang dianggap penting apabila termasuk dalam peringkat 10 – 20 kata yang memiliki nilai skor terbesar dari sebuah dokumen. Setelah itu kata kunci dari seluruh dokumen tersebut dijadikan input pada tahap ekstraksi konsep dokumen menggunakan metode Latent Semantic

Analysisi (LSA). Hasil dari proses ini berupa konsep beserta

vektor konsep.

1. Ekstraksi kata kunci

Proses ekstraksi kata kunci menggunakan metode Rapid Automatic Keyphrase Extraction memilki 5 tahapan utama, yaitu ekstraksi kandidat kata kunci, menghitung matriks co-ocurrence, menghitung nilai rasio, menghitung nilai fitur dasar, memilih kata kunci dengan nilai fitur tertinggi. Langkah-langkah ekstraksi kata kunci sebagai berikut:

➢ Input : Dokumen Musrenbang ➢ Output : kata kunci

Langkah-langkah

1. Data teks stopword dan tanda baca di dokumen 2. Ubah seluruh huruf pada usulan kegiatan menjadi

huruf kecil

4. Pisahkan isi usulan kegiatan menurut tanda baca 5. Simpan seluruh kata dan frase sebagai kandidat

kata kunci

6. Hitung matriks co-occurrence tiap kata

7. Hitung frekuensi kemunculan setiap kata di dalam dokumen 𝑓𝑟𝑒𝑞(𝑤)

8. Hitung nilai degree setiap kata deg (𝑤) 9. Hitung nilai rasio kata, 𝑟𝑎𝑠𝑖𝑜(𝑤) = ^{deg (𝑤)}

𝑓𝑟𝑒𝑞(𝑤) setiap kata

10. Hitung nilai fitur setiap kandidat kata kunci dengan cara menambahkan milai rasio tiap kata yang ada pada kandidat kata kunci

11. Penggolongan kandidat frase kunci

12. Urutkan nilai fitur kandidat kata kunci dari kecil ke besar

Berikut langkah-langkah proses dari metode Rapid Automatic

Keyphrase Extraction (RAKE)

Tabel 4.2 Dokumen Sebelum diolah Usulan ID Usulan Kegiatan

44697 Pengurasan saluran air / got di Jln Rajawali Selatan I dan II RT 002, 03, 04, 006 RW 02 45023 Pengadaan sarana dan prasarana Posyandu

(almari) di RW.08 Kel. Jelambar

a. Ekstraksi Kandidat

Tahap ekstraksi kandidat akan dilakukan proses preprocessing data yang meliputi

1. Case Folding yaitu mengubah huruf besar menjadi huruf kecil, menghilangkan angka dan menghilangkan tanda baca

2. Filtring yaitu menghilangkan kata yang tidak penting (stopword)

3. Proses Tokenezing yang memisahkan kata berdasarkan tanda baca dan stopword

Tabel 4.3 Hasil Preprocessing

No Kandidat Kata Kunci

1 pengurasan saluran air 2 got 3 jln rajawali selatan 4 pengadaan sarana 5 prasarana posyandu 6 almari 7 kel 8 jelambar

b. Menghitung Matrik Co-Occurrence tiap kata

Setelah kandidat kata kunci didapatkan, langkah selanjutnya adalah menghitung matriks co-ocurrence. Matriks

co-ocurrence memetakan frekuensi kemunculan suatu kata dan

Tabel 4.4 Matrik Co-Occurrence dengan Usulan Id 44697

c. Menghiitung Rasio

Nilai rasio merupakan perbandingan antara derajat kata dengan frekuensi kata. Derajat kata adalah jumlah kemunculan kata pada dokumen ditambah jumlah frase yang mengandung kata tersebut. Derajat kata pada matriks co-ocurrence didapat dari penjumlahan satu kolom atau satu baris. Frekuensi kata adalah jumlah kemunculan kata dalam teks.

Tabel 4.5 Menghitung Rasio Term p en gu ras a n salu ran

air got jln raj

awali se lat an pengurasan 1 1 1 saluran 1 1 1 air 1 1 1 got 1 jln 1 1 1 rajawali 1 1 1 selatan 1 1 1 Term p en gu ras a n salu ran

air got jln raj

awali se lat an pengurasan 1 1 1 saluran 1 1 1 air 1 1 1 got 1 jln 1 1 1 rajawali 1 1 1 selatan 1 1 1 deg(w) 3 3 3 1 3 3 3 freq(w) 1 1 1 1 1 1 1 rasio 3 3 3 1 3 3 3

d. Menghitung Nilai Fitur Dasar (NFD)

Nilai fitur dasar merupakan nilai penjumlahan rasio kata yang ada pada kandidat kata kunci. Nilai tersebut kemudian diurutkan berdasarkan nilai tertinggi sampai terendah.

Tabel 4.6 Nilai Fitur Dasar

e. Pemilihan kandidat frase kunci dengan skor tertinggi Setelah kandidat kata kunci diberi nilai, selanjutnya dipilih sejumlah k. Berikut hasil RAKE dengan mengambil 2 kata kunci

Tabel 4.7 Kata Kunci

No Kata Kunci

1 pengurasan saluran air 2 jln rajawali selatan

Untuk dokumen dengan usulan id 45023 dilakukan langkah yang sama dengan usulan id 44697. Tabel 4.8 hasil kata kunci proses RAKE dengan mengambil 2 kata kunci.

Tabel 4.8 Kata Kunci

No Kata Kunci 1 prasarana posyandu 2 pengadaan sarana Term p en gu ras a n S alu ra n

air got jln raj

2. Pembentukan vektor konsep

Proses pembentukan vektor konsep menggunakan metode

Latent Semantic Analysis memilki 3 tahapan utama yaitu

membangun matriks kemunculan tiap kata kunci pada tiap dokumen, menghitung nilai invers document frequency (idf), dan mengaplikasikan metode Singular Value Decomposition pada matriks yang telah dibentuk. Langkah-langkah pembentukan vektor konsep adalah sebagai berikut:

➢ Input : dokumen dan kata kunci ➢ Output : konsep beserta vektor konsep ➢ Langkah-langkah:

1. Hitung frekuensi kemunculan kata kunci pada dokumen (tf)

2. Hitung jumlah koleksi dokumen yang ada (D)

3. Hitung jumlah dokumen yang mengandung kata kunci tersebut (df)

4. Hitung tf x (1 + log(D) – log(df)) yang merupakan nilai inverse document frequency (idf) setiap kata 5. Dekomposisi matriks invers document frequency (idf)

tersebut menjadi matriks U, matriks

Σ, serta matriks

V. Matriks U merupakan vektor kata kunci,

Matriks Σ merupakan vektor sigma, dan Matriks

V merupakan vektor dokumen

Hitung k =

√𝑗𝑢𝑚𝑙𝑎ℎ 𝑘𝑜𝑙𝑜𝑚 𝑚𝑎𝑡𝑟𝑖𝑘𝑠

yang

merupakan nilai batas pemotongan kolom pada

matriks U, Σ, dan V.

Kembalikan matriks ke bentuk awal dengan

mengalikan metrik U, Σ, dan 𝑉

𝑇

Simpan seluruh konsep beserta matriks barisnya

sebagai vektor konsep.

Gambar 4.3 Proses Pembentukan Vektor Konsep Berikut langkah-langkah proses dari metode Latent Semantic

Analysis yang meliputi proses TF-IDF dan Singular Value Decomposition.

a. Term frequency-invers document frequency (TF-IDF) Tahap awal proses TF-IDF adalah menghitung nilai TF yaitu jumlah kata yang muncul di dokumen. Matriks TF dari hasil ekstraksi 2 kata kunci dapat dilihat di Tabel 4.9.

Mulai Hitung D, tf, dan df kata kunci Dekomposisi matriks (SVD) menggunakan JAMA Hitung k Potong matriks U, S, V menjadi k kolom Hitung U*S*VT Hitung tf x (1 + log (D)

– log(df)) kata kunci

Selesai Database kata kunci Matriks idf Matriks U, S,V U, S, V Matriks Vektor Konsep U, S, V

Tabel 4.9 Matriks TF

Term D1 D2

pengurasan saluran air 1 jln rajawali selatan 1

prasarana posyandu 1

pengadaan sarana 1

Langkah selanjutnya dihitung pembobotan atau TF-IDF. Proses perhitungan pembobotan matriks ditampilkan sebagai berikut

𝑊_𝑖,𝑗= 𝑡𝑓_𝑖,𝑗 × 𝑖𝑑𝑓_𝑗= 𝑡𝑓_𝑖,𝑗 × log (^𝑁

𝑑𝑓_𝑗^{) + 1} Tabel 4.10 Perhitungan Bobot TF-IDF 𝑊₁₁= 1 x log (² 1^{) + 1} = 1 x (0.3010 + 1) = 1.3010 𝑊₁₂ = 0 𝑊₂₁= 1 x log (² 1^{) + 1} = 1 x (0.3010 + 1) = 1.3010 𝑊₂₂ = 0 𝑊₃₁ = 0 𝑊₃₂ = 1 x log (² 1^{) + 1} = 1 x (0.3010 + 1) = 1.3010 𝑊₄₁ = 0 𝑊₄₂ = 1 x log (² 1^{) + 1} = 1 x (0.3010 + 1) = 1.3010

Tabel 4.11 Bobot TF-IDF

D1 D2

pengurasan saluran air 1.301 0 jln rajawali selatan 1.301 0

prasarana posyandu 0 1.3010

pengadaan sarana 0 1.3010

Dalam dokumen PENGKLASTERAN LAPORAN ASPIRASI MASYARAKAT MENGGUNAKAN METODE SINGLE LINKAGE CLUSTERING DAN K-MEANS (Halaman 47-56)