4 HASIL DAN PEMBAHASAN
4.5 Kalimat Semantik
Asumsikan D adalah sebuah dokumen, D adalah banyaknya kata dalam D, dan adalah banyaknya kalimat dalam D. Matriks kata dapat dilihat pada (5.2), dengan E adalah kalimat ke-j dalam dokumen dan " adalah term ke-i yang muncul didalam dokumen. Pada penelitian ini menggunakan semua keyword yang ada dalam dokumen kecuali kata-kata stoplist.
'F 'F H H o 'oF I Q 'F I 'FQ 'F I 'FQ H J I 'F I 'oFQ (5.2)
dimana '"FE didefinisikan pada (5.3), dan " adalah banyaknya kemunculan term ke-i pada kalimat. K" sentences frequencyi merupakan banyak kalimat yang mengandung term ke-i, sedangkan LK" MNO PRSQ
TU merupakan ukuran diskriminan kemunculan term ke-i dalam dokumen, N adalah banyaknya kalimat dalam satu dokumen.
'"FE " V LKE (5.3) Perlakuan Singular Value Decomposition (SVD) diterapkan pada matriks Wdengan W XYZ, dengan X adalah matriks D V D vektor singular kiri, adalah matriks diagonal D V singular value, dan Y adalah matriks V vektor singular kanan. Fungsi utama dari SVD adalah mengurangi matriks yang besar menjadi matriks yang lebih kecil disebut sebagai reduksi dimensi. Kegunaan dari reduksi dimensi ini adalah mengurangi waktu komputasi tanpa menghilangkan makna dari matriks tersebut. Penelitian tetap mempertahankan dua dimensi sehingga nilai adalah 2. Penentuan nilai ini belum ada acuan yang jelas, dikarenakan masih dalam topik penelitian. Matriks reduksi berbentuk W XppYpZ . Berdasarkan nilai SVD, maka pemberian skor pada kalimat
dilakukan teknik (Berry & Dumais 1995), dikarenakan matriks adalah diagonal singular maka Z . Matrik V terdiri dari n baris, dimana baris tersebut merepresentasikan vektor kalimat, sehingga vektor kalimat dapat dilihat pada (5.4).
Y WZXppq (5.4)
Penelitian ini memodifikasi hasil Persamaan 5.4 dengan perkalian antar-matriks S*V (Baker 2005). Untuk mencari hubungan kemiripan antar kalimat digunakan Persamaan 5.5.
*F r (5.5) Sehingga akan terbentuk matriks kemiripan antar-kalimat yaitu:
*F *F H H Q *QF I Q *F I *F Q *F I *F Q H J I *QF I *QF Q
Vektor U merepresentasikan term yang ada pada suatu dokumen. Vektor S merupakan tingkat penciri dari matrik A. Proses pembobotan matrik A dilakukan pada tiap-tiap dokumen pelatihan dan dokumen pengujian. Proses SVD dilakukan setelah pembobotan telah dilakukan. Berikut ini contoh perhitungan kalimat semantik menggunakan proses SVD:
s1 : Pengiriman emas rusak karena kebakaran s2 : Pengiriman perak tiba di sebuah truk perak s3 : Pengiriman emas tiba di truk
Tabel 1 Term frequency dan inverse sentences frequency
S1 s2 s3 SF ISF emas 1 0 1 2 0.584963 kebakaran 1 0 0 1 1.584963 pengiriman 1 1 1 3 0 perak 0 2 0 1 1.584963 rusak 1 0 0 1 1.584963 tiba 0 1 1 2 0.584963 truk 0 1 1 2 0.584963
Matriks A dibentuk dari perkalian antara " V LK"s Pada Tabel 2 menunjukkan hasil pembobotan term pada tiap kalimat. Tahap selanjutnya adalah proses SVD dilakukan dengan tujuan mendapatkan vektor kalimat. Vektor kalimat ini yang digunakan sebagai perhitungan kemiripan antar kalimat.
Tabel 2 Pembobotan term pada kalimat s1 s2 s3 emas 0.584963 0 0.584963 kebakaran 1.584963 0 0 pengiriman 0 0 0 perak 0 3.169925 0 rusak 1.584963 0 0 tiba 0 0.584963 0.584963 truk 0 0.584963 0.584963
Tabel 3 Vektor kalimat
s1 0.0146 -3.2737
s2 2.3165 0.0228
s3 0.0685 -0.0748
Berdasarkan vektor kalimat, dilakukan perhitungan kemiripan antar kalimat menggunakan Persamaan 5.5, sehingga terbentuk matriks kemiripan, ditunjukkan pada Tabel 4. Hasil akhir dari proses kalimat semantik adalah kalimat 1 memiliki skor terendah dan kalimat 3 memiliki skor tertinggi, sehingga makna yang didapat bahwa kalimat 3 memiliki hubungan semantik yang tinggi, sedangkan kalimat 1 memiliki hubungan semantik yang rendah.
Tabel 4 Data matriks kemiripan
s1 s2 s3 Total skor
s1 1 -0.005 1.072 0.301013
s2 -0.005 1 0.866 0.271028
s3 1.072 0.866 1 0.427959
jumlah 2.06668161 1.861 2.938 6.865746
4.6 Pemodelan Algoritme Genetika
Pemodelan algoritme genetika dilakukan pada tahap pelatihan dengan lima percobaan. Pemodelan algoritme genetika dilakukan terhadap compression rate (CR) 10%, CR 20%, dan CR 30%. Tujuan dari pemodelan algoritme genetika adalah menentukan bobot yang optimal pada tiap-tiap fitur teks. Hasil dari pemodelan algoritme genetika berupa model kromosom terbaik dari CR 10%,
CR 20%, dan CR 30%. Model-model kromosom tersebut digunakan pada tahap pengujian. Pemodelan algoritme genetika terdiri beberapa bagian yaitu:
1. Representasi kromosom
Salah satu komponen penting pada algoritme genetika adalah kromosom. Kromosom pada pemodelan algoritme genetika direpresentasikan sebagai gen yang berisi nilai bobot fitur teks dalam bentuk 'F 'F I F '. Nilai bobot tersebut dihasilkan dari proses acak antara 0 sampai 1 dan dilakukan proses normalisasi agar jumlah bobot bernilai 1. Bentuk representasi kromosom ditunjukkan pada Gambar 14.
Gambar 14 Representasi kromosom. 2. Penentuan nilai awal
Penentuan nilai awal pada pemodelan algoritme genetika terdiri atas 1000 kromosom untuk tiap populasi, 250 generasi, peluang pindah silang adalah 0.88, dan peluang mutasi adalah 0.2 sedangkan penentuan peluang pindah silang dan peluang mutasi ditentukan berdasarkan eksperimental.
3. Fungsi evaluasi
Pada tahap pelatihan, proses evaluasi pada algoritme genetika berfungsi sebagai evaluasi tingkat akurasi irisan antara ringkasan oleh sistem dan manual, ditunjukkan pada Persamaan 5.2. Proses fungsi evaluasi adalah sebagai berikut:
- Pada satu generasi, sebuah kromosom yang berisi gen ('F 'F I F ') diterapkan pada setiap kalimat pada dokumen pelatihan dan pengujian. Namun pada tahap pengujian hanya digunakan model kromosom yang terbaik yang didapat pada tahap pelatihan.
- Skor(S) = '% g '% g '% . g '% 0 g '5% 6 g ':% ; g '/% < g '=% > g '9% ? g '8% C g '%
- Skor kalimat dilakukan pada tiap dokumen pelatihan dan pengujian, diurutkan secara descending.
- Ringkasan dari sistem berdasarkan pada proses pemampatan atau compression rate (CR) sebesar 10%, 20 %, dan 30%, artinya bahwa banyaknya kalimat pada tiap dokumen dikalikan dengan CR 10%, CR 20%, dan CR 30%.
- Hasil ringkasan dari sistem dievaluasi dengan ringkasan manual (5.1), sehingga menghasilkan akurasi atau F-measure dari tiap dokumen. - F-measure pada sebuah kromosom adalah rata-rata F-measure atau nilai
akurasi dari seluruh dokumen pelatihan.
- Setiap satu generasi, diambil empat kromosom terbaik dan dikembalikan kedalam populasi.
4. Seleksi kromosom
Proses seleksi kromosom pada pemodelan algoritme genetika didasari oleh F-measure dari tiap-tiap kromosom, bila F-F-measure di bawah batas minimum maka kromosom tersebut tidak akan diseleksi. Penelitian ini tidak menggunakan F-measure statis, artinya batas minimun F-F-measure yang diciptakan berdasarkan nilai terendah F-measure terbaik dari masing-masing generasi atau tiap iterasi. Jumlah F-measure terbaik dari masing-masing generasi ditentukan berdasarkan jumlah kromosom dibagi dengan jumlah iterasi.
5. Proses pindah silang
Proses pindah silang terjadi jika peluang yang dihasilkan lebih kecil dibandingkan peluang pindah silang. Pada penelitian ini, gen yang mengalami pindah silang diantara gen nomor 1 ' sampai gen nomor 11 ' dan diseleksi secara acak. Pertukaran antar kromosom dilakukan pada titik gen yang telah diseleksi secara acak. Pertukaran antar kromosom ini bertujuan untuk mendapat kromosom yang terbaik. Nilai gen ditentukan berdasarkan nilai acak diantara nol sampai satu. Nilai gen yang mengalami pindah silang akan dinormalisasi kembali dengan tujuan menjaga nilai gen dalam kromosom berjumlah satu. Gambar 15 menunjukkan proses pindah silang antar dua induk. 6. Proses mutasi
Proses mutasi terjadi jika peluang yang dihasilkan lebih kecil dibandingkan peluang mutasi. Gen yang dimutasi adalah gen yang berada diantara gen nomor 1 ' sampai gen nomor 11 ' sedangkan nilai gen ditentukan berdasarkan
nilai acak diantara nol sampai satu dan dilakukan secara acak. Mutasi gen hanya berjumlah satu. Nilai gen yang mengalami mutasi akan dinormalisasi kembali dengan tujuan menjaga nilai gen dalam kromosom berjumlah satu. Pada Gambar 16 menunjukkan diagram alir proses mutasi.
Gambar 15 Diagram alir proses pindah silang antar dua induk.
Gambar 16 Diagram alir proses mutasi. 7. Model kromosom terbaik
Proses algoritme genetika dimulai dari penentuan nilai awal, evaluasi fitness, proses pindah silang, sampai proses mutasi. Pada penelitian ini, proses algoritme genetika berhenti jika nilai generasi telah mencapai 250, diasumsikan bahwa jika
iterasi selesai maka didapat model kromosom yang terbaik. Model kromosom terbaik ini yang akan digunakan sebagai bobot yang optimal pada tahap pengujian. Pada Tabel 5 menunjukkan hasil model kromosom terbaik pada CR 30% untuk 10 fitur dan 11 fitur.
Tabel 5 Contoh model kromosom terbaik untuk CR 30%
' ' ' ' '5 ': '/ '= '9 '8 '
10 fitur 0.008 0.039 0.000 0.086 0.506 0.012 0.089 0.207 0.049 0.004 0.000
11 fitur 0.060 0.056 0.000 0.225 0.428 0.050 0.055 0.003 0.016 0.051 0.056