• Tidak ada hasil yang ditemukan

IMPLEMENTASI DAN PEMBAHASAN

4.3. Pengujian Sistem 1. Data

Sebelum melalui proses klasifikasi, data yaitu 95 artikel ilmiah teknologi informasi berbahasa Indonesia sudah dibagi menjadi data latih dan data uji. Data latih dalam penelitian ini menggunakan 76 artikel ilmiah dengan total 10.622 kalimat dengan distribusi label rhetorical role seperti terlihat pada Tabel 4.1.

Tabel 4.1. Distribusi Label Data Latih

Label Jumlah Kalimat

Background 360

Topic 196

Method 499

Dataset 133

Result 470

Conclusion 304

Suggestion 101

Others 8558

Tabel 4.2. Distribusi Label Data Uji

Label Jumlah Kalimat

Background 129

Topic 43

Method 127

Dataset 44

Result 122

Conclusion 87

Suggestion 23

Others 2335

32

Sisanya sebanyak 19 artikel dengan total 2910 kalimat disimpan sebagai data uji.

Distribusi label yang diberikan secara manual untuk data uji dapat dilihat pada Tabel 4.2. Rata-rata tiap artikel berisi 153 kalimat.

Kalimat-kalimat dalam tiap artikel diubah menjadi huruf kecil (lowercasing), lalu seluruh tanda baca pada kalimat dihapus, diikuti dengan penghapusan angka dengan regex (r'\w*\d+\w*') dan penghapusan kata-kata yang dianggap sebagai noise.

Penelitian ini tidak serta-merta menghapus seluruh stopwords seperti yang terkandung dalam library yang ada. Noise yang dihapus hanya 'i', 'ii', 'iii', 'iv', 'v', 'vi', 'tabel', 'gambar', 'yang', 'dan', 'atau'. Seperti terlihat pada Gambar 4.5., kalimat-kalimat di bagian kanan tidak lagi mengandung angka, tanda baca, atau kata-kata yang termasuk dalam noise yang telah ditentukan.

Gambar 4.5. Beberapa kalimat hasil pembersihan (kiri: kalimat asli, kanan: kalimat telah diolah)

4.3.2. Klasifikasi Kalimat

Klasifikasi biner menggunakan SVM ini bertujuan untuk memilih kumpulan kalimat yang dihapus atau kumpulan kalimat yang dapat digunakan dalam ringkasan. Fitur yang digunakan adalah bobot kalimat dan bobot heading kalimat. Bobot didapatkan dengan TF-IDF vectorizer dengan kisaran n-gram [1,2] untuk kolom kalimat.

Seperti terlihat pada Tabel 4.2., dua percobaan parameter telah dilakukan dan akhirnya digunakan kernel RBF dengan nilai C sebesar 100. Karena distribusi data yang tidak seimbang, ditambahkan pula parameter class_weight='balanced' untuk menyeimbangkannya.

Tabel 4.2. Nilai akurasi klasifikasi dengan parameter yang berbeda Dokumen

Rata-rata 82.89421053 85.19368421

34

Dengan parameter tetap yang telah dipilih, didapatkan rata-rata nilai akurasi sebesar 0.853, presisi 0.72, recall 0.46, dan F1-score 0.55 dengan rincian hasil seperti yang terpapar dalam Tabel 4.3. Nilai presisi yang cukup tinggi berarti model ini telah dapat memberikan hasil yang relevan dengan cukup baik (hasil True Positive tinggi, False Positive rendah). Namun nilai recall di bawah 0.5 menandakan tingkat False Negative yang masih lebih tinggi daripada True Positive.

Tabel 4.3. Rincian Hasil Klasifikasi untuk Klasifikasi Kalimat No.

Dokumen Accuracy Precision Recall F1-Score

1 0.87 0.42 0.26 0.32

Rata-rata 0.853 0.72 0.46 0.55

Rata-rata kalimat yang diambil dari proses ini berjumlah 19 kalimat dari rata-rata jumlah kalimat dalam dokumen sebanyak 153. Sehingga proses ini dapat memangkas 84% keseluruhan dokumen.

4.3.3. Pelabelan Rhetorical Role Kalimat

Pelabelan kalimat adalah masalah klasifikasi multiclass yang dalam penelitian ini diselesaikan dengan SVM one-vs-rest (ovr). Seperti tahap sebelumnya, fitur yang digunakan adalah bobot kalimat dan bobot heading kalimat. Bobot didapatkan dengan TF-IDF vectorizer dengan kisaran n-gram [1,2] untuk kolom kalimat.

Beberapa percobaan parameter telah dilakukan dan akhirnya digunakan kernel yang RBF dengan nilai C sebesar 1000 dan gamma sebesar 0.005. Nilai gamma yang rendah memberikan model dengan varian tinggi karena titik-titik yang jauh juga ikut mempengaruhi keputusan. Model dengan nilai C yang besar memiliki margin yang lebih ketat atau dengan kata lain memperkecil lebar margin. Sama seperti tahap sebelumnya, karena distribusi data yang tidak seimbang ditambahkan pula parameter class_weight='balanced' untuk menyeimbangkannya.

Dengan parameter tetap yang telah dipilih, didapatkan rata-rata akurasi sebesar 65.87%. Beberapa parameter lain telah dicoba dan hasilnya telah dituliskan dalam Tabel 4.4.

Tabel 4.4. Nilai akurasi klasifikasi dengan parameter-parameter yang dicoba Dokumen

36

Tabel 4.4. Nilai akurasi klasifikasi …(lanjutan)

15 68.42 63.16 63.16 68.42 73.68

16 41.67 42.86 42.86 42.86 64.29

17 60.87 73.68 84.21 84.21 73.68

18 80 81.48 81.48 81.48 81.48

19 36.67 52.63 52.63 57.89 52.63

Rata-rata 46.14 53.83 55.13 60.73 65.87

Pada Tabel 4.5. dapat dilihat distribusi hasil pelabelan kalimat dalam tiap dokumen.

Label yang jarang didapatkan adalah DATASET dan SUGGESTION karena jumlah sampelnya yang benar-benar kecil baik pada data latih maupun data uji, seperti yang terlihat sebelumnya pada Tabel 4.1. dan Tabel 4.2. Sedangkan kategori yang memiliki jumlah sampel yang lebih banyak lebih mudah untuk diklasifikasi. Hal ini akan berpengaruh kepada pembentukan ringkasan karena akan menyebabkan kategori-kategori yang bersangkutan tidak memuat kalimat apapun atau berpotensi mengambil kalimat yang salah.

Tabel 4.5. Distribusi Hasil Pelabelan Kalimat

No. Dok BACK TOPIC MET DATA RES CON SUG

1 4 1 0 0 3 1 0

2 3 1 2 0 6 10 1

3 0 0 0 0 3 3 0

4 1 4 2 0 2 6 2

5 1 1 3 1 5 4 0

6 5 2 3 0 1 2 0

7 1 1 7 0 7 0 0

8 3 3 2 0 0 3 0

9 4 0 2 0 14 4 4

10 4 1 4 0 7 3 0

11 1 1 0 0 1 2 3

12 2 2 0 0 8 2 3

Tabel 4.5. Distribusi Hasil Pelabelan Kalimat (lanjutan)

4.3.4. Pemeringkatan Kalimat

Setelah kalimat-kalimat selesai diklasifikasi ke dalam rhetorical role paling sesuai, tiap koleksi rhetorical role perlu diambil beberapa kalimat teratas saja agar ringkasan akhir tidak terlalu panjang. Dalam penelitian ini, ketentuan yang diberikan adalah jika suatu kategori memuat 10 atau lebih kalimat, maka diambil 40% kalimat teratas. Jika suatu kategori memuat lebih dari 2 dan lebih sedikit dari 10, maka diambil 50% kalimat teratas. Jika suatu kategori hanya memuat 1 atau 2 kalimat, maka tidak perlu dilakukan pemeringkatan terhadap kategori tersebut. Pada Tabel 4.6. merupakan hasil pemeringkatan kalimat salah satu dokumen uji yang telah diurutkan dari nilai tertinggi hingga terendah per kategorinya.

Tabel 4.6. Hasil Pemeringkatan Kalimat Dokumen No. 17

Rhetorical Role Token Kata dari Kalimat Nilai Textrank (tinggi – rendah)

38

Tabel 4.6. Hasil Pemeringkatan Kalimat Dokumen No. 17 (lanjutan) 'akan', 'dihitung', 'ciri', 'ciri', 'statistik',

'pada', 'arah', 'glcm', 'arah', 'glcm', 'arah'

Tabel 4.6. Hasil Pemeringkatan Kalimat Dokumen No. 17 'yaitu', 'sebesar', 'khusus', 'pada', 'arah',

'akurasi', 'klasifikasi', 'diperoleh',

'glcm', 'arah', 'dengan', 't', 'tamf', 'yaitu', 'sebesar', 'pada', 'glcm', 'arah',

'dengan', 't', 'tamf', 'yaitu', 'sebesar'

0.21776360404771378

Setelah nilai Textrank tiap kalimat didapatkan dan diurutkan, diambil n kalimat teratas sesuai ketentuan berdasarkan banyaknya kalimat per kategori. Namun, masih ada beberapa kalimat yang serupa dan masuk ke dalam hasil ringkasan akhir, sehingga menjadikan ringkasan tersebut terliht redundan. Untuk itu setelah pemeringkatan dilakukan penghapusan kalimat duplikat dengan bantuan difflib. Seperti Gambar 4.6.

dokumen nomor 10, kalimat-kalimat seperti itu sebaiknya dibuang salah satunya karena tidak relevan dan redundan. Namun pada dokumen nomor 12, kalimat-kalimat yang tersaring tidak terlalu mirip, saling melengkapi satu sama lain, dan bahkan memuat informasi yang cukup relevan untuk ringkasan.

40

4.3.5. Hasil

Kalimat-kalimat teratas pada pemeringkatan Textrank disusun berdasarkan kemunculan di dokumen aslinya hingga menghasilkan ringkasan yang gambaran formatnya dapat dilihat pada Gambar 4.2. Ringkasan-ringkasan yang dihasilkan kemudian dievaluasi dengan pertanyaan yang digunakan pada saat pelabelan secara manual, yaitu:

1. (BAC) Masalah apakah yang melatarbelakangi penelitian ini?

2. (TOP) Hal apakah yang dibahas/apa yang dilakukan?

3. (MET) Metode apakah yang digunakan/tahapan-tahapan apa yang dilakukan?

4. (DAT)Dataset apakah yang digunakan?

5. (RES) Hasil apakah yang didapatkan?

6. (CON) Kesimpulan apakah yang dapat diambil/penemuan apa yang didapat dari penelitian ini?

7. (SUG) Saran apakah yang diberikan untuk penelitian lebih lanjut?

Pertanyaan-pertanyaan di atas dijawab dengan angka -1 jika informasi yang dimuat tidak relevan dengan kategorinya, 0 jika kategori tidak memuat kalimat apapun, 0.5 terdapat kalimat yang tidak relevan di antara kalimat yang relevan dalam suatu

Gambar 4.6. Contoh kalimat serupa yang tersaring difflib

kategori atau jika kalimat-kalimatnya tidak cukup menjawab pertanyaan, dan nilai 1 jika seluruh kalimat yang dimuat relevan dengan kategori yang memuatnya. Menjawab pertanyaan-pertanyaan di atas, diperoleh hasil pada Tabel 4.7.

Tabel 4.7. Hasil Evaluasi Ringkasan dengan Pertanyaan Pelabelan No.

Seperti yang telah dibahas sebelumnya bahwa kinerja pelabelan akan berpengaruh pada hasil ringkasan yang dihasilkan. Pada label DAT hanya dua dokumen yang memuat kalimat dataset yang relevan dan sesuai, sedangkan dokumen lainnya lebih banyak tidak memuat kalimat apapun, dan sisanya memuat kalimat yang tidak sesuai (nilai -1). Hal yang serupa juga tampak pada label SUG. Kategori yang paling mudah diklasifikasi dan banyak memuat kalimat yang sesuai adalah RES. Kategori RES memiliki cukup banyak sampel untuk sistem menangkap polanya sehingga dapat mengklasifikasinya dengan lebih baik. Kategori MET juga memiliki banyak sampel namun hasilnya tidak sebaik

42

RES karena pola kalimat-kalimat yang menerangkan metode sangat beragam dan letaknya tersebar hampir di seluruh dokumen.

Gambar 4.7. menampilkan hasil ringkasan salah satu dokumen uji, yaitu dokumen nomor 12. Kalimat kedua pada BACKGROUND menjawab pertanyaan masalah yang melatarbelakangi penelitiannya sehingga diberi nilai 1 yaitu sesuai. Kalimat pada TOPIC juga menerangkan dengan baik apa yang dibahas dalam penelitiannya dan apa yang ingin dibuat. Kalimat pada RESULT langsung menjawab dengan baik bahwa hasil terbaik diberikan oleh metode SVM walaupun diawali dengan kata sambung sehingga jika digabungkan dengan kategori sebelumnya dapat membentuk susunan kalimat yang rancu. Bagian CONCLUSION menyebutkan dengan baik temuannya. Pada bagian SUGGESTION, saran sudah terpapar dengan baik walaupun terdapat konteks yang hilang pada kalimat pertama di bagian “value tersebut”.

Gambar 4.7. Hasil Ringkasan Dokumen No. 12

Berbeda dengan hasil ringkasan sebelumnya, hasil ringkasan pada Gambar 4.8.

berhasil menangkap kalimat DATASET dan kalimat yang diambil pun relevan dan sesuai. Bagian TOPIC dan METHOD hampir memberikan jawaban yang sesuai, sehingga hanya diberikan nilai 0.5. Diharapkan pada bagian METHOD pengguna dapat mengetahui algoritman yang digunakan dalam penelitian tersebut. Pada hal peneltiian ini, misalnya, metode yang digunakan adalah “metode ekstraksi ciri GLCM 4 arah...”

Gambar 4.8. Hasil Ringkasan Dokumen No. 17

Pada Gambar 4.9. dan Gambar 4.10. terlihat kalimat yang kurang sesuai dimuat dalam beberapa kategori. Misalnya kalimat pada Gambar 4.9. bagian CONCLUSION seharusnya dilabeli BACKGROUND karena masih bercerita tentang masalah yang melatarbelakangi penelitian. Sementara kalimat pada Gambar 4.10 bagian DATASET lebih sesuai dilabeli TOPIC karena cenderung memaparkan fokus penelitian walaupun terdapat komponen dataset di dalamnya. Selain distribusi label yang kurang seimbang, kalimat-kalimat yang berpotensi memuat dua label seperti ini juga mempengaruhi kinerja sistem. Kategori-kategori yang paling berpotensi tumpang-tindih adalah RESULT dan CONCLUSION karena banyak penulis yang menulis kesimpulan

44

bersamaan dengan hasil dalam satu kalimat. Hal yang sama juga berpotensi untuk terjadi pada kategori TOPIC dan METHOD dimana umum ditemukan kalimat seperti

“Pada penelitian ini akan dilakukan … dengan menggunakan metode …”

Gambar 4.9. Hasil Ringkasan Dokumen No. 19

Gambar 4.10. Hasil Ringkasan Dokumen No. 5

BAB 5

Dokumen terkait