• Tidak ada hasil yang ditemukan

IMPLEMENTASI INDOBERT-LITE DAN ROBERTA UNTUK TEXT MINING PADA APLIKASI CHATBOT JACOB SKRIPSI

N/A
N/A
Protected

Academic year: 2021

Membagikan "IMPLEMENTASI INDOBERT-LITE DAN ROBERTA UNTUK TEXT MINING PADA APLIKASI CHATBOT JACOB SKRIPSI"

Copied!
15
0
0

Teks penuh

(1)

IMPLEMENTASI INDOBERT-LITE DAN ROBERTA UNTUK

TEXT MINING PADA APLIKASI CHATBOT JACOB

SKRIPSI

Diajukan sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer (S.Kom.)

(2)

LEMBAR PENGESAHAN

IMPLEMENTASI INDOBERT-LITE DAN ROBERTA UNTUK TEXT MINING PADA APLIKASI CHATBOT JACOB

Oleh

Nama : Benny Richardson

NIM : 00000019860

Program Studi : Informatika

Fakultas : Fakultas Teknologi dan Informasi

Tangerang, 21 Juni 2021 Ketua Sidang

Dennis Gunawan, S.Kom., M.Sc.

Dosen Penguji

Alethea Suryadibrata, S.Kom., M.Eng. Dosen Pembimbing

Arya Wicaksana, S.Kom., M.Eng.Sc. Mengetahui,

Ketua Program Studi Informatika

Marlinda Vasty Overbeek, S.Kom., M.Kom.

(3)

PERNYATAAN TIDAK MELAKUKAN PLAGIAT

Dengan ini saya,

Nama : Benny Richardson

NIM : 00000019860

Program Studi : Informatika

Fakultas : Teknik dan Informatika

menyatakan bahwa Skripsi yang berjudul “Implementasi IndoBERT-lite

dan RoBERTa untuk Text Mining pada Aplikasi Chatbot Jacob” ini

adalah karya ilmiah saya sendiri, bukan plagiat dari karya ilmiah yang ditulis oleh orang lain atau lembaga lain, dan semua karya ilmiah orang lain atau lembaga lain yang dirujuk dalam Skripsi ini telah disebutkan sumber kutipannya serta dicantumkan di Daftar Pustaka. Jika di kemudian hari terbukti ditemukan kecurangan/ penyimpangan, baik dalam pelaksanaan Skripsi maupun dalam penulisan laporan Skripsi, saya bersedia menerima konsekuensi dinyatakan TIDAK LULUS untuk mata kuliah Skripsi yang telah saya tempuh.

Tangerang, 2 Juni 2021

(4)

PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS

Sebagai sivitas akademik Universitas Multimedia Nusantara, saya yang bertanda tangan di bawah ini:

Nama : Benny Richardson

NIM : 00000019860

Program Studi : Informatika

Fakultas : Teknik dan Informatika

Jenis Karya : Skripsi

Demi pengembangan ilmu pengetahuan, menyetujui dan memberikan izin kepada Universitas Multimedia Nusantara hak Bebas Royalti Non-eksklusif (Non-exclusive Royalty-Free Right) atas karya ilmiah saya yang berjudul:

Implementasi IndoBERT-lite dan RoBERTa untuk Text Mining pada Aplikasi Chatbot Jacob

beserta perangkat yang diperlukan.

Dengan Hak Bebas Royalti Non-eksklusif ini, pihak Universitas Multimedia

Nusantara berhak menyimpan, mengalihmedia atau format-kan, mengelola

dalam bentuk pangkalan data (database), merawat, dan mendistribusi dan menampilkan atau mempublikasikan karya ilmiah saya diinternet atau media lain untuk kepentingan akademis, tanpa perlu meminta izin dari saya maupun memberikan royalti kepada saya, selama tetap mencantumkan nama saya sebagai penulis karya ilmiah tersebut.

Demikian pernyataan ini saya buat dengan sebenarnya untuk dipergunakan sebagaimana mestinya.

Tangerang, 2 Juni 2021

(5)

HALAMAN PERSEMBAHAN / MOTO

Karya ini saya persembahkan bagi keluarga,

teman dan dosen pembibing yang tidak ada

hentinya untuk selalu memberikan dukungan,

bimbingan serta motivasi terhadap

pembuatan karya ini

Success is no accident.

It is hard work, perseverance, learning, studying, sacrifice

and most of all, love of what you are doing or learning to do.

(6)

KATA PENGANTAR

Puji syukur kepada Tuhan Yang Maha Esa karena atas rahmat dan karunia-Nya, penulis dapat menyelesaikan penelitian dan laporan skripsi yang berjudul “Implementasi IndoBERT-lite dan RoBERTa untuk Text Mining pada Aplikasi Chatbot Jacob”.

Penulis juga mengucapkan terma kasih kepada:

1. Dr. Ninok Leksono, Rektor Universitas Multimedia Nusantara, yang memberi inspirasi bagi penulis untuk berprestasi,

2. Bapak Niki Prastomo, Ph.D., Dekan Fakultas Teknik dan Informatika Universitas Multimedia Nusantara,

3. Ibu Marlinda Vasty Overbeek, S.Kom., M.Kom., Ketua Program Studi Informatika Universitas Multimedia Nusantara, yang menerima penulis dengan baik untuk berkonsultasi, dan

4. Bapak Arya Wicaksana, S.Kom., M.Eng.Sc., yang membimbing pembuatan laporan Skripsi dan yang telah mengajar penulis tata cara menulis karya ilmiah dengan benar,

5. Keluarga yang selalu memberi dukungan dan semangat dalam penyusunan laporan Skripsi,

6. Steven Wijaya, Felicia Pricilia Lovely, dan Melvin Hendronoto selaku

developer aplikasi chatbot Jacob, yang selalu membimbing dan membantu

(7)

7. Antonius Winu, Gregorius Neven Yusuf, Kevin Hendy, Wilson Philips, selaku teman yang selalu menemani dan memberi dukungan dalam penyusunan laporan Skripsi.

Semoga Skripsi ini dapat bermanfaat, baik sebagai sumber informasi maupun sumber inspirasi, bagi para pembaca.

Tangerang, 2 Juni 2021

(8)

IMPLEMENTASI INDOBERT-LITE DAN ROBERTA UNTUK

TEXT MINING PADA APLIKASI CHATBOT JACOB

ABSTRAK

Jacob merupakan aplikasi chatbot yang memiliki kemampuan untuk memberikan informasi terkait program Joint Degree informatika Universitas Multimedia Nusantara. Jacob saat ini telah dirancang untuk dapat melakukan text mining secara daring, tetapi bahasa yang digunakan hanya tersedia dalam bahasa Inggris. Pada penelitian ini, dilakukan implementasi pre-trained model IndoBERT-lite dan RoBERTa melalui web service untuk melakukan text mining dalam Bahasa Indonesia. Selain itu, dilakukan juga pre-training dan fine-tuning pada model RoBERTa dengan TyDI QA dan SQuAD Bahasa Indonesia untuk mendapatkan

model yang mampu memprediksi jawaban dalam Bahasa Indonesia. Pengujian

dilakukan dengan menggunakan 5 pre-trained model dan evaluasi untuk melihat nilai akurasi/F-Score dari hasil pengujian. Hasil evaluasi menunjukkan indobert-lite-squad memiliki hasil sebesar 0,8/0,89, roberta-1.5gb-tydiqa sebesar 0,8/0,87, roberta-3gb-tydiqa sebesar 0,47/0,57, roberta-1.5gb-squad sebesar 0,47/0,64, dan roberta-3gb-squad sebesar 0,4/0,57.

(9)

IMPLEMENTATION OF INDOBERT-LITE AND ROBERTA

FOR TEXT MINING IN JACOB CHATBOT APPLICATION

ABSTRACT

Jacob is a chatbot application that has the ability to provide information related to the Joint Degree program in informatics at Multimedia Nusantara University. Jacob is currently designed to be able to do text mining online, but the language used is only available in English. In this study, the implementation of pre-trained models of IndoBERT-lite and RoBERTa through a web service was carried out to perform text mining in Indonesian. In addition, pre-training and fine-tuning of the RoBERTa model with TyDI QA and Indonesian SQuAD were also carried out to obtain a model that was able to predict answer in Indonesian. The test is carried out using 5 pre-trained models and evaluation to see the value of accuracy / F-Score of the test results. The evaluation results show that indobert-lite-squad has a yield of 0.8/0.89, roberta-tydiqa of 0.8/0.87, roberta-3gb-tydiqa of 0.47/0.57, roberta- 1.5gb-squad of 0.47/0.64, and roberta-3gb-1.5gb-squad of 0.4/0.57.

(10)

DAFTAR ISI

HALAMAN JUDUL ... i

LEMBAR PENGESAHAN ... ii

PERNYATAAN TIDAK MELAKUKAN PLAGIAT ... iii

PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS ... iv

HALAMAN PERSEMBAHAN / MOTO ... v

KATA PENGANTAR ... vi

ABSTRAK ... viii

ABSTRACT ... ix

DAFTAR ISI ... x

DAFTAR GAMBAR ... xii

DAFTAR TABEL ... xiv

DAFTAR RUMUS ... xv BAB 1PENDAHULUAN ... 1 1.1 Latar Belakang ... 1 1.2 Rumusan Masalah ... 4 1.3 Batasan Masalah ... 4 1.4 Tujuan Penelitian ... 5 1.5 Manfaat Penelitian ... 5 1.6 Sistematika Penulisan ... 5

BAB 2LANDASAN TEORI ... 7

2.1 Chatbot Jacob ... 7 2.2 Text Mining ... 11 2.3 IndoBERT-lite... 12 2.4 RoBERTa ... 14 2.5 SQuAD ... 18 2.6 TyDI QA ... 20

2.7 Akurasi dan F-Score ... 22

BAB 3METODOLOGI PENELITIAN ... 24

3.1 Metodologi Penelitian ... 24

3.2 Analisis Kebutuhan ... 26

(11)

3.3.1 Alur Proses Pre-training Model ... 29

3.3.2 Alur Proses Fine-tuning Model ... 30

3.3.3 Alur Kerja Web Service ... 31

3.3.4 Flowchart ... 32

3.3.5 Rancangan Antarmuka Halaman ... 38

BAB 4HASIL DAN DISKUSI ... 39

4.1 Spesifikasi Sistem ... 39

4.2 Implementasi Aplikasi Chatbot Jacob Bahasa Indonesia ... 40

4.2.1 Implementasi Pre-trained Model RoBERTa ... 40

4.2.2 Implementasi Pre-trained Model pada Web Service ... 47

4.2.3 Implementasi Rancangan Antarmuka ... 49

4.3 Pengujian... 51

4.3.1 Pengujian Pre-training Model ... 51

4.3.2 Pengujian Fine-tuning Model ... 53

4.3.3 Pengujian Prediksi Jawaban ... 57

4.4 Evaluasi Hasil ... 75

BAB 5SIMPULAN DAN SARAN ... 81

5.1 Simpulan ... 81

5.2 Saran ... 82

DAFTAR PUSTAKA ... 83

(12)

DAFTAR GAMBAR

Gambar 2.1. Skema kerja aplikasi chatbot Jacob ... 9

Gambar 2.2. Proses text mining ... 12

Gambar 2.3. Hyperparameters dan durasi training pada arsitektur IndoBERT-lite ... 12

Gambar 2.4. Hasil model baseline dengan konfigurasi terbaik pada benchmark . 13 Gambar 2.5. Peforma space trade-off setiap baseline models ... 14

Gambar 2.6. Hasil pretrain data dengan menggunakan 3 arsitektur ... 16

Gambar 2.7. Hyperparameters pada pre-training RoBERTa large dan RoBERTa 17 Gambar 2.8. Hyperparameters pada fine-tuning RoBERTa large dan RoBERTa 17 Gambar 2.9. Unanswerable questions pada SQuAD v2.0 ... 19

Gambar 2.10. Contoh hasil penerjemahan SQuAD v2.0 ... 20

Gambar 2.11. Contoh beberapa topologi fitur dari 11 bahasa pada TyDI QA ... 21

Gambar 2.12. Confusion matrix ... 23

Gambar 3.1 Alur kerja perancangan sistem ... 28

Gambar 3.2. Alur proses pre-training model ... 29

Gambar 3.3. Alur proses fine-tuning model... 30

Gambar 3.4. Alur kerja web service... 31

Gambar 3.5. Flowchart utama ... 33

Gambar 3.6. Flowchart web service ... 34

Gambar 3.7. Flowchart Get Current Model ... 35

Gambar 3.8. Flowchart Change Model ... 36

Gambar 3.9. Flowchart Predict Answer ... 37

Gambar 3.10. Rancangan antarmuka halaman pilihan bahasa pada chatbot Jacob ... 38

Gambar 3.11. Rancangan antarmuka chatbot Jacob dalam Bahasa Indonesia ... 38

Gambar 4.1. Potongan kode proses training tokenizer ... 41

Gambar 4.2. Contoh hasil encoding dari tokenizer ... 41

Gambar 4.3. Potongan kode pembentukan data training ... 42

Gambar 4.4. Potongan kode konfigurasi pada pre-training model RoBERTa ... 43

Gambar 4.5. Potongan kode data processing dengan FARM ... 44

Gambar 4.6. Potongan kode konfigurasi pada fine-tuning model dengan FARM 45 Gambar 4.7. Potongan kode data preprocessing dengan Simpletransformers ... 46

Gambar 4.8. Potongan kode konfigurasi pada fine-tuning model dengan ... 46

(13)

Gambar 4.10. Implementasi perubahan kode pada Get Curr Model... 47

Gambar 4.11. Implementasi perubahan kode pada Change Model ... 48

Gambar 4.12. Implementasi perubahan kode pada Predict Answer ... 48

Gambar 4.13. Antarmuka pilihan bahasa pada aplikasi chatbot Jacob ... 49

Gambar 4.14. Antarmuka halaman Home Page chatbot Jacob Bahasa Indonesia 49 Gambar 4.15. Antarmuka halaman chatbot Jacob Bahasa Indonesia ... 50

Gambar 4.16. Antarmuka halaman chatbot Jacob Bahasa Indonesia ... 50

Gambar 4.17. Hasil pencarian dari pertanyaan pertama ... 58

Gambar 4.18. Hasil pencarian dari pertanyaan kedua ... 59

Gambar 4.19. Hasil pencarian dari pertanyaan ketiga ... 60

Gambar 4.20. Hasil pencarian dari pertanyaan keempat... 61

Gambar 4.21. Hasil pencarian dari pertanyaan kelima ... 62

Gambar 4.22. Hasil pencarian dari pertanyaan keenam ... 63

Gambar 4.23. Hasil pencarian dari pertanyaan ketujuh ... 65

Gambar 4.24. Hasil pencarian dari pertanyaan kedelapan ... 67

Gambar 4.25. Hasil pencarian dari pertanyaan kesembilan ... 68

Gambar 4.26. Hasil pencarian dari pertanyaan kesepuluh ... 69

Gambar 4.27. Hasil pencarian dari pertanyaan kesebelas ... 70

Gambar 4.28. Hasil pencarian dari pertanyaan keduabelas ... 71

Gambar 4.29. Hasil pencarian dari pertanyaan ketigabelas ... 72

Gambar 4.30. Hasil pencarian dari pertanyaan keempatbelas ... 73

Gambar 4.31. Hasil pencarian dari pertanyaan kelimabelas ... 74

(14)

DAFTAR TABEL

Tabel 4.1. Hasil proses pre-trainng model RoBERTa ... 52

Tabel 4.2. Hasil proses fine-tuning model RoBERTa dengan SQuAD ... 54

Tabel 4.3. Hasil proses fine-tuning model RoBERTa dengan TyDI QA ... 55

Tabel 4.4. Daftar pertanyaan pada pengujian... 57

Tabel 4.5. Hasil prediksi jawaban dari pertanyaan pertama ... 58

Tabel 4.6. Hasil prediksi jawaban dari pertanyaan kedua ... 59

Tabel 4.7. Hasil prediksi jawaban dari pertanyaan ketiga ... 60

Tabel 4.8. Hasil prediksi jawaban dari pertanyaan keempat ... 61

Tabel 4.9. Hasil prediksi jawaban dari pertanyaan kelima ... 63

Tabel 4.10. Hasil prediksi jawaban dari pertanyaan keenam ... 64

Tabel 4.11. Hasil prediksi jawaban dari pertanyaan ketujuh ... 65

Tabel 4.12. Hasil prediksi jawaban dari pertanyaan kedelapan ... 67

Tabel 4.13. Hasil prediksi jawaban dari pertanyaan kesembilan ... 68

Tabel 4.14. Hasil prediksi jawaban dari pertanyaan kesepuluh ... 69

Tabel 4.15. Hasil prediksi jawaban dari pertanyaan kesebelas ... 70

Tabel 4.16. Hasil prediksi jawaban dari pertanyaan keduabelas ... 71

Tabel 4.17. Hasil prediksi jawaban dari pertanyaan ketigabelas ... 72

Tabel 4.18. Hasil prediksi jawaban dari pertanyaan keempatbelas ... 73

Tabel 4.19. Hasil prediksi jawaban dari pertanyaan kelimabelas ... 74

(15)

DAFTAR RUMUS

Rumus 2.1 Accuracy ... 23

Rumus 2.2 Precision ... 23

Rumus 2.3 Recall ... 23

Referensi

Dokumen terkait

Ketujuh, Pernyataan untuk hipotesis ketujuh adalah hasil belajar sejarah antara siswa yang diberi pendekatan pembelajaran konvensional dan memiliki gaya belajar visual

Sesuai dengan permasalah yang telah dikemukakan sebelumnya, secara umum tujuan dari penelitian tindakan kelas ini adalah untuk meningkatkan hasil belajar siswa

Berdasarkan hasil penelitian dapat disimpulkan bahwa hanya jenis kelamin yang mempengaruhi kemampuan berpikir kritis lulusan pendidikan kejuruan di tempat kerja, tetapi tidak

Berdasarkan hasil dan pembahasan dalam penelitian yang telah dilakukan mengenai pengaruh desentralisasi fiskal terhadap angka melek huruf perempuan dan angka partisipasi

Seperti yang telah diuraikan dalam kerangka teori mengenai perilaku prososial (hal.14), pembatasan subjek pada anak kategori remaja awal dilakukan dengan pertimbangan

Kelimpahan Makrozoobentos di Stasiun IV yang tertinggi adalah jenis terebralia sulcata dengan Kelimpahan 341.0 ind/m 2 , sedangkan terendah adalah jenis lumbricus

Peserta yang telah mengikuti Pelatihan Teknis Antisipasi dan Mitigasi Perubahan Iklim Global serta telah menyelesaikan keseluruhan proses belajar mengajar dengan

perpindahan panas dan pressure drop dapat disimpulkan sebagai bahwa performa termal terbaik ketika menggunakan 2 baris CDW VGs staggered dibandingkan dengan CDW VGs in-line,