PENERAPAN ALGORITMA CONDITIONAL RANDOM
FIELDS UNTUK NAMED ENTITY RECOGNITION
PADA ARTIKEL DIGITAL KESENIAN
TRADISIONAL DI INDONESIA
SKRIPSI
Diajukan sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer (S.Kom.)
Cyntia Fanny 00000020976
PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK DAN INFORMATIKA UNIVERSITAS MULTIMEDIA NUSANTARA
LEMBAR PENGESAHAN
PENERAPAN ALGORITMA CONDITIONAL RANDOM FIELDS UNTUK NAMED ENTITY RECOGNITION PADA ARTIKEL DIGITAL
KESENIAN TRADISIONAL DI INDONESIA
oleh
Nama : Cyntia Fanny
NIM 00000020976
Program Studi : Informatika
Fakultas : Teknik dan Informatika
Tangerang, 28 Juni 2021
Ketua Sidang Dosen Penguji
Alethea Suryadibrata, Moeljono Widjaja, B.Sc.,
S.Kom, M.Eng. M.Sc.,Ph.D. Dosen Pembimbing I Digitally signed by Alexander Waworuntu Date: 2021.06.29 17:31:35+07'00' Alexander Waworuntu, S.Kom.,M.T.I. S.Kom.,M.Kom. Mengetahui,
Ketua Program Studi Informatika
Digitally signed by Marlinda Vasty Overbeek Date: 2021.06.29 20:19:14 +07'00'
Marlinda Vasty Overbeek, M.Kom.
Dosen Pembimbing II
PERNYATAAN TIDAK MELAKUKAN PLAGIAT
Dengan ini saya:
Nama : Cyntia Fanny
NIM : 00000020976
Program Studi : Informatika
Fakultas : Teknik dan Informatika
menyatakan bahwa Skripsi yang berjudul “Penerapan Algoritma Conditional
Random Fields untuk Named Entity Recognition pada Artikel Digital Kesenian Tradisional di Indonesia” ini adalah karya ilmiah saya sendiri, bukan
plagiat dari karya ilmiah yang ditulis oleh orang lain atau lembaga lain, dan semua karya ilmiah orang lain atau lembaga lain yang dirujuk dalam Skripsi ini telah disebutkan sumber kutipannya serta dicantumkan di Daftar Pustaka.
Jika di kemudian hari terbukti ditemukan kecurangan/ penyimpangan, baik dalam pelaksanaan Skripsi maupun dalam penulisan laporan Skripsi, saya bersedia menerima konsekuensi dinyatakan TIDAK LULUS untuk mata kuliah Skripsi yang telah saya tempuh.
Tangerang, 4 Juni 2021
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS
Sebagai sivitas akademik Universitas Multimedia Nusantara, saya yang bertanda tangan di bawah ini:
Nama : Cyntia Fanny
NIM : 00000020976
Program Studi : Informatika
Fakultas : Teknik dan Informatika
Jenis Karya : Skripsi
Demi pengembangan ilmu pengetahuan, menyetujui dan memberikan izin kepada
Universitas Multimedia Nusantara hak Bebas Royalti Non-eksklusif (Non-
exclusive Royalty-Free Right) atas karya ilmiah saya yang berjudul:
Penerapan Algoritma Conditional Random Fields untuk Named Entity Recognition pada Artikel Digital Kesenian Tradisional di Indonesia
beserta perangkat yang diperlukan.
Dengan Hak Bebas Royalti Non-eksklusif ini, pihak Universitas Multimedia
Nusantara berhak menyimpan, mengalihmedia atau format-kan, mengelola dalam
bentuk pangkalan data (database), merawat, dan mendistribusi dan menampilkan atau mempublikasikan karya ilmiah saya di internet atau media lain untuk kepentingan akademis, tanpa perlu meminta izin dari saya maupun memberikan royalti kepada saya, selama tetap mencantumkan nama saya sebagai penulis karya ilmiah tersebut.
Demikian pernyataan ini saya buat dengan sebenarnya untuk dipergunakan sebagaimana mestinya.
Tangerang, 4 Juni 2021
HALAMAN PERSEMBAHAN / MOTO
Believe. No pessimist ever discovered the secret of the stars, or sailed to an uncharted land, or opened a new doorway for the human spirit
KATA PENGANTAR
Puji syukur penulis panjatkan kepada Tuhan Yang Maha Esa atas rahmatnya, sehingga penulis dapat menyelesaikan laporan ini. Laporan Skripsi dengan judul “Penerapan Algoritma Conditional Random Fields untuk Named Entity Recognition pada Artikel Digital Kesenian Tradisional di Indonesia” diajukan untuk memenuhi salah satu syarat memperoleh gelar sarjana strata satu Jurusan Informatika Universitas Multimedia Nusantara.
Dalam penyusunan laporan ini, banyak pihak yang telah membantu. Maka dalam kesempatan ini, penulis ingin mengucapkan terima kasih kepada:
1. Bapak Dr. Ninok Leksono selaku Rektor Universitas Multimedia Nusantara,
2. Bapak Dr. Eng. Niki Prastomo S.T., M.Sc., selaku Dekan Fakultas Teknik dan Informatika Universitas Multimedia Nusantara,
3. Ibu Marlinda Vasty Overbeek, S.Kom., M.Kom. selaku Kepala Program Studi Informatika Universitas Multimedia Nusantara,
4. Bapak Alexander Waworuntu,S.Kom., M.T.I. dan Bapak Julio Christian Young, M.Kom., selaku Dosen pembimbing yang telah membimbing pembuatan Skripsi, memberikan ilmu baru, dan mengarahkan penulis dengan sabar,
5. Mama dan Papa yang terus membimbing penulis hingga saat ini dengan sabar dan penuh kasih sayang,
6. Teman-teman dan kerabat dekat, khususnya PM14 yang terdiri dari Wiliam Reynold, Evelyn Liana, Michael Angelo; serta teman-teman satu prodi,
khususnya Steve, Azura, Dinda, Titania, Samuel, serta Albert yang telah berjuang bersama dari awal kuliah hingga sekarang
7. Semua pihak yang tidak dapat disebutkan satu per satu yang telah memberikan dukungan hingga penyusunan laporan ini dapat terselesaikan dengan baik dan tepat waktu.
Semoga Skripsi ini dapat bermanfaat dan menjadi sumber inspirasi bagi para pembaca.
Tangerang, 4 Juni 2021
PENERAPAN ALGORITMA CONDITIONAL RANDOM
FIELDS UNTUK NAMED ENTITY RECOGNITION
PADA ARTIKEL DIGITAL KESENIAN
TRADISIONAL DI INDONESIA
ABSTRAK
Artikel digital kesenian tradisional merupakan cara paling mudah untuk memperoleh informasi mengenai kesenian tradisional di era digital. Di dalam artikel kesenian tradisional, selalu memuat entitas kesenian, seperti tarian, musik, seni pertunjukan, tokoh kesenian, dan alat musik. Begitu banyaknya jenis kesenian tradisional Indonesia, khususnya di pulau Jawa membuat pengenalan terhadap entitas di dalam artikel tersebut menjadi lebih sulit. Oleh karena itu, diperlukan sebuah sistem yang dapat membantu memberikan label untuk setiap entitas yang ada dalam sebuah artikel. Penelitian ini merancang sistem menggunakan algoritma Conditional Random Field (CRF). Berdasarkan penelitian sebelumya, CRF mampu memprediksi entitas dalam sebuah kalimat berbahasa Indonesia dengan lebih baik. Tujuan dari penelitian ini yaitu untuk mengimplementasikan CRF pada Named Entity Recognition (NER) untuk artikel digital kesenian tradisional Indonesia menggunakan bahasa pemrograman Python, serta mengetahui f1-score yang dihasilkan. Berdasarkan beberapa skenario yang diuji, dihasilkan performa paling baik dengan pembagian data train dan data test sebesar 4:1, yang menghasilkan nilai rata-rata f1-score 88.2%, recall 90.3%, dan precision 88.2%.
Kata Kunci: Artikel kesenian, Conditional Random Field, Entitas, Kesenian Tradisional, Named Entity Recognition
IMPLEMENTATION OF CONDITIONAL RANDOM FIELD
FOR NAMED ENTITY RECOGNITON IN INDONESIAN
TRADITIONAL ARTS DIGITAL ARTICLE
ABSTRACT
Digital articles on traditional arts are the easiest way to get information about traditional arts in the digital era. Traditional art articles always contain artistic entities, such as traditional dance, music, theatrical, figures, and musical instruments. There are so many types of traditional Indonesian arts, especially on Java, making it more difficult to identify the entities in the article. Therefore, we need a system that can help label each entity in an article. This study designed a system using the Conditional Random Field (CRF) algorithm. Based on previous research, CRF can predict entities in an Indonesian sentence better. The purpose of this study is to implement CRF on Named Entity Recognition (NER) for digital articles of Indonesian traditional arts using Python programming language and to find out the resulting f1-score. Based on several scenarios tested, the best performance was obtained by dividing the train data and test data by 4:1, which resulted in te average of f1-score 88.2%, recall 90.3%, and precision 88.2%.
Keywords: Arts Article, Conditional Random Fields, Entity, Named Entity Recogniton, Traditional Arts
DAFTAR ISI
HALAMAN JUDUL ... i
HALAMAN PENGESAHAN ... ii
HALAMAN PERNYATAAN TIDAK MELAKUKAN PLAGIAT ... iii
HALAMAN PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH ... iv
HALAMAN PERSEMBAHAN / MOTO ... vi
KATA PENGANTAR ... vii
ABSTRAK ... ix
ABSTRACT ... x
DAFTAR ISI ... xi
DAFTAR GAMBAR ... xiii
DAFTAR TABEL... xiv
DAFTAR LAMPIRAN ... xv
BAB 1 PENDAHULUAN ... 1
1.1 Latar Belakang Masalah... 1
1.2 Rumusan Masalah... 4
1.3 Batasan Masalah ... 5
1.4 Tujuan Penelitian ... 5
1.5 Manfaat Penelitian ... 5
1.6 Sistematika Penulisan ... 6
BAB 2 LANDASAN TEORI ... 7
2.1 Named Entity Recognition (NER) ... 7
2.2 Preprocessing... 8
2.3 K-Fold Cross Validation ... 10
2.4 Conditional Random Fields (CRF) ... 10
2.5 BIO Format ... 13
2.6 Limited-Memory Broyden-Fletcher-Goldfarb-Shanno (L-BFGS) ... 14
2.7 L1 dan L2 Regularization ... 14
BAB 3 METODOLOGI PENELITIAN... 15
3.1 Metodologi Penelitian ... 15
3.2 Perancangan Aplikasi ... 16
3.2.1 Flowchart Utama ... 16
3.2.2 Flowchart Preprocessing ... 18
3.2.3 Flowchart Pelatihan Model Named Entity Recognition ... 20
3.2.4 Flowchart Testing Eksternal... 22
3.2.5 Flowchart Preprocessing PDF ... 23
3.2.6 Flowchart Predict Testing ... 24
3.2.7 Flowchart Print Word ... 25
BAB 4 HASIL DAN DISKUSI ... 26
4.1 Spesifikasi Perangkat ... 26
4.2 Implementasi Sistem ... 27
4.2.6 Implementasi Testing Eksternal ... 35
4.3 Skenario Pengujian ... 39
4.3.1 Hasil Pengujian ... 39
4.3.2 Evaluasi ... 42
BAB 5 SIMPULAN DAN SARAN ... 44
5.1 Simpulan ... 44
5.2 Saran ... 45
DAFTAR GAMBAR
Gambar 1.1 Contoh penggalan artikel digital kesenian ... 3
Gambar 2.1 Contoh Penerapan NER ... 7
Gambar 2.2 Ilustrasi penerapan K-Fold dengan 10 folds ... 10
Gambar 2.3 Model Linear-chain CRF ... 11
Gambar 3.1 Flowchart Utama ... 17
Gambar 3.2 Flowchart Preprocessing ... 19
Gambar 3.3 Flowchart pelatihan model Named Entity Recognition ... 21
Gambar 3.4 Flowchart Testing Eksternal ... 22
Gambar 3.5 Flowchart Preprocessing pdf ... 23
Gambar 3.6 Flowchart Predict Testing ... 24
Gambar 3.7 Flowchart Print Word ... 25
Gambar 4.1 Potongan kode pengambilan konten ... 27
Gambar 4.2 Potongan kode proses per kalimat ... 28
Gambar 4.3 Bentuk awal dataset ... 28
Gambar 4.4 Potongan kode class sentence ... 29
Gambar 4.5 Potongan kode pemrosesan objek sentence ... 30
Gambar 4.6 Potongan kode features extraction function ... 31
Gambar 4.7 Proses pemanggilan features extraction function ... 32
Gambar 4.8 Potongan kode K-Fold ... 32
Gambar 4.9 Potongan kode pembagian data training dan data testing ... 32
Gambar 4.10 Potongan kode CRF ... 33
Gambar 4.11 Potongan kode testing CRF ... 33
Gambar 4.12 Potongan kode penambahan nilai dari semua folds ... 33
Gambar 4.13 Potongan kode perhitungan rata-rata nilai dari sebuah kombinasi . 34 Gambar 4.14 Potongan kode pengecekan rata-rata f1 tertinggi ... 34
Gambar 4. 15 Potongan kode penyimpanan model terbaik... 34
Gambar 4.16 Potongan kode pemrosesan pdf ... 35
Gambar 4.17 Potongan kode features extraction tanpa label ... 36
Gambar 4.18 Potongan kode preprocessing data testing ... 37
Gambar 4.19 Potongan kode pemrosesan hasil predict ... 38
Gambar 4.20 Tampilan hasil testing eksternal ... 38
DAFTAR TABEL
Tabel 2.1 Contoh penerapan Stop Word Removal ... 8
Tabel 2.2 Contoh penerapan Stemming ... 9
Tabel 2.3 Contoh penerapan Tokenization ... 9
Tabel 2.4 Tag dengan BIO Format ... 13
Tabel 4.1 Hasil pengujian... 40
DAFTAR LAMPIRAN
Lampiran 1. Hasil Uji Coba ... 48 Lampiran 2. Formulir Bimbingan ... 55 Lampiran 3. Hasil Pengecekan Turnitin ... 57