• Tidak ada hasil yang ditemukan

PENERAPAN ALGORITMA CONDITIONAL RANDOM FIELDS UNTUK NAMED ENTITY RECOGNITION PADA ARTIKEL DIGITAL KESENIAN TRADISIONAL DI INDONESIA SKRIPSI

N/A
N/A
Protected

Academic year: 2021

Membagikan "PENERAPAN ALGORITMA CONDITIONAL RANDOM FIELDS UNTUK NAMED ENTITY RECOGNITION PADA ARTIKEL DIGITAL KESENIAN TRADISIONAL DI INDONESIA SKRIPSI"

Copied!
15
0
0

Teks penuh

(1)

PENERAPAN ALGORITMA CONDITIONAL RANDOM

FIELDS UNTUK NAMED ENTITY RECOGNITION

PADA ARTIKEL DIGITAL KESENIAN

TRADISIONAL DI INDONESIA

SKRIPSI

Diajukan sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer (S.Kom.)

Cyntia Fanny 00000020976

PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK DAN INFORMATIKA UNIVERSITAS MULTIMEDIA NUSANTARA

(2)

LEMBAR PENGESAHAN

PENERAPAN ALGORITMA CONDITIONAL RANDOM FIELDS UNTUK NAMED ENTITY RECOGNITION PADA ARTIKEL DIGITAL

KESENIAN TRADISIONAL DI INDONESIA

oleh

Nama : Cyntia Fanny

NIM 00000020976

Program Studi : Informatika

Fakultas : Teknik dan Informatika

Tangerang, 28 Juni 2021

Ketua Sidang Dosen Penguji

Alethea Suryadibrata, Moeljono Widjaja, B.Sc.,

S.Kom, M.Eng. M.Sc.,Ph.D. Dosen Pembimbing I Digitally signed by Alexander Waworuntu Date: 2021.06.29 17:31:35+07'00' Alexander Waworuntu, S.Kom.,M.T.I. S.Kom.,M.Kom. Mengetahui,

Ketua Program Studi Informatika

Digitally signed by Marlinda Vasty Overbeek Date: 2021.06.29 20:19:14 +07'00'

Marlinda Vasty Overbeek, M.Kom.

Dosen Pembimbing II

(3)

PERNYATAAN TIDAK MELAKUKAN PLAGIAT

Dengan ini saya:

Nama : Cyntia Fanny

NIM : 00000020976

Program Studi : Informatika

Fakultas : Teknik dan Informatika

menyatakan bahwa Skripsi yang berjudul “Penerapan Algoritma Conditional

Random Fields untuk Named Entity Recognition pada Artikel Digital Kesenian Tradisional di Indonesia” ini adalah karya ilmiah saya sendiri, bukan

plagiat dari karya ilmiah yang ditulis oleh orang lain atau lembaga lain, dan semua karya ilmiah orang lain atau lembaga lain yang dirujuk dalam Skripsi ini telah disebutkan sumber kutipannya serta dicantumkan di Daftar Pustaka.

Jika di kemudian hari terbukti ditemukan kecurangan/ penyimpangan, baik dalam pelaksanaan Skripsi maupun dalam penulisan laporan Skripsi, saya bersedia menerima konsekuensi dinyatakan TIDAK LULUS untuk mata kuliah Skripsi yang telah saya tempuh.

Tangerang, 4 Juni 2021

(4)

PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS

Sebagai sivitas akademik Universitas Multimedia Nusantara, saya yang bertanda tangan di bawah ini:

Nama : Cyntia Fanny

NIM : 00000020976

Program Studi : Informatika

Fakultas : Teknik dan Informatika

Jenis Karya : Skripsi

Demi pengembangan ilmu pengetahuan, menyetujui dan memberikan izin kepada

Universitas Multimedia Nusantara hak Bebas Royalti Non-eksklusif (Non-

exclusive Royalty-Free Right) atas karya ilmiah saya yang berjudul:

Penerapan Algoritma Conditional Random Fields untuk Named Entity Recognition pada Artikel Digital Kesenian Tradisional di Indonesia

beserta perangkat yang diperlukan.

Dengan Hak Bebas Royalti Non-eksklusif ini, pihak Universitas Multimedia

Nusantara berhak menyimpan, mengalihmedia atau format-kan, mengelola dalam

bentuk pangkalan data (database), merawat, dan mendistribusi dan menampilkan atau mempublikasikan karya ilmiah saya di internet atau media lain untuk kepentingan akademis, tanpa perlu meminta izin dari saya maupun memberikan royalti kepada saya, selama tetap mencantumkan nama saya sebagai penulis karya ilmiah tersebut.

(5)

Demikian pernyataan ini saya buat dengan sebenarnya untuk dipergunakan sebagaimana mestinya.

Tangerang, 4 Juni 2021

(6)

HALAMAN PERSEMBAHAN / MOTO

Believe. No pessimist ever discovered the secret of the stars, or sailed to an uncharted land, or opened a new doorway for the human spirit

(7)

KATA PENGANTAR

Puji syukur penulis panjatkan kepada Tuhan Yang Maha Esa atas rahmatnya, sehingga penulis dapat menyelesaikan laporan ini. Laporan Skripsi dengan judul “Penerapan Algoritma Conditional Random Fields untuk Named Entity Recognition pada Artikel Digital Kesenian Tradisional di Indonesia” diajukan untuk memenuhi salah satu syarat memperoleh gelar sarjana strata satu Jurusan Informatika Universitas Multimedia Nusantara.

Dalam penyusunan laporan ini, banyak pihak yang telah membantu. Maka dalam kesempatan ini, penulis ingin mengucapkan terima kasih kepada:

1. Bapak Dr. Ninok Leksono selaku Rektor Universitas Multimedia Nusantara,

2. Bapak Dr. Eng. Niki Prastomo S.T., M.Sc., selaku Dekan Fakultas Teknik dan Informatika Universitas Multimedia Nusantara,

3. Ibu Marlinda Vasty Overbeek, S.Kom., M.Kom. selaku Kepala Program Studi Informatika Universitas Multimedia Nusantara,

4. Bapak Alexander Waworuntu,S.Kom., M.T.I. dan Bapak Julio Christian Young, M.Kom., selaku Dosen pembimbing yang telah membimbing pembuatan Skripsi, memberikan ilmu baru, dan mengarahkan penulis dengan sabar,

5. Mama dan Papa yang terus membimbing penulis hingga saat ini dengan sabar dan penuh kasih sayang,

6. Teman-teman dan kerabat dekat, khususnya PM14 yang terdiri dari Wiliam Reynold, Evelyn Liana, Michael Angelo; serta teman-teman satu prodi,

(8)

khususnya Steve, Azura, Dinda, Titania, Samuel, serta Albert yang telah berjuang bersama dari awal kuliah hingga sekarang

7. Semua pihak yang tidak dapat disebutkan satu per satu yang telah memberikan dukungan hingga penyusunan laporan ini dapat terselesaikan dengan baik dan tepat waktu.

Semoga Skripsi ini dapat bermanfaat dan menjadi sumber inspirasi bagi para pembaca.

Tangerang, 4 Juni 2021

(9)

PENERAPAN ALGORITMA CONDITIONAL RANDOM

FIELDS UNTUK NAMED ENTITY RECOGNITION

PADA ARTIKEL DIGITAL KESENIAN

TRADISIONAL DI INDONESIA

ABSTRAK

Artikel digital kesenian tradisional merupakan cara paling mudah untuk memperoleh informasi mengenai kesenian tradisional di era digital. Di dalam artikel kesenian tradisional, selalu memuat entitas kesenian, seperti tarian, musik, seni pertunjukan, tokoh kesenian, dan alat musik. Begitu banyaknya jenis kesenian tradisional Indonesia, khususnya di pulau Jawa membuat pengenalan terhadap entitas di dalam artikel tersebut menjadi lebih sulit. Oleh karena itu, diperlukan sebuah sistem yang dapat membantu memberikan label untuk setiap entitas yang ada dalam sebuah artikel. Penelitian ini merancang sistem menggunakan algoritma Conditional Random Field (CRF). Berdasarkan penelitian sebelumya, CRF mampu memprediksi entitas dalam sebuah kalimat berbahasa Indonesia dengan lebih baik. Tujuan dari penelitian ini yaitu untuk mengimplementasikan CRF pada Named Entity Recognition (NER) untuk artikel digital kesenian tradisional Indonesia menggunakan bahasa pemrograman Python, serta mengetahui f1-score yang dihasilkan. Berdasarkan beberapa skenario yang diuji, dihasilkan performa paling baik dengan pembagian data train dan data test sebesar 4:1, yang menghasilkan nilai rata-rata f1-score 88.2%, recall 90.3%, dan precision 88.2%.

Kata Kunci: Artikel kesenian, Conditional Random Field, Entitas, Kesenian Tradisional, Named Entity Recognition

(10)

IMPLEMENTATION OF CONDITIONAL RANDOM FIELD

FOR NAMED ENTITY RECOGNITON IN INDONESIAN

TRADITIONAL ARTS DIGITAL ARTICLE

ABSTRACT

Digital articles on traditional arts are the easiest way to get information about traditional arts in the digital era. Traditional art articles always contain artistic entities, such as traditional dance, music, theatrical, figures, and musical instruments. There are so many types of traditional Indonesian arts, especially on Java, making it more difficult to identify the entities in the article. Therefore, we need a system that can help label each entity in an article. This study designed a system using the Conditional Random Field (CRF) algorithm. Based on previous research, CRF can predict entities in an Indonesian sentence better. The purpose of this study is to implement CRF on Named Entity Recognition (NER) for digital articles of Indonesian traditional arts using Python programming language and to find out the resulting f1-score. Based on several scenarios tested, the best performance was obtained by dividing the train data and test data by 4:1, which resulted in te average of f1-score 88.2%, recall 90.3%, and precision 88.2%.

Keywords: Arts Article, Conditional Random Fields, Entity, Named Entity Recogniton, Traditional Arts

(11)

DAFTAR ISI

HALAMAN JUDUL ... i

HALAMAN PENGESAHAN ... ii

HALAMAN PERNYATAAN TIDAK MELAKUKAN PLAGIAT ... iii

HALAMAN PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH ... iv

HALAMAN PERSEMBAHAN / MOTO ... vi

KATA PENGANTAR ... vii

ABSTRAK ... ix

ABSTRACT ... x

DAFTAR ISI ... xi

DAFTAR GAMBAR ... xiii

DAFTAR TABEL... xiv

DAFTAR LAMPIRAN ... xv

BAB 1 PENDAHULUAN ... 1

1.1 Latar Belakang Masalah... 1

1.2 Rumusan Masalah... 4

1.3 Batasan Masalah ... 5

1.4 Tujuan Penelitian ... 5

1.5 Manfaat Penelitian ... 5

1.6 Sistematika Penulisan ... 6

BAB 2 LANDASAN TEORI ... 7

2.1 Named Entity Recognition (NER) ... 7

2.2 Preprocessing... 8

2.3 K-Fold Cross Validation ... 10

2.4 Conditional Random Fields (CRF) ... 10

2.5 BIO Format ... 13

2.6 Limited-Memory Broyden-Fletcher-Goldfarb-Shanno (L-BFGS) ... 14

2.7 L1 dan L2 Regularization ... 14

BAB 3 METODOLOGI PENELITIAN... 15

3.1 Metodologi Penelitian ... 15

3.2 Perancangan Aplikasi ... 16

3.2.1 Flowchart Utama ... 16

3.2.2 Flowchart Preprocessing ... 18

3.2.3 Flowchart Pelatihan Model Named Entity Recognition ... 20

3.2.4 Flowchart Testing Eksternal... 22

3.2.5 Flowchart Preprocessing PDF ... 23

3.2.6 Flowchart Predict Testing ... 24

3.2.7 Flowchart Print Word ... 25

BAB 4 HASIL DAN DISKUSI ... 26

4.1 Spesifikasi Perangkat ... 26

4.2 Implementasi Sistem ... 27

(12)

4.2.6 Implementasi Testing Eksternal ... 35

4.3 Skenario Pengujian ... 39

4.3.1 Hasil Pengujian ... 39

4.3.2 Evaluasi ... 42

BAB 5 SIMPULAN DAN SARAN ... 44

5.1 Simpulan ... 44

5.2 Saran ... 45

(13)

DAFTAR GAMBAR

Gambar 1.1 Contoh penggalan artikel digital kesenian ... 3

Gambar 2.1 Contoh Penerapan NER ... 7

Gambar 2.2 Ilustrasi penerapan K-Fold dengan 10 folds ... 10

Gambar 2.3 Model Linear-chain CRF ... 11

Gambar 3.1 Flowchart Utama ... 17

Gambar 3.2 Flowchart Preprocessing ... 19

Gambar 3.3 Flowchart pelatihan model Named Entity Recognition ... 21

Gambar 3.4 Flowchart Testing Eksternal ... 22

Gambar 3.5 Flowchart Preprocessing pdf ... 23

Gambar 3.6 Flowchart Predict Testing ... 24

Gambar 3.7 Flowchart Print Word ... 25

Gambar 4.1 Potongan kode pengambilan konten ... 27

Gambar 4.2 Potongan kode proses per kalimat ... 28

Gambar 4.3 Bentuk awal dataset ... 28

Gambar 4.4 Potongan kode class sentence ... 29

Gambar 4.5 Potongan kode pemrosesan objek sentence ... 30

Gambar 4.6 Potongan kode features extraction function ... 31

Gambar 4.7 Proses pemanggilan features extraction function ... 32

Gambar 4.8 Potongan kode K-Fold ... 32

Gambar 4.9 Potongan kode pembagian data training dan data testing ... 32

Gambar 4.10 Potongan kode CRF ... 33

Gambar 4.11 Potongan kode testing CRF ... 33

Gambar 4.12 Potongan kode penambahan nilai dari semua folds ... 33

Gambar 4.13 Potongan kode perhitungan rata-rata nilai dari sebuah kombinasi . 34 Gambar 4.14 Potongan kode pengecekan rata-rata f1 tertinggi ... 34

Gambar 4. 15 Potongan kode penyimpanan model terbaik... 34

Gambar 4.16 Potongan kode pemrosesan pdf ... 35

Gambar 4.17 Potongan kode features extraction tanpa label ... 36

Gambar 4.18 Potongan kode preprocessing data testing ... 37

Gambar 4.19 Potongan kode pemrosesan hasil predict ... 38

Gambar 4.20 Tampilan hasil testing eksternal ... 38

(14)

DAFTAR TABEL

Tabel 2.1 Contoh penerapan Stop Word Removal ... 8

Tabel 2.2 Contoh penerapan Stemming ... 9

Tabel 2.3 Contoh penerapan Tokenization ... 9

Tabel 2.4 Tag dengan BIO Format ... 13

Tabel 4.1 Hasil pengujian... 40

(15)

DAFTAR LAMPIRAN

Lampiran 1. Hasil Uji Coba ... 48 Lampiran 2. Formulir Bimbingan ... 55 Lampiran 3. Hasil Pengecekan Turnitin ... 57

Referensi

Dokumen terkait

integrity mendapatkan jumlah rerata skor 91,77 dengan kategori sangat baik; (3) Aspek reliability mendapatkan jumlah rerata skor 94,10 dengan kategori sangat baik;

Dari hasil obervasi juga dapat diketahui bahwa miss communication sering terjadi di Sales & Marketing Department di Pandanaran Hotel Semarang, terjadi pada

Salah satu kegiatan komunikasi perusahaan untuk membangun citra yang dilakukan oleh Public Relations Officer (PRO) PT Premium Motorindo Abadi adalah melaksanakan

Berdasarkan hasil penelusuran tingkat kesalahan pada hasil postest diperoleh bahwa: (1) Untuk item soal mengenai PTK, sebanyak kurang dari 50% guru menjawab dengan

membenahi rumah dan fasilitas umum yang ada disekitar lokasi sekitar longsor. Parisipasi masyarakat beruapa persediaan p3k cukup diapresiasi dari inisiatif warga

Dalam penghasilan meme ini, penyelidik merasakan bahawa kebanyakkan idea yang telah dibawakan oleh meme ‘Jadilah Seperti Rashid’ adalah berbentuk seloka harian masyarakat , di mana

Sumber masalah bagi seorang Anggelina Sondakh yang melibatkan dirinya itu ada- lah masalah korupsi, namun yang menjadi pemberitaan Media Massa Cetak ternyata lebih banyak porsi

terhadap akun ini sebanyak-banyaknya dan kemudian akun tersebut membagikan pesan- pesan kampanye untuk menarik semakin banyak dukungan. Seperti halnya akun milik