IMPLEMENTASI METODE RANDOM FOREST DAN
RECURSIVE FEATURE ELIMINATION UNTUK
KLASIFIKASI BERITA
SKRIPSI
Diajukan sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer (S.Kom.)
M. HAVIS 00000011879
PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK DAN INFORMATIKA UNIVERSITAS MULTIMEDIA NUSANTARA
TANGERANG 2021
ii
LEMBAR PENGESAHAN
IMPLEMENTASI METODE RANDOM FOREST DAN
RECURSIVE FEATURE ELIMINATION UNTUK
KLASIFIKASI BERITA
Oleh
Nama : M. Havis
NIM : 00000011879
Program Studi : Informatika
Fakultas : Teknik dan Informatika
Tangerang, 30 Juni 2021 Ketua Sidang,
Marlinda Vasty Overbeek, S.Kom., M.Kom.
Dosen Penguji,
Arya Wicaksana, S.Kom., M.Eng.Sc.
Dosen pembimbing I
Julio Christian Young, S.Kom., M.Kom.
Dosen Pembimbing II
Alethea Suryadibrata, S.Kom,. M.Eng.
Mengetahui,
Ketua Program Studi Informatika,
Marlinda Vasty Overbeek, S.Kom., M.Kom. 30 Juni 2021 Digitally signed by Marlinda Vasty Overbeek Date: 2021.06.30 11:25:02 +07'00' Digitally signed by Marlinda Vasty Overbeek Date: 2021.06.30 11:25:13 +07'00'
iii
PERNYATAAN TIDAK MELAKUKAN PLAGIAT
Dengan ini saya:
Nama : M. Havis
NIM : 00000011879
Program Studi : Informatika
Fakultas : Fakultas Teknik dan Informatika
menyatakan bahwa Skripsi yang berjudul “IMPLEMENTASI METODE
RANDOM FOREST DAN RECURSIVE FEATURE ELIMINATIONUNTUK KLASIFIKASI BERITA “ ini adalah karya ilmiah
saya sendiri, bukan plagiat dari karya ilmiah yang ditulis oleh orang lain atau lembaga lain, dan semua karya ilmiah orang lain ataulembaga lain yang dirujuk dalam Skripsi ini telah disebutkan sumber kutipannya serta dicantumkan di Daftar Pustaka.
Jika di kemudian hari terbukti ditemukan kecurangan/ penyimpangan, baik dalam pelaksanaan Skripsi maupun dalam penulisan laporan Skripsi, saya bersedia menerima konsekuensi dinyatakan TIDAK LULUS untuk mata kuliah Skripsi yang telah saya tempuh
Tangerang, 30 Juni 2021
iv
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH
UNTUK KEPENTINGAN AKADEMIS
Sebagai sivitas akademik Universitas Multimedia Nusantara, saya yang bertanda tangan di bawah ini:
Nama : M. Havis
NIM : 00000011879
Program Studi : Informatika
Fakultas : Fakultas Teknik dan Informatika Jenis Karya : Skripsi
Demi pengembangan ilmu pengetahuan, menyetujui dan memberikan izin kepada
Universitas Multimedia Nusantara hak Bebas Royalti Non-eksklusif
(Non-exclusive Royalty-Free Right) atas karya ilmiah saya yang berjudul:
IMPLEMENTASI METODE RANDOM FOREST DAN RECURSIVE FEATURE ELIMINATION UNTUK KLASIFIKASI BERITA
beserta perangkat yang diperlukan.
Dengan Hak Bebas Royalti Non-eksklusif ini, pihak Universitas Multimedia
Nusantara berhak menyimpan, mengalih media atau format-kan, mengelola
dalam bentuk pangkalan data (database), merawat, dan mendistribusi dan menampilkan atau mempublikasikan karya ilmiah saya di internet atau media lain untuk kepentingan akademis, tanpa perlu meminta izin dari saya maupun memberikan royalti kepada saya, selama tetap mencantumkan nama saya sebagai penulis karya ilmiah tersebut.
Demikian pernyataan ini saya buat dengan sebenarnya untuk dipergunakan sebagaimana mestinya.
Tangerang, 30 Juni 2021
v
HALAMAN PERSEMBAHAN / MOTO
Karya ini kupersembahkan untuk orang yang pantang menyerah
jadilah seperti bebek menndayung dan bekerja keras di dalam air tetapi yang dilihat orang adalah wajah yang tersenyum dan tenang Sakit sekarang belum tentu akhirnya menyakitkan
lalukan yang terbaik di setiap tindakan tidak akan mengecewakanmu
vi
KATA PENGANTAR
Puji syukur pada Tuhan Yang Mahakuasa karena atas rahmat-Nya skripsi berjudul “Implementasi Metode Random Forest dan Recursive Feature Elimination untuk Klasifikasi Berita ” ini dapat selesai tepat waktu. Laporan ini disusun sebagai salah satu syarat meraih gelar Sarjana Komputer pada Program Studi Informatika Fakultas Teknik dan Informatika Universitas Multimedia Nusantara
Dalam penyusunan laporan ini, tentu tidak lepas dari pengarahan dan bimbingan dari berbagai pihak. Dengan segala hormat, penulis ucapkan terima kasih kepada:
1. Dr. Ninok Leksono, selaku Rektor Universitas Multimedia Nusantara. 2. Marlinda Vasty Overbeek, S.Kom., M.Kom., selaku Ketua Program Studi
Informatika Universitas Multimedia Nusantara.
3. Julio Christian Young, S.Kom., M.Kom. dan Alethea Suryadibrata, S.Kom., M.Eng, yang membimbing pembuatan skripsi dan yang telah mengajar penulis tata cara menulis karya ilmiah dengan benar,
4. Reza Fadhilah Khan selaku peneliti sebelumnya yang telah bersedia memberikan data dan seluruh informasi terkait dengan penelitian yang telah beliau lakukan sebelumnya.
5. Teman dan sahabat, khususnya Azhari Satria, Arief Gunawan, Al Mixev Victoro, Andre Justyn, Nyoman Tri Anjasmara, Reddy Kusuma, Ricky Marten yang telah banyak membantu dan memberi dukungan dalam menyelesaikan laporan ini.
Penulis juga mengucapkan terimakasih sebesar besarnya kepada Orang tua dan Keluarga yang senantiasa mendukung penulis, serta pihak pihak lainnya yang membantu penulis dalam menyusun skripsi yang tidak dapat disebutkan satu per satu.
Semoga skripsi ini dapat bermanfaat, baik sebagai sumber informasi maupun sumber inspirasi, bagi para pembaca.
vii Tangerang, 29 Juni 2021
viii
IMPLEMENTASI METODE RANDOM FOREST DAN
RECURSIVE FEATURE ELIMINATION UNTUK
KLASIFIKASI BERITA
ABSTRAK
Teknologi informasi berkembang dengan pesat efisiensi dan kepraktisan hal yang berpengaruh dalam perkembangan teknologi informasi. Media online merupakan hasil dari perkembangan teknologi informasi yang tadinya berupa media fisik namun sekarang dalam bentuk digital. Media online menyajikan berita yang tersusun di dalam kategori berita seperti berita politik, kriminal, olahraga dan lainnya. Pembagian kategori berita atau sub-kategori dalam media online masih dilakukan secara manual sehingga memakan banyak waktu dan sumber daya komputasi. Penelitian sebelumnya telah mengembangkan model kategorisasi berita secara otomatis berdasarkan data milik PT. Merah Putih Media menggunakan metode Random Forest Classifier dan Metode TF-IDF sebagai algoritma dan metodenya. Pada penelitian ini model yang telah dihasilkan pada penelitian sebelumnya akan dicoba proses optimasi model Random Forest dan TF-IDF menggunakan Recursive Feature Elimination. Implementasi Recursive Feature Elimination mengurangi 19% fitur pada model Random Forest dan mendapatkan performa F1-Score sebesar 93,44% di saat penelitian sebelumnya hanya mendapatkan performa sebesar F1-Score 93,08%.
ix
IMPLEMENTATION OF RANDOM FOREST
AND RECURSIVE FEATURE ELIMINATION
METHODS FOR NEWS CLASSIFICATION
ABSTRACT
Information technology is growing rapidly, efficiency and practicality are things that affect the development of information technology. Online media is the result of the development of information technology which was previously in the form of physical media but is now in digital form. Online media presents news arranged in news categories such as political news, crime, sports and others. The division of news categories or sub-categories in online media is still done manually so that it takes up a lot of time and computing resources. Previous research has developed an automatic news categorization model based on PT. Merah Putih Media uses the Random Forest Classifier method and the TF-IDF method as its algorithm and method. In this study, the model that has been generated in previous studies will try the optimization process of Random Forest and TF-IDF models using Recursive Feature Elimination. The implementation of Recursive Feature Elimination reduces 19% of features in the Random Forest model and gets an F1-Score performance of 93.44% when the previous research only got a performance of F1-Score of 93.08%.
x
DAFTAR ISI
HALAMAN JUDUL ... i
LEMBAR PENGESAHAN ... ii
PERNYATAAN TIDAK MELAKUKAN PLAGIAT ... iii
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH ... iv
HALAMAN PERSEMBAHAN / MOTO ...v
KATA PENGANTAR ... vi
ABSTRAK ... viii
ABSTRACT ... ix
DAFTAR ISI ...x
DAFTAR GAMBAR ... xi
DAFTAR TABEL ... xii
BAB 1 PENDAHULUAN ...1
1.1 Latar Belakang Masalah ...1
1.2 Rumusan Masalah ...3
1.3 Batasan Masalah ...4
1.4 Tujuan Penelitian ...4
1.5 Manfaat Penelitian ...5
1.6 Sistematika Penulisan ...5
BAB 2 LANDASAN TEORI ...7
2.1 Text Classification dan Text Pre-processing ...7
2.2 Decision Tree Learning ...8
2.3 Term Frequency Inverse Document Frequency ...10
2.4 Random Forest Classifier ...11
2.5 F1-Score ...12
2.6 Recursive Feature Elimination ...13
BAB 3 METODOLOGI PENELITIAN...14
3.1 Metodologi Penelitian ...14
3.2 Pengumpulan Data ...16
3.3 Perancangan Aplikasi ...16
3.3.1 Flowchart Klasifikasi ...17
3.3.2 Flowchart Text Preprocessing ...18
3.3.3 Flowchart Model Training & Evaluation ...19
3.3.4 Flowchart Algoritma ...21
BAB 4 HASIL DAN DISKUSI ...26
4.1 Spesifikasi Sistem ...26
4.2 Implementasi Sistem ...26
4.2.1 Potongan Kode ...27
4.3 Analisis Hasil Implementasi ...33
BAB 5 SIMPULAN DAN SARAN ...37
5.1 Simpulan ...37
5.2 Saran ...37
DAFTAR PUSTAKA ...39
xi
DAFTAR GAMBAR
Gambar 3. 1 Flowchart Klasifikasi ...18
Gambar 3. 2 Flowchart Pre-processing ...19
Gambar 3. 3 Flowchart Data Training ...20
Gambar 3. 4 Flowchart Decision Tree ...21
Gambar 3. 5 Flowchart Tree Construction ...22
Gambar 3. 6 Flowchart Algoritma Random Forest Classifier ...24
Gambar 4. 1 Potongan Code Case Folding ...27
Gambar 4. 2 Potongan Code Tokenisasi ...28
Gambar 4. 3 Potongan Stopwords Removal ...29
Gambar 4. 4 Potongan Code Stemming ...30
Gambar 4. 5 Potongan Code Implementasi Model ...31
Gambar 4. 6 Potongan Code Plotting Perngaruh Performa Per jumlah Fitur ...31
Gambar 4. 7 Potongan Code Hyperparameter Tuning Model dengan RFE ...32
Gambar 4. 8 Potongan Code Plotting Pengaruh Performa per Jumlah Fitur pada Model Baru ...32
Gambar 4. 9 Plotting Pengaruh Performa per Jumlah Fitur pada Model dengan RFE ...34
Gambar 4. 10 Plotting Performa F1-Score per Jumlah Fitur pada Model dengan RFE ...34
Gambar 4. 11 Plotting Performa F1-Score per Jumlah Fitur pada Model dengan RFE dan Proses Hyperparameter Tuning Kembali ...35
Gambar 4. 12 Detail Performa F1-Score per Jumlah Fitur pada Model dengan RFE dan Proses Hyperparameter Tuning Kembali ...36
xii
DAFTAR TABEL
Tabel 2. 1 Tabel Confusion Matrix ...12 Tabel 4. 1 Hasil Implementasi Algoritma Random Forest Classifier Penelitian Terdahulu ...33