• Tidak ada hasil yang ditemukan

IMPLEMENTASI METODE RANDOM FOREST DAN RECURSIVE FEATURE ELIMINATION UNTUK KLASIFIKASI BERITA

N/A
N/A
Protected

Academic year: 2021

Membagikan "IMPLEMENTASI METODE RANDOM FOREST DAN RECURSIVE FEATURE ELIMINATION UNTUK KLASIFIKASI BERITA"

Copied!
12
0
0

Teks penuh

(1)

IMPLEMENTASI METODE RANDOM FOREST DAN

RECURSIVE FEATURE ELIMINATION UNTUK

KLASIFIKASI BERITA

SKRIPSI

Diajukan sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer (S.Kom.)

M. HAVIS 00000011879

PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK DAN INFORMATIKA UNIVERSITAS MULTIMEDIA NUSANTARA

TANGERANG 2021

(2)

ii

LEMBAR PENGESAHAN

IMPLEMENTASI METODE RANDOM FOREST DAN

RECURSIVE FEATURE ELIMINATION UNTUK

KLASIFIKASI BERITA

Oleh

Nama : M. Havis

NIM : 00000011879

Program Studi : Informatika

Fakultas : Teknik dan Informatika

Tangerang, 30 Juni 2021 Ketua Sidang,

Marlinda Vasty Overbeek, S.Kom., M.Kom.

Dosen Penguji,

Arya Wicaksana, S.Kom., M.Eng.Sc.

Dosen pembimbing I

Julio Christian Young, S.Kom., M.Kom.

Dosen Pembimbing II

Alethea Suryadibrata, S.Kom,. M.Eng.

Mengetahui,

Ketua Program Studi Informatika,

Marlinda Vasty Overbeek, S.Kom., M.Kom. 30 Juni 2021 Digitally signed by Marlinda Vasty Overbeek Date: 2021.06.30 11:25:02 +07'00' Digitally signed by Marlinda Vasty Overbeek Date: 2021.06.30 11:25:13 +07'00'

(3)

iii

PERNYATAAN TIDAK MELAKUKAN PLAGIAT

Dengan ini saya:

Nama : M. Havis

NIM : 00000011879

Program Studi : Informatika

Fakultas : Fakultas Teknik dan Informatika

menyatakan bahwa Skripsi yang berjudul “IMPLEMENTASI METODE

RANDOM FOREST DAN RECURSIVE FEATURE ELIMINATIONUNTUK KLASIFIKASI BERITA “ ini adalah karya ilmiah

saya sendiri, bukan plagiat dari karya ilmiah yang ditulis oleh orang lain atau lembaga lain, dan semua karya ilmiah orang lain ataulembaga lain yang dirujuk dalam Skripsi ini telah disebutkan sumber kutipannya serta dicantumkan di Daftar Pustaka.

Jika di kemudian hari terbukti ditemukan kecurangan/ penyimpangan, baik dalam pelaksanaan Skripsi maupun dalam penulisan laporan Skripsi, saya bersedia menerima konsekuensi dinyatakan TIDAK LULUS untuk mata kuliah Skripsi yang telah saya tempuh

Tangerang, 30 Juni 2021

(4)

iv

PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH

UNTUK KEPENTINGAN AKADEMIS

Sebagai sivitas akademik Universitas Multimedia Nusantara, saya yang bertanda tangan di bawah ini:

Nama : M. Havis

NIM : 00000011879

Program Studi : Informatika

Fakultas : Fakultas Teknik dan Informatika Jenis Karya : Skripsi

Demi pengembangan ilmu pengetahuan, menyetujui dan memberikan izin kepada

Universitas Multimedia Nusantara hak Bebas Royalti Non-eksklusif

(Non-exclusive Royalty-Free Right) atas karya ilmiah saya yang berjudul:

IMPLEMENTASI METODE RANDOM FOREST DAN RECURSIVE FEATURE ELIMINATION UNTUK KLASIFIKASI BERITA

beserta perangkat yang diperlukan.

Dengan Hak Bebas Royalti Non-eksklusif ini, pihak Universitas Multimedia

Nusantara berhak menyimpan, mengalih media atau format-kan, mengelola

dalam bentuk pangkalan data (database), merawat, dan mendistribusi dan menampilkan atau mempublikasikan karya ilmiah saya di internet atau media lain untuk kepentingan akademis, tanpa perlu meminta izin dari saya maupun memberikan royalti kepada saya, selama tetap mencantumkan nama saya sebagai penulis karya ilmiah tersebut.

Demikian pernyataan ini saya buat dengan sebenarnya untuk dipergunakan sebagaimana mestinya.

Tangerang, 30 Juni 2021

(5)

v

HALAMAN PERSEMBAHAN / MOTO

Karya ini kupersembahkan untuk orang yang pantang menyerah

jadilah seperti bebek menndayung dan bekerja keras di dalam air tetapi yang dilihat orang adalah wajah yang tersenyum dan tenang Sakit sekarang belum tentu akhirnya menyakitkan

lalukan yang terbaik di setiap tindakan tidak akan mengecewakanmu

(6)

vi

KATA PENGANTAR

Puji syukur pada Tuhan Yang Mahakuasa karena atas rahmat-Nya skripsi berjudul “Implementasi Metode Random Forest dan Recursive Feature Elimination untuk Klasifikasi Berita ” ini dapat selesai tepat waktu. Laporan ini disusun sebagai salah satu syarat meraih gelar Sarjana Komputer pada Program Studi Informatika Fakultas Teknik dan Informatika Universitas Multimedia Nusantara

Dalam penyusunan laporan ini, tentu tidak lepas dari pengarahan dan bimbingan dari berbagai pihak. Dengan segala hormat, penulis ucapkan terima kasih kepada:

1. Dr. Ninok Leksono, selaku Rektor Universitas Multimedia Nusantara. 2. Marlinda Vasty Overbeek, S.Kom., M.Kom., selaku Ketua Program Studi

Informatika Universitas Multimedia Nusantara.

3. Julio Christian Young, S.Kom., M.Kom. dan Alethea Suryadibrata, S.Kom., M.Eng, yang membimbing pembuatan skripsi dan yang telah mengajar penulis tata cara menulis karya ilmiah dengan benar,

4. Reza Fadhilah Khan selaku peneliti sebelumnya yang telah bersedia memberikan data dan seluruh informasi terkait dengan penelitian yang telah beliau lakukan sebelumnya.

5. Teman dan sahabat, khususnya Azhari Satria, Arief Gunawan, Al Mixev Victoro, Andre Justyn, Nyoman Tri Anjasmara, Reddy Kusuma, Ricky Marten yang telah banyak membantu dan memberi dukungan dalam menyelesaikan laporan ini.

Penulis juga mengucapkan terimakasih sebesar besarnya kepada Orang tua dan Keluarga yang senantiasa mendukung penulis, serta pihak pihak lainnya yang membantu penulis dalam menyusun skripsi yang tidak dapat disebutkan satu per satu.

Semoga skripsi ini dapat bermanfaat, baik sebagai sumber informasi maupun sumber inspirasi, bagi para pembaca.

(7)

vii Tangerang, 29 Juni 2021

(8)

viii

IMPLEMENTASI METODE RANDOM FOREST DAN

RECURSIVE FEATURE ELIMINATION UNTUK

KLASIFIKASI BERITA

ABSTRAK

Teknologi informasi berkembang dengan pesat efisiensi dan kepraktisan hal yang berpengaruh dalam perkembangan teknologi informasi. Media online merupakan hasil dari perkembangan teknologi informasi yang tadinya berupa media fisik namun sekarang dalam bentuk digital. Media online menyajikan berita yang tersusun di dalam kategori berita seperti berita politik, kriminal, olahraga dan lainnya. Pembagian kategori berita atau sub-kategori dalam media online masih dilakukan secara manual sehingga memakan banyak waktu dan sumber daya komputasi. Penelitian sebelumnya telah mengembangkan model kategorisasi berita secara otomatis berdasarkan data milik PT. Merah Putih Media menggunakan metode Random Forest Classifier dan Metode TF-IDF sebagai algoritma dan metodenya. Pada penelitian ini model yang telah dihasilkan pada penelitian sebelumnya akan dicoba proses optimasi model Random Forest dan TF-IDF menggunakan Recursive Feature Elimination. Implementasi Recursive Feature Elimination mengurangi 19% fitur pada model Random Forest dan mendapatkan performa F1-Score sebesar 93,44% di saat penelitian sebelumnya hanya mendapatkan performa sebesar F1-Score 93,08%.

(9)

ix

IMPLEMENTATION OF RANDOM FOREST

AND RECURSIVE FEATURE ELIMINATION

METHODS FOR NEWS CLASSIFICATION

ABSTRACT

Information technology is growing rapidly, efficiency and practicality are things that affect the development of information technology. Online media is the result of the development of information technology which was previously in the form of physical media but is now in digital form. Online media presents news arranged in news categories such as political news, crime, sports and others. The division of news categories or sub-categories in online media is still done manually so that it takes up a lot of time and computing resources. Previous research has developed an automatic news categorization model based on PT. Merah Putih Media uses the Random Forest Classifier method and the TF-IDF method as its algorithm and method. In this study, the model that has been generated in previous studies will try the optimization process of Random Forest and TF-IDF models using Recursive Feature Elimination. The implementation of Recursive Feature Elimination reduces 19% of features in the Random Forest model and gets an F1-Score performance of 93.44% when the previous research only got a performance of F1-Score of 93.08%.

(10)

x

DAFTAR ISI

HALAMAN JUDUL ... i

LEMBAR PENGESAHAN ... ii

PERNYATAAN TIDAK MELAKUKAN PLAGIAT ... iii

PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH ... iv

HALAMAN PERSEMBAHAN / MOTO ...v

KATA PENGANTAR ... vi

ABSTRAK ... viii

ABSTRACT ... ix

DAFTAR ISI ...x

DAFTAR GAMBAR ... xi

DAFTAR TABEL ... xii

BAB 1 PENDAHULUAN ...1

1.1 Latar Belakang Masalah ...1

1.2 Rumusan Masalah ...3

1.3 Batasan Masalah ...4

1.4 Tujuan Penelitian ...4

1.5 Manfaat Penelitian ...5

1.6 Sistematika Penulisan ...5

BAB 2 LANDASAN TEORI ...7

2.1 Text Classification dan Text Pre-processing ...7

2.2 Decision Tree Learning ...8

2.3 Term Frequency Inverse Document Frequency ...10

2.4 Random Forest Classifier ...11

2.5 F1-Score ...12

2.6 Recursive Feature Elimination ...13

BAB 3 METODOLOGI PENELITIAN...14

3.1 Metodologi Penelitian ...14

3.2 Pengumpulan Data ...16

3.3 Perancangan Aplikasi ...16

3.3.1 Flowchart Klasifikasi ...17

3.3.2 Flowchart Text Preprocessing ...18

3.3.3 Flowchart Model Training & Evaluation ...19

3.3.4 Flowchart Algoritma ...21

BAB 4 HASIL DAN DISKUSI ...26

4.1 Spesifikasi Sistem ...26

4.2 Implementasi Sistem ...26

4.2.1 Potongan Kode ...27

4.3 Analisis Hasil Implementasi ...33

BAB 5 SIMPULAN DAN SARAN ...37

5.1 Simpulan ...37

5.2 Saran ...37

DAFTAR PUSTAKA ...39

(11)

xi

DAFTAR GAMBAR

Gambar 3. 1 Flowchart Klasifikasi ...18

Gambar 3. 2 Flowchart Pre-processing ...19

Gambar 3. 3 Flowchart Data Training ...20

Gambar 3. 4 Flowchart Decision Tree ...21

Gambar 3. 5 Flowchart Tree Construction ...22

Gambar 3. 6 Flowchart Algoritma Random Forest Classifier ...24

Gambar 4. 1 Potongan Code Case Folding ...27

Gambar 4. 2 Potongan Code Tokenisasi ...28

Gambar 4. 3 Potongan Stopwords Removal ...29

Gambar 4. 4 Potongan Code Stemming ...30

Gambar 4. 5 Potongan Code Implementasi Model ...31

Gambar 4. 6 Potongan Code Plotting Perngaruh Performa Per jumlah Fitur ...31

Gambar 4. 7 Potongan Code Hyperparameter Tuning Model dengan RFE ...32

Gambar 4. 8 Potongan Code Plotting Pengaruh Performa per Jumlah Fitur pada Model Baru ...32

Gambar 4. 9 Plotting Pengaruh Performa per Jumlah Fitur pada Model dengan RFE ...34

Gambar 4. 10 Plotting Performa F1-Score per Jumlah Fitur pada Model dengan RFE ...34

Gambar 4. 11 Plotting Performa F1-Score per Jumlah Fitur pada Model dengan RFE dan Proses Hyperparameter Tuning Kembali ...35

Gambar 4. 12 Detail Performa F1-Score per Jumlah Fitur pada Model dengan RFE dan Proses Hyperparameter Tuning Kembali ...36

(12)

xii

DAFTAR TABEL

Tabel 2. 1 Tabel Confusion Matrix ...12 Tabel 4. 1 Hasil Implementasi Algoritma Random Forest Classifier Penelitian Terdahulu ...33

Referensi

Dokumen terkait

Sama dengan hasil pada model Regresi Logistik, klasifikasi dengan model Random Forest dengan data imbalanced tanpa treatment menghasilkan nilai akurasi dan

Algortima random forests digunakan sebagai metode klasifikasi dalam machine learning yang memiliki tahapan random feature selection, dan bootstrap aggrigation dalam

Analisis kredit macet melalui perilaku nasabah pada koperasi simpan pinjam dengan menggunakan metode Algoritma Klasifikasi Random Forest untuk mendeteksi kredit

1) Metode random forest dapat digunakan untuk melakukan klasifikasi kualitas red wine. Jumlah pohon tidak mempengaruhi akurasi hasil klasifikasi. Semakin tinggi fold

Dengan ini saya menyatakan bahwa skripsi berjudul Pemodelan Klasifikasi Curah Hujan Bulanan di Kabupaten Indramayu dengan Metode Random Forest dan Rotation Forest adalah

Karena hasil performa pada metode tanpa sampling sudah baik, maka selanjutnya dilakukan klasifikasi Random Forest dengan menggunakan data yang tidak di sampling. Tahapan

Tombol proses pada halaman ini untuk melakukan klasifikasi dengan random forest sehingga mendapatkan hasil dari penjurusan siswa.Halaman input data siswa dapat dilihat pada Gambar 4..

Pada penelitian ini dilakukan klasifikasi terhadap penyakit kardiovaskular menggunakan algoritma Random Forest dengan hyperparameter tuning menggunakan Grid Search.. Pada penelitian ini