IMPLEMENTASI METODE GRADIENT BOOSTING DECISION TREE PADA KLASIFIKASI KATEGORI
BERITA MEDIA ONLINE
SKRIPSI
Rizki Dwijaya Sakti 00000014826
PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK DAN INFORMATIKA UNIVERSITAS MULTIMEDIA NUSANTARA
TANGERANG
2022
ii
Implementasi Metode Gradient Boosting Decision Tree Pada Klasifikasi Kategori Berita Media Online, Rizki Dwijaya Sakti, Universitas Multimedia Nusantara
IMPLEMENTASI METODE GRADIENT BOOSTING DECISION TREE PADA KLASIFIKASI KATEGORI
BERITA MEDIA ONLINE
SKRIPSI
Diajukan sebagai salah satu syarat untuk memperoleh Gelar Sarjana Informatika
RIZKI DWIJAYA SAKTI 00000014826
PROGRAM STUDI INFORMATIKA
FAKULTAS TEKNIK DAN INFORMATIKAUNIVERSITAS MULTIMEDIA NUSANTARA
TANGERANG
2022
iii
Implementasi Metode Gradient Boosting Decision Tree Pada Klasifikasi Kategori Berita Media Online, Rizki Dwijaya Sakti, Universitas Multimedia Nusantara
HALAMAN PERNYATAAN TIDAK PLAGIAT
Dengan ini saya,
Nama : Rizki Dwijaya Sakti
Nomor Induk Mahasiswa : 00000014826
Program studi : Informatika
Skripsi dengan judul:
Implementasi Metode Gradient Boosting Decision Tree Pada Klasifikasi Kategori Berita Media Online
merupakan hasil karya saya sendiri bukan plagiat dari karya ilmiah yang ditulis oleh orang lain, dan semua sumber baik yang dikutip maupun dirujuk telah saya nyatakan dengan benar serta dicantumkan di Daftar Pustaka.
Jika di kemudian hari terbukti ditemukan kecurangan/ penyimpangan, baik dalam pelaksanaan skripsi maupun dalam penulisan laporan skripsi, saya bersedia menerima konsekuensi dinyatakan TIDAK LULUS untuk Tugas akhir yang telah saya tempuh.
Tangerang, 14 Januari 2022
Rizki Dwijaya Sakti
iv
Implementasi Metode Gradient Boosting Decision Tree Pada Klasifikasi Kategori Berita Media Online, Rizki Dwijaya Sakti, Universitas Multimedia Nusantara
HALAMAN PENGESAHAN
Skripsi dengan judulIMPLEMENTASI METODE GRADIENT BOOSTING DECISION TREE PADA KLASIFIKASI KATEGORI BERITA MEDIA ONLINE
Oleh
Nama : Rizki Dwijaya Sakti
NIM : 00000014826
Program Studi : Informatika
Fakultas : Fakultas Teknik dan Informatika
Telah disetujui untuk diajukan pada
Sidang Ujian SkripsiUniversitas Multimedia Nusantara Tangerang, 14 Januari 2022
Pembimbing 1
Julio Christian Young, S.Kom., M.Kom.
0312079401
Ketua Informatika
Marlinda Vasty Overbeek, S.Kom., M.Kom.
Pembimbing 2
Alethea Suryadibrata, S.Kom., M.Eng.
0322099201 Ketua Sidang
Dennis Gunawan S.Kom., M.Sc.
0320059001
Penguji
Marlinda Vasty Overbeek, S.Kom., M.Kom.
0818038501
Digitally signed by Dennis Gunawan DN: CN=Dennis Gunawan, C=ID, OU=Department of Informatics, O=Universitas Multimedia Nusantara,
[email protected] Reason: I am approving this document
Location: Tangerang Date: 2022-01-27 12:55:08
0818038501
M
v
Implementasi Metode Gradient Boosting Decision Tree Pada Klasifikasi Kategori Berita Media Online, Rizki Dwijaya Sakti, Universitas Multimedia Nusantara
HALAMAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS
Sebagai sivitas akademik Universitas Multimedia Nusantara, saya yang bertandatangan di bawah ini:
Nama : Rizki Dwijaya Sakti
NIM : 00000014826
Program Studi : Informatika
Fakultas : Fakultas Teknik dan Informatika JenisKarya : Skripsi
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Multimedia Nusantara Hak Bebas Royalti Nonekslusif (Non-exclusive Royalty-Free Right) atas karya ilmiah saya yang berjudul:
Implementasi Metode Gradient Boosting Decision Tree Pada Klasifikasi Kategori Berita Media Online
Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non eksklusif ini Universitas Multimedia Nusantara berhak menyimpan, mengalih media / format-kan, mengelola dalam bentuk pangkalan data (database), merawat, dan mempublikasikan tugas akhir saya selama tetap mencantumkan nama saya sebagai penulis / pencipta dan sebagai pemilik Hak Cipta. Demikian pernyataan ini saya buat dengan sebenarnya.
Tangerang, 27 Desember 2021 Yang menyatakan,
Rizki Dwijaya Sakti
vi
Implementasi Metode Gradient Boosting Decision Tree Pada Klasifikasi Kategori Berita Media Online, Rizki Dwijaya Sakti, Universitas Multimedia Nusantara
KATA PENGANTAR
Puji Syukur atas selesainya penulisan Skripsi Implementasi Metode Gradient Boosting Decision Tree Pada Klasifikasi Kategori Berita Media
Online Sarjana
Jurusan Informatika Pada Fakultas Teknik Dan Informatika Universitas Multimedia Nusantara. Saya menyadari bahwa, tanpa bantuan dan bimbingan dari berbagai pihak, dari masa perkuliahan sampai pada penyusunan tugas akhir ini, sangatlah sulit bagi saya untuk menyelesaikan tugas akhir ini. Oleh karena itu, saya mengucapkan terima kasih kepada:
1. Bapak Dr. Ninok Leksono, selaku Rektor Universitas Multimedia Nusantara.
2. Bapak Dr. Eng. Niki Prastomo, S.T., M.Sc., selaku Dekan Fakultas Universitas Multimedia Nusantara.
3. Ibu Marlinda Vasty Overbeek, S.Kom., M.Kom., selaku Ketua Program Studi Universitas Multimedia Nusantara.
4. Julio Christian Young, S.Kom., M.Kom., sebagai pembimbing pertama yang telah meluangkan waktu untuk memberikan bimbingan, arahan dan motivasi atas terselesainya tesis ini.
5. Alethea Suryadibrata, S.Kom., M.Eng., sebagai pembimbing kedua yang telah meluangkan waktu untuk memberikan bimbingan, arahan dan motivasi atas terselesainya tesis ini.
6. Keluarga dan teman-teman yang selalu mendukung selama proses pembuatan skripsi.
Semoga karya ilmiah ini bermanfaat, baik sebagai sumber informasi maupun sumber inspirasi, bagi para pembaca.
Tangerang, 27 Desember 2021
Rizki Dwijaya Sakti
vii
Implementasi Metode Gradient Boosting Decision Tree Pada Klasifikasi Kategori Berita Media Online, Rizki Dwijaya Sakti, Universitas Multimedia Nusantara
IMPLEMENTASI METODE GRADIENT BOOSTING DECISION TREE PADA KLASIFIKASI KATEGORI
BERITA MEDIA ONLINE
Rizki Dwijaya SaktiABSTRAK
Perkembangan teknologi dan informasi yang tersebar di internet terus mengalami peningkatan. Bentuk informasi yang terus bertambah yaitu berita. Media Cetak dan media elektronik kini telah dikemas dalam bentuk digital, yang biasa dikenal dengan portal berita online atau media online. Pembagian artikel berita biasanya dilakukan secara manual. Maka, dibutuhkan algoritma untuk mengklasifikasi berita seccara otomatis. Berita yang diberikan terdiri atas kategori berita tentang Indonesia yaitu Gaya Hidup, Hiburan, dan Olahraga. Teknik Text Processing dipilih untuk melakukan penelitian ini. Text Processing adalah suatu teknik yang digunakan untuk mengolah data sehingga dapat digunakan untuk pemodelan klasifikasi. Penelitian ini dilakukan klasifikasi kategori dengan otomatis dengan algoritma Gradient Boosting Classifier. Gradient boosting mempunyai kemampuan untuk meningkatkan akurasi prediktif model. Penelitian ini mengimplementasikan TF-IDF sebagai ekstraksi fitur dengan menggunakan dua model yaitu analyzer character dan word. Penelitian ini berhasil mendapatkan paramter terbaik seperti learning rate, max depth, min samples split dan n estimators dengan strategi brute force parameter searching dan k-fold cross validation. Model menggunakan metode GridSearchCV untuk mendapatkan parameter terbaik. Model mendapatkan nilai akurasi terbaik dengan penilaian metrik F1-Score dengan pembagian Training Data dan Testing Data sebanyak 80:20, diperoleh performa F1-Score sebesar 93,4% untuk analyzer menggunakan character dan 93,5% untuk analyzer menggunakan word.
Kata kunci: Classification, Text Processing, Gradient Boosting, ngram range , TF-IDF, F1-Score
viii
Implementasi Metode Gradient Boosting Decision Tree Pada Klasifikasi Kategori Berita Media Online, Rizki Dwijaya Sakti, Universitas Multimedia Nusantara
IMPLEMENTATION OF GRADIENT BOOSTING DECISION TREE METHOD IN NEWS CATEGORY CLASSIFICATION
Rizki Dwijaya Sakti ABSTRACT
The advancement of innovation and data spread on the web keeps on expanding. The type of data that keeps on developing is news. Print media and electronic media have now been bundled in computerized structure, ordinarily known as online news entries or online media. The dissemination of news stories is normally done physically. Thus, a calculation is expected to order news naturally. The news gave comprises of information classes about Indonesia, to be specific Lifestyle, Entertainment, and Sports. Text Processing strategy was picked to lead this examination. Text Processing is a procedure used to deal with information so it very well may be utilized for characterization demonstrating. This exploration is done via naturally ordering classifications with the Gradient Boosting Classifier calculation. Gradient Boosting can expand the prescient exactness of the model. This examination executes TF-IDF as component extraction utilizing two models, specifically character and word analyzer. This examination prevailed with regards to getting the best boundaries like learning rate, max depth, min tests split and n estimators with the procedure of brute force parameter searching and k-fold cross validation approval. The model uses the GridSearchCV strategy to get the hyperparameters. The model gets the best precision esteem with the F1-Score metric appraisal with the circulation of Training Data and Testing Data as much as 80:20, the F1-Score execution is gotten by 93.4% for the analyzer utilizing character and 93.5% for the analyzer utilizing word.
Keywords: Classification, Text Processing, Gradient Boosting, ngram range, TF- IDF, F1-Score
ix
Implementasi Metode Gradient Boosting Decision Tree Pada Klasifikasi Kategori Berita Media Online, Rizki Dwijaya Sakti, Universitas Multimedia Nusantara
DAFTAR ISI
HALAMAN PERNYATAAN TIDAK PLAGIAT ... III HALAMAN PENGESAHAN ... IV HALAMAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS ... V KATA PENGANTAR ... VI ABSTRACT ... VIII DAFTAR ISI ... IX DAFTAR TABEL ... XI DAFTAR GAMBAR ... XII DAFTAR RUMUS ... XIII DAFTAR LAMPIRAN... XIV
BAB 1 PENDAHULUAN ... 1
1.1 LATAR BELAKANG MASALAH ... 1
1.2 RUMUSAN MASALAH ... 3
1.3 BATASAN MASALAH ... 4
1.4 TUJUAN PENELITIAN ... 4
1.5 MANFAAT PENELITIAN ... 4
1.6 SISTEMATIKA PENULISAN ... 4
BAB 2 LANDASAN TEORI ... 6
TEXT CLASSIFICATION ... 6
TEXT PREPROCESSING ... 6
2.2.1 Case Folding ... 6
2.2.2 Tokenisasi ... 6
2.2.3 Filtering... 7
2.2.4 Stemming ... 7
TERM FREQUENCY INVERSE DOCUMENT FREQUENCY ... 7
DECISION TREE ... 8
ENSEMBLE ... 10
BOOSTING ... 10
GRADIENT BOOSTING ... 10
EXTREME GRADIENT BOOSTING ... 12
EVALUASI KLASIFIKASI ... 13
BAB 3 METODOLOGI PENELITIAN ... 15
3.1 METODOLOGI PENELITIAN ... 15
x
Implementasi Metode Gradient Boosting Decision Tree Pada Klasifikasi Kategori Berita Media Online, Rizki Dwijaya Sakti, Universitas Multimedia Nusantara
3.2 TEKNIK PENGUMPULAN DATA ... 16
3.3 PERANCANGAN SISTEM ... 16
3.3.1 Flowchart Umum Sistem ... 16
3.3.2 Flowchart Modul Preprocessing Data ... 18
3.3.3 Flowchart Modul Case Folding ... 19
3.3.4 Flowchart Tokenization ... 20
3.3.5 Flowchart Filtering ... 21
3.3.6 Flowchart Stemming ... 22
3.3.7 Flowchart Modul Data Training dan Evaluation ... 23
3.3.8 Flowchart Algoritma Gradient Boosting Classifier ... 25
BAB 4 IMPLEMENTASI DAN ANALISIS ... 27
4.1 SPESIFIKASI SISTEM ... 27
4.2 IMPLEMENTASI TRAINING DAN EVALUATION ... 27
4.2.1 Implementasi Preprocessing Data ... 27
4.2.2 Implementasi Training dan Evaluasi Model ... 30
BAB V SIMPULAN DAN SARAN ... 38
5.1.SIMPULAN ... 38
5.2.SARAN ... 38
DAFTAR PUSTAKA ... 39
LAMPIRAN ... 42
xi
Implementasi Metode Gradient Boosting Decision Tree Pada Klasifikasi Kategori Berita Media Online, Rizki Dwijaya Sakti, Universitas Multimedia Nusantara
DAFTAR TABEL
Tabel 2.1 Tabel Parameter pada Xtreme Gradient Boosting ... 12
Tabel 2.2 Tabel Confusion Matrix ... 13
Tabel 4.1 Tabel Confusion Matrix Model Character ... 36
Tabel 4.2 Tabel Nilai Precision, Recall, dan F1-Score Model Character ... 36
Tabel 4.3 Tabel Confusion Matrix Model Word ... 37
Tabel 4.4 Tabel Nilai Precision, Recall, dan F1-Score Model Word ... 37
xii
Implementasi Metode Gradient Boosting Decision Tree Pada Klasifikasi Kategori Berita Media Online, Rizki Dwijaya Sakti, Universitas Multimedia Nusantara
DAFTAR GAMBAR
Gambar 2. 1 Struktur Decision Tree ... 9
Gambar 3. 1 Flowchart Umum Sistem ... 17
Gambar 3. 2 Flowchart Modul Preprocessing Data ... 18
Gambar 3. 3 Flowchart Modul Case Folding ... 19
Gambar 3. 4 Flowchart Modul Tokenisasi ... 20
Gambar 3. 5 Flowchart Modul Stopwords Removal ... 21
Gambar 3. 6 Flowchart Modul Stemming... 22
Gambar 3. 7 Flowchart Modul Data Training and Evaluation... 23
Gambar 3. 8 Flowchart Modul Algoritma Gradient Boosting Classifier... 25
Gambar 4. 1 Potongan Kode Case Folding ... 28
Gambar 4. 2 Potongan Kode Gambar 4. 3 Potongan Kode Stopwords Removal ... 29
Gambar 4. 4 Potongan Kode Stemming ... 30
Gambar 4. 5 Potongan Kode Save Preprocessed Data ... 30
Gambar 4. 6 Potongan Kode Load Preprocessed Data ... 31
Gambar 4. 7 Potongan Kode Inisialisasi TF-IDF dan Gradient Boosting... 31
Gambar 4. 8 Potongan Kode Potongan Kode Pencarian Parameter Model Char ... 32
Gambar 4. 9 Potongan Kode Potongan Kode Pencarian Parameter Model Word ... 32
Gambar 4. 10 Potongan Kode Keluaran Hasil Parameter analyzer char ... 32
Gambar 4. 11 Potongan Kode Keluaran Hasil Parameter analyzer word ... 33
Gambar 4. 12 Potongan Kode Pembagian Dataset ... 33
Gambar 4. 13 Potongan Kode Evaluasi Model Berdasarkan Pelatihan Ulang dan Parameter Terbaik analyzer char ... 33
Gambar 4. 13 Potongan Kode Evaluasi Model Berdasarkan Pelatihan Ulang dan Parameter Terbaik analyzer word ... 34
xiii
Implementasi Metode Gradient Boosting Decision Tree Pada Klasifikasi Kategori Berita Media Online, Rizki Dwijaya Sakti, Universitas Multimedia Nusantara
DAFTAR RUMUS
Rumus(2. 1) ... 7
Rumus(2. 2) ... 8
Rumus(2. 3) ... 8
Rumus(2. 4) ... 8
Rumus (2. 5) ... 9
(2. 6) ... 9
Rumus (2. 7) ... 11
Rumus(2. 8) ... 11
Rumus(2. 9) ... 11
Rumus (2. 10) ... 12
Rumus(2. 11) ... 12
xiv
Implementasi Metode Gradient Boosting Decision Tree Pada Klasifikasi Kategori Berita Media Online, Rizki Dwijaya Sakti, Universitas Multimedia Nusantara
DAFTAR LAMPIRAN
A. Form Bimbingan Skripsi Pembimbing 1 ... 42
B. Form Bimbingan Skripsi Pembimbing 2 ... 43
C. Daftar Riwayat Hidup ... 44
D. Turnitin ... 45