PERBANDINGAN ALGORITMA RANDOM FOREST, GRADIENT BOOSTING DAN ADABOOST DALAM PREDIKSI HARGA RUMAH TANGERANG SELATAN
SKRIPSI
Victor Angkawijaya Sudirgo
00000031268
PROGRAM STUDI SISTEM INFORMASI FAKULTAS TEKNIK DAN INFORMATIKA UNIVERSITAS MULTIMEDIA NUSANTARA
TANGERANG
2023
Perbandingan Algoritma Random…, Victor Angkawijaya Sudirgo, Universitas Multimedia i
Nusantara
PERBANDINGAN ALGORITMA RANDOM FOREST, GRADIENT BOOSTING DAN ADABOOST DALAM PREDIKSI HARGA RUMAH TANGERANG SELATAN
SKRIPSI
Diajukan sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer (S. Kom)
Victor Angkawijaya Sudirgo
00000031268
PROGRAM STUDI SISTEM INFORMASI FAKULTAS TEKNIK DAN INFORMATIKA UNIVERSITAS MULTIMEDIA NUSANTARA
TANGERANG
2023
Perbandingan Algoritma Random…, Victor Angkawijaya Sudirgo, Universitas Multimedia ii
Nusantara
HALAMAN PERNYATAAN TIDAK PLAGIAT
Perbandingan Algoritma Random…, Victor Angkawijaya Sudirgo, Universitas Multimedia iii
Nusantara
HALAMAN PENGESAHAN
Perbandingan Algoritma Random…, Victor Angkawijaya Sudirgo, Universitas Multimedia iv
Nusantara
HALAMAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS
Sebagai civitas academica Universitas Multimedia Nusantara, saya yang bertanda tangan di bawah ini:
Nama : Victor Angkawijaya Sudirgo
NIM : 00000031268
Program Studi : Sistem Informasi
Fakultas : Teknik dan Informatika
JenisKarya : Skripsi
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Multimedia Nusantara Hak Bebas Royalti Nonekslusif (Non-exclusive Royalty-Free Right) atas karya ilmiah saya yang berjudul.
PERBANDINGAN ALGORITMA RANDOM FOREST, GRADIENT BOOSTING DAN ADABOOST DALAM PREDIKSI HARGA RUMAH TANGERANG SELATAN
Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Noneksklusif ini, Universitas Multimedia Nusantara berhak menyimpan, mengalihmediakan/mengalihformatkan, mengelola dalam bentuk pangkalan data (database), merawat, dan memublikasikan tugas akhir saya selama tetap mencantumkan nama saya sebagai penulis/pencipta dan sebagai pemilik Hak Cipta.
Demikian pernyataan ini saya buat dengan sebenarnya.
Tangerang, 27 – Juni - 2023 Yang menyatakan,
(Victor Angkawijaya Sudirgo)
Perbandingan Algoritma Random…, Victor Angkawijaya Sudirgo, Universitas Multimedia v
Nusantara
KATA PENGANTAR
Mengucapkan terima kasih
1. Dr. Ninok Leksono, selaku Rektor Universitas Multimedia Nusantara.
2. Dr. Eng. Niki Prastomo, S.T., M.Sc., selaku Dekan Fakultas Universitas Multimedia Nusantara.
3. Ririn Ikana Desanti, S.Kom., M.Kom., selaku Ketua Program Studi Universitas Multimedia Nusantara.
4. Rudi Sutomo, S.Kom., M.Si., M.Kom. sebagai Pembimbing pertama yang telah memberikan bimbingan, arahan, dan motivasi atas terselesainya tugas akhir ini.
5. Orang tua dan keluarga saya yang telah memberikan bantuan dukungan material dan moral, sehingga penulis dapat menyelesaikan tugas akhir ini.
Semoga karya ilmiah ini dapat bermanfaat sebagai informasi untuk ilmu pengetahuan dan sumber inspirasi bagi pembaca.
Tangerang, 27-Juni-2023
(Victor Angkawijaya Sudirgo)
Perbandingan Algoritma Random…, Victor Angkawijaya Sudirgo, Universitas Multimedia vi
Nusantara
PERBANDINGAN ALGORITMA RANDOM FOREST, GRADIENT BOOSTING DAN ADABOOST DALAM PREDIKSI HARGA RUMAH TANGERANG SELATAN
(Victor Angkawjaya Sudirgo) ABSTRAK
Properti merupakan salah satu industri yang menjadi kebutuhan manusia.
Salah satu tipe properti adalah rumah, merupakan suatu bangunan dimana manusia tinggal dan melangsungkan kehidupannya. Menurut riset Bank Indonesia, pasar industri properti mengalami penurunan penjualan pada Q4 2022 dan juga mengalami kenaikan harga.
Dalam penelitian ini, implementasi machine learning dilakukan untuk membuat fitur mesin prediksi harga rumah yang ada di Tangerang Selatan.
Fitur mesin prediksi tersebut dapat melakukan prediksi harga rumah sesuai dengan lokasi dan spesifikasi rumah yang diinginkan oleh penggunanya.
Penelitian ini menggunakan 3 algoritma machine learning yaitu Random Forest, Gradient Boosting dan AdaBoost dengan metode data mining CRISP- DM. Setelah penelitian dilakukan, hasil menunjukan performa yang didapatkan dari ketiga algoritma yang menghasilkan hasil yang cukup baik. Random Forest mendapatkan hasil r-squared 0.84677 dan RMSE 726422429.22.
Gradient Boosting mendapatkan hasil r-squared 0.84902 dan RMSE 721066803.143, AdaBoost mendapatkan hasil r-squared 0.721942 dan RMSE 978561477.381. Random Forest dan Gradient Boosting memiliki hasil yang baik dan AdaBoost mendapatkan hasil yang cukup. Penelitian ini juga mendapatkan bahwa faktor yang paling mempengaruhi harga rumah merupakan luas bangunan. Implementasi fitur website menggunakan flask dibangun dan dapat digunakan untuk memprediksi harga rumah sesuai lokasi dan spesifikasi.
Kata kunci: CRISP-DM, Data Analisis , Machine learning, Rumah
Perbandingan Algoritma Random…, Victor Angkawijaya Sudirgo, Universitas Multimedia vii
Nusantara
COMPARISON OF RANDOM FOREST, GRADIENT BOOSTING AND ADABOOST ALGORITHMS IN PREDICTING HOUSE PRICES IN SOUTH TANGERANG
(Victor Angkawjaya Sudirgo) ABSTRACT (English)
Property is one of the industries that human needs. One type of property is a house, which is a building where humans live and carry out their lives.
According to Bank Indonesia research, the property industry market experienced a decline in sales in Q4 2022 and also experienced an increase in prices.
In this research, the implementation of machine learning is carried out to create a Prediction engine feature for house prices in South Tangerang. The Prediction engine feature can Predict house prices according to the location and specifications of the house desired by the user. This research uses 3 machine learning algorithms namely Random Forest, Gradient Boosting and AdaBoost with the CRISP-DM data mining method.
After the research was conducted, the results showed the performance obtained from the three algorithms which produced quite good results.
Random Forest gets an r-squared result of 0.84 and RMSE 726422429.22Gradient Boosting gets an r-squared result of 0.84902 and RMSE 721066803.143. AdaBoost got an r-squared result of 0.721942 and RMSE of 978561477.381. Random Forest and Gradient Boosting have good results and AdaBoost has fair results. This study also found that the factor that most influences the price of a house is the building area. The implementation of website features using flask was built and can be used to Predict house prices according to location and specifications.
Keywords:CRISP-DM, Data Analysis, House, Machine learning
viii
Perbandingan Algoritma Random…, Victor Angkawijaya Sudirgo, Universitas Multimedia Nusantara
DAFTAR ISI
HALAMAN PERNYATAAN TIDAK PLAGIAT ... ii
HALAMAN PENGESAHAN ... iii
HALAMAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS ... iii
KATA PENGANTAR ... v
ABSTRAK ... vi
ABSTRACT (English) ... vii
DAFTAR ISI ... viii
DAFTAR TABEL ... xi
DAFTAR GAMBAR ... xii
DAFTAR RUMUS ... xv
DAFTAR LAMPIRAN ... xvi
BAB I PENDAHULUAN ... 1
1.1 Latar Belakang ... 1
1.2 Rumusan Masalah ... 6
1.3 Batasan Masalah ... 6
1.4 Tujuan dan Manfaat Penelitian ... 7
1.4.1 Tujuan Penelitian ... 7
1.4.2 Manfaat Penelitian ... 7
1.5 Sistematika Penulisan ... 7
BAB II LANDASAN TEORI ... 9
Objek Penelitian ... 9
2.1.1 Rumah ... 9
2.1.2 Lamudi ... 9
Algoritma dan Framework ... 10
2.2.1 CRISP-DM ... 10
2.2.2 Random Forest ... 11
2.2.3 Gradient Boosting ... 14
2.2.4 AdaBoost ... 16
2.2.5 Flask ... 18
Perbandingan Algoritma Random…, Victor Angkawijaya Sudirgo, Universitas Multimedia ix
Nusantara
2.2.6 Cross validation ... 18
2.2.7 R-squared ... 19
2.2.8 Root Mean Square Error (RMSE) ... 19
Tools dan Teknik ... 19
2.3.1 Python ... 19
2.3.2 Jupyter ... 20
2.3.3 Selenium ... 20
2.3.4 Google Data Studio ... 21
Penelitian Terdahulu ... 21
BAB III METODOLOGI PENELITIAN ... 25
3.1 Objek Penelitian ... 25
3.2 Metode Penelitian ... 25
3.2.1 Business Understanding ... 27
3.2.2 Data Understanding ... 27
3.2.3 Data Preparation ... 29
3.2.4 Modeling ... 30
3.2.5 Evaluation ... 32
3.2.6 Deployment ... 34
3.3 Variabel Penelitian ... 34
3.3.1 Variabel Independen ... 34
3.3.2 Variabel Dependen ... 35
3.4 Teknik Pengumpulan Data ... 35
3.5 Teknik Analisis Data ... 36
BAB IV ANALISIS DAN HASIL PENELITIAN ... 38
4.1 Business understanding ... 38
4.2 Data understanding ... 38
4.2.1 Collect Data... 40
4.2.2 Analyze Data ... 45
4.2.3 Choose Variables ... 49
4.3 Data preparation ... 49
4.3.1 Extract Data ... 50
4.3.2 Clean Data ... 51
Perbandingan Algoritma Random…, Victor Angkawijaya Sudirgo, Universitas Multimedia x
Nusantara
4.3.3 One Hot Encoding ... 55
4.4 Modeling ... 57
4.4.1 Random Forest ... 57
4.4.2 Gradient Boosting ... 66
4.4.3 AdaBoost ... 75
4.5 Evaluation ... 84
4.6 Deployment ... 87
4.6.1 Home ... 88
4.6.2 Methods ... 89
4.6.3 Prediction ... 89
4.7 Result & Discussion ... 96
BAB V SIMPULAN DAN SARAN ... 98
5.1 Simpulan ... 98
5.2 Saran ... 99
DAFTAR PUSTAKA ... 100
LAMPIRAN ... 105
Perbandingan Algoritma Random…, Victor Angkawijaya Sudirgo, Universitas Multimedia xi
Nusantara
DAFTAR TABEL
Tabel 2.1 Penelitian terdahulu... 21
Tabel 3.1 Perbandingan Metode Data mining... 26
Tabel 3.2 Variabel data ... 28
Tabel 3.3 Perbandingan algoritma ... 31
Tabel 3.4 Perbandingan tools visualisasi ... 33
Tabel 3.5 Perbandingan bahasa pemrograman ... 36
Tabel 4.1 Hasil parameter cross-validation Random Forest ... 60
Tabel 4.2 Hasil performa model Random Forest ... 60
Tabel 4.3 Hasil perbandingan prediksi model Random Forest ... 61
Tabel 4.4 Hasil parameter cross-validation model Gradient Boosting ... 68
Tabel 4.5 Hasil performa model Gradient Boosting ... 69
Tabel 4.6 Hasil perbandingan prediksi model Gradient Boosting ... 70
Tabel 4.7 Hasil parameter cross-validation model AdaBoost ... 77
Tabel 4.8 Hasil performa model AdaBoost... 78
Tabel 4.9 Hasil perbandingan prediksi model AdaBoost ... 78
Tabel 4.10 Hasil perbandingan perfoma antar model ... 84
Tabel 4.11 Hasil perbandingan feature importance antar model ... 85
Tabel 4.12 Perbandingan Gradient Boosting dan AdaBoost dengan penelitian terdahulu ... 86
Tabel 4.13 Perbandingan Random Forest dengan penelitian terdahulu ... 87
Tabel 4.14 Tabel validasi prediksi model Random Forest ... 92
Tabel 4.15 Validasi perbandingan harga aktual Random Forest ... 92
Tabel 4.16 Tabel validasi prediksi model Gradient Boosting ... 93
Tabel 4.17 Validasi perbandingan harga prediksi Gradient Boosting ... 94
Tabel 4.18 Tabel validasi prediksi model AdaBoost ... 95
Tabel 4.19 Validasi perbandingan prediksi AdaBoost ... 95
Tabel 4.20 Hasil Penelitian ... 96
Tabel 4.21 Argumen Penelitian Terdahulu ... 96
Perbandingan Algoritma Random…, Victor Angkawijaya Sudirgo, Universitas Multimedia xii
Nusantara
DAFTAR GAMBAR
Gambar 1.1 Grafik Survei Harga Properti Resedensial Bank Indonesia ... 2
Gambar 2. 1 Siklus CRISP-DM ... 10
Gambar 2. 2 Gambar arsitektur Gradient Boosting ... 15
Gambar 3.1 Proses CRISP-DM ... 26
Gambar 3.2 Diagram Data understanding ... 27
Gambar 3.3 Diagram Data preparation ... 29
Gambar 3.4 Diagram Modeling ... 30
Gambar 3.5 Diagram Evaluation... 33
Gambar 3.6 Diagram Teknik Pengumpulan Data ... 36
Gambar 4.1 Halaman detail listing lamudi data area dan price ... 38
Gambar 4.2 Halaman detail listing lamudi rincian spesifikasi rumah ... 39
Gambar 4.3 Halaman detail listing lamudi fasilitas rumah ... 40
Gambar 4.4 Element halaman detail listing lamudi ... 41
Gambar 4.5 Halaman hasil pencarian listing lamudi ... 42
Gambar 4.6 Kode package scraping... 42
Gambar 4.7 Kode scraping link href halaman hasil pencarian lamudi ... 43
Gambar 4.8 Hasil scraping link href halaman hasil pencarian lamudi ... 43
Gambar 4.9 Kode scraping halaman detail listing ... 44
Gambar 4.10 Distribusi data area ... 46
Gambar 4.11 Distribusi jumlah kamar mandi ... 46
Gambar 4.12 Distribusi jumlah kamar tidur ... 47
Gambar 4.13 Distribusi jumlah car spaces ... 47
Gambar 4.14 Distribusi data luas bangunan ... 48
Gambar 4.15 Distribusi data luas tanah ... 49
Gambar 4.16 Kode penggabungan file csv ... 50
Gambar 4.17 Hasil dataframe hasil penggabungan file csv ... 50
Gambar 4.18 Informasi dataframe hasil penggabungan file csv ... 51
Gambar 4.19 Total duplikat ... 51
xiii
Perbandingan Algoritma Random…, Victor Angkawijaya Sudirgo, Universitas Multimedia Nusantara
Gambar 4.20 Kode fillna ... 51
Gambar 4.21 Data harga sebelum cleaning... 52
Gambar 4.22 Kode cleaning data harga ... 52
Gambar 4.23 Kode transformasi dan cleaning data lokasi ... 53
Gambar 4.24 Total null ... 53
Gambar 4.25 Kode dropna pada data ... 54
Gambar 4.26 Hasil dataframe setelah cleaning pertama ... 55
Gambar 4.27 Kode OneHotEncoder ... 55
Gambar 4.28 Informasi dataframe ... 56
Gambar 4.29 Kode transformasi data multiple_floor ... 56
Gambar 4.30 Kode penghapusan outlier ... 57
Gambar 4.31 Hasil final data setelah cleaning ... 57
Gambar 4.32 Kode cross-validation Random Forest ... 57
Gambar 4.33 List kolom pada data x ... 58
Gambar 4.34 List kolom pada data y ... 59
Gambar 4.35 Kode pemrosesan cross-validation Random Forest ... 59
Gambar 4.36 Perbandingan rata-rata per daerah Random Forest ... 62
Gambar 4.37 Scatter plot harga prediksi dan harga aktual Random Forest ... 63
Gambar 4.38 Grafik perbandingan prediksi 100 data pertama Random Forest .... 64
Gambar 4.39 Grafik perbandingan prediksi Random Forest ... 64
Gambar 4.40 Grafik feature importances model Random Forest ... 65
Gambar 4.41 Scatter plot harga prediksi dan luas bangunan Random Forest ... 66
Gambar 4.42 Kode cross-validation model Gradient Boosting ... 67
Gambar 4.43 Perbandingan rata-rata harga per daerah Gradient Boosting ... 71
Gambar 4.44 Scatter plot prediksi dan aktual Gradient Boosting ... 72
Gambar 4.45 Grafik perbandingan prediksi 100 data pertama Gradient Boosting 72 Gambar 4.46 Grafik perbandingan prediksi Gradient Boosting ... 73
Gambar 4.47 Grafik feature importance model Gradient Boosting ... 74
Gambar 4.48 Scatter plot harga prediksi dan luas bangunan Gradient Boosting . 75 Gambar 4.49 Potongan kode parameter cross-validation model AdaBoost ... 76
Perbandingan Algoritma Random…, Victor Angkawijaya Sudirgo, Universitas Multimedia xiv
Nusantara
Gambar 4.50 Potongan kode proses cross-validation AdaBoost ... 77
Gambar 4.51 Perbandingan rata-rata harga per daerah AdaBoost ... 80
Gambar 4.52 Scatter plot harga prediksi dan luas bangunan AdaBoost ... 80
Gambar 4.53 Grafik perbandingan prediksi 100 data pertama model AdaBoost . 81 Gambar 4.54 Grafik perbandingan prediksi model AdaBoost ... 81
Gambar 4.55 Grafik feature importance AdaBoost ... 82
Gambar 4.56 Scatter plot harga prediksi dan luas bangunan AdaBoost ... 83
Gambar 4.57 Perbandingan akurasi model ... 85
Gambar 4.58 Import model pada aplikasi ... 87
Gambar 4.59 Halaman Home ... 88
Gambar 4.60 Halaman Methods ... 89
Gambar 4.61 Halaman Prediction ... 90
Gambar 4.62 Hasil percobaan prediksi model Random Forest... 91
Gambar 4.63 Hasil percobaan prediksi model Gradient Boosting ... 93
Gambar 4.64 Hasil percobaan prediksi model AdaBoost ... 94
Perbandingan Algoritma Random…, Victor Angkawijaya Sudirgo, Universitas Multimedia xv
Nusantara
DAFTAR RUMUS
2.1 Rumus Prediksi pohon K Random Forest ... 14
2.2 Rumus Prediksi Akhir Random Forest ... 14
2.3 Rumus Inisialisasi Prediksi Gradient Boosting ... 15
2.4 Rumus Kalkulasi Residual Gradient Boosting ... 16
2.5 Rumus Akhir Gradient Boosting ... 16
2.6 Rumus AdaBoost ... 17
2.7 Rumus R-squared ... 19
2.8 Rumus RMSE ... 19
Perbandingan Algoritma Random…, Victor Angkawijaya Sudirgo, Universitas Multimedia xvi
Nusantara
DAFTAR LAMPIRAN
Lampiran 1 Model Random Forest ... 105
Lampiran 2 Model Gradient Boosting ... 105
Lampiran 3 Model AdaBoost ... 105
Lampiran 4 Formulir Konsultasi Skripsi... 106
Lampiran 5 Hasil Turnitin ... 107