ANALISIS PERBANDINGAN ALGORITMA DECISION TREE DENGAN ALGORITMA RANDOM TREE UNTUK
PROSES PRE PROCESSING DATA
TESIS
SAIFULLAH 117038036
PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA MEDAN
ANALISIS PERBANDINGAN ALGORITMA DECISION TREE DENGAN ALGORITMA RANDOM TREE UNTUK
PROSES PRE PROCESSING DATA
TESIS
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Magister Teknik Informatika
SAIFULLAH 117038036
PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA MEDAN
PERSETUJUAN
Judul : ANALISIS PERBANDINGAN ALGORITMA
DECESION TREE DENGAN ALGORITMA RANDOM TREE UNTUK PROSES PRE PROCESSING DATA
Nama Mahasiswa : SAIFULLAH Nomor Induk Mahasiswa : 117038036
Program Studi : MAGISTER TEKNIK INFORMATIKA
Fakultas : ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
Komisi Pembimbing :
Pembimbing 2 Pembimbing 1
Dr. Zakarias Situmorang Prof. Dr. Muhammad Zarlis
Diketahui/disetujui oleh Magister Teknik Informatika Ketua,
Prof. Dr. Muhammad Zarlis NIP : 195707011986011003
PERNYATAAN
ANALISIS PERBANDINGAN ALGORITMA DECISION TREE DENGAN ALGORITMA RANDOM TREE UNTUK
PROSES PRE PROCESSING DATA
TESIS
Saya mengakui semua karya tesis ini adalah hasil kerja saya sendiri kecuali kutipan dan ringkasan yang tiap bagiannya telah dijelaskan sumbernya.
Medan, 19 Desember 2013
PERNYATAAN PERSETUJUAN PUBLIKASI
Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di bawah ini:
Nama : SAIFULLAH
NIM : 117038036
Program Studi : Magister (S2) Teknik Informatika Jenis Karya Ilmiah : TESIS
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive
Royalty free Right) atas Tesis saya yang berjudul:
ANALISIS PERBANDINGAN ALGORITMA DECISION TREE DENGAN ALGORITMA RANDOM TREE UNTUK
PROSES PRE PROCESSING DATA
Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non-Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk database, merawat dan mempublikasikan Tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan/atau sebagai pemilik hak cipta.
Demikian pernyataan ini dibuat dengan sebenarnya.
Medan, 19 Desember 2013
Telah diuji pada
Tanggal : 19 Desember 2013
PANITIA PENGUJI TESIS
Ketua : Prof. Dr. Muhammad Zarlis Anggota : 1. Dr. Zakarias Situmorang
2. Prof. Dr. Herman Mawengkang 3. Prof. Dr. Tulus
RIWAYAT HIDUP
DATA PRIBADI
Nama lengkap (berikut gelar) : Saifullah, S.Kom Tempat dan Tanggal Lahir : Kota Pari, 07 Mei 1979
Alamat Rumah : Jl. Tanah Jawa No. 42 Pematangsiantar Telepon / HP : 085296690027
Instansi Tempat Bekerja : AMIK Tunas Bangsa
Alamat Kantor : Jl. Jendral Sudirman Blok A No. 1,2,3 Pematangsiantar
Telepon : (0622) 22431
DATA PENDIDIKAN
KATA PENGANTAR
Puji syukur kehadirat Allah SWT Tuhan Yang Maha Esa atas segala limpahan rakhmad dan karunia-Nya sehingga Tesis ini dapat diselesaikan melalui bimbingan, arahan dan bantuan yang diberikan berbagai pihak khususnya pembimbing, pembanding, para dosen, rekan-rekan mahasiswa/i, khususnya mahasiswa/i Program Studi Magister (S2) Teknik Informatika di FASILKOM Universitas Sumatera Utara.
Tesis dengan judul: “Analisis Perbandingan Algoritma Decision Tree Dengan Algoritma Random Tree Untuk Proses Pre Processing Data” adalah merupakan Tesis dan syarat untuk memperoleh gelar Magister Komputer dalam Program Studi Magister (S2) Teknik Informatika pada Program Pascasarjana Fasilkom-TI Universitas Sumatera Utara.
Dengan selesainya tesis ini, perkenankanlah penulis mengucapkan terima kasih yang sebesar-besarnya kepada:
Ketua Yayasan Muhammad Nasir AMIK Tunas Bangsa Pematangsiantar H. Maulia Ahmad Ridwan Syah yang telah memberikan izin, bantuan moril dan materil dan kesempatan kepada penulis untuk mengikuti pendidikan lanjutan pada Program Pascasarjana Fasilkom-TI Universitas Sumatera Utara.
Direktur AMIK Tunas Bangsa Pematangsiantar Rahmat Widia Sembiring SE, Msc.IT dan Plt. Direktur Dedy Hartma, ST, M.Kom yang telah memberikan izin, bantuan moril dan materil dan motivasi dalam penyelesaikan pendidikan Program Magister (S2).
Rektor Universitas Sumatera Utara, Prof. Dr. dr. Syahril Pasaribu, DTM&H, M,Sc (CTM), Sp. A(K) atas kesempatan yang diberikan kepada penulis untuk mengikuti dan menyelesaikan pendidikan Program Magister (S2).
Dekan Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara, Prof. Dr. Muhammad Zarlis atas kesempatan yang diberikan kepada penulis menjadi mahasiswa Program Magister (S2) pada Program Pascasarjana Fasilkom Universitas Sumatera Utara.
Muhammad Zarlis, Sekretaris Program Studi Magister (S2) Teknik Informatika M. Andri Budiman, ST, M. Comp. Sc, M.EM beserta seluruh Staff dan Staff Pengajar pada Program Studi Magister (S2) Teknik Informatika Program Pascasarjana Fasilkom-TI Universitas Sumatera Utara, yang telah bersedia membimbing penulis, sehingga dapat menyelesaikan pendidika Pascasarjana.
Terimakasih yang tak terhingga dan penghargaan setinggi-tingginya kami ucapkan kepada Prof. Dr. Muhammad Zarlis selaku Pembimbing Utama dan Dr. Zakarias Situmorang selaku Pembimbing Anggota yang dengan penuh kesabaran membimbing, memotivasi, memberikan dukungan moril, kritik dan saran serta memberikan bahan-bahan yang berkaitan dengan penyusunan tesis ini sehingga penulis dapat menyelesaikan tesis ini dengan baik.
Terimakasih yang tak terhingga dan penghargaan setinggi-tingginya kami ucapkan kepada Prof. Dr. Herman Mawengkang, Prof. Dr. Tulus, dan Dr. Erna Budhiarti Nababan, M.IT sebagai pembanding, yang telah memberikan saran, masukan dan arahan yang baik demi penyelesaian tesis ini.
Seluruh Staf Pengajar dan Administrasi, Program Studi Magister (S2) Teknik Informatika Program Pascasarjana Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara yang telah memberikan bantuan dan pelayanan yang baik kepada penulis selama mengikuti perkuliahan.
Orangtua tercinta Ayahanda dan Ibunda, serta Ibu Mertua serta semua keluarga yang senantiasa mendoakan, dan memberikan dorongan kepada penulis.
Anak tercinta, Inda Ramadhani yang selalu mendoakan, memberikan semangat, serta kesabarannya untuk menanti penulis pulang dalam masa pendidikan, budi baik ini tidak dapat dibalas hanya diserahkan kepada Allah SWT, Tuhan Yang maha Esa.
Rekan Mahasiswa baik yang senior maupun Angkatan ke Tiga Program Studi Magister (S2) Fasilkom-TI Universitas Sumatera Utara dan Rekan Sejawat di AMIK Tunas Bangsa Pematangsiantar yang telah banyak membantu penulis selama mengikuti perkuliahan.
Anda berikan untuk penulis turut menghantarkan penulis untuk menyelesaikan pendidikan yang ditempuh selama ini. Dengan segala kekurangan dan kerendahan hati, semoga kiranya Allah SWT Tuhan Yang Maha Kuasa membalas segala bantuan, kebaikan yang telah diberikan.
Medan, 19 Desember 2013 Penulis,
ABSTRAK
Pemrosesan data sangatlah dibutuhkan beberapa metode untuk mendapatkan hasil yang lebih baik. Perbandingan-perbandingan dari metode tersebut sangat dibutuhkan untuk pengolahan data yang lebih baik. Penelitian ini ditujukan dataset sebagai inputan preprocessing, dan selanjutnya digunakan pada aplikasi model aturan algoritma decision tree, random tree dan random forest, menggunakan software rapidminer. Pohon Keputusan digunakan untuk membuat model aturan yang akan dipilih dalam mengambil keputusan. Dari pendekatan preprocessing data dan model aturan yang didapat, dapat menjadi perhatian bagi pengambil keputusan untuk melihat dan mengambil keputusan variabel mana yang harus diperhatikan untuk mendukung peningkatan kinerja karyawan.
ANALYSIS OF THE COMPARISON OF ALGORITHM DECISION TREE WITH ALGORITHM RANDOM TREE
FOR DATA PRE-PROCESSING PROCESS
ABSTRACT
Data processing is needed several methods to get better results. Comparisons of these methods are needed to get better data processing. This research shows that a dataset as input preprocessing, and subsequently used in the application of the model rules of decision tree algorithm, random tree and random forest algorithm using the software RapidMiner. Decision trees are used to make the model rules to be selected in making decisions. From the data preprocessing approach and the model rules obtained can be a concern for decision makers to see and make decisions, which variables must be considered to support the improvement of employee performance.
DAFTAR ISI
2.6.1 Jenis-Jenis Metode Preprocessing Data 14
BAB IV HASIL DAN PEMBAHASAN 20
4.1. Pendahuluan 20
4.2 Hasil Percobaan 20
4.2.1 Diskripsi Sampel Data 21 4.2.2 Hasil Processing 22 4.2.2.1 Decision Tree 22 4.2.2.2 Random Tree 23 4.2.2.3 Random Forest 26 4.2.3 Preprocessing dengan Missing Value 39 4.2.3.1 Decision Tree 39 4.2.3.2 Random Tree 41 4.2.3.3 Random Forest 43
BAB V KESIMPULAN DAN SARAN 56
5.1. Kesimpulan 56
5.2. Saran 56
DAFTAR PUSTAKA 57
DAFTAR GAMBAR
Hal. Gambar 2.1. Bidang Ilmu Data Mining 5 Gambar 2.2. Proses dari Data Mining 7 Gambar 3.1. Alur Pre Processing data 17 Gambar 4.1. Model Preprocessing Handle missing value ascategory
dengan implentasi decision tree 22 Gambar 4.2. Hasil decision tree 22 Gambar 4.3. Rule decision tree dengan implentasi handle missing
value category 23
Gambar 4.4. Model Preprocessing handle missing value as category
dengan implementasi random tree 24 Gambar 4.5. Hasil random tree implentasi handle missing value as
category 24
Gambar 4.6. Rule random tree dengan implementasi handle missing
value as category 25
Gambar 4.7. Model 1 preprocessing handle missing value as category dengan implementasi random forest 26 Gambar 4.8. Model 1 handle missing value as category dengan
implementasi random forest 26 Gambar 4.9. Teks model 1 rule random forest dengan implentasi
handle missing value as category 27
Gambar 4.10. Model 2 handle missing value as category dengan
implementasi random forest 27
Gambar 4.11. Teks model 2 rule random forest dengan implementasi
handle missing value as category 28
Gambar 4.12. Model 3 handle missing value as category dengan
implementasi random forest 28 Gambar 4.13. Teks model 3 rule random forest dengan implementasi
Gambar 4.14. Model 4 handle missing value as category dengan
implementasi random forest 29 Gambar 4.15. Teks Model 4 rule random forest dengan implementasi
handle missing value as category 30
Gambar 4.16. Model 5 handle missing value as category dengan
implementasi random forest 30 Gambar 4.17. Teks Model 5 rule random forest dengan implementasi
handle missing value as category 31
Gambar 4.18. Model 6 handle missing value as category dengan
implementasi random forest 32 Gambar 4.19. Teks model 6 rule random forest dengan implementasi
handle missing value category 33
Gambar 4.20. Model 7 handle missing value as category dengan
implementasi random forest 33 Gambar 4.21. Teks Model 7 rule random forest dengan implementasi
handle missing value as category 34
Gambar 4.22. Model 8 handle missing value as category dengan
implementasi random forest 35 Gambar 4.23. Teks Model 8 rule random forest dengan implementasi
handle missing value as category 35
Gambar 4.24. Model 9 handle missing value as category dengan
implementasirandom forest 36
Gambar 4.25. Teks Model 9 rule random forest dengan implementasi
hiandlemissing value as category 37
Gambar 4.26. Model 10 handle missing value as category dengan
implementasi random forest 37 Gambar 4.27. Teks Model 10 rule random forest dengan implementasi
handle missing value as category 38
Gambar 4.28. Model preprocessingnya missing value replenishment
Gambar 4.29. Hasil decission tree implementasi missing value
replenishment 39
Gambar 4.30. Rule decision tree dengan implementasi missing
valuereplenishment 40
Gambar 4.31. Model Preprocessingmissingvaluereplenishment
dengan implementasi random tree 41 Gambar 4.32. Hasil random tree implementasi missing value
replenishment 41
Gambar 4.33. Rule random tree dengan implementasi missing
value replenishment 42
Gambar 4.34. Model Preprocessingnya Missing value replenisment
dengan implementasi random tree 43 Gambar 4.35. Model 1 Missing value replenishment dengan
implementasi random forest 43 Gambar 4.36. Teks Model 1 rule random forest dengan implementasi
missing value replenishment 44
Gambar 4.37. Model 2 Missing value replenishment dengan
implementasi random forest 44 Gambar 4.38. Teks Model 2 rule random forest dengan implementasi
missing value replenishment 45
Gambar 4.39. Model 3 Missing value replenishment dengan
implementasi random forest 46 Gambar 4.40. Teks Model 3 rule random forest dengan implementasi
missing value replenishment 47
Gambar 4.41. Model 4 Missing value replenishment dengan
implementasi random forest 47 Gambar 4.42. Teks Model 4 rule random forest dengan implementasi
missing value replenishment 48
Gambar 4.43. Model 5 Missing value replenishment dengan
Gambar 4.44. Teks Model 5 rule random forest dengan implementasi
missing value replenishment 49
Gambar 4.45. Model 6 Missing value replenishment dengan
implementasi random forest 49 Gambar 4.46. Teks Model 6 rule random forest dengan implementasi
missing value replenishment 50
Gambar 4.47. Model 7 Missing value replenishment dengan
implementasi random forest 51 Gambar 4.48. Teks Model 7 rule random forest dengan implementasi
missing value replenishment 51
Gambar 4.49. Model 8 Missing value replenishment dengan
implementasi random forest 52 Gambar 4.50. Teks Model 8 rule random forest dengan implementasi
missing value replenishment 53
Gambar 4.51. Model 9 Missing value replenishment dengan
implementasi random forest 53 Gambar 4.52. Teks Model 9 rule random forest dengan implementasi
missing value replenishment 54
Gambar 4.53. Model 10 Missing value replenishment dengan
implementasi random forest 54 Gambar 4.54. Teks Model 10 rule random forest dengan implementasi