Penanganan Masalah Kelas Tidak Seimbang Dengan Rusboost Dan Underbagging (Studi Kasus: Mahasiswa Drop Out Sps Ipb Program Magister)

(1)

PENANGANAN MASALAH KELAS TIDAK SEIMBANG

DENGAN RUSBOOST DAN UNDERBAGGING

(STUDI KASUS: MAHASISWA DROP OUT

SPs IPB PROGRAM MAGISTER)

YULIANA PERMATASARI

SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR

(2)

(3)

(4)

(5)

Dengan ini saya menyatakan bahwa tesis berjudul Penanganan Masalah Kelas Tidak Seimbang dengan RUSBoost dan UnderBagging (Studi Kasus: Mahasiswa Drop Out SPs IPB Program Magister) adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apapun kepada perguruan tinggi manapun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.

Bogor, Februari 2016

(6)

RINGKASAN

YULIANA PERMATASARI. Penanganan Masalah Kelas Tidak Seimbang dengan RUSBoost dan UnderBagging (Studi Kasus: Mahasiswa Drop Out SPs IPB Program Magister). Dibimbing oleh ASEP SAEFUDDIN dan BAGUS SARTONO.

Sekolah Pascasarjana Institut Pertanian Bogor (SPs IPB) didirikan tahun 1975 dengan tujuh program studi. Saat ini, SPs IPB memiliki 67 program studi magister dan 43 program studi doktoral. SPs IPB berusaha semaksimal mungkin untuk meningkatkan kualitas baik dari segi mutu proses penyelenggaraan pembelajaran maupun mutu lulusan. Mutu lulusan dapat dilihat dari tingkat persentase kelulusan mahasiswa yaitu persentase dari jumlah mahasiswa lulus dibagi dengan jumlah total mahasiswa pascasarjana untuk setiap angkatan. Asumsikan mahasiswa drop out mempengaruhi nilai mutu lulusan, semakin banyak mahasiswa drop out maka nilai mutu lulusan menjadi semakin buruk.

Penelitian ini bertujuan untuk membantu SPs IPB mendeteksi mahasiswa yang berisiko drop out dengan membangun sebuah model yang dibangkitkan dengan algoritme pohon klasifikasi. Pohon klasifikasi adalah gambaran pemodelan dari suatu persoalan yang terdiri dari serangkaian keputusan yang mengarah kepada solusi dengan peubah responnya kategorik.

Mahasiswa lulus jauh lebih banyak dibandingkan mahasiswa drop out, hal ini dikenal dengan kelas tidak seimbang. Kelas mahasiswa drop out dengan jumlah contoh yang jauh lebih sedikit disebut kelas minoritas atau positif, sedangkan kelas lulus disebut kelas mayoritas atau negatif. Pemodelan menggunakan pohon klasifikasi klasik akan menghasilkan model yang keputusannya condong kepada kelas mayoritas, sedangkan kelas minoritas dianggap sebagai noise. RUSBoost dan UnderBagging merupakan algoritme yang dapat digunakan untuk mengatasi masalah kelas tidak seimbang. RUSBoost merupakan kombinasi dari penarikan contoh acak undersampling dengan ensamble boosting, sedangkan UnderBagging adalah kombinasi dari penarikan contoh acak undersampling dengan ensamble bagging.

Dari hasil analisis, algoritme RUSBoost dan UnderBagging terbukti dapat memberikan performa yang lebih baik secara signifikan dibandingkan pohon klasifikasi klasik. RUSBoost dan UnderBagging menghasilkan pembagi yang lebih baik antara mahasiswa drop out dan mahasiswa lulus yang ditunjukkan dari Area Under ROC yang lebih luas. RUSBoost dan UnderBagging lebih sensitif/peka dalam memprediksi mahasiswa bersiko drop out. Sementara jika menggunakan pohon klasifikasi klasik, maka diperoleh model klasifikasi dengan nilai akurasi tinggi namun tidak sensitif terhadap objek pada kelas drop out. Hasil dari pengklasifikasian data mahasiswa SPs IPB tahun 2008-2010 menggunakan algoritme RUSBoost dan UnderBagging diperoleh bahwa faktor yang mempengaruhi status mahasiswa drop out dan mahasiswa lulus adalah beasiswa dan IPK S1.

(7)

SUMMARY

YULIANA PERMATASARI. Addressing Class Imbalance Problems Using RUSBoost and UnderBagging (Case on Drop Out Students in SPs IPB). Supervised by ASEP SAEFUDDIN and BAGUS SARTONO.

Bogor Agricultural University Graduate School (SPs IPB) was built in 1975, from only seven study programs initially to 67 magister and 43 doctoral programs. SPs IPB is required to always improve the quality of education process and graduates. Part of approximation indicators for quality of the graduates are the period of study and the percentage of graduated students. The percentage of graduated students is the number of graduated students divided by the total number of graduate students. It is assumed that the number of graduated student are related to the quality of study program. More the drop out students the worse the quality. Therefore, this indicators should be considered by the IPB Graduate School (SPs).

The aim of this study was to detect students at risk to study failure (drop out). Detection of students who are at risk to drop out can be analyzed by classification tree algorithm. Classification tree algorithm is a model containing a series of decisions to obtain an appropriate solution in which the response variable is categorical. In the application of the algorithm contains class imbalance problems which is the numbers of drop out students was much less than the number of passing student, is called class imbalance. Drop out students class with less instances was called minority or positive class, whereas passing class was called majority or negative class. Consequently, application of the classical tree classification algorithm was resulted to classification decision which were tend to the majority class while all samples of minority class were regarded as noise.

This study was using RUSBoost and UnderBagging algorithm to handle class imbalance problems. RUSBoost is a combination of random under sampling and boosting, while UnderBagging is a combination of random under sampling and bagging. Both of them are using under sampling method, which eliminates several instances on majority class so that the number of instances on majority class is relatively same to minority class. The purpose of this combination is to create a powerful model in classifying class imbalance.

Analysis results show that RUSBoost and Underbagging was proven to provide significantly better performance than using classical classification tree. RUSBoost and UnderBagging produced better separation between drop out class and passing class which is represents by higher Area Under Curve (ROC). RUSBoost and UnderBagging are more sensitive in predicting the risk of students who drop out than the classical classification tree. Whereas classical classification tree results classification model which had high accuracy performance, but was not sensitive to predict instances of drop out class. The classification of SPs IPB students in 2008-2010 using RUSBoost and UnderBagging algorithms shows that the factors which were affecting the status of drop out students and passing students were scholarship and GPA.

(8)

© Hak Cipta Milik IPB, Tahun 2016

Hak Cipta Dilindungi Undang-Undang

Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan IPB

(9)

Tesis

sebagai salah satu syarat untuk memperoleh gelar Magister Sains

pada

Program Studi Statistika Terapan

PENANGANAN MASALAH KELAS TIDAK SEIMBANG

DENGAN RUSBOOST DAN UNDERBAGGING

(STUDI KASUS: MAHASISWA DROP-OUT

SPs IPB PROGRAM MAGISTER)

SEKOLAH PASCASARJANA

INSTITUT PERTANIAN BOGOR

BOGOR

2016

(10)

ii

(11)

Judul Tesis : Penanganan Masalah Kelas Tidak Seimbang dengan RUSBoost dan UnderBagging (Studi Kasus: Mahasiswa Drop Out SPs IPB Program Magister)

Nama : Yuliana Permatasari NIM : G152130151

Disetujui oleh Komisi Pembimbing

Prof Dr Ir Asep Saefuddin, MSc Ketua

Dr Bagus Sartono, MSi Anggota

(12)

iv

PRAKATA

Puji dan syukur kehadirat Allah SWT yang telah melimpahkan rahmat dan hidayah-Nya, sehingga penulis dapat menyelesaikan tesis yang berjudul “Penanganan Masalah Kelas Tidak Seimbang dengan RUSBoost dan UnderBagging (Studi Kasus: Mahasiswa Drop Out SPs IPB Program Magister)”. Keberhasilan penulisan tesis ini tidak lepas dari bantuan, bimbingan, dan petunjuk dari berbagai pihak.

Terima kasih penulis ucapkan kepada Bapak Prof. Dr. Ir. Asep Saefuddin, M.Sc dan Bapak Dr. Bagus Sartono, M.Si selaku pembimbing, atas kesediaan dan kesabaran untuk membimbing dan membagi ilmunya kepada penulis dalam penyusunan tesis ini. Terimakasih kepada Bapak Dr. Ir. I Made Sumertajaya, M.S selaku penguji luar komisi pembimbing atas masukan yang diberikan. Ucapan terima kasih juga penulis sampaikan sebesar-besarnya kepada seluruh Dosen Departemen Statistika IPB yang telah mengasuh dan mendidik penulis selama di bangku kuliah hingga berhasil menyelesaikan studi, serta seluruh staf Departemen Statistika IPB atas bantuan, pelayanan, dan kerjasamanya selama ini.

Ucapan terima kasih yang tulus dan penghargaan yang tak terhingga juga penulis ucapkan kepada kedua orangtuaku Bapak Mukarramah Indra dan Ibu Ria Ningsih, kakakku Eka Widyaningsih, adik-adikku tersayang Intan Rosma Indra dan Berliana Nilam Indra serta seluruh keluarga atas doa dan semangatnya.

Terakhir tak lupa penulis juga menyampaikan terima kasih kepada seluruh mahasiswa Pascasarjana Departemen Statistika atas segala bantuan dan kebersamaannya selama menghadapi masa-masa terindah maupun tersulit dalam menuntut ilmu, serta semua pihak yang telah banyak membantu dan tak sempat penulis sebutkan satu per satu.

Semoga tesis ini dapat bermanfaat bagi semua pihak yang membutuhkan. Bogor, Februari 2016

(13)

DAFTAR ISI

DAFTAR TABEL vi

DAFTAR GAMBAR vi

DAFTAR LAMPIRAN vi

1 PENDAHULUAN 1

Latar Belakang 1

Tujuan Penelitian 3

2 TINJAUAN PUSTAKA 3

Mahasiswa drop out 3

Pohon Klasifikasi 4

Kelas Tidak Seimbang 5

Teknik Resampling 6

Metode Ensemble 6

RUSBoost 7

UnderBagging 8

Tabel Klasifikasi 9

3 METODE 11

Data 11

Metode Analisis 11

4 HASIL DAN PEMBAHASAN 13

Deskripsi Mahasiswa Sekolah Pascasarjana IPB Program Magister 13

Model Klasifikasi Mahasiswa IPB 15

Pohon Klasifikasi Klasik 15

RUSBoost (Random Under Sampling dan Boosting) 16 UnderBagging (Random Under-Sampling dan Bagging) 17

5 KESIMPULAN DAN SARAN 19

Kesimpulan 19

Saran 19

DAFTAR PUSTAKA 20

(14)

vi

DAFTAR TABEL

1 Tabel klasifikasi 9

2 Peubah penyusun model 11

3 Persentase mahasiswa drop out Sekolah Pascasarjana IPB 13 4 Tabel klasifikasi hasil prediksi pohon klasifikasi klasik pada data latih

dan uji 15

5 Kinerja klasifikasi model pohon klasifikasi klasik (%) 15 6 Kinerja model klasifikasi dari beberapa tingkat ketidakseimbangan

RUSBoost (%) 16

7 Kinerja model klasifikasi algoritme UnderBagging (%) 17

DAFTAR GAMBAR

1 Grafik persentase mahasiswa drop out SPs IPB program magister angkatan

2008-2010 3

2 Struktur pohon klasifikasi 4

3 Taksonomi metode berbasis ensemble 7

4 Ilustrasi proses UnderBagging 9

5 Kurva ROC dari beberapa tingkat ketidakseimbangan pada data latih (a)

dan data uji (b) 16

6 Kurva ROC dari model klasifikasi UnderBagging dengan pengembalian

(a) tanpa pengembalian (b) 17

DAFTAR LAMPIRAN

1 Persentase Kategori Peubah Penjelas dengan Peubah Respon 21

2 Deskripsi Peubah Kontinu 21

3 Diagram Pohon Klasifikasi Klasik 22

4 Peubah Penjelas yang berpengaruh (Variable Importance) pada

Pemodelan Menggunakan Pohon Klasifikasi Tunggal 23 5 Peubah Penjelas yang berpengaruh (Variable Importance) pada

Pemodelan Menggunakan metode RUSBoost 23

6 Peubah Penjelas yang berpengaruh (Variable Importance) pada

Pemodelan Menggunakan Metode UnderBagging 23

(15)

1 PENDAHULUAN

Latar Belakang

Institut Pertanian Bogor (IPB) merupakan salah satu universitas negeri terkemuka di Indonesia yang didirikan pada tahun 1963. IPB telah berperan aktif dalam mengembangkan ilmu pengetahuan dan teknologi khususnya pada bidang pertanian, pertenakan, dan bioscience (IPB 2015). Berbagai kerjasama telah dibangun IPB dengan berbagai institusi dari dalam dan luar negeri dalam upaya mewujudkan visi dan misi yang diembannya. Demikian pula, prestasi tingkat nasional dan tingkat internasional telah diraih IPB. Pada tahun 1975, IPB mendirikan Sekolah Pascasarjana (SPs) sebagai program pascasarjana pertama di Indonesia. Perkembangannya semakin pesat, awalnya hanya tujuh program studi, kini terdapat 67 program studi magister dan 43 program studi doktoral (IPB 2014). Sekolah Pascasarjana dituntut untuk selalu memperbaiki kualitas, mendukung percepatan kemajuan yang dicapai oleh IPB, baik dari segi mutu proses penyelenggaraan pembelajaran maupun mutu lulusan. Salah satu cerminan dari mutu lulusan adalah persentase kelulusan mahasiswa. Persentase kelulusan mahasiswa yaitu persentase dari jumlah mahasiswa lulus dibagi dengan jumlah total mahasiswa pascasarjana pada setiap angkatan.

Berdasarkan data yang diperoleh dari bagian akademik SPs IPB, terdapat mahasiswa drop out pada setiap angkatan, persentasenya semakin meningkat setiap angkatan. Hal ini dapat mempengaruhi tingkat mutu lulusan mahasiswa pascasarjana. Oleh karena itu dibutuhkan suatu model untuk mendeteksi mahasiswa yang berisiko drop out. Mendeteksi mahasiswa berisiko drop out pada saat penerimaan mahasiswa baru dapat menjadi suatu peringatan dini (early warning) bagi SPs IPB. SPs akan lebih waspada terhadap mahasiswa berisiko drop out, sehingga jumlah mahasiswa drop out dapat diminimalisir.

Pendeteksian mahasiswa berisiko drop out dapat dibangun dengan menerapkan hasil pemodelan klasifikasi mahasiswa yang lulus maupun drop out. Klasifikasi adalah teknik data mining yang menempatkan suatu objek ke dalam satu gugus kategori berdasarkan objek atau konsep yang bersangkutan. Misalkan peubah penjelas ( , , …) pada vektor , ruang contoh berisi vektor dan himpunan kelas peubah respon = {1,2, …. , }, menurut Breiman et al. (1984) klasifikasi adalah partisi ruang contoh menjadi kelas himpunan bagian yang saling lepas yaitu , …, dengan 

j j

A



 sedemikian sehingga untuk setiap ∈ diprediksi ke dalam kelas . Tujuan utama klasifikasi adalah membangun sebuah model klasifikasi untuk menentukan suatu penciri/kelas dari suatu kelompok data. Model klasifikasi dibangun dari gugus data yang disebut data latih (training set), sedangkan proses pemodelan disebut latihan (training/learning). Sebelum digunakan untuk memprediksi suatu data yang tidak diketahui kelasnya, terlebih dahulu dilakukan uji validasi terhadap model klasifikasi (classifier/learner) yang diperoleh menggunakan gugus data uji.

(16)

2

dari suatu persoalan yang terdiri dari serangkaian keputusan yang mengarah kepada solusi dengan peubah responnya kategorik, sedangkan pohon regresi peubah responnya numerik (Breiman et al. 1984). Peubah respon dalam penelitian ini merupakan peubah kategorik, oleh karena itu digunakan pohon klasifikasi.

Jumlah mahasiswa drop out jauh lebih sedikit dibandingkan mahasiswa lulus, sehingga data yang digunakan pada pemodelan tidak seimbang, hal ini dikenal dengan kelas tidak seimbang (class-imbalanced). Kelas dengan jumlah contoh lebih sedikit yang menjadi perhatian dalam penelitian disebut kelas minoritas (positif), sedangkan kelas yang lainnya disebut kelas mayoritas (negatif). Kelas tidak seimbang merupakan salah satu masalah yang muncul dalam pengklasifikasian, ketika menggunakan algoritme klasifikasi klasik keputusan akan lebih condong kepada kelas mayoritas, sedangkan kelas minoritas dalam pemodelan dianggap sebagai noise (Chawla et al. 2004). Oleh karena itu, kelas tidak seimbang harus ditangani untuk membentuk klasifikasi yang relevan.

Ada banyak metode penanganan masalah kelas tidak seimbang. Galar et al. (2011) mengelompokan menjadi tiga pendekatan, yaitu level algoritme, level data, dan cost-sensitive learning. Pendekatan level algoritme dilakukan dengan membuat atau memodifikasi algoritme yang ada, untuk memperhitungkan pentingnya contoh pada kelas minoritas. Pendekatan level data menyeimbangkan kelas pada data latih dengan menambahkan/mereplikasi contoh pada kelas minoritas (oversampling) atau mengeliminasi contoh pada kelas mayoritas (undersampling). Cost-sensitive learning merupakan pendekatan yang menggabungkan level algoritme dan data.

Selain ketiga pendekatan tersebut, metode ensemble dapat digunakan untuk menangani masalah kelas tidak seimbang, dengan cara menambahkan atau mengkombinasikan metode ensemble dengan salah satu dari ketiga pendekatan metode tersebut. Ensemble adalah metode yang menggabungkan beberapa klasifikasi tunggal dengan tujuan memperoleh suatu model klasifikasi yang lebih akurat. Metode gabungan terbaik berdasarkan penelitian Galar et al. (2011) adalah algoritme RUSBoost (Random Under-Sampling dan Boosting) dan UnderBagging (Under-Sampling dan Bagging). Penelitian ini menggunakan kedua algoritme tersebut untuk menangani masalah kelas tidak seimbang pada kasus mahasiswa drop out SPs IPB program magister.

Tujuan Penelitian

(17)

2 TINJAUAN PUSTAKA

Mahasiswa Drop Out

Mahasiswa Drop Out adalah mahasiswa yang tidak diizinkan oleh SPs IPB untuk meneruskan pendidikannya (drop out), apabila mahasiswa tersebut melebihi jangka waktu studi dan atau melanggar ketentuan yang berlaku. Jangka waktu studi program magister di SPs IPB tidak lebih dari 48 bulan. Ketentuan yang berlaku di SPs IPB yaitu, IPK mahasiswa tidak kurang dari 3.00. Pada akhir semester satu dan dua SPs IPB memberikan evaluasi terhadap mahasiswa, apabila IPK mahasiswa kurang dari 3.00, maka mahasiswa tersebut tidak dapat meneruskan studinya. Selain itu, mahasiswa dinyatakan gagal dan drop out apabila mahasiswa tersebut gagal dua kali pada ujian tesis (IPB 2014). Persentase mahasiswa drop out Sekolah Pascasarjana IPB dapat dilihat pada grafik Gambar1.

Gambar 1 Grafik persentase mahasiswa drop out SPs IPB program magister tahun angkatan 2008-2010

(18)

4

Pohon Klasifikasi

Pohon klasifikasi adalah suatu gambaran pemodelan dari suatu persoalan yang terdiri dari serangkaian keputusan yang mengarah kepada solusi dengan peubah responnya kategorik (Breiman et al. 1984). Tujuan dari pohon klasifikasi adalah untuk menduga nilai Y berdasarkan nilai X yang diketahui. Struktur pohon pada metode ini diperoleh melalui suatu algoritme penyekatan rekursif terhadap ruang penjelas X.

Gambar 2 Struktur pohon klasifikasi

Pada tahap awal, seluruh gugus data berada pada akar simpul (root node) t yang kemudian disekat menjadi dua anak gugus data, simpul kiri dan kanan, tL dan tR. Simpul dengan kelas yang masih bercampur didalamnya disekat kembali hingga tidak dapat disekat lebih lanjut. Sekatan akhir yang dihasilkan disebut simpul akhir (terminal node), sedangkan sekatan yang masih mungkin disekat disebut simpul dalam (non-terminal node). Diagram pohon yang dihasilkan pohon klasifikasi merupakan suatu model yang akan diinterpretasikan ke dalam suatu tabel. Pembentukan pohon klasifikasi memerlukan empat komponen yaitu (Breiman et al.1984):

1. Segugus pertanyaan biner S

Pohon klasifikasi dibentuk melalui penyekatan data pada tiap simpul menjadi dua anak simpul. Penyekat s dibangkitkan dari segugus pertanyaan S yang berbentuk pernyataan biner. Pembentukan pertanyaan dilakukan dengan aturan sebagai berikut:

a. Setiap sekat tergantung pada nilai yang hanya berasal dari satu peubah penjelas.

b. Untuk peubah penjelas kontinu , banyak sekat yang diperoleh adalah ≤ , dengan = 1,2, …, −1 dan c adalah nilai tengah antara dua nilai amatan peubah berurutan yang berbeda. Jadi jika mempunyai n nilai yang berbeda maka akan terdapat sebanyak-banyaknya n-1 penyekatan.

(19)

2. Kriteria kebaikan sekat (goodness of split)

Kriteria kebaikan sekat merupakan alat evaluasi untuk melihat kebaikan sekat-s pada simpul t. Jika sekat s pada simpul t menyekat data dengan proporsi ke dalam simpul bagian kanan dan dengan proporsi ke dalam simpul bagian kiri , maka kebaikan sekat didefinisikan sebagai penurunan nilai impurity:

∆ ( , ) = ( ) − ( )− ( ).

Keheterogenan data (impurity) pada setiap simpul diukur dengan formula berikut:

( ) = − ( | ) log ( | )

dengan ( ) merupakan fungsi keheterogenan yang melibatkan ( | ) proporsi kelas j pada simpul t. Nilai ( ) berkisar antara nol dan satu, ( ) bernilai maksimum ketika kelas dalam simpul masih bercampur, sebaliknya akan bernilai minimum ketika kelas dalam simpul telah homogen.

3. Aturan penghentian penyekatan (stop-spliting rule) akan menentukan saat suatu simpul tidak dapat disekat lebih lanjut. Misalkan threshold > 0, simpul t dikatakan simpul akhir apabila max _∈ ∆ ( , ) < .

4. Aturan penetapan tanda kelas pada setiap simpul akhir.

Misalkan pohon klasifikasi dibangun dan memiliki simpul akhir , aturan penetapan kelas ∗( ) pada simpul akhir adalah jika ( | ) = max ( | ), maka ∗( ) = . Jika nilai maksimum terdapat pada dua atau lebih kelas yang berbeda, maka ∗( ) salahsatu dari yang memaksimumkan kelas.

Kelas Tidak Seimbang

Kelas tidak seimbang terjadi ketika jumlah contoh suatu kelas secara ekstrim jauh lebih banyak dari kelas yang lain. Kelas dengan jumlah contoh yang lebih banyak disebut kelas mayoritas sedangkan kelas yang lain disebut kelas minoritas. Dalam aplikasi, rasio kelas minoritas dengan mayoritas dapat sebesar 1:100, 1:1000, 1:10000 atau bahkan lebih. Masalah kelas tidak seimbang sering terjadi pada kehidupan seperti; kesalahan diagnosis/pemantauan medis, manajemen risiko, pelanggan fraud, credit scoring, dan banyak kasus lainnya (Chawla et al. 2004).

(20)

6

beberapa pendekatan untuk menangani masalah kelas tidak seimbang, yaitu pendekatan level algoritme (internal), pendekatan level data (eksternal), dan pendekaatan cost-sensitive learning.

1. Pendekatan level algoritme dilakukan dengan membuat atau memodifikasi algoritme yang ada, untuk memperhitungkan pentingnya contoh mayoritas. 2. Pendekatan level data yaitu dengan menambahkan langkah penarikan contoh

resampling pada tahap pre-processing. Resampling menyeimbangkan distribusi data untuk mengurangi efek dari distribusi kelas tak seimbang dalam proses pemodelan dengan melakukan beberapa metode resampling seperti; oversampling, undersampling, atau gabungan dari kedua metode. 3. Metode cost-sensitive merupakan pendekatan yang menggabungkan

algoritme dan data tingkat untuk memasukkan kesalahan biaya klasifikasi masing-masing kelas pada tahap latihan.

Selain ketiga pendekatan tersebut, ensemble juga dapat digunakan untuk menangani masalah kelas tidak seimbang dengan cara mengkombinasi ensemble dengan salah satu pendekatan tersebut.

Tenik Resampling

Teknik resampling adalah proses manipulasi sebaran contoh pada data dalam upaya meningkatkan kinerja pengklasifikasian. Proses resampling dilakukan pada tahap pre-processing, sebelum proses pemodelan. Tujuan dari resampling adalah untuk menyeimbangkan gugus data yang tidak setimbang dengan oversampling pada kelas minoritas atau dengan undersampling pada kelas mayoritas.

Oversampling meningkatkan ukuran kelas minoritas pada gugus data latih dengan mereplikasi contoh pada kelas minoritas hingga diperoleh ukuran contoh yang diinginkan. Mereplikasi contoh pada kelas minoritas memungkinkan terjadinya overfitting. Undersampling merupakan metode resampling yang lebih efisien bila dibandingkan dengan oversampling, dengan menghilangkan beberapa contoh pada kelas mayor, gugus data menjadi lebih seimbang dan proses klasifikasi lebih cepat. Namun, undersampling memiliki kelemahan yaitu kehilangan beberapa informasi yang berguna pada contoh yang terbuang.

Metode Ensemble

Pengklasifikasian berbasis ensemble didesain untuk meningkatkan keakuratan pada klasifikasi tunggal dengan menginduksi dan menggabungkan beberapa klasifikasi tunggal. Secara umum, ensemble membangun model dengan dua tahap yaitu memodelkan beberapa klasifikasi dari data latih dan kemudian hasil prediksi tersebut dikombinasi untuk menentukan kelas dari data yang belum diketahui kelas sebelumnya. Metode ensemble yang populer digunakan adalah Bagging dan Boosting (Zhou 2012).

(21)

membangun m gugus data baru dari gugus data menggunakan teknik resampling booostrap, kemudian dari masing-masing gugus data dilakukan proses klasifikasi. Hasil dari klasifikasi tersebut di-voting untuk memperoleh prediksi akhir. Menggunakan Bagging ditujukan untuk mereduksi ragam dari peubah penjelas.

Boosting secara umum berfokus untuk membuat deret klasifikasi, setiap pengklasifikasi pada Boosting menggunakan data yang sama tetapi memiliki sebaran bobot yang berbeda pada setiap iterasi, tergantung pada klasifikasi sebelumnya. Penggunaan bobot juga dilakukan pada saat proses penggabungan dugaan akhir dari banyak pohon yang dihasilkan (Sartono & Syafitri 2010).

Belakangan ini, klasifikasi ensemble muncul sebagai salah satu solusi dalam penanganan masalah kelas tidak seimbang dengan cara mengkombinasikan ensemble dengan salah satu pendekatan. Berikut taksonomi ensemble untuk menangani masalah kelas tidak seimbang:

Gambar 3 Taksonomi metode berbasis ensemble

RUSBoost

RUSBoost, metode baru yang mulai ramai diperbincangkan merupakan gabungan dari random under-sampling (RUS) dengan metode ensemble yaitu boosting. Boosting adalah metode yang meningkatkan akurasi model klasifikasi dengan mengkombinasikan beberapa model klasifikasi tunggal. Model klasifikasi dilatih berulang kali menggunakan data latih yang sama tetapi memiliki sebaran bobot yang berbeda pada setiap iterasi. Setelah proses iterasi selesai, model klasifikasi yang diperoleh digabungkan. Algoritme RUSBoost menambahkan teknik resampling yaitu random undersampling pada algoritme boosting. Pada setiap iterasi, learner dilatih dengan data yang dibangkitkan dengan penarikan contoh acak undersampling setelah penambahan bobot. Oleh karena itu, pada algoritme RUSBoost contoh pada kelas mayoritas dihilangkan terlebih dahulu kemudian mengikuti tahap per tahap proses boosting pada data yang tersisa. Proses penarikan contoh dan boosting diulang berkali-kali.

Seieffert (2010) memaparkan algoritme RUSBoost sebagai berikut: Andaikan gugus data yang kita miliki terdiri atas m pengamatan, dengan y sebagai

Ensemble pada Kelas Tidak Seimbang

Cost-Sensitive Boosting

Data Preprocessing + Ensemble Learnig

Bagging-based

OverBagging

UnderBagging



Boosting -based

SMOTEBoost

MSMOTEBoos

Hybrid

EasyEnsemble

(22)

8

peubah respon yang memiliki k kelas. Secara ringkas, tahapan algoritme tersebut dapat dituliskan sebagai berikut:

1. Penentuan awal bobot setiap pengamatan, yaitu ( ) = 1/m untuk semua = 1,2, …,

2. Misalkan t adalah nomor iterasi, maka untuk t = 1, 2, … T lakukan proses berikut:

a. Buat gugus data dengan menggunakan random undersampling b. Bangun model klasifikasi dari gugus data dengan memperhatikan

bobot sebesar

c. Hitung tingkat kesalahan klasifikasi

= ( ) 1− ℎ ( , ) + ℎ ( , ) .

( , ) ;

d. Hitung sebagai =

1 −

e. Tentukan bobot yang baru untuk setiap pengamatan menjadi ( ) = ( ) ( ( , ) ( , : )

untuk pengamatan yang salah klasifikasi, sedangkan untuk pengamatan yang diduga dengan tepat maka bobotnya tetap

3. Dugaan akhir adalah kelas k yang memiliki nilai terbesar dari



Metode UnderBagging merupakan metode gabungan antara teknik penarikan contoh undersampling dengan bagging yang pertama kali dikenalkan oleh Barandela et al. (2003). Tujuan pembentukan metode ini adalah untuk mengatasi kesulitan pemodelan pada data dengan kelas tidak seimbang. Algoritme UnderBagging serupa dengan algoritme bagging ensamble yaitu, membangun beberapa gugus data dari data latih dan kemudian hasil masing-masing klasifikasi diagregat.

(23)

Random Undersampling

Latihan (training)

Metode Voting

Gambar 4 Ilustrasi proses UnderBagging

Tabel Klasifikasi

Tabel klasifikasi adalah tabel yang terdiri dari data aktual dan data prediksi, tabel ini digunakan dengan tujuan untuk mengukur kinerja suatu model klasifikasi. Berikut ini merupakan tabel klasifikasi dengan dua kelas (Chawla et al. 2002):

Tabel 1 Tabel klasifikasi

Aktual Prediksi

Kelas Positif Kelas Negatif

Kelas Positif TP FN

Kelas Negatif FP TN

Keterangan:

TP (True Positive) : Jumlah prediksi yang benar dari data yang positif. TN (True Negative) : Jumlah prediksi yang benar dari data yang negatif. FP (False Positive) : Jumlah prediksi yang salah dari data yang negatif. FN (False Negative) : Jumlah prediksi yang salah dari data yang positif. Dari Tabel Klasifikasi dapat diukur nilai akurasi, sensitivity, dan specifity sebagai berikut:

= +

+ + +

Data

Gug us data Gug

us data

Gug us data . . .

Lea rner 1

Lea

rner 2 . . .

Lea rner t

(24)

10

= +

(25)

3 METODE

Data

Penelitian ini menggunakan data sekunder mahasiswa Sekolah Pascasarjana IPB program magister tahun angkatan 2008, 2009, dan 2010. Data diperoleh dari bagian akademik SPs IPB. Jumlah amatan sebanyak 2326 mahasiswa, dengan 2116 amatan mahasiswa lulus dan 210 amatan mahasiswa drop out. Mahasiswa drop out yaitu mahasiswa yang memiliki IPK kurang dari 3.00 pada tahun pertama perkuliahan dan atau mahasiswa yang tidak dapat menyelesaikan perkuliahan kurang dari 48 bulan. Persentase mahasiswa SPs IPB program magister yang di-drop out sebesar 9.03%. Peubah yang digunakan pada penelitian ini adalah:

Tabel 2 Peubah penyusun model

Peubah Nama Peubah Kategori Peubah Skala

Y Mahasiswa berhenti kuliah 0 = Lulus

1 = Drop Out Kategorik

X1 Jenis kelamin 0 = Perempuan

1 = Laki-laki Kategorik X2 Status perkawinan 0 = Belum menikah

1 = Menikah 2 = Janda/duda

Kategorik X3 Status pekerjaan 0 = Belum bekerja

1 = Bekerja Kategorik X4 Sumber biaya pendidikan 0 = Mandiri

1 = Beasiswa Kategorik X5 Status perguruan tinggi asal 0 = Negeri

1 = Swasta 2 = Kedinasan

Kategorik X6 Daerah perguruan asal 0 = Luar Jawa

1 = Jawa Kategorik

X7 Akreditasi perguruan tinggi asal 1 = A 2 = B 3 = C 4 = D

Ordinal

X8 Usia Rasio

X9 IPK S1 (skala 0-4) Rasio

Metode Analisis

Langkah-langkah analisis data yang dilakukan dalam penelitian ini adalah sebagai berikut:

(26)

12

2. Membagi gugus data menjadi dua bagian data latih dan data uji dengan proporsi kelas tetap sama, menggunakan simple random sampling sehingga diperoleh 80% untuk data latihdan selebihnya 20% untuk data uji

3. Membangun pohon klasifikasi dari data latih

a. Menggunakan Random Under Sampling Boosting (RUSBoost) untuk berbagai proporsi tingkat keseimbangan antara kelas mayoritas dengan kelas minoritas pada proses penarikan contoh acak undersampling, yaitu RB1 [50:50], RB2 [55:45] , RB3 [60:40], RB4 [65:35], dan RB5 [70:30]. b. Menggunakan UnderBagging dengan pengembalian

1) Membuat gugus data baru sebanyak p, p adalah rasio jumlah kelas mayoritas dengan kelas minoritas. Setiap gugus data berisi keseluruhan contoh kelas minoritas dan dengan jumlah yang sama contoh kelas mayoritas yang diboostrap dengan pengembalian. 2) Membuat pohon klasifikasi h(x) pada masing-masing gugus data 3) Maka pohon klasifikasi akhir H(x)





  

 T

t t Y

y

y x h x

H

1

) ) ( ( max arg )

( .

c. Menggunakan UnderBagging tanpa pengembalian

Proses yang sama pada langkah 3b tapi pada langkah 3a.1) dilakukan boostrap tanpa pengembalian.

4. Melakukan uji pada gugus data uji dengan menggunakan pohon klasifikasi yang telah diperoleh dari langkah 3

5. Menghitung nilai accuracy, sensitivity, dan specifity.

6. Memilih model terbaik berdasarkan nilai AUC (Area Under Curve ROC) dan akurasi.

(27)

4 HASIL DAN PEMBAHASAN

Deskripsi Mahasiswa Sekolah Pascasarjana IPB Program Magister

Mahasiswa Sekolah Pascasarjana (SPs) IPB program magister berjumlah kurang lebih 700 orang tiap angkatan. Pada setiap angkatan masih terdapat mahasiswa drop out, mahasiswa drop out di SPs IPB adalah mahasiswa ber-IPK kurang dari 3.00 pada tahun pertama perkuliahan dan mahasiswa dengan masa perkuliahan lebih dari 48 bulan. Gambaran umum tentang mahasiswa drop out SPs IPB program magiter dapat dilihat dari Tabel 3.

Tabel 3. Persentase mahasiswa drop out Sekolah Pascasarjana IPB Angk Persentase mahasiswa drop out pada setiap angkatannya terus meningkat. Pada mahasiswa angkatan 2008, 2009, dan 2010 terdapat mahasiswa drop out dengan persentase sebesar 7.89%, 9.57%, dan 9.58%.

Gambaran data mahasiswa SPs IPB program magister secara keseluruhan dapat dilihat pada Lampiran 1 dan 2. Berikut ini akan dijelaskan mahasiswa drop out SPs IPB program magisterberdasarkan karakteristiknya:

1) Peubah Jenis Kelamin. Mahasiswa berjenis kelamin perempuan lebih banyak dibandingkan dengan mahasiswa berjenis kelamin laki-laki, yaitu sebesar 53.87%. Namun mahasiswa berjenis kelamin laki-laki memiliki persentase drop out lebih besar dari mahasiswa berjenis kelamin perempuan. Hal ini dikarenakan perempuan cenderung lebih rajin dan ulet dibandingkan laki-laki, sedangkan mahasiswa laki-laki cenderung aktif pada kegiatan diluar perkuliahan seperti: olahraga, organisasi, dan lain sebagainya. Rasio odd dari mahasiswa drop out antara laki-laki dan perempuan sebesar 1.14, artinya risiko terjadinya drop out pada mahasiswa laki-laki 1.14 kali risiko terjadinya drop out pada mahasiswa perempuan.

2) Peubah Status Perkawinan. Mahasiswa belum menikah sebesar 50.56%, sedangkan mahasiswa menikah sebesar 44.56% dan sisanya 4.88% berstatus janda/duda. Persentase drop out mahasiswa berstatus menikah lebih kecil dibandingkan mahasiswa belum menikah serta mahasiswa janda/duda. Hal ini karena seseorang yang berstatus menikah memiliki tanggung-jawab dan disiplin yang tinggi pada dirinya sendiri maupun keluarga.

(28)

14

bekerja. Hal ini dikarenakan sebahagian besar mahasiswa dengan status bekerja merupakan mahasiswa yang mendapatkan tugas belajar dari instansi terkait, sehingga memiliki tanggungjawab lebih dibandingkan mahasiswa tidak bekerja. Rasio odd dari mahasiswa drop out antara mahasiswa tidak bekerja dan bekerja sebesar 2.42, artinya risiko terjadinya drop out pada mahasiswa tidak bekerja 2.42 kali risiko terjadinya drop out pada mahasiswa berstatus bekerja.

4) Peubah Sumber Biaya Pendidikan. Persentase drop out mahasiswa biaya mandiri lebih besar dari mahasiswa beasiswa. Mahasiswa biaya mandiri memiliki peluang risiko terjadinya drop out 3.90 kali peluang risiko terjadinya drop out pada mahasiswa penerima beasiswa. Hal ini dikarenakan beasiswa mampu mendorong dan mempertahankan semangat belajar mahasiswa untuk menyelesaikan pendidikan tepat waktu, sedangkan mahasiswa biaya mandiri mempunyai beban lebih yaitu biaya kuliah

5) Peubah Status Perguruan Tinggi asal. SPs IPB didominasi oleh mahasiswa yang berasal dari perguruan tinggi negeri (83.83%), kemudian dari perguruan tinggi swasta (14.62%), dan hanya 1.55% berasal dari perguruan tinggi kedinasan. Persentase drop out mahasiswa yang berasal dari perguruan tinggi swasta lebih besar dibandingkan mahasiswa yang berasal dari perguruan tinggi negeri dan perguruan tinggi kedinasan. Hal ini dikarenakan IPB merupakan perguruan tinggi negeri sehingga terdapat perbedaan lingkungan dan sistem pengajaran bagi mahasiswa dari perguruan tinggi swasta, selain itu kualitas dan kuantitas mahasiswa antar perguruan tinggi negeri dengan swasta tentu berbeda.

6) Peubah Daerah Perguruan Tinggi asal. Mahasiswa sebahagian besar (61.32%) berasal dari perguruan tinggi di Pulau Jawa, dan sisanya (32.68%) berasal dari perguruan tinggi di luar Pulau Jawa. Persentase drop out mahasiswa asal perguruan tinggi Pulau Jawa lebih besar dari mahasiswa asal luar Pulau Jawa. Mahasiswa asal perguruan tinggi Pulau Jawa memiliki risiko drop out 1.268 kali risiko drop out mahasiswa yang berasal dari perguruan tinggi luar Pulau Jawa.

7) Peubah Akreditasi Perguruan Tinggi asal. Mahasiswa yang berasal dari perguruan tinggi berakreditasi C memiliki persentase drop out lebih besar dibandingkan mahasiswa yang berasal dari perguruan tinggi berakreditasi A dan B. Hal ini dikarenakan kualitas dan kuantitas suatu perguruan tinggi dapat ditunjukkan dari nilai akreditasi perguruan tinggi tersebut, semakin baik nilai akreditasi artinya kualitas dan kuantitas perguruan tinggi tersebut lebih baik. Oleh karena itu, lulusan perguruan tinggi dengan akreditasi yang lebih baik tentunya lebih baik dan mampu bersaing.

8) Peubah Usia. Rata-rata mahasiswa masuk pada usia 30 tahun, dengan usia paling muda 20 tahun dan paling tua 61 tahun.

(29)

Model Klasifikasi Mahasiswa IPB

Pohon Klasifikasi Klasik

Pohon klasifikasi dibangkitkan dari data latih yang berjumlah 1860 mahasiswa dengan batas pemberhentian sekat β = 0.004. Peubah yang paling mempengaruhi pemodelan adalah peubah status sumber biaya, usia, dan status pekerjaan. Model klasifikasi yang dihasilkan berbentuk pohon dengan enam simpul yang dapat dilihat pada Lampiran 3. Pohon klasifikasi yang diperoleh dapat digunakan untuk memprediksi status mahasiswa SPs IPB program magister, masuk ke dalam kelas lulus atau kelas drop out.

Prediksi menggunakan pohon klasifikasi, mahasiswa dengan status sumber biaya mandiri, status perguruan tinggi asal swasta dan kedinasan, belum menikah, akreditasi PT asal A dan B, usia lebih dari 24 tahun, dan IPK kurang dari 3.4 diprediksi ke dalam kelas mahasiswa drop out. Hasil prediksi pada data latih dan uji dapat dilihat pada Tabel 4.

Tabel 4 Tabel klasifikasi hasil prediksi pohon klasifikasi klasik pada data latih dan uji

Berdasarkan Tabel 4, sebanyak 166 dari 1860 amatan pada gugus data latih salah dalam pengklasifikasian. Pada gugus data uji, 41 dari 466 amatan salah dalam pengklasifikasian. Untuk melihat kebaikan kinerja dari hasil model klasifikasi dihitung nilai akurasi, sensitivity, dan specificity. Penerapan metode pohon klasifikasi klasik pada mahasiswa SPs IPB program magister, diperoleh kebaikan kinerja yang dapat dilihat pada Tabel 5.

Tabel 5 Kinerja klasifikasi model pohon klasifikasi klasik (%) Data Latih Data Uji

Akurasi 91.08 91.20

Sensitivity 03.59 00.00

Specificity 99.94 99.53

AUC 51.77 49.77

(30)

16

AUC pada data latih sebesar 51.77 dan pada data uji sebesar 49.77%, menunjukkan bahwa model tidak cukup baik.

RUSBoost (Random Under Sampling dan Boosting)

Sebelumnya telah diketahui bahwa pembangkitan model dengan pohon klasifikasi klasik memberikan model dengan kinerja yang tidak cukup baik. Masalah terjadi karena peubah respon pada gugus data yang digunakan memiliki kelas tidak seimbang, yaitu amatan pada kategori kelas lulus jumlahnya jauh lebih banyak dibandingkan amatan pada kategori kelas drop out. Random Under Sampling Boosting merupakan salah satu metode untuk menangani masalah kelas tidak seimbang. Model klasifikasi dibangun dari gugus data yang dibangkitkan dengan penarikan contoh acak undersampling. Gugus data akan dibangkitkan dengan lima proporsi yang berbeda antara lulus dan drop out, yaitu [0.5:0.5], [0.55:0.45], [0.6:0.4], [0.65:0.35], dan [0.7:0.3]. Peubah yang paling mempengaruhi pemodelan adalah peubah IPK S1 dan sumber biaya pendidikan, lihat Lampiran 5. Kinerja model klasifikasi yang dibangun dari gugus data dengan tingkat ketidakseimbangan yang berbeda-beda ditunjukkan oleh Tabel 6:

(31)

(a) (b)

Gambar 5 Kurva ROC dari beberapa tingkat ketidakseimbangan pada data latih (a) dan data uji (b)

Dari Tabel 6 telihat bahwa nilai AUC meningkat ketika jumlah amatan pada kelas mayoritas yang dieliminasi mendekati jumlah amatan pada kelas minoritas. Pada nilai akurasi terjadi sebaliknya, ketika jumlah amatan pada kelas mayoritas yang dieliminasi mendekati jumlah amatan pada kelas minoritas maka nilai akurasi akan semakin menurun. Kurva ROC pada Gambar 5 menunjukkan bahwa skala horizontal merupakan nilai false positive rate (1-specificity) dan skala vertikal merupakan nilai true positive rate (sensitivity). Berdasarkan kurva tersebut RUSBoost dengan proporsi [0.5:0.5], [0.55:0.45], dan [0.6:0.4] memberikan hasil yang lebih baik dibandingkan proporsi [0.65:0.35], dan [0.7:0.3].

UnderBagging (Random Under-Sampling dan Bagging)

Sebelumnya telah ditampilkan hasil dari algoritme RUSBoost, diketahui bahwa algoritme RUSBoost dapat menangani masalah kelas tidak seimbang. Selain menggunakan algoritme RUSBoost, Random UnderSampling dan Bagging juga dapat digunakan untuk menangani masalah kelas tidak seimbang. Tahap Boostrap pada penelitian ini dilakukan dengan dan tanpa pengembalian sebanyak 11 gugus data. Dari kesebelas gugus data tersebut dibagun model klasifikasi.

Membangun model klasifikasi status mahasiswa SPs IPB program magister dengan algoritme UnderBagging, peubah yang muncul sebagai peubah yang memberikan konstribusi terbesar adalah peubah sumber biaya pendidikan, 37% pada UnderBagging dengan pengembalian dan 30% pada UnderBagging tanpa pengembalian. Sebaliknya, peubah status, akreditasi, dan wilayah perguruan tinggi asal dan jenis kelamin tidak memberikan konstribusi terhadap pemodelan. Untuk mengetahui lebih jelas konstribusi dari masing-masing peubah, dapat dilihat pada Lampiran 6. Hasil kinerja dari model klasifikasi yang dibangun oleh algoritme UnderBagging ditunjukkan pada Tabel 7:

Tabel 7 Kinerja model klasifikasi algoritme UnderBagging (%) Dengan Pengembalian Tanpa Pengembalian Data

Latih

Data Uji Data Latih

Data Uji Akura

si

60.75 56.65 59.73 57.73

Sensiti vity

83.33 71.43 82.14 76.19

Specifi city

58.51 55.19 57.51 55.90

AUC 77.46 63.66 76.78 67.78

(32)

18

dan AUC dari UnderBagging dengan pengembalian terhadap data latih lebih baik dibandingkan UnderBagging tanpa pengembalian. Sebaliknya, pada uji validasi UnderBagging tanpa pengembalian lebih baik.

(a) (b)

(33)

5 KESIMPULAN DAN SARAN

Kesimpulan

Penelitian terhadap mahasiswa SPs IPB program magister tahun angkatan 2008-2010, peubah respon dengan dua kategori yaitu mahasiswa drop out dan mahasiswa lulus. Memiliki masalah kelas tidak seimbang yaitu, 9.03% kelas drop out dan 90.7% kelas lulus. Dari penelitian yang penulis lakukan dapat disimpulkan:

1. Apabila membangun model dari data dengan kelas tidak seimbang menggunakan algorime pohon klasifikasi klasik, maka tidak akan efektif. Model yang dihasilkan akan memiliki nilai akurasi yang tinggi dengan kesalahan hanya sebesar 9.03%. Namun, kesalahan ini diperoleh dari kesalahan model mengklasifikasikan kelas minoritas. Secara keseluruhan amatan pada kelas minoritas dikelompokkan ke dalam kelas mayoritas. Jadi, kepekaan model klasifikasi terhadap kelas minoritas sangat buruk.

2. Algoritme RUSBoost dan UnderBagging dapat menangani masalah kelas tidak seimbang. Menggunakan salahsatu dari algoritme tersebut pada pohon klasifikasi dapat meningkatkan kepekaan model klasifikasi terhadap kelas minoritas. Dalam menangani masalah kelas tidak seimbang algoritme RUSBoost lebih baik dibangdingkan UnderBagging. Namun pada proses komputasi, UnderBagging lebih mudah, cepat dan ringan.

3. Peubah yang berkonstribusi lebih pada pengklasifikasian mahasiswa drop out berdasarkan hasil pemodelan menggunakan pohon klasifikasi klasik, RUSBoost, dan UnderBagging adalah peubah sumber biaya pendidikan dan IPK S1. Sebaliknya, peubah jenis kelamin dan status, wilayah, dan akreditasi perguruan tinggi asal tidak banyak berkonstribusi pada pemodelan.

Saran

(34)

20

DAFTAR PUSTAKA

Agresti A. 2002. Categorical Data Analysis. John Willey & Sons, Inc. New York. Barandela R, Sanchez JS, Valdovinos RM. 2003. New Appllications of

Ensembles of Classifiers. Pattern Anal Applic 6: 245-256.

Breiman L, Friedman JH, Olshen RA, Stone CJ. 1984. Classification and Regression Trees. New York: Chapman & Hall/CRC.

Chawla NV, Bowyer KW, Hall LO, Kegelmeyer WP. 2002. SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research. Vol 16:321–357.

Chawla NV, Japkowicz N, Kolcz A. 2004. Editorial: Special Issue on Learning from Imbalanced Data Sets. ACM SIGKDD Explorations. Vol. 6:1-6.

Fawcett T. 2006. An Introduction to ROC analysis. Pattern Recognition Letters. 27:861-874.

Galar M, Fernandez A, Barrenechea E, Bustince H, Herrera F. 2011. A Review on Ensembles for the Class Imbalance Problem: Bagging-, Boosting-, and Hybrid-Based Approaches. IEEE Transactions on Systems 42: 463-484.

Hutabarat IM. 2005. Pohon Klasifikasi dan Pohon Regresi Keberhasilan Mahasiswa Pascasarjana Program Studi Statistika IPB. [Thesis]. Bogor. Institut Pertanian Bogor.

[IPB] Institut Pertanian Bogor. 2014. Katalog Program Pascasarjana IPB. Bogor: Institut Pertanian Bogor.

____________. 2015. About IPB [Internet]. [diunduh 2015 Des 25]. Tersedia pada: http://ipb.ac.id/about.

Jajuli M. 2010. Identifikasi Faktor-Faktor Berhenti Studi Mahasiswa Pascasarjana IPB Menggunakan Regresi Logistik dan Zero Inflated Poisson. [Thesis]. Bogor. Institut Pertanian Bogor.

Larasati SK. 2008. Prediksi Keberhasilan Mahasiswa Program Magister Sains IPB Menggunakan Metode Pohon Regresi Data Lengkap dan Data Tersensor. [Skripsi]. Bogor. Institut Pertanian Bogor.

Liu XY, Wu J, Zhou Z. Exploratory Undersampling for Class-Imbalance Learning. IEEE Transactions on Systems, Man and Cybernetics. Part.B: 1-14.

Sartono B dan Syafitri UD. 2010. Metode pohon gabungan: Solusi pilihan untuk mengatasi kelemahan pohon regresi dan klasifikasi tunggal. Forum Statistika dan Komputasi. Vol 15:1-7.

Seieffert C, Khoshgoftaar TM, Hulse JV, Napollitano A. 2010. RUSBoost: A Hybrid Approach to Alleviating Class Imbalance. IEEE Transactions on Systems, Man, and Cybernetics. Part A: systems and humans: Vol.40.

Therneau TM, Atkinson EJ, Foundation M. 2015. An Introduction to Recursive Partitioning Using the RPART Routines. Tersedia pada: https://cran.r-project.org/web/packages/rpart/vignettes/longintro.pdf

(35)

Lampiran 1 Persentase Kategori Peubah Penjelas dengan Peubah Respon

Jenis Kelamin Laki-laki

Perempua

Status Perkawinan Belum

menikah

Status Pekerjaan Belum

bekerja

Sumber Biaya Pendidikan Beasiswa

Mandiri Status Perguruan Tinggi

Asal Wilayah Perguruan Tinggi

Asal

(36)

22

Lampiran 3 Diagram Pohon Klasifikasi Klasik

BEASISWA = tdk

StatusPT = dns,sws

KAWIN = blm

AKREDITA = A,B

USIA >= 24

IPK.S1 >= 3.4

DO lulus

lulus

(37)

Lampiran 4 Peubah Penjelas yang berpengaruh (Variable Importance) pada Pemodelan Menggunakan Pohon Klasifikasi Tunggal

Peubah Penjelas Importanc

e

Sumber Biaya Pendidikan 25

Usia 21

Status Perkawinan 17

Status Pekerjaan 16

IPK S1 10

Akreditasi Perguruan Tinggi Asal

7 Status Perguruan Tinggi Asal 2 Wilayah Perguruan Tinggi Asal 2

Jenis Kelamin 0

Lampiran 5 Peubah Penjelas yang berpengaruh (Variable Importance) pada Pemodelan Menggunakan metode RUSBoost

Peubah Penjelas RB Status Pekerjaan 13.

89 Akreditasi PT Asal 08.

99

Wilayah PT Asal 01.

49

Lampiran 6 Peubah Penjelas yang berpengaruh (Variable Importance) pada Pemodelan Menggunakan Metode UnderBagging

Peubah Penjelas UnderBagging

dengan pengembalian

UnderBagging tanpa pengembalian

(38)

24

Lampiran 7 Bobot pada pemodelan RUSBoost

(39)

Penanganan Masalah Kelas Tidak Seimbang Dengan Rusboost Dan Underbagging (Studi Kasus: Mahasiswa Drop Out Sps Ipb Program Magister)

PENANGANAN MASALAH KELAS TIDAK SEIMBANG

DENGAN RUSBOOST DAN UNDERBAGGING

(STUDI KASUS: MAHASISWA DROP OUT

SPs IPB PROGRAM MAGISTER)

YULIANA PERMATASARI

RINGKASAN

SUMMARY

© Hak Cipta Milik IPB, Tahun 2016

Hak Cipta Dilindungi Undang-Undang

PENANGANAN MASALAH KELAS TIDAK SEIMBANG

DENGAN RUSBOOST DAN UNDERBAGGING

(STUDI KASUS: MAHASISWA DROP-OUT

SPs IPB PROGRAM MAGISTER)

SEKOLAH PASCASARJANA

INSTITUT PERTANIAN BOGOR

BOGOR

2016

PRAKATA

DAFTAR ISI

1

PENDAHULUAN

2

TINJAUAN PUSTAKA



3

METODE



4

HASIL DAN PEMBAHASAN

5

KESIMPULAN DAN SARAN

DAFTAR PUSTAKA

RIWAYAT HIDUP