TINJAUAN PUSTAKA Metode Pohon Regresi - Prediksi Keberhasilan Mahasiswa Program Magister Sains

Pohon regresi merupakan salah satu metode yang menggunakan kaidah pohon keputusan (decision tree) yang dibentuk melalui suatu algoritma pemisahan (if-then logical) secara rekursif. Analog dengan regresi

biasa, metode ini juga digunakan untuk mengetahui pengaruh peubah penjelas terhadap peubah respon. Perbedaanya adalah bahwa pada pohon regresi, pendugaan respon dilakukan pada kelompok-kelompok pengamatan yang dibentuk berdasarkan peubah-peubah penjelasnya, bukan untuk keseluruhan data sehingga interpretasi hasil lebih mudah dilakukan. Metode pohon regresi

menghasilkan kelompok-kelompok pengamatan yang dicirikan oleh

peubah-peubah penjelas yang memisahkan simpul. Peubah-peubah penjelas yang dianggap berpengaruh terhadap respon adalah peubah-peubah yang muncul sebagai pemisah (Breiman et al., 1993).

Metode ini menganalisa suatu gugus data dengan cara memisahkannya menjadi beberapa anak gugus (simpul) secara bertahap. Tahap pertama, seluruh data dipisah menjadi anak gugus berdasarkan salah satu peubah yang dipilih sedemikian rupa sehingga memaksimumkan penurunan jumlah kuadrat sisaan. Masing-masing anak gugus kemudian diperiksa kembali secara terpisah dan dibagi lagi berdasarkan pemisah lainnya, demikian selanjutnya sampai tercapai kriteria berhenti tertentu. Anak gugus yang tidak bisa dipisah lagi dinamakan simpul akhir (simpul terminal), sedangkan anak gugus yang masih bisa dipisah lebih lanjut dinamakan simpul dalam. Hasil dari proses pemisahan ini direpresentasikan dalam suatu struktur pohon seperti terlihat dalam Gambar 1 (Breiman et al., 1993).

Struktur pohon regresi memiliki satu simpul akar (t1) yang mengandung semua gugus data. Simpul dalam dilambangkan dengan lingkaran (t2, t3, t7) sedangkan simpul akhir dilambangkan dengan persegi (t4, t5, t6, t8, dan t9). Dugaan respon dilakukan pada semua simpul akhir.

2 t

₂

t4 t5 t6

t

₈

t

₉

t

₃

t

₁

t

₇

t

₂

pohon regresi data lengkap dan data tersensor. Faktor-faktor yang tercakup dalam penelitian ini adalah jenis kelamin, status perkawinan sebelum menempuh S2, sumber biaya pendidikan pada saat diterima sebagai mahasiswa S2, status penerimaan, status perguruan tinggi asal, akreditasi program studi S1, kesesuaian program studi di S2 dengan S1, jenis pekerjaan mahasiswa sebelum menempuh S2, IPK S1, durasi dari lulus S1 sampai diterima di S2 (tahun), dan usia pada saat diterima sebagai mahasiswa S2 (tahun). Sedangkan tingkat keberhasilan yang diduga adalah IPK S2 dan masa studi. Data yang digunakan adalah data mahasiswa program Magister Sains IPB angkatan 1994 sampai 2004 yang sudah lulus dan yang sudah melewati masa perkuliahan lebih dari 24 bulan (selain data lulusan). Data yang digunakan untuk memprediksi IPK adalah data mahasiswa yang masih aktif, sudah lulus, Drop Out (DO), dan Mengundurkan Diri (MD). Sedangkan data yang digunakan untuk memprediksi masa studi adalah data mahasiswa yang masih aktif dan sudah lulus.

Program studi S2 yang tercakup dalam penelitian ini terdiri dari 16 program studi, antara lain:

1. Ilmu Ekonomi Pertanian/EPN 2. Sosiologi Pedesaan/SPD

3. Ilmu Perencanaan Pembangunan Wilayah dan Pedesaan/PWD

4. Ilmu Tanah/TNH

5. Pengelolaan Daerah Aliran Sungai/DAS 6. Agronomi/AGR

7. Arsitektur Lanskap/ARL

8. Entomologi dan Fitopatologi /ENT/FIT 9. Gizi Masyarakat dan Sumberdaya

Keluarga/GMK

10. Biologi Reproduksi/BRP 11. Sains Veteriner/SVT

12. Kesehatan Masyarakat Veteriner/KMV 13. Ilmu Perairan/AIR

14. Pengelolaan Sumberdaya Pesisir dan Lautan/SPL

15. Teknologi Kelautan/TKL 16. Ilmu Kelautan/IKL

TINJAUAN PUSTAKA

Metode Pohon Regresi

menghasilkan kelompok-kelompok pengamatan yang dicirikan oleh

peubah-peubah penjelas yang memisahkan simpul. Peubah-peubah penjelas yang dianggap berpengaruh terhadap respon adalah peubah-peubah yang muncul sebagai pemisah (Breiman et al., 1993).

3

CART

CART (Classification and Regression Trees) merupakan metode eksplorasi yang digunakan untuk melihat hubungan antara peubah respon dan peubah penjelas yang meliputi peubah nominal, ordinal, maupun kontinu. Perkembangan metode ini ditandai dengan diterbitkannya buku Classification and Regression Tree pada tahun 1984 (Breiman et al., 1993). Metode ini meliputi metode pohon klasifikasi dan pohon regresi. Metode pohon klasifikasi digunakan jika peubah respon adalah peubah kategorik. Sedangkan metode pohon regresi digunakan jika peubah respon adalah peubah kontinu. Dalam penelitian ini akan digunakan metode CART untuk pohon regresi.

Algoritma Pohon Regresi dalam CART

Metode pohon regresi menurut Breiman

et al. (1993), terdiri dari tiga bagian penting, yaitu:

1. Aturan pemisahan setiap simpul 2. Aturan penghentian

3. Penentuan nilai dugaan respon bagi setiap simpul akhir.

Aturan Pemisahan

Pohon regresi dibentuk melalui pemisahan gugus data dengan sederetan pemisahanan biner sampai dihasilkan simpul akhir (Breiman et al., 1993). Aturan pemisahannya adalah sebagai berikut:

1. Tiap pemisahan hanya begantung pada nilai yang berasal dari satu peubah penjelas.

2. Untuk peubah kontinu Xj, pemisahan hanya berasal dari pertanyaan “Apakah Xj

≤ ci?” untuk

c∈R

. Jadi, jika ruang contohnya berukuran n dan terdapat sebanyak-banyaknya n nilai amatan yang berbeda pada peubah Xj, maka akan terdapat sebanyak-banyaknya n-1 pemisahan yang berbeda yang dibentuk oleh gugus pertanyaan {“Apakah Xj ≤

ci?”}, dengan i=1,2,3,...,n-1 dan ci adalah nilai tengah antara dua nilai amatan peubah Xj berurutan yang berbeda.

3. Untuk peubah penjelas kategorik, pemisahan yang terjadi berasal dari semua kemungkinan pemisahan berdasarkan terbentuknya dua anak gugus yang saling lepas (disjoint). Jika peubah Xj merupakan peubah kategorik nominal dengan L kategori, maka akan ada 2^L-1-1 pemisahan, sedangkan jika berupa peubah kategorik ordinal maka akan ada L-1 pemisahan.

Proses Pemisahan

Proses yang dilakukan Breiman et al.

(1993) untuk memisahkan suatu simpul adalah sebagai berikut:

1. Tentukan semua kemungkinan pemisahan pada tiap peubah penjelas.

2. Pilih pemisahan yang terbaik dari kumpulan pemisahan tersebut dan pisahkan simpul tersebut menjadi dua anak simpul, yaitu simpul kiri dan simpul kanan. Pemisahan terbaik adalah pemisahan yang memaksimumkan ukuran kehomogenan di dalam masing-masing simpul anak relatif terhadap simpul induknya atau yang memaksimumkan ukuran pemisahan antara dua simpul anak tersebut.

Jumlah Kuadrat Sisaan (JKS) digunakan sebagai kriteria kehomogenan di dalam masing-masing simpul. Misalkan simpul g berisi anak contoh {(xn,yn)}, n(g) adalah banyaknya amatan pada simpul g dan nilai respon dalam suatu simpul g diduga oleh rataan respon pada simpul g tersebut, yang dihitung sebagai berikut:

∑

∈

=

g x n n

y

g

n

g

y

)

(

1 )

(

maka Jumlah Kuadrat Sisaan di dalam simpul g adalah:

[ ]

∑

∈

−

=

g x n n

g

y

g

JKS( ) ( )

Misalkan s memisahkan simpul g menjadi simpul kiri gL dan simpul kanan gR. Kriteria jumlah kuadrat terkecil adalah:

)

(

)

(

)

(

)

,

(s g =JKS g −JKS g

−JKS g

φ

Pemisahan terbaik s* adalah pemisahan yang memenuhi kriteria:

);

,

(

max

)

*,

(s g

_s_*

φ s g

φ =

_∈_Ω

dimana Ω adalah gugus yang berisi semua kemungkinan pemisahan. Hal ini berarti bahwa pemisahan yang dipilih adalah pemisahan yang mampu menghasilkan penurunan jumlah kuadrat sisaan terbesar.

4

Aturan Penghentian

Proses pemisahan akan berhenti jika banyaknya amatan dalam simpul berjumlah ‘tertentu’ (StatSoft Inc., 2003). Breiman et al.

(1993) menyatakan bahwa proses rekursif berakhir jika banyaknya amatan pada simpul akhir ≤ 5. Selain jumlah amatan minimum, kriteria penghentian pohon regesi juga dipengaruhi oleh penentuan peubah yang berpengaruh terhadap respon.

Statistik pada Simpul Akhir

Pada pohon regresi digunakan statistik rataan respon sebagai dugaan respon pada tiap simpul akhir.

Koefisien Determinasi (R²)

Koefisien determinasi (coefficient of determination) yaitu nilai untuk mengukur proporsi keragaman peubah respon (Y) yang bisa dijelaskan oleh peubah penjelas (X).

Keragaman total (total variance) dalam CART adalah ragam dari peubah respon sebelum dipengaruhi oleh peubah-peubah penjelas, atau ragam yang terdapat pada simpul akar. Keragaman ini merupakan penjumlahan dari keragaman di dalam simpul (within-node variance) dan keragaman diantara simpul yang satu dengan simpul yang lain (between-node variance) (SPSS Inc.,2002).

Keragaman di dalam simpul (within-node variance) merupakan nilai pendugaan resiko (risk estimate value) yang dihitung sebagai berikut:

sehingga koefisien determinasi (R²) dalam CART dihitung sebagai berikut:

MAPE (Mean Absolute Percentage Error)

MAPE (Mean Absolute Percentage Error) merupakan rata-rata persentase kesalahan mutlak atau ukuran ketelitian di (dalam) suatu data deret waktu yang dinyatakan dalam bentuk persentase (Wikipedia Foundation, Inc., 2008). MAPE dihitung dengan rumus sebagai berikut:

MAPE =

Analisis Daya Tahan Waktu Ketahanan

Waktu ketahanan (survival time) adalah jangka waktu dan awal pengamatan sampai terjadinya suatu peristiwa. Penstiwa itu dapat berupa kegagalan, kematian, respon, timbulnya gejala dan lain-lain (Lee dan Wang, 2003). Dalam hal ini ada dua titik waktu yang penting untuk diperhatikan:

1. Waktu awal, yaitu waktu pada saat terjadinya kejadian awal, seperti waktu seseorang divonis mendenita kanker, waktu pemberian perlakuan, waktu anak mulai sekolah dan lain-lain.

2. Waktu kegagalan, yaitu waktu pada saat terjadinya kejadian akhir, seperti kematian, respon dan perlakuan dan lain-lain.

Waktu awal dan setiap individu tidak harus sama, dapat saja suatu individu dimulai pada t1 sedangkan individu yang lain dimulai pada waktu t2 dan seterusnya Dan tidak semua individu dapat diamati waktu kegagalannya secara penuh Sering dijumpai suatu individu tidak mengalami kegagalan sampai batas waktu penelitian. Hal ini mengakibatkan ketidaklengkapan data kegagalan (failure time)

yang sering disebut sensoring (censoring). Jenis-jenis Sensoring

Ada tiga jenis sensoring yaitu:

1. Waktu penelitian ditentukan dalam selang waktu tertentu, sehingga individu-individu yang tidak mengalami kegagalan dalam selang waktu tersebut tidak dapat ditentukan waktu hidupnya secara pasti 2. Dalam suatu penelitian telah ditetapkan

proporsi kegagalan yang diamati, misal penelitian berjalan sampai 80% individu gagal.

3. Dalam percobaan klinis biasanya periode penelitian ditentukan sedangkan pasien datang pada waktu yang berbeda-beda sehingga ada pasien yang tidak dapat diamati secara penuh.

Sensoring jenis 1 dan 2 sering disebut

singly censored data sedangkan jenis 3 sering disebut progressively censored data atau

random censoring. Dan data yang tidak mengandung pengamatan sensor disebut sebagai data lengkap (Lee dan Wang, 2003).

Fungsi Ketahanan dan Fungsi Hazard

Misalkan X menyatakan waktu kegagalan atau waktu kematian, maka X dapat dipandang sebagai suatu variabel acak nonnegatif. Fungsi ketahanan (Survival function) adalah peluang seorang individu dapat bertahan hidup hingga

( )

n Y Y n i i i

∑

= − = 1 2 ˆ variance node -within

∑

= − n i i i i Y Y Y n 1 ˆ 1 ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − = variance total variance node -within 1 2 R

5

Dalam dokumen Prediksi Keberhasilan Mahasiswa Program Magister Sains IPB Menggunakan Metode Pohon Regresi Data Lengkap dan Data Tersensor (Halaman 60-64)