PENERAPAN METODE RANDOM FOREST DALAM DRIVER
ANALYSIS
NARISWARI KARINA DEWI
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2011
RINGKASAN
NARISWARI KARINA DEWI. Penerapan Metode Random Forest dalam Driver Analysis. Dibimbing oleh UTAMI DYAH SYAFITRI dan SONI YADI MULYADI.
Driver analysis adalah analisis yang digunakan untuk mengetahui prioritas peubah penjelas
yang menggerakkan peubah respons. Analisis tersebut dikenal dalam bidang riset pemasaran.
Driver analysis dijalankan menggunakan metode-metode analisis yang bersesuaian dengan kondisi
data. Umumnya, data yang dianalisis berupa data ordinal dan memiliki hubungan non-linier antara peubah penjelas dan peubah respons. Salah satu metode yang sesuai dengan hal tersebut adalah metode random forest. Penerapan metode random forest dalam driver analysis didasarkan pada ukuran random forest dan ukuran contoh peubah penjelas. Simulasi dilakukan untuk mengetahui ukuran yang tepat agar dihasilkan random forest berakurasi tinggi dan stabil, serta hasil driver
analysis yang stabil. Dalam penelitian ini, driver analysis dilakukan dalam rangka memperbaiki
kinerja produk Z, yaitu mengenai kesediaan seseorang membeli produk Z. Hasil simulasi menunjukkan bahwa akurasi yang tinggi dan stabil dicapai saat ukuran random forest lebih dari 500 dan ukuran contoh peubah penjelas sebesar 4. Pada ukuran tersebut juga dihasilkan driver
analysis yang stabil.
PENERAPAN METODE RANDOM FOREST DALAM DRIVER
ANALYSIS
NARISWARI KARINA DEWI
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Statistika pada
Departemen Statistika
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2011
Judul : Penerapan Metode Random Forest dalam Driver Analysis
Nama : Nariswari Karina Dewi
NRP
: G14060941
Menyetujui :
Pembimbing I,
Utami Dyah Syafitri, S.Si, M.Si
NIP. 197709172005012001
Pembimbing II,
Soni Yadi Mulyadi, S.Si
Mengetahui :
Ketua Departemen Statistika
Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor
Dr. Ir. Hari Wijayanto, M.Si
NIP. 196504211990021001
RIWAYAT HIDUP
Penulis dilahirkan di Brebes pada tanggal 2 Mei 1989 dari pasangan Suryanto dan Tri Nurhayati. Penulis merupakan putri pertama dari tiga bersaudara.
Penulis menyelesaikan sekolah dasar pada tahun 2000 di SD Al-Ahzar 1 Bandar Lampung, kemudian melanjutkan studi di SLTP Negeri 4 Bandar Lampung hingga tahun 2003. Selanjutnya, penulis menyelesaikan pendidikan sekolah menengah atas di SMA Negeri 2 Bandar Lampung dengan lulus pada tahun 2006. Pada tahun yang sama penulis lulus seleksi masuk Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB (USMI). Setelah satu tahun menjalani perkuliahan Tingkat Persiapan Bersama (TPB), pada tahun 2007 penulis diterima sebagai mahasiswa Departemen Statistika, FMIPA IPB dengan mayor Statistika dan minor Matematika Keuangan dan Aktuaria. Selama masa kuliah penulis aktif sebagai anggota dari himpunan keprofesian Gamma Sigma Beta (GSB). Penulis juga berkesempatan menjadi asisten Metode Statistika pada tahun 2009. Penulis melaksanakan kegiatan praktik lapang di PT. Ipsos Indonesia selama bulan Februari hingga April 2010.
KATA PENGANTAR
Segala puji dan syukur penulis panjatkan kehadirat Allah SWT atas segala limpahan karunia-Nya sehingga penulis dapat menyelesaikan karya ilmiah dengan judul “Penerapan Metode
Random Forest dalam Driver Analysis”. Shalawat serta salam semoga selalu tercurah kepada suri
tauladan manusia Rasulullah Muhammad SAW, beserta keluarga, sahabat, dan umatnya. Penulis menyusun karya ilmiah ini sebagai salah satu syarat untuk mendapatkan gelar Sarjana Statistika pada Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Ucapan terima kasih penulis sampaikan kepada semua pihak yang telah turut berperan serta dalam penyusunan karya ilmiah ini, terutama kepada :
1. Ibu Utami Dyah Syafitri, S.Si, M.Si dan Bapak Soni Yadi Mulyadi, S.Si atas bimbingan, masukan, dan perhatiannya dalam membimbing penulis.
2. Bapak Dr. Ir. I Made Sumertajaya, M.Si selaku penguji luar dalam ujian sidang saya. Terima kasih atas saran dan masukannya.
3. Rekan-rekan pembahas seminar (Novira Sartika dan Ahmad Chaerus Suhada) serta rekan-rekan yang bersedia hadir pada seminar saya. Terima kasih atas kehadiran serta masukan yang diberikan.
4. Rekan-rekan mahasiswa Departemen Statistika IPB angkatan 43/2006 atas diskusi dan semangatnya kepada penulis.
5. Kedua orang tua dan seluruh keluarga atas doa dan dukungan tulus baik moril maupun materil yang diberikan kepada penulis.
Semoga Allah SWT membalas segala kebaikan yang telah diberikan kepada penulis. Harapan penulis atas karya ilmiah ini tak lain ialah semoga karya ilmiah ini dapat bermanfaat.
Bogor, Maret 2011
DAFTAR ISI
Halaman
DAFTAR GAMBAR ... viii
DAFTAR TABEL ... viii
DAFTAR LAMPIRAN ... viii
PENDAHULUAN ... 1
Latar Belakang ... 1
Tujuan ... 1
TINJAUAN PUSTAKA ... 1
Driver Analysis ... 1
Classification and Regression Tree (CART) ... 1
Random Forest ... 3
METODOLOGI ... 4
Data ... 4
Metode ... 4
HASIL DAN PEMBAHASAN ... 5
Analisis Deskriptif ... 5
Simulasi Ukuran Random Forest dan Ukuran Contoh Peubah Penjelas terhadap Keakuratan Prediksi Random Forest ... 5
Simulasi Ukuran Random Forest dan Ukuran Contoh Peubah Penjelas terhadap Hasil Driver Analysis ... 6
SIMPULAN DAN SARAN ... 9
Simpulan ... 9
Saran ... 9
DAFTAR PUSTAKA ... 9
DAFTAR GAMBAR
Halaman
1. Struktur Pohon pada Metode CART ... 2 2. Rataan tingkat misklasifikasi random forest berukuran k pada beberapa ukuran contoh
peubah penjelas (m) ... 5 3. Rataan tingkat misklasifikasi random forest berukuran contoh peubah penjelas m pada
beberapa ukuran random forest (k) ... 6 4. Diagram kotak garis tingkat misklasifikasi random forest pada ukuran contoh peubah
penjelas (m) dan ukuran random forest (k) ... 6 5. Diagram kotak garis mean decrease gini (MDG) peubah penjelas, pada random forest
berukuran m = 2, 4, 8 dan k = 25, 50,100, 500, 1000 ... 7 6. Urutan tingkat kepentingan peubah penjelas berdasarkan rataan Mean Decrease Gini
(MDG), pada random forest berukuran m = 4 dan k = 25, 50,100, 500, 1000 ... 7
DAFTAR TABEL
Halaman
1. Kategori peubah penjelas dan peubah respons ... 4 2. Frekuensi dan persentase kategori peubah respons (status kesediaan seseorang untuk
membeli produk Z) ... 5
DAFTAR LAMPIRAN
Halaman
1. Tingkat misklasifikasi random forest pada ukuran random forest (k) dan ukuran contoh
peubah penjelas (m) yang dicobakan ... 11 2. Urutan tingkat kepentingan peubah penjelas berdasarkan nilai rataan Mean Decrease Gini
(MDG) peubah penjelas pada ukuran random forest (k) sebesar 25, 50, 100, 500, 1000
dan ukuran contoh peubah penjelas (m) sebesar 4 ... 12 3. Koefisien korelasi Spearman antara peubah penjelas (X) dan peubah respons (Y) ... 13 4. Modus frekuensi terpilihnya peubah penjelas sebagai pemilah (split) simpul dalam sebuah
random forest dengan ukuran contoh peubah penjelas (m) sebesar 2 dan ukuran random forest (k) sebesar 25, 50, 100, 500, dan 1000 ... 14
5. Modus frekuensi terpilihnya peubah penjelas sebagai pemilah (split) simpul dalam sebuah
random forest dengan ukuran contoh peubah penjelas (m) sebesar 4 dan ukuran random forest (k) sebesar 25, 50, 100, 500, dan 1000 ... 15
6. Modus frekuensi terpilihnya peubah penjelas sebagai pemilah (split) simpul dalam sebuah
random forest dengan ukuran contoh peubah penjelas (m) sebesar 8 dan ukuran random forest (k) sebesar 25, 50, 100, 500, dan 1000 ... 16
PENDAHULUAN Latar Belakang
Persaingan pasar mendorong setiap produsen untuk selalu memperbaiki kinerja produknya. Salah satu kinerja produk yang perlu diperhatikan adalah kesediaan seseorang untuk membeli produk tersebut. Untuk menghasilkan kinerja yang lebih baik, tindakan perbaikan dilakukan pada atribut produk yang mempengaruhi kinerja tersebut. Perbaikan yang efektif dan efisien dapat dilakukan jika produsen mengetahui prioritas atribut produk yang menggerakkan kinerja yang dimaksud. Dalam riset pemasaran, analisis yang digunakan untuk menghasilkan informasi tersebut dikenal dengan nama driver analysis.
Driver analysis didasarkan pada metode
analisis yang mengeksplorasi hubungan antara peubah penjelas dan peubah respons. Beberapa metode yang umum digunakan adalah analisis korelasi dan analisis regresi. Dalam driver analysis, data yang dianalisis berupa data ordinal dan umumnya memiliki hubungan non-linier antara peubah penjelas dan peubah respons. Salah satu metode yang mampu mengatasi hal tersebut adalah
random forest.
Random forest merupakan metode pohon
gabungan yang berasal dari pengembangan metode classification and regression tree (CART). Metode ini didasarkan pada teknik pohon keputusan sehingga mampu mengatasi masalah non-linier. Untuk mengidentifikasi peubah penjelas yang relevan dengan peubah respons, random
forest menghasilkan ukuran tingkat kepentingan (variable importance) peubah penjelas. Dalam bidang biostatistika, hal tersebut telah populer diterapkan pada masalah gene selection (Díaz-Uriarte & Andrés 2006). Prioritas peubah penjelas dapat diketahui melalui ukuran tingkat kepentingan peubah penjelas. Oleh karena itu, metode random forest dapat diterapkan pada driver analysis. Penelitian ini mengkaji hal tersebut. Pada penelitian ini, driver
analysis dilakukan dalam rangka
memperbaiki kinerja produk Z, yaitu dalam hal kesediaan seseorang membeli produk Z.
Tujuan
Tujuan penelitian ini adalah mengetahui ukuran random forest dan ukuran contoh peubah penjelas yang menghasilkan random
forest berakurasi prediksi tinggi dan stabil,
serta yang menghasilkan driver analysis yang stabil.
TINJAUAN PUSTAKA Driver Analysis
Driver analysis merupakan istilah yang
digunakan secara luas dan meliputi berbagai metode analisis. Analisisnya melibatkan peubah respons dan peubah penjelas. Peubah respons biasanya berupa hal-hal yang para manajer usahakan untuk meningkatkan kondisi organisasinya. Peubah penjelas berupa hal-hal yang dianggap mempengaruhi peubah respons. Contoh peubah respons yang sering dianalisis dalam
driver analysis adalah kepuasan keseluruhan
(overall satisfaction), loyalitas, serta kesediaan merekomendasikan (Sambandam 2001).
Driver analysis dilakukan untuk memahami pengaruh peubah penjelas terhadap peubah respons sehingga dapat diketahui prioritas setiap peubah penjelas dalam menggerakkan peubah respons (Weiner & Tang 2005). Metode analisis yang digunakan dalam driver analysis disesuaikan dengan kondisi data yang dianalisis (Sambandam 2001).
Classification and Regression Tree (CART)
CART merupakan metode eksplorasi data yang didasarkan pada teknik pohon keputusan. Metode ini diperkenalkan oleh Leo Breiman, Jerome H. Friedman, Richard A. Olshen dan Charles J. Stone. CART menghasilkan pohon klasifikasi saat peubah respons berupa data kategorik (nominal), sedangkan pohon regresi dihasilkan saat peubah respons berupa data numerik (interval dan rasio). Peubah penjelas yang dianalisis dapat berupa kategorik, numerik, maupun campuran keduanya (Breiman et al. 1984).
CART menghasilkan pohon yang tersusun atas banyak simpul (node) yang terbentuk dari proses pemilahan rekursif biner. Setiap pemilahan memisahkan sebuah gugus data menjadi dua gugus data yang lebih kecil dan saling lepas. Nilai peubah respon pada setiap gugus data hasil pemilahan akan lebih homogen dibandingkan dengan sebelum dilakukan pemilahan (Breiman et al. 1984).
Pemilahan dilakukan pada simpul non-terminal, yaitu simpul yang memenuhi kriteria pemilahan. Pemilahan dimulai
dengan memilah gugus data lengkap atau simpul akar , kemudian dihentikan saat suatu simpul memenuhi kriteria berhenti memilah. Simpul tersebut dinamakan simpul terminal. Gambar 1 mengilustrasikan struktur pohon yang dihasilkan metode CART. Pohon pada Gambar 1 tersusun atas simpul t1, t2, …, t5. t1 adalah simpul akar. Simpul non-terminal dilambangkan dengan lingkaran, sedangkan simpul terminal dilambangkan dengan kotak. Setiap pemilah (split) memilah simpul non-terminal menjadis dua simpul yang saling lepas. Hasil prediksi respons suatu amatan terdapat pada simpul terminal.
Gambar 1 Struktur Pohon pada Metode CART.
Dalam CART, pembentukan pohon diawali dengan membangun pohon sampai ukuran tertentu (umumnya sampai ukuran maksimum). Bila diperlukan, akan dilanjutkan dengan pemangkasan pohon sampai diperoleh ukuran yang tepat sehingga dihasilkan pohon optimum. Menurut Breiman et al. (1984), pembangunan pohon klasifikasi CART meliputi tiga hal, yaitu:
1. Pemilihan pemilah (split) 2. Penentuan simpul terminal 3. Penandaan label kelas
Pemilihan pemilah (split)
Pemilihan pemilah (split) pada setiap simpul bertujuan mendapatkan pemilah (split) yang mampu menghasilkan simpul dengan tingkat kehomogenan nilai peubah respons paling tinggi. Untuk mencapai tujuan tersebut, aturan pemilahan diterapkan pada proses ini. Pada setiap simpul t, pemilah s dibangkitkan dengan cara membentuk pertanyaan biner, sehingga s memilah t menjadi simpul kiri tL dan simpul kanan tR. Setiap amatan pada t yang menjawab “ya” dikirim menuju tL, sedangkan yang menjawab “tidak” dikirim menuju tR. Setiap pemilah hanya bergantung pada nilai dari sebuah peubah penjelas. Misalkan X adalah sebuah peubah penjelas numerik, pertanyaan biner yang
dibangkitkan adalah semua pertanyaan yang berbentuk “Apakah x ≤ c?”, dengan . Sementara itu, jika X adalah peubah penjelas
nominal dengan sebagai
kategorinya, maka pertanyaan biner meliputi semua pertanyaan yang berbentuk “Apakah
?”, dimana . Jika
pada t telah terbentuk himpunan S, yaitu himpunan dari pemilah s, maka pemilah untuk t diperoleh dengan cara aturan pemilahan mencari s yang memaksimumkan fungsi kriteria kebaikan pemilah , dimana . Pemilah s yang terpilih kemudian dinotasikan dengan pemilah terbaik (Breiman et al. 1984).
Salah satu aturan pemilahan yang umum digunakan adalah indeks Gini. Indeks Gini merupakan fungsi impurity. Nilai dari fungsi
impurity dikenal dengan ukuran impurity
simpul t, yaitu . Semakin besar , maka semakin besar tingkat keheterogenan nilai peubah respons pada t. Jika terdapat fungsi impurity , maka ukuran impurity
pada setiap simpul t didefinisikan
dengan (Breiman et al. 1984):
dimana:
: dugaan peluang suatu amatan merupakan kelas j, dimana amatan tersebut berada dalam simpul t.
j : kelas pada peubah respons,
yaitu .
dinyatakan dengan:
dimana .
Saat , maka .
dengan:
: peluang prior kelas ke-j
: banyaknya amatan kelas ke-j yang berada di dalam simpul t
: banyaknya amatan kelas ke-j
: banyaknya amatan pada simpul t Saat indeks Gini digunakan sebagai aturan pemilahan, maka i(t) dituliskan dengan (Breiman et al. 1984):
dimana j adalah kelas pada peubah respons. Pada suatu t, jika s memilah t sedemikian sehingga besar proporsi amatan pada tL dan
pemilah 1 pemilah 2 t2 t5 t1 t4 t3 simpul akar : simpul non- terminal : simpul terminal
tR adalah pL dan pR, maka penurunan
impurity didefinisikan dengan (Breiman et al. 1984):
digunakan sebagai fungsi kriteria kebaikan pemilah . Pemilah s yang dipilih sebagai pemilah simpul t adalah pemilah terbaik , yaitu (Breiman et al. 1984):
Jika pada t1, terpilih sebagai pemilah yang memilah t1 menjadi t2 dan t3, maka dengan cara yang sama dilakukan pencarian pemilah terbaik pada simpul t2 dan t3, secara terpisah. Begitu juga pada simpul non-terminal lainnya (Breiman et al. 1984).
Penentuan simpul terminal
Pemilahan pada simpul t dihentikan jika memenuhi salah satu atau lebih dari kriteria berhenti memilah. Selanjutnya, t dinyatakan sebagai simpul terminal. Berikut adalah kriteria tersebut (Breiman et al. 1984):
tidak terdapat penurunan nilai impuritas secara berarti pada t (
).
banyaknya amatan pada t mencapai batas minimum yang telah ditentukan (N(t) ≤ 5 atau bahkan N(t) = 1).
amatan pada t sudah homogen.
Penandaan Label Kelas
Label kelas pada simpul terminal t ditentukan melalui aturan pluralitas (jumlah terbanyak), yaitu jika
, dimana j = {1, 2, …, J}, maka label kelas untuk simpul terminal t adalah kelas j0. Jika dicapai oleh dua atau lebih kelas yang berbeda, maka label kelas untuk simpul terminal t adalah pilihan acak dari kelas yang maksimum tersebut (Brieman et al. 1984).
Random Forest
Metode random forest adalah pengembangan dari metode CART, yaitu dengan menerapkan metode bootstrap aggregating (bagging) dan random feature selection (Breiman 2001). Metode ini
merupakan metode pohon gabungan. Dalam
random forest, banyak pohon ditumbuhkan
sehingga terbentuk suatu hutan (forest), kemudian analisis dilakukan pada kumpulan pohon tersebut. Pada gugus data yang terdiri atas n amatan dan p peubah penjelas, prosedur untuk melakukan random forest
adalah (Breiman 2001; Breiman & Cutler 2003):
1. Lakukan penarikan contoh acak berukuran n dengan pemulihan pada gugus data. Tahap ini adalah tahapan
bootstrap.
2. Dengan menggunakan contoh bootstrap, pohon dibangun sampai mencapai ukuran maksimum (tanpa pemangkasan). Pembangunan pohon dilakukan dengan menerapkan random feature selection pada setiap proses pemilihan pemilah, yaitu m peubah penjelas dipilih secara acak dimana m << p, lalu pemilah terbaik dipilih berdasarkan m peubah penjelas tersebut.
3. Ulangi langkah 1 dan 2 sebanyak k kali, sehingga terbentuk sebuah hutan yang terdiri atas k pohon.
Random forest memprediksi respons suatu
amatan dengan cara menggabungkan (aggregating) hasil prediksi k pohon. Untuk masalah klasifikasi, pohon yang dibangun adalah pohon klasifikasi dan hasil prediksi
random forest adalah berdasarkan majority vote (suara terbanyak), yaitu kategori atau
kelas yang paling sering muncul sebagai hasil prediksi dari k pohon klasifikasi.
Pada setiap iterasi bootstrap, terdapat sekitar sepertiga amatan gugus data asli yang tidak termuat dalam contoh bootstrap. Amatan tersebut disebut data out-of-bag (OOB). Data OOB tidak digunakan untuk membangun pohon, melainkan menjadi data validasi pada pohon yang bersesuaian. Nilai salah klasifikasi random forest diduga melalui error OOB yang diperoleh dengan cara (Breiman 2001; Breiman & Cutler 2003; Liaw & Wiener 2002):
1. Lakukan prediksi terhadap setiap data OOB pada pohon yang bersesuaian. 2. Umumnya setiap amatan gugus data asli
akan menjadi data OOB sebanyak sekitar 36% atau sepertiga dari banyak pohon yang dibentuk. Oleh karena itu, pada langkah 1, masing-masing amatan gugus data asli mengalami prediksi sebanyak sekitar sepertiga kali dari banyaknya pohon. Jika a adalah sebuah amatan dari gugus data asli, maka hasil prediksi
random forest terhadap a adalah gabungan dari hasil prediksi setiap kali a menjadi data OOB.
3. Error OOB dihitung dari proporsi misklasifikasi hasil prediksi random
forest dari seluruh amatan gugus data
Breiman (2001) menyebutkan bahwa
error OOB bergantung pada korelasi antar
pohon dan kekuatan (strength) masing-masing pohon dalam random forest.
Peningkatan korelasi meningkatkan error
OOB, sedangkan peningkatan kekuatan
pohon menurunkan error OOB. Saat melakukan random forest, ukuran contoh peubah penjelas (m) yang digunakan sangat mempengaruhi korelasi dan kekuatan tersebut. Meningkatkan m akan meningkatkan keduanya, begitu juga sebaliknya. Penggunaan m yang tepat akan menghasilkan random forest dengan korelasi antar pohon cukup kecil namun kekuatan setiap pohon cukup besar. Hal tersebut ditunjukkan dengan diperolehnya random
forest dengan error OOB bernilai kecil
(Breiman 2001; Breiman & Cutler 2001; Sartono & Syafitri 2010). Dengan demikian, nilai m tersebut dapat diketahui melalui pengamatan error OOB pada berbagai nilai
m. Breiman dan Cutler (2003) menyarankan
untuk mengamati error OOB saat dan k kecil, lalu memilih
m yang menghasilkan error OOB terkecil.
Untuk melakukan random forest yang menghasilkan variable importance,
disarankan untuk menggunakan banyak pohon, misalnya 1000 pohon atau lebih. Jika peubah penjelas yang dianalisis sangat banyak, nilai tersebut sebaiknya lebih besar agar variable importance yang dihasilkan semakin stabil (Breiman & Cutler 2003).
Mean Decrease Gini
Mean Decrease Gini (MDG) merupakan
salah satu ukuran tingkat kepentingan (variable importance) peubah penjelas yang dihasilkan oleh metode random forest. Misalkan terdapat p peubah penjelas dengan , maka MDG mengukur tingkat kepentingan peubah penjelas Xh dengan cara (Breiman & Cutler 2003; Sandri & Zuccolotto 2006):
dimana:
: besar penurunan indeks Gini untuk peubah penjelas Xh pada simpul t
k : banyaknya pohon dalam random
forest (ukuran random forest)
METODOLOGI Data
Data yang digunakan dalam penelitian ini adalah data sekunder yang diperoleh dari sebuah perusahaan riset pemasaran di Indonesia. Data tersebut terdiri atas sejumlah merek yang berbeda, dimana merek-merek tersebut merupakan jenis produk yang sama, yaitu produk Z. Banyaknya amatan dalam data adalah 1200 amatan.
Data yang digunakan terdiri atas sebuah peubah respons dan dua puluh peubah penjelas. Seluruhnya berskala pengukuran ordinal dengan lima kategori. Peubah responsnya adalah status kesediaan seseorang untuk membeli produk Z, sedangkan peubah penjelasnya adalah status kesetujuan seseorang terhadap atribut produk Z. Kategori masing-masing peubah dapat dilihat pada Tabel 1. Untuk melakukan metode random forest pada masalah klasifikasi, skala pengukuran data dianggap nominal.
Tabel 1 Kategori peubah penjelas dan peubah respons
Peubah Kategori peubah
Kode Keterangan
Penjelas (X)
1 Sangat tidak setuju 2 Tidak setuju 3 Biasa saja 4 Setuju 5 Sangat setuju Respons (Y)
1 Pasti tidak akan membeli 2 Tidak akan membeli 3 Tidak yakin akan
membeli atau tidak 4 Akan membeli 5 Pasti akan membeli
Metode
Langkah-langkah yang dilakukan dalam penelitian ini adalah:
1. Melakukan analisis statistika deskriptif terhadap peubah respons.
2. Melakukan simulasi random forest. Simulasi dilakukan dengan cara:
a. Sebanyak 1000 random forest
dibentuk pada setiap m dan k yang dicobakan, kemudian dicatat tingkat misklasifikasi masing-masing
random forest dan Mean Decrease Gini (MDG) setiap peubah penjelas.
Nilai m dan k yang disarankan Breiman (2001) dicobakan dalam simulasi ini. Nilai k yang disarankan
untuk digunakan pada metode
bagging juga dicobakan, yaitu k = 50.
Umumnya k = 50 sudah memberikan hasil yang memuaskan untuk masalah klasifikasi (Breiman 1996). Sementara itu, k ≥ 100 cenderung menghasilkan tingkat misklasifikasi yang konstan (Sutton 2005). Nilai m dan k yang dicobakan adalah:
dimana p adalah banyaknya peubah penjelas dalam data, yaitu p = 20. b. Menganalisis tingkat misklasifikasi
random forest yang dihasilkan dari
langkah 2a. Analisis dilakukan secara eksploratif.
c. Melakukan driver analysis
menggunakan metode random forest, yaitu mengamati urutan MDG peubah penjelas. MDG setiap peubah penjelas dihasilkan pada langkah 2a. 3. Melakukan analisis korelasi Spearman
terhadap data.
4. Melakukan intepretasi hasil driver analysis dan hasil analisis korelasi.
Dalam penelitian ini, metode random
forest dihasilkan menggunakan software R ver 2.12.0 dengan paket randomForest ver
3.6-2. Kriteria berhenti memilah yang digunakan adalah terdapatnya satu amatan pada simpul terminal.
HASIL DAN PEMBAHASAN Analisis Deskriptif
Frekuensi dan persentase dari banyaknya amatan pada setiap kategori peubah respons disajikan dalam Tabel 2.
Tabel 2 Frekuensi dan persentase kategori peubah respons (status kesediaan seseorang untuk membeli produk Z) Kategori peubah respons
Frekuensi Persentase (%) Kode Keterangan
1 Pasti tidak akan membeli
0 0.0
2 Tidak akan membeli 4 0.3
3 Tidak yakin akan membeli atau tidak
24 2.0
4 Akan membeli 672 56.0
5 Pasti akan membeli 500 41.7
Total 1200 100.0
Berdasarkan Tabel 2, diketahui bahwa terdapat 5 kategori pada peubah respons, namun tidak terdapat responden yang menyatakan „pasti tidak akan membeli‟. Oleh karena itu, peubah respons yang dianalisis hanya terdiri atas 4 kategori. Dari 1200 responden, 56% responden menyatakan akan membeli produk Z, 41.7% responden menyatakan pasti akan membeli produk Z, 2% responden menyatakan tidak yakin akan membeli produk Z atau tidak membelinya, dan 0.3% responden menyatakan tidak akan membelinya. Secara deskriptif dapat dikatakan bahwa sebagian besar responden bersedia membeli produk Z.
Simulasi Ukuran Random Forest dan Ukuran Contoh Peubah Penjelas terhadap Keakuratan Prediksi Random
Forest
Keakuratan prediksi random forest
diukur dari tingkat misklasifikasinya. Akurasi yang tinggi dan stabil dapat diperoleh jika ukuran contoh peubah penjelas (m) dan ukuran random forest (k) ditentukan dengan tepat. Simulasi dilakukan dengan menganalisis tingkat misklasifikasi
random forest pada berbagai nilai m dan k
yang dicobakan.
Perubahan rataan tingkat misklasifikasi
random forest akibat perubahan m disajikan
dalam Gambar 2. Semakin besar k, perubahan rataan tingkat misklasifikasi akibat perubahan m menjadi semakin tidak terlihat. Meskipun demikian, terlihat bahwa rataan tingkat misklasifikasi terendah selalu dicapai saat , yaitu m = 4.
Gambar 2 Rataan tingkat misklasifikasi
random forest berukuran k pada
beberapa ukuran contoh peubah penjelas (m).
Hal tersebut menunjukan bahwa m = 4 adalah m optimal. Gambar 2 juga menunjukkan bahwa m optimal sudah dapat diketahui meski dengan k kecil. Dengan m = 4, random forest yang terbentuk merupakan
random forest dengan pohon-pohon yang 34.0 34.5 35.0 35.5 36.0 36.5 37.0 37.5 38.0 2 4 8 R at aa n t in g k at mi sk la si fi k asi ( %) m k = 25 k = 50 k = 100 k = 500 k = 1000
kuat, namun korelasi antar pohon cukup kecil. Oleh karena itu, tingkat misklasifikasinya adalah yang terendah.
Gambar 3 Rataan tingkat misklasifikasi
random forest berukuran contoh
peubah penjelas m pada beberapa ukuran random forest (k).
Gambar 3 memperlihatkan perubahan rataan tingkat misklasifikasi akibat berubahnya k. Terlihat bahwa semakin besar
k maka semakin kecil rataan tingkat
misklasifikasi. Breiman (2001) menyatakan bahwa tingkat misklasifikasi random forest akan konvergen menuju nilai tertentu saat ukuran random forest semakin besar. Hasil simulasi (Gambar 3) sesuai dengan hal tersebut, yaitu ditunjukkan dengan saat k semakin besar, besarnya penurunan rataan tingkat misklasifikasi menjadi semakin tidak terlihat. Peningkatan k dari 500 pohon menjadi 1000 pohon terlihat tidak memberikan penurunan rataan tingkat misklasifikasi yang berarti. Dengan demikian, dapat dikatakan bahwa akurasi
random forest dalam memprediksi kesediaan
membeli mulai konvergen saat menggunakan 500 pohon dan konvergen menuju 34.5%. Tingkat misklasifikasi tersebut adalah yang terendah. Nilai tingkat misklasifikasi pada seluruh k dan m yang dicobakan dapat dilihat dalam Lampiran 1.
Penyebaran tingkat misklasifikasi menggambarkan kestabilan tingkat misklasifikasi. Dengan membandingkan seluruh diagram kotak garis pada Gambar 4, terlihat bahwa panjang diagram kotak garis cenderung konstan meskipun terjadi perubahan m. Akan tetapi, panjang diagram kotak garis semakin memendek saat k meningkat. Ini menunjukkan bahwa kestabilan tingkat misklasifikasi random
forest hanya bergantung pada k. Semakin
besar k maka semakin stabil tingkat misklasifikasi random forest.
Gambar 4 juga memperlihatkan terdapatnya konvergensi tingkat
misklasifikasi. Memendeknya diagram kotak garis terjadi secara perlahan dan bergerak menuju nilai tertentu. Saat k sebesar 1000,
1000 500 100 50 25 41 40 39 38 37 36 35 34 33 32 T in g k at m is k la si fi k as i (% ) k m = 8 m = 4 m = 2
Gambar 4 Diagram kotak garis tingkat misklasifikasi random forest pada ukuran contoh peubah penjelas (m) dan ukuran random
forest (k).
akurasi random forest yang dihasilkan berada antara 33% dan 35.5%, dengan letak pemusatan berada pada nilai sekitar 34.5%. Pada k tersebut, akurasi prediksi random
forest memiliki kestabilan yang baik
dibandingkan dengan k yang lebih kecil. Selain itu, letak pemusatannya merupakan nilai konvergensi akurasi dan nilai akurasi tertinggi yang dapat dicapai.
Mengenai waktu komputasi, penggunaan
k dan m yang semakin besar menyebabkan
meningkatnya waktu komputasi. Walau demikian, pembentukan random forest tunggal hanya memerlukan waktu komputasi yang singkat. Umumnya, waktu komputasi menjadi hal yang perlu dipertimbangkan ketika metode random forest digunakan untuk membangun banyak random forest, seperti pada simulasi ini.
Simulasi Ukuran Random Forest dan Ukuran Contoh Peubah Penjelas
terhadap Hasil Driver Analysis
Pada penerapan random forest dalam
driver analysis (DA-RF), random forest
menghasilkan nilai Mean Decrease Gini (MDG) untuk setiap peubah penjelas. Driver
analysis dilakukan dengan memeringkatkan
peubah penjelas berdasarkan MDG. Oleh karena itu, kestabilan MDG sangat mmenentukan kestabilan hasil driver analysis.
Kestabilan MDG diamati melalui diagram kotak garis MDG pada berbagai m dan k yang dicobakan. Hasil tersebut disajikan dalam Gambar 5. Dapat dilihat bahwa perubahan m, tidak mengubah
34.0 34.5 35.0 35.5 36.0 36.5 37.0 37.5 38.0 25 50 100 500 1000 R at aa n t in g k at mi sk la si fi k asi ( %) k m = 2 m = 4 m = 8
.20_4 .20_3 .20_2 .20_1 G.20 .19_4 .19_3 .19_2 .19_1 G.19 .18_4 .18_3 .18_2 .18_1 G.18 .17_4 .17_3 .17_2 .17_1 G.17 .16_4 .16_3 .16_2 .16_1 G.16 .15_4 .15_3 .15_2 .15_1 G.15 .14_4 .14_3 .14_2 .14_1 G.14 .13_4 .13_3 .13_2 .13_1 G.13 .12_4 .12_3 .12_2 .12_1 G.12 .11_4 .11_3 .11_2 .11_1 G.11 .10_4 .10_3 .10_2 .10_1 G.10 G.9_4 G.9_3 G.9_2 G.9_1 DG.9 G.8_4 G.8_3 G.8_2 G.8_1 DG.8 G.7_4 G.7_3 G.7_2 G.7_1 DG.7 G.6_4 G.6_3 G.6_2 G.6_1 DG.6 G.5_4 G.5_3 G.5_2 G.5_1 DG.5 G.4_4 G.4_3 G.4_2 G.4_1 DG.4 G.3_4 G.3_3 G.3_2 G.3_1 DG.3 G.2_4 G.2_3 G.2_2 G.2_1 DG.2 G.1_4 G.1_3 G.1_2 G.1_1 DG.1 40 35 30 25 20 15
MD
G (
m =
2)
.20_9 .20_8 .20_7 .20_6 .20_5 .19_9 .19_8 .19_7 .19_6 .19_5 .18_9 .18_8 .18_7 .18_6 .18_5 .17_9 .17_8 .17_7 .17_6 .17_5 .16_9 .16_8 .16_7 .16_6 .16_5 .15_9 .15_8 .15_7 .15_6 .15_5 .14_9 .14_8 .14_7 .14_6 .14_5 .13_9 .13_8 .13_7 .13_6 .13_5 .12_9 .12_8 .12_7 .12_6 .12_5 .11_9 .11_8 .11_7 .11_6 .11_5 .10_9 .10_8 .10_7 .10_6 .10_5 G.9_9 G.9_8 G.9_7 G.9_6 G.9_5 G.8_9 G.8_8 G.8_7 G.8_6 G.8_5 G.7_9 G.7_8 G.7_7 G.7_6 G.7_5 G.6_9 G.6_8 G.6_7 G.6_6 G.6_5 G.5_9 G.5_8 G.5_7 G.5_6 G.5_5 G.4_9 G.4_8 G.4_7 G.4_6 G.4_5 G.3_9 G.3_8 G.3_7 G.3_6 G.3_5 G.2_9 G.2_8 G.2_7 G.2_6 G.2_5 G.1_9 G.1_8 G.1_7 G.1_6 G.1_5 50 45 40 35 30 25 20MD
G
(m
=
4)
X20 X19 X18 X17 X16 X15 X14 X13 X12 X11 X10 X9 X8 X7 X6 X5 X4 X3 X2 X1 55 50 45 40 35 30 25 20M
DG
(m
=
8
)
Gambar 5 Diagram kotak garis mean decrease gini (MDG) peubah penjelas, pada random forest berukuran m = 2, 4, 8 dan k = 25, 50,100, 500, 1000.
Gambar 6 Urutan tingkat kepentingan peubah penjelas berdasarkan rataan Mean Decrease Gini (MDG), pada random forest berukuran m = 4 dan k = 25, 50,100, 500, 1000.
panjang diagram kotak garis. Hasil ini menunjukkan bahwa keragaman MDG selalu sama besar pada m berapapun, yang berarti m tidak mempengaruhi kestabilan MDG sehingga m tidak mengubah hasil
driver analysis. Dengan demikian, diketahui
bahwa m tidak mempengaruhi kestabilan hasil driver analysis.
Mengenai pengaruh k terhadap MDG, peningkatan k menyebabkan diagram kotak
16 19 22 25 28 31 34 37 40 43 X2 X6 X14 X8 X15 X1 X13 X7 X12 X5 X19 X17 X18 X3 X10 X20 X9 X16 X4 X11 Ra taa n M D G Peubah penjelas k = 25 k = 50 k = 100 k = 500 k = 1000 k = 25 k = 50 k = 100 k = 500 k = 1000
garis semakin pendek. Ini menunjukkan bahwa keragaman MDG semakin kecil saat
k semakin besar, sehingga MDG suatu
peubah penjelas semakin stabil saat k semakin besar. Berbeda dengan susunan diagram kotak garis pada Gambar 4, Gambar 5 memperlihatkan bahwa memendeknya diagram kotak garis tidak disertai dengan perubahan letak pemusatan MDG. Hasil tersebut menunjukkan bahwa kestabilan MDG sangat bergantung pada k, namun k tidak mempengaruhi besar perolehan MDG. MDG memiliki kestabilan yang baik saat k bernilai lebih dari 500, sehingga hasil driver
analysis stabil pada k tersebut.
Telah diketahui bahwa m tidak mengubah hasil driver analysis, namun
random forest memiliki akurasi tertinggi
saat m = 4. Oleh karena itu, pengamatan hasil driver analysis selanjutnya dilakukan saat m = 4. Hal tersebut dilakukan dengan menyusun driver analysis berdasarkan rataan MDG dari 1000 random forest. Hasilnya ditampilkan dalam Gambar 6. Seperti hasil sebelumnya, Gambar 6 juga memperlihatkan bahwa perubahan k tidak menyebabkan perubahan letak pemusatan. Ini menunjukkan bahwa berapapun k yang digunakan tidak mempengaruhi rataan MDG peubah penjelas. Oleh sebab itu, penyusunan
driver analysis berdasarkan rataan MDG
menghasilkan driver analysis yang stabil. Nilai rataan MDG peubah penjelas saat
random forest berukuran m = 4 dan k = 25,
50, 100, 500, 1000 disajikan dalam Lampiran 2. Terlihat bahwa hasil driver
analysis pada k = 25 dan k = 50 sedikit
berbeda dengan hasil driver analysis pada k lainnya (k = 100, 500, 1000). Pada k = 25, hal tersebut terjadi saat urutan X6-X14, yaitu dengan masing-masing nilai rataan MDG sebesar 31.319 dan 31.328. Sementara itu, pada k = 50, hal tersebut terjadi saat urutan X1-X13, dengan masing-masing nilai rataan MDG sebesar 28.651 dan 28.668. Karena nilai-nilai tersebut tidak terlalu berbeda jauh, maka hasil driver analysis berdasarkan rataan MDG tetap dapat dikatakan stabil meskipun menggunakan k yang bernilai kecil.
Dalam Gambar 6 diperlihatkan bahwa rataan MDG tertinggi dimiliki oleh X2. Penurunan rataan MDG secara drastis hanya terjadi pada peubah penjelas peringkat 1 dan 2, yaitu X2 dan X6. Pada peringkat selanjutnya, rataan MDG menurun secara lambat. Hasil tersebut memperlihatkan bahwa X2 teridentifikasi sebagai atribut
yang paling penting dalam mempengaruhi kesediaan membeli produk Z, serta memiliki pengaruh yang jauh lebih besar daripada pengaruh atribut lainnya. Ini menunjukkan bahwa memperbaiki atribut X2 jauh lebih berpengaruh terhadap perbaikan kesediaan membeli dibandingkan dengan jika memperbaiki atribut lainnya. Oleh karena itu, untuk memperbaiki hal kesediaan seseorang dalam membeli produk Z, sangat diprioritaskan untuk memperbaiki atribut X2. Prioritas berikutnya disesuaikan dengan hasil driver analysis. Urutan prioritas atribut berdasarkan hasil driver analysis adalah X2- X6-X14-X8-X15-X1-X13-X7-X12-X5- X19-X17-X18-X3-X10-X20-X9-X16-X4-X11.
Nilai koefisien korelasi Spearman antara kesediaan membeli produk Z dan atribut produk Z disajikan dalam Lampiran 3. Arah koefisien korelasi Spearman menggambarkan bentuk hubungan antara suatu atribut dengan kesediaan seseorang membeli produk Z. Saat koefisien korelasi Spearman bernilai positif, maka diindikasikan bahwa terdapatnya suatu atribut di dalam produk Z mampu menggerakkan seseorang untuk bersedia membeli produk Z. Sebaliknya, koefisien korelasi Spearman yang bernilai negatif mengindikasikan bahwa tidak terdapatnya suatu atribut di dalam produk Z akan menggerakkan seseorang untuk bersedia membeli produk Z. Untuk atribut X2, koefisien korelasi Spearman antara atribut X2 dengan kesediaan membeli produk Z bernilai positif dan nyata pada taraf nyata 5%. Hasil ini menunjukkan bahwa terdapatnya atribut X2 di dalam produk Z dapat menggerakkan seseorang untuk bersedia membeli produk Z.
Jika frekuensi terpilihnya suatu peubah penjelas untuk menjadi pemilah simpul dalam sebuah random forest diamati, maka terlihat bahwa atribut X2 merupakan peubah penjelas yang paling sering terpilih sebagai pemilah simpul. Hal tersebut ternyata sejalan dengan hasil driver analysis berdasarkan rataan MDG. Akan tetapi, saat m = 8, hal tersebut tampak tidak sejalan dengan hasil
driver analysis. Saat m = 8, atribut X6
menjadi peubah penjelas yang paling sering terpilih sebagai pemilah simpul. Hal tersebut dapat terjadi karena untuk menghasilkan nilai MDG suatu peubah penjelas, nilai penurunan impurity peubah penjelas tersebut juga turut diperhitungkan. Nilai modus mengenai frekuensi terpilihnya suatu peubah
penjelas untuk menjadi pemilah dalam sebuah random forest pada masing-masing
m dan k yang dicobakan dapat dilihat pada
Lampiran 4, Lampiran 5, dan Lampiran 6.
SIMPULAN DAN SARAN Simpulan
Akurasi prediksi yang tinggi dan stabil diperoleh saat random forest dibangun menggunakan ukuran contoh peubah penjelas sebesar 4 dan ukuran random forest lebih dari 500. Pada kondisi tersebut, tingkat misklasifikasi yang dicapai berkisar antara 33% dan 35.5%, dengan nilai rataan tingkat misklasifikasi sebesar 34.5%. Pada penerapan random forest dalam driver
analysis, penyusunan driver analysis
berdasarkan MDG menghasilkan driver
analysis yang stabil jika ukuran random forest lebih dari 500. Sementara itu, jika
penyusunan driver analysis dilakukan berdasarkan rataan MDG dari 1000 random
forest, maka tetap dihasilkan driver analysis
yang stabil meskipun ukuran random forest yang digunakan cukup kecil. Hasil driver
analysis pun stabil pada berbagai ukuran
contoh peubah penjelas.
Saran
Penelitian ini dilakukan pada ukuran
bootstrap yang sama besar dengan ukuran
data, yaitu sebesar 1200. Selain itu, juga dilakukan pada ukuran iterasi simulasi (banyaknya random forest dalam satu iterasi simulasi) sebesar 1000. Berkenaan dengan hal tersebut, saran untuk penelitian selanjutnya adalah:
1. Mengurangi ukuran bootstrap untuk melihat bagaimana pengaruhnya terhadap akurasi random forest dan hasil driver
analysis. Salah satu keunggulan metode
random forest adalah mampu
menganalisis data yang ukuran datanya jauh lebih sedikit dibandingkan ukuran peubah penjelas dalam data (Breiman & Cutler 2001; Díaz-Uriarte & Andrés 2006).
2. Mengurangi ukuran iterasi simulasi untuk mengetahui ukuran iterasi yang efisien dalam menghasilkan driver analysis yang stabil.
DAFTAR PUSTAKA
Brieman L, Friedman JH, Olshen RA, Stone CJ. 1984. Classification and Regression
Trees. New York: Chapman & Hall.
Breiman L. 1996. Bagging Predictors.
Machine Learning 24:123-140.
Breiman L. 2001. Random Forests. Machine
Learning 45:5-32.
Breiman L, Cutler A. 2001. Random Forest.
[terhubung berkala].
http://www.stat.berkeley.edu/~breiman/R andomForests/cc_home.htm#intro. [8 Jul 2010]
Breiman L, Cutler A. 2003. Manual on Setting Up, Using, and Understanding Random Forest V4.0. [terhubung berkala].
http://oz.berkeley.edu/users/breiman/Usi ng_random_forests_v4.0.pdf. [8 Jul 2010]
Díaz-Uriarte R, Andrés SA de. 2006. Gene Selection and Classification of Microarray Data Using Random Forest.
BMC Bioinformatics 7:3.
Liaw A, Wiener M. Des 2002. Classification and Regression by randomForest.
RNews Vol. 2/3:18-22.
Sambandam R. 2001. Survey of analysis methods -- Part I: key driver analysis. http://www.trchome.com/white-paper-library/wpl-all-white-papers/206. [30 Nopember 2009].
Sandri M, Zuccolotto P. 2006. Variable Selection Using Random Forest. Di dalam: Zani S, Cerioli A, Riani M, Vichi M, editor. Data Analysis, Classification
and the Forward Search. Proceedings of the Meeting of the Classification and Data Analysis Group (CLADAG) of the Italian Statistical Society; University of
Parma, 6-8 Jun 2005. New York: Springer Berlin Heidelberg. hlm 263-270.
Sartono B, Syafitri UD. 2010. Ensemble Tree: an Alternative toward Simple Classification & Regression Tree. Forum
Statistika dan Komputasi 15(1):1-7.
Sutton CD. 2005. Classification and Regression Trees, Bagging, and Boosting. Handbook of Statistics 24:303-329.
Wiener JL, Tang J. 2005. Multicollinearity in Customer Satisfaction Research. Ipsos Loyalty.
Lampiran 1 Tingkat misklasifikasi random forest pada ukuran random forest (k) dan ukuran contoh peubah penjelas (m) yang dicobakan
Ukuran Random Forest (k)
Ukuran Contoh Peubah Penjelas
(m)
Rataan Tingkat Misklasifikasi (%) 25 2 37.724 4 37.289 8 37.354 50 2 36.154 4 35.783 8 35.892 100 2 35.276 4 34.950 8 35.058 500 2 34.549 4 34.438 8 34.639 1000 2 34.475 4 34.469 8 34.555
Lampiran 2 Urutan tingkat kepentingan peubah penjelas berdasarkan nilai rataan Mean Decrease
Gini (MDG) peubah penjelas pada ukuran random forest (k) sebesar 25, 50, 100,
500, 1000 dan ukuran contoh peubah penjelas (m) sebesar 4
Urutan Tingkat Kepentingan Peubah Penjelas
Peubah Penjelas
Ukuran Random Forest (k) 25 50 100 500 1000 1 X2 42.109 42.114 42.145 42.113 42.104 2 X6 31.320 31.376 31.359 31.351 31.349 3 X14 31.328 31.326 31.358 31.336 31.334 4 X8 31.215 31.188 31.160 31.138 31.129 5 X15 29.402 29.397 29.437 29.456 29.448 6 X1 28.650 28.651 28.678 28.685 28.684 7 X13 28.641 28.669 28.660 28.671 28.671 8 X7 28.542 28.517 28.521 28.515 28.522 9 X12 28.393 28.414 28.371 28.373 28.375 10 X5 27.300 27.243 27.197 27.198 27.220 11 X19 26.947 27.033 27.045 27.085 27.086 12 X17 25.959 25.978 25.962 25.948 25.947 13 X18 25.864 25.837 25.874 25.890 25.888 14 X3 25.750 25.793 25.779 25.802 25.806 15 X10 24.559 24.602 24.591 24.588 24.591 16 X20 24.443 24.395 24.404 24.394 24.384 17 X9 24.337 24.340 24.338 24.352 24.347 18 X16 22.931 22.917 22.926 22.915 22.921 19 X4 21.975 21.991 21.984 21.988 21.991 20 X11 21.449 21.436 21.452 21.457 21.444
Lampiran 3 Koefisien korelasi Spearman antara peubah penjelas (X) dan peubah respons (Y) Peubah Penjelas Y Nilai-p X1 0.091 0.002 X2 0.229 0 X3 0.159 0 X4 0.129 0 X5 0.138 0 X6 0.147 0 X7 0.224 0 X8 0.191 0 X9 0.143 0 X10 0.114 0 X11 0.146 0 X12 0.071 0.013 X13 0.149 0 X14 0.040 0.161 X15 - 0.013 0.659 X16 0.061 0.034 X17 0.071 0.014 X18 0.205 0 X19 0.237 0 X20 0.223 0
Lampiran 4 Modus frekuensi terpilihnya peubah penjelas sebagai pemilah (split) simpul dalam sebuah random forest dengan ukuran contoh peubah penjelas (m) sebesar 2 dan ukuran random forest (k) sebesar 25, 50, 100, 500, dan 1000
Peubah Penjelas
Ukuran Random Forest (k)
25 50 100 500 1000 X1 388 789 1564 7817 15523 X2 421 856 1731 8700 17380 X3 350 712 1446 7215 14289 X4 342 715 1405 6972 13985 X5 374 778 1523 7480 14908 X6 424 834 1646 8310 16624 X7 356 691 1415 7040 14079 X8 389 786 1568 7790 15598 X9 357 719 1434 7076 14106 X10 376 730 1493 7482 14894 X11 320 682 1334 6678 13095 X12 376 763 1549 7781 15596 X13 372 748 1517 7657 15201 X14 411 829 1606 8155 16271 X15 394 768 1555 7749 15486 X16 357 716 1440 7163 14456 X17 371 758 1527 7681 15341 X18 322 679 1354 6604 13344 X19 315 642 1303 6398 13016 X20 292 571 1136 5778 11461
Lampiran 5 Modus frekuensi terpilihnya peubah penjelas sebagai pemilah (split) simpul dalam sebuah random forest dengan ukuran contoh peubah penjelas (m) sebesar 4 dan ukuran random forest (k) sebesar 25, 50, 100, 500, dan 1000
Peubah Penjelas k 25 50 100 500 1000 X1 437 858 1768 8881 17677 X2 493 995 1994 10041 19990 X3 368 742 1493 7494 15041 X4 384 783 1566 7780 15479 X5 438 885 1720 8692 17337 X6 482 983 1976 9804 19671 X7 373 716 1443 7442 14828 X8 450 876 1819 8984 17914 X9 382 784 1550 7710 15411 X10 414 836 1669 8322 16771 X11 357 722 1455 7268 14383 X12 444 887 1789 8927 17846 X13 431 871 1749 8742 17476 X14 457 941 1838 9231 18315 X15 418 841 1681 8414 16899 X16 392 750 1526 7570 15180 X17 411 838 1691 8407 16826 X18 355 685 1407 7136 14139 X19 322 644 1309 6405 12866 X20 264 558 1083 5421 10888
Lampiran 6 Modus frekuensi terpilihnya peubah penjelas sebagai pemilah (split) simpul dalam sebuah random forest dengan ukuran contoh peubah penjelas (m) sebesar 8 dan ukuran random forest (k) sebesar 25, 50, 100, 500, dan 1000
Peubah Penjelas k 25 50 100 500 1000 X1 420 839 1663 8351 16707 X2 488 946 1935 9418 19072 X3 317 649 1296 6465 12987 X4 349 711 1437 7136 14306 X5 421 842 1662 8386 16751 X6 490 980 1954 9756 19578 X7 326 677 1327 6743 13439 X8 415 867 1739 8584 17150 X9 347 688 1388 6934 13879 X10 389 773 1556 7739 15546 X11 326 652 1316 6620 13260 X12 417 820 1641 8245 16590 X13 419 839 1703 8379 16885 X14 430 850 1712 8478 16870 X15 386 764 1529 7666 15272 X16 323 660 1314 6570 13130 X17 387 760 1530 7654 15425 X18 334 648 1315 6504 13071 X19 276 555 1074 5442 10982 X20 227 443 938 4630 9260