PROPOSAL
PENELITIAN LABORATORIUM DANA ITS TAHUN 2020
PENGEMBANGAN MODEL DINAMIS UNTUK PREDIKSI FINANCIAL DISTRESS DAN DEFAULT BERBASIS MODEL KLASIFIKASI DAN MODEL SURVIVAL DENGAN PENDEKATAN
MACHINE LEARNING DAN STATISTICAL LEARNING
Tim Peneliti:
Dr.rer.pol. Dedy Dwi Prastyo, S.Si., M.Si. (Statistika / FSAD / ITS) Santi Puteri Rahayu, S.Si., M.Si., Ph.D. (Statistika / FSAD / ITS)
Mahasiswa yang terlibat:
Rizki Nanda Savera (S1 Statistika / FSAD / ITS / 06211640000084)
DIREKTORAT PENELITIAN DAN PENGABDIAN KEPADA MASYARAKAT INSTITUT TEKNOLOGI SEPULUH NOPEMBER
SURABAYA 2020
i
DAFTAR ISI
Halaman HALAMAN SAMPUL
DAFTAR ISI i
DAFTAR TABEL ii
DAFTAR GAMBAR iii
DAFTAR LAMPIRAN iv
BAB I. RINGKASAN 1
BAB II. LATAR BELAKANG 1
2.1. Latar Belakang 2
2.2. Permasalahan dan Tujuan 4
2.3. Relevansi dan Urgensi Penelitian 4
2.4. Target Luaran Penelitian 4
BAB III. TINJAUAN PUSTAKA 4
3.1. Teori Penunjang 6
3.2. Peta Jalan Penelitian 15
BAB IV. METODE PENELITIAN 16
BAB V. JADWAL PENELITIAN 10
5.1. Organisasi Tim Peneliti 21
5.2. Jadwal Penelitian 22
5.3. Rencana Anggaran Biaya 22
BAB VI. DAFTAR PUSTAKA 23
BAB VII. LAMPIRAN 24
Lampiran Biodata Tim Peneliti 24
ii
DAFTAR TABEL
Halaman
Tabel 4.1. Organisasi Tim Peneliti 8
Tabel 4.1 Struktur Data 16
Tabel 4.2 Time Window Size Data Penelitian 17
Tabel 5.1. Organisasi Tim dan Uraian Tugas 21
Tabel 5.2. Jadwal Kegiatan Penelitian 22
Tabel 5.3. Rencana Anggaran dan Biaya 22
iii
DAFTAR GAMBAR
Halaman
Gambar 3.1. Peta Jalan Penelitian 15
Gambar 4.1. Tahapan Penelitian 16
Gambar 4.2 Ilutrasi full memory time window size 0 18 Gambar 4.3 Ilutrasi full memory time window size 0 18
iv
DAFTAR LAMPIRAN
Halaman
Lampiran Bidata Tim Peneliti 24
1
BAB I. RINGAKASAN
Analisis dan prediksi financial distress dan default sangat penting untuk risk assessment pada menejemen risiko. Data yang digunakan untuk analisis tersebut dapat berupa data cross section atau data panel. Ketika data panel digunakan, maka lama waktu sampai terjadinya event (distress/default) dapat dihitung sebagai survival time sehingga pendekatan model survival dapat digunakan. Selain pendekatan kontinyu, analisis survival juga dapat diselesaikan dengan pendekatan diskrit. Pada pendekatan diskrit, variabel indikator yang menyatakan pengamatan individu tersensor atau tidak bersifat biner, sehingga pada setiap titik pengamatan waktu status tersensor atau survive dapat dipandang sebagai kelas dari nilai variabel respons pada metode klasifikasi. Hal ini memungkinkan data survival dapat dianalisis dengan pendekatan metode klasifikasi. Sampai saat ini, pendekatan metode klasifikasi untuk analisis survival masih terbatas pada kovariat yang statis.
Sedikit sekali penelitian yang menerapkan pendekatan klasifikasi pada data dengan kovariat dinamis terhadap waktu. Pada kenyatannya, data survival pada kasus ekonomi dan finansial maupun pada studi longitudinal sering kali mempunyai kovariat yang bersifat dinamis terhadap waktu. Berdasarkan hal tersebut, maka penelitian ini akan membangan model klasifikasi dan model survival dengan kovariat yang dinamis menggunakan pendekatan machine learning dan statistical learning. Model klasifikasi yang digunakan adalah model regresi logistik dan multi-period logit serta Generalized Extreme Value Regression (GEVR) dan multi-period GEVR sebagai pendekatan diskrit. Model Cox dengan kovariat dinamis digunakan sebagai pembanding dari pendekatan kontinyu. Pendekatan Machine Learning yang digunakan adalah Support Vector Machines (SVMs) dengan input dinamis. Lebih lanjut, pada model klasifikasi dan model survival biasanya kovariat sebagai input dipilih secara priory dan diasumsikan sebagai faktor resiko yang relevan dan dapat menjelaskan fungsi survival dan fungsi hazard dengan baik, padahal belum tentu demikian. Oleh sebab itu, diperlukan metode pemilihan kovariat yang relevan bersamaan dengan proses penaksiran parameter. Pada penelitian ini, pemilihan kovariat yang relevan akan digunakan pendekatan regularisasi, yaitu dengan penambahan fungsi penalti pada fungsi resiko sehingga fungsi tujuan yang baru dapat mengakomodasi prosedur pemilihan input. Hasil dari penelitian ini adalah publikasi makalah pada jurnal internasional bereputasi dengan kategori Q2.
Kata kunci: multi-period logit, multi-period GEVR, support vector machine, seleksi input, regularisasi.
2
BAB II. LATAR BELAKANG
2.1. Latar Belakang
Analisis dan prediksi financial distress dan default sangat penting untuk risk assessment pada menejemen risiko. Data yang digunakan untuk analisis tersebut dapat berupa data cross section atau data panel. Ketika data panel digunakan, maka lama waktu sampai terjadinya event (distress/default) dapat dihitung sebagai survival time sehingga pendekatan model survival dapat digunakan. Analisis survival adalah metode Statistika yang digunakan untuk menganalisis data lama waktu terjadinya suatu peristiwa tertentu (survival time). Saat ini, analisis survival banyak diterapkan pada bidang finansial untuk menaksir peluang default (PD), yaitu peristiwa dimana perusahaan atau perseorangan tidak mampu memenuhi kewajibannya atau wanprestasi [1-4]
Lebih lanjut, penaksiran PD dilakukan dengan pendekatan berbasis intensitas, dimana intensitas bermakna nilai peluang spontan sebuah perusahaan akan mengalami default setelah dia mampu bertahan sampai waktu tertentu [5-6].
Selain itu, analisis survival juga diterapkan pada banyak bidang lainnya.
Nilai kovariat dan survival time mempengaruhi nilai fungsi hazard.
Kovariat dapat bernilai tetap maupun berubah-ubah (dinamis) terhadap waktu.
Sehingga model dari fungsi hazard dapat dikembangkan sesuai dengan karakteristik kovariatnya, baik dengan pendekatan diskrit maupun kontinyu.
Pada pendekatan kontinyu, fungsi hazard dapat didekati dengan model intensitas dari proses Poisson non-homogen dan dapat pula dimodelkan dengan model Cox dengan time-dependent covariate. Pendekatan diskrit untuk fungsi hazard dilakukan dengan ide sebagai berikut. Pada setiap titik waktu sepanjang survival time, variabel indikator biner menyatakan pengamatan individu tersensor atau tidak tersensor. Variabel indikator tersebut menyatakan kelas pada variabel respons. Hal ini memungkinkan data survival dapat dianalisis dengan pendekatan metode klasifikasi. Pada penelitian ini,
3
pendekatan diskrit yang akan dikembangkan adalah pemodelan multi-period logit dan multi-period Generalized Extreme Value Regression (GEVR).
Model survival dengan kovariat dinamis, baik dengan pendekatan diskrit maupun kontinyu yang dikembangkan pada penelitian ini, akan diterapkan pada data kesehatan dan data finansial sebagai studi kasus. Namun, secara umum model yang dikembangkan dapat diterapkan pada data lain dengan karakteristik yang sama.
Pada analisis data survival yang dibahas sebelumnya, baik pemodelan dengan pendekatan diskrit maupun kontinyu, kovariat sebagai input dipilih secara priory dan diasumsikan sebagai faktor resiko yang relevan dan menjelaskan fungsi hazard dengan baik. Padahal, pada kenyataannya belum tentu demikian. Oleh karena itu diperlukan metode pemilihan input yang relevan bersamaan dengan proses penaksiran parameter model. Penelitian ini akan menggunakan pendekatan regularisasi, yaitu pemberian fungsi penalti pada fungsi resiko, sebagai metode pemilihan prediktor yang relevan.
Pendekatan regularisasi yang akan digunakan adalah Least absolute shrinkage and selection operator (Lasso) dan Smoothly clipped absolute deviation (SCAD). Fungsi penalti Elastic-net, fungsi mixture dari L1-norm dan L2-norm, dan Elastic-SCAD juga akan digunakan untuk mengatasi kelemahan dari Lasso dan SCAD yang tidak bisa melakukan group selection pada kumpulan variabel input yang saling berkorelasi.
Secara ringkas, tujuan dari penelitian ini adalah untuk mengembangkan model survival dengan kovariat dinamis terhadap waktu dengan fungsi hazard didekati secara diskrit maupun kontinyu. Selain itu, kovariat sebagai input yang relevan akan diseleksi menggunakan pendekatan regularisasi. Metode yang dikembangkan pada penelitian ini akan diterapkan pada data finansial untuk menilai risiko financial distress dan default.
4 2.2. Permasalahan dan Tujuan
Berdasarkan latar belakang penelitian yang dijelaskan di atas maka tujuan dari penelitian ini adalah menjawab permasalahan sebagai berikut:
1. Bagaimana performance pendekatan Statistical Learning (regresi logistik, multi-period logit, GEVR, multi-period GEVR, dan regresi Cox) pada data dengan time dependent covariate?
2. Bagaimana performance Machine Learning (SVM) dibandingkan pendekatan Statistical Learning?
3. Variabel apa saja yang memiliki pengaruh signifikan terhadap kondisi financial distress dan default pada perusahaan sektor industri di Indonesia berdasarkan hasil seleksi variabel dengan pendekatan regularisasi?
2.3. Relevansi dan Urgensi Penelitian
Penelitian ini sangat relevan dengan pengembangan keilmuan, terutama keilmuan Statistika dan Sains data, lebih khusus lagi pengembangan metode klasifikasi dan analisis survival dan penerapannya di berbagai bidang. Topik penelitian yang diusulkan sangat relevan dan publishable di jurnal internasional. Sehingga hal ini sangat mendukung langkah ITS dan DIKTI untuk meningkatkan publikasi Internasional. Selain itu, penelitian ini juga mendukung pengembangan sains formal yang merupakan salah satu bagian dari roadmap penelitian Pusat Studi Sains Fundamental yaitu Pengembangan Metode untuk Classification Model and Clustering.
2.4. Target Luaran Penelitian
Jurnal utama yang dituju adalah jurnal internasional bereputasi terindeks Scopus, yaitu Heliyon yang berkategori Q1 atau Sains Malaysiana memiliki ranking Q2 pada Scimago journal ranking. Selain jurnal internasional, beberapa bagian dari penelitian ini akan diseminarkan pada Konferensi
5
Nasional Matematika (KNM) ke-XX di Universitas Pattimura pada 7 - 9 Juli 2020 dimana peneliti utama diundang sebagai invited speaker.
6
BAB III. TINJAUAN PUSTAKA
3.1. Teori Penunjang
Pada sampel berukuran 𝑛, pada setiap individu ke 𝑖 dapat diamati (𝑡𝑖, 𝛿𝑖), dimana 𝛿𝑖 adalah variabel indikator yang bernilai nol jika individu ke-i tersensor dan bernilai satu jika tidak tersensor. Variabel 𝑡𝑖 menunjukkan lamanya waktu sampai dengan peristiwa terjadi pada individu ke 𝑖 jika variabel indikator 𝛿𝑖 = 1 dan menunjukkan waktu tersensor jika 𝛿𝑖 = 0. Jika terdapat 𝑝 variabel penjelas 𝑥𝑖 = (𝑥𝑖1, 𝑥𝑖2, … , 𝑥𝑖𝑝)′, model Cox [7]
mempunyai fungsi hazard sebagai berikut:
𝜆𝑖𝑡(𝑡|𝑥𝑖) = 𝜆0(𝑡) exp{𝑓(𝑥𝑖)}, (1) dimana 𝜆0(𝑡) adalah fungsi baseline hazard yang tidak dispesifikasikan dan 𝑓(𝑥𝑖) adalah fungsi sembarang dari 𝑥𝑖. Bentuk yang sederhana dari fungsi skor 𝑓(𝑥𝑖) adalah 𝑓(𝑥𝑖) = 𝛽′𝑥𝑖, dimana 𝛽′ = (𝛽1, 𝛽2, … , 𝛽𝑝).
Multi-period Logit
Model multiple period logit didefinisikan sebagai model logit yang diestimasi dengan data yang memiliki waktu survival pada pengamatan objek yang bersifat independen. Pada model logit, terdapat variabel y yang menyatakan kejadian gagal dan sukses. Pada model hazard, y tersebut dapat dijelaskan bahwa data tersebut tersensor atau tidak. Data tersensor merupakan data yang tidak memiliki waktu survival secara pasti, disebabkan karena objek penelitian hilang dari pengamatan sebelum event terjadi. Dalam matematis dapat dituliskan 𝑦 = 0 jika data tersensor dan 𝑦 = 1 jika data tidak tersensor.
Apabila diketahui nilai variabel prediktor (x), maka peluang 𝑦 dalam model logit dapat dituliskan ℎ(𝑥) = 𝑃(𝑦 = 1|𝑥) dan 1 − ℎ(𝑥) = 𝑃(𝑦 = 0|𝑥).
Dalam model hazard ℎ(𝑥) merupakan hazard rate yang merupakan peluang
7
event (failure) terjadi pada setiap waktu t. Model logit dengan variabel penjelas sebanyak K memiliki bentuk matematis:
𝑙𝑜𝑔𝑖𝑡[ℎ(𝑥)] = 𝑙𝑜𝑔 ( ℎ(𝑥)
1−ℎ(𝑥)) = 𝜃0+ 𝜃1𝑥1+ ⋯ + 𝜃𝐾𝑥𝐾 (2) jika persamaan (7) diubah menjadi bentuk eksponensial maka akan diperoleh bentuk:
ℎ(𝑥) = exp (𝜃0+𝜃1𝑥1+⋯+ 𝜃𝐾𝑥𝐾)
1+exp (𝜃0+𝜃1𝑥1+⋯+ 𝜃𝐾𝑥𝐾) (3)
Dalam model multiple period logit, nilai y dan x pada setiap pengamatan berubah pada setiap waktu. Sehingga, nilai variabel prediktor, x, dan variabel respon, y, memiliki nilai yang berbeda setiap waktu sampai terjadinya event (failure). Peluang y dalam model multiple period logit dapat dituliskan ℎ(𝑡, 𝑥) = 𝑃(𝑦 = 1|𝑥𝑡) dan 1 − ℎ(𝑡, 𝑥) = 𝑃(𝑦 = 0|𝑥𝑡). Pada penjelasan sebelum-nya, nilai 1 − ℎ(𝑡, 𝑥) merupakan nilai dari fungsi survival, 𝑆(𝑡, 𝑥).
Persamaan logistik dengan satu variabel penjelas dengan nilai yang berbeda setiap t, memiliki bentuk matematis:
𝑙𝑜𝑔𝑖𝑡[ℎ(𝑡, 𝑥)] = 𝑙𝑜𝑔 ( ℎ(𝑡,𝑥)
1−ℎ(𝑡,𝑥)) = 𝑙𝑜𝑔 (ℎ(𝑡,𝑥)
𝑆(𝑡,𝑥)) (4)
Misal terdapat n pengamatan yang saling bebas, dengan 𝑦𝑖 adalah variabel respon dari pengamatan ke-i, dengan i=1, 2, …, n, peluang data tidak tersensor sebesar ℎ(𝑡𝑖, 𝑥𝑖) dan pe-luang data tersensor sebesar 1 − ℎ(𝑡𝑖, 𝑥𝑖), maka 𝑦𝑖 memiliki fungsi densitas sebagai berikut :
𝑓(𝑦𝑖) = [ℎ(𝑡𝑖, 𝑥𝑖)]𝑦𝑖[1 − ℎ(𝑡𝑖, 𝑥𝑖)]1−𝑦𝑖 (5) dikarenakan pengamatan yang dilakukan bersifat independen, maka didapatkan fungsi likelihood seperti berikut :
𝐿(𝜽) = ∏𝑛𝑖=1[ℎ(𝑡𝑖, 𝑥𝑖)]𝑦𝑖[1 − ℎ(𝑡𝑖, 𝑥𝑖)]1−𝑦𝑖 (6) Fungsi survival S t x( ,i i) memiliki batasan waktu kurang dari 𝑡𝑖 dalam hazard rate ℎ(𝑡𝑖,𝑥𝑖). Fungsi survival waktu diskrit sebagai berikut:
𝑆(𝑡𝑖, 𝑥) = ∑𝑗<𝑡𝑖[1 − ℎ(𝑗, 𝑥𝑖)] (7) Maka fungsi likelihood dari model multiple period logit menjadi:
8
𝐿(𝜽) = ∏𝑛𝑖=1[ℎ(𝑡𝑖, 𝑥𝑖)]𝑦𝑖[𝑆(𝑡𝑖, 𝑥)]1−𝑦𝑖 (8)
Generalized Extreme Value Distribution
Generalized Extreme Value (GEV) distribution pertama kali dikenalkan oleh Jenkinson. Distribusi Generalized Extreme Value (GEV) merupakan bagian dari distribusi probabilitas kontinyu yang berkaitan erat dengan Extreme Value Theory. Pada EVT, distribusi GEV berfokus pada penanganan ekor distribusi mengingat respon curve yang bernilai mendekati satu [8].
Distribusi GEV memiliki tiga parameter dengan berbagai macam metode yang dapat digunakan untuk mengestimasi paramaternya. Variabel random X dapat dikatakan berdistribusi GEV jika memiliki probability density function (pdf) berikut.
𝑓(𝑥) = 1
𝜎𝑒𝑥𝑝[−(1 − 𝜏)𝑌 − 𝑒𝑥𝑝(−𝑌)] (9)
di mana,
𝑌 = { −1
𝜏𝑙𝑜𝑔 (1 −𝜏(𝑥 − 𝜇)
𝜎 ) ; 𝜏 ≠ 0 (𝑥 − 𝜇)
𝜎 ; 𝜏 = 0
dengan nilai 𝜏 merupakan parameter bentuk, 𝜇 adalah parameter lokasi, dan 𝜎 merupakan parameter skala. Berikut adalah cumulative distribution function (CDF) dari GEV.
𝐹𝑋(𝑥) = 𝑒𝑥𝑝 {− [1 + 𝜏 (𝑥 − 𝜇 𝜎 )]
−1⁄𝜏
} (10)
di mana,
−∞ < 𝜏 < +∞; −∞ < 𝜇 < +∞; 𝜎 > 0
dengan 𝑆𝑥= {𝑥: 1 + 𝜏(𝑥 − 𝜇) 𝜎 > 0⁄ }, dimana 𝜏 merupakan parameter bentuk,
merupakan parameter lokasi, dan 𝜎 merupakan parameter skala.9 Generalized Extreme Value Regression
Generalized extreme value (GEV) regression dilakukan untuk mengatasi kekurangan dari metode regresi logistik. Regresi GEV merupakan regresi GLM dengan variabel dependen biner dan menggunakan fungsi quantile distribusi GEV sebagai link function. Pada regresi logistik, probabilitas dari kejadian langka cenderung diabaikan serta logit link merupakan fungsi yang simetris. Estimasi probabilitas kebangkrutan dilakukan dengan 𝜋(𝒙𝑖) = 𝑃{𝑌𝑖 = 1|𝒙𝑖}, maka cumulative distribution function (CDF) dari GEV sebagai respon curve adalah sebagai berikut.
𝜋(𝒙𝑖) = exp {−[1 + 𝜏(𝜷′𝒙𝑖)]−1⁄𝜏} (11) Dalam general linear model (GLM), jika 𝜏 → 0 pada persamaan (11) menjadi respon surface dari model pelengkap log-log dan jika 𝜏 < 0 Weibull respon curve. Bentuk link function dari model GEV adalah sebagai berikut.
{−𝑙𝑛[𝜋(𝒙𝑖)]}−𝜏− 1
𝜏 = 𝜷′𝒙𝑖 (12)
dimana 𝜏 merupakan parameter bentuk dan 𝜋(𝒙𝑖) adalah peluang 𝑥 diklasifikasikan sebagai perusahaan yang delisting atau lainnya. Untuk interpretasi paramater 𝜷 dan 𝜏, jika nilai dari 𝑥 ke-𝑗 (dengan 𝑗 = 1,2, … , 𝑝) meningkat satu unit dan semua variabel independen lainnya tetap [8]. Model dari GEVR didefinisikan oleh link function yang sesuai dengan fungsi kumulatif invers dari distribusi GEV yang disebut dengan ”gevit” [9].
𝑔𝑒𝑣𝑖𝑡(𝜋𝑖) =−𝑙𝑛(𝜋𝑖)−𝜏− 1
𝜏 = 𝛽0 + ∑ 𝛽𝑗𝑥𝑖𝑗
𝑝
𝑗=1
= 𝜂𝑖 (13)
10
Penaksiran Parameter Model Generalized Extreme Value Regression
Estimasi parameter untuk metode GEVR dilakukan dengan memaksimumkan fungsi likelihood fungsi probabilitas yang digunakan dalam perhitungan fungsi likelihood adalah sebagai berikut.
𝑓(𝑦𝑖) = 𝜋(𝑥𝑖)𝑦𝑖(1 − 𝜋(𝑥𝑖))1−𝑦𝑖 (14) dengan
𝜋(𝒙𝑖) = exp {−[1 + 𝜏(𝜷′𝒙𝑖)]−1⁄𝜏}
Persamaan (2.19) merupakan fungsi persamaan non linier sehingga perlu dilakukan transformsi agar diperoleh fungsi yang linier. Bentuk transformasi pada model gevit akan menghasilkan fungsi g x( i) sebagai berikut.
𝑔(𝒙𝑖) ={−𝑙𝑛[𝜋(𝒙𝑖)]}−𝜏− 1
𝜏 = 𝜷′𝒙𝑖 (15)
Fungsi likelihood dari metode Generalized Extreme Value Regression dapat dituliskan kedalam persamaan berikut.
𝐿(𝜷, 𝜏) = ∏ 𝑓(𝑦𝑖)
𝑛
𝑖=1
= ∏ 𝜋(𝑥𝑖)𝑦𝑖(1 − 𝜋(𝑥𝑖))1−𝑦𝑖
𝑛
𝑖=1
= ∏𝑛𝑖=1exp {−[1 + 𝜏(𝜷′𝒙𝑖)]−1 𝜏⁄ }𝑦𝑖{1 − exp (−[1 + 𝜏(𝜷′𝒙𝑖)]−1 𝜏⁄ )}1−𝑦𝑖(16) Berdasarkan fungsi likelihood yang diperoleh, maka fungsi dari ln likelihood dapat dituliskan dalam persamaan sebagai berikut.
ln 𝐿(𝜷, 𝜏) = ∑ {−𝑦𝑖[1 + 𝜏(𝜷′𝒙𝑖)]−1𝜏+ (1 − 𝑦𝑖) ln [1 − exp[−[1 + 𝜏(𝜷′𝒙𝑖)]]]}
𝑛
𝑖=1
11
Invers dari persamaan tersebut merupkan CDF yang hanya berlaku pada nilai {𝒙𝑖: 1 + 𝜏𝒙𝑖> 0}persamaan tersebut pada {𝒙𝑖: 1 + 𝜏𝜷𝒙𝑖> 0}.
Score function didapatkan dengan melakukan differencing pada fungsi likelihood dengan parameter 𝜷 dan 𝜏.
𝜕 ln 𝐿(𝜷, 𝜏)
𝜕𝛽𝑗 = − ∑ 𝑥𝑖𝑗
𝑛
𝑖=1
ln[𝜋(𝒙𝑖)]
1 + 𝜷′𝒙𝑖
𝑦𝑖− 𝜋(𝒙𝑖)
1 − 𝜋(𝒙𝑖) (17)
dengan 𝑗 = 0,1, . . , 𝑝 serta
𝜕 ln 𝐿(𝜷, 𝜏)
𝜕𝛽𝑗 = ∑ [1
𝜏2ln(1 + 𝜏𝜷′𝒙𝑖) − 𝜷′𝒙𝑖 𝜏(1 + 𝜏𝜷′𝒙𝑖)]
𝑛
𝑖=1
𝑦𝑖− 𝜋(𝒙𝑖)
1 − 𝜋(𝒙𝑖) ln[𝜋(𝑥𝑖)]
Metode maksimum likelihood tidak memberikan hasil yng close from sehingga iterasi numerik sehingga dibutuhkan iterasi numerik dalam melakukan estimasi parameter. Calabrese & Osmetti [8] melakukan initial value dengan pendekatan distibusi tipe Gumbel untuk mempermudah perhitungan dimana parameter mendekati nol. Sehingga didapatkan fungsi peluang untuk klasifikasi metode GEVR dengan pendekatan distribusi Gumbel sebagai berikut.
𝜋(𝒙𝑖) = exp(− exp(𝜷′𝒙𝑖)) (18)
Sehingga ln likelihood dari distribusi Gumbel adalah sebagai berikut.
ln 𝐿(𝜷) = ∑{−𝑦𝑖[− exp(𝜷′𝒙𝑖)]
𝑛
𝑖=1
+ (1 − 𝑦𝑖) ln[1 − exp[− exp(𝜷′𝒙𝑖)]]}
(19)
Estimasi parameter selajutnya dilakukan dengan iterasi secara numerik melalui iterasi Newton-Raphson. Metode Newton-Raphson diperlukan turunan kedua dari fungsi likelihood. Matriks H merupakan matriks Hessian yang berisikan turunan kedua dari fungsi likelihood 𝐿(𝜷).
12 Regularisasi
Persamaan (1) memproses semua kovariat untuk membentuk model fungsi hazard. Pada penelitian ini akan digunakan bentuk lain fungsi penalti untuk menseleksi kovariat yang relevan secara bersamaan dengan proses penaksiran parameter.
Lasso and Elastic-net
Teknik Least absolute shrinkage and selection operator (Lasso) yang diperkenalkan oleh Tibshirani [10] dapat menghasilkan solusi dengan sparse feature, yaitu beberapa koefisien bernilai nol, yang berarti variabel input terkait tidak signifikan dan dikeluarkan dari model. Bradley and Mangasarian [11] dan Zhu et al. [12] menerapkan Lasso pada metode klasifikasi SVM dengan menggunakan fungsi penalti 𝐿1-norm menggantikan fungsi penalti 𝐿2- norm:
min𝑤,𝑏 ∑𝑛𝑖=1{1 − 𝑦𝑖𝑓(𝑥𝑖)}++ 𝛾1‖𝑤‖1 , (20) dimana nilai γ1 yang besar memaksa beberapa penaksir dari 𝑤j menjadi nol.
Fung dan Mangasarian [13] memodifikasi (2) and mengembangkan fast Newton Linear Programming SVM (NLPSVM) yang diimolementasikan pada Becker et al. [14]. Persamaan (20) dapat juga diterapkan pada model logit maupun model klasifikasi lain dengan menyesuaikan bentuk Loss function yang sesuai.
Fungsi penalti 𝐿1-norm mempunyai kelemahan: (i) banyaknya variabel input yang diseleksi dibatasi oleh banyaknya sampel dan (ii) cenderung memilih satu (atau sebagian kecil) dari variabel input yang berkorelasi dan mereduksi koefisien variabel input lainnya menjadi nol. Untuk mengatasi kelemahan Lasso, fungsi Elastic-net, yaitu mixture dari fungsi penalti 𝐿1-norm dan 𝐿2-norm, yang diperkenalkan oleh Zou dan Hastie [15], sehingga (20) disesuaikan menjadi:
13
min𝑤,𝑏 ∑𝑛𝑖=1{1 − 𝑦𝑖𝑓(𝑥𝑖)}++ 𝛾1‖𝑤‖1+ 𝛾2 ‖𝑤‖22, (21) dimana 𝛾1, 𝛾2 ≥ 0 adalah parameter tuning. Bagian 𝐿1-norm berperan menseleksi variabel input dan bagian 𝐿2-norm berperan melakukan seleksi kelompok, yaitu memilih secara bersamaan variabel input yang berkorelasi.
SCAD and Elastic-SCAD
Fungsi penalti Smoothly Clipped Absolute Deviation (SCAD) adalah fungsi konveks, nilai penalti tetap konstan ketika nilai koefisien membesar.
Zhang et al. [16] memasukkan fungsi penalti SCAD pada SVM:
min𝑤,𝑏 ∑𝑛𝑖=1{1 − 𝑦𝑖𝑓(𝑥𝑖)}++ ∑𝑝𝑗=1𝑃𝛾𝑆(|𝑤𝑗|), (22) dimana
𝑃𝛾𝑆(|𝑤𝑗|) = {
𝛾𝑆|𝑤𝑗| 𝑖𝑓 |𝑤𝑗| ≤ 𝛾𝑆 ,
−|𝑤𝑗|
2−2𝑎 𝛾𝑆|𝑤𝑗|+𝛾𝑆2
2(𝑎−1) 𝑖𝑓 𝛾𝑆 < |𝑤𝑗| ≤ 𝑎 𝛾𝑆
(𝑎+1) 𝛾𝑆2
2 𝑖𝑓 |𝑤𝑗| > 𝑎 𝛾𝑆 ,
, (23)
dengan parameter tuning 𝑎 > 2 dan 𝛾𝑆 > 0. Fan dan Li [17] menyarankan nilai 𝑎 = 3.7 sebab kinerja SCAD tidak sensitif terhadap nilai 𝑎.
Elastic-SCAD [14] tetap mempertahankan keuntungan dari penalti SCAD dan menghindari keterbatasan sparsity yang terlalu restrictive pada data yang non-sparse. Fungsi Elastic–SCAD diformulasikan sebagai berikut:
min𝑤,𝑏∑𝑛𝑖=1{1 − 𝑦𝑖𝑓(𝑥𝑖)}++ ∑𝑝𝑗=1𝑃𝛾𝑆(|𝑤𝑗|)+ 𝛾𝐸‖𝑤‖22 , (24) dengan 𝛾𝐸 > 0.
Persamaan (20)-(24) dapat juga diterapkan pada model logit maupun model klasifikasi lain dengan menyesuaikan bentuk Loss function yang sesuai.
14 Bayesian Logistic Regression
Gelman, et al. [18, 19] melakukan studi kasus untuk mendapatkan default distribusi prior untuk regresi logistik dan beberapa regresi lainnya. Penelitian tersebut menyarankan untuk menggunakan distribusi Cauchy sebagai distribusi prior pada seluruh parameter pada regresi logistik. Distribusi Cauchy yang digunakan berpusat di 0 dan dengan parameter skala 2,5 untuk semua parameter.
Fungsi MCMC pada package MCMCpack yang terdapat pada R-Software dapat digunakan untuk mengestimasi parameter regresi logistik dengan pendekatn Bayesian. Apabila diketahui 𝑦𝑖~𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖 (𝜋𝑖) dengan fungsi link
𝜋𝑖 = exp(𝑥𝑖′𝛽) 1 + exp(𝑥𝑖′𝛽)
dan distribusi prior yang menjadi default pada package tersebut adalah multivariat normal dengan parameter sebagai berikut:
𝛽~𝒩(𝑏0, 𝐵0−1)
dimana 𝑏0 adalah vektor rataan untuk semua parameter 𝛽 dan 𝐵0−1adalah matriks varians – kovarians dari parameter 𝛽. Distribusi posterior diperoleh dari perkalian likelihood dengan distribusi prior. Jika distribusi posterior menghasilkan distribusi yang jelas (closed form) maka algoritma yang digunakan adalah algoritma MCMC. Namun jika sebaliknya, maka algoritma yang digunakan adalah algoritma Metropolis Hastings (MH). Algoritma MH akan menghasilkan distribusi dengan nilai mean𝛽 dan matriks varian- kovarians 𝑉 = 𝑇(𝐵0 + 𝐶−1)−1𝑇, dengan 𝑇 adalah diagonal matriks definit positif, 𝐵0 adalah invers dari matriks varians-kovarian parameter 𝛽 dan 𝐶 adalah matriks varian-kovarian dari sampel. Jika prior yang digunakan telah
15
didefinisikan terlebih dahulu, maka akan menghasilkan distribusi dengan mean 𝛽 dan varian-kovarians 𝑉 = 𝑇𝐶𝑇 [20].
3.2. Peta Jalan Penelitian
Penelitan sebelumnya yang terkait dengan proposal ini disajikan dalam Gambar 2.1. sebagai berikut:
Gambar 3.1. Peta Jalan Penelitian Duan et al. (2012)
Forward intensity Survival Analysis
Cox (1972; 1975)
Proportional hazard, MPLE
Andersen et al. (1982) MLE, MPLE
Variable selection Tibshirani (1996) Regularization - Lasso Becker et al. (2011) Regularized SVM Penelitian ini
Model Dinamis untuk Klasifikasi dan Analysis Survival dengan Pendekatan Machine Learning dan Statistical Learning
(Beaver, 1966; Altman, 1968 ) Analisis diskriminan
(Ohlson, 1980) Logit
(Tsumway, 2001) Multi-period Logit
Classification Methods
Calabrese & Osmetti (2013) Calabrese & Gudici (2015) GEV Regression
Multi-period forecasting Haerdle & Prastyo (2014) Localising Forward intensity
16
BAB IV. METODE PENELITIAN
Penelitian ini adalah bagian dari peta jalan penelitian yang terintegrasi.
Bagian yang sudah dikerjakan dalanm proposal ini adalah pada bagian yang diblok warna gelap pada Gambar 4.1. Langkah-langkah penyelesaian didasarkan pada kajian teori pada Bab sebelumnya dengan pengembangan.
Tahun 2020
Gambar 4.1. Tahapan Penelitian
Langkah-langkah yang dilakukan untuk menjawab tujuan penelitian adalah sebagai berikut:
Algorithm and Optimization Method
Multi-period logit, multi-period GEVR
Model dinamis untuk time dependent covariate
PredictionEstimation
Cox: time-dep.
Covariate, Bayesian
Discrete Approach
Cox: time-dep.
covariate
Cox mode with time-dependent Covariate Non-
regularization Regularizatio
n
Regularization
Hybrid
Quadratic Problem
Elastic- SCAD Elastic- net
Regularization Non-
regularization
multi period logit;
multi period GEVR
Lasso
SCAD
Continuous
Multi-period classification
Non- regularization
17
1. Memperoleh data rasio keuangan perusahaan sektor industri yang tercatat di Bursa Efek Indonesia dan variabel makro ekonomi dengan struktur data sebagai berikut:
Tabel 4.1. Struktur Data
Perusahaan Periode t Yt Xit,1 Xit,2 … Xit,15
1
2004Q4 1 Y11 X11,1 X11,2
⋱
X11,15
2005Q4 2 Y12 X12,1 X12,2 X12,15
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
2018Q4 t Y1t X1t,1 X1t,2 X1t,15
2
2004Q4 1 Y21 X21,1 X21,2
⋱
X21,15
2005Q4 2 Y22 X22,1 X22,2 X22,15
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
2018Q4 t Y2t X2t,1 X2t,2 X2t,5
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
n
2004Q4 1 Yi1 Xi1,1 Xi1,2
⋱
Xi1,15
2005Q4 2 Yi2 Xi2,1 Xi2,2 Xi2,15
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
2018Q4 t Yit Xit,1 X1t,2 Xit,15
Penelitian ini dilakukan menggunakan konsep window size yaitu untuk menentukan suatu perusahaan mengalami financial distress atau tidak pada waktu ke-t diprediksi dengan rasio keuangan pada waktu ke-t dan waktu- waktu sebelumnya. Jenis time window yang digunakan merupakan full memory window size. Berikut pada tabel 4.2 akan diberikan time window size yang digunakan dalam penelitian.
Tabel 4.2 Time Window Size Data Penelitian Size Respon Prediktor
0
Yt
Xt
1 Xt-1
2 Xt-2
3 Xt-3
18
Agar time window size lebih mudah dipahami, maka diberikan ilustrasi penggunan time window pada masing-masing size. Gambar 4.2 merupakan ilustrasi full memory time window untuk size 0.
Yt Y2018 Y2017 Y2016 … Y2004
Xt X2018 X2017 X2016 … X2004
Gambar 4.2 Ilutrasi full memory time window size 0
Skema yang digunakan untuk full memory time window untuk size 1 diberikan pada Gambar 4.3 di bawah ini.
Yt Y2018 Y2017 Y2016 … Y2005
Xt X2017 X2016 X2015 … X2004
Gambar 4.3 Ilutrasi full memory time window size 1
2. Membentuk model multiple period logit
Menentukan estimasi parameter dengan menggunakan metode Bayesian dengan langkah sebagai berikut :
a. Menentukan bentuk model multiple period logit. Bentuk fungsi densitas dari model multiple period logit adalah
𝑓(𝑦𝑖) = (ℎ(𝑡𝑖,𝑥𝑖; 𝛽)𝑦𝑖[1 − ℎ(𝑡𝑖,, 𝑥𝑖; 𝛽)]1−𝑦𝑖) (25) fungsi Likelihood-nya adalah sebagai berikut :
𝐿(𝛽) = ∏𝑛𝑖=1(ℎ(𝑡𝑖, 𝑥𝑖)𝑦𝑖∏𝑗<𝑡𝑖(1 − ℎ(𝑗, 𝑥𝑖))) (26) Bentuk dari ln Likelihood-nya adalah
ln 𝐿 (𝛽) = ln [∏𝑛𝑖=1ℎ(𝑡𝑖,𝑥𝑖; 𝛽)𝑦𝑖[1 − ℎ(𝑡𝑖,, 𝑥𝑖; 𝛽)]1−𝑦𝑖]
= ∑ [𝑦𝑖ln ( ℎ(𝑡𝑖,𝑥𝑖;𝛽)
1−ℎ(𝑡𝑖,𝑥𝑖;𝛽)) + ln(1 − ℎ(𝑡𝑖, 𝑥𝑖; 𝛽))]
𝑛𝑖=1
= ∑𝑛𝑖=1[𝑦𝑖∑𝐾𝑗=1𝛽𝑗𝑥𝑖𝑗+ ln (1 + 𝑒∑𝐾𝑗=1𝛽𝑗𝑥𝑖𝑗)−1]
= ∑𝑛𝑖=1∑𝐾𝑗=1𝛽𝑗𝑦𝑖𝑥𝑖𝑗− ∑𝑛𝑖=1ln (1 + 𝑒∑𝐾𝑗=1𝛽𝑗𝑥𝑖𝑗) (27)
19
b. Menentukan nilai inisialisasi menggunakan estimasi parameter menggunakan metode maksimum likelihood dengan metode optimasi menggunakan algoritma Broyden-Fletcher-Goldfarb-Shanno (BFGS).
c. Menentukan distribusi prior untuk setiap parameter model.
Penelitian ini menggunakan 3 jenis prior. Adapun prior yang digunakan adalah sebagai berikut :
1) Parameter 𝛽~𝑈𝑛𝑖𝑓𝑜𝑟𝑚(𝛼, 𝜃), dimana 𝜃 > 𝛼
Apabila peneliti tidak mempunyai informasi dari distribusi prior parameter model maka disarankan untuk menggunakan distribusi improper uniform prior sebagai distribusi prior. Bentuk fungsi densitas dari distribusi Uniform dengan variabel random 𝑥 adalah:
𝑓(𝑥) = 1
𝑚𝑎𝑥−𝑚𝑖𝑛 (28)
dengan 𝑚𝑎𝑥 > 𝑚𝑖𝑛.
Jika 𝛽 adalah suatu variabel random dengan nilai maksimum 𝜃 dan nilai minimum 𝛼. Maka bentuk fungsi densitas dari 𝛽 berdistribusi Uniform adalah
𝑓(𝛽) = 1
𝜃−𝛼, 𝜃 > 𝛼 (29)
2) Parameter 𝛽~𝒩(𝑏0, 𝐵0−1), dimana nilai 𝑏0 sebagai parameter lokasi dan nilai 𝐵0−1 sebagai parameter skala. Fungsi densitas dari distribusi multivariate normal dengan variabel random 𝛽, parameter lokasi 𝑏0, dan parameter skala 𝐵0−1 adalah
𝑓(𝛽) = 1
(2𝜋)𝐾/2|𝐵0−1|1/2exp(−(𝛽−𝑏0)′𝐵0(𝛽−𝑏0)
2 ) (30)
3) Parameter 𝛽~ 𝐶𝑎𝑢𝑐ℎ𝑦(𝜇0, 𝛾) , dimana parameter lokasi 𝜇0= 0 dan parameter skala 𝛾 = 2,5. Distribusi prior ini merupakan prior dari penelitian sebelumnya. Bentuk fungsi densitas dari
20
distribusi Cauchy dengan variabel random 𝑥, parameter lokasi 𝑙 dan parameter skala 𝑠 adalah:
𝑓(𝑥) = 1
𝜋𝑠(1+(𝑥−𝑙𝑠 )2)
(31) Apabila bentuk fungsi distribusi pada (3.4) ditulis kembali dengan variabel random 𝛽 dimana 𝛽~ 𝐶𝑎𝑢𝑐ℎ𝑦(𝜇0, 𝛾) maka bentuk fungsi densitas dari variabel random 𝛽 berdistribusi Cauchy adalah
𝑓(𝛽) = 1
𝜋𝛾[1+(𝛽−𝜇0 𝛾 )2]
, 𝛾 > 0, (32)
3. Melakukan estimasi parameter model Bayesian multiple period logit.
4. Melakukan uji signifikansi terhadap hasil estimasi parameter 5. Menghitung nilai c-index
6. Membentuk model Bayesian multiple period logit berdasarkan parameter model yang telah diperoleh
7. Memodelkan data survival dengan pendekatan multi-period GEVR dengan mengulangi langkah 3 sampai dengan 6 dengan penyesuaian fungsi likelihood dan penentuan distribusi prior.
8. Memodelkan data survival dengan pendekatan Cox dengan kovariat dinamis
9. Melakukan analisis dengan pendekatan SVM tanpa dan dengan regularisasi untuk seleksi variabel.
10. Menghitung AUC dari masing-masing model yang dihasilkan.
11. Melakukan perbandingan kebaikan model dari AUC yang telah didapat.
12. Menentukan metode terbaik untuk memprediksi financial distress dan default perusahaan sektor industri di Indonesia.
13. Mendapatkan prediktor yang relevan berdasarkan metode terbaik.
21
BAB V. JADWAL PENELITIAN
Penelitian ini dilaksanakan berdasarkan jadwal dan tanggung jawab tim sebagai berikut:
5.1. Organisasi Tim Peneliti
Tabel 5.1. Organisasi Tim dan Uraian Tugas Nama
Bidang Ilmu dan Keahlian
Posisi Dan Alokasi Waktu
Uraian Tugas
Dr.rer.pol Dedy Dwi Prastyo, S.Si., M.Si.
NIDN: 0004128302 Instansi:
Statistika, FSAD ITS
Analisis Survival, Statistika
Komputasi dan Machine Learning, Analisis Deret Waktu, Ekonometrika, Statistika Finansial
Ketua peneliti
Alokasi waktu:
10 jam / minggu
1. Mengembangkan model multi- period logit dengan regularisasi 2. Mengembangkan model multi-
period GEVR
3. Penerapan Machine Leaning (SVM)
4. Penerapan pada data emiten di pasar modal
Santi Puteri Rahayu, S.Si., M.Si, Ph.D.
NIDN: 0015017503 Instansi:
Statistika, FSAD ITS
Analisis Regresi, Ekonommetrika Analisis Multivariat,
Anggota
Alokasi waktu:
2 jam / minggu
1. Seleksi variabel dengan regularisasi
2. Evaluasi terhadap analisis data
Mahasiswa yang dilibatkan dalam penelitian ini adalah Rizki Nanda Savera (NRP. 06211640000084) yang sedang mengerjakan Tugas Akhir berjudul
“Prediksi Financial Distress pada Perusahaan Sektor Industri di Indonesia Mengunakan Metode Support Vector Machine, Generalized Extreme Value Regression, dan Logistic Regression dengan Seleksi Variabel”.
22 5.2. Jadwal Penelitian
Tabel 5.2. Jadwal Kegiatan Penelitian
No. Aktivitas
Bulan
Persiapan Pelaksanaan
-3 -2 -1 1 2 3 4 5 6 7 8
1
Persiapan pembuatan proposal dengan studi literatur
2
Mengembangkan model multi-period logit dan multi-period GEVR
3
Mengembangkan model Bayesian Cox dengan kovariat dinamis terhadap waktu
4
Penerapan SVR dengan input berdasrkan window size
5 Penulisan artikel ilmiah dan publikasi.
6 Penulisan laporan.
5.3. Rencana Anggaran dan Biaya
Tabel 5.3. Rencana Anggaran dan Biaya
No Jenis Pengeluaran Biaya yang Diusulkan (Rp.)
1 Program Asisten Peneliti 12,000,000,-
2 Bahan habis pakai dan publikasi 23,000,000,-
3 Perjalanan (termasuk seminar internasional)
10,000,000,-
4 Peralatan Penunjang 5,000,000,-
TOTAL 50,000,000,-
23
DAFTAR PUSTAKA
[1] Shumway, T. (2001), “Forecasting Bankruptcy More Accurately: A Simple Hazard Model," The Journal of Business, 74(1), 101-124.
[2] Chava, S. and Jarrow, R. A. (2004), “Bankruptcy Prediction with Industry Effects," Review of Finance, 8(4), 537-569.
[3] Campbell, J. Y., Hilscher, J., and Szilagyi, J. (2008), “In Search of Distress Risk," Journal of Finance, 63(6), 2899-2939.
[4] Bharath, S. T. and Shumway, T. (2008), “Forecasting Default with the Merton Distance to Default Model," The Review of Financial Studies, 21(3), 1339-1369.
[5] Duan, J.-C., Sun, J., and Wang, T. (2012), “Multiperiod Corporate Default Prediction - A Forward Intensity Approach," Journal of Econometrics, 170 (1), 191-209.
[6] Prastyo, D.D. and Haerdle, W.K. (2014), Localising Forward Intensities for Multi-Period Corporate Default, SFB 649 Discussion Paper 2014- 040, Humboldt-Universitaet zu Berlin.
[7] Cox, D.R. (1972), “Regression models and laife-tables (with discussion),” J. Roy. Stat. Soc. B, 34, 187-230.
[8] Calabrese, R. and Osmetti, S. A. (2013). Modelling Small and Medium Enterprise Loan Defaults as Rare Events: The Generalized Extreme Value Regression Model. Journal of Applied Statistics, 40, 1172-1188.
[9] Calabrese, R. and Guidici, P. (2015). Estimating Bank Default with Generalised Extreme Value Regression Models. Journal of The Operational Research Society, 66,1783-1792.
[10] Tibshirani, R. (1996). Regression Shrinkage and Selection via the Lasso.
J. Roy. Stat. Soc. B, 58(1), 267-288.
24
[11] Bradley, P. S. and Mangasarian, O. L., (1998), Feature selection via concave minimization and support vector machines, Proceeding of the Fifteenth International Conferecne on Machine Learning (ICML'98).
[12] Zhu, J., Rosset, S., Hastie, T., and Tibshirani, R. (2004), 1-norm support vector machine, Proceeding of Advances in Neural Information Processing System 16.
[13] Fung, G. and Mangasarian, O. L., (2004), “A feature selection Newton method for support vector machines classification,” Computational Optimization and Applications, 28, 185-202.
[14] Becker, N., Toedt, G., Lichter, P., and Benner, A., (2011), “Elastic SCAD as a novel penalization method for SVM classification tasks in high-dimensional data, BMC Bioinformatics, 12, 138.
[15] Zou, H. and Hastie, T., (2005), “Regularization and variable selection via the elastic- net,” J. Roy. Stat.Soc. B, 67(2), 301-320.
[16] Zhang, H. H., Ahn, J., Lin, X., and Park, C. (2006), “Gene selection using support vector machine with non-convex penalty,” Bioinformatics 22(1), 88-95.
[17] Fan, J. and Li, R. (2001), “Variable selection via nonconcave penalized likelihood and its oracle properties,” Journal of the American Statistical Association, 96(456), 1348-1360.
[18] Gelman, A. and Jakulin. (2007), “Bayes, liberal, radical or conservative?”, Statistical Science, Vol. 17, Hal. 422-426.
[19] Gelman, A., Jakulian, A., Pittau, M.G., dan Su, Y.S. (2008), “A Weakly Informative Default Prior Distribution for Logical and Other Regression Models”, The Annals of Applied Statsitics, Vol. 2, No. 4, Hal. 1360- 1383.
[20] Martin, A.D., Quinn, K.M., dan Park, J.H. (2017), Markov Chain Monte Carlo (MCMC) Package, Accessed at 3rd of March 2017 from http://mcmcpack. berkeley.edu
24 LAMPIRAN. Biodata Tim Peneliti Ketua
a. Nama lengkap : Dr.rer.pol. Dedy Dwi Prastyo, S.Si, M.Si b. NIP / NIDN : 198312042008121002 / 0004128302 c. Fungsional/Pangkat/Gol. : Lektor / Penata Muda Tk. I / IIIb d. Bidang Keahlian : Analisis Survival, Machine Learning,
Statistika Finansial, Ekonometrika e. Departemen / Fakultas : Statistika / FSAD
f. Alamat Rumah dan No. Telp. : Sukolilo Dian Regency II, Jl. Mulia X, no 3 g. Riwayat penelitian/pengabdian (2 yang paling relevan dengan penelitian
yang diusulkan/dilaporkan, sebutkan sebagai Ketua atau Anggota)
No Tahun Judul Penelitian Pendanaan
Sumber Jumlah (Rp) 1 2017 –
2019
Pengembangan Model Intensitas Diskrit dan Kontinyu untuk Peramalan Multi Periode pada Data Survival Berdimensi Tinggi
(Ketua, skema PDUPT, DRPM kemenristekdikti)
Direktorat Riset dan Pengabdian masyarakat, Direktorat Jenderal Penguatan Riset dan Pengembangan, Kementerian Riset, Teknologi dan Pendidikan Tinggi
218.000.000,-
2 2019 Pengembangan Deep Learning dengan Pembelajaran Support Vector Regression untuk Klasifikasi Data
(Ketua, skema Penelitian Tesis Magister, DRPM
kemenristekdikti)
Direktorat Riset dan Pengabdian masyarakat, Direktorat Jenderal Penguatan Riset dan Pengembangan, Kementerian Riset, Teknologi dan Pendidikan Tinggi
52.450.000,-
h. Publikasi (2 yang paling relevan dalam bentuk makalah atau buku) No Tahun Judul Artikel
Ilmiah
Vol / No Nama Jurnal 1 2020 Survival Support
Vector Machines: A Simulation Study and Its Health- Related Application
pp. 85-100 Supervised and
Unsupervised Learning for Data Science (book)
2 2017 Survival analysis of companies’ delisting
13 / 14-1 Malaysian Journal of Fundamental and Applied
25 No Tahun Judul Artikel
Ilmiah
Vol / No Nama Jurnal time in Indonesian
stock exchange using Bayesian multiple- period logit approach
Sciences
i. Paten (2 terakhir):
-
j. Tugas Akhir (2 terakhir yang paling relevan), Tesis (2 terakhir yang paling relevan), dan Disertasi (2 terakhir yang paling relevan) yang sudah selesai dibimbing
No Tahun Judul Tugas Akhir/
Tesis/ Disertasi
Nama Mahasiswa Pembimbing 1. 2019 Analisis Prediksi Risiko
Kegagalan Bayar Kewajiban oleh
Perusahaan Manufaktur Menggunakan Metode Deep Support Vector Learning
Azaria Natasha (06211750010004)
Pembimbing Utama (Tesis)
2 2018 Analisis Data Survival dengan Survival Least Square-SVM (studi Simulasi dan Studi Kasus Pasien Kanker Serviks)
Halwa Annisa Khoiri
(06211550010201)
Pembimbing Utama (Tesis)
3 2020 Feature Selection untuk Prediksi Telat Bayar menggunakan Metode Regularized SVM dan Regularized Regresi Logistik
Thalia Marda Santika
(06211640000087)
Pembimbing Utama
(Tugas Akhir)
4 2018 Stu.di Simulasi dan Analisis Survival
Delisting Time di Bursa Efek Indonesia untuk Perusahaan Manufaktur dengan Metode
Multiperiod Generalized Extreme Value
Regression
Bekti Indasari (06211440000064)
Pembimbing Utama
(Tugas Akhir)
5 2016 Analisis Survival Lama Yurike Nurmala Pembimbing
26 No Tahun Judul Tugas Akhir/
Tesis/ Disertasi
Nama Mahasiswa Pembimbing Perusahaan Sektor
Manufaktur Tercatat di Bursa Efek Indonesia Menggunakan
Pendekatan Regresi Cox Dengan Time
Dependent Covariate
Rucy
(1314105051)
Utama
(Tugas Akhir)
6 2016 Analisis Survival Lama Perusahaan Tercatat di Indeks LQ-45
Menggunakan Model Time Dependent Cox Proportional Hazard
Advendos Dame Christi Sigalingging (1314105020)
Pembimbing Utama
(Tugas Akhir)
27 LAMPIRAN. Biodata Tim Peneliti Anggota
a. Nama lengkap : Santi Puteri Rahayu, S.Si, M.Si., Ph.D b. NIP / NIDN : 19750115 199903 2 003 / 0015017503 c. Fungsional/Pangkat/Gol. : Asisten Ahli / Penata Muda / IIIa d. Bidang Keahlian : Ekonomterika, Analisis Regresi,
Analisis Multivariat e. Departemen / Fakultas : Statistika / FSAD
f. Alamat Rumah dan No. Telp. : Perumahan Dosen ITS, Blok H.
g. Riwayat penelitian/pengabdian (2 yang paling relevan dengan penelitian yang diusulkan/dilaporkan, sebutkan sebagai Ketua atau Anggota)
No Tahun Judul Penelitian Pendanaan
Sumber Jumlah (Rp) 1 2018 Analisis Statistika Multivariat
berbasis Metode Ensemble Data Campuran untuk Pemetaan Kabupaten/kota Tertinggal di Provinsi Jawa Timur sebagai Dasar Kebijakan Pemerataan Pembangunan
(Ketua, skema Penelitian Laboratorium, LPPM ITS)
ITS 50.000.000,-
2 2017 Analisis Multivariat berbasis Metode Ensemble Data Campuran
(Ketua, skema Penelitian Laboratorium, LPPM ITS)
ITS 25.000.000,-
h. Publikasi (2 yang paling relevan dalam bentuk makalah atau buku)
No Tahun Judul Artikel Ilmiah Vol / No Nama Jurnal 1 2009 A new smooth support vector
machine and its applications in diabetes disease diagnosis
5 / 12 Journal of Computer Science
2 2008 Applying kernel logistic regression in data mining to classify credit risk
2 International Symposium on Information Technology
28 i. Paten (2 terakhir):
-
j. Tugas Akhir (2 terakhir yang paling relevan), Tesis (2 terakhir yang paling relevan), dan Disertasi (2 terakhir yang paling relevan) yang sudah selesai dibimbing
No Tahun Judul Tugas Akhir/
Tesis/ Disertasi
Nama Mahasiswa Pembimbing 1 2018 Boosting Support
Vector Machine pada Data Microarray yang Imbalance
Risky Frasetio W P (06211650010002)
Ko-
Pembimbing Utama (Tesis) 2 2018 Model Tobit Quantil
Bayesian (TKB) Endogeneous (Aplikasi pada Pengeluaran Rumah Tangga untuk Konsumsi Susu)
Sartika Ayu Wulandari
(06211650017014)
Ko-
Pembimbing (Tesis)
3 2018 Penerapan Combine Undersampling Pada Klasifikasi Data Imbalanced Biner (Studi Kasus: Desa Tertinggal Di Jawa Timur Tahun 2014)
Rahma Shintia (06211440000032)
Pembimbing Utama (TA)
4. 2018 Penerapan Metode Combine Sampling Pada Klasifikasi Imbalanced Data Biner Status
Ketertinggalan Desa Di Jawa Timur
Dewi Lutfia Pratiwi (06211440000054)
Pembimbing Utama (TA)