IMPLEMENTASI ALGORITMA EM
PADA METODE KEMUNGKINAN MAKSIMUM UNTUK
PEMODELAN REGRESI LINEAR GEROMBOL
RIZKY ARDINSYAH
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR
BOGOR 2014
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Implementasi Algoritma EM pada Metode Kemungkinan Maksimum untuk Pemodelan Regresi Linear Gerombol adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.
Bogor, Agustus 2014
Rizky Ardinsyah
ABSTRAK
RIZKY ARDINSYAH. Implementasi Algoritma EM pada Metode Kemungkinan Maksimum untuk Pemodelan Regresi Linear Gerombol. Dibimbing oleh BAGUS SARTONO dan AJI HAMIM WIGENA.
Pemodelan dengan menggunakan regresi gerombol mempertimbangkan keberadaan gerombol dari suatu gugus data yang masing-masing memiliki fungsi regresi yang berbeda. Regresi gerombol dalam penelitian ini digunakan untuk menentukan jumlah gerombol optimal, menentukan anggota setiap gerombol, dan menduga model regresinya. Pendugaan parameter dilakukan dengan metode kemungkinan maksimum yang diimplementasikan melalui Algoritma
Expectation-Maximization (EM). Algoritma EM terdiri atas dua tahapan, yaitu tahapan E (Expectation) yang merupakan proses perhitungan nilai log kemungkinan dan
tahapan M (Maximization) yang merupakan tahapan penentuan parameter yang baru dan proses penentuan nilai log kemungkinan yang maksimum. Dugaan parameter regresi terbaik dan jumlah gerombol yang optimal diperoleh ketika nilai
log kemungkinan yang maksimum dan nilai Akaike’s Information Criterion (AIC)
yang minimum. Data yang digunakan dalam penelitian ini merupakan data hasil simulasi dengan beberapa kriteria yang dikombinasikan dengan rancangan faktorial pecahan (fractional factorial design).
Kata kunci: AIC, algoritma EM, fungsi kemungkinan maksimum, rancangan faktorial pecahan, regresi gerombol.
ABSTRACT
RIZKY ARDINSYAH. Implementation of EM Algorithm in Maximum Likelihood Methodology for Clusterwise Linear Regression Modelling. Supervised by BAGUS SARTONO and AJI HAMIM WIGENA.
Clusterwise regression modelling consider the several hidden clusters from a data set which have different regression functions. This method is used simultaneously to determine the number of clusters, to separate membership into specified cluster K, and to estimate each regression function. Maximum likelihood methodology implemented by Expectation-Maximization (EM) algorithm is used for parameter estimation. EM algorithm consists of two steps. The first step is expectation (E-step), to count log-likelihood function, and the second step is maximization (M-step), to determine the new parameter value which maximizes log-likelihood function. The best regression coefficients estimation and the number of optimal clusters are obtained when log-likelihood value is maximum and Akaike’s Information Criterion (AIC) value is minimum. Some simulation data sets in this research are provided with some criteria that combined with fractional factorial design.
Key words: AIC, clusterwise regression, EM algorithm, fractional factorial design, maximum likelihood estimation.
Skripsi
sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika
pada
Departemen Statistika
IMPLEMENTASI ALGORITMA EM
PADA METODE KEMUNGKINAN MAKSIMUM UNTUK
PEMODELAN REGRESI LINEAR GEROMBOL
RIZKY ARDINSYAH
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN INSTITUT PERTANIAN BOGOR
BOGOR 2014
Judul Skripsi : Implementasi Algoritma EM pada Metode Kemungkinan Maksimum untuk Pemodelan Regresi Linear Gerombol
Nama : Rizky Ardinsyah NIM : G14100078
Disetujui oleh
Dr Bagus Sartono, MSi Dr Ir Aji Hamim Wigena, MSc Pembimbing I Pembimbing II
Diketahui oleh
Dr Anang Kurnia, Msi Ketua Departemen
PRAKATA
Puji syukur dipanjatkan ke hadirat Tuhan Yang Maha Esa yang telah memberikan rahmat dan karunia-Nya sehingga karya ilmiah ini dapat diselesaikan. Tema yang dipilih dalam penelitian ini ialah Regresi Gerombol dengan judul Implementasi Algoritma EM pada Metode Kemungkinan Maksimum untuk Pemodelan Regresi Linear Gerombol. Karya ilmiah ini merupakan salah satu syarat untuk mendapatkan gelar Sarjana Statistika pada Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Penulis mengucapkan terima kasih kepada semua pihak yang telah membantu dalam menyelesaikan karya ilmiah ini, antara lain:
1. Bapak Dr Bagus Sartono, MSi dan Bapak Dr Ir Aji Hamim Wigena, MSc selaku pembimbing yang telah memberikan banyak saran pada penelitian ini. 2. Dosen pengajar Departemen Statistika atas ilmu yang telah diberikan.
3. Ibu Markonah, Ibu Tri, dan staf Tata Usaha Departemen Statistika yang ulet dan tak pernah lelah mengurusi administrasi kelengkapan mulai dari kolokium hingga sidang mahasiswa Statistika.
4. Orang tua, kakek-nenek, dan adik-adik atas kesabaran, kasih sayang, dan dorongan batin yang begitu besar kepada penulis.
5. Pihak Goodwill International Scholarship Program atas bantuan beasiswa dan training yang diberikan. Serta teman-teman Goodwill yang telah banyak memberikan inspirasi dan motivasi bagi penulis.
6. Dewi Lestari, Amri Najih, Hariz, Benny, Raedi, Nanda Puspita, dan Frisca sebagai teman satu perjuangan satu dosen bimbingan yang selalu memberikan dukungan dan masukannya.
7. Guntur, Azizah, Tusi, Nia, Meta, dan Fathmah sebagai teman-teman terbaik yang selalu memberikan dukungan dan membantu proses belajar selama studi di Statistika.
8. Teman-teman Statistika 47 atas motivasi dan dukungannya selama ini. Semoga karya ilmiah ini dapat bermanfaat bagi semua pihak. Penulis mohon maaf atas segala kekurangan dan kesalahan yang terdapat dalam pembuatan karya ilmiah ini.
Bogor, Agustus 2014
DAFTAR ISI
DAFTAR TABEL x PENDAHULUAN 1 Latar Belakang 1 Tujuan Penelitian 2 TINJAUAN PUSTAKA 2Regresi Linear Gerombol 2
Penduga Kemungkinan Maksimum 2
Algoritma EM 4
METODOLOGI 5
Data 5
Metode 6
HASIL DAN PEMBAHASAN 7
Regresi Linear Gerombol 7
Pendugaan Parameter 8
Evaluasi Model 10
Uji Performa Algoritma EM 11
SIMPULAN DAN SARAN 13
Simpulan 13 Saran 13 DAFTAR PUSTAKA 13 LAMPIRAN 15 RIWAYAT HIDUP 16
DAFTAR TABEL
Faktor dan taraf untuk pembangkitan gugus data simulasi 6 Kombinasi gugus data melalui rancangan faktorial pecahan 24-1 8
Hasil regresi linear gerombol pada gugus data nomor 8 9 Hasil dugaan parameter λk, σk, & bjk gugus data nomor 8 pada K = 4 9
Nilai MAPE untuk evaluasi pilihan model pada gugus data
simulasi 10
Waktu komputasi (detik) pada gugus data simulasi 10
RMSE bjk pada gugus data simulasi 12
RMSE σk pada gugus data simulasi 12
PENDAHULUAN
Latar BelakangRegresi gerombol adalah salah satu solusi metode pemodelan dalam menghadapi kasus keheterogenan subjek atau amatan. Metode pemodelan ini bekerja dengan mempertimbangkan keberadaan gerombol dalam suatu populasi untuk mendapatkan model yang tepat sesuai dengan kesamaan karakteristik subjek. Berdasarkan model tersebut, selanjutnya dapat diketahui hubungan fungsional antara peubah bebas dan peubah responnya. Regresi telah banyak diimplementasikan pada berbagai jenis data, baik data pemasaran, ekonomi, kependudukan, pertanian, maupun sosial politik (Chatterjee & Hadi 2006). Demikian halnya dengan regresi gerombol yang dapat dimanfaatkan dalam berbagai bidang, salah satunya dalam bidang pemasaran (Wedel 1990).
Smith (1956) memperkenalkan eksistensi segmentasi dalam bidang pemasaran. Hal ini didasarkan atas pandangan Smith terhadap konsumen yang memiliki karakteristik yang beragam, sehingga pasar dianggap sebagai suatu instrumen yang bersifat heterogen. Ini berarti bahwa dalam suatu pasar tidak menutup kemungkinan terdapat pasar-pasar kecil yang sifatnya lebih homogen. Pasar-pasar kecil itulah yang menggambarkan perbedaan karakter antar kelompok konsumen. Dengan demikian, segmentasi menjadi hal yang cukup penting dalam penentuan kebijakan atau strategi pemasaran karena setiap gerombol memiliki fungsi regresi yang berbeda dan tidak dapat dipaksakan dengan nilai parameter yang sama (Kang & Ghosal 2008). Gerombol yang terbentuk pada metode ini didasarkan pada tingkat kemiripan parameter regresinya (Qian & Wu 2011).
Ada beberapa cara pendugaan parameter yang dapat digunakan dalam regresi, diantaranya metode pendugaan kemungkinan maksimum, metode kuadrat terkecil dan metode Bayes. Penelitian ini merujuk pada penelitian DeSarbo & Cron (1988) yang menggunakan metode kemungkinan maksimum (Maximum Likelihood
Estimation/MKM). Prinsip kerja MKM adalah mencari nilai dugaan parameter
yang memaksimumkan fungsi kemungkinan. Kemudian dalam menentukan jumlah gerombol yang optimal, banyaknya gerombol dipilih saat Akaike’s Information
Criterion (AIC) bernilai minimum. Untuk memudahkan komputasi, algoritma EM
digunakan dalam penelitian ini. Algoritma EM (Expectation-Maximization
Algorithm) diperkenalkan oleh Dempster, Laird, dan Rubin pada tahun 1977 untuk
mengatasi kesulitan dalam memaksimumkan log fungsi kemungkinan dengan menyediakan prosedur iteratif yang cepat dan mudah diimplementasikan (McLachlan & Krishnan 2008). Fokus penelitian ini adalah regresi linear gerombol (clusterwise linear regression/CLR) yang diharapkan sebagai solusi yang baik dalam pemodelan dengan mempertimbangkan keberadaan gerombol yang tersembunyi agar dapat meningkatkan kebaikan dugaan model (DeSarbo & Cron 1988).
2
Tujuan Penelitian Tujuan dari penelitian ini adalah sebagai berikut:
1. Mengimplementasikan algoritma EM untuk pemodelan pada regresi gerombol dengan metode pendugaan kemungkinan maksimum agar mendapatkan jumlah gerombol yang optimal dan ketepatan menempatkan anggota gerombol. 2. Menguji performa algoritma EM berdasarkan waktu komputasi serta kebaikan
nilai dugaan parameter.
TINJAUAN PUSTAKA
Regresi Linear GerombolRegresi gerombol pertama kali digunakan oleh Spath (1979) sebagai pengembangan dari pemodelan regresi klasik yang hanya membentuk satu model. Regresi gerombol mempertimbangkan keberadaan subgrup pada populasi sehingga model yang terbentuk akan memiliki nilai parameter yang berbeda pada setiap X. Hal ini masuk akal karena X diambil dari populasi yang heterogen.
De Sarbo & Cron (1988) mengaplikasikan regresi gerombol pada data bidang pemasaran untuk mengidentifikasi gerombol dan memisahkan sampel pada populasi tersebut hingga tahap pemodelan pada masing-masing gerombolnya. Metode pendugaan parameter yang digunakan adalah metode kemungkinan maksimum yang diimplementasikan dengan algoritma EM.
Model regresi linear gerombol secara umum (DeSarbo et al. 1989) adalah:
𝑦𝑖= ∑ ∑ 𝑎𝑖𝑘𝑥𝑖𝑗𝑏𝑗𝑘+ 𝑒𝑖 𝐽 𝑗=1 𝐾 𝑘=1 dengan:
yi = amatan ke-i dari peubah respon,
xij = amatan ke-i dari kolom ke-j matriks X, X = matriks peubah bebas dengan ukuran n × J,
bjk = nilai koefisien regresi ke-j di dalam gerombol ke-k,
aik = {1 0
ei = galat,
i = 1,…, n (banyaknya amatan),
j = 1,…, J (banyaknya parameter regresi),
k = 1,…, K (banyaknya gerombol yang ditentukan).
Pendugaan Kemungkinan Maksimum
Pemodelan pada regresi gerombol dengan menggunakan metode pendugaan kemungkinan maksimum telah dilakukan oleh DeSarbo dan Cron (1988). Dalam MKM, nilai dugaan parameter dicari yang nilai harapannya sama dengan nilai
jika amatan ke-i ditetapkan ke gerombol ke-k jika amatan ke-i tidak ditetapkan ke gerombol ke-k
3 parameternya (tak bias). Selain itu, penduga dalam MKM dinilai konsisten dan efisien (Ramachandran 2009).
Penduga 𝜃̂𝑛 dikatakan penduga yang konsisten jika, untuk 𝜀 > 0, lim
𝑛→∞𝑃[|𝜃̂𝑛− 𝜃| ≤ 𝜀] = 1
atau ekuivalen dengan,
lim
𝑛→∞𝑃[|𝜃̂𝑛− 𝜃| > 𝜀] = 0
Penduga yang konsisten seharusnya semakin mendekati nilai parameternya untuk ukuran sampel yang besar. Oleh karena itu dalam literatur dikatakan bahwa berdasarkan beberapa kasus, performa metode MKM akan lebih optimal untuk ukuran data yang besar (Ramachandran 2009). Kemudian apabila penduga 𝜃̂𝑛
adalah penduga yang tak bias, artinya nilai harapan dari penduga sama dengan parameternya, maka penduga tersebut dikatakan sebagai penduga konsisten jika
lim
𝑛→∞𝑉𝑎𝑟(𝜃̂𝑛) = 0.
Penduga yang tak bias akan mungkin didapatkan lebih dari satu, dengan demikian penduga yang paling baik nanti dipilih satu penduga yang memiliki ragam paling kecil.
Berikut ini adalah log fungsi kemungkinan untuk ukuran contoh sebesar n:
𝑙𝑛 𝐿 = ∑ 𝑙𝑛 [∑ 𝜆𝑘(2𝜋𝜎𝑘2)−1/2exp [ −(𝑦𝑖− 𝒙𝒊′𝒃𝑘)2 2𝜎𝑘2 ] 𝐾 𝑘=1 ] 𝑛 𝑖=1
dengan asumsi galat contoh diambil secara acak dari fungsi kepekatan normal dari setiap gerombol yang belum diketahui proporsinya 𝜆1, 𝜆2, … , 𝜆𝑘. Fungsi tersebut akan dimaksimumkan untuk mendapatkan nilai dugaan λk, σk, dan bjk, dengan
kendala 0 ≤ λk ≤ 1, ∑𝐾𝑘=1λ𝑘= 1,dan 𝜎𝑘 > 0, untuk semua nilai k = 1,2,…,K. Kemudian
untuk menempatkan amatan ke-i ke dalam gerombol ke-k dilakukan dengan memilih nilai peluang posterior Bayesian di setiap gerombol k yang paling besar. Dugaan peluang posterior Bayesian-nya adalah sebagai berikut:
𝑝̂𝑖𝑘 = λ̂𝑘𝑓𝑖𝑘(𝑦𝑖|𝑋𝑖𝑗, 𝜎̂𝑘2, 𝑏̂𝑗𝑘) ∑𝐾𝑘=1λ̂𝑘𝑓𝑖𝑘(𝑦𝑖|𝑋𝑖𝑗, 𝜎̂𝑘2, 𝑏̂𝑗𝑘) . dengan 𝑓𝑖𝑘(𝑦𝑖|𝑋𝑖𝑗, 𝜎̂𝑘2, 𝑏̂𝑗𝑘) = (2𝜋𝜎̂𝑘2)−1/2exp [ −(𝑦𝑖−𝒙𝒊′𝒃̂𝑘) 2 2𝜎̂𝑘2 ]
Oleh karena dalam metode penelitian ini terdapat kendala ∑𝐾𝑘=1λ𝑘 = 1, fungsi yang akan dimaksimumkan akan diselesaikan menggunakan metode pengganda Lagrange. Fungsi Lagrange merupakan selisih (atau dapat juga sebagai penjumlahan) antara fungsi yang dioptimumkan (fungsi objektif) dengan hasil perkalian antara pengganda Lagrange (μ) dan fungsi kendalanya. Dengan demikian, fungsi Lagrange yang akan dimaksimumkan untuk mendapatkan dugaan parameter
λk, σk, dan pik yaitu:
ɸ = ∑ 𝑙𝑛 [∑ 𝜆𝑘 𝐾 𝑘=1 𝑓𝑖𝑘(𝑦𝑖|𝑋𝑖𝑗, 𝜎𝑘2, 𝑏𝑗𝑘)] − 𝜇 (∑ 𝜆𝑘− 1 𝑘 ) 𝑛 𝑖=1
4
Untuk mengoptimumkan fungsi Lagrange tersebut maka menurut teori optimasi dalam kalkulus, turunan parsial pertamanya harus sama dengan nol. Secara geometris, hal ini berhubungan dengan titik saat kurvanya memiliki kemiringan nol.
Dengan proses tersebut diperoleh penduga bagi λk dan σk adalah sebagai berikut (DeSarbo & Cron 1988):
𝜆̂𝑘= ∑𝑛𝑖=1𝑝̂𝑖𝑘 𝑛 dan 𝜎̂𝑘 2=∑ 𝑝̂𝑖𝑘(𝑦𝑖− 𝒙𝒊 ′𝒃 𝑘)2 𝑛 𝑖=1 ∑𝑛𝑖=1𝑝̂𝑖𝑘
dengan 𝒃𝑘 adalah vektor kolom yang berisi parameter regresi pada kolom ke-k. Sedangkan untuk mencari dugaan bk adalah melalui regresi kuadrat terkecil terboboti (DeSarbo & Cron 1988):
𝑏𝑘 = (𝑿′𝑾 𝒌𝑿)−1(𝑿′𝑾𝒌𝑌), dengan 𝑾𝒌= ( 𝑝1𝑘 ⋯ 0 ⋮ ⋱ ⋮ 0 ⋯ 𝑝𝑖𝑘 ) Algoritma EM
Proses iterasi dari algoritma EM terdiri atas dua tahap, yaitu tahap-E (tahap ekspektasi) dan tahap-M (tahap maksimisasi). Tahap-E bertujuan menemukan log fungsi kemungkinan dari nilai dugaan parameter λk, 𝜎𝑘, dan bjk,. Nilai parameter λk, 𝜎𝑘, dan bjk pada iterasi pertama didapat dari nilai inisialisasi. Kemudian tahap selanjutnya adalah tahap-M yang bertujuan mencari nilai dugaan parameter baru λk*, 𝜎𝑘∗, dan bjk*. Sebelum penghitungan nilai dugaan parameter yang baru, nilai peluang posterior Bayesian pik dihitung dengan menggunakan nilai parameter pada tahap-E (McLachlan & Krishnan 2008).
Proses iterasi dikatakan konvergen jika selisih nilai log fungsi kemungkinan dengan nilai log fungsi kemungkinan sebelumnya telah mencapai batas konvergen (10-5):
|𝐿(𝜆𝑘∗, 𝜎𝑘2∗, 𝑏𝑗𝑘∗ ) − 𝐿(𝜆𝑘, 𝜎𝑘2, 𝑏𝑗𝑘 )| < 10−5
Nilai tersebut ditentukan berdasarkan referensi dengan pertimbangan bahwa nilai tersebut sudah cukup kecil sebagai batas kekonvergenan (McLachlan & Krishnan 2008).
Berikut ini adalah beberapa keuntungan lainnya dari penggunaan algoritma EM (McLachlan & Krishnan 2008):
(1) Algoritma EM cukup stabil dan mudah dibuat programnya;
(2) Secara umum, algoritma EM memiliki kekonvergenan yang handal, artinya selalu konvergen hampir ke titik maksimum lokalnya;
(3) Membutuhkan kapasitas penyimpanan yang kecil pada komputer; dan
(4) Dapat digunakan untuk menduga nilai dari data yang hilang, karena dalam algoritma EM terjadi proses pendistribusian data yang tidak lengkap ke data lengkap berdasarkan nilai peluang bersyaratnya.
5
METODOLOGI
Terdapat beberapa jurnal yang membahas regresi gerombol. Salah satunya adalah jurnal DeSarbo dan Cron yang membahas pemodelan regresi gerombol dengan pendugaan parameter melalui metode kemungkinan maksimum. Dalam jurnal tersebut DeSarbo dan Cron mengimplementasikan algoritma EM dalam proses komputasinya.
Data
Data yang digunakan adalah data hasil simulasi. Banyaknya gugus data simulasi didasarkan atas beberapa faktor yang digunakan sebagai kriteria gugus data tersebut. Hal ini pun dilakukan oleh DeSarbo dan Cron pada penelitiannya. Untuk mengurangi banyaknya gugus data yang dicobakan dalam penelitian ini, rancangan faktorial pecahan (fractional factorial design) 24-1 digunakan, sehingga banyak gugus data yang digunakan adalah sebanyak setengah dari total kombinasi faktor. Rancangan ini membantu dalam pemilihan kombinasi faktor yang digunakan.
Proses pembangkitan gugus data dilakukan sebagai berikut:
1. Menentukan faktor-faktor dan masing-masing tarafnya yang digunakan sebagai kriteria pembangkitan data. Faktor-faktor dan taraf tersebut ditampilkan dalam Tabel 1.
2. Membangkitkan peubah bebas dan peubah respon yang masing-masing terdiri atas n total amatan. Peubah bebas dibangkitkan dari sebaran seragam diskret dengan batas minimum dan maksimum yang berbeda-beda. Jika peubah bebas yang digunakan pada penelitian ini lebih dari satu, maka antar peubah bebas tersebut tidak boleh terjadi kasus multikolinearitas.
3. Membangkitkan galat (ε) sebanyak n dari sebaran normal dengan rataan = 0 dan ragam = σ2.
4. Menentukan parameter regresi (bjk).
a. Untuk J = 2 dan K = 2 c. Untuk J = 2 dan K = 4 𝑏𝑗𝑘 = (−5 −10 5 10) 𝑏𝑗𝑘 = ( −5 −10 5 10 10 25 −10 −25) b. Untuk J = 5 dan K = 2 d. Untuk J = 5 dan K = 4
𝑏𝑗𝑘 = ( 5 10 2 −5 7 −5 −10 −2 5 −7 ) 𝑏𝑗𝑘 = ( 5 10 2 −5 7 −5 −10 −2 5 −7 10 25 −4 12 8 −10 −25 4 −12 −8 ) 5. Menentukan proporsi (λ) amatan di setiap gerombol:
a. Untuk K = 2, maka λ1 = 0.5; λ2 = 0.5.
b. Untuk K = 4, maka λ1 = 0.4; λ2 = 0.1; λ3 = 0.2; λ4 = 0.3. 6. Menghitung nilai peubah respon dengan persamaan y = Xβ + ε.
6
Metode
Analisis yang digunakan dalam penelitian ini adalah regresi gerombol dengan pendugaan parameter melalui metode kemungkinan maksimum. Algoritma EM digunakan untuk mempermudah proses penentuan log fungsi kemungkinan. Algoritma ini digunakan untuk mengatasi kesulitan dalam memaksimumkan log fungsi kemungkinan dengan menyediakan prosedur iteratif yang mudah diimplementasikan (McLachlan dan Krishnan 2008). Penelitian ini dibantu dengan perangkat lunak R.
Algoritma dalam penelitian ini ditampilkan dalam diagram alir pada Lampiran 1 dengan penjelasan lebih rinci sebagai berikut:
1. Membangkitkan delapan gugus data dengan empat faktor yang masing-masing terdiri atas dua taraf. Pemilihan gugus data ditentukan oleh rancangan faktorial pecahan 24-1.
2. Menentukan model regresi terbaik terhadap gugus data terpilih. Tahap E (Expectation Step):
a. Memberikan inisialisasi awal untuk jumlah gerombol k (dengan k ≥ 1), λk, σk, dan bjk.
b. Menduga nilai peluang posterior Bayesian pik dari inisialisasi λk, σk, dan bjk. c. Menghitung nilai log fungsi kemungkinan sebanyak r kali untuk
mendapatkan nilai yang maksimum. Tahap M (Maximization Step):
d. Menghitung nilai dugaan λk, σk, dan bjk yang baru dengan menggunakan hasil perhitungan pik pada langkah 2b.
e. Mengulang langkah 2a sampai 2d sebanyak m kali untuk mendapatkan nilai
log fungsi kemungkinan di titik global maksimum.
f. Memilih penduga parameter saat log fungsi kemungkinan yang maksimum di titik global.
g. Menghitung nilai AIC (Akaike’s Information Criterion). AIC dihitung dengan rumus berikut:
𝐴𝐼𝐶(𝐾) = −2 × max(𝑙𝑛 𝐿) + 2 × 𝑛(𝐾)
dengan n(K) = J x K + 2K – 1 adalah jumlah dugaan parameter efektif untuk hasil regresi gerombol K.
h. Mengulang langkah 2a sampai 2g untuk nilai k yang berbeda.
i. Menentukan banyaknya gerombol yang memiliki nilai AIC minimum.
Faktor Taraf Kode
A. Banyak Amatan (n) n = 100 n = 500
100 500 B. Banyak Parameter Regresi (J) J = 2
J = 5 2 5 C. Banyak Gerombol (K) K = 2 K = 4 2 4 D. Simpangan Baku Galat (σ) σ = 1
σ = 2 1 2
7 3. Menempatkan amatan ke dalam gerombolnya dengan peluang posterior
Bayesian. Amatan ke-i berada di gerombol ke-k jika 𝑝̂𝑖𝑘 > 𝑝̂𝑖.
4. Menguji performa algoritma EM berdasarkan waktu komputasi (detik), RMSE
bjk, dan RMSE σk. RMSE atau Root Mean Square Error dihitung dengan menghitung akar dari jumlah kuadrat selisih nilai dugaan dan parameternya yang dibagi dengan banyaknya tes ulangan. Nilai ini biasa digunakan sebagai alat ukur untuk kebaikan nilai dugaan.
HASIL DAN PEMBAHASAN
Hasil pembangkitan data, pemodelan, dan pengujian performa algoritma akan dijelaskan pada bab ini. Banyaknya gugus data dalam penelitian ini adalah sebanyak 24-1 atau 8 gugus data dengan beberapa kriteria yang dikombinasikan
melalui rancangan faktorial pecahan. Informasi gugus data diberikan pada Tabel 2. Kemudian dalam menampilkan hasil pendugaan parameter regresi untuk pemodelan, hanya satu gugus data saja yang digunakan. Gugus data yang dipilih adalah gugus data simulasi nomor 8. Pemilihan gugus data nomor 8 adalah secara subjektif oleh peneliti tanpa ada syarat tertentu, gugus data nomor 8 dipilih karena banyaknya peubah bebas dan banyaknya gerombol yang tidak sedikit, sehingga hal-hal yang ingin ditunjukkan dapat dilihat dengan jelas, seperti kekonsistenan nilai
log fungsi kemungkinan dan AIC.
Keberadaan gerombol yang belum diketahui dalam suatu gugus data dapat dideteksi melalui plot diagram pencar antara peubah respon (Y) dengan peubah bebasnya (X). Diagram pencar antara peubah Y dan peubah X1 (Gambar 1) pada
gugus data simulasi nomor 8 memberikan ilustrasi bahwa amatan membentuk empat gerombol. Untuk kasus tertentu gerombol dapat mudah diketahui, namun seringkali ditemukan kasus yang lebih kompleks sehingga sulit untuk menentukan banyak gerombol. Oleh karena itu, regresi gerombol menjadi salah satu metode yang bermanfaat dalam menangani kasus seperti ini.
Regresi Linear Gerombol
Pemodelan umumnya dilakukan pada gugus data tanpa memperhatikan keberadaan gerombol. Namun model yang dihasilkan menjadi tidak baik saat amatan membentuk gerombol seperti yang ditampilkan pada Gambar 1. Penggunaan regresi linear gerombol (CLR) pada penelitian ini diharapkan dapat memberikan hasil penggerombolan yang tepat dan hasil pemodelan yang baik karena regresi gerombol dapat mengurangi risiko kesalahan penggambaran data dan meningkatkan kebaikan dugaan model (DeSarbo & Cron 1988).
Setiap amatan yang berada dalam satu gerombol akan memiliki karakteristik yang mirip dan berbeda dengan amatan lainnya yang berada di gerombol lain. Pendekatan metode ini memang mirip dengan analisis gerombol, namun perbedaannya adalah pada regresi gerombol dapat dilakukan pemodelan dan uji signifikansi peubah bebasnya.
8
Tabel 2 Kombinasi gugus data melalui rancangan faktorial pecahan 24-1
100 90 80 70 60 50 3000 2000 1000 0 -1000 -2000 -3000 X1 Y
Gambar 1 Diagram pencar Y dan X1 pada gugus data nomor 8
Pendugaan Parameter
Algoritma EM digunakan dalam penelitian ini sebagai prosedur penentuan penduga parameter yang dapat mengoptimumkan log fungsi kemungkinan. Inisialisasi terhadap λk, σk, bjk, r, dan m diperlukan untuk memulai proses pada
algoritma EM.
Inisialisasi λk, σk, dan bjk tidak memiliki kriteria tertentu karena besar kecilnya
nilai inisial tidak mempengaruhi nilai pendugaan. Oleh karena itu, inisialisasi terhadap ketiga parameter tersebut di dalam program pada penelitian ini dibuat secara otomatis, misalnya inisial bjk dibangkitkan melalui bilangan acak yang menyebar seragam diskret (bjk ~ U(-1,1)). Penentuan seragam diskret ini merujuk pada penelitian yang dilakukan oleh DeSarbo & Cron (1988), namun tentu sebaran ini dapat diubah menjadi sebaran lain karena tidak akan mempengaruhi hasil nilai dugaan parameter barunya. Kemudian σk diinisialisasi sebesar 10 untuk setiap gerombol dan λk diinisialisasi 1/k untuk setiap k sehingga ∑𝐾𝑘=1𝜆𝑘= 1. Namun perlu diketahui bahwa semakin dekat nilai inisialisasi dengan nilai aslinya iterasi akan semakin cepat.
Proses pendugaan parameter ini dilakukan berulang-ulang sebanyak r kali untuk mendapatkan nilai log fungsi kemungkinan yang maksimum, r dipilih sebesar 60. Nilai log fungsi kemungkinan pada iterasi r ini juga belum tentu didapatkan
No n J K σ 1 100 2 2 1 2 500 2 2 2 3 100 5 2 2 4 500 5 2 1 5 100 2 4 2 6 500 2 4 1 7 100 5 4 1 8 500 5 4 2
9
yang maksimum pada titik globalnya. Oleh karena itu, perlu dilakukan ulangan terhadap iterasi r sebanyak m kali, m dipilih sebesar 20. Penentuan r dan m dalam penelitian ini ditentukan berdasarkan percobaan beberapa kali untuk mendapatkan nilai yang konsisten. Jika pada r = 20 hasil nilai log fungsi kemungkinan berubah-ubah dengan percobaan komputasi yang diulang beberapa kali, maka nilai tersebut belum tentu nilai yang maksimum. Oleh karena itu perlu dilakukan peningkatan nilai r hingga pada saat komputasi diulang-ulang, nilai log fungsi kemungkinan selalu menghasilkan hal yang sama. Hal ini pun berlaku pada ulangan m dalam mencari nilai log fungsi kemungkinan di titik maksimum global.
Tabel 3 memberikan informasi hasil komputasi CLR pada gugus data simulasi nomor 8 untuk nilai k = 1 hingga 6, ulangan r = 60, dan ulangan m = 20. Dalam Tabel 3, nilai ln L yang ditampilkan adalah nilai yang sudah konvergen dan maksimum di titik globalnya. Selanjutnya yang perlu diperhatikan adalah perubahan nilai AIC sebagai penentu banyaknya gerombol optimal yang akan dipilih. Model dengan nilai AIC yang paling kecil adalah model yang terbaik atau dengan kata lain, jika ada beberapa pilihan model, maka pilih model dengan nilai AIC yang paling kecil (Latif et al. 2008). Berdasarkan Tabel 3 dapat dilihat bahwa nilai AIC terus menurun seiring dengan bertambahnya k, namun terus meningkat ketika k > 5. Dengan demikian, proses iterasi k dapat dipotong pada k = 6. Kemudian gerombol yang optimal ditentukan saat nilai AIC minimum, yaitu 3458.5240. Dengan demikian, model terbaik yang direkomendasikan adalah model dengan empat gerombol.
Selanjutnya nilai dugaan parameter λk, σk, dan bjk yang diperoleh pada saat k = 4 ditampilkan pada Tabel 4. Nilai dugaan proporsi amatan di setiap gerombol tepat dengan nilai parameternya, yaitu 0.4, 0.3, 0.2, dan 0.1. Artinya bahwa pada penelitian ini amatan ditempatkan sesuai dengan gerombol aslinya. Kemudian nilai dugaan simpangan baku galat, yaitu 2.0141, 2.3782, 2.4306, dan 2.2362, cukup mendekati dari nilai aslinya, yaitu 2. Kemudian nilai dugaan parameter untuk pemodelan ditampilkan pada kolom 4 sampai kolom 8 dalam Tabel 4. X1
k ln L AIC 1 -4443.3243 8898.6486 2 -3765.5841 7577.1682 3 -3736.8943 7513.7886 4 -1702.2620 3458.5240 5 -1701.8650 3471.7300 6 -1701.9070 3485.8150
K 𝜆̂𝑘 𝜎̂𝑘 Dugaan parameter regresi
b0 b1 b2 b3 b4
1 0.4 2.0141 4.6886 10.002 1.9605 -4.9939 7.0025 2 0.3 2.3782 -10.1433 -25.0065 4.0693 -12.0017 -7.9677 3 0.1 2.3262 -4.5044 -10.0118 -1.9135 4.9885 -6.9858 4 0.2 2.4306 10.3081 24.9733 -4.0316 12.0301 8.0737 Tabel 4 Hasil dugaan parameter λk, σk, & bjk gugus data nomor 8 pada k = 4
10
memberikan pengaruh positif terhadap gerombol 1 dan 4, hal ini berlawanan dengan pengaruh pada X1 gerombol 2 dan 3 yang negatif. Ini membuktikan bahwa terdapat sejumlah amatan yang memberikan pengaruh yang berbeda terhadap X1. Pengaruh amatan akan dilihat untuk peubah-peubah bebas lainnya sehingga sedimikian rupa terbentuklah gerombol-gerombol yang mewakili karakteristik sejumlah amatan yang paling mirip.
Evaluasi Model
Dugaan model untuk gugus data simulasi nomor 8 adalah sebagai berikut: 𝑦̂𝑖= 4.6886ai1 – 10.1433ai2 – 4.5044ai3 + 10.3081ai4 + 10.002ai1xi1 – 25.0065ai2xi1
– 10.0118ai3xi1 + 24.9733ai4xi1 + 1.9605ai1xi2 + 4.0693ai2xi2 – 1.9135ai3xi2 –
4.0316ai4xi2 – 4.9939ai1xi3 – 12.0017ai2xi3 + 4.9885ai3xi3 + 12.0301ai4xi3 +
7.0025ai1xi4 – 7.9677ai2xi4 – 6.9858ai3xi4 + 8.0737ai4xi4
Peubah a pada model di atas adalah peubah boneka untuk menunjukkan gerombol yang dimaksud. Contohnya, untuk gerombol 1 maka nilai ai1 = 1,
sedangkan ai2, ai3, dan ai4 masing-masing bernilai 0.
Hasil evaluasi model dengan nilai Mean Absolute Percentage Error (MAPE) ditampilkan dalam Tabel 5. Nilai MAPE yang baik adalah kurang dari 10%, nilai ini menunjukkan bahwa model tersebut memiliki keakuratan yang sangat baik. Sebaliknya, model dikatakan kurang akurat jika nilai MAPE yang diperoleh lebih dari 30% (Mukhopadhyay 2007). Pada Tabel 5 nilai MAPE yang dicetak tebal adalah presentase nilai kebaikan model untuk setiap gugus data hasil simulasi. Seluruh nilai MAPE tersebut kurang dari 10%. Oleh karena itu, secara keseluruhan seluruh dugaan model pada penelitian ini, dapat dikatakan cukup baik.
Tabel 5 Nilai MAPE untuk evaluasi pilihan model pada gugus data simulasi
k MAPE (%) Gugus Data Ke-
1 2 3 4 5 6 7 8 1 100.45 85.67 91.42 99.93 69.95 67.14 69.95 58.07 2 0.106 0.182 0.185 0.116 24.86 23.69 24.86 20.32 3 0.105 0.182 0.145 0.114 9.46 8.72 9.46 17.75 4 0.105 0.181 0.129 0.112 0.076 0.042 0.076 0.06 5 0.105 0.182 0.116 0.110 0.076 0.042 0.076 0.06 6 0.105 0.182 0.116 0.111 0.076 0.042 0.076 0.06
Tabel 6 Waktu komputasi (detik) pada gugus data simulasi
k Gugus Data Ke-
1 2 3 4 5 6 7 8 1 30.09 176.99 25.44 218.20 31.40 159.64 26.44 188.62 2 43.97 230.90 39.81 375.42 40.62 278.46 41.95 329.65 3 57.39 364.03 69.14 492.79 64.71 371.13 69.62 443.40 4 74.03 520.95 89.10 636.95 68.11 476.95 71.59 715.53 5 98.61 599.53 102.32 775.70 83.90 567.50 100.63 765.69 6 100.34 738.50 112.78 891.61 118.03 680.20 112.26 898.86
11 Uji Performa Algoritma EM
Pengujian performa algoritma EM dilakukan dengan melihat pengaruh banyak amatan (n), banyak parameter regresi (J), simpangan baku galat (σ), dan banyak gerombol (K) terhadap faktor-faktor berikut:
1. Waktu komputasi (detik). Saat mengukur peubah ini, program sudah dibuat homogen dalam spesifikasi komputer dan jumlah ulangan.
2. RMSE bjk. Peubah ini didapat dengan menghitung akar dari rataan jumlah kuadrat sisaan antara nilai bjk aktual dengan bjk dugaan yang diulang sebanyak 100 kali. Nilai ini menunjukkan kebaikan dugaan bjk.
3. RMSE σk. Peubah ini didapat dengan menghitung akar dari rataan jumlah
kuadrat sisaan antara nilai σk aktual dengan σk dugaan yang diulang sebanyak 100 kali. Nilai ini menunjukkan kebaikan dugaan σk.
Hasil perhitungan ketiga faktor tersebut pada delapan gugus data disajikan dalam Tabel 6, Tabel 7, dan Tabel 8. Berdasarkan Tabel 6 dapat dilihat pengaruh n,
J, dan K terhadap waktu komputasi. Semakin banyak gerombol maka waktu
komputasi semakin meningkat. Hal lainnya yang dapat dilihat adalah waktu komputasi pada gugus data yang memiliki n = 500 lebih lama daripada waktu komputasi pada gugus data yang memiliki n = 100 dan waktu komputasi lebih lama pada gugus data yang memiliki peubah bebas lebih banyak. Pengaruh jumlah amatan, banyaknya gerombol, dan banyaknya peubah bebas memang memberikan pengaruh terhadap banyaknya iterasi di dalam program, sehingga waktu yang dibutuhkan akan meningkat pula. Hasil waktu komputasi pada Tabel 6 akan berbeda jika program dijalankan pada jenis komputer yang memiliki spesifikasi yang berbeda. Kecepatan processor dan besarnya Random Access Memory (RAM) sangat menentukan lama atau lambatnya komputasi program. Pada penelitian ini, spesifikasi komputer yang digunakan adalah processor Intel Atom dan RAM 1 Gb. Waktu komputasi tentu akan lebih cepat jika processor yang digunakan lebih banyak dan ukuran RAM lebih besar daripada komputer yang digunakan pada penelitian ini.
Selanjutnya akan dibahas pengaruh n, J, dan K terhadap nilai kebaikan dugaan bjk (RMSE bjk). Pada penelitian ini, koefisien regresi yang digunakan untuk perbandingan adalah b0 dan b1. Ada dua pertimbangan yang mendasari pemilihan kedua koefisien regresi tersebut, yaitu keduanya dimiliki oleh semua gugus data dan terdapat kecenderungan pola yang sama antara semua koefisien regresi pada satu gugus data dan gugus data yang lainnya. Oleh karena itu, koefisien regresi b2, b3, dan b4 dapat diwakilkan oleh b0 dan b1. Berdasarkan Tabel 7, jika gugus data nomor 1 dan 2, 3 dan 4, 5 dan 6, atau 7 dan 8, dibandingkan maka dapat diketahui pengaruh n terhadap kebaikan dugaan bjk.Hasilnya adalah semakin besar jumlah amatan maka nilai dugaan terhadap bjk akan semakin baik. Jika gugus data nomor 1 dan 3, 2 dan 4, 5 dan 7, atau 6 dan 8, dibandingkan maka dapat diketahui pengaruh
J terhadap kebaikan dugaan bjk. Hasilnya adalah semakin banyak parameter/peubah
bebas yang digunakan maka nilai dugaan terhadap bjk akan semakin baik. Kemudian jika gugus data nomor 1 dan 5, 2 dan 6, atau 3 dan 7, dibandingkan maka dapat diketahui pengaruh K terhadap kebaikan dugaan bjk. Hasilnya adalah semakin banyak gerombol dalam populasi maka dugaan bjk akan semakin baik. Dalam jurnal DeSarbo & Cron (1988) ditambahkan pula bahwa besarnya simpangan baku galat
12
dalam data akan berpengaruh pada besar kecilnya RMSE, semakin besar σ maka RMSE akan semakin besar.
Terakhir, berdasarkan Tabel 8 hanya dapat dilihat bahwa banyaknya gerombol (K) mempengaruhi nilai dugaan kebaikan σk jika dibandingkan hasil antara gugus data 1-4 dan 5-8. Semakin banyak gerombolnya, maka RMSE σk justru akan semakin besar. Kemudian pada bagian ini, pengaruh faktor lainnya belum dapat dilihat disebabkan pola yang berbeda-beda, sehingga kesimpulan tidak dapat ditentukan berdasarkan hasil pada Tabel 8. Diperlukan gugus data yang lebih banyak untuk menangkap pengaruh faktor lainnya terhadap RMSE σk ini. Hal ini dapat menjadi masukan bagi penelitian selanjutnya.
Tabel 7 RMSE bjk pada gugus data simulasi RMSE
b0 pada Gerombol ke- b1 pada Gerombol ke-
Gugus Data ke- 1 2 3 4 1 2 3 4 1 0.2642 0.6041 - - 0.0042 0.0096 - - 2 0.8907 0.3084 - - 0.0094 0.0059 - - 3 4.3109 0.5606 - - 0.0155 0.0062 - - 4 0.3264 0.6974 - - 0.0009 0.0037 - - 5 6.3559 1.2428 1.2813 0.9209 0.0683 0.0142 0.0232 0.0220 6 0.0558 1.0950 0.5722 0.3507 0.0013 0.0106 0.0045 0.0033 7 1.2570 2.5465 1.7610 0.7870 0.0027 0.0189 0.0251 0.0124 8 0.3114 0.4955 0.3080 0.1434 0.0020 0.0118 0.0267 0.0065
Tabel 8 RMSE σk pada gugus data simulasi RMSE
σ pada Gerombol ke- Gugus Data ke- 1 2 3 4 1 0.7194 0.7199 - - 2 0.7094 0.7102 - - 3 0.7257 0.7254 - - 4 0.7079 0.7079 - - 5 0.8697 0.8693 0.8710 0.8697 6 0.8735 0.8741 0.8742 0.8724 7 0.8689 0.8681 0.8690 0.8681 8 0.8807 0.8826 0.8778 0.8818
13
SIMPULAN DAN SARAN
Simpulan
Regresi gerombol dapat melakukan pemodelan dengan memisahkan data populasi berdasarkan kemiripan parameternya dengan tepat. Hasil pendugaan parameter pada gugus data simulasi dengan ukuran amatan 500, banyaknya parameter 5, banyaknya gerombol 4, dan simpangan baku error sebesar 2, memberikan hasil pendugaan parameter yang mendekati nilai aktualnya. Ini menunjukkan bahwa melalui algoritma EM, pemodelan regresi dengan metode pendugaan kemungkinan maksimum memberikan hasil model yang cukup baik. Evaluasi model dengan nilai MAPE menujukkan hasil model yang akurat.
Berdasarkan pengujian performa algoritma EM terhadap dua peubah respon, yaitu waktu komputasi, RMSE bjk, dan RMSE σk, algoritma ini cukup baik
digunakan untuk ukuran data yang besar dan jumlah peubah bebas yang banyak. Namun semakin besar simpangan baku galat akan mempengaruhi RMSE bjk serta banyaknya jumlah amatan dan gerombol dalam data dapat meningkatkan waktu komputasi.
Saran
Pemodelan yang dilakukan oleh program CLR yang dibuat terbatas pada data yang peubah bebasnya tidak mengalami kasus multikolinearitas. Program dapat dikembangkan untuk penanganan kasus multikolinearitas dan penelitian dilanjutkan untuk tahap pengujian pengaruh peubah bebas terhadap peubah responnya.
DAFTAR PUSTAKA
Chatterjee S, Hadi AS. 2006. Regression Analysis by Example 4th Ed. New Jersey
(US): John Wiley & Sons Inc.
DeSarbo WS, Cron WL. 1988. A maximum likelihood methodology for clusterwise linear regression. J Classification. 5:249-282.
DeSarbo WS, Oliver RL, Rangaswamy A. 1989. A simulated annealing methodology for clusterwise linear regression. Psychometrika. 54(4):707-736. Kang C, Ghosal S. 2008. Clusterwise regression using Dirichlet mixtures. World
Sci. 9:301-322.
Latif AHMM, Hossain MZ, Islam MA. 2008. Model selection using modified Akaike’s Information Criterion: an application to maternal morbidity data.
Austrian J Statistics. 37(2):175-184.
McLachlan GI, Krishnan T. 2008. The EM Algorithm and Extensions 2nd Ed. New Jersey (US): J Wiley.
Mukhopadhyay SK. 2007. Production Planning and Control Text and Cases 2nd Ed.
New Delhi (IN): Prentice Hall of India Private Limited.
Qian G, Wu Y. 2011. Estimation and selection in regression clustering. European
14
Ramachandran KM, Tsokos CP. 2009. Mathematical Statistics with Applications. New York (US): Elsevier Academic Press.
Smith WR. 1956. Product differentiation and market segmentation as alternative strategies. Journal of Marketting. 21(7):3-8.
Spath H. 1979. Algorithm 39: Clusterwise Linear Regression. Computing. 22: 367-373.
Wedel M. 1990. Clusterwise Regression and Market Segmentation. Development
15 Lampiran 1 Diagram alir metode penelitian
Data Simulasi Dibangkitkan
Inisialisasi Awal k , λk, σk, dan bjk.
Tahap E
Menghitung nilai peluang posterior Bayesian pik
Menghitung nilai log fungsi kemungkinan (ln L)
diulang r kali
Mendapatkan nilai Ln L yang maksimum di titik global
Menghitung nilai dugaan λk, σk, dan bjk baru.
Tahap M
diulang m kali
ulang dengan nilai k yang berbeda
Mendapatkan model regresi terbaik dengan gerombol yang optimal
Mendapatkan penduga parameter Menghitung nilai AIC
16
RIWAYAT HIDUP
Penulis dilahirkan di Bogor tanggal 22 Februari 1992, sebagai anak pertama dari tujuh bersaudara pasangan Risman Melanoviarsyah dan Selly Sulaeha. Penulis lulus dari SMA Negeri 6 Bogor pada tahun 2010 dan pada tahun yang sama diterima di Institut Pertanian Bogor melalui jalur Ujian Talenta Masuk IPB (UTMI). Penulis diberikan kesempatan untuk belajar menempuh pendidikan sarjananya di Departemen Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam IPB dengan minor Ekonomi Studi Pembangunan. Pada semester 6, penulis juga berkesempatan melaksanakan kegiatan praktik lapang di perusahaan Survey and
Research Lingkaran Survei Indonesia di Jakarta Utara. Penulis selama
melaksanakan studi di IPB tidak hanya aktif dalam bidang akademik, tetapi juga dalam bidang non-akademik di dalam kampus.
Selama menempuh pendidikan di Institut Pertanian Bogor penulis berpengalaman menjadi asisten dosen untuk mata kuliah Metode Statistika. Penulis juga aktif baik dalam kegiatan Himpro, UKM, dan kepanitian-kepanitiaan. Pada tahun 2010-2011 penulis bergabung dalam Paduan Suara Mahasiswa IPB Agria Swara dan tahun 2011-2012 bergabung dalam staf Manajemen Leadership and
Entrepreneurship School (LES) IPB. Pada dua periode masa bakti Himpunan
Profesi Mahasiswa Statistika Gamma Sigma Beta (GSB) pada tahun 2012-2013, penulis aktif dalam Badan Pengawas Himpunan Profesi GSB.
Penulis mendapatkan beasiswa pendidikan dari Yayasan Goodwill International pada tahun 2013. Melalui beasiswa selama 1 tahun tersebut, penulis mendapatkan berbagai training mengenai kepemimpinan, bisnis & jaringan sosial, dan pengembangan minat bakat.