PENGKAJIAN ALGORITMA EXCHANGE UNTUK ANALISIS
REGRESI LINEAR BERGEROMBOL DENGAN METODE
KUADRAT TERKECIL
DEWI LESTARI
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR
BOGOR 2014
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA*
Dengan ini saya menyatakan bahwa skripsi berjudul Pengkajian algoritma exchange untuk analisis regresi linear bergerombol dengan metode kuadrat terkecil adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.
Bogor, Juli 2014 Dewi Lestari NIM G14100027
ABSTRAK
DEWI LESTARI. Pengkajian algoritma exchange untuk analisis regresi linear bergerombol dengan metode kuadrat terkecil. Dibimbing oleh BAGUS SARTONO dan FARIT M. AFENDI.
Kenonlinearan dan keheterogenan amatan sering kali menyulitkan kita dalam melakukan analisis regresi linear. Kenonlinearan dan keheterogenan amatan bisa disebabkan oleh banyak hal salah satunya dikarenakan pada gugus data tersebut sebenarnya terdiri atas beberapa gerombol yang memiliki fungsi regresi yang berbeda-beda. Sayangnya dalam beberapa kasus, terutama pada regresi linear berganda, gerombol tersebut sangat sulit untuk diketahui. Regresi linear bergerombol dengan metode kuadrat terkecil yang diimplementasikan dengan menggunakan algoritma exchange merupakan salah satu metode yang terbukti dapat digunakan untuk menemukan gerombol-gerombol yang dapat mengoptimalkan fungsi objektif yang ada. Metode ini memiliki beberapa kelemahan seperti waktu komputasi yang semakin lama seiring bertambah banyaknya jumlah gerombol dan amatan yang digunakan. Selain itu masih terjadi salah penggerombolan pada gugus data yang amatan-amatan antar gerombolnya saling berbaur. Akan tetapi, secara keselurahan metode ini sangat bermanfaat untuk diimplementasikan untuk mengatasi kenonlinearan dan keheterogenan amatan. Kata kunci: algoritma exchange, metode kuadrat terkecil, regresi linear
bergerombol
ABSTRACT
DEWI LESTARI. Assessment of exchange algorithm for clusterwise linear regression with ordinary least square method. Supervised by BAGUS SARTONO and FARIT M. AFENDI
Nonlinear relationships and heterogeneous subjects are common problems in regression. These problems may happen because of many causes, such as due to the fact that data consist of several groups which each group has specific regression function. Unfortunately, in most cases, it is not known a priori which subset of observations should be approximated with which specific regression function. Clusterwise linear regression by Ordinary least square approach which is implemented with exchange algorithm is one of the proven method that can be implemented to find the optimal clusters that can optimize the objective function. This method is recommended to overcome the nonlinearity and heterogeneity of existing data. The weakness of this method is that the more number of cluster and observation are, the longer likely to compute. And there is still miss clustering on a data set which has an overlapping observations.
Skripsi
sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika pada
Departemen Statistika
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR
BOGOR 2014
PENGKAJIAN ALGORITMA EXCHANGE UNTUK ANALISIS
REGRESI LINEAR BERGEROMBOL DENGAN METODE
KUADRAT TERKECIL
Judul Skripsi : Pengkajian algoritma exchange untuk analisis regresi linear bergerombol dengan metode kuadrat terkecil
Nama : Dewi Lestari
NIM : G14100027
Disetujui oleh
Dr Bagus Sartono, MSi Pembimbing I
Dr Farit Mochamad Afendi, MSi Pembimbing II
Diketahui oleh
Dr Anang Kurnia, MSi Ketua Departemen
PRAKATA
Puji syukur saya panjatkan kepada Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian ini ialah Pengkajian Algoritma Exchange untuk Analisis Regresi Linear Bergerombol dengan Metode Kuadrat Terkecil. Karya ilmiah ini merupakan salah satu syarat untuk mendapatkan gelar Sarjana Statistika pada Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Penulis mengucapkan terima kasih kepada semua pihak yang telah membantu dalam menyelesaikan karya ilmiah ini, antara lain:
1. Bapak Dr Bagus Sartono, MSi dan Bapak Dr Farit Mochamad Afendi, MSi selaku pembimbing yang telah memberikan banyak saran pada penelitian ini. 2. Bapak Dr Ir Budi Susetyo, MS selaku penguji yang juga telah memberikan
banyak saran pada penelitian ini.
3. Bapak/Ibu Dosen Departemen Statistika atas ilmu yang telah diberikan selama ini.
4. Ibu Markonah, Ibu Tri, dan para staf Tata Usaha Departemen Statistika yang ulet dan tak pernah lelah mengurusi administrasi kelengkapan mulai dari kolokium hingga sidang mahasiswa Statistika.
5. Orang tua, kakak, dan adik atas kesabaran, kasih sayang, doa, dan dorongan batin yang begitu besar kepada penulis.
6. Rizky Ardinsyah, Amri L. Najih, Hariz, dan Benny sebagai teman satu perjuangan satu dosen bimbingan yang selalu memberikan dukungan dan masukannya.
7. Teman-teman Statistika 47 atas motivasi dan dukungannya selama ini. Semoga karya ilmiah ini dapat bermanfaat bagi semua pihak. Penulis mohon maaf atas segala kekurangan dan kesalahan yang terdapat dalam pembuatan karya ilmiah ini.
Bogor, Juni 2014
DAFTAR ISI
DAFTAR TABEL vi DAFTAR GAMBAR vi DAFTAR LAMPIRAN vi PENDAHULUAN 1 Latar Belakang 1 Tujuan Penelitian 2REGRESI LINEAR BERGEROMBOL 2
DATA DAN METODE 4
Data 4
Metode 6
HASIL DAN PEMBAHASAN 6
Implementasi Regresi Linear Bergerombol pada Gugus Data Simulasi 6 Implementasi Regresi Linear Bergerombol pada Gugus Data Riil 11
KESIMPULAN 15
SARAN 16
DAFTAR PUSTAKA 16
DAFTAR TABEL
1 Faktor dan taraf yang digunakan untuk membuat gugus data simulasi 5 2 Kombinasi taraf-taraf antar faktor hasil rancangan faktorial pecahan 25-2 5 3 Keanggotan gerombol dengan banyaknya gerombol (k) sebanyak tiga
dan memiliki dua peubah penjelas 6
4 Hasil penggerombolan dari analisis CLR pada kedelapan gugus data 7 5 Perbandingan antara kondisi gerombol hasil simulasi dengan hasil
penggerombolan dengan metode CLR pada gugus data pertama 8 6 Perbandingan antara kondisi gerombol sebenarnya dengan hasil
penggerombolan dengan analsis CLR pada gugus data kedua 9 7 Perbandingan antara kondisi gerombol sebenarnya dengan hasil
penggerombolan dengan analisis CLR pada gugus data kedelapan 9 8 Hasil penggerombolan yang diperoleh dari metode CLR yang dicobakan
dengan menggunakan beberapa gerombol pada ketiga gugus data 10 9 Hasil penggerombolan dengan menggunakan analisis CLR pada Gugus
data konsumsi listrik 11
10 Hasil penggerombolan yang diperoleh dari analisis CLR pada gugus data
persepsi nada 14
DAFTAR GAMBAR
1 Diagram pencar (a) gugus data pertama (b) gugus data kedua dan (c)
gugus data kedelapan 8
2 Scree plot nilai KTS dengan banyaknya gerombol pada gugus data (a)
pertama (b) kedua dan (c) kedelapan 11
3 Scree plot nilai JKS total dengan banyaknya gerombol pada Gugus data
konsumsi listrik 12
4 Diagram pencar gugus data persepsi nada 13
5 Scree plot nilai KTS dengan banyaknya gerombol pada gugus data
persepsi nada 14
DAFTAR LAMPIRAN
1 Diagram pencar hasil penggerombolan dengan analisis CLR dua gerombol untuk (a) gugus data pertama dan (b) gugus data kedua 17 2 Scree plot antara nilai KTS dengan banyak gerombol yang digunakan
PENDAHULUAN
Latar BelakangAnalisis regresi linear merupakan alat analisis statistika yang bertujuan untuk mengetahui hubungan linear (dalam parameter) suatu peubah penjelas terhadap peubah respon. Regresi linear klasik ini akan baik digunakan pada data yang memiliki parameter-parameter regresi yang linear serta amatan-amatan yang homogen (Chatterjee dan Hadi 2006). Akan tetapi dalam penerapannya, sering kali kita mengalami kesulitan karena dihadapkan pada data yang memiliki hubungan nonlinear dan amatan-amatannya heterogen.
Adanya kenonlinearan dan keheterogenan tersebut dapat disebabkan oleh berbagai hal, salah satunya adalah data yang dimiliki sebenarnya terdiri dari beberapa subpopulasi yang memungkinkan untuk setiap subpopulasi tersebut memiliki fungsi regresi yang berbeda-beda. Sehingga dalam kasus-kasus seperti itu dibutuhkan dua atau lebih fungsi regresi untuk mengatasi keheterogenan yang ada serta agar dapat memperoleh informasi yang tepat mengenai struktur data yang ada. Namun dalam banyak kasus, terutama pada kasus analisis regresi linear berganda, kita tidak dapat dengan mudah mengetahui amatan-amatan mana saja yang menjadi anggota suatu subpopulasi serta fungsi regresi seperti apa yang tepat yang dapat digunakan untuk subpopulasi tersebut. Oleh karena itu pada penelitian ini akan dikaji suatu metode yang dapat secara bersamaan menggerombolkan amatan-amatan dari suatu gugus data ke dalam sejumlah kelompok sekaligus menemukan model regresi yang berasosiasi dengan setiap gerombol yang terbentuk yang dapat memaksimumkan kesesuaian seluruh data. Metode inilah yang kemudian disebut sebagai regresi linear bergerombol.
Metode ini telah cukup banyak diaplikasikan di berbagai bidang seperti dalam segmentasi pasar, bisnis, sosial ekonomi, dan lain-lain. Sebagai contoh pengaplikasian metode ini, Zhu et al. (2012) dalam jurnalnya menjelaskan mengenai segmentasi data tuntutan pembiayaan masyarakat untuk layanan rawat inap pada pasien penderita TBI. Pada kasus ini, perusahaan asuransi publik bermaksud untuk memodelkan hubungan antara lama layanan dan biaya yang dikeluarkan berdasarkan data yang dikumpulkan dari kohort pasien TBI yang menerima pelayanan rehabilitasi rawat inap. Jika para pasien TBI tersebut memiliki elastisitas (parameter regresi) lama layanan yang homogen, maka elastisitas tersebut dapat diduga dengan mudah dengan meregresikan lama layanan dengan biaya yang dikeluarkan. Akan tetapi kenyataannya, elastisitas lama layanan tersebut beragam, bergantung pada tingkat keparahan cedera, kondisi rumah sakit, serta perilaku penggunaan layanan rehabilitasi. Sehingga jika semua hal tersebut diabaikan, dugaan elastisitas lama layanan yang diperoleh pasti akan berbias, serta informasi mengenai struktur data yang ada menjadi tidak tepat. Oleh karena itu, perlu dilakukannya penggerombolan berdasarkan keragaman elastisitas lama layanan lalu melakukan analisis regresi pada setiap gerombolnya. Maka dalam hal inilah analisis regresi linear bergerombol dibutuhkan.
Terdapat berbagai pendekatan yang dapat digunakan dalam analisis regresi linear bergerombol ini diantaranya dengan metode kemungkinan maksimum (DeSarbo dan Cron 1988), jumlah mutlak simpangan terkecil (Lau et al. 1999, dan
2
Zhu et al. 2012), simulated annealing (DeSarbo et al. 1989), dan lain-lain. Akan tetapi pada penelitian ini metode yang akan dikaji lebih dalam adalah analisis regresi linear bergerombol dengan meminimumkan jumlah kuadrat sisaan (JKS) total seperti yang dikembangkan oleh Späth (1979, 1982). Metode ini dipilih karena metode ini cukup mudah dan sederhana serta seringkali dijadikan acuan oleh metode-metode lainnya.
Tujuan Penelitian
Tujuan dari penelitian ini adalah mengkaji kinerja algoritma exchange dan kesesuaian pembentukan gerombol pada analisis regresi linear bergerombol dengan metode kuadrat terkecil pada data yang terdiri atas beberapa subpopulasi.
REGRESI LINEAR BERGEROMBOL
Regresi linear bergerombol atau disebut juga Clusterwise linear regression (CLR) merupakan suatu metode integrasi antara analisis regresi dengan analisis gerombol. Metode ini bertujuan untuk menemukan secara bersamaan sejumlah gerombol yang optimal dari suatu gugus data sekaligus menemukan model regresi yang berasosiasi dengan setiap gerombol yang terbentuk yang dapat memaksimumkan kesesuaian seluruh data (Desarbo et al. 1989).
Regresi linear bergerombol digunakan untuk melakukan analisis gerombol dalam sebuah kerangka regresi. Ketika model regresi klasik mengasumsikan bahwa koefisien regresi untuk semua amatan dalam contoh adalah sama, pada metode ini memperbolehkan adanya keragaman koefisien regresi antar amatan pada gerombol yang berbeda (Lau et al. 1999). Metode ini memiliki beberapa kelebihan diantaranya dapat menemukan dan mengatasi keheterogenan data, menemukan model matematis dari sekumpulan data nonlinear, serta dapat mengatasi masalah yang disebabkan adanya korelasi antar peubah (Ari dan Guvenir 2002).
Telah banyak literatur yang mengkaji analisis CLR ini, salah satunya dituliskan oleh Späth yang juga merupakan salah satu pencetus metode ini. Späth (1979, 1982) mengusulkan sebuah algoritma bernama algoritma exchange yang menggunakan teknik dekomposisi QR untuk meminimumkan keseluruhan jumlah kuadrat sisaan (JKS) dari model terintegrasi ini. Pada tahun 1988 DeSarbo dan Cron mengusulkan analisis CLR dengan menggunakan pendekatan kemungkinan maksimum dengan pembentukan gerombolnya didasarkan pada peluang posterior Bayes. Kemudian pada tahun 1989 DeSarbo et al. mengembangkan suatu metode yang bernama simulated annealing. Berbeda dengan metode-metode sebelumnya yang setiap amatannya hanya dapat menjadi anggota pada satu gerombol saja, dengan menggunakan metode ini memungkinkan bagi setiap amatan untuk dapat menjadi anggota lebih dari satu gerombol. Penelitian terbaru mengenai analisis CLR dilakukan oleh Zhu et al. (2012) yang mengembangkan analisis ini dengan meminimumkan jumlah mutlak simpangan melalui pendekatan mixed-integer programming (MIP). Menurutnya metode ini telah dapat menghasilkan solusi optimum global.
3 Dari berbagai metode yang ada, metode yang akan digunakan pada penelitian ini adalah metode yang telah dikembangkan oleh Späth (1979, 1982) dengan metode kuadrat terkecil. Prinsip dasar analisis regresi linear bergerombol dengan metode kuadrat terkecil adalah menemukan secara bersamaan penyekat data yang optimal sekaligus menemukan model regresi yang tepat bagi setiap sekatan sedemikian rupa sehingga diperoleh nilai JKS total yang minimum.
Cara kerja metode ini adalah dari sebanyak n amatan yang ada, dilakukan penyekatan-penyekatan yang menjadikan n amatan tersebut menjadi k gerombol, C1,...,Ck, dimana Cj⊂ N = {1,…,n}, |Cj| ≥ p dengan p menunjukkan banyaknya parameter regresi, Cj ∩ Cm = ∅ untuk j ≠ m, C1∪ ...∪Ck = N, dengan vektor dugaan parameter regresi bj( j = 1, …, k) sedemikian rupa sehingga
∑ ‖ykj=1 j-Xjbj‖2 (1) bernilai sekecil mungkin dengan yj merupakan vektor kolom peubah tak bebas pada gerombol ke-j berukuran n × 1 dan Xj merupakan matriks peubah bebas pada gerombol ke-j berukuran n × p. Agar terdapat solusi bagi bj dari persamaan (1), maka Xj harus berpangkat p sehingga diperlukan banyak amatan dalam setiap gerombol sebanyak nj (nj ≥ p), yang berimplikasi n ≥ (k × p) (Desarbo dan Cron 1988).
Metode ini oleh Späth (1979, 1982) diterapkan dengan mengembangkan suatu algoritma yang bernama algoritma exchange dengan tahapan-tahapan sebagai berikut :
a. Melakukan penyekatan awal yang membagi data menjadi k gerombol, C1, ...,Ck, dengan banyaknya amatan pada setiap sekatan |Cj| ≥ p¸ dan ∑kj=1|Cj|= n . Penyekatan awal dapat pula dilakukan dengan menggunakan penyekat awal baku (s) dengan si = 1 + mod(i -1, k) yang menunjukkan gerombol letak amatan ke-i
b. Menghitung nilai dugaan parameter regresi dan JKS pada setiap sekatan dengan menggunakan metode kuadrat terkecil
c. Memilih secara acak amatan pertama yang akan dipindahkan i = i0
d. Memindahkan amatan ke-i dari satu gerombol (Cj) ke gerombol yang lain (Cm) dengan m ≠j dan |Cj| > n*j dengan n*j merupakan jumlah minimum amatan yang mungkin dimiliki pada setiap gerombol, pada penelitian ini n*j = p. Sedemikian sehingga gerombol yang dipilih (Cg) merupakan gerombol yang mengakibatkan penurunan fungsi objektif (1) maksimum ketika amatan ke-i berada pada gerombol tersebut. Maka kini diperoleh Cj = Cj – {i} dan Cg =
Cg ∪ {i}
e. Memilih kembali amatan yang akan dipindahkan yaitu amatan ke-(i + 1), kembalikan nilai i = 1 jika i > n
f. Mengulangi langkah d dan e hingga tidak terjadi lagi penurunan fungsi objektif (1) yaitu selama tidak terjadi lagi penurunan fungsi objektif (1) sebanyak n kali. Walaupun algoritma ini cukup mudah untuk diimplementasikan akan tetapi hasil dari algoritma ini belum tentu merupakan solusi global optimum. Adanya perubahan penyekatan awal yang dipilih, amatan pemulai (i0), dan nilai n*j yang berbeda, dapat menghasilkan hasil yang berbeda pula. Oleh karena itu untuk mengatasi hal tersebut, perlu melakukan beberapa kali pengulangan dan
4
menggunakan penyekat awal serta amatan pemulaiyang berbeda-beda. Kemudian memilih solusi yang menghasilkan nilai fungsi objektif (1) yang paling kecil.
Hasil akhir dari algoritma ini adalah terbentuknya sebanyak k gerombol dengan keanggotaan gerombol yang unik serta diperolehnya dugaan persamaan garis regresi untuk setiap gerombolnya. Dari sebanyak k dugaan persamaan garis regresi tersebut dapat dijadikan menjadi satu dugaan persamaan garis regresi baru dengan cara memasukkan peubah boneka ke dalam dugaan persamaan garis regresi baru tersebut. Peubah boneka (D) tersebut menunjukkan keanggotaan suatu amatan pada suatu gerombol dengan Dij = 1 jika amatan ke-i merupakan anggota gerombol ke-j dan Dij = 0 jika lainnya. Jika terdapat sebanyak k gerombol maka akan ada sebanyak k-1 peubah boneka. Ketika melakukan pendugaan, persamaan garis regresi yang digunakan adalah persamaan garis hasil interaksi antara peubah boneka dengan peubah bebas yang digunakan pada penelitian tersebut. Berikut merupakan contoh dugaan persamaan garis regresi dari analisis regresi linear bergerombol dengan sebuah peubah bebas dan dua gerombol :
ŷi= b0+b1xi+b2Di1+ b3xiDi1
dengan Di1 = 1 jika amatan ke-i merupakan anggota gerombol ke-1 dan Di1 = 0 jika amatan ke-i merupakan anggota gerombol ke-2. Sehingga berdasarkan hal tersebut, dari persamaan garis di atas dapat diperoleh persamaan garis untuk masing-masing gerombol yang tepat sama dengan yang diperoleh dari hasil algoritma exchange sebagai berikut :
Gerombol pertama : ŷi*= b0*+ b1*xi* Gerombol kedua : ŷi**= b0**+ b1**xi** Keterangan :
ŷi* : nilai dugaan peubah respon untuk amatan ke-i pada gerombol pertama ŷi** : nilai dugaan peubah respon untuk amatan ke-i pada gerombol kedua b0* : nilai dugaan intersep pada gerombol pertama dengan b0* = b0 + b2
b0** : nilai dugaan intersep pada gerombol kedua b0** = b0
b1* : nilai dugaan koefisien regresi untuk peubah bebas x pada gerombol pertama dengan b1* = b1 + b3
b1** : nilai dugaan koefisien regresi untuk peubah bebas x pada gerombol kedua dengan b1** = b1
xi* : nilai peubah bebas untuk amatan ke-i pada gerombol pertama
xi** : nilai peubah bebas untuk amatan ke-i pada gerombol kedua
DATA DAN METODE
DataKesesuaian hasil penggerombolan yang diperoleh dari metode ini dapat diketahui dengan cara membandingkan hasil yang diperoleh dari metode ini dengan keadaan yang sebenarnya sehingga pada penelitian ini diperlukan gugus data yang telah diketahui kondisi yang sebenarnya seperti gugus data simulasi. Gugus data
5 simulasi yang digunakan dalam penelitian ini disimulasikan dengan mempertimbangkan lima faktor yang masing-masing faktor memiliki dua taraf (Tabel 1). Kelima faktor tersebut dipilih karena diduga dapat memengaruhi indikator-indikator yang akan disebutkan pada Bab Hasil dan Pembahasan. Hasil kombinasi taraf-taraf dari beberapa faktor tersebut kemudian direduksi dengan rancangan faktorial pecahan dengan fraksi seperempat, sehingga diperoleh delapan kombinasi gugus data seperti pada Tabel 2.
Tabel 1 Faktor dan taraf yang digunakan untuk membuat gugus data simulasi
Faktor Taraf
Banyaknya pengamatan (F1)
50 100 Banyaknya peubah bebas
(F2)
1 2
Banyaknya gerombol (F3) 2
3 Simpangan baku sisaan (F4)
untuk e ~Normal (0, σe2)
0.5 2 Ada tidaknya perpotongan
garis regresi antar gerombol (F5)
Saling berpotongan, dengan parameter regresi β = [ 5 5
-2 2] atau β = [
5 5 5
-2 2 -4]
Tidak saling berpotongan, dengan parameter regresi β = [8 5
2 2] atau β = [
8 5 14 2 2 2]
Tabel 2 Kombinasi taraf-taraf antar faktor hasil rancangan faktorial pecahan 25-2
Gugus data ke- F1 F2 F3 F4 F5
1 100 1 2 0.5 1 2 50 1 2 2 2 3 100 2 3 2 2 4 50 2 3 0.5 1 5 50 2 2 0.5 2 6 50 1 3 2 1 7 100 2 2 2 1 8 100 1 3 0.5 2
Selain dengan membandingkannya dengan kondisi yang sebenarnya, kesesuaian hasil penggerombolan dari analisis ini dapat diketahui pula dengan cara membandingkan hasil yang diperoleh dari analisis ini dengan hasil penelitian sebelumnya pada suatu gugus data riil. Sehingga pada penelitian ini akan digunakan pula dua buah gugus data riil. Gugus data riil yang digunakan pada penelitian ini adalah gugus data konsumsi listrik yang digunakan dalam penelitian Lau et al. (1999) serta gugus data persepsi nada yang digunakan dalam penelitian D’Urso dan Santoro (2006)
6
Metode
Pada penelitian ini perangkat lunak yang digunakan adalah R 3.0.3 dan SAS 9.1.3. Berikut merupakan algoritma yang digunakan pada penelitian ini :
1. Membangkitkan gugus data simulasi.
a. Membangkitkan masing-masing sebanyak 𝑛 amatan untuk setiap peubah penjelas yang menyebar Seragam (0, 2) untuk peubah X1 dan menyebar
Seragam (0, 1) untuk peubah X2 dengan X1 dan X2 bersifat saling bebas.
b. Membangkitkan sebanyak 𝑛 nilai sisaan (e) yang menyebar Normal (0, σe2)
c. Menentukan nilai parameter regresi pada setiap gerombol.
d. Menentukan ukuran setiap gerombol dengan perbandingan banyaknya amatan pada setiap gerombol sebesar n1 : n2 = 2 : 3 untuk dua gerombol dan
n1 : n2 : n3 = 3 : 3 : 4 untuk tiga gerombol.
e. Menentukan keanggotaan gerombol seperti pada Tabel 3.
2. Menghitung nilai peubah respon pada setiap gerombol (yj) dengan yj = Xjbj+ ej untuk j = 1, ..., k dan k menunjukkan banyaknya gerombol.
3. Melakukan langkah 1 untuk kedelapan gugus data simulasi.
4. Melakukan penggerombolan dan pemodelan baik pada gugus data simulasi ataupun gugus data riil dengan menerapkan algoritma exchange untuk analisis regresi linear bergerombol dengan metode kuadrat terkecil.
5. Mengkaji hasil penggerombolan yang diperoleh pada gugus data riil dan semua gugus data simulasi.
6. Membandingkan hasil penggerombolan pada gugus data simulasi yang diperoleh dari analisis CLR dengan kondisi gerombol sebenarnya.
Tabel 3 Keanggotaan gerombol pada gugus data yang memiliki tiga gerombol dan dua peubah penjelas
Gerombol ke- Pengamatan ke- 𝑥1i 𝑥2i ei
1 1 x11 x21 e1 ⋮ ⋮ ⋮ ⋮ ⋮ 1 n1 x1n1 x2n1 en1 2 n1 + 1 x1(n1+ 1) x2(n1+ 1) e(n1+ 1) ⋮ ⋮ ⋮ ⋮ ⋮ 2 n1 + n2 x1(n1+ n2) x2(n1+ n2) e(n1+ n2) 3 n1+ n2 +1 x1(n1+ n2+1) x2(n1+ n2+1) 𝑒(n1+ n2+1) ⋮ ⋮ ⋮ ⋮ ⋮ 3 n x1n x2n 𝑒n
HASIL DAN PEMBAHASAN
Implementasi Regresi Linear Bergerombol pada Gugus Data Simulasi Kinerja algoritma exchange dan kesesuaian hasil analisis CLR dalam menemukan gerombol-gerombol yang dapat meminimumkan nilai JKS total
7 terhadap gugus data simulasi yang terdiri atas beberapa subopulasi dapat diketahui melalui beberapa indikator. Indikator-indikator tersebut diantaranya adalah:
1. Salah penggerombolan. Salah penggerombolan dapat diketahui dengan menghitung banyaknya amatan yang setelah dilakukannya proses penggerombolan dengan metode ini menjadi anggota gerombol yang bukan gerombol sebenarnya.
2. Lamanya waktu komputasi yang diperlukan untuk melakukan 500 kali proses algoritma exchange yang dinyatakan dalam detik dengan spesifikasi komputer yang digunakan adalah komputer berprosesor intel® CoreTM i3 – 2375M. 3. Jumlah kuadrat sisaan total (JKS total)
4. Selisih antara JKS total dari model pada gerombol sebenarnya dengan JKS total dari model pada gerombol yang terbentuk dari analisis CLR ini.
5. Kuadrat tengah sisaan (KTS) 6. R2 adj dari model gabungan
7. Selisih antara R2
adj dari model gabungan pada gerombol sebenarnya dengan
R2adj dari model gabungan yang diperoleh dari analisis CLR.
Nilai ketujuh indikator tersebut yang diperoleh dari hasil pengimplementasian analisis CLR pada kedelapan gugus data simulasi disajikan pada Tabel 4. Dari Tabel 4 dapat diketahui berbagai informasi, salah satunya informasi mengenai banyaknya amatan pada setiap gugus data yang mengalami salah penggerombolan. Berdasarkan Tabel 4 diketahui bahwa hampir pada semua gugus data terjadi salah penggerombolan. Akan tetapi, jika dilihat nilai selisih JKS total yang diperoleh untuk kedelapan gugus data, hampir seluruhnya bernilai lebih besar dari pada nol. Selain itu, nilai selisih R2adj yang diperoleh kedelapan guggus
data pun hampir seluruhnya bernilai lebih kecil dari pada nol. Kedua hal tersebut menunjukkan gerombol yang diperoleh dari analisis CLR ini memiliki nilai JKS total yang lebih kecil serta nilai R2adj yang lebih besar dari nilai JKS total dan R2adj
yang dimiliki gerombol sebenarnya.
Tabel 4 Hasil penggerombolan dari analisis CLR pada kedelapan gugus data
Gugus data ke- Salah penggerombolan (amatan) Waktu (detik) JKS total Selisih JKS total KTS R 2 adj Selisih R2 adj 1 3% 943.63 19.07 0.34 0.20 96.04% -0.1% 2 24% 332.90 49.60 22.22 1.08 72.91% -12.15% 3 11% 2060.94 143.67 31.43 1.58 93.58% -1.41% 4 8% 811.07 7.92 0.62 0.19 97.86% -0.17% 5 0% 347.09 9.20 0.00 0.21 95.55% 0.00% 6 32% 690.47 40.17 28.15 0.91 90.01% -7.00% 7 12% 1055.27 150.85 24.73 1.61 83.25% -2.75% 8 0% 1519.92 18.56 0.00 0.20 98.86% 0.00%
Selanjutnya dari kedelapan gugus data yang ada, terdapat tiga gugus data yang akan dibahas lebih rinci. Ketiga gugus data tersebut diantaranya adalah gugus data pertama, kedua, dan kedelapan. Ketiga gugus data tersebut dipilih karena memiliki karakteristik yang berbeda-beda. Selain itu pada gugus data pertama dan kedua terjadi pembauran amatan antar gerombol yang pada gugus data kedelapan hal tersebut tidak terjadi (Gambar 1). Terjadinya pembauran amatan pada gugus data pertama dan kedua disebabkan oleh hal yang berbeda. Pada gugus data pertama
8
pembauran terjadi karena adanya perpotongan garis regresi antar gerombol. Sedangkan pada gugus data kedua pembauran amatan antar gerombol terjadi karena amatan-amatan pada setiap gerombol yang cukup berpencar.
Gambar 1 Diagram pencar (a) gugus data pertama (b) gugus data kedua dan (c) gugus data kedelapan
Tabel 5 Perbandingan antara kondisi gerombol sebenarnya dengan hasil penggerombolan dengan metode CLR pada gugus data pertama
Gerombol ke-
Banyaknya anggota
gerombol (nj) b0 b1 JKS
Hasil analisis regresi pada gerombol-gerombol sebenarnya
1 40 5.13 -2.11 7.99
2 60 4.87 2.12 11.42
Hasil penggerombolan dengan metode CLR dua gerombol
1 37 5.14 -2.12 7.48
2 63 4.84 2.14 11.59
Pembauran amatan antar gerombol dapat mengakibatkan keambiguan keanggotaan gerombol yang akhirnya dapat mengakibatkan salah penggerombolan. Hal tersebut terbukti dari hasil analisis CLR pada gugus data pertama (Tabel 5) dan kedua (Tabel 6) yang berbeda dengan kondisi gerombol sebenarnya yang berarti telah terjadi salah penggerombolan pada kedua gugus data tersebut. Sedangkan pada gugus data kedelapan salah penggerombolan tersebut tidak terjadi yang ditandai dengan nilai dugaan-dugaan parameter regresi serta nilai JKS yang diperoleh dari hasil analisis CLR tepat sama dengan kondisi gerombol sebenarnya (Tabel 7). Berdasarkan hal tersebut dapat diketahui bahwa metode ini telah mampu
(a) (b) (c) 2.0 1.5 1.0 0.5 0.0 9 8 7 6 5 4 3 2 1 0 X-Data Y -D at a 2.0 1.5 1.0 0.5 0.0 13 12 11 10 9 8 7 6 5 4 X-Data Y -D at a 2.0 1.5 1.0 0.5 0.0 20.0 17.5 15.0 12.5 10.0 7.5 5.0 X-Data Y -D at a
9 menemukan gerombol-gerombol yang memiliki dugaan parameter regresi yang berbeda-beda dengan tepat seperti yang penulis simulasikan bila pada gugus data tersebut tidak terjadi pembauran amatan antar gerombol.
Tabel 6 Perbandingan antara kondisi gerombol sebenarnya dengan hasil penggerombolan dengan analsis CLR pada gugus data kedua
Gerombol ke-
Banyaknya anggota gerombol
(nj) b0 b1 JKS
Hasil analisis regresi pada gerombol-gerombol sebenarnya
1 20 7.57 2.24 28.12
2 30 5.01 2.58 43.71
Hasil penggerombolan dengan analisis CLR dua gerombol
1 26 7.57 2.14 26.22
2 24 4.75 2.40 23.38
Tabel 7 Perbandingan antara kondisi gerombol sebenarnya dengan hasil penggerombolan dengan analisis CLR pada gugus data kedelapan Gerombol
ke-
Banyaknya anggota gerombol
(nj) b0 b1 JKS
Hasil analisis regresi pada gerombol-gerombol sebenarnya
1 30 8.10 1.90 5.03
2 30 5.08 1.94 7.04
3 40 13.78 2.21 6.49
Hasil penggerombolan dengan analisis CLR tiga gerombol
1 30 8.10 1.90 5.03
2 30 5.08 1.94 7.04
3 40 13.78 2.21 6.49
Pada ketiga gugus data, selain diimplementasikan analisis CLR dengan menggunakan banyaknya gerombol yang sama dengan gerombol sebenarnya, diimplementasikan pula analisis CLR dengan menggunakan satu hingga lima gerombol. Hasil analisis CLR dengan menggunakan satu hingga lima gerombol pada ketiga gugus data ditampilkan pada Tabel 8.
Waktu komputasi yang ditunjukkan pada Tabel 8 untuk ketiga gugus data memiliki pola bahwa semakin banyak gerombol yang digunakan akan semakin lama pula waktu komputasi yang diperlukan. Selain itu gugus data pertama dan kedelapan yang memiliki jumlah amatan yang lebih banyak, memiliki waktu komputasi yang lebih lama dibanding gugus data kedua yang memiliki jumlah amatan yang lebih sedikit . Hal ini disebabkan oleh kompleksitas dari metode ini sebesar O(nk), yang berarti lamanya waktu komputasi berhubungan linier positif dengan banyaknya amatan dan banyakanya gerombol yang digunakan.
Selain waktu komputasi, dari Tabel 8 kita juga dapat mengetahui nilai JKS total, nilai KTS, dan nilai R2
adj yang diperoleh dari analisis ini. Pada ketiga gugus
data terlihat bahwa baik untuk nilai JKS total ataupun nilai KTS yang diperoleh terlihat cenderung terus menurun seiring dengan bertambah banyaknya gerombol yang digunakan dan sebaliknya dengan nilai R2adj. Kecenderungan tersebut
10
mengakibatkan sulit untuk menentukan banyaknya gerombol optimum yang sebaiknya digunakan. Maka untuk mengatasi hal tersebut digunakan scree plot antara banyaknya gerombol dengan nilai KTS. Ide yang mendasari penggunaan scree plot ini adalah banyaknya gerombol optimum yang digunakan sedemikian rupa sehingga selisih antara nilai KTS yang berurutan sudah tidak besar lagi.
Tabel 8 Hasil penggerombolan yang diperoleh dari metode CLR yang dicobakan dengan menggunakan beberapa gerombol pada ketiga gugus data
Banyaknya Gerombol Waktu komputasi (detik) JKS total KTS R 2 adj
Gugus data pertama
1 487.08 4.97 00.87%
2 943.63 19.07 0.20 96.04%
3 2453.19 10.63 0.11 97.74%
4 2799.81 4.54 0.05 99.01%
5 3614.78 2.63 0.03 99.42%
Gugus data ke dua
1 131.27 2.74 31.29%
2 332.90 49.60 1.08 72.91%
3 694.46 14.34 0.33 91.81%
4 987.91 7.56 0.18 95.48%
5 1299.47 4.53 0.11 97.16%
Gugus data ke delapan
1 1475.33 15.05 12.97%
2 941.30 148.34 1.55 91.07%
3 1519.92 18.56 0.20 98.86%
4 2340.11 13.16 0.14 99.17%
5 3108.28 8.21 0.09 99.47%
Berdasarkan Gambar 2 ditetapkan banyaknya gerombol optimum untuk gugus data pertama sebanyak dua gerombol, untuk gugus data kedua sebanyak tiga gerombol, dan gugus data kedelapan sebanyak dua gerombol. Banyaknya gerombol optimum yang diperoleh pada gugus data pertama sama dengan banyaknya gerombol yang sebenarnya, akan tetapi sebaliknya untuk gugus data kedua dan kedelapan.
Berdasarkan scrree plot antara banyak gerombol dan KTS untuk kedelapan gugus data (Lampiran 2) diketahui bahwa hampir seluruh gugus data memiliki gerombol optimal sebanyak dua gerombol, hanya gugus data kedua yang memiliki tiga gerombol. Sehingga berdasarkan hal tersebut dapat diketahui bahwa terdapat lima gugus data yang banyak gerombol optimalnya tidak sama dengan banyak gerombol sebenarnya.
11
Gambar 2 Scree plot antara banyaknya gerombol dengan nilai KTS pada gugus data (a) pertama (b) kedua dan (c) kedelapan
Implementasi Regresi Linear Bergerombol pada Gugus Data Riil Kesesuaian pembentukan gerombol yang dapat meminimumkan jumlah kuadrat sisaan total pada gugus data yang terdiri dari beberapa subpopulasi ini juga dapat diketahui dengan cara membandingkan hasil penggerombolan pada gugus data riil yang digunakan pada penelitian-penelitian sebelumnya dengan hasil penggerombolan dari analisis CLR ini. Pada penelitian ini digunakan dua jenis gugus data riil. Gugus data pertama yang digunakan adalah gugus data konsumsi listrik yang digunakan oleh Lau et al. (1999).
Tabel 9 Hasil penggerombolan dengan menggunakan analisis CLR pada gugus data konsumsi listrik Banyaknya Gerombol JKS total KTS R2adj
1 1042.82 22.67 56.00%
2 284.53 6.78 86.85%
3 93.01 2.45 95.25%
4 27.86 0.82 98.41%
5 6.85 0.23 99.60%
Gugus data ini merupakan hasil dari penelitian yang dilakukan oleh McCormick (1993) pada 50 negara. Peubah respon pada gugus data ini adalah besarnya konsumsi listrik perkapita (y), sedangkan peubah bebasnya adalah harga listrik (x1), pendapatan perkapita (x2), dan harga gas (x3). Pada jurnalnya, Lau et al.
(1999) menggunakan dua gerombol pada gugus data ini, akan tetapi tidak dijelaskan
(a) (b) (c) 5 4 3 2 1 5 4 3 2 1 0 Banyak gerombol KT S 5 4 3 2 1 3.0 2.5 2.0 1.5 1.0 0.5 0.0 Banyaknya ge rombol K T S 5 4 3 2 1 16 14 12 10 8 6 4 2 0 Banyaknya ge rombol K T S
12
alasan digunakannya dua gerombol, dan tidak dinyatakan pula banyaknya gerombol yang sebaiknya digunakan.
Dari Tabel 9 terlihat bahwa seperti yang terjadi pada gugus data simulasi pada gugus data ini pun baik dari nilai JKS total, nilai KTS, ataupun nilai R2adj diperoleh
kesimpulan bahwa banyak gerombol yang sebaiknya digunakan adalah gerombol yang terbanyak. Sehingga pada gugus data ini pun penulis menggunakan scree plot antara banyaknya gerombol dengan KTS. Berdasarkan scree plot yang diperoleh (Gambar 3) terlihat bahwa pada saat menggunakan dua gerombol scree plot tersebut sangat curam di kiri akan tetapi tidak terlalu curam di kanan sehingga dapat dikatakan bahwa banyaknya gerombol yang digunakan adalah sebanyak dua gerombol.
Gambar 3 Scree plot antara banyaknya gerombol dengan nilai KTS pada gugus data konsumsi listrik
Walaupun banyaknya gerombol yang digunakan pada penelitian ini sama dengan banyaknya gerombol yang digunakan pada penelitian Lau et al. (1999), akan tetapi hasil yang diperoleh dari analisis CLR ini berbeda. Perbedaan tersebut terlihat dari berbedanya jumlah amatan pada setiap gerombolnya sehingga tentu saja nilai dugaan parameter regresi dan nilai JKS total yang diperoleh pun berbeda. Nilai JKS total yang diperoleh pada penelitian tersebut lebih besar dari yang diperoleh pada penelitian ini. Berikut merupakan dugaan persamaan garis regresi pada kedua gerombol :
Gerombol pertama : ŷ∗
= 27.70 - 6.82x
1∗ + 1.57 x2* + 2.02𝑥3∗Gerombol kedua : ŷ∗∗ = 37.56 - 7.68 x1** + 3.87x2**- 4.84 x3**
Ketika mengimplementasikan analisis regresi linear bergerombol pada dunia nyata, gerombol-gerombol yang dihasilkan haruslah memiliki makna dan dapat diinterpretasikan sesuai dengan kondisi pada dunia nyata. Sehingga berdasarkan hal tersebut penentuan banyaknya gerombol yang sebaiknya digunakan tidak hanya didasarkan pada pertimbangan matematis seperti besarnya nilai JKS total, nilai KTS, ataupun nilai R2adj, akan tetapi perlu didasarkan pula pada kesesuaian makna
yang diperoleh dari gerombol-gerombol yang ada jika dihubungkan dengan kondisi dunia nyata atau teori-teori atau pendapat para ahli mengenai hal yang diteliti.
Pemaknaan terhadap gerombol-gerombol yang diperoleh pada analisis regresi linear bergerombol ini dapat dimaknai dari tanda dugaan parameter regresi dan dugaan parameter regresi yang diperoleh pada setiap gerombol. Jika menggunakan dua gerombol seperti yang ditetapkan dari scree plot, berdasarkan
5 4 3 2 1 25 20 15 10 5 0 Banyak gerombol KT S
13 dugaan persamaan regresi yang diperoleh untuk gugus data konsumsi listrik ini, diketahui bahwa tanda dugaan parameter regresi (elastisitas) untuk peubah bebas x1
pada kedua gerombol sama-sama memiliki tanda yang negatif. Hal ini sesuai dengan teori ekonomi bahwa harga memiliki hubungan negatif terhadap permintaan. Pada gerombol pertama dugaan elastisitas harga yang dimiliki lebih kecil dari pada gerombol kedua. Hal ini berarti peningkatan harga listrik di negara-negara pada gerombol pertama mengakibatkan dampak penurunan konsumsi listrik yang lebih kecil dibanding gerombol kedua.
Pada peubah pendapatan perkapita (x2), tanda dugaan parameter regresi
untuk kedua gerombol sama-sama bertanda positif yang berarti pada kelima puluh negara tersebut listrik merupakan salah satu barang normal yang permintaannya akan meningkat seiring dengan meningkatnya pendapatan. Akan tetapi peningkatan konsumsi listrik akan jauh lebih besar ketika peningkatan pendapatan perkapita terjadi pada negara-negara pada gerombol kedua dibanding pada gerombol pertama.
Terdapat perbedaan tanda pada nilai dugaan elastisitas pada peubah harga gas (x3). Pada gerombol pertama dugaan elastisitas untuk x3 bertanda positif yang
berarti peningkatan harga gas akan meningkatkan pula besarnya konsumsi listrik. Berdasarkan hal tersebut dapat diketahui bahwa negara-negara yang menjadi anggota gerombol pertama ini menjadikan gas sebagai barang subtitusi (pengganti) bagi listrik. Sebaliknya dengan gerombol kedua yang memiliki tanda dugaan parameter regresi bagi x3 yang negatif yang berarti negara-negara yang menjadi
anggota gerombol tersebut merupakan negara-negara yang menjadikan gas sebagai barang komplementer (pelengkap) bagi listrik dalam kehidupan sehari-harinya.
Berdasarkan hasil interpretasi tersebut, dirasa gerombol-gerombol yang diperoleh telah sesuai dengan kondisi dunia nyata dan teori-teori yang ada. Sehingga dapat dikatakan untuk gugus data konsumsi listrik ini telah cukup baik jika menggunakan dua gerombol.
Gambar 4 Diagram pencar gugus data persepsi nada
Gugus data riil kedua yang digunakan pada penelitian ini adalah gugus data persepsi nada yang pernah digunakan oleh D’Urso dan Santoro (2006). Gugus data ini sebenarnya merupakan hasil penelitian Cohen (1984) pada empat musisi terlatih.
3.0 2.5 2.0 1.5 3.5 3.0 2.5 2.0 1.5 1.0
Rasio peregangan nada
N
ad
14
Akan tetapi data yang akan digunakan hanya data dari seorang musisi dengan 150 kali ulangan.
Sebuah nada dasar murni diperdengarkan kepada musisi tersebut. Kemudian diperdengarkan nada tambahan yang dibangkitkan secara elektronik, penambahan ini didasarkan oleh rasio peregangan x. Nilai x = 2.0 merupakan nilai yang sesuai dengan pola harmonik yang biasa didengar pada alat musik tradisional. Musisi tersebut kemudian diminta untuk memainkan nada satu oktav di atas nada dasar yang telah diperdengarkan. Nilai y merupakan rasio dari nada yang dimainkan para musisi yang telah disesuaikan dengan nanda dasar. Nilai y = 2.0 akan menjadi nada yang benar untuk semua nilai x.
Tabel 10 Hasil penggerombolan yang diperoleh dari analisis CLR pada gugus data persepsi nada
Banyaknya Gerombol JKS total KTS R2 adj 1 7.748 0.052 33.06% 2 0.902 0.006 92.09% 3 0.412 0.003 96.33% 4 0.150 0.001 98.64% 5 0.080 0.001 99.27%
Gambar 5 Scree plot antara banyaknya gerombol dengan nilai KTS pada gugus data persepsi nada
Seperti pada kesembilan gugus data sebelumnya, pada gugus data ini diperoleh pula nilai JKS total, KTS, serta nilai R2
adj yang semakin membaik seiring
dengan semakin banyaknya gerombol yang digunakan (Tabel 10). Akan tetapi selaras dengan diagram pencar pada Gambar 4 dan hasil yang diperoleh D’Urso dan Santoro (2006), dengan menggunakan scree plot (Gambar 5) sangat jelas sekali terlihat bahwa untuk gugus data ini cukup dengan hanya menggunakan dua gerombol. Selain itu keanggotaan gerombol yang diperoleh dengan analisis CLR ini sama dengan keanggotaan gerombol yang diperoleh oleh D’Urso dan Santoro (2006) dengan menggunakan metode fuzzy. Berikut merupakan dugaan persamaan garis regresi untuk kedua gerombol tersebut :
Gerombol pertama : ŷ* = 0.02 + 0.98x*
Gerombol kedua : ŷ∗∗ = 1.93 + 0.04x**
Berdasarkan dugaan persamaan regresi tersebut dapat diketahui pada gerombol pertama merupakan gerombol yang nada-nada yang dimainkan oleh musisi tersebut merupakan nada yang murni dihasilkan dari nada tambahan pertama.
5 4 3 2 1 0.05 0.04 0.03 0.02 0.01 0.00 Banyaknya ge rombol K T S
15 Sedangkan gerombol kedua merupakan gerombol yang nada-nada yang dimainkan oleh musisi tersebut merupakan nada yang selalu benar (y = 2.0) untuk semua nada tambahan yang dimainkan.
Seperti hasil yang diperoleh pada gugus data konsumsi listrik, pada gugus data persepsi nada ini pun, berdasarkan hasil interpretasi yang telah dipaparkan dirasa gerombol-gerombol yang diperoleh telah sesuai dengan kondisi dunia nyata dan teori-teori yang ada. Sehingga dapat dikatakan untuk gugus data ini juga telah cukup baik jika menggunakan dua gerombol.
Berdasarkan hasil yang diperoleh dari seluruh gugus data yang digunakan, diketahui bahwa jika pada gugus-gugus data tersebut hanya dilakukan analisis regresi linear klasik akan menghasilkan nilai JKS total dan KTS yang besar serta nilai R2
adj yang kecil. Hal ini menandakan bahwa masih besarnya keragaman yang
disebabkan oleh faktor lain di luar model dan masih kecilnya keragaman peubah tidak bebas yang dapat dijelaskan oleh model. Akan tetapi ketika analisis CLR dengan dua atau lebih gerombol diterapkan pada gugus data ini, terjadi penurunan nilai JKS total dan KTS serta peningkatan nilai R2adj yang signifikan pada
gugus-gugus data tersebut. Sehingga sebenarnya pada gugus-gugus-gugus-gugus data tersebut terdapat keheterogenan data yang membutuhkan dua atau lebih model regresi yang berbeda. Oleh karena itu, dirasa cukup bermanfaat mengimplementasikan metode ini pada gugus-gugus data tersebut.
KESIMPULAN
Secara keseluruhan analisis regresi linear bergerombol dengan metode kuadrat terkecil ini telah cukup baik untuk digunakan. Metode ini telah mampu menemukan gerombol-gerombol yang memiliki fungsi regresi yang berbeda-beda yang dapat meminimumkam nilai JKS total serta memaksimumkan kesesuaian seluruh data. Selain itu, berdasarkan nilai JKS total, KTS, dan nilai R2adj yang
diperoleh dari semua gugus data yang digunakan, metode ini cukup bermanfaat untuk diimplementasikan, karena dapat mengatasi kenonlinearan dan keheterogenan data yang ada sehingga dapat meningkatkan besarnya keragaman yang dapat dijelaskan oleh model. Akan tetapi dikarenakan algoritma exchange ini memiliki kompleksitas algoritma sebesar O(nk) sehingga mengakibatkan waktu komputasi yang dibutuhkan oleh algoritma ini akan meningkat seiring bertambah banyaknya amatan dan jumlah gerombol yang digunakan. Selain itu jika hasil dari analisis ini dibandingkan dengan kondisi yang sebenarnya pada gugus data simulasi diketahui masih terdapat salah penggerombolan, walaupun gerombol baru yang dihasilkan ini menghasilkan nilai JKS total dan nilai R2adj yang lebih baik. Salah
penggerombolan ini disebabkan adanya pembauran amatan antar gerombol pada satu gugus data.
16
SARAN
Penggunaan scree plot dalam menentukan banyak gerombol optimal yang sebaiknya digunakan cukup dipengaruhi oleh subjektifitas peneliti dan dapat menimbulkan perbedaan pendapat antar individu yang membacanya dalam menentukan banyak gerombol yang sebaiknya digunakan. Sehingga sebaiknya perlu dilakukan penelitian lebih lanjut mengenai uji formal yang dapat digunakan untuk menentukan banyak gerombol yang sebaiknya digunakan.
DAFTAR PUSTAKA
Ari B. Guvenir HA. 2002. Clustered linear regression. KB Sys. 15(3):169-175. Chatterjee S, Hadi AS. 2006. Regression Analysis by Example. Ed ke-4. Hoboken
(NJ): J Wiley.
Cohen E. 1984. Some effects of inharmonic partials on interval perception. Music Perception. 1(3):323–349
D’Urso P, Santoro A. 2006. Fuzzy clusterwise linear regression analysis with symetrical fuzzy output variable. CSDA. 51:287-313.
DeSarbo WS, Cron WL. 1988. A maximum likelihood methodology for clusterwise linear regression. J Class. 5:249-282.
DeSarbo WS, Oliver RL, Rangaswamy A. 1989. A simulated annealing methodology for clusterwise linear regression. Psychometrika. 54(4):707-736. Lau K, Leung P, Tse K. 1999. A mathematical programming approach to
clusterwise regression model and its extensions. EJOR. 116(3):640-652.doi:10.1016/s0377-2217(98)00052-6.
McCormick R.E. 1993. Managerial Economics. Inggris (GB): Prentice-Hall Späth H. 1979. Algorithm 39 clusterwise linear regression. Computing.
22(4):367-373.doi:10.1007/bf02265317.
Späth H. 1982. A fast algorithm for clusterwise linear regression. Computing. 29(2):175-181.doi:10.1007/bf02249940.
Zhu Z, Li Y, Kong N. 2012. Clusterwise linear regression with the least sum of absolute deviations – an MIP approach. IJOR. 9(3):162−172.
17 Lampiran 1 Diagram pencar hasil penggerombolan dengan analisis CLR dua
gerombol untuk (a) gugus data pertama dan (b) gugus data kedua
Lampiran 2 Scree plot antara banyak gerombol yang digunakan dengan nilai KTS untuk kedelapan gugus data
4 2 0 5 3 1 2 1 0 16 8 0 8 4 0 2 1 0 5 3 1 10 5 0 5 3 1 8 4 0 16 8 0 Gugus data pertama
Banyak gerombol
K
T
S
Gugus data kedua Gugus data ketiga
Gugus data keempat Gugus data kelima Gugus data keenam
Gugus data ketujuh Gugus data kedelapan
(a) (b) 2.0 1.5 1.0 0.5 0.0 9 8 7 6 5 4 3 2 1 0 X-Data Y -D a ta 2.0 1.5 1.0 0.5 0.0 13 12 11 10 9 8 7 6 5 4 X-Data Y -D a ta
18
RIWAYAT HIDUP
Penulis dilahirkan di Jakarta tanggal 02 Maret 1992, sebagai anak pertama dari tiga bersaudara pasangan Sujono dan Sri Anah. Penulis lulus dari SMA Negeri 61 Jakarta pada tahun 2010 dan pada tahun yang sama diterima di Institut Pertanian Bogor melalui jalur Ujian Seleksi Masuk IPB (USMI). Penulis diberikan kesempatan untuk menempuh pendidikan sarjananya di Departemen Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam IPB dengan minor Ekonomi Studi Pembangunan. Pada semester 6, penulis juga berkesempatan melaksanakan kegiatan praktik lapang di perusahaan Qasa Strategic Consulting di Jakarta Selatan.
Penulis selama melaksanakan studi di IPB tidak hanya aktif dalam bidang akademik, tetapi juga dalam bidang non-akademik di dalam kampus. Selama menempuh pendidikan di Institut Pertanian Bogor penulis berpengalaman menjadi asisten dosen untuk mata kuliah Metode Statistika. Penulis juga aktif baik dalam kegiatan Himpro, dan kepanitiaan-kepanitiaan. Pada dua periode masa bakti Himpunan Profesi Mahasiswa Statistika Gamma Sigma Beta (GSB) pada tahun 2012-2013, penulis aktif sebagai staf dan sekertaris umum Departemen Analisis Data Himpunan Profesi GSB.