(R.3)
PENERAPAN MODEL MULTILEVEL LOGISTIK UNTUK DATA STATUS
SETENGAH PENGANGGUR
1Gde Harta Wijaya, 2Gandhi Pawitan, 3Budhi Handoko
1Mahasiswa Program Pascasarjana Magister Statistika Terapan,
Universitas Padjajaran Jl. Ir. H. Juanda No. 4 Dago-40135
2Dosen Statistika Universitas Katolik Parahyangan 3Dosen Statistika Universitas Padjajaran
Email : 1[email protected], 2[email protected], 3[email protected]
Abstrak
Selama ini, pengangguran cenderung dilihat dari pengangguran terbuka dan kurang melihat setengah penganggur (underemployment). Pada waktu tertentu, ada kemungkinan lebih banyak orang yang setengah penganggur dari pada orang tanpa pekerjaan sama sekali (pengangguran terbuka). Setengah penganggur adalah mereka yang bekerja di bawah jam kerja normal. Di Indonesia, pengumpulan data ketenagakerjaan (setengah penganggur) dilakukan melalui Survei Angkatan Kerja Nasional (Sakernas). Sakernas adalah suatu survei dengan desain sampling bertahap (multistage sampling), yang akan menghasilkan data dengan struktur hirarkis. Pendekatan yang sesuai untuk menganalisis data hasil survei seperti ini adalah menggunakan pendekatan analisis multilevel. Model analisis multilevel yang digunakan adalah model multilevel logistik. Prosedur penaksiran model multilevel logistik dilakukan dengan penalized-quasi likelihood (PQL) melalui paket program R.
Kata Kunci : setengah penganggur, model multilevel logistik, penalized-quasi likelihood (PQL)
1. PENDAHULUAN
Masalah pengangguran baik di negara maju maupun negara berkembang menjadi bagian penting dalam perencanaan pembangunan. Selama ini, pengangguran cenderung dilihat dari pengangguran terbuka dan kurang melihat pengangguran terselubung atau setengah penganggur. (Harfina, 2009). Individu dapat mengalami setengah penganggur karena mereka tidak dapat bekerja sebanyak jam yang mereka inginkan. Penyebab lain mungkin karena mereka hanya dapat memperoleh pekerjaan sementara ketika mereka inginkan pekerjaan permanen, atau karena mereka tidak bisa mendapatkan pekerjaan yang sepadan dengan pendidikan mereka, keterampilan tingkat, dan pengalaman (Maynard dan Feldman, 2011).
Di Indonesia, pengumpulan data tentang ketenagakerjaan, yang didalamnya memuat data pengangguran dan setengah penganggur dilaksanakan melalui Survei Angkatan Kerja Nasional (Sakernas), yang merupakan survei khusus untuk mengumpulkan data
sampling). Rancangan sampel Sakernas adalah rancangan sampel berstrata dua tahap (stratified two stage sampling) (BPS, 2009)
Penelitian tentang setengah penganggur di Indonesia, pernah dilakukan oleh Harfina, 2009. Penelitian ini dilakukan di pedesaan Jawa Tengah dengan menggunakan data Sakernas 2007. Penelitian ini bertujuan untuk memodelkan setengah penganggur dan faktor-faktor yang mepengaruhinya dengan menggunakan alat analisis regresi logistik. Status setengah penganggur dalam penelitian ini merupakan variabel biner, dengan kondisi setengah penganggur atau bukan setengah penganggur. Namun penelitian ini belum memperhatikan bahwa data status setengah penganggur tersebut mempunyai struktur data hirarkis.
Dalam penelitian dengan data bertingkat, struktur data dalam populasi adalah hirarkis. Populasi seperti itu biasanya akan menghasilkan suatu sampel dengan struktur bertingkat (multistage) juga. Atas pertimbangan biaya, waktu dan efisiensi, sampel-sampel bertingkat terstratifikasi (stratified multistage samples ) menjadi pilihan untuk survei demografi dan sosial. Untuk sampel seperti itu pengklasteran dari data perlu mendapatkan perhatian dalam tahapan analisis dan pelaporan data. Karena sampel-sampel ini, walaupun efiesien untuk penaksiran jumlah-jumlah deskripsi populasi, namun memunculkan banyak tantangan untuk inferensi berbasis model yang berhubungan dengan statistik (Khan dan Shaw 2011).
Tujuan dari makalah ini adalah untuk menghasilkan model bagi status setengah penganggur dengan memperhatikan bahwa data yang digunakan memiliki struktur hirarkis.
2. STATUS SETENGAH PENGANGGUR
Menurut konsep The Labor Force Concept yang disarankan oleh The International Labor
Organization (ILO) penduduk dibagi menjadi dua kelompok, yaitu penduduk usia kerja dan
penduduk bukan usia kerja. Penduduk usia kerja adalah penduduk berumur 15 tahun dan lebih. Selanjutnya, penduduk usia kerja ini dibedakan menjadi dua kelompok berdasarkan kegiatan utama yang sedang dilakukannya. Kelompok tersebut adalah angkatan kerja dan bukan angkatan kerja (BPS, 2009).
Angkatan kerja yang bekerja, dapat mempunyai status sebagai pekerja penuh atau setengah penganggur. Pada makalah ini, konsep setengah penganggur yang digunakan adalah mereka yang bekerja di bawah jam kerja normal yaitu kurang dari 35 jam seminggu. Status setengah penganggur terdiri dari setengah penganggur atau bukan setengah penganggur. Status setengah penganggur dipengaruhi oleh beberapa variabel. Variabel tersebut adalah jenis kelamin, umur, tingkat pendidikan, status perkawinan, status dalam rumah tangga, lapangan pekerjaan, status pekerjaan, dan jenis pekerjaan (Harfina, 2009).
Selain itu, bila dibedakan menurut klasifikasi perkotaan dan perdesaan, penduduk yang bekerja di perdesaan lebih banyak yang mempunyai jam kerja kurang dari jam kerja normal yang dapat dikategorikan juga sebagai setengah penganggur, jika dibandingkan dengan yang bekerja di perkotaan (Bellante dan Jackson 1983)
3. MODEL MULTILEVEL LOGISTIK
Untuk sample terklaster bertingkat, ketergantungan antar pengamatan-pengamatan sering kali berasal dari level hirarki. Selain itu kebergantungan antara pengamatan individual juga muncul. Munculnya kebergantungan antara pengamatan individual, dapat disebabkan oleh sampel yang tidak diambil secara acak, tetapi menggunakan sampling klaster dari wilayah geografis. Dalam hal ini, penggunanaan model statistik level tunggal tidak lagi beralasan dan valid. Karenanya, untuk mendapatkan inferensi dan kesimpulan yang tepat dari data survei terstratifikasi bertingkat, dibutuhkan teknik pemodelan multilevel (Khan dan Shaw 2011).
Analisis data bertingkat (multilevel) telah dimulai pada pertengahan 1980-an dalam pengukuran pendidikan dan sosiologi (Leeuw dan Meijer, 2008). Secara historis, masalah multilevel mengarahkan pada pendekatan analisis yang memindahkan semua variabel dengan penggabungan atau pemecahan pada suatu level ketertarikan. Kemudian diikuti dengan suatu metode analisis atau model statistik (Hox, 2002). Dalam hal ini adalah model multilevel logistik (Goldstein, 2011). Model multilevel juga dikenal dengan beberapa sebetun lain. Nama lainnya adalah mixed model (McCulloch dan Searle, 2001), dan juga hierarchical
model (Raudenbush dan Bryk, 2002)
Untuk kondisi data multilevel, maka perlu memperhatikan ketergantungan dalam klaster dan perbedaan antar klaster, hal mana yang tidak ada dalam model linier umum (GLM) standar. Maka, selanjutnya akan diperkenalkan istilah vektor dimensi Q dari paramter klaster tertentu, = θ , … , θ . Vektor ini berindeks , menyatakan bahwa adanya hubungan dengan klaster . Suatu himpunan prediktor yang bersesuaian dengan efek dari masing-masing klaster dinyatakan oleh . Dalam GLM dengan variabel klaster tertentu, rata-rata yang ditransformasi dari suatu pengamatan, = ( ), diregresikan pada prediktor sebagai berikut:
( ) = + (1)
Pengembangan dari model regresi logistik menjadi suatu model dengan parameter klaster tertentu menyertakan suatu intersep terpisah , untuk masing-masing klaster.
Dalam hal ini, = 1 untuk seluruh dan , maka model regresi logistik dua level akan menjadi:
P ( = 1| , ) = (2) Selanjutnya peluang atau fungsi kepadatan dari suatu pengamatan tunggal, bersyarat
pada parameter-paramter dalam model dilambangkan dengan: ( | , ) . Peluang gabungan atau fungsi kepadatan gabungan dari bentuk respon untuk klaster n dinyatakan sebagai: ( | , ) = ∏ ( | , ).
Model dari generalized linier mixed model (GLMM) yang paling umum diterapkan dalam praktek adalah GLMM dengan efek acak (random effect) yang berdistribusi normal. Dalam model ini, peluang marjinal dari suatu bentuk pengamatan diperoleh dengan:
( | ) = ∫ ∏ ( | , ) Φ( | , ) = ∫ ( | , )Φ( | , ) (3)
dengan Φ( |0, ) adalah distribusi normal multivariat dengan vektor rata-rata adalah vektor 0, dan matrik kovarians .
4. PENAKSIRAN MODEL MULTILEVEL LOGISTIK
Untuk beberapa model dari GLMM, integral pada persamaan (3) mempunyai penyelesaian analitis. Namun untuk model yang akan digunakan pada makalah ini yaitu model logistik-normal, integral dari persamaan (3) tidak mempunyai solusi analitik. Ada dua cara penyelesaian umum yang digunakan untuk menyelesaikan persamaan (3). Cara pertama adalah memperkirakan integralnya. Cara ini misalnya dapat dilakukan dengan Gauss-Hermite
Quadrature atau Adaptive Gauss-Hermite Quadrature. Sedangkan cara kedua adalah
memperkirakan integrannya terlebih dahulu, sehingga integralnya bisa diselesaikan kemudian. Cara kedua ini biasanya dilakukan dengan Laplace Approximation dan metode
quasi-likelihood (Tuerlinckx et al. 2006).
Pada makalah ini, metode penaksiran yang akan digunakan adalah metode kedua, yaitu dengan pendekatan penalized quasi-likelihood (PQL). Untuk menjelaskan metode ini dimulai dengan memecah suatu pengamatan sebagai rata-rata dan bentuk erornya (Tuerlinckx et al. 2006).
= + = + + (4)
= + = P ( = 1| , ) = = exp +
1 + exp +
Pendekatan PQL dimulai dengan suatu aproksimasi Taylor bagi fungsi respon, untuk taksiran efek tetap . Rata-rata kemudian dievaluasi pada dan , dan dinyatakan sebagai ∗. Dan perkiraan varians dari error dinyatakan sebagai ( ). Maka pengamatan ,
dapat dinyatakan sebagai:
≈ + + + −
+ + − +
= ∗+ ( ∗) − + ( ∗) − + (5)
Semua pengamatan dan error bisa disusun dalam vektor kolom dan , dan pada X dan Z. Rata-rata ∗ pada vektor , dan taksiran varians ( ∗) pada suatu
matriks diagonal V. Maka persamaan (5) akan dapat dituliskan menjadi:
≈ ∗+ ∗ − + ∗ − +
Dengan menyusun ulang persamaan dengan memindahkan ke sisi kiri dan mengalikan dengan ∗ , dan juga memindahkan dan ke sisi kiri, akan menghasilkan:
∗≡ ∗ ( − ∗) + + ≈ + + ∗ (6)
Error ∗ selanjutnya akan dinyatakan dengan ∗. Maka:
( ∗) = ∗ = ∗ ( ∗) ∗ ≈ ∗
Konsekuensinya, varians dari ∗secara perkiraan adalah:
( ∗) ≈ ( + + ∗) ≈ ( ) + ∗
= + ∗ (7)
5. DATA DAN VARIABEL PENELITIAN
Data yang digunakan dalam makalah ini adalah data sekunder yang bersumber dari Survei Angkatan Kerja Nasional (Sakernas) 2010 untuk Provinsi Nusa Tenggara Barat (NTB). Provinsi NTB, teridiri dari 8 Kabupaten dan 2 Kota Madya. Data Sakernas yang digunakan adalah data Sakernas semester II, yang dilaksanakan pada bulan Agustus 2010. Struktur data yang digunakan dalam makalah ini dapat dilihat pada Gambar 1. Pada Gamar 1 terlihat bahwa masing-masing Kabupaten/Kota memuat sampel rumah tangga (RT).
Gambar 2. Struktur Hirarki Data Sakernas Untuk Makalah
Berdasarkan model (2), maka variabel penelitian yang digunakan adalah variabel status setengah penganggur (STATSP) sebagai variabel respon. Sedangkan variabel-variabel prediktornya adalah variabel umur (UMUR), jenis kelamin (JK), pendidikan tertinggi yang ditamatkan (PENDDK), status perkawinan (STATP), hubungan dengan kepala rumah tangga (HUBKRT), lapangan pekerjaan utama (LAPPU), status pekerjaan utama (STATPU), jenis pekerjaan utama (JENPU), dan klasifikasi daerah tempat tinggal (KLASDT).
Untuk variabel pendidikan tertinggi yang ditamatkan (PENDDK) dikelompokan atas tiga kategori yaitu rendah, sedang dan tingggi. Variabel status perkawinan (STATP) dikelompokan atas kategori belum kawin dan sudah kawin (kawin dan cerai), variabel hubungan dengan kepala rumah tangga (HUBKRT) dikelompokan menurut kategori kepala rumah tangga dan bukan kepala rumah tangga. Untuk lapangan pekerjaan utama (LAPPU) dikelompokan menjadi kategori pertanian dan non pertanian, status pekerjaan utama (STATPU) dikelompokan atas tiga kategori wirausaha, pegawai/buruh tetap dan pegawai/buruh tidak tetap serta pekerja tidak dibayar. Sedangkan untuk jenis pekerjaan utama (JENPU) dikategorikan menjadi tenaga usaha pertanian, operator angkutan, pekerja kasar serta lainnya, dan non tenaga usaha pertanian, operator angkutan, pekerja kasar serta lainnya, sedangkan klasifikasi daerah tempat tinggal (KLASDT), dikategorikan menjadi perdesaan dan perkotaan.
6. HASIL DAN PEMBAHASAN
Pengolahan dilakukan dengan bantuan paket program R, dengan memanfaatkan
librarry MASS. Misalnya dicoba untuk model sederhana dengan hanya intersep acak pada
pada Tabel 1, memang terlihat hampir sama antara model satu level dan model dua level, sehingga belum menunjukan perbedaan. Hal yang sama juga terlihat dari hasil penghitungan nilai standar error untuk taksiran tiap-tiap efek, nilai standar error antara model satu level dengan model dua level tidak berbeda jauh.
Misalnya taksiran untuk model dua level dengan PQL untuk status setengah penganggur nilai expected log odds nya adalah -1.2443. Maka nilai odds nya adalah exp(−1.2443) = 0.2881 . Nilai ini bersesuaian dengan nilai peluang 1⁄ 1 + exp −(−1.2443) = 0.2237. Sedangan untuk nilai yang dihasilkan dari model logistik standar adalah exp(−1.2433) = 0.2884 yang bersesuaian dengan nilai peluang 1⁄ 1 + exp −(−1.2443) = 0.2239. Dapat dilihat bahwa perbedaan antara nilai yang dihasilkan dari model dua level dengan model satu level memang sangat kecil.
Tabel 1. Taksiran Efek Tetap dan Efek Acak Model Multilevel Logistik Sederhana
Efek Model
Model Satu Level (FS) Model 2 Level (PQL)
Taksiran Sig. Std.
Error Odds Taksiran Sig.
Std. Error Odds Efek Tetap Intersep -1.2433 *** 0.1424 0.288 -1.2443 *** 0.1998 0.288 Jk 0.5263 *** 0.0628 1.693 0.5367 *** 0.0644 1.710 Umur 0.0124 *** 0.0021 1.012 0.0121 *** 0.0021 1.012 Penddk1 -0.8508 *** 0.1039 0.427 -0.7112 *** 0.1065 0.491 Penddk2 -0.6630 *** 0.0978 0.515 -0.6168 *** 0.0992 0.540 Statp 0.4127 *** 0.0744 1.511 0.4246 *** 0.0759 1.529 Hubkrt 0.0996 0.0699 1.105 0.0912 0.0716 1.096 Lappu 1.0202 *** 0.0602 2.774 0.9751 *** 0.0621 2.651 Statpu1 -0.2092 ** 0.0745 0.811 -0.1528 * 0.0762 0.858 Statpu2 0.4917 *** 0.0579 1.635 0.4717 *** 0.0593 1.603 Jenpu -0.0039 0.0689 0.996 0.0061 0.0705 1.006 Klasdt 0.3676 *** 0.0506 1.444 0.2300 *** 0.0585 1.259 Efek Acak Intersep 0.4315 (Kab./Kot.) Ket: *** 0.001, ** 0.01, * 0.05
7. PENUTUP
Penerapan model multilevel (dua level) logistik sederhana (hanya intersep pada level 2) untuk data status setengah penganggur dengan metode penaksiran penalized
quasi-likelihood (PQL) menghasilkan nilai taksiran yang hampir sama untuk nilai efek tetap dengan
model logistik satu level. Untuk keperluan penelitian lebih lanjut, dapat menerapkan model yang lebih rumit, misalnya model multilevel dengan random slope (Khan dan Shaw 2011). Selain itu penggunaan metode penaksiran penalized quasi-likelihood (PQL) juga menjadi catatan tersendiri. Meskipun metode ini merupakan salah satu metode yang populer, namun taksiran yang dihasilkan bisa menjadi kurang baik pada beberapa situasi (Tuerlinckx et al. 2006).
Untuk itu pada penelitian selanjutnya, agar dapat menghasilkan nilai taksiran yang lebih meyakinkan, dapat diterapkan metode penaksiran tambahan, misalnya dengan metode integral numerik untuk menaksir integral pada persamaan (3), metode Monte Carlo
Integration (Tuerlinckx et al. 2006) dan juga metode Bayesian (Browne dan Draper, 2000).
Perbandingan nilai taksiran dengan metode-metode ini, akan dapat dijadikan penilaian untuk mengevaluasi hasil taksiran PQL.
8. DAFTAR PUSTAKA
Badan Pusat Statistik (BPS). 2009. Keadaan Angkatan Kerja Indonesia Agustus 2008. Jakarta: Badan Pusat Statistik.
Bellante, D dan Jackson, M. 1983. Ekonomi Ketenagakerjaan. Jakarta: Lembaga Penerbit Fakultas Ekonomi Universitas Indonesia
Browne, W.J. dan Draper, D. 2000. Implementation and performance issues in the Bayesian and likelihood fitting of multilevel models. Computational statistics, 15: 391–420
Goldstein, Harvey .2011. Multilevel Statistical Models 4th Edition. West Sussex: John Wiley & Sons Ltd
Harfina, Dewi. 2009. Faktor-faktor yang Mempengaruhi Pengangguran Terselubung Di Perdesaan Jawa Tengah Analisis Data Sakernas 2007. Jurnal Kependudukan
Indonesia:Vol IV No. 1
Hox, J. 2002. Multilevel Analysis Techniques and Applications. New Jersey: Lawrence Erlbaum Associates, Inc
Khan, Md. Hasinur Rahaman dan Shaw, J. Ewart H. 2011. Multilevel Logistic Regression Analysis Applied to Binary Contraceptive Prevalece Data. Journal of Data Science 9:93-110.
Leeuw, Jan de dan Meijer, Erik. 2008. Introduction to Multilevel Analysis. Dalam Leeuw, Jan de dan Meijer, Erik (Penyunting). “Handbook of Multilevel Analysis”. New York: Springer Science+Business Media, LLC
Maynard, Douglas C. dan Feldman, Daniel C. 2011. Introduction. Dalam Maynard, Douglas C. dan Feldman, Daniel C (penyunting). “Underemployment Psychological, Economic, and
Social Challenges”. New York: Springer
Raudenbush, S. W., dan Bryk, A. S.2002. Hierarchical linear models: Applications and data
analysis methods (2nd ed.). London: Sage.
R Development Core Team 2011. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org/.
Tuerlinckx et al. 2006.Statistical inference in generalized linear mixed models: A review.
British Journal of Mathematical and Statistical Psychology 59: 225–255
Venables, W. N. & Ripley, B. D.2002. Modern Applied Statistics with S. Fourth Edition. Springer, New York. ISBN 0-387-95457-0