Penerapan Pengelompokan Pengangguran Dengan
Metode Clustering di Wilayah Indonesia
Saifatur Rohma1 Aswan S. Sunge2 Tri Ngudi Wiyatno3
Abstract— Pengangguran masih menjadi permasalahan
utama yang harus dihadapi negara Indonesia. Seringkali masalah ini dijadikan penyimpangan norma-norma yang ada dimasyarakat seperti kemiskinan, pendapatan dan produktivitas berkurang, meningkatnya kriminalitas dan masalah sosial lainnya. Dan setiap orang yang menginjak pada usia muda produktif pasti membutuhkan pekerjaan. Tingkat pengangguran semakin bertambah setiap tahunnya karena tidak diimbangi dengan penciptaan lapangan kerja yang memadai. Pemasalahan angkatan kerja yang terus meningkat juga dapat disebabkan karena kurangnya pengalaman dan keahlian yang dibutuhkan oleh pengguna tenaga kerja. Penelitian ini bertujuan untuk menerapkan pengelompokkan yang dilihat dari indikator pengangguran di wilayah Indonesia berdasarkan data dari penduduk miskin, usia muda diatas 15 tahun, tingkat pengangguran terbuka dan tingkat setengah pengangguran dengan menggunakan metode algoritma k-means cluster. Hasil dari penelitian ini adalah sebanyak 34 provinsi di Indonesia didapati 3 (tiga) kelompok yaitu cluster 1 (tingkat pengangguran tinggi) sebanyak 21 provinsi, cluster 2 (tingkat pengangguran sedang) dengan jumlah 9 provinsi, dan
cluster 3 (tingkat pengangguran rendah) berjumlah 4 provinsi. Kata Kunci— Data Mining, Clustering, K-Means, Pengangguran
I. PENDAHULUAN
Pengangguran masih menjadi permasalahan utama yang harus dihadapi di berbagai negara khususnya di Indonesia. Menurut data Badan Pusat Statistik (BPS) pengangguran di Indonesia pada tahun 2019 sudah mencapai 5,28 persen [1]. Setiap tahunnya angka persentase tersebut mengalami naik turun tergantung dari iklim ekonomi yang ada di Indonesia. Terlebih pada masa pandemi Covid-19 di tahun 2020 saat ini bertambahnya tingkat pengangguran [2]. Dilihat dari berita yang tersebar, per tanggal 13 April 2020 sebanyak 749,4 ribu orang di PHK kehilangan pekerjaannya karena terkena dampak pandemi Covid-19 ini [1].
Salah satu karakteristik Indonesia ialah seseorang yang sudah berumur 15 keatas tergolong dalam usia kerja. Dan tenaga kerja pada usia muda tingkat angka penganggurannya jauh lebih tinggi dibandingkan rata-rata angka pengangguran secara nasional. Masalah yang dihadapi mahasiswa yang baru lulus dari universitas, siswa sekolah kejuruan dan menengah sering mengalami kesulitan untuk menemukan pekerjaan di lapangan kerja nasional. Dan hampir dari setengah jumlah tenaga kerja di Indonesia kebanyakan dari mereka hanya mengandalkan ijazah tamat sekolah dasar saja.
Ironisnya, pengangguran seringkali dijadikan persoalan dalam penyimpangan norma-norma yang ada dimasyarakat seperti kemiskinan, pendapatan dan produktivitas berkurang, meningkatnya kriminalitas dan masalah sosial lainnya. Seharusnya di negara berkembang, adanya upaya-upaya yang diarahkan untuk perbaikan tingkat hidup, harga diri dan kebebasan manusia dengan dimensi pembangunan ekonomi
berorientasi pada perentasan keterbelakangan seperti kemiskinan, ketimpangan dan pengangguran [3].
Berbagai macam cara pemerintah telah lakukan untuk menangani masalah pengangguran ini. Salah satu program baru dari pemerintah untuk mengatasinya adalah adanya Kartu Pra Kerja yang diluncurkan di tahun 2020 ini, dan diperbanyaknya juga penerapan pelatihan pekerjaan dan lain sebagainya. Namun, tetap saja pengangguran menjadi masalah yang memerlukan perhatian lebih tiap tahunnya, tentu saja harus ada kesadaran dari diri sendiri. Meskipun mereka memiliki pengalaman dan keterampilan yang baik, jika mereka malas dan tidak berfikir kreatif. Tentu saja akan sulit bagi negara untuk mengurangi pengangguran yang ada di muka bumi ini. Namun pastinya dalam mengurangi pengangguran seharusnya tiap perusahaan lebih memperbesar kesempatan, memperluas tatanan lapangan kerja dan tidak membeda-bedakan pencari kerja.
Sebab lain yang mempengaruhi pengangguran dikarenakan tidak adanya lowongan kerja atau pencari kerja tersebut tidak memenuhi persyaratan yang telah ditetapkan perusahaan. Tenaga kerja merupakan faktor yang sangat krusial bagi pembangunan ekonomi disetiap negara. Tujuan peningkatan penyerapan tenaga kerja seringkali menjadi prioritas dalam pembangunan suatu negara. Padahal tingkat pengangguran terbuka akan semakin meningkat jika tidak ada perubahan strategi dalam penciptaan lapangan kerja, sedangkan angkatan kerja yang terus meningkat dapat menyebabkan pertumbuhan kesempatan kerja yang tidak seimbang. Dalam melaksanakan program pembangunan perlu adanya identifikasi berdasarkan indikator tingkat pengangguran wilayah di Indonesia agar dalam mengambil kebijakan dan strategi pembangunan bisa tepat sasaran dan seimbang.
Pada penelitian ini akan dilakukan sebuah penelitian menggunakan algoritma K-Means untuk mengetahui pengelompokkan tingkat pengangguran di wilayah Indonesia.
II. METODE USULAN A. Data Mining
Data mining merupakan proses menentukan pola yang menarik dari data besar secara otomatis. Proses dilakukan untuk keteraturan berupa pengetahuan yang dilakukan secara manual datanya [4]. Data mining merupakan suatu serangkai kegiatan mengumpulkan informasi baru dengan jumlah besar yang dapat disimpan kedalam database, data warehouse, ataupun penyimpanan dalam ukuran besar lainnya [5].
data mining adalah proses yang diawali dari suatu observasi data dengan jumlah besar yang datanya masih belum diketahui sebelumnya kemudian dijadikan metode baru agar mudah dipahami dan diketahui kegunaannya [6].
Adapun serangkai kegiatan proses pada tahapan data mining atau Knowledge Discovery in Database (KDD). Gambar 1. menggambarkan tahapan data mining.
Gambar 1. Tahapan Data Mining
Tahapan-tahapan data mining adalah sebagai berikut [7] : 1. Pembersihan data (data cleaning)
Pembersihan data merupakan proses menghilangkan noise dan data yang tidak konsisten atau data tidak relevan.
2. Integrasi data (data integration)
Integrasi data merupakan penggabungan data dari berbagai database ke dalam satu database baru.
3. Seleksi data (data selection)
Data yang ada pada database sering kali tidak semuanya dipakai, oleh karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database.
4. Transformasi data (data transformation)
Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam data mining.
5. Proses mining
Merupakan suatu proses utama saat metode diterapkan untuk menemukan pengetahuan berharga dan tersembunyi dari data.
6. Evaluasi pola (pattern evaluation)
Untuk mengidentifikasi pola-pola menarik ke dalam knowledge based yang ditemukan.
7. Presentasi pengetahuan (knowledge presentation) Merupakan visualisasi dan penyajian pengetahuan mengenai metode yang digunakan untuk memperoleh pengetahuan yang diperoleh pengguna.
B. Clustering
Clustering merupakan salah satu teknik data mining yang digunakan untuk mendapatkan kelompok-kelompok dari objek-objek yang mempunyai karakteristik yang umum di data yang cukup besar. Tujuan utama dari metode clustering adalah pengelompokan sejumlah data atau objek ke dalam cluster atau grup sehingga dalam setiap cluster akan berisi data yang semirip mungkin. Clustering melakukan pengelompokkan data yang didasarkan pada kesamaan antar
objek, oleh karena itu klasterisasi digolongkan sebagai metode unsupervised learning [8].
Clustering dapat dibagi menjadi dua, yaitu hierarchical dan nonhierarchical . Hierarchical adalah suatu metode pengelompokan data yang dimulai dengan mengelompokkan dua atau lebih objek yang memiliki kesamaan paling dekat. Kemudian proses diteruskan ke objek lain yang memiliki kedekatan kedua. Demikian seterusnya sehingga cluster akan membentuk semacam pohon dimana ada hierarki (tingkatan) yang jelas antar objek, dari yang paling mirip sampai yang paling tidak mirip. Secara logika semua objek pada akhirnya hanya akan membentuk sebuah cluster. Dendogram biasanya digunakan untuk membantu memperjelas proses hierarki tersebut. Berbeda dengan metode hierarchical , metode nonhierarchical justru dimulai dengan menentukan terlebih dahulu jumlah cluster yang diinginkan (dua cluster, tiga cluster, atau lain sebagainya). Setelah jumlah cluster diketahui, baru proses cluster dilakukan tanpa mengikuti proses hierarki. Metode ini biasa disebut dengan K-Means [9]. C. Algoritma K-Means
Algoritma K-Means merupakan salah satu metode data clustering non-hirarki yang berusaha mempartisi data yang ada kedalam bentuk satu kelompok atau lebih. Metode ini mempartisi data kedalam cluster atau kelompok sehingga data yang memiliki karakteristik yang sama dikelompokan kedalam satu cluster yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokan kedalam kelompok yang lain [10].
Algoritma K-Means bekerja dengan membagi data kedalam sebuah k cluster yang telah ditentukan. Algoritma K-Means bekerja dengan empat langkah, yaitu [11]:
1. Penentuan cluster awal
Dalam menentukan n buah pusat cluster awal dilakukan pembangkitan bilangan random yang merepresentasikan urutan data input. Pusat awal cluster didapatkan dari data sendiri bukan dengan menentukan titik baru, yaitu dengan random pusat awal dari data.
2. Penentuan jarak dengan pusat cluster
Untuk mengukur jarak antar data dengan pusat dengan cluster digunakan euclidian distance, algoritma perhitungan jarak data dengan pusat cluster.
a. Pilih nilai data dan nilai pusat cluster
b. Hitung euclidian distance data dengan tiap cluster ……… (2.1)
Keterangan: 𝑋𝑖 = Data kriteria
𝜇𝑖 = Centroid pada cluster ke i 3. Pengelompokkan data
Jarak hasil perhitungan akan dilakukan perbandingan dan dipilih jarak terdekat antara data dengan pusat cluster, jarak ini menunjukan bahwa data tersebut berada dalam satu kelompok dengan pusat cluster terdekat. Adapun cara pengelompokan data tersebut adalah:
b. Cari nilai jarak terkecil.
c. Kelompokkan data dengan pusat cluster yang memiliki jarak terkecil.
4. Penentuan pusat cluster baru
Untuk mendapatkan pusat cluster baru bisa dihitung dari rata-rata nilai anggota cluster dan pusat cluster. Pusat cluster yang baru digunakan untuk melakukan iterasi selanjutnya, jika hasil yang didapatkan belum konvergen.
Proses iterasi akan berhenti jika telah memenuhi maksimum iterasi yang dimasukkan oleh user atau hasil yang dicapai sudah konvergen (pusat cluster baru sama dengan pusat cluster lama). Algoritma penentuan pusat cluster:
a.
Cari jumlah anggota tiap clusterb.
Hitung pusat baru dengan rumus………… (2.2) Keterangan:
di = keanggotaan data c = nilai centroid ke –i
n = jumlah data cluster tergabung 5. Davies Bouldin Index
Davies Bouldin Index merupakan salah satu teknik yang dapat digunakan untuk mengukur validitas cluster pada metode clutestering berbasis partisi yang didasarkan pada nilai kohesi dan separasi. Nilai kohesi didefinisikan sebagai jumlah dari kedekatan data terhadap centroid dari cluster yang diikuti. Sedangkan nilai separasi didasarkan pada jarak antar data dengan centroid diluar cluster yang diikuti [12]
Dalam DBI, Sum of square within cluster (SSW) merupakan persamaan yang digunakan untuk mengetahui nilai dari matriks kohesi dalam cluster ke-i. Nilai SSW dapat dihitung dengan rumus sebagai berikut.
……….… (2.3) Keterangan:
mi = jumlah data dalam cluster ke- i ci = centroid cluster ke- i
Sedangkan Sum of square between cluster (SSB) merupakan persamaan yang digunakan untuk mengetahui nilai separasi antar cluster. Nilai SSB dapat dihitung menggunakan rumus sebagai berikut.
………….… (2.4) Keterangan:
d (c1, c2) = jarak data ke centroid i
Setelah nilai kohesi dan separasi diperoleh, kemudian dilakukan pengukuran rasio (𝑖, 𝑗) untuk mengetahui nilai perbandingan antara cluster ke-i dan cluster kej. Cluster yang
baik adalah cluster yang memiliki nilai kohesi sekecil mungkin dan separasi yang sebesar mungkin. Nilai rasio dihitung menggunakan rumus sebagai berikut.
……… (2.5) Keterangan:
Rij = perbandingan cluster i,j
Nilai rasio yang diperoleh tersebut digunakan untuk mencari nilai Davies Bouldin Index (DBI) dari rumus berikut.
……….… (2.6) Keterangan:
k = jumlah cluster
Hasil dari rumus tersebut merupakan nilai yang menjadi ukuran validitas dari cluster yang diuji. Semakin kecil nilai DBI yang diperoleh (non-negatif >= 0), maka semakin baik cluster yang diperoleh dari metode clustering yang digunakan.
D. Pengangguran
Pengangguran adalah penduduk yang tidak bekerja namun sedang mencari pekerjaan atau sedang mempersiapkan suatu usaha baru atau penduduk yang tidak mencari pekerjaan karena sudah diterima bekerja tetapi belum mulai bekerja [13].
Pengangguran adalah suatu keadaan dimana seseorang yang termasuk dalam angkatan kerja ingin memperoleh pekerjaan akan tetapi belum mendapatkannya. Seseorang yang tidak bekerja namun tidak secara aktif mencari pekerjaan tidak tergolong sebagai pengangguran. Faktor utama yang menyebabkan terjadinya pengangguran adalah kurangnya pengeluaran agregat. Pengusaha memproduksi barang dan jasa dengan maksud memperoleh keuntungan, akan tetapi keuntungan tersebut akan diperoleh apabila pengusaha tersebut dapat menjual barang dan jasa yang mereka produksi [14].
III. METODE PENELITIAN
Pada penelitian ini, data yang digunakan adalah data indikator pengangguran Data ini akan diolah menggunakan beberapa metode data mining sehingga diperoleh metode yang dapat digunakan sebagai penerapan pengelompokkan. Dalam penelitian ini akan dilakukan beberapa langkah-langkah atau tahapan penelitian seperti berikut:
A. Pengumpulan data
Data yang diperoleh dari Badan Pusat Statistik mengenai indikator pengangguran berdasarkan Penduduk Miskin, Usia Muda 15-24 Tahun, Tingkat Pengangguran Terbuka dan Tingkat Setengah Pengangguran berupa persentase pada tahun 2019 dapat dilihat pada tabel berikut.Tabel 2.
Tabel 1. Dataset BPS
B. Jenis Data
Penelitian ini termasuk dalam penelitian Kuantitatif, yaitu data yang dikumpulkan berupa angka-angka yang diperoleh dan diolah melalui BPS. Ruang waktu yang digunakan dalam penelitian ini yaitu tahun 2019.
C. Variabel Penelitian
Untuk menghindari kesalahan penafsiran variabel yang digunakan dalam penelitian, maka perlu dilakukan pendefinisian variabel. Adapun variabel-variabel yang digunakan adalah:
1.
Penduduk Miskin (PM)Persentase penduduk miskin adalah penduduk yang memiliki rata-rata pengeluaran perkapita perbulan dibawah garis kemiskinan.
2.
Usia Muda 15-24 tahun (UM)Persentase penduduk dengan usia kerja diatas 15-24 tahun yang sedang tidak sekolah, bekerja ataupun sedang mengikuti pelatihan.
3.
Tingkat Setengah Pengangguran (TSP)Persentase penduduk bekerja dengan waktu yang lebih sedikit dari waktu normal orang bekerja.
4.
Tingkat Pengangguran Terbuka (TPT)Persentase penduduk dalam angkatan kerja yang tidak memiliki pekerjaa, sedang mencari pekerjaan, atau mereka yang tidak mencari pekerjaan karena merasa tidak mungkin mendapatkan pekerjaan.
D. Metode Yang Digunakan
Metode yang akan digunakan untuk menyelesaikan penelitian ini adalah dengan menggunakan metode Algoritma K-Means. Dengan menggunakan metode ini data-data yang telah diperoleh dapat dikelompokkan kedalam beberapa cluster, dimana penerapan proses K-Means, kemudian
menggunakan tool Rapidminer dan visual python data analysis menggunakan python 3.7.
IV.HASIL DAN PEMBAHASAN
Pada tahap proses ini menggunakan algoritma K-Means untuk mengetahui hasil dari cluster data yang akan dikelompokan dan hasil akurasinya. Untuk dapat melakukan pengelompokan data kedalam 3 cluster, dimana pemilihan centroid dipilih secara acak.
Tabel 3. Iterasi 1
Pada tahap ini dijelaskan tentang pengolahan data di rapidminer. Berikut adalah model yang ditrerapkan pada rapidminer:
Gambar 2. Pemodelan Clustering
Dari data yang telah diproses dari rapidminer didapatkan pengelompokkan sebagai berikut:
Gambar 3. Hasil Clustering
Dari data yang telah diproses dari rapidminer didapatkan plot python sebagai berikut:
Gambar 4. Hasil Pairplot Pyhton Berikut adalah tabel hasil pengujian.
Tabel 3. Hasil Persentase
Nilai validitas dari cluster yang diuji menggunakan software rapidminer menghasilkan DBI yaitu sebesar -0,0838, sedangkan dengan menggunakan uji algoritma K-Means yaitu -0,0833 hanya berselisih 0,0005. angka tersebut memiliki hasil yang cukup baik karena mendekati angka 0. Semakin kecil nilai davies bouldin index maka semakin baik cluster yang diperoleh dari pengelompokan menggunakan metode .
V. KESIMPULAN
Hasil penelitian yang telah dilakukan oleh penulis dapat diperoleh kesimpulan dari perhitungan algoritma K-Means dengan data 34 provinsi menghasilkan 3 (tiga) cluster yaitu:
a.
Cluster 1 (Tingkat Pengangguran Tinggi) sebanyak 21 data yang terdiri dari provinsi Jawa Barat, Jawa Tengah, Jawa Timur, Banten, Sulawesi Utara, Sulawesi Selatan, Sulawesi Tenggara, Sulawesi Barat, Maluku Utara, Sumatera Utara, Sumatera Barat, Riau, Jambi, Sumatera Selatan, Lampung, Kepulauan Bangka Belitung, Kalimantan Barat, Kalimantan Tengah, Kalimantan Selatan, Kalimantan Timur, Kalimantan Utara dengan persentase 62%.b.
Cluster 2 (Tingkat Pengangguran Sedang) sebanyak 9 data yang terdiri dari provinsi Sulawesi Tengah, Gorontalo, Papua Barat, Papua, Aceh, Bengkulu, Nusa Tenggara Barat dan Nusa Tenggara Timur dengan persentase 26%.c.
Cluster 3 (Tingkat Pengangguran Rendah) sebanyak 4 data yang terdiri dari 4 provinsi yaitu DKI Jakarta, DI Yogyakarta, Kepulauan Riau dan Bali dengan persentase 12%.VI. REFERENCES
[1] LinovHR, "Fenomena dan Jenis Pengangguran di Indonesia," 21 April 2020. [Online]. Available: http://linovhr.com/pengangguran. [Accessed 2020 Juni 04].
[2] H.Gusman, "Bagaimana Pandemi COVID-19 Memengaruhi Angka Pengangguran RI," 26 Juni 2020. [Online]. Available: http://tirto.id/bagaimanapandemi-covid-19-memengaruhi-angkapengangguran-ri-fK3e. [Accessed 30 Juni 2020].
[3] Suryana, Ekonomi Pembangunan: Problematika Serta Pendekatan, Jakarta: Salemba Empat, 2000.
[4] I. Pramodiono, "Apa Itu Data Mining?," 2006. [Online]. Available: http://datamining.japati.net/cgi-bin/indodm.cgi. [Accessed 21 Mei 2020].
[5] J. Han and M. Kamber, Data Mining Concepts and Techniques Second Edition, San Francisco: Morgan Kauffman, 2001.
[6] S. Yulianto and K. H. Hidayatullah, "Analisis Klaster Untuk Pengelompokkan Kabupaten/Kota di Provinsi Jawa Tengah Berdasarkan Indikator Kesejahteraan Rakyat," Jurnal Statistika, vol. 2, no. 1, 2014. [7] Nurdin and D. Antika, "Penerapan Data Mining Untuk
Menganalisis Penjualan Barang Dengan Menggunakan Metode Apriori Pada Supermarket Sejahtera Lhokseumawe," vol. 6, pp. 133-155, 2015.
[8] Khomarudin, "Teknik Data Mining: Algoritma K-Means Clustering," 2016. [Online]. Available: http://ilmukomputer.com. [Accessed 21 Mei 2020]. [9] D. Nugraha and dkk,, "Klasterisasi Judul Buku Dengan
Menggunakan Metode K-Means," Seminar Nasional Aplikasi Teknologi Informasi, vol. 2, p. 134, 2014. [10] Silitonga and Ginting, "Klasterisasi Keranjang Belanja
Transaksi Penjualan Dengan Mengguakan K-Means Clustering," Jurnal Pemantik Penusa, vol. 2, no. 2, pp. 164-168, 2018.
[11] P. E., Data MIning: Konsep dan Aplikasi Menggunakan MATLAB, Yogyakarta: ANDI, 2012. [12] A. Saikhu, "Implementasi Deteksi Outlier Pada
ALgoritma Hierarchical Clustering," SEMNASTEKNOMEDIA, vol. 1, pp. 07-45, 2013. [13] Badan Pusat Statistika, "Badan Pusat Statistika," 2020.
[Online]. Available: http://bps.go.id. [Accessed 02 Mei 2020].
[14] S. Sukirno, Ekonomi Pembangunan Proses, Masalah, dan dasar Kebijakan, Jakarta: Kencana Prenada Media, 2006.
IEEE conference templates contain guidance text for composing and formatting conference papers. Please
ensure that all template text is removed from your conference paper prior to submission to the conference. Failure to remove template text from your paper may result in your paper not being publi