ANGKATAN KERJA DI KOTA MEDAN TAHUN 2019
SKRIPSI
MAKHMUL IKHSAN SIAHAAN 160803064
PROGRAM STUDI S-1 MATEMATIKA DEPARTEMEN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA
2021
PENGGUNAAN METODE CLASSIFICATION AND REGRESSION TREE (CART) UNTUK KLASIFIKASI TINGKAT PARTISIPASI
ANGKATAN KERJA DI KOTA MEDAN TAHUN 2019
SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat mencapai gelar Sarjana Sains
MAKHMUL IKHSAN SIAHAAN 160803064
PROGRAM STUDI S-1 MATEMATIKA DEPARTEMEN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA
2021
PERNYATAAN ORISINALITAS
PENGGUNAAN METODE CLASSIFICATION AND REGRESSION TREE (CART) UNTUK KLASIFIKASI TINGKAT PARTISIPASI
ANGKATAN KERJA DI KOTA MEDAN TAHUN 2019
SKRIPSI
Saya menyatakan bahwa skripsi ini adalah hasil karya sendiri, kecuali beberapa kutipan dan ringkasan yang masing – masing disebutkan sumbernya.
Medan, September 2021
Makhmul Ikhsan Siahaan 160803064
ii
Penggunaan Metode Classification And Regression Tree (CART) Untuk Klasifikasi Tingkat Partisipasi Angkatan Kerja
di Kota Medan Tahun 2019
ABSTRAK
Classification and regression trees (CART) merupakan metode klasifikasi yang menggunakan data historis untuk membangun suatu pohon keputusan. Metodologi CART mulai dikembangkan pada tahun 80-an oleh Breiman, Friedman, Olshen, Stone pada tahun 1984. Tingkat partisipasi angkatan kerja (TPAK) adalah penduduk yang termasuk bukan angkatan kerja adalah penduduk usia kerja (15 tahun dan lebih) yang masih sekolah, mengurus rumah tangga atau melaksanakan kegiatan lainnya selain kegiatan pribadi. Penduduk yang termasuk angkatan kerja adalah penduduk usia kerja (15 tahun dan lebih) yang masih sekolah, mengurus rumah tangga atau melaksanakan kegiatan lainnya selain kegiatan pribadi. Melalui analisis metode CART, diperoleh kelompok pertama yaitu angkatan kerja dengan jenis kelamin perempuan dengan tingkat pendidikan sedang sebanyak 861 (35,58%, n=2564). Kelompok kedua yaitu angkatan kerja dengan jenis kelamin perempuan dengan tingkat pendidikan (tinggi dan rendah) sebanyak 472 (18,41%, n=2564). Kelompok ketiga yaitu angkatan kerja dengan jenis kelamin laki-laki dengan status pernikahan menikah sebanyak 740 (28,86%, n=2564). Kelompok keempat yaitu angkatan kerja jenis kelamin laki-laki dengan status pernikahan belum menikah yang memiliki tingkat pendidikan rendah sebanyak 48 (1,87%, n=2564). Kelompok kelima angkatan kerja jenis kelamin laki- laki status pernikahan menikah yang memiliki tingkat pendidikan tinggi sedang sebanyak 444 (17,32%, n=2564).
Kata Kunci : Angkatan Kerja, Badan Pusat Statistik, CART, Medan.
iii
Use of Classification And Regression Tree (CART) Method for Classification of Labor Force Participation Levels in Medan City in 2019
ABSTRACT
Classification and regression trees (CART) is a classification method that uses historical data to build a decision tree. The CART methodology was developed in the 80s by Breiman, Friedman, Olshen, Stone in 1984. The labor force participation rate (TPAK) is the population that is not included in the labor force, namely the working age population (15 years and over) who are still in school take care of the household or carry out other activities other than personal activities. The population included in the labor force is the population of working age (15 years and over) who are still in school, taking care of the household or carrying out other activities other than personal activities. Through the analysis of the CART method, the first group was obtained, namely the female workforce with a moderate level of education as many as 861 (33.58%, n=2564). The second group is the female workforce with education levels (high and low) as many as 472 (18.41%, n=2564). The third group is the workforce with male sex with married marital status as many as 740 (28.86%, n=2564). The fourth group is the male sex workforce with unmarried marital status who has a low level of education as many as 48 (1.87%, n=2564). The fifth group of the male sex workforce with married marital status who have a moderate level of higher education is 444 (17.32%, n=2564).
keywords : Labor Force, Central Bureau of Statistics, CART, Medan.
iv
PENGHARGAAN
Segala puji dan syukur bagi Allah SWT yang melimpahkan rahmat dan ridho- Nya sehingga penulis dapat menyelesaikan penyusunan skripsi dengan judul
“Penggunaan Metode Classification and Regression Tree (CART) Untuk Klasifikasi Tingkat Partisipasi Angkatan Kerja di Kota Medan Tahun 2019” dengan sebaik- baiknya. Sholawat serta salam diberikan kepada Nabi Muhammad SAW beserta keluarga, para sahabat dan orang-orang yang mengikutinya.
Terima kasih sebesar-besarnya penulis sampaikan kepada:
1. Ibu Dr. Elly Rosmaini, M.Si selaku dosen pembimbing saya yang telah memberikan ilmu yang bermanfaat dan dapat meluangkan waktu selama penyusunan skripsi ini.
2. Bapak Dr. Sutarman, M.Sc dan Ibu Dr. Dra. Rahmawati Pane, M.Si selaku dosen pembanding yang telah memberikan kritik dan saran dalam penyempurnaan skripsi ini.
3. Bapak Dr. Suyanto, M.Kom dan Bapak Drs. Rosman Siregar, M.Si selaku Ketua dan Sekretaris Departemen Matematika serta seluruh Bapak dan Ibu dosen yang telah memberikan pengetahuan yang bermanfaat selama menjalani perkuliahan di FMIPA USU.
4. Ibu Dr. Nursaharah Pasaribu, M.Sc selaku Dekan FMIPA dan Wakil-wakil Dekan serta seluruh Staf pegawai di FMIPA USU.
5. Teristimewa keluarga penulis, orangtua penulis Ayahanda Partaonan Siahaan dan Erniwati Hutapea, serta keluarga besar yang senantiasa membantu memberikan dukungan dan mendoakan penulis.
6. Untuk Abangda Gusfahmi, Kak Imas, beserta keluarga besar yang memberikan dukungan dan mendoakan penulis.
7. Terimakasih untuk teman se-Angkatan terkhusus lelaki matematika stambuk 2016 dan teman-teman sekos yang telah menemani selama masa perkuliahan serta member semangat selama proses penulisan.
v
8. Terimakasih untuk pengurus Imkubik 2018-2019, pengurus Imkubik 2019- 2020, presidium Imkubik 2019-2020 yang telah memberikan kesan indah dan pembelajaran selama masa kuliah dan berorganisasi.
9. Terimakasih untuk Teman Sekontrakan selaku teman seperjuangan yang telah meluangkan waktu dan memberikan motivasi.
Penulis menyadari bahwa skripsi ini masih jauh dari sempurna. Oleh karena itu, kritik dan saran yang membangun sangat penulis harapkan demi perbaikan dalam kesempatan berikutnya.
Medan, September 2021 Penulis,
Makhmul Ikhsan Siahaan 160803064
vi DAFTAR ISI
Halaman
PENGESAHAN SKRIPSI i
ABSTRAK ii
ABSTRACT iii
PENGHARGAAN iv
DAFTAR ISI vi
DAFTAR TABEL viii
DAFTAR GAMBAR ix
DAFTAR LAMPIRAN x
BAB 1 PENDAHULUAN
1.1 Latar Belakang 1
1.2 Perumusan Masalah 2
1.3 Batasan Masalah 2
1.4 Tujuan Penelitian 3
1.5 Manfaat Penelitian 3
1.6 Metodologi Penelitian 3
BAB 2 TINJAUAN PUSTAKA
2.1 Tingkat Partisipasi Angkatan Kerja 5
2.2 Klasifikasi 6
2.3 Data Mining 6
2.4 Decision Trees 6
2.5 Metode CART 7
2.6 Algoritma CART 9
2.6.1 Pembentukan Pohon Klasifikasi 9
2.6.2 Pemangkasan Pohon Klasifikasi 13 2.6.3 Penentuan Pohon Klasifikasi Optimal 13
2.7 Ukuran Ketetapan Klasifikasi 14
BAB 3 METODE PENELITIAN
3.1 Jenis dan Sumber Data Penelitian 16
3.2 Definisi Operasional Variabel 16
3.3 Identifikasi Variabel 17
3.4 Prosedur Analisis Data 17
BAB 4 HASIL DAN PEMBAHASAN
4.1 Deskripsi Tingkat Partisipasi Angkatan Kerja 19 4.1.1 Karakteristik Angkatan Kerja Berdasarkan Jenis
Kelamin 20
4.1.2 Karakteristik Angkatan Kerja Berdasarkan Tingkat
Pendidikan 20
4.1.3 Karakteristik Angkatan Kerja Berdasarkan Status
Pernikahan 21
vii
4.1.4 Karakteristik Angkatan Kerja Berdasaasarkan
Pengalaman Pelatihan Kerja 22
4.2 Rangkuman Jumlah Data 22
4.3 Tahapan Analisis Data 25
4.3.1 Membagi Data Menjadi Data Learning dan Data
Testing 25
4.3.2 Membentuk Pohon Klasifikasi Maksimal 26 4.3.3 Pemangkasan Pohon Klasifikasi 38 4.3.4 Memilih Pohon Klasifikasi Maksimal 41 4.3.5 Menghitung Ketepatan Klasifikasi Pohon 44 4.3.6 Menentukan Jumlah Tingkat Partisipasi Angkatan
Kerja 45
BAB 5 PENUTUP
5.1 Kesimpulan 47
5.2 Saran 48
DAFTAR PUSTAKA LAMPIRAN
viii
DAFTAR TABEL
Nomor Judul Halaman
Tabel
Tabel 2.1 Ukuran Ketepatan Klasifikasi 15
Tabel 3.1 Variabel Penelitian 17
Tabel 4.1 Distribusi Frekuensi dan Persentase 19
Tabel 4.2 Jumlah Angkatan Kerja Berdasarkan Jenis Kelamin 21 Tabel 4.3 Jumlah Angkatan Kerja Berdasarkan Tingkat Pendidikan 24 Tabel 4.4 Jumlah Angkatan Kerja Berdasarkan Status Pernikahan 21 Tabel 4.5 Jumlah Angkatan Kerja Berdasarkan Jumlah Angkatan Kerja 22 Tabel 4.6 Angkatan Kerja Yang Bekerja dan Tidak Bekerja Berdasarkan
Jenis Kelamin dan Tingkat Pendidikan 23
Tabel 4.7 Angkatan Kerja Yang Bekerja dan Tidak Bekerja Berdasarkan
Jenis Kelamin dan Status Pernikahan 24
Tabel 4.8 Angkatan Kerja Yang Bekerja dan Tidak Bekerja Berdasarkan Jenis Kelamin dan Pengalaman Pelatihan Kerja 24 Tabel 4.9 Perbandingan Data Learning dan Data Testing 25 Tabel 4.10 Data Calon Simpul Kiri dan Simpul Kanan 26 Tabel 4.11 Hasil Perhitungan Probabilitas Simpul 27
Tabel 4.12 Hasil Perhitungan Gain Information 30
Tabel 4.13 Hasil Perhitungan Indeks Gini 32
Tabel 4.14 Tabel Nilai Goodness of Split 34
Tabel 4.15 Struktur Pohon 36
Tabel 4.16 Penandaan Label Kelas 38
Tabel 4.17 Nilai Complexity Parameter Pohon T 40
Tabel 4.18 Tabel Proporsi Kesalahan V-Fold Estimated 41 Tabel 4.19 Jumlah Angkatan Kerja Berdasarkan Cabang Jenis Kelamin
Peremuan dan Tingkat Pendidikan 42
Tabel 4.20 Jumlah Angkatan Kerja Berdasarkan Cabang Jenis Kelamin
Laki-Laki dan Status Pernikahan 43
Tabel 4.21 Jumlah Angkatan Kerja Berdasarkan Cabang Jenis Kelamin, Status Pernikahan dan Tingkat Pendidikan 44 Tabel 4.22 Ketepatan Klasifikasi Untuk Data Prediksi 44
ix
DAFTAR GAMBAR
Nomor Judul Halaman Gambar
Gambar 2.1 Struktur dan Bentuk Pohon Klasifikasi CART 8 Gambar 4.1 Nilai Atribut Laki-Laki dan Perempuan 35 Gambar 4.2 Pohon Keputusan Probabilitas Angkatan Kerja Laki-Laki
Dan Perempuan 35
Gambar 4.3 Pohon Pemangkasan Complexity Parameter Minimum 40 Gambar 4.4 Pohon Pemangkasan Nilai Proporsi Kesalahan 42
x
DAFTAR LAMPIRAN
Nomor Halaman Lampiran
Lampiran 1 Surat Izin Pengambilan Data BPS Provinsi Sumatera Utara 51 Lampiran 2 Data Survei Angkatan Kerja Nasional Tahun 2019 di Kota Medan 52
Lampiran 3 Output Crosstabulation SPSS 54
Lampiran 4 Perhitungan Pohon Klasifikasi Maksimal 57
Lampiran 5 Perhitungan Complexity Parameter 60
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Pengklasifikasian merupakan salah satu metode statistik untuk mengelompokkan atau mengklasifikasikan suatu data yang disusun secara sistematis.
Masalah klasifikasi sering dijumpai dalam kehidupan sehari-hari, baik pengklasifikasian data pada bidang akademik, kesehatan, segmentasi pasar, maupun pada bidang lainnya. Masalah-masalah tersebut dapat diselesaikan dengan metode klasifikasi, namun pada penyelesaiannya perlu diperhatikan dalam memilih metode klasifikasi yang tepat.
Metode klasifikasi dapat dilakukan dengan pendekatan parametrik dan nonparametrik. Salah satu metode klasifikasi dengan pendekatan nonparametrik yang sering digunakan adalah Decision Tree (Pohon keputusan). Pohon keputusan adalah suatu metode eksplorasi berstruktur pohon untuk melihat hubungan antar variabel respon dengan variabel penjelasnya. Beberapa metode yang dapat digunakan dalam metode pohon keputusan antara lain CHAID (Chi-Squared Automatic Interaction Detection Analysis), QUEST (Quick, Unbiased Efficient, Statistical Tree), CART ( Classification and Regression Tree), dan lain-lain dimana masing-masing metode tersebut memiliki kekuatan dan kelemahannya masing-masing (Maimon and Rokach, 2010).
CART (Classification and regression trees) adalah salah satu metode atau alogaritma dari salah satu teknik eksplorasi data yaitu teknik pohon keputusan. CART dikembangkan untuk melakukan analisis klasifikasi pada variabel respon baik yang nominal, ordinal maupun kontinu. CART juga dapat menyeleksi variabel-variabel dan interaksi-interaksi variabel yang paling penting dalam menentukan hasil atau variabel prediktor (Breiman et al, 1993). Tujuan utama CART adalah untuk mendapatkan suatu kelompok data yang akurat sebagai penciri dari suatu pengklasifikasian. Prinsip dari metode pohon klasifikasi ini adalah memilah seluruh amatan menjadi dua gugus amatan dan memilah kembali gugus amatan berikutnya, hingga diperoleh jumlah amatan minimum pada tiap-tiap gugus amatan berikutnya. .
Penelitian dengan menggunakan klasifikasi CART pernah dilakukan oleh Nuriyah (2013) yaitu membandingkan metode CHAID dan CART dalam menentukan klasifikasi alumni UIN Sunan Kalijaga berdasarkan masa Study dan dapat disimpulkan bahwa metode CART lebih efisien dalam mengklasifikasikan alumni UIN Sunan Kalijaga, hal ini dapat dilihat dari ketepatan klasifikasi CHAID sebesar 63.3% dan ketepatan klasifikasi CART sebesar 66.6%. Selain itu, Klasifikasi CART pernah dilakukan oleh Reny Roswita Nazar (2018) dalam jurnal yang berjudul Penerapan Metode CHAID (Chi-Squared Automatic Interaction Detection) dan Cart (Classification and Regression Trees) Pada Klasifikasi Preeklampsia, menerapkan metode CHAID dan CART dalam klasifikasi Preeklampsia diperoleh hasil bahwa ketepatan hasil klasifikasi dengan algoritma CART sebesar 74% ini lebih tinggi dibandingkan dengan metode CHAID yang sebesar 67%.
Berdasarkan uraian tersebut maka penulis tertarik untuk melakukan penelitian dengan judul penelitian “Penggunaan Metode Classification and Regression Tree (CART) Untuk Klasifikasi Tingkat Partisipasi Angkatan Kerja di Kota Medan Tahun 2019”.
1.2 Perumusan Masalah
Perumusan masalah dalam penelitian ini adalah bagaimana menentukan klasifikasi pada tingkat partisipasi angkatan kerja yang bekerja atau tidak bekerja di kota Medan berdasarkan faktor jenis kelamin, tingkat pendidikan, status pernikahan, dan pengalaman pelatihan kerja dengan menggunakan metode Classification And Regression Trees (CART).
1.3 Batasan Masalah
Agar penelitian yang dilakukan dapat menghasilkan penelitian yang fokus dan akurat, maka diberikan batasan masalah dalam penelitian ini yaitu :
1. Data yang digunakan yaitu data sekunder diperoleh dari Badan Pusat Statistik Provinsi Sumatera Utara
2. Data yang diambil data hasil Survei Angkatan Kerja Nasional (SAKERNAS) yang dilakukan di Kota Medan Tahun 2019.
3
3. Variabel yang digunakan dalam penelitian ini yaitu variabel usia produktif, jenis kelamin, tingkat pendidikan, status pernikahan dan pengalaman pelatihan kerja.
1.4 Tujuan Penelitian
Tujuan dari penelitian ini adalah untuk mengetahui seberapa besar tingkat partisipasi angkatan kerja yang bekerja dan tidak bekerja di kota Medan berdasarkan faktor jenis kelamin, tingkat pendidikan, status pernikahan, dan pengalaman pelatihan kerja dengan menggunakan metode CART.
1.5 Manfaat Penelitian
Adapun manfaat yang dapat diperoleh dari penelitian ini adalah sebagai berikut:
1. Penelitian ini menjadi salah satu syarat untuk memperoleh gelar sarjana, dan untuk menambah pengetahuan tentang penerapan metode CART dalam proses pengklasifikasian untuk pengambilan keputusan.
2. Dapat menjadi bahan referensi, penyedia informasi, dan bahan untuk melakukan penelitian selanjutnya.
3. Sebagai informasi tambahan untuk pemerintah dalam pengambilan keputusan dan kebijakan dalam mengatasi jumlah tenaga kerja yang ada.
1.6 Metodologi Penelitian
Metodologi yang digunakan dalam penelitian ini adalah sebagai berikut:
1. Studi Pendahuluan
Tahap ini dimulai dengan studi pendahuluan yaitu berupa studi kepustakaan dengan mengumpulkan bahan referensi, mempelajari serta menggali informasi baik dari buku, artikel, paper, jurnal, makalah, maupun situs internet mengenai metode CART (Classfication and Regression Tree).
2. Studi Lapangan
Tahapan selanjutnya adalah melalukan studi lapangan dalam pengambilan data.
Pada penelitian ini data yang digunakan untuk dianalisis adalah data sekunder
yang diperoleh dari Badan Pusat Statistik (BPS) Sumatera Utara. Data tersebut adalah data hasil Survei Angkatan Kerja Nasional (SAKERNAS) yang dilakukan di Kota Medan tahun 2019.
3. Pengolahan Data menggunakan metode CART (Classfication and Regression Tree).
a. Membagi data menjadi dua bagian yaitu data learning dan data testing, b. Membentuk pohon klasifikasi maksimal,
c. Pemangkasan pohon klasifikasi maksimal, d. Memilih pohon klasifikasi optimal,
e. Menghitung ketepatan klasifikasi pohon dengan menggunakan sensitivity, specificity, dan akurasi,
f. Menghitung jumlah tingkat partisipasi angkatan kerja yang bekerja dan tidak bekerja berdasarkan pohon klasifikasi yang terbentuk.
4. Penarikan kesimpulan dan saran
5
BAB 2
TINJAUAN PUSTAKA
2.1 Tingkat Partisipasi Angkatan Kerja
Tingkat partisipasi angkatan kerja (TPAK) adalah penduduk yang termasuk bukan angkatan kerja adalah penduduk usia kerja (15 tahun dan lebih) yang masih sekolah, mengurus rumah tangga atau melaksanakan kegiatan lainnya selain kegiatan pribadi. Penduduk yang termasuk angkatan kerja adalah penduduk usia kerja (15 tahun dan lebih) yang masih sekolah, mengurus rumah tangga atau melaksanakan kegiatan lainnya selain kegiatan pribadi. Medan merupakan kota metropolitan terbesar ketiga di Indonesia dan merupakan kota dengan jumlah penduduk terbesar di Sumatera Utara.
Berdasarkan data dari Badan Pusat Statistik kota Medan penduduk kota Medan pada tahun 2017 sebesar 2.247.425 jiwa, dan pada tahun 2018 meningkat menjadi 2.264.145 jiwa.
Tingkat partisipasi angkatan kerja di Kota Medan pada Tahun 2017 sampai 2018 mengalami peningkatan dimana Tingkat Partisipasi Angkatan Kerja meningkat dari 64,35% pada tahun 2017 menjadi 65,99% di Tahun 2018. Menurut Badan Pusat Statistik, Penduduk yang termasuk dalam kategori tenaga kerja adalah penduduk yang berusia 15 tahun keatas. Tingkat partisipasi Angkatan Kerja di kota Medan jika dipandang dari jenis kelamin pada tahun 2018. Jumlah tingkat Partisipasi Angkatan Kerja laki-laki sebesar 58,16% sedangkan tingkat Partisipasi Angkatan Kerja perempuan sebesar 41,84%.
Berdasarkan uraian di atas dapat dilihat bahwa penyerapan angkatan kerja dapat dipengaruhi oleh faktor usia produktif, jenis kelamin, tingkat pendidikan, status pernikahan, dan penyerapan angkatan kerja juga pengaruhi oleh pengalaman pelatihan kerja seperti pelatihan keterampilan atau kursus dimana dengan memiliki pengalaman kerja didukung tingkat pendidikan yang tinggi, maka tenaga kerja akan mempunyai lebih banyak kesempatan untuk mendapatkan pekerjaan. Sehingga untuk mengetahui besar Tingkat Partisipasi Angkatan Kerja di kota Medan berdasarkan faktor-faktor tersebut maka Tingkat Partisipasi Angkatan Kerja di kota Medan akan dikelompokkan menjadi angkatan kerja yang bekerja dan tidak bekerja didasarkan pada faktor yang mempengaruhinya.
2.2 Klasifikasi
Bagian sangat penting dalam data mining adalah teknik klasifikasi, yaitu bagaimana mempelajari sekumpulan data sehingga dihasilkan aturan yang bisa mengklasifikasi atau mengenali data-data baru yang belum pernah dipelajari.
Klasifikasi dapat didefinisikam sebagai proses untuk menyatakan suatu objek data sebagai salah satu kategori (kelas) yang telah didefinisikan sebelumnya (Suyanto, 2019).
2.3 Data Mining
Secara sederhana, data mining atau penambangan data dapat didefinisikan sebagai proses seleksi, eksplorasi, dan pemodelan dari sejumlah besar data untuk menentukan pola atau kecenderungan yang biasanya tidak disadari keberadaannya.
Data mining ditujukan untuk mengekstrak (mengambil intisari) pengetahuan dari sekumpulan data sehingga didapatkan struktur yang dapat dimengerti manusia (Suyanto, 2019). Dalam data mining, data disimpan secara elektronik dan diproses secara otomatis oleh komputer menggunakan teknik dan perhitungan tertentu.
Untuk analisis data mining ini meliputi tahapan proses Knowledge Discovery in Database (KDD). Keunggulan dari proses KDD adalah proses terorganisir untuk mengidentifikasi pola yang valid, baru, berguna dan dapat dimengerti dari sebuah data set yang besar dan kompleks. Dalam proses KDD melibatkan algoritma untuk mengeksplorasi data, mengembangkan dan menemukan model yang pola sebelumnya tidak diketahui. KDD juga digunakan untuk memahami keadaan data, analisis dan prediksi.
2.4 Decission Trees
Decision Trees adalah metode pengambilan keputusan teknik klasifikasi dengan struktur flowchart yang mirip dengan pohon. Model yang dibentuk oleh metode ini sangat umum dan popular. Teknik ini terdiri dari sekumpulan decision node yang pada tahap ini mengevaluasi semua atribut, dihubungkan oleh cabang, bergerak kebawah dari root node sampai berakhir di leaf node. Tiap cabang dapat masuk ke decision node yang lain ataupun pada leaf node. Decision Trees adalah flowchart seperti struktur pohon yang berusaha menemukan atribut yang tepat untuk
7
meyelesaikan dan menentukan kelas. Dengan kata lain bahwa atribut yang paling berpengaruh dalam menentukan hasil prediksi adalah aribut yang berada diposisi paling atas dalam struktur pohon. Oleh sebab itu, pembuatan model Decision Trees merupakan proses yang iterative untuk melihat atribut yang paling berpengaruh dan menjadi percabangan dari struktur pohon atau sering disebut titik percabangan atau split point (Nafi’iyah, 2015).
Menurut Jiawei (2012) beberapa algoritma dapat digunakan dalam membangun pohon keputusan antara lain QUEST, C4.5, CHAID (Chi Squared Automatic Interactin Detection), dan CART (Classification and Regression Trees).
Beberapa keuntungan dari pohon keputusan sebagai alat klasifikasi adalah:
1. Pohon keputusan cukup jelas dan mudah dimengerti.
2. Pohon keputusan dapat menangani data yang atributnya bertipe nominal dan numerik.
3. Pohon keputusan mampu menangani kumpulan data yang mungkin memilki kesalahan.
4. Pohon keputusan mampu menangani kumpulan data yang mungkin memiliki nilai- nilai yang hilang.
5. Pohon keputusan dianggap metode nonparametric. Ini berarti bahwa pohon keputusan tidak memiliki asumsi tentang distibusinya.
2.5 Metode CART
Classification and regression trees (CART) merupakan salah satu metode atau algoritma dari salah satu teknik eksplorasi data yaitu teknik pohon keputusan. CART terbilang sederhana namun merupakan metode yang kuat. CART bertujuan untuk mendapatkan suatu kelompok data yang akurat sebagai penciri dari suatu pengklasifikasian, selain itu CART digunakan untuk menggambarkan hubungan antara variabel respon (variabel dependen atau tak bebas) dengan satu atau lebih dari variabel prediktor (variabel independen atau bebas). Model pohon yang dihasilkan bergantung pada skala variabel respon, jika variabel respon data berbentuk kontinu maka model pohon yang dihasilkan adalah regression trees (Pohon Regresi) sedangkan bila variabel respon mempunyai skala kategorik maka pohon yang dihasilkan adalah classification trees (Pohon Klasifikasi) (Breiman L, 1984) . Namun,
jika dijabarkan secara garis besar, classification adalah metode yang paling umum pada data mining.
CART mempunyai beberapa kelebihan dibandingkan metode klasifikasi lainnya, yaitu hasilnya lebih mudah diinterpretasikan, lebih akurat dan lebih cepat perhitungannya. Selain itu CART bisa diterapkan untuk himpunan data yang mempunyai jumlah besar, variabel yang sangat banyak dan dengan skala variabel campuran melalui prosedur pemilihan biner (Lewis, 2000). Data learning digunakan untuk pembentukan pohon klasifikasi optimal sedangkan data testing digunakan untuk validasi model yaitu seberapa besar kemampuan model dalam memprediksi data baru.
Pohon keputusan dibentuk dengan menggunakan algoritma penyekatan rekursif secara biner (binery recursive partitioning). Pemilihan dilakukan untuk memilih data menjadi 2 kelompok, yaitu kelompok yang masuk simpul kiri dan yang masuk simpul kanan. Pemilihan dilakukan pada tiap simpul sampai didapatkan suatu simpul terminal/akhir. Variabel yang memilah pada simpul utama adalah variabel terpenting dalam menduga kelas dari amatan. Berikut gambar sturuktur pohon klasifikasi:
Gambar 2.1 Struktur Pohon Klasifikasi
t10 t11
t1
t4
t9
t6
t12 t13
t3
t2
t5 t7
t8
9
Struktur utama (root node) dinotasikan sebagai t1, sedangkan simpul t2, t3, t5, t7,
dan t8 disebut simpul dalam (internal nodes). Simpul akhir yang juga disebut sebagai simpul terminal (terminal nodes) adalah t4, t6, t9, t10, t11, t12 dan t13 dimana tidak terjadi lagi pemilihan. Kedalaman pohon (depth) dihitung dimulai dari simpul utama atau t1
yang berada pada kedalaman 1, sedangkan t2 dan t3 berada pada kedalaman 2. Begitu seterusnya sampai pada simpul terminal t12 dan t13 yang berada pada kedalaman 5.
2.6 Algoritma CART
Algoritma CART merupakan algoritma yang umum dan banyak digunakan dalam mengintegrasikan berbagai faktor dari sumber yang berbeda untuk masalah klasifikasi dan regresi berdasarkan biner rekursif. Algoritma ini tergolong dalam model nonparametric yang tidak memerlukan bentuk fungsional dan telah terbukti menjadi alat ampuh untuk masalah prediksi dan klasifikasi. CART mengandalkan partisi biner rekursif dari data dasar pembangunan pohon regresi. Pohon didirikan dari dataset yang dikumpulkan di simpul pohon akar dan setiap node dibagi menjadi dua node turun menggunakan variabel pemisahan (salah satu variabel prediktor).
Pemilihan variabel pemisahan mencari penurunan variabilitas dalam-node dan untuk peningkatan variabilitas antara-node, dengan setiap partisi yang diperoleh menghasilkan pohon dengan variabilitas yang lebih sedikit daripada pohon sebelumnya.
Data yang digunakan dalam metode CART adalah data learning dan data testing. Data learning adalah data yang siap untuk dimining yang telah melewati data preprocessing sedangkan data testing adalah data yang digunakan untuk menguji klasifikasi yang diperoleh dari data learning. sehingga Algoritma CART melalui tiga tahapan sebagai berikut:
2.6.1 Pembentukan Pohon Klasifikasi
Dalam pembentukan pohon klasifikasi terdiri dari tiga proses yaitu pemilihan atribut, penentuan simpul terminal, dan penandaan label kelas seperti berikut:
1. Pemilihan Pemilah
Pada tahap ini, data yang digunakan adalah data sampel data learning yang kemudian dipilah berdasarkan aturan pemilahan dari kriteria goodness of split.
Himpunan bagian yang dihasilkan dari proses pemilihan harus lebih homogen dibandingkan pemilihan sebelumnya. Menurut Breiman, et al (1993), fungsi keheterogenan yang sangat mudah dan sesuai diterapkan dalam berbagai kasus adalah indeks gini. Indeks gini akan selalu memisahkan kelas dengan anggota paling besar atau kelas terpenting dalam simpul tersebut terlebih dahulu. Pemilahan yang memberikan penurunan keheterogenan tertinggi merupakan pemilahan terbaik.
Sebelum melakukan pemilihan pemilah dengan menggunakan indeks gini, akan lebih baik mencari gain information dari setiap simpul dengan menggunakan rumus seperti berikut (Jiawei, 2012):
𝐺𝐼(𝑡) = − ∑ 𝑃(𝑗|𝑡) log2𝑃(𝑗|𝑡)
𝑛
𝑗=1
(2.1) Keterangan:
𝐺𝐼(𝑡) = Gain Information pada simpul 𝑡
𝑃(𝑗|𝑡) = Proporsi kelas 𝑗 pada simpul 𝑡 dimana j =1,2,3, … , 𝑛 dengan 𝑃(𝑗|𝑡) =𝑛𝑗(𝑡)
𝑛(𝑡)
𝑛𝑗(𝑡) = Banyak pengamatan kelas 𝑗 pada simpul 𝑡 𝑛(𝑡) = Banyak pengamatan pada simpul t
Metode pemilihan pemilah pada metode CART menggunakan indeks gini i(t) yang merupakan pengukuran tingkat keragaman suatu kelas dari suatu simpul tertentu dalam klasifikasi sehingga mampu membantu dalam menemukan fungsi pemilah yang optimal. Fungsi keragaman yang digunakan adalah Indeks gini dimana pemilihan atribut ini akan menghasilkan pohon yang biner. Indeks Gini adalah pengukuran keragaman antara probabilitas nilai-nilai atribut target. Fungsi Indeks Gini sebagai berikut:
𝑖(𝑡) = 1 − ∑ 𝑃2(𝑗|𝑡)
𝑛
𝑗=1
(2.2) Keterangan:
𝑖(𝑡) = indeks gini
𝑃(𝑗|𝑡) = Proporsi kelas 𝑗 pada simpul 𝑡 dimana j =1,2,3, … , 𝑛 dengan 𝑃(𝑗|𝑡) =𝑛𝑗(𝑡)
𝑛(𝑡)
𝑛𝑗(𝑡) = Banyak pengamatan kelas 𝑗 pada simpul 𝑡
11
𝑛(𝑡) = Banyak pengamatan pada simpul t
Atribut yang terpilih akan membentuk suatu himpunan kelas yang disebut simpul atau node. simpul akan selalu mengalami pemilihan secara rekursif sampai diperoleh terminal nodes. Langkah selanjutnya adalah menentukan kriteria goodness- of-split yang merupakan suatu evaluasi pemilihan oleh pemilah s pada t yang disebut juga sebagai penuruan keheterogenan dengan rumus sebagai berikut:
𝜙(𝑠, 𝑡) = 𝑖(𝑡) − 𝑃𝐿𝑖(𝑡𝐿) − 𝑃𝑅𝑖(𝑡𝑟) (2.3) Keterangan:
𝑡𝑅 = Simpul kanan atau right node 𝑡𝐿 = Simpul kiri atau left node
𝑃𝑅 = Proporsi banyaknya objek yang masuk pada 𝑡𝑅 𝑃𝐿 = Proporsi banyaknya objek yang masuk pada 𝑡𝐿
Probabilitas banyaknya objek yang masuk pada 𝑡𝑅dan 𝑡𝐿 dapat dihitung dengan rumus sebagai berikut (Mardiani, 2012):
𝑃𝐿 = 𝑐𝑎𝑙𝑜𝑛 𝑠𝑖𝑚𝑝𝑢𝑙 𝑘𝑖𝑟𝑖
𝑑𝑎𝑡𝑎 𝑙𝑎𝑡𝑖ℎ𝑎𝑛 (2.4)
𝑃𝐿 = 𝑐𝑎𝑙𝑜𝑛 𝑠𝑖𝑚𝑝𝑢𝑙 𝑘𝑎𝑛𝑎𝑛
𝑑𝑎𝑡𝑎 𝑙𝑎𝑡𝑖ℎ𝑎𝑛 (2.5)
Pengembangan pohon dilakukan dengan mencari semua kemungkinan pemilah pada simpul t, yang kemudian akan ditemukan pemilah 𝑠∗ yang memberikan nilai penurunan keheterogenan tertinggi yaitu:
𝜙(𝑠∗, 𝑡) = 𝑚𝑎𝑥𝑠𝜖𝑆 𝜙(𝑠, 𝑡) (2.6) Pemilah yang menghasilkan nilai lebih tinggi merupakan pemilah yang lebih baik karena hal ini memungkinkan untuk mereduksi keheterogenan secara lebih signifikan. Metode pemilahan yang sering digunakan adalah indeks Gini, hal tersebut dikarenakan lebih mudah dan sesuai untuk diterapkan dalam berbagai kasus dan mempunyai perhitungan yang sederhana dan cepat (Breiman L, 1984).
2. Penentuan Simpul Terminal
Suatu simpul t akan menjadi simpul terminal atau tidak apabila pada simpul t tidak terdapat penurunan keheterogenan secara berarti berdasarkan kriteria goodness- of-split atau hanya terdapat satu pengamatan pada tiap simpul anak atau jumlah kasus minimum dalam suatu terminal akhir pada pengamatan berjumlah kurang atau sama dengan 5 (𝑛 ≤ 5). Selain itu, proses pembentukan pohon juga akan berhenti apabila sudah mencapai batasan jumlah level yang telah ditentukan atau tingkat kedalaman dalam pohon maksimal. Serta proses pemecahan pohon pada node 𝑡 menjadi 𝑡𝑅 dan 𝑡𝐿 berlaku:
𝑅(𝑡) > 𝑅(𝑡𝑅) + 𝑅(𝑡𝐿) (2.7) Keterangan:
𝑅(𝑡) = Kesalahan pengklasifikasian pada node 𝑡
𝑅(𝑡𝑅) = Kesalahan pengklasifikasian pada simpul kiri node 𝑡 𝑅(𝑡𝐿) = Kesalahan pengklasifikasian pada simpul kanan node 𝑡
3. Penandaan Label Kelas
Penandaan label kelas adalah proses pengidentifikasian tiap nodes pada suatu kelas tertentu. Penandaan kelas dilakukan pada terminal nodes, nonterminal nodes, dan root nodes. Akan tetapi, penandaan label paling dibutuhkan pada terminal nodes atau simpul terminal karena simpul ini penting digunakan untuk memprediksi suatu objek pada kelas tertentu yang berada pada simpul terminal ini. Penandaan label kelas pada simpul terminal dilakukan berdasarkan aturan jumlah terbanyak yaitu jika:
𝑃(𝑗|𝑡) = 𝑚𝑎𝑥𝑗𝑁𝑗(𝑡)
𝑁(𝑡) (2.8)
Keterangan:
𝑃(𝑗|𝑡) = Proporsi jumlah kelas 𝑗 pada simpul 𝑡 𝑁𝑗(𝑡) = Jumlah Pengamatan kelas 𝑗 pada simpul 𝑡 𝑁(𝑡) = Jumlah Pengamatan pada simpul 𝑡
Label kelas simpul terminal 𝑡 adalah 𝑗 yang memberi nilai dugaan kesalahan pengklasifikasian simpul 𝑡 terbesar. Proses pembentukan pohon klasifikasi berhenti apabila hanya ada satu pengamatan dalam tiap simpul anak atau adanya batas
13
minimum 𝑛, semua pengamatan dalam simpul anak identik, dan adanya batasan jumlah level atau kedalaman pohon maksimal.
2.6.2 Pemangkasan Pohon Klasifikasi
Bagian pohon yang kurang penting dilakukan pemangkasan sehingga didapatkan pohon klasifikasi yang optimal. Pohon yang terbentuk dengan aturan pemilah dan kriteria goodness of split berukuran sangat besar karena penghentian pohon berdasarkan banyaknya pengamatan pada simpul terminal atau besarnya tingkat kehomogenan. Ukuran pohon yang besar dapat menyebabkan overfitting, akan tetapi apabila pengamatan pohon dibatasi dengan ketepatan batas tertentu maka akan menyebabkan underfitting. Untuk mendapatkan ukuran pohon yang layak dapat dilakukan dengan melakukan pemangkasan pohon dengan berdasarkan ukuran cost complexity minimum menggunakan rumus sebagai berikut:
gm(𝑡) =𝑅(𝑡)−𝑅(𝑇|𝑇 𝑘)
𝑘|−1 (2.9)
Keterangan:
gm(𝑡) = Complexity parameter
𝑅(𝑡) = Kesalahan pengklasifikasian pada node t.
𝑇𝑘 = Subtree ke-𝑘, dengan 𝑘 = 1,2, … , 𝑛
𝑅(𝑇𝑘) = Kesalahan pengklasifikasian pada pohon 𝑇𝑘
Cabang yang dipangkas adalah cabang yang memilki nilai gm(t) terkecil, yaitu:
gm(𝑡𝑚) = 𝑚𝑖𝑛𝑡𝜖𝑇𝑘gm(t) (2.10) Kesalahan pengklasifikasian pada node t diperoleh dengan menggunakan rumus sebagai berikut:
𝑅(𝑡) = 𝑟(𝑡). 𝑃(𝑡) (2.11)
Keterangan:
𝑟(𝑡) = Probabilitas atau peluang terjadinya kesalahan pengklasifikasian pada Pengklasifikasian pada node t dengan 𝑟(𝑡) = 1 − 𝑚𝑎𝑘𝑠 𝑃(𝑗|𝑡)
𝑃(𝑡) = Proporsi banyaknya objek pada simpul 𝑡
2.6.3 Penentuan Pohon Klasifikasi Optimal
Pohon klasifikasi yang berukuran besar akan memberikan nilai cost complexity yang tinggi karena struktur data yang digambarkan cenderung kompleks sehingga
perlu dipilih pohon optimal yang berukuran sederhana tetapi memberikan nilai penduga pengganti yang cukup kecil. Apabila 𝑅(𝑡) dipilih sebagai penduga terbaik, maka cenderung akan dipilih pohon yang besar, sebab pohon yang semakin besar akan membuat nilai 𝑅(𝑡) semakin kecil. 𝑅(𝑡) atau penduga pengganti merupakan proporsi amatan yang mengalami kesalahan pengklasifikasian.
Penduga yang sering digunakan adalah penduga validasi silang lipat V (cross validation V-fold estimate). Penduga validasi silang lipat V digunakan pada data yang tidak cukup besar yaitu 3000 (kurang dari 3000 data). Dalam cross validation V-fold estimate, pengamatan dalam L dibagi secara random menjadi V bagian yang saling lepas dengan ukuran kurang lebih sama besar untuk setiap kelas. Pohon Tv dibentuk dari sampel learning ke-v dimana v = 1, 2, 3, … V. Penduga sampel uji untuk 𝑅(𝑇𝑡(𝑣)) sebagai berikut:
𝑅(𝑇𝑡(𝑣)) = 1
Nv∑ 𝑋(𝑑(v))
𝑉
(2.12) Keterangan:
𝑋(𝑑(v)) = Hasil Pengklasifikasian
𝑁𝑉 = Jumlah Pengamatan dalam 𝐿𝑉
Pohon klasifikasi optimal yang dipilih adalah pohon klasifikasi yang memilki cross validation yang paling kecil yang berarti pohon yang mempunyai tingkat kesalahan pengklasifikasian paling kecil yang memenuhi persamaan:
Tingkat Kesalahan Klasifikasi = 1 −𝑛11+ 𝑛22
𝑁 (2.13)
Keterengan:
𝑛11 = Jumlah observasi dari kelas 1 yang tepat diprediksi sebagai kelas 1 𝑛22 = Jumlah observasi dari kelas 2 yang tepat diprediksi sebagai kelas 2
2.7 Ukuran Ketepatan Klasifikasi
Ketepatan klasifikasi digunakan untuk mengetahui apakah data yang diklasifikasikan dengan benar atau tidak. Ketepatan klasifikasi merupakan suatu evaluasi untuk melihat peluang kesalahan klasifikasi yang dilakukan oleh suatu fungsi klasifikasi. Beberapa cara yang biasa digunakan dalam mengukur ketepatan klasifikasi
15
adalah melalui perhitungan, Sensitivity, specivity, dan akurasi. Sensitivity digunakan untuk mengukur ketepatan klasifikasi pada kelas I. Specivity digunakan untuk mengukur ketepatan klasifikasi pada sampel kelas j. Akurasi digunakan untuk mengukur tingkat ketepatan klasifikasi.
Tabel yang digunakan dalam menghitung ketepatan klasifikasi ditujukan sebagai berikut:
Tabel 2.1 Ukuran Ketepatan Klasifikasi Observasi Y Prediksi Y
Total
1 2
1 𝑛11 𝑛12 𝑁1
2 𝑛21 𝑛22 𝑁2
Total 𝑁1 𝑁2 𝑁
(Sumber: Jatmiko,Y A et al, 2019)
Dengan menggunakan tabel diatas nilai Sensitivity, specivity, akurasi, dan tingkat kesalahan klasifikasi dapat dihitung dengan menggunakan rumus sebagai berikut:
𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 =𝑛11 𝑁1
(2.14)
𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑡𝑦 =𝑛22 𝑁2
(2.15)
Akurasi =n11+ 𝑛22 𝑁
(2.16) Keterangan:
𝑛11 = Jumlah observasi dari kelas 1 yang tepat diprediksi sebagai kelas 1 𝑛12 = Jumlah observasi dari kelas 1 yang tepat diprediksi sebagai kelas 2 𝑛21 = Jumlah observasi dari kelas 2 yang tepat diprediksi sebagai kelas 1 𝑛22 = Jumlah observasi dari kelas 2 yang tepat diprediksi sebagai kelas 2 𝑁1 = Jumlah observasi kelas 1
𝑁2 = Jumlah observasi kelas 2
16 BAB 3
METODE PENELITIAN
3.1 Jenis dan Sumber Data Penelitian
Jenis penelitian yang dilakukan dalam penelitian ini adalah penelitian terapan.
Data yang digunakan dalam penelitian ini merupakan data sekunder. Data tersebut merupakan data angkatan kerja Provinsi Sumatera Utara yang berasal dari hasil survei angkatan kerja nasional (SAKERNAS) di kota medan pada tahun 2019 yang bersumber langsung dari Badan Pusat Statistik (BPS) Provinsi Sumatera Utara.
3.2 Definisi Operasional Variabel
Variabel yang digunakan dalam penelitian ini dapat di definisikan sebagai berikut:
1. Jenis Kelamin adalah pembagian alamiah manusia berdasarkan karakteristik yang dimiliki yaitu laki-laki atau perempuan
2. Tingkat Pendidikan adalah suatu kondisi yang menunjukkan jenjang pendidikan yang ditempuh seseorang. Ada 3 kategori tingkat pendidikan sebagai berikut:
a. Pendidikan rendah yaitu Sekoah Dasar
b. Pendidikan sedang yaitu Sekolah Menengah Pertama (SMP) dan Sekolah Menengah Atas (SMA)
c. Pendidikan tinggi yaitu pendidikan yang ditempuh setelah Sekolah Menengah Atas (SMA) seperti Diploma,Sarjana, dan Pascasarjana
3. Pengalaman Pelatihan Kerja adalah pelatihan-pelatihan yang dilakukan untuk menambah keterampilan seseorang seperti kursus atau seminar
4. Status Pernikahan adalah status yang dimiliki seseorang apakah sudah menikah atau belum
5. Angkatan kerja yang bekerja adalah penduduk usia kerja (15 tahun ke atas) yang sedang memperoleh pendapatan atau keuntungan
6. Angkatan kerja yang tidak bekerja adalah penduduk usia kerja (15 tahun ke atas) yang tidak mempunyai pekerjaan.
17
3.3 Identifikasi Variabel
Variabel yang digunakan dalam penelitian ini meliputi variabel dependen dan variabel independen. Variabel dependen yang digunakan pada penelitian ini adalah status tingkat partisipasi angkatan kerja di kota Medan tahun 2019. Variabel dependen ini berskala biner yaitu:
• 1 : Angkatan kerja yang bekerja
• 0 : Angkatan kerja yang tidak bekerja
Sedangkan variabel independen yang digunakan pada penelitian ini merupakan faktor-faktor yang mempengaruhi tingkat partisipasi angkatan kerja di kota Medan tahun 2019 yang dapat dilihat pada tabel 3.1.
Tabel 3.1 Variabel Penelitian
Nama Variabel Skala Kategori
Jenis Kelamin Nominal 1 : Laki-Laki 2 : Perempuan Tingkat
Pendidikan Ordinal
1 : Rendah (≤ 𝑆𝐷) 2 : Sedang (SMP-SMA) 3 : Tinggi (Sarjana) Status Pernikahan Nominal 1 : Menikah
2 : Belum Menikah Pengalaman
Pelatihan Kerja Nominal 1 : Pernah 2 : Tidak Pernah
3.4 Prosedur Analisis Data
Analisis data yang digunakan pada penelitian ini sebagai berikut:
1. Membagi data menjadi dua bagian yaitu data learning dan data testing.
2. Membentuk pohon klasifikasi maksimal menggunakan data learning dengan langkah-langkah sebagai berikut:
a. Melakukan pemilihan pemilah berdasarkan aturan pemilihan indeks gini yang selanjutnya dievaluasi menggunakan kriteria goodness of split.
b. Menentukan simpul terminal atau terminal node.
c. Melakukan penandaan label kelas pada terminal node berdasarkan aturan jumlah terbanyak dari tiap kelas yang ada pada variabel respon.
3. Memangkas pohon berdasarkan kriteria cost complexity minimum.
4. Memilih pohon klasifikasi optimal dengan menggunakan persamaan cross validation V- fold estimated.
5. Menghitung ketepatan klasifikasi pohon hasil bentukan dengan menggunakan data learning dan mengevaluasinya dengan menjalankan data testing pada klasifikasi yang terbentuk dengan menggunakan sensitivity, specificity, dan akurasi.
6. Menghitung jumlah tingkat partisipasi angkatan kerja yang bekerja dan tidak bekerja berdasarkan pohon klasifikasi yang terbentuk.
19
BAB 4
HASIL DAN PEMBAHASAN
4.1 Deskripsi Tingkat Partisipasi Angkatan Kerja
Pada penelitian ini digunakan empat variabel yang diduga berpengaruh terhadap klasifikasi tingkat partisipasi angkatan kerja diantaranya jenis kelamin, tingkat pendidikan, stastus pernikahan dan pengalaman pelatihan kerja. Untuk mendapatkan gambaran secara menyeluruh mengenai tingkat partisipasi angkatan kerja di kota medan, maka perlu dilakukan diskripsi secara statistik dari empat variabel yang berpengaruh terhadap klasifikasi tingkat partisipasi angkatan kerja. Tabel 4.1 berikut ini data hasil Survei Angkatan Kerja Nasional Tahun 2019 di Kota Medan yang dideskripsikan dengan tabel distribusi frekuensi dan persentase.
Tabel 4.1 Distribusi Frekuensi dan Persentase Angkatan Kerja
Variable Frequency Percentage (%)
Angkatan Kerja
Tidak Bekerja 1254 46.46
Bekerja 1445 53.54
Jenis Kelamin
Perempuan 1403 51.98
Laki-Laki 1296 48.02
Tingkat Pendidikan
Rendah 422 15.63
Sedang 1815 67.24
Tinggi 462 17.13
Status Pernikahan
Belum Menikah 944 34.98
Menikah 1755 65.02
Pengalaman Pelatihan Kerja
Tidak Pernah 2571 95.26
Pernah 128 4.74
Berdasarkan Tabel 4.1 di atas dapat dijelaskan bahwa jumlah responden dengan angkatan kerja tidak bekerja sebanyak 1254 (46.46%) dan bekerja sebanyak 1445 (53.54%). Berdasarkan variabel Jenis Kelamin, jumlah responden dengan jenis kelamin perempuan sebanyak 1403 (51.98%) dan laki-laki sebanyak 1296 (48.02%).
Berdasarkan variabel tingkat pendidikan, jumlah responden dengan tingkat pendidikan rendah sebanyak 422 (15.63%), sedang sebanyak 1815 (67.24%) dan tinggi sebanyak 462 (17.13%). Berdasarkan variabel status pernikahan, jumlah responden dengan status pernikahan belum menikah sebanyak 944 (34.98%) dan menikah sebanyak 1755 (65.02%). Berdasarkan variabel pengalaman pelatihan kerja, jumlah responden dengan pengalaman pelatihan kerja tidak pernah sebanyak 2571 (95.26%) dan pernah sebanyak 128 (4.74%).
4.1.1 Karakteristik angkatan kerja berdasarkan jenis kelamin
Variabel jenis kelamin merupakan faktor yang berpengaruh terhadap angkatan kerja. Deskripsi jenis kelamin pada angkatan kerja ditunjukkan oleh tabel 4.2.
Tabel 4.2 Jumlah Angkatan Kerja Berdasarkan Jenis Kelamin Status Angkatan Kerja
Total Angkatan kerja
yang bekerja
Angkatan kerja yang tidak bekerja
n % n %
Jenis Kelamin Laki-laki 877 67,7% 419 32,3% 1296 Perempuan 567 40,4% 836 59,6% 1403
Total 2699
Berdasarkan tabel 4.2 di atas dapat dijelaskan bahwa jumlah angkatan kerja laki-laki yang bekerja adalah sebanyak 877 (67,7%, n=2699) sedangkan jumlah angkatan kerja laki-laki yang tidak bekerja adalah sebanyak 419 (32,3%, n=2699).
Untuk jumlah angkatan kerja perempuan yang bekerja adalah sebanyak 567 (40,4%, n=2699) sedangkan jumlah angkatan kerja perempuan yang tidak bekerja adalah sebanyak 836 (59,6%, n=2699).
4.1.2 Karakteristik angkatan kerja berdasarkan tingkat pendidikan
Faktor selanjutnya yang berpengaruh terhadap klasifikasi tingkat partisipasi angkatan kerja adalah tingkat pendidikan. Tingkat pendidikan dibagi menjadi 3 tingkatan yaitu tinggi (sarjana), sedang (SMP-SMA) dan rendah (≤SD). Diskripsi tingkat pendidikan ditunjukkan pada Tabel 4.3.
21
Tabel 4.3 Tabel Jumlah Angkatan Kerja Berdasarkan Tingkat Pendidikan Status Angkatan Kerja
Total Angkatan kerja
yang bekerja
Angkatan kerja yang tidak bekerja
n % n %
Tingkat Pendidikan
Tinggi 314 68% 148 32% 462
Sedang 917 50,5% 898 49,5% 1815
Rendah 213 50,5% 209 49,5% 422
Total 2699
Berdasarkan Tabel di atas dapat dijelaskan bahwa jumlah angkatan kerja yang bekerja pada tingkat pendidikan yang tergolong tinggi sebanyak 314 (68%, n=2699) sedangkan jumlah angkatan kerja yang tidak bekerja sebanyak 148 (32%, n=2699).
Angkatan kerja yang bekerja pada tingkat pendidikan sedang yaitu sebanyak 917 (50,5%, n=2699) sedangkan angkatan kerja yang tidak bekerja yaitu sebanyak 898 (49,5%, n=2699). Angkatan kerja yang bekerja pada tingkat pendidikan rendah yaitu sebanyak 213 (50,5%, n=2699) sedangkan angkatan kerja yang tidak bekerja yaitu sebanyak 209 (49,5%, n=2699).
4.1.3 Karakteristik angkatan kerja berdasarkan status pernikahan
Faktor selanjutnya yang berpengaruh terhadap klasifikasi tingkat partisipasi angkatan kerja adalah status pernikahan. Deskripsi status pernikahan pada angkatan kerja ditunjukkan oleh tabel 4.4.
Tabel 4.4 Jumlah Angkatan Kerja Berdasarkan Status Pernikahan Status Angkatan Kerja
Total Angkatan kerja
yang bekerja
Angkatan kerja yang tidak bekerja
n % n %
Status Pernikahan
Menikah 1009 57,5% 746 42,5% 1755 Belum
Menikah
435 46,1% 509 53,9% 944
Total 2699
Berdasarkan Tabel di atas dapat dijelaskan bahwa jumlah angkatan kerja yang bekerja dengan status pernikahan menikah sebanyak 1009 (57,5%, n=2699) sedangkan jumlah angkatan kerja yang tidak bekerja sebanyak 746 (42,5%, n=2699).
Angkatan kerja yang bekerja dengan status pernikahan belum menikah yaitu sebanyak 435 (46,1%, n=2699) sedangkan angkatan kerja yang tidak bekerja yaitu sebanyak 509 (53,9%, n=2699).
4.1.4 Karaktersistik angkatan kerja berdasarkan pengalaman angkatan kerja Selain variabel-variabel yang dijelaskan sebelumnya, variabel yang juga berpengaruh terhadap klasifikasi tingkat partisipasi angkatan kerja adalah pengalaman pelatihan kerja. Deskripsi dari pengalaman pelatihan kerja ditunjukkan pada Tabel 4.5.
Tabel 4.5 Jumlah Angkatan Kerja Berdasarkan Pengalaman Angkatan Kerja Status Angkatan Kerja
Total Angkatan kerja
yang bekerja
Angkatan kerja yang tidak bekerja
n % n %
Pengalaman Pelatihan Kerja
Pernah 78 60,9% 50 39,1% 128
Belum Pernah
1366 53,1% 1205 46,9% 2571
Total 2699
Berdasarkan Tabel di atas dapat dijelaskan bahwa jumlah angkatan kerja yang bekerja dengan pengalaman pelatihan kerja pernah sebanyak 78 (60,9%, n=2699) sedangkan jumlah angkatan kerja yang tidak bekerja sebanyak 50 (39,1%, n=2699).
Angkatan kerja yang bekerja dengan pengalaman pelatihan kerja belum pernah yaitu sebanyak 1366 (53,1%, n=2699) sedangkan angkatan kerja yang tidak bekerja yaitu sebanyak 1205 (46,9%, n=2699).
4.2 Rangkuman Jumlah Data
Berikut merupakan rangkuman data jumlah angkatan kerja yang bekerja dan tidak bekerja berdasarkan jenis kelamin dan tingkat pendidikan, yang bekerja dan tidak
23
bekerja berdasarkan jenis kelamin dan status pernikahan, yang bekerja dan tidak bekerja berdasarkan jenis kelamin dan pengalaman kerja.
1. Jumlah angkatan kerja yang bekerja dan tidak bekerja berdasarkan jenis kelamin dan tingkat pendidikan :
Tabel 4.6 Angkatan Kerja Yang Bekerja dan Tidak Bekerja Berdasarkan Jenis Kelamin dan Tingkat Pendidikan
Berdasarkan gambar di atas diperoleh bahwa jumlah angkatan kerja yang bekerja dengan jenis kelamin laki-laki dan perempuan masing-masing adalah 877 dan 567 sedangkan jumlah angkatan kerja yang tidak bekerja masing-masing adalah 419 dan 836. Untuk jumlah angkatan kerja yang bekerja dengan tingkat pendidikan tinggi sedang dan rendah masing-masing adalah 314, 917 dan 213 sedangkan jumlah angkatan kerja yang tidak bekerja masing-masing adalah 148, 898 dan 209. Untuk jumlah angkatan kerja jenis kelamin laki-laki dengan tingkat pendidikan tinggi, sedang dan rendah masing-masing adalah 217, 909 dan 170 sedangkan untuk jumlah angkatan kerja jenis kelamin perempuan dengan tingkat pendidikan tinggi, sedang dan rendah adalah 245, 906 dan 252.
2. Jumlah angkatan kerja yang bekerja dan tidak bekerja berdasarkan jenis kelamin dan status pernikahan
Tingkat Pendidikan
Status Angkatan Kerja
Total Bekerja Tidak
Bekerja
Tinggi Jenis Kelamin Laki-laki 165 52 217
Perempuan 149 96 245
Total 314 148 462
Sedang Jenis Kelamin Laki-laki 588 321 909
Perempuan 329 577 906
Total 917 898 1815
Rendah Jenis Kelamin Laki-laki 124 46 170
Perempuan 89 163 252
Total 213 209 422
Tabel 4.7 Angkatan Kerja Yang Bekerja dan Tidak Bekerja Berdasarkan Jenis Kelamin dan Status Pernikahan
Berdasarkan gambar di atas diperoleh bahwa jumlah angkatan kerja yang bekerja dengan jenis kelamin laki-laki dan perempuan masing-masing 877 dan 567 sedangkan jumlah angkatan kerja yang tidak bekerja masing-masing adalah 419 dan 836. Untuk jumlah angkatan kerja yang bekerja dengan status pernikahan menikah dan belum menikah masing-masing adalah 1009 dan 435 sedangkan jumlah angkatan kerja yang belum bekerja masing-masing adalah 746 dan 509. Untuk jumlah angkatan kerja jenis kelamin laki-laki dengan status pernikahan menikah dan belum menikah masing- masing adalah 779 dan 517 sedangkan jumlah angkatan kerja untuk jenis kelamin perempuan dengan status pernikahan menikah dan belum menikah masing-masing adalah 976 dan 427.
3. Jumlah angkatan kerja yang bekerja dan tidak bekerja berdasarkan jenis kelamin dan pengalaman pelatihan kerja
Tabel 4.8 Angkatan Kerja Yang Bekerja dan Tidak Bekerja Berdasarkan Jenis Kelamin dan Pengalaman Pelatihan Kerja
Status Pernikahan
Status Angkatan Kerja
Total Bekerja Tidak
Bekerja
Menikah
Jenis Kelamin
Laki-laki 624 155 779
Perempuan 385 591 976
Total 1009 746 1755
Belum menikah
Jenis Kelamin
Laki-laki 253 264 517
Perempuan 182 245 427
Total 435 509 944
Pengalaman Pelatihan Kerja
Status Angkatan Kerja
Total Bekerja Tidak
Bekerja Pernah Jenis
Kelamin
Laki-laki 41 24 65
Perempuan 37 26 63
25
Berdasarkan gambar di atas diperoleh bahwa jumlah angkatan kerja yang bekerja dengan jenis kelamin laki-laki dan perempuan masing-masing 877 dan 567 sedangkan jumlah angkatan kerja yang tidak bekerja masing-masing adalah 419 dan 836. Untuk jumlah angkatan kerja yang bekerja dengan pengalaman pelatihan kerja pernah dan tidak pernah masing-masing adalah 78 dan 1366 sedangkan jumlah angkatan kerja yang tidak bekerja masing-masing adalah 50 dan 1205. Untuk jumlah angkatan kerja jenis kelamin laki-laki dengan pernah dan tidak pernah mengikuti pengalaman pelatihan kerja masing-masing adalah 65 dan 1231 sedangkan untuk jumlah angkatan kerja jenis kelamin perempuan dengan pernah dan tidak pernah mengikuti pengalaman pelatihan kerja masing-masing adalah 63 dan 1340.
4.3 Tahapan Analisis Data
Tahapan analisis data yang digunakan pada penelitian ini adalah dengan menggunakan metode CART (Classification and Regression Tree) dengan langkah- langkah sebagai berikut.
4.3.1 Membagi data menjadi data learning dan data testing
Membagi data menjadi dua bagian yaitu data learning dan data testing.
Pembagian data learning dan data testing pada penelitian ini dapat dilihat pada tabel dibawah ini :
Tabel 4.9 Perbandingan data learning dan data testing
No Perbandingan
Akurasi Data Learning Data Testing
1 95% 5% 72,16%
2 90% 10% 71,66%
3 85% 15% 71,58%
4 80% 20% 71,78%
5 75% 25% 70,28%
Total 78 50 128
Tidak pernah
Jenis Kelamin
Laki-laki 836 395 1231
Perempuan 530 810 1340
Total 1366 1205 2571
Berdasarkan tabel 4.9 di atas perbandingan data learning dan data testing diperoleh proporsi data learning dan data testing yang memiliki nilai akurasi tertinggi adalah perbandingan 95%:5%, sehingga dalam penelitian ini akan digunakan proporsi data learning dan data testing adalah 95%:5%, dimana data learning sebanyak 2564 sampel dan data testing sebanyak 135 sampel.
4.3.2 Membentuk Pohon Klasifikasi Maksimal
Membentuk pohon klasifikasi maksimal dengan melakukan pemilihan pemilah berdasarkan aturan pemilihan indeks gini yang selanjutnya dievaluasi menggunakan kriteria goodness of split. Pada tahapan ini akan dilakukan pemilihan pemilah dengan menggunakan indeks gini dengan calon pemilah yang dapat dilihat pada tabel dibawah ini sebagai berikut:
Tabel 4.10 Data Calon Simpul Kiri dan Simpul Kanan No Calon simpul kiri Calon simpul kanan
1 Jenis kelamin=Laki-laki Jenis kelamin =Perempuan 2 Tingkat
pendidikan=Tinggi
Tingkat pendidikan= sedang, rendah
3 Tingkat
pendidikan=Sedang
Tingkat pendidikan=
tinggi,rendah 4 Tingkat
pendidikan=Rendah
Tingkat pendidikan= tinggi sedang
5 Status
pernikahan=Menikah
Status pernikahan=belum menikah
6 Pengalaman pelatihan kerja= pernah
Pengalaman pelatihan kerja=
tidak pernah
Berdasarkan tabel di atas dapat dijelaskann bahwa calon simpul kiri adalah jenis kelamin laki-laki, tingkat pendidikan tinggi, tingkat pendidikan sedang, tingkat pendidikan rendah, status pernikahan menikah, pengalaman pelatihan kerja pernah.
Sedangkan untuk calon simpul kanan Jenis kelamin perempuan, tingkat pendidikan sedang dan rendah, tingkat pendidikan tinggi dan rendah, tingkat pendidikan tinggi dan sedang, status pernikahan belum menikah, pengalaman pelatihan kerja tidak
27
pernah. Dari simpul tersebut, akan ditentukan simpul mana yang akan menjadi parent node pada pohon keputusan yang terbentuk.
a. Gain Information
Sebelum mencari nilai gain information, untuk memudahkan sebaiknya terlebih dahulu mencari nilai probabilitas untuk setiap simpul dengan rumus :
𝑃𝐿 = 𝑐𝑎𝑙𝑜𝑛 𝑠𝑖𝑚𝑝𝑢𝑙 𝑘𝑖𝑟𝑖
𝑑𝑎𝑡𝑎 𝑙𝑎𝑡𝑖ℎ𝑎𝑛 = 1231
2564 = 0,480109 𝑃𝑅 =𝑐𝑎𝑙𝑜𝑛 𝑠𝑖𝑚𝑝𝑢𝑙 𝑘𝑎𝑛𝑎𝑛
𝑑𝑎𝑡𝑎 𝑙𝑎𝑡𝑖ℎ𝑎𝑛 = 1333
2564 = 0,51989079 𝑃(𝑗|𝑡𝐿) =𝑛𝑗(𝑡)
𝑛(𝑡) = 833
1231 = 0,676685621 𝑃(𝑗|𝑡𝑅) =𝑛𝑗(𝑡)
𝑛(𝑡) = 539
1333 = 0,404351088
Dengan cara yang sama nilai untuk simpul yang lain disajikan dalam tabel berikut :
Tabel 4.11 Hasil Perhitungan probabilitas simpul
Simpul 𝑷𝑳 𝑷𝑹 Kelas 𝑷(𝒋|𝒕𝑳) 𝑷(𝒋|𝒕𝑹)
1
1231 2564 = 0,4801092
04
1333 2564 = 0,5198907
96
Bekerja
833 1231 = 0,6766856
21
539 1333 = 0,4043510
88 Tidak
Bekerja
398 1231 = 0,3233143
79
794 1333 = 0,5956489
12
2
439 2564 = 0,1712168
49
2125 2564 = 0,8287831
51
Bekerja
298 439 = 0,6788154
9
1073 2125 = 0,5049411
76 Tidak
Bekerja
141 439 = 0,3211845
1
1052 2125 = 0,4950588
24
3
1724 2564 = 0,6723868
95
840 2564 = 0,3276131
05
Bekerja
871 1724 = 0,5052204
18
501 840 = 0,5964285
71
Tidak Bekerja
853 1724 = 0,4947795
82
339 840 = 0,4035714
29
4
401 2564 = 0,1563962
56
2163 2564 = 0,8436037
44
Bekerja
202 401 = 0,5037406
48
1169 2163 = 0,5404530
74 Tidak
Bekerja
199 401 = 0,4962593
52
994 2163 = 0,4595469
26
5
1667 2564 = 0,6501560
06
897 2564 = 0,3498439
94
Bekerja
958 1667 = 0,5746850
63
413 897 = 0,4604236
34 Tidak
Bekerja
709 1667 = 0,4253149
37
484 897 = 0,5395763
66
6
121 2564 = 0,0471918
88
2443 2564 = 0,9528081
12
Bekerja
74 121 = 0,6115702
48
1298 2443 = 0,5313139
58 Tidak
Bekerja
47 121 = 0,3884297
52
1145 2443 = 0,4686860
42
Dengan menggunakan nilai pada tabel 4.11 selanjutnya untuk nilai gain information yang digunakan untuk mendeteksi atribut-atribut yang paling banyak memberikan informasi berdasarkan kelas tertentu. Untuk mencari nilai gain information untuk setiap atribut menggunakan rumus :
𝐺𝐼(𝑗𝑘𝐿) = − ∑ 𝑃(𝑗|𝑡𝐿) log2𝑃(𝑗|𝑡𝐿)
𝑛
𝑗=1
29
• Jenis kelamin laki-laki = -{(0,676685621) log2(0,676685621) + (0,323314379) log2 (0,323314379)}
= 0,381349 + 0,526675
= 0,908024
• Jenis kelamin perempuan = -{(0,404351088) log2(0,404351088) + (0,595648912) log2 (0,595648912)}
= 0,528212 + 0,445226
= 0,973438
• Tingkat pendidikan tinggi = -{(0,504941176) log2(0,504941176) + (0,495058824) log2 (0,495058824)}
= 0,379392+ 0,526268
= 0,90566
• Tingkat pendidikan = -{( 0,504941176) log2(0,504941176) + sedang,rendah (0,495058824) log2 (0,495058824)}
=0,497778 + 0,502152
= 0,99993
• Tingkat pendidikan sedang = -{(0,505220418) log2(0,505220418) + (0,494779582) log2 (0,494779582)}
= 0,49765 + 0,502271
= 0,999921
• Tingkat pendidikan = -{(0,596428571) log2(0,596428571) + tinggi,rendah (0,403571429) log2 (0,403571429)}
= 0,444683 + 0,528317
= 0,973
• Tingkat pendidikan rendah = -{( 0,503740648) log2(0,503740648) + (0,496259352) log2 (0,496259352)}
=0,498324 + 0,501635
= 0,999959
• Tingkat pendidikan = -{(0,540453074) log2(0,540453074) + tinggi,sedang (0,459546926) log2 (0,459546926)}
= 0,479794 + 0,51548
= 0,995274
• Status menikah = -{( 0,574685063) log2(0,574685063) + (0,425314937) log2 (0,425314937)}
= 0,45926 + 0,524583