PENGGUNAAN METODE CLASSIFICATION AND REGRESSION TREE (CART) UNTUK KLASIFIKASI TINGKAT PARTISIPASI ANGKATAN KERJA DI KOTA MEDAN TAHUN 2019 SKRIPSI

(1)

ANGKATAN KERJA DI KOTA MEDAN TAHUN 2019

SKRIPSI

MAKHMUL IKHSAN SIAHAAN 160803064

PROGRAM STUDI S-1 MATEMATIKA DEPARTEMEN MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA

2021

(2)

PENGGUNAAN METODE CLASSIFICATION AND REGRESSION TREE (CART) UNTUK KLASIFIKASI TINGKAT PARTISIPASI

ANGKATAN KERJA DI KOTA MEDAN TAHUN 2019

SKRIPSI

Diajukan untuk melengkapi tugas dan memenuhi syarat mencapai gelar Sarjana Sains

MAKHMUL IKHSAN SIAHAAN 160803064

PROGRAM STUDI S-1 MATEMATIKA DEPARTEMEN MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA

2021

(3)

PERNYATAAN ORISINALITAS

PENGGUNAAN METODE CLASSIFICATION AND REGRESSION TREE (CART) UNTUK KLASIFIKASI TINGKAT PARTISIPASI

ANGKATAN KERJA DI KOTA MEDAN TAHUN 2019

SKRIPSI

Saya menyatakan bahwa skripsi ini adalah hasil karya sendiri, kecuali beberapa kutipan dan ringkasan yang masing – masing disebutkan sumbernya.

Medan, September 2021

Makhmul Ikhsan Siahaan 160803064

(4)

(5)

ii

Penggunaan Metode Classification And Regression Tree (CART) Untuk Klasifikasi Tingkat Partisipasi Angkatan Kerja

di Kota Medan Tahun 2019

ABSTRAK

Classification and regression trees (CART) merupakan metode klasifikasi yang menggunakan data historis untuk membangun suatu pohon keputusan. Metodologi CART mulai dikembangkan pada tahun 80-an oleh Breiman, Friedman, Olshen, Stone pada tahun 1984. Tingkat partisipasi angkatan kerja (TPAK) adalah penduduk yang termasuk bukan angkatan kerja adalah penduduk usia kerja (15 tahun dan lebih) yang masih sekolah, mengurus rumah tangga atau melaksanakan kegiatan lainnya selain kegiatan pribadi. Penduduk yang termasuk angkatan kerja adalah penduduk usia kerja (15 tahun dan lebih) yang masih sekolah, mengurus rumah tangga atau melaksanakan kegiatan lainnya selain kegiatan pribadi. Melalui analisis metode CART, diperoleh kelompok pertama yaitu angkatan kerja dengan jenis kelamin perempuan dengan tingkat pendidikan sedang sebanyak 861 (35,58%, n=2564). Kelompok kedua yaitu angkatan kerja dengan jenis kelamin perempuan dengan tingkat pendidikan (tinggi dan rendah) sebanyak 472 (18,41%, n=2564). Kelompok ketiga yaitu angkatan kerja dengan jenis kelamin laki-laki dengan status pernikahan menikah sebanyak 740 (28,86%, n=2564). Kelompok keempat yaitu angkatan kerja jenis kelamin laki-laki dengan status pernikahan belum menikah yang memiliki tingkat pendidikan rendah sebanyak 48 (1,87%, n=2564). Kelompok kelima angkatan kerja jenis kelamin laki- laki status pernikahan menikah yang memiliki tingkat pendidikan tinggi sedang sebanyak 444 (17,32%, n=2564).

Kata Kunci : Angkatan Kerja, Badan Pusat Statistik, CART, Medan.

(6)

iii

Use of Classification And Regression Tree (CART) Method for Classification of Labor Force Participation Levels in Medan City in 2019

ABSTRACT

Classification and regression trees (CART) is a classification method that uses historical data to build a decision tree. The CART methodology was developed in the 80s by Breiman, Friedman, Olshen, Stone in 1984. The labor force participation rate (TPAK) is the population that is not included in the labor force, namely the working age population (15 years and over) who are still in school take care of the household or carry out other activities other than personal activities. The population included in the labor force is the population of working age (15 years and over) who are still in school, taking care of the household or carrying out other activities other than personal activities. Through the analysis of the CART method, the first group was obtained, namely the female workforce with a moderate level of education as many as 861 (33.58%, n=2564). The second group is the female workforce with education levels (high and low) as many as 472 (18.41%, n=2564). The third group is the workforce with male sex with married marital status as many as 740 (28.86%, n=2564). The fourth group is the male sex workforce with unmarried marital status who has a low level of education as many as 48 (1.87%, n=2564). The fifth group of the male sex workforce with married marital status who have a moderate level of higher education is 444 (17.32%, n=2564).

keywords : Labor Force, Central Bureau of Statistics, CART, Medan.

(7)

iv

PENGHARGAAN

Segala puji dan syukur bagi Allah SWT yang melimpahkan rahmat dan ridho- Nya sehingga penulis dapat menyelesaikan penyusunan skripsi dengan judul

“Penggunaan Metode Classification and Regression Tree (CART) Untuk Klasifikasi Tingkat Partisipasi Angkatan Kerja di Kota Medan Tahun 2019” dengan sebaik- baiknya. Sholawat serta salam diberikan kepada Nabi Muhammad SAW beserta keluarga, para sahabat dan orang-orang yang mengikutinya.

Terima kasih sebesar-besarnya penulis sampaikan kepada:

1. Ibu Dr. Elly Rosmaini, M.Si selaku dosen pembimbing saya yang telah memberikan ilmu yang bermanfaat dan dapat meluangkan waktu selama penyusunan skripsi ini.

2. Bapak Dr. Sutarman, M.Sc dan Ibu Dr. Dra. Rahmawati Pane, M.Si selaku dosen pembanding yang telah memberikan kritik dan saran dalam penyempurnaan skripsi ini.

3. Bapak Dr. Suyanto, M.Kom dan Bapak Drs. Rosman Siregar, M.Si selaku Ketua dan Sekretaris Departemen Matematika serta seluruh Bapak dan Ibu dosen yang telah memberikan pengetahuan yang bermanfaat selama menjalani perkuliahan di FMIPA USU.

4. Ibu Dr. Nursaharah Pasaribu, M.Sc selaku Dekan FMIPA dan Wakil-wakil Dekan serta seluruh Staf pegawai di FMIPA USU.

5. Teristimewa keluarga penulis, orangtua penulis Ayahanda Partaonan Siahaan dan Erniwati Hutapea, serta keluarga besar yang senantiasa membantu memberikan dukungan dan mendoakan penulis.

6. Untuk Abangda Gusfahmi, Kak Imas, beserta keluarga besar yang memberikan dukungan dan mendoakan penulis.

7. Terimakasih untuk teman se-Angkatan terkhusus lelaki matematika stambuk 2016 dan teman-teman sekos yang telah menemani selama masa perkuliahan serta member semangat selama proses penulisan.

(8)

v

8. Terimakasih untuk pengurus Imkubik 2018-2019, pengurus Imkubik 2019- 2020, presidium Imkubik 2019-2020 yang telah memberikan kesan indah dan pembelajaran selama masa kuliah dan berorganisasi.

9. Terimakasih untuk Teman Sekontrakan selaku teman seperjuangan yang telah meluangkan waktu dan memberikan motivasi.

Penulis menyadari bahwa skripsi ini masih jauh dari sempurna. Oleh karena itu, kritik dan saran yang membangun sangat penulis harapkan demi perbaikan dalam kesempatan berikutnya.

Medan, September 2021 Penulis,

Makhmul Ikhsan Siahaan 160803064

(9)

vi DAFTAR ISI

Halaman

PENGESAHAN SKRIPSI i

ABSTRAK ii

ABSTRACT iii

PENGHARGAAN iv

DAFTAR ISI vi

DAFTAR TABEL viii

DAFTAR GAMBAR ix

DAFTAR LAMPIRAN x

BAB 1 PENDAHULUAN

1.1 Latar Belakang 1

1.2 Perumusan Masalah 2

1.3 Batasan Masalah 2

1.4 Tujuan Penelitian 3

1.5 Manfaat Penelitian 3

1.6 Metodologi Penelitian 3

BAB 2 TINJAUAN PUSTAKA

2.1 Tingkat Partisipasi Angkatan Kerja 5

2.2 Klasifikasi 6

2.3 Data Mining 6

2.4 Decision Trees 6

2.5 Metode CART 7

2.6 Algoritma CART 9

2.6.1 Pembentukan Pohon Klasifikasi 9

2.6.2 Pemangkasan Pohon Klasifikasi 13 2.6.3 Penentuan Pohon Klasifikasi Optimal 13

2.7 Ukuran Ketetapan Klasifikasi 14

BAB 3 METODE PENELITIAN

3.1 Jenis dan Sumber Data Penelitian 16

3.2 Definisi Operasional Variabel 16

3.3 Identifikasi Variabel 17

3.4 Prosedur Analisis Data 17

BAB 4 HASIL DAN PEMBAHASAN

4.1 Deskripsi Tingkat Partisipasi Angkatan Kerja 19 4.1.1 Karakteristik Angkatan Kerja Berdasarkan Jenis

Kelamin 20

4.1.2 Karakteristik Angkatan Kerja Berdasarkan Tingkat

Pendidikan 20

4.1.3 Karakteristik Angkatan Kerja Berdasarkan Status

Pernikahan 21

(10)

vii

4.1.4 Karakteristik Angkatan Kerja Berdasaasarkan

Pengalaman Pelatihan Kerja 22

4.2 Rangkuman Jumlah Data 22

4.3 Tahapan Analisis Data 25

4.3.1 Membagi Data Menjadi Data Learning dan Data

Testing 25

4.3.2 Membentuk Pohon Klasifikasi Maksimal 26 4.3.3 Pemangkasan Pohon Klasifikasi 38 4.3.4 Memilih Pohon Klasifikasi Maksimal 41 4.3.5 Menghitung Ketepatan Klasifikasi Pohon 44 4.3.6 Menentukan Jumlah Tingkat Partisipasi Angkatan

Kerja 45

BAB 5 PENUTUP

5.1 Kesimpulan 47

5.2 Saran 48

DAFTAR PUSTAKA LAMPIRAN

(11)

viii

DAFTAR TABEL

Nomor Judul Halaman

Tabel

Tabel 2.1 Ukuran Ketepatan Klasifikasi 15

Tabel 3.1 Variabel Penelitian 17

Tabel 4.1 Distribusi Frekuensi dan Persentase 19

Tabel 4.2 Jumlah Angkatan Kerja Berdasarkan Jenis Kelamin 21 Tabel 4.3 Jumlah Angkatan Kerja Berdasarkan Tingkat Pendidikan 24 Tabel 4.4 Jumlah Angkatan Kerja Berdasarkan Status Pernikahan 21 Tabel 4.5 Jumlah Angkatan Kerja Berdasarkan Jumlah Angkatan Kerja 22 Tabel 4.6 Angkatan Kerja Yang Bekerja dan Tidak Bekerja Berdasarkan

Jenis Kelamin dan Tingkat Pendidikan 23

Tabel 4.7 Angkatan Kerja Yang Bekerja dan Tidak Bekerja Berdasarkan

Jenis Kelamin dan Status Pernikahan 24

Tabel 4.8 Angkatan Kerja Yang Bekerja dan Tidak Bekerja Berdasarkan Jenis Kelamin dan Pengalaman Pelatihan Kerja 24 Tabel 4.9 Perbandingan Data Learning dan Data Testing 25 Tabel 4.10 Data Calon Simpul Kiri dan Simpul Kanan 26 Tabel 4.11 Hasil Perhitungan Probabilitas Simpul 27

Tabel 4.12 Hasil Perhitungan Gain Information 30

Tabel 4.13 Hasil Perhitungan Indeks Gini 32

Tabel 4.14 Tabel Nilai Goodness of Split 34

Tabel 4.15 Struktur Pohon 36

Tabel 4.16 Penandaan Label Kelas 38

Tabel 4.17 Nilai Complexity Parameter Pohon T 40

Tabel 4.18 Tabel Proporsi Kesalahan V-Fold Estimated 41 Tabel 4.19 Jumlah Angkatan Kerja Berdasarkan Cabang Jenis Kelamin

Peremuan dan Tingkat Pendidikan 42

Tabel 4.20 Jumlah Angkatan Kerja Berdasarkan Cabang Jenis Kelamin

Laki-Laki dan Status Pernikahan 43

Tabel 4.21 Jumlah Angkatan Kerja Berdasarkan Cabang Jenis Kelamin, Status Pernikahan dan Tingkat Pendidikan 44 Tabel 4.22 Ketepatan Klasifikasi Untuk Data Prediksi 44

(12)

ix

DAFTAR GAMBAR

Nomor Judul Halaman Gambar

Gambar 2.1 Struktur dan Bentuk Pohon Klasifikasi CART 8 Gambar 4.1 Nilai Atribut Laki-Laki dan Perempuan 35 Gambar 4.2 Pohon Keputusan Probabilitas Angkatan Kerja Laki-Laki

Dan Perempuan 35

Gambar 4.3 Pohon Pemangkasan Complexity Parameter Minimum 40 Gambar 4.4 Pohon Pemangkasan Nilai Proporsi Kesalahan 42

(13)

x

DAFTAR LAMPIRAN

Nomor Halaman Lampiran

Lampiran 1 Surat Izin Pengambilan Data BPS Provinsi Sumatera Utara 51 Lampiran 2 Data Survei Angkatan Kerja Nasional Tahun 2019 di Kota Medan 52

Lampiran 3 Output Crosstabulation SPSS 54

Lampiran 4 Perhitungan Pohon Klasifikasi Maksimal 57

Lampiran 5 Perhitungan Complexity Parameter 60

(14)

1

BAB I

PENDAHULUAN

1.1 Latar Belakang

Pengklasifikasian merupakan salah satu metode statistik untuk mengelompokkan atau mengklasifikasikan suatu data yang disusun secara sistematis.

Masalah klasifikasi sering dijumpai dalam kehidupan sehari-hari, baik pengklasifikasian data pada bidang akademik, kesehatan, segmentasi pasar, maupun pada bidang lainnya. Masalah-masalah tersebut dapat diselesaikan dengan metode klasifikasi, namun pada penyelesaiannya perlu diperhatikan dalam memilih metode klasifikasi yang tepat.

Metode klasifikasi dapat dilakukan dengan pendekatan parametrik dan nonparametrik. Salah satu metode klasifikasi dengan pendekatan nonparametrik yang sering digunakan adalah Decision Tree (Pohon keputusan). Pohon keputusan adalah suatu metode eksplorasi berstruktur pohon untuk melihat hubungan antar variabel respon dengan variabel penjelasnya. Beberapa metode yang dapat digunakan dalam metode pohon keputusan antara lain CHAID (Chi-Squared Automatic Interaction Detection Analysis), QUEST (Quick, Unbiased Efficient, Statistical Tree), CART ( Classification and Regression Tree), dan lain-lain dimana masing-masing metode tersebut memiliki kekuatan dan kelemahannya masing-masing (Maimon and Rokach, 2010).

CART (Classification and regression trees) adalah salah satu metode atau alogaritma dari salah satu teknik eksplorasi data yaitu teknik pohon keputusan. CART dikembangkan untuk melakukan analisis klasifikasi pada variabel respon baik yang nominal, ordinal maupun kontinu. CART juga dapat menyeleksi variabel-variabel dan interaksi-interaksi variabel yang paling penting dalam menentukan hasil atau variabel prediktor (Breiman et al, 1993). Tujuan utama CART adalah untuk mendapatkan suatu kelompok data yang akurat sebagai penciri dari suatu pengklasifikasian. Prinsip dari metode pohon klasifikasi ini adalah memilah seluruh amatan menjadi dua gugus amatan dan memilah kembali gugus amatan berikutnya, hingga diperoleh jumlah amatan minimum pada tiap-tiap gugus amatan berikutnya. .

(15)

Penelitian dengan menggunakan klasifikasi CART pernah dilakukan oleh Nuriyah (2013) yaitu membandingkan metode CHAID dan CART dalam menentukan klasifikasi alumni UIN Sunan Kalijaga berdasarkan masa Study dan dapat disimpulkan bahwa metode CART lebih efisien dalam mengklasifikasikan alumni UIN Sunan Kalijaga, hal ini dapat dilihat dari ketepatan klasifikasi CHAID sebesar 63.3% dan ketepatan klasifikasi CART sebesar 66.6%. Selain itu, Klasifikasi CART pernah dilakukan oleh Reny Roswita Nazar (2018) dalam jurnal yang berjudul Penerapan Metode CHAID (Chi-Squared Automatic Interaction Detection) dan Cart (Classification and Regression Trees) Pada Klasifikasi Preeklampsia, menerapkan metode CHAID dan CART dalam klasifikasi Preeklampsia diperoleh hasil bahwa ketepatan hasil klasifikasi dengan algoritma CART sebesar 74% ini lebih tinggi dibandingkan dengan metode CHAID yang sebesar 67%.

Berdasarkan uraian tersebut maka penulis tertarik untuk melakukan penelitian dengan judul penelitian “Penggunaan Metode Classification and Regression Tree (CART) Untuk Klasifikasi Tingkat Partisipasi Angkatan Kerja di Kota Medan Tahun 2019”.

1.2 Perumusan Masalah

Perumusan masalah dalam penelitian ini adalah bagaimana menentukan klasifikasi pada tingkat partisipasi angkatan kerja yang bekerja atau tidak bekerja di kota Medan berdasarkan faktor jenis kelamin, tingkat pendidikan, status pernikahan, dan pengalaman pelatihan kerja dengan menggunakan metode Classification And Regression Trees (CART).

1.3 Batasan Masalah

Agar penelitian yang dilakukan dapat menghasilkan penelitian yang fokus dan akurat, maka diberikan batasan masalah dalam penelitian ini yaitu :

1. Data yang digunakan yaitu data sekunder diperoleh dari Badan Pusat Statistik Provinsi Sumatera Utara

2. Data yang diambil data hasil Survei Angkatan Kerja Nasional (SAKERNAS) yang dilakukan di Kota Medan Tahun 2019.

(16)

3

3. Variabel yang digunakan dalam penelitian ini yaitu variabel usia produktif, jenis kelamin, tingkat pendidikan, status pernikahan dan pengalaman pelatihan kerja.

1.4 Tujuan Penelitian

Tujuan dari penelitian ini adalah untuk mengetahui seberapa besar tingkat partisipasi angkatan kerja yang bekerja dan tidak bekerja di kota Medan berdasarkan faktor jenis kelamin, tingkat pendidikan, status pernikahan, dan pengalaman pelatihan kerja dengan menggunakan metode CART.

1.5 Manfaat Penelitian

Adapun manfaat yang dapat diperoleh dari penelitian ini adalah sebagai berikut:

1. Penelitian ini menjadi salah satu syarat untuk memperoleh gelar sarjana, dan untuk menambah pengetahuan tentang penerapan metode CART dalam proses pengklasifikasian untuk pengambilan keputusan.

2. Dapat menjadi bahan referensi, penyedia informasi, dan bahan untuk melakukan penelitian selanjutnya.

3. Sebagai informasi tambahan untuk pemerintah dalam pengambilan keputusan dan kebijakan dalam mengatasi jumlah tenaga kerja yang ada.

1.6 Metodologi Penelitian

Metodologi yang digunakan dalam penelitian ini adalah sebagai berikut:

1. Studi Pendahuluan

Tahap ini dimulai dengan studi pendahuluan yaitu berupa studi kepustakaan dengan mengumpulkan bahan referensi, mempelajari serta menggali informasi baik dari buku, artikel, paper, jurnal, makalah, maupun situs internet mengenai metode CART (Classfication and Regression Tree).

2. Studi Lapangan

Tahapan selanjutnya adalah melalukan studi lapangan dalam pengambilan data.

Pada penelitian ini data yang digunakan untuk dianalisis adalah data sekunder

(17)

yang diperoleh dari Badan Pusat Statistik (BPS) Sumatera Utara. Data tersebut adalah data hasil Survei Angkatan Kerja Nasional (SAKERNAS) yang dilakukan di Kota Medan tahun 2019.

3. Pengolahan Data menggunakan metode CART (Classfication and Regression Tree).

a. Membagi data menjadi dua bagian yaitu data learning dan data testing, b. Membentuk pohon klasifikasi maksimal,

c. Pemangkasan pohon klasifikasi maksimal, d. Memilih pohon klasifikasi optimal,

e. Menghitung ketepatan klasifikasi pohon dengan menggunakan sensitivity, specificity, dan akurasi,

f. Menghitung jumlah tingkat partisipasi angkatan kerja yang bekerja dan tidak bekerja berdasarkan pohon klasifikasi yang terbentuk.

4. Penarikan kesimpulan dan saran

(18)

5

BAB 2

TINJAUAN PUSTAKA

2.1 Tingkat Partisipasi Angkatan Kerja

Tingkat partisipasi angkatan kerja (TPAK) adalah penduduk yang termasuk bukan angkatan kerja adalah penduduk usia kerja (15 tahun dan lebih) yang masih sekolah, mengurus rumah tangga atau melaksanakan kegiatan lainnya selain kegiatan pribadi. Penduduk yang termasuk angkatan kerja adalah penduduk usia kerja (15 tahun dan lebih) yang masih sekolah, mengurus rumah tangga atau melaksanakan kegiatan lainnya selain kegiatan pribadi. Medan merupakan kota metropolitan terbesar ketiga di Indonesia dan merupakan kota dengan jumlah penduduk terbesar di Sumatera Utara.

Berdasarkan data dari Badan Pusat Statistik kota Medan penduduk kota Medan pada tahun 2017 sebesar 2.247.425 jiwa, dan pada tahun 2018 meningkat menjadi 2.264.145 jiwa.

Tingkat partisipasi angkatan kerja di Kota Medan pada Tahun 2017 sampai 2018 mengalami peningkatan dimana Tingkat Partisipasi Angkatan Kerja meningkat dari 64,35% pada tahun 2017 menjadi 65,99% di Tahun 2018. Menurut Badan Pusat Statistik, Penduduk yang termasuk dalam kategori tenaga kerja adalah penduduk yang berusia 15 tahun keatas. Tingkat partisipasi Angkatan Kerja di kota Medan jika dipandang dari jenis kelamin pada tahun 2018. Jumlah tingkat Partisipasi Angkatan Kerja laki-laki sebesar 58,16% sedangkan tingkat Partisipasi Angkatan Kerja perempuan sebesar 41,84%.

Berdasarkan uraian di atas dapat dilihat bahwa penyerapan angkatan kerja dapat dipengaruhi oleh faktor usia produktif, jenis kelamin, tingkat pendidikan, status pernikahan, dan penyerapan angkatan kerja juga pengaruhi oleh pengalaman pelatihan kerja seperti pelatihan keterampilan atau kursus dimana dengan memiliki pengalaman kerja didukung tingkat pendidikan yang tinggi, maka tenaga kerja akan mempunyai lebih banyak kesempatan untuk mendapatkan pekerjaan. Sehingga untuk mengetahui besar Tingkat Partisipasi Angkatan Kerja di kota Medan berdasarkan faktor-faktor tersebut maka Tingkat Partisipasi Angkatan Kerja di kota Medan akan dikelompokkan menjadi angkatan kerja yang bekerja dan tidak bekerja didasarkan pada faktor yang mempengaruhinya.

(19)

2.2 Klasifikasi

Bagian sangat penting dalam data mining adalah teknik klasifikasi, yaitu bagaimana mempelajari sekumpulan data sehingga dihasilkan aturan yang bisa mengklasifikasi atau mengenali data-data baru yang belum pernah dipelajari.

Klasifikasi dapat didefinisikam sebagai proses untuk menyatakan suatu objek data sebagai salah satu kategori (kelas) yang telah didefinisikan sebelumnya (Suyanto, 2019).

2.3 Data Mining

Secara sederhana, data mining atau penambangan data dapat didefinisikan sebagai proses seleksi, eksplorasi, dan pemodelan dari sejumlah besar data untuk menentukan pola atau kecenderungan yang biasanya tidak disadari keberadaannya.

Data mining ditujukan untuk mengekstrak (mengambil intisari) pengetahuan dari sekumpulan data sehingga didapatkan struktur yang dapat dimengerti manusia (Suyanto, 2019). Dalam data mining, data disimpan secara elektronik dan diproses secara otomatis oleh komputer menggunakan teknik dan perhitungan tertentu.

Untuk analisis data mining ini meliputi tahapan proses Knowledge Discovery in Database (KDD). Keunggulan dari proses KDD adalah proses terorganisir untuk mengidentifikasi pola yang valid, baru, berguna dan dapat dimengerti dari sebuah data set yang besar dan kompleks. Dalam proses KDD melibatkan algoritma untuk mengeksplorasi data, mengembangkan dan menemukan model yang pola sebelumnya tidak diketahui. KDD juga digunakan untuk memahami keadaan data, analisis dan prediksi.

2.4 Decission Trees

Decision Trees adalah metode pengambilan keputusan teknik klasifikasi dengan struktur flowchart yang mirip dengan pohon. Model yang dibentuk oleh metode ini sangat umum dan popular. Teknik ini terdiri dari sekumpulan decision node yang pada tahap ini mengevaluasi semua atribut, dihubungkan oleh cabang, bergerak kebawah dari root node sampai berakhir di leaf node. Tiap cabang dapat masuk ke decision node yang lain ataupun pada leaf node. Decision Trees adalah flowchart seperti struktur pohon yang berusaha menemukan atribut yang tepat untuk

(20)

7

meyelesaikan dan menentukan kelas. Dengan kata lain bahwa atribut yang paling berpengaruh dalam menentukan hasil prediksi adalah aribut yang berada diposisi paling atas dalam struktur pohon. Oleh sebab itu, pembuatan model Decision Trees merupakan proses yang iterative untuk melihat atribut yang paling berpengaruh dan menjadi percabangan dari struktur pohon atau sering disebut titik percabangan atau split point (Nafi’iyah, 2015).

Menurut Jiawei (2012) beberapa algoritma dapat digunakan dalam membangun pohon keputusan antara lain QUEST, C4.5, CHAID (Chi Squared Automatic Interactin Detection), dan CART (Classification and Regression Trees).

Beberapa keuntungan dari pohon keputusan sebagai alat klasifikasi adalah:

1. Pohon keputusan cukup jelas dan mudah dimengerti.

2. Pohon keputusan dapat menangani data yang atributnya bertipe nominal dan numerik.

3. Pohon keputusan mampu menangani kumpulan data yang mungkin memilki kesalahan.

4. Pohon keputusan mampu menangani kumpulan data yang mungkin memiliki nilai- nilai yang hilang.

5. Pohon keputusan dianggap metode nonparametric. Ini berarti bahwa pohon keputusan tidak memiliki asumsi tentang distibusinya.

2.5 Metode CART

Classification and regression trees (CART) merupakan salah satu metode atau algoritma dari salah satu teknik eksplorasi data yaitu teknik pohon keputusan. CART terbilang sederhana namun merupakan metode yang kuat. CART bertujuan untuk mendapatkan suatu kelompok data yang akurat sebagai penciri dari suatu pengklasifikasian, selain itu CART digunakan untuk menggambarkan hubungan antara variabel respon (variabel dependen atau tak bebas) dengan satu atau lebih dari variabel prediktor (variabel independen atau bebas). Model pohon yang dihasilkan bergantung pada skala variabel respon, jika variabel respon data berbentuk kontinu maka model pohon yang dihasilkan adalah regression trees (Pohon Regresi) sedangkan bila variabel respon mempunyai skala kategorik maka pohon yang dihasilkan adalah classification trees (Pohon Klasifikasi) (Breiman L, 1984) . Namun,

(21)

jika dijabarkan secara garis besar, classification adalah metode yang paling umum pada data mining.

CART mempunyai beberapa kelebihan dibandingkan metode klasifikasi lainnya, yaitu hasilnya lebih mudah diinterpretasikan, lebih akurat dan lebih cepat perhitungannya. Selain itu CART bisa diterapkan untuk himpunan data yang mempunyai jumlah besar, variabel yang sangat banyak dan dengan skala variabel campuran melalui prosedur pemilihan biner (Lewis, 2000). Data learning digunakan untuk pembentukan pohon klasifikasi optimal sedangkan data testing digunakan untuk validasi model yaitu seberapa besar kemampuan model dalam memprediksi data baru.

Pohon keputusan dibentuk dengan menggunakan algoritma penyekatan rekursif secara biner (binery recursive partitioning). Pemilihan dilakukan untuk memilih data menjadi 2 kelompok, yaitu kelompok yang masuk simpul kiri dan yang masuk simpul kanan. Pemilihan dilakukan pada tiap simpul sampai didapatkan suatu simpul terminal/akhir. Variabel yang memilah pada simpul utama adalah variabel terpenting dalam menduga kelas dari amatan. Berikut gambar sturuktur pohon klasifikasi:

Gambar 2.1 Struktur Pohon Klasifikasi

t10 t11

t1

t4

t9

t6

t12 t13

t3

t2

t5 t7

t8

(22)

9

Struktur utama (root node) dinotasikan sebagai t1, sedangkan simpul t2, t3, t5, t7,

dan t8 disebut simpul dalam (internal nodes). Simpul akhir yang juga disebut sebagai simpul terminal (terminal nodes) adalah t4, t6, t9, t10, t11, t12 dan t13 dimana tidak terjadi lagi pemilihan. Kedalaman pohon (depth) dihitung dimulai dari simpul utama atau t1

yang berada pada kedalaman 1, sedangkan t2 dan t3 berada pada kedalaman 2. Begitu seterusnya sampai pada simpul terminal t12 dan t13 yang berada pada kedalaman 5.

2.6 Algoritma CART

Algoritma CART merupakan algoritma yang umum dan banyak digunakan dalam mengintegrasikan berbagai faktor dari sumber yang berbeda untuk masalah klasifikasi dan regresi berdasarkan biner rekursif. Algoritma ini tergolong dalam model nonparametric yang tidak memerlukan bentuk fungsional dan telah terbukti menjadi alat ampuh untuk masalah prediksi dan klasifikasi. CART mengandalkan partisi biner rekursif dari data dasar pembangunan pohon regresi. Pohon didirikan dari dataset yang dikumpulkan di simpul pohon akar dan setiap node dibagi menjadi dua node turun menggunakan variabel pemisahan (salah satu variabel prediktor).

Pemilihan variabel pemisahan mencari penurunan variabilitas dalam-node dan untuk peningkatan variabilitas antara-node, dengan setiap partisi yang diperoleh menghasilkan pohon dengan variabilitas yang lebih sedikit daripada pohon sebelumnya.

Data yang digunakan dalam metode CART adalah data learning dan data testing. Data learning adalah data yang siap untuk dimining yang telah melewati data preprocessing sedangkan data testing adalah data yang digunakan untuk menguji klasifikasi yang diperoleh dari data learning. sehingga Algoritma CART melalui tiga tahapan sebagai berikut:

2.6.1 Pembentukan Pohon Klasifikasi

Dalam pembentukan pohon klasifikasi terdiri dari tiga proses yaitu pemilihan atribut, penentuan simpul terminal, dan penandaan label kelas seperti berikut:

1. Pemilihan Pemilah

Pada tahap ini, data yang digunakan adalah data sampel data learning yang kemudian dipilah berdasarkan aturan pemilahan dari kriteria goodness of split.

(23)

Himpunan bagian yang dihasilkan dari proses pemilihan harus lebih homogen dibandingkan pemilihan sebelumnya. Menurut Breiman, et al (1993), fungsi keheterogenan yang sangat mudah dan sesuai diterapkan dalam berbagai kasus adalah indeks gini. Indeks gini akan selalu memisahkan kelas dengan anggota paling besar atau kelas terpenting dalam simpul tersebut terlebih dahulu. Pemilahan yang memberikan penurunan keheterogenan tertinggi merupakan pemilahan terbaik.

Sebelum melakukan pemilihan pemilah dengan menggunakan indeks gini, akan lebih baik mencari gain information dari setiap simpul dengan menggunakan rumus seperti berikut (Jiawei, 2012):

𝐺𝐼(𝑡) = − ∑ 𝑃(𝑗|𝑡) log₂𝑃(𝑗|𝑡)

𝑛

𝑗=1

(2.1) Keterangan:

𝐺𝐼(𝑡) = Gain Information pada simpul 𝑡

𝑃(𝑗|𝑡) = Proporsi kelas 𝑗 pada simpul 𝑡 dimana j =1,2,3, … , 𝑛 dengan 𝑃(𝑗|𝑡) =^𝑛^𝑗^(𝑡)

𝑛(𝑡)

𝑛_𝑗(𝑡) = Banyak pengamatan kelas 𝑗 pada simpul 𝑡 𝑛(𝑡) = Banyak pengamatan pada simpul t

Metode pemilihan pemilah pada metode CART menggunakan indeks gini i(t) yang merupakan pengukuran tingkat keragaman suatu kelas dari suatu simpul tertentu dalam klasifikasi sehingga mampu membantu dalam menemukan fungsi pemilah yang optimal. Fungsi keragaman yang digunakan adalah Indeks gini dimana pemilihan atribut ini akan menghasilkan pohon yang biner. Indeks Gini adalah pengukuran keragaman antara probabilitas nilai-nilai atribut target. Fungsi Indeks Gini sebagai berikut:

𝑖(𝑡) = 1 − ∑ 𝑃²(𝑗|𝑡)

𝑛

𝑗=1

(2.2) Keterangan:

𝑖(𝑡) = indeks gini

𝑃(𝑗|𝑡) = Proporsi kelas 𝑗 pada simpul 𝑡 dimana j =1,2,3, … , 𝑛 dengan 𝑃(𝑗|𝑡) =^𝑛^𝑗^(𝑡)

𝑛(𝑡)

𝑛_𝑗(𝑡) = Banyak pengamatan kelas 𝑗 pada simpul 𝑡

(24)

11

𝑛(𝑡) = Banyak pengamatan pada simpul t

Atribut yang terpilih akan membentuk suatu himpunan kelas yang disebut simpul atau node. simpul akan selalu mengalami pemilihan secara rekursif sampai diperoleh terminal nodes. Langkah selanjutnya adalah menentukan kriteria goodness- of-split yang merupakan suatu evaluasi pemilihan oleh pemilah s pada t yang disebut juga sebagai penuruan keheterogenan dengan rumus sebagai berikut:

𝜙(𝑠, 𝑡) = 𝑖(𝑡) − 𝑃_𝐿𝑖(𝑡_𝐿) − 𝑃_𝑅𝑖(𝑡_𝑟) (2.3) Keterangan:

𝑡_𝑅 = Simpul kanan atau right node 𝑡_𝐿 = Simpul kiri atau left node

𝑃_𝑅 = Proporsi banyaknya objek yang masuk pada 𝑡_𝑅 𝑃_𝐿 = Proporsi banyaknya objek yang masuk pada 𝑡_𝐿

Probabilitas banyaknya objek yang masuk pada 𝑡_𝑅dan 𝑡_𝐿 dapat dihitung dengan rumus sebagai berikut (Mardiani, 2012):

𝑃_𝐿 = 𝑐𝑎𝑙𝑜𝑛 𝑠𝑖𝑚𝑝𝑢𝑙 𝑘𝑖𝑟𝑖

𝑑𝑎𝑡𝑎 𝑙𝑎𝑡𝑖ℎ𝑎𝑛 (2.4)

𝑃_𝐿 = 𝑐𝑎𝑙𝑜𝑛 𝑠𝑖𝑚𝑝𝑢𝑙 𝑘𝑎𝑛𝑎𝑛

𝑑𝑎𝑡𝑎 𝑙𝑎𝑡𝑖ℎ𝑎𝑛 (2.5)

Pengembangan pohon dilakukan dengan mencari semua kemungkinan pemilah pada simpul t, yang kemudian akan ditemukan pemilah 𝑠^∗ yang memberikan nilai penurunan keheterogenan tertinggi yaitu:

𝜙(𝑠^∗, 𝑡) = 𝑚𝑎𝑥_𝑠𝜖𝑆𝜙(𝑠, 𝑡) (2.6) Pemilah yang menghasilkan nilai lebih tinggi merupakan pemilah yang lebih baik karena hal ini memungkinkan untuk mereduksi keheterogenan secara lebih signifikan. Metode pemilahan yang sering digunakan adalah indeks Gini, hal tersebut dikarenakan lebih mudah dan sesuai untuk diterapkan dalam berbagai kasus dan mempunyai perhitungan yang sederhana dan cepat (Breiman L, 1984).

(25)

2. Penentuan Simpul Terminal

Suatu simpul t akan menjadi simpul terminal atau tidak apabila pada simpul t tidak terdapat penurunan keheterogenan secara berarti berdasarkan kriteria goodness- of-split atau hanya terdapat satu pengamatan pada tiap simpul anak atau jumlah kasus minimum dalam suatu terminal akhir pada pengamatan berjumlah kurang atau sama dengan 5 (𝑛 ≤ 5). Selain itu, proses pembentukan pohon juga akan berhenti apabila sudah mencapai batasan jumlah level yang telah ditentukan atau tingkat kedalaman dalam pohon maksimal. Serta proses pemecahan pohon pada node 𝑡 menjadi 𝑡_𝑅 dan 𝑡_𝐿 berlaku:

𝑅(𝑡) > 𝑅(𝑡_𝑅) + 𝑅(𝑡_𝐿) (2.7) Keterangan:

𝑅(𝑡) = Kesalahan pengklasifikasian pada node 𝑡

𝑅(𝑡_𝑅) = Kesalahan pengklasifikasian pada simpul kiri node 𝑡 𝑅(𝑡_𝐿) = Kesalahan pengklasifikasian pada simpul kanan node 𝑡

3. Penandaan Label Kelas

Penandaan label kelas adalah proses pengidentifikasian tiap nodes pada suatu kelas tertentu. Penandaan kelas dilakukan pada terminal nodes, nonterminal nodes, dan root nodes. Akan tetapi, penandaan label paling dibutuhkan pada terminal nodes atau simpul terminal karena simpul ini penting digunakan untuk memprediksi suatu objek pada kelas tertentu yang berada pada simpul terminal ini. Penandaan label kelas pada simpul terminal dilakukan berdasarkan aturan jumlah terbanyak yaitu jika:

𝑃(𝑗|𝑡) = 𝑚𝑎𝑥_𝑗𝑁_𝑗(𝑡)

𝑁(𝑡) (2.8)

Keterangan:

𝑃(𝑗|𝑡) = Proporsi jumlah kelas 𝑗 pada simpul 𝑡 𝑁_𝑗(𝑡) = Jumlah Pengamatan kelas 𝑗 pada simpul 𝑡 𝑁(𝑡) = Jumlah Pengamatan pada simpul 𝑡

Label kelas simpul terminal 𝑡 adalah 𝑗 yang memberi nilai dugaan kesalahan pengklasifikasian simpul 𝑡 terbesar. Proses pembentukan pohon klasifikasi berhenti apabila hanya ada satu pengamatan dalam tiap simpul anak atau adanya batas

(26)

13

minimum 𝑛, semua pengamatan dalam simpul anak identik, dan adanya batasan jumlah level atau kedalaman pohon maksimal.

2.6.2 Pemangkasan Pohon Klasifikasi

Bagian pohon yang kurang penting dilakukan pemangkasan sehingga didapatkan pohon klasifikasi yang optimal. Pohon yang terbentuk dengan aturan pemilah dan kriteria goodness of split berukuran sangat besar karena penghentian pohon berdasarkan banyaknya pengamatan pada simpul terminal atau besarnya tingkat kehomogenan. Ukuran pohon yang besar dapat menyebabkan overfitting, akan tetapi apabila pengamatan pohon dibatasi dengan ketepatan batas tertentu maka akan menyebabkan underfitting. Untuk mendapatkan ukuran pohon yang layak dapat dilakukan dengan melakukan pemangkasan pohon dengan berdasarkan ukuran cost complexity minimum menggunakan rumus sebagai berikut:

gm(𝑡) =^{𝑅(𝑡)−𝑅(𝑇}_|𝑇 ^𝑘⁾

𝑘|−1 (2.9)

Keterangan:

gm(𝑡) = Complexity parameter

𝑅(𝑡) = Kesalahan pengklasifikasian pada node t.

𝑇_𝑘 = Subtree ke-𝑘, dengan 𝑘 = 1,2, … , 𝑛

𝑅(𝑇_𝑘) = Kesalahan pengklasifikasian pada pohon 𝑇_𝑘

Cabang yang dipangkas adalah cabang yang memilki nilai gm(t) terkecil, yaitu:

gm(𝑡_𝑚) = 𝑚𝑖𝑛_𝑡𝜖𝑇_𝑘gm(t) (2.10) Kesalahan pengklasifikasian pada node t diperoleh dengan menggunakan rumus sebagai berikut:

𝑅(𝑡) = 𝑟(𝑡). 𝑃(𝑡) (2.11)

Keterangan:

𝑟(𝑡) = Probabilitas atau peluang terjadinya kesalahan pengklasifikasian pada Pengklasifikasian pada node t dengan 𝑟(𝑡) = 1 − 𝑚𝑎𝑘𝑠 𝑃(𝑗|𝑡)

𝑃(𝑡) = Proporsi banyaknya objek pada simpul 𝑡

2.6.3 Penentuan Pohon Klasifikasi Optimal

Pohon klasifikasi yang berukuran besar akan memberikan nilai cost complexity yang tinggi karena struktur data yang digambarkan cenderung kompleks sehingga

(27)

perlu dipilih pohon optimal yang berukuran sederhana tetapi memberikan nilai penduga pengganti yang cukup kecil. Apabila 𝑅(𝑡) dipilih sebagai penduga terbaik, maka cenderung akan dipilih pohon yang besar, sebab pohon yang semakin besar akan membuat nilai 𝑅(𝑡) semakin kecil. 𝑅(𝑡) atau penduga pengganti merupakan proporsi amatan yang mengalami kesalahan pengklasifikasian.

Penduga yang sering digunakan adalah penduga validasi silang lipat V (cross validation V-fold estimate). Penduga validasi silang lipat V digunakan pada data yang tidak cukup besar yaitu  3000 (kurang dari 3000 data). Dalam cross validation V-fold estimate, pengamatan dalam L dibagi secara random menjadi V bagian yang saling lepas dengan ukuran kurang lebih sama besar untuk setiap kelas. Pohon T^v dibentuk dari sampel learning ke-v dimana v = 1, 2, 3, … V. Penduga sampel uji untuk 𝑅(𝑇_𝑡^(𝑣)) sebagai berikut:

𝑅(𝑇_𝑡^(𝑣)) = 1

N_v∑ 𝑋(𝑑^(v))

𝑉

(2.12) Keterangan:

𝑋(𝑑^(v)) = Hasil Pengklasifikasian

𝑁_𝑉 = Jumlah Pengamatan dalam 𝐿_𝑉

Pohon klasifikasi optimal yang dipilih adalah pohon klasifikasi yang memilki cross validation yang paling kecil yang berarti pohon yang mempunyai tingkat kesalahan pengklasifikasian paling kecil yang memenuhi persamaan:

Tingkat Kesalahan Klasifikasi = 1 −^𝑛¹¹^{+ 𝑛}²²

𝑁 (2.13)

Keterengan:

𝑛₁₁ = Jumlah observasi dari kelas 1 yang tepat diprediksi sebagai kelas 1 𝑛₂₂ = Jumlah observasi dari kelas 2 yang tepat diprediksi sebagai kelas 2

2.7 Ukuran Ketepatan Klasifikasi

Ketepatan klasifikasi digunakan untuk mengetahui apakah data yang diklasifikasikan dengan benar atau tidak. Ketepatan klasifikasi merupakan suatu evaluasi untuk melihat peluang kesalahan klasifikasi yang dilakukan oleh suatu fungsi klasifikasi. Beberapa cara yang biasa digunakan dalam mengukur ketepatan klasifikasi

(28)

15

adalah melalui perhitungan, Sensitivity, specivity, dan akurasi. Sensitivity digunakan untuk mengukur ketepatan klasifikasi pada kelas I. Specivity digunakan untuk mengukur ketepatan klasifikasi pada sampel kelas j. Akurasi digunakan untuk mengukur tingkat ketepatan klasifikasi.

Tabel yang digunakan dalam menghitung ketepatan klasifikasi ditujukan sebagai berikut:

Tabel 2.1 Ukuran Ketepatan Klasifikasi Observasi Y Prediksi Y

Total

1 2

1 𝑛₁₁ 𝑛₁₂ 𝑁₁

2 𝑛₂₁ 𝑛₂₂ 𝑁₂

Total 𝑁₁ 𝑁₂ 𝑁

(Sumber: Jatmiko,Y A et al, 2019)

Dengan menggunakan tabel diatas nilai Sensitivity, specivity, akurasi, dan tingkat kesalahan klasifikasi dapat dihitung dengan menggunakan rumus sebagai berikut:

𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 =𝑛₁₁ 𝑁₁

(2.14)

𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑡𝑦 =𝑛₂₂ 𝑁₂

(2.15)

Akurasi =n₁₁+ 𝑛₂₂ 𝑁

(2.16) Keterangan:

𝑛₁₁ = Jumlah observasi dari kelas 1 yang tepat diprediksi sebagai kelas 1 𝑛₁₂ = Jumlah observasi dari kelas 1 yang tepat diprediksi sebagai kelas 2 𝑛₂₁ = Jumlah observasi dari kelas 2 yang tepat diprediksi sebagai kelas 1 𝑛₂₂ = Jumlah observasi dari kelas 2 yang tepat diprediksi sebagai kelas 2 𝑁₁ = Jumlah observasi kelas 1

𝑁₂ = Jumlah observasi kelas 2

(29)

16 BAB 3

METODE PENELITIAN

3.1 Jenis dan Sumber Data Penelitian

Jenis penelitian yang dilakukan dalam penelitian ini adalah penelitian terapan.

Data yang digunakan dalam penelitian ini merupakan data sekunder. Data tersebut merupakan data angkatan kerja Provinsi Sumatera Utara yang berasal dari hasil survei angkatan kerja nasional (SAKERNAS) di kota medan pada tahun 2019 yang bersumber langsung dari Badan Pusat Statistik (BPS) Provinsi Sumatera Utara.

3.2 Definisi Operasional Variabel

Variabel yang digunakan dalam penelitian ini dapat di definisikan sebagai berikut:

1. Jenis Kelamin adalah pembagian alamiah manusia berdasarkan karakteristik yang dimiliki yaitu laki-laki atau perempuan

2. Tingkat Pendidikan adalah suatu kondisi yang menunjukkan jenjang pendidikan yang ditempuh seseorang. Ada 3 kategori tingkat pendidikan sebagai berikut:

a. Pendidikan rendah yaitu Sekoah Dasar

b. Pendidikan sedang yaitu Sekolah Menengah Pertama (SMP) dan Sekolah Menengah Atas (SMA)

c. Pendidikan tinggi yaitu pendidikan yang ditempuh setelah Sekolah Menengah Atas (SMA) seperti Diploma,Sarjana, dan Pascasarjana

3. Pengalaman Pelatihan Kerja adalah pelatihan-pelatihan yang dilakukan untuk menambah keterampilan seseorang seperti kursus atau seminar

4. Status Pernikahan adalah status yang dimiliki seseorang apakah sudah menikah atau belum

5. Angkatan kerja yang bekerja adalah penduduk usia kerja (15 tahun ke atas) yang sedang memperoleh pendapatan atau keuntungan

6. Angkatan kerja yang tidak bekerja adalah penduduk usia kerja (15 tahun ke atas) yang tidak mempunyai pekerjaan.

(30)

17

3.3 Identifikasi Variabel

Variabel yang digunakan dalam penelitian ini meliputi variabel dependen dan variabel independen. Variabel dependen yang digunakan pada penelitian ini adalah status tingkat partisipasi angkatan kerja di kota Medan tahun 2019. Variabel dependen ini berskala biner yaitu:

• 1 : Angkatan kerja yang bekerja

• 0 : Angkatan kerja yang tidak bekerja

Sedangkan variabel independen yang digunakan pada penelitian ini merupakan faktor-faktor yang mempengaruhi tingkat partisipasi angkatan kerja di kota Medan tahun 2019 yang dapat dilihat pada tabel 3.1.

Tabel 3.1 Variabel Penelitian

Nama Variabel Skala Kategori

Jenis Kelamin Nominal 1 : Laki-Laki 2 : Perempuan Tingkat

Pendidikan Ordinal

1 : Rendah (≤ 𝑆𝐷) 2 : Sedang (SMP-SMA) 3 : Tinggi (Sarjana) Status Pernikahan Nominal 1 : Menikah

2 : Belum Menikah Pengalaman

Pelatihan Kerja Nominal 1 : Pernah 2 : Tidak Pernah

3.4 Prosedur Analisis Data

Analisis data yang digunakan pada penelitian ini sebagai berikut:

1. Membagi data menjadi dua bagian yaitu data learning dan data testing.

2. Membentuk pohon klasifikasi maksimal menggunakan data learning dengan langkah-langkah sebagai berikut:

a. Melakukan pemilihan pemilah berdasarkan aturan pemilihan indeks gini yang selanjutnya dievaluasi menggunakan kriteria goodness of split.

b. Menentukan simpul terminal atau terminal node.

(31)

c. Melakukan penandaan label kelas pada terminal node berdasarkan aturan jumlah terbanyak dari tiap kelas yang ada pada variabel respon.

3. Memangkas pohon berdasarkan kriteria cost complexity minimum.

4. Memilih pohon klasifikasi optimal dengan menggunakan persamaan cross validation V- fold estimated.

5. Menghitung ketepatan klasifikasi pohon hasil bentukan dengan menggunakan data learning dan mengevaluasinya dengan menjalankan data testing pada klasifikasi yang terbentuk dengan menggunakan sensitivity, specificity, dan akurasi.

6. Menghitung jumlah tingkat partisipasi angkatan kerja yang bekerja dan tidak bekerja berdasarkan pohon klasifikasi yang terbentuk.

(32)

19

BAB 4

HASIL DAN PEMBAHASAN

4.1 Deskripsi Tingkat Partisipasi Angkatan Kerja

Pada penelitian ini digunakan empat variabel yang diduga berpengaruh terhadap klasifikasi tingkat partisipasi angkatan kerja diantaranya jenis kelamin, tingkat pendidikan, stastus pernikahan dan pengalaman pelatihan kerja. Untuk mendapatkan gambaran secara menyeluruh mengenai tingkat partisipasi angkatan kerja di kota medan, maka perlu dilakukan diskripsi secara statistik dari empat variabel yang berpengaruh terhadap klasifikasi tingkat partisipasi angkatan kerja. Tabel 4.1 berikut ini data hasil Survei Angkatan Kerja Nasional Tahun 2019 di Kota Medan yang dideskripsikan dengan tabel distribusi frekuensi dan persentase.

Tabel 4.1 Distribusi Frekuensi dan Persentase Angkatan Kerja

Variable Frequency Percentage (%)

Angkatan Kerja

Tidak Bekerja 1254 46.46

Bekerja 1445 53.54

Jenis Kelamin

Perempuan 1403 51.98

Laki-Laki 1296 48.02

Tingkat Pendidikan

Rendah 422 15.63

Sedang 1815 67.24

Tinggi 462 17.13

Status Pernikahan

Belum Menikah 944 34.98

Menikah 1755 65.02

Pengalaman Pelatihan Kerja

Tidak Pernah 2571 95.26

Pernah 128 4.74

Berdasarkan Tabel 4.1 di atas dapat dijelaskan bahwa jumlah responden dengan angkatan kerja tidak bekerja sebanyak 1254 (46.46%) dan bekerja sebanyak 1445 (53.54%). Berdasarkan variabel Jenis Kelamin, jumlah responden dengan jenis kelamin perempuan sebanyak 1403 (51.98%) dan laki-laki sebanyak 1296 (48.02%).

(33)

Berdasarkan variabel tingkat pendidikan, jumlah responden dengan tingkat pendidikan rendah sebanyak 422 (15.63%), sedang sebanyak 1815 (67.24%) dan tinggi sebanyak 462 (17.13%). Berdasarkan variabel status pernikahan, jumlah responden dengan status pernikahan belum menikah sebanyak 944 (34.98%) dan menikah sebanyak 1755 (65.02%). Berdasarkan variabel pengalaman pelatihan kerja, jumlah responden dengan pengalaman pelatihan kerja tidak pernah sebanyak 2571 (95.26%) dan pernah sebanyak 128 (4.74%).

4.1.1 Karakteristik angkatan kerja berdasarkan jenis kelamin

Variabel jenis kelamin merupakan faktor yang berpengaruh terhadap angkatan kerja. Deskripsi jenis kelamin pada angkatan kerja ditunjukkan oleh tabel 4.2.

Tabel 4.2 Jumlah Angkatan Kerja Berdasarkan Jenis Kelamin Status Angkatan Kerja

Total Angkatan kerja

yang bekerja

Angkatan kerja yang tidak bekerja

n % n %

Jenis Kelamin Laki-laki 877 67,7% 419 32,3% 1296 Perempuan 567 40,4% 836 59,6% 1403

Total 2699

Berdasarkan tabel 4.2 di atas dapat dijelaskan bahwa jumlah angkatan kerja laki-laki yang bekerja adalah sebanyak 877 (67,7%, n=2699) sedangkan jumlah angkatan kerja laki-laki yang tidak bekerja adalah sebanyak 419 (32,3%, n=2699).

Untuk jumlah angkatan kerja perempuan yang bekerja adalah sebanyak 567 (40,4%, n=2699) sedangkan jumlah angkatan kerja perempuan yang tidak bekerja adalah sebanyak 836 (59,6%, n=2699).

4.1.2 Karakteristik angkatan kerja berdasarkan tingkat pendidikan

Faktor selanjutnya yang berpengaruh terhadap klasifikasi tingkat partisipasi angkatan kerja adalah tingkat pendidikan. Tingkat pendidikan dibagi menjadi 3 tingkatan yaitu tinggi (sarjana), sedang (SMP-SMA) dan rendah (≤SD). Diskripsi tingkat pendidikan ditunjukkan pada Tabel 4.3.

(34)

21

Tabel 4.3 Tabel Jumlah Angkatan Kerja Berdasarkan Tingkat Pendidikan Status Angkatan Kerja

yang bekerja

Angkatan kerja yang tidak bekerja

n % n %

Tingkat Pendidikan

Tinggi 314 68% 148 32% 462

Sedang 917 50,5% 898 49,5% 1815

Rendah 213 50,5% 209 49,5% 422

Total 2699

Berdasarkan Tabel di atas dapat dijelaskan bahwa jumlah angkatan kerja yang bekerja pada tingkat pendidikan yang tergolong tinggi sebanyak 314 (68%, n=2699) sedangkan jumlah angkatan kerja yang tidak bekerja sebanyak 148 (32%, n=2699).

Angkatan kerja yang bekerja pada tingkat pendidikan sedang yaitu sebanyak 917 (50,5%, n=2699) sedangkan angkatan kerja yang tidak bekerja yaitu sebanyak 898 (49,5%, n=2699). Angkatan kerja yang bekerja pada tingkat pendidikan rendah yaitu sebanyak 213 (50,5%, n=2699) sedangkan angkatan kerja yang tidak bekerja yaitu sebanyak 209 (49,5%, n=2699).

4.1.3 Karakteristik angkatan kerja berdasarkan status pernikahan

Faktor selanjutnya yang berpengaruh terhadap klasifikasi tingkat partisipasi angkatan kerja adalah status pernikahan. Deskripsi status pernikahan pada angkatan kerja ditunjukkan oleh tabel 4.4.

Tabel 4.4 Jumlah Angkatan Kerja Berdasarkan Status Pernikahan Status Angkatan Kerja

yang bekerja

n % n %

Status Pernikahan

Menikah 1009 57,5% 746 42,5% 1755 Belum

Menikah

435 46,1% 509 53,9% 944

Total 2699

(35)

Berdasarkan Tabel di atas dapat dijelaskan bahwa jumlah angkatan kerja yang bekerja dengan status pernikahan menikah sebanyak 1009 (57,5%, n=2699) sedangkan jumlah angkatan kerja yang tidak bekerja sebanyak 746 (42,5%, n=2699).

Angkatan kerja yang bekerja dengan status pernikahan belum menikah yaitu sebanyak 435 (46,1%, n=2699) sedangkan angkatan kerja yang tidak bekerja yaitu sebanyak 509 (53,9%, n=2699).

4.1.4 Karaktersistik angkatan kerja berdasarkan pengalaman angkatan kerja Selain variabel-variabel yang dijelaskan sebelumnya, variabel yang juga berpengaruh terhadap klasifikasi tingkat partisipasi angkatan kerja adalah pengalaman pelatihan kerja. Deskripsi dari pengalaman pelatihan kerja ditunjukkan pada Tabel 4.5.

Tabel 4.5 Jumlah Angkatan Kerja Berdasarkan Pengalaman Angkatan Kerja Status Angkatan Kerja

yang bekerja

n % n %

Pengalaman Pelatihan Kerja

Pernah 78 60,9% 50 39,1% 128

Belum Pernah

1366 53,1% 1205 46,9% 2571

Total 2699

Berdasarkan Tabel di atas dapat dijelaskan bahwa jumlah angkatan kerja yang bekerja dengan pengalaman pelatihan kerja pernah sebanyak 78 (60,9%, n=2699) sedangkan jumlah angkatan kerja yang tidak bekerja sebanyak 50 (39,1%, n=2699).

Angkatan kerja yang bekerja dengan pengalaman pelatihan kerja belum pernah yaitu sebanyak 1366 (53,1%, n=2699) sedangkan angkatan kerja yang tidak bekerja yaitu sebanyak 1205 (46,9%, n=2699).

4.2 Rangkuman Jumlah Data

Berikut merupakan rangkuman data jumlah angkatan kerja yang bekerja dan tidak bekerja berdasarkan jenis kelamin dan tingkat pendidikan, yang bekerja dan tidak

(36)

23

bekerja berdasarkan jenis kelamin dan status pernikahan, yang bekerja dan tidak bekerja berdasarkan jenis kelamin dan pengalaman kerja.

1. Jumlah angkatan kerja yang bekerja dan tidak bekerja berdasarkan jenis kelamin dan tingkat pendidikan :

Tabel 4.6 Angkatan Kerja Yang Bekerja dan Tidak Bekerja Berdasarkan Jenis Kelamin dan Tingkat Pendidikan

Berdasarkan gambar di atas diperoleh bahwa jumlah angkatan kerja yang bekerja dengan jenis kelamin laki-laki dan perempuan masing-masing adalah 877 dan 567 sedangkan jumlah angkatan kerja yang tidak bekerja masing-masing adalah 419 dan 836. Untuk jumlah angkatan kerja yang bekerja dengan tingkat pendidikan tinggi sedang dan rendah masing-masing adalah 314, 917 dan 213 sedangkan jumlah angkatan kerja yang tidak bekerja masing-masing adalah 148, 898 dan 209. Untuk jumlah angkatan kerja jenis kelamin laki-laki dengan tingkat pendidikan tinggi, sedang dan rendah masing-masing adalah 217, 909 dan 170 sedangkan untuk jumlah angkatan kerja jenis kelamin perempuan dengan tingkat pendidikan tinggi, sedang dan rendah adalah 245, 906 dan 252.

2. Jumlah angkatan kerja yang bekerja dan tidak bekerja berdasarkan jenis kelamin dan status pernikahan

Tingkat Pendidikan

Status Angkatan Kerja

Total Bekerja Tidak

Bekerja

Tinggi Jenis Kelamin Laki-laki 165 52 217

Perempuan 149 96 245

Total 314 148 462

Sedang Jenis Kelamin Laki-laki 588 321 909

Total 917 898 1815

Rendah Jenis Kelamin Laki-laki 124 46 170

Total 213 209 422

(37)

Tabel 4.7 Angkatan Kerja Yang Bekerja dan Tidak Bekerja Berdasarkan Jenis Kelamin dan Status Pernikahan

Berdasarkan gambar di atas diperoleh bahwa jumlah angkatan kerja yang bekerja dengan jenis kelamin laki-laki dan perempuan masing-masing 877 dan 567 sedangkan jumlah angkatan kerja yang tidak bekerja masing-masing adalah 419 dan 836. Untuk jumlah angkatan kerja yang bekerja dengan status pernikahan menikah dan belum menikah masing-masing adalah 1009 dan 435 sedangkan jumlah angkatan kerja yang belum bekerja masing-masing adalah 746 dan 509. Untuk jumlah angkatan kerja jenis kelamin laki-laki dengan status pernikahan menikah dan belum menikah masing- masing adalah 779 dan 517 sedangkan jumlah angkatan kerja untuk jenis kelamin perempuan dengan status pernikahan menikah dan belum menikah masing-masing adalah 976 dan 427.

3. Jumlah angkatan kerja yang bekerja dan tidak bekerja berdasarkan jenis kelamin dan pengalaman pelatihan kerja

Tabel 4.8 Angkatan Kerja Yang Bekerja dan Tidak Bekerja Berdasarkan Jenis Kelamin dan Pengalaman Pelatihan Kerja

Status Pernikahan

Bekerja

Menikah

Jenis Kelamin

Laki-laki 624 155 779

Total 1009 746 1755

Belum menikah

Jenis Kelamin

Laki-laki 253 264 517

Total 435 509 944

Pengalaman Pelatihan Kerja

Bekerja Pernah Jenis

Kelamin

Laki-laki 41 24 65

Perempuan 37 26 63

(38)

25

Berdasarkan gambar di atas diperoleh bahwa jumlah angkatan kerja yang bekerja dengan jenis kelamin laki-laki dan perempuan masing-masing 877 dan 567 sedangkan jumlah angkatan kerja yang tidak bekerja masing-masing adalah 419 dan 836. Untuk jumlah angkatan kerja yang bekerja dengan pengalaman pelatihan kerja pernah dan tidak pernah masing-masing adalah 78 dan 1366 sedangkan jumlah angkatan kerja yang tidak bekerja masing-masing adalah 50 dan 1205. Untuk jumlah angkatan kerja jenis kelamin laki-laki dengan pernah dan tidak pernah mengikuti pengalaman pelatihan kerja masing-masing adalah 65 dan 1231 sedangkan untuk jumlah angkatan kerja jenis kelamin perempuan dengan pernah dan tidak pernah mengikuti pengalaman pelatihan kerja masing-masing adalah 63 dan 1340.

4.3 Tahapan Analisis Data

Tahapan analisis data yang digunakan pada penelitian ini adalah dengan menggunakan metode CART (Classification and Regression Tree) dengan langkah- langkah sebagai berikut.

4.3.1 Membagi data menjadi data learning dan data testing

Membagi data menjadi dua bagian yaitu data learning dan data testing.

Pembagian data learning dan data testing pada penelitian ini dapat dilihat pada tabel dibawah ini :

Tabel 4.9 Perbandingan data learning dan data testing

No Perbandingan

Akurasi Data Learning Data Testing

1 95% 5% 72,16%

2 90% 10% 71,66%

3 85% 15% 71,58%

4 80% 20% 71,78%

5 75% 25% 70,28%

Total 78 50 128

Tidak pernah

Jenis Kelamin

Laki-laki 836 395 1231

Total 1366 1205 2571

(39)

Berdasarkan tabel 4.9 di atas perbandingan data learning dan data testing diperoleh proporsi data learning dan data testing yang memiliki nilai akurasi tertinggi adalah perbandingan 95%:5%, sehingga dalam penelitian ini akan digunakan proporsi data learning dan data testing adalah 95%:5%, dimana data learning sebanyak 2564 sampel dan data testing sebanyak 135 sampel.

4.3.2 Membentuk Pohon Klasifikasi Maksimal

Membentuk pohon klasifikasi maksimal dengan melakukan pemilihan pemilah berdasarkan aturan pemilihan indeks gini yang selanjutnya dievaluasi menggunakan kriteria goodness of split. Pada tahapan ini akan dilakukan pemilihan pemilah dengan menggunakan indeks gini dengan calon pemilah yang dapat dilihat pada tabel dibawah ini sebagai berikut:

Tabel 4.10 Data Calon Simpul Kiri dan Simpul Kanan No Calon simpul kiri Calon simpul kanan

1 Jenis kelamin=Laki-laki Jenis kelamin =Perempuan 2 Tingkat

pendidikan=Tinggi

Tingkat pendidikan= sedang, rendah

3 Tingkat

pendidikan=Sedang

Tingkat pendidikan=

tinggi,rendah 4 Tingkat

pendidikan=Rendah

Tingkat pendidikan= tinggi sedang

5 Status

pernikahan=Menikah

Status pernikahan=belum menikah

6 Pengalaman pelatihan kerja= pernah

Pengalaman pelatihan kerja=

tidak pernah

Berdasarkan tabel di atas dapat dijelaskann bahwa calon simpul kiri adalah jenis kelamin laki-laki, tingkat pendidikan tinggi, tingkat pendidikan sedang, tingkat pendidikan rendah, status pernikahan menikah, pengalaman pelatihan kerja pernah.

Sedangkan untuk calon simpul kanan Jenis kelamin perempuan, tingkat pendidikan sedang dan rendah, tingkat pendidikan tinggi dan rendah, tingkat pendidikan tinggi dan sedang, status pernikahan belum menikah, pengalaman pelatihan kerja tidak

(40)

27

pernah. Dari simpul tersebut, akan ditentukan simpul mana yang akan menjadi parent node pada pohon keputusan yang terbentuk.

a. Gain Information

Sebelum mencari nilai gain information, untuk memudahkan sebaiknya terlebih dahulu mencari nilai probabilitas untuk setiap simpul dengan rumus :

𝑃_𝐿 = 𝑐𝑎𝑙𝑜𝑛 𝑠𝑖𝑚𝑝𝑢𝑙 𝑘𝑖𝑟𝑖

𝑑𝑎𝑡𝑎 𝑙𝑎𝑡𝑖ℎ𝑎𝑛 = ¹²³¹

2564 = 0,480109 𝑃_𝑅 =𝑐𝑎𝑙𝑜𝑛 𝑠𝑖𝑚𝑝𝑢𝑙 𝑘𝑎𝑛𝑎𝑛

𝑑𝑎𝑡𝑎 𝑙𝑎𝑡𝑖ℎ𝑎𝑛 = ¹³³³

2564 = 0,51989079 𝑃(𝑗|𝑡_𝐿) =^𝑛^𝑗^(𝑡)

𝑛(𝑡) = ⁸³³

1231 = 0,676685621 𝑃(𝑗|𝑡_𝑅) =^𝑛^𝑗^(𝑡)

𝑛(𝑡) = ⁵³⁹

1333 = 0,404351088

Dengan cara yang sama nilai untuk simpul yang lain disajikan dalam tabel berikut :

Tabel 4.11 Hasil Perhitungan probabilitas simpul

Simpul 𝑷_𝑳 𝑷_𝑹 Kelas 𝑷(𝒋|𝒕_𝑳) 𝑷(𝒋|𝒕_𝑹)

1

1231 2564 = 0,4801092

04

1333 2564 = 0,5198907

96

Bekerja

833 1231 = 0,6766856

21

539 1333 = 0,4043510

88 Tidak

Bekerja

398 1231 = 0,3233143

79

794 1333 = 0,5956489

12

2

439 2564 = 0,1712168

49

2125 2564 = 0,8287831

51

Bekerja

298 439 = 0,6788154

9

1073 2125 = 0,5049411

76 Tidak

Bekerja

141 439 = 0,3211845

1

1052 2125 = 0,4950588

24

3

1724 2564 = 0,6723868

95

840 2564 = 0,3276131

05

Bekerja

871 1724 = 0,5052204

18

501 840 = 0,5964285

71

(41)

Tidak Bekerja

853 1724 = 0,4947795

82

339 840 = 0,4035714

29

4

401 2564 = 0,1563962

56

2163 2564 = 0,8436037

44

Bekerja

202 401 = 0,5037406

48

1169 2163 = 0,5404530

74 Tidak

Bekerja

199 401 = 0,4962593

52

994 2163 = 0,4595469

26

5

1667 2564 = 0,6501560

06

897 2564 = 0,3498439

94

Bekerja

958 1667 = 0,5746850

63

413 897 = 0,4604236

34 Tidak

Bekerja

709 1667 = 0,4253149

37

484 897 = 0,5395763

66

6

121 2564 = 0,0471918

88

2443 2564 = 0,9528081

12

Bekerja

74 121 = 0,6115702

48

1298 2443 = 0,5313139

58 Tidak

Bekerja

47 121 = 0,3884297

52

1145 2443 = 0,4686860

42

Dengan menggunakan nilai pada tabel 4.11 selanjutnya untuk nilai gain information yang digunakan untuk mendeteksi atribut-atribut yang paling banyak memberikan informasi berdasarkan kelas tertentu. Untuk mencari nilai gain information untuk setiap atribut menggunakan rumus :

𝐺𝐼(𝑗𝑘_𝐿) = − ∑ 𝑃(𝑗|𝑡_𝐿) log₂𝑃(𝑗|𝑡_𝐿)

𝑛

𝑗=1

(42)

29

• Jenis kelamin laki-laki = -{(0,676685621) log₂(0,676685621) + (0,323314379) log₂ (0,323314379)}

= 0,381349 + 0,526675

= 0,908024

• Jenis kelamin perempuan = -{(0,404351088) log₂(0,404351088) + (0,595648912) log₂ (0,595648912)}

= 0,528212 + 0,445226

= 0,973438

• Tingkat pendidikan tinggi = -{(0,504941176) log₂(0,504941176) + (0,495058824) log₂ (0,495058824)}

= 0,379392+ 0,526268

= 0,90566

• Tingkat pendidikan = -{( 0,504941176) log₂(0,504941176) + sedang,rendah (0,495058824) log₂ (0,495058824)}

=0,497778 + 0,502152

= 0,99993

• Tingkat pendidikan sedang = -{(0,505220418) log₂(0,505220418) + (0,494779582) log₂ (0,494779582)}

= 0,49765 + 0,502271

= 0,999921

• Tingkat pendidikan = -{(0,596428571) log₂(0,596428571) + tinggi,rendah (0,403571429) log₂ (0,403571429)}

= 0,444683 + 0,528317

= 0,973

• Tingkat pendidikan rendah = -{( 0,503740648) log₂(0,503740648) + (0,496259352) log₂ (0,496259352)}

=0,498324 + 0,501635

= 0,999959

• Tingkat pendidikan = -{(0,540453074) log2(0,540453074) + tinggi,sedang (0,459546926) log2 (0,459546926)}

= 0,479794 + 0,51548

= 0,995274

• Status menikah = -{( 0,574685063) log2(0,574685063) + (0,425314937) log₂ (0,425314937)}

= 0,45926 + 0,524583