KLASIFIKASI REKRUITMENT KARYAWAN BARU DI PT OMRON MENGGUNAKAN ALGORITMA NAIVE BAYES SKRIPSI. Oleh : AGUS PRIANTO

(1)

KLASIFIKASI REKRUITMENT KARYAWAN BARU DI PT OMRON MENGGUNAKAN ALGORITMA NAIVE BAYES

SKRIPSI

Oleh : AGUS PRIANTO

311410027

PROGRAM STUDI TEKNIK INFORMATIKA SEKOLAH TINGGI TEKNOLOGI PELITA BANGSA

BEKASI 2018

(2)

KLASIFIKASI REKRUITMENT KARYAWAN BARU DI PT OMRON MENGGUNAKAN ALGORITMA NAIVE BAYES

SKRIPSI

Diajukan sebagai salah satu syarat untuk menyelesaikan Program Strata Satu (S1) pada Program Studi Tenik Informatika

Oleh : AGUS PRIANTO

311410027

PROGRAM STUDI TEKNIK INFORMATIKA SEKOLAH TINGGI TEKNOLOGI PELITA BANGSA

BEKASI 2018

(3)

(4)

(5)

(6)

iv

SURAT PERNYATAAN PUBLIKASI KARYA ILMIAH

Dengan ini saya yang bertandatangan di bawah ini,

Nama : AGUS PRIANTO

NIM : 311410027

Perrguruan Tinggi : STT Pelita Bangsa Program Studi : Teknik Informatika

Dengan ini memberikan ijin kepada pihak Sekolah Tinggi Teknologi Pelita Bangsa Hak Bebas Royalti Non-Ekslusif atas karya ilmiah penulis.

Pihak Sekolah Tinggi Teknologi Pelita Bangsa berhak menyimpan, mengelola, mendistibusikan atau mempublikasikan di internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari penulis selama tetap mencantumkan nama penulis sebagai penulis atau pencipta karya ilmiah.

Cikarang, 28 Oktober 2018 Yang Menyatakan,

(7)

v ABSTRAK

Salah satu kunci utama dalam menciptakan Sumber Daya Manusia (SDM) yang profesional adalah terletak pada proses rekrutmen, seleksi, training and

development calon tenaga kerja. Salah satu kewajiban dalam sebuah organisasi dan

perusahaan-perusahaan yaitu harus melakukan penyaringan untuk anggota atau para pekerja yang baru, maka dari itu penelitian ini menentukan calon karyawan baru yang layak diterima di PT Omron Manufacturing of Indonesia dengan menerapkan metode naive bayes dalam seleksi calon karyawan baru. Pada penelitian ini menerapkan metode naive bayes untuk menentukan nilai kepastian yang dihasilkan dengan metode naive bayes. Pengujian yang dilakukan dengan menggunakan metode algoritma naive bayes dalam seleksi perekrutan karyawan baru yang layak diterima dan tidak layak diterima. Hasil pengujian dengan menggunakan metode confusion matrix diperoleh akurasi dengan perbandingan data 90 : 10 adalah menghasilkan akurasi 90,91%.

(8)

vi ABSTRACT

One of the main keys in creating professional human resources (HR) lies in the process of recruitment, selection, training and development of prospective workers. One of the obligations in an organization and companies is that they have to do screening for new members or workers, therefore this study determines prospective new employees who are eligible to be accepted at PT Omron Manufacturing of Indonesia by applying the Naive Bayes method in the selection of new prospective employees . In this study applying the Naive Bayes method to determine the certainty value produced by the Naive Bayes method. Naive bayes is a simple probabilistic based prediction technique based on the application of Theorema Bayes with a strong assumption. The test results using the confusion matrix method obtained accuracy with a 90: 10 data comparison is to produce an accuracy of 90.91%.

(9)

vii

KATA PENGANTAR

Dengan memanjatkan puji dan syukur kehadirat Allah SWT atas segala Rahmat, Taufiq, serta Hidayah-Nya sehingga penulis dapat menyelesaikan Skripsi ini dengan judul “Klasifikasi Rekruitment Karyawan Baru PT Omron Menggunakan Algoritma Naive Bayes”. Yang merupakan syarat dalam menyelesaikan Program Studi Sl pada Program Studi Teknik Informatika, Sekolah Tinggi Teknologi Pelita Bangsa.

Selama penulisan skripsi ini penulis mendapat banyak bantuan dan bimbingan dari berbagai pihak, untuk itu pada kesempatan ini penulis mengucapkan terima kasih yang sebesar-besarnya. pada :

1. Aswan Supriyadi Sunge, S.E, M.Kom., selaku Ketua Program Studi Teknik Informatika Sekolah Tinggi Teknologi Pelita Bangsa.

2. Dr. Ir. Supriyanto, M.P., selaku Ketua Sekolah Tinggi Teknologi Pelita Bangsa. 3. Bapak Yoga Religia, S.Kom, M.Kom selaku Dosen Pembimbing I.

4. Bapak Ir. Nanang Tedi, MT. selaku Dosen Pembimbing II.

5. Ayah dan Ibu saya telah banyak memberikan dukungan maupun do'a kepada saya sehingga semua dapat berjalan dengan lancar.

6. Seluruh Dosen Teknik Informatika.

7. Teman-teman STT Pelita Bangsa angkatan 2014.

8. Semua pihak yang telah menbantu penulis dalam menyelesaikan Skripsi. Penulis sadar bahwa tentunya dalam penulisan skripsi ini masih banyak terdapat kekurangan untuk itu saran dan kritik dari pembaca yang sifatnya membangun sangat diharapkan, demi pengembangan kemampuan penulis ke depan.

(10)

viii DAFTAR ISI

LEMBAR PERSETUJUAN ... Error! Bookmark not defined.

LEMBAR PENGESAHAN ... i

SURAT PERNYATAAN KEASLIAN SKRIPSI .. Error! Bookmark not defined. SURAT PERNYATAAN PUBLIKASI KARYA ILMIAH ... iv

ABSTRAK ... v

KATA PENGANTAR ... vii

DAFTAR ISI ... viii

DAFTAR GAMBAR ... x DAFTAR TABEL ... xi BAB 1 PENDAHULUAN ... 1 1.1 Latar belakang ... 1 1.2 Identifikasi Masalah ... 3 1.3 Batasan Masalah ... 3 1.4 Rumusan Masalah ... 3 1.5 Tujuan Penelitian ... 4 1.6 Manfaat Penelitian ... 4 1.7 Sistematika Penulisan ... 5

BAB II PENELITIAN TERDAHULU DAN TINJAUAN PUSTAKA .... 6

2.1 Penelitian Terdahulu ... 6

2.1.1 Kajian jurnal pertama ... 6

2.1.2 Kajian jurnal kedua ... 7

2.1.3 Kajian jurnal ketiga ... 7

2.1.4 Kajian jurnal keempat ... 8

2.1.5 Kajian jurnal kelima ... 8

2.1.6 Kajian jurnal keenam ... 9

2.1.7 Kajian jurnal ketujuh ... 10

2.2 Tinjauan Pustaka ... 11

2.2.1 Perekrutan karyawan di PT Omron ... 11

(11)

ix 2.2.3 Klasifikasi ... 14 2.2.4 Naive Bayes ... 15 2.2.5 Confusion matrix ... 18 2.2.6 Split validation ... 20 2.3 Kerangka Pemikiran ... 22

BAB III METODE PENELITIAN ... 24

3.1 Instrumental Data ... 24

3.1.1 Perangkat Lunak (Software) ... 24

3.1.2 Perangkat Keras (Hardware) ... 24

3.2 Jenis Data ... 25

3.3 Metode Pengumpulan Data ... 26

3.4 Model yang diusulkan ... 26

3.5 Evaluasi dan Validasi ... 27

BAB IV HASIL DAN PEMBAHASAN ... 29

4.1 Langkah Perhitungan ... 29

4.1.1 Model dan Metode yang diusulkan ... 29

4.2 Contoh perhitungan ... 30

4.3 Hasil Pengujian ... 37

4.4 Analisa Hasil Pengujian ... 38

BAB V KESIMPULAN DAN SARAN ... 39

5.1 Kesimpulan ... 39

5.2 Saran ... 39

DAFTAR PUSTAKA ... i

(12)

x

DAFTAR GAMBAR

Gambar 2.1 Tahapan Knowledge Discovery in Database ... 12 Gambar 2.2 Kerangka Pemikiran ... 22 Gambar 3.1 Model pengujian ... 26

(13)

xi

DAFTAR TABEL

Tabel 2.1 Tabel Confusion matrix ... 19

Tabel 2.2 Tabel Split Validation ... 21

Tabel 3.1 Pembagian Data ... 27

Tabel 3.2 Evaluasi Pengujian Akurasi Naive Bayes ... 28

Tabel 4.1 Tabel Data Training ... 30

Tabel 4.2 Tabel Data Testing ... 31

Tabel 4.3 Nilai pengujian manual ... 35

(14)

1 1 BAB I PENDAHULUAN

1.1 Latar belakang

Era globalisasi ini penuh dengan tantangan dan kesulitan-kesulitan di masa yang akan datang yang harus dihadapi oleh masyarakat dan negara berkembang ini. Namun, suatu perusahaan tetap dituntut untuk efektif dalam pengelolaan perusahaannya, agar perusahaan itu dapat bersaing dengan perusahaan lain atau mengikuti perubahan yang terjadi, serta guna mencapai tujuan perusahaan itu sendiri. Dalam aset perusahaan yang paling berharga adalah sumber daya manusianya. Salah satu upaya yang dapat dilakukan perusahaan adalah melakukan seleksi terhadap calon karyawannya. Seleksi dilakukan untuk memilih calon karyawan yang paling memenuhi kriteria yang dicari ditetapkan perusahaan dari sekian banyak pelamar yang ada untuk menempati suatu posisi tertentu dalam perusahaan guna mencapai tujuan perusahaan.[1]

Saat ini persaingan untuk mendapatkan pekerjaan semakin ketat, dimana lapangan kerja yang tersedia semakin sedikit dan proses perekrutan dan seleksi karyawan semakin ketat, sehingga kesempatan orang untuk memperoleh pekerjaan semakin sulit. Kemudian dapat dikatakan lebih lanjut bahwa tujuan utama dari proses rekruitmen dan seleksi pegawai adalah untuk mendapatkan orang yang tepat bagi suatu jabatan tertentu, sehingga orang tersebut mampu bekerja secara optimal dan dapat bertahan di perusahaan dalam jangka waktu yang lama. Meskipun

(15)

2

tujuannya terdengar sangat sederhana, proses rekruitmen tersebut sangatlah kompleks, memakan waktu yang lama dan sangat terbuka peluang untuk melakukan kesalahan dalam menentukan orang yang tepat.[2]

Pada akhirnya, strategi seleksi yang turut mempertimbangkan kecocokan antara individu dengan perusahaan, disamping faktor pengetahuan, keterampilan, dan kemampuan yang dimiliki oleh calon karyawan akan memberikan hasil yang positif bagi perusahaan. Semakin efektif proses seleksi, semakin besar kemungkinan untuk mendapatkan pegawai yang tepat bagi perusahaan. Selain itu, seleksi yang efektif akan berpengaruh langsung pada prestasi kerja karyawan dan kinerja finansial perusahaan. Dengan demikian maka pengembangan dan perencanaan system seleksi merupakan hal penting untuk dilaksanakan setiap perusahaan supaya proses yang berlangsung cukup lama dan memakan biaya tersebut tidak sia-sia.[3]

Pada penelitian ini digunakan metode Naive Bayes Calssifier yang sering disebut sebagai Naive Bayes Classifier. Naive Bayes Calssifier menggunakan teori probabiliti sebagai dasar teori. Metode Naive Bayes Classifier juga memiliki kinerja yang baik terhadap pengklasifikasian data dokumen yang mengandung angka maupun teks. Penelitian ini diharapkan mampu menghasilkan klasifikasi yang akurat agar dapat di jadikan bahan penelitian lebih lanjut karena tingkat keakurasi yang tinggi.[4]

(16)

3

Dengan permasalahan yang terjadi, maka perlu melakukan uji kelayakan perekrutan karyawan baru di PT Omron dengan mengunakan metode naive bayes untuk mendapatkan karyawan yang tepat bagi perusahaan.

1.2 Identifikasi Masalah

Berdasarkan latar belakang diatas maka identifikasi masalah yang pada di penelitian ini adalah belum adanya pemodelan yang digunakan untuk klasifikasi proses perekrutan calon karyawan di PT Omron menggunakan metode naive bayes. 1.3 Batasan Masalah

Batasan masalah ini berfungsi untuk membatasi persoalan yang dihadapi agar tidak menyimpang dari yang diinginkan. Adapun batasan masalahnya sebagai berikut : klasifikasi perekrutan menggunakan algoritma naive bayes ini di buat hanya untuk perekrutan calon karyawan baru PT Omron untuk memperoleh

accuracy,precission dan recall.

1.4 Rumusan Masalah

Berdasarkan latar belakang dan identifikasi masalah yang telah disampaikan, maka perlu di rumuskan suatu masalah yang akan di diselesaikan pada penelitian ini : Bagaimana membuat model klasifikasi perekrutan calon karyawan di PT Omron sesuai kebutuhan dan kriteria perusahaan menggunakan algoritma naive

(17)

4

1.5 Tujuan Penelitian

Dari rumusan masalah yang diatas, maka tujuan penelitian ini adalah membuat model klasifikasi perekrutan calon karyawan di PT Omron Manufacturing of Indonesia dengan metode naive bayes untuk memperoleh accuracy ,precission dan recall.

1.6 Manfaat Penelitian

Dari penelitian ini diharapkan dapat diambil manfaatnya bagi pihak tertentu, yaitu :

1. Bagi Mahasiswa

Dapat memberikan solusi dalam perekrutan karyawan di PT Omron, supaya dalam perekrutan karyawan lebih baik dan lebih tepat dengan kriteria yang dibutuhkan.

2. Bagi Prodi Teknik Informatika

Sebagai acuan untuk melakukan penelitian dengan topik yang serupa maupun sebagai bahan acuan untuk melakukan penelitian lebih lanjut. 3. Bagi Perusahaan

Menambah pengetahuan dan pengalaman yang didapat selama di bangku perkuliahan

(18)

5

1.7 Sistematika Penulisan

Sistematika dalam penulisan skripsi ini, disusun dengan urutan sebagai berikut :

BAB 1 PENDAHULUAN

Bab satu berisi penjelasan mengenai latar belakang masalah, identifikasi masalah, rumusan masalah, batasan masalah, tujuan dan manfaat, serta sistematika penulisan yang di maksudkan agar dapat memberikan gambaran tentang urutan pemahaman dalam menyajikan laporan ini.

BAB 2 PENELITIAN TERDAHULU DAN TINJAUAN PUSTAKA Bab dua membahas mengenai landasan teori yang digunakan untuk menganalisis masalah dan teori yang dipakai dalam mengolah data penelitian yaitu teori mengenai klasifikasi naive bayes dan data mining dan lain-lain.

BAB 3 METODE PENELITIAN

Tahapan penelitian terdiri dari pengumpulan data dari perusahaan , membuat fungsi klasiﬁkasi, dan evaluasi hasil.

BAB 4 HASIL DAN PEMBAHASAN

Pada tahap ini membahas tentang pembahasan langkah perhitungan dari data, jenis data, metode pengumpulan data, model yang diusulkan, dan evaluasi dari hasil perhitungan.

BAB 5 KESIMPULAN DAN SARAN

Bab ini menjelaskan tentang kesimpulan yang diperoleh dari hasil analisis metode naive bayes dan kesimpulan dari hasil perhitungan.

(19)

6 2 BAB II

PENELITIAN TERDAHULU DAN TINJAUAN PUSTAKA

2.1 Penelitian Terdahulu

Pada penelitian terdahulu terdapat 7 kajian jurnal yang di bahas adalah sebagai berikut :

2.1.1 Kajian Jurnal Pertama

Pada jurnal Burham Af,Noor Akhmad S,Teguh Bharata A. Pada tahun 2015 dengan judul Analisis perbandingan tingkat akurasi algoritma naive bayes classifier dengan tingkat correlated-naive bayes classifier. Penelitian ini Membahas Metode yang digunakan untuk membandingkan tingkat akurasi algoritma Naïve Bayes

Classifier dengan Correlated-Naïve Bayes Classifier adalah dengan melakukan

pengujian akurasi beberapa data set. Pada paper ini, data set yang digunakan diambil dari uji repository yaitu : data set iris, data set balance-scale, data set haberman, dan data set servo. Pengujian algoritma Naïve Bayes Classifier dan

Correlated-Naïve Bayes Classifier terhadap data set menggunakan metode

stage-fold. Adapun kesimpulan yang diperoleh Hasil dari pengujian membuktikan bahwa

yang dilakukan terhadap data pengujian hasil yang didapatkan bahwa tingkat akurasi algoritma Correlated-Naive bayes classifier adalah 94.22 dan hasil akurasi

Naive bayes classifier adalah 91.77. Jadi membuktikan bahwa algoritma

Correlated-Naive bayes classifier lebih tinggi akurasi nya di bandingkan dengan

(20)

7

2.1.2 Kajian Jurnal Kedua

Penelitian Niken Puji A,Kusrini,M Rudyanto A. Pada tahun 2015 dengan judul “Analisis prediksi tingkat ketidakdisiplinan siswa menggunakan algoritma

Naive bayes classifier “. Penelitian ini membahas tentang memprediksi siswa yang

berpotensi melakukan kedisiplinan dengan menggunakan algoritma Naive bayes

classifier(NBC). Penelitian yang akan dilakukan pemilihan atribut menggunakan

metode information gain. Adapun Kesimpulan yang diperoleh dari pengujian pada data siswa berjuamlah 895 record dengan konduksi reduki atribut sebesar 75% diurutkan dari nilai information gain(IG) yang terendah dengan perbandingan data training sebesar 75% dan data testing 25% menghasilkan akurasi sebesar 79,01% [5].

2.1.3 Kajian Jurnal Ketiga

Penelitian Novia B,Lian Aga A, Albertus Yoki A. Pada tahun 2016 dengan judul Penerapan Algoritma Naive bayes dan Natural language processing untuk mengklasifikasi jenis berita pada arsip pemberitaan. Penelitian ini membahas tentang mengklasifikasi tentang berita yang memudahkan dan membantu mengarsipkan berita /artikel yang telah di terbitkan . Dari percobaan yang dilakukan ,penentuan sebuah kategori pengarsipan didapat dari inputan teks yang dimasukan kedalam form inputan. Kemudian system akan mengolah data yang dimasukan pengguna dan memberikan solusi kategori dengan nilai akurasi lebih dari 82% sehingga pengguna dapat dengan mudah mengarsipkan dokumen(file) tepat dengan kategorinya[6].

(21)

8

2.1.4 Kajian Jurnal Keempat

Penelitian Erfan Karyadiputra pada tahun 2016 dengan judul analisis Algoritma Naive bayes klasifikasi status kesejahteraan rumah tangga keluarga binaan sosial. Penelitian ini membahas tentang mengklasifikasi status kesejahteraan rumah tangga miskin yaitu rumah tangga sangat miskin (RTSM) dan rumah tangga miskin (RTM) dengan metode confusion matrix maka dari hasil penelitian yang dilakukan dari tahap awal hingga pengujian, dan hasil perbandingan dapat disimpulkan bahwa model yang terbentuk dengan menggunakan algoritma Naive

bayes menghasilkan akurasi yang cukup baik yaitu sebesar 85,80 % berdasarkan

kehandalan dalam klasifikasi berupa nilai AUC yang didapat dari algoritma Naive

bayes adalah 0.930 sehingga tergolong sebagai Excellent Classification sehingga dapat disimpulkan algoritma Naïve Bayes dapat diterapkan untuk melakukan klasifikasi status kesejahteraan rumah tangga.[4]

2.1.5 Kajian Jurnal Kelima

Penelitian Lailatul M. C,Nurul Hidayat,Inu L.wibowo,Imam Muklas pada tahun 2016 yang berjudul Pemilihan jenis asuransi berdasarkan demografi calon pemegang polis dengan metode Naive bayes classifier. Penelitian ini membahas tentang bagaimana menentukan jenis asuransi yang tepat menggunakan task dalam data mining untuk menggali informasi yang berkaitan dengan kebutuhan produk asuransi bagi calon nasabah .Metode yang digunakan untuk klasifikasi adalah Naive

bayes Dari hasil pengujian memperlihatkan hasil eksperimen dengan perbagai

(22)

9

Bayes Classifier diperoleh ketika menggunakan 90% data latih dan 10% data uji

dengan rata-rata tingkat presisi sebesar 94.81% dan akurasi sebesar 94.12%. Dari hasil percobaan di atas, dapat disimpulkan bahwa Naïve Bayes Classifier dapat mampu membantu merekomendasikan produk asuransi yang tepat kepada calon nasabah berdasarkan ciri demografinya.[7]

2.1.6 Kajian Jurnal Keenam

Pada penelitian sebelumnya yang dilakukan oleh Ulfa Pauziah yang berjudul analisis penentuan karyawan terbaik menggunakan metode algoritma

naive bayes pada tahun 2017 . Penelitian ini membahas tentang mengukur tingkat

akurasi dari kajian algoritma naive bayes dalam penentuan karyawan terbaik di PT. XYZ. Pengujian dilakukan dengan mengukur kinerja algoritma tersebut menggunakan bantuan aplikasi weka, dimana dilakukannya dua pengujian. Pertama pengujian dengan Cross Validation dan yang kedua dengan Confusion Matrix serta Kurva ROC.Adapun kesimpulan yang diperoleh dari hasil perhitungan algoritma

naive bayes dengan menggunakan bantuan tool weka didapatkan hasil bahwa 98,57

% algoritma naïve bayes dapat membantu dalam pengambilan keputusan pada penentuan karyawan terbaik, sedangkan 1,4286% tidak dapat membantu untuk pengambilan keputusan. Model yang telah dibentuk diuji tingkat akurasinya dengan memasukan data uji yang berasal dari data training. Karena data yang didapat dalam penelitian ini setelah proses preprocessing hanya 70 data maka digunakan metode cross validation untuk menguji tingkat akurasi. Untuk nilai akurasi model

(23)

10

untuk metode naïve bayes sebesar 98,57 %, Selain itu dalam penelitian ini diuji juga dengan menggunakan confution matrix dan kurva ROC.[1]

2.1.7 Kajian Jurnal Ketujuh

Pada penelitian yang dilakukan oleh Mihuandayani,Eko feriyanto,Syahham dan Kusrini yang berjudul “Opinion Mining pada komentar twitter E-KTP menggunakan Naive bayes Classifier“ pada tahun 2018. Penelitian ini membahas tentang twitter menjadi salah satu media sosial yang digunakan untuk mengutarakan opini tentang berbagai isu atau topik yang sedang tren melalui kolom tweet. Isu terkait dengan Electronic Kartu Tanda Penduduk (E-KTP) sempat menjadi topik yang banyak dikomentari oleh pengguna akun twitter. Adapun metode yang digunakan untuk melakukan opinion mining yaitu Naïve Bayes

Classifier. Penelitian ini menjelaskan tahapan yang dilakukan dalam opinion

mining yaitu text processing, feature extraction dan klasifikasi menggunakan Naïve Bayes. Hasil klasifikasi yang diperoleh melalui data training, dilakukan pengujian dengan data testing. Penelitian ini dalam melakukan opinion mining menerapkan algoritma Naïve Bayes Classifier yang digunakan dalam melakukan klasifikasi untuk topik E-KTP. Klasifikasi dengan naïve Bayes dibagi dalam tiga target fitur yaitu kelas positif, kelas negatif dan kelas netral. Hasil yang diperoleh melalui pengujian sistem pada empat kelompok tweet menghasilkan tingkat akurasi sebesar 89,67 %[8]

(24)

11

2.2 Tinjauan Pustaka

Kajian pustaka adalah proses umum yang kita lalui untuk mendapatkan teoriter dahulu. Berikut beberapa tinjauan pustaka dan teori yang terdahulu.

2.2.1 Perekrutan Karyawan di PT Omron

PT. Omron Manufacturing of Indonesia adalah salah satu perusahaan Omron Corporation Japan yang terdepan dan terkemuka dalam Industri sistem kontrol otomasi yang berlokasi di EJIP Industrial Park, Cikarang, Bekasi, Jawab Barat. PT. Omron Manufacturing of Indonesia telah lebih dari 25 tahun beroperasi di Indonesia sebagai produsen global untuk relay dan Switch dan terus tumbuh dan berkembang dengan mendirikan pabrik otomasi yang memproduksi Sensor, Timer dan Counter serta memberikan solusi bisnis menyeluruh untuk otomasi Industri. PT. Omron Manufacturing of Indonesia juga dikenal sebagai perusahaan yang mempelopori dan mempekerjakan penyandang disabilitas sebagai bagian dari komitmen untuk menghormati semua orang. Dalam menghasilkan produk yang berkualitas dan bermutu tinggi tentunya diperlukan desain perencanaan, organisasi dan manajemen yang lebih baik. Selain itu fasilitas kerja menjadi faktor terpenting didalam menunjang keberhasilan.

2.2.2 Data mining

Data Mining disebut juga Knowledge Discovery in Database (KDD)

didefenisikan sebagai ekstraksi informasi potensial, implisit dan tidak dikenal dari sekumpulan data. Proses Knowlegde Discovery in Database melibatkan hasil proses data mining (proses pengekstrak kecenderungan suatu pola data), kemudian mengubah hasilnya secara akurat menjadi informasi yang mudah dipahami (Sri

(25)

12

Andayani,2010). Pemanfaatan dari data mining sendiri bisa dilihat dari dua sudut pandang, baik sudut pandang komersial dan sudut pandang keilmuan. Dari sudut pandang komersial, data mining bisa digunakan untuk menangani adanya peledakan dari volume data. Dengan melihat bagaimana menyimpannnya, mengekstraknya dan memanfaatkannya. Tentunya berbagai ilmu komputasi dapat untuk menghasilkan informasi yang dibutuhkan.[9]

Gambar 2.1 Tahapan Knowledge Discovery in Database

Gambar 2.1 Menjelaskan tentang proses atau tahapan Knowledge Discovery

in Database ( KDD) mempresentasikan pengetahuan dalam bentuk yang mudah di

pahami pengguna. Data Data Target ... ... Pengetahuan Pilihan Pemrosesan Merubah Data Mining Evaluasi Pre-pemrosesan

Data yang diubah Pola Data

(26)

13

Tahapan-tahapan proses KDD

1. Data Selection

Menciptakan himpunan data target , pemilihan himpunan data, atau memfokuskan pada subset variabel atau sampel data, dimana penemuan (discovery) akan dilakukan. Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.

2. Pre-processing/ Cleaning

Pemprosesan pendahuluan dan pembersihan data merupakan operasi dasar seperti penghapusan noise dilakukan. Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). Dilakukan proses enrichment, yaitu proses “memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.

3. Transformation

Pencarian fitur-fitur yang berguna untuk mempresentasikan data bergantung kepada goal yang ingin dicapai. Merupakan proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data

mining. Proses ini merupakan proses kreatif dan sangat tergantung pada jenis

(27)

14

4. Data mining

Pemilihan tugas data mining; pemilihan goal dari proses KDD misalnya klasifikasi, regresi, clustering, dan lain-lain. Pemilihan algoritma data mining untuk pencarian (searching). Proses data mining yaitu proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.

5. Interpretation/ Evaluation

Penerjemahan pola-pola yang dihasilkan dari data mining. Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.

2.2.3 Klasifikasi

Klasifikasi merupakan bagian dari algoritma data mining, klasifikasi ini adalah algoritma yang menggunakan data dengan target (class/label) yang berupa nilai kategorikal/nominal. Proses klasifikasi didasarkan pada empat komponen mendasar, yaitu Kelas (Class), Prediktor (Predictor), Pelatihan dataset (Training

dataset),Dataset Pengujian (Testing Dataset).Knowledge Discovery in Database

(KDD) merupakan sebuah proses dengan beberapa tingkatan, tidak sepele, interaktif dan berulang untuk identifikasi pola yang dipahami, sah, baru dan secara

(28)

15

potensial berguna mulai dari sekumpulan data yang sangat besar . KDD dikarakteristikkan sebagai sebuah proses yang terdiri dari beberapa tahap operasional : Preprocessing, Data Mining dan Post Processing(Kardianawati, Studi, Informasi, Dian, & Bayes, 2018).

2.2.4 Naive Bayes

Naive bayesian klasifikasi adalah suatu klasifikasi berpeluang sederhana

berdasarkan aplikasi teorema Bayes dengan asumsi antar variabel penjelas saling bebas (independen). Dalam hal ini, diasumsikan bahwa kehadiran atau ketiadaan dari suatu kejadian tertentu dari suatu kelompok tidak berhubungan dengan kehadiran atau ketiadaan dari kejadian lainnya. Naive Bayesian dapat digunakan untuk berbagai macam keperluan antara lain untuk klasifikasi dokumen, deteksi spam atau filtering spam, dan masalah klasifikasi lainnya. Dalam hal ini lebih disorot mengenai penggunaan teorema Naive Bayesian untuk spam filtering[2].

Teorema bayes diformulasikan sebagai berikut (Han, et, al, 2012):

P(H|X)=𝑃(𝐻)𝑃(𝐻)

𝑃(𝑋) (2.1)

Dimana :

X : Data dengan class yang belum diketahui atau Evidence. Digambarkan dengan

ukuran yang dibuat dari sejumlah n atribut

H : Hipotesis data tuple X yang termasuk didalam class tertentu.

(29)

16

P(X|H) : Probabilitas hipotesis X berdasarakan kondisi hipotesis H.

P(H) : Probalitas hipotesis H(Prior Probality).

P(X) : Probabilitas dari X

Untuk menjelaskan teorema Naïve Bayes, perlu diketahui bahwa proses dari klasifikasi membutuhkan sejumlah petunjuk untuk menetukan kelas yang sesuai dengan sampel yang dianalisis, sehinga teorema bayes diatas disesuaikan dengan :

P(Ci| X) = 𝑃(𝐶𝑖)𝑃(𝐶𝑖)

𝑃(𝑋) (2.2)

Disini X mempresentasikan vector masukan yang berisi fitur, sedangkan Ci mempresentasikan kelas label, dengan asumsi bahwa nilai variable dalam kelas saling independen yang kuat (naïve) satu dengan yang lainya maka :

P(X|Ci)= ∏𝑛_𝑘=1𝑃(𝑋𝑘|𝐶𝑖)

=Ci XCiX … X PCi (2.3)

Dikarenakan nilai P(X) dalam setiap kelas bernilai konstan, maka model persamaan Naïve Bayes untuk klasifikasi dapat disederhanakan menjadi :

(30)

17

Laplation Correction digunakan agar kemungkinan probalitas yang dimaksud tidak ada yang bernilai 0. Rumus Laplacion correction dalam kasus ini adalah sebgai berikut :

P(Ci)= 𝑁 𝑖𝑘+𝑃

𝑁𝑖+𝑝.𝑁𝑘 (2.5)

Dimana Nik merupakan jumlah kejadian yang muncul didalam kolom k dari baris

i pada data training, Ni adalah jumlah kemunculan kejadian pada data training

dari kelas Ci, sedangkan Nk adalah jumlah kejadian yang muncul pada kolom k yang terdapat dalam data training, dan p merupakan Arbitrary Probality, disini nilai p =1.

Langkah Penyelesaian Naïve Bayes

Adapun alur dari metode Naive Bayes adalah sebagai berikut : 1. Mulai.

2. Baca data training.

a. Hitung P(Ci) untuk setiap class

b. Hitung P(X|Ci) untuk setiap kriteria dan setiap kelas c. Cari P(X|Ci) yang paling besar untuk menjadi kesimpulan 3. Tampilkan hasil prediksi.

(31)

18

Kelebihan Naïve Bayes /Teori Bayesian mempunyai beberapa kelebihan, yaitu: 1. Mudah untuk dipahami.

2. Hanya memerlukan pengkodean yang sederhana. 3. Lebih cepat dalam penghitungan.

4. Cepat dan efesiensi ruang.

2.2.5 Confusion Matrix

Confusion matrix merupakan salah satu metode yang dapat digunakan untuk

mengukur kinerja suatu metode klasifikasi. Pada dasarnya confusion matrix mengandung informasi yang membandingkan hasil klasifikasi yang dilakukan oleh sistem dengan hasil klasifikasi yang seharusnya. Pada pengukuran kinerja menggunakan confusion matrix, terdapat 4 (empat) istilah sebagai representasi hasil proses klasifikasi. Keempat istilah tersebut adalah True Positive (TP), True

Negative (TN), False Positive (FP) dan False Negative (FN). Nilai True Negative

(TN) merupakan jumlah data negatif yang terdeteksi dengan benar, sedangkan

False Positive (FP) merupakan data negatif namun terdeteksi sebagai data positif.

Sementara itu, True Positive (TP) merupakan data positif yang terdeteksi benar.

False Negative (FN) merupakan kebalikan dari True Positive, sehingga data positif,

namun terdeteksi sebagai data negatif.[10]

Pada jenis klasifikasi binary yang hanya memiliki 2 keluaran kelas, confusion matrix dapat disajikan seperti pada Tabel 2.1.

(32)

19

Tabel 2.1 Tabel Confusion matrix

Classification

Predicted class

Class = Yes Class = No

Class = Yes a ( true positive – TP ) b ( false negative– FN ) Class = No c ( false positive – FP ) d ( true negative – TN )

Pada tabel 2.1 berdasarkan nilai d (true negative –TN),c (false positive – FP),b (false negative – FN),a (True positive – TP) dapat diperoleh nilai akuras,presisi dan recall. Nilai akurasi menggambarkan seberapa akurasi sistem dapat mengklasifikasi data secara benar. Dengan kata lain, nilai akurasi merupakan perbandingan antara data yang terklasifikasi benar dengan keseluruhan data. Nilai akurasi dapat diperoleh dengan persamaan. Nilai presisi menggambarkan jumlah data kategori positif yang diklasifikasikan secara benar dibagi dengan total data yang diklasifikasi positif. Presisi dapat diperoleh dengan Persamaan. Sementara itu, recall menunjukkan berapa persen data kategori positif yang terklasifikasikan dengan benar oleh sistem. Nilai recall diperoleh dengan Persamaan.

Akurasi = 𝑇𝑃+𝑇𝑁 𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁

*100%

(2.6) Presisi = 𝑇𝑃 𝐹𝑃+𝑇𝑃

*100%

(2.7) Recall = 𝑇𝑃 𝐹𝑁+𝑇𝑃

*100%

(2.8) dimana:

(33)

20

 TP adalah True Positive, yaitu jumlah data positif yang terklasifikasi dengan benar oleh sistem.

 TN adalah True Negative, yaitu jumlah data negatif yang terklasifikasi dengan benar oleh sistem.

 FN adalah False Negative, yaitu jumlah data negatif namun terklasifikasi salah oleh sistem.

 FP adalah False Positive, yaitu jumlah data positif namun terklasifikasi salah oleh sistem.

Sementara itu, pada klasifikasi dengan jumlah keluaran kelas yang lebih dari dua (multi-class), cara menghitung akurasi, presisi dan recall dapat dilakukan dengan menghitung rata-rata dari nilai akurasi, presisi dan recall pada setiap kelas.

2.2.6 Split validation

Split Validation adalah teknik validasi yang membagi data menjadi dua

bagian secara acak, sebagian sebagai data training dan sebagian lainnya sebagai

data testing. Dengan menggunakan Split Validation akan dilakukan percobaan

training berdasarkan split ratio yang telah ditentukan sebelumnya, untuk kemudian

sisa dari split ratio data training akan dianggap sebagai data testing. Data training adalah data yang akan dipakai dalam melakukan pembelajaran sedangkan data

testing adalah data yang belum pernah dipakai sebagai pembelajaran dan akan

berfungsi sebagai data pengujian kebenaran atau keakurasian hasil pembelajaran [10]

(34)

21

Tabel 2.2 Tabel Split Validation

Training 90 % Test 10 % Training 80 % Test 20 % Training 70 % Test 30 % Training 60 % Test 40 % Training 50 % Test 50 % Training 40 % Test 60 % Training 30 % Test 70 % Training 20 % Test 80 % Training 10 % Test 90 %

Dari tabel 2.2 tabel split validation digunakan untuk presentase data yang akan diuji dari keseluruhan data.

(35)

22

2.3 Kerangka Pemikiran

Kerangka pemikiran merupakan garis besar dari langkah - langkah penelitian yang sedang dilakukan, kerangka pemikiran dijadikan acuan untuk melakukan tahap – tahap yang sedang dilakukan dalam penelitian

Gambar 2.2 Kerangka Pemikiran

Masalah

Menentukan Calon karyawan yang layak diterima kerja di PT Omron

Tujuan

Menerapkan Algoritma naive

bayes untuk klasifikasi karyawan

PT Omron Model Klasifikasi Hasil Akhir  Akurasi  Recall  Precission Data Penelitian Confusion Matrix Algoritma Naive Bayes

(36)

23

Pada gambar 2.2 Menunjukan permasalahan pada penelitian ini adalah untuk melakukan klasifikasi pada data set PT Omron. Data set PT Omron ini diambil dari data perekrutan calon karyawan yang memiliki 10 atribut data. Teori-teori yang digunakan adalah algoritma naive bayes dan menggunakan metode

confusion matrix. Pengujian yang akan dilakukan dengan menggunakan software

Rapidminer untuk memperoleh akurasi dari model klasifikasi yang dibuat. Hasil pengujian berupa perbandingan antara hasil dari klasifikasi calon karyawan yang menggunakan algoritma naive bayes saja.

(37)

24 3 BAB III

METODE PENELITIAN

3.1 Instrumental Data

Pada penelitian ini akan menggunakan instrumental peralatan yang meliputi peralatan perangkat lunak dan peralatan perangkat keras. Adapun masing-masing kebutuhan dari setiap peralatan adalah sebagai berikut :

3.1.1 Perangkat Lunak (Software) 1. Sistem Operasi Windows 8

Untuk mendukung penelitian, minimal dapat menggunakan sitem operasi windows 8 dengan versi 64 bit, dikarenakan pada versi ini sistem operasi dapat menjalankan software Rapidminer.

2. Rapidminer

Dalam mengimplementasikan metode yang digunakan, maka akan digunakan software Rapidminer untuk membuat model klasifikasi. 3.1.2 Perangkat Keras (Hardware)

Selain membutuhkan perangkat lunak, ada pula perangkat keras yang dibutuhkan untuk implementasi. Adapun spesifikasi perangkat keras yang dibutuhkan yaitu :

Personal komputer dengan spesifikasi minimal  CPU : Core™ i3

 RAM dengan ukuran 6 GB  Hardisk dengan ukuran 500 GB  Layar monitor 14”

(38)

25

3.2 Jenis Data

Data yang digunakan dalam penelitian ini merupakan data sekunder. Data sekunder ini merupakan data perekrutan calon karyawan yang diperoleh dari PT Omron yang berjumlah 212 data. Data perekrutan calon karyawan yang diambil 9 atribut. Berikut atribut-atributnya adalah :

1. Nama : merupakan atribut yang berisikan nama calon karyawan. 2. Umur : merupakan data usia dalam bentuk numeric.

3. Jenis kelamin : merupakan atribut yang berisikan jenis orang. Atribut ini memiliki kategori “ laki-laki dan perempuan”.

4. Pendidikan : merupakan atribut yang memiliki kategori “sma dan smk”. 5. Tes tertulis : merupakan atribut yang berisikan hasil dari tes. Atribut ini

dalam bentuk numeric.

6. Psikotes : merupakan atribut yang berisikan hasil dari tes. Atribut ini dalam bentuk numeric.

7. Wawancara : merupakan atribut yang berisikan hasil tes dari pertanyaan.atribut ini dalam bentuk numeric.

8. Kesehatan : merupakan atribut yang berisikan keadaan fisik. Atribut ini meiliki kategori “sehat dan tidak sehat “.

9. Keterangan : merupakan atribut yang berisikan hasil dari penilaian dari hasil semua tes. Atribut ini memiliki kategori “diterima dan tidak diterima”.

Dari 9 atribut ini yang dimiliki akan digunakan untuk menentukan 1 class yaitu class “ Y”. Class “Y” ini merupakan keterangan apakah diterima atau tidak diterima di PT Omron.

(39)

26

3.3 Metode Pengumpulan Data

Data yang digunakan dalam penelitian ini merupakan data kualitatif dalam bentuk dokumentasi. Dalam pengumpulan data-data yang dibutuhkan dalam penelitian dengan menggunakan metode studi literature (Library Research). Metode studi literature ini dilakukan dengan cara mencari informasi mengenai permasalahn yang diteliti berdasarkan buku-buku, jurnal, paper atau sumber lain yang berkaitan.

3.4 Model yang diusulkan

Model yang diusulkan untuk klasifikasi menggunakan algoritma Naïve bayes adalah menggunakan model split validation. Split validation membagi data menjadi dua subset data yaitu data trainning dan data testing. Data trainning merupakan data yang digunakan untuk pelatihan, sedangkan data testing akan digunakan untuk pengujian. Adapaun untuk melihat secara lebih jelas dari model split validation dapat dilihat pada gambar 3.1

Gambar 3.1 Model pengujian

Preposed data Testing Data Training Data Model Development Model Assessment Accuration Precision Recall Classifier

(40)

27

Pada gambar 3.1 akan digunakan untuk melakukan pengujian sebanyak sepuluh kali yang masing-masing proporsi pembagian datanya dapat dilihat tabel 3.1.

Tabel 3.1 Pembagian Data

Training Testing 75% 25% 80% 20% 85% 15% 90% 10% 95% 5%

Dari delapan kali percobaan yang dilakukan berdasarkan proporsi dari tabel 3.1 setiap hasil yang diperoleh akan ditentukan jumlahnya untuk diambil nilai rata-rata.

3.5 Evaluasi dan Validasi

Tahapan evaluasi yang dilakukan dalam penelitian ini adalah untuk memberikan penilaian dari hasil penggunaan algoritma naive bayes saja dan naive

bayes yang disertai dengan confusion matrix untuk mengklasifikasi data perekrutan

calon karyawan di PT Omron. Bagian yang akan dievaluasi adalah presentase data, jumlah data training, jumlah data testing , dan nilai akurasi yang dihasilkan. Adapaun secara keseluruhan dapat dilihat pada tabel 3.2.

(41)

28

Tabel 3.2 Evaluasi Pengujian Akurasi Naive Bayes

Presentase Data Data Training

Data Testing

Akurasi Precision Recall

75 : 25 ₁₅₀ 50 ? ? ?

80 : 20 ₁₆₀ 40 ? ? ?

85 : 15 ₁₇₀ 30 ? ? ?

90 : 10 ₁₈₀ 20 ? ? ?

95 : 5 ₁₉₀ 10 ? ? ?

Dari tabel 3.2 akan digunakan untuk validasi nilai akurasi dari algoritma

naive bayes saja. Dari nilai akurasi yang dihasilkan akan ditentukan rata-rata

akurasi pada algoritma. Kemudian akan dibandingkan dengan model yang dimiliki akurasi yang lebih tinggi untuk mengklasrifikasi data perekrutan calon karyawan di PT Omron.

(42)

29 4 BAB IV

HASIL DAN PEMBAHASAN

4.1 Langkah Perhitungan

Pada tahap ini metode yang digunakan dalam perhitungan tingkat akurasi adalah algoritma naive bayes dengan melakukan pengujian akurasi data set dan perhitungan manual. Berikut langkah metode algoritma naive bayes :

1. Membagi data set kedalam data testing dan data training.

2. Menghitung jumlah class dari klasifikasi yang sudah terbentuk yaitu class diterima dan tidak diterima untuk setiap class.

3. Menghitung jumlah kasus yang sama dari kelas yang sama X, dalam kasus

data set pada penelitian ini terdiri dari 2 class yaitu diterima dan tidak

diterima.

4. Hitung untuk setiap kelas atau atribut.

5. Setelah itu bandingkan, jika class diterima dan calss tidak diterima yang sudah dihitung lebih besar dari tidak diterima, maka hasilnya diterima dan jika class yang diterima kecil dari class tidak diterima ,maka hasilnya tidak diterima.

4.1.1 Model dan Metode yang diusulkan

Metode yang akan digunakan dalam penelitian ini adalah algoritma naive

bayes. Dalam pemodelan ini algoritma naive bayes akan dicari performance

(43)

30

Gambar 4.2 Model untuk menemukan performance algoritma

4.2 Contoh perhitungan

Contoh perhitungan dalam penelitian ini menggunakan sepuluh data sampel terdiri dari 9 atribut untuk menentukan sebuah class, yang mana dari sepuluh data tersebut akan digunakan untuk melakukan perhitungan algoritma Naive bayes. Adapun data kasus tersebut dapat dilihat pada tabel 4.1.

Tabel 4.1 Tabel Data Training

Nama umur Jenis kelamin

Pendidikan Nilai 1 Nilai 2 Nilai 3 Kesehatan Keterangan

Arizal Sedang L SMK B SB B S Diterima

Anton Sedang L SMK SB B B TS Diterima

Ridho Sedang L SMA B KB SB S Diterima

Supri Sedang L SMK KB SB B S Tidak

Diterima

Amin Sedang L SMK KB B B S Diterima

Lilik Sedang L SMA KB B B TS Tidak

Diterima

Yazid Baya L SMK B KB SB TS Tidak

Diterima

Heru Baya L SMK B KB B S Diterima

Data Set Processing  Data Cleanning Model  Naive Bayes Validation  Apply Model  Performance

Hasil Akurasi dan confusion matrix

(44)

31

Fitri Sedang P SMA SB B KB TS Tidak

Diterima

Yuli Sedang P SMK SB B SB S Diterima

Untuk memudahkan dalam pemahaman perhitungan Naive bayes secara manual akan dibuat studi kasus sebagai berikut berupa data testing:

Tabel 4.2 Tabel Data Testing

Nama Umur Jenis Kelamin Pendidikan Nilai 1 Nilai 2 Nilai 3 Kesehatan Keterangan

Ridho Sedang L SMA B KB SB S ?

Supri Sedang L SMK KB SB B S ?

Data testing 1 : X = (Nama=Ridho, Umur=Sedang, Jenis kelamin=”L”, Pendidikan= “SMA”, Nilai 1=”B”, Nilai= “KB”, Nilai= “SB”, Kesehatan=”S”) Data testing 2 : X = (Nama=Supri, Umur= Sedang, Jenis kelamin=”L”, Pendidikan= “SMK”, Nilai 1=”KB”, Nilai= “SB”, Nilai= “B”, Kesehatan=”S”)

Berikut perhitungan manual dengan metode naive bayes dengan beberapa tahap : 1. Tahap 1 menghitung jumlah kelas atau prediksi data testing yang pertama P(Ci)

P(Diterima) = 105

212 = 0,4952

P(Tidak Diterima) = 107

212 = 0,5047

Tahap 2 menghitung jumlah kasus yang sama dengan kelas yang sama. P(X | Ci)

P(Sedang | Diterima) = 99

(45)

32

P(Sedang | Tidak Diterima) = 99

107 = 0,9252

P(Laki-laki | Diterima) = 55

105 = 0,5238

P(Laki-laki | Tidak Diterima) = 67

107 = 0,6261

P(SMA | Diterima) = 28

105 = 0,2666

P(SMA | Tidak Diterima) = 23

(46)

33

Tahap 3 mengkalikan semua hasil dari atribut Diterima dan Tidak Diterima. P(X |Diterima)= 0,9428 * 0,5238 * 0,2666 * 0,6285 * 0,1523 * 0,4095 = 0,005160 P(X | Tidak Diterima) = 0,9252 * 0,6261 * 0,2149 * 0,4766 * 0,3177 * 0,1308

= 0,002465

Tahap 4 membandingkan nilai kelas Diterima dengan Tidak Diterima P(X | Ci * P(Ci)

P(X | Diterima) * P(Diterima) = 0,005160 * 0,4952 = 0,002555

P(X | Tidak Diterima) * P(Tidak Diterima) = 0,002465 * 0,5047 = 0,001244

2. Perhitungan dengan data testing yang kedua P(Ci)

P(Diterima) = 105

212 = 0,495

P(Tidak Diterima) = 107

212 = 0,504

Tahap 2 menghitung jumlah kasus yang sama dengan kelas yang sama. P(X | Ci)

P(Sedang | Diterima) = 99

105 = 0,9428

P(Sedang | Tidak Diterima) = 99

107 = 0,9252

P(Laki-laki | Diterima) = 55

(47)

34

P(Laki-laki | Tidak Diterima) = 67

Tahap 3 mengkalikan semua hasil dari atribut Diterima dan Tidak Diterima pada data testing yang kedua.

P(X |Diterima) = 0,9428 * 0,5238 * 0,7333* 0,1142 * 0,3619 * 0,5333 = 0,007981

P(X | Tidak Diterima) = 0,9252 * 0,6261 * 0,7850 * 0,2242 * 0,2336 * 0,3738 = 0,008902

(48)

35

Tahap 4 membandingkan nilai kelas Diterima dengan Tidak Diterima. P(X | Ci * P(Ci)

P(X | Diterima) * P(Diterima) = 0,007981 * 0,4952 = 0,003952

P(X | Tidak Diterima) * P(Tidak Diterima) = 0,008902 * 0,5047 = 0,004492

Jadi data yang dihitung untuk nama=”Ridho”, Umur= “Sedang”, Jenis kelamin=”L”, Pendidikan = “SMA”, Nilai 1 =”B”, Nilai 2 = “KB”, Nilai 3 = “SB”, Kesehatan=”S”, hasilnya “Diterima” dengan hasil perhitngannya 0,002555.

Data testing yang kedua dengan nama = “Supri”, Umur = “Sedang”, Jenis Kelamin = “L”, Pendidikan = “SMK”, Nilai 1 =”KB”, Nilai 2 = “SB”, Nilai 3 = “B”, Kesehatan = “S”, hasilnya Tidak Diterima dengan hasil perhitungannya 0,004492. Pada tahap pertama pengujian model yang dilakukan dengan data original yang sebagian masih memiliki data kosong. Kemudian dilakukanpengujian dilakukan menggunkan algoritma naive bayes dengan validasi model klasifikasi dilakukan terhadap data testing.

Tabel 4.3 Nilai pengujian manual Nilai sebenarnya Nilai sebenarnya TRUE FALSE TRUE TP 11 TN 2 FALSE FN 0 TN 9

(49)

36

Perhitungan manual confusion matrix : Akurasi = (𝑇𝑃+𝑇𝑁) (𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁)∗ 100% = (11+9) (11+9+2+0)∗ 100% = 20 22∗ 100% = 0,9091 *100% = 90,91% Precision = 𝑇𝑃 (𝑇𝑃+𝐹𝑃)∗ 100% = 11 11+2∗ 100% = 11 13∗ 100% = 0,8462 * 100% = 84,62% Recall = 𝑇𝑃 (𝑇𝑃+𝐹𝑁)∗ 100% = 11 (11+0)∗ 100% = 11 11∗ 100% = 1 * 100% = 100% Recall = 𝑇𝑁 (𝑇𝑁+𝐹𝑃)100% = 9 (9+2)∗ 100% = 9 11∗ 100% = 0,8182 * 100% = 81,82%

(50)

37

4.3 Hasil Pengujian

Uji coba dilakukan untuk mengetahui apakah perhitungan yang telah dilakukan diatas sesuai klasifikasi calon karyawan dengan metode naive bayes. Dalam uji coba yang dilakukan dengan menentukan sepuluh data testing yang telah dipilih dengan kasus yang di hitung manual yaitu dua data.

Tabel 4.4 Hasil pengujian Rapidminer

Accurasy 90,91%

True Diterima True Tidak Diterima Class Precission

Perd.Diterima 11 2 84,62

Pred.Tidak Diterima 0 9 100

Class Recall 100 81,82

Dari hasil pengujian tersebut didapatkan akurasi yang sudah cukup baik sekitar 90,91%. Pada tahap evaluasi dan validasi model klasifikasi pengujian yang dilakukan terhadap data testing dengan metode tersebut dan dilakukan dengan teknik split validation sehingga dapat dievaluasi hasilnya dengan mengukur seberapa keakuratan akurasi yang dilakukan dari beberapa percobaan tersebut menggunakan metode naive bayes. Namun sebelum melakukan percobaan tersebut ,terlebih dahulu akan dilakukan percobaan dengan mengganti split ratio. Proses akurasi dengan Rapidminer menggunakan metode naive bayes yang digunakan untuk mengklasifikasi data perekrutan calon karyawan pada penelitian ini. Pada penelitian ini untuk mengetahui nilai akurasi dari algoritma naive bayes yang digunakan untuk mengklasifikasi yang diterapkan yaitu naive bayes. Sedangkan di

(51)

38

dalam kolom testing terdapat Apply Model untuk menjalankan model naive bayes dan performance untuk mengukur performa dari model naive bayes tersebut. 4.4 Analisa Hasil Pengujian

Berdasarkan penelitian yang dilakukan, telah dihasilkan suatu pola, informasi, dan pengetahuan baru dalam proses data mining untuk klasifikasi perekrutan karyawan. Dari penelitian tersebut dihasilkan suatu pola, informasi, dan pengetahuan baru sesuai dengan tujuan data mining yaitu pola perhitungan data mining yang berisi data training dan data testing serta mencari probabilitas dari setiap atribut berdasarkan data training dan data testing untuk menghasilkan suatu informasi baru, apakah pada data perekrutan karyawan lebih banyak yang diterima atau tidak diterima. Kemudian untuk menguji tingkat keakurasiannya maka digunakan Rapidminer sebagai alat bantu dalam proses pengujian tingkat akurasi dari klasifikasi tersebut.

Dari hasil pengujian dapat diketahui tingkat akurasi dari algoritma naive

bayes menggunakan confusion matrix dengan jumlah data 80 menunjukkan bahwa

tingkat akurasinya 50%, yang terdiri dari 50% untuk data training dan 50% untuk data testing. Sedangkan untuk hasil pengujian dengan jumlah data 212 dengan perbandingan 90 : 10 menunjukkan bahwa tingkat akurasinya sebesar 90,91%. Dimana jumlah data sangat berpengaruh dalam proses pembentukan model dan proses pengujian model. Jadi semakin data training yang diuji, maka semakin besar pula hasil akurasinya.

(52)

39

5 BAB V

KESIMPULAN DAN SARAN

5.1 Kesimpulan

Berdasarkan hasil penelitian yang telah dilakukan mengenai klasifikasi perekrutan karyawan di PT Omron Manufacturing of Indonesia dengan metode

naive bayes maka dapat diambil beberapa kesimpulan sebagai berikut :

1. Metode Naive Bayes yang digunakan memberikan proses penyeleksian yang cepat dan algoritma yang mudah dipahami dengan tingkat akurasi tinggi.

2. Pada penelitian ini dengan menggunakan algoritma Naive Bayes yang di lakukan sudah dilihat baik dari data yang diperoleh dengan perbandingan 90 : 10 hasil akurasinya 90,91%.

5.2 Saran

Berdasarkan hasil penelitian yang telah dilakukan mengenai klasifikasi perekrutan karyawan di PT Omron Manufacturing of Indonesia dengan metode

Naive Bayes , maka terdapat beberapa saran yang perlu diperhatikan :

1. Peneliti telah membahas penggunaan metode Naïve Bayes dalam penelitian klasifikasi perekrutan karyawan, diharapkan dalam penelitian selanjutnya dapat dibandingkan dengan memanfaatkan metode klasifikasi lainnya seperti metode C.4.5, metode nearest neighbor guna menentukan kelas berdasarkan atribut-atribut yang telah ditentukan sehingga dengan

(53)

40

menggunakan banyak metode dapat mengetahui kelebihan masing-masing metode dan metode mana yang menghasilkan nilai akurasi yang lebih baik.

(54)

i

6 DAFTAR PUSTAKA

[1] U. Fauziah, “ANALISIS PENENTUAN KARYAWAN TERBAIK MENGGUNAKAN METODE ALGORITMA NAIVE BAYES ( STUDI KASUS PT . XYZ ) Ulfa Pauziah,” no. April, pp. 94–102, 2017.

[2] A. Jamaluddin, “SISTEM PENDUKUNG KEPUTUSAN SELEKSI KARYAWAN PT . JAPFA COMFEED INDONESIA TBK CABANG KEDIRI MENGGUNKAN METODE NAIVE BAYES BERBASIS WEB Oleh : Dibimbing oleh :,” vol. 2, no. 4, pp. 1–13, 2018.

[3] B. A. Muktamar, N. A. Setiawan, T. B. Adji, J. G. No, K. Ugm, and D. I. Yogyakarta, “ANALISIS PERBANDINGAN TINGKAT AKURASI ALGORITMA NAÏVE BAYES CLASSIFIER DENGAN

CORRELATED-NAÏVE BAYES CLASSIFIER,” pp. 6–8, 2015. [4] E. Karyadiputra, S. Kom, and M. Kom, “ANALISIS ALGORITMA

NAIVE BAYES UNTUK KLASIFIKASI STATUS KESEJAHTERAAN RUMAH TANGGA KELUARGA BINAAN SOSIAL,” vol. 7, no. 4, pp. 199–208, 2016.

[5] N. P. Astuti and M. R. Arief, “ANALISIS PREDIKSI TINGKAT

KETIDAKDIPLINAN SISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER ( STUDI KASUS : SMK NEGERI 1 PACITAN ),” pp. 6–8, 2015.

[6] N. Busiarli, L. A. Aditya, and A. Y. Andika, “PENERAPAN ALGORITMA NAÏVE BAYES & NATURAL LANGUAGE

PROCESSING UNTUK MENGKLASIFIKASI JENIS BERITA,” pp. 6–7, 2016.

[7] L. M. Chaira, N. Hidayat, and I. L. Wibowo, “PEMILIHAN JENIS ASURANSI,” vol. 13, pp. 11–20, 2016.

[8] E. Feriyanto, “OPINION MINING PADA KOMENTAR TWITTER E-KTP MENGGUNAKAN NAIVE BAYES CLASSIFIER,” pp. 25–30, 2018.

[9] K. A. Heryono, “Implementasi Metode Naive Bayes Untuk Klasifikasi Kredit Motor,” vol. x, no. x, pp. 10–21, 2018.

[10] D. Untari, “DATA MINING UNTUK MENGANALISA PREDIKSI MAHASISWA BERPOTENSI NON-AKTIF MENGGUNAKAN,” 2010.

(55)

1