ANALISIS DAN IMPLEMENTASI ALGORITMA ID3 DAN CART PADA PENILAIAN KINERJA PEGAWAI. Fathurahman Alhikmah, Erwin Budi Setiawan, Mahmud Imrona

(1)

120 ANALISIS DAN IMPLEMENTASI ALGORITMA ID3 DAN CART PADA PENILAIAN KINERJA

PEGAWAI

Fathurahman Alhikmah, Erwin Budi Setiawan, Mahmud Imrona Jurusan Ilmu Komputasi, Fakultas Informatika

Universitas Telkom, Bandung

ujangfathur@gmail.com, setiawanerwinbudi@gmail.com, mhd@ittelkom.ac.id Abstrak

Konsep yang dipakai untuk membuat sistem pendukung keputusan, salah satu nya adalah

Decission Tree Learning (DCT). Algoritma ID3 dan CART merupakan bagian dari DCT, konsep

daripada kedua algoritma tersebut akan menghasilkan sebuah generate dari pohon keputusan dan nantinya akan menjadi sebuah rule.Penelitian kali ini dibangun sebuah sistem yang dapat menganalisis implementasi penilaian kinerja pegawai dengan menggunakan algoritma ID3, dan CART.Data yang digunakan didapatkan dari perusahaan X tentang penilaian kinerja pegawai untuk merekomendasikan bonus tunjangan tahunan.

Pada penelitian ini didapatkan performance dari ID3, dan CART, untuk nilai presisi pencapaian tertinggi ada pada masing masing algoritma antara lain ID3 ada pada pembagian partisi 70% data latih, dan 30% data uji, sedangkan untuk pembagian nilai presisipada CART ada pada pembagian partisi 80% data latih, dan 20% data uji. Untuk pencapaian tertinggi nilai recall pada algoritma ID3 ada pada pembagian partisi 50% data latih, dan 50% data uji, sedangkan untuk pencapaian nilai recall tertinggi pada CART ada pada pembagian partisi 30% data latih, dan 70% data uji. Untuk pencapaian nilai akurasipada algoritma ID3 ada pada pembagian partsi 70% data latih, dan 30% data uji, sedangkan untuk pencapaian tertinggi nilai recall pada CART ada pada pembagian partisi 80% data latih, dan 20% data uji.Secara dominan pada penelitian ini ID3 mempunyai nilai performance yang lebih baik dibandingkan dengan CART.

Kata Kunci : ID3, CART, Pohon Keputusan, Sistem Pendukung Keputusan (SPK). 1. Pendahuluan

Perusahaan adalah suatu organisasi yang berbadan hukum melalui proses legislatif atau pendaftaran yang ditetapkan melalui undang-undang. Entitas yang tergabung memiliki hak hukum dan kewajiban yang berbeda dari pemegang saham.Tujuan dari sebuah perusahaan adalah untuk mencari sebuah keuntungan. Kinerja pegawai adalah komponen dari sistem manajemen terhadap kinerja bagi perusahaan untuk memastikan pegawai memenuhi harapan perusahaan tersebut.

Dalam proses penilaian kinerja pegawai, terdapat sistem yang dapat membantu dalam penilaianya, yaitu sistem pendukung keputusan (SPK).

Decission Tree Learning merupakan satu metode prmbrlajaran yang sangat populer dan banyak

digunakan secara praktis. 2. Teknik DCT.

Algoritma ID3 merupakan salah satu teknik dari klasifikasi (pembelajaran pohon keputusan) yang paling sederhana.Algoritma ID3 menggunakan teknik pencarian secara menyeluruh terhadap pohon keputusan.Konsep dari pada ID3 berdasarkan nilai entropy dan information gain.ID3 dapat digunakan pada implementasi rekursif dimana fungsi yang memanggil dirinya sendiri[1].

Algoritma CART adalah salah satu metode atau algoritma dari salah satu teknik eksplorasi data yaitu teknik pohon keputusan. Metode ini dikembangkan oleh Leo Breiman, Jerome H.Friedman, Richard A Olshen, dan Charles J Stone sekitar tahun 1980an. CARTmerupakan metodologi statistik nonparametrik yang dikembangkan untuk topik analisis klasifikasi baik untuk variabel respon kategori maupun kontinu. CART menghasilkan suatu pohon klasifikasi jika variabel responya kategori, dan menghasilkan pohon regresi jika variabel responya kontinu[3].

3. Teori Dasar

Decission tree merupakan salah satu metode Data mining yang sering digunakan dalam

menyelesaikan permasalahan dalam pengambilan suatu keputusan. Metode decission tree mengubah fakta yang sangat besar pada pohon keputusan dengan menginterpretasikan rule. Pohon keputusan

(2)

121 merupakan perubahan dari suatu data yang terdiri dari beberapa attribute kedalam pohon keputusan. Konsep nya adalah mengubah dari bentuk data menjadi sebuah tree[5].

Contoh dari decission tree dapat dilihat pada gambar 2.2 Age?

Student? Yes Creadit_reating?

No Yes No Yes

<=30 >40

31-40

no Yes Excellent Fair

Gambar 2.2 Model decission tree

Disini setiap percabangan menyatakan kondisi yang harus dipenuhi dan tiap ujung pohon menyatakan kelas data.Contoh di Gambar 2.2 adalah identifikasi pembeli komputer, dari pohon keputusan tersebut diketahui bahwa salah satu kelompok yang potensial membeli komputer adalah orang yang berusia di bawah 30 tahun dan juga pelajar. Setelah sebuah pohon keputusan dibangun maka dapat digunakan untuk mengklasifikasikan record yang belum ada kelasnya. Dimulai dari node root, menggunakan tes terhadap atribut dari record yang belum ada kelasnya tersebut lalu mengikuti cabang yang sesuai dengan hasil dari tes tersebut, yang akan membawa kepada internal node (node yang memiliki satu cabang masuk dan dua atau lebih cabang yang keluar), dengan cara harus melakukan tes lagi terhadap atribut atau node daun. Record yang kelasnya tidak diketahui kemudian diberikan kelas yang sesuai dengan kelas yang ada pada node daun. Pada pohon keputusan setiap simpul daun menandai label kelas. Proses dalam pohon keputusan yaitu mengubah bentuk data (tabel) menjadi model pohon (tree) kemudian mengubah model pohon tersebut menjadi aturan (rule)[10].

Ada beberapa macam model decission tree. Dalam penelitian ini akan membahas dua model, yang pertama adalah ID3 dan yang kedua adalah CART. Ada persamaan dan perbedaan dalam hal ide dasar dan prosedur algoritmanya, seberapa detail kita kembangkan dalam decission tree, bagaimana mengatasi atribut yang bernilai kontinu, memilih ukuran yang cocok untuk penentuan atribut, mengenai data latihyang mempunyai data yang atributnya tidak mempunyai nilai, dan memperbaiki efesiensi perhitungan.

4. ID3

ID3 singkatan dari iterative dichtomizer tree. ID3 merupakan sebuah metode yang digunakan untuk membuat pohon keputusan yang telah dikembangkan oleh J. Ross Quinlan sejak tahun 1986.Algoritma pada metode ini menggunakan konsep dari entropy informasi.Algoritma ini melakukan pencarian secara menyeluruh pada semua kemungkinan pohon keputusan.Algoritma pada metode ini lebih memilih keputusan yang lebih kecil dibanding keputusan yang lebih besar.Tetapi tidak dapat selalu menghasilkan pohon keputusan yang paling kecil dan karena itu menggunakan konsep dari entropi informasi.

a. Entropy

Sebelum kita menghitung information gain dari suatu kumpulan atribut, maka kita harus mengetahui dan memahami pengukuran lain yang termasuk bagian dari information gain. Pengukuran tersebut disebut

Entropy.Entropy digunakan untuk menghitung nilai keberagaman dari suatu kumpulan sampel data. Jika

kumpulan data semakin heterogen maka nilai entropy-nya akan semakin besar. Begitu juga sebaliknya. Perhitungan entropy dapat dirumuskan sebagai berikut[8]:

𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑠) = 𝑃 𝐿𝑜𝑔 𝑃 Dimana :

s : Himpunan kasus. c : Jumlah kelas klasifikasi. 𝑃 : Jumlah Sampel kelas i

(3)

122

Information gain digunakan untuk mengukur efektifitas dari suatu atribut dalam mengklasifikasi data.

Perhitungan information gain dapat dirumuskan sebagai berikut:

𝐺𝑎𝑖𝑛(𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) − 𝑆

𝑆 ∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑠) Dimana :

A : Atribut A.

𝑛 : jumah nilai atribut pada a. 𝑆 : Jumlah sampel untuk atribut a. S : Jumlah sampel untuk seluruh data.

Entropy(s): Entropy untuk sampel sampel yang memiliki nilai a.

ID3berhenti jika atribut sempurna mengklasifikasikan data latih, atau secara rekursif mengoprasikan nilai n, dimana n adalah banyaknya nilai kemungkinan untuk mendapatkan atribut terbaik. Adapun sampel data yang digunakan oleh ID3memiliki beberapa syarat diantara nya[12]:

 Deskripsi nilai atribut harus mendeskripsikan tiap contoh dan memiliki jumlah nilai yang ditentukan.

 Kelas yang sudah didefinisikan sebelumnya. Suatu atribut contoh harus sudah didefinisikan, karena mereka tidak dipelajari oleh ID3.

 Kelas kelas yang diskrit. Kelas harus digambarkan dengan jelas. Kelas yang kontinu dupecah-pecah menjadi kategori-kategori yang relatif, misalnya IPK dikategorikan menjadi “ Baik, Cukup, Buruk”.

 Jumlah contoh yang cukup. Karena pembangkitan induktif digunakan, maka dibutuhkan data uji yang cukup membedakan pola yang valid dari peluang suatu kejadian[12].

5. CART

Classification and regression tree (CART) adalah salah satu metode atau algoritma dari salah satu

teknik eksplorasi data yaitu teknik pohon keputusan. Metode ini dikembangkan oleh Leo Breiman, Jerome H.Friedman, Richard A.Olshen dan Charles J. Stone sekitar tahun 1980. CARTmerupakan metodologi statistik nonparametrik yang dikembangkan untuk topik analisis klasifikasi, baik untuk variabel kategori maupun diskrit. CART menghasilkan suatu pohon klasifikasi jika variabelnya diskrit, dan menghasilkan pohon regresi jika variabel responya kontinu[6].

Untuk menentukan splitting rule ada beberapa macam cara yaitu dengan gini splitting, two

splitting, goodeness spliting, ordered twoing, dan symetric gini[3], akan tetapi yang paling digunakan adalah goodness spliting rule, karena sangat mirip dengan konsep entropy information gain yang ada di algoritma

ID3. Semakin besar nilai goodness maka semakin bagus distribusi kelas atribut tersebut.

Nilai Kesesuaian (Goodness) Ф(s|t) dari calon cabang s pada kandidat split didefinisikan sebagai persamaan-persamaan berikut[6] :

Ф(𝑠|𝑡) = 2𝑃 𝑃 𝑄(𝑠|𝑡)

𝑄(𝑠|𝑡) = |𝑃(𝑗|𝑡 ) − 𝑃(𝑗|𝑡 )|

Keterangan:

Ф(𝑠|𝑡) = nilai kesesuaian Goodness. tL = cabang kiri dari noktah keputusan t

tR = cabang kanan dari noktah keputusan t

Prinsip yang digunakan sama dengan prinsip Gini Index pada ID3, namun pada Algoritma CART terlebih dulu ditentukan Rule sesuai dengan data yang akan digunakan dengan menghitung seluruh Gini

Index, sehingga keluaran yang didapat hanya pecahan biner. Setelah itu dihitung nilai Goodness tertinggi

yang akan menjadi Root utama dengan cara rumus sebagai berikut[9]:

𝑃 =𝑐𝑎𝑙𝑜𝑛 𝑐𝑎𝑏𝑎𝑛𝑔 𝑘𝑖𝑟𝑖 𝑡 𝑑𝑎𝑡𝑎 𝑙𝑎𝑡𝑖ℎ𝑎𝑛 𝑃(𝑗|𝑡 ) =j calon cabang kiri 𝑡

(4)

123 𝑃 =𝑐𝑎𝑙𝑜𝑛 𝑐𝑎𝑏𝑎𝑛𝑔 𝑘𝑎𝑛𝑎𝑛 𝑡

𝑑𝑎𝑡𝑎 𝑙𝑎𝑡𝑖ℎ𝑎𝑛 𝑃(𝑗|𝑡 ) =j calon cabang kanan 𝑡

𝑛𝑜𝑘𝑡𝑎ℎ 𝑘𝑒𝑝𝑢𝑡𝑢𝑠𝑎𝑛 𝑡

Keterangan :

𝑃 = Jumlah peluang calon cabang kandidat split length.

𝑃(𝑗|𝑡 )= Jumlah peluang t pada calon cabang kandidat split length.

𝑃 = Jumlah peluang calon cabang kandidat split right. 𝑃(𝑗|𝑡 )=Jumlah peluang t pada calon cabang kandidat split right.

Rule dengan Goodness tertinggi tidak akan diikutsertakan pada iterasi cabang berikutnya. Iterasi treeakan berhenti setelah seluruh data mendapatkan Rule yang sesuai. Algoritma CART menggunakan Attribute Selection Measure.Attribute Selection Measure adalah sebuah pendekatan heuristik untuk

memilih kriteria terbaik dalam mempartisi training data ke dalam kelas-kelas. Idealnya, setiap partisi yang dihasilkan harus bersifat

murni, yang artinya seluruh sampel yang berada didalam suatu partisi harus memiliki kelas yang sama. Oleh karena itu, kriteria terbaik adalah kriteria yang mampu mempartisi data mendekati murni.

Untuk atribut bernilai diskrit, nilai himpunan yang memberikan nilai gini index terkecil untuk suatu atribut akan dipilih sebagai splitting subset. Seluruh pembagian yang mungkin terjadi pada suatu atribut harus diperiksa. Sementara untuk atribut bernilai kontinu, setiap split point yang mungkin harus diperiksa. Untuk nilai-nilai suatu atribut yang telah diurutkan, titik tengah diantara setiap pasangan nilai yang saling berseberangan dapat diambil sebagai sebuah split point.

Algoritma CART juga memiliki beberapa kelebihan dan kekurangan, diantaranya:

 CART sebagai metode klasifikasi adalah non-parametrik, oleh karena itu metode ini tidak memerlukan spesifikasi bentuk fungsional. CART juga tidak memerlukan variabel yang akan diseleksi terlebih dahulu. Algoritma CART akan mengidentifikasi variabel yang paling signifikan dan mengeliminasi yang lainnya.

 Hasil CART bersifat invarian untuk transformasi monoton pada variabel yang independen. Mengubah satu atau beberapa variabel untuk logaritma atau akar kuadrat tidak akan mengubah struktur pohon. Hanya nilai-nilai (tapi tidak variabel) dalam pertanyaan-pertanyaan yang akan berbeda.

 CART dapat dengan mudah menangani pencilan. Pencilan negatif dapat mempengaruhi hasil dari beberapa model statistik, seperti Principal Component Analysis (PCA) dan regresi linear. Namun algoritma pemisahan CART akan mudah menangani data bising (noisy data). CART akan mengisolasi pencilan dalam node terpisah. Properti ini sangat penting, karena data keuangan yang sangat sering memiliki pencilan karena krisis keuangan.

Evaluasi Performansi

Untuk mengukur performasi dari model klasifikasi berdasarkan perhitungan baris data uji yang benar dan diprediksi benar dengan benar oleh model. Perhitungan dibentuk dengan Presisi, recall, dan

acurracy[13]. Berikut tabel confussion matrix bisa dilihat pada tabel 2.2.

Tabel 2.2 confusion matrix PREDICTION CLASS ACTUAL

CLASS Class = Class = No Class = Yes

No a b

Class = Yes

c d

Keterangan :

1. A : jumlah nilai tidak benar pada sampel yang diprediksi salah oleh klasifikasi. 2. B : jumlah nilai tidak benar yang diprediksi benar oleh klasifikasi.

3. C : jumlah nilai benar sampel yang diprediksi salah oleh klasifikasi. 4. D : jumlah nilai benarsampel yang diprediksi benar oleh klasifikasi. Alat ukur untuk confussion matrix diantara nya :

(5)

124

Precision adalah bagian data yang di ambil sesuai dengan informasi yang dibutuhkan. Rumus precision

adalah : 𝑃𝑟𝑒𝑐𝑖𝑠𝑠𝑖𝑜𝑛 = 𝑑 𝑏 + 𝑑 ∗ 100% Keterangan : d = True Negative. b = False Positive.

Dalam klasifikasi binari, precision dapat disamakan dengan positive predictive value atau nilai prediktif yang positif.

2 .

R e c a l l

Recall adalah pengambilan data yang berhasil dilakukan terhadap bagian data yang relevan

dengan query. Rumus Recalladalah : 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑑

𝑐 + 𝑑 ∗ 100% Keterangan :

c = False Negative. d = True Negative.

Dalam klasifikasi binari, recall disebut juga dengan sensitivity. Peluang munculnya data relevan yang diambil sesuai dengan query dapat dilihat dengan recall.

3 .

A k u r a s i

Akurasi adalah persentase dari total data ujicoba yang benar diidentifikasi. Rumus akurasiadalah : 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑎 + 𝑑 𝑎 + 𝑏 + 𝑐 + 𝑑 ∗ 100% Keterangan : a = True Positive. b = False Positive. c = False Negative. d = True Negative. 5. Perancangan Sistem

Alur perancangan sistem yang digunakan untuk analisis dan implementasi algoritma ID3 dan CART adalah sebagai berikut :

1. Pengumpulan dan pembagian data. 2. Proses pembangunan model ID3. 3. Proses pembangunan model CART.

4. Proses pengujian dilakukan untuk menguji model yang dihasilkan menggunakan data testing, proses ini dilakukan untuk menganalisis performansi dari model.

5.1 Pengumpulan dan pembagian data

Pada proses ini data yang diuji Data yang digunakan diambil dari hasil penilaian kinerja pegawai pada perusahaan PT. X kemudian dilakukan preprocessing data untuk dimasukan kedalam sistem untuk di proses. Untuk pembagian skenario pengujian bisa dilihat pada tabel 3.1.

Tabel 3.1 Pembagian skenario pengujian.

Nama Skenario Pembagian Partisi Skenario 1 Paritis 30:70 Skenario 2 Partisi 50:50 Skenario 3 Partisi 70:30 Skenario 4 Partisi 80:20

(6)

125 5.2 Deskripsi Data

Deskripsi dari data yang digunakan berupa 5 atibut dan 1 kelas seperti yang dijelaskan dibawah ini Deskripsi atribut :

1. Aspek Predikat Kompetensi :

merupakan suatu pengetahuan, keterampilan, dan kemampuan atau kapabilitas yang dimiliki oleh seseorang yang telah menjadi bagian dari dirinya sehingga mewarnai perilaku kognitif, afektif, dan psikomotoriknya. Dengan demikian, kompetensi harus didukung oleh pengetahuan, sikap, dan apresiasi.Artinya tanpa pengetahuan dan sikap tidak mungkin muncul suatu kompetensi tertentu.

2. Aspek K3LL : - Keamanan kerja :

keselamatan kerja adalah keselamatan yang bertalian dengan mesin, pesawat, alat kerja, bahan dan proses pengolahannya, landasan tempat kerja dan lingkungannya serta cara-cara melakukan pekerjaan.

- Kesehatan kerja :

Kesehatan kerja adalah suatu kondisi kesehatan yang bertujuan agar masyarakat pekerja memperoleh derajat kesehatan setinggi-tingginya, baik jasmani, rohani, maupun sosial, dengan usaha pencegahan dan pengobatan terhadap penyakit atau gangguan kesehatan yang disebabkan oleh pekerjaan dan lingkungan kerja maupun penyakit umum.

- Keselamatan kerja :

Keselamatan kerja dapat diartikan sebagai keadaan terhindar dari bahaya selama melakukan pekerjaan. 3. Aspek Disiplin :

Disiplin kerja merupakan keadaan mental yang cenderung selalau mentaati peraturan yang berhubungan erat antara moral atau motivasi yang tinggi.

4. Aspek Manajemen :

Seorang Pegawai harus memiliki pemahaman terhadap sistem untuk mengelola proses keselamatan dan kesehatan kerja terhadap segala sesuatu kegiatan yang terkait dengan proses produksi dengan memperhatikan unsur-unsur pencegahan kecelakaan kerja dan penyakit akibat kerja yang berpotensi dapat merugikan manusia. 5. Aspek pelatihan dan konsultasi

Seorang pegawai sebagai pengawas harus mampu menyampaikan apa yang dipahami tentang aspek aspek K3 kepada orang lain, baik kepada pimpinan proyek, kepada para pekerja maupun kepada orang lain yang terkait dengan pelaksanaan proyek konstruksi.

Deskripsi kelas : 1. Layak

Seorang pegawai dinyatakan layak untuk mendapatkan bonus tahunan. 2. Tidak Layak

Seorang pegawai dinyatakan tidak layak untuk mendapatkan bonus tahunan. 5.3 Flowchart sistem

Gambaran sistem umum :

START _PegawaiData _TrainingData

Membentuk Model ID3 Membentuk Model CART Menganalisis Model STOP Data Testing Hasil Performansi Model

Gambar 3.1 Rancangan umum sistem

Berdasarkan gambaran umum diatas, sistem yang dibangun pada penelitian ini merupakan sistem yang membandingkan algoritma ID3 dan CART pada penilaian kinerja pegawai.

(7)

126 ID3 : START Masukan Data Training Hitung Entropy dan Information Gain dari tiap

atribut

Buat simpul akar pohon berdasarkan information gain yang terbesar

Hitung entropy dan information gain tiap atribut pada untuk membentuk cabang

dari simpul akar

Semua Atribut sudah masuk pada

pohon? Generate aturan keputusan FINISH Ya Tidak Gambar 3.2 Flowchart algoritma ID3

Proses ini membentuk model pohon keputusan dengan menggunakan algoritma ID3. Algoritma ID3 menggunakan konsep gain dalam membentuk node pada pohonya, algoritma pembentukan pohon ini juga berlangsung secara rekursif, berikut merupakan penjelasan dari flowchart ID3:

1. Masukan data latih.

2. Hitung Information gain dan entropy dari masing-masing atribut data latih yang ada. 3. Buat simpul akar dari pemilihan atribut yang memiliki information gain terbesar.

4. Hitung Information gain dan entropy dari masing-masing atribut untuk membentuk cabang dari simpul akar 5. Cek apakah semua atribut sudah dibentuk pada pohon. Jika belum, maka ulangi proses 4 dan 5, jika sudah

maka lanjut pada proses berikutnya.

6. Kemudian aturan keputusan di-generate mengikuti pohon yang telah dibentuk sebelumnya. CART :

Flowchart dari sistem CART yang dibangun dapat dilihat pada gambar 3.3.

START Masukan data Menentukan Calon Cabang (Kandidat Split)

Lakukan split pada data bulat interval

Hitung Prior Length dan Prior

Right Menghitung nilai Goodness ɸ (s|t) Menentukan calon cabang dengan memilih nilai goodness yang terbesar Generate Aturan pohon keputusan FINISH Pilih nilai Goodness terbesar untuk dijadikan simpul root Semua Atribut sudah masuk pada pohon? Ya Tidak

Gambar 3.3 Flowchart algoritma CART Berikut merupakan penjelasan dari flowchart algoritma CART :

1. Masukan data latih.

2. Tentukan calon cabang yang akan di bentuk (Kandidat Split).

3. Lakukan split pada data dan membuat interval sehingga didapatkan nilaisplit dari setiap atribut. 4. Lakukan perhitungan Prior Length (PL) dan Prior Right (PR).

5. Dari hasil menghitung PL dan PR bisa dilanjutkan untuk menghitung nilai goodness .

6. Setelah semua nilai goodness dihitung dari setiap cabang, kita mencari nilai goodness yang paling besar . 7. Cek apakah semua atribut sudah dibentuk pada pohon. Jika belum, ulangi dari langkah ke 5

8. Generate pohon keputusan

9. Selesai.

(8)

127 Pada proses ini, dihitung performansi yaitu akurasi untuk model yang dihasilkan oleh sistem. Pertama data testing di masukan ke dalam sistem, kemudian tiap data akan dicari kelasnya berdasarkan model. Alat ukur untuk mengukur akurasi dari kedua metode yang digunakan dengan memakai Confussion

matrix.

5.5 Use Case Diagram.

Use case diagram adalah suatu bentuk diagram yang menggambarkan fungsionalitas yang diharapkan dari

sebuah sistem dilihat dari perspektif pengguna diluar sistem.

Pada gambar 3.4 bisa dilihat use case diagram yang telah dibangun untuk sistem pohon keputusan.

User

Manage Data Training

Proses Mining ID3

Proses Mining CART

Bandingkan Pohon Keputusan

Mengklasifikasi Data Dengan Model

Login <<include>> <<include>> <<include>> <<include>> <<include>>

Sistem Pohon Keputusan

Gambar 3.4 use case diagram.

Ada satu aktor utama pada use case diagram yaitu manager human resource depelopment (HRD). Salah satu tugas dari HRD adalah orang yang memiliki wewenang untuk melakukan penilaian kinerja pegawai dari sebuah perusahaan. Berikut penjelasan dari use case diagram :

1. Manage data latih, yaitu menambah, merubah, dan menghapus data latih yang selanjutnya akan ditraining. Data latih yang dimasukkan telah memiliki kelas apakah layak atau tidak layak seorang pegawai mendapatkan bonus tunjangan tahunan, hal ini bertujuan agar data latih dapat digunakan kembali pada proses perbandingan.

2. Proses mining, yaitu proses penambangan informasi dari data latih dengan menggunakan algoritma ID3 dan CART sampai terbentuk pohon keputusan dari masing-masing algoritma.

3. Bandingkan pohon keputusan, yaitu proses membandingkan pohon keputusan ID3 dan CART yang telah dibentuk sebelumnya. Data latih yang sebelumnya memiliki kelas, diproses dengan pohon keputusan masing-masing, kemudian dapat ditarik kesimpulan pohon keputusan mana yang memiliki tingkat akurasi yang tinggi.

Pembagian Partisi Proses ID3 CART

Partisi 30:70 Presisi 88.86 90.98 Recall 88.81 87.05 Akurasi 89.14 91.43 Partisi 50:50 Presisi 90.29 92.31 Recall 93.94 84.85 Akurasi 93.6 91.2 Partisi 70 :30 Presisi 93.1 96.0 Recall 91.53 81.36 Akurasi 94.0 91.33 Partisi 80 :20 Presisi 92.11 97.06 Recall 87.5 82.5 Akurasi 92.0 92.0

(9)

128 4. Manage data penentu keputusan, yaitu menambah, merubah dan menghapus data penentu keputusan. Data tersebut merupakan data baru dan bukan data latih karena tidak memiliki kelas sehingga setelah diproses akan memiliki kelas.

5. Mengklasifikasi data dengan model, yaitu proses penentuan keputusan dari data baru yang dimasukkan. Proses dilakukan berdasarkan pohon keputusan ID3 dan CART yang dibentuk sebelumnya sehingga data tersebut memiliki kelas.

6. Hasil

Setelah pohon dibentuk, selanjutnya dilakukan perbandingan dengan data yang merupakan data latih dimana data tersebut dilakukan pengklasifikasian menggunakan rule ID3 dan CART yang telah dibentuk. Kemudian kelas yang terbentuk dibandingkan dan dihitung nilai presisi, recall, dan akurasi

Skenario pengujian yang akan dilakukan adalah mencari nilai presisi, recall, dan akurasiyang dihasilkan dari tabel confussion matrix. Setelah memperoleh hasil tersebut dilakukan perbandingan antara ID3, dan CART untuk mengetahui performance kedua algoritma pada data penilaian kinerja pegawai.

Dari dataset penilaian kinerja pegawai yang telah dianalisis, dapat dilihat bahwa perbandingan presisi, recal, dan akurasihasil nya berbeda antara ID3, dan CART.Dari hasil analisa dataset training uji pola peningkatan perhitungan berdasarkan pembagian partisi yang telah dilakukan.

Pada tabel 4.3 bisa dilihat nilai presisi, recall, dan akurasi.

Tabel 4.3 nilai presisi, recall, dan akurasiID3, dan CART.

Pada gambar 4.9 bisa dilihat grafik perbandingan antara jenis partisi pada perhitungan nilai presisi untuk ID3.

Gambar 4.9 Grafik perbandingan presisipada ID3.

Pada gambar 4.9 bisa dilihat hasil analisis untuk pencapaian nilai presisitertinggi ada pada partisi 70% data latih, dan 30% data uji.

Pada gambar 4.10 bisa dilihat grafik perbandingan antara jenis partisi pada perhitungan nilaiRecall untuk ID3.

Gambar 4.10 Grafik perbandingan recall pada ID3. 86 88 90 92 94 Nilai Precissio n 80 85 90 95 Nilai Recall

(10)

129 Pada gambar 4.10 bisa dilihat hasil analisis untuk pencapaian nilai recall tertinggi ada pada partisi 50% data latih, dan 50% data uji.

Pada gambar 4.11 bisa dilihat grafik perbandingan antara jenis partisi pada perhitungan nilai akurasi untuk ID3.

Gambar 4.11 Grafik perbandingan akurasipada ID3.

Pada gambar 4.11 bisa dilihat hasil analisis untuk pencapaian nilai akurasitertinggi ada pada partisi 70% data latih, dan 30% data uji. Secara dominan untuk nilai presisi, recall, dan akurasipencapaian tertinggi untuk ID3 ada pada partisi 70% data latih dan 30% data uji. Selanjutnya untuk hasil analisis dari

performance CART dilakukan perhitungan yang sama seperti ID3 yaitu menghitung nilai presisi, recall, dan

akurasi. Pada gambar 4.12 bisa dilihat grafik perbandingan antara jenis partisi pada perhitungan nilai presisi untuk CART.

Gambar 4.12 Grafik perbandingan presisipada CART.

Pada gambar 4.12 bisa dilihat hasil analisis untuk pencapaian nilai presisitertinggi ada pada partisi 80% data latih, dan 20% data uji.

Pada gambar 4.13 bisa dilihat grafik perbandingan antara jenis partisi pada perhitungan nilairecall untuk CART.

Gambar 4.13 Grafik perbandingan recall pada CART.

Pada gambar 4.13 bisa dilihat hasil analisis untuk pencapaian nilai recall tertinggi ada pada partisi 30% data latih, dan 70% data uji.

Pada gambar 4.14 bisa dilihat grafik perbandingan antara jenis partisi pada perhitungan nilai akurasi untuk CART.

86 88 90 92 94 96 Nilai Accurac y 85 90 95 100 Nilai Preciss ion 78 80 82 84 86 88 Nilai Recall

(11)

130 Gambar 4.14 Grafik perbandingan akurasipada CART.

Pada gambar 4.15 bisa dilihat hasil analisis untuk pencapaian nilai recall tertinggi ada pada partisi 80% data latih, dan 20% data uji. Secara dominan untuk nilai presisi, recall, dan akurasipencapaian tertinggi untuk CART ada pada partisi 80% data latih dan 20% data uji.

Selanjutnya dilakukan analisis untuk perbandingan antara kedua buah algoritma yaitu ID3, dan CART dalam perhitungan nilai presisi, recall, dan akurasi.Perbandingan di analisis tiap pembagian partisi untuk mengetahui performance pencapaian tertinggi dari kedua buah algoritma.

Pada gambar 4.15 bisa dilihat gambar perbandingan nilai presisi pada ID3 dan CART.

Gambar 4.15 perbandingan nilai presisiID3, dan CART.

Pada gambar 4.15 bisa dilihat hasil analisis untuk pencapaian nilai presisitertinggi ada pada partisi 80% data latih, dan 20% data ujipada algoritma CART.

Pada gambar 4.16 bisa dilihat gambar perbandingan nilai recall pada ID3 dan CART.

Gambar 4.16 perbandingan nilai recall ID3, dan CART.

Pada gambar 4.16 bisa dilihat hasil analisis untuk pencapaian nilai recall tertinggi ada pada partisi 50% data latih, dan 50% data ujipada algoritma ID3.

Pada gambar 4.17 bisa dilihat gambar perbandingan nilai akurasi pada ID3 dan CART. 90.5 91 91.5 92 92.5 Nilai Accuracy 80 85 90 95 100 Partisi

70 :30 Partisi50:50 Partisi30:70 Partisi80 :20

ID3 CART 75 80 85 90 95 Partisi

ID3 CART 86 88 90 92 94 96 Partisi

ID3 CART

(12)

131 Gambar 4.17 perbandingan nilai akurasiID3, dan CART.

Pada gambar 4.17 bisa dilihat hasil analisis untuk pencapaian nilai akurasitertinggi ada pada partisi 70% data latih, dan 30% data ujipada algoritma ID3.

6.1 Analisa waktu proses pembentukan pohon keputusan

Proses waktu pembentukan model pohon keputusan ID3, dan CART ini adalah hasil generate yang dilakukan oleh system. Tabel berikut akan berisikan waktu pembentukan dan proses perhitungan dari kedua buah algoritma.

Pada tabel 4.4 bisa dilihat proses waktu dari pembentukan pohon keputusan ID3 .

Tabel 4.4 proses waktu pembentukan pohon ID3. Pembagian

Partisi Waktu ID3 Partisi 30:70 _{1.782 detik} Partisi 50:50 _{2.003 detik} Partisi 70 :30 2.093 detik Partisi 80 :20 3.484 detik

Pada tabel 4.5 bisa dilihat proses waktu dari pembentukan pohon keputusan CART. Tabel 4.5 proses waktu pembentukan pohon ID3.

Pembagian

Partisi Waktu CART Partisi 30:70 3.591 detik Partisi 50:50 3.404 detik Partisi 70 :30 3.639 detik Partisi 80 :20 4.660 detik

Dari hasil analisis dan percobaan dapat disimpulkan bahwa performance dari ID3, dan CART, untuk nilai presisi pencapaian tertinggi ada pada masing masing algoritma antara lain ID3 ada pada pembagian partisi 70% data latih, dan 30% data uji, sedangkan untuk pembagian nilai presisipada CART ada pada pembagian partisi 80% data latih, dan 20% data uji. Untuk pencapaian tertinggi nilai recall pada algoritma ID3 ada pada pembagian partisi 50% data latih, dan 50% data uji, sedangkan untuk pencapaian nilai recall tertinggi pada CART ada pada pembagian partisi 30% data latih, dan 70% data uji. Untuk pencapaian nilai akurasipada algoritma ID3 ada pada pembagian partsi 70% data latih, dan 30% data uji, sedangkan untuk pencapaian tertinggi nilai recall pada CART ada pada pembagian partisi 80% data latih, dan 20% data uji.

Secara dominan pada penelitian ini, ID3 mempunyai pencapaian performance yang lebih tinggi dibandingkan dengan CART.

7. Kesimpulan

 Metode ID3, dan CART bisa di implementasikan dalam sistem pendukung keputusan penilaian kinerja pegawai, dengan data yang bertipe katagori.

 Dari pengukuran kinerja kedua algoritma yang telah dilakukan, dapat disimpulkan algoritma CART memiliki kinerja presisi yang lebih tinggi dibanding ID3. Namun Pada recall dan akurasi, algoritma ID3 memiliki nilai tertinggi pada partisi data 70:30, 50:50 , maupun 30:70.

 Partisi data 70:30 merupakan partisi terbaik karena memiliki nilai precision, recall, danakurasiyang paling tinggi daripada partisi lainnya.

 Proses waktu pembentukan pohon keputusan CART lebih lama dibandingkan dengan proses waktu pembentukan pohon keputusan ID3.

(13)

132 Daftar Pustaka:

1. Bambang Setiawan(2011).Perancangan sistem pendukung keputusan (spk) untuk menentukan

kelaiklautan kapal.

2. Budi Santosa(2007).Teknik pemanfaatan data untuk keperluan bisnis.Yogyakarta.

3. Nuriyah(2012).Perbandingan Metode Chi-Square Automatic Interaction Detection (CHAI) dan

Classification And Regression Tree (CART) dalam menentukan klasifikasi alumni UIN Sunan Kalijaga berdasarkan masa studi.UIN Sunan kalijaga Yogyakarta.

4. Arini sukmawati(2013).Analisis dan perbandungan ANP,TOPSIS,dan FUZZY TOPSIS dalam

melakukan perangkingan prestasi pegawai.Institut Teknologi Telkom Bandung.

5. Kusrini,EmhaTaufikLuthfi(2009).Algoritma Data mining.STIMIK AMIKOM Yogyakarta.

6. FerancisLeonardo.S(2011).Analisis pengaruh bagging pada algoritma klasifikasi Data mining CART

dan C4.5. Institut Teknologi Telkom Bandung.

7. Mary Dona Mailoa(2012).Klasifikasi Data mining dengan menggunakan metode pohon keputusan

ID3.Institut Teknologi Telkom Bandung.

8. Afdhal Saputra(2011).Deteksi interaksi antar obat menggunakan algoritma ID3.Institut Teknologi Telkom Bandung.

9. Kiki Rachmawati(2011).Penerapan CART pada Sistem Pendukung Keputusan (SPK) studi kasus

menentukan obat sesuai kondisi pasien. Institut Teknologi Telkom Bandung.

10. .Fairuz.DataMiningkonseppohonkeputusan.URL:http://fairuzelsaid.wordpress.com/2009/11/24/data-mining-konsep-pohon-keputusan. diakses pada tanggal 03 November 2013 pukul 13.58

11. Michael E. Raynor(2010).Strategy and competetiveCorporate.Melbouurn Universitity.

12. CHAI Rui-min(2010).A more efficient classification scheme for ID3. School of Electronic and Information Engineering Liaoning Technical University Huludao, China.

13. ROC Group.Confussion Matrix. URL:

http://www2.cs.uregina.ca/~dbd/cs831/notes/confusion_matrix/confusion_matrix.html.

Diakses pada tanggal 04 Agustus 2014 pukul 07.32.