Pembagian Data Training dan Data Testing

Teknik Industri USU

4.2 Pengolahan Data

4.2.3. Pembagian Data Training dan Data Testing

Sebelum melakukan proses klasifikasi dengan metode algoritma C5.0 dan classification and regression tree, perlu dilakukan pembagian data training dan data testing, kemudian dilakukan pengacakan agar setiap data memiliki kesempatan yang sama untuk menjadi data training dan testing. Pengacakan data dilakukan dengan menggunakan bilangan random pada software Microsoft Excel 2010.

Berikut contoh perhitungan untuk menentukan banyaknya data yang masuk ke data training menggunakan proporsi 90:10.

Jumlah Data Training = 90% x 124 = 111,6 ≈ 112

Jumlah Data Testing = 10% x 124 = 12,4 ≈ 12

Berdasarkan hasil perhitungan, data yang masuk ke dalam data training sebanyak 112 data dan data yang masuk menjadi data testing sebanyak 12 data.

4.2.4. Algoritma C5.0

Pada proses pembentukan pohon klasifikasi algoritma C5.0 tahap pertama yaitu menentukan node akar, kemudian dilanjutkan dengan penentuan cabang untuk masing-masing node. Selanjutnya dilakukan pembagian kelas pada cabang yang telah diperoleh dan proses tersebut diulang hingga setiap cabang memiliki kelas.

Langkah pertama dalam proses pembentukan pohon klasifikasi adalah menghitung nilai entropy. Adapun sebagai contoh perhitungan entropy total dan juga entropy pada dimensi reliability adalah sebagai berikut:

1. Menghitung enthropy total:

2. Menghitung enthropy tiap kategori dari dimensi reliability a. Tinggi

Dengan langkah yang sama dilakukan perhitungan nilai enthropy pada dimensi lainnya. Kemudian langkah kedua adalah menghitung gain untuk setiap dimensi. Adapun sebagai contoh perhitungan gain pada dimensi reliability adalah sebagai berikut:

Gain(Total, Reliability) = Entropy(total) - ((( 48

112) x Entropy(Tinggi)+(( 60 112) x Entropy(Sedang)+(( 4

112) x Entropy(Rendah) = 0,8384 - ((( 48

112) x 0,4821 + (( 60

112) x 0,9604 + (( 4

112) x 1,0000 = 0,0816

Dengan langkah yang sama dilakukan perhitungan nilai gain pada dimensi lainnya. Kemudian langkah ketiga adalah menghitung gain ratio untuk setiap dimensi. Adapun sebagai contoh perhitungan gain ratio pada dimensi reliability adalah sebagai berikut:

Gain Ratio = Gain(Total, Reliability)

Entropy(Tinggi) + Entropy(Sedang) + Entropy(Rendah)

= 0,0816

0,4821 + 0,9604 + 1,0000 =0,0334

Dengan langkah yang sama dilakukan perhitungan nilai gain ratio pada dimensi lainnya. Adapun hasil perhitungan enthropy, gain dan gain ratio dapat dilihat pada Tabel 4.10.

Tabel 4.10. Hasil Perhitungan Entropy, Gain dan Ratio untuk Node Akar C5.0

Node Variabel Jumlah

Kasus Puas Tidak

Berdasarkan Tabel 4.10. dapat dilihat bahwa dimensi yang memiliki nilai gain ratio tertinggi adalah dimensi assurance sehingga dijadikan node akar (node 1). Maka cabang untuk node akar ada dua, yaitu tinggi (node 2), sedang (node 3) dan rendah (node 4) seperti ditunjukkan pada Gambar 4.2. Node 2 dan 4 menjadi node terminal karena tidak memungkinkan lagi untuk menghasilkan cabang baru.

Node 3 membentuk node cabang karena masih terdapat data sampel pada masing-masing kelas yaitu puas dan tidak puas.

Node 1 Assurance

82/30

Tinggi Sedang Rendah

Node 2 43/7 Puas

Node 5 1/6 Tidak Puas Node 3

? 38/17

Sumber: Pengolahan Data

Gambar 4.2. Hasil Pembentukan Cabang di Node Akar C5.0

Selanjutnya untuk node 3, nilai entropy, gain dan gain ratio dihitung dahulu seperti pada langkah awal mencari node akar namun data yang digunakan adalah sisa data terhadap komposisi kelas yang tidak masuk ke dalam node 3. Adapun hasil perhitungan entropy, gain dan gain ratio disajikan dalam Tabel 4.11.

Tabel 4.11. Hasil Perhitungan Entropy, Gain dan Ratio untuk Node 3 C5.0

Node Variabel Jumlah

Kasus Puas Tidak

Berdasarkan Tabel 4.11. dapat dilihat bahwa dimensi yang memiliki nilai gain ratio tertinggi adalah dimensi reliability sehingga dijadikan cabang dari node 3. Maka cabang untuk node 3 ada tiga, yaitu tinggi (node 5), sedang (node 6) dan rendah (node 7) seperti ditunjukkan pada Gambar 4.3. Node 5 dan 6 menjadi node terminal karena data tidak memungkinkan lagi untuk menghasilkan cabang baru.

Node 3

Gambar 4.3. Hasil Pembentukan Cabang di Node 3 C5.0

Selanjutnya untuk node 7, nilai entropy, gain dan gain ratio dihitung dahulu seperti pada langkah awal mencari node akar namun data yang digunakan adalah sisa data terhadap komposisi kelas yang tidak masuk ke dalam node 2, 4, 5 dan 6.

Adapun hasil perhitungan entropy, gain dan gain ratio disajikan dalam Tabel 4.12.

Tabel 4.12. Hasil Perhitungan Entropy, Gain dan Ratio untuk Node 7 C5.0

Node Variabel Jumlah

Kasus Puas Tidak

Berdasarkan Tabel 4.12. dapat dilihat bahwa dimensi yang memiliki nilai gain ratio tertinggi adalah dimensi emphaty sehingga dijadikan cabang dari node 7.

Maka cabang untuk node 7 ada dua, yaitu tinggi (node 8) dan sedang (node 9) seperti ditunjukkan pada Gambar 4.4. Kategori rendah tidak masuk ke dalam cabang karena tidak terdapat kasus pada dimensi emphaty. Node 8 dan 9 menjadi node terminal karena data hanya ada di salah satu kelas.

Node 7

Gambar 4.4. Hasil Pembentukan Cabang di Node 7 C5.0

Maka proses pembuatan decision tree dihentikan sehingga didapatkan sebuah model klasifikasi. Hasil akhir decision tree untuk algoritma C5.0 ditunjukkan pada Gambar 4.5.

Node 1

Gambar 4.5. Pohon Klasifikasi Algoritma C5.0

4.2.4. Classification and Regression Tree (CART)

Pada proses pembentukan pohon klasifikasi CART tahap pertama yaitu pemilihan pemilah, kemudian penentuan terminal node. Selanjutnya dilakukan penandaan label kelas dan proses tersebut diulang hingga setiap cabang memiliki kelas.

Langkah pertama dalam proses pembentukan pohon klasifikasi adalah pemilihan pemilah. Dilanjutkan menghitung nilai indeks gini untuk setiap pemilah, pemilah yang memiliki nilai gini terkecil akan dipilih menjadi pemilah terbaik.

Adapun sebagai contoh perhitungan pemilihan pemilah adalah sebagai berikut:

Tabel 4.13. Contoh Perhitungan Pemilihan Pemilah Tingkat

Kepuasan

Reliability

Jumlah Tinggi Sedang, Rendah

Puas 43 39 82

Setelah dilakukan perhitungan indeks gini pada masing-masing pemilah, didapat hasil sebagai berikut:

Tabel 4.14. Hasil Perhitungan Gini untuk Node Akar CART

Dimensi Kategori Indeks Gini

Reliability

{(Tinggi), (Sedang, Rendah)} 0,3520 {(Sedang), (Tinggi, Rendah)} 0,3614 {(Rendah), (Tinggi, Sedang)} 0,3882 Assurance

{(Tinggi), (Sedang, Rendah)} 0,3659 {(Sedang), (Tinggi, Rendah)} 0,3889 {(Rendah), (Tinggi, Sedang)} 0,3459 Tangibles {(Tinggi), (Sedang)} 0,3798

Emphaty

{(Tinggi), (Sedang, Rendah)} 0,3749 {(Sedang), (Tinggi, Rendah)} 0,3763 {(Rendah), (Tinggi, Sedang)} 0,3920 Responsiveness {(Tinggi), (Sedang)} 0,3616

Sumber: Pengolahan Data

Berdasarkan Tabel 4.14. dapat dilihat bahwa pemilah yang memiliki nilai indeks gini terkecil adalah dimensi assurance dengan pemilah {(Rendah), (Tinggi, Sedang)} sebesar 0,2427. Maka pemilah ini terpilih menjadi pemilah pertama untuk pohon klasifikasi seperti pada Gambar 4.6.

Node 1

Gambar 4.6. Hasil Pembentukan Cabang di Node Akar CART

Setelah terbentuk dan terpilih menjadi pemilah tebaik, dapat dilihat bahwa assurance kategori tinggi dan sedang masuk ke node 2, assurance kategori rendah ke node 3. Node 3 menjadi node terminal karena tidak memungkinkan lagi untuk

menghasilkan cabang baru. Selanjutnya untuk node 2, perhitungan pemilihan pemilah dihitung dahulu seperti pada langkah awal mencari node akar namun data yang digunakan adalah sisa data terhadap komposisi kelas yang tidak masuk ke dalam node 3. Adapun perhitungan indeks gini pada masing-masing pemilah, didapat hasil sebagai berikut:

Tabel 4.15. Hasil Perhitungan Gini untuk Node 2 CART

Dimensi Kategori Indeks Gini

Reliability

{(Tinggi), (Sedang, Rendah)} 0,3266 {(Sedang), (Tinggi, Rendah)} 0,3353 {(Rendah), (Tinggi, Sedang)} 0,3468 Assurance {(Tinggi), (Sedang)} 0,3384 Tangibles {(Tinggi), (Sedang)} 0,3484

Emphaty

{(Tinggi), (Sedang, Rendah)} 0,3417 {(Sedang), (Tinggi, Rendah)} 0,3434 {(Rendah), (Tinggi, Sedang)} 0,3520 Responsiveness {(Tinggi), (Sedang)} 0,3285

Sumber: Pengolahan Data

Berdasarkan Tabel 4.18. dapat dilihat bahwa pemilah yang memiliki nilai indeks gini terkecil adalah dimensi reliability dengan pemilah {(Tinggi), (Sedang, Rendah)} sebesar 0,3266. Maka pemilah ini terpilih menjadi pemilah kedua untuk pohon klasifikasi seperti pada Gambar 4.7.

Node 2

Gambar 4.7. Hasil Pembentukan Cabang di Node 2 CART

Setelah terbentuk dan terpilih menjadi pemilah tebaik, dapat dilihat bahwa reliability kategori tinggi masuk ke node 4, reliability kategori sedang dan rendah ke node 5. Node 4 menjadi node terminal karena tidak memungkinkan lagi untuk menghasilkan cabang baru. Selanjutnya untuk node 5, perhitungan pemilihan pemilah dihitung dahulu seperti pada langkah awal mencari node akar namun data yang digunakan adalah sisa data terhadap komposisi kelas yang tidak masuk ke dalam node 3 dan 4. Adapun perhitungan indeks gini pada masing-masing pemilah, didapat hasil sebagai berikut:

Tabel 4.16. Hasil Perhitungan Gini untuk Node 5 CART

Dimensi Kategori Indeks Gini

Reliability {(Sedang), (Rendah)} 0,4403 Assurance {(Tinggi), (Sedang)} 0,4373 Tangibles {(Tinggi), (Sedang)} 0,4418

Emphaty

{(Tinggi), (Sedang, Rendah)} 0,4444 {(Sedang), (Tinggi, Rendah)} 0,4444 {(Rendah), (Tinggi, Sedang)} 0,4444 Responsiveness {(Tinggi), (Sedang)} 0,4278

Sumber: Pengolahan Data

Berdasarkan Tabel 4.16. dapat dilihat bahwa pemilah yang memiliki nilai indeks gini terkecil adalah dimensi responsiveness dengan pemilah {(Tinggi), (Sedang)} sebesar 0,4278. Maka pemilah ini terpilih menjadi pemilah ketiga untuk pohon klasifikasi seperti pada Gambar 4.8.

Node 5

Gambar 4.8. Hasil Pembentukan Cabang di Node 5 CART

Setelah terbentuk dan terpilih menjadi pemilah tebaik, dapat dilihat bahwa responsiveness kategori tinggi masuk ke node 6, responsiveness kategori sedang ke node 7. Node 6 menjadi node terminal karena tidak memungkinkan lagi untuk menghasilkan cabang baru. Selanjutnya untuk node 7, perhitungan pemilihan pemilah dihitung dahulu seperti pada langkah awal mencari node akar namun data yang digunakan adalah sisa data terhadap komposisi kelas yang tidak masuk ke dalam node 3, 4 dan 6. Adapun perhitungan indeks gini pada masing-masing pemilah, didapat hasil sebagai berikut:

Tabel 4.17. Hasil Perhitungan Gini untuk Node 7 CART

Dimensi Kategori Indeks Gini

Reliability {(Sedang), (Rendah)} 0,4733 Assurance {(Tinggi), (Sedang)} 0,4748 Tangibles {(Tinggi), (Sedang)} 0,4712

Emphaty

{(Tinggi), (Sedang, Rendah)} 0,4743 {(Sedang), (Tinggi, Rendah)} 0,4753 {(Rendah), (Tinggi, Sedang)} 0,4754

Sumber: Pengolahan Data

Berdasarkan Tabel 4.17. dapat dilihat bahwa pemilah yang memiliki nilai indeks gini terkecil adalah dimensi tangibles dengan pemilah {(Tinggi), (Sedang)}

sebesar 0,4712. Maka pemilah ini terpilih menjadi pemilah keempat untuk pohon klasifikasi seperti pada Gambar 4.9.

Node 7

Gambar 4.9. Hasil Pembentukan Cabang di Node 7 CART

Setelah terbentuk dan terpilih menjadi pemilah tebaik, dapat dilihat bahwa tangibles kategori tinggi masuk ke node 8, tangibles kategori sedang dan rendah ke node 9. Node 8 menjadi node terminal karena tidak memungkinkan lagi untuk menghasilkan cabang baru. Selanjutnya untuk node 9, perhitungan pemilihan pemilah dihitung dahulu seperti pada langkah awal mencari node akar namun data yang digunakan adalah sisa data terhadap komposisi kelas yang tidak masuk ke dalam node 3, 4, 6 dan 8. Adapun perhitungan indeks gini pada masing-masing pemilah, didapat hasil sebagai berikut:

Tabel 4.18. Hasil Perhitungan Gini untuk Node 9 CART

Dimensi Kategori Indeks Gini

Reliability {(Sedang), (Rendah)} 0,4524 Assurance {(Tinggi), (Sedang)} 0,4394

Emphaty

{(Tinggi), (Sedang, Rendah)} 0,4554 {(Sedang), (Tinggi, Rendah)} 0,4558 {(Rendah), (Tinggi, Sedang)} 0,4590

Sumber: Pengolahan Data

Berdasarkan Tabel 4.18. dapat dilihat bahwa pemilah yang memiliki nilai indeks gini terkecil adalah dimensi assurance dengan pemilah {(Tinggi), (Sedang)}

sebesar 0,4394. Maka pemilah ini terpilih menjadi pemilah kelima untuk pohon klasifikasi seperti pada Gambar 4.10.

Node 9

Gambar 4.10. Hasil Pembentukan Cabang di Node 9 CART

Setelah terbentuk dan terpilih menjadi pemilah tebaik, dapat dilihat bahwa assurance kategori tinggi masuk ke node 10, assurance kategori sedang ke node 11. Node 10 menjadi node terminal karena tidak memungkinkan lagi untuk menghasilkan cabang baru. Selanjutnya untuk node 11, perhitungan pemilihan pemilah dihitung dahulu seperti pada langkah awal mencari node akar namun data yang digunakan adalah sisa data terhadap komposisi kelas yang tidak masuk ke dalam node 3, 4, 6, 8 dan 10. Adapun perhitungan indeks gini pada masing-masing pemilah, didapat hasil sebagai berikut:

Tabel 4.19. Hasil Perhitungan Gini untuk Node 11 CART

Dimensi Kategori Indeks Gini

Reliability {(Sedang), (Rendah)} 0,4625 Emphaty

{(Tinggi), (Sedang, Rendah)} 0,4817 {(Sedang), (Tinggi, Rendah)} 0,4792 {(Rendah), (Tinggi, Sedang)} 0,4817

Sumber: Pengolahan Data

Berdasarkan Tabel 4.19. dapat dilihat bahwa pemilah yang memiliki nilai indeks gini terkecil adalah dimensi reliability dengan pemilah {(Sedang), (Rendah)} sebesar 0,4625. Maka pemilah ini terpilih menjadi pemilah keenam untuk pohon klasifikasi seperti pada Gambar 4.11.

Node 11 Reliability

13/9

Sedang Rendah

Node 12 12/7 Puas

Node 13 1/2 Tidak Puas

Sumber: Pengolahan Data

Gambar 4.11. Hasil Pembentukan Cabang di Node 11 CART

Setelah terbentuk dan terpilih menjadi pemilah tebaik, dapat dilihat bahwa reliability kategori sedang masuk ke node 12, reliability kategori rendah ke node 13. Node 12 dan 13 menjadi node terminal karena tidak memungkinkan lagi untuk menghasilkan cabang baru. Maka proses pembuatan decision tree dihentikan sehingga didapatkan sebuah model klasifikasi. Hasil akhir decision tree untuk CART ditunjukkan pada Gambar 4.12.

Node 1

Gambar 4.12. Pohon Klasifikasi CART

Dalam dokumen D E P A R T E M E N T E K N I K I N D U S T R I F A K U L T A S T E K N I K UNIVERSITAS SUMATERA UTARA 2021 (Halaman 65-80)