Teknik Industri USU
4.2 Pengolahan Data
4.2.3. Pembagian Data Training dan Data Testing
Sebelum melakukan proses klasifikasi dengan metode algoritma C5.0 dan classification and regression tree, perlu dilakukan pembagian data training dan data testing, kemudian dilakukan pengacakan agar setiap data memiliki kesempatan yang sama untuk menjadi data training dan testing. Pengacakan data dilakukan dengan menggunakan bilangan random pada software Microsoft Excel 2010.
Berikut contoh perhitungan untuk menentukan banyaknya data yang masuk ke data training menggunakan proporsi 90:10.
Jumlah Data Training = 90% x 124 = 111,6 ≈ 112
Jumlah Data Testing = 10% x 124 = 12,4 ≈ 12
Berdasarkan hasil perhitungan, data yang masuk ke dalam data training sebanyak 112 data dan data yang masuk menjadi data testing sebanyak 12 data.
4.2.4. Algoritma C5.0
Pada proses pembentukan pohon klasifikasi algoritma C5.0 tahap pertama yaitu menentukan node akar, kemudian dilanjutkan dengan penentuan cabang untuk masing-masing node. Selanjutnya dilakukan pembagian kelas pada cabang yang telah diperoleh dan proses tersebut diulang hingga setiap cabang memiliki kelas.
Langkah pertama dalam proses pembentukan pohon klasifikasi adalah menghitung nilai entropy. Adapun sebagai contoh perhitungan entropy total dan juga entropy pada dimensi reliability adalah sebagai berikut:
1. Menghitung enthropy total:
2. Menghitung enthropy tiap kategori dari dimensi reliability a. Tinggi
Dengan langkah yang sama dilakukan perhitungan nilai enthropy pada dimensi lainnya. Kemudian langkah kedua adalah menghitung gain untuk setiap dimensi. Adapun sebagai contoh perhitungan gain pada dimensi reliability adalah sebagai berikut:
Gain(Total, Reliability) = Entropy(total) - ((( 48
112) x Entropy(Tinggi)+(( 60 112) x Entropy(Sedang)+(( 4
112) x Entropy(Rendah) = 0,8384 - ((( 48
112) x 0,4821 + (( 60
112) x 0,9604 + (( 4
112) x 1,0000 = 0,0816
Dengan langkah yang sama dilakukan perhitungan nilai gain pada dimensi lainnya. Kemudian langkah ketiga adalah menghitung gain ratio untuk setiap dimensi. Adapun sebagai contoh perhitungan gain ratio pada dimensi reliability adalah sebagai berikut:
Gain Ratio = Gain(Total, Reliability)
Entropy(Tinggi) + Entropy(Sedang) + Entropy(Rendah)
= 0,0816
0,4821 + 0,9604 + 1,0000 =0,0334
Dengan langkah yang sama dilakukan perhitungan nilai gain ratio pada dimensi lainnya. Adapun hasil perhitungan enthropy, gain dan gain ratio dapat dilihat pada Tabel 4.10.
Tabel 4.10. Hasil Perhitungan Entropy, Gain dan Ratio untuk Node Akar C5.0
Node Variabel Jumlah
Kasus Puas Tidak
Berdasarkan Tabel 4.10. dapat dilihat bahwa dimensi yang memiliki nilai gain ratio tertinggi adalah dimensi assurance sehingga dijadikan node akar (node 1). Maka cabang untuk node akar ada dua, yaitu tinggi (node 2), sedang (node 3) dan rendah (node 4) seperti ditunjukkan pada Gambar 4.2. Node 2 dan 4 menjadi node terminal karena tidak memungkinkan lagi untuk menghasilkan cabang baru.
Node 3 membentuk node cabang karena masih terdapat data sampel pada masing-masing kelas yaitu puas dan tidak puas.
Node 1 Assurance
82/30
Tinggi Sedang Rendah
Node 2 43/7 Puas
Node 5 1/6 Tidak Puas Node 3
? 38/17
Sumber: Pengolahan Data
Gambar 4.2. Hasil Pembentukan Cabang di Node Akar C5.0
Selanjutnya untuk node 3, nilai entropy, gain dan gain ratio dihitung dahulu seperti pada langkah awal mencari node akar namun data yang digunakan adalah sisa data terhadap komposisi kelas yang tidak masuk ke dalam node 3. Adapun hasil perhitungan entropy, gain dan gain ratio disajikan dalam Tabel 4.11.
Tabel 4.11. Hasil Perhitungan Entropy, Gain dan Ratio untuk Node 3 C5.0
Node Variabel Jumlah
Kasus Puas Tidak
Berdasarkan Tabel 4.11. dapat dilihat bahwa dimensi yang memiliki nilai gain ratio tertinggi adalah dimensi reliability sehingga dijadikan cabang dari node 3. Maka cabang untuk node 3 ada tiga, yaitu tinggi (node 5), sedang (node 6) dan rendah (node 7) seperti ditunjukkan pada Gambar 4.3. Node 5 dan 6 menjadi node terminal karena data tidak memungkinkan lagi untuk menghasilkan cabang baru.
Node 3
Gambar 4.3. Hasil Pembentukan Cabang di Node 3 C5.0
Selanjutnya untuk node 7, nilai entropy, gain dan gain ratio dihitung dahulu seperti pada langkah awal mencari node akar namun data yang digunakan adalah sisa data terhadap komposisi kelas yang tidak masuk ke dalam node 2, 4, 5 dan 6.
Adapun hasil perhitungan entropy, gain dan gain ratio disajikan dalam Tabel 4.12.
Tabel 4.12. Hasil Perhitungan Entropy, Gain dan Ratio untuk Node 7 C5.0
Node Variabel Jumlah
Kasus Puas Tidak
Berdasarkan Tabel 4.12. dapat dilihat bahwa dimensi yang memiliki nilai gain ratio tertinggi adalah dimensi emphaty sehingga dijadikan cabang dari node 7.
Maka cabang untuk node 7 ada dua, yaitu tinggi (node 8) dan sedang (node 9) seperti ditunjukkan pada Gambar 4.4. Kategori rendah tidak masuk ke dalam cabang karena tidak terdapat kasus pada dimensi emphaty. Node 8 dan 9 menjadi node terminal karena data hanya ada di salah satu kelas.
Node 7
Gambar 4.4. Hasil Pembentukan Cabang di Node 7 C5.0
Maka proses pembuatan decision tree dihentikan sehingga didapatkan sebuah model klasifikasi. Hasil akhir decision tree untuk algoritma C5.0 ditunjukkan pada Gambar 4.5.
Node 1
Gambar 4.5. Pohon Klasifikasi Algoritma C5.0
4.2.4. Classification and Regression Tree (CART)
Pada proses pembentukan pohon klasifikasi CART tahap pertama yaitu pemilihan pemilah, kemudian penentuan terminal node. Selanjutnya dilakukan penandaan label kelas dan proses tersebut diulang hingga setiap cabang memiliki kelas.
Langkah pertama dalam proses pembentukan pohon klasifikasi adalah pemilihan pemilah. Dilanjutkan menghitung nilai indeks gini untuk setiap pemilah, pemilah yang memiliki nilai gini terkecil akan dipilih menjadi pemilah terbaik.
Adapun sebagai contoh perhitungan pemilihan pemilah adalah sebagai berikut:
Tabel 4.13. Contoh Perhitungan Pemilihan Pemilah Tingkat
Kepuasan
Reliability
Jumlah Tinggi Sedang, Rendah
Puas 43 39 82
Setelah dilakukan perhitungan indeks gini pada masing-masing pemilah, didapat hasil sebagai berikut:
Tabel 4.14. Hasil Perhitungan Gini untuk Node Akar CART
Dimensi Kategori Indeks Gini
Reliability
{(Tinggi), (Sedang, Rendah)} 0,3520 {(Sedang), (Tinggi, Rendah)} 0,3614 {(Rendah), (Tinggi, Sedang)} 0,3882 Assurance
{(Tinggi), (Sedang, Rendah)} 0,3659 {(Sedang), (Tinggi, Rendah)} 0,3889 {(Rendah), (Tinggi, Sedang)} 0,3459 Tangibles {(Tinggi), (Sedang)} 0,3798
Emphaty
{(Tinggi), (Sedang, Rendah)} 0,3749 {(Sedang), (Tinggi, Rendah)} 0,3763 {(Rendah), (Tinggi, Sedang)} 0,3920 Responsiveness {(Tinggi), (Sedang)} 0,3616
Sumber: Pengolahan Data
Berdasarkan Tabel 4.14. dapat dilihat bahwa pemilah yang memiliki nilai indeks gini terkecil adalah dimensi assurance dengan pemilah {(Rendah), (Tinggi, Sedang)} sebesar 0,2427. Maka pemilah ini terpilih menjadi pemilah pertama untuk pohon klasifikasi seperti pada Gambar 4.6.
Node 1
Gambar 4.6. Hasil Pembentukan Cabang di Node Akar CART
Setelah terbentuk dan terpilih menjadi pemilah tebaik, dapat dilihat bahwa assurance kategori tinggi dan sedang masuk ke node 2, assurance kategori rendah ke node 3. Node 3 menjadi node terminal karena tidak memungkinkan lagi untuk
menghasilkan cabang baru. Selanjutnya untuk node 2, perhitungan pemilihan pemilah dihitung dahulu seperti pada langkah awal mencari node akar namun data yang digunakan adalah sisa data terhadap komposisi kelas yang tidak masuk ke dalam node 3. Adapun perhitungan indeks gini pada masing-masing pemilah, didapat hasil sebagai berikut:
Tabel 4.15. Hasil Perhitungan Gini untuk Node 2 CART
Dimensi Kategori Indeks Gini
Reliability
{(Tinggi), (Sedang, Rendah)} 0,3266 {(Sedang), (Tinggi, Rendah)} 0,3353 {(Rendah), (Tinggi, Sedang)} 0,3468 Assurance {(Tinggi), (Sedang)} 0,3384 Tangibles {(Tinggi), (Sedang)} 0,3484
Emphaty
{(Tinggi), (Sedang, Rendah)} 0,3417 {(Sedang), (Tinggi, Rendah)} 0,3434 {(Rendah), (Tinggi, Sedang)} 0,3520 Responsiveness {(Tinggi), (Sedang)} 0,3285
Sumber: Pengolahan Data
Berdasarkan Tabel 4.18. dapat dilihat bahwa pemilah yang memiliki nilai indeks gini terkecil adalah dimensi reliability dengan pemilah {(Tinggi), (Sedang, Rendah)} sebesar 0,3266. Maka pemilah ini terpilih menjadi pemilah kedua untuk pohon klasifikasi seperti pada Gambar 4.7.
Node 2
Gambar 4.7. Hasil Pembentukan Cabang di Node 2 CART
Setelah terbentuk dan terpilih menjadi pemilah tebaik, dapat dilihat bahwa reliability kategori tinggi masuk ke node 4, reliability kategori sedang dan rendah ke node 5. Node 4 menjadi node terminal karena tidak memungkinkan lagi untuk menghasilkan cabang baru. Selanjutnya untuk node 5, perhitungan pemilihan pemilah dihitung dahulu seperti pada langkah awal mencari node akar namun data yang digunakan adalah sisa data terhadap komposisi kelas yang tidak masuk ke dalam node 3 dan 4. Adapun perhitungan indeks gini pada masing-masing pemilah, didapat hasil sebagai berikut:
Tabel 4.16. Hasil Perhitungan Gini untuk Node 5 CART
Dimensi Kategori Indeks Gini
Reliability {(Sedang), (Rendah)} 0,4403 Assurance {(Tinggi), (Sedang)} 0,4373 Tangibles {(Tinggi), (Sedang)} 0,4418
Emphaty
{(Tinggi), (Sedang, Rendah)} 0,4444 {(Sedang), (Tinggi, Rendah)} 0,4444 {(Rendah), (Tinggi, Sedang)} 0,4444 Responsiveness {(Tinggi), (Sedang)} 0,4278
Sumber: Pengolahan Data
Berdasarkan Tabel 4.16. dapat dilihat bahwa pemilah yang memiliki nilai indeks gini terkecil adalah dimensi responsiveness dengan pemilah {(Tinggi), (Sedang)} sebesar 0,4278. Maka pemilah ini terpilih menjadi pemilah ketiga untuk pohon klasifikasi seperti pada Gambar 4.8.
Node 5
Gambar 4.8. Hasil Pembentukan Cabang di Node 5 CART
Setelah terbentuk dan terpilih menjadi pemilah tebaik, dapat dilihat bahwa responsiveness kategori tinggi masuk ke node 6, responsiveness kategori sedang ke node 7. Node 6 menjadi node terminal karena tidak memungkinkan lagi untuk menghasilkan cabang baru. Selanjutnya untuk node 7, perhitungan pemilihan pemilah dihitung dahulu seperti pada langkah awal mencari node akar namun data yang digunakan adalah sisa data terhadap komposisi kelas yang tidak masuk ke dalam node 3, 4 dan 6. Adapun perhitungan indeks gini pada masing-masing pemilah, didapat hasil sebagai berikut:
Tabel 4.17. Hasil Perhitungan Gini untuk Node 7 CART
Dimensi Kategori Indeks Gini
Reliability {(Sedang), (Rendah)} 0,4733 Assurance {(Tinggi), (Sedang)} 0,4748 Tangibles {(Tinggi), (Sedang)} 0,4712
Emphaty
{(Tinggi), (Sedang, Rendah)} 0,4743 {(Sedang), (Tinggi, Rendah)} 0,4753 {(Rendah), (Tinggi, Sedang)} 0,4754
Sumber: Pengolahan Data
Berdasarkan Tabel 4.17. dapat dilihat bahwa pemilah yang memiliki nilai indeks gini terkecil adalah dimensi tangibles dengan pemilah {(Tinggi), (Sedang)}
sebesar 0,4712. Maka pemilah ini terpilih menjadi pemilah keempat untuk pohon klasifikasi seperti pada Gambar 4.9.
Node 7
Gambar 4.9. Hasil Pembentukan Cabang di Node 7 CART
Setelah terbentuk dan terpilih menjadi pemilah tebaik, dapat dilihat bahwa tangibles kategori tinggi masuk ke node 8, tangibles kategori sedang dan rendah ke node 9. Node 8 menjadi node terminal karena tidak memungkinkan lagi untuk menghasilkan cabang baru. Selanjutnya untuk node 9, perhitungan pemilihan pemilah dihitung dahulu seperti pada langkah awal mencari node akar namun data yang digunakan adalah sisa data terhadap komposisi kelas yang tidak masuk ke dalam node 3, 4, 6 dan 8. Adapun perhitungan indeks gini pada masing-masing pemilah, didapat hasil sebagai berikut:
Tabel 4.18. Hasil Perhitungan Gini untuk Node 9 CART
Dimensi Kategori Indeks Gini
Reliability {(Sedang), (Rendah)} 0,4524 Assurance {(Tinggi), (Sedang)} 0,4394
Emphaty
{(Tinggi), (Sedang, Rendah)} 0,4554 {(Sedang), (Tinggi, Rendah)} 0,4558 {(Rendah), (Tinggi, Sedang)} 0,4590
Sumber: Pengolahan Data
Berdasarkan Tabel 4.18. dapat dilihat bahwa pemilah yang memiliki nilai indeks gini terkecil adalah dimensi assurance dengan pemilah {(Tinggi), (Sedang)}
sebesar 0,4394. Maka pemilah ini terpilih menjadi pemilah kelima untuk pohon klasifikasi seperti pada Gambar 4.10.
Node 9
Gambar 4.10. Hasil Pembentukan Cabang di Node 9 CART
Setelah terbentuk dan terpilih menjadi pemilah tebaik, dapat dilihat bahwa assurance kategori tinggi masuk ke node 10, assurance kategori sedang ke node 11. Node 10 menjadi node terminal karena tidak memungkinkan lagi untuk menghasilkan cabang baru. Selanjutnya untuk node 11, perhitungan pemilihan pemilah dihitung dahulu seperti pada langkah awal mencari node akar namun data yang digunakan adalah sisa data terhadap komposisi kelas yang tidak masuk ke dalam node 3, 4, 6, 8 dan 10. Adapun perhitungan indeks gini pada masing-masing pemilah, didapat hasil sebagai berikut:
Tabel 4.19. Hasil Perhitungan Gini untuk Node 11 CART
Dimensi Kategori Indeks Gini
Reliability {(Sedang), (Rendah)} 0,4625 Emphaty
{(Tinggi), (Sedang, Rendah)} 0,4817 {(Sedang), (Tinggi, Rendah)} 0,4792 {(Rendah), (Tinggi, Sedang)} 0,4817
Sumber: Pengolahan Data
Berdasarkan Tabel 4.19. dapat dilihat bahwa pemilah yang memiliki nilai indeks gini terkecil adalah dimensi reliability dengan pemilah {(Sedang), (Rendah)} sebesar 0,4625. Maka pemilah ini terpilih menjadi pemilah keenam untuk pohon klasifikasi seperti pada Gambar 4.11.
Node 11 Reliability
13/9
Sedang Rendah
Node 12 12/7 Puas
Node 13 1/2 Tidak Puas
Sumber: Pengolahan Data
Gambar 4.11. Hasil Pembentukan Cabang di Node 11 CART
Setelah terbentuk dan terpilih menjadi pemilah tebaik, dapat dilihat bahwa reliability kategori sedang masuk ke node 12, reliability kategori rendah ke node 13. Node 12 dan 13 menjadi node terminal karena tidak memungkinkan lagi untuk menghasilkan cabang baru. Maka proses pembuatan decision tree dihentikan sehingga didapatkan sebuah model klasifikasi. Hasil akhir decision tree untuk CART ditunjukkan pada Gambar 4.12.
Node 1
Gambar 4.12. Pohon Klasifikasi CART