Data Preparation - Support Vector Machine (SVM)

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

1. Support Vector Machine (SVM)

4.2. Data Preparation

Tahap selanjutnya adalah melakukan persiapan data sebelum data akan dilakukan modelling atau disebut dengan Data Preparation. Untuk tahap yang ke-2 ini yaitu mempersiapkan data untuk melakukan langkah-langkah yang disebut dengan text preprocesing, dengan menggunakan dua aplikasi preprocessing, pertama menggunakan gata framework yang diakses melalui link http://gataframework.com/textmining yang dapat digunakan secara gratis juga mudah dalam penggunaan dikarenakan tidak harus membuat account untuk memakai servicenya dan dilanjutkan preprocessing dari rapidminer, berikut adalah tahapannya:

4.2.1 @Anotation Removal

Langkah pertama dari ini adalah teks diurai berdasarkan white space, semua anotasi yang terkandung dalam tweet akan dihilangkan dan dilakukannya lower case atau mengubah huruf dalam text menjadi huruf kecil semua. Untuk lebih memahami perubahan dari fungsi ini, dibawah ini Tabel 4.1 diperlihatkan contoh perbedaan text sebelum dan sesudah diberlakukannya @Anotation Removal

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri Tabel 4.1. Perbandingan text sebelum dan sesudah dilakukan proses @Anotation

Removal Teks sebelum proses @Anotation

Removal

Teks sebelum proses @Anotation Removal

KENAPA ALAMAT EMAIL DENGAN NAMA [email protected] TIDAK DAPAT DI AKSES?...

kenapa alamat email dengan nama sugengpr2609 tidak dapat di akses?...

Sumber : Hasil Penelitian data local (2019)

4.2.2 Tokenization (Regexp)

Kemudian hasil dari proses Transformation Remove URL dilanjutkan oleh proses Tokenization (Regexp) yaitu semua kata yang ada didalam tiap dokumen dikumpulkan dan dihilangkan tanda baca, angka, simbol, karakter khusus atau apapun yang bukan huruf. Tabel 4.2 dibawah memperlihatkan perbedaan text sebelum dan sesudah proses ini.

Tabel 4.2. Perbandingan text sebelum dan sesudah dilakukan proses Tokenization (Regexp)

Teks sebelum proses Tokenization Teks setelah proses Tokenization saat memasukkan email yang dari bsi

(amelina1505 kemudian klik next muncul keterangan "sorry, google doesn't recognizethat email".

saat memasukkan email yang dari bsi amelina kemudian klik next muncul keterangan quotsorry google doesnt recognizethat email quot

Sumber : Hasil Penelitian data local (2019)

4.2.3 Transformation Not Negative

Dari hasil Tokenization (Regexp) selanjutnya dilakukan proses transformation not negative. Untuk contoh ini dalam text yang digunakan sebelumnya tidak ada perubahan dikarena tidak adanya kata yang dilakukan Transformation Not Negative. Namun untuk memperjelas maksud proses yang terjadi maka digunakan text yang lain dari data local yang sama. Tabel 4.3 dibawah memperjelas perbedaan text sebelum dan sesudah proses Transformation Not Negative.

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri Tabel 4.3. Perbandingan text sebelum dan sesudah dilakukan proses Transformation

Not Negative Teks sebelum proses Transformation

Not Negative

Teks sebelum proses Transformation Not Negative

kenapa buka email mahasiswa di gmailcom tidak bisa dan responnya maaf google tidak mengenal email itu

kenapa buka email mahasiswa di gmailcom tidak_bisa dan respon maaf google tidak_kenal email itu

4.2.4 Indonesian Stemming

Setelah hasil dari transformation not negative akan dilanjutkan dengan proses stemming yaitu menghilangkan imbuhan yang terdapat pada masing-masing kata sehingga menjadi kata dasar dengan menggunakan indonesian stemming untuk tweet berbahasa Indoensia. Dibawah ini Tabel 4.4 akan memperlihatkan contoh penggunaan Indonesia Stemming.

Tabel 4.4. Perbandingan text sebelum dan sesudah dilakukan proses Indonesia Stemming

Teks sebelum proses Indonesia Stemming

Teks setelah proses Indonesia Stemming

mohon maaf sampai saat ini saya belum mendapatkan alamat email bsi regards muhammad affandi nim

mohon maaf sampai saat ini saya belum dapat alamat email bsi regards muhammad affandi nim

Sumber : Hasil Penelitian data local (2019)

4.2.5 Indonesian Stopword Removal

Kemudian untuk tahapan selanjutnya adalah Indonesian stopword removal, dalam proses ini kata-kata yang tidak relevan akan dihapus, seperti kata tetapi, untuk, dengan, yang tidak mempunyai makna tersendiri jika dipisahkan dengan kata yang lain dan tidak terkait dengan kata sifat yang berhubungan dengan sentiment.

Untuk text contoh tahapan ini diambil berbeda dengan text sebelumnya, dikarena pada text contoh sebelumnya tidak ada perubahan sebelum maupun setelah Indonesian Stopword Removal, maka diambil text lain sebagai contoh agar telihat perbedaannya (Tabel 4.5)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri Tabel 4.5. Perbandingan text sebelum dan sesudah dilakukan proses

Indonesian Stopword Removal

Teks sebelum proses Indonesian stopword removal

Teks setelah proses Indonesian stopword removal tolong minta reset password email bsi saya

muhammad karena tidak bisa login dengan password tgl lahir

tolong reset password email bsi muhammad tidak bisa login password tgl lahir

Sumber : Hasil Penelitian data local (2019)

4.2.6 Remove Duplicates

Ini merupakan tahapan data preparation selanjutnya yang digunakan pada software rapidminer. Remove duplicates digunakan untuk menghilangkan text yang sama atau duplikat. Hal ini dilakukan agar data tidak dipenuhi oleh text yang sama sehingga memperlambat proses running software untuk menganalisa model.

4.2.7 Nominal to Text

Ini merupakn operator yang ada dalam rapidminer yang berfungsi untuk mengubah semua angka yang ada dalam text menjadi sebuah text. Sehingga angka yang ada akan dianggap jenis data text bukan numeric atau nominal. Gambar 4.1 memperlihatkan bagaimana penggunaan operator ini digunakan pada proses yang ada pada rapidminer.

Gambar 4.1. Desain Model Preprocessing Data Local menggunakanoperator Remove Duplicates dan Nominal to Text

4.2.8 Transform Case.

Operator yang digunakan pada tahapan ini adalah untuk mengubah huruf kapital yang masih ada pada text akan diubah menjadi huruf kecil semua. Hal ini dilakukan agar ketikan dilakukan proses ke dalam model klasifikasi terdapat keseragaman huruf dan tidak terjadi kesalahan dalam proses tokenize.

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri 4.2.9 Filter Token ( by Length )

Ini adalah proses yang ada pada data preparation untuk menghilangkan sejumlah kata ( setelah proses tokenize ) dengan panjang karakter tertentu. Pada penelitian ini panjang minimum karakter yang digunakan adalah 3 karakter dan panjang maksimum 25 karakter. Artinya kata yang panjangnya kurang dari 3 karakter dan lebih dari 25 karakter akan dihilangkan. Untuk mendapatkan hasil seperti ini maka dilakukan setting pada Parameters dari operator ini (Gambar 4.2)

Gambar 4.2. Parameters dari Filter Tokens (by Length)

4.2.10 Filter Stopword ( Dictionary )

Selanjutnya adalah penggunaan operator Stopword Removal (by Directory) yang berfungsi untuk menghilangkan kata-kata yang tidak hubungan dengan isi text. Pada tahapan sebelumnya dengan menggunakan service text mining Gataframework telah dilakukan namun ada beberapa kata yang belum dapat bisa dihilangkan oleh service sebelumnya karena belum dimasukkan sebagai kata yang harus dihapus. Maka dengan operator Stopword Removal (by Directory) peneliti dapat mendaftarkan kata yang harusnya dihapus dari text. Gambar 4. 3 merupakan penjelasan dari penggunaan operator pada proses rapidminer.

Gambar 4.3. Desain dari Penggunaan operator untuk Data Preparation.

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri 4.3 Tahapan Pemodelan

Merupakan tahap pemilihan teknik mining dengan menentukan algoritma yang akan digunakan. Tool yang digunakan adalah RapidMiner versi 9.1. Hasil pengujian model yang dilakukan adalah mengklasifikasikan benar complain email dan tidak complain email menggunakan algoritma K-Nearest Neighbordan Support Vector Machine untuk mendapatkan nilai akurasi terbaik. Berikut adalah desain model Rapidminer yang digunakan yaitu :

4.3.1 Pengujian Model dengan Algoritma SVM

Pengaturan dan penggunaan operator serta parameter dalam frameworks Rapid Miner sangat berpengaruh terhadap akurasi dan model yang terbentuk, sebagai contoh dalam penggunaan model SVM dibawah ini:

Sumber: Penelitian (2019)

Gambar 4.4 Desain Model Algoritma SVM

Gambar diatas adalah model pengujian dari algoritma support vector machine (svm) menggunakan rapidminer, diawali dari memasukan data kemudian mengatur set role yang nantinya menentukan label disana dan nominal text lalu keproses dokumen yang berisikan seperti gambar 4.4 setelah itu barulah masuk kemodel perhitungan support vector machine nya seperti gambar 4.5.

Sumber: Penelitian(2019)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri Gambar 4.5. Desain Proses 10-Fold Cross Validation untuk SVM Gambar 4.4 Menjelaskan desain proses di dalam operator cross validation SVM pada gambar 4.5. Pada pengujian ini, data digunakan adalah data bersih yang telah melalui preprocessing. Data tersebut diambil dari operator Read Excel, hal ini dilakukan karena dataset disimpan dalam bentuk Excel (.xlsx). Process documents from files untuk mengkonversi files menjadi dokumen. Process validasi terdiri dari data training dan data testing. Kemudian masuk ke model algoritmanya support vector machine didalamnya ada perhitungan algoritmanya kemudian modelnya diapply setelah itu masuk ke penilaian performancenya barulah muncul hasil nilai accuracy dan aucnya.

4.3.2 Pengujian Model dengan Algoritma K-Nearest Neighbor

Pengaturan dan penggunaan operator serta parameter dalam frameworks Rapid Miner sangat berpengaruh terhadap akurasi dan model yang terbentuk, sebagai contoh dalam penggunaan model K-NN dibawah ini:

Sumber: Penelitian(2019)

Gambar 4.6 Desain Model Algoritma KNN

Gambar diatas adalah model pengujian dari algoritma k-nearest neighbor(knn) menggunakan rapidminer, diawali dari memasukan data kemudian mengatur set role yang nantinya menentukan label disana dan nominal text lalu keproses dokumen yang berisikan seperti gambar 4.6 setelah itu barulah masuk kemodel perhitungan k-nearest neighbor nya seperti gambar 4.7.

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri Sumber: Penelitian(2019)

Gambar 4.7. Proses 10-Fold Cross Validation KNN

Gambar 4.6 Menjelaskan desain proses di dalam operator cross validation k-NN pada gambar 4.7. Pada pengujian ini, data digunakan adalah data bersih yang telah melalui preprocessing. Data tersebut diambil dari operator Read Excel, hal ini dilakukan karena dataset disimpan dalam bentuk Excel (.xlsx). Process documents from files untuk mengkonversi files menjadi dokumen. Process validasi terdiri dari data training dan data testing. Kemudian masuk kemodel algoritmanya k-nearest neighbor didalamnya ada perhitungan algoritmanya kemudian modelnya di apply setelah itu masuk kepenilaian performancenya barulah muncul hasil nilai accuracy dan aucnya.

Dalam dokumen KOMPARASI ALGORITMA KLASIFIKASI K-NEAREST NEIGHBOR DAN SUPPORT VECTOR MACHINE PADA LAYANAN KOMPLAIN MAHASISWA TESIS (Halaman 57-64)