TEXT MINING UNTUK KLASIFIKASI KATEGORI CERITA PENDEK MENGGUNAKAN METODE MULTILAYER PERCEPTRON (MLP)
Mita Ramadhayanti, Evfi Mahdiyah
Mahasiswa Program Studi S1 Sistem Informasi Jurusan Ilmu Komputer
Fakultas Matematika dan Ilmu Pengetahuan Alam Kampus Bina Widya Pekanbaru, 28293, Indonesia
[email protected], [email protected]
ABSTRACT
Determining the category of a short story requires a long process, because it is done by reading the contents of the short story from beginning to end. This can be overcome by utilizing the short story grouping technique automatically, namely text classification by applying the process in text mining. This study aims to classify text using the neural network method with the Multilayer Perceptron (MLP) architecture. MLP is a method that is able to analyze complex problems because it can learn based on training data. The stages in this research include data collection, data preprocessing, TF-IDF weighting, classification with Multilayer Perceptron (MLP) and evaluation of models using confusion matrix. The amount of data used in this research is 60 short stories consisting of children's short stories, love short stories, and horror short stories. Based on the results of the research, that the application of the Multilayer Perceptron (MLP) has succeeded in categorizing 3 short story categories with an accuracy value of 100%. Keywords: short story, confusion matrix, multilayer perceptron, text mining
ABSTRAK
Penentuan kategori sebuah cerita pendek memerlukan proses yang lama, karena dilakukan dengan cara membaca isi cerpen mulai dari awal sampai akhir. Hal ini dapat diatasi dengan memanfaatkan teknik pengelompokan cerpen secara otomatis, yaitu klasifikasi teks dengan mengaplikasikan proses dalam text mining. Penelitian ini bertujuan untuk melakukan klasifikasi teks menggunakan metode neural network dengan arsitektur Multilayer Perceptron (MLP). MLP merupakan metode yang mampu melakukan analisa terhadap permasalahan yang bersifat kompleks karena dapat belajar berdasarkan data pelatihan. Tahapan dalam penelitian ini meliputi pengumpulan data,
preprocessing data, pembobotan TF-IDF, klasifikasi dengan Multilayer Perceptron
(MLP) dan evaluasi hasil menggunakan confusion matrix. Jumlah data yang digunakan pada penelitian ini yakni 60 cerpen yang terdiri dari cerpen anak, cerpen cinta, dan cerpen horror. Berdasarkan hasil penelitian, bahwa penerapan Multilayer Perceptron (MLP) telah berhasil mengkategorikan 3 kategori cerita pendek dengan nilai akurasi sebesar 100%.
PENDAHULUAN
Cerita pendek atau disebut cerpen merupakan salah satu karya sastra yang banyak diminati oleh banyak orang. Perkembangan teknologi saat ini membuat cerpen tidak hanya diterbitkan lewat buku atau majalah, melainkan juga di blog pribadi atau disitus website yang menyediakan kumpulan cerpen online yang dikirim oleh penulisnya.
Cerpen merupakan salah satu bentuk prosa naratif fiktif. Pada umumnya berbetuk suatu karangan fiksi seperti fiksi ilmiah, fiksi detektif, fiksi horror, dan lainnya. Penentuan kategori cerita pendek merupakan hal yang penting agar sesuai dengan keinginan pembaca. Namun penentuan kategori sebuah cerita pendek masih dilakukan secara manual yang memerlukan proses sedikit lama. Kendala ini memerlukan sebuah solusi yakni dengan teknik pengelompokan cerpen secara otomatis yang disebut dengan klasifikasi teks. Proses klasifikasi teks dapat dilakukan dengan beberapa algoritma, salah satu diantaranya yakni neural network.
Neural network merupakan jaringan syaraf tiruan dengan sejumlah neuron yang
dihubungkan oleh bobot-bobot penghubung. Pada penelitian ini, menggunakan algoritma neural network dengan arsitektur multilayer perceptron (mlp) yang neuron-neuron nya disusun oleh lapisan-lapisan yang terdiri dari lapisan input, lapisan tersembunyi (hidden), dan lapisan output. Multilayer perceptron mampu melakukan analisa terhadap permasalahan yang bersifat kompleks.
Pada penelitian ini, data cerpen yang akan diklasifikasi bersumber dari website www.cerpenmu.com. Data cerpen yang digunakan sebanyak 60 data yang terdiri dari 20 data perkategori. Terdapat tiga kategori pada penelitian ini, yakni kategori anak, cinta, dan horror.
TINJAUAN PUSTAKA
a. Penelitian yang relevan
Penelitian oleh (Somantri, 2017) berjudul “Text mining untuk klasifikasi kategori cerita pendek menggunakan naïve bayes” dan penelitian oleh (Syadid, 2019) berjudul “Analisis sentiment komentar netizen terhadap calon presiden Indonesia 2019 dari twitter menggunakan algoritma term frequency-invers document frequency (TF-IDF) dan metode multilayer perceptron (MLP) neural network”. Penelitian tersebut menyimpulkan bahwa algoritma TF-IDF dan metode MLP berhasil diimplementasikan terhadap analisis sentimen twitter dan mendapatkan nilai akurasi tertinggi sebesar 88%. b. Data Mining
Data Mining merupakan proses pengekstraksian informasi dari sekumpulan data
yang sangat besar melalui penggunaan algoritma dan teknik penarikan dalam bidang statistik, pembelajaran mesin dan sistem manajemen basis data. Dapat ditarik kesimpulan bahwa data mining merupakan proses ataupun kegiatan untuk mengumpulkan data yang berukuran besar kemudian mengekstraksi data tersebut menjadi informasi – informasi yang nantinya dapat digunakan (Saleh, 2015).
c. Text Mining
Text mining merupakan proses menambang data yang berupa teks dimana
sumber data didapatkan dari dokumen dengan tujuan mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen. Perbedaan mendasar antara text mining dan data mining terletak pada sumber data yang digunakan. Pada data mining, pola-pola diekstrak dari basis data yang terstruktur. Sedangkan pada text mining, pola-pola diekstrak dari data aktual (Yuliana & Supriyanto, 2019).
d. Text Preprocessing
Text preprocessing merupakan salah satu komponen dalam text mining. Text preprocessing dilakukan untuk mengubah data tekstual yang tidak terstruktur kedalam
data yang terstruktur dan disimpan kedalam basis data (Sholehhudin, Fauzi Ali, & Adinugroho, 2018).
Tujuan preprocessing adalah mentransformasi data ke suatu format yang prosesnya lebih mudah dan efektif untuk kebutuhan pemakai agar membuat nilai data menjadi lebih kecil tanpa merubah informasi yang dikandungnya. Tahap preprocessing yang dilakukan secara umum dalam text mining pada dokumen, yaitu (Yuliana & Supriyanto, 2019).
e. Klasifikasi
Klasifikasi merupakan proses untuk menemukan sebuah model atau pola yang dapat menggambarkan serta membedakan kelas pada suatu dataset. Tujuannya agar model tersebut dapat digunakan untuk memprediksi objek dengan label kelas yang tidak diketahui. Model tersebut didasarkan pada analisis data latih (Pristyanto, 2019).
f. Cerita Pendek
Cerita pendek adalah cerita yang membatasi diri dalam membahas salah satu unsur fiksi dalam aspeknya yang terkecil. Kependekan sebuah cerita pendek bukan karena bentuknya yang jauh lebih pendek dari novel, melainkan karena aspek masalahnya yang sangat dibatasi (Purba, 2012).
g. Machine Learning
Pembelajaran mesin (machine learning) adalah cabang ilmu dari kecerdasan buatan (artificial intelligence) yang bertujuan agar suatu mesin atau komputer dapat melakukan pekerjaannya sendiri dengan memanfaatkan data yang sudah ada, dengan memanfaatkan data maka bisa dibangun sebuah rule atau algoritma agar mesin dapat mengambil keputusan sendiri dari rule atau algoritma yang telah dibangun tersebut (Honakan et al., 2018).
h. Artificial Neural Network (ANN)
Ada beberapa pengertian Artificial Neural Network (ANN) atau Jaringan Saraf Tiruan (JST) menurut ahli, diantaranya (Nurachim, 2019):
karakteristik mirip dengan jaringan saraf biologi.
2. Jaringan saraf tiruan adalah sebuah prosesor yang terdistribusi paralel, tersusun atas banyak unit pemrosesan yang sederhana, yang memiliki kecenderungan secara alamiah untuk menyimpan informasi dan menjadikannya siap untuk digunakan.
3. Sistem saraf tiruan atau jaringan saraf tiruan adalah sistem selular fisik yang dapat memperoleh, menyimpan dan menggunakan pengetahuan yang didapat dari pengalaman.
Metode Jaringan saraf tiruan ditentukan oleh 3 hal yakni (Nurachim, 2019): 1. Pola hubungan antar neuron (arsitektur jaringan).
2. Metode untuk menentukan bobot penghubung (algoritma
training/learning/pelatihan/belajar).
3. Fungsi aktivasi. i. Multilayer Perceptron (MLP)
Multilayer Perceptron merupakan varian asli dari model perceptron yang
dicetuskan oleh Rosenblatt pada tahun 1950. Multilayer Perceptron memiliki satu atau lebih lapisan tersembunyi yang berada diantara lapisan input dan output-nya. Algoritma yang paling sering digunakan untuk melatih Multilayer Perceptron adalah
Backpropagation (Pratiwi, Gede, Putra, Purnami, & Putri, 2019).
Setiap layer dalam MLP mempunyai fungsi khusus. Input layer berfungsi menerima sinyal/vektor masukan dari luar dan mendistribusikannya ke semua neuron dalam hidden layer. Output layer menerima sinyal keluaran (atau dengan kata lain, stimulus pola) dari layer tersembunyi dan memunculkan sinyal/nilai/kelas keluaran dari keseluruhan jaringan (Syadid, 2019).
Berikut ini adalah algoritma Multilayer Perceptron (Syadid, 2019): 1. Inisialisasi semua bobot dengan bilangan acak kecil.
2. Jika kondisi penghentian belum dipenuhi, lakukan langkah 2-8. 3. Untuk setiap pasang data pelatihan, lakukan langkah 3-8.
4. Tiap unit masukan menerima sinyal dan meneruskan ke unit tersembunyi diatasnya.
5. Hitung semua keluaran di unit tersembunyi 𝑍𝑗(j=1,2,…,p).
𝑧_𝑖𝑛𝑗 = 𝑣 + ∑𝑛𝑖=1𝑥𝑖𝑣𝑖𝑗 ... (1) 𝑧𝑗 = 𝑓 (𝑧_𝑖𝑛𝑗) = 1
1+𝑒−𝑧_𝑖𝑛𝑗 ... (2) 6. Hitung semua keluaran jaringan di unit keluaran 𝑦𝑘 (k=1,2,…,m).
𝑦_𝑖𝑛𝑘 = 𝑤0𝑘+ ∑𝑝𝑗=1𝑧𝑗𝑤𝑗𝑘 ... (3) 𝑦𝑘= 𝑓 (𝑦_𝑖𝑛𝑘) ... (4) 7. Hitung faktor 𝛿 unit keluaran berdasarkan kesalahan disetiap unit keluaran
𝑦𝑘 (k=1,2,…m). 𝛿𝑘 = (𝑡𝑘− 𝑦𝑘)𝑓′(𝑦
𝑖𝑛𝑘) = (𝑡𝑘− 𝑦𝑘)𝑦𝑘(1 − 𝑦𝑘) ... (5) 𝑡𝑘 = target, 𝛿𝑘 merupakan unit kesalahan yang akan dipakai dalam perubahan bobot layer dibawahnya. Hitung perubahan bobot 𝑤𝑘𝑗 dengan laju pemahaman 𝛼.
∆𝑤𝑘𝑗= 𝛼 ∙ 𝜕𝑘∙ 𝑍𝑗, (𝑘 = 1,2, . . 𝑚; 𝑗 = 0,1 … , 𝑝) ... (6) 8. Hitung faktor 𝛿 unit tersembunyi berdasarkan kesalahan disetiap unit
tersembunyi 𝑧𝑗 (j=1).
𝛿_𝑖𝑛𝑗 = ∑𝑚𝑘=1𝛿𝑘𝑤𝑗𝑘 ... (7) Faktor 𝛿 unit tersembunyi:
𝛿𝑗 = 𝛿_𝑖𝑛𝑗𝑓′(𝑧_𝑖𝑛𝑗) = 𝛿_𝑖𝑛𝑗𝑧𝑗 (1 − 𝑧𝑗 ) ... (8) Hitung suku perubahan bobot 𝑣𝑖𝑗.
∆𝑣𝑖𝑗 = 𝛼𝛿𝑗𝑥𝑖, (𝑗 = 1,2, … 𝑝; 𝑖 = 1,2, … , 𝑛)... (9) 9. Hitung semua perubahan bobot. Perubahan bobot garis yang menuju ke unit
keluaran, yaitu :
𝑤𝑗𝑘(𝑏𝑎𝑟𝑢) = 𝑤𝑗𝑘(𝑙𝑎𝑚𝑎) + ∆𝑤𝑗𝑘, (𝑘 = 1,2, … 𝑚; 𝑗 = 0,1, … , 𝑝) ... (10) Perubahan bobot garis yang menuju ke unit tersembunyi, yaitu :
𝑣𝑖𝑗(𝑏𝑎𝑟𝑢) = 𝑣𝑖𝑗(𝑙𝑎𝑚𝑎) + ∆𝑣𝑖𝑗), (𝑗 = 1,2, … , 𝑝; 𝑖 = 0,1, … , 𝑛) ... (11) j. Term Frequency Invers Document Frequency
Metode Term Frequency Invers Document Frequency (TF-IDF) merupakan metode yang digunakan menentukan seberapa jauh keterhubungan kata (term) terhadap dokumen dengan memberikan bobot setiap kata. (Herwijayanti et al., 2018).
Pada algoritma TF-IDF digunakan rumus untuk menghitung bobot (w) masing-masing dokumen terhadap kata kunci dengan rumus yaitu (Melita, Amrizal, Suseno & Dirjam, 2018):
𝑤𝑑𝑡 = 𝑇𝐹𝑑𝑡∗ 𝐼𝐷𝐹𝑓𝑡 ... (12) Dimana:
𝑤𝑑𝑡 = bobot dokumen ke-d terhadap kata ke-t
𝑇𝐹𝑑𝑡 = banyaknya kata yang ada pada sebuah dokumen 𝐼𝐷𝐹𝑓𝑡 = Inversed Document Frequency (log (
𝑁 𝑑𝑓)) N = total dokumen
Df = banyak dokumen yang mengandung kata yang dicari. k. Confusion Matrix
Confusion matrix digunakan untuk evaluasi kinerja model klasifikasi yang
berdasarkan pada kemamapuan akurasi prediktif suatu model. Akurasi prediktif merupakan parameter untuk mengukur ketepatan aturan klasifikasi yang dihasilkan dalam mengklasifikasikan test set berdasarkan atribut yang ada ke dalam kelasnya. Akurasi ialah fungsi umum yang digunakan untuk mengukur efektivitas pada teknik klasifikasi. Akurasi dinyatakan dalam persentase (%), sehingga aturan dengan akurasi 100% artinya semua kasus yang terangkum oleh aturan klasifikasi telah diklasifikasikan dengan benar kedalam kelas yang diprediksinya (Yuliana & Supriyanto, 2019).
Untuk mendapatkan nilai akurasi prediktif diperlukan perhitungan jumlah data yang diprediksikan dengan benar dan jumlah data yang diprediksikan dengan salah. Perhitungan tersebut lalu ditabulasikan kedalam tabel yang disebut confusion matrix (Yuliana & Supriyanto, 2019):
Tabel 1. Confusion matrix
True (predicted) False (predicted) True (actual) True Positive (TP) False Positive (FP) False (actual) False Negative (FN) True Negative (TN) Dimana:
True Positive (TP): masalah diklasifikasikan berkaitan kategori yang benar. False Positive (FP): masalah diklasifikasikan berkaitan kategori yang salah. False Negative (FN): masalah diklasifikasikan tidak berkaitan kategori salah. True Negative (TN): masalah diklasifikasikan tidak berkaitan kategori benar.
Menghitung akurasi dapat dilakukan dengan rumus : 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝑃+𝑇𝑁
(𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁) X 100% ... (13) l. Bahasa Pemrograman Python
Python adalah bahasa pemrograman interpretative yang dianggap mudah dipelajari serta berfokus pada keterbacaan kode. Dengan kata lain, Python diklaim sebagai bahasa pemograman yang memeiliki kode-kode pemograman yang sangat jelas, lengkap, dan mudah untuk dipahami. Python secara umum berbentuk pemrograman berorientasi objek, pemrogaman imperatif, dan pemograman fungsional. Python dapat digunakan untuk berbagai keperluan pembangunan perangkat lunak dan dapat berjalan di berbagai platform sistem operasi (Syadid, 2019).
METODE PENELITIAN
a. Teknik Pengumpulan Data
Pengumpulan data pada penelitian ini yakni dengan web scraping, proses ekstraksi data dari sebuah website yang dimuat menggunakan beautifulsoup python. Data cerpen yang akan digunakan diambil dari website www.cerpenmu.com yang diterbitkan antara bulan Juli - Desember tahun 2019. Data cerpen yang digunakan berjumlah 60 cerpen yang terdiri dari 20 cerpen perkategori, yakni kategori anak, cinta, dan horror. Data yang digunakan dalam penelitian ini terdiri dari dua jenis, yaitu data latih dan data uji.
b. Peralatan yang Digunakan
Peralatan yang digunakan dalam penelitian ini terbagi menjadi 2 kategori, yaitu
hardware dan software. Hardware dan software yang digunakan dapat dilihat pada Tabel
2 dan Tabel 3.
Tabel 2. Hardware yang digunakan
No Nama Alat Fungsi Keterangan
1 Laptop Pengolahan data Asus
Tabel 3. Software yang digunakan
No Nama Alat dan Bahan Fungsi Keterangan
1 Microsoft Office Membuat laporan Versi 2010
2 Python Bahasa pemrograman Versi 3.7.4
3 Anaconda Pemrosesan data Versi 3
HASIL DAN PEMBAHASAN
a. Pengumpulan Data
Pengumpulan data yang digunakan dalam penelitian ini merupakan data cerita pendek yang diambil dari situs www.cerpenmu.com dengan jumlah data total sebanyak 60 data yang terbagi menjadi 3 kategori yakni anak, cinta, dan horror. Data cerpen yang diambil adalah cerpen yang diunggah antara bulan Juli-Desember 2019. Adapun deskripsi mengenai data yang digunakan dapat dilihat pada tabel 4.
Tabel 4. Deskripsi data yang digunakan
No Kategori Data training Data testing Total
1 Anak 15 5 20
2 Cinta 15 5 20
3 Horror 15 5 20
Total Dokumen 60
b. Preprocessing Data
Pembersihan terhadap data pada setiap dokumen sesuai dengan tahap
preprocessing yang telah ditentukan bertujuan menghasilkan data yang siap untuk
masuk ke proses selanjutnya. Pada gambar 1 berikut merupakan diagram alur dari proses preprocessing.
c. Pembobotan TF-IDF
Pada pembobotan term dilakukan proses pemberian nilai atau bobot terhadap setiap term yang ada pada setiap cerpen yang telah melewati tahap proses
preprocessing. Dalam melakukan pemberian bobot terhadap term ini menggunakan
metode TF-IDF. Pembobotan ini bertujuan untuk memberikan nilai kepada suatu term yang dimana nilai dari term tersebut akan dijadikan sebagai input pada proses implementasi model. Menghitung bobot kata masing-masing dokumen dengan persamaan 12. Tabel 5 menggambarkan perhitungan TF-IDF (term frequency-invers
document frequency) dengan mengalikan nilai TF dengan IDF tiap kosakata.
Tabel 5. Menghitung term frequency-invers document frequency (TF-IDF) KOSA KATA TF df IDF TF-IDF D1 D2 D3 D4 D1 D2 D3 D4 Ibu 4 0 6 6 3 0,125 0,500 0,000 0,750 0,750 Lihat 3 8 1 0 3 0,125 0,375 1,000 0,125 0,000 Kelas 3 9 1 10 4 0,000 0,000 0,000 0,000 0,000 Orang 1 3 2 0 3 0,125 0,125 0,375 0,250 0,000 Pak 0 2 3 1 3 0,125 0,000 0,250 0,375 0,125 Buat 3 1 0 1 3 0,125 0,375 0,125 0,000 0,125 Sekolah 1 0 0 1 2 0,301 0,301 0,000 0,000 0,301 Rumah 6 0 1 0 2 0,301 1,806 0,000 0,301 0,000 Makan 6 3 0 0 2 0,301 1,806 0,903 0,000 0,000 Hati 1 0 0 2 2 0,301 0,301 0,000 0,000 0,602 d. Implementasi Model
Data yang sudah melalui tahapan preprocessing, kemudian akan dilakukan proses pembelajaran/training dan pengujian/testing menggunakan algortima Multilayer
Perceptron, sehingga menghasilkan suatu model machine learning. Pada gambar 2
berikut merupakan diagram alur dari proses implementasi model.
Gambar 2 Diagram alur pada proses implementasi model
Tahapan proses training pada multilayer perceptron yang diterapkan dalam pengklasifikasian cerpen digambarkan pada gambar 3 berikut.
Gambar 3. Diagram alur pada proses training multilayer perceptron
Proses testing yang diimplementasikan pada klasifikasi kategori cerpen digambarkan pada blok diagram gambar 4 berikut.
Gambar 4. Blok diagram proses testing multilayer perceptron a) Pengambilan bobot dan bias hasil pelatihan
Pada pengujian multilayer perceptron, bobot dan bias yang digunakan adalah bobot dan bias hasil dari pelatihan yang sudah melewati iterasi sampai akhir pelatihan. Berikut salah satu contoh nilai bobot V, bias V0, bobot W, dan bias W0:
V11 = 0,181 W11 = -1,523 V01 = 1,009 W01 = 0,324 b) Perambatan maju (forward propagation)
Tahap perambatan maju pada pengujian multilayer perceptron, umumnya sama seperti tahap perambatan maju pada pelatihan multilayer perceptron. Pada tahap perambatan maju terdapat tiga langkah yaitu penerimaan sinyal pada input layer, perhitungan bobot dan bias input layer ke hidden layer, juga perhitungan bobot dan bias
hidden layer ke output layer.
➢ Penerimaan sinyal pada input layer
Pada langkah ini, sinyal input diterima dari pola yang dijadikan data uji. Sebagai contoh, data uji menggunakan data beberapa kata dari cerpen kategori anak. Nilai bobot kata yang digunakan yakni nilai dari setiap kata yang memiliki bobot tertinggi. Penyebaran sinyal input ke input layer pada contoh kasus ini dapat dilihat pada tabel 6 berikut.
Tabel 6. Penerimaan sinyal pada input layer pengujian
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
0,75 1,00 0,00 0,37 0,37 0,37 0,30 1,80 1,80 0,60 ➢ Perhitungan bobot dan bias input layer ke hidden layer, serta aktivasi
Langkah selanjutnya adalah perhitungan bobot dan bias input layer ke hidden
layer. Proses perhitungan bobot dan bias input layer ke hidden layer dapat dilihat pada
gambar 5 berikut.
Gambar 5. Proses perhitungan seluruh bobot dan bias input layer ke hidden layer Setelah didapatkan nilai hasil perhitungan dari seluruh bobot dan bias input
layer ke hidden layer, maka nilai tersebut diaktivasi menggunakan rumus aktivasi.
Proses perhitungan aktivasi dapat dilihat pada gambar 6 berikut.
Gambar 6. Proses aktivasi hasil perhitungan bobot dan bias input ke hidden layer Nilai hasil aktivasi ini akan digunakan sebagai pengganti sinyal input pada langkah perhitungan bobot dan bias hidden layer ke output layer.
➢ Perhitungan bobot dan bias hidden layer ke output layer, serta aktivasi
Pada langkah ini, digunakan nilai aktivasi bobot Zj sebagai pengganti sinyal
input pada langkah perhitungan bobot dan bias hidden layer ke output layer. Proses
perhitungan bobot dan bias hidden layer ke output layer dapat dilihat pada gambar 7.
Gambar 7. Proses perhitungan seluruh bobot dan bias hidden layer ke output layer Setelah didapatkan nilai hasil perhitungan dari seluruh bobot dan bias hidden
layer ke output layer, maka nilai tersebut diaktivasi menggunakan rumus aktivasi.
Proses perhitungan aktivasi dapat dilihat pada gambar 8.
Gambar 8. Proses aktivasi hasil perhitungan bobot dan bias hidden ke output layer Dari perhitungan aktivasi nilai 𝑦_𝑖𝑛𝑘 ini dihasilkan nilai aktivasi yang dilambangkan dengan Yk. Pada tahap pengujian ini nilai Yk digunakan untuk menentukan hasil identifikasi yang didapatkan oleh metode multilayer perceptron.
c) Identifikasi hasil
Target keluaran yang dihasilkan sistem berupa salah satu dari tiga kategori cerpen yang teridentifikasi oleh sistem yaitu anak, cinta, dan horror yang telah dirubah menjadi sebuah kode biner untuk memudahkan pelatihan. Kategori cerpen beserta kode yang digunakan sebagai target keluaran pada sistem, dapat dilihat pada tabel 7.
Tabel 7. Target keluaran sistem kategori cerpen Kategori Cerpen Kode
Anak 1 0 1
Cinta 0 1 1
Horror 0 0 1
Setelah didapatkan nilai aktivasi Yk, maka nilai aktivasi dibandingkan dengan nilai ambang (threshold) yang bernilai 0,5, yang berarti jika nilai output (Yk) lebih besar dari 0,5 maka output yang diberikan adalah 1, jika nilai output lebih kecil dari 0,5 maka
output yang diberikan adalah 0. Berikut ini adalah contoh nilai aktivasi yang dihasilkan
dari perhitungan contoh kasus yang digunakan. Contoh : Y1 = 0.990998602
Y2 = 0.001778235 Y3 = 0.623981222
Dengan demikian hasil output dari X adalah Y = [1 0 1] (karena Y1 = 0.990998602 > 0,5, Y2 = 0.001778235 < 0,5, dan Y3 = 0.623981222 > 0,5). Sesuai dengan target yang diharapkan yaitu [1 0 1] sebagai kode untuk kategori cerpen anak. e. Evaluasi Hasil
Tahapan ini mengevaluasi model yang terebentuk oleh algoritma Multilayer
Perceptron, dengan menggunakan metode confusion matrix untuk pengukuran akurasi.
Tabel 8 berikut merupakan perbandingan hasil pelabelan kategori (actual) dengan hasil klasifikasi sistem (predicted).
Tabel 8. Perbandingan hasil pelabelan kategori Actual
class 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 Predicted
class 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3
Angka pada tabel mewakili kategori cerpen. Angka 1 (satu) untuk kategori cerpen anak, angka 2 (dua) untuk kategori cerpen cinta, dan angka 3 (tiga) untuk kategori cerpen horror.
Pada tabel perbandingan hasil dapat dilihat bahwa seluruh data testing yakni 15 cerpen dapat diklasifikasikan dengan benar yakni sesuai antara kelas kategori cerpen sebenarnya dengan kelas kategori cerpen hasil klasifikasi sistem. Oleh karena itu didapat angka akurasi sebesar 100% dengan perhitungan menggunakan rumus akurasi
confusion matrix (persamaan 13) atau dapat digambarkan dengan tabel confusion matrix
(sesuai tabel 1) yang dapat dilihat pada tabel 9 evaluasi hasil confusion matrix sebagai berikut.
Tabel 9. Evaluasi hasil confusion matrix
(Predicted) Anak (Predicted) Cinta (Predicted) Horror (Actual) Anak 5 0 0 (Actual) Cinta 0 5 0 (Actual) Horror 0 0 5 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝐴 + 𝑇𝐶 + 𝑇𝐻 (𝑇𝐴 + 𝑇𝐶 + 𝑇𝐻 + 𝐹𝐴 + 𝐹𝐶 + 𝐹𝐻) X 100% 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 5 + 5 + 5 (5 + 5 + 5 + 0 + 0 + 0) X 100% =15 15 X 100% = 100%
Dari perhitungan diatas dapat dilihat bahwa akurasi dari 15 data testing diperoleh nilai 100%.
f. Tampilan Sistem
Gambar berikut ini merupakan tampilan dari sistem klasifikasi cerpen yang dibahas dalam penelitian ini. Dapat dilihat pada Gambar 9 merupakan menu utama pada sistem.
Gambar 9 Tampilan Menu Utama Sistem
Menu utama sistem yang telah dibuat terdapat sebelas pilihan menu dengan fungsi sebagai berikut :
1. Import Data Anak, menu untuk memasukkan data cerpen anak kedalam sistem. 2. Import Data Cinta, menu untuk memasukkan data cerpen cinta kedalam sistem. 3. Import Data Horror, menu untuk memasukkan data cerpen horror kedalam
sistem.
4. Lihat Data, menu untuk melihat data yang telah dimasukkan kedalam sistem. 5. Preprocessing, menu untuk melakukan preprocessing pada data yang telah di
import.
6. Save Excel Anak, menu untuk melakukan penyimpanan data cerpen anak yang telah melalui proses preprocessing dalam file excel atau .csv untuk melabelkan sebagai cerpen anak.
7. Save Excel Cinta, menu untuk melakukan penyimpanan data cerpen cinta yang telah melalui proses preprocessing dalam file excel atau .csv untuk melabelkan sebagai cerpen cinta.
8. Save Excel Horror, menu untuk melakukan penyimpanan data cerpen horror yang telah melalui proses preprocessing dalam file excel atau .csv untuk melabelkan sebagai cerpen horror.
9. Bagi data latih dan uji, menu untuk melakukan pembagian data latih dan uji
dataset.
10. Pembobotan TF-IDF, menu untuk melakukan pembobotan terhadap dataset yang telah dibagi menjadi data latih dan data uji.
11. Klasifikasi MLP, menu untuk melakukan pengklasifikasian terhadap dataset dan menghitung akurasi hasil pengklasifikasian.
KESIMPULAN
Berdasarkan penelitian yang dilakukan oleh penulis dengan mengamati dan menganalisa sistem pengolahan data yang digunakan serta didukung teori dan alat yang berkaitan dengan penelitian, maka dapat diambil kesimpulan sebagai berikut :
1. Dari tahapan-tahapan yang telah dilewati yakni mulai dari pengumpulan data cerpen, preprocessing data, pembobotan TF-IDF dan implementasi MLP pada klasifikasi kategori cerpen anak, cinta dan horror diperoleh gambaran bahwa metode Multilayer Perceptron (MLP) dapat diterapkan dengan baik dalam pengklasifikasian kategori cerita pendek tersebut.
2. Evaluasi hasil menggunakan confusion matrix dari penggunaan metode Multilayer
Perceptron (MLP) dalam pengklasifikasian 15 data testing dengan tiga kategori
cerita pendek pada penelitian ini diperoleh tingkat akurasi sebesar 100%.
SARAN
Berdasarkan hasil dan pembahasan yang telah dilakukan maka saran dari penelitian ini adalah:
1. Dibuatkannya sebuah sistem berbasis web ataupun mobile agar dapat digunakan oleh pengguna umum secara luas.
2. Penelitian ini dapat dikembangkan dengan algoritma pembobotan atau algoritma klasifikasi lainnya seperti Support vector machine (SVM), k-nearest neighbor (KNN), algoritma jaringan saraf tiruan lainnya, classification and regreesion trees (CART) dan sebagainya.
UCAPAN TERIMA KASIH
yang telah membimbing, memotivasi, dan membantu penelitian dan penulisan karya ilmiah ini.
DAFTAR PUSTAKA
Herwijayanti, B., Ratnawati, D. E., & Muflikhah, L. (2018). Klasifikasi Berita Online dengan menggunakan Pembobotan TF-IDF dan Cosine Similarity. Pengembangan
Teknologi Informasi Dan Ilmu Komputer, 2(1), 306–312.
Honakan, Adiwijaya, & AL-Faraby, S. (2018). Analisis Dan Implementasi Support Vector Machine Dengan String Kernel Dalam Melakukan Klasifikasi Berita Berbahasa Indonesia. E-Proceeding of Engineering, 5(1), 1701–1710.
Melita, R., Amrizal, V., Suseno, H. B., Dirjam, T., Studi, P., Informatika, T., & Sains, F. (2018). Penerapan Metode Term Frequency Invers Document Frequency (Tf-Idf) Dan Cosine Similarity Pada Sistem Temu Kembali Informasi Untuk Mengetahui Syarah Hadits Berbasis Web (Studi Kasus : Syarah Umdatil Ahkam).
Jurnal Teknik Informatika, 11(2).
Nurachim, R. I. (2019). Pemilihan Model Prediksi Indeks Harga Saham Yang Dikembangkan Berdasarkan Algoritma Support Vector Machine (Svm) Atau Multilayer Perceptron (Mlp) Studi Kasus : Saham Pt Telekomunikasi Indonesia Tbk. Jurnal Teknologi Informatika & Komputer, 5(1), 29–35.Saleh, A. (2015). Implementasi Metode Klasifikasi Naïve Bayes Dalam Memprediksi Besarnya Penggunaan Listrik Rumah Tangga. Creative Information Technology Journal,
2(3), 207–217.
Pratiwi, P. G., Gede, I. K., Putra, D., Purnami, D., & Putri, S. (2019). Peramalan Jumlah Tersangka Penyalahgunaan Narkoba Menggunakan Metode Multilayer Perceptron.
Merpati, 7(2), 0–7.
Pristyanto, Y. (2019). Penerapan Metode Ensemble Untuk Meningkatkan Kinerja Algoritme Klasifikasi Pada Imbalanced Dataset. Jurnal Teknoinfo, 13(1), 11. Purba, A. (2012). Sastra Indonesia Kontemporer. Yogyakarta: Graha Ilmu.
Sholehhudin, M., Fauzi Ali, M., & Adinugroho, S. (2018). Implementasi Metode Text Mining dan K-Means Clustering untuk Pengelompokan Dokumen Skripsi (Studi Kasus : Universitas Brawijaya). Jurnal Pengembangan Teknologi Informasi dan
Ilmu Komputer, 2(11), 5518–5524armudin, M. 2018.
Somantri, O. (2017). Text Mining Untuk Klasifikasi Kategori Cerita Pendek Menggunakan Naïve Bayes (NB). Jurnal Telematika, 12(01).
Syadid, F. (2019). Analisis Sentimen Komentar Netizen Terhadap Calon Presiden Indonesia 2019 Sari Twitter Menggunakan Algoritma Term Frequency-Invers Document Frequency (TF-IDF) dan Metode Multi Layer Perceptron (MLP) Neural Network. Skripsi Fakultas Sains dan Teknologi Universitas Islam Negeri Syarif
Hidayatullah.
Yuliana, D., & Supriyanto, C. (2019). Klasifikasi Teks Pengaduan Masyarakat Dengan Menggunakan Algoritma Neural Network. Jurnal KomTekInfo, 5(3), 92–118.