• Tidak ada hasil yang ditemukan

Analisa Kinerja Algoritma Random Forest Classifier dengan Mutual Information dan Skip-Gram pada Klasifikasi Jurnal INIS

N/A
N/A
Protected

Academic year: 2024

Membagikan "Analisa Kinerja Algoritma Random Forest Classifier dengan Mutual Information dan Skip-Gram pada Klasifikasi Jurnal INIS"

Copied!
8
0
0

Teks penuh

(1)

Nomor 200/M/KPT/2020, masa berlaku mulai Vol.3 No.1 tahun 2018 s.d Vol.7 No.2 tahun 2022

101

DOI http://dx.doi.org/10.51213/jimp.v7i3.638

Analisa Kinerja Algoritma Random Forest Classifier dengan Mutual Information dan Skip-Gram pada Klasifikasi Jurnal INIS

Mufidah Karimah1, Achmad Hindasyah2, Taswanda Taryo3

1, 2, 3 Program Studi Magister Teknik Informatika, Universitas Pamulang, Indonesia

1[email protected]

2[email protected]

3[email protected]

Received: 23-07-2022; Accepted: 27-08-2023; Published: 12-09-2023

AbstrakSupervised learning adalah teknik yang bergantung pada masukan berlabel untuk mempelajari suatu fungsi dan menghasilkan keluaran yang sesuai apabila diberi data baru tanpa label. Penggunaan algoritma supervised learning sering dibutuhkan dalam berbagai kondisi, salah satunya yakni mengklasifikasikan dokumen. INIS adalah salah satu perpustakaan digital yang dianggap masih melakukan pengklasifikasian dokumen secara manual dan membutuhkan pengotomatisasian klasifikasi dokumen.

Hal ini mengakibatkan proses pengelompokkan memakan waktu yang relatif lama dan terdapat banyak kendala karena banyaknya jumlah dokumen. Penelitian ini memiliki tujuan utama untuk menentukan algoritma yang memiliki kinerja dan akurasi terbaik agar dapat diimplementasikan dalam proses pengklasifikasian dokumen ilmiah. Penelitian ini menggunakan kombinasi algoritma Random Forest (RF) dengan Skip-Gram (SG) dan Mutual Information (MI) sebagai metode ekstraksi fitur dan metode seleksi fitur. Hasil menunjukkan bahwa kumpulan data yang digunakan dapat mempengaruhi kinerja suatu algoritma. Selain itu pada penelitian ini menunjukkan bahwa presentase kinerja dari algoritma Random Forest dan Skip-Gram lebih baik jika dikombinasikan dengan seleksi fitur daripada tidak menggunakan seleksi fitur. Penggunaan seleksi fitur pada Random Forest dan Skip-Gram dalam penelitian ini juga menunjukkan presentase kinerja lebih stabil jika dibandingkan dengan kinerja Random Forest dan Skip-Gram tanpa fitur seleksi.

Kata kunci : Text Mining; Klasifikasi Dokumen; Pengklasifikasian Random Forest; Skip-gram; Mutual Information

AbstrakSupervised learning is a technique that relies on labeled inputs to learn a function and produces the appropriate output when given new data without labels. The use of supervised learning algorithms is often needed in various conditions, one of which is classifying documents. INIS is one of the digital libraries that is considered to still perform manual document classification and requires automating document classification. This causes the grouping process to take a relatively long time and there are many obstacles due to the large number of documents. This research has the main objective to determine the algorithm that has the best performance and accuracy so that it can be implemented in the process of classifying scientific documents. This study uses a combination of the Random Forest (RF) algorithm with Skip-Gram (SG) and Mutual Information (MI) as a feature extraction method and feature selection method. The results show that the data set used can affect the performance of an algorithm. In addition, this study shows that the performance percentage of the Random Forest and Skip-Gram algorithms is better when combined with feature selection than not using feature selection. The use of feature selection in Random Forest and Skip-Gram in this study also shows a more stable percentage of performance when compared to the

performance of Random Forest and Skip-Gram without feature selection.

Kata kunci

:

Text Mining; Document Classification; Random Forest Classifier; Skip-gram; Mutual Information

I. PENDAHULUAN

Secara umum artificial intelligence bekerja dengan data dalam jumlah besar, mengolah data untuk membentuk hubungan pola, hingga menggunakan pola tersebut untuk memprediksi yang terfokus pada tiga teknik, antara lain learning (biasa dikenal dengan machine learning), reasoning dan self-correction. Terdapat tiga kategori dalam machine learning yaitu reinforcement learning, unsupervised learning, dan supervised learning. Reinforcement learning adalah teknik machine learning yang melatih algoritma dengan sistem trial dan error dimana informasi yang dihasilkan digunakan untuk memperbaharui pengetahuannya. Unsupervised learning adalah teknik machine learning yang digunakan untuk melatih data tanpa data latih dan faktor penting lainnya. Supervised learning adalah teknik yang bergantung pada masukan berlabel untuk mempelajari suatu fungsi dan menghasilkan keluaran yang sesuai apabila diberi data baru tanpa label [1]. Beberapa algoritma supervised learning telah dikembangkan, diantaranya Fuzzy logic, Nearest Neighbor Rule, Naïve Bayes, Support Vector Machine, Random Forest Classifier dan lainnya [2]–[7].

Random Forest Classifier yaitu salah satu algoritma ensemble learning yang dikembangkan berdasarkan decision tree [8].

Dalam beberapa studi kasus kinerja random forest classifier dianggap telah melampaui kinerja support vector machine dan naïve bayes classifier. Dalam beberapa penelitian juga menyatakan bahwa random forest memberikan hasil yang lebih baik dibandingkan dengn algoritma lainnya dalam kasus yang sama [9].

Penggunaan algoritma supervised learning sangat dibutuhkan dalam berbagai kondisi, seperti mengklasifikasikan email spam, menganalisis sentimen, mengklasifikasikan dokumen dan lain-lain. Klasifikasi dokumen dapat dilakukan dengan dua cara, yakni dengan manual dan otomatis. Apabila klasifikasi dokumen dilakukan secara manual, maka manusia akan sepenuhnya memiliki kendali pada proses klasifikasi dalam menentukan kategori yang akan digunakan. Namun manusia akan mengalami kesulitan dalam proses klasifikasi dokumen apabila dokumen yang akan diklasifikasikan dalam jumlah banyak. Sebaliknya, klasifikasi dokumen secara

(2)

Nomor 200/M/KPT/2020, masa berlaku mulai Vol.3 No.1 tahun 2018 s.d Vol.7 No.2 tahun 2022

102

DOI http://dx.doi.org/10.51213/jimp.v7i3.638 otomatis akan jauh lebih cepat dan akurat jika dokumen yang

dimiliki dalam jumlah besar. Pengklasifikasian dokumen secara otomatis dapat dilakukan apabila didukung oleh algoritma machine learning dan teknik-teknik artificial intelligence. Natural language processing merupakan salah satu teknik artificial intelligence yang dapat memproses bahasa manusia agar dapat dimengerti dan dipelajari oleh mesin seperti mengekstrak kata menjadi vektor. Salah satu metode natural language processing yang umum digunakan adalah word embedding. Terdapat dua algoritma yang termasuk ke dalam word embedding, yakni continuous bag-of-words dan skip- gram. Skip-gram merupakan algoritma yang dianggap dapat bekerja dengan baik pada data yang sedikit dan dapat menerjemahkan kata-kata yang jarang digunakan [10]. Selain ekstraksi fitur, dibutuhkan metode seleksi fitur untuk mengurangi dimensi fitur hingga meningkatkan kinerja klasifikasi [11].

INIS adalah salah satu perpustakaan digital yang dianggap masih melakukan pengklasifikasian dokumen secara manual dan membutuhkan pengotomatisasian klasifikasi dokumen. Hal ini mengakibatkan proses pengelompokkan memakan waktu yang relatif lama dan terdapat banyak kendala karena banyaknya jumlah dokumen. Oleh sebab itu, tujuan utama dari penelitian ini adalah untuk menentukan algoritma yang memiliki kinerja dan akurasi terbaik agar dapat diimplementasikan dalam proses pengklasifikasian dokumen ilmiah.

Penelitian ini dilakukan tidak terlepas dari penelitian yang sudah dilakukan sebelumnya. Pada salah satu penelitian dijelaskan bahwa algoritma random forest classifier dapat digunakan sebagai pendeteksi bot. Hasil menunjukkan bahwa algoritma random forest yang dikombinasikan dengan word2vec memiliki kinerja sebesar 81% [12]. Dalam penelitian lainnya kombinasi algoritma random forest dengan word2vec digunakan untuk menganalisa ulasan para pengguna maskapai guna meningkatkan pendapatan maskapai. Pada penelitian tersebut kinerja kombinasi random forest dan word2vec mencapai 74,6% [13].

II. METODOLOGI PENELITIAN

Dalam penelitian ini dibutuhkan data sekunder dalam ukuran besar. Data yang diperoleh oleh peneliti merupakan data semi terstruktur sebanyak 5560 yang terdiri dari label, abstrak dan judul. Peneliti mendapatkan data dari halaman web international nuclear information system. Dari 5560 data kotor, peneliti akan mengklasifikasikannnya ke dalam 10 kategori, antara lain Spesific Nuclear Reactors and Associated;

Materials Scienc; In Organic, Organic, Physical and Analytical Chemistry; Instrumentation Related to Nuclear Science and Technology; Radiology and Nuclear Medicine;

Plasma Physics and Fusion Technology; Classical and Quantum Mechanic General Physics; Physics of Elementary Particles and Fields; Nuclear Physics and Radiation Physics;

dan Condensed Matter Physics, Superconductivity and Superfludity.

Data yang dimiliki peneliti terlebih dahulu diubah menjadi data terstruktur sebelum diproses lebih lanjut. Berikut adalah

tahapan yang peneliti lakukan setelah mengubah data menjadi data terstruktur.

Gambar 1. Perancangan Penelitian

1) Data Cleaning

Dalam penelitian ini pembersihan data dilakukan dalam dua langkah, sebagai berikut.

a. Pemeriksaan Data Duplikasi

Pemeriksaan data duplikasi dilakukan untuk menghindari adanya salah tafsir terhadap data yang dapat mempengaruhi keputusan yang akan diambil.

Gambar 2. Dataset Awal

(3)

Nomor 200/M/KPT/2020, masa berlaku mulai Vol.3 No.1 tahun 2018 s.d Vol.7 No.2 tahun 2022

103

DOI http://dx.doi.org/10.51213/jimp.v7i3.638 Gambar 3. Dataset Tanpa Data Duplikat

b. Pemeriksaan Data Kosong

Pemeriksaan data kosong dilakukan untuk menghindari adanya salah tafsir terhadap data yang dapat mempengaruhi keputusan yang akan diambil.

Gambar 4 Periksa Data Kosong

2) Language Modeling

Dalam penelitian ini, metode pemodelan bahasa yang digunakan adalah skip-gram yang mana metode tersebut merupakan metode word embedding. Metode ini sangat dipengaruhi oleh jumlah data, semakin besar data maka akan semakin besar kata-kata unik yang disertakan.

3) Pre-processing

Tahapan pre-processing yang dilakukan dalam penelitian ini antara lain lowercase, remove punctuation, tokenize dan remove stopwords.

4) Feature Extraction

Pada tahap ini dataset yang digunakan akan dilatih terhadap language modeling atau pemodelan bahasa yang telah dibuat sebelumnya menggunakan algoritma continuous bag-of-words dan skip-gram.

Gambar 5. Ekstraksi Fitur Kata ke Vektor

5) Feature Selection

Fitur yang diseleksi merupakan fitur yang dianggap sebagai fitur terbaik atau fitur yang sering muncul.

Gambar 6. Seleksi Fitur dengan mutual information

Setelah sampai pada tahap seleksi fitur, data akan dibagi menjadi dua jenis yaitu data train dan data test. Dalam penelitian ini perbandingan data train dan data test yaitu sebesar 80:20. Kemudian masing-masing akan digunakan dalam model klasifikasi untuk dievaluasi tingkat kinerja dari algoritma-algoritma yang digunakan. Terdapat empat kategori pengukuran yang digunakan dalam penelitian in, yaitu precision, recall, f1-score, dan accuracy.

III. HASIL DAN PEMBAHASAN

Pengujian dalam penelitian ini dibagi menjadi dua macam skenario. Pada skenario pertama algoritma random forest classifier akan dikombinasikan dengan algoritma skip-gram.

Pada skenario kedua, algoritma random forest classifierakan dikombinasikan dengan skip-gram dan mutual information.

Inilah penjabarannya.

1) Pengujian Tanpa Feature Selection

Pada skenario ini akan dilakukan pengujian dua algoritma terhadap suatu dataset, yakni algoritma random forest classifier dengan skip-gram. Skenario dapat dilihat pada tabel berikut.

(4)

Nomor 200/M/KPT/2020, masa berlaku mulai Vol.3 No.1 tahun 2018 s.d Vol.7 No.2 tahun 2022

104

DOI http://dx.doi.org/10.51213/jimp.v7i3.638 TABEL I.

Skenario Pertama

Dimensi Vektor

Jumlah

Data Algoritma 100

5374

Random Forest Classifier, Skip-

Gram 200

300 400 500

Dari skenario di atas, akan dihasilkan confusion matrix dan nilai kinerja algoritma sebagai berikut.

Gambar 7. Conf. Matrix Vektor 100

Gambar 8. Conf. Matrix Vektor 200

Gambar 9. Conf. Matrix Vektor 300

Gambar 10. Conf. Matrix Vektor 400

Gambar 11. Conf. Matrix Vektor 500

a. Precision

Berikut adalah tabel nilai precision dan juga tabel macro average dari precision yang diperoleh dari skenario pertama.

(5)

Nomor 200/M/KPT/2020, masa berlaku mulai Vol.3 No.1 tahun 2018 s.d Vol.7 No.2 tahun 2022

105

DOI http://dx.doi.org/10.51213/jimp.v7i3.638 TABEL II.

Nilai Precision Perkelas ( I )

Kelas Dimensi Vektor SG 100 200 300 400 500 21 82% 82% 88% 85% 82%

36 58% 61% 59% 64% 57%

37 77% 71% 72% 72% 72%

46 71% 70% 78% 74% 71%

62 96% 99% 100% 100% 99%

70 84% 82% 83% 85% 79%

71 63% 66% 70% 62% 74%

72 80% 84% 81% 76% 79%

73 76% 81% 80% 72% 85%

75 71% 54% 63% 71% 69%

TABEL III.

Macro Average Precision

Dimensi Vektor

100 200 300 400 500 Precision 76% 75% 77% 76% 77%

b. Recall

Berikut adalah tabel nilai recall dan juga tabel macro average dari recall yang diperoleh dari skenario pertama.

TABEL IV.

Nilai Recall Perkelas ( II )

Kelas Dimensi Vektor SG 100 200 300 400 500 21 90% 89% 91% 93% 91%

36 72% 69% 73% 71% 68%

37 66% 64% 68% 68% 68%

46 69% 80% 78% 79% 73%

62 95% 98% 97% 99% 98%

70 79% 78% 81% 78% 82%

71 64% 67% 65% 58% 66%

72 81% 78% 79% 77% 83%

73 76% 81% 80% 81% 80%

75 58% 48% 56% 55% 58%

TABEL V.

Macro Average Recall

Dimensi Vektor

100 200 300 400 500 Recall 75% 75% 77% 76% 76%

c. F1-Score

Berikut adalah tabel nilai f1-score yang diperoleh dari skenario pertama.

TABEL VI.

Nilai F1-Score ( I )

Dimensi Vektor

100 200 300 400 500 SG 75% 75% 77% 76% 76%

d. Accuracy

Berikut adalah tabel nilai accuracy yang diperoleh dari skenario pertama.

TABEL VII.

Nilai Accuracy ( II )

Dimensi Vektor

100 200 300 400 500 SG 75% 75% 77% 75% 76%

2) Pengujian dengan Feature Selection

Pada skenario ini akan dilakukan pengujian tiga algoritma terhadap suatu dataset, yakni algoritma random forest classifier dengan skip-gram dan mutual information.

Skenario dapat dilihat pada tabel berikut.

TABEL VIII.

Skenario Kedua

Dimensi Vektor

Jumlah

Data Algoritma 100

5374

Random Forest Classifier, Skip- Gram, Mutual

Information 200

300 400 500

Dari skenario di atas, akan dihasilkan confusion matrix dan nilai kinerja algoritma sebagai berikut.

Gambar 12. Conf. Matrix Vektor 100

Gambar 13. Conf. Matrix Vektor 200

(6)

Nomor 200/M/KPT/2020, masa berlaku mulai Vol.3 No.1 tahun 2018 s.d Vol.7 No.2 tahun 2022

106

DOI http://dx.doi.org/10.51213/jimp.v7i3.638 Gambar 14. Conf. Matrix Vektor 300

Gambar 15. Conf. Matrix Vektor 400

Gambar 16. Conf. Matrix Vektor 500

a. Precision

Berikut adalah tabel nilai precision dan juga tabel macro average dari precision yang diperoleh dari skenario kedua.

TABEL IX.

Nilai Precision Perkelas ( II )

Kelas Dimensi Vektor

100 200 300 400 500 21 87% 82% 84% 85% 82%

36 55% 61% 64% 64% 57%

37 76% 71% 74% 72% 72%

46 80% 70% 81% 74% 71%

62 100% 99% 99% 100% 99%

70 84% 82% 87% 85% 79%

71 72% 66% 70% 62% 74%

72 74% 84% 75% 76% 79%

73 79% 81% 84% 72% 85%

75 58% 54% 70% 71% 69%

TABEL X.

Macro Average Precision

Dimensi Vektor

100 200 300 400 500 Precision 77% 75% 79% 76% 77%

b. Recall

Berikut adalah tabel nilai recall dan juga tabel macro average dari recall yang diperoleh dari skenario kedua.

TABEL XI.

Nilai Recall Perkelas ( II )

Kelas Dimensi Vektor SG 100 200 300 400 500 21 94% 89% 98% 93% 91%

36 72% 69% 71% 71% 68%

37 70% 64% 71% 68% 68%

46 71% 80% 80% 79% 73%

62 99% 98% 98% 99% 98%

70 82% 78% 84% 81% 82%

71 72% 67% 68% 60% 66%

72 81% 78% 77% 76% 83%

73 76% 81% 82% 77% 80%

75 43% 44% 61% 62% 58%

TABEL XII.

Macro Average Recall

Dimensi Vektor

100 200 300 400 500 Recall 76% 75% 78% 76% 76%

c. F1-Score

Berikut adalah tabel nilai f1-score yang diperoleh dari skenario kedua.

TABEL XIII.

Nilai F1-Score ( II )

Dimensi Vektor

100 200 300 400 500 F1-Score 76% 75% 78% 76% 76%

(7)

Nomor 200/M/KPT/2020, masa berlaku mulai Vol.3 No.1 tahun 2018 s.d Vol.7 No.2 tahun 2022

107

DOI http://dx.doi.org/10.51213/jimp.v7i3.638 d. Accuracy

Berikut adalah tabel nilai accuracy yang diperoleh dari skenario kedua.

TABEL XIV.

Nilai Accuracy ( II )

Dimensi Vektor

100 200 300 400 500 Accuracy 76% 75% 78% 75% 76%

Dari penjabaran di atas akan dibahas dalam bentuk grafik precision, recall, f1-score dan accuracy di bawah ini.

Gambar 17. Grafik Nilai Precision

Saat ukuran dimensi vektor sebesar 100, nilai precision tertinggi dicapai ketika menggunakan feature selection yaitu sebesar 77%. Tetapi, pada saat ukuran dimensi vektor sebesar 200, nilai precision ketika menggunakan feature selection sama dengan nilai precision ketika tidak menggunakan feature selection yaitu sebesar 75%. Saat ukuran dimensi vektor sebesar 300, nilai precision tertinggi dicapai ketika menggunakan feature selection yaitu sebesar 79%. Sama seperti saat ukuran dimensi vektor sebesar 200, pada saat ukuran vektor 400 dan 500 nilai precision ketika menggunakan feature selection sama dengan nilai precision ketika tidak menggunakan feature selection yaitu sebesar 76% dan 77%.

Gambar 18. Grafik Nilai recall

Saat ukuran dimensi vektor sebesar 100, nilai recall tertinggi dicapai ketika menggunakan feature selection yaitu sebesar 76%. Tetapi, pada saat ukuran dimensi vektor sebesar 200, nilai recall ketika menggunakan feature selection sama dengan nilai recall ketika tidak menggunakan feature selection

yaitu sebesar 75%. Saat ukuran dimensi vektor sebesar 300, nilai recall tertinggi dicapai ketika menggunakan feature selection yaitu sebesar 78%. Sama seperti saat ukuran dimensi vektor sebesar 200, pada saat ukuran vektor 400 dan 500 nilai precision ketika menggunakan feature selection sama dengan nilai recall ketika tidak menggunakan feature selection yaitu sebesar 76%.

Gambar 19. Grafik Nilai F1-Score

Saat ukuran dimensi vektor sebesar 100, nilai f1-score tertinggi dicapai ketika menggunakan feature selection yaitu sebesar 76%. Tetapi, pada saat ukuran dimensi vektor sebesar 200, nilai f1-score ketika menggunakan feature selection sama dengan nilai f1-score ketika tidak menggunakan feature selection yaitu sebesar 75%. Saat ukuran dimensi vektor sebesar 300, nilai f1-score tertinggi dicapai ketika menggunakan feature selection yaitu sebesar 78%. Sama seperti saat ukuran dimensi vektor sebesar 200, pada saat ukuran vektor 400 dan 500 nilai f1-score ketika menggunakan feature selection sama dengan nilai f1-score ketika tidak menggunakan feature selection yaitu sebesar 76%.

Gambar 20. Grafik Nilai Accuracy

Saat ukuran dimensi vektor sebesar 100, nilai accuracy tertinggi dicapai ketika menggunakan feature selection yaitu sebesar 76%. Tetapi, pada saat ukuran dimensi vektor sebesar 200, nilai accuracy ketika menggunakan feature selection sama dengan nilai accuracy ketika tidak menggunakan feature selection yaitu sebesar 75%. Saat ukuran dimensi vektor sebesar 300, nilai accuracy tertinggi dicapai ketika menggunakan feature selection yaitu sebesar 78%. Sama seperti saat ukuran dimensi vektor sebesar 200, pada saat ukuran vektor 400 dan 500 nilai accuracy ketika menggunakan

(8)

Nomor 200/M/KPT/2020, masa berlaku mulai Vol.3 No.1 tahun 2018 s.d Vol.7 No.2 tahun 2022

108

DOI http://dx.doi.org/10.51213/jimp.v7i3.638 feature selection sama dengan nilai accuracy ketika tidak

menggunakan feature selection yaitu sebesar 76%.

IV. KESIMPULAN

Berdasarkan hasil penelitian yang dilakukan dapat ditarik kesimpulan bahwa kinerja algoritma random forest lebih baik apabila dikombinasikan dengan fitur ekstraksi dan fitur seleksi yang mana dalam penelitian ini fitur ekstraksi yang digunakan adalah skip-gram dan fitur seleksi yang digunakan adalah mutual information. Hal ini dapat dibuktikan, berdasarkan pengujian yang dilakukan, kombinasi algoritma random forest dengan skip-gram dan mutual information menghasilkan nilai precision tertinggi sebesar 79%, nilai recall sebesar 78%, nilai f1-score sebesar 78% dan nilai accuracy sebesar 78%. Akan tetapi pengembangan penelitian menggunakan data dari INIS masih diperlukan agar dapat ditemukan kombinasi algoritma dengan kinerja yang maksimal terhadap dataset. Diharapkan pada penelitian lanjutan, dapat dilakukan penelitian dengan beberapa algoritma deep learning. Selain itu pada penelitian lanjutan diharapkan ada yang melakukan penelitian dengan beberapa algoritma unsupervised learning agar dapat diketahui berapa jumlah klaster yang akan terbentuk.

REFERENSI

[1] E. Burns, N. Laskowski, and L. Tucci, “What is Artificial Intelligence (AI)? - AI Definition and How it

Works,” 2021.

https://searchenterpriseai.techtarget.com/definition/AI -Artificial-Intelligence.

[2] Y. A. Alhaj, J. Xiang, D. Zhao, M. A. A. Al-Qaness, M. Abd Elaziz, and A. Dahou, “A Study of the Effects of Stemming Strategies on Arabic Document Classification,” IEEE Access, vol. 7, pp. 32664–32671, 2019, doi: 10.1109/ACCESS.2019.2903331.

[3] C. Anne, 1. https://doi.org/10.5430/air.v7n1p1 Mishra, AvdeshAnne, C., Mishra, A., Hoque, M. T., & Tu, S.

(2017). Multiclass patent document classification.

Artificial Intelligence Research, 7(1), M. T. Hoque, and S. Tu, “Multiclass patent document classification,”

Artif. Intell. Res., vol. 7, no. 1, p. 1, 2017, doi:

10.5430/air.v7n1p1.

[4] B. Behera, G. Kumaravelan, and P. Kumar,

“Performance evaluation of machine learning algorithms in biomedical document classification,”

Proc. 11th Int. Conf. Adv. Comput. ICoAC 2019, no.

May, pp. 220–224, 2019, doi:

10.1109/ICoAC48765.2019.246843.

[5] T. Shi, X. Zhang, P. Wang, and C. K. Reddy, “Corpus- level and Concept-based Explanations for Interpretable Document Classification,” ACM Trans. Knowl. Discov.

Data, vol. 1, no. 1, pp. 1–17, 2020, doi:

10.1145/3477539.

[6] K. Spirovski, E. Stevanoska, A. Kulakov, Z. Popeska, and G. Velinov, “Comparison of different model⇔s performances in task of document classification,” ACM Int. Conf. Proceeding Ser., 2018, doi:

10.1145/3227609.3227668.

[7] H. T. Sueno, B. D. Gerardo, and R. P. Medina, “Multi-

class document classification using support vector machine (SVM) based on improved naïve bayes vectorization technique,” Int. J. Adv. Trends Comput.

Sci. Eng., vol. 9, no. 3, pp. 3937–3944, 2020, doi:

10.30534/ijatcse/2020/216932020.

[8] M. Z. Islam, J. Liu, J. Li, L. Liu, and W. Kang, “A semantics aware random forest for text classification,”

Int. Conf. Inf. Knowl. Manag. Proc., pp. 1061–1070, 2019, doi: 10.1145/3357384.3357891.

[9] M. Z. Alam, M. S. Rahman, and M. S. Rahman, “A Random Forest based predictor for medical data classification using feature ranking,” Informatics Med.

Unlocked, vol. 15, no. January, p. 100180, 2019, doi:

10.1016/j.imu.2019.100180.

[10] A. Nurdin, B. A. S. Aji, A. Bustamin, and Z. Abidin,

“PERBANDINGAN KINERJA WORD

EMBEDDING WORD2VEC , GLOVE ,” J.

TEKNOKOMPAK, vol. 14, no. 2, pp. 74–79, 2020.

[11] S. Bahassine, A. Madani, M. Al-Sarem, and M. Kissi,

“Feature selection using an improved Chi-square for Arabic text classification,” J. King Saud Univ. - Comput. Inf. Sci., vol. 32, no. 2, pp. 225–231, 2020, doi: 10.1016/j.jksuci.2018.05.010.

[12] G. E. Ferreira, B. L. Santos, M. T. Do Ó, R. R. Braz, and L. A. Digiampietri, “Social bots detection in Brazilian presidential elections using natural language processing,” ACM Int. Conf. Proceeding Ser., 2021, doi: 10.1145/3466933.3466991.

[13] F. Rustam, I. Ashraf, A. Mehmood, S. Ullah, and G. S.

Choi, “Tweets classification on the base of sentiments for US airline companies,” Entropy, vol. 21, no. 11, pp.

1–22, 2019, doi: 10.3390/e21111078.

This is an open access article under the CC–BY-SA license.

Referensi

Dokumen terkait