Nomor 200/M/KPT/2020, masa berlaku mulai Vol.3 No.1 tahun 2018 s.d Vol.7 No.2 tahun 2022
101
DOI http://dx.doi.org/10.51213/jimp.v7i3.638
Analisa Kinerja Algoritma Random Forest Classifier dengan Mutual Information dan Skip-Gram pada Klasifikasi Jurnal INIS
Mufidah Karimah1, Achmad Hindasyah2, Taswanda Taryo3
1, 2, 3 Program Studi Magister Teknik Informatika, Universitas Pamulang, Indonesia
Received: 23-07-2022; Accepted: 27-08-2023; Published: 12-09-2023
Abstrak— Supervised learning adalah teknik yang bergantung pada masukan berlabel untuk mempelajari suatu fungsi dan menghasilkan keluaran yang sesuai apabila diberi data baru tanpa label. Penggunaan algoritma supervised learning sering dibutuhkan dalam berbagai kondisi, salah satunya yakni mengklasifikasikan dokumen. INIS adalah salah satu perpustakaan digital yang dianggap masih melakukan pengklasifikasian dokumen secara manual dan membutuhkan pengotomatisasian klasifikasi dokumen.
Hal ini mengakibatkan proses pengelompokkan memakan waktu yang relatif lama dan terdapat banyak kendala karena banyaknya jumlah dokumen. Penelitian ini memiliki tujuan utama untuk menentukan algoritma yang memiliki kinerja dan akurasi terbaik agar dapat diimplementasikan dalam proses pengklasifikasian dokumen ilmiah. Penelitian ini menggunakan kombinasi algoritma Random Forest (RF) dengan Skip-Gram (SG) dan Mutual Information (MI) sebagai metode ekstraksi fitur dan metode seleksi fitur. Hasil menunjukkan bahwa kumpulan data yang digunakan dapat mempengaruhi kinerja suatu algoritma. Selain itu pada penelitian ini menunjukkan bahwa presentase kinerja dari algoritma Random Forest dan Skip-Gram lebih baik jika dikombinasikan dengan seleksi fitur daripada tidak menggunakan seleksi fitur. Penggunaan seleksi fitur pada Random Forest dan Skip-Gram dalam penelitian ini juga menunjukkan presentase kinerja lebih stabil jika dibandingkan dengan kinerja Random Forest dan Skip-Gram tanpa fitur seleksi.
Kata kunci : Text Mining; Klasifikasi Dokumen; Pengklasifikasian Random Forest; Skip-gram; Mutual Information
Abstrak— Supervised learning is a technique that relies on labeled inputs to learn a function and produces the appropriate output when given new data without labels. The use of supervised learning algorithms is often needed in various conditions, one of which is classifying documents. INIS is one of the digital libraries that is considered to still perform manual document classification and requires automating document classification. This causes the grouping process to take a relatively long time and there are many obstacles due to the large number of documents. This research has the main objective to determine the algorithm that has the best performance and accuracy so that it can be implemented in the process of classifying scientific documents. This study uses a combination of the Random Forest (RF) algorithm with Skip-Gram (SG) and Mutual Information (MI) as a feature extraction method and feature selection method. The results show that the data set used can affect the performance of an algorithm. In addition, this study shows that the performance percentage of the Random Forest and Skip-Gram algorithms is better when combined with feature selection than not using feature selection. The use of feature selection in Random Forest and Skip-Gram in this study also shows a more stable percentage of performance when compared to the
performance of Random Forest and Skip-Gram without feature selection.
Kata kunci
:
Text Mining; Document Classification; Random Forest Classifier; Skip-gram; Mutual InformationI. PENDAHULUAN
Secara umum artificial intelligence bekerja dengan data dalam jumlah besar, mengolah data untuk membentuk hubungan pola, hingga menggunakan pola tersebut untuk memprediksi yang terfokus pada tiga teknik, antara lain learning (biasa dikenal dengan machine learning), reasoning dan self-correction. Terdapat tiga kategori dalam machine learning yaitu reinforcement learning, unsupervised learning, dan supervised learning. Reinforcement learning adalah teknik machine learning yang melatih algoritma dengan sistem trial dan error dimana informasi yang dihasilkan digunakan untuk memperbaharui pengetahuannya. Unsupervised learning adalah teknik machine learning yang digunakan untuk melatih data tanpa data latih dan faktor penting lainnya. Supervised learning adalah teknik yang bergantung pada masukan berlabel untuk mempelajari suatu fungsi dan menghasilkan keluaran yang sesuai apabila diberi data baru tanpa label [1]. Beberapa algoritma supervised learning telah dikembangkan, diantaranya Fuzzy logic, Nearest Neighbor Rule, Naïve Bayes, Support Vector Machine, Random Forest Classifier dan lainnya [2]–[7].
Random Forest Classifier yaitu salah satu algoritma ensemble learning yang dikembangkan berdasarkan decision tree [8].
Dalam beberapa studi kasus kinerja random forest classifier dianggap telah melampaui kinerja support vector machine dan naïve bayes classifier. Dalam beberapa penelitian juga menyatakan bahwa random forest memberikan hasil yang lebih baik dibandingkan dengn algoritma lainnya dalam kasus yang sama [9].
Penggunaan algoritma supervised learning sangat dibutuhkan dalam berbagai kondisi, seperti mengklasifikasikan email spam, menganalisis sentimen, mengklasifikasikan dokumen dan lain-lain. Klasifikasi dokumen dapat dilakukan dengan dua cara, yakni dengan manual dan otomatis. Apabila klasifikasi dokumen dilakukan secara manual, maka manusia akan sepenuhnya memiliki kendali pada proses klasifikasi dalam menentukan kategori yang akan digunakan. Namun manusia akan mengalami kesulitan dalam proses klasifikasi dokumen apabila dokumen yang akan diklasifikasikan dalam jumlah banyak. Sebaliknya, klasifikasi dokumen secara
Nomor 200/M/KPT/2020, masa berlaku mulai Vol.3 No.1 tahun 2018 s.d Vol.7 No.2 tahun 2022
102
DOI http://dx.doi.org/10.51213/jimp.v7i3.638 otomatis akan jauh lebih cepat dan akurat jika dokumen yang
dimiliki dalam jumlah besar. Pengklasifikasian dokumen secara otomatis dapat dilakukan apabila didukung oleh algoritma machine learning dan teknik-teknik artificial intelligence. Natural language processing merupakan salah satu teknik artificial intelligence yang dapat memproses bahasa manusia agar dapat dimengerti dan dipelajari oleh mesin seperti mengekstrak kata menjadi vektor. Salah satu metode natural language processing yang umum digunakan adalah word embedding. Terdapat dua algoritma yang termasuk ke dalam word embedding, yakni continuous bag-of-words dan skip- gram. Skip-gram merupakan algoritma yang dianggap dapat bekerja dengan baik pada data yang sedikit dan dapat menerjemahkan kata-kata yang jarang digunakan [10]. Selain ekstraksi fitur, dibutuhkan metode seleksi fitur untuk mengurangi dimensi fitur hingga meningkatkan kinerja klasifikasi [11].
INIS adalah salah satu perpustakaan digital yang dianggap masih melakukan pengklasifikasian dokumen secara manual dan membutuhkan pengotomatisasian klasifikasi dokumen. Hal ini mengakibatkan proses pengelompokkan memakan waktu yang relatif lama dan terdapat banyak kendala karena banyaknya jumlah dokumen. Oleh sebab itu, tujuan utama dari penelitian ini adalah untuk menentukan algoritma yang memiliki kinerja dan akurasi terbaik agar dapat diimplementasikan dalam proses pengklasifikasian dokumen ilmiah.
Penelitian ini dilakukan tidak terlepas dari penelitian yang sudah dilakukan sebelumnya. Pada salah satu penelitian dijelaskan bahwa algoritma random forest classifier dapat digunakan sebagai pendeteksi bot. Hasil menunjukkan bahwa algoritma random forest yang dikombinasikan dengan word2vec memiliki kinerja sebesar 81% [12]. Dalam penelitian lainnya kombinasi algoritma random forest dengan word2vec digunakan untuk menganalisa ulasan para pengguna maskapai guna meningkatkan pendapatan maskapai. Pada penelitian tersebut kinerja kombinasi random forest dan word2vec mencapai 74,6% [13].
II. METODOLOGI PENELITIAN
Dalam penelitian ini dibutuhkan data sekunder dalam ukuran besar. Data yang diperoleh oleh peneliti merupakan data semi terstruktur sebanyak 5560 yang terdiri dari label, abstrak dan judul. Peneliti mendapatkan data dari halaman web international nuclear information system. Dari 5560 data kotor, peneliti akan mengklasifikasikannnya ke dalam 10 kategori, antara lain Spesific Nuclear Reactors and Associated;
Materials Scienc; In Organic, Organic, Physical and Analytical Chemistry; Instrumentation Related to Nuclear Science and Technology; Radiology and Nuclear Medicine;
Plasma Physics and Fusion Technology; Classical and Quantum Mechanic General Physics; Physics of Elementary Particles and Fields; Nuclear Physics and Radiation Physics;
dan Condensed Matter Physics, Superconductivity and Superfludity.
Data yang dimiliki peneliti terlebih dahulu diubah menjadi data terstruktur sebelum diproses lebih lanjut. Berikut adalah
tahapan yang peneliti lakukan setelah mengubah data menjadi data terstruktur.
Gambar 1. Perancangan Penelitian
1) Data Cleaning
Dalam penelitian ini pembersihan data dilakukan dalam dua langkah, sebagai berikut.
a. Pemeriksaan Data Duplikasi
Pemeriksaan data duplikasi dilakukan untuk menghindari adanya salah tafsir terhadap data yang dapat mempengaruhi keputusan yang akan diambil.
Gambar 2. Dataset Awal
Nomor 200/M/KPT/2020, masa berlaku mulai Vol.3 No.1 tahun 2018 s.d Vol.7 No.2 tahun 2022
103
DOI http://dx.doi.org/10.51213/jimp.v7i3.638 Gambar 3. Dataset Tanpa Data Duplikat
b. Pemeriksaan Data Kosong
Pemeriksaan data kosong dilakukan untuk menghindari adanya salah tafsir terhadap data yang dapat mempengaruhi keputusan yang akan diambil.
Gambar 4 Periksa Data Kosong
2) Language Modeling
Dalam penelitian ini, metode pemodelan bahasa yang digunakan adalah skip-gram yang mana metode tersebut merupakan metode word embedding. Metode ini sangat dipengaruhi oleh jumlah data, semakin besar data maka akan semakin besar kata-kata unik yang disertakan.
3) Pre-processing
Tahapan pre-processing yang dilakukan dalam penelitian ini antara lain lowercase, remove punctuation, tokenize dan remove stopwords.
4) Feature Extraction
Pada tahap ini dataset yang digunakan akan dilatih terhadap language modeling atau pemodelan bahasa yang telah dibuat sebelumnya menggunakan algoritma continuous bag-of-words dan skip-gram.
Gambar 5. Ekstraksi Fitur Kata ke Vektor
5) Feature Selection
Fitur yang diseleksi merupakan fitur yang dianggap sebagai fitur terbaik atau fitur yang sering muncul.
Gambar 6. Seleksi Fitur dengan mutual information
Setelah sampai pada tahap seleksi fitur, data akan dibagi menjadi dua jenis yaitu data train dan data test. Dalam penelitian ini perbandingan data train dan data test yaitu sebesar 80:20. Kemudian masing-masing akan digunakan dalam model klasifikasi untuk dievaluasi tingkat kinerja dari algoritma-algoritma yang digunakan. Terdapat empat kategori pengukuran yang digunakan dalam penelitian in, yaitu precision, recall, f1-score, dan accuracy.
III. HASIL DAN PEMBAHASAN
Pengujian dalam penelitian ini dibagi menjadi dua macam skenario. Pada skenario pertama algoritma random forest classifier akan dikombinasikan dengan algoritma skip-gram.
Pada skenario kedua, algoritma random forest classifierakan dikombinasikan dengan skip-gram dan mutual information.
Inilah penjabarannya.
1) Pengujian Tanpa Feature Selection
Pada skenario ini akan dilakukan pengujian dua algoritma terhadap suatu dataset, yakni algoritma random forest classifier dengan skip-gram. Skenario dapat dilihat pada tabel berikut.
Nomor 200/M/KPT/2020, masa berlaku mulai Vol.3 No.1 tahun 2018 s.d Vol.7 No.2 tahun 2022
104
DOI http://dx.doi.org/10.51213/jimp.v7i3.638 TABEL I.
Skenario Pertama
Dimensi Vektor
Jumlah
Data Algoritma 100
5374
Random Forest Classifier, Skip-
Gram 200
300 400 500
Dari skenario di atas, akan dihasilkan confusion matrix dan nilai kinerja algoritma sebagai berikut.
Gambar 7. Conf. Matrix Vektor 100
Gambar 8. Conf. Matrix Vektor 200
Gambar 9. Conf. Matrix Vektor 300
Gambar 10. Conf. Matrix Vektor 400
Gambar 11. Conf. Matrix Vektor 500
a. Precision
Berikut adalah tabel nilai precision dan juga tabel macro average dari precision yang diperoleh dari skenario pertama.
Nomor 200/M/KPT/2020, masa berlaku mulai Vol.3 No.1 tahun 2018 s.d Vol.7 No.2 tahun 2022
105
DOI http://dx.doi.org/10.51213/jimp.v7i3.638 TABEL II.
Nilai Precision Perkelas ( I )
Kelas Dimensi Vektor SG 100 200 300 400 500 21 82% 82% 88% 85% 82%
36 58% 61% 59% 64% 57%
37 77% 71% 72% 72% 72%
46 71% 70% 78% 74% 71%
62 96% 99% 100% 100% 99%
70 84% 82% 83% 85% 79%
71 63% 66% 70% 62% 74%
72 80% 84% 81% 76% 79%
73 76% 81% 80% 72% 85%
75 71% 54% 63% 71% 69%
TABEL III.
Macro Average Precision
Dimensi Vektor
100 200 300 400 500 Precision 76% 75% 77% 76% 77%
b. Recall
Berikut adalah tabel nilai recall dan juga tabel macro average dari recall yang diperoleh dari skenario pertama.
TABEL IV.
Nilai Recall Perkelas ( II )
Kelas Dimensi Vektor SG 100 200 300 400 500 21 90% 89% 91% 93% 91%
36 72% 69% 73% 71% 68%
37 66% 64% 68% 68% 68%
46 69% 80% 78% 79% 73%
62 95% 98% 97% 99% 98%
70 79% 78% 81% 78% 82%
71 64% 67% 65% 58% 66%
72 81% 78% 79% 77% 83%
73 76% 81% 80% 81% 80%
75 58% 48% 56% 55% 58%
TABEL V.
Macro Average Recall
Dimensi Vektor
100 200 300 400 500 Recall 75% 75% 77% 76% 76%
c. F1-Score
Berikut adalah tabel nilai f1-score yang diperoleh dari skenario pertama.
TABEL VI.
Nilai F1-Score ( I )
Dimensi Vektor
100 200 300 400 500 SG 75% 75% 77% 76% 76%
d. Accuracy
Berikut adalah tabel nilai accuracy yang diperoleh dari skenario pertama.
TABEL VII.
Nilai Accuracy ( II )
Dimensi Vektor
100 200 300 400 500 SG 75% 75% 77% 75% 76%
2) Pengujian dengan Feature Selection
Pada skenario ini akan dilakukan pengujian tiga algoritma terhadap suatu dataset, yakni algoritma random forest classifier dengan skip-gram dan mutual information.
Skenario dapat dilihat pada tabel berikut.
TABEL VIII.
Skenario Kedua
Dimensi Vektor
Jumlah
Data Algoritma 100
5374
Random Forest Classifier, Skip- Gram, Mutual
Information 200
300 400 500
Dari skenario di atas, akan dihasilkan confusion matrix dan nilai kinerja algoritma sebagai berikut.
Gambar 12. Conf. Matrix Vektor 100
Gambar 13. Conf. Matrix Vektor 200
Nomor 200/M/KPT/2020, masa berlaku mulai Vol.3 No.1 tahun 2018 s.d Vol.7 No.2 tahun 2022
106
DOI http://dx.doi.org/10.51213/jimp.v7i3.638 Gambar 14. Conf. Matrix Vektor 300
Gambar 15. Conf. Matrix Vektor 400
Gambar 16. Conf. Matrix Vektor 500
a. Precision
Berikut adalah tabel nilai precision dan juga tabel macro average dari precision yang diperoleh dari skenario kedua.
TABEL IX.
Nilai Precision Perkelas ( II )
Kelas Dimensi Vektor
100 200 300 400 500 21 87% 82% 84% 85% 82%
36 55% 61% 64% 64% 57%
37 76% 71% 74% 72% 72%
46 80% 70% 81% 74% 71%
62 100% 99% 99% 100% 99%
70 84% 82% 87% 85% 79%
71 72% 66% 70% 62% 74%
72 74% 84% 75% 76% 79%
73 79% 81% 84% 72% 85%
75 58% 54% 70% 71% 69%
TABEL X.
Macro Average Precision
Dimensi Vektor
100 200 300 400 500 Precision 77% 75% 79% 76% 77%
b. Recall
Berikut adalah tabel nilai recall dan juga tabel macro average dari recall yang diperoleh dari skenario kedua.
TABEL XI.
Nilai Recall Perkelas ( II )
Kelas Dimensi Vektor SG 100 200 300 400 500 21 94% 89% 98% 93% 91%
36 72% 69% 71% 71% 68%
37 70% 64% 71% 68% 68%
46 71% 80% 80% 79% 73%
62 99% 98% 98% 99% 98%
70 82% 78% 84% 81% 82%
71 72% 67% 68% 60% 66%
72 81% 78% 77% 76% 83%
73 76% 81% 82% 77% 80%
75 43% 44% 61% 62% 58%
TABEL XII.
Macro Average Recall
Dimensi Vektor
100 200 300 400 500 Recall 76% 75% 78% 76% 76%
c. F1-Score
Berikut adalah tabel nilai f1-score yang diperoleh dari skenario kedua.
TABEL XIII.
Nilai F1-Score ( II )
Dimensi Vektor
100 200 300 400 500 F1-Score 76% 75% 78% 76% 76%
Nomor 200/M/KPT/2020, masa berlaku mulai Vol.3 No.1 tahun 2018 s.d Vol.7 No.2 tahun 2022
107
DOI http://dx.doi.org/10.51213/jimp.v7i3.638 d. Accuracy
Berikut adalah tabel nilai accuracy yang diperoleh dari skenario kedua.
TABEL XIV.
Nilai Accuracy ( II )
Dimensi Vektor
100 200 300 400 500 Accuracy 76% 75% 78% 75% 76%
Dari penjabaran di atas akan dibahas dalam bentuk grafik precision, recall, f1-score dan accuracy di bawah ini.
Gambar 17. Grafik Nilai Precision
Saat ukuran dimensi vektor sebesar 100, nilai precision tertinggi dicapai ketika menggunakan feature selection yaitu sebesar 77%. Tetapi, pada saat ukuran dimensi vektor sebesar 200, nilai precision ketika menggunakan feature selection sama dengan nilai precision ketika tidak menggunakan feature selection yaitu sebesar 75%. Saat ukuran dimensi vektor sebesar 300, nilai precision tertinggi dicapai ketika menggunakan feature selection yaitu sebesar 79%. Sama seperti saat ukuran dimensi vektor sebesar 200, pada saat ukuran vektor 400 dan 500 nilai precision ketika menggunakan feature selection sama dengan nilai precision ketika tidak menggunakan feature selection yaitu sebesar 76% dan 77%.
Gambar 18. Grafik Nilai recall
Saat ukuran dimensi vektor sebesar 100, nilai recall tertinggi dicapai ketika menggunakan feature selection yaitu sebesar 76%. Tetapi, pada saat ukuran dimensi vektor sebesar 200, nilai recall ketika menggunakan feature selection sama dengan nilai recall ketika tidak menggunakan feature selection
yaitu sebesar 75%. Saat ukuran dimensi vektor sebesar 300, nilai recall tertinggi dicapai ketika menggunakan feature selection yaitu sebesar 78%. Sama seperti saat ukuran dimensi vektor sebesar 200, pada saat ukuran vektor 400 dan 500 nilai precision ketika menggunakan feature selection sama dengan nilai recall ketika tidak menggunakan feature selection yaitu sebesar 76%.
Gambar 19. Grafik Nilai F1-Score
Saat ukuran dimensi vektor sebesar 100, nilai f1-score tertinggi dicapai ketika menggunakan feature selection yaitu sebesar 76%. Tetapi, pada saat ukuran dimensi vektor sebesar 200, nilai f1-score ketika menggunakan feature selection sama dengan nilai f1-score ketika tidak menggunakan feature selection yaitu sebesar 75%. Saat ukuran dimensi vektor sebesar 300, nilai f1-score tertinggi dicapai ketika menggunakan feature selection yaitu sebesar 78%. Sama seperti saat ukuran dimensi vektor sebesar 200, pada saat ukuran vektor 400 dan 500 nilai f1-score ketika menggunakan feature selection sama dengan nilai f1-score ketika tidak menggunakan feature selection yaitu sebesar 76%.
Gambar 20. Grafik Nilai Accuracy
Saat ukuran dimensi vektor sebesar 100, nilai accuracy tertinggi dicapai ketika menggunakan feature selection yaitu sebesar 76%. Tetapi, pada saat ukuran dimensi vektor sebesar 200, nilai accuracy ketika menggunakan feature selection sama dengan nilai accuracy ketika tidak menggunakan feature selection yaitu sebesar 75%. Saat ukuran dimensi vektor sebesar 300, nilai accuracy tertinggi dicapai ketika menggunakan feature selection yaitu sebesar 78%. Sama seperti saat ukuran dimensi vektor sebesar 200, pada saat ukuran vektor 400 dan 500 nilai accuracy ketika menggunakan
Nomor 200/M/KPT/2020, masa berlaku mulai Vol.3 No.1 tahun 2018 s.d Vol.7 No.2 tahun 2022
108
DOI http://dx.doi.org/10.51213/jimp.v7i3.638 feature selection sama dengan nilai accuracy ketika tidak
menggunakan feature selection yaitu sebesar 76%.
IV. KESIMPULAN
Berdasarkan hasil penelitian yang dilakukan dapat ditarik kesimpulan bahwa kinerja algoritma random forest lebih baik apabila dikombinasikan dengan fitur ekstraksi dan fitur seleksi yang mana dalam penelitian ini fitur ekstraksi yang digunakan adalah skip-gram dan fitur seleksi yang digunakan adalah mutual information. Hal ini dapat dibuktikan, berdasarkan pengujian yang dilakukan, kombinasi algoritma random forest dengan skip-gram dan mutual information menghasilkan nilai precision tertinggi sebesar 79%, nilai recall sebesar 78%, nilai f1-score sebesar 78% dan nilai accuracy sebesar 78%. Akan tetapi pengembangan penelitian menggunakan data dari INIS masih diperlukan agar dapat ditemukan kombinasi algoritma dengan kinerja yang maksimal terhadap dataset. Diharapkan pada penelitian lanjutan, dapat dilakukan penelitian dengan beberapa algoritma deep learning. Selain itu pada penelitian lanjutan diharapkan ada yang melakukan penelitian dengan beberapa algoritma unsupervised learning agar dapat diketahui berapa jumlah klaster yang akan terbentuk.
REFERENSI
[1] E. Burns, N. Laskowski, and L. Tucci, “What is Artificial Intelligence (AI)? - AI Definition and How it
Works,” 2021.
https://searchenterpriseai.techtarget.com/definition/AI -Artificial-Intelligence.
[2] Y. A. Alhaj, J. Xiang, D. Zhao, M. A. A. Al-Qaness, M. Abd Elaziz, and A. Dahou, “A Study of the Effects of Stemming Strategies on Arabic Document Classification,” IEEE Access, vol. 7, pp. 32664–32671, 2019, doi: 10.1109/ACCESS.2019.2903331.
[3] C. Anne, 1. https://doi.org/10.5430/air.v7n1p1 Mishra, AvdeshAnne, C., Mishra, A., Hoque, M. T., & Tu, S.
(2017). Multiclass patent document classification.
Artificial Intelligence Research, 7(1), M. T. Hoque, and S. Tu, “Multiclass patent document classification,”
Artif. Intell. Res., vol. 7, no. 1, p. 1, 2017, doi:
10.5430/air.v7n1p1.
[4] B. Behera, G. Kumaravelan, and P. Kumar,
“Performance evaluation of machine learning algorithms in biomedical document classification,”
Proc. 11th Int. Conf. Adv. Comput. ICoAC 2019, no.
May, pp. 220–224, 2019, doi:
10.1109/ICoAC48765.2019.246843.
[5] T. Shi, X. Zhang, P. Wang, and C. K. Reddy, “Corpus- level and Concept-based Explanations for Interpretable Document Classification,” ACM Trans. Knowl. Discov.
Data, vol. 1, no. 1, pp. 1–17, 2020, doi:
10.1145/3477539.
[6] K. Spirovski, E. Stevanoska, A. Kulakov, Z. Popeska, and G. Velinov, “Comparison of different model⇔s performances in task of document classification,” ACM Int. Conf. Proceeding Ser., 2018, doi:
10.1145/3227609.3227668.
[7] H. T. Sueno, B. D. Gerardo, and R. P. Medina, “Multi-
class document classification using support vector machine (SVM) based on improved naïve bayes vectorization technique,” Int. J. Adv. Trends Comput.
Sci. Eng., vol. 9, no. 3, pp. 3937–3944, 2020, doi:
10.30534/ijatcse/2020/216932020.
[8] M. Z. Islam, J. Liu, J. Li, L. Liu, and W. Kang, “A semantics aware random forest for text classification,”
Int. Conf. Inf. Knowl. Manag. Proc., pp. 1061–1070, 2019, doi: 10.1145/3357384.3357891.
[9] M. Z. Alam, M. S. Rahman, and M. S. Rahman, “A Random Forest based predictor for medical data classification using feature ranking,” Informatics Med.
Unlocked, vol. 15, no. January, p. 100180, 2019, doi:
10.1016/j.imu.2019.100180.
[10] A. Nurdin, B. A. S. Aji, A. Bustamin, and Z. Abidin,
“PERBANDINGAN KINERJA WORD
EMBEDDING WORD2VEC , GLOVE ,” J.
TEKNOKOMPAK, vol. 14, no. 2, pp. 74–79, 2020.
[11] S. Bahassine, A. Madani, M. Al-Sarem, and M. Kissi,
“Feature selection using an improved Chi-square for Arabic text classification,” J. King Saud Univ. - Comput. Inf. Sci., vol. 32, no. 2, pp. 225–231, 2020, doi: 10.1016/j.jksuci.2018.05.010.
[12] G. E. Ferreira, B. L. Santos, M. T. Do Ó, R. R. Braz, and L. A. Digiampietri, “Social bots detection in Brazilian presidential elections using natural language processing,” ACM Int. Conf. Proceeding Ser., 2021, doi: 10.1145/3466933.3466991.
[13] F. Rustam, I. Ashraf, A. Mehmood, S. Ullah, and G. S.
Choi, “Tweets classification on the base of sentiments for US airline companies,” Entropy, vol. 21, no. 11, pp.
1–22, 2019, doi: 10.3390/e21111078.
This is an open access article under the CC–BY-SA license.