| Rakajati | JURNAL MEDIA INFORMATIKA BUDIDARMA

(1)

Perbandingan Metode Naïve Bayes dan Support Vector Machine Pada Klasifikasi 22 Bahasa Daerah

Bima Rakajati^*, Erwin Yudi Hidayat

Fakultas Ilmu Komputer, Program Studi Teknik Informatika, Universitas Dian Nuswantoro, Semarang, Indonesia Email: ¹[email protected], ²[email protected]

Email Penulis Korespondensi: [email protected]

Abstrak−Indonesia memiliki kekayaan budaya yang sangat beragam, terdiri dari lebih dari 1300 suku dan 2500 bahasa daerah.

Tantangan muncul karena banyaknya bahasa daerah di Indonesia, sehingga mengidentifikasi bahasa dalam bentuk teks menjadi sulit. Penelitian ini membandingkan metode Machine Learning dalam mengklasifikasikan 22 bahasa daerah di Indonesia, bertujuan untuk memberikan pemahaman mendalam mengenai kinerja relatif masing-masing metode. Penelitian ini berhasil mengatasi kesulitan utama, yaitu identifikasi bahasa daerah di Indonesia. Kendala utama penelitian ini terletak pada kompleksitas bahasa daerah di Indonesia, dengan berbagai karakteristik, variasi tata bahasa, dan struktur kalimat yang berbeda, sehingga akurasi belum mencapai tingkat kesempurnaan. Faktor ini membuka peluang untuk penelitian berikutnya dengan optimalisasi parameter atau eksplorasi metode alternatif. Hasil evaluasi model menunjukkan bahwa Support Vector Machine mencapai akurasi tertinggi, yaitu 89.41%, menjadikannya pilihan utama untuk diterapkan pada tahap implementasi model.

Meskipun Naïve Bayes memberikan hasil yang baik dengan akurasi 82.08%, Support Vector Machine tetap menjadi opsi unggulan. Penerapan model pada aplikasi dengan Streamlit menunjukkan keefektifan Support Vector Machine dalam memprediksi lirik lagu bahasa Jawa secara akurat. Penelitian ini berpotensi membantu pengguna mengidentifikasi bahasa daerah berdasarkan teks dan memberikan kontribusi penting pada pemahaman metode Machine Learning dalam klasifikasi teks bahasa daerah. Meski memiliki keterbatasan, penelitian ini dapat diperluas untuk bahasa daerah lain dan meningkatkan akurasi model melalui peningkatan parameter.

Kata Kunci: Klasifikasi Teks; Bahasa Daerah; Machine Learning; Naïve Bayes; SVM

Abstract−Indonesia boasts a rich cultural diversity, encompassing over 1300 ethnic groups and 2500 regional languages. The challenge arises due to the multitude of regional languages in Indonesia, making language identification in textual form difficult. This research compares Machine Learning methods for classifying 22 regional languages in Indonesia, aiming to provide a deep understanding of the relative performance of each method. The study successfully addresses the primary difficulty, which is the identification of regional languages in Indonesia. The main constraint of this research lies in the complexity of regional languages in Indonesia, with various characteristics, variations in grammar, and differing sentence structures, resulting in accuracy not yet reaching perfection. This factor opens opportunities for future research through parameter optimization or exploration of alternative methods. Evaluation results indicate that the Support Vector Machine achieves the highest accuracy, reaching 89.41%, making it the preferred choice for model implementation. Although Naïve Bayes yields good results with an accuracy of 82.08%, Support Vector Machine remains the preferred option. The application of the model using Streamlit demonstrates the effectiveness of the Support Vector Machine in accurately predicting Javanese song lyrics. This research has the potential to assist users in identifying regional languages based on text and contributes significantly to understanding Machine Learning methods for classifying regional language texts. Despite its limitations, this study can be extended to other regional languages, enhancing model accuracy through parameter improvements.

Keywords: Text Classification; Regional Languages; Machine Learning; Naïve Bayes; SVM

1. PENDAHULUAN

Indonesia memiliki kekayaan budaya yang meliputi keragaman suku dan bahasa [1]. Berdasarkan data Badan Pusat Statistik (BPS) tahun 2010, terdapat lebih dari 1300 suku dan 2500 jenis bahasa daerah di Indonesia [2]. Bahasa, sebagai elemen penting dalam keragaman budaya Indonesia, memiliki peran kunci dalam mempertahankan kearifan lokal dan identitas bangsa [3]. Bahasa daerah, dengan keunikannya menjadi bagian tak terpisahkan dari warisan budaya yang melimpah di Indonesia [4], mencerminkan kekayaan budaya yang patut dijaga dan dipahami [5]. Berdasarkan keberagaman tersebut, sangat sulit untuk mengidentifikasi suatu bahasa daerah tertentu, sehingga penelitian ini diinisiasi untuk mengatasi tantangan tersebut dengan memanfaatkan metode machine learning dalam mengklasifikasikan teks dalam berbagai bahasa daerah di Indonesia.

Penelitian ini dilatarbelakangi oleh pentingnya pengembangan teknologi dalam bidang natural language processing (NLP) dan machine learning (ML), khususnya dalam konteks klasifikasi teks bahasa daerah di Indonesia. Meskipun bahasa daerah memiliki nilai kultural yang tinggi, perkembangan teknologi klasifikasi teks untuk bahasa daerah masih terbatas [6]. Pada tahun 1965, Mustonen, seorang ahli statistik, menciptakan program identifikasi bahasa untuk teks dengan menggunakan analisis diskriminan ganda untuk mengajarkan komputer mengenali perbedaan, pada tingkat kata, antara bahasa Inggris, Swedia, dan Finlandia [7]. Pada era digital saat ini, pemanfaatan bahasa semakin meluas dengan munculnya berbagai aplikasi dan layanan berbasis bahasa [8].

Klasifikasi teks bahasa daerah merupakan tantangan kompleks dengan beberapa isu yang perlu diatasi.

Salah satunya adalah kurangnya data teks bahasa daerah [6], yang membuat pelatihan model menjadi sulit karena terbatasnya data. Keanekaragaman bahasa daerah menjadi isu lain dengan berbagai karakteristik, variasi tata bahasa, dan struktur kalimat [9]. Oleh karena itu, diperlukan pengembangan model klasifikasi teks yang dapat

(2)

mengatasi perbedaan ini dan beroperasi secara efektif untuk berbagai bahasa daerah. Ketidaksetaraan jumlah data dalam distribusi teks bahasa daerah juga perlu diperhatikan karena dapat menghasilkan bias dalam model [10].

Klasifikasi teks merupakan teknik NLP yang berfokus pada pengelompokkan teks berdasarkan kategori tertentu [11]. Klasifikasi teks bahasa daerah memiliki peran penting dalam menyumbangkan kontribusi pada berbagai aspek. Dalam pencarian informasi, klasifikasi teks bahasa daerah dapat membantu pengguna menemukan informasi yang sesuai dengan bahasa daerah yang digunakan. Oleh karena itu, klasifikasi teks bahasa daerah tidak hanya memfasilitasi pengelompokkan teks, tetapi juga memberikan dampak positif pada penggunaan bahasa daerah secara keseluruhan [12].

Berdasarkan penelitian terdahulu, berbagai metode ML telah diuji untuk berbagai tujuan. Nugraha A dalam penelitiannya [13] membahas tentang identifikasi 10 bahasa daerah Indonesia dengan menggunakan berbagai teknik ML. Penelitian ini memanfaatkan dataset NusaX dan berfokus pada teknik-teknik ML yang melibatkan Support Vector Machine, Naïve Bayes, Decision Tree, Rocchio, Logistic Regression, dan Random Forest.

Penelitian ini juga menerapkan dua pendekatan ekstraksi fitur yang berbeda, yaitu N-gram dan TF-IDF. Hasil penelitian menunjukkan tingkat akurasi yang mengesankan, terutama pada Naïve Bayes yang mencapai 99,2%

dengan TF-IDF dan 99,4% dengan N-Gram.

Pada penelitian [14] Lumbaa L mengimplementasikan metode Support Vector Machine (SVM) dan Gradiant Boost dalam klasifikasi bahasa daerah, khususnya bahasa daerah Halmahera, Kalimantan, dan Toraja.

Pengujian sistem dilakukan dengan menggunakan data sebanyak 195.314, dan hasil penelitian menunjukkan bahwa metode SVM memberikan akurasi sebesar 99,64%, sementara metode Gradiant Boost memberikan akurasi sebesar 65,18%.

Penelitian terdahulu yang dilakukan oleh Tuhenay D [3] bertujuan untuk mengidentifikasi bahasa daerah menggunakan metode Naïve Bayes serta Support Vector Machine pada bahasa Indonesia, Ambon, dan Jawa. Hasil identifikasi tersebut dievaluasi dengan menghitung nilai akurasi pada kedua metode. Melalui perbandingan, penelitian ini menyimpulkan bahwa meskipun keduanya memberikan hasil identifikasi bahasa yang baik, SVM lebih efektif dengan nilai akurasi 0,9634 dibandingkan dengan NBC yang mencapai 0,9378.

Dalam penelitian yang dilakukan oleh Momole G [15] mengeksplorasi identifikasi bahasa daerah di Indonesia. Penelitian ini menggunakan metode Naïve Bayes dan Random Forest untuk mengidentifikasi bahasa Toraja, Kalimantan, dan Halmahera. Hasil penelitian menunjukkan bahwa metode Naïve Bayes memberikan hasil yang sangat baik dengan nilai akurasi di atas 0,90, sementara Random Forest hanya mendapatkan nilai akurasi di bawah 0,70.

Selain itu, penelitian oleh Babhulgaonkar A [16] membahas pentingnya identifikasi bahasa dalam konteks terjemahan mesin multibahasa. Penelitian ini melibatkan pelatihan identifikasi bahasa berbasis N-Gram dan ML untuk mengidentifikasi tiga bahasa India, yaitu Hindi, Marathi, dan Sanskerta. Hasilnya menunjukkan bahwa identifikasi bahasa berbasis mesin dengan menggunakan SVM lebih akurat daripada metode lainnya, mencapai akurasi 89%.

Dengan merinci latar belakang, permasalahan, manfaat dan beberapa penelitian terdahulu yang telah diuraikan di atas, penelitian ini bertujuan untuk membandingkan kinerja metode ML seperti Naïve Bayes, dan Support Vector Machine dalam klasifikasi bahasa daerah di Indonesia. Perbandingan antar metode ML menjadi esensial untuk mengevaluasi keefektifan dan keunggulan masing-masing metode dalam menangani permasalahan klasifikasi bahasa daerah. Meskipun dapat dilakukan klasifikasi dengan satu metode saja, perbandingan tersebut diperlukan untuk mengetahui metode mana yang memberikan hasil yang lebih akurat, efisien, dan dapat diandalkan dalam konteks khusus bahasa daerah. Hasil dari perbandingan ini dapat memberikan wawasan lebih baik tentang kekuatan dan kelemahan setiap metode, sehingga dapat memandu pemilihan metode yang paling sesuai untuk tujuan klasifikasi teks bahasa daerah.

2. METODOLOGI PENELITIAN

2.1 Tahapan Penelitian

Untuk menjalankan penelitian ini, beberapa langkah metode atau prosedur penelitian perlu diikuti agar sesuai dengan tujuan awal.

Gambar 1. Alur Penelitian

(3)

Tahapan penelitian ini dapat dilihat pada Gambar 1 yang diawali dengan data collecting, data cleaning yang meliputi penghapusan data yang hilang, dan menangani data kelas yang tidak seimbang. Selanjutnya pre- processing berupa menghapus tanda baca, digit, dan merubah teks menjadi huruf kecil. Kemudian feature extraction seperti N-Gram, dan TF-IDF. Lalu proses pelatihan model klasifikasi dengan beberapa algoritma seperti Naïve Bayes (NB), dan Support Vector Machine (SVM). Setelah itu model dievaluasi berdasarkan akurasi terbaik.

Terakhir model diimplementasikan menggunakan Streamlit.

2.2 Data Collecting

Dataset yang digunakan dalam penelitian ini berasal dari Korpus Nusantara [18], sebuah korpus paralel yang dikumpulkan dari berbagai sumber, termasuk penelitian, tugas, dan skripsi mahasiswa Program Studi Informatika Universitas Tanjungpura. Detail dari dataset tersebut dapat dilihat pada Tabel 1.

Tabel 1. Dataset Korpus Nusantara

Tabel 1 menyajikan data yang mencerminkan keragaman bahasa daerah di Indonesia dengan total 24 bahasa daerah, dan keseluruhan jumlah kalimat sebanyak 68.856.

2.3 Data Cleaning

Pembersihan data (data cleaning) merupakan langkah penting dalam NLP yang melibatkan penghapusan noise, kesalahan, dan inkonsistensi dari data teks mentah untuk meningkatkan kualitasnya agar dapat dianalisis oleh algoritma ML [17]. Teknik pembersihan data dalam penelitian ini melibatkan penghapusan nilai yang hilang (missing value removal) dan penanganan data yang tidak seimbang (imbalance data handling).

2.4 Pre-processing

Teks pre-processing (juga dikenal sebagai normalisasi) merupakan langkah krusial yang diterapkan pada teks sebelum disajikan ke dalam proses klasifikasi [18]. Teks pre-processing sedikit berbeda dari data cleaning, karena data cleaning merupakan transformasi yang diterapkan hanya pada data training, sedangkan normalisasi diterapkan pada kedua data training dan testing [7]. Teks pre-processing akan membantu dalam memilih hal-hal yang relevan dari dataset tersebut [19]. Pada bagian ini, penulis menggunakan tiga strategi normalisasi seperti menghapus tanda baca (punctuation removal), menghapus karakter numerik (digits removal), dan merubah teks menjadi huruf kecil (lowercasing).

2.5 Feature Extraction

Dalam analisis data teks, feature extraction dilakukan untuk mengekstrak informasi teks dari sejumlah besar pemrosesan teks untuk merepresentasikan pesan teks [20]. Pada bagian ini, penulis menggunakan dua strategi feature extraction seperti N-Gram dan TF-IDF Vectorizer.

No Bahasa Daerah Kalimat

1 Banjar 95

2 Batak Toba 6909

3 Bugis Kelolau 1000

4 Bugis Wajo 1792

5 Dayak Ahe 1994

6 Dayak Iban 997

7 Dayak Pesaguan 1603

8 Dayak Taman 3109

9 Jawa 1000

10 Jawa Kromo 5000

11 Jawa Ngoko 6059

12 Kapuas Hulu 1000

13 Khek Pontianak 1986

14 Madura 1100

15 Melayu Kembayan 1000 16 Melayu Ketapang 5189 17 Melayu Melawi 1000 18 Melayu Pontianak 3747 19 Melayu Putussibau 4469 20 Melayu Sambas 9099 21 Melayu Sintang 1995

22 Padang 2014

23 Sunda 1699

24 Tio Ciu Pontianak 5000

Total 68856

(4)

2.6 Classification

Data yang sudah bersih kemudian diklasifikasi menggunakan algoritma klasifikasi teks seperti Naïve Bayes, dan Support Vector Machine.

2.6.1 Naïve Bayes

Pada penelitian ini penulis menggunakan metode Naïve Bayes (NB) dengan tipe Multinomial yang sebagian besar digunakan untuk mengklasifikasi kategori dokumen. Multinomial NB menerapkan algoritma NB untuk data yang terdistribusi secara multinomial [7]. Berikut adalah formula dari Naïve Bayes.

𝑃(𝑐|𝑥) = ^{𝑃(𝑥|𝑐)𝑃(𝑐)}

𝑃(𝑥) (1)

Dimana 𝑐 mewakili kelas atau kategori output yang diprediksi, 𝑥 mewakili vektor fitur yang digunakan untuk memprediksi kelas, 𝑃(𝑐|𝑥) adalah posterior probability, 𝑃(𝑥|𝑐) adalah likelihood, 𝑃(𝑐) adalah class prior probability, dan 𝑃(𝑥) adalah predictor prior probability.

2.6.2 Support Vector Machine

Support Vector Machine (SVM) dikembangkan oleh Vapnik dan Chervonenkis pada tahun 1963 [18]. Di sisi lain, Linear SVM adalah implementasi lain (lebih cepat) dari SVM untuk kasus kernel linear yang diimplementasikan pada penelitian ini. Dalam penelitian ini, SVM menerapkan strategi One-vs-All dalam upaya mengklasifikasikan bahasa daerah, yang diformulasikan seperti berikut:

𝑓(𝑥) = 𝑠𝑖𝑔𝑛(𝑤. 𝑥. 𝑏) (2)

Fungsi prediksi 𝑓(𝑥) menghasilkan output untuk data 𝑥 dengan memanfaatkan vektor bobot 𝑤 yang menentukan orientasi Hyperplane. Vektor 𝑥 merepresentasikan fitur dari data yang akan diprediksi, dan 𝑏 adalah nilai bias yang menunjukkan pergeseran Hyperplane dari titik asal.

2.7 Model Evaluation

Dalam penelitian ini tahap evaluasi menggunakan Confusion Matrix (CM) dengan metrik utamanya adalah akurasi. Hasil dari proses pemodelan dicirikan oleh empat istilah: True Positive (TP), True Negative (TN), False Positive (FP), dan False Negative (FN). Berikut adalah rumus untuk untuk menentukan akurasi:

𝐴 = ^{𝑇𝑃+𝑇𝑁}

𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 (3)

2.8 Model Implementation

Implementasi model dibuat menggunakan framework python bernama Streamlit, sebuah library untuk membangun antarmuka pengguna (UI) yang interaktif dan ramah pengguna untuk aplikasi berbasis web [21].

3. HASIL DAN PEMBAHASAN

Penelitian ini mengeksplorasi perbandingan metode ML dalam konteks klasifikasi teks untuk 22 bahasa daerah di Indonesia. Dataset yang terdiri dari 24 bahasa daerah dengan total 68.840 kalimat telah melalui serangkaian proses, termasuk data cleaning (values removal, dan imbalanced class handling) dan pre-processing (punctuation removal, digits removal, dan lowercasing). Dataset yang dihasilkan mencakup 22 bahasa, seperti Batak, Bugis Kelolao, Sunda, Padang, hingga Tio Ciu Pontianak, dengan masing-masing bahasa memiliki jumlah kalimat yang seimbang dan mencapai 1000 kalimat. Metodologi penelitian mencakup langkah-langkah seperti feature extraction menggunakan metode TF-IDF dan N-Gram, serta penerapan algoritma ML seperti Naïve Bayes, dan Support Vector Machine. Selanjutnya dilakukan evaluasi performa dari setiap algoritma, memberikan pemahaman yang mendalam terhadap kemampuan klasifikasi teks bahasa daerah.

3.1 Dataset

Dataset yang telah diperoleh kemudian diolah dengan menggunakan perangkat lunak Python dan memanfaatkan library bernama pandas untuk membuatnya menjadi sebuah dataframe. DataFrame, sebagai struktur data yang populer dalam pemrosesan data dengan Python, memberikan kemudahan dalam mengorganisir dan menganalisis dataset. Dalam langkah ini, penggunaan pandas memungkinkan kita untuk dengan mudah menjelajahi dan memanipulasi dataset. Dengan konversi ke dalam format dataframe, dataset menjadi lebih terstruktur dan siap untuk dijalani berbagai tahapan analisis selanjutnya. Hasil dari dataframe tersebut dapat dilihat di Tabel 2.

Tabel 2. Hasil Dataframe

lang text

0 Banjar Salawas naya kader posyandu sentral bangat, ga...

(5)

lang text

1 Banjar Bubuhan biasa na aktif barbagai kagiatan disa ...

2 Banjar Gasan mansyarakat, kader posyandu marupakan su...

3 Banjar Kader posyandu labih paham manganai situasi wa...

4 Banjar Pada eher na, mansyarakat kacar manuha'I posny...

Dengan menggunakan library pandas dalam bahasa pemrograman Python, dataset yang telah berhasil dikumpulkan kemudian diolah dan direpresentasikan dalam bentuk dataframe. Pandas memainkan peran penting dalam proses ini, memungkinkan kita untuk mengorganisir data dengan lebih terstruktur dan mudah diakses.

Dalam Tabel 2 tersebut, terdapat dua kolom utama, yaitu 'lang', yang merepresentasikan kelas atau label dari bahasa daerah, dan 'text', yang berisi kalimat-kalimat dari bahasa daerah yang dijadikan objek analisis. Penting untuk dicatat bahwa jumlah total baris pada dataframe ini mencapai 68,840, menunjukkan volume data yang signifikan untuk diteliti. Adanya dua kolom ini memberikan landasan kuat untuk analisis lebih lanjut terkait klasifikasi teks pada bahasa daerah di Indonesia. Dalam bab selanjutnya mendalami tahap-tahap pre-processing yang dilakukan terhadap dataset ini sebelum diterapkan pada model klasifikasi menggunakan berbagai algoritma ML.

3.2 Data Cleaning

Dalam penelitian ini, fokus utama adalah pada langkah-langkah yang melibatkan dua aspek penting, yaitu missing values removal dan imbalanced class handling.

3.2.1 Missing Values Removal

Langkah pertama adalah mengidentifikasi dan mengatasi nilai-nilai yang hilang dalam dataset. Proses ini melibatkan pengecekan setiap entri dalam dataframe untuk memastikan kelengkapan data, dan nilai-nilai yang tidak lengkap dihapus sesuai dengan strategi yang telah ditetapkan.

Gambar 2. Hasil Sebelum Missing Values Removal

Sebelum dilakukan proses missing values removal, terdapat empat baris data yang mengandung nilai yang hilang, sebagaimana tergambar pada Gambar 2. Rinciannya, informasi mengenai baris data yang mengandung missing values dapat dilihat pada Tabel 3.

Tabel 3. Data Yang Missing Values

lang text

30720 Khek Pontianak NaN 41850 Melayu Pontianak NaN 49941 Melayu Sambas NaN 50687 Melayu Sambas NaN

Baris data pada Tabel 3 yang mengandung missing values dapat dikenali dengan adanya nilai NaN (Not a Number) pada kolom "text" untuk bahasa daerah Khek Pontianak, Melayu Pontianak, dan Melayu Sambas.

Keberadaan nilai NaN menandakan bahwa terdapat ketidaklengkapan data pada kolom teks untuk bahasa daerah tersebut. Untuk mengatasi ketidak lengkapan ini, dilakukan langkah-langkah data cleaning, seperti penghapusan baris yang mengandung nilai NaN, agar dataset menjadi lebih lengkap dan siap untuk proses analisis lebih lanjut.

Gambar 3. Hasil Sesudah Missing Values Removal

Setelah dilakukan proses missing values removal, hasilnya menunjukkan bahwa tidak ada data yang mengandung nilai yang hilang, seperti yang terlihat pada Gambar 3.

3.2.2 Imbalanced Class Handling

Selanjutnya, perhatian khusus diberikan pada penanganan ketidakseimbangan kelas, yang sering kali merupakan tantangan dalam tugas klasifikasi teks. Dalam konteks ini, teknik Random Under Sampling (RUS) digunakan untuk menyeimbangkan distribusi kelas sehingga mencegah model menjadi bias terhadap kelas mayoritas.

(6)

Gambar 4. Jumlah Data Sebelum Imbalanced Class Handling

Sebelum dilakukan imbalanced class handling, terlihat bahwa kelas bahasa daerah masih belum seimbang, seperti yang tergambar pada Gambar 4. Untuk mengatasi ketidakseimbangan ini, dilakukan penghapusan bahasa daerah yang memiliki jumlah kalimat kurang dari 1000. Setelah proses imbalanced class handling menggunakan metode RUS, berhasil mencapai keseimbangan kelas untuk setiap bahasa daerah seperti yang dapat dilihat pada gambar berikut.

Gambar 5. Jumlah Data Sesudah Imbalanced Class Handling

Hasil setelah dilakukan penanganan kelas tidak seimbang menunjukkan bahwa seluruh kelas telah disetarakan menjadi 1000 kalimat per bahasa daerah, sebagaimana dapat diamati dalam Gambar 5. Langkah ini penting untuk mencegah bias dan meningkatkan kualitas performa model pada tahap klasifikasi teks.

3.3 Pre-processing

Dalam pre-processing, dilakukan tahapan-tahapan penting guna meningkatkan kualitas data sebelum proses klasifikasi. Pertama, dilakukan punctuation removal, digits removal, dan lowercasing.

3.3.1 Punctuation Removal

Dalam tahap punctuation removal, dilakukan eliminasi tanda baca dari kalimat-kalimat dalam dataset. Proses punctuation removal ini bertujuan untuk membersihkan kalimat dari unsur-unsur yang tidak memberikan kontribusi signifikan pada analisis teks, sehingga mempermudah pemrosesan dan meningkatkan akurasi dalam klasifikasi bahasa daerah. Dengan menghilangkan tanda baca, dataset menjadi lebih terstruktur dan siap untuk menghadapi langkah-langkah berikutnya dalam proses analisis menggunakan metode ML.

Tabel 4. Hasil Punctuation Removal

lang text processed_text

Khek Pontianak Ngai miang Hiroshi Mori. ngai miang hiroshi mori Khek Pontianak Jiu thiensi set khiun kientu mo? jiu thiensi set khiun kientu mo Khek Pontianak Mo, ka loi ngai tam sa jung. mo ka loi ngai tam sa jung Melayu Putussibau Umak, masa depan mpu Tuhan umak masa depan mpu tuhan

Tio Ciu Pontianak wa ua liau wa kai web ei situs lou. wa ua liau wa kai web ei situs lou

Tabel 4 memperlihatkan hasil setelah penerapan langkah ini, di mana tanda baca yang awalnya mempengaruhi struktur dan representasi teks telah berhasil dihapus.

3.3.2 Digits Removal

Langkah pre-processing selanjutnya yang diterapkan pada dataset adalah digits removal, yaitu proses penghapusan angka atau digit dari kalimat-kalimat yang terdapat dalam dataset. Metode ini dipilih untuk menghilangkan unsur digit yang mungkin tidak memberikan kontribusi signifikan pada analisis klasifikasi teks bahasa daerah.

Tabel 5. Hasil Digits Removal

Melayu Sintang aku nak ngubah tanggal ke 19 mei aku nak ngubah tanggal ke mei

Dayak Taman jo jam 08.00 mo ndu jo jam mo ndu

(7)

Melayu Pontianak Ini jam 03:00 pagi. Ini jam pagi

Melayu Sintang ukuran aku 6 ukuran aku

Dayak Ahe Area parwahan nang tasisa tingal 10 Area parwahan nang tasisa tingal

Hasil dari proses digits removal dapat dilihat pada Tabel 5, yang memperlihatkan dataset setelah langkah ini diterapkan. Dengan menghilangkan digit, dataset menjadi lebih terfokus pada struktur kalimat dan penggunaan kata-kata, yang merupakan aspek utama dalam klasifikasi teks.

3.3.3 Lowercasing

Lowercasing merupakan teknik yang melibatkan konversi semua huruf pada teks menjadi huruf kecil. Penerapan metode ini bertujuan untuk memastikan keseragaman dalam dataset, sehingga model ML dapat mengidentifikasi kata-kata yang sama tanpa memandang apakah hurufnya kapital atau tidak.

Tabel 6. Hasil Lowercasing

Melayu Sambas Kau bise marekkan aku tige dolar… kau bise marekkan aku tige dolar…

Khek Pontianak Then siw khon pun ngai lia jit cak… then siw khon pun ngai lia jit cak...

Dayak Pesaguan Enjadi udah soyin rasa’ entai kunai… enjadi udah soyin rasa’ entai kunai...

Batak Hami adong ikan na sai denggan ma… hami adong ikan na sai denggan…

Jawa Ngoko Ngeselake tenan mlaku-mlaku… ngeselake tenan mlaku-mlaku…

Hasil dari proses lowercasing dapat dilihat pada Tabel 6, yang menunjukkan dataset setelah teksnya telah diubah menjadi huruf kecil.

3.4 Feature Extraction

Proses Feature Extraction dalam penelitian ini dilakukan dengan menerapkan metode Term Frequency-Inverse Document Frequency (TF-IDF) dan N-Gram. TF-IDF digunakan untuk mengekstraksi fitur dari teks dengan memberikan bobot pada setiap kata berdasarkan frekuensi kemunculannya dalam dokumen dan invers frekuensi kemunculan kata tersebut dalam seluruh dataset.

Gambar 6. Hasil N-Gram

Selain itu, N-Gram dengan parameter ngram_range=(1,3) dan analyzer='char' digunakan untuk menghasilkan rangkaian karakter (substring) sepanjang 1 hingga 3 karakter dalam teks. Contohnya dapat dilihat pada Gambar 6, di mana pada sampel kata "nanging" dalam bahasa Jawa Ngoko, terbentuk n-gram seperti "a",

"an", "ang", "g", "gi", "gin", "i", "in", dan sebagainya.

3.5 Classification

Dalam langkah klasifikasi ini, sejumlah metode Machine Learning (ML) digunakan untuk memprediksi bahasa daerah. Dua metode utama yang diterapkan dalam penelitian ini adalah Naïve Bayes dan Support Vector Machine (SVM). Sebelum menerapkan metode ini, dataset yang telah terkumpul dipecah menjadi data latih (training) dan data uji (testing) dengan rasio pembagian sebesar 70:30. Pemisahan dataset ini bertujuan untuk melatih model pada data yang telah diketahui labelnya dan menguji performa model pada data yang belum pernah dilihat sebelumnya.

Data latih terdiri dari 15.400 kalimat, sedangkan data uji berisi 6.600 kalimat. Proses pemisahan ini dirancang untuk memberikan model kemampuan untuk mempelajari pola dari data latih dan menggeneralisasikan informasi tersebut untuk membuat prediksi yang akurat pada data uji yang baru. Dengan membagi dataset menjadi dua set terpisah ini, diharapkan model ML dapat diuji dan dievaluasi secara obyektif pada data yang tidak pernah digunakan selama proses pelatihan. Selanjutnya, Naïve Bayes dan SVM diterapkan pada kedua set data ini untuk mengevaluasi dan membandingkan kinerja keduanya dalam konteks klasifikasi teks bahasa daerah.

(8)

3.5.1 Naïve Bayes

Pada tahap penerapan metode NB, jenis algoritma yang digunakan adalah NB dengan tipe multinomial. Pemilihan tipe ini disesuaikan dengan karakteristik data teks yang umumnya terdiri dari kumpulan kata dengan distribusi multinomial. Proses fitting model dilakukan dengan menggunakan parameter default dari algoritma, dan implementasinya dilakukan melalui platform Google Colab.

Gambar 7. Hasil Naïve Bayes

Waktu yang diperlukan untuk proses fitting model sangatlah cepat, dengan catatan waktu sebagai berikut:

CPU times: user 1.54 s, sys: 5.16 ms, total: 1.55 s, Wall time: 1.56 s, menunjukkan keefisienan penggunaan sumber daya komputasi yang baik. Hasil waktu fitting dapat dilihat secara visual pada Gambar 7. Meskipun proses dilakukan dengan kecepatan tinggi, metode NB berhasil mencapai tingkat akurasi yang baik, yaitu sebesar 0.8208, menandakan kemampuan metode ini dalam menangani tugas klasifikasi teks bahasa daerah dengan efisien.

3.5.2 Support Vector Machine

Pada proses klasifikasi menggunakan metode Support Vector Machine (SVM), dipilih tipe SVM linear karena data teks biasanya memiliki karakteristik yang baik dipisahkan secara linear. Penggunaan tipe ini sesuai dengan sifat data teks yang umumnya linier di dalam ruang fitur. Model SVM dilatih menggunakan parameter default algoritma, dan eksekusinya dilakukan melalui platform Google Colab.

Gambar 8. Hasil Support Vector Machine

Meskipun proses fitting model membutuhkan waktu yang cukup cepat seperti pada Gambar 8, yaitu dengan catatan waktu CPU times: user 5.34 s, sys: 11.5 ms, total: 5.35 s, Wall time: 5.49 s, namun hasil yang diperoleh sangat memuaskan. Metode SVM berhasil mencapai tingkat akurasi sebesar 0.8941.

3.6 Evaluation

Dalam bab evaluasi model, hasil kinerja dari beberapa metode ML dievaluasi berdasarkan akurasi.

Gambar 9. Hasil Perbandingan Model

Dapat dilihat pada Gambar 9 untuk perbandingan akurasi model secara visual. Berdasarkan hasil eksperimen, model Support Vector Machine (SVM) menunjukkan kinerja terbaik dengan akurasi sebesar 89.41%.

Meskipun waktu fitting model SVM relatif cepat, namun model ini mampu memberikan akurasi yang tinggi,

(9)

menjadikannya metode pilihan yang sangat baik untuk klasifikasi teks dalam bahasa daerah. Sementara Naïve Bayes (NB) mencapai 82.08%. Meski NB memiliki waktu fitting model yang sangat cepat, akurasi yang dihasilkan masih di bawah metode SVM. Oleh karena itu, berdasarkan hasil evaluasi, model SVM dapat dianggap sebagai pilihan yang optimal dalam konteks klasifikasi teks bahasa daerah, menyediakan keseimbangan yang baik antara kecepatan dan akurasi. Dengan akurasi terbaiknya, SVM diimplementasikan sebagai model utama untuk klasifikasi teks bahasa daerah pada tahap implementasi.

3.7 Model Implementation

Dalam bab implementasi model, aplikasi menggunakan platform Streamlit untuk memberikan antarmuka yang user-friendly. Model yang dipilih untuk diimplementasikan adalah Support Vector Machine (SVM), yang sebelumnya telah terpilih sebagai model terbaik dalam evaluasi.

Gambar 10. Hasil Implementasi Model di Streamlit

Pada uji coba prediksi, model SVM berhasil dengan akurat memprediksi lirik lagu bahasa Jawa berjudul

"Nemen" sebagai Jawa Ngoko. Hasil dari uji coba ini dapat dilihat secara visual pada Gambar 10, menunjukkan kemampuan model dalam mengklasifikasikan bahasa daerah dengan tepat melalui aplikasi yang dikembangkan menggunakan Streamlit.

4. KESIMPULAN

Pada rangkuman penelitian ini, disimpulkan bahwa perbandingan metode Machine Learning (ML) dalam klasifikasi teks bahasa daerah di Indonesia memberikan wawasan mendalam terkait kinerja relatif dari setiap algoritma. Penelitian ini secara nyata telah berhasil mengatasi masalah utama, yakni tantangan dalam mengenali bahasa dikarenakan banyaknya ragam bahasa daerah yang ada di Indonesia. Hasil evaluasi model menunjukka n bahwa Support Vector Machine (SVM) mencapai akurasi tertinggi, yaitu 89.41%. Meskipun Naïve Bayes (NB) juga memberikan hasil yang baik dengan akurasi 82.08%, SVM tetap menjadi pilihan utama untuk implementasi model pada aplikasi akhir. Keterbatasan utama penelitian ini adalah kompleksitas bahasa daerah di Indonesia yang beragam, dengan karakteristik, variasi tata bahasa, dan struktur kalimat yang berbeda-beda, sehingga akurasi belum bisa mendekati kata sempurna. Hal ini menjadi peluang untuk penelitian mendatang dengan optimalisasi parameter atau eksplorasi metode alternatif. Dalam penggunaan model pada aplikasi dengan Streamlit, SVM terbukti efektif dalam memprediksi lirik lagu bahasa Jawa dengan akurat. Aplikasi ini memiliki potensi untuk membantu pengguna mengidentifikasi bahasa daerah berdasarkan teks. Secara keseluruhan, penelitian ini memberikan sumbangan penting pada pemahaman metode ML dalam konteks klasifikasi teks bahasa daerah.

Meski begitu, penelitian ini memiliki keterbatasan dan dapat diperluas untuk mencakup bahasa daerah lain serta meningkatkan akurasi model melalui peningkatan parameter. Kesimpulan ini diharapkan dapat menjadi landasan bagi penelitian berikutnya dalam pengembangan pemrosesan bahasa alami dan ML.

REFERENCES

[1] E. Sapan Patasik and S. Yulianto, “Classification of Regional Languages Using Methods Gradient Boots and Random Forest,” Jurnal Teknik Informatika (JUTIF), vol. 4, no. 5, pp. 1249–1255, 2023, doi: 10.52436/1.jutif.2023.4.5.1459.

[2] A. Na’im and H. Syaputra, Kewarganegaraan, Suku Bangsa, agama, dan Bahasa Sehari-hari Penduduk Indonesia: Hasil Sensus Penduduk 2010. Jakarta, Indonesia: Badan Pusat Statistik, 2011. [Online]. Available:

http://www.bps.go.id/website/pdf_publikasi/watermark%20_Kewarganegaraan,%20Suku%20Bangsa,%20Agama%20da n%20Bahasa_281211.pdf

[3] D. Tuhenay and E. Mailoa, “Perbandingan Klasifikasi Bahasa Menggunakan Metode Naïve Bayes Classifier (NBC) Dan Support Vector Machine (SVM),” JIKO (Jurnal Informatika dan Komputer), vol. 4, no. 2, 2021, doi: 10.33387/jiko.

[4] Y. M. Mantri, “Digitalisasi Bahasa Daerah Sebagai Upaya Meningkatkan Ketahanan Budaya Daerah,” Journal TEXTURA, vol. 2, no. 2, pp. 67–83, 2021.

[5] D. Julianti and I. Siagian, “Analisis Pengaruh Bahasa Daerah Terhadap Penggunaan Bahasa Indonesia,” INNOVATIVE:

Journal Of Social Science Research, vol. 3, no. 2, pp. 5829–5836, 2023, doi: 10.31004/innovative.v3i2.956.

[6] F. Fathurrahman, M. M. Santoni, and A. Muliawati, “Penerapan Artificial Neural Network Untuk Klasifikasi Citra Teks Dalam Penerjemahan Bahasa Daerah,” Seminar Nasional Mahasiswa Ilmu Komputer dan Aplikasinya (SENAMIKA), 2020.

[7] T. Jauhiainen, M. Lui, M. Zampieri, T. Baldwin, and K. Lindén, “Automatic Language Identification in Texts: A Survey,”

Journal of Artificial Intelligence Research, Apr. 2018, [Online]. Available: http://arxiv.org/abs/1804.08186

(10)

[8] R. Thoppilan et al., “LaMDA: Language Models for Dialog Applications,” CoRR, vol. abs/2201.08239, Jan. 2022, doi:

10.48550/arXiv.2201.08239.

[9] Z. Abidin, “Penerapan Neural Machine Translation untuk Eksperimen Penerjemahan secara Otomatis pada Bahasa Lampung – Indonesia,” Prosiding Seminar Nasional Metode Kuantitatif, pp. 53–68, 2017, [Online]. Available:

www.teknokrat.ac.id,

[10] A. Luque, A. Carrasco, A. Martín, and A. de las Heras, “The impact of class imbalance in classification performance metrics based on the binary confusion matrix,” Pattern Recognit, vol. 91, pp. 216–231, Jul. 2019, doi:

10.1016/j.patcog.2019.02.023.

[11] A. Priyambodo and P. Prihati, “Evaluasi Ekstraksi Fitur Klasifikasi Teks Untuk Peningkatan Akurasi Klasifikasi Menggunakan Naive Bayes,” Elkom : Jurnal Elektronika dan Komputer, vol. 13, no. 1, pp. 159–175, Jul. 2020, doi:

10.51903/elkom.v13i1.277.

[12] D. Hatta Fudholi and K. Purnama Juwairi, “Pemanfaatan Teknik Semi-Supervised Learning Untuk Klasifikasi Dokumen Medis,” 2020. Accessed: Dec. 20, 2023. [Online]. Available: https://dspace.uii.ac.id/handle/123456789/20382?show=full [13] A. B. Nugraha and A. Romadhony, “Identification of 10 Regional Indonesian Languages Using Machine Learning,”

sinkron, vol. 8, no. 4, pp. 2203–2214, Oct. 2023, doi: 10.33395/sinkron.v8i4.12989.

[14] L. LUMBAA, “Implementasi Metode SVM dan Gradiant Boost Dalam Klasifikasi Bahasa Daerah,” JATISI (Jurnal Teknik Informatika dan Sistem Informasi), vol. 9, no. 2, pp. 908–915, Jun. 2022, doi: 10.35957/jatisi.v9i2.1663.

[15] G. M. Momole, “Perbandingan Naïve Bayes dan Random Forest Dalam Klasifikasi Bahasa Daerah,” JATISI (Jurnal Teknik Informatika dan Sistem Informasi), vol. 9, no. 2, pp. 855–863, Jun. 2022, doi: 10.35957/jatisi.v9i2.1857.

[16] A. Babhulgaonkar and S. Sonavane, “Language Identification for Multilingual Machine Translation,” in 2020 International Conference on Communication and Signal Processing (ICCSP), IEEE, Jul. 2020, pp. 401–405. doi:

10.1109/ICCSP48568.2020.9182184.

[17] D. Halimah, M. Ridwan, L. Stikom, T. Bangsa, and W. Saputra, “Algoritma C4.5 Untuk Menentukan Klasifikasi Tingkat Pemahaman Mahasiswa Pada Matakuliah Bahasa Pemrograman,” Jurnal Teknik Mesin, Industri, Elektro Dan Informatika (JTMEI), vol. 1, no. 3, 2022, doi: 10.55606/jtmei.v1i3.534.

[18] K. Kowsari, K. J. Meimandi, M. Heidarysafa, S. Mendu, L. Barnes, and D. Brown, “Text Classification Algorithms: A Survey,” Information, vol. 10, no. 4, p. 150, Apr. 2019, doi: 10.3390/info10040150.

[19] A. F. Hidayatullah, A. Qazi, D. T. C. Lai, and R. A. Apong, “A Systematic Review on Language Identification of Code- Mixed Text: Techniques, Data Availability, Challenges, and Framework Development,” IEEE Access, vol. 10, pp.

122812–122831, 2022, doi: 10.1109/ACCESS.2022.3223703.

[20] V. Kandasamy et al., “Sentimental Analysis of COVID-19 Related Messages in Social Networks by Involving an N-Gram Stacked Autoencoder Integrated in an Ensemble Learning Scheme,” Sensors, vol. 21, no. 22, p. 7582, Nov. 2021, doi:

10.3390/s21227582.

[21] S. Patil and V. Lokesha, “Live Twitter Sentiment Analysis Using Streamlit Framework,” SSRN Electronic Journal, 2022, doi: 10.2139/ssrn.4119949.