http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom
Analisis Trending Topik Twitter dengan Fitur Ekspansi FastText Menggunakan Metode Logistic Regression
Izzan Faikar Ramadhy, Yuliant Sibaroni* Fakultas Informatika, Informatika, Telkom University, Bandung Jl. Telekomunikasi No. 1, Terusan Buahbatu-Bojongsoang, Bandung, Indonesia Email: 1[email protected], 2,*[email protected]
Email Penulis Korespondensi : [email protected] Submitted 07-02-2022; Accepted 14-02-2022; Published 25-02-2022
Abstrak
Twitter merupakan media sosial yang didalamnya memiliki informasi seperti berita terkini, biografi seseorang, dan tweet dari penggunanya. Twitter memiliki suatu fitur yang dinamakan trending topik yang berfungsi untuk mengetahui informasi topik tertentu yang sedang populer. Kenyataannya seringkali sulit untuk memahami trending topik apa yang sedang terjadi. Oleh karena itu, diperlukan pengklasifikasian trending topik kedalam suatu kategori umum. Penelitian ini bertujuan untuk menganalisis dan mengklasifikasikan informasi trending topik Twitter dengan membagi beberapa label tren topik dengan menggunakan metode fitur ekspansi FastText. Fitur ekspansi FastText digunakan untuk mengurangi adanya ketidakcocokan kosakata dalam sebuah tweet. Proses klasifikasi sistem ini akan menggunakan metode Logistic Regression. Didapatkan hasil terbaik pada penelitian ini menggunakan skenario data uji, data latih 90:10 dengan akurasi 76,39%. Trending topik yang paling banyak diperbincangkan dari bulan September 2021 sampai Oktober 2021 adalah politik dengan presentase 15,83%, diikuti dengan agama 12,64% dan teknologi 10,42%.
Kata Kunci: Twitter; Trending Topik; FastText; Fitur Ekspansi; Logistic Regression Abstract
Twitter is a social media that contains information such as the latest news, a person's biography, and tweets from users. Twitter has a feature called trending topics that serves to find out information on certain topics that are currently popular. In fact, it is often difficult to understand what trending topics are happening. Therefore, it is necessary to classify trending topics into a general category. This study aims to analyze and classify Twitter topic trending information by dividing several topic trend labels using the FastText expansion feature method. The FastText expansion feature is used to reduce vocabulary mismatches in a tweet. The classification process of this system will use the Logistic Regression method. The best results were obtained in this study using test data scenarios, 90:10 training data with 76.39%
accuracy. The most discussed trending topic from September 2021 to October 2021 was politics with a percentage of 15.83%, followed by religion 12.64% and technology 10.42%.
Keywords: Twitter; Trending Topics; FastText; Expansion Feature; Logistic Regression
1. PENDAHULUAN
Teknologi informasi yang dengan cepat berkembang membuat media sosial menjadi konsumsi sehari-hari yang banyak digunakan oleh pengguna internet seperti Facebook, Twitter, Instagram, Line, dan lainnya [1]. Media sosial adalah sarana atau alat interaktif yang memberikan kesempatan kepada orang-orang untuk membuat, berbagi dan menerbitkan informasi, membangun komunitas, dan berkomunikasi di seluruh dunia [2].
Twitter merupakan media sosial yang memungkinkan orang untuk menjalin komunikasi antar pengguna dan mendapatkan informasi atau berita terkini. Hanya dengan membuat tweet, pengguna twitter bisa langsung membagikan informasi apapun [3]. Twitter memiliki lebih dari 300 juta pengguna aktif dengan total 500 juta tweets per hari. Tweet adalah pesan yang dapat dikirimkan dalam Twitter dengan maksimal 280 karakter yang dapat berisi opini, informasi tentang kejadian terkini atau bahkan emosi dari pengguna itu sendiri [4]. Di dalam Twitter terdapat fitur bernama trending topik yang merupakan fitur yang memudahkan pengguna untuk mengetahui informasi topik tertentu yang sedang populer. Namun, topik pendek yang dijadikan trending topik di Twitter terkadang sulit dipahami oleh sebagian pengguna [5].
Penelitian terkait klasifikasi trending topik twitter sudah pernah dilakukan pada beberapa penelitian terdahulu seperti penelitian [6]. dimana masalah yang diangkat adalah membandingkan metode Logistic Regression, Support Vector Machine, dan Naïve Bayes dengan fitur ekspansi word2vec menggunakan 2 korpus yaitu IndoNews dan Google News, didapatkan Logistic Regression memiliki nilai akurasi tertinggi dikarenakan penggunaan korpus Google News. Berdasarkan studi penelitian diatas, masih belum ada yang menggunakan fitur ekspansi FastText dalam membangun sistem analisis trending topik twitter.
Topik judul ini dipilih karena pada penelitian sebelumnya dengan judul Feature expansion using word embedding for tweet topic classification [6], metode Logistic Regression memiliki nilai akurasi yang cukup baik, dan penulis juga ingin meneliti dan melihat bagaimana hasil akurasi dan performansi dari trending topik Twitter dengan menggunakan fitur ekspansi yang berbeda yaitu metode FastText. Analisis trending topik twitter pada penelitian ini bertujuan untuk melihat performansi dari suatu trending topik menggunakan fitur ekspansi FastText dan model Logistic Regression, serta memahami jenis informasi atau berita yang sedang popular diperbincangkan pada twitter dengan membagi beberapa kategori label tren topik yang umum. Dalam penelitian ini penulis menggunakan metode FastText yang merupakan metode yang digunakan untuk pembelajaran representasi kata dan klasifikasi kalimat yang efisien [7]. Metode klasifikasi yang digunakan pada analisis ini adalah Logistic Regression yang merupakan algoritma yang digunakan untuk pengklasifikasian data tweet ke jenis-jenis trending topik yang ada [8].
http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom
2. METODOLOGI PENELITIAN
2.1 Term Frequency Inverse Document Frequency
Tahap fitur ekstraksi term weighting ataupun pembobotan fitur dilakukan dengan tujuan untuk memberikan suatu bobot atau nilai pada term yang terdapat pada teks dari suatu tweet [9]. Bobot yang diberikan terhadap sebuah term bergantung kepada metode pembobotan yang digunakan.
Metode Term Frequency-Inverse Document Frequency (TF-IDF) merupakan metode yang sangat popular dalam bidang pemrosesan bahasa alami. Metode TF-IDF menentukan frekuensi relatif kata-kata dalam dokumen tertentu melalui proporsi kata yang terbalik di seluruh korpus dokumen [10]. Dalam menentukan nilai, metode ini menggunakan dua elemen yaitu Term Frequency (TF) yang merupakan frekuensi istilah-istilah i dalam dokumen j dan Inverse Document Frequency (IDF) yang merupakan frekuensi dokumen terbalik dari istilah i. TF-IDF memiliki rumus persamaan sebagai berikut [10] :
𝑎
𝑖𝑗= 𝑡𝑓
𝑖𝑗× log(
𝑁𝑑𝑓𝑖
))
(1)Dimana 𝑎𝑖𝑗 adalah bobot term i pada dokumen j, 𝑁 adalah banyaknya dokumen dalam koleksi, 𝑡𝑓𝑖𝑗 adalah term frekuensi term i pada dokumen j, dan 𝑑𝑓𝑖 adalah banyaknya dokumen yang mengandung kata ke i.
2.2 FastText
FastText adalah suatu library yang dibuat oleh Tim Riset Facebook untuk pembelajaran representasi kata dan klasifikasi kalimat yang efisien. FastText ini mengubah teks menjadi vektor berkelanjutan yang nantinya dapat digunakan pada tugas terkait bahasa apapun [7]. Similarity pada FastText memiliki rumus persamaan sebagai berikut [11] :
𝑆(𝑇, 𝑄) = ∑𝑛𝑖=1(𝑇𝑖× 𝑄𝑖)
√∑𝑛𝑖=1(𝑇𝑖2) × ∑𝑛𝑖=1(𝑄𝑖2)
(2)
Dimana 𝑇𝑖 merupakan term frekuensi atau nilai TF-IDF dari data tweet, dan 𝑄𝑖 merupakan term frekuensi atau nilai TF-IDF dari data tweet yang memiliki istilah yang serupa.
2.3 Logistic Regression
Logistic Regression adalah algoritma klasifikasi machine learning yang digunakan untuk memprediksi probabilitas variabel dependen kategoris. Dalam Logistic Regression, variabel yang terikat adalah variabel biner yang berisi data berkode 1 (Ya) atau 0 (Tidak). Metode ini merupakan metode regresi linier umum untuk mempelajari pemetaan dari sejumlah variabel numerik ke variabel biner atau probabilistik [12]. Model Logistic Regression merupakan salah satu jenis model klasifikasi.
Ide kunci dari model dapat dinyatakan sebagai berikut [13].
𝑓(𝑧) =
11+𝑒−𝑧 (3)
Dimana 𝑓(𝑧) menunjukkan kemungkinan benar atau salahnya tweet memiliki label trending topik tertentu, Untuk parameter 𝑧 dapat didefinisikan sebagai berikut :
𝑧 = 𝐵 + 𝑊
𝑇𝑋
(4)Dimana 𝐵 merupakan vektor bias, 𝑋 merupakan vektor fitur, dan𝑊𝑇 merupakan vektor bobot. Terdapat beberapa metode optimasi yang dapat digunakan dalam estimasi parameter dalam model Logistic Regression yaitu liblinear, LBFGS, Newton-CG, SAG, dan SAGA. Pada penelitian ini SAG merupakan metode optimasi yang digunakan.
2.4 Performance Evaluation
Untuk mengukur kemampuan hasil klasifikasi analisis trending topik Twitter, maka dalam penelitian ini akan dihitung akurasi, dan F1 Score, untuk mempermudah menghitung performansi maka digunakan confusion matrix.
Tabel 1. Confusion Matrix Kelas Asli
Prediksi Kelas Positive = yes Negative = no
Positive = yes TP FP
Negative = no FN TN
Dengan True Positive (TP) merupakan suatu prediksi positif yes dan faktanya kelas yang diprediksi yes (hasil yang benar), True Negative (TN) suatu prediksi negative no dan faktanya kelas yang diprediksi juga no (tidak ada hasil yang benar), False Positive (FP) suatu prediksi positive yes tetapi faktanya kelas yang diprediksi no (hasil yang tidak diharapkan), dan False Negative (FN) suatu prediksi negative no tetapi faktanya kelas yang diprediksi yes (hasil yang meleset) [14].
a. Akurasi
Akurasi merupakan suatu parameter evaluasi yang menggambarkan tentang seberapa akurat model dalam mengklasifikasikan sesuatu dengan benar, akurasi digunakan untuk mengevaluasi banyaknya label prediksi yang sesuai dengan label aktual. Semakin tinggi nilai akurasi maka semakin baik pula perfomansi klasifikasi yang dihasilkan. Berikut adalah persamaannya [14].
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 𝑇𝑃+𝑇𝑁
𝑇𝑃+𝐹𝑃+𝐹𝑁+𝑇𝑁 (5)
http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom b. F1 Score
F1 Score merupakan suatu parameter evaluasi yang menggambarkan tentang perbandingan rata-rata precision dan recall yang dibobotkan, berikut adalah persamaanya :
𝐹1 𝑆𝑐𝑜𝑟𝑒 = 2 ∗ 𝑟𝑒𝑐𝑎𝑙𝑙∗𝑝𝑟𝑒𝑠𝑖𝑠𝑖
𝑟𝑒𝑐𝑎𝑙𝑙+ 𝑝𝑟𝑒𝑠𝑖𝑠𝑖 (6)
3. HASIL DAN PEMBAHASAN
Gambar 1. Sistem analisis trending topik twitter 3.1 Crawling Data
Dalam penelitian ini objek data yang akan dikumpulkan dan digunakan adalah data tweet dari Twitter. Data akan di crawling menggunakan bahasa python melalui Application Program Interface (API) dari Twitter. Crawling data tweet dilakukan dari bulan September 2021 sampai Oktober 2021. Data yang sudah berhasil didapatkan dan dikumpulkan akan diunduh dan disimpan dalam format csv. Jenis-jenis dari label data trending topik twitter bisa dilihat pada tabel 1.
3.2 Labelling Data
Dalam Pada proses pelabelan, data tweet akan diberikan label atau pengelompokan berdasarkan kategori. Pelabelan data pada penelitian ini akan menggunakan data tweet yang sudah di unduh pada proses crawling sebelumnya lalu diberikan label sesuai dengan kategori trending topik twitter. Pelabelan data dan penentuan keyword pada penelitian ini dilakukan secara manual oleh 2 orang dengan cara membaca keseluruhan isi tweet pada dataset secara bersamaan. Masing-masing data dari berita tweet penelitian ini hanya memiliki 1 label dari 11 label yang sudah ditentukan sebelumnya. Jenis-jenis label dan contoh keyword masing-masing label bisa dilihat pada Tabel 2. Keyword pada tabel 2 merupakan contoh jika terdapat salah satu kata tersebut pada tweet maka nantinya tweet tersebut akan diberi suatu label tertentu. Tabel 3 menunjukkan contoh dari pelabelan data tweet dengan berdasarkan kategori.
Tabel 2. Jenis jenis database
Label Keyword
Ekonomi Saham, inflasi, rupiah, #bitcoin, dollar, bank Hiburan #film, IkatanCinta, musik, #GLOBALTV Kesehatan #covid, flu, obat, vaksin, covid19, sehat
Olahraga #PersibDay, catur, persija, jogging, Barcelona Pendidikan #SNMPTN2021, sekolah, guru, #SBMPTN2021
Politik Jokowi, demokrasi, pemilu, capres, Teknologi Microsoft, google, laptop, wifi, 5G, facebook
Budaya Festival, seni budaya, sejarah, angklung Agama Islam, hindu, Kristen, ormas, buddha, tuhan
Hukum KUHP, hukum, pidana, pasal, RUU
Motivasi Motivator, kutipan, quotes, motivasi Tabel 3. Contoh pelabelan data
Data Tweet Label
'@Askrlfess Mau nanyaa, please no salty, xiaomi sebagus itukah hpnyaa?
Kalo dibandingkan sama samsung yg sama rate harganya, bagus manaa?' Teknologi '@detikcom Anis Baswedan dan Ridwan Kamil menuju Capres dan
Cawapres RI 2024, Penasihat tim sukses Rocky Gerung’ Politik
http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom 3.3 Preprocessing
Setelah melewati proses data labelling, tahap preprocessing dilakukan untuk mengolah dataset yang belum terstruktur dan belum siap untuk dilakukan klasifikasi menjadi lebih terstruktur dan siap untuk dilakukan klasifikasi. Tahapan preprocessing dalam penelitian ini yaitu case folding, noise removal, tokenizing, stopwords removal, dan stemming.
a. Case Folding : proses mengubah seluruh huruf kapital atau uppercase pada dataset menjadi huruf kecil atau lowercase b. Noise Removal : proses menghilangkan noise pada dataset seperti hashtag, angka, tanda baca, URL, dan atribut lainnya
yang mengandung missing values
c. Tokenizing : proses memecah urutan karakter atau kalimat menjadi beberapa bagian kata yang disebut dengan token d. Stopwords Removal : proses menghilangkan beberapa kata yang tidak penting pada dataset dengan menggunakan
stopwords
e. Stemming : proses mengubah setiap kata pada dataset menjadi bentuk dasar
Pada penelitian ini kamus kata pada tahap stemming penulis gunakan dari penelitian [15], dan kamus kata tahap stopwords removal penulis gunakan dari penelitian [16]. Setelah memiliki dasar dari kamus kata tersebut, penulis tambahkan kata-kata baru dalam kamus tersebut dengan membaca keseluruhan data tweet secara manual dan dibuat dalam bentuk csv.
3.4 Feature Extraction TF-IDF
Setelah melewati tahap preprocessing, selanjutnya dilakukan tahap fitur ekstraksi terhadap data tweet dengan menggunakan TF-IDF. Contoh perhitungan dari penggunaan TF-IDF terhadap data tweet bisa dilihat pada tabel 4 dan 5 dengan kata kunci yang digunakan adalah “dunia komputer”
Tabel 4. Contoh dokumen TF-IDF
Dokumen Kalimat
Dokumen 1 (D1) komputer cipta untuk bantu manusia Dokumen 2 (D2) produk teknologi xiaomi rambah dunia komputer Dokumen 3 (D3) teknologi ponsel samsung canggih
Tabel 5. Contoh perhitungan TF-IDF
Token
Kata Kunci
TF
df N/df
IDF Bobot
D1 D2 D3 log(𝑁
𝑑𝑓) D1 D2 D3
komputer 1 1 1 0 2 1,5 0,176 0,176 0,176 0
cipta 0 1 0 0 1 3 0,477 0,477 0 0
bantu 0 1 0 0 1 3 0,477 0,477 0 0
manusia 0 1 0 0 1 3 0,477 0,477 0 0
produk 0 0 1 0 1 3 0,477 0 0,477 0
teknologi 0 0 1 1 2 1,5 0,176 0 0,176 0,176
xiaomi 0 0 1 0 1 3 0,477 0 0,477 0
rambah 0 0 1 0 1 3 0,477 0 0,477 0
dunia 1 0 1 0 1 3 0,477 0 0,477 0
ponsel 0 0 0 1 1 3 0,477 0 0 0,477
samsung 0 0 0 1 1 3 0,477 0 0 0,477
canggih 0 0 0 1 1 3 0,477 0 0 0,477
3.5 Feature Expansion FastText
Tahap ekspansi fitur dalam penelitian ini dilakukan dengan menggunakan metode word embedding yaitu FastText, ide utamanya adalah untuk menemukan dan melengkapi vektor representasi kata yang kosong dengan menggunakan similarity words untuk mendapatkan nilai yang maksimal.
FastText ini akan menghasilkan output berupa list dari similarity words, sebagai contoh dapat dilihat pada tabel 6 daftar dari kata yang memiliki similarity dengan kata “sorabi” yang telah diurutkan sesuai dengan top fitur atau rangking dari kata tersebut.
Tabel 6. Contoh similarity words dari kata sorabi
Rank-1 Rank-2 Rank-3 Rank-4 Rank-5
surabi srabi Sorabi soerabi sarabi
Setelah didapatkan similarity words, akan dilanjutkan dengan proses fitur ekspansi terhadap data yang sudah dilakukan fitur ekstraksi sebelumnya. Proses fitur ekspansi ini akan mengganti nilai dari vektor-vektor yang bernilai 0 dengan nilai vektor dari similarity words yang ada pada korpus FastText. Sebagai contoh jika terdapat tweet A yaitu “Cemilan surabi merupakan makanan khas bandung yang banyak digemari” dan terdapat nilai vektor untuk kata “sorabi” adalah 0. Maka akan dicari similarity dari kata “sorabi” pada korpus FastText seperti pada tabel 6. Setelah itu, didapatkan bahwa kata “surabi”
http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom memiliki similarity dengan rangking tertinggi dari kata “sorabi” dan kata “surabi” juga terdapat pada tweet A, maka nilai vektor dari kata “sorabi” akan dirubah nilainya menjadi nilai vektor dari kata “surabi” yang terdapat pada korpus FastText 3.6 Hasil Pengujian
Penelitian ini dilakukan dalam beberapa tahap, yaitu pertama crawling dan pelabelan data pada data twitter yang dilakukan dari bulan September 2021 sampai Oktober 2021. Setelah data berhasil dikumpulkan tahap selanjutnya yaitu preprocessing pada dataset. Setelah melewati tahap preprocessing selanjutnya dilakukan fitur ekstraksi dengan menggunakan Term Frequency Inverse Document Frequency. Setelah selesai fitur ekstraksi, selanjutnya dilakukan fitur ekspansi dengan menggunakan FastText. Setelah melalui tahap fitur ekspansi selanjutnya akan masuk ke tahap splitting dan klasifikasi data menggunakan metode Logistic Regression. Terdapat beberapa skenario pengujian yang dilakukan, berikut adalah penjabarannya :
a. Skenario 1 : Pengujian performansi terhadap splitting data menggunakan model Logistic Regression tanpa menggunakan hyperparameter tuning
b. Skenario 2 : Pengujian performansi untuk mencari dan menentukan model baseline terhadap model Logistic Regression dengan menggunakan hyperparameter tuning
c. Skenario 3 : Pengujian performansi fitur ekspansi FastText terhadap model baseline yang dihasilkan dari percobaan skenario 2 menggunakan model Logistic Regression
3.6.1 Skenario 1 Pengujian Terhadap Splitting Data menggunakan model Logistic Regression
Pada skenario 1 dilakukan pengujian untuk membandingkan dan menemukan skenario splitting data terbaik terhadap dataset yang digunakan dengan menggunakan model Logistic Regression tanpa menggunakan hyperparameter tuning, data yang digunakan pada pengujian ini menggunakan 7198 data tweet yang sudah dilakukan preprocessing sebelumnya. Hasil presentase yang didapat dijelaskan pada tabel 7.
Tabel 7. Hasil pengujian terhadap splitting data
Skenario Akurasi (%) F1-Score
90:10 75,97 75,85
80:20 75,69 75,40
70:30 74,77 74,48
Pengujian dari seluruh skenario splitting data pada tabel 8 dilakukan sebanyak lima kali untuk tiap skenarionya.
Berdasarkan hasil dari pengujian skenario 1, semakin tinggi nilai data latih yang dipakai semakin rendah pula hasil akurasi yang didapatkan. Jumlah skenario splitting data terbaik didapatkan dengan menggunakan skenario 90:10 yaitu 90% dengan total 6478 data untuk data latih dan 10% dengan total 720 data untuk data uji. Skenario tersebut mendapatkan nilai akurasi 75,97% dan F1-Score 75,85%.
3.6.2 Skenario 2 Pengujian terhadap model Logistic Regression dengan hyperparameter tuning
Pada skenario 2 dilakukan pengujian terhadap model Logistic Regression dengan hyperparameter tuning yang bertujuan untuk menentukan model baseline dari penelitian ini. Dilakukan perbandingan antara hasil model terbaik dari skenario 1 dengan model yang sudah dilakukan hyperparameter tuning. Perbandingan Hasil dari pengujian skenario 2 dapat dilihat pada tabel 9.
Tabel 8. Hasil pengujian Logistic Regression dengan hyperparameter tuning
Metode Akurasi (%) F1-Score
Logistic Regression 75,97 75,85
Logistic Regression + hyperparameter tuning 76,25(+0,28) 76,17(+0,32)
Berdasarkan hasil dari pengujian skenario 2, model yang dihasilkan oleh metode Logistic Regression dengan hyperparameter tuning memiliki nilai yang lebih besar dari nilai Logistic Regression tanpa menggunakan hyperparameter tuning sehingga model tersebut yang digunakan sebagai baseline. Pengujian kedua menghasilkan model baseline dengan nilai akurasi 76,25% dengan peningkatan sebesar 0,28.
3.6.3 Skenario 3 Pengujian Fitur Ekspansi FastText
Pada skenario 3 pengujian dilakukan untuk mencari model terbaik pada metode Logistic Regression dengan hyperparameter tuning dengan fitur ekspansi FastText. Pengujian pada fitur ekspansi dilakukan terhadap top 1, 4, 5, 6, dan 10 yaitu dari feature yang ada pada korpus FastText. Pada Top 1 feature sistem akan mengambil 1 kata yang memiliki nilai similarity words tertinggi terhadap sebuah kata dari korpus FastText, top 4 feature mengambil 4 similarity words tertinggi, top 5 feature mengambil 5 similarity words tertinggi, top 6 feature mengambil 6 similarity words tertinggi dan top 10 feature mengambil 10 similarity words tertinggi. Korpus FastText yang akan digunakan adalah korpus pre-trained wikipedia bahasa Indonesia yang sudah disediakan pada website resmi FastText [17]. Hasil pengujian dari skenario 3 dengan menggunakan fitur ekspansi FastText dapat dilihat pada tabel 10. Hasil yang didapat menunjukkan sebagian besar model mengalami penurunan, dan 1
http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom model mengalami kenaikan. Dari data pada tabel 10 maka model terbaik yang didapat adalah model dengan top 1 features yang memiliki nilai akurasi sebesar 76,39% dimana mengalami peningkatan sebesar 0,14% dari nilai model baseline.
Tabel 9. Hasil pengujian fitur ekspansi FastText features
Akurasi (%)
Baseline Baseline+Fitur Ekpansi
Top 1 76,25 76,39(+0,14)
Top 4 76,25 75,97(-0,28)
Top 5 76,25 75,69(-0,56)
Top 6 76,25 75,28(-0,97)
Top 10 76,25 75,56(-0,69)
Gambar 2. Grafik hasil pengujian fitur ekspansi FastText 3.7 Analisis Hasil Pengujian
Dengan dilakukan beberapa skenario pengujian terhadap penelitian, dapat dilihat bahwa beberapa tahap yang telah dilakukan dalam alur sistem dapat mempengaruhi nilai performansi akurasi dan f1-score. Seperti pengaplikasian proses splitting data dimana semakin kecil rasio perbandingan yang dipakai maka semakin turun hasil akurasi dan f1-score yang didapat. Juga pengaruh penggunaan hyperparameter tuning pada proses pembuatan model Logistic Regression memiliki selisih nilai akurasi 0,28% dan f1-score 0,32%. Lalu pada tahap fitur ekspansi menggunakan FastText menunjukkan bahwa pada top 1 feature terjadi peningkatan nilai akurasi sebesar 0,14% dari baseline, top 4 feature mengalami penurunan akurasi sebesar 0,28%, top 5 feature mengalami penurunan akurasi sebesar 0,56%, top 6 feature mengalami penurunan akurasi sebesar 0,97%, dan top 10 feature mengalami penurunan sebesar 0,69%. Dari hasil akurasi tertinggi skenario menggunakan top 1 feature pada fitur ekspansi FastText dengan skenario splitting data 90:10, presentase topik yang selalu dibicarakan dari pengambilan data bulan September 2021 sampai Oktober 2021 dapat dilihat pada tabel 10.
Tabel 10. Hasil trending topik twitter
Label Presentase
Ekonomi 4,30%
Hiburan 4,03%
Kesehatan 5,14%
Olahraga 6,25%
Pendidikan 4,72%
Politik 15,83%
Teknologi 10,42%
Budaya 4,44%
Agama 12,64%
Hukum 4,58%
Motivasi 4,03%
Tabel 10 merupakan penjabaran dari masing-masing label trending topik yang berhasil diprediksi oleh sistem dari hasil skenario top 1 feature dengan akurasi sebesar 76,39%, persebaran presentase dari masing-masing label ini didapatkan dari penggunaan metode confusion matrix terhadap skenario eksperimen terbaik yaitu top 1 feature. Didapatkan presentase tertinggi trending topik twitter pada bulan September 2021 sampai Oktober 2021 yaitu kategori politik dengan jumlah presentase sebesar 15,83%. Presentase dihitung dari jumlah tweet diprediksi tepat dibagi jumlah seluruh data.
74.6 74.8 75 75.2 75.4 75.6 75.8 76 76.2 76.4 76.6
Top 1 Top 4 Top 5 Top 6 Top 10
Akurasi
Baseline Baseline + Fitur Ekspansi
http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom
4. KESIMPULAN
Pada penelitian ini, penerapan hyperparameter tuning pada model klasifikasi Logistic Regression terbukti dapat meningkatkan nilai akurasi sebesar 76,25% (+0,28) dan F1-Score sebesar 76,17% (+0,32) dengan skenario splitting data 90:10. Kemudian untuk implementasi fitur ekspansi FastText juga terbukti dapat meningkatkan nilai akurasi pada sistem, hasil terbaik didapatkan dengan top 1 feature menggunakan klasifikasi Logistic Regression dengan nilai akurasi sebesar 76,39%. Berita atau trending topik yang selalu dibicarakan oleh pengguna twitter terdeteksi pada bulan September 2021 sampai Oktober 2021 adalah politik karena kategori tersebut memiliki presentase paling tinggi sebesar 15,83% diikuti dengan agama 12,64% dan teknologi 10,42%. Saran untuk penelitian selanjutnya dapat dilakukan dengan penelitian menggunakan model klasifikasi yang berbeda dan model fitur ekspansi yang berbeda, serta disarankan untuk menggunakan perangkat yang mumpuni agar proses jalannya sistem yang dibangun lancar dan tidak membutuhkan waktu yang lama.
REFERENCES
[1] F. Atefeh and W. Khreich, “A survey of techniques for event detection in Twitter,” Comput. Intell., vol. 31, no. 1, pp. 133–164, 2015, doi: 10.1111/coin.12017.
[2] M. Chelly and H. Mataillet, “Social media and the impact on education: Social media and home education,” 2012 Int. Conf. E- Learning E-Technologies Educ. ICEEE 2012, pp. 236–239, 2012, doi: 10.1109/ICeLeTE.2012.6333388.
[3] A. D. Hartanto, E. Utami, S. Adi, and H. S. Hudnanto, “Job seeker profile classification of twitter data using the naïve bayes classifier algorithm based on the DISC method,” 2019 4th Int. Conf. Inf. Technol. Inf. Syst. Electr. Eng. ICITISEE 2019, pp. 533–536, 2019, doi: 10.1109/ICITISEE48480.2019.9003963.
[4] S. T. Indra, L. Wikarsa, and R. Turang, “Using logistic regression method to classify tweets into the selected topics,” 2016 Int. Conf.
Adv. Comput. Sci. Inf. Syst. ICACSIS 2016, pp. 385–390, 2017, doi: 10.1109/ICACSIS.2016.7872727.
[5] K. Lee, D. Palsetia, R. Narayanan, M. M. A. Patwary, A. Agrawal, and A. Choudhary, “Twitter trending topic classification,” Proc.
- IEEE Int. Conf. Data Mining, ICDM, pp. 251–258, 2011, doi: 10.1109/ICDMW.2011.171.
[6] E. B. Setiawan, D. H. Widyantoro, and K. Surendro, “Feature expansion using word embedding for tweet topic classification,”
Proceeding 2016 10th Int. Conf. Telecommun. Syst. Serv. Appl. TSSA 2016 Spec. Issue Radar Technol., no. 2011, 2017, doi:
10.1109/TSSA.2016.7871085.
[7] A. Amalia, O. S. Sitompul, E. B. Nababan, and T. Mantoro, “An Efficient Text Classification Using fastText for Bahasa Indonesia Documents Classification,” 2020 Int. Conf. Data Sci. Artif. Intell. Bus. Anal. DATABIA 2020 - Proc., pp. 69–75, 2020, doi:
10.1109/DATABIA50434.2020.9190447.
[8] Imamah and F. H. Rachman, “Twitter sentiment analysis of Covid-19 using term weighting TF-IDF and logistic regresion,”
Proceeding - 6th Inf. Technol. Int. Semin. ITIS 2020, pp. 238–242, 2020, doi: 10.1109/ITIS50118.2020.9320958.
[9] M. Lan, S. Sung, H. Low, and C. Tan, “A Comparative Study on Term Weighting Schemes for Text Categorization,” vol. 1, pp.
546–551, 2005.
[10] B. Trstenjak, S. Mikac, and D. Donko, “KNN with TF-IDF based framework for text categorization,” Procedia Eng., vol. 69, pp.
1356–1364, 2014, doi: 10.1016/j.proeng.2014.03.129.
[11] V. R. Prasetyo and E. Winarko, “Rating of Indonesian sinetron based on public opinion in Twitter using Cosine similarity,” Proc. - 2016 2nd Int. Conf. Sci. Technol. ICST 2016, pp. 200–205, 2017, doi: 10.1109/ICSTC.2016.7877374.
[12] H. Hasanli and S. Rustamov, “Sentiment Analysis of Azerbaijani twits Using Logistic Regression, Naive Bayes and SVM,” 13th IEEE Int. Conf. Appl. Inf. Commun. Technol. AICT 2019 - Proc., 2019, doi: 10.1109/AICT47866.2019.8981793.
[13] Y. Zheng, T. Deng, and Y. Wang, “Autism Classification Based on Logistic Regression Model,” 2021 IEEE 2nd Int. Conf. Big Data, Artif. Intell. Internet Things Eng. ICBAIE 2021, no. Icbaie, pp. 579–582, 2021, doi: 10.1109/ICBAIE52039.2021.9389914.
[14] S. Xu, “Bayesian Naïve Bayes classifiers to text classification,” J. Inf. Sci., vol. 44, no. 1, pp. 48–59, 2018, doi:
10.1177/0165551516677946.
[15] M. S. Saputri, R. Mahendra, and M. Adriani, “Emotion Classification on Indonesian Twitter Dataset,” Proc. 2018 Int. Conf. Asian Lang. Process. IALP 2018, pp. 90–95, 2019, doi: 10.1109/IALP.2018.8629262.
[16] F. Z. Tala, “A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia,” M.Sc. Thesis, Append. D, vol. pp, pp. 39–
46, 2003.
[17] E. Grave, P. Bojanowski, P. Gupta, A. Joulin, and T. Mikolov, “Learning word vectors for 157 languages,” Lr. 2018 - 11th Int. Conf.
Lang. Resour. Eval., pp. 3483–3487, 2019.