ANALISIS SENTIMEN PENGGUNA TWITTER TERHADAP APLIKASI MYPERTAMINA MENGGUNAKAN METODE K-NEAREST NEIGHBOR
DENGAN SELEKSI FITUR CH-SQUARE
1Dynda Chintya Miranda, 2Al Aminuddin
1Mahasiswa Program Studi S1 Sistem Informasi
2Dosen Program Studi S1 Sistem Informasi Jurusan Ilmu Komputer
Fakultas Matematika dan Ilmu Pengetahuan Alam Kampus Bina Widya Pekanbaru, 28293, Indonesia
dynda.chintya4017@student.unri.ac.id, al.aminuddin@lecture.unri.ac.id ABSTRACT
Pertamina announced a trial policy for using the MyPertamina application for targeted distribution of subsidized fuel in June 2022. This trial was carried out in 11 regions started on July 1, 2022. This policy had been widely discussed on social media Twitter, so there are pros and cons from the community. The large number of public responses in the form of tweets on Twitter requires a sentiment analysis to see an overview of the public's perception of the MyPertamina application. This study used the K-Nearest Neighbor algorithm to classify the public's response to the policy in the form of positive or negative sentiment. This study also added the Chi-Square selection feature to determine the effect on the performance of the K-Nearest Neighbor algorithm. This study used the Python programming language with 2923 tweets as a dataset which had a proportion of 73% positive sentiment and 27% negative sentiment. The research used ratio of 80:20 to the dataset, namely 80% of the training data is 2338 and 20% of the testing data is 585. The resulted of the research on the K-Nearest Neighbor algorithm used K-Fold Cross Validation for 10 broadcasts produced the same average accuracy, namely 77% for both methods, which had the highest accuracy of 88% for K-Nearest Neighbor with Chi-Square and 87% accuracy without used Chi-Square.
Keywords : Sentiment analysis, Chi-Square, K-Nearest Neighbor, MyPertamina, Twitter.
ABSTRAK
Pertamina mengumumkan kebijakan uji coba penggunaan aplikasi MyPertamina untuk penyaluran BBM bersubsidi tepat sasaran pada Juni 2022 lalu. Uji coba ini dilaksanakan pada 11 daerah yang dimulai pada 1 Juli 2022. Kebijakan tersebut ramai diperbincangkan pada media sosial Twitter, sehingga terdapat pro dan kontra dari masyarakat. Banyaknya respon masyarakat berupa tweet pada Twitter tersebut perlu dilakukan analisis sentimen untuk melihat gambaran umum presepsi masyarakat terhadap aplikasi MyPertamina. Penelitian ini menggunakan algoritma K-Nearest Neighbour untuk mengklasifikasikan respon masyarakat terhadap kebijakan tersebut berupa sentimen positif atau negatif. Penelitian ini juga menambahkan seleksi fitur Chi- Square untuk mengetahui pengaruh terhadap kinerja algoritma K-Nearest Neighbour.
Penelitian ini menggunakan bahasa pemrograman python dengan 2923 tweet sebagai dataset yang memilki persentase yaitu 73% sentimen positif dan 27% sentimen negatif.
Penelitian menggunakan rasio 80:20 terhadap dataset, yaitu 80% data training berjumlah 2338 dan 20% data testing berjumlah 585. Hasil penelitian terhadap algoritma K-Nearest Neighbour menggunakan K-Fold Cross Validation sebanyak 10 kali pengujian menghasilkan rata-rata akurasi yang sama yaitu sebesar 77% pada kedua metode, yang memiliki akurasi tertinggi sebesar 88% pada K-Nearest Neighbour dengan Chi-Square dan akurasi sebesar 87% pada tanpa menggunakan Chi-Square.
Kata Kunci : Analisis sentimen, Chi-Square, K-Nearest Neighbour, MyPertamina, Twitter.
PENDAHULUAN
Juni 2022 lalu, pertamina mengumumkan kebijakan uji coba penggunaan aplikasi untuk penyaluran BBM bersubsidi menggunakan aplikasi MyPertamina. Uji coba ini akan dilaksanakan di 11 daerah mulai 1 Juli 2022 yaitu Kota Bukittinggi, Kabupaten Agam, Kota Padang Panjang, Kabupaten Tanah Datar, Kota Banjarmasin, Kota Bandung, Kota Tasikmalaya, Kabupaten Ciamis, Kota Manado, Kota Yogyakarta, Kota Sukabumi (Rachma, 2022). Misi Pertamina untuk menutupi kebocoran BBM bersubsidi kepada kelompok yang tidak berkepentingan dapat dipahami dan diapresiasi. Namun sistem pengimplementasian aplikasi digital pada ponsel pengendara masih dirasa sulit oleh masyarakat. Beberapa masyarakat juga ada yang mendukung kebijakan tersebut sesuai dengan misi pertamina untuk menyalurkan BBM subsidi agar tepat sasaran. Masyarakat banyak menggunakan Twitter untuk menyampaikan opininya dan berdiskusi, tentunya hal ini tidak terlepas dari pro dan kontra dari masyarkat yang masing-masing memberikan pendapat tentang kebijakan tersebut. MyPertamina menjadi salah satu topik terhangat dengan 10,5 ribu tweet (emedia.dpr.go.id, 2022) Penulis memanfaatkan hal ini untuk mencari polaritas pro dan kontra yaitu sentimen positif dan negatif dari permasalahan yang terjadi. Mengetahui informasi tentang opini dan respon masyarakat melalui Twitter ini bukan hal yang mudah karena banyaknya jumlah tweet dari pengguna Twitter tentang kebijakan tersebut. Informasi data dari Twitter berupa respon masyarakat tersebut bisa dilakukan sebuah analisa yaitu analisis sentimen.
METODE PENELITIAN a. Pengumpulan Data
Penelitian ini menggunakan data tweet yang dikumpulkan melalui python menggunakan library snscrape dengan memasukkan keyword “MyPertamina”. Data dibatasi dengan rentang waktu pada bulan Juni dan Juli tahun 2022 yang berisikan tanggal diunggah, username dan isi tweet.
b. Peralatan yang digunakan 1. Perangkat keras (hardware)
a. Laptop HP dengan processor Intel® Core™ i3-4030U CPU @ 1.90GHz 1.90 GHz, Random Access Memory (RAM) berkapasitas 4,00 GB dan 64-bit.
b. Mouse wireless 2.4G forter dengan model V181.
2. Perangkat lunak (software)
a. Sistem operasi Windows 10 Pro b. Microsoft Office Word
c. Microsoft Office Excel
d. Bahasa Pemrograman Python e. Jupyter Notebook
f. Draw.io
c. Tahapan Penelitian
Adapun tahapan pada penelitian ini dapat dilihat pada Gambar 1.
Gambar 1. Tahapan Penelitian d. Text Mining
Text Mining adalah salah satu jenis machine learning yang mampu mengolah big data berupa dokumen teks. Text Mining merupakan gabungan dari analisis teks dan data mining, yang bertujuan untuk mendapatkan hasil analisa dari sebuah dokumen atau teks (Alrajak et al., 2020).
c. Analisis Sentimen
Analisis sentimen adalah proses mengindentifikasi sentimen dan mengelompokkan polaritas teks untuk mengetahui pendapat terhadap suatu subjek yang disampaikan tersebut bersifat positif atau negatif.
d. TF-IDF
TF-IDF (Term Frequency-Inverse Document Frequency) adalah metode untuk memberikan bobot nilai terhadap kata. Terdapat dua perhitungan untuk TF-IDF, yaitu Term Frequency (TF) dan Inverse Document Frequency (IDF) (Alrajak et al., 2020).
Berikut perhitungan bobot TF-IDF:
1. Menentukan TF (Term Frequency) yaitu nilai frekuensi dari kemunculan kata (term) dalam suatu dokumen.
2. Menentukan DF (Document Frequency) yaitu jumlah dokumen dari kata (term) yang muncul.
3. Menentukan IDF (Inverse Document Frequency) yaitu nilai invers dari dokumen yang mengandung kata (term), dengan persamaan:
IDF = log (𝑁
𝑑𝑓𝑡) ...(1) 4. Hasil dari perkalian TF dan IDF akan menghasilkan bobot kata yang disebut TF-
IDF, yaitu:
𝑊𝑡,𝑑 = 𝑇𝐹 × 𝐼𝐷𝐹 (2)
Keterangan:
TF : jumlah kemunculan t (term) pada d (dokumen), jika tidak ada term.
atau t=0, maka TF menjadi 0.
N : jumlah dokumen teks.
𝑑𝑓𝑡 : jumlah dokumen yang mengandung term (t).
Wt,d : jumlah bobot TF-IDF t (term) pada d (dokumen).
e. Chi-Square
Fungsi dari Chi-Square dapat dilihat pada persamaan berikut (Listiowarni &
Setyaningsih, 2018):
𝑥2 (𝑡, 𝑐) = 𝑁 (𝐴𝐷−𝐵𝐶)2
(𝐴+𝐵)(𝐶+𝐷)(𝐴+𝐶)(𝐵+𝐷) ...(3) Keterangan:
𝑥2 (𝑡, 𝑐) : chi-Square untuk term t dan kelas c.
𝑁 : jumlah dokumen training yang digunakan.
𝐴 : jumlah term t yang termasuk dalam kelas c.
𝐵 : jumlah term t yang tidak termasuk dalam kelas c.
𝐶 : jumlah term yang bukan term t namun termasuk dalam kelas c.
𝐷 : jumlah term yang bukan term t dan tidak termasuk dalam kelas c.
Menentukan nilai variabel A, B, C dan D dapat dilihat pada Tabel 1.
Tabel 1. Tabel Kontingensi Menentukan nilai Variabel A, B, C, dan D Tabel
Kontingensi t (term) Not t (term)
c (class) A C
Not c (class) B D
Keterangan:
A : jumlah dokumen di kelas c dan terdapat term t.
B : jumlah dokumen yang bukan di kelas c (Not c) yang terdapat term t.
C : jumlah dokumen di kelas c yang tidak terdapat term t (Not t).
D : jumlah dokumen yang bukan di kelas c (Not c) dan tidak terdapat term t (Not t).
f. K-Nearest Neighbor
K-Nearest Neighbor (KNN) adalah algoritma untuk mengklasifikasikan suatu objek ke dalam salah satu kelas yang telah ditentukan berdasarkan jarak terdekat atau tetangga terdekat. Klasifikasi K-nearest Neighbor akan mengklasifikasikan objek ke kelas berlabel paling mirip. Tahapan dalam proses K-Nearest Neighbor adalah (Putra et al., 2022):
1. Menentukan parameter nilai k.
2. Menentukan bobot setiap kata (term) menggunakan pembobotan TF-IDF.
3. Hitung jarak antara data yang akan di klasifikasikan terhadap data label, menggunakan perhitungan jarak Manhattan Distance dengan rumus persamaan:
𝑀𝑎𝑛ℎ𝑎𝑡𝑡𝑎𝑛 𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑒 (𝐴, 𝐵) = ∑𝑡𝑖=1 |𝐴 − 𝐵| ...(4) Keterangan:
A : dokumen training atau testing B : dokumen training atau testing t : jumlah term atau kata
4. Menentukan jarak terdekat atau tetangga dengan mengurutkan nilai dari yang paling kecil.
5. Mencari kelas tetangga terbanyak atau label mayoritas menggunakan nilai k untuk hasil klasifikasi.
g. Confusion Matrix
Metode pengujian algoritma adalah menggunakan confusion matrix pada data uji (testing). Penentuan untuk memperoleh nilai confusion matrix dapat dilihat pada Tabel 2.
Tabel 2. Tabel Confusion Matrix
Confusion Matrix Label Fakta
Positive Negative Label Prediksi Positive TP (True Postive) FP (False Positive)
Negative FN (False Negative) TN (True Negative) Keterangan:
TP : Data positif yang telah diprediksi dengan benar sebagai data yang berlabel positif.
TN : Data negatif yang telah diprediksi dengan benar sebagai data yang berlabel negatif.
FP : Data yang bernilai positif tetapi diprediksi salah karena hasil dari prediksi adalah data berlabel negatif.
FN : Data yang bernilai negatif tetapi diprediksi salah karena hasil dari prediksi adalah data berlabel positif.
Confusion matrix akan membandingkan label aktual atau fakta dan label prediksi yang selanjutnya digunakan untuk menghitung accuracy, recall, dan precision (Bhuana &
Muflikhah, 2022). Sebagai berikut:
1. Accuracy adalah menghitung nilai keakuratan model dalam mengklasifikasikan dengan benar, dengan persamaan:
Accuracy = 𝑇𝑃 + 𝑇𝑁
𝑇𝑃 + 𝐹𝑃 + 𝑇𝑁 + 𝐹𝑁× 100% ... (5) 2. Precision adalah menghitung nilai ketepatan yang diprediksi positif dari seluruh
total data, dengan persamaan:
Precision = 𝑇𝑃
𝑇𝑃 + 𝐹𝑃 × 100% ... (6) 3. Recall adalah menghitung nilai keberhasilan model dalam menyampaikan
informasi atau nilai dokumen yang relevan dari sistem, dengan persamaan:
Recall = 𝑇𝑃
𝑇𝑃 + 𝐹𝑁 × 100% ... (7)
HASIL DAN PEMBAHASAN a. Pengumpulan data
Data tweet dikumpulkan melalui python menggunakan library snscrape dengan memasukkan keyword “MyPertamina”. Data dibatasi dengan rentang waktu pada bulan Juni dan Juli tahun 2022 yang berisi tanggal diunggah, username dan isi tweet. Data yang akan diolah berjumlah 2923 dengan persentase 73% data berlabel positif sebanyak 2140 twet dan 27% data berlabel negatif sebanyak 783 tweet. Data menggunakan rasio 80:20 yaitu 80% data training yang berjumlah 2338 dan 20% data testing yang berjumlah 585.
b. Pelabelan data
Data tweet akan diberi label berdasarkan 2 kelas, yaitu opini yang berisikan sentimen positif (tweet positif) dan opini yang berisikan sentimen negatif (tweet negatif).
c. Prepocessing data
Berikut ini adalah tahapan dalam preprocessing data:
1. Cleaning, tahapan pembersihan data dengan menghapus karakter seperti angka, emoji, tanda baca, hashtag, url (Uniform Resource Locator) pada dateset.
2. Case folding, tahapan menyamaratakan dengan mengubah seluruh huruf yang ada dalam data teks yang terdapat huruf besar atau kapital menjadi huruf kecil.
3. Tokenizing, tahapan dengan memisahkan setiap kata dalam sebuah kalimat atau ulasan yang ada berupa dokumen teks yang dihubungkan dengan karakter spasi.
4. Normalisasi, tahapan mengubah kata dari tidak baku menjadi kata baku atau kata yang tidak sesuai pengejaannya.
5. Stopword Removal, tahapan mengambil kata-kata yang dianggap penting dengan menghapus kata yang kurang berkepentingan seperti kata penghubung.
6. Stemming, tahapan mengubah kata kebentuk dasarnya dengan menghapus kata imbuhan.
Hasil tahapan prerprocessing dapat dilihat pada Tabel 3.
Tabel 3. Tahapan Preprocessing
Tweets
Pertamina Patra Niaga menyampaikan sebanyak 220 ribu kendaraan telah mendaftar MyPertamina untuk mendapatkan program subsidi tepat sasaran.
#Pertamina https://t.co/wxWbKZH4Dj
Cleaning
Pertamina Patra Niaga menyampaikan sebanyak ribu kendaraan telah mendaftar MyPertamina untuk mendapatkan program subsidi tepat sasaran
Case Folding
pertamina patra niaga menyampaikan sebanyak ribu kendaraan telah mendaftar mypertamina untuk mendapatkan program subsidi tepat sasaran
Tokenizing
'pertamina' 'patra' 'niaga' 'menyampaikan' 'sebanyak' 'ribu' 'kendaraan' 'telah' 'mendaftar' 'mypertamina' 'untuk' 'mendapatkan' 'program' 'subsidi' 'tepat' 'sasaran'
Lanjutan Tabel 3.
Normalisasi
'pertamina' 'patra' 'niaga' 'menyampaikan' 'sebanyak' 'ribu' 'kendaraan' 'telah' 'mendaftar' 'mypertamina' 'untuk' 'mendapatkan' 'program' 'subsidi' 'tepat' 'sasaran'
Stopword Removal
'pertamina' 'patra' 'niaga' 'ribu' 'kendaraan' 'mendaftar' 'mypertamina' 'program' 'subsidi' 'sasaran'
Stemming 'pertamina' 'patra' 'niaga' 'ribu' 'kendara' 'daftar' 'mypertamina' 'program' 'subsidi' 'sasar'
d. Seleksi fitur chi-square
Setelah data melalui tahap preprocessing, selanjutnya data akan dilakukan seleksi fitur dengan chi-square untuk menyeleksi fitur-fitur penganggu yang tidak relevan sehingga akan mempercepat komputasi. Langkah-langkah dalam penerapan fitur penyeleksian Chi-Square adalah sebagai berikut:
1. Menentukan TF (Term Frequency) tiap kata (term), yang dapat dilhat pada Tabel 4.
Tabel 4. Hasil TF pada term
Term Term Frequency
D1 D2 D3 D4 D5 … 2338
absen 0 0 0 0 0 … 0
abused 0 0 0 0 0 … 0
ac 0 0 0 0 0 … 0
accurate 0 0 0 0 0 … 0
aceh 0 0 0 0 0 … 0
… … … …
zuairina 0 0 0 0 0 … 0
2. Menghitung nilai variabel A, B, C, D pada setiap term (kata), berdasarkan Tabel 1, dengan C1 adalah kelas positif dan C2 adalah kelas negatif. Tabel 5. adalah hasil perhitungan nilai tiap variabel.
Tabel 5. Hasil Perhitungan Variabel A, B, C dan D
Term C1 C2
A B C D A B C D
absen 1 0 1808 529 0 1 529 1808
abused 2 0 1807 529 0 2 529 1807
ac 0 1 1809 528 1 0 528 1809
accurate 1 0 1808 529 0 1 529 1808 aceh 15 0 1794 529 0 15 529 1794
… … … …
zuairina 0 3 1809 526 3 0 526 1809
3. Menghitung nilai Chi-Square berdasarkan rumus persamaan 1. Hasil perhitungan chi-square dapat dilihat pada Tabel 6.
Tabel 6. Hasil Perhitungan Chi-Square
Term C1 C2
absen 0,292552 0,292552 abused 0,585354 0,585354 ac 3,421123 3,421123 accurate 0,292552 0,292552 aceh 4,414725 4,414725
… … …
zuairina 10,27216 10,27216
4. Menentukan nilai threshold yaitu nilai ketentuan untuk fitur yang akan digunakan.
Nilai threshold yang ditetapkan adalah 0,5 (Listiowarni & Setyaningsih, 2018).
Fitur atau term yang tidak memenuhi batas threshold yang telah ditentukan akan dihapus.
e. Pembobotan TF-IDF
Hasil TF, DF dan IDF berdasarkan persamaan 1, dapat dilihat pada Tabel 7.
Tabel 7. Hasil TF pada Kata
Term Term Frequency
DF IDF D1 D2 D3 D4 D5 … D2338
absen 0 0 0 0 0 … 0 1 3,368845
abused 0 0 0 0 0 … 0 2 3,067815
ac 0 0 0 0 0 … 0 1 3,368845
accurate 0 0 0 0 0 … 0 1 3,368845
aceh 0 0 0 0 0 … 0 15 2,192753
… … … …
zuairina 0 0 0 0 0 … 0 3 2,891723
Nilai bobot tiap kata menggunakan TF-IDF diperoleh dengan mengalikan TF dan IDF, yang hasil perhitungannya dapat dilhat pada Tabel 8.
Tabel 8. Hasil Pembobotan TF-IDF
Term D1 D2 D3 D4 D5 … D2338
absen 0 0 0 0 0 … 0
abused 0 0 0 0 0 … 0
ac 0 0 0 0 0 … 0
accurate 0 0 0 0 0 … 0
aceh 0 0 0 0 0 … 0
… … … …
zuairina 0 0 0 0 0 … 0
f. Klasifikasi K-Nearest Neighbor
Tahap ini akan dilakukan klasifikasi pada algoritma K-Nearest Neighbour dengan rumus perhitungan jarak yaitu Manhattan Distance menggunakan K-Fold Cross Validation. K-Fold Cross Validation melakukan 10 kali perulangan untuk mendapatkan hasil akurasi tertinggi. Nilai k yang akan digunakan pada KNN dilakukan pengujian
terlebih dahulu, dan diperoleh hasil nilai k=3 adalah nilai k yang dengan hasil terbaik.
Hasil pengujian terhadap nilai k pada KNN dapat dilihat pada Tabel 9.
Tabel 9. Hasil Pengujian Nilai k pada KNN Pengujian Nilai k
pada KNN
Pengujian Nilai k pada KNN dengan Chi-Square Nilai k Akurasi Nilai k Akurasi
K=3 61.709.402 K=3 61.709.402 K=4 60.683.761 K=4 60.854.701 K=5 59.658.120 K=5 61.025.641 K=6 59.829.060 K=6 61.709.402 K=7 59.658.120 K=7 59.829.060
Hasil akurasi pada kedua metode menggunakan K-Fold Cross Validation dapat dilihat pada Tabel 10.
Tabel 10. Hasil Akurasi Pada Kedua Metode
Akurasi pada KNN Akurasi pada KNN dengan Chi-Square Iterasi ke- Akurasi Iterasi ke- Akurasi
1 85% 1 85%
2 87% 2 85%
3 72% 3 76%
4 78% 4 81%
5 87% 5 88%
6 76% 6 75%
7 82% 7 82%
8 81% 8 77%
9 70% 9 68%
10 56% 10 59%
Rata-rata 77% Rata-rata 77%
g. Evaluasi
Berdasarkan Tabel 10, hasil akurasi tertinggi pada KNN dengan Chi-Square yaitu 88% dan tanpa Chi-Square yaitu 87%, sehingga diperoleh perhitungan confusion matrix sebagai berikut:
1. Hasil confusion matrix pada KNN tanpa seleksi fitur Chi-Square dapat dilihat pada Tabel 11.
Tabel 11. Tabel Hasil Confusion Matrix KNN
Confusion Matrix
Label Fakta Positive Negative
Label Prediksi
Positive 247 33
Negative 6 6
Perhitungan accuracy, precision dan recall berdasarkan confusion matrix menggunakan persamaan 5, 6 dan 7 adalah sebagai berikut:
Accuracy = 𝑇𝑃 + 𝑇𝑁
𝑇𝑃 + 𝐹𝑃 + 𝑇𝑁 + 𝐹𝑁× 100% = 247 + 6
247 + 33 + 6 + 6 × 100% = 86,64 % Precision = 𝑇𝑃
𝑇𝑃 + 𝐹𝑃 × 100% = 247
247 + 33 × 100% = 88,21 % Recall = 𝑇𝑃
𝑇𝑃 + 𝐹𝑁 × 100% = 246
246 + 6 × 100% = 97,62 %
2. Hasil confusion matrix pada KNN dengan Chi-Square dapat dilihat pada Tabel 12.
Tabel 12. Tabel Hasil Confusion Matrix KNN dengan Chi-Square
Confusion Matrix Label Fakta Positive Negative Label Prediksi Positive 253 36
Negative 0 3
Perhitungan accuracy, precision dan recall berdasarkan confusion matrix menggunakan persamaan 5, 6 dan 7 adalah sebagai berikut:
Accuracy = 𝑇𝑃 + 𝑇𝑁
𝑇𝑃 + 𝐹𝑃 + 𝑇𝑁 + 𝐹𝑁× 100% = 253 + 3
253+ 36 + 3 + 0 × 100% = 87,67 % Precision = 𝑇𝑃
𝑇𝑃 + 𝐹𝑃 × 100% = 253
253 + 36 × 100% = 87,54 % Recall = 𝑇𝑃
𝑇𝑃 + 𝐹𝑁 × 100% = 253
253 + 0 × 100% = 100 %
KESIMPULAN
Adapun kesimpulan dari penelitian ini adalah Klasifikasi K-Nearest Neighbour dengan Chi-Square pada nilai k=3 menggunakan K-Fold Cross Validation memperoleh rata-rata nilai akurasi yang sama yaitu 77%, yang memiliki hasil akurasi tertinggi sebesar 88% dan tanpa seleksi fitur sebesar 87%. Seleksi fitur Chi-square pada KNN mampu mereduksi fitur sehingga komputasi lebih ringan untuk melakukan proses klasifikasi dan juga dapat meningkatkan hasil akurasi terhadap performance algoritma, namun tidak terlalu memberikan pengaruh yang signifikan.
SARAN
Berdasarkan kesimpulan, saran dari penelitian ini adalah sebagai berikut:
1. Menggunakan data yang seimbang antara label positif dan negatif.
2. Menggunakan perhitungan jarak selain manhattan distance terhadap klasifikasi menggunakan algoritma K-Nearest Neighbour untuk melihat perbandingan performa.
3. Klasifikasi menggunakan algoritma K-Nearest Neighbour dan seleksi fitur Chi- square dapat dikembangkan lagi dengan metode lainnya seperti Support Vector Machine.
UCAPAN TERIMA KASIH
Penulis mengucapkan terima kasih kepada bapak Bapak Al Aminuddin, S.T., M.Sc. yang telah banyak memberikan ilmu, arahan, serta meluangkan waktu untuk membimbing penulis dalam penulisan karya ilmiah ini.
DAFTAR PUSTAKA
Alrajak, M. S., Ernawati, I., & Nurlaili, I. (2020). Analisis Sentimen Terhadap Pelayanan PT PLN di Jakarta pada Twitter dengan Algoritma K-Nearest Neighbour. 110–122.
Bhuana, K., & Muflikhah, L. (2022). Analisis Sentimen Masyarakat Indonesia tentang Vaksin Covid-19 di Twitter dengan menggunakan Metode K- Nearest Neighbors dan Seleksi Fitur Chi Square. 6(3), 1395–1401.
emedia.dpr.go.id. (2022). MyPertamina: Antara Pengawasan dan Kesulitan.
emedia.dpr.go.id. https://emedia.dpr.go.id/article/mypertamina-antara- pengawasan-dan-kesulitan/
Listiowarni, I., & Setyaningsih, E. R. (2018). Feature Selection Chi-Square dan K-NN pada Pengkategorian Soal Ujian Berdasarkan Cognitive Domain Taksonomi Bloom. Jurnal Komputer Terapan, 4(1), 21–30.
Putra, P., Pardede, A. M. H., & Syahputra, S. (2022). Analisis Metode K-Nearest Neighbour ( KNN ) dalam Klasifikasi. 6(1), 297–305.
Rachma, F. F. (2022). 11 Daerah yang Wajib Pakai MyPertamina buat Beli Pertalite dan Solar Per 1 Juli. finance.detik.com. https://finance.detik.com/energi/d- 6150768/11-daerah-yang-wajib-pakai-mypertamina-buat-beli-pertalite-dan-solar- per-1-juli