• Tidak ada hasil yang ditemukan

ANALISIS SENTIMEN PENGGUNA TWITTER TERHADAP APLIKASI MYPERTAMINA MENGGUNAKAN METODE K-NEAREST NEIGHBOR DENGAN SELEKSI FITUR CH-SQUARE

N/A
N/A
Protected

Academic year: 2023

Membagikan "ANALISIS SENTIMEN PENGGUNA TWITTER TERHADAP APLIKASI MYPERTAMINA MENGGUNAKAN METODE K-NEAREST NEIGHBOR DENGAN SELEKSI FITUR CH-SQUARE"

Copied!
11
0
0

Teks penuh

(1)

ANALISIS SENTIMEN PENGGUNA TWITTER TERHADAP APLIKASI MYPERTAMINA MENGGUNAKAN METODE K-NEAREST NEIGHBOR

DENGAN SELEKSI FITUR CH-SQUARE

1Dynda Chintya Miranda, 2Al Aminuddin

1Mahasiswa Program Studi S1 Sistem Informasi

2Dosen Program Studi S1 Sistem Informasi Jurusan Ilmu Komputer

Fakultas Matematika dan Ilmu Pengetahuan Alam Kampus Bina Widya Pekanbaru, 28293, Indonesia

dynda.chintya4017@student.unri.ac.id, al.aminuddin@lecture.unri.ac.id ABSTRACT

Pertamina announced a trial policy for using the MyPertamina application for targeted distribution of subsidized fuel in June 2022. This trial was carried out in 11 regions started on July 1, 2022. This policy had been widely discussed on social media Twitter, so there are pros and cons from the community. The large number of public responses in the form of tweets on Twitter requires a sentiment analysis to see an overview of the public's perception of the MyPertamina application. This study used the K-Nearest Neighbor algorithm to classify the public's response to the policy in the form of positive or negative sentiment. This study also added the Chi-Square selection feature to determine the effect on the performance of the K-Nearest Neighbor algorithm. This study used the Python programming language with 2923 tweets as a dataset which had a proportion of 73% positive sentiment and 27% negative sentiment. The research used ratio of 80:20 to the dataset, namely 80% of the training data is 2338 and 20% of the testing data is 585. The resulted of the research on the K-Nearest Neighbor algorithm used K-Fold Cross Validation for 10 broadcasts produced the same average accuracy, namely 77% for both methods, which had the highest accuracy of 88% for K-Nearest Neighbor with Chi-Square and 87% accuracy without used Chi-Square.

Keywords : Sentiment analysis, Chi-Square, K-Nearest Neighbor, MyPertamina, Twitter.

ABSTRAK

Pertamina mengumumkan kebijakan uji coba penggunaan aplikasi MyPertamina untuk penyaluran BBM bersubsidi tepat sasaran pada Juni 2022 lalu. Uji coba ini dilaksanakan pada 11 daerah yang dimulai pada 1 Juli 2022. Kebijakan tersebut ramai diperbincangkan pada media sosial Twitter, sehingga terdapat pro dan kontra dari masyarakat. Banyaknya respon masyarakat berupa tweet pada Twitter tersebut perlu dilakukan analisis sentimen untuk melihat gambaran umum presepsi masyarakat terhadap aplikasi MyPertamina. Penelitian ini menggunakan algoritma K-Nearest Neighbour untuk mengklasifikasikan respon masyarakat terhadap kebijakan tersebut berupa sentimen positif atau negatif. Penelitian ini juga menambahkan seleksi fitur Chi- Square untuk mengetahui pengaruh terhadap kinerja algoritma K-Nearest Neighbour.

Penelitian ini menggunakan bahasa pemrograman python dengan 2923 tweet sebagai dataset yang memilki persentase yaitu 73% sentimen positif dan 27% sentimen negatif.

(2)

Penelitian menggunakan rasio 80:20 terhadap dataset, yaitu 80% data training berjumlah 2338 dan 20% data testing berjumlah 585. Hasil penelitian terhadap algoritma K-Nearest Neighbour menggunakan K-Fold Cross Validation sebanyak 10 kali pengujian menghasilkan rata-rata akurasi yang sama yaitu sebesar 77% pada kedua metode, yang memiliki akurasi tertinggi sebesar 88% pada K-Nearest Neighbour dengan Chi-Square dan akurasi sebesar 87% pada tanpa menggunakan Chi-Square.

Kata Kunci : Analisis sentimen, Chi-Square, K-Nearest Neighbour, MyPertamina, Twitter.

PENDAHULUAN

Juni 2022 lalu, pertamina mengumumkan kebijakan uji coba penggunaan aplikasi untuk penyaluran BBM bersubsidi menggunakan aplikasi MyPertamina. Uji coba ini akan dilaksanakan di 11 daerah mulai 1 Juli 2022 yaitu Kota Bukittinggi, Kabupaten Agam, Kota Padang Panjang, Kabupaten Tanah Datar, Kota Banjarmasin, Kota Bandung, Kota Tasikmalaya, Kabupaten Ciamis, Kota Manado, Kota Yogyakarta, Kota Sukabumi (Rachma, 2022). Misi Pertamina untuk menutupi kebocoran BBM bersubsidi kepada kelompok yang tidak berkepentingan dapat dipahami dan diapresiasi. Namun sistem pengimplementasian aplikasi digital pada ponsel pengendara masih dirasa sulit oleh masyarakat. Beberapa masyarakat juga ada yang mendukung kebijakan tersebut sesuai dengan misi pertamina untuk menyalurkan BBM subsidi agar tepat sasaran. Masyarakat banyak menggunakan Twitter untuk menyampaikan opininya dan berdiskusi, tentunya hal ini tidak terlepas dari pro dan kontra dari masyarkat yang masing-masing memberikan pendapat tentang kebijakan tersebut. MyPertamina menjadi salah satu topik terhangat dengan 10,5 ribu tweet (emedia.dpr.go.id, 2022) Penulis memanfaatkan hal ini untuk mencari polaritas pro dan kontra yaitu sentimen positif dan negatif dari permasalahan yang terjadi. Mengetahui informasi tentang opini dan respon masyarakat melalui Twitter ini bukan hal yang mudah karena banyaknya jumlah tweet dari pengguna Twitter tentang kebijakan tersebut. Informasi data dari Twitter berupa respon masyarakat tersebut bisa dilakukan sebuah analisa yaitu analisis sentimen.

METODE PENELITIAN a. Pengumpulan Data

Penelitian ini menggunakan data tweet yang dikumpulkan melalui python menggunakan library snscrape dengan memasukkan keywordMyPertamina”. Data dibatasi dengan rentang waktu pada bulan Juni dan Juli tahun 2022 yang berisikan tanggal diunggah, username dan isi tweet.

b. Peralatan yang digunakan 1. Perangkat keras (hardware)

a. Laptop HP dengan processor Intel® Core™ i3-4030U CPU @ 1.90GHz 1.90 GHz, Random Access Memory (RAM) berkapasitas 4,00 GB dan 64-bit.

b. Mouse wireless 2.4G forter dengan model V181.

2. Perangkat lunak (software)

a. Sistem operasi Windows 10 Pro b. Microsoft Office Word

c. Microsoft Office Excel

(3)

d. Bahasa Pemrograman Python e. Jupyter Notebook

f. Draw.io

c. Tahapan Penelitian

Adapun tahapan pada penelitian ini dapat dilihat pada Gambar 1.

Gambar 1. Tahapan Penelitian d. Text Mining

Text Mining adalah salah satu jenis machine learning yang mampu mengolah big data berupa dokumen teks. Text Mining merupakan gabungan dari analisis teks dan data mining, yang bertujuan untuk mendapatkan hasil analisa dari sebuah dokumen atau teks (Alrajak et al., 2020).

c. Analisis Sentimen

Analisis sentimen adalah proses mengindentifikasi sentimen dan mengelompokkan polaritas teks untuk mengetahui pendapat terhadap suatu subjek yang disampaikan tersebut bersifat positif atau negatif.

d. TF-IDF

TF-IDF (Term Frequency-Inverse Document Frequency) adalah metode untuk memberikan bobot nilai terhadap kata. Terdapat dua perhitungan untuk TF-IDF, yaitu Term Frequency (TF) dan Inverse Document Frequency (IDF) (Alrajak et al., 2020).

Berikut perhitungan bobot TF-IDF:

1. Menentukan TF (Term Frequency) yaitu nilai frekuensi dari kemunculan kata (term) dalam suatu dokumen.

2. Menentukan DF (Document Frequency) yaitu jumlah dokumen dari kata (term) yang muncul.

3. Menentukan IDF (Inverse Document Frequency) yaitu nilai invers dari dokumen yang mengandung kata (term), dengan persamaan:

(4)

IDF = log (𝑁

𝑑𝑓𝑡) ...(1) 4. Hasil dari perkalian TF dan IDF akan menghasilkan bobot kata yang disebut TF-

IDF, yaitu:

𝑊𝑡,𝑑 = 𝑇𝐹 × 𝐼𝐷𝐹 (2)

Keterangan:

TF : jumlah kemunculan t (term) pada d (dokumen), jika tidak ada term.

atau t=0, maka TF menjadi 0.

N : jumlah dokumen teks.

𝑑𝑓𝑡 : jumlah dokumen yang mengandung term (t).

Wt,d : jumlah bobot TF-IDF t (term) pada d (dokumen).

e. Chi-Square

Fungsi dari Chi-Square dapat dilihat pada persamaan berikut (Listiowarni &

Setyaningsih, 2018):

𝑥2 (𝑡, 𝑐) = 𝑁 (𝐴𝐷−𝐵𝐶)2

(𝐴+𝐵)(𝐶+𝐷)(𝐴+𝐶)(𝐵+𝐷) ...(3) Keterangan:

𝑥2 (𝑡, 𝑐) : chi-Square untuk term t dan kelas c.

𝑁 : jumlah dokumen training yang digunakan.

𝐴 : jumlah term t yang termasuk dalam kelas c.

𝐵 : jumlah term t yang tidak termasuk dalam kelas c.

𝐶 : jumlah term yang bukan term t namun termasuk dalam kelas c.

𝐷 : jumlah term yang bukan term t dan tidak termasuk dalam kelas c.

Menentukan nilai variabel A, B, C dan D dapat dilihat pada Tabel 1.

Tabel 1. Tabel Kontingensi Menentukan nilai Variabel A, B, C, dan D Tabel

Kontingensi t (term) Not t (term)

c (class) A C

Not c (class) B D

Keterangan:

A : jumlah dokumen di kelas c dan terdapat term t.

B : jumlah dokumen yang bukan di kelas c (Not c) yang terdapat term t.

C : jumlah dokumen di kelas c yang tidak terdapat term t (Not t).

D : jumlah dokumen yang bukan di kelas c (Not c) dan tidak terdapat term t (Not t).

f. K-Nearest Neighbor

K-Nearest Neighbor (KNN) adalah algoritma untuk mengklasifikasikan suatu objek ke dalam salah satu kelas yang telah ditentukan berdasarkan jarak terdekat atau tetangga terdekat. Klasifikasi K-nearest Neighbor akan mengklasifikasikan objek ke kelas berlabel paling mirip. Tahapan dalam proses K-Nearest Neighbor adalah (Putra et al., 2022):

1. Menentukan parameter nilai k.

2. Menentukan bobot setiap kata (term) menggunakan pembobotan TF-IDF.

3. Hitung jarak antara data yang akan di klasifikasikan terhadap data label, menggunakan perhitungan jarak Manhattan Distance dengan rumus persamaan:

(5)

𝑀𝑎𝑛ℎ𝑎𝑡𝑡𝑎𝑛 𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑒 (𝐴, 𝐵) = ∑𝑡𝑖=1 |𝐴 − 𝐵| ...(4) Keterangan:

A : dokumen training atau testing B : dokumen training atau testing t : jumlah term atau kata

4. Menentukan jarak terdekat atau tetangga dengan mengurutkan nilai dari yang paling kecil.

5. Mencari kelas tetangga terbanyak atau label mayoritas menggunakan nilai k untuk hasil klasifikasi.

g. Confusion Matrix

Metode pengujian algoritma adalah menggunakan confusion matrix pada data uji (testing). Penentuan untuk memperoleh nilai confusion matrix dapat dilihat pada Tabel 2.

Tabel 2. Tabel Confusion Matrix

Confusion Matrix Label Fakta

Positive Negative Label Prediksi Positive TP (True Postive) FP (False Positive)

Negative FN (False Negative) TN (True Negative) Keterangan:

TP : Data positif yang telah diprediksi dengan benar sebagai data yang berlabel positif.

TN : Data negatif yang telah diprediksi dengan benar sebagai data yang berlabel negatif.

FP : Data yang bernilai positif tetapi diprediksi salah karena hasil dari prediksi adalah data berlabel negatif.

FN : Data yang bernilai negatif tetapi diprediksi salah karena hasil dari prediksi adalah data berlabel positif.

Confusion matrix akan membandingkan label aktual atau fakta dan label prediksi yang selanjutnya digunakan untuk menghitung accuracy, recall, dan precision (Bhuana &

Muflikhah, 2022). Sebagai berikut:

1. Accuracy adalah menghitung nilai keakuratan model dalam mengklasifikasikan dengan benar, dengan persamaan:

Accuracy = 𝑇𝑃 + 𝑇𝑁

𝑇𝑃 + 𝐹𝑃 + 𝑇𝑁 + 𝐹𝑁× 100% ... (5) 2. Precision adalah menghitung nilai ketepatan yang diprediksi positif dari seluruh

total data, dengan persamaan:

Precision = 𝑇𝑃

𝑇𝑃 + 𝐹𝑃 × 100% ... (6) 3. Recall adalah menghitung nilai keberhasilan model dalam menyampaikan

informasi atau nilai dokumen yang relevan dari sistem, dengan persamaan:

Recall = 𝑇𝑃

𝑇𝑃 + 𝐹𝑁 × 100% ... (7)

(6)

HASIL DAN PEMBAHASAN a. Pengumpulan data

Data tweet dikumpulkan melalui python menggunakan library snscrape dengan memasukkan keywordMyPertamina”. Data dibatasi dengan rentang waktu pada bulan Juni dan Juli tahun 2022 yang berisi tanggal diunggah, username dan isi tweet. Data yang akan diolah berjumlah 2923 dengan persentase 73% data berlabel positif sebanyak 2140 twet dan 27% data berlabel negatif sebanyak 783 tweet. Data menggunakan rasio 80:20 yaitu 80% data training yang berjumlah 2338 dan 20% data testing yang berjumlah 585.

b. Pelabelan data

Data tweet akan diberi label berdasarkan 2 kelas, yaitu opini yang berisikan sentimen positif (tweet positif) dan opini yang berisikan sentimen negatif (tweet negatif).

c. Prepocessing data

Berikut ini adalah tahapan dalam preprocessing data:

1. Cleaning, tahapan pembersihan data dengan menghapus karakter seperti angka, emoji, tanda baca, hashtag, url (Uniform Resource Locator) pada dateset.

2. Case folding, tahapan menyamaratakan dengan mengubah seluruh huruf yang ada dalam data teks yang terdapat huruf besar atau kapital menjadi huruf kecil.

3. Tokenizing, tahapan dengan memisahkan setiap kata dalam sebuah kalimat atau ulasan yang ada berupa dokumen teks yang dihubungkan dengan karakter spasi.

4. Normalisasi, tahapan mengubah kata dari tidak baku menjadi kata baku atau kata yang tidak sesuai pengejaannya.

5. Stopword Removal, tahapan mengambil kata-kata yang dianggap penting dengan menghapus kata yang kurang berkepentingan seperti kata penghubung.

6. Stemming, tahapan mengubah kata kebentuk dasarnya dengan menghapus kata imbuhan.

Hasil tahapan prerprocessing dapat dilihat pada Tabel 3.

Tabel 3. Tahapan Preprocessing

Tweets

Pertamina Patra Niaga menyampaikan sebanyak 220 ribu kendaraan telah mendaftar MyPertamina untuk mendapatkan program subsidi tepat sasaran.

#Pertamina https://t.co/wxWbKZH4Dj

Cleaning

Pertamina Patra Niaga menyampaikan sebanyak ribu kendaraan telah mendaftar MyPertamina untuk mendapatkan program subsidi tepat sasaran

Case Folding

pertamina patra niaga menyampaikan sebanyak ribu kendaraan telah mendaftar mypertamina untuk mendapatkan program subsidi tepat sasaran

Tokenizing

'pertamina' 'patra' 'niaga' 'menyampaikan' 'sebanyak' 'ribu' 'kendaraan' 'telah' 'mendaftar' 'mypertamina' 'untuk' 'mendapatkan' 'program' 'subsidi' 'tepat' 'sasaran'

(7)

Lanjutan Tabel 3.

Normalisasi

'pertamina' 'patra' 'niaga' 'menyampaikan' 'sebanyak' 'ribu' 'kendaraan' 'telah' 'mendaftar' 'mypertamina' 'untuk' 'mendapatkan' 'program' 'subsidi' 'tepat' 'sasaran'

Stopword Removal

'pertamina' 'patra' 'niaga' 'ribu' 'kendaraan' 'mendaftar' 'mypertamina' 'program' 'subsidi' 'sasaran'

Stemming 'pertamina' 'patra' 'niaga' 'ribu' 'kendara' 'daftar' 'mypertamina' 'program' 'subsidi' 'sasar'

d. Seleksi fitur chi-square

Setelah data melalui tahap preprocessing, selanjutnya data akan dilakukan seleksi fitur dengan chi-square untuk menyeleksi fitur-fitur penganggu yang tidak relevan sehingga akan mempercepat komputasi. Langkah-langkah dalam penerapan fitur penyeleksian Chi-Square adalah sebagai berikut:

1. Menentukan TF (Term Frequency) tiap kata (term), yang dapat dilhat pada Tabel 4.

Tabel 4. Hasil TF pada term

Term Term Frequency

D1 D2 D3 D4 D5 2338

absen 0 0 0 0 0 … 0

abused 0 0 0 0 0 … 0

ac 0 0 0 0 0 … 0

accurate 0 0 0 0 0 … 0

aceh 0 0 0 0 0 … 0

… … … …

zuairina 0 0 0 0 0 … 0

2. Menghitung nilai variabel A, B, C, D pada setiap term (kata), berdasarkan Tabel 1, dengan C1 adalah kelas positif dan C2 adalah kelas negatif. Tabel 5. adalah hasil perhitungan nilai tiap variabel.

Tabel 5. Hasil Perhitungan Variabel A, B, C dan D

Term C1 C2

A B C D A B C D

absen 1 0 1808 529 0 1 529 1808

abused 2 0 1807 529 0 2 529 1807

ac 0 1 1809 528 1 0 528 1809

accurate 1 0 1808 529 0 1 529 1808 aceh 15 0 1794 529 0 15 529 1794

… … … …

zuairina 0 3 1809 526 3 0 526 1809

3. Menghitung nilai Chi-Square berdasarkan rumus persamaan 1. Hasil perhitungan chi-square dapat dilihat pada Tabel 6.

(8)

Tabel 6. Hasil Perhitungan Chi-Square

Term C1 C2

absen 0,292552 0,292552 abused 0,585354 0,585354 ac 3,421123 3,421123 accurate 0,292552 0,292552 aceh 4,414725 4,414725

… … …

zuairina 10,27216 10,27216

4. Menentukan nilai threshold yaitu nilai ketentuan untuk fitur yang akan digunakan.

Nilai threshold yang ditetapkan adalah 0,5 (Listiowarni & Setyaningsih, 2018).

Fitur atau term yang tidak memenuhi batas threshold yang telah ditentukan akan dihapus.

e. Pembobotan TF-IDF

Hasil TF, DF dan IDF berdasarkan persamaan 1, dapat dilihat pada Tabel 7.

Tabel 7. Hasil TF pada Kata

Term Term Frequency

DF IDF D1 D2 D3 D4 D5 D2338

absen 0 0 0 0 0 … 0 1 3,368845

abused 0 0 0 0 0 … 0 2 3,067815

ac 0 0 0 0 0 … 0 1 3,368845

accurate 0 0 0 0 0 … 0 1 3,368845

aceh 0 0 0 0 0 … 0 15 2,192753

… … … …

zuairina 0 0 0 0 0 … 0 3 2,891723

Nilai bobot tiap kata menggunakan TF-IDF diperoleh dengan mengalikan TF dan IDF, yang hasil perhitungannya dapat dilhat pada Tabel 8.

Tabel 8. Hasil Pembobotan TF-IDF

Term D1 D2 D3 D4 D5 … D2338

absen 0 0 0 0 0 … 0

abused 0 0 0 0 0 … 0

ac 0 0 0 0 0 … 0

accurate 0 0 0 0 0 … 0

aceh 0 0 0 0 0 … 0

… … … …

zuairina 0 0 0 0 0 … 0

f. Klasifikasi K-Nearest Neighbor

Tahap ini akan dilakukan klasifikasi pada algoritma K-Nearest Neighbour dengan rumus perhitungan jarak yaitu Manhattan Distance menggunakan K-Fold Cross Validation. K-Fold Cross Validation melakukan 10 kali perulangan untuk mendapatkan hasil akurasi tertinggi. Nilai k yang akan digunakan pada KNN dilakukan pengujian

(9)

terlebih dahulu, dan diperoleh hasil nilai k=3 adalah nilai k yang dengan hasil terbaik.

Hasil pengujian terhadap nilai k pada KNN dapat dilihat pada Tabel 9.

Tabel 9. Hasil Pengujian Nilai k pada KNN Pengujian Nilai k

pada KNN

Pengujian Nilai k pada KNN dengan Chi-Square Nilai k Akurasi Nilai k Akurasi

K=3 61.709.402 K=3 61.709.402 K=4 60.683.761 K=4 60.854.701 K=5 59.658.120 K=5 61.025.641 K=6 59.829.060 K=6 61.709.402 K=7 59.658.120 K=7 59.829.060

Hasil akurasi pada kedua metode menggunakan K-Fold Cross Validation dapat dilihat pada Tabel 10.

Tabel 10. Hasil Akurasi Pada Kedua Metode

Akurasi pada KNN Akurasi pada KNN dengan Chi-Square Iterasi ke- Akurasi Iterasi ke- Akurasi

1 85% 1 85%

2 87% 2 85%

3 72% 3 76%

4 78% 4 81%

5 87% 5 88%

6 76% 6 75%

7 82% 7 82%

8 81% 8 77%

9 70% 9 68%

10 56% 10 59%

Rata-rata 77% Rata-rata 77%

g. Evaluasi

Berdasarkan Tabel 10, hasil akurasi tertinggi pada KNN dengan Chi-Square yaitu 88% dan tanpa Chi-Square yaitu 87%, sehingga diperoleh perhitungan confusion matrix sebagai berikut:

1. Hasil confusion matrix pada KNN tanpa seleksi fitur Chi-Square dapat dilihat pada Tabel 11.

Tabel 11. Tabel Hasil Confusion Matrix KNN

Confusion Matrix

Label Fakta Positive Negative

Label Prediksi

Positive 247 33

Negative 6 6

(10)

Perhitungan accuracy, precision dan recall berdasarkan confusion matrix menggunakan persamaan 5, 6 dan 7 adalah sebagai berikut:

Accuracy = 𝑇𝑃 + 𝑇𝑁

𝑇𝑃 + 𝐹𝑃 + 𝑇𝑁 + 𝐹𝑁× 100% = 247 + 6

247 + 33 + 6 + 6 × 100% = 86,64 % Precision = 𝑇𝑃

𝑇𝑃 + 𝐹𝑃 × 100% = 247

247 + 33 × 100% = 88,21 % Recall = 𝑇𝑃

𝑇𝑃 + 𝐹𝑁 × 100% = 246

246 + 6 × 100% = 97,62 %

2. Hasil confusion matrix pada KNN dengan Chi-Square dapat dilihat pada Tabel 12.

Tabel 12. Tabel Hasil Confusion Matrix KNN dengan Chi-Square

Confusion Matrix Label Fakta Positive Negative Label Prediksi Positive 253 36

Negative 0 3

Perhitungan accuracy, precision dan recall berdasarkan confusion matrix menggunakan persamaan 5, 6 dan 7 adalah sebagai berikut:

Accuracy = 𝑇𝑃 + 𝑇𝑁

𝑇𝑃 + 𝐹𝑃 + 𝑇𝑁 + 𝐹𝑁× 100% = 253 + 3

253+ 36 + 3 + 0 × 100% = 87,67 % Precision = 𝑇𝑃

𝑇𝑃 + 𝐹𝑃 × 100% = 253

253 + 36 × 100% = 87,54 % Recall = 𝑇𝑃

𝑇𝑃 + 𝐹𝑁 × 100% = 253

253 + 0 × 100% = 100 %

KESIMPULAN

Adapun kesimpulan dari penelitian ini adalah Klasifikasi K-Nearest Neighbour dengan Chi-Square pada nilai k=3 menggunakan K-Fold Cross Validation memperoleh rata-rata nilai akurasi yang sama yaitu 77%, yang memiliki hasil akurasi tertinggi sebesar 88% dan tanpa seleksi fitur sebesar 87%. Seleksi fitur Chi-square pada KNN mampu mereduksi fitur sehingga komputasi lebih ringan untuk melakukan proses klasifikasi dan juga dapat meningkatkan hasil akurasi terhadap performance algoritma, namun tidak terlalu memberikan pengaruh yang signifikan.

SARAN

Berdasarkan kesimpulan, saran dari penelitian ini adalah sebagai berikut:

1. Menggunakan data yang seimbang antara label positif dan negatif.

2. Menggunakan perhitungan jarak selain manhattan distance terhadap klasifikasi menggunakan algoritma K-Nearest Neighbour untuk melihat perbandingan performa.

3. Klasifikasi menggunakan algoritma K-Nearest Neighbour dan seleksi fitur Chi- square dapat dikembangkan lagi dengan metode lainnya seperti Support Vector Machine.

(11)

UCAPAN TERIMA KASIH

Penulis mengucapkan terima kasih kepada bapak Bapak Al Aminuddin, S.T., M.Sc. yang telah banyak memberikan ilmu, arahan, serta meluangkan waktu untuk membimbing penulis dalam penulisan karya ilmiah ini.

DAFTAR PUSTAKA

Alrajak, M. S., Ernawati, I., & Nurlaili, I. (2020). Analisis Sentimen Terhadap Pelayanan PT PLN di Jakarta pada Twitter dengan Algoritma K-Nearest Neighbour. 110–122.

Bhuana, K., & Muflikhah, L. (2022). Analisis Sentimen Masyarakat Indonesia tentang Vaksin Covid-19 di Twitter dengan menggunakan Metode K- Nearest Neighbors dan Seleksi Fitur Chi Square. 6(3), 1395–1401.

emedia.dpr.go.id. (2022). MyPertamina: Antara Pengawasan dan Kesulitan.

emedia.dpr.go.id. https://emedia.dpr.go.id/article/mypertamina-antara- pengawasan-dan-kesulitan/

Listiowarni, I., & Setyaningsih, E. R. (2018). Feature Selection Chi-Square dan K-NN pada Pengkategorian Soal Ujian Berdasarkan Cognitive Domain Taksonomi Bloom. Jurnal Komputer Terapan, 4(1), 21–30.

Putra, P., Pardede, A. M. H., & Syahputra, S. (2022). Analisis Metode K-Nearest Neighbour ( KNN ) dalam Klasifikasi. 6(1), 297–305.

Rachma, F. F. (2022). 11 Daerah yang Wajib Pakai MyPertamina buat Beli Pertalite dan Solar Per 1 Juli. finance.detik.com. https://finance.detik.com/energi/d- 6150768/11-daerah-yang-wajib-pakai-mypertamina-buat-beli-pertalite-dan-solar- per-1-juli

Referensi

Dokumen terkait

Konsep penelitian dengan algoritma K-nearest neighbor telah banyak dilakukan oleh peneliti- peneliti sebelumnya diantaranya yaitu, k-nearest neighbor merupakan teknik yang sangat

Maka dari itu, peneliti bertujuan menggunakan sistem cerdas untuk menghasilkan akurasi tertinggi dari hasil uji coba klasifikasi dengan menggunakan metode K-Nearest Neighbor K-NN