View of ANALISIS SENTIMEN DI MEDIA SOSIAL TWITTER DENGAN STUDI KASUS KARTU PRAKERJA

(1)

**ANALISIS SENTIMEN DI MEDIA SOSIAL TWITTER DENGAN STUDI KASUS KARTU PRAKERJA**

Iqbal Hadi Subekti*¹, Muhammad Habibi², Aris Wahyudi Murdiyanto³, Alfun Roehatul Jannah⁴

1,2,3,4Sistem Informasi, FTTI Unjaya, Yogyakarta, Indonesia

e-mail: *¹[email protected], ²[email protected], ³[email protected],

4[email protected] Abstract - Kartu Prakerja is one of the government's

flagship programs in providing training to the workforce. In its implementation there is a lot of information scattered, especially on social media Twitter both in the pros and cons of Kartu Prakerja program. Based on information in the form of tweets that have not been analyzed in depth, it is necessary to analyze sentiment on the Kartu Prakerja in order to obtain appropriate information based on the opinions of netizen s on Twitter. This study discusses sentiment analysis of tweet data with the keyword “Kartu Prakerja” which uses data as many as 6658 tweet data taken in the period May 27 - August 5, 2021. This research uses the Naive Bayes Classification method which has several stages, namely data retrieval, data preprocessing, manual labeling, data training and testing. The solution offered in this study is to create an analysis model that can be used to perform sentiment analysis about Kartu Prakerja on Twitter. Based on the results of this study obtained that the calculation of accuracy obtained a value of 86% for training data and 87%

for data testing. This study concluded that the Kartu Prakerja has a positive sentiment by Twitter netizens based on the results of Classification that discusses many positive sentiments such as the benefits, effectiveness and addition of the Kartu Prakerja budget.

Keyword - Kartu Prakerja, Naive Bayes, Sentiment Analysis, Text Mining

Abstrak - Kartu Prakerja merupakan salah satu program unggulan pemerintah dalam memberikan pelatihan kepada para angkatan kerja. Dalam pelaksanaannya terdapat banyak informasi yang bertebaran khususnya di media sosial Twitter baik yang bersifat pro dan kontra terhadap program Kartu Prakerja. Berdasarkan informasi berupa tweet-tweet yang belum dilakukan analisis secara mendalam maka perlunya dilakukan analisis sentimen terhadap Kartu Prakerja agar didapatkan informasi yang sesuai berdasarkan opini para netizen di Twitter. Penelitian ini membahas mengenai analisis sentimen dari data tweet dengan kata kunci “Kartu Prakerja” yang menggunakan data sebanyak 6658 data tweet yang diambil pada periode 27 Mei – 5 Agustus 2021. Penelitian ini menggunakan metode Naive Bayes Classification yang memiliki beberapa tahapan yaitu pengambilan data, preprocessing data, pelabelan manual, training

data dan testing. Solusi yang ditawarkan pada penelitian ini yaitu membuat suatu model analisis yang dapat digunakan untuk melakukan analisis sentimen tentang Kartu Prakerja di Twitter.

Berdasarkan hasil dari penelitian ini diperoleh bahwa perhitungan akurasi didapatkan nilai 86%

untuk data training dan 87% untuk data testing.

Penelitian ini mendapatkan kesimpulan bahwa Kartu Prakerja memiliki sentimen positif oleh netizen Twitter berdasarkan pada hasil klasifikasi yang banyak membahas tentang sentimen yang bersifat positif contohnya mengenai manfaat, efektivitas dan penambahan anggaran Kartu Prakerja.

Kata kunci - Kartu Prakerja, Naive Bayes, Analisis Sentimen, Text Mining

I.PENDAHULUAN

Kartu Prakerja adalah program pengembangan kompetensi kerja dan kewirausahaan yang dibentuk oleh pemerintah Indonesia berupa pelatihan dan kursus tertentu untuk meningkatkan pengetahuan dan keterampilan di dunia kerja [1]. Kartu Prakerja dibuat untuk memudahkan bagi para angkatan kerja dalam membekali diri dengan keterampilan yang dibutuhkan dunia kerja agar nantinya dapat bermanfaat dan mampu menjadi tenaga kerja yang professional. Kartu Prakerja ditujukan untuk para angkatan kerja dengan ketentuan usia 18 tahun ke atas dan tidak sedang mengemban pendidikan formal (sekolah, kuliah).

Kartu Prakerja fokus pada pelatihan kemampuan yang dibutuhkan di era industri sekarang ini sehingga dapat sesuai dengan kebutuhan yang diinginkan dan mampu melahirkan angkatan kerja yang mampu bersaing [2].

Walaupun memiliki tujuan yang membangun, tetapi dalam beberapa hal Kartu Prakerja dianggap sebagai masalah baru oleh masyarakat umum. Kartu Prakerja memiliki anggaran yang besar tetapi tidak mampu memberikan pelatihan yang sepadan sesuai dengan dana yang ada. Bahkan di media sosial Twitter Kartu Prakerja dianggap memiliki banyak kekurangan seperti proses pendaftaran yang rumit dan proses pencairan insentif yang tidak sesuai sehingga menghambat proses pelaksanaan pelatihan. Twitter digunakan untuk berbagai informasi atau kicauan (tweet) antar pengguna sehingga dapat saling berbagi informasi secara realtime. Adanya Twitter membuat netizen saling berbagi informasi mengenai topik- topik terkini yang sedang dibahas contohnya tentang

(2)

Kartu Prakerja mulai dari proses pendaftaran sampai pelaksanaan pelatihan [3].

Analisis sentimen di Twitter mengenai Kartu Prakerja menjadi sangat penting untuk menganalisis opini-opini dari netizen mengenai Kartu Prakerja baik berupa tweet, re-tweet maupun komentar yang ada. Data tweet tentang Kartu Prakerja yang ada pada Twitter nantinya akan dianalisis untuk mengetahui komentar positif maupun negatif sehingga dapat dihasilkan informasi mengenai sentimen dari netizen Twitter mengenai Kartu Prakerja.

Berdasarkan dari permasalahan tersebut, maka dilakukan sebuah penelitian tentang analisis sentimen mengenai Kartu Prakerja di Twitter untuk mengetahui pandangan netizen mengenai Kartu Prakerja. Pada penelitian ini menggunakan metode Naïve Bayes Classification karena memudahkan dalam mencari nilai probabilitas pada setiap kata sehingga dapat dibuat karakteristik dokumen pada beberapa kategori tertentu. Keunggulan Naive Bayes Classification dibandingkan metode lainnya yaitu lebih mudah dalam penghitungan karena menghitung sekumpulan probabilitas dengan menjumlahkan frekuensi dan kombinasi nilai dari data training dan setiap kategori tidak memiliki ketergantungan satu sama lain [4].

Penelitian berjudul “Analisa Sentimen dan Klasifikasi Komentar Positif Pada Twitter dengan Naïve Bayes Classification” ini membahas tentang analisis sentimen positif dan negatif berbahasa Inggris yang diklasifikasikan menggunakan Naïve Bayes Classification yang diunduh dari situs Sentiment140, menggunakan Text Mining dan dilakukan pula Text Preprocessing untuk mendapatkan hasil yang diinginkan serta dihitung menggunakan TF-IDF [5].

Selanjutnya, penelitian dengan judul “Analisis Sentimen Terhadap Penerapan Sistem Plat Nomor Ganjil/Genap Pada Twitter Dengan Metode Klasifikasi Naïve Bayes” ini membahas tentang pendapat analisis sentimen pada Twitter dalam penerapan sistem ganjil/genap sehingga dapat mengklasifikasi pendapat dari masyarakat di sosial media Twitter dan dimodelkan dengan Rapid Miner Studio dan dilakukan preprocessing data dengan tahapan menghapus URL, mengganti emoticon dan negation [6].

Penelitian terkait selanjutnya berjudul “Analisis Sentimen pada Twitter terhadap Pelayanan Pemerintah Kota Makassar” ini membahas analisis sentimen mengenai pelayanan pemerintah di Kota Makassar berdasarkan data tweet yang terdapat pada Twitter.

Penelitian ini menggunakan bahasa pemrograman Python untuk pengambilan datanya dengan bantuan library tweepy yang menghasilkan data tweet berbentuk json kemudian disimpan pada perangkat lunak bernama Elasticsearch [7].

Penelitian dengan judul “Analisa Sentimen Untuk Penilaian Pelayanan Situs Belanja Online Menggunakan Algoritma Naive Bayes” ini membahas tentang analisis sentimen pengguna Twitter mengenai penilaian dalam pelayanan situs belanja online atau marketplace menggunakan algoritma Naive Bayes.

Metode penelitian yang digunakan adalah dengan membangun sistem pengklasifikasian data dengan Naive Bayes dan evaluasi sistem dengan menggunakan k-fold cross validation [8].

Penelitian selanjutnya dengan judul “Analisis Sentimen Calon Gubernur DKI Jakarta 2017 Di Twitter” ini membahas tentang analisis sentimen pengguna Twitter yang berkaitan dengan Pilkada DKI Jakarta 2017. Penelitian ini melakukan beberapa tahapan analisis seperti preprocessing data, tokenisasi, Part of Speech (POS) Tagger dan klasifikasi menggunakan Naïve Bayes Classifier (NBC) dan Support Vector Machine (SVM) [9].

Perbedaan penelitian ini dibandingkan dengan penelitian sebelumnya adalah penelitian ini mengumpulkan dataset dalam bentuk csv yang divisualisasikan menggunakan bantuan library pada Python. Penelitian ini juga menggunakan preprocessing data training untuk memperbaiki struktur data dan ditampilkan menggunakan tools Jupyter Notebook. Data tweet akan disimpan dalam Microsoft Excel dalam bentuk csv. Serta menggunakan confusion matrix untuk menguji tingkat akurasi dari metode Naïve Bayes dan mengelompokkan kata dengan konsep klasifikasi sifat kata apakah positif atau negatif sehingga dapat menghasilkan hasil prediksi yang terdapat pada data tweet yang belum dilabeli dan berpedoman pada data training yang sudah dilabeli menghasilkan data yang berlabel positif dan negatif untuk mengetahui opini dari netizen Twitter.

II.METODE PENELITIAN

Penelitian ini adalah penelitian analisis sentimen positif dan negatif pada data Twitter. Penelitian ini menggunakan metode Naïve Bayes Classification.

Penelitian ini membutuhkan data tweet yang didapatkan dari Twitter yang berkaitan tentang Kartu Prakerja, selanjutnya dilakukan pengolahan data berupa preprocessing untuk mendapatkan hasil yang diinginkan. Data tersebut nantinya digunakan untuk memetakan informasi atau sentimen dari netizen di Twitter mengenai Kartu Prakerja sehingga didapatkan informasi yang sesuai mengenai proses pendaftaran Kartu Prakerja.

Alat yang digunakan dalam penelitian ini adalah laptop dengan spesifikasi yang cukup untuk menjalankan proses pengolahan data dan mampu untuk koneksi ke jaringan internet. Sistem Operasi dan program-program aplikasi dalam pengolahan data analisis sentimen yang akan digunakan yaitu Sistem Operasi Windows 10 64-bit, Bahasa Pemrograman Python 3.7.4, Microsoft Office Excel 2016, Anaconda 3 64-bit dan Jupyter Notebook 6.0.1.

Jalan penelitian yang dilakukan dalam penelitian ini dapat dilihat pada Gambar 1.

(3)

Gambar 1 Flowchart Jalan Penelitian Pada proses training data terdapat subproses berupa TF-IDF yang dapat dilihat pada Gambar 2.

Gambar 2 Flowchart TF-IDF

Pada subproses model Naive Bayes dan proses testing berupa subproses cross validation serta klasifikasi terdapat tahapan tersendiri yang menggambarkan perhitungan metode Naive Bayes yang dapat dilihat pada Gambar 3.

Gambar 3 Flowchart Perhitungan Naive Bayes Berikut merupakan tahapan-tahapan yang akan digunakan dalam penelitian ini yaitu:

A. Pengambilan Data

Pengambilan data adalah tahap pengambilan data dari Twitter untuk mendapatkan data tweet tentang Kartu Prakerja dengan menggunakan perangkat lunak Anaconda Prompt dan dieksekusi pada Jupyter Notebook yang kemudian ditampilkan di Microsoft Excel. Data tweet yang diambil yaitu tweet yang berkaitan dengan kata kunci “Kartu Prakerja” selama periode 27 Mei – 5 Agustus 2021 dengan jumlah 6658 data tweet dan re-tweet. Pengambilan data memerlukan beberapa tahapan yaitu:

1. Autentikasi API Twitter

Autentifikasi pada API Twitter dilakukan untuk mendapatkan consumer key, consumer secret, access token dan access token secret. API berguna sebagai proses sinkronisasi sekaligus perizinan untuk mendapatkan data tweet yang akan dilakukan pengolahan lebih lanjut.

Tampilan autentifikasi API yang disediakan Twitter dapat dilihat pada Gambar 4.

Gambar 4 Tampilan API Twitter 2. Pengumpulan Data Tweet

Pengumpulan data tweet dilakukan dengan menggunakan beberapa library yang terdapat di Python yaitu tweepy yang memiliki fungsi untuk melakukan akses pada API Twitter dan mendapatkan data tweet berdasarkan kata kunci yang digunakan, csv yang memiliki fungsi untuk membaca data yang terdapat pada file dengan format csv, pandas yang memiliki fungsi untuk manipulasi serta pembersihan data dan datetime memiliki fungsi untuk memanggil operasi yang berkaitan dengan waktu. Data tweet yang disimpan memiliki variasi bentuk dengan terdapat link URL, hashtag, angka, username sehingga perlu dilakukan pengolahan data lebih lanjut untuk mendapatkan data tweet yang diinginkan.

Contoh data tweet yang sudah diambil dapat dilihat pada Tabel 1.

Tabel 1 Contoh Data Tweet

(4)

No Data Tweet

1 Digitalisasi pemasaran UMKM, Penguatan Wirausaha Alumni Program Kartu Prakerja Melalui Pembiayaan KUR, dan

termasuk\xe2\x80\xa6 https://t.co/mYquxKxB0F' 2 @Ria_Bilqis Alhamdulillah gak kebagian BST maupun BLT,

tapi dapat Kartu Prakerja kalau saya' 3 @9itmr: Kabar Baik! Airlangga Pastikan Kartu Prakerja

Berlanjut di

Semester II 2021 https://t.co/zVMysZyF4e' 4 Pemerintah Klaim Kartu Prakerja Efektif

Naikkan Rasio Kewirausahaan\n\n#prakerja

#kewirausahaan.\n\nhttps://t.co/tad9l49iIy' 5 @negativisme: Ibu Esih adalah alumni Program Prakerja,

beliau usianya

50 tahun.\n\nSalut banget \xf0\x9f\x91\x8d https://t.co/wjDkbBgqcq'

6 Btw ini yg lolos prakerja kaka iparku, insentif terjadwal 23 mei di web statusnya sudah "berhasil ditransfer" tapi\xe2\x80\xa6

https://t.co/RlxNZ52DTy'

7 @kumparan: Menko Perekonomian Airlangga Hartarto menyebut Kartu

Prakerja sukses membuat lapangan kerja baru.

https://t.co/PNhV1AGbCE' 8 Tapi inget ya guysss, kalo kamu sudah terdaftar di PKH,

program kartu sembako, BPNT atau prakerja, kamu belum bisa\xe2\x80\xa6 https://t.co/XpqunYq1FF' 9 lasttt, thankyou prakerja sudah membantu keuanganku.

terimakasih 4 bulannya!\xe2\x9d\xa4 https://t.co/9hw2nkfIUi' 10 @KakekHalal Dibilang ke KPAI aja kagak mau.\nKalau takut

jadi pengangguran buruan ke depnaker minta kartu prakerja.\xe2\x80\xa6 https://t.co/hSM0zoervn'

B. Preprocessing Data

Preprocessing data adalah proses pengolahan data teks yang sudah tersedia dengan melakukan tahapan-tahapan untuk memperbaiki data teks yang masih belum diperbaiki. Proses preprocessing data memerlukan beberapa library dalam Python yaitu numpy untuk mendukung proses komputasi atau perhitungan numerik, pandas untuk mempersiapkan data guna dilakukan pembersihan atau cleaning, nltk untuk mendukung proses pengolahan bahasa natural pada data teks, nltk.corpus untuk melakukan standarisasi pada data teks, nltk.tokenize untuk mendukung proses tokenizing dan stemming.

Sebelum dilakukan preprocessing data maka perlu dilakukan import library.

Berikut merupakan tahapan dalam preprocessing data:

1. Case Folding

Case folding yaitu melakukan konversi dari bentuk awal menjadi bentuk standar (huruf kecil atau lowercase).

2. Number Removal

Number removal yaitu melakukan penghapusan angka yang terdapat dalam data teks.

3. Punctuation Removal

Punctuation removal yaitu melakukan penghapusan untuk karakter khusus yang tidak memiliki pengaruh signifikan dalam analisis teks.

4. Whitespace Removal

Whitespaces removal yaitu melakukan spasi yang berada di awal dan di akhir dari sebuah kalimat.

5. Tokenizing

Tokenizing yaitu melakukan pemecahan atau pemisahan karakter dalam suatu teks yang didefinisikan sebagai pemisah kata atau bukan.

6. Stopword Removal

Stopword removal yaitu melakukan penghapusan kata-kata yang memiliki informasi rendah dari sebuah teks (“yang”,

“dan”, “di”, “dari” dll). Dalam stopword removal dihasilkan kata-kata yang perlu dihilangkan sesuai yang ada pada library Sastrawi dan penambahan beberapa kata.

Daftar kata yang digunakan dapat dilihat pada Tabel 2.

Tabel 2 Daftar Kata Stopword Removal

Daftar Kata

['yang', 'untuk', 'pada', 'ke', 'para', 'namun', 'menurut', 'antara', 'dia', 'dua', 'ia', 'sep erti', 'jika', 'jika', 'sehingga', 'kembali', 'dan', 'tidak', 'ini', 'karena', 'kepada', 'oleh', 'saat', 'harus', 'sementara', 'setelah', 'belum', 'kami', 'sekitar', 'bagi', 'serta', 'di', 'da ri', 'telah', 'sebagai', 'masih', 'hal', 'ketika', 'adalah', 'itu', 'dalam', 'bisa', 'bahwa', 'at au', 'hanya', 'kita', 'dengan', 'akan', 'juga', 'ada', 'mereka', 'sudah', 'saya', 'terhadap' , 'secara', 'agar', 'lain', 'anda', 'begitu', 'mengapa', 'kenapa', 'yaitu', 'yakni', 'daripa da', 'itulah', 'lagi', 'maka', 'tentang', 'demi', 'dimana', 'kemana', 'pula', 'sambil', 'se belum', 'sesudah', 'supaya', 'guna', 'kah', 'pun', 'sampai', 'sedangkan', 'selagi', 'sem entara', 'tetapi', 'apakah', 'kecuali', 'sebab', 'selain', 'seolah', 'seraya', 'seterusnya', ' tanpa', 'agak', 'boleh', 'dapat', 'dsb', 'dst', 'dll', 'dahulu', 'dulunya', 'anu', 'demikian' , 'tapi', 'ingin', 'juga', 'nggak', 'mari', 'nanti', 'melainkan', 'oh', 'ok', 'seharusnya', 's ebetulnya', 'setiap', 'setidaknya', 'sesuatu', 'pasti', 'saja', 'toh', 'ya', 'walau', 'tolong', 'tentu', 'amat', 'apalagi', 'bagaimanapun', 'rt', 'anjing', 'anjir', 'pantek']

7. Stemming

Stemming yaitu melakukan penghilangan infleksi kata menjadi bentuk dasarnya.

Stemming dilakukan dengan mengubah bentuk dataframe menjadi dictionary yang nantinya mengubah kata yang terdapat pada term atau dokumen menjadi kata dasar menggunakan library StemmerFactory

8. Normalization

Normalization yaitu melakukan penyeragaman pada term atau kata yang mengalami kesalahan penulisan atau penggunaan bahasa yang tidak lazim. Proses normalization melakukan pengubahan kata yang tidak sesuai dengan daftar kata yang sudah dibuat dalam file normalization.xlsx dan kata tersebut menjadi dataframe dengan nama normal_tweet yang selanjutnya menghasilkan data tweet yang sudah dilakukan

(5)

preprocessing. Contoh data yang terdapat pada normalization.xlsx sebagai dataset untuk menyeragamkan kata yang tidak sesuai dapat dilihat pada Tabel 3.

Tabel 3 Data Normalization

before after

gk tidak

ga tidak

gua saya

gue saya

pake pakai

bgt banget

liat lihat

utk untuk

yg yang

Preprocessing data menghasilkan data tweet yang sudah siap digunakan dan komponennya lebih terstruktur serta dapat dilakukan perhitungan pada tahap selanjutnya.

Contoh data tweet yang sudah dilakukan preprocessing data dapat dilihat pada Tabel 4.

Tabel 4 Contoh Data Tweet Hasil Preprocess

No Data Tweet Hasil Preprocess 1 kalau butuh bimbing ikut skill academy aja atau daftar

latih prakerja udah lumayan transfer juta 2 iseng ngecek prakerja punya ibu eh nyata lolos 3 alhamdulillah udah manfaat prakerja sampai saldo latih

mepet tidak tambah beli latih lagi lumayan bib 4 ingat hari akhir beli latih serta kartu prakerja gelombang 5 akhir april ini peserta kartu prakerja gelombang minta

segera beli latih pertama

6 dapet prakerja gali ilmu apa ya webinar ditawarin banyak youtube semua

7 woh kok kakakku ikut prakerja beli kelas skill academy terus benerin cv ikut kelas

8 tambahan bonus prakerja bagi yang lulus prakerja masih memliki sisa saldo pelatihan segera beli latih kembali 9 latih youtuber paling mati peserta program kartu prakerja

jabar

10 airlangga catat terima kartu prakerja jakarta total insentif rp miliar

Tabel 4 menunjukkan bahwa data tweet yang sudah dilakukan preprocessing data menjadi lebih baik dan terstruktur sehingga dapat digunakan untuk perhitungan di tahap yang selanjutnya.

C. Pelabelan Manual

Pelabelan manual adalah proses memberikan label terhadap kata atau kalimat yang ada pada dokumen sehingga dapat dianalisis lebih lanjut mengenai sifatnya yang positif atau negatif. Berdasarkan data tweet yang sudah dilabeli pada tahap pelabelan manual maka didapatkan data training sebanyak 1000 tweet dengan rincian 500 data

tweet positif dan 500 data tweet negatif. Hasil pelabelan manual dapat dilihat pada Gambar 5.

Gambar 5 Data Pelabelan Manual Contoh data yang diberi label secara manual dapat dilihat pada Tabel 5.

Tabel 5 Pelabelan Manual

No Kelas Label Cleaned_Text

1 Positif 1

kalau butuh bimbing ikut skill academy aja atau daftar latih prakerja udah lumayan transfer juta

2 Positif 1 iseng ngecek prakerja punya ibu eh nyata lolos

3 Positif 1

alhamdulillah udah manfaat prakerja sampai saldo latih mepet tidak tambah beli latih lagi lumayan bib

4 Positif 1 ingat hari akhir beli latih serta kartu prakerja gelombang

5 Positif 1

akhir april ini peserta kartu prakerja gelombang minta segera beli latih pertama

6 Negatif 0 bagaimana sih prakerja

7 Negatif 0

mbak kalau mau spill pasti kuota bukan hasil dari kartu prakerja

8 Negatif 0 aguero sibuk daftar kartu prakerja 9 Negatif 0 sabar kentot nunggu prakerja

ckck

10 Negatif 0 deeptalk bahas fungsi prakerja jokowi ckck

Dari Tabel 5 didapatkan informasi bahwa kelas positif diberi label dengan nilai 1 dan kelas negatif diberi label dengan nilai 0.

Pelabelan manual dilakukan untuk memberikan nilai dari sentimen pada kelas berupa positif dan negatif yang akan dihitung akurasinya.

D. Training Data

Training data adalah proses training pada data dengan menggunakan metode Naive Bayes Classification. Tahapan proses training data

(6)

diawali dengan fitur ektraksi pada data teks menggunakan TF-IDF, kemudian dilakukan proses training data untuk membuat model klasifikasi yang dapat digunakan untuk melakukan klasifikasi sentimen secara otomatis [10]. Contoh perhitungan TF-IDF secara manual dapat dilihat pada Tabel 6.

Tabel 6 Dokumen TF-IDF

Dokumen (d)

Kalimat

d1

kalau butuh bimbingan ikut skill academy aja atau daftar latihan prakerja udah lumayan ditransfer juta

d2 iseng ngecek prakerja punya ibu eh ternyata lolos

d3

alhamdulillah udah memanfaatkan prakerja sampe saldo pelatihan mepet bisa tambah beli pelatihan lagi lumayan

d4

ingat hari ini terakhir pembelian pelatihan peserta kartu prakerja gelombang

d5

berakhir april ini peserta kartu prakerja gelombang diminta segera beli pelatihan pertama

Tabel 6 menjelaskan tentang kalimat yang akan digunakan sebagai contoh perhitungan manual TF-IDF dengan 5 dokumen yaitu d1, d2, d3, d4 dan d5.

Klasifikasi yang dilakukan pada penelitian ini menggunakan fitur ekstraksi TF-IDF yang menghasilkan perhitungan secara otomatis dengan pembobotan pada kata yang ada pada term atau dokumen pada data training.

Perhitungan TF-IDF menggunakan library pada Python yaitu Sklearn dan TfidfVectorizer untuk menghitung hasil perhitungan secara otomatis. Pada perhitungan TF-IDF didukung dengan library Multinomial Naive Bayes dengan menggunakan data training yang tersedia. Hasil perhitungan TF-IDF dapat dilihat pada Gambar 6 dan Gambar 7.

Gambar 6 Hasil Perhitungan TF-IDF Awal

Gambar 7 Hasil Perhitungan TF-IDF Akhir Dengan hasil TF-IDF pada Gambar 6 dan Gambar 7 dihasilkan training data dengan metode classifier berupa Naive Bayes yang hasilnya dapat dilihat pada Gambar 8.

Gambar 8 Hasil Perhitungan Training Data Setelah perhitungan TF-IDF maka dilanjutkan dengan pembuatan model klasifikasi menggunakan variabel X dan y dengan data training yang sudah tersedia.

Model dibuat dalam sebuah fungsi agar nantinya memudahkan dalam pemanggilan dan eksekusi pada tahap berikutnya sehingga lebih efektif dan efisien. Selanjutnya File pickle yang menjadi model klasifikasi digunakan untuk melakukan eksekusi pada data training sebanyak 1000 tweet ditambah dengan data yang belum diberi label sebanyak 4000 tweet.

Total data tweet sebanyak 5000 nantinya akan dieksekusi menggunakan classifier yang sudah dibuat sehingga dapat dilakukan prediksi sifat positif dan negatif dari term atau dokumen yang tersedia. Hasil data yang sudah dilakukan prediksi untuk 5000 tweet dapat dilihat pada Gambar 9.

Gambar 9 Hasil Data Prediksi

(7)

E. Testing

Testing adalah tahapan untuk mengetahui tingkat keakuratan pemodelan yang dibangun pada tahap training yang digunakan untuk memprediksi label atau kelas dari data uji yang tersedia. Testing memiliki 2 tahapan yang dilalui yaitu:

1. Cross Validation

Cross validation yaitu cara untuk menghitung hasil akurasi sebanyak beberapa kali (k-fold) dengan menggunakan parameter yang sama. Proses cross validation digunakan untuk mencari nilai akurasi dengan melakukan percobaan beberapa kali agar dapat diketahui tingkat performa dari model dan data yang digunakan [11].

2. Hasil Klasifikasi

Pada proses testing data dilakukan pengujian pada 1000 data tweet yang sudah dilakukan pelabelan manual sehingga sudah didapatkan label positif dan negatif pada tiap data tweet yang tersedia.

Metode yang digunakan pada testing meliputi:

a. accuracy untuk mengetahui jumlah klasifikasi dibagi dengan total sampel testing yang diuji [8].

b. precision untuk mengetahui klasifikasi kategori positif yang benar dibagi dengan total sampel klasifikasi positif [8].

c. recall untuk mengetahui sampel yang diklasifikasi kategori positif dibagi total sampel dalam testing yang berkategori positif [8].

d. f1-score untuk menghitung rata-rata dari precision dan recall [8].

III.HASIL DAN PEMBAHASAN

Berikut merupakan penerapan analisis sentimen di media sosial Twitter menggunakan bahasa pemrograman Python dengan metode Naive Bayes Classification menggunakan library yang sudah ada yaitu pandas, numpy, nltk, sastrawi, sklearn, pickle, seaborn dan matplotlib yang ditampilkan menggunakan tools Jupyter Notebook.

A. Hasil Evaluasi Model Klasifikasi

Evaluasi model klasifikasi menggunakan data training sebanyak 1000 data tweet yang sudah diberi label positif dan negatif masing-masing sebanyak 500 data. Untuk mengetahui ketepatan aplikasi yang sudah dibuat maka perlu dilakukan pengujian pada confusion matrix untuk mengetahui nilai aktual dan prediksi pada data.

Hasil perhitungan confusion matrix pada data training dapat dilihat pada Tabel 7.

Tabel 7 Hasil Confusion Matrix Data Training

Kelas Aktual

Kelas Prediksi Positif Negatif

Positif 90 14

Negatif 13 83

Hasil confusion matrix pada Tabel 7 berupa TP

= 90, TN = 14, FP = 13 dan FN = 83. Setelah didapatkan nilai dari confusion matrix maka dilanjutkan dengan perhitungan pada akurasi model yaitu menggunakan cross validation.

Pengujian menggunakan k-fold cross validation dilakukan untuk mendapatkan angka yang sesuai dengan melakukan perulangan sebanyak 10 kali.

Perhitungan tiap fold pada k-fold cross validation memiliki nilai akurasi sendiri-sendiri dan hasilnya yang berbeda antar satu sama lain. Hasil perhitungan 10 fold pada cross validation dapat dilihat pada Tabel 8.

Tabel 8 Hasil Cross validation Data Training

Fold Accuracy

Fold 1 81,2%

Fold 2 85,0%

Fold 3 81,2%

Fold 4 91,2%

Fold 5 87,5%

Fold 6 82,5%

Fold 7 90,0%

Fold 8 86,2%

Fold 9 88,8%

Fold 10 87,5%

Cross validation yang dilakukan sebanyak 10 kali menghasilkan hasil rata-rata akurasi yang cukup baik yaitu 0,86 dengan rincian hasil klasifikasi yang dapat dilihat pada Tabel 9.

Tabel 9 Hasil Classification Report Data Training

Jenis Precision Recall F1-Score

Negatif 0,87 0,87 0,87

Positif 0,86 0,86 0,86

Accuracy 0,86

Macro Average 0,86 0,86 0,86

Weighted Average

0,87 0,86 0,87

B. Hasil Evaluasi Klasifikasi

Tahap evaluasi klasifikasi menggunakan data testing sebanyak 200 data tweet baru yang diberi label positif 100 data dan label negatif 100 data.

Data baru yang sudah diberi label selanjutnya

(8)

dihitung nilai akurasinya untuk mengetahui perbedaan antara data training dan data testing.

Hasil perhitungan klasifikasi pada data testing dapat dilihat pada Tabel 10.

Tabel 10 Hasil Classification Report Data Testing

Jenis Precision Recall F1-Score

Negatif 0,94 0,79 0,86

Positif 0,83 0,95 0,89

Accuracy 0,88

Macro Average 0,89 0,87 0,87

Weighted Average

0,88 0,88 0,87

Dari hasil perhitungan klasifikasi didapatkan rata-rata akurasi yang cukup baik yaitu 0,875.

Sedangkan pengujian pada confusion matrix untuk mengetahui nilai aktual dan prediksi pada data testing dapat dilihat pada Tabel 11.

Tabel 11 Hasil Confusion Matrix Data Testing

Kelas Aktual

Kelas Prediksi

Positif Negatif

Positif 15 4

Negatif 1 20

Hasil confusion matrix pada Tabel 11 berupa TP = 15, TN = 4, FP = 1 dan FN = 20. Dengan demikian maka perbandingan hasil antara data training sebanyak 1000 data tweet dengan data testing sebanyak 100 data tweet memiliki hasil pengujian yang hampir sama dan memiliki selisih yang cukup signifikan yaitu 0,01 yang dapat dilihat pada Tabel 12.

Tabel 12 Perbandingan Hasil Akurasi Data

Akurasi Hasil

Data Training (1000 data) 0,865

Data Testing (100 data) 0,875

C. Hasil Analisis

Langkah yang dilakukan pada hasil analisis yaitu melakukan perhitungan pada seluruh data tweet yang diambil sebanyak 6658 data dengan rincian 1000 data yang sudah dilabeli secara manual dan 5558 data dilabeli menggunakan prediksi. Pada pengujian data tweet yang dilakukan prediksi menggunakan 6658 data didapatkan rata- rata akurasi yang cukup bagus sebesar 0,95 yang menandakan bahwa hasil prediksi memiliki nilai yang baik dalam memberikan sentimen pada data tweet yang tersedia. Hasil prediksi yang terdapat pada data tweet yang belum dilabeli dan berpedoman pada data training yang sudah dilabeli menghasilkan data yang berlabel positif dan

negatif dengan rincian yang dapat dilihat pada Gambar 10.

Gambar 10 Histogram Data Positif dan Negatif Pada hasil klasifikasi tersebut didapatkan 4474 data berlabel positif dan 2184 berlabel negatif.

Sentimen positif pada data tweet membahas tentang beberapa hal yaitu penambahan anggaran pemerintah untuk kartu prakerja, banyak orang yang menerima manfaat kartu prakerja, efektivitas kartu prakerja jangkau seluruh lapisan masyarakat dan platform digital kartu prakerja sangat puas terhadap lembaga pelatihan. Contoh 5 data teratas yang dibahas pada sentimen positif dapat dilihat pada Tabel 13.

Tabel 13 Data Sentimen Positif

No Data Tweet

1 geloraco sri mulyani tambah anggaran kartu prakerja jadi rp triliun

2 ricapepedas jangkau luas buat efektivitas manfaat kartu prakerja nikmati seluruh lapis masyarakat

3 chusnulch puas sangat puas terhadap platform digital kartu prakerja puas sangat puas terhadap lembaga latih 4 pemerintah tambah anggaran program kartu prakerja jadi rp

triliun

5 negativisme hingga bulan udah juta orang terima manfaat prakerja yang anggar capai rp triliun program ini

Sedangkan sentimen negatif pada data tweet membahas tentang beberapa hal yaitu program Kartu Prakerja membuang uang negara, Kartu Prakerja tidak membantu peningkatan skill, insentif yang tidak masuk ke e-wallet dan dana Kartu Prakerja sebaiknya digunakan untuk nakes serta guru honorer. Contoh 5 data teratas yang dibahas pada sentimen negatif dapat dilihat pada Tabel 14.

Tabel 14 Data Sentimen Negatif

No Data Tweet

1 fadlizon program kartu prakerja tak jelas buang uang untuk latih padahal gratis baik uang kartu prakerja langsung 2 bbyemily udah lolos kartu prakerja sih kok insentif tidak

masuk hmmm beberapa kesalahan kesalahan mungkin terjadi

3 alangkah bijak nya anggaran prakerja alih nakes guru honorer jelas kerja

4 wagimandeep disimpulkan bahwa kartu prakerja tidak membantu tingkat skill seseorang pengaruh kondisi 5 bpkri kan langgar yang laku perintah soal guna anggar utang

pen dana bansos kartu prakerja

(9)

Berdasarkan hasil klasifikasi sentimen banyaknya data tweet yang diklasifikasikan lebih banyak yang bersifat positif serta mendukung dengan program Kartu Prakerja yang ditandai dengan prediksi yang lebih banyak antara positif daripada negatif serta isi data tweet yang lebih jelas dan terarah. Sentimen positif memiliki nilai yang baik karena dengan hasil tersebut maka dapat digunakan untuk mengetahui opini dari netizen di Twitter tentang Kartu Prakerja yang memiliki banyak keunggulan dan bermanfaat bagi banyak pihak

IV.KESIMPULAN

Berdasarkan hasil dan pembahasan mengenai analisis sentimen di media sosial Twitter dengan studi kasus Kartu Prakerja dapat diambil beberapa kesimpulan antara lain penelitian ini berhasil melakukan pengujian akurasi menggunakan metode Naive Bayes Classification dengan nilai 86% untuk data training dan 87% untuk data testing, membuat model analisis sentimen dengan melakukan klasifikasi dan prediksi pada data tweet yang bersifat positif dan negatif, serta memberikan hasil bahwa Kartu Prakerja memiliki sentimen positif oleh netizen Twitter berdasarkan pada hasil klasifikasi dan perhitungan pada model dan data tweet serta banyaknya pembahasan yang bersifat positif contohnya mengenai manfaat, efektivitas dan penambahan anggaran Kartu Prakerja.

DAFTAR PUSTAKA

[1] K. C. Kerja, “Tentang Kartu Prakerja.,”

Kementerian Koordinator Bidang Perekonomian Republik Indonesia, 2021.

[2] L. A. Abdillah, “Kartu Prakerja Bantuan Pemerintah di Masa Pandemi Global COVID- 19.”

[3] P. Antinasari, R. Setya Perdana, and M. A.

Fauzi, “Analisis Sentimen Tentang Opini Film Pada Dokumen Twitter Berbahasa Indonesia Menggunakan Naive Bayes Dengan Perbaikan Kata Tidak Baku,” 2017. [Online].

Available: http://j-ptiik.ub.ac.id

[4] R. N. Devita, H. W. Herwanto, and A. P.

Wibawa, “Perbandingan Kinerja Metode Naive Bayes dan K-Nearest Neighbor untuk Klasifikasi Artikel Berbahasa indonesia,”

Jurnal Teknologi Informasi dan Ilmu Komputer, vol. 5, no. 4, p. 427, Oct. 2018, doi:

10.25126/jtiik.201854773.

[5] A. Pandhu and W. Diki, “Analisa sentimen dan Klasifikasi Komentar Positif Pada Twitter

dengan Naïve Bayes Classification,”

BRITech(Jurnal Ilmiah Komputer, Sains Dan Teknologi Terapan)), Jakarta, vol. 1, no. 2, 2020.

[6] N. Ruhyana, “Analisis Sentimen Terhadap Penerapan Sistem Plat Nomor Ganjil/Genap Pada Twitter Dengan Metode Klasifikasi Naive Bayes.” [Online]. Available:

www.situs.com

[7] M. Nur, Y. Utomo, P. Negeri, and U. Pandang, Analisis Sentimen pada Twitter terhadap Pelayanan Pemerintah Kota Makassar.

[Online]. Available: https://dev.twitter.com [8] A. Sentimen Untuk Penilaian Pelayanan Situs

Belanja Online Menggunakan Algoritma Naïve Bayes Muljono, D. Putri Artanti, A.

Syukur, A. Prihandono, and D. I. Rosal Moses Setiadi, “Konferensi Nasional Sistem Informasi 2018 STMIK Atma Luhur Pangkalpinang,” 2018. [Online]. Available:

http://twitter.com

[9] G. A. Buntoro, “Analisis Sentimen Calon Gubernur DKI Jakarta 2017 Di Twitter,”

2017. [Online]. Available:

https://t.co/jrvaMsgBdH

[10] R. N. Devita, H. W. Herwanto, and A. P.

Wibawa, “Perbandingan Kinerja Metode Naive Bayes dan K-Nearest Neighbor untuk Klasifikasi Artikel Berbahasa indonesia,”

Jurnal Teknologi Informasi dan Ilmu Komputer, vol. 5, no. 4, p. 427, Oct. 2018, doi:

10.25126/jtiik.201854773.

[11] J. Da, C. Aruan, B. Rahayudi, and A. Ridok,

“Analisis Sentimen Opini Masyarakat terhadap Pelayanan Rumah Sakit Umum Daerah menggunakan Metode Support Vector Machine dan Term Frequency-Inverse Document Frequency,” 2022. [Online].

Available: http://j-ptiik.ub.ac.id