Tahapan ini menjelaskan hasil dan pembahasan penelitian yang meliputi pengumpulan data dan praproses, analisis tweet hasil reduksi fitur, analisis proses klasifikasi evaluasi model menggunakan interface RapidMiner Studio 7.1 dengan Rscript. Perancangan untuk pengembangan model sentiment mining menggunakan diagram-diagram UML.
Pengumpulan data
Tahapan pertama pada proses crawling yaitu koneksi API dengan cara registrasi melalui Twitter Application Management untuk mendapatkan API Key, API Secret, Access Token, Access Token Secret kemudian melakukan autentifikasi. Selanjutnya melakukan pengambilan data berdasarkan kata kunci dengan parameter yang diinginkan, misalnya pada penelitian ini kata kunci yang digunakan adalah tentang kegiatan PIK-Remaja dan GenRe yang berada diwilayah Bogor dengan jumlah 1000 tweet untuk masing-masing kegiatan pada tanggal 1 Januari 2015 sampai 1 Januari 2016.
Tahapan selanjut yaitu menyimpan file dengan format .csv (comma delimited). Setelah dilakukan praproses terhadap dataset yang meliputi filter, case folding, hapus stopword, token dan parsing, pembobotan dan pemeriksaan kelas diperoleh 1219 fitur dari 1000 tweet pada kegiatan PIK-Remaja dan 1302 fitur dari 1000 tweet kegiatan GenRe.
Menurut Ding et al. (2008), pemeriksaan kelas memiliki empat langkah dalam menentukan orientasi sentimen berdasarkan pendekatan lexicon yaitu : 1. Tandai kata yang mengandung sentimen : untuk setiap kalimat yang berisi satu
atau lebih kata sentimen, langkah ini menandai semua kata dan frasa dalam sentimen kalimat. Setiap kata positif diberikan skor sentimen +1 dan setiap kata negatif diberikan skor sentimen -1. Berdasarkan Gambar 4, fitur ke-5 (w5) dan fitur ke-6 (w6) mengandung kata yang terdapat pada corpus positif maka diberi skor [+1].
2. Terapkan sentimen shifter yaitu kata-kata dan frase yang dapat mengubah orientasi sentimen dengan kata negasi seperti tidak, tidak pernah, tidak ada, ngga, nggak dan tidak bosen adalah jenis yang paling umum. Maka tweet menjadi
“launching pik remaja nggak lama : ) semangat tapi seru” karena terdapat kata
negasi “nggak” maka bernilai [-1].
3. Menangani klausa tapi- : penggunaan klausa tapi juga dapat merubah orientasi sentimen. Sebuah kalimat mengandung klausa tapi- dan setelahnya mengandung kata sentimen akan bertentangan dengan kata sebelum klausa tapi-. Sehingga tweet yang dicontohkan menjadi sebagai berikut “launching pik remaja nggak lama [+1] , tapi seru [+1].
4. Tahapan terakhir menghitung skor sentimen dengan Persamaan 1, sehingga diperoleh bobot sentimen adalah [+4] yang berarti tweet memiliki kelas sentimen positif.
13
w1 w2 w3 w4 w5 w6 w7 w8 w9
fitur (wi) launching pik remaja nggak lama :) semangat tapi seru
tandai kata sentimen -1 -1 +1 +1 +1 kata negasi +1 +1 +1 +1 klausa tapi- +1 +1 +1 +1
Gambar 8 Ilustrasi tahapan pemeriksaan kelas sentimen
Berdasarkan Gambar 4, fitur w1, w2, w3 tidak diberi skor atau diabaikan karena tidak mengandung kata yang ada di dalam corpus sentimen. Sehingga dapat disimpulkan tweet “launching pik remaja nggak lama : ) semangat tapi seru”
merupakan kelas positif dengan bobot sentimen [+4]. Reduksi fitur
Proses reduksi fitur melibatkan perhitungan varian, eigen value dan eigen vector untuk menghasilkan nilai PC (principal component) yang digunakan dalam mereduksi fitur sehingga mempermudah proses klasifikasi, yang direpresentasikan pada Gambar 9 menggunakan bahasa R yang disediakan RapidMiner Studio yaitu Rscript (Rapid-I 2015).
Gambar 9 Flow knowledge proses reduksi fitur pada RapidMiner
Menurut Vinodhini dan Chandrasekaran (2014), nilai PC yang tinggi bergantung pada standar deviasi dan proporsi varian dan fitur dikatakan tidak varian jika nilai eigen value atau cumulative varian ≤ 1 sebagaimana direpresentasikan pada Gambar 10 (a) dan 10 (b). Gambar 10 (a), merepresentasikan nilai PC terhadap cummulative variance untuk kegiatan PIK-Remaja yang menunjukkan bahwa pada fitur 1200 dan seterusnya nilai cummulative variance sudah sama yaitu 1.
14
(a)
(b)
Gambar 10 Nilai PC terhadap proporsi varian: (a) PIK-Remaja (b) GenRe Nilai PC tergantung pada standar deviasi dan proporsi pada varian, semakin besar nilainya maka nilai PC suatu fitur makin besar, namun tidak bergantung pada nilai cummulative variance dapat dilihat pada Tabel 1.
15 Tabel 1 Pengurutan nilai principal component dari yang tertinggi
Component (PC) Standar Deviasi (SD) Proporsi Varian (PV) Kumulatif Varian (CV) PC1 0.561 0.075 0.075 PC2 0.452 0.049 0.123 PC3 0.393 0.037 0.160 PC4 0.331 0.024 0.186 PC5 0.268 0.019 0.210 PC6 0.276 0.018 0.230 PC7 0.274 0.018 0.248 . . . . . . . . . . . . PCn SDn PVn CVn
Pada Tabel 1, ditampilkan sebagian dataset dengan nilai PC tertinggi berbanding lurus nilai standar deviasi dan proporsi varian sedangkan Gambar 11 menunjukan nilai PC1 sampai PCn untuk setiap fitur kemudian diurutkan fitur dengan nilai PC1 tertinggi. Penggunaan fitur yang direduksi dengan PCA untuk proses klasifikasi mempertimbangkan kriteria untuk mereduksi fitur yaitu nilai PC tinggi dan nilai cummulative variance ≤ 1. Jika fitur memenuhi kriteria maka akan digunakan untuk proses klasifikasi sedangkan fitur yang tidak memenuhi kriteria akan direduksi atau tidak digunakan dalam proses klasifikasi.
Gambar 11 Nilai PC null pada fitur Kegiatn PIK-Remaja
Berdasarkan Tabel 1 dan Gambar 12, ditemukan fitur dengan nilai PC tidak ada atau null yang mempertegas bahwa fitur-fitur tersebut akan direduksi meskipun memiliki nilai cummulative variance ≤ 1. Hal tersebut dikarenakan proses reduksi PCA menggunakan nilai PC untuk mereduksi fitur.
16
Gambar 12 Nilai PC null pada fitur kegiatan GenRe
Berdasarkan hasil reduksi fitur pada masing-masing dataset kegiatan diperoleh 1156 fitur dari 1219 fitur pada kegiatan PIK-Remaja dan 951 fitur dari 1302 fitur pada kegiatan GenRe yang akan digunakan pada proses klasifikasi.
Klasifikasi Sentiment
Penerapan algoritme SVM dengan penambahan kelas netral diharapkan mampu menghasilkan model yang baik dengan tingkat akurasi yang tinggi, ilustrasi proses klasifikasi direpresentasikan pada Gambar 13. Parameter SVM yang digunakan merupakan kombinasi nilai c dan γ dari hasil estimasi.
Gambar 13 Flow knowledge proses proses klasifikasi sentiment
Berdasarkan Tabel 2 merupakan jumlah persentase keseluruhan kelas sentiment, yang menunjukan nilai yang tertinggi pada kelas sentiment adalah sentiment netral diikuti sentiment positif, jika dibandingkan dengan sentiment negatif, namun nilai presentase sentiment positif lebih tinggi untuk kegiatan GenRe yaitu 39.20% dari keseluruhan sentiment (positif, negatif dan netral) dan kegiatan
17 PIK-Remaja sebesar 37.90%, hal tersebut menjawab tujuan penelitian yang kedua yaitu kegiatan dengan tingkat persentase positif tertinggi adalah GenRe yang berarti memiliki respon yang baik dalam penyebaran informasi tentang sosialisasi, penyuluhan serta implementasi kegiatan. Jumlah persentase diperoleh dari pembobotan sentiment yaitu nilai +1 untuk positif, nilai -1 untuk negatif dan 0 untuk netral.
Tabel 2 Presentase jumlah sentiment kegiatan GenRe dan PIK-Remaja
Kelas sentiment
PIK Remaja GenRe
Jumlah Persentase (%) Jumlah tweet Persentase (%)
Positif 379 37.90 392 39.20
Negatif 196 19.60 200 20.00
Netral 425 42.50 408 40.80
Total 1000 100 1000 100
Penggunaan estimasi parameter dan pembagian data dalam pembangunan model bertujuan untuk mengetahui bagaimana pengaruhnya terhadap tingkat akurasi pada proses klasifikasi sentiment.
(a)
(b)
Gambar 14 Skenario model sentiment mining: (a) PIK-Remaja (b) GenRe 226 166 269 123 311 81 350 42 129 71 142 58 157 43 179 21 245 163 289 119 332 76 371 37 0 50 100 150 200 250 300 350 400 60% data latih
40% data uji 70% data latih
30% data uji 80% data latih
20% data uji 90% data latih
10% data uji
Model 1 Model 2 Model 3 Model 4
Jum la h se nt ime nt
Positif Negatif Netral
127 69 140 56 155 41 177 19 251 167 295 123 338 80 377 41 600 400 700 300 800 200 900 100 0 100 200 300 400 500 600 700 800 900 1000 222 164 265 121 307 79 346 40 60% data latih
40% ata uji 70% data latih
30% data uji 80% data latih
20% data uji 90% data latih 10% data uji Jum la h se nt ime nt
18
Pada Gambar 14 direpresentasikan jumlah setiap kelas sentiment berdasarkan skenario model. Gambar 14 (a) menunjukan bahwa jumlah terbanyak sentiment positif kegiatan PIK-Remaja sebanyak 350 tweet sedangkan pada Gambar 14 (b) jumlah terbanyak sentiment positif kegiatan GenRe sebanyak 346 tweet yang keduanya berada dalam data latih pada Model 4.
Pengujian Parameter (c,γ) pada Fungsi Kernel
Pengujian parameter c dan γ dilakukan dengan menggunakan data yang terdiri dari 50% data latih dan 50% data uji dan Persamaan 2. Berdasarkan Tabel 3 menunjukkan beberapa pasangan nilai parameter yang memberikan akurasi paling baik pada klasifikasi kelas sentiment sebesar 97.44% yaitu (c=0.8, γ=0.8), (c=0.8,
γ=0.9), (c=0.9, γ=0.8) dan (c=0.9, γ=0.9). Pasangan nilai parameter tersebut akan digunakan pada tahap selanjutnya untuk menguji tingkat akurasi klasifikasi SVM pada model.
Tabel 3 Grid search presentase tingkat akurasi model sentiment mining
c y 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 0,1 43,96 38,83 38,83 38,83 38,83 38,83 38,83 38,83 38,83 0,2 73,63 66,67 54,41 50,55 38,83 38,83 38,83 38,83 38,83 0,3 78,39 78,75 78,39 79,12 75,82 65,2 58,97 58,61 56,04 0,4 80,95 82,05 82,78 82,78 80,59 84,62 83,88 83,88 83,52 0,5 82,42 83,88 86,45 89,38 88,28 87,55 84,25 83,35 84,98 0,6 82,78 84,62 86,45 88,28 91,21 91,21 92,67 96,34 96,34 0,7 83,15 84,62 86,45 87,91 91,58 91,58 93,41 96,7 96,7 0,8 83,52 86,81 87,55 88,28 90,11 91,58 93,41 97,44 97,44 0,9 83,52 86,81 87,55 88,28 89,01 91,94 93,77 97,44 97,44
Tabel 3 menunjukan bahwa pasangan parameter c dan γ yang menghasilkan akurasi tertinggi adalah 0.8 dan 0.8, 0.8 dan 0.9, 0.9 dan 0.8, 0.9 dan 0.9. Karena parameter tersebut memiliki persentase akurasi yang sama, maka pasangan
parameter c dan γ yang digunakan pada pengujian model adalah c= 0.8 dan γ =0.8.
Evaluasi Model
Penggunaan parameter dari hasil estimasi parameter pada pengujian model sentiment mining, bertujuan untuk meningkatkan nilai akurasi, precision dan recall antar model sebagaimana juga telah dilakukan pada penelitian Tiara et al. (2015) dengan Persamaan 2, Persamaan 3 dan Persamaan 4.
Penggunaan akurasi dalam evaluasi model diharapkan dapat mengetahui ketelitian dari pengujian sata pada klasifikasi sentiment sebagaimana ditunjukkan pada Gambar 15, bahwa pada row ke 7 tweet memiliki kelas negatif, namun pada saat diklasifikasikan menjadi kelas positif.
19
Gambar 15 Contoh ketepatan kelas pada klasifikasi sentiment
Gambar 16 merupakan salah satu confusion matrix model yang dihasilkan dari penelitian dan merupakan model dengan akurasi tertinggi.
Gambar 16 Confusion matrix Model 1 pada kegiatan GenRe
Berdasarkan Tabel 4, presentase recall pada kegiatan PIK-Remaja tertinggi dimiliki Model 3 pada kelas sentimen negatif sebesar 84.26% dan terendah pada Model 1 sebesar 65.09% sedangkan precision tertinggi diperoleh dari Model 3 sebesar 80% dan terendah dimiliki Model 1 pada kelas sentimen positif sebesar 66.20%.
Tabel 4 Persentase precision dan recall pada kegiatan PIK-Remaja Kelas
Sentiment
Model 1 Model 2 Model 3 Model 4
precision recall precision recall precision recall precision recall
Positif 74.19 65.09 70.37 75.53 75.53 75.53 75.53 73,96 Negatif 66.20 74.60 77.78 84.26 79.82 84.26 78.90 79.63 Netral 71.56 75.00 79.41 73.24 80,00 73.24 71.43 72.46
20
Tabel 5 menunjukan presentase precision dan recall pada kegiatan GenRe, precision tertinggi dimiliki Model 3 pada kelas sentimen netral sebesar 91.80%. Tabel 5 Persentase precision dan recall pada kegiatan GenRe
Kelas Sentiment
Model 1 Model 2 Model 3 Model 4
precision recall precision recall precision recall precision recall
Positif 86,73 87,63 87,25 82,41 82,65 86,17 82,29 82,29 Negatif 87,50 87,50 85,94 87,30 85,09 89,81 83,33 87,96 Netral 90,99 90,18 83,18 87,25 91,80 78,87 84,13 76,81
Rataan 88,41 88,44 85,46 85,65 86,51 84,95 83,25 82,35
Berdasarkan Tabel 4 dan Tabel 5, banyaknya jumlah kelas sentimen tidak berbanding lurus dengan tingkat precision ataupun recall karena seperti digambarkan pada Gambar 15 (a) dan 15 (b), jumlah tweet dengan sentimen positif selalu lebih banyak dibandingkan tweet dengan sentimen negatif.
Tabel 6 Tingkat akurasi dengan parameter c = 0.8 dan γ = 0.8
Model PIK-Remaja GenRe
Model 1 (60% data latih dan 40% data uji) 82.78 88.64
Model 2 (70% data latih dan 30% data uji) 79.49 85.35
Model 3 (80% data latih dan 20% data uji) 78.75 85.71
Model 4 (90% data latih dan 10% data uji) 78.39 83.15
Rataan 79.85 85.71
Berdasarakan Tabel 6 dan Tabel 7 menunjukan presentase tingkat akurasi pada setiap model dengan akurasi tertinggi diperoleh dengan melakukan estimasi terlebih dahulu sehingga dapat diketahui bahwa klasifikasi sentiment dengan parameter hasil estimasi lebih tinggi dibandingkan langsung memilih nilai parameter. Penjelasan tersebut dipertegas dengan direpresentasikannya tingkat akurasi antara klasifikasi dengan menggunakan parameter c= 0.1 dan γ = 0.6 pada
Tabel 5 dan menggunakan parameter yang memiliki akursi tertinggi pada proses
pelatihan data yaitu dengan parameter c= 0.8 dan γ = 0.8.
Tabel 7 Tingkat akurasi dengan parameter c= 0.1 dan γ = 0.6 Model
PIK-Remaja
(%) GenRe(%)
Model 1 (60% data latih dan 40% data uji) 71.06 81.32
Model 2 (70% data latih dan 30% data uji) 75.46 76.92
Model 3 (80% data latih dan 20% data uji) 78.39 83.88
Model 4 (90% data latih dan 10% data uji) 75.82 81.68
21 Berdasarkan hasil pengujian model, tingkat akurasi baik untuk masing-masing kegiatan nilai akurasi lebih dari 70%. Kegiatan dengan akurasi tertinggi adalah model 1 sebesar 88.68 % yang dihasilkan dari data kegiatan GenRe sedangkan pada kegiatan PIK-Remaja sebesar 82.78%.
Pengembangan Model Sentiment Mining
Pengembangan model dilakukan dengan merancangan model menggunakan diagram-diagram UML yang meliputi use case diagram, state diagram, activity diagram, sequence diagram, component diagram dan class diagram dengan tujuan memudahkan dalam memahami tahapan pemodelan yang dilakukan untuk pengembangan menjadi aplikasi pada penelitian selanjutnya.
Use Case Diagram
Tahap konseptualisasi dalam UML dilakukan dengan pembuatan use case diagram yang merupakan deskripsi peringkat tertinggi bagaimana perangkat lunak (sistem atau aplikasi) berinteraksi dengan pengguna dan use case diagram tidak hanya sangat penting pada tahap analisis tetapi juga untuk tahap perancangan, untuk mencari kelas yang terlibat dalam melakukan pengujian (Nugroho 2009). Pengguna pada use case merupakan analis atau bukan end user dikarenakan use case diagram ini untuk menggambarkan keterhubungan pembangun model dengan model. Use case diagram pada Gambar use case, menunjukan interaksi analis dengan pemodelan sentiment mining. Fungsi utama use case terdapat pada use case crawling tweet, praproses, reduksi fitur, klasifikasi dan evaluasi model. Berdasarkan gambar use case pada Lampiran 4 setiap use case memiliki kriteria yang berbeda yaitu use case yang bergantung pada proses lain (extends) dan use case yang tidak bergantung pada proses lain (include). Fungsi dari setiap use case dijelaskan pada Tabel 1 dalam Lampiran 4.
Activity Diagram
Diagram ini berhubungan dengan diagram Statechart dan pada dasarnya activity diagram sering digunakan oleh flowchart. Statechart diagram, berfokus pada obyek yang dalam suatu proses (atau proses menjadi suatu obyek), activity diagram berfokus pada aktifitas yang terjadi dalam suatu proses tunggal atau menunjukkan bagaimana aktifitas-aktifitas yang bergantung satu sama lain. Gambar activity diagram pada Lampiran 5 menunjukan bahwa aktifitas crawling data tweet sangat bergantung pada ketersediaan tweet di server Twitter dan koneksi jaringan internet untuk authentifikasi key yang sudah diregistrasi.
Gambar activity diagram klasifikasi pada Lampiran 5 menunjukan bahwa proses klasifikasi tidak akan dapat diproses jika fitur terbaik belum diperoleh melalui pengechekan nilai PC (principal component) dan CM (cummulative variance), dan proses reduksi fitur tidak dapat dilakukan juga sebelum praproses dilakukan. Perhitungan akurasi, precision, dan recall merupakan proses akhir untuk mengetahui kinerja model yang telah dibangun.
Sequence diagram
Sequence diagram menggambarkan hubungan antara objek pada use case dengan mendeskripsikan time line (waktu hidup objek) dan message yang
22
dikirimkan dan diterima antar objek, perancangan sequence diagram praproses digambarkan pada Lampiran 6. Time line praproses data tweet dimulai dengan pembacaan data tweet berupa file.csv setelah data terbaca dan dapat ditampilkan kemudian data diolah mulai dari praproses 2.a yaitu filter data tweet sampai dengan 2.f yaitu pelabelan kelas sentiment berdasarkan pembentukan corpus positif dan negatif yang telah dilakukan pada pembobotan kata.
Component diagram
Diagram yang menggambarkan penerapan software dalam sistem, dari satu ataupun lebih class, file data atau .exe, source code, tabel, yang digambarkan dalam keterhubungan package (fungsi atau elemn logika) dan component (code module yang menjalankan fungsi). Component diagram direpresentasikan pada Lampiran 7, component praproses data dan pemodelan pada penelitian ini terpisah karena software yang diguanakan berbeda, yaitu praproses menggunakan Rstudio versi 3.31 dan pemodelan menggunakan RapidMiner Studio 7.1.
Pemodelan Praproses Data Praproses Crawling Twitter Api's Autentifikasi Reduksi fitur Twitter permintaanTweets pengirimanTweets stopword.txt tweet.txt corpus.txt klasifikasi Evaluasi
Gambar 17 Component diagram
Keterlibatan komponen pada perancangan model klasifikasi sentimen, diantaranya komponen Twitter dan sentiment mining. Model sentiment mining tidak dapat melakukan pengolahan data tweet jika belum ada data tweet dari komponen Twitter, sehingga model sangat bergantung pada crawling yang berasal dari Twitter. Class diagram
Class diagram bersifat statis, menggambarkan hubungan apa yang terjadi bukan apa yang terjadi jika kelas berhubungan, dengan merepresentasikan relasi antar kelas untuk mempermudah pengembangan model dalam tranformasi model menjadi sebuah aplikasi, sebagaimana ditunjukan pada gambar di Lampiran 6. StateChart Diagram
Behaviors dan state dimiliki oleh objek, keadaan dari suatu objek bergantung pada kegiatan dan keadaan yang berlaku pada saat itu. StateChart diagram menunjukan kemungkinan dari keadaan objek dan proses yang
23 menyebabkan perubahan pada keadaannya. Gambar 18 menunjukan state Crawling_Tweets memiliki precondition “data tweet belum ada” dan postcondition
dikatakan “data tweet dikirim” jika autentifikasi key berhasil dan tweet dengan kata
kunci yang diinginkan tersedia, kemudian dataset tweet dapat disimpan dalam file dengan format .csv.
Gambar 18 Statechart diagram model sentiment mining
Model sentiment mining yang dibangun mampu mengolah data tweet yang tidak terstruktur sehingga dapat diperoleh informasi tentang kelas sentimen, mereduksi fitur pada data tweet dan diperoleh 1156 fitur dari 1219 fitur pada kegiatan PIK-Remaja dan 951 fitur dari 1302 fitur pada kegiatan GenRe yang akan digunakan pada proses klasifikasi. Model juga mampu mengkasifikasikan kelas sentimen dengan akurasi yang cukup baik. Berdasarkan hasil pengujian model nilai akurasi lebih dari 70%. Kegiatan dengan akurasi tertinggi adalah model 1 sebesar
Crawling tweets
Praproses tweets
Reduksi fitur
Hasil
evaluasi model Data Training Data Testing
Simpan «precondition»
{data tweets belum ada}
«postcondition» {data tweets dikirim} Input indikator crawling
permintaanTweets Koneksi TwitterAPI autentifikasi key «requirement» kata kunci jumlah tweet range waktu «invariant» {Filter case folding hapus stopword tokenizing & parsing pelabelan kelas pembobotan kata}
«postcondition» {data telah dipraproses}
kelas sentiment c dan y niali akurasi Pemodelan «postcondition» {hasil klasifikasi} pengirimanTweets «postcondition» {data telah direduksi}
Pembagian data
Model 1 : data latih 60% & data uji 40% Model 2 : data latih 70% & data uji 30% Model 3 : data latih 80% & data uji 20% Model 4 : data latih 90% & data uji 10% Presentase akurasi, precision, dan recall «precondition»
{kirim indikator}
«postcondition» {kirim tweet}
«precondition» {konfirmasi isi indikator}
<postcondition>> {cek ketersediaan tweet}
<precondition>> {tweet belum dipraproses}
«precondition» {pembangunan model}
«postcondition» {model terbentuk}
24
88.68 % yang dihasilkan dari data kegiatan GenRe sedangkan pada kegiatan PIK-Remaja sebesar 82.78%. Kelemahan model sentiment mining yang dibangun diantaranya belum menerapkan konversi emoticon dan deteksi bahasa “alay” pada
praproses dan belum mampu mengklasifikasikan sentimen pada setiap kegiatan berdasarkan spasial (wilayah penyebaran kegiatan).
25
5 SIMPULAN DAN SARAN
Simpulan
Model sentiment mining yang dibangun dan dirancang mampu mengektraksi data tekstual menjadi terstruktur sehingga dapat menghasilkan sentimen dan diklasifikasikan untuk mengetahui respon masyarakat terhadap kegiatan pada program pengembangan masyarakat. Berdasarkan data tweet yang di-crawling sebanyak 1000 tweet dari masing-masing kegiatan, setelah dilakukan praproses diperoleh 1219 ditur dan 1302 fitur dan setelah direduksi fitur menjadi 1156 fitur dan 951 fitur. Hasil penelitian menunjukkan jumlah presentase sentimen positif kegiatan GenRe sebesar 39.20% dan PIK-Remaja sebesar 37.90% yang berarti bahwa kegiatan GenRe memiliki respon masyarakat yang lebih baik dari kegiatan PIK-Remaja. Tingkat akurasi yang dihasilkan data tweet dengan reduksi fitur yang tertinggi dimiliki Model 1 dengan 60% data latih dan 40% data uji pada kegiatan GenRe yaitu akurasi sebesar 88.64%, precision sebesar 91.80%, dan recall sebesar 90.18% sedangkan untuk kegiatan PIK-Remaja akurasi terbesar 82.78% diperoleh dari Model 1, precision sebesar 86.81%, dan recall sebesar 85.09% Tingkat akurasi dipengaruhi praproses dan estimasi parameter pada algoritme klasifikasi tetapi tidak dipengaruhi pembagian data latih dan data uji.
Saran
Berdasarkan kelemahan pada penelitian ini, diharapkan untuk penelitian selanjutnya dilakukan pengembangan model dengan menambahkan pendeteksian bahasa “alay” dan konversi emoticon pada praproses, mengklasifikasi tweet berdasarkan kelompok kegiatan secara spasial bukan hanya berdasarkan keseluruhan kegiatan, serta menambahkan media sosial selain Twitter sebagai pembanding untuk mengetahui respon masyarakat terhadap kegiatan program pengembangan masyarakat.
26