SKRIPSI
PENERAPAN ALGORITMA NAÏVE BAYES DALAM ANALISIS SENTIMEN OPINI MASYARAKAT TERHADAP
PEMINDAHAN IBU KOTA NEGARA INDONESIA TAHUN 2024 PADA MEDIA SOSIAL TWITTER
ARA WIDHI ASTUTIK NIM : 195610007
PROGRAM STUDI SISTEM INFORMASI FAKULTAS TEKNOLOGI INFORMASI
UNIVERSITAS TEKNOLOGI DIGITAL INFORMASI YOGYAKARTA
2023
ii
SKRIPSI
PENERAPAN ALGORITMA NAÏVE BAYES DALAM ANALISIS SENTIMEN OPINI MASYARAKAT TERHADAP
PEMINDAHAN IBU KOTA NEGARA INDONESIA TAHUN 2024 PADA MEDIA SOSIAL TWITTER
Diajukan sebagai salah satu syarat untuk menyelesaikan studi Program Sarjana
Program Studi Sistem Informasi Fakultas Teknologi Informasi Universitas Teknologi Digital Indonesia
Yogyakarta
Disusun Oleh ARA WIDHI ASTUTIK
195610007
PROGRAM STUDI SISTEM INFORMASI PROGRAM SARJANA
FAKULTAS TEKNOLOGI INFORMASI
UNIVERSITAS TEKNOLOGI DIGITAL INDONESIA YOGYAKARTA
2023
vi
HALAMAN PERSEMBAHAN
Puji syukur saya panjatkan ke hadirat Tuhan Yang Maha Esa. Atas karunia-Nya, akhirnya saya dimampukan untuk menyelesaikan skripsi ini hingga akhir. Skripsi ini saya persembahkan kepada :
1. Kedua orang tua, yang berperan penting dalam pendidikan hingga pada tahap perguruan tinggi ini. Terimakasih karena selalu ada dan memberikan motivasi serta senantiasa mendoakan di setiap proses kehidupan yang saya jalani.
2. Adik, Arya Sandy Yudha. Terimakasih telah hadir dalam keluarga , yang selalu memberikan keceriaan dan senantiasa mau mendengarkan setiap cerita.
3. Teman-teman, baik teman dekat sedari SMA, teman main di kelas Sistem Informasi II, maupun yang tergabung dalam grup Cimory, Ultramen dan WAMADIKA serta teman-teman lain yang tidak bisa disebutkan satu per satu. Semoga skripsi ini dapat menjadi pengingat atas setiap perjuangan yang pernah dilakukan bersama, baik di dalam maupun di luar perkuliahan.
4. Rekan-rekan pada instansi BAPPEDA divisi Perencanaan, terimakasih untuk waktu 2 bulan yang mengesankan. Banyak pengalaman yang didapat semoga menjadi bekal pada dunia kerja di kemudian hari.
5. NDX.AKA, Guyon Waton dan Ndarboy. Terimakasih karena telah mewarnai hari-hari yang suram dalam proses penyusunan skripsi ini lewat karya lagu.
vii
HALAMAN MOTTO
“Jangan biarkan pendapat orang lain menjadi kenyataanmu.”(Startup, 2020)
“Hidup ini terus berputar, pegangan yang erat biar tidak jatuh.” (Agantha,2022)
viii
KATA PENGANTAR
Segala puji syukur selalu terpanjatkan kehadirat Tuhan Yang Maha Esa, karena atas berkat rahmat dan kuasa-Nya, sehingga penulis dapat menyelesaikan penelitian ini sebagai tugas akhir dalam menempuh pendidikan Strata Satu (1) Program Studi Sistem Informasi di Universitas Teknologi Digital Indonesia, Yogyakarta.
Penelitian dan penyusunan skripsi ini dapat terlaksana dengan baik, tentunya tidak lepas dari bantuan dan dukungan yang diberikan berbagai pihak, sehingga pada kesempatan ini, penulis ingin menyampaikan banyak terimakasih yang sebesar-besarnya kepada :
1. Bapak Ir. Totok Suprawoto, M.M., M.T. selaku Rektor Universitas Teknologi Digital Indonesia.
2. Ibu Pulut Suryati, S.Kom., M.Cs. selaku Ketua Program Studi Sistem Informasi, sekaligus narasumber dan penguji yang telah memberikan kritik dan saran yang membangun.
3. Ibu Sumiyatun, S.Kom., M.Cs. selaku dosen pembimbing skripsi, terimakasih karena selalu ada dan sabar dalam menuntun serta memberikan masukan kepada penulis dari awal hingga akhir penyusunan naskah penelitian.
4. Bapak Danny Kriestanto, S.Kom., M.Eng. selaku narasumber dan penguji yang juga telah memberikan kritik dan saran yang membangun pada hasil penelitian ini.
x
DAFTAR ISI
HALAMAN JUDUL ... ii
HALAMAN PERSETUJUAN ... iii
HALAMAN PENGESAHAN ... iv
PERNYATAAN KEASLIAN SKRIPSI ... v
HALAMAN PERSEMBAHAN ... vi
HALAMAN MOTTO ... vii
KATA PENGANTAR ... viii
DAFTAR ISI ... x
DAFTAR GAMBAR ... xiii
DAFTAR TABEL ... xiv
INTISARI ... xv
ABSTRACT ... xvi
BAB I PENDAHULUAN ... 1
1.1 Latar Belakang ... 1
1.2 Rumusan Masalah ... 6
1.3 Ruang Lingkup ... 6
1.4 Tujuan Penelitian ... 7
1.5 Manfaat Penelitian ... 8
1.6 Sistematika Penulisan ... 8
BAB II TINJAUAN PUSTAKA DAN DASAR TEORI ... 10
2.1 Tinjauan Pustaka ... 10
2.2.1 IKN (Ibu Kota Nusantara) ... 15
2.2.2 Media Sosial ... 17
2.2.3 Twitter ... 18
2.2.4 Python ... 19
2.2.5 Crawling Data ... 19
2.2.6 Analisis Sentimen ... 20
2.2.7 Text Mining ... 22
2.2.8 Naïve Bayes Classifier ... 25
2.2.9 SMOTE (Synthetic Minority Over-Sampling Technique) ... 28
2.2.10 Pengukuran Kualitas Klasifikasi ... 29
xi
2.2.11 Jupyter Notebook ... 32
2.2.12 WEKA (Waikato Environment for Knowledge Analysis) ... 34
BAB III METODE PENELITIAN... 37
3.1 Data ... 37
3.1.1 Data Komentar ... 37
3.1.2 Data Stopwords ... 37
3.2 Analisis Kebutuhan ... 38
3.2.1 Kebutuhan Input ... 38
3.2.2 Kebutuhan Proses ... 38
3.2.3 Kebutuhan Output ... 39
3.2.4 Perangkat Lunak (Software) ... 39
3.2.5 Perangkat Keras (Hardware) ... 40
3.2.6 Prosedur Kinerja dan Pengumpulan Data ... 41
3.3 Alur Penelitian ... 41
BAB IV IMPLEMENTASI DAN PEMBAHASAN ... 49
4.1 Implementasi ... 49
4.2 Pengambilan Data ... 49
4.3 Preprocessing Data ... 51
4.4 Pemilihan Fitur (Fitur Selection)... 59
4.5 Pembobotan Kata (Term Weighting) ... 60
4.5.1 Menghitung Nilai TF (Term Frequency) Secara Manual ... 61
4.5.2 Menghitung Nilai IDF (Inverse Document Frequency) Secara Manual ... 61
4.5.3 Menghitung Nilai TF (Term Frequency) pada Python ... 62
4.5.4 Representase Hasil Klasifikasi ... 66
4.6 Penerapan Metode SMOTE (Synthetic Minority Over-Sampling Technique) ... 72
4.7 Klasifikasi Naïve Bayes ... 73
4.7.1 Pengujian Confusion Matrix ... 76
4.8 Pembahasan ... 78
4.8.1 Analisis Sentimen ... 78
4.9 Evaluasi Klasifikasi ... 79
BAB V PENUTUP ... 82
4.1 Kesimpulan ... 82
4.2 Saran ... 83
xii
DAFTAR PUSTAKA ... 84 LAMPIRAN ... 88
xiii
DAFTAR GAMBAR
Gambar 2. 1 Preprocessing ... 22
Gambar 3. 1 Kebutuhan proses analisis ... 39
Gambar 3. 2 Alur penelitian ... 42
Gambar 3. 3 Data tidak seimbang ... 47
Gambar 4. 1 Source code crawling data Twitter ... 49
Gambar 4. 2 File dataset komentar csv ... 50
Gambar 4. 3 Source code data cleaning ... 53
Gambar 4. 4 Source Code Hapus Data Duplikat ... 53
Gambar 4. 5 Source code case folding ... 54
Gambar 4. 6 Case Folding Data Komentar pada Jupyter Notebook... 55
Gambar 4. 7 Source code stopwords Indonesia ... 55
Gambar 4. 8 Stopword ... 56
Gambar 4. 9 Source code Stemming ... 57
Gambar 4. 10 Source code tokenizing ... 58
Gambar 4. 11 Tokenizing Data Komentar pada Jupyter Notebook ... 58
Gambar 4. 12 Hasil preprocessing.csv ... 59
Gambar 4. 13 Pemilihan data untuk pembobotan kata (TF-IDF) ... 60
Gambar 4. 14 Source code pengelompokkan sentimen data ... 63
Gambar 4. 15 Source code TF... 63
Gambar 4. 16 Source code Frekuensi Term ... 64
Gambar 4. 17 Dictionary Term ... 64
Gambar 4. 18 Source code IDF... 65
Gambar 4. 19 Source code TF-IDF... 65
Gambar 4. 20 Hasil perhitungan TF-IDF pada python ... 66
Gambar 4. 21 Ranking frekuensi term pada sentimen positif ... 67
Gambar 4. 22 Ranking frekuensi term pada sentimen negatif ... 68
Gambar 4. 23 Ranking frekuensi term pada sentimen netral ... 69
Gambar 4. 24 WordCloud sentimen positif ... 70
Gambar 4. 25 WordCloud sentimen negatif ... 71
Gambar 4. 26 WordCloud sentimen netral ... 72
Gambar 4. 27 Pembagian data latih dan data uji pada WEKA ... 74
Gambar 4. 28 Hasil klasifikasi dataset komentar dengan Data Latih 70% dan 30% Data Uji ... 74
Gambar 4. 29 Hasil klasifikasi dataset komentar dengan Data Latih 80% dan 20% Data Uji ... 75
Gambar 4. 30 Hasil klasifikasi dataset komentar dengan Data Latih 90% dan 10% Data Uji ... 75
Gambar 4. 31 Hasil prediksi yang diklasifikasi WEKA ... 80
xiv
DAFTAR TABEL
Tabel 2. 1 Perbandingan Penelitian ... 14
Tabel 2. 2 Lanjutan Tabel 2.1 ... 15
Tabel 2. 3 Visualisasi Confusion Matrix ... 30
Tabel 3. 1 Daftar Stopwords berbahasa Indonesia ... 38
Tabel 3. 2 Perangkat Lunak Sistem ... 40
Tabel 3. 3 Peranggkat Lunak Aplikasi ... 40
Tabel 3. 4 Perangkat Keras ... 40
Tabel 3. 5 Dataset Komentar ... 43
Tabel 3. 6 Preprocessing berdasarkan aplikasi ... 44
Tabel 4. 1 Normalisasi data komentar... 51
Tabel 4. 2 Daftar Emoji (emoticon) ... 52
Tabel 4. 3 Menghapus tanda baca, , angka, emoticon, retweet, hashtag, username, angka dan link url ... 53
Tabel 4. 4 Mengubah semua huruf menjadi huruf kecil ... 54
Tabel 4. 5 Menghapus stopword ... 56
Tabel 4. 6 Mengubah kata menjadi kata dasar ... 57
Tabel 4. 7 Memisahkan setiap kata komentar ... 58
Tabel 4. 8 Pembobotan kata (TF-IDF) secara manual ... 60
Tabel 4. 9 Daftar Term berdasarkan frekuensi kemunculan paling banyak ... 66
Tabel 4. 10 Over-sampling pada WEKA ... 73
Tabel 4. 11 Ilustrasi pembagian data latih dan data uji setelah Over-sampling .... 73
Tabel 4. 12 Confusion Matrix Data Latih 70% dan 30% Data Uji ... 76
Tabel 4. 13 Confusion Matrix Data Latih 80% dan 20% Data Uji ... 77
Tabel 4. 14 Confusion Matrix Data Latih 90% dan 10% Data Uji ... 78
Tabel 4. 15 Kesalahan Prediksi pada WEKA ... 80
xv
INTISARI
Setiap negara memiliki pusat pemerintahan yang disebut dengan Ibu kota.
Ibu kota berperan penting dalam menjaga pertahanan negara, keberadaan lokasi Ibu kota sebagai pusat pemerintahan sangat diperhatikan, salah satunya adalah berada di tengah wilayah Tanah Air sehingga memenuhi unsur kedekatan geografis. Pada tanggal 26 Agustus tahun 2019, Presiden Joko Widodo secara resmi mengumumkan lokasi calon Ibu Kota baru Indonesia, bertempat di Kabupaten Kutai Kartanegara, Penajam Paser Utara (PPU), Kalimantan Timur.
Ibu Kota baru Negara Indonesia bernama Ibu Kota Nusantara (IKN). Penelitian ini menganalisis sentimen mengenai opini masyarakat terhadap pemindahan Ibu kota pada media sosial Twitter, pengambilan data komentar dilakukan dengan crawling data dan menggunakan metode Naïve Bayes Classifier sebagai klasifikasi sentimen.
Sentimen masyarakat terhadap Pemindahan Ibu Kota Negara Indonesia Tahun 2024 hingga saat ini cenderung positif , dengan tingkat True Positive 100% dan kata (term) yang paling sering muncul adalah “negara” dengan frekuensi sebanyak 51, 671750 kata , disusul oleh term “indonesia”, “jokowi”,
“kalimantan” dan “rencana”. Kata (term) inilah yang paling sering diulas oleh masyarakat Twitter dalam menyampaikan pendapatnya pada cuitan Twitter.
Tingkat akurasi tertinggi yang didapatkan dalam penelitian ini yaitu pada percobaan pertama menggunakan data latih 70% dan 30% data uji yang menghasilkan tingkat akurasi sebesar 82% dengan nilai Precision 66,53% , Recall 100%, dan F-Measure sebesar 79,86%. Algoritma Naïve Bayes Classifier dalam penelitian ini dapat di klasifikasikan dengan baik dan mampu memberikan hasil dengan tingkat akurasi tertinggi.
Kata kunci : Analisis sentimen, IKN, Naïve Bayes Classifier, Twitter
xvi
ABSTRACT
Each country has a center of government called the capital. The capital city plays an important role in maintaining national defense, the location of the capital city as the center of government is of great concern, one of which is being in the middle of the country's territory so that it fulfills the element of geographical proximity. On August 26 2019, President Joko Widodo officially announced the location of the candidate for Indonesia's new capital city, to be located in Kutai Kartanegara Regency, Penajam Paser Utara (PPU), East Kalimantan. The new capital of the State of Indonesia is named the Capital of the Archipelago (IKN).This study analyzes sentiment regarding public opinion regarding the relocation of the capital city on social media Twitter, comment data collection is carried out by crawling data and using the Naïve Bayes Classifier method as a sentiment classification.
Public sentiment towards the Relocation of the State Capital of Indonesia in 2024 to date tends to be positive, with a True Positive level of 100% and the word (Term) that appears most often is "country" with a frequency of 51, 671750 words, followed by the term "Indonesia", "jokowi", "Kalimantan" and "plan".
This word (term) is most often reviewed by the Twitter community in expressing their opinions on Twitter tweets.
The highest level of accuracy obtained in this study was in the first experiment using 70% training data and 30% test data which resulted in an accuracy rate of 82% with a value Precision 66.53%, Recall 100%, and F- Measure of 79.86%. The Naïve Bayes Classifier algorithm in this study can be classified properly and is able to provide results with the highest level of accuracy.
Keyword : Sentiment analysis, IKN, Naïve Bayes Classifier, Twitter