1.1 Latar belakang
Dalam beberapa tahun terakhir teknologi informasi dan telekomunikasi ber- kembang dengan pesat. Masyarakat mendapatkan manfaat dari tekonologi informa- si dan telekomunikasi yang terus berkembang dengan pesat ini. Perkembangan ini membuat perilaku masyarakat terus berubah seiring dengan perkembangan teknologi tersebut. Salah satu perubahan perilaku ini ialah perilaku dalam memperoleh beri- ta dari yang membaca dari media konvensional seperti koran, majalah, masyarakat mulai beralih ke media digital.
Jumlah pengguna internet di Indonesia sebesar 82 juta (Kemkominfo, 2014).
Membuat Indonesia menjadi negara kedelapan dengan jumlah pengguna internet ter- banyak. Data dari World Bank menunjukan jumlah masyarakat Indonesia berkisar 249.9 juta jiwa sehingga terdapat 32.8% dari rakyat Indonesia yang menggunakan internet. Menjadikan negara Indonesia potensial untuk melakukan penelitian data miningpada media digitial.
Soelistio et al. (2013) mengatakan bahwa Indonesia merupakan salah satu ne- gara demokrasi terbesar. Hampir tiap hari terdapat berita tentang politik yang memba- has seperti kasus korupsi yang dilakukan politisi ataupun berita tentang pilkada. Me- dia massa memiliki peran penting dalam menyampaikan berita sehingga bisa mem- pengaruhi opini publik.
Sekarang ini media massa makin berkembang dan mulai menyalurkan beri- ta mereka melalui portal berita online yang mereka miliki. Tentunya ini merupak- an salah satu cara yang efektif melihat jumlah pengguna internet di Indonesia yang mencapai 82 juta jiwa. Selain itu dengan menyalurkan berita secara digital membuka kesempatan untuk melakukan text mining untuk mendapatkan pengetahuan tentang pemberitaan entitas politik banyak sentimen negatif atau positif. Dimana entitas poli- tik ini bisa berupa pejabat daerah, anggota DPR, anggota partai politik, partai politik, dan pejabat pemerintahan.
Mulai tahun 2015 ini pergerakan politik di DKI Jakarta semakin tampak di- permukaan. Pergerakan politik tersebut menyambut pemilihan umum kepala daerah Jakarta pada tahun 2017 nanti. Gubernur DKI Jakarta saat ini Basuki Tjahaja Purna-
1
ma (Ahok) menjadi perhatian publik karena sikapnya yang banyak menuai prokontra.
Prokontra tersebut terjadi karena watak dari Ahok. Media massa online menjadi co- rong penguat yang mendorong opini publik terhadap Ahok.
Dalam proses text mining data yang akan digunakan tentunya harus dilakuk- an proses pengolahan agar bisa digunakan. Proses-proses antara lain casefolding, menghilangkan stopwords, menghilangkan tanda baca. Selain itu Bakliwal, Arora, et al. (2012) menekankan juga bahwa pentingnya prapemprosesan. Proses prapemp- rosesan juga dilakukan pada penelitian Aliandu (2013) dengan menggunakan delapan tahap prapemprosesan untuk mendapatkan data yang bersih.
Sudah banyak penelitian yang menggunakan proses preprocessing pada pene- litiannya. Seperti penelitian dari Putranti dan Winarko (2014) yang melakukan prep- rocessing pada data mereka dengan menggunakan cleansing, casefolding, parsing, filter bahasa, dan POS-Tagging. Selain itu juga ada penelitian dari yusufns2011 yang menggunakan preprocessing textitcleansing, casefolding, POS Tagger dan stemming.
Kedua penelitian tersebut menggunakan sumber data yang sama yaitu Twitter, meng- gunakan preprocessing yang lumayan banyak merupakan hal yang wajar mengingat data Twitter yang pastinya memiliki banyak noise. Namun preprocessing ini berdam- pak kepada sumber komputasi yang semakin besar yang membuat proses preproces- sing tidak menjadi efisien.
Selain pertimbangan efisiensi, terdapat pertimbangan lainnya seperti belum ada cara yang baku atau tepat untuk preprocessing. Sehingga memunculkan kesem- patan untuk mencari proses preprocessing yang tepat pada teks Twitter data berbahasa Indonesia.
Dari latar belakang yang telah dijelaskan, pada penelitian ini akan dilakukan mencari variasi prapemprosesan terbaik dari variasi yang telah ditentukan pada data berita dari portal berita online berbahasa Indonesia. Selanjutnya hasil prapemproses- an digunakan untuk analisis sentimen menggunakan teknik machine learning dengan menggunakan metode Support Vector Machine (SVM) dan Naive Bayes, kemudian dibandingkan hasil evaluasi dari variasi-variasi prapemprosesan dan dari dua meto- de SVM dan Naive Bayes. Setelah didapatkan variasi prapemprosesan dan metode terbaik dilanjutkan dengan membuat visualisasi dari analisis sentimen dalam bentuk website.
1.2 Rumusan masalah
Berdasarkan latar belakang yang telah diuraikan sebelumnnya, dirumuskanlah permasalahan sebagai berikut :
1. Dari variasi prapemprosesan yang telah ditentukan, Variasi prapemprosesan apa yang menghasilkan nilai uji terbaik untuk menjadi masukan data training dan testing pada proses klasifikasi analisis sentimen?
2. Bagaimana menerapkan algoritma machine learning yang terdiri dari Support Vector Machinedan Naive Bayes untuk melakukan klasifikasi sentimen?
1.3 Batasan masalah
Pada penelitian ini, penulis membatasi ruang lingkup penelitian agar dapat memnghasilkan penelitian yang lebih fokus dan terarah. Sehingga menghasilkan pe- nelitian yang bermanfaat bagi akademis dan masyarakat. Ruang lingkup permasalah- an akan dibatasi seperti berikut :
1. Sumber berita yang digunakan ialah berita yang menggunakan bahasa Indone- sia yang berasal dari detik.com dan kompas.com mulai dari awal Januari 2015 hingga akhir desember 2015.
2. Penelitian ini akan menggunakan Gubernur DKI Jakarta pada masa sekarang yaitu Ahok sebagai domain tokoh politik yang dipakai.
3. Proses praproses yang digunakan antara lain cleansing, casefolding, eliminasi KBBI, stemming, dan POS tagging.
4. Klasifikasi sentimen dibagi menjadi dua kelas yaitu positif dan negatif.
5. Proses klasifikasi dilakukan pada level kalimat.
6. Aplikasi yang dihasilkan berbentuk website yang menampilkan visualisasi gra- fik analisis sentimen tentang Ahok.
1.4 Tujuan penelitian
Tujuan dari penelitian ini adalah mencari variasi prapemprosesan dan model klasifikasi terbaik untuk analisis sentimen pada kasus Gubernur DKI Jakarta seka- rang, Basuki T Purnama atau biasa disebut Ahok.
1.5 Manfaat penelitian
Dengan adanya penelitian ini diharapkan dapat memberikan manfaat sebagai berikut :
1. Memberikan rekomendasi bagi akademisi dan industri proses prapemprosesan dan algortima yang lebih baik digunakan untuk analisis sentimen.
2. Menjadi referensi masyarakat untuk melihat analisis sentimen Gubernur DKI Jakarta, Ahok pada media massa online.
3. Menjadi kontribusi pada penelitian dibidang text mining dan natural language processingdalam Bahasa Indonesia.
4. Memberikan kontribusi berupa data untuk penelitian selanjutnya.
1.6 Metodologi Penelitian
Penelitian yang dilakukan akan dibagi dalam beberapa tahapan yang sistema- tis. Tahapan tersebut ialah :
1. Studi Literatur
Studi literatur dilakukan untuk mengetahui penelitian dan perkembangan ter- kini dari penelitian yang akan dilakukan oleh penulis. Pada tahap ini peneliti mencari referensi yang terkait dengan text preprocessing dan analisis sentimen pada tokoh politik.
2. Pengumpulan Data
Pengumpulan data dilakukan dengan mengambil data dari portal berita online kompas.com dan detik.com. Berita yang diambil adalah berita yang berkaitan dengan Ahok. Sehingga untuk mendapatkan berita tersebut menggunakan fitur pencarian yang telah disediakan oleh kompas.com dan detik.com.
3. Analisis dan Perancangan Sistem
Analisis dan perancangan sistem peneliti akan melakukan analisis terhadap pe- ngujian variasi prapemprosesan yang akan digunakan, selain itu juga terdapat analisis sistem yang akan dibangun. Setelah dilakukan analisis dilanjutkan de- ngan perancangan sistem yang akan dibangun, usecase diagram, database yang akan digunakan, dan tampilan antarmuka.
4. Implementasi Sistem
Pada tahap implementasi dilakukan dengan mengikuti rancangan sistem yang telah dibuat. Sistem akan dibangun dengan basis web yang menggunakan ba- hasa pemprograman python dan python pada sisi server dan pada sisi client menggunakan html dan javascript.
5. Pengujian
Pengujian dilakukan pada variasi prapemprosesan dan sistem yang dibangun.
Proses pengujian pada variasi prapemprosesan menggunakan teknik pengujian 5-Cross Fold Validationdengan nilai evaluasi yang digunakan recall, precision dan f-measure. Setelah pengujian variasi prapemprosesan, dilanjutkan dengan pengujian sistem yang dibuat, pengujian dilakukan dengan mencoba menggu- nakan sistem untuk melihat jika semua fungsi pada sistem berjalan sesuai de- ngan fungsinya.
6. Penulisan Laporan
Pada tahap penulisan laporan, hasil dari pengujian variasi prapemprosesan dan implementasi sistem pada penelitian akan ditulis pada laporan. Dalam tahapan ini juga termasuk penyusunan laporan, mengumpulkan hasil, serta pengambilan kesimpulan dan saran.
1.7 Sistematika Penulisan 1. BAB 1 : PENDAHULUAN
Pada bab ini berisi tentang latar belakang penelitian, rumusan masalah, batas- an masalah, tujuan, manfaat, serta metodologi penelitian dari penelitian yang dilakukan.
2. BAB 2 : TINJAUAN PUSTAKA
Pada bab ini berisi mengenai penelitian-penelitian sebelumnya yang telah dila- kukan yang terkait dengan penelitian yang penulis lakukan.
3. BAB 3 : LANDASAN TEORI
Pada bab ini berisi tentang penjabaran teori yang dipakai.
4. BAB 4 : ANALISIS DAN PERANCANGAN SISTEM
Pada bab ini berisi tentang analisis sistem yang akan dibangun dan rancangan antarmuka.
5. BAB 5 : IMPLEMENTASI
Pada bab ini berisi mengenai implementasi rancangan sistem sentimen analisis yang diberni nama “Electra”.
6. BAB 6 : PEMBAHASAN DAN PENGUJIAN
Pada bab ini berisi mengenai pengujian classifier yang dibuat dan pembahasan sistem yang telah dibuat.
7. BAB 7 : PENUTUP
Pada bab ini berisi tentang kesimpulan dari penelitian yang telah dilakukan.
Selain itu juga disertakan juga saran untuk penelitian selanjutnya.