• Tidak ada hasil yang ditemukan

KLASIFIKASI SENTIMENT ANALYSIS TERHADAP GUBERNUR JAWA BARAT PERIODE 2018 DENGAN MENGGUNAKAN NAIVE BAYES CLASSIFICATION

N/A
N/A
Protected

Academic year: 2022

Membagikan "KLASIFIKASI SENTIMENT ANALYSIS TERHADAP GUBERNUR JAWA BARAT PERIODE 2018 DENGAN MENGGUNAKAN NAIVE BAYES CLASSIFICATION"

Copied!
79
0
0

Teks penuh

(1)

KLASIFIKASI SENTIMENT

ANALYSIS TERHADAP GUBERNUR JAWA BARAT PERIODE 2018 DENGAN MENGGUNAKAN NAIVE

BAYES CLASSIFICATION

SKRIPSI

Oleh:

ERLAN EKA PRASETYO 311410679

TEKNIK INFORMATIKA

SEKOLAH TINGGI TEKNOLOGI PELITA BANGSA BEKASI

2018

(2)

KLASIFIKASI SENTIMENT

ANALYSIS TERHADAP GUBERNUR JAWA BARAT PERIODE 2018 DENGAN MENGGUNAKAN NAIVE

BAYES CLASSIFICATION

SKRIPSI

Diajukan Sebagai Salah Satu Syarat Untuk Menyelesaikan Program Strata Satu (S1) pada Program Studi Teknik Informatika

Oleh:

ERLAN EKA PRASETYO 311410679

TEKNIK INFORMATIKA

SEKOLAH TINGGI TEKNOLOGI PELITA BANGSA BEKASI

2018

(3)
(4)
(5)
(6)

KATA PENGANTAR

Puji syukur penulis panjatkan ke hadiran Allah SWT. yang telah melimpahkan segala rahmat dan hidayah-Nya, sehingga tersusunlah Skripsi yang berjudul “KLASIFIKASI SENTIMENT ANALYSIS TERHADAP GUBERNUR JAWA BARAT PERIODE 2018 DENGAN MENGGUNAKAN NAIVE BAYES CLASSIFICATION”.

Skripsi tersusun dalam rangka melengkapi salah satu persyaratan dalam rangka menempuh ujian akhir untuk memperoleh gelar Sarjana Komputer (S.Kom.) pada Program Studi Teknik Informatika di Sekolah Tinggi Teknologi Pelita Bangsa.

Penulis sungguh sangat menyadari, bahwa penulisan Skripsi ini tidak akan terwujud tanpa adanya dukungan dan bantuan dari berbagai pihak. Sudah selayaknya, dalam kesempatan ini penulis menghaturkan penghargaan dan ucapan terima kasih yang sebesar-besarnya kepada:

a. Bapak Dr. Ir. Suprianto, M.P selaku Ketua STT Pelita Bangsa

b. Bapak Aswan S. Sunge, S.E., M.Kom selaku Ketua Program Studi Teknik Informatika STT Pelita Bangsa.

c. Bapak Elkin Rilvani, S.Kom, M.M selaku Pembimbing Utama yang telah banyak memberikan arahan dan bimbingan kepada penulis dalam penyusunan Skripsi ini.

d. Bapak Ir. Tri Ngudi Wiyatno selaku Pembimbing Kedua yang juga telah memberikan arahan dan bimbingan kepada penulis dalam penyusunan Skripsi ini.

e. Seluruh Dosen STT Pelita Bangsa yang telah membekali penulis dengan wawasan dan ilmu di bidang teknik informatika.

f. Seluruh staf STT Pelita Bangsa yang telah memberikan pelayanan terbaiknya kepada penulis selama perjalanan studi jenjang Strata 1.

g. Rekan-rekan mahasiswa STT Pelita Bangsa, khususnya angkatan 2014, yang telah banyak memberikan inspirasi dan semangat kepada penulis untuk dapat menyelesaikan studi jenjang Strata 1.

(7)
(8)

DAFTAR ISI

Halaman

LEMBAR PERSETUJUAN ... i

LEMBAR PENGESAHAN ... ii

LEMBAR PERNYATAAN ... iii

KATA PENGANTAR ... iv

DAFTAR ISI ... vi

DAFTAR TABEL ... x

DAFTAR GAMBAR ... xi

ABSTRACT ... xii

ABSTRAK ... xiv

BAB I PENDAHULUAN 1.1 Latar Belakang ... 1

1.2 Identifikasi Masalah ... 3

1.3 Batasan Masalah ... 4

1.4 Rumusan Masalah ... 4

1.5 Tujuan Penelitian ... 5

1.6 Manfaat Penelitian ... 5

1.7 Sistematika Penulisan ... 6

(9)

BAB II LANDASAN TEORI

2.1 Kajian Pustaka ... 8

2.2 Dasar Teori ... 8

2.2.1 Text Mining ... 10

2.2.2 Text Preprocessing ... 13

2.2.2.1 Convert Emoticon ... 15

2.2.2.2 Cleansing ... 16

2.2.2.3 Case Folding ... 17

2.2.2.4 Tokenize ... 17

2.2.2.5 Filtering (Stopword Removal) ... 18

2.2.2.6 Stemming ... 19

2.2.3 Sosial Media ... 20

2.2.4 Application Programming Interface (API) ... 21

2.2.5 Sentiment Analysis ... 21

2.2.6 Naive Bayes Classifier ... 22

2.2.7 Measuring Performance ... 24

2.2.8 Preference Value ... 25

2.2.9 Pemrograman R ... 25

2.2.10 Rapid Miner ... 26

2.2.11 Kerangka Berfikir ... 28

BAB III METODE PENELITIAN 3.1 Objek Penelitian ... 31

3.2 Metode Penelitian ... 31

(10)

3.3 Metode Pengumpulan Data ... 32

3.4 Teknik Analsis Data ... 32

3.5 Metode yang Diusulkan ... 33

3.5.1 Pengumpulan Data ... 35

3.5.2 Preprocessing ... 37

3.5.2.1 Convert Emoticon ... 38

3.5.2.2 Cleansing ... 38

3.5.2.3 Case Folding ... 39

3.5.2.4 Tokenize ... 40

3.5.2.5 Stopword Removal ... 40

3.5.2.6 Stemming... 41

3.5.3 Klasifikasi ... 43

3.5.3.1 Naive Bayes Classification ... 44

3.6 Pendukung Penelitian ... 45

3.6.1 Hardware ... 45

3.6.2 Software ... 45

3.7 Jadwal Penelitian ... 46

BAB IV HASIL DAN PEMBAHASAN 4.1 Klasifikasi Data Dengan Naive Bayes Classifier ... 48

4.1.1 Penentuan Data ... 48

4.1.3 Klasifikasi Data Training Kelas Positif ... 48

4.1.4 Klasifikasi Data Training Kelas Negatif... 52

4.1.5 Hasil Klasifikasi ... 54

4.2 Skenario Pengujian dan Implementasi ... 54

(11)

4.2.1 Seleksi Data Fitur Persentase 25% ... 56

4.2.2 Seleksi Data Fitur Persentase 50% ... 56

4.2.3 Seleksi Data Fitur Persentase 75% ... 57

4.2.4 Seleksi Data Fitur Persentase 100% ... 56

4.3 Analisis Pengujian Akurasi ... 58

4.4 Preference Value ... 59

BAB V KESIMPULAN 5.1 Kesimpulan ... 60

5.2 Saran ... 60 DAFTAR PUSTAKA

LAMPIRAN

(12)

DAFTAR TABEL

Halaman

Tabel 2.1 Penelitian Sebelumnya ... 9

Tabel 2.2 Convert Emoticon ... 16

Tabel 3.3 Convert Emoticon ... 38

Tabel 3.4 Proses Case Folding ... 39

Tabel 3.5 Proses Tokenize ... 40

Tabel 3.6 Stopword Removal ... 41

Tabel 3.7 Stemming ... 42

Tabel 3.8 Spesifikasi Hardware ... 45

Tabel 3.9 Spesifikasi Software ... 45

Tabel 3.10 Jadwal Penelitian ... 46

Tabel 4.1 Kelas Negatif ... 48

Tabel 4.2 Kelas Positif ... 49

Tabel 4.3 Sample Data P(A|Sample) ... 49

Tabel 4.4 Probabilitas kelas Positif ... 51

Tabel 4.5 Total probabilitas kelas positif ... 51

Tabel 4.6 Sample Data P(A|Sample) ... 52

Tabel 4.7 Probabilitas kelas negatif ... 53

Tabel 4.8 Total probabilitas kelas negatif ... 53

Tabel 4.9 Sentiment Class Prediction ... 51

Tabel 4.10 Analisis Pengujian Aplikasi ... 58

(13)

DAFTAR GAMBAR

Halaman

Gambar 2.1 Tujuh area praktek text mining ... 12

Gambar 2.2 Text Preprocessing Process ... 15

Gambar 2.3 Proses Cleaning Data ... 16

Gambar 2.4 Proses Case Folding ... 17

Gambar 2.5 Proses Tokenize ... 18

Gambar 2.6 Proses Filtering ... 18

Gambar 2.7 Proses Semming ... 20

Gambar 2.8 Konsep Application Programming ... 21

Gambar 2.9 Rumus Classification Naive Bayes ... 23

Gambar 2.10 Kerangka Berfikir ... 29

Gambar 3.1 Skema Penelitian ... 34

Gambar 3.2 Data Utuh ... 37

Gambar 3.3 Data Tweets ... 37

Gambar 3.4 Proses Preprocessing Data ... 38

Gambar 3.5 Proses Cleansing ... 39

Gambar 3.6 Flowchart NBC ... 45

Gambar 4.1 Proses Implementasi ... 55

Gambar 4.2 Proses Preprocessing ... 55

Gambar 4.3 Proses Klasifikasi ... 56

Gambar 4.4 Persentase 25% ... 56

(14)

Gambar 4.4 Persentase 25%...56

Gambar 4.5 Persentase 50% ...57

Gambar 4.6 Persentase 75% …...57

Gambar 4.7 Persentase 100% ...58

(15)

ABSTRACT

The Governor is a regional leader who is in charge of leading a province in Indonesia. One of the functions of the governor is to disseminate information, communicate policies, work plans and performance achievements to the wider community, through traditional media, conventional media, and internet media. In this case the governor of West Java needs input from the community, both input to support the policy and input to oppose the policy and public sentiment responses to find out the current image of the governor in West Java. The sentiment obtained from the community is not only positive but also negative. The sentiment used in this study was tweets from the public and was drawn from twitter and carried out preprocessing data in order to obtain more accurate data and connect with the current governor of West Java 2018 period. In this study the author analyzes the sentiment of the community using the Naive Bayes Classification (NBC) method. NBC was used to get the classification of positive and negative responses from the public and obtain preference value from the community towards the West Java governor in 2018. The results of the data percentage method were 25%, 50%, 75% and 100% of the data from training data produced an accuracy of 79.29%, 83.08%, 83.08%, 84.38% and for the results of testing the positive response of the people on Twitter with a preference value of 74%. Thus the sentiment classification using the naive bayes classification method can be used to measure the public response to the performance of the west java governor for the 2018 period

Keyword: Twitter, Text Mining, Text Preprocessing, Naive Bayes Classification, Cross Validation, Analysis Sentiment, Preference Value

(16)

ABSTRAK

Gubernur merupakan pemimpin daerah yang bertugas dalam memimpin suatu wilayah daerah provinsi di Indonesia. Salah satu fungsi tugas dari gubernur adalah menyebarluaskan informasi, mengkomunikasikan kebijakan, rencana kerja, dan capaian kinerja kepada masyarakat luas, melalui media tradisional, media konvensional, dan media internet. Dalam hal ini gubernur jawa barat membutuhkan masukan dari masyarakat baik itu masukan untuk mendukung kebijakan maupun masukan untuk menentang kebijak tersebut dan tanggapan sentimen masyarakat untuk mengetahui citra gubernur saat ini di jawa barat.

Sentiment yang didapatkan dari masyarakat tidak hanya bersifat positif namun juga bersifat negatif. Sentiment yang digunakan dalam penelitian ini adalah tweet dari masyarakat dan dicrawling dari twitter dan dilakukan preprocessing data guna untuk mendapatkan data yang lebih akurat dan berhubungan dengan gubernur jawa barat periode 2018 saat ini. Pada penelitian kali ini penulis menganalisa sentiment masyarakat dengan metode naive bayes classification (NBC). NBC digunakan untuk mendapatkan klasifikasi respon positif dan negatif masyarakat ditwitter dan mendapatkan nilai preference value dari masyarakat terhadap gubernur jawa barat periode 2018. Hasil pengujian dengan metode persentase data 25%, 50%, 75% dan 100% jumlah data dari data training menghasilkan akurasi sebesar 79,29%, 83,08%, 83,08%, 84,38% dan untuk hasil pengujian respon positif masyarakat di twitter dengan nilai preference value sebesar 74%. Dengan demikian klasifikasi sentimen dengan menggunakan metode naive bayes classification dapat digunakan untuk mengukur respon masyarakat terhadap kinerja dari gubernur jawa barat periode 2018

Kata kunci: Twitter, Text Mining, Text Preprocessing, Naive Bayes Classification, Cross Validation, Analysis Sentiment, Preference Value

(17)

BAB I

PENDAHULUAN

1.1 Latar Belakang

Pemilihan kepala daerah (pilkada) merupakan pemilihan umum untuk memilih kepala daerah dan wakil kepala daerah wilayah tertentu yang dilakukan oleh masyarakat setempat yang memenuhi syarat sebagai pemilih. Gubernur merupakan pemimpin daerah yang bertugas dalam memimpin suatu wilayah daerah provinsi di Indonesia. Salah satu fungsi tugas dari gubernur adalah menyebarluaskan informasi, mengkomunikasikan kebijakan, rencana kerja, dan capaian kinerja kepada masyarakat luas, melalui media tradisional, media konvensional, dan media internet.

Komunikasi dengan menggunakan media internet dapat menjangkau luas dan cepat kepada semua pihak yang saat ini telah dapat dinikmati secara luas.

Masyarakat telah mengalami perubahan pola pikir kearah yang semakin kritis dalam menanggapi kondisi yang ada. Dimana dengan adanya kondisi seperti ini maka kinerja kepala daerah dituntut untuk mampu memenuhi berbagai kebutuhan masyarakat dalam segala aspek. Media sosial merupakan salah satu media yang digunakan masyarakat untuk mengkritik kinerja pemerintah. Media sosial adalah sebuah aplikasi berbasis internet dimana pengguna bisa bertukar pikiran terhadap pengguna lainnya. Media sosial kini marak digunakan karena kemudahan dalam mengakses dan minimnya biaya yang dibutuhkan. Kemudahan akses yang dimiliki bukan hanya karena bisa digunakan dimana saja, namun juga perangkat

(18)

yang kompatibel tersedia sedemikian banyak. Kemampuan media dari media sosial yang bisa menghasilkan komunikasi dua arah adalah salah satu kelebihannya. Selain itu, sifat media sosial yang mampu membangun komunikasi dan menjadi wadah untuk berbagi ide dan informasi, bekerja sama, menemui orang baru, sehingga membuatnya hampir menyerupai interaksi manusia biasa.

Media sosial yang dimaksud pada penelitian ini adalah twitter. “Twitter adalah layanan jejaring sosial dan mikroblog daring yang memungkinkan penggunanya untuk mengirim dan membaca pesan berbasis teks hingga 140 karakter, yang dikenal dengan sebutan tweet (Wikipedia)”. Tweet dapat dilihat secara publik, namun, pengguna dapat membatasi pengiriman status ke daftar teman yang diinginkan. Pengguna juga dapat melihat kicauan pengguna lain, dan

‘#’ biasa disebut hastag berfungsi sebagai topik pembahasan yang akan dibahas (Haewoon Kwak, et.al, 2010).

Sehingga pada penelitian ini akan dilakukan analisis sentimen dengan menganalisis tweet-tweet yang memension kandidat bakal calon gubernur jawa barat yang dilaksanakan pada tanggal 27 Juni 2018. Analisis sentimen merupakan sebuah cabang penelitian di domain text mining dimana proses untuk mengidentifikasi dan mengekstrak data sentimen yang biasanya akan dikategorikan berdasarkan polaritasnya, apakah itu positif, negatif dan netral.

Ketika mendekati pemilihan gubernur, sentimen terhadap kandidat akan mempengaruhi pemenang dalam pemilihan gubernur. Untuk itu penulis tertarik pada bagaimana masyarakat memandang kandidat bakal calon gubernur Jawa Barat tahun 2018.

(19)

Data-data dari opini yang ada di twitter dapat kita olah dengan teknik data mining yaitu klasifikasi. Untuk pengelompokkan sentimen masyarakat penulis membagi 3 indikator yaitu sentimen positif, netral, dan negatif dengan indikator berdasarkan dari tweet yang dilontarkan masyarakat yang berhubungan dengan kandidat. Klasifikasi yang akan dilakukan dalam penelitian ini yaitu klasifikasi sentimen masyarakat menggunakan metode Naïve Bayes Classifier. Setelah mendapatkan sistem classifier, maka akan dilanjutkan dengan pencarian prefrence value. Preference Value dilakukan untuk mengetahui respon positif dari masyarakat terhadap calon gubernur jawa barat 2018 di jejaring sosial twitter.

Pada penelitian terkait sebelumnya yang dilakukan oleh Haga Simada Ginting dan kawan-kawan dihasilkan rata-rata akurasi sebesar 76,56%.

Dari beberapa penjelasan diatas maka penulis akan melakukan penelitian yang berjudul “SENTIMENT ANALYSIS CALON GUBERNUR JAWA BARAT PERIODE 2018 DI TWITTER DENGAN MENGGUNAKAN NAÏVE BAYES CLASSIFIER“.

1.2 Identifikasi Masalah

Dari latar belakang masalah diatas Identifikasi masalah pada penelitian ini adalah:

1. Melakukan Preprocessing Data yang tepat untuk mengklasifikasi sentimen masyarakat terhadap calon gubernur jawa barat 2018.

2. Menganalisis user opinion pada twitter dengan sentiment analysis berdasarkan klasifikasi negatif dan positif menggunakan Naive Bayes Classifier.

(20)

3. Berbagai tanggapan masyarakat khususnya pengguna twitter terhadap calon gubernur jawa barat dalam metode Naïve Bayes membuat menurun nya kinerja dalam perhitungan akurasi.

1.3 Batasan Masalah

Agar penyusunan tugas akhir ini tidak keluar dari pokok permasalahan maka ruang masalah penelitian ini dibatasi pada:

1. Pengklasifikasian sentimen masyarakat di twitter hanya terfokus pada calon gubernur jawa barat periode 2018.

2. Text Preprocessing data hanya meliputi Case Folding, Filtering, Tokenizing, dan Stemming.

3. Penggunaan algoritma Naïve Bayes untuk mengklasifikasi tingkat sentimen masyarakat di twitter.

1.4 Rumusan Masalah

Berdasarkan identifikasi masalah dan batasan masalah diatas maka rumusan masalah yang akan dibahas adalah bagaimana mendapatkan model klasifikasi sentimen masyarakat di twitter pada calon gubernur jawa barat 2018 dan mendapatkan preference value masyarakat pada masing-masing calon gubernur menggunakan Algoritma Naïve Bayes Classifier ?

(21)

1.5 Tujuan Penelitian

Adapun tujuan dalam penelitian ini yang ingin dicapai oleh penulis adalah untuk mengetahui seberapa besar tingkat respon positif masyarakat terhadap gubernur jawa barat periode 2018 di twitter.

1.6 Manfaat Penelitian

Adapun manfaat penelitian ini adalah:

1. Manfaat untuk penulis:

a. Penulis dapat belajar dan meningkatkan pengetahuan tentang Text Mining.

b. Mendapat pengetahuan tentang metode Naïve Bayes Classification atas penelitian yang telah dilakukan.

2. Manfaat Institusi

a. Hasil penelitian ini diharapkan mampu memberi manfaat dan menambah pengetahuan dan sebagai referensi Mahasiswa/Mahasiswi Sekolah Tinggi Teknologi Pelita Bangsa program Studi Teknik Informatika untuk melakukan penelitian selanjutnya.

b. Mengetahui seberapa jauh mahasiswa menerapkan ilmu-ilmu yang bersifat teori sebagai evaluasi terhadap materi yang telah didapatkan.

3. Manfaat bagi Masyarakat

a. Masyarakat dapat mengetahui seberapa besar sentimen publik terhadap bakal calon dan wakil calon gubernur Jawa Barat.

b. Sebagai bahan pertimbangan dalam memilih bakal calon dan wakil calon gubernur Jawa Barat 2018.

(22)

1.7 Sistematika Penulisan

Dalam penyusunan proposal penelitian, untuk mempermudah proses penulisan, pencapaian maksud dan tujuan, maka sistematika penulisan dibagi menjadi empat bab yang masing-masing memiliki kaitan yang jelas. Berikut adalah ringkasan tiap-tiap bab tersebut:

BAB I PENDAHULUAN

Bab ini menjelaskan mengenai masalah yang akan diuraikan tentang latar belakang, batasan masalah, tujuan dan manfaat, waktu dan tempat pelaksanaan, sistematika penulisan.

BAB II LANDASAN TEORI

Bab ini menjelaskan tentang teori-teori yang mendukung penelitian ini, yang akan menjadi dasar dalam pemecahan masalah dan didapat dengan melakukan studi pustaka sebagai landasan dalam melakukan penelitian. Serta perangkat lunak yang mendukung dalam pembuatan aplikasi perangkat lunak.

BAB III METODOLOGI PENELITIAN

Bab ini menjelaskan variabel penelitian, metode pengumpulan data, waktu dan tempat penelitian, dan prosedur analisis data.

BAB IV HASIL DAN PEMBAHASAN

Segala sesuatu yang ada didalam atau di lingkungan sekitar organisasi.

Informasi sendiri mengandung arti data yang telah diolah kedalam suatu bentuk yang lebih memiliki arti dan dapat digunakan untuk pengambilan keputusan. Dara sendiri merupakan fakta-fakta yang ada. Bab ini berisi kesimpulan dari hasil

(23)

penelitian, pengembangan, dan pengujian sistem yang telah dilakukan. Serta pembahasan sistem yang telah dibuat.

BAB V PENUTUP

Pada bab ini berisi kesimpulan dan saran untuk keperluan penerapan maupun pengembangan selanjutnya.

(24)

BAB II

LANDASAN TEORI

2.1 Kajian Pustaka

Pada bab ini menjelaskan tentang tinjauan studi dari beberapa jurnal yang terkait dengan penelitian serupa yang akan dilakukan oleh penulis. Maka pada penelitian ini penulis telah merangkum beberapa penelitian terdahulu yang berkaitan dengan penelitian yang akan penulis lakukan, dengan mengutip beberapa sumber referensi dari jurnal untuk membantu penelitian ini.

Penelitian tentang tokoh publik untuk mendapatkan respon sentimen publik di twitter sudah banyak dilakukan oleh para peneliti sebelumnya. Salah satu algoritma yang sering digunakan untuk melakukan klasifikasi sentiment masyarakat di sosial media twitter salah satunya adalah algoritma Naive Bayes Classification beberapa peneliti juga memberikan usulan penambahan metode Reference Value untuk mendapatkan seberapa banyak respon sentimen positif masyarakat di twitter pada tokoh publik.

Pertama penelitian yang dilakukan terhadap pasangan calon gubernur jawa barat menggunakan metode naive bayes classification dengan menggunakan class sentiment positif, negatif dan netral dan penggunakan perhitungan preference value untuk mendapatkan tingkat sentimen positif masyarakat untuk calon gubernur jawa barat menghasilkan tingkat rata-rata akurasi sebesar 76,56% . (Ginting, Lhaksmana, & Murdiansyah, 2018).

Kedua peneitian yang dilakukan terhadap tokoh politik di twitter menggunakan metode naive bayes classification dengan menggunakan class

(25)

sentimen positif, negativ dan netrak menghasilkan tingkat rata-rata akusrasi tergantung dari banyaknya data training yang digunakan semakin banyak data yang digunakan maka tingkat akurasi akan semakin besar, dari 300 data training menghasilkan akurasi sebesar 61% sedangkan dari 2100 data training menghasilkan data sebesar 91% (Pramono Agung & Rini Indriati, 2017).

Tabel 2.1 Penelitian Sebelumnya

No. Penulis Judul Metode Hasil dan

Kontribusi

Tahun

1. Haga

Simada Ginting, Kemas Muslim Lhaksmana, Danang Triantoro Mardiansyah

Klasifikasi Sentimen Terhadap Bakal Calon Gubernur Jawa Barat

2018 Di

Twitter Menggunakan Naive Bayes Classifier

Metode naive bayes classification dengan menggunakan class

sentiment positif, negatif dan netral dan penggunakan perhitungan preference value untuk mendapatkan tingkat sentimen positif masyarakat untuk calon gubernur jawa barat.

Model sistem klasifikasi sentimen pendapat

masyarakat di twitter terhadap

bakal calon

gubernur Jawa Barat 2018 dengan rata-rata akurasi yang didapatkan sebesar

76,56% .

2018

2. Agung

Pramono,

Sentiment Analysis

Metode Klasisifikasi

Menghasilkan 2017

(26)

Rini Indriati, Arie

Nugroho

Tokoh Politik Pada Twitter

Naive Bayes tingkat akurasi Pada data

training positif 100, negatif 100, netral

100 dan data test 100, nilai akurasi 61%

dan error 39% . Pada data training positif 700, negatif 700 dan netral 700 dengan

menggunakan data test 100

akurasinya 91% dan error 9%.

Dari literatur review diatas dapat disimpulkan bahwa penggunaan metode Naive Bayes Classification masih cukup baik dalam mengklasifikasi tingkat sentimen publik khususnya pada twitter. Penggunaan jumlah data training sangat mempengaruhi rata-rata akurasi dan penambahan Preference Value cukup efektif untuk mengetahui seberapa banyak respon positif masyarakat.

2.2 Dasar Teori 2.2.1 Text Mining

Text Mining atau text analytics adalah istilah yang mendeskripsikan sebuah teknologi yang mampu menganalisis data teks semi-terstruktur maupun tidak terstruktur, hal inilah yang membedakannya dengan data mining dimana

(27)

data mining mengolah daya yang sifatnya tersetruktur. Pada dasarnya. Text mining merupakan bidan interdisiplin yang mengacu pada perolehan informasi (information retrieval), data mining, machine learning, statistik, dan komputasi linguistik (Jiawe, et al, 2012). Teknik text mining merupakan cara yang handal dan efisien untuk mengukur banyaknya aspek digital libraries serta metode untuk mengelompokkan dan mengumpulkan kembali konten-konten digital dalam kaitannya dengan topik konten (Yanchang Zhao. et al, 2014) serta menurut (Vijayarani dan Nithya, 2012) text mining adalah proses mencari atau mengekstrak informasi yang berguna dari data tekstual untuk menemukan pengetahuan dari teks yang tidak terstruktur.

Menurut (Nikita P.Katariya, 2015) text mining adalah proses mengekstraksi informasi, pengetahuan atau pola yang menarik dari teks yang tidak terstruktur yang berasal dari berbagai sumber. Karena teks dalam bentuk tidak terstruktur, cukup sulit untuk pengolahanny. Pekerjaan text mining di kelompokkan menjadi 7 daerah praktek (Minerr, et.al, 2012) yang di ilustrasikan pada gambar. 2.1.

1. Pencarian dan perolehan informasi (search and information retrieval), yaitu penyimpanan dan penggalian dokumen teks misalnya dalam mesin pencarian (search engine) dan pencarian kata kunci (keywords).

2. Pengelompokan dokumen, yaitu penglompokan dan pengkategorian kata, istilah, paragraf, atau dokumen dengan mengunaka metode cluster (clustering) data mining.

3. Klasifikasi dokumen, yaitu pengelompokan dan pengkategorian kata, istilah, paragraf atau dokumen dengan menggunakan metode klasifikasi II-

(28)

3 (classification) data mining berdasasrkan model terlatih yang sudah memiliki label.

4. Web mining, yaitu penggalian informasi dari internet dengan skala fokus yang spesifik.

5. Ekstraksi informasi (information extraction), yaitu mengidentifikasi dan mengekstraksi informasi dari data yang sifatnya semi-terstruktur atau tidak terstruktur dan mengubahnya menjadi data yang terstruktur.

6. Natural language processing (NLP), yaitu pembuatan program yang memiliki kemampuan untuk memahami bahasa manusia.

7. Ekstraksi konsep, yaitu pengelompokan kata atau frase ke dalam kelompok yang mirip secara semantik.

Gambar 2.1 Tujuh area praktek text mining

(29)

(Sumber: Miner, et.al, 2012)

Dari uraian diatas maka dapat penulis simpulkan bahwa text mining adalah pengumpulan dokumen berupa text yang nantinya dokumen tersebut dapat diolah menjadi suatu informasi sesuai dengan tujuan pengelolaan dokumen tersebut.

2.2.2 Text Preprocessing

Preprocessing merupakan proses untuk mempersiapkan data mentah sebelum dilakukan proses lain. Pada umumnya, praproses data dilakukan dengan cara mengeliminasi data yang tidak sesuai atau mengubah data menjadi bentuk yang lebih mudah diproses oleh sistem. Praproses sangat penting dalam melakukan analisis sentimen, terutama untuk media sosial yang sebagian besar berisi kata-kata atau kalimat yang tidak formal dan tidak terstruktur serta memiliki noise yang besar (Siti Mujilahwati, 2016).

Tahap preprocessing diperlukan untuk membersihkan data dari elemen- elemen yang tidak diperlukan dan memproses data yang sebetulnya dibutuhkan dengan tujuan saat masuk pada tahap klasifikasi dengan algoritma tertentu lebih optimal dalam perhitungannya. Ada tiga model praproses untuk kalimat atau teks dengan noise yang besar (A Clark, 2003). tiga model tersebut adalah:

1. Orthographic Model

Model ini dipergunakan untuk memperbaiki kata atau kalimat yang memiliki kesalahan dari segi bentuk kata atau kalimat. Contoh kesalahan yang diperbaiki dengan model orthographic model adalah huruf kapital ditengah kata.

2. Error Model

(30)

Model ini dipergunakan untuk memperbaiki kesalahan dari segi kesalahan eja tau kesalahan penulisan. Ada dua jenis kesalahan yang dikoreksi dengan model ini yaitu kesalahan penulisan dan kesalahan eja. Kesalahan penulisan mengacu pada kesalahan pengetikan sedangkan kesalahan eja muncul ketika penulis tidak tahu ejaannya benar atau salah.

3. White Space Model

Model ketiga ini mengacu pada pengoreksian tanda baca. Contoh kesalahan untuk model ini adalah tidak menggunakan tanda titik ‘.’ di akhir kalimat.

Namun, model ini tidak terlalu signifikan, terutama ketika berhadapan dengan media sosial yang jarang mengindahkan tanda baca.

Adapun tahapan dari text preprocessing yang dilakukan ditampilkan pada gambar berikut.

(31)

Gambar 2.2 Text Preprocessing Process.

2.2.2.1 Convert Emoticon

Emoticon merupakan salah satu cara pengungkapan ekspresi perasaan secara tekstual. Hal tersebut akan membantu dalam menentukan sentimen dalam suatu kalimat tweet (Sentiaji dan Bachtiar, 2014). Setiap emoticon akan dikonversi ke dalam string yang bersesuaian dengan emoticon tersebut, proses ini dinamakan convert emoticon. Pada tabel 2.1 proses convert emoticon akan ditampilkan.

(32)

Tabel 2.2 Convert Emoticon

Emoticon Konversi to String

>:] :-) :) :o) :] :3 :c) :> =] 8) =) :} :^) senang

>:D :-D 8-D 8D x-D xD x-D XD =-D =D =-3 =3 ketawa

>:\ >:/ :-/ :-. :/ :\ =\ =/ :S kesal

>:[ :-( :( :-c :c :-< :< :-[ :[ :{ >.> <.< >.< sedih

2.2.2.2 Cleansing

Cleansing merupakan proses membersihkan kata-kata yang tidak diperlukan untuk mengurangi noise. Kata-kata yang dihilangkan yaitu URL, hashtag (#) dan username (@). Selain itu juga tanda baca seperti titik (.), koma(,) dan tanda baca lainnya akan dihilangkan karena tidak memiliki pengaruh apapun terhadap perhitungan nilai sentimen (Aditia, 2014). Jika terdapat angka, maka akan dihilangkan. Selain itu, jika terdapat spasi lebih dari satu, maka akan diganti menjadi satu spasi. Contoh dari tahap cleansing ditampilkan pada gambar 2.2 berikut.

Gambar 2.3 Proses Cleaning Data

(33)

2.2.2.3 Case Folding

Case Folding adalah proses menyeragamkan bentuk kata-kata tweet menjadi huruf kecil (lowercase) atau huruf kapital (uppercase). Pada penelitian yang penulis teliti ini proses case folding diseragamkan menjadi bentuk hufur kecil (lowercase). Contoh dari tahapan case folding ditampilkan pada gambar 2.3 berikut.

Gambar 2.4 Proses Case Folding 2.2.2.4 Tokenize

Pada proses tokenizing dokumen yang masih berupa kalimat dipecah per kata menjadi beberapa bagian dan secara bersamaan hilangkan semua karakter maupun tanda baca yang ada pada kalimat tersebut, hasil proses inilah yang disebut token (Gaurangi Patil. er,al, 2014).

Tokenizing adalah memisahkan kata pada tweet menjadi kata-kata tunggal.

Pemisahan tersebut ditandai dengan tanda pemisah yaitu spasi (Sentiaji dan

(34)

Bachtiar, 2014). Contoh dari tahap proses tokenize ditampilkan pada gambar berikut.

Gambar 2.5 Proses Tokenize 2.2.2.5 Filtering (Stopword Removal)

Stopword Removal Merupakan proses menghilangkan kata yang tidak mendeksripsikan sesuatu dalam bahasa indonesia seperti

“di”,”ke”,”dari”,”yang”,”sedang”,”ini”, dan lain sebagainya. Didalam text classification, kata seperti “tidak”,”bukan”,”tanpa” biasanya tidak termasuk kedalam kata yang akan dihilangkan. Dalam penerapannya kalimat yang mengandung teks tersebut perlu diubah atau disesuaikan pada proses preprocessing (Arifin dan Ketut, 2012).

Filtering adalah tahap mengambil kata-kata penting dari hasil token. Bisa menggunakan menggunakan algoritma stoplist (membuang kata kurang penting) atau wordlist (menyimpan kata penting). Stoplist atau stopword adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words.

(35)

Pemfilteran biasanya dilakukan pada dokumen untuk dibersihkan beberapa kata yang tidak diperlukan, kata-kata yang sering muncul didalam teks tanpa banyak konten informasi yang tidak memiliki relevansi yang signifikan dan dapat dihapus dari dokumen (Allahyari, 2017). Berikut adalah tampilan gambar dari proses filtering.

Gambar 2.6 Proses Filtering 2.2.2.6 Stemming

Menurut Tala stemming merupakan suatu proses yang mentransformasi kata-kata yang berimbuhan ke kata-kata dasarnya. Proses stemming merupakan proses penghilangan imbuhan yang masih melekat sehingga diperoleh sebuah kata dasar, contohnya: “membaca”,”dibaca”,”dibacakan” akan dikonversikan menjadi kata dasar (stem) “baca”. Proses stemming memiliki 5 aturan (Arifin dan Ketut, 2012) yaitu:

1. Menghilangkan partikel (-lah, -kah, -tah, dan –pun).

(36)

2. Menghilangkan kata ganti kepemilikan (-ku, -mu, dan –nya).

3. Menghilangkan awalan tingkat pertama (meng-, di-, ter-, dan ke-).

4. Menghilangkan awalan tingkat kedua (per-, dan ber-).

5. Menghilangkan akhiran (-i, -kan, dan –an).

Adapun contoh dari proses stemming ditampilkan dalam bentuk gambar sebagai berikut.

Gambar 2.7 Proses Stemming 2.2.3 Sosial Media

Sosial media adalah sebuah media untuk bersosialisasi satu sama lain dan dilakukan secara online yang memungkinkan manusia untuk saling berinteraksi tanpa dibatasi ruang dan waktu. Sosial media menghapus batasan-batasan manusia untuk bersosialisasi, dengan sosial media ini manusia dimungkinkan untuk berkomunikasi satu sama lain dimanapun mereka berada dan kapanpun. Salah satu kegunaan sosial media sendiri ialah sebagai sarana penampung curahan hati pengguna dalam mengungkapkan apa yang sedang mereka rasakan.

(37)

2.2.4 Application Programming Interface (API)

API merupakan sekumpulan sintak yang berisi perintah atau fungsi yang dapat digunakan untuk berinteraksi dengan sistem operasi tertentu atau program pengendalian lainnnya misalnya sistem manajemen database (DBMS). Sebuah API dapat diimplementasikan dengan menulis sintaks dalam program yang menyediakan sarana untuk meminta layanan program tersebut. konsep API adalah antarmuka software-to-software, bukan merupakan sebuah user interface. API memungkinkan sebuah aplikasi berbicara satu sama lain tanpa sepengetahuan pengguna (Musliyana, 2016).

Gambar 2.8 Konsep Application Programming (API) 2.2.5 Semtiment Analysis

Analisis sentimen atau disebut juga opinion mining adalah bidang studi untuk menganalisis pendapat, sentimen, evaluasi, penilaian sikap dan emosi terhadap entitas seperti produk, jasa, organisasi, individu, peristiwa, dan atribut lainnya. Analisis sentimen berfokus kepada opini yang mendeskripsikan sentimen positif atau negatif (Liu, 2012).

Terdapat tiga tahapan umum dalam proses analisis sentimen, yaitu pengambilan data dari sumber data atau yang biasa disebut crawling, selanjutnya

(38)

tahap training dan testing dengan menggunakan algoritma klasifikasi tertentu.

Salah satu algoritma untuk melakukan klasifikasi adalah naive bayes. Sumber data yang digunakan adalah media sosial twitter.

Pada Microblog data seperti twitter, dimana pengguna berinteraksi secara realtime serta memberikan opini tentang apa saja. Memberikan suatu kebaruan serta tantangan yang berbeda. Disebut microblog karena pada situs ini pengguna dapat mengirimkan serta membaca pesak layaknya blog pada umumnya namun hanya terbatas 140 karakter saja yang dapat tampil di halaman profil pengguna.

Twitter memiliki format dan karakteristik cara penulisan yang unik menggunakan simbol maupun aturan khusus. Pesan yang dituliskan pada twitter dikenal dengan sebutan tweet (Novantirani, 2015).

2.2.6 Naive Bayes Classifier

Algoritma yang digunakan untuk melakukan klasifikasi tweet yaitu naive bayes. Naive Bayes Classification (NBC) merupakan sebuah metode klasifikasi yang beradasar pada teorema bayes dengan asumsi independensi yang kuat (N.Hayatin, 2014). Dengan kata lain metode classifier berdasarkan probabilitas dan teorama bayesian dengan asumsi bahwa setiap variabel X bersifat bebas (Independence) (Ghulam Asrofi, 2018). Naive Bayes Classifier (NBC) adalah metode yang digunakan untuk mencari nilai probabilitas tertinggi dalam proses klasifikasi data uji pada ketegori (kelas) yang paling tepat. Dalam penelitian tugas akhir ini, yang menjadi data uji maupun data latih adalah data user dengan fitur- fiturnya. Ada dua tahap dalam NBC untuk proses klasifikasinya, yaitu training dan testing (Amir Hamzah, 2012).

(39)

Naive Bayes Classification terdiri dari dua tahap, tahap pertama yaitu pelatihan terhadap himpunan dokumen contoh (Data Training) dan tahap kedua yaitu proses klasifikasi dokumen yang belum diketahui kategori atau kelasnya.

Secara matematis, naive bayes digambarkan sebagai berikut.

Gambar 2.9 Rumus Naive Bayes Classification Keterangan:

A = sampel data yang label kelasnya tidak diketahui.

B = kelas-kelas hasil klasifikasi.

P(A|B) = probabilitas terjadinya A jika B diketahui. Disebut probabilitas posterior, karena peluang A bergantung dari nilai B tertentu.

P(B|A) = probabilitas terjadinya B jika A diketahui, disebut likelihood function, karena peluang B tergantung dengan peluang data sample A.

P(A) = probabilitas A merupakan probabilitas dari sample yang mempunya kelas A.

P(B) = probabilitas prior B, dan bertindak sebagai normalizing constant.

Secara intuitif , teorema Bayes menggambarkan bahwa perubahan pada “A” dapat diamati apabila “B” terlebih dahulu diamati.

2.2.7 Measuring Performance

Measuring performance merupakan tahapan terakhir dalam klasifikasi teks. Pada tahap ini akan mengevaluasi hasil percobaan, membandingkan dan

(40)

menganalisis terhadap kinerja klasifikasi teks. Banyak cara pengukuran yang telah digunakan, seperti precission dan recall, error, accuracy dan lainnya.

Pengevaluasian hasil klasifikasi dokumen. Pengukuran dan mengevaluasian yang digunakan untuk menghitung 3 metode evaluasi yakni precission, recall, accuracy.

1. Recall

Yaitu perbandingan jumlah dokumen yang relevan terkenali dengan jumlah seluruh dokumen relevan. Recall memiliki rumus sebagai berikut:

𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃 𝐹𝑃 + 𝐹𝑃

2. Precision

Yaitu perbandingan jumlah dokumen yang relevan terkenali dengan jumlah dokumen yang terkenali. Precision memiliki rumus sebagai berikut:

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑃 𝐹𝑃 + 𝐹𝑁

3. Accuracy

Menunjukan kedekatan hasil pengukuran dengan nilai sesungguhnya.

Akurasi memiliki rumus sebagai berikut:

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝑃 + 𝐹𝑁

𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁

(41)

2.2.8 Preference Value

Preverence value adalah penilaian untuk mengetahui jumlah respon positif pengguna twitter. Dalam tugas akhir ini hasil dari preference value dari bakal calon gubernur jawa barat untuk mengetahui seberapa besar tingkat positif sentimen masyarakat di twitter. Preference value memiliki rumus sebagai berikut:

𝑷𝒓𝒆𝒇𝒆𝒓𝒆𝒏𝒄𝒆 𝑽𝒂𝒍𝒖𝒆 = 𝑷𝒐𝒔𝒊𝒕𝒊𝒇

𝑷𝒐𝒔𝒊𝒕𝒊𝒇 + 𝑵𝒆𝒈𝒂𝒕𝒊𝒇∗ 𝑨𝒄𝒄𝒖𝒓𝒂𝒄𝒚 2.2.9 Pemrograman R

Pemrograman R adalah bahasa pemrograman untuk lingkungan komputasi statistik dan grafik. R merupakan salah satu proyek GNU yang mirip dengan bahasa S yang dikembangkan di Bell Laboratories (Sebelumnya AT&T, sekarang Lucent Technologies) pada tahun 1960-an oleh John Cambers dan kawa-kawan. R dapat dianggap sebagai implementasi yang berbeda dari S. R menyediakan fungsi perhitungan statistik (linear dan non-linear modeling, uji coba statistik klasik.

Analisis yang bersifat time-series, klasifikasi clustering, dan lain sebagainya) dan teknik grafis yang sangat extensible (Everit dan Hothorn, 2010)

Software R sangat cocok untuk kegiatan riset, baik itu statistik, ekonomi, komputasi numerik dan pemrograman komputer. Karena didukung oleh banyak tenaga ahli dibidangnya. R layak dijadikan suatu perangkat lunak acuan oleh berbagai kalangan, terlebih dikalangan akademik. Selain itu R memiliki fitur yang lengkap dan handal. Berikut adalah kelebihan dan fitur-fitur pemrograman R.

1. Efektif dalam pengolahan data dan fasilitas penyimpanan. Ukuran file yang disimpan jauh lebih kecil dibandingkan dengan software yang lain.

(42)

2. Lengkap dalam operator perhitungan array.

3. Lengkap dan terdiri dari koleksi tools statistik yang terintegrasi untuk melakukan analisis data, dimulai dari statistik deskriptif, fungsi probabilitas, berbagai macam uji statistik, hingga time series.

4. Tampilan grafik yang menarik dan fleksibel ataupun costumized.

5. Dapat dikembangkan sesuai dengan keperluan dan kebutuhan data yang sifatnya terbuka, setiap orang dapat menambahkan fitur-fitur tambahan dalam bentuk sebuah package ke dalam software R.

Selain kelebihan dan kelengkapan fitur-fiturnya. Hal terpenting lainnya Software R bersifat multiplatform. R dapat dipasang dan digunakan baik sistem operasi windows, UNIX atau LINUX maupun machintosh. Untuk dua sistem operasi yang disebutkan terakhir diperlukan sedikit penyesuaian.

2.2.10 Rapid Miner

RapidMiner merupakan perangakat lunak yang bersifat terbuka (open source). RapidMiner adalah sebuah solusi untuk melakukan analisis terhadap data mining, text mining dan analisis prediksi. RapidMiner menggunakan berbagai teknik deskriptif dan prediksi dalam memberikan wawasan kepada pengguna sehingga dapat membuat keputusan yang paling baik. RapidMiner memiliki kurang lebih 500 operator data mining, termasuk operator untuk input, output, data preprocessing dan visualisasi. RapidMiner ditulis dengan munggunakan bahasa java sehingga dapat bekerja di semua sistem operasi.

RapidMiner sebelumnya bernama YALE (Yet Another Learning Environment), dimana versi awalnya mulai dikembangkan pada tahun 2001 oleh

(43)

Ralf Klinkenberg, Ingo Mierswa, dan Simon Fischer di Artificial Intelligence Unit dari University of Dortmund. RapidMiner di distribusikan di bawah lisensi AGPL (GNU Affero General Public License) versi 3. RapidMiner menyediakan GUI (Graphic User Interface) untuk merancang sebuah pipeline analitis.

GUI ini akan menghasilkan file XML (Extensible Markup Language) yang mendefenisikan proses analitis keingginan pengguna untuk diterapkan ke data.

RapidMiner memiliki beberapa sifat sebagai berikut:

1. Ditulis dengan bahasa pemrograman Java sehingga dapat dijalankan di berbagai sistem operasi.

2. Proses penemuan pengetahuan dimodelkan sebagai operator trees.

3. Representasi XML internal untuk memastikan format standar pertukaran data.

4. Bahasa scripting memungkinkan untuk eksperimen skala besar dan otomatisasi eksperimen.

5. Konsep multi-layer untuk menjamin tampilan data yang efisien dan menjamin penanganan data.

6. Memiliki GUI, command line mode, dan Java API yang dapat dipanggil dari program lain.

2.2.11 Kerangka Berfikir

Masalah yang dihadapi pada penilitian ini adalah adalah banyaknya tweet pada masing-masing akun twitter calon gubernur jawa barat periode 2018 yang berisikan tanggapan tau opini yang seharusnya dapat dimanfaatkan berguna sebagai sarana penilaian opini masyarakat terhadap masing-masing calon gubernur jawa barat. Untuk dapat memaksimalkan data yang ada meskipun itu ada

(44)

pada twitter dapat menggunakan analisis sentimen yang merupakan metode text mining yang memanfaatkan data berupa text untuk dimanfaatkan dalam kepentingan publik. Untuk mengoptimalkan opini ini dapat dilakukan menggunakan metode naive bayes classification. Dimana nantinya setiap tweet akan dikasifikasikan kedalam class dari masing-masing besaran nilai probabilitas didalam teks tersebut. Untuk dapat melakukan klasifikasi maka perlu dilakukan beberapa tahapan terlebih dahulu yaitu tahap text preprocessing. Pengolahan data dokumen agar dapat dilakukan perhitungan. Hasil dari penelitian berupa penggolangan pendapat atau opini masyarakat kedalam tiga kategori yaitu sentimen positif, netral, dan negatif. Proses dari kerangka berfikir akan digambarkan pada gambar 2.9 sebagai berikut:

(45)

Latar Belakang

Beragamnya respon masyarakat pada waktu pemilu terhadap calon gubernur dan wakil gubernur khususnya dijawa barat

Rumusan Masalah

Bagaimana mendapatkan model klasifikasi sentimen masyarakat ditwitter pada calon gubernur jawa menggunakan algoritma Naive Bayes Classifier

Pendekatan

Praproses teks untuk medapatkan hasil yang lebih akurat lalu mendapatkan class sentiment dari hasil klasifikasi sentiment masyarakat ditwitter menggunakan Naive Bayes Classification

Implementasi &Evaluasi

Implementasi dilakukan dengan menggunakan data yang telah di proses dan sudah di klasifikasikan guna mendapatkan recall, precision dan akurasi serta penghitungan preference value untuk mendapatkan respon positif dari masing-masing calon gubernur

Outcome

Mengetahui seberapa besar tanggapan positif masyarakat terhadap masing masing bakal calon gubernur jawa barat periode 2018 di twitter

Gambar 2.10 Kerangka Berfikir

(46)

BAB III

METODE PENELITIAN

3.1 Objek Penelitian

Objek penelitian merupakan suatu atribut atau sifat atau nilai dari orang, objek atau kegiatan yang mempunyai variabel tertentu yang ditetapkan untuk dipelajari dan ditarik kesimpulannya (Sugiyono, 2016).

Objek penelitian yang penulis teliti adalah tokoh publik yang sudah terpilih menjadi calon gubernur jawa barat periode 2019 yakni Ridwan Kamil dan Uu Ruhzanul Ulum. dalam penelitian ini penulis melakukan eksperimen sentimen analisis di jejaring sosial twitter. Dalam objek penelitian ini penulis bermaksud mencari tingkat respon masyarakat khusus nya pengguna twitter untuk mengetahui seberapa jauh penilaian pengguna twitter terhadap calon gubernur yang sudah terpilih pada pemilihan gubernur jawa barat pada tanggal 27 Juni 2018. Dan KPU (Komisi Pemilihan Umum) mengesahkan pasangan calon gubernur jawa barat dalam rapat pleno terbuka pada tanggal 8 Juli 2018.

3.2 Metode Penelitian

Metode penelitian yang penulis gunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian. (Agarwal, 2011). Metode eksperimental bertujuan untuk menyelidiki hubungan sebab akibat dan seberapa besar hubungan sebab akibat tersebut dengan cara memberikan kontrol perbandingan. Berikut adalah beberapa kriteria umum pada metode eksperimental:

(47)

1. Pemilihan masalah yang dipilih harus penting dan dapat dipecahkan 2. Mendefinisikan variable secara mendalam dalam suatu percobaan 3. Melakukan percobaan yang sesuai dengan desain percobaan yang cocok 4. Ketelitian saat observasi dan ketepatan pengukuran sangatlah diperlukan 5. Menjelaskan metode, material dan referensi yang jelas

6. Analisis pengujian statistik 7. Interpretasi yang generalisasi

Syarat suatu percobaan yang baik adalah sebagai berikut:

1. Harus bebas dari bias

2. Mempunyai ukuran terhadap error atau kesalahan 3. Mempunyai ketepatan

4. Mendefinisikan tujuan dengan jelas

5. Mempunyai jangkauan percobaan yang cukup

3.3 Metode Pengumpulan Data

Pada penelitian ini, pengumpulan data dilakukan dengan cara melakukan crawling data untuk mengambil tweets berbahasa indonesia tentang topik terkait melalui fasilitas searching yang disediakan oleh twitter dengan memanfaatkan API Twitter menggunakan tools Rapidminer.

(48)

3.4 Teknik Analisis Data

Data mentah yang telah diperoleh kemudian masuk ke tahapan preprocessing, dimana data tersebut akan melewati proses convert emoticon, cleansing, case folding, tokenizing, filtering, serta stemming untuk membersihkan data tersebut dari data yang tidak diperlukan atau tidak dibutuhkan sehingga dapat mengurangi resiko data noise yang tinggi.

3.5 Metode yang Diusulkan

Dalam penilitian ini penulis mengusulkan skema penelitian yang dilakukan sebagai berikut:

(49)

Pengumpulan Data

 Crawling

Preprocessing

Convert Emoticon

Cleansing

Case Folding

Token iz e

Filterin g

Stemming

Klasifikasi

Naive Bayes Classification (NBC)

Pengujian dan Evaluasi

 Recall

 Precission

 Accuracy

 Preference Value

Gambar 3.1 Skema Penelitian

Dari skema penelitian tersebut penulis akan menjelaskan langkah-langkah proses crawling sampai dengan preference value diantaranya:

1. Pengumpulan data

(50)

Merupakan proses pengambilan data khususnya di twitter dengan cara crawling data menggunakan API Key yang telah disediakan oleh twitter, data diambil melalui Rapid Miner dan mendapatkan sebanyak 5000 data.

2. Preprocessing data

Pada proses preprocessing data penulis menggunakan tahapan proses preprocessing sebagai berikut:

a. Convert Emoticon

Mengkonversi emoticon ke sebuah kata sehingga dapat dikenali dan dapat diklasifikasi sehingga menghasilkan suatu yang bernilai sentimen.

b. Cleansing

Merupakan sebuah proses membersihkan kata-kata yang tidak diperlukan atau digunakan dalam penelitian ini.

c. Case Folding

Proses dimana semua data disama ratakan menjadi huruf kecil maupun huruf besar.

d. Tokenize

Proses dimana data yang masih berupa kalimat dipecah menjadi kata tunggal.

e. Filtering

Proses menghilangkan kata yang tidak mendeskripsikan sesuatu.

f. Stemming

Proses transformasi kata yang berimbuhan ke kata dasar.

(51)

3.5.1 Pengumpulan Data

Data yang digunakan dalam penelitian ini diambil dari jejaring sosial twitter. Pengambilan data dengan memanfaatkan tools Rapid Miner menggunakan operator Search Twtitter yang dihubungkan dengan API pencarian twitter dengan mendapatkan kode token API twitter yang berhubungan dengan topik terkait Calon Gubernur Jawa Barat Periode 2018 dengan menggunakan kata kunci akun twitter “@ridwankamil”. Di dalam satu data tweet memiliki maksimal 140 karakter. Setiap kali request pengambilan data API twitter akan memberikan sampel tweet secara acak sebanyak jangka waktu seminggu kebelakang. Kita bisa menentukan batas maksimal data yang kita inginkan. Namun data yang diberikan hanya sebatas berapa banyak tweet dengan kata kunci terkait dalam jangka waktu satu minggu sebelum tanggal pencarian. Sedangkan untuks seleksi bahasa digunakan library bawaan twitter (lang =’in’) yang merupakan code untuk teks bahasa indonesia. Berikut data twitter yang telah diambil oleh penulis sebanyak 5000 sampel data:

(52)

Gambar 3.2 Data Utuh

Dari data utuh yang terkumpul kemudian akan dipiliah dan nantinya yang akan digunakan adalah data pada kolom text yang berisi tweets dari berbagai user dengan topik mengenai akun @ridwankamil. Berikut contoh tweets yang berhasil diperoleh.

Gambar 3.3 Data Tweets

(53)

3.5.2 Preprocessing

Ada enam tahapan yang peneliti gunakan dalam melakukan preprocessing data diantaranya akan dijelaskan pada gambar 3.3 diantaranya adalah:

Start

Multiple Document

Pre-Processing

Cleansing

Case Folding

Tokenize

Filtering (Stopword Removal)

Stemming

Ready for mining

Wordlist

Stem list Algorithm

Convert Emoticon

Gambar 3.4 Proses Preprocessing Data

(54)

3.5.2.1 Convert Emoticon

Convert emoticon pada tahap preprocessing data adalah mengganti karakter spesial dengan kata yang dikenali, adapun emoticon yang penulis convert kedalam penelitian ini adalah:

Tabel 3.3 Convert Emoticon

Emoticon Konversi to String

>:] :-) :) :o) :] :3 :c) :> =] 8) =) :} :^) senang

>:D :-D 8-D 8D x-D xD x-D XD =-D =D =-3 =3 ketawa

>:\ >:/ :-/ :-. :/ :\ =\ =/ :S kesal

>:[ :-( :( :-c :c :-< :< :-[ :[ :{ >.> <.< >.< sedih

3.5.2.2 Cleansing

Cleansing yaitu proses pembersihan dokumen dari kata yang tidak diperlukan untuk mengurangi data noise, kata yang dihilangkan adalah krakter HTML, kata kunci, hashtag (#), RT, username (@username), url (http://situs.com/) dan email ([email protected]) berikut adalah hasil dari proses cleansing yang penulis lakukan:

Gambar 3.5 Proses Cleansing

(55)

3.5.2.3 Case Folding

Case folding adalah proses penyeragaman bentuk huruf, penghapusan angka serta tanda baca. Pada kata lain data yang digunakan dalam penelitian ini hanya berupa karakter huruf ‘a’ sampai ‘z’ berikut adalah data twitter yang telah dilakukan case folding:

Tabel 3.4 Proses Case Folding

Kondisi Aksi

Input

Miris sedih tp ga ada respon, akses ke kepala daerah via medsos ga ada

Ouput

miris sedih tp ga ada respon, akses ke kepala daerah via medsos ga ada Bermain bersama warga

Regol Lengkong dalam rangka Agustusan sekaligus perpisahan sebagai walikota Bandung

bermain bersama warga regol lengkong dalam rangka agustusan sekaligus perpisahan sebagai walikota bandung

Semoga allah sll membalas kebaikan orang2 yg menolong Aamiin

semoga allah sll membalas kebaikan orang2 yg menolong aamiin

Keceriaan ditengah perlombaan di hari Ulang Tahun Republik Indonesia ke yang diselenggarakan

oleh Panhut RI

Kepemudaan

keceriaan ditengah perlombaan di hari ulang tahun republik indonesia ke yang diselenggarakan

oleh panhut ri

kepemudaan Anak-anak di pengungsian

Lombok dirawat

kegembiraannya oleh beragam relawan termasuk relawan Bandung dan Marinir. Dan anak

anak-anak di pengungsian

lombok dirawat

kegembiraannya oleh beragam relawan termasuk relawan bandung dan marinir. dan anak

(56)

3.5.2.4 Tokenize

Yaitu proses dimana dokumen teks dipecah menjadi sebuah kata. Adapun contoh dari pemecahan dokumen teks yang penulis lakukan sebagai berikut:

Tabel 3.5 Proses Tokenize

Text Tokenize

keceriaan ditengah perlombaan di hari ulang keceriaan tahun republik Indonesia ke yang ditengah diselenggarakan oleh Kepemudaan perlombaan

dihari ulang tahun republik indonesia

ke yang diselenggarakan

oleh kepemudaan

3.5.2.5 Stopword Removal

Stopword Removal, yaitu proses penghilangan kata yang tidak mendeskripsikan sesuatu dalam Bahasa Indonesia seperti “di”, “ke”, “dari”,

“yang”, “sedang”, “ini”, dan lain sebagainya. Namun didalam text classification keberadaan kata seperti “tidak”, “bukan”, “tanpa” tidak begitu penting sehingga kata ini biasanya tidak ikut dihilangkan.

Berikut contoh kata dalam Bahasa Indonesia yang masuk dalam stopword list menurut KBBI (Kamus Besar Bahasa Indonesia):

(57)

Tabel 3.6 Stopword Removal

Tokenize Stopword

Removal

keceriaan Ceria

ditengah Tengah

perlombaan Lomba

dihari Hari

ulang Ulang

tahun Tahun

republik Republic

indonesia Indonesia

ke Selenggara

yang Oleh

diselenggarakan Muda oleh

kepemudaan

3.5.2.6 Stemming

Yaitu proses penghilangan imbuhan yang masih melekat sehingga diperoleh sebuah kata dasar, contoh: “membaca”, “dibaca”, “dibacakan” akan dikonversi menjadi kata dasar (stem) “baca”. Dalam proses ini terdapat 5 aturan yaitu:

1. Menghilangkan partikel (-lah, -kah, -tah, dan -pun).

2. Menghilangkan kata ganti kepemilikan (-ku, -mu, dan -nya) . 3. Menghilangkan awalan tingkat pertama (meng-, di-, ter-, dan ke-).

4. Menghilangkan awalan tingkat kedua (per-, dan ber-).

5. Menghilangkan akhiran (-i, -kan, dan -an).

Berikut ini adalah contoh daftar kata dasar dalam Bahasa Indonesia menurut KBBI (Kamus Besar Bahasa Indonesia):

(58)

Tabel 3.7 Stemming

Dalam penelitian ini untuk proses stemming akan dilakukan dengan memanfaatkan library “Sastrawi” yang mana library ini memang dikhususkan untuk proses stemming dokumen teks Berbahasa Indonesia.

(59)

3.5.3 Klasifikasi

Sebuah dokumen haruslah dapat diklasifikasikan kedalam kelas yang tepat. Proses klasifikasi ini meliputi dua tahapan. Pertama, sebuah model dibuat dengan menggambarkan sekumpulan kelas data atau konsep dari sebuah populasi data yang sudah ditentukan sebelumnya. Model ini dibuat dengan menganalisa data training yang dideskripsikan berdasarkan atribut yang dimilikinya. Setiap tupel diasumsikan dimiliki oleh kelas yang sudah didefinisikan, yang ditentukan dengan sebuah atribut, yang disebut class label attribute.

Tahapan kedua adalah pengujian model terhadap data untuk mengukur tingkat akurasi model atau performanya didalam mengklasifikasikan data testing.

Setelah semuanya diukur, pengambilan keputusan dapat ditentukan untuk menggunakan model tersebut atau mengulangi proses pembentukan model menggunakan data training.

3.5.3.1 Naive Bayes Classification

Naive Bayes Clasifier pada penelitian kali ini bertujuan untuk menghitung probabilitas bersyarat pada tiap atribut(kata) tiap kelas. Tahapan- tahapan yang dilakukan pada proses klasifikasi adalah pertama bag of words bertujuan untuk mengumpulkan kata yang ada pada setiap tweet berdasarkan frekwensi kemunculan di tweet tersebut. Kata yang sudah diklasifikasi menjadi 3 jenis klasifikasi positif, negatif dan netral. Adapun tahapan naive bayes digambarkan dengan flowchart sebagai berikut:

(60)

Text Preprocessing Data latih

Data Bersih

NBC

Positif Negatif

Gambar 3.6 Flowchart NBC.

Dari gambar diagram alur diatas dapat dijelaskan sebagai berikut:

1. Data latih yaitu data yang didapat dari proses crawling data. data tersebut masih bersifat data default sehingga belum dapat langsung dilakukan klasifikasi.

2. Text preprocessing dimana data latih diolah melalui proses-proses seperti convert emoticon, cleansing, case foldeing, tokenize, filetering, stopword removal dan stemming. Sehingga data kemungkinan noise akan semakin berukurang.

3. Data bersih adalah data yang sudah di proses sehingga dapat di klasifikasikan menggunakan metode NBC.

(61)

4. NBC suatu metode klasifikasi untuk mendapatkan respon masyarakat pengguna twitter dan menghasilkan tiga klasifikasi yang penulis teliti yaitu respon positif, negatif dan netral.

3.6 Pendukung Penelitian

Untuk melakukan tahapan proses sentiment analysis di perlukan adanya perangkat pendukung, diantaranya:

3.6.1 Hardware

Dalam penelitian ini spesifikasi hardware yang penulis gunakan adalah sebagai berikut:

Tabel 3.8 Spesifikasi Hardware

CPU : Intel Core i7

RAM : 4 GB

Graphic Card

: 2 GB

Connection : Internet Access

3.6.2 Software

Untuk spesifikasi software yang digunakan pada penilitian ini dibagi menjadi 2 kategori:

Tabel 3.9 Spesifikasi Software

Kategori OS Tools

Data

Windows 10 32 bit

R GUI

Crawling and Microsoft Excel 2010

Modeling

(62)

Data

Windows 10 32 bit

XAMPP

Pre Notepad ++

Processing Google Crhome

Rapid Miner

3.7 Jadwal Penelitian

Berikut adalah susunan jadwal penelitian dari pencarian dan pemilihan objek sampai dengan penyerahan naskah publikasi penelitian.

Tabel 3.10 Jadwal Penelitian

No. Kegiatan

Bulan Pelaksanaan tahun 2018

Juli Agustus September Oktober November 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4

1.

Pencarian dan Pemilihan Obyek Penelitian

2. Perumusan Masalah Penelitian

3. Penentuan Topik penelitian

4.

Pengumpulan Bahan

Literatur/Referensi

5.

Penyusunan

Kerangka/Landasan

Pemikiran (Tinjauan

Pustaka/Studi/Organis

(63)

asi sampai dengan

Kerangka Konsep dan

Hipotesis)

6.

Penyusunan

Metodologi Penelitian

(Jenis Penelitian, Metode Pengumpulan

Data, Instrumentasi,

Teknik Analisis

7.

Penyusunan Naskah

Proposal Skripsi

8.

Pelaksanaan

Pengumpulan Data

Sampel

9.

Analisis Data,

Implementasi,

Pengujian

10.

Penyusunan Naskah

Akhir Skripsi

11.

Penyerahan Formulir

Pendaftaran Sidang

Akhir Skripsi

12. Sidang Akhir Skripsi

(64)

13.

Penyempurnaan

Naskah Akhir Skrispi

14.

Penggandaan Naskah

Akhir Skripsi dan Paper

15.

Pembuatan CD berisi

Naskah Akhir Skripsi,

Paper, dan Slide

Presentasi

16.

Penyerahan Naskah

Akhir Skripsi, Paper dan CD

Gambar

Tabel 2.1 Penelitian Sebelumnya
Gambar 2.1 Tujuh area praktek text mining
Gambar 2.2 Text Preprocessing Process.
Tabel 2.2 Convert Emoticon
+7

Referensi

Dokumen terkait

IMPLEMENTASI METODE NAIVE BAYES CLASSIFICATION DALAM KLASIFIKASI KELAYAKAN CALON PENDONOR DARAH

Performa algoritma Multinomial Naive Bayes untuk klasifikasi file teks (dalam penelitian ini surat) adalah sebagai berikut: dengan pengujian menggunakan 5-fold cross validation

Hasil yang didapat adalah pengujian dengan menggunakan Naive Bayes didapatkan nilai accuracy adalah 72.00% sedangkan pengujian dengan menggunakan Naive Bayes

melakukan eksperimen, yaitu (1) Melakukan pengujian klasifikasi algoritma Naive Bayes menggunakan data original yang masih terdapat data kosong (2) Mengisi data

Tahap pengumpulan sistem ini dilakukan dengan menganalisis terhadap metode yang akan digunakan dalam sistem klasifikasi email spam yaitu metode naive bayes, bagaimana

Sistem analisis sentimen pada ulasan produk online menggunakan metode Naive Bayes ini dapat menggunakan metode lain untuk memperoleh hasil prediksi yang lebih baik. Sistem

Berdasarkan hasil pengujian yang telah dilakukan pada penelitian ini, dengan menggunakan pemodelan Algoritma Naive Bayes untuk memberikan klasifikasi dan prediksi

Setelah proses klasifikasi menggunakan metode naive bayes selesai, selanjutnya pengujian data uji yang berjumlah 25 data pelanggan dapat dilihat pada Tabel 7.