• Tidak ada hasil yang ditemukan

BAB I PENDAHULUAN

2.2 Dasar Teori

2.2.4 Application Programming Interface (API)

API merupakan sekumpulan sintak yang berisi perintah atau fungsi yang dapat digunakan untuk berinteraksi dengan sistem operasi tertentu atau program pengendalian lainnnya misalnya sistem manajemen database (DBMS). Sebuah API dapat diimplementasikan dengan menulis sintaks dalam program yang menyediakan sarana untuk meminta layanan program tersebut. konsep API adalah antarmuka software-to-software, bukan merupakan sebuah user interface. API memungkinkan sebuah aplikasi berbicara satu sama lain tanpa sepengetahuan pengguna (Musliyana, 2016).

Gambar 2.8 Konsep Application Programming (API) 2.2.5 Semtiment Analysis

Analisis sentimen atau disebut juga opinion mining adalah bidang studi untuk menganalisis pendapat, sentimen, evaluasi, penilaian sikap dan emosi terhadap entitas seperti produk, jasa, organisasi, individu, peristiwa, dan atribut lainnya. Analisis sentimen berfokus kepada opini yang mendeskripsikan sentimen positif atau negatif (Liu, 2012).

Terdapat tiga tahapan umum dalam proses analisis sentimen, yaitu pengambilan data dari sumber data atau yang biasa disebut crawling, selanjutnya

tahap training dan testing dengan menggunakan algoritma klasifikasi tertentu.

Salah satu algoritma untuk melakukan klasifikasi adalah naive bayes. Sumber data yang digunakan adalah media sosial twitter.

Pada Microblog data seperti twitter, dimana pengguna berinteraksi secara realtime serta memberikan opini tentang apa saja. Memberikan suatu kebaruan serta tantangan yang berbeda. Disebut microblog karena pada situs ini pengguna dapat mengirimkan serta membaca pesak layaknya blog pada umumnya namun hanya terbatas 140 karakter saja yang dapat tampil di halaman profil pengguna.

Twitter memiliki format dan karakteristik cara penulisan yang unik menggunakan simbol maupun aturan khusus. Pesan yang dituliskan pada twitter dikenal dengan sebutan tweet (Novantirani, 2015).

2.2.6 Naive Bayes Classifier

Algoritma yang digunakan untuk melakukan klasifikasi tweet yaitu naive bayes. Naive Bayes Classification (NBC) merupakan sebuah metode klasifikasi yang beradasar pada teorema bayes dengan asumsi independensi yang kuat (N.Hayatin, 2014). Dengan kata lain metode classifier berdasarkan probabilitas dan teorama bayesian dengan asumsi bahwa setiap variabel X bersifat bebas (Independence) (Ghulam Asrofi, 2018). Naive Bayes Classifier (NBC) adalah metode yang digunakan untuk mencari nilai probabilitas tertinggi dalam proses klasifikasi data uji pada ketegori (kelas) yang paling tepat. Dalam penelitian tugas akhir ini, yang menjadi data uji maupun data latih adalah data user dengan fitur-fiturnya. Ada dua tahap dalam NBC untuk proses klasifikasinya, yaitu training dan testing (Amir Hamzah, 2012).

Naive Bayes Classification terdiri dari dua tahap, tahap pertama yaitu pelatihan terhadap himpunan dokumen contoh (Data Training) dan tahap kedua yaitu proses klasifikasi dokumen yang belum diketahui kategori atau kelasnya.

Secara matematis, naive bayes digambarkan sebagai berikut.

Gambar 2.9 Rumus Naive Bayes Classification Keterangan:

A = sampel data yang label kelasnya tidak diketahui.

B = kelas-kelas hasil klasifikasi.

P(A|B) = probabilitas terjadinya A jika B diketahui. Disebut probabilitas posterior, karena peluang A bergantung dari nilai B tertentu.

P(B|A) = probabilitas terjadinya B jika A diketahui, disebut likelihood function, karena peluang B tergantung dengan peluang data sample A.

P(A) = probabilitas A merupakan probabilitas dari sample yang mempunya kelas A.

P(B) = probabilitas prior B, dan bertindak sebagai normalizing constant.

Secara intuitif , teorema Bayes menggambarkan bahwa perubahan pada β€œA” dapat diamati apabila β€œB” terlebih dahulu diamati.

2.2.7 Measuring Performance

Measuring performance merupakan tahapan terakhir dalam klasifikasi teks. Pada tahap ini akan mengevaluasi hasil percobaan, membandingkan dan

menganalisis terhadap kinerja klasifikasi teks. Banyak cara pengukuran yang telah digunakan, seperti precission dan recall, error, accuracy dan lainnya.

Pengevaluasian hasil klasifikasi dokumen. Pengukuran dan mengevaluasian yang digunakan untuk menghitung 3 metode evaluasi yakni precission, recall, accuracy.

1. Recall

Yaitu perbandingan jumlah dokumen yang relevan terkenali dengan jumlah seluruh dokumen relevan. Recall memiliki rumus sebagai berikut:

π‘…π‘’π‘π‘Žπ‘™π‘™ = 𝑇𝑃 𝐹𝑃 + 𝐹𝑃

2. Precision

Yaitu perbandingan jumlah dokumen yang relevan terkenali dengan jumlah dokumen yang terkenali. Precision memiliki rumus sebagai berikut:

π‘ƒπ‘Ÿπ‘’π‘π‘–π‘ π‘–π‘œπ‘› = 𝑇𝑃 𝐹𝑃 + 𝐹𝑁

3. Accuracy

Menunjukan kedekatan hasil pengukuran dengan nilai sesungguhnya.

Akurasi memiliki rumus sebagai berikut:

π΄π‘π‘π‘’π‘Ÿπ‘Žπ‘π‘¦ = 𝑇𝑃 + 𝐹𝑁

𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁

2.2.8 Preference Value

Preverence value adalah penilaian untuk mengetahui jumlah respon positif pengguna twitter. Dalam tugas akhir ini hasil dari preference value dari bakal calon gubernur jawa barat untuk mengetahui seberapa besar tingkat positif sentimen masyarakat di twitter. Preference value memiliki rumus sebagai berikut:

𝑷𝒓𝒆𝒇𝒆𝒓𝒆𝒏𝒄𝒆 𝑽𝒂𝒍𝒖𝒆 = π‘·π’π’”π’Šπ’•π’Šπ’‡

π‘·π’π’”π’Šπ’•π’Šπ’‡ + π‘΅π’†π’ˆπ’‚π’•π’Šπ’‡βˆ— π‘¨π’„π’„π’–π’“π’‚π’„π’š 2.2.9 Pemrograman R

Pemrograman R adalah bahasa pemrograman untuk lingkungan komputasi statistik dan grafik. R merupakan salah satu proyek GNU yang mirip dengan bahasa S yang dikembangkan di Bell Laboratories (Sebelumnya AT&T, sekarang Lucent Technologies) pada tahun 1960-an oleh John Cambers dan kawa-kawan. R dapat dianggap sebagai implementasi yang berbeda dari S. R menyediakan fungsi perhitungan statistik (linear dan non-linear modeling, uji coba statistik klasik.

Analisis yang bersifat time-series, klasifikasi clustering, dan lain sebagainya) dan teknik grafis yang sangat extensible (Everit dan Hothorn, 2010)

Software R sangat cocok untuk kegiatan riset, baik itu statistik, ekonomi, komputasi numerik dan pemrograman komputer. Karena didukung oleh banyak tenaga ahli dibidangnya. R layak dijadikan suatu perangkat lunak acuan oleh berbagai kalangan, terlebih dikalangan akademik. Selain itu R memiliki fitur yang lengkap dan handal. Berikut adalah kelebihan dan fitur-fitur pemrograman R.

1. Efektif dalam pengolahan data dan fasilitas penyimpanan. Ukuran file yang disimpan jauh lebih kecil dibandingkan dengan software yang lain.

2. Lengkap dalam operator perhitungan array.

3. Lengkap dan terdiri dari koleksi tools statistik yang terintegrasi untuk melakukan analisis data, dimulai dari statistik deskriptif, fungsi probabilitas, berbagai macam uji statistik, hingga time series.

4. Tampilan grafik yang menarik dan fleksibel ataupun costumized.

5. Dapat dikembangkan sesuai dengan keperluan dan kebutuhan data yang sifatnya terbuka, setiap orang dapat menambahkan fitur-fitur tambahan dalam bentuk sebuah package ke dalam software R.

Selain kelebihan dan kelengkapan fitur-fiturnya. Hal terpenting lainnya Software R bersifat multiplatform. R dapat dipasang dan digunakan baik sistem operasi windows, UNIX atau LINUX maupun machintosh. Untuk dua sistem operasi yang disebutkan terakhir diperlukan sedikit penyesuaian.

2.2.10 Rapid Miner

RapidMiner merupakan perangakat lunak yang bersifat terbuka (open source). RapidMiner adalah sebuah solusi untuk melakukan analisis terhadap data mining, text mining dan analisis prediksi. RapidMiner menggunakan berbagai teknik deskriptif dan prediksi dalam memberikan wawasan kepada pengguna sehingga dapat membuat keputusan yang paling baik. RapidMiner memiliki kurang lebih 500 operator data mining, termasuk operator untuk input, output, data preprocessing dan visualisasi. RapidMiner ditulis dengan munggunakan bahasa java sehingga dapat bekerja di semua sistem operasi.

RapidMiner sebelumnya bernama YALE (Yet Another Learning Environment), dimana versi awalnya mulai dikembangkan pada tahun 2001 oleh

Ralf Klinkenberg, Ingo Mierswa, dan Simon Fischer di Artificial Intelligence Unit dari University of Dortmund. RapidMiner di distribusikan di bawah lisensi AGPL (GNU Affero General Public License) versi 3. RapidMiner menyediakan GUI (Graphic User Interface) untuk merancang sebuah pipeline analitis.

GUI ini akan menghasilkan file XML (Extensible Markup Language) yang mendefenisikan proses analitis keingginan pengguna untuk diterapkan ke data.

RapidMiner memiliki beberapa sifat sebagai berikut:

1. Ditulis dengan bahasa pemrograman Java sehingga dapat dijalankan di berbagai sistem operasi.

2. Proses penemuan pengetahuan dimodelkan sebagai operator trees.

3. Representasi XML internal untuk memastikan format standar pertukaran data.

4. Bahasa scripting memungkinkan untuk eksperimen skala besar dan otomatisasi eksperimen.

Masalah yang dihadapi pada penilitian ini adalah adalah banyaknya tweet pada masing-masing akun twitter calon gubernur jawa barat periode 2018 yang berisikan tanggapan tau opini yang seharusnya dapat dimanfaatkan berguna sebagai sarana penilaian opini masyarakat terhadap masing-masing calon gubernur jawa barat. Untuk dapat memaksimalkan data yang ada meskipun itu ada

pada twitter dapat menggunakan analisis sentimen yang merupakan metode text mining yang memanfaatkan data berupa text untuk dimanfaatkan dalam kepentingan publik. Untuk mengoptimalkan opini ini dapat dilakukan menggunakan metode naive bayes classification. Dimana nantinya setiap tweet akan dikasifikasikan kedalam class dari masing-masing besaran nilai probabilitas didalam teks tersebut. Untuk dapat melakukan klasifikasi maka perlu dilakukan beberapa tahapan terlebih dahulu yaitu tahap text preprocessing. Pengolahan data dokumen agar dapat dilakukan perhitungan. Hasil dari penelitian berupa penggolangan pendapat atau opini masyarakat kedalam tiga kategori yaitu sentimen positif, netral, dan negatif. Proses dari kerangka berfikir akan digambarkan pada gambar 2.9 sebagai berikut:

Latar Belakang

Beragamnya respon masyarakat pada waktu pemilu terhadap calon gubernur dan wakil gubernur khususnya dijawa barat

Rumusan Masalah

Bagaimana mendapatkan model klasifikasi sentimen masyarakat ditwitter pada calon gubernur jawa menggunakan algoritma Naive Bayes Classifier

Pendekatan

Praproses teks untuk medapatkan hasil yang lebih akurat lalu mendapatkan class sentiment dari hasil klasifikasi sentiment masyarakat ditwitter menggunakan Naive Bayes Classification

Implementasi &Evaluasi

Implementasi dilakukan dengan menggunakan data yang telah di proses dan sudah di klasifikasikan guna mendapatkan recall, precision dan akurasi serta penghitungan preference value untuk mendapatkan respon positif dari masing-masing calon gubernur

Outcome

Mengetahui seberapa besar tanggapan positif masyarakat terhadap masing masing bakal calon gubernur jawa barat periode 2018 di twitter

Gambar 2.10 Kerangka Berfikir

BAB III

METODE PENELITIAN

3.1 Objek Penelitian

Objek penelitian merupakan suatu atribut atau sifat atau nilai dari orang, objek atau kegiatan yang mempunyai variabel tertentu yang ditetapkan untuk dipelajari dan ditarik kesimpulannya (Sugiyono, 2016).

Objek penelitian yang penulis teliti adalah tokoh publik yang sudah terpilih menjadi calon gubernur jawa barat periode 2019 yakni Ridwan Kamil dan Uu Ruhzanul Ulum. dalam penelitian ini penulis melakukan eksperimen sentimen analisis di jejaring sosial twitter. Dalam objek penelitian ini penulis bermaksud mencari tingkat respon masyarakat khusus nya pengguna twitter untuk mengetahui seberapa jauh penilaian pengguna twitter terhadap calon gubernur yang sudah terpilih pada pemilihan gubernur jawa barat pada tanggal 27 Juni 2018. Dan KPU (Komisi Pemilihan Umum) mengesahkan pasangan calon gubernur jawa barat dalam rapat pleno terbuka pada tanggal 8 Juli 2018.

3.2 Metode Penelitian

Metode penelitian yang penulis gunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian. (Agarwal, 2011). Metode eksperimental bertujuan untuk menyelidiki hubungan sebab akibat dan seberapa besar hubungan sebab akibat tersebut dengan cara memberikan kontrol perbandingan. Berikut adalah beberapa kriteria umum pada metode eksperimental:

1. Pemilihan masalah yang dipilih harus penting dan dapat dipecahkan 2. Mendefinisikan variable secara mendalam dalam suatu percobaan 3. Melakukan percobaan yang sesuai dengan desain percobaan yang cocok 4. Ketelitian saat observasi dan ketepatan pengukuran sangatlah diperlukan 5. Menjelaskan metode, material dan referensi yang jelas

6. Analisis pengujian statistik 7. Interpretasi yang generalisasi

Syarat suatu percobaan yang baik adalah sebagai berikut:

1. Harus bebas dari bias

2. Mempunyai ukuran terhadap error atau kesalahan 3. Mempunyai ketepatan

4. Mendefinisikan tujuan dengan jelas

5. Mempunyai jangkauan percobaan yang cukup

3.3 Metode Pengumpulan Data

Pada penelitian ini, pengumpulan data dilakukan dengan cara melakukan crawling data untuk mengambil tweets berbahasa indonesia tentang topik terkait melalui fasilitas searching yang disediakan oleh twitter dengan memanfaatkan API Twitter menggunakan tools Rapidminer.

3.4 Teknik Analisis Data

Data mentah yang telah diperoleh kemudian masuk ke tahapan preprocessing, dimana data tersebut akan melewati proses convert emoticon, cleansing, case folding, tokenizing, filtering, serta stemming untuk membersihkan data tersebut dari data yang tidak diperlukan atau tidak dibutuhkan sehingga dapat mengurangi resiko data noise yang tinggi.

3.5 Metode yang Diusulkan

Dalam penilitian ini penulis mengusulkan skema penelitian yang dilakukan sebagai berikut:

Pengumpulan Data

ο‚· Crawling

Preprocessing

ο‚· Convert Emoticon

ο‚· Cleansing

ο‚· Case Folding

ο‚· Token iz e

ο‚· Filterin g

ο‚· Stemming

Klasifikasi

ο‚· Naive Bayes Classification (NBC)

Pengujian dan Evaluasi

ο‚· Recall

ο‚· Precission

ο‚· Accuracy

ο‚· Preference Value

Gambar 3.1 Skema Penelitian

Dari skema penelitian tersebut penulis akan menjelaskan langkah-langkah proses crawling sampai dengan preference value diantaranya:

1. Pengumpulan data

Merupakan proses pengambilan data khususnya di twitter dengan cara crawling data menggunakan API Key yang telah disediakan oleh twitter, data diambil melalui Rapid Miner dan mendapatkan sebanyak 5000 data.

2. Preprocessing data

Pada proses preprocessing data penulis menggunakan tahapan proses preprocessing sebagai berikut:

a. Convert Emoticon

Mengkonversi emoticon ke sebuah kata sehingga dapat dikenali dan dapat diklasifikasi sehingga menghasilkan suatu yang bernilai sentimen.

b. Cleansing

Merupakan sebuah proses membersihkan kata-kata yang tidak diperlukan atau digunakan dalam penelitian ini.

c. Case Folding

Proses dimana semua data disama ratakan menjadi huruf kecil maupun huruf besar.

d. Tokenize

Proses dimana data yang masih berupa kalimat dipecah menjadi kata tunggal.

e. Filtering

Proses menghilangkan kata yang tidak mendeskripsikan sesuatu.

f. Stemming

Proses transformasi kata yang berimbuhan ke kata dasar.

3.5.1 Pengumpulan Data

Data yang digunakan dalam penelitian ini diambil dari jejaring sosial twitter. Pengambilan data dengan memanfaatkan tools Rapid Miner menggunakan operator Search Twtitter yang dihubungkan dengan API pencarian twitter dengan mendapatkan kode token API twitter yang berhubungan dengan topik terkait Calon Gubernur Jawa Barat Periode 2018 dengan menggunakan kata kunci akun twitter β€œ@ridwankamil”. Di dalam satu data tweet memiliki maksimal 140 karakter. Setiap kali request pengambilan data API twitter akan memberikan sampel tweet secara acak sebanyak jangka waktu seminggu kebelakang. Kita bisa menentukan batas maksimal data yang kita inginkan. Namun data yang diberikan hanya sebatas berapa banyak tweet dengan kata kunci terkait dalam jangka waktu satu minggu sebelum tanggal pencarian. Sedangkan untuks seleksi bahasa digunakan library bawaan twitter (lang =’in’) yang merupakan code untuk teks bahasa indonesia. Berikut data twitter yang telah diambil oleh penulis sebanyak 5000 sampel data:

Gambar 3.2 Data Utuh

Dari data utuh yang terkumpul kemudian akan dipiliah dan nantinya yang akan digunakan adalah data pada kolom text yang berisi tweets dari berbagai user dengan topik mengenai akun @ridwankamil. Berikut contoh tweets yang berhasil diperoleh.

Gambar 3.3 Data Tweets

3.5.2 Preprocessing

Ada enam tahapan yang peneliti gunakan dalam melakukan preprocessing data diantaranya akan dijelaskan pada gambar 3.3 diantaranya adalah:

Start

Multiple Document

Pre-Processing

Cleansing

Case Folding

Tokenize

Filtering (Stopword Removal)

Stemming

Ready for mining

Wordlist

Stem list Algorithm

Convert Emoticon

Gambar 3.4 Proses Preprocessing Data

3.5.2.1 Convert Emoticon

Convert emoticon pada tahap preprocessing data adalah mengganti karakter spesial dengan kata yang dikenali, adapun emoticon yang penulis convert kedalam penelitian ini adalah:

Tabel 3.3 Convert Emoticon

Emoticon Konversi to String

>:] :-) :) :o) :] :3 :c) :> =] 8) =) :} :^) senang

>:D :-D 8-D 8D x-D xD x-D XD =-D =D =-3 =3 ketawa

>:\ >:/ :-/ :-. :/ :\ =\ =/ :S kesal

>:[ :-( :( :-c :c :-< :< :-[ :[ :{ >.> <.< >.< sedih

3.5.2.2 Cleansing

Cleansing yaitu proses pembersihan dokumen dari kata yang tidak diperlukan untuk mengurangi data noise, kata yang dihilangkan adalah krakter HTML, kata kunci, hashtag (#), RT, username (@username), url (http://situs.com/) dan email ([email protected]) berikut adalah hasil dari proses cleansing yang penulis lakukan:

Gambar 3.5 Proses Cleansing

3.5.2.3 Case Folding

Case folding adalah proses penyeragaman bentuk huruf, penghapusan angka serta tanda baca. Pada kata lain data yang digunakan dalam penelitian ini hanya berupa karakter huruf β€˜a’ sampai β€˜z’ berikut adalah data twitter yang telah dilakukan case folding:

Tabel 3.4 Proses Case Folding

Kondisi Aksi

Regol Lengkong dalam rangka Agustusan sekaligus perpisahan sebagai walikota Bandung

bermain bersama warga regol lengkong dalam rangka agustusan sekaligus perpisahan sebagai Tahun Republik Indonesia ke yang diselenggarakan

oleh Panhut RI

Kepemudaan

keceriaan ditengah perlombaan di hari ulang tahun republik indonesia ke yang diselenggarakan

oleh panhut ri

kepemudaan Anak-anak di pengungsian

Lombok dirawat

kegembiraannya oleh beragam relawan termasuk relawan Bandung dan Marinir. Dan anak

anak-anak di pengungsian

lombok dirawat

kegembiraannya oleh beragam relawan termasuk relawan bandung dan marinir. dan anak

3.5.2.4 Tokenize

Yaitu proses dimana dokumen teks dipecah menjadi sebuah kata. Adapun contoh dari pemecahan dokumen teks yang penulis lakukan sebagai berikut:

Tabel 3.5 Proses Tokenize

Text Tokenize

keceriaan ditengah perlombaan di hari ulang keceriaan tahun republik Indonesia ke yang ditengah diselenggarakan oleh Kepemudaan perlombaan

dihari

Stopword Removal, yaitu proses penghilangan kata yang tidak mendeskripsikan sesuatu dalam Bahasa Indonesia seperti β€œdi”, β€œke”, β€œdari”,

β€œyang”, β€œsedang”, β€œini”, dan lain sebagainya. Namun didalam text classification keberadaan kata seperti β€œtidak”, β€œbukan”, β€œtanpa” tidak begitu penting sehingga kata ini biasanya tidak ikut dihilangkan.

Berikut contoh kata dalam Bahasa Indonesia yang masuk dalam stopword list menurut KBBI (Kamus Besar Bahasa Indonesia):

Tabel 3.6 Stopword Removal

Yaitu proses penghilangan imbuhan yang masih melekat sehingga diperoleh sebuah kata dasar, contoh: β€œmembaca”, β€œdibaca”, β€œdibacakan” akan dikonversi menjadi kata dasar (stem) β€œbaca”. Dalam proses ini terdapat 5 aturan yaitu:

1. Menghilangkan partikel (-lah, -kah, -tah, dan -pun).

2. Menghilangkan kata ganti kepemilikan (-ku, -mu, dan -nya) . 3. Menghilangkan awalan tingkat pertama (meng-, di-, ter-, dan ke-).

4. Menghilangkan awalan tingkat kedua (per-, dan ber-).

5. Menghilangkan akhiran (-i, -kan, dan -an).

Berikut ini adalah contoh daftar kata dasar dalam Bahasa Indonesia menurut KBBI (Kamus Besar Bahasa Indonesia):

Tabel 3.7 Stemming

Dalam penelitian ini untuk proses stemming akan dilakukan dengan memanfaatkan library β€œSastrawi” yang mana library ini memang dikhususkan untuk proses stemming dokumen teks Berbahasa Indonesia.

3.5.3 Klasifikasi

Sebuah dokumen haruslah dapat diklasifikasikan kedalam kelas yang tepat. Proses klasifikasi ini meliputi dua tahapan. Pertama, sebuah model dibuat dengan menggambarkan sekumpulan kelas data atau konsep dari sebuah populasi data yang sudah ditentukan sebelumnya. Model ini dibuat dengan menganalisa data training yang dideskripsikan berdasarkan atribut yang dimilikinya. Setiap tupel diasumsikan dimiliki oleh kelas yang sudah didefinisikan, yang ditentukan dengan sebuah atribut, yang disebut class label attribute.

Tahapan kedua adalah pengujian model terhadap data untuk mengukur tingkat akurasi model atau performanya didalam mengklasifikasikan data testing.

Setelah semuanya diukur, pengambilan keputusan dapat ditentukan untuk menggunakan model tersebut atau mengulangi proses pembentukan model menggunakan data training.

3.5.3.1 Naive Bayes Classification

Naive Bayes Clasifier pada penelitian kali ini bertujuan untuk menghitung probabilitas bersyarat pada tiap atribut(kata) tiap kelas. Tahapan- tahapan yang dilakukan pada proses klasifikasi adalah pertama bag of words bertujuan untuk mengumpulkan kata yang ada pada setiap tweet berdasarkan frekwensi kemunculan di tweet tersebut. Kata yang sudah diklasifikasi menjadi 3 jenis klasifikasi positif, negatif dan netral. Adapun tahapan naive bayes digambarkan dengan flowchart sebagai berikut:

Text Preprocessing Data latih

Data Bersih

NBC

Positif Negatif

Gambar 3.6 Flowchart NBC.

Dari gambar diagram alur diatas dapat dijelaskan sebagai berikut:

1. Data latih yaitu data yang didapat dari proses crawling data. data tersebut masih bersifat data default sehingga belum dapat langsung dilakukan klasifikasi.

2. Text preprocessing dimana data latih diolah melalui proses-proses seperti convert emoticon, cleansing, case foldeing, tokenize, filetering, stopword removal dan stemming. Sehingga data kemungkinan noise akan semakin berukurang.

3. Data bersih adalah data yang sudah di proses sehingga dapat di klasifikasikan menggunakan metode NBC.

4. NBC suatu metode klasifikasi untuk mendapatkan respon masyarakat pengguna twitter dan menghasilkan tiga klasifikasi yang penulis teliti yaitu respon positif, negatif dan netral.

3.6 Pendukung Penelitian

Untuk melakukan tahapan proses sentiment analysis di perlukan adanya perangkat pendukung, diantaranya:

3.6.1 Hardware

Dalam penelitian ini spesifikasi hardware yang penulis gunakan adalah sebagai berikut:

Connection : Internet Access

3.6.2 Software

Untuk spesifikasi software yang digunakan pada penilitian ini dibagi menjadi 2 kategori:

Tabel 3.9 Spesifikasi Software

Kategori OS Tools

Data

Windows 10 32 bit

R GUI

Crawling and Microsoft Excel 2010

Modeling

Data

Berikut adalah susunan jadwal penelitian dari pencarian dan pemilihan objek sampai dengan penyerahan naskah publikasi penelitian.

Tabel 3.10 Jadwal Penelitian

No. Kegiatan

Bulan Pelaksanaan tahun 2018

Juli Agustus September Oktober November 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4

asi sampai dengan

12. Sidang Akhir Skripsi

13.

Penyempurnaan

Naskah Akhir Skrispi

14.

Penggandaan Naskah

Akhir Skripsi dan Paper

15.

Pembuatan CD berisi

Naskah Akhir Skripsi,

Paper, dan Slide

Presentasi

16.

Penyerahan Naskah

Akhir Skripsi, Paper dan CD

BAB IV

HASIL DAN PEMBAHASAN

4.1 Klasifikasi data dengan Naive Bayes Classifier

Hasil dari data yang telah di proses melalui preprocessing data kemudian akan dilakukan klasifikasi data yang berupa klasifikasi sentimen dengan data acuan kata positif dan kata negatif dengan algoritma naive bayes.

4.1.1 Penentuan Data

Menentukan data untuk dilakukan klasifikasi menggunakan naive bayes sebagai berikut:

a) Data sampel : 5000 tweet b) Data latih : 795 data c) Data uji : 795 data 4.1.2 Kelas Positif dan Negatif

Kelas-kelas untuk melakukan klasifikasi data dengan acuan kata positif dan kata negatif sebagai berikut:

Tabel 4.1 Kelas negatif

. . 2265 tidak berkelanjutan 2266 tidak berperasaan

2267 tidak bertanggung jawab 2268 tidak bijaksana

4.1.3 Klasifikasi Data Training Kelas Positif

Berikut adalah klasifikasi data training dengan acuan kelas positif:

1. Penentuan Sampel data.

P(A|Sample) : sampel data yang belum diketahui kelas labelnya.

Tabel 4.3 Sample Data P(A|Sample).

2. Menghitung probabilitas kelas positif

Menghitung probabilitas dan menentukan kelas-kelas positif dari data yang belum diketahui kelasnya.

P(B|Ps) :Kelas label positif.

P(A|B) :Probabilitas terjadinya A|Sample jika B|Ps diketahui, peluang A bergantung dari nilai B.

P(B|A) :Probabilitas terjadinya B|Ps jika A|Sample diketahui, peluang B tergantung dengan peluang data sampel A

P(A) :Probabilitas A merupakan probabilitas dari total data A|Sample.

P(B) :Probabilitas B merupakan probabilitas dari total data B|Ps.

Tabel 4.4 Probabilitas kelas label positif

3. Total probabilitas dari kelas label positif

Tabel 4.5 Total probabilitas kelas label positif

No. POSITIF Total Probabilitas Kelas Label Positif 1 0,002515723

2 0

3 0,001257862 4 0

5 0,001257862 6 0,001257862

. .

. .

792 0

793 0,001257862 794 0

795 0,001257862

4.1.4 Klasifikasi Data Training Kelas Negatif

4.1.4 Klasifikasi Data Training Kelas Negatif

Dokumen terkait