Pre-processing - Gambaran Umum Sistem

BAB III METODOLOGI PENELITIAN

3.3 Gambaran Umum Sistem

3.3.2 Pre-processing

Pre-processing merupakan tahap awal dari proses sistem analisis sentimen ini.

Pada tahap ini data awal teks opini akan diolah menjadi yang siap pakai untuk proses di tahap selanjutnya.

3.3.2.1 Case Folding

Tahap ini bekerja dengan cara merubah seluruh kata menjadi format yang sama. Tahapan ini sering digunakan untuk mengubah kata menjadi hurup kecil atau lowercase.

Berikut ialah langkah-langkah algoritma penggunaan case folding : 1. Terima data teks input.

2. Baca setiap karakter dari teks yang diinputkan.

3. Ubah semua karakter hurup menjadi hurup kecil lower case.

Adapun gambar berikut ini menunjukan potongan source code dari proses case folding :

Gambar 3.2 Source code Case Folding

Berikut ialah contoh dari penggunaan case folding di dalam suatu kalimat :

Kalimat awal :

Presiden kita adalah seseorang yang Hebat dan Bijaksana

Hasil dari proses case folding :

presiden kita adalah seseorang yang hebat dan bijaksana

3.3.2.2 Tokenisasi

Tahap ini berkerja dengan cara membagi setiap kata di dalam teks yang diinput kedalam potongan-potongan kecil teks atau kata yang disebut token. Berikut ialah langkah-langkah algoritma penggunaan tokenisasi :

1. Terima data teks input.

2. Baca setiap kata dari teks yang diinputkan. 3. Pisahkan setiap kata dan tanda baca dengan spasi

4. Pisahkan dan bagi setiap kata dan karakter yang dipisahkan dengan spasi menjadi potongan potongan bagian kecil.

Adapun gambar berikut ini menunjukan potongan source code dari proses tokenisasi :

Gambar 3.3 Source code tokenisasi

Berikut ialah contoh dari penggunaan tokenisasi di dalam suatu kalimat :

Kalimat awal :

presiden kita adalah seseorang yang hebat dan bijaksana

Hasil dari proses tokenisasi :

{presiden}{kita}{adalah}{seseorang}{yang}{hebat} {dan}{bijaksana}

3.3.2.3 Normalisasi

Setelah data melewati proses tokenisasi, langkah selanjutnya yang akan dikerjakan ialah normalisasi kata. Normalisasi digunakan untuk menyeragamkan kata yang memiliki makna sama namun penulisannya berbeda, bisa diakibatkan kesalahan penulisan, penyingkatan kata ataupun penggunaan bahasa gaul. Tahap normalisasi diimplementasikan

dengan menggunakan bantuan dari kamus kata normalisasi. Untuk kamus yang digunakan di dalam proses normalisasi ialah kamus bahasa gaul atau slang word yang diperoleh dari akun panggi pujangga pada situs github dot com mengenai topik berjudul formalization dictionary, data yang diperoleh berformat txt dan berisi 1.147 buah daftar kata yang akan digunakan dalam normalisasi. Data dapat dilihat pada url berikut, https://github.com/panggi/pujangga/blob/master/resource/formalization/f ormalizationdict.txt.

Berikut ialah beberapa referensi kata yang ditemukan di dalam kamus normalisasi :

Tabel 3.2 Kamus Normalisasi

Kata awal Kata akhir

cool keren lol tertawa bencong banci bokap ayah cewe perempuan cungkring kurus edan gila guys teman imoet imut item hitam

Berikut ialah langkah-langkah algoritma penggunaan normalisasi : 1. Terima data hasil tokenisasi.

2. Bandingkan dan periksa ketersediaan data yang diinput dengan data

before yang ada di kamus kata daftar normalisasi.

3. Jika langkah 2 ditemukan, maka transformasikan data value menjadi serupa dengan value kolom after di kamus kata daftar normalisasi. 4. Jika langkah 2 tidak ditemukan, maka data akan dianggap sebagai

Adapun gambar berikut ini menunjukan potongan source code dari proses normalisasi :

Gambar 3.4 Source code normalisasi

Berikut ialah contoh dari penggunaan tahap normalisasi di dalam suatu kalimat :

Kalimat awal :

{presiden}{kita}{adlah}{seseorang}{yg}{hebat}{&} {bijaksana}

Hasil dari proses normalisasi

{presiden}{kita}{adalah}{seorang}{yang}{hebat} {dan}{bijaksana}

3.3.2.4 Stemming

Tahap ini dilakukan setelah tahap tokenisasi dikerjakan. Proses ini berkerja dengan mengembalikan kata menjadi kata bentuk dasarnya. Tahap ini diimplementasikan dengan menggunakan bantuan dari kamus kata baku yang perlu dipersiapkan terlebih dahulu. Untuk kamus kata bakunya diperoleh dari situs github dot com pada akun kirralabs yang memuat topik berjudul indonesia word tagged, data yang diperoleh berformat txt dan berisi 41.409 daftar kata baku yang dapat dilihat pada alamat url berikut ini, https://github.com/kirralabs/indonesian-word-tagged/blob/master/resources/word-root.txt.

Berikut ialah beberapa daftar kata yang terdapat didalam kamus

suka, senang, benci, marah, takut, kalah, pulang, jahat, berani, malas, lembut, cerdas, pintar, bodoh, cinta, sayang, baik, rusah, sombong

Berikut ini ialah langkah-langkah algoritma dari penggunaan proses

stemming :

1. Terima data hasil tokenisasi.

2. Bandingkan dan periksa ketersediaan data yang diinput dengan data yang ada pada kamus kata daftar kata baku.

3. Jika langkah 2 ditemukan, maka data sudah dikatakan sebagai bentuk dasar.

4. Jika langkah 2 tidak ditemukan, maka data akan diolah dengan aturan penghilangan awalan dan akhiran imbuhan teks. Lalu bandingkan lagi seperti langkah 2.

5. Jika data pada langkah 4 tidak juga ditemukan, maka data akan dianggap sebagai bentuk dasar.

Adapun gambar berikut ini menunjukan potongan source code dari proses stemming :

Gambar 3.5 Source code stemming

Berikut ialah contoh dari penggunaan tahap stemming dalam suatu kalimat :

Kalimat awal :

{saya}{sangat}{menyenangi}{presiden}{kita}{kar ena}{beliau}{sudah}{membanggakan}{negeri}{ini}

Hasil dari proses stemming :

{saya}{sangat}{senang}{presiden}{kita}{karena} {beliau}{sudah}{bangga}{negeri}{ini}

3.3.2.5 Filtering Stopword

Tahap berikutnya merupakan tahap filtering. Tahap ini dapat dikerjakan dengan dua cara, yang pertama yaitu dengan stopword removal dan yang kedua ialah dengan wordlist priority. Pada penelitian ini, akan digunakan

filtering dengan stopword removal. Stopword removal ialah tahap

pembuangan daftar kata yang tidak penting dan yang tidak deskriptif di dalam teks. Contoh kata yang termasuk stopword ialah yang, dan, akan, adalah dan lain sebagainya. Tahapan ini diimplementasikan dengan memanfaatkan daftar kata stopword yang telah disiapkan sebelumnya. Adapun daftar kata stopword yang digunakan pada penelitian ini diperoleh dari akun milik beam os pada situs github dot com yang memuat topik mengenai word embedding utilities. Data yang diperoleh berformat txt dan berisi sebanyak 759 daftar kata stopword dengan url https://github.com/abhimantramb/elang/blob/master/word2vec/utils/stop words-list/aliakbars-bilp.txt.

Berikut ialah beberapa daftar kata yang terdapat didalam kamus stopword itu :

yang, untuk, pada, ke, para, namun, menurut, antara, dia, dua, ia, seperti, jika, jika, sehingga, kembali, dan, tidak, ini, karena, kepada, oleh, saat, harus, setelah, belum, kami, sekitar, bagi, serta, di, dari, telah, sebagai, masih, hal, ketika, adalah, itu, dalam, bisa, bahwa, atau, hanya, kita, dengan, akan, juga, ada, mereka, sudah, saya, terhadap

Berikut ialah langkah-langkah algoritma penggunaan filtering dengan

stopword removal :

2. Bandingkan dan periksa ketersediaan data yang diinput dengan data yang ada pada kamus kata daftar kata stopword.

3. Jika langkah 2 ditemukan, maka hapus data tersebut dari daftar. 4. Jika langkah 2 tidak ditemukan, maka data dianggap bukan stopword. Adapun gambar berikut ini menunjukan potongan source code dari proses filtering stopword :

Gambar 3.6 Source code filtering stopword

Berikut ialah contoh penggunaan tahap stopword removal dalam suatu kalimat :

Kalimat awal :

{presiden}{kita}{adalah}{seseorang}{yang}{hebat} {dan}{bijaksana}

Hasil dari proses stopword :

{presiden}{kita}{seseorang}{hebat}{bijaksana}

Dalam dokumen ANALISIS SENTIMEN TERHADAP TOKOH PUBLIK PADA TWITTER DENGAN PENDEKATAN LEXICAL BASED SKRIPSI. Diajukan untuk Memenuhi Salah Satu Syarat (Halaman 36-43)