Text Preprocessing - Tinjauan Pustaka - HASIL PENELITIAN DAN PEMBAHASAN

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

2.1. Tinjauan Pustaka

2.1.7. Text Preprocessing

Dalam melakukan text mining, teks dokumen yang digunakan harus dipersiapkan terlebih dahulu, setelah itu baru dapat digunakan untuk proses utama.

Berdasarkan ketidak teraturan struktur data teks, maka proses text mining memerlukan beberapa tahap awal. Salah satu implementasi dari text mining adalah tahap Text Preprocessing (Informatikalogi, 2016a). Text preprocessing diperlukan untuk mengkonversi format tidak terstruktur menjadi representasi yang terstruktur dan multidimensi (Aggarwal, 2018)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri Tahap Text Preprocessing adalah tahapan dimana aplikasi melakukan seleksi data yang akan diproses pada setiap dokumen. Secara umum proses yang dilakukan dalam tahapan preprocessing ini meliputi (Informatikalogi, 2016b):

Sumber: (Informatikalogi, 2016b)

Gambar 2.2. Tahapan Proses Text Mining (Text Preprocessing)

1. Case Folding

Tidak semua dokumen teks konsisten dalam penggunaan huruf kapital. Oleh karena itu, peran Case Folding dibutuhkan dalam mengkonversi keseluruhan teks dalam dokumen menjadi suatu bentuk standar (biasanya huruf kecil atau lowercase). Sebagai contoh, user yang ingin mendapatkan informasi

“KOMPUTER” dan mengetik “KOMPOTER”, “KomPUter”, atau

“komputer”, tetap diberikan hasil retrieval yang sama yakni “komputer”.

Case folding adalah mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf ‘a’ sampai dengan ‘z’ yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter. Contoh dari tahap ini seperti yang ada dalam Gambar 2.3

Sumber: (Informatikalogi, 2016b)

Gambar 2.3. Proses Case Folding

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri 2. Tokenizing

Tahap Tokenizing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. Contoh dari tahap ini dapat dilihat pada Gambar 2.4.

dibawah ini.

Sumber: (Informatikalogi, 2016b)

Gambar 2.4. Proses Tokenizing

Tokenisasi secara garis besar memecah sekumpulan karakter dalam suatu teks ke dalam satuan kata, bagaimana membedakan karakter-karakter tertentu yang dapat diperlakukan sebagai pemisah kata atau bukan. Sebagai contoh karakter whitespace, seperti enter, tabulasi, spasi dianggap sebagai pemisah kata.

Namun untuk karakter petik tunggal (‘), titik (.), semiko lon (;), titik dua (:) atau lainnya, dapat memiliki peran yang cukup banyak sebagai pemisah kata. Dalam memperlakukan karakter-karakter dalam teks sangat tergantung pada kontek aplikasi yang dikembangkan. Pekerjaan tokenisasi ini akan semakin sulit jika juga harus memperhatikan struktur bahasa (grammatikal).

Gambar di atas merupakan gambaran dan hasil proses tokenizing. Pada gambar tersebut diperlihatkan serangkaian kalimat utuh, yang dipisahkan oleh spasi setiap katanya, setelah melalui proses tokenizing maka kalimat tersebut menjadi sekumpulan array yang setiap selnya berisi kata-kata yang ada pada kalimat tersebut. Pada proses tokenizing biasanya juga ditambahkan informasi jumlah kemunculan setiap kata pada kalimat tersebut.

3. Filtering

Tahap Filtering adalah tahap mengambil kata-kata penting dari hasil token.

Bisa menggunakan algoritma stoplist (membuang kata kurang penting) atau wordlist (menyimpan kata penting). Stoplist/stopword adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words. Contoh stopwords adalah “yang”, “dan”, “di”, “dari” dan

(Teks Input)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri seterusnya. Data stopword dapat diambil dari jurnal Fadillah Z Tala berjudul ”A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia”. Contoh dari tahap ini seperti yang ada dalam Gambar 2.5.

Sumber: (Informatikalogi, 2016b)

Gambar 2.5. Proses Filtering

Pada proses ini kata-kata yang dianggap tidak mempunyai makna seperti kata sambung akan dihilangkan. Kata-kata seperti “dari”, “yang”, “di”, dan “ke” adalah beberapa contoh kata-kata yang berfrekuensi tinggi dan dapat ditemukan hampir dalam setiap dokumen (disebut sebagai stopword).

Penghilangan stopword ini dapat mengurangi ukuran index dan waktu pemrosesan, selain itu juga dapat mengurangi level noise.

Namun terkadang stopping tidak selalu meningkatkan nilai retrieval. Pada proses ini biasanya digunakan daftar stopword yang tersimpan dalam suatu tabel basis data, yang nantinya digunakan sebagai acuan penghilangan kata.

Daftar stopword berbeda untuk setiap bahasanya. Pembangunan daftar stopword (disebut stoplist) yang kurang hati-hati dapat memperburuk kinerja sistem Information Retrieval (IR). Belum ada suatu kesimpulan pasti bahwa penggunaan stopping akan selalu meningkatkan nilai retrieval, karena pada beberapa penelitian, hasil yang didapatkan cenderung bervariasi.

4. Stemming

Proses stemming adalah proses untuk mencari root dari kata hasil dari proses filtering. Pencarian root sebuah kata atau biasa disebut dengan kata dasar dapat memperkecil hasil indeks tanpa harus menghilangkan makna. Pembuatan

(Hasil Token)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri indeks dilakukan karena suatu dokumen tidak dapat dikenali langsung oleh suatu Sistem Informasi Temu Kembali atau Information Retrieval System (IRS). Oleh karena itu, dokumen tersebut terlebih dahulu perlu dipetakan ke dalam suatu representasi dengan menggunakan teks yang berada di dalamnya.

Teknik Stemming diperlukan selain untuk memperkecil jumlah indeks yang berbeda dari suatu dokumen, juga untuk melakukan pengelompokan kata-kata lain yang memiliki kata dasar dan arti yang serupa namun memiliki bentuk atau form yang berbeda karena mendapatkan imbuhan yang berbeda.

Sebagai contoh kata bersama, kebersamaan, menyamai, akan distem ke root word-nya yaitu “sama”. Namun, seperti halnya stopping, kinerja stemming juga bervariasi dan sering tergantung pada domain bahasa yang digunakan.

Proses stemming pada teks berbahasa Indonesia berbeda dengan stemming pada teks berbahasa Inggris. Pada teks berbahasa Inggris, proses yang diperlukan hanya proses menghilangkan sufiks. Sedangkan pada teks berbahasa Indonesia semua kata imbuhan baik itu sufiks dan prefiks juga dihilangkan.

Sumber: (Informatikalogi, 2016b)

Gambar 2.6. Proses Stemming

Gambar di atas adalah contoh stemming dalam Bahasa Indonesia. Pada gambar tersebut diperlihatkan kata asal membela diubah menjadi kata dasar yaitu bela. Kemudian kata menguatnya dikembalikan kebentuk dasar menjadi kuat.

(Hasil filtering) (Hasil Stemming)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri 2.1.8. Gata Framework

Gata Framework adalah sebuah tools text processing online yang diciptakan oleh Dr. Windu Gata, M.Kom untuk mengubah data teks yang tidak terstruktur menjadi data teks terstruktur sehingga data siap digunakan pada teknik pemodelan yang sudah ditentukan. Tools tersebut dapat diakses dengan alamat http://www.gataframework.com

Gambar 2.7. Gata Framework

Dalam dokumen KOMPARASI ALGORITMA KLASIFIKASI K-NEAREST NEIGHBOR DAN SUPPORT VECTOR MACHINE PADA LAYANAN KOMPLAIN MAHASISWA TESIS (Halaman 28-33)