Klasifikasi Novel Sesuai dengan Genre Menggunakan TF-IDF

(1)

KLASIFIKASI NOVEL SESUAI DENGAN GENRE MENGGUNAKAN TF-IDF

SKRIPSI

RUDYANTO BUDIMAN P 091402084

PROGRAM STUDI S1 TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA

(2)

KLASIFIKASI NOVEL SESUAI DENGAN GENRE

MENGGUNAKAN TF-IDF

SKRIPSI

Diajukan untuk melengkapi tugas dan memenuhi syarat mencapai gelar Sarjana Teknologi Informasi

RUDYANTO BUDIMAN P 091402084

PROGRAM STUDI S1 TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA

(3)

ii

PERSETUJUAN

Judul : KLASIFIKASI NOVEL SESUAI DENGAN GENRE

MENGGUNAKAN TF-IDF

Kategori : SKRIPSI

Nama : RUDYANTO BUDIMAN P

Nomor Induk Mahasiswa : 091402084

Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI

Fakultas : ILMU KOMPUTER DAN TEKNOLOGI

INFORMASI (FASILKOM-TI) UNIVERSITAS SUMATERA UTARA

Diluluskan di Medan, Juni 2015

Komisi Pembimbing :

Pembimbing 2 Pembimbing 1

Baihaqi Siregar, S.Si.,M.T Mohammad Fadly Syahputra, B.Sc, M.Sc.IT

NIP. 197902082010121002 NIP. 198301292009121003

Diketahui / Disetujui oleh

Program Studi S1 Teknologi Informasi Ketua,

(4)

PERNYATAAN

KLASIFIKASI NOVEL SESUAI DENGAN GENRE MENGGUNAKAN TF-IDF

SKRIPSI

Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa

kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

Medan, Juni 2015

RUDYANTO BUDIMAN P

(5)

iv

UCAPAN TERIMA KASIH

Segala puji dan syukur penulis panjatkan kepada Tuhan Yesus Kristus atas segala berkat dan pengasihanNya yang sungguh berlimpah, sehingga penulis dapat menyelesaikan skripsi ini sebagai syarat untuk memperoleh gelar Sarjana Teknologi Informasi Program Studi S1 Teknologi Informasi Universitas Sumatera Utara.

Penyelesaian skripsi ini tidak terlepas dari bantuan dari berbagai pihak, untuk itu, penulis ingin mengucapkan terima kasih yang sebesar-besarnya kepada:

1. Kedua orangtua penulis yang telah memberikan dukungan moril dan spiritual, alm Ir.Nelson Eddy Siahaan.(+) dan almh Dra.Bonur Rulyanna Sitorus.(+) yang terlebih dahulu meninggalkan dunia saat masa akhir perkuliahan penulis, kedua adik saya Stephany Novianty Siahaan SE, dan Silvia Pratiwi Yunisari Siahaan yang terus memberikan motivasi dan dukungan.

2. Bapak M.Fadly Syahputra B.Sc.,M.Sc.,IT dan Bapak Baihaqi Siregar,S.Si.,MT selaku pembimbing yang telah banyak meluangkan waktu dan pikirannya, memotivasi dan memberikan kritik dan saran kepada penulis.

3. Bapak M. Anggia Muchtar ST.,MM.IT dan Bapak Dani Gunawan,ST.,M.T yang telah bersedia menjadi dosen pembanding yang telah memberikan kritik dan saran kepada penulis.

4. Ketua dan Sekretaris Program Studi Teknologi Informasi, Bapak M. Anggia Muchtar, ST.,MM.IT dan Bapak M. Fadly Syahputra, B.Sc.,M.Sc.IT.

5. Seluruh Dosen dan Staff pegawai di Program Studi S1 Teknologi Informasi

6. Terima kasih juga penulis ucapkan kepada teman-teman: Fernando, Alex, Christop, Alman, Andi, Suando, Tony, Leo, Ranap, Juki, Salman, Icha, Amira, Fadullah, Fadli, Yanna, seluruh teman angkatan 09 Teknologi Informasi, seluruh abang kakak dan adik di jurusan Teknologi Informasi yang tidak dapat disebutkan satu per satu, Vanesa Felicia, Bruno, Karina, Mewati, J.sirait. Junnie hutabarat, dan Leonardi sitanggang,

(6)

ABSTRAK

Novel memiliki beberapa genre antara lain genre romantis, horror, misteri, inspiratif dan masih banyak lagi. Namun pada saat ini pengklasifikasian novel kedalam genre-genre masih dilakukan secara manual. Oleh sebab itu dibutuhkan suatu sistem yang dapat mengklasifikasikan novel kedalam genrenya masing-masing secara otomatis. Hal ini dilakukan karena banyaknya genre dari novel tersebut, sehingga sistem ini nantinya dapat membantu pembaca, penerbit dan penulis yang hendak membuat dan membaca novel untuk mengetahui secara singkat genre novel yang sedang dibaca atau ditulisnya. Penelitian ini menggunakan text mining dan TF-IDF untuk proses pengklasifikasian novel. Text

mining dapat diartikan sebagai penemuan informasi yang baru yang sebelumnya

tidak diketahui oleh komputer dengan mengekstrak informasi secara otomatis dari sumber yang berbeda. Sedangkan data resource digunakan sebagai acuan dalam mengklasifikasi novel. Pada penelitian ini novel dibagi menjadi 4 kategori: horor,inspiratif,misteri dan romantis. Text yang dimasukan berupa judul, penulis, dan sinopsis. Sinopsis inilah yang akan diproses untuk menghasilkan klasifikasi genre novel. Proses pertama adalah proses persiapan dokumen dan seleksi dokumen. Kemudian dilanjutkan dengan proses pembobotan kata menggunakan

TF-IDF, kemudian klasifikasi dilakukan dengan membandingkan nilai kemiripan

diantara teks dan sebuah node yang ada di data resource. Teks yang diperoleh akan diklasifikasikan dalam sebuah genre atau node yang ada jika memiliki nilai kemiripan paling tinggi di salah satu node di data resource. Pengujian sistem dilakukan dengan mengambil 100 sinopsis novel online secara acak dan menghasilkan tingkat akurasi sebesar 75%.

(7)

vi

NOVEL CLASSIFICATION BASED ON GENRE USING TF-IDF

ABSTRACT

Novel has many genres such as romantic, horror, mystery, inspirational, and many more. However, today the classification of novel into genre is done manually. Therefore, we need a novel classification system which can classify novels into their each genre automatically. A novel classification system is needed because novel has many genres, so this system will help the reader, the publisher, and the writer who writing and reading a novel to know shortly about the genre of novel that they read or write. This research is using text mining method with TF-IDF method for classifying the novel. Text mining is a process to discover new information which is not known by the computer before by extracting the information automatically from the different sources. Whereas, data resource is used a as reference for classifying novel. This research will divide novel into four categories : horror, inspirational, mystery, and romantic. The text which is entered into the program such as title, writer, and synopsis. The synopsis will be processed to classify the genre of novel. The first step is preparing the document and selecting the document. The next step is giving a weight into word using TF-IDF

method, then comparing the similarity between text and a node in data resource to do the classification process. The text that has been obtained will be classified into a genre or an existing node if it has the highest similarity value in one node in data

resource. The system testing collects randomly 100 synopsis from electronic novel

and the result is 75% accuracy rate from the testing.

(8)

DAFTAR ISI

Hal

Persetujuan ii

Pernyataan iii

Ucapan Terima Kasih iv

Abstrak v

Abstract vi

Daftar Isi vii

Daftar Tabel x

Daftar Gambar xi

Bab 1 PENDAHULUAN 1

1.1 Latar Belakang 1

1.2 Rumusan Masalah 3

1.3 Batasan Masalah 3

1.4 Tujuan Penelitian 4

1.5 Manfaat Penelitian 4

1.6 Metodologi Penelitian 4

1.7 Sistematika Penulisan 5

Bab 2 LANDASAN TEORI

2.1 Text Mining 7

2.1.1 Tahapan Text mining 7

(9)

viii

2.4 Novel 13

2.5 Tesaurus Bahasa Indonesia 14

2.6 Penelitian Terdahulu 15

Bab 3 ANALISIS DAN PERANCANGAN

3.1 Analisis Data 17

3.1.1 Novel 17

3.1.2 Data Resource 18

3.2 Analisis Sistem 19

3.2.1 Data Set 20

3.2.2 Proses Persiapan dan seleksi dokumen 21

3.3.2.1 Tokenisasi 21

3.3.2.2 Pembuangan Stopword 23

3.3.2.3 Stemming 27

3.3.3 Pembobotan Kata dengan TF-IDF 30

3.3 Perancangan Tampilan Antarmuka 35

3.3.1 Rancangan Tampilan Halaman Utama 35

3.3.2 Rancangan Tampilan Halaman Data Resource 36

3.3.3 Rancangan Tampilan Halaman About 36

3.3.4 Rancangan Tampilan Halaman Proses 37

Bab 4 IMPLEMENTASI DAN PENGUJIAN

4.1 Implementasi Sistem 39

4.1.1 Spesifikasi perangkat keras dan perangkat lunak 39

4.1.2 Tampilan Halaman Utama 40

4.1.3 Tampilan Halaman Data Resource 40

4.1.4 Tampilan Halaman About 41

4.1.5 Tampilan Halaman Proses 42

4.2 Hasil Pengujian Sistem 44

Bab 5 KESIMPULAN DAN SARAN

(10)

5.2 Saran 54

(11)

x

DAFTAR TABEL

Hal

Tabel 2.1 Tabel kombinasi awalan akhiran yang tidak diijinkan 10

Tabel 2.2 Tabel aturan peluruhan kata dasar 10

Tabel 2.3 Tabel Penelitian Terdahulu 16

Tabel 3.1 Tabel Data Resource 18

Tabel 3.2 Tabel Tokenisasi 22

Tabel 3.3 Stopword list 24

Tabel 3.4 Hasil Filtering Proses Stopword 26

Tabel 3.5 Tahapan Hasil Stemming 30

Tabel 3.6 Hasil Pembobotan Kata 31

Tabel 3.7 Hasil Pengklasifikasian Genre Novel 33

(12)

DAFTAR GAMBAR

Halaman

Gambar 3.1 Arsitektur Umum 20

Gambar 3.2 Input Sinopsis Novel 20

Gambar 3.3 Flowchart Proses Tokenisasi 21

Gambar 3.4 Flowchart Proses Stopword 24

Gambar 3.5 Flowchart Proses Steeming 27

Gambar 3.6 Rancangan Tampilan Halaman Utama 35

Gambar 3.7 Rancangan Tampilan Data Resource 36

Gambar 3.8 Rancangan Tampilan Halaman About 36

Gambar 3.9 Rancangan Tampilan Halaman Proses 37

Gambar 3.10 Rancangan Tampilan Halaman Hasil Proses 38

Gambar 3.11 Rancangan Tampilan Halaman Detail Proses 38

Gambar 4.1 Tampilan halaman utama 40

Gambar 4.2 Tampilan Halaman Data Resource 41

Gambar 4.3 Tampilan halaman about 41

Gambar 4.4 Tampilan halaman proses 42

Gambar 4.5 Tampilan halaman hasil proses 43

(13)

v

ABSTRAK

Novel memiliki beberapa genre antara lain genre romantis, horror, misteri, inspiratif dan masih banyak lagi. Namun pada saat ini pengklasifikasian novel kedalam genre-genre masih dilakukan secara manual. Oleh sebab itu dibutuhkan suatu sistem yang dapat mengklasifikasikan novel kedalam genrenya masing-masing secara otomatis. Hal ini dilakukan karena banyaknya genre dari novel tersebut, sehingga sistem ini nantinya dapat membantu pembaca, penerbit dan penulis yang hendak membuat dan membaca novel untuk mengetahui secara singkat genre novel yang sedang dibaca atau ditulisnya. Penelitian ini menggunakan text mining dan TF-IDF untuk proses pengklasifikasian novel. Text

mining dapat diartikan sebagai penemuan informasi yang baru yang sebelumnya

tidak diketahui oleh komputer dengan mengekstrak informasi secara otomatis dari sumber yang berbeda. Sedangkan data resource digunakan sebagai acuan dalam mengklasifikasi novel. Pada penelitian ini novel dibagi menjadi 4 kategori: horor,inspiratif,misteri dan romantis. Text yang dimasukan berupa judul, penulis, dan sinopsis. Sinopsis inilah yang akan diproses untuk menghasilkan klasifikasi genre novel. Proses pertama adalah proses persiapan dokumen dan seleksi dokumen. Kemudian dilanjutkan dengan proses pembobotan kata menggunakan

TF-IDF, kemudian klasifikasi dilakukan dengan membandingkan nilai kemiripan

diantara teks dan sebuah node yang ada di data resource. Teks yang diperoleh akan diklasifikasikan dalam sebuah genre atau node yang ada jika memiliki nilai kemiripan paling tinggi di salah satu node di data resource. Pengujian sistem dilakukan dengan mengambil 100 sinopsis novel online secara acak dan menghasilkan tingkat akurasi sebesar 75%.

(14)

NOVEL CLASSIFICATION BASED ON GENRE USING TF-IDF

ABSTRACT

Novel has many genres such as romantic, horror, mystery, inspirational, and many more. However, today the classification of novel into genre is done manually. Therefore, we need a novel classification system which can classify novels into their each genre automatically. A novel classification system is needed because novel has many genres, so this system will help the reader, the publisher, and the writer who writing and reading a novel to know shortly about the genre of novel that they read or write. This research is using text mining method with TF-IDF method for classifying the novel. Text mining is a process to discover new information which is not known by the computer before by extracting the information automatically from the different sources. Whereas, data resource is used a as reference for classifying novel. This research will divide novel into four categories : horror, inspirational, mystery, and romantic. The text which is entered into the program such as title, writer, and synopsis. The synopsis will be processed to classify the genre of novel. The first step is preparing the document and selecting the document. The next step is giving a weight into word using TF-IDF

method, then comparing the similarity between text and a node in data resource to do the classification process. The text that has been obtained will be classified into a genre or an existing node if it has the highest similarity value in one node in data

resource. The system testing collects randomly 100 synopsis from electronic novel

and the result is 75% accuracy rate from the testing.

(15)

BAB I

PENDAHULUAN

1.1 Latar Belakang

Di zaman yang serba teknologi seperti saat ini, informasi menjadi salah satu kebutuhan

yang sangat penting bagi masyarakat. Perkembangan akan informasi tersebut menuntut

adanya suatu media penyedia informasi yang dapat diakses dan dinikmati oleh setiap orang

secara mudah, tepat, dan cepat. Informasi tersebut biasanya dapat kita peroleh dari

beberapa sumber, seperti media cetak maupun media eletronik.

Media cetak biasanya kita peroleh melalui koran, majalah, dan lain lain. Sedangkan

untuk media eletronik biasanya dapat kita peroleh dari televisi, radio, internet, dan lain

lain. Salah satu media pencarian informasi yang paling populer saat ini adalah penggunaan

internet. Internet sering digunakan dalam pencarian informasi mengenai jurnal, artikel

ilmiah, komik, novel dan lain-lain.

Kata novel berasal dari bahasa Italia, novella, yang berarti "sebuah kisah atau sepotong berita". Dalam Kamus Besar Bahasa Indonesia novel adalah karangan prosa yang

panjang mengandung rangkaian cerita kehidupan seseorang dengan orang di sekelilingnya

dengan menonjolkan watak dan sifat tiap pelaku. Penulis novel disebut dengan novelis

.

(16)

memiliki beberapa genre antara lain genre romantis, horror, misteri,, inspiratif dan

masih banyak lagi. Namun didalam membagi novel kedalam genre-genre tersebut saat

ini masih dilakukan secara manual. Oleh sebab itu dibutuhkan suatu sistem yang dapat

mengklasifikasikan novel kedalam genrenya masing-masing secara otomatis

dikarenakan banyaknya genre dari novel tersebut, sehingga nantinya dapat membantu

pembaca, penerbit dan penulis yang hendak membuat novel untuk mengetahui secara

singkat genre novel yang sedang dibaca atau ditulisnya.

Beberapa penelitian telah dilakukan untuk sistem pengklsifikasian antara lain

metode Ontologi (Basnur Wira Prajna.,Sensuse Indra Dana.,2010, Pengklasifikasian

otomatis berbasis Ontologi untuk artikel berita berbahasa Indonesia), metode Naive

Bayes (Kurniawan, B, dkk. 2012, Klasifikasi konten berita dengan metode text

mining), (Wibisono, Y.,2005,Klasifikasi berita berbahasa indonesia menggunakan

Naïve Bayes classifier internal). Pada sistem yang akan dibangun, penulis

menggunakan metode TF-IDF.

Dari latar belakang di atas, maka penulis akan membangun suatu sistem yang

berfungsi untuk mengklasifikasikan novel sesuai genre nya masing-masing memakai

TF-IDF , dengan judul “Klasifikasi Novel Sesuai Dengan Genre Menggunakan

TF-IDF”. Diharapkan sistem yang akan dibuat dapat menghemat waktu dan dapat

memudahkan pembaca, penulis novel dan penerbit dalam mengklasifikasikan novel

(17)

3

1.2 Rumusan Masalah

Dengan banyaknya genre novel, maka proses pengklasifikasian novel sesuai genre

akan semakin sulit. Maka diperlukan cara untuk menglasifikasikan novel sesuai

dengan genrenya secara otomatis.

1.3 Batasan Masalah

Batasan masalah pada penelitian ini yaitu :

1. Genre dibatasi 4 jenis genre yaitu genre horror, inspiratif, misteri, romantis.

2. Novel yang digunakan adalah novel dalam Bahasa Indonesia.

3. Novel yang diambil dari media novel online.

4. Text yang akan dimasukan berupa judul, nama penulis, dan sinopsis dari novel

tersebut.

1.4 Tujuan Penelitian

Penelitian ini bertujuan untuk menghasilkan suatu sistem yang berfungsi untuk

mengklasifikasikan novel sesuai dengan genre menggunakan Metode TF-IDF. Sistem

ini nantinya diharapkan dapat membantu dan mempermudah bagi seorang penulis

maupun seorang pembaca dalam hal penentuan genre novel yang sedang ditulis atau

dibacanya.

1.5 Manfaat Penelitian

Manfaat penelitian ini adalah sebagai berikut :

1. Mempermudah dalam pengklasifikasian novel berdasarkan genre

(18)

2. Sistem yang dibangun dapat meminimkan waktu untuk menentukan genre dari

suatu novel tanpa harus membaca novel secara keseluruhan.

1.6 Metodologi Penelitian

Tahapan - tahapan yang akan dilakukan pada penulisan skripsi ini adalah sebagai

berikut :

1. Studi Literatur

Studi literatur dilakukan dengan cara mengumpulkan bahan referensi yaitu

berupa buku, artikel, paper, jurnal, makalah, maupun situs-situs dari internet.

Studi literatur yang dilakukan berkaitan dengan sistem klasifikasi dan metode

TF-IDF yang berkaitan dengan judul skripsi.

2. Identifikasi Masalah

Pada tahap ini, dilakukan identifikasi masalah yang akan diselesaikan pada

aplikasi yang akan dibangun.

3. Analisis dan Perancangan

Pada tahap ini dilakukan analisis dan perancangan terhadap permasalahan

yang ada dan batasan masalah

4. Implementasi Sistem

Pada tahap ini dilakukan proses implementasi pengkodean program dalam

aplikasi komputer menggunakan bahasa pemrograman yang telah dipilih yang

(19)

5

5. Pengujian sistem

Pada tahap ini dilakukan proses pengujian dan percobaan terhadap sistem

sesuai dengan kebutuhan yang ditentukan sebelumnya serta memastikan

program yang dibuat berjalan seperti yang diharapkan.

6. Dokumentasi

Pada tahap ini dilakukan pembuatan dokumentasi dalam bentuk laporan tugas

akhir.

1.7Sistematika Penulisan

Penulisan skripsi ini terdiri dari lima bab dengan masing-masing bab secara singkat

dijelaskan sebagai berikut:

Bab 1 : Pendahuluan

Bab ini berisi berisikan latar belakang, rumusan masalah, batasan masalah, tujuan

penelitian, manfaat penelitian, metodologi penelitian, dan sistematika penulisan.

Bab 2 : Landasan Teori

Pada bab ini dibahas mengenai teori-teori pendukung penelitian skrispsi yaitu teori

Text Mining dan metode TF-IDF

Bab 3 : Analisis dan Perancangan Sistem

Pada bab ini berisikan paparan analisis terhadap permasalahan dan penyelesaian

persoalan terhadap metode TF-IDF serta identifikasi kebutuhan perancangan sistem.

Bab 4 : Implementasi dan Pengujian Sistem

Pada bab ini berisi implementasi perancangan sistem dari hasil analisis dan

perancangan yang sudah dibuat, serta menguji sistem untuk menemukan kelebihan

(20)

Bab 5 : Kesimpulan dan Saran

Pada bab ini berisikan kesimpulan yang didapatkan terhadap hasil penelitian skripsi

(21)

BAB 2

LANDASAN TEORI

Bab ini akan membahas landasan teori, penelitian terdahulu, kerangka pikir, dan

hipotesis yang mendasari penyelesaian permasalahan dalam pengklasifikasian novel

menggunakan TF-IDF.

2.1Text mining

Text mining dapat diartikan sebagai penemuan informasi yang baru yang sebelumnya

tidak diketahui oleh komputer dengan mengekstrak informasi secara otomatis dari

sumber yang berbeda. Kunci dari proses ini adalah menggabungkan informasi yang

berhasil diekstraksi dari berbagai sumber (Hearst, 2003). Sedangkan menurut

(Harlian, 2006) text mining didefinisikan sebagai data yang berupa teks yang biasanya

sumber data didapatkan dari dokumen, dengan tujuan adalah mencari kata-kata yang

dapat mewakili isi dari dokumen tersebut yang nantinya dapat dilakukan analisa

hubungan antar dokumen.

2.1.1 Tahapan Text mining

Tahapan text mining secara umum dibagi menjadi beberapa tahapan umum (Triawati,

2009).

1. Text Preprocessing

Text Preprocessing merupakan tahapan awal dari text mining yang bertujuan

mempersiapakan teks menjadi data yang akan mengalami pengolahan pada tahap

selanjutnya. Pada text mining, data mentah yang berisi informasi memiliki struktur

(22)

terstruktur sesuai kebutuhan, yaitu biasanya akan mejadi nilai-nilai numerik. Proses

ini disebut Text Preprocessing (Triawati, 2009).

Pada tahap ini, tindakan yang dilakukan adalah toLowerCase, dengan

mengubah semua karakter huruf menjadi huruf kecil, dan tokenizing yaitu proses

penguraian deskripsi yang semula berupa kalimat mejadi kata-kata kemudian

menghilangkan delimiter-delimiter seperti tanda koma (,), tanda titik (.), spasi, dan

karakter angka yang terdapat pada kata tersebut.(Weiss et al, 2005).

2. Seleksi fitur (Feature Selection)

Pada tahap ini akan dilakukan seleksi dengan mengurangi jumlah kata-kata

yang dianggap tidak penting dalam dokumen tersebut untuk menghasilkan proses

pengklasifikasian yang lebih efektif dan akurat (Do et al, 2006., Feldman &

Sanger,2007., Berry et al ,2007). Tahapan ini adalah dengan melakukan penghilangan

stopword dan juga mengubah kata-kata kedalam bentuk dasar terhadap kata yang

berimbuhan (Berry et al, 2010), (Feldman et al, 2007)

Stopword merupakan kosakata yang bukan merupakan ciri atau kata unik dari

suatu dokumen seperti kata sambung (Dragut et al, 2009). Yang termasuk stopword

yaitu “ di”, “pada”, ”sebuah”, ”karena”, ”oleh” dan sebagainya. Sebelum memasuki

tahapan penghilang stopword, daftar stopword harus dibuat terlebih dahulu. Jika

kata-kata yang termasuk stopword masuk dalam stoplist, maka kata tersebut akan dihapus

dari deskripsi sehingga sisanya dianggap sebagai kata-kata yang mencirikan isi

dokumen atau keywords. Setelah melalui tahap penghilangan stopword, tahap

selanjutnya adalah stemming. Stemming adalah proses pemetaan dan penguraian

berbagai bentuk dari suatu kata menjadi kata dasarnya (Tala, 2003). Tujuan

dilakukannya proses stemming adalah menghilangkan imbuhan-imbuhan berupa

prefix, suffix, maupun konfiks yang terdapat pada setiap kata. Apabila imbuhan tadi

tidak dihilangkan maka setiap kata akan disimpan didalam database, sehingga

nantinya akan menjadi beban di dalam database. Bahasa Indonesia memiliki aturan

morfologi maka proses stemming harus berdasarkan aturan morfologi bahasa

(23)

9

Proses stemming biasanya menggunakan algoritma. Algoritma stemming telah

dikembangkan untuk beberapa bahasa, seperti Algoritma Porter untuk teks bahasa

Inggris, Algoritma Porter untuk teks bahasa Indonesia, dan Algoritma Nazief dan

Adriani untuk teks bahasa Indonesia (Nazief & Adriani, 1996). Algoritma Nazief &

Adriani memiliki keakuratan yang lebih besar dibandingkan Algoritma Porter untuk

stemming dalam bahasa Indonesia (Agusta, 2009).

2.2Algoritma Nazief & Adriani

Algoritma Nazief & Adriani adalah salah satu algoritma untuk stemming bahasa

Indonesia. Adapun tahapan yang dimiliki dalam algoritma ini adalah (Nazief &

Adriani,1996):

1. Cari kata yang akan di stemming didalam kamus. Jika ditemukan maka

diasumsikan kata tersebut adalah root word maka algoritma berhenti.

2. Infection suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”) dibuang. Jika

berupa partikel (“-lah”, “-kah”, “-tah”, atau “-pun”) maka langkah ini diulangi untuk menghapus Passive Pronouns(“-ku”, “-mu”, atau “-nya”), jika ada

3. Hapus derivation suffixes (“-i”, “-an”, atau “-kan”). Jika kata ditemukan

dikamus, maka algoritma berhenti. Jika tidak, maka dilanjutkan ke langkah 3a

a. Jika “-an” telah dihapus dalam huruf terakhir dari kata tersebut

ditemukan dalam kamus, maka algoritma berhenti. Jika tidak, akan

dilanjutkan ke langkah 3b.

b. Akhiran yang dihapus (“-i”, “-an”, atau “-kan”) dikembalikan ke tahap

4. Hapus derivation prefix. 9”di-“ ,”ke-“, “se-“, “te-“, “be-“, dan “me-“) jika

pada langkah 3 ada sufiks yang dihapus maka pergi ke langkah 4a, jika tidak

pergi ke langkah 4b.

a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan seperti

pada tabel 2.1. jika ditemukan, maka algoritma berhenti, jika tidak

pergi ke langkah 4b.

b. For I=1 to 3, tentukan tipe awalan kemudian hapus awalan dan

lakukan perubahan pada kata dasar sesuai tabel peluruhan 2.2 jika root

(24)

algoritma berhenti. Jika awalan kedua sama dengan awalan pertama

maka algoritma berhenti.

5. Melakukan recoding.

6. Jika semua langkah selesai tetapi masih tidak berhasil, maka kata awal

diasumsikan sebagai root word. Proses selesai.

Tabel 2.1 Tabel kombinasi awalan akhiran yang tidak diijinkan (Adriani et al, 2007)

Awalan Akhiran yang tidak diijinkan

be- -i

di- -an

ke- -i, -kan

me- -an

se- -i, -kan

Tabel 2.2 Tabel aturan peluruhan kata dasar (Adriani et al, 2007)

Aturan Awalan Peluruhan

1 berV... ber-V..| be-rV..

2 belajar bel-ajar

3 berClerC2 Be-ClerC2.. dimana C1!= {'r'|'l'}

4 terV... ter-V... | te-rV...

5 terCer... ter-Cer... dimana C!==’r’

6 teClerC2 te-CleC2... dimana C1!=’r’

7 me{I|r|w|y}V... me-{I|r|w|y}V...

8 mem{b|f|v}... mem-{b|f|v}...

9 Mempe... m-pe...

(25)

11

11 men{c|d|j|z} men-{c|d|j|z}...

12 menV... me-nV...|me-tV...

13 meng{g|h|q|k}... meng-{g|h|q|k}...

14 mengV... meng-V...|meng-kV...

15 mengeC Meng-C

21 pem{rV|V}... pe-m{rV|V}...|pe-p{rV|V}

22 pen{c|d|j|z}... pen-{c|d|j|z}...

23 penV... pe-nV... | pe-tV...

24 Peng{g|h|q} peng-{g|h|q}

25 pengV peng-V |peng-kV

26 penyV pe-nya|peny-sV

27 pelV pe-IV...; kecuali untuk kata “pelajar”

28 PeCP pe-CP...dimana C!={r|w|y|I|m|n}

dan P!=’er’

29 perCerV per-CerV... dimana C!={r|w|y|I|m|n}

Untuk mengatasi keterbatasan pada algoritma di atas, maka ditambahkan

(26)

bentuk tunggal, contoh: kata “ berbalas-balasan”, “berbalas” dan “balasan”

memiliki root word yang sama yaitu “balas”, maka root wood “berbalas

-balasan” adalah “balas”. Sebaliknya, pada kata “bolak-balik”, “bolak” dan

“balik” memiliki root word yang berbeda, maka root word-nya adalah

“bolak-balik”.

2. Tambahan bentuk awalan dan akhiran serta aturannya.

a. Tipe awalan “mem-“, kata yang diawali dengan awalan “ memp-“ memiliki

tipe awalan “mem-“.

b. Tipe awalan “meng-“, kata yang diawali dengan awalan “mengk-“

memiliki tipe awalan “meng-“..

2.3 Term Frequency-Inverse Document Frequency (TF-IDF)

TF-IDF (Term Frequency-Inverse Document Frequency) merupakan metode statistic

numeric yang mencerminkan seberapa pentingnya sebuah kata dalam sebuah

dokumen atau korpus (Rajaraman et al, 2011). Hal ini sering digunakan sebagai faktor

bobot dalam pencarian informasi dan penambangan teks (text mining). Nilai TF-IDF

meningkat secara proporsional berdasarkan jumlah atau banyaknya kata yang muncul

pada dokumen, tetapi diimbangi dengan frekuensi kata dalam korpus. Variasi dari

skema pembobotanTF-IDFsering digunakan oleh mesin pencari sebagai alat utama

dalam mencetak nilai (scoring) dan peringkat (ranking) sebuah relevansi dokumen

yang diberikan user.

Term Frequency-Inverse document frequency (TF-IDF) adalah suatu metode

pembobotan kata dengan menghitung nilai TF dan juga menghitung kemunculan

sebuah kata pada dokumen teks. Pada pembobotan ini, jika kemunculan term pada

sebuah dokumen teks tinggi dan kemunculan term tersebut pada dokumen teks yang

lain rendah, maka bobotnya akan semakin besar. Sedangkan jika kemunculan term

pada dokumen teks lain tinggi, maka bobotnya akan semakin kecil. Tujuan

penghitungan IDF adalah untuk mencari kata-kata yang benar-benar

(27)

13

(1)

Dengan tf(i,j) adalah frekuensi kemunculan term j pada dokumen teks d i  D*, dimana i = 1,2,3,...,N, df(j) adalah frekuensi dokumen yang mengandung term j

dari semua koleksi dokumen, dan N adalah jumlah seluruh dokumen yang ada di

koleksi dokumen. Berdasarkan rumus diatas berapapun besarnya nilai tf(i,j), apabila

N= df(j) maka akan didapatkan hasil 0 (nol) untuk perhitungan idf. Untuk itu dapat

ditambahkan nilai 1 pada sisi idf, sehingga perhitungan untuk pembobotan dapat

dilihat pada rumus persamaan 2.

+1) (2)

2.4 Novel

Dari sekian banyak bentuk karya sastra yang ada saat ini seperti esai, novel, cerpen

dan lain-lain. Novel merupakan karya sastra yang paling populer, novel selalu

memiliki penggemar, baik itu remaja hingga dewasa, Menurut Kamus Besar Bahasa

Indonesia (KBBI), novel adalah karangan prosa yang panjang, mengandung rangkaian

cerita kehidupan seseorang dengan orang di sekelilingnya dengan menonjolkan watak

dan sifat setiap pelaku. Orang yang menulis novel adalah novelis. Novel memiliki

beberapa ciri yang paling utama, yaitu :

1. Memiliki alur/plot yang kompleks. Berbagai peristiwa dalam novel

ditampilkan saling berkaitan sehingga novel dapat bercerita panjang lebar,

membahas persoalan secara luas, dan lebih mendalam.

2. Tema dalam novel tidak hanya satu, tetapi muncul tema-tema sampingan.

Oleh karena itu, pengarang novel dapat membahas hampir semua segi

persoalan.

Genre merupakan cara penerbit, pembaca, atau penulis, membagi karya seni

berdasarkan kategori tertentu yang telah disepakati. Penerbit membutuhkan genre agar

mereka mudah menentukan pangsa pasar, serta bagaimana memasarkan sebuah buku.

Setiap genre mempunyai kategori masing-masing, serta formulanya yang berbeda satu

sama lain. Novel dibagi kedalam beberapa genre dintaranya (Forbes, Jamie M, 1998)

(28)

a. Horror adalah novel yang satu ini berisi cerita yang menegangkan, seram, dan

membuat pembaca berdebar-debar, pada umumnya bercerita tentang hal-hal

yang mistis atau seputar dunia gaib.

b. Inspiratif adalah adalah novel yang ceritanya mampu menginspirasi banyak

orang. Pada umumnya novel ini mempunyai pesan moral atau hikmah tertentu

yang dapat diambil oleh si pembaca novel. Sehingga pembaca akan termotivasi

atau mempunyai dorongan untuk melakukan hal yang lebih baik.

c. Misteri adalah sebuah novel yang memiliki cerita lebih rumit karena akan

menimbulkan rasa penasaran oleh si pembaca hingga akhir cerita.

d. Romantis adalah novel yang berceritakan seputar percintaan dan kasih sayang

dari awal cerita hingga akhir cerita.

2.5 Tesaurus Bahasa Indonesia

Kata tesaurus berasal dari bahasa Yunani, thesauros yang bermakna ‘khazanah’. Tesaurus mengalami perkembangan makna yakni ‘buku yang dijadikan sumber informasi’. Di dalam buku “Tesaurus Bahasa Indonesia Pusat Bahasa”, tesaurus berisi

seperangkat kata yang saling berhubungan maknanya. Pada dasarnya tesaurus

merupakan sarana yang digunakan untuk mengalihkan gagasan ke dalam sebuah kata

atau sebaliknya. Oleh sebab itu, tesaurus disusun berdasarkan gagasan atau tema.

Namun, untuk memudahkan pengguna dalam pencarian kata, tesaurus pun

berkembang, dan kini banyak tesaurus yang dikemas berdasarkan abjad.

Tesaurus berbeda dengan kamus, jika pada kamus informasi yang didapat

adalah tentang makna kata, sedangkan pada tesaurus sendiri dapat dicari kata yang

akan digunakan untuk mengungkapkan gagasan pengguna. Dengan demikian tesaurus

dapat membantu penggunanya dalam mengekspresikan atau mengungkapkan gagasan

sesuai dengan apa yang dimaksud. Sebagai contoh, pencarian kata lain untuk kata

“hewan”, pengguna tesaurus dapat mencari pada lema hewan.

Hewan n binatang, dabat,fauna,sato,satwa

Kata diatas tersebut merupakan sederetan kata yang terdapat pada kata hewan,

(29)

15

ini berguna juga dalam pengajaran bahasa. Di dalam buku tesaurus bahasa indonesia

pusat bahasa ini, hiponim dicantumkan pula karena didalam tesaurus biasanya

memuat makna yang saling bertalian atau berhubungan. Sehingga, pengguna dapat

dengan mudah memperoleh kata yang tepat sesuai dengan yang dikehendaki sehingga

pengguna dapat memanfaatkan kata itu untuk keperluan pragmatis.

2.6 Penelitian Terdahulu

Dalam melakukan penelitian, penulis membutuhkan beberapa bahan penelitian yang

sudah pernah dilakukan peneliti-peneliti lainnya mengenai masalah teknik

pengklasifikasian dan metode Ontologi.

(Februariyanti, 2012) berhasil mengimplementasikan metode ontologi dan

hasil eksperimen didapat struktur direktory dan struktur halaman web sesuai dengan

struktur ontology.

(Kurniawan, 2012) berhasil melakukan proses klasifikasi data berita secara

otomatis dan proses klasifikasi semakin akurat jika data latih yang digunakan dalam

pembelajaran berjumlah banyak. Untuk penelitian yang dilakukan oleh peneliti

(30)

Tabel 2.3.Tabel Penelitian Terdahulu

No Peneliti Tahun Judul penelitian Keterangan

1 Herny

Februariyanti

2012 Klasifikasi dokumen

berita teks bahasa

Indonesia

menggunakan

Ontologi

- klasifikasi menggunakan

TF-IDF dengan menghitung nilai

similaritas dengan file yang

ada pada file ontologi

- hasil dari pengklasifikasian

disimpan di directory local

dengan mengikuti struktur

ontology.

2 Bambang

Kurniawan

2012 Klasifikasi Konten Berita Dengan Metode Text Mining

- Klasifikasi data berita secara

otomatis dan proses klasifikasi

semakin akurat jika data latih

yang digunakan dalam

pembelajaran berjumlah

(31)

BAB 3

ANALISIS DAN PERANCANGAN SISTEM

Dalam bab ini berisi beberapa hal diantaranya seperti data yang digunakan, penerapan

algoritma dan analisis perancangan sistem dalam mengimplementasikan TF-IDF

dalam pengklasifikasian novel.

3.1. Analisis Data

Dalam penelitian ini data yang digunakan adalah data yang berhubungan dengan

novel seperti judul, sinopsis, dan pengarang novel tersebut. Dalam penelitian ini data

sinopsis dari novel tersebut akan diproses untuk menghasilkan klasifikasi novel

berdasarkan genre, seperti horor, misteri, romantis, dan inspiratif dengan

menggunakan TF-IDF. Data yang digunakan dalam penelitian ini adalah data yang

didapat dari media novel online dan Kamus Tesaurus Pusat Bahasa sebagai data

resource.

3.1.1. Novel

Novel merupakan karangan prosa yang panjang, mengandung rangkaian cerita

kehidupan seseorang dengan orang di sekelilingnya dengan menonjolkan watak dan

sifat setiap pelaku. Novel juga merupakan karya sastra yang paling populer dibaca.

Novel memiliki banyak genre, diantaranya adalah horor, inspiratif, misteri dan

romantis. Genre merupakan pengkategorian tanpa batas-batas yang jelas yang dibuat

oleh penerbit untuk mengkategorikan novel-novel yang ada

Novel dipilih karena novel merupakan karya sastra yang paling populer dari

karya sastra yang lain sehingga layak untuk dijadikan domain dalam penelitian ini.

Untuk data yang di input pada penelitian ini adalah berupa sinopsis novel, judul novel,

(32)

3.1.2. Data resource

Data resource digunakan sebagai keyword atau kata kunci dalam proses hitung

kemiripan yang berupa kata dasar. Keyword atau kata kunci didapat dari Tesaurus

Bahasa Indonesia Pusat Bahasa sebagai acuan untuk mencari kata-kata yang dapat

mewakili dari genre-genre novel yang diteliti. Berikut daftar kata kunci yang dapat

mewakili dari genre-genre novel yang didapat dari Tesaurus Bahasa Indonesia Pusat

Bahasa. Data resource dapat dilihat pada tabel 3.1.

Tabel 3.1Data Resource

2 inspirasi Ahli,ajar,akal,ambisi,andai,baik,belajar,benak,bijak,,budi,

capai,cemerlang, cendikiawan, cerdas, cerdik, cita, citra, coba,

damba,dapat, didik,diri, gagah, gagasan, gemar, genius, harap, ,hasil,

hasrat, ide,ideologi, ilham, ilmu, imajinatif, impi, impresi, ingat,

ingin,inpresi,intelek, inisiatif, inspirasi, intensi, jadi, jago, jalan, juara,

jujur,kabul, kenang, kesan, khayal,kiat,kompak, konsep,kreasi,

kreatif, kreativitas,kunci,lihai,logika,luang,lulus, mahir, masalah,

master, mau, menang, mimpi, niat, opini,paham,pakar, pandai,

pandang, patuh, persepsi,

pikir,pimpin,pintar,prakarsa,prestasi,prinsip,profesional,prospek,

rencana,rintang,sarjana,semangat,sempat,serah,setia,simpati,solid,

spesialis,sukses,taat,tabah, teguh,tekad,teknikus, teliti, tuju,

(33)

19

durhaka, enigma, hebat, hilang, hukum, ikhtiar,intai, isyarat,

jadi,jahat,jasus,jelek,kasus, kejam, kode, komplikasi,kondisi,

kriminal, kunci, malam, mirakel, misteri, mistik,

muslihat,pelaku,periksa ,peristiwa,perkara,primitif,problem,

rahasia,residivis, rongsok, rusak,sandi,siasat,skandal,soa,

sulit,susah,suluk,taktik, tebak,terjadi,trik, tuduh,urus

4 Romantis Akad,asih, asmara, bahagia, berahi, ceria, cerita, cinta, emosional,

hasrat, hati, hubung, iba, ikat, ingin, ikhlas, jalin, jodoh, jujur, juwita,

kagum, kangen, kasih, kasmaran, kawin, kekasih, kisah, komitmen,

komunikasi, kontak, manis, mesra, minat, nafsu naksir, pacar, pasang,

pesona, pikat, polos,prihatin,puja,putih,putus,rajut, rayu, rela, rindu,

risau, roman,sayang,sedih,sejati, senang,sentuh, setia, sosok, suci,

suka, teman,temu,tulus

3.2. Analisis Sistem

Analisis sistem bertujuan untuk mengindentifikasi permasalahan yang ada pada

sistem. Analisis ini sangat diperlukan sebagai dasar perancangan sistem. Yang

tercakup dalam analisis sistem adalah desain data, deskripsi data, deskripsi sistem, dan

implementasi desain. Sebelum masuk ke dalam tahap perancangan sebuah sistem,

perlu dilakukan analisis sistem yang akan dibangun. Analisis sistem merupakan istilah

yang secara kolektif mendeskripsikan fase-fase awal pengembangan sistem. Analisis

sistem bertujuan untuk mengindentifikasi permasalahan yang ada pada sistem. Dalam

tahap ini menjabarkan kebutuhan-kebutuhan yang berguna untuk perancangan sistem

agar sistem yang dibangun sesuai dengan masalah yang akan diselesaikan.

Penelitian ini memiliki beberapa tahapan yaitu input novel, Text Processing

(Tokenisasi, pembuangan stopword, dan proses stemming), pembobotan kata (term),

dan mengklasifikasikannya dengan menghitung nilai similaritas termnya dengan data

yang ada pada data resource. Berikut rancangan sistem yang ditampilkan dalam

(34)

Dokumen berupa

Gambar 3.1 Arsitektur Umum

Keterangan gambar 3.1 dapat dilihat dibawah ini:

1. Data Set

Pada bagian ini data yang dimasukan adalah berupa judul novel, penulis novel dan

sinopsis novel. Namun data yang diproses nantinya adalah data yang diperoleh dari

sinopsis novel tersebut. Input sinopsis novel dapat dilihat pada gambar 3.2

Gambar 3.2 Input Sinopsis Novel

(35)

21

2. Proses Persiapan dan seleksi dokumen

Pada bagian ini sinopsis yang sudah diinput akan melalui proses persiapan dan seleksi

dokumen dimana tahapan ini bertujuan untuk mempersiapkan text menjadi data yang

akan mengalami pengolahan menjadi data untuk proses pengklasifikasian. Tahapan ini

memiliki beberapa tahapan yaitu: tokenisasi (tokenization), pembuangan

stopword(stopword removal) dan yang terahir proses stemming.

2.1. Tokenisasi

Sebelum kata dipisahkan dari kalimat, terlebih dahulu dibersihkan dari tanda baca, tag

html dan angka. Proses ini dilakukan sebelum proses tokenisasi supaya dapat

memperkecil hasil dari tokenisasi tersebut. Pada proses tokenisasi akan dibaca

dokumen berupa teks yang selanjutnya akan dilakukan proses pemotongan string

input berdasarkan tiap kata yang menyusunnya. Umumnya setiap kata akan

terpisahkan dengan kata yang lain oleh karakter spasi, sehingga proses tokenisasi

mengandalkan karakter spasi pada dokumen teks tersebut untuk melakukan pemisahan

kata.

start

masukkan

Hapus tag HTML

Hapus angka

Hapus tanda baca

token

Finished

(36)

Seperti pada gambar 3.5 proses tokenisasi, semua term dalam dokumen teks

yang di masukan akan dihapus tag htmlnya, kemudian term yang sudah dihapus tag

htmlnya akan dicek lagi untuk menghapus angka yang ada pada teks tersebut,

kemudian proses terakhir dari tokenisasi adalah dilakukannya penghapusan tanda

baca. Sehingga hasilnya adalah term menjadi token-token yang terpisah. Hasil proses

tokenisasi dapat dilihat pada tabel 3.4

Tabel 3.2 Tokenisasi

kamu tidak Dihindari kekuatan sering merestui menjeja

kkan

justru

Lebih seiman Kenapa Cinta membuat cinta kaki terpisahk

an

dengan bagaimana Diputusin sekuat Tetap ke agama

kamu jika Daripada pernikahan Menjalank

annya

Kota yang

walaupun jatuh Sakit karena walau Istanbul pernah

Ia cinta Setelah Satu dengan Turki hidup

menarik itu Melakukan iman tantangan mengidap berdam

pingan

hatimu datang Komitmen Semoga Berat kanker Lalu

Jangan tiba-tiba Bersama Itu Entah yang apakah

(37)

23

2.2.Pembuangan Stopword

Sebelum dilakukan stopword harus dilakukan normalisasi dengan mengubah semua

huruf kapital menjadi huruf kecil. Proses pembuangan stopword merupakan proses

pembuangan term yang tidak memiliki arti atau relevan. Term tersebut diperoleh

setelah tahap tokenisasi, kemudian dicek kedalam daftar stopword, jika kata tersebut

masuk ke dalam daftar stopword maka kata tersebut tidak akan diproses lebih lanjut.

Sedangkan jika sebuah kata tidak termasuk ke dalam daftar stopword maka kata

tersebut akan masuk ke proses berikutnya. Dalam penelitian ini daftar stopword yang

digunakan adalah daftar stopword yang digunakan oleh (Tala, 2003) . flowchart

(38)

Start

Arrray term/ token

Inisialisasi awal i = 0 Ambil term ke-i

Term i = stopword

Tambahkan term i ke array hasil

i= (len array -1)

Return array hasil

Stop

ya

tidak

ya

i + 1

Gambar 3.4 Flowchart Proses Stopword

Sedangkan tabel stopword yang diperoleh dapat dilihat pada tabel 3.5.dan hasil

filtering dari proses stopword dapat dilihat pada tabel 3.6.

Tabel 3.3 stopword list

dengan tiba-tiba dan apakah

kamu Selagi tetap atau

lebih Bisa walau mereka

daripada Kenapa dengan justru

(39)

25

dengan Karena yang keadaan

kamu Daripada tidak

walaupun Setelah mereka

ia Melakukan yang

jangan Bersama ingin

pernah Untuk ke

yang Tidak yang

tidak Akan itu

hingga Pernah ingin

mereka Dan dari

dengan Karena dua

terus Satu dan

bagaimana Itu dua

jika Bisa yang

itu Tapi pernah

(40)

Tabel 3.4 Hasil Filtering Proses Stopword

sesungguhnya Jatuh Seumur pertimbangan cinta _menjejakkan

wanita Cinta Hidup Cinta bagas _kaki

seiman Agama Sulit orang pergi benua

wanita mengaturnya Dijalankan Buta kota _agama

seiman Selagi Kekuatan vanya istanbul _hidup

menarik dihindari Cinta bagas turki _berdampingan

hatimu Nggak Semurni Menjalankan

nya

mengidap _Cinta

menikah Sakit Sekuat tantangan kanker _Menyatu

wanita diputusin Pernikahan berat bersarang _Terpisahkan

seiman Sakit Iman seakan

Paru-parunya

(41)

27

Penghapusan afiks 1 Penghapusan afiks 2 _{Penghapusan afiks 3} Start

Stop

(42)

Stemming bertujuan untuk menghasilkan bentuk dasar dari sebuah term atau

kata. Term yang sudah melewati proses pembuangan stopword yang akan menjadi

input dalam proses ini. Algoritma yang digunakan dalam proses stemming ini adalah

algoritma Nazief & Andriani. Algoritma ini digunakan karena algoritma Nazief &

Andriani memiliki keakuratan yang baik dalam proses stemming Bahasa Indonesia.

Berikut penjelasan dari flowchart proses stemming menggunakan algoritma Nazief &

Andriani:

1. Pertama-tama adalah kata yang diterima dalam proses stemming dicek apakah kata

tersebut terdapat didalam list kata dasar. Jika kata tersebut terdapat dalam list kata

dasar maka proses berhenti tetapi jika tidak proses berlanjut.

2. Proses selanjutnya adalah melakukan penghapusan Inflection Suffix. Akhiran ini

berupa akhiran –lah, -kah, -mu, -ku, -tah, -pun dan –nya. Setelah dihapus, maka

dilakukan pengecekan kembali apakah kata tersebut terdapat di list kata dasar. Jika

ada, maka proses berhenti jika tidak berlanjut ke point ke-3.

3. Proses ini akan melakukan penghapusan Derivation Suffix. Akhirannya berupa

akhiran –i, -an, -kan.

a. Pertama-tama akan dihapus akhiran –kan kemudian dicek dalam list kata

dasar. Jika ditemukan di list kata dasar, maka proses berhenti jika tidak,

akhiran –kan yang dihapus dikembalikan dan dilanjutkan dengan penghapusan

akhiran –i dan –an. Jika ditemukan di list kata dasar, proses berhenti jika tidak

dilanjutkan ke point 3.b.

b. Akhiran yang sudah dihapus dikembalikan ke kata sebelumnya dan dilanjutkan

ke point 4.

4. Selanjutnya akan dilakukan proses penghapusan Derivation Prefix. Proses ini

memiliki 3 tahap penghapusan prefiks. Jika pada langkah sebelumnya ada sufiks

yang dihapus, maka proses dilanjutkan ke point 4a.

a. Periksa apakah kata memiliki imbuhan yang terdapat dalam daftar kombinasi

awalan dan imbuhan yang tidak diizinkan. Jika ditemukan maka proses

berhenti jika tidak dilanjutkan.

b. Dilakukan proses penghapusan afiks yang pertama. Awalan yang dihapus

(43)

29

i. Pertama-tama awalan di-, ke-, se- dihapus kemudian dicek apakah kata

tersebut terdapat dalam list kata dasar. Jika ditemukan, proses berhenti, jika

tidak dilanjukan.

ii. Dilakukan proses penghapusan derivation suffix kembali. Jika kata tersebut

adalah kata dasar proses berhenti jika tidak bentuk kata dikembalikan ke

semula dan proses dilanjutkan.

iii. Dilakukan proses penghapusan awalan diper-, keber, keter- dan dilanjutkan

dengan penghapusan derication suffix. Kemudian kata dicek kembali

apakah kata tersebut kata dasar. Jika ya, proses berhenti jika tidak kata

dikembalikan ke bentuk semula dan proses dilanjutkan.

c. Dilakukan proses penghapusan afiks yang kedua. Awalan yang akan dihapus

adalah awalan te- dan be-.

i. Pertama-tama dilakukan penghapusan awalan te- dan ber- kemudian dicek

apakah kata tersebut kata dasar. Jika ya, proses berhenti jika tidak, kata

dikembalikan ke bentuk semula dan proses dilanjutkan.

ii. Dilakukan penghapusan awalan ber-, bel-, ter-, tel- dan dilanjutkan dengan

penghapusan derivation suffix. Jika kata adalah kata dasar, proses berhenti

jika tidak kata dikembalikan ke bentuk semula dan proses dilanjutkan.

d. Dilakukan prose penghapusan afiks yang ketiga. Awalan yang akan dihapus

adalah awalan medan pe-. Awalan ini adalah awalan yang memilik banyak

perubahan bentuk awalan jika digabungkan dengan kata dasar. Oleh sebab itu

akan banyak dilakukan pengecekan terhadap seluruh perubahan awalan.

i. Pertama-tama dilakukan penghapusan awalan medan pe- kemudian dicek

apakah kata tersebut kata dasar. Jika iya, proses berhenti, jika tidak proses

dilanjutkan.

ii. Dilakukan penghapusan derivation suffix dan kemudian dicek kembali

apakah kata tersebut kata dasar. Jika ya, maka proses berhenti, jika tidak

kata dikembalikan ke bentuk semula dan proses dilanjutkan.

Dilakukan proses penghapusan awalan yang mengalami perubahan bentuk

seperti memper-, meng-, meny-, mel-, mer-, men-, mem-, peng-, peny-, pel, per-, pen-,

pem-. Kemudian proses dilanjutkan dengan penghapusan derivation suffix dan dicek

apakah kata tersebut adalah kata dasar, jika maka proses berhenti jika tidak kata

(44)

Hasil dari proses stemming ditunjukan pada tabel 3.7

Tabel 3.5 Tahapan Hasil Stemming

sungguh jatuh Sulit cinta bagas kaki

3. Pembobotan kata dengan TF-IDF

Proses pembobotan kata adalah proses pemberian nilai atau bobot ke sebuah kata

berdasarkan kemunculannya pada suatu dokumen teks (Baeza-Yates et al, 1999). Pada

proses sebelumnya atau proses Text Processing akan didapat kumpulan kata atau term

yang kemudian direpresentasikan kedalam sebuah terms vector. Terms vector suatu

dokumen teks a adalah tuple bobot semua term pada a. Nilai bobot sebuah term inilah

yang nantinya akan merepresentasikan dokumen teks. Pada penelitian ini proses

pembobotan kata menggunakan metode Term Frequency-Inverse Document

Frequency (TF-IDF).

Term Frequency-Inverse document frequency (TF-IDF) adalah suatu metode

pembobotan kata dengan menghitung nilai TF dan juga menghitung kemunculan

sebuah kata pada dokumen teks. Pada pembobotan ini, jika kemunculan term pada

sebuah dokumen teks tinggi dan kemunculan term tersebut pada dokumen teks yang

lain rendah, maka bobotnya akan semakin besar. Sedangkan jika kemunculan term

pada dokumen teks lain tinggi, maka bobotnya akan semakin kecil. Tujuan

(45)

31

paling baik dalam perolehan informasi (Khodra et al, 2005). Adapun rumus dari

TF-IDF dapat di lihat pada persamaan berikut (Salton, 1983).

(1)

Dengan tf(i,j) adalah frekuensi kemunculan term j pada dokumen teks d i 

D*, dimana i = 1,2,3,...,N, df(j) adalah frekuensi dokumen yang mengandung term j

dari semua koleksi dokumen, dan N adalah jumlah seluruh dokumen yang ada di

koleksi dokumen. Berdasarkan rumus diatas berapapun besarnya nilai tf(i,j), apabila

N= df(j) maka akan didapatkan hasil 0 (nol) untuk perhitungan idf. Untuk itu dapat

ditambahkan nilai 1 pada sisi idf, sehingga perhitungan untuk pembobotan dapat

dilihat pada rumus persamaan 2.

+1) (2)

Pada penelitian ini, proses klasifikasi dokumen text berupa novel dilakukan

setelah melakukan pembobotan kata.. Proses klasifikasi dilakukan dengan memetakan

kata pada novel ke daftar kata yang mewakili dari genre yang ada di dalam data

resource, kemudian dihitung nilai kemiripan kata yang didapat dari proses TF-IDF

dengan menjumlahkan bobot setiap kata yang sama dengan daftar kata pada data

resource,dan Kemudian akan diklasifikasikan tepat ke salah satu genre yang memiliki

nilai kemiripan tertinggi atau terbesar. Hasil dari tahapan pembobotan kata

menggunakan TF-IDF dapat dilihat pada tabel 3.8 dan hasil pengklasifikasian dapat

dilihat pada tabel 3.9.

Tabel 3.6 Hasil Pembobotan Kata.

(46)

(47)

33

Tabel 3.7 Hasil Pengklasifikasian Genre Novel.

(48)

(49)

35

Dari hasil tabel 3.7 dapat dilihat hasil dari pengklasifikasian genre dengan

menghasilkan genre romantis sebagai hasil dari pengklasifikasian,karena memiliki

nilai tertinggi dari hasil kemiripan antara TF-IDF dengan dataresource.

3.3.Perancangan Tampilan Antarmuka

Perancangan tampilan antarmuka bertujuan untuk menggambarkan ide tampilan dari

sistem yang dibuat.

3.3.1. Rancangan tampilan halaman utama.

Rancangan halaman utama ini berfungsi untuk menampilkan halaman utama yang

berisikan menubar, seperti home, data resource,about. Dibagian atas terdapat sliding

picture dan button lanjut proses untuk masuk ke halaman proses. Pada rancangan

halaman utama ini nantinya akan terdapat penjelasan singkat tentang novel dan

penjelasan stemming dan TF-IDF. Dapat dilihat pada gambar 3.6.

Gambar 3.6 Rancangan Tampilan Halaman Utama

Selamat Datang

Penjelasan

Novel

Penjelasan

TF-IDF

Penjelasan

Stemming

Footer

Lanjut Proses

Title Menu Bar 1 Menu Bar 2 Menu Bar 3

(50)

3.3.2. Rancangan tampilan halaman dataresource.

Rancangan tampilan data resource berfungsi untuk menampilkan kata-kata yang

mewakili dari setiap genre yang ada. Kemudian ditampilkan dalam bentuk tree.

Rancangan tampilan halaman dataresource dapat dilihat pada gambar 3.9.

Gambar 3.7 Rancangan Halaman Data Resource

3.3.3. Rancangan tampilan halaman about.

Rancangan tampilan halaman about berfungsi untuk menampilkan perkenalan singkat

pembuat sistem serta penjelasan singkat tentang sistem tersebut. Rancangan halaman

about dapat dilihat pada gambar 3.10

Gambar 3.8 Rancangan Tampilan Halaman About. Sub Menu

Data Resource

Title Menu bar

1

Menu bar 2

Menu bar 3

Footer

Description of

picture

pictures

Footer

(51)

37

3.3.4. Rancangan tampilan halaman proses.

Rancangan tampilan proses berfungsi untuk melakukan proses serta melihat hasil

proses. Pada halaman ini terdapat form untuk mengisi judul novel, pengarang novel,

dan sinopsis dari novel tersebut dan terdapat juga tombol submit untuk melakukan

proses setelah mengisi semua form. Rancangan tampilan halaman proses dapat dilihat

pada gambar 3.11. setelah melakukan pengisian form dan menekan tombol submit

maka akan diproses untuk mendapatkan hasil. Rancangan tampilan hasil proses dapat

dilihat pada gambar 3.12 dan rancangan tampilan halaman detail hasil dapat dilihat

pada gambar 3.13.

3.9 Rancangan Tampilan Halaman Proses

Title Menu Bar 1 Menu Bar 2 Menu Bar 3

Footer Input Judul Novel

Input Pengarang

Input Sinopsis

(52)

3.10 Rancangan Tampilan Halaman Hasil Proses

3.11 Rancangan Tampilan Halaman Detail Proses

Pada rancangan tampilan halaman detail proses diatas, terdapat kolom-kolom yang

menunjukan genre dari hasil klasifikasi, disini juga terdapat kolom untuk

menampilkan perhitungan dari hasil klasifikasi yang didapat tersebut.

result

horror inspiratif misteri romantis

no kata TF-IDF horror inspirasi misteri romantis

keluar ok

Judul Pengara Sinopsis

Genre Horor

Horror Inspiratif Misteri Romantis

keluar ok AAAA

(53)

BAB 4

IMPLEMENTASI DAN PENGUJIAN

Tahapan yang dilakukan setelah analisis dan perancangan sistem adalah implementasi

dan pengujian sistem. Tahapan ini diperlukan untuk mengetahui apakah media

Teknologi Informasi tersebut berhasil atau tidak. Berikut merupakan hasil

implementasi dan pengujian dari sistem yang sudah dibangun.

4.1Implementasi Sistem

Sesuai dengan hasil analisis dan perancangan sistem yang telah dibuat, dilakukan

implementasi perancangan menjadi aplikasi pembelajaran yang ditujukan untuk

membantu pengklasifikasian novel sesuai dengan genre menggunakan metode

TF-IDF, dengan bahasa pemrograman C#.

4.1.1 Spesifikasi Perangkat Keras dan Perangkat Lunak yang Digunakan

Sistem dibuat di dalam lingkungan perangkat keras yang memiliki spesifikasi sebagai

berikut:

1. Processor intel® Core(TM)2 Solo CPU U3500 @1.40GHz

2. Memory RAM yang digunakan 4 GB.

3. Kapasitas Hardisk 500 GB.

Selain perangkat keras, sistem juga dibuat dalam lingkungan spesifikasi perangkat

lunak sebagai berikut:

1. Windows 7 Ultimate.

2. Software Microsoft Visual Studio 2010.

3. Bahasa pemrograman C#, menggunakan framework ASP.NET MVC.net versi 3

(54)

4.1.2 Tampilan Halaman utama

Tampilan halaman utama aplikasi merupakan tampilan desain user interface ketika

aplikasi dijalankan. Pada tampilan utama terdapat 3 menu bar yaitu home, data

resource, dan about. Pada halaman ini terdapat juga image slider dimana terdapat

button lanjut proses untuk masuk ke halaman input data novel. Pada halaman ini juga

terdapat penjelasan mengenai novel, TF-IDF dan stemming. tampilannya dapat dilihat

pada gambar 4.1.

Gambar 4.1 Tampilan Halaman Utama

4.1.3 Tampilan halaman data resource

Pada halaman data resource terdapat sebuah tree yang berisikan kata-kata yang

mewakili dari setiap genre novel yang diperoleh dari Kamus Tesaurus Pusat Bahasa.

(55)

41

4.2Tampilan Halaman Data Resource

4.1.4 Tampilan halaman about

Pada halaman ini berisikan tentang profil dari pembuat sistem klasifikasi novel

berdasarkan genre. Tampilannya dapat dilihat pada gambar 4.3.

(56)

4.1.5 Tampilan halaman proses

Pada halaman ini terdapat form untuk menginput data novel berupa judul novel,

pengarang dan sinopsis dari novel. Pengguna harus mengisi form judul, pengarang

dan sinopsis novel dengan lengkap untuk selanjutnya diproses oleh sistem dengan

menekan tombol submit. Tampilan halaman proses dapat dilihat pada gambar 4.4

Gambar 4.4 Tampilan Halaman Proses

Setelah semua form terisi dan tombol submit ditekan maka hasilnya akan

ditampilkan secara pop up. Pada halaman ini terdapat empat kotak yang merupakan

genre dari novel. Hasil klasifikasi genre yang dimaksud akan ditunjukan oleh kotak

yang berwarna hijau. Dan terdapat hasil perhitungan dari jumlah kata dasar pada

sinopsis yang mewakili dari genre tersebut. Tampilan hasil dapat dilihat pada gambar

(57)

43

Gambar 4.5 Tampilan Hasil Proses

Setelah tampilan hasil proses muncul, maka kita dapat melihat detail dari hasil

tersebut dengan mengklik point yang terdapat pada panel hasil yang terpilih sebagai

hasil genre (panel yang berwarna hijau). Berikut tampilan detail hasil pada gambar

4.6.

(58)

4.2Hasil Pengujian Sistem

Pengujian sistem dilakukan dengan mengambil 100 novel online secara acak, Setelah

diproses maka diperoleh hasil berupa genre novel. Hasil pengujian dapat dilihat pada

tabel 4.1

(59)

(60)

(61)

(62)

(63)

(64)

(65)

51

94 00:00 Saat Hantu Muncul

Horror 2 0 0 0 True

95 Hantu Penari Horror 6 0 0 2 True

96 Pasien Terakhir

Horror 7 0 0 0 True

97 The Bastard Legacy; Warisan Legendaris para Bedebah

Horror 12 4 16 7 False

98 Death on Camera

Horror 8 0 4 2 True

99 Berikutnya Kau yang Mati

Horror 13 2 0 4 True

100 R.I.S.A.R.A Horror 11 0 2 7 True

Dari tabel 4.1 terlihat bahwa hasil klasifikasi tidak sepenuhnya akurat. Rata-rata

tingkat akurasi keberhasilan klasifikasi dapat dilihat dengan perhitungan :

(66)

BAB 5

KESIMPULAN DAN SARAN

8.1Kesimpulan

Dari hasil analisis dan pengujian yang dilakukan pada aplikasi dari bab sebelumnya,

dapat disimpulkan bahwa :

1. Metode TF-IDF dapat digunakan dalam membentuk pengklasifikasian novel

berdasarkan genre.

2. Text Mining dengan gabungan metode TF-IDF dapat menghitung nilai

similaritas dengan genre yang ada didalam data resource. Untuk menghasilkan

pengklasifikasian novel sesuai genre.

3. Hasil klasifikasi genre novel sangat bergantung pada daftar kata yang ada pada

data resource. Kata-kata yang tidak mewakili genre dengan baik dapat

menghasilkan klasifikasi yang salah.

8.2Saran

Adapun saran-saran yang untuk penelitian maupun pengembangan berikutnya adalah :

1. Dalam menginput kata yang mewakili genre harus menggunakan

kata-kata yang sangat spesifik agar hasil dari pengklasifikasian dapat lebih baik

lagi.

2. Ada baiknya untuk penelitian selanjutnya pengklasifikasian genre tidak hanya

dilakukan berdasarkan sinopsis saja.

3. Pada penelitian selanjutnya juga dapat diterapkan teknik-teknik yang lain

untuk dapat mendukung pengklasifikasian novel sesuai genre yang ada dengan

(67)

DAFTAR PUSTAKA

Agusta, L. 2009 . Perbandingan Algoritma Stemming Porter Dengan Algoritma

Nazief dan Adriani untuk Stemming Dokumen Teks Bahasa Indonesia.

KonferensiNasional Sistem dan Informatika 31:196-198.

Berry, M.W. & Kogan, J. 2010. Text Mining Aplication and theory. WILEY: United

Kingdom.

Do, D. T., Hui, C. S., & Fong, A.C.M. 2006. Associative Feature Selection for Text

Mining. International Journal of Information Technology 12(4): 59-58.

Februariyanti, Herny. 2012. Klasifikasi Dokumen Berita Teks Bahasa Indonesia

Menggunakan Ontologi.

Feldman, R & Sanger, J. 2007. The Text Mining Handbook: Advanced Approaches

In Analyzing Unstructured Data. Cambridge University Press: New York.

Forbes, Jamie M. (1998). "Fiction Dictionary". In Herman, Jeff, Writer's Guide to

Book Editors, Publishers, and Literary Agents 1999–2000, pp. 861–871.

Rocklin, California: Prima Publishing.

Harlian, Milka. 2006. Machine Learning Text Kategorization. Austin : University of

Texas.

Hearst, Marti. 2003. What Is Text Minning?. SIMS,UC Berkeley.

http://www.sims.berkeley.edu/~hearst/text.mining.html . Diakses tanggal 25