KLASIFIKASI NOVEL SESUAI DENGAN GENRE MENGGUNAKAN TF-IDF
SKRIPSI
RUDYANTO BUDIMAN P 091402084
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
KLASIFIKASI NOVEL SESUAI DENGAN GENRE MENGGUNAKAN TF-IDF
SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat mencapai gelar Sarjana Teknologi Informasi
RUDYANTO BUDIMAN P 091402084
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
PERSETUJUAN
Judul : KLASIFIKASI NOVEL SESUAI DENGAN GENRE MENGGUNAKAN TF-IDF
Kategori : SKRIPSI
Nama : RUDYANTO BUDIMAN P Nomor Induk Mahasiswa : 091402084
Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI Fakultas : ILMU KOMPUTER DAN TEKNOLOGI
INFORMASI (FASILKOM-TI) UNIVERSITAS SUMATERA UTARA
Diluluskan di Medan, Juni 2015
Komisi Pembimbing :
Pembimbing 2 Pembimbing 1
Baihaqi Siregar, S.Si.,M.T Mohammad Fadly Syahputra, B.Sc, M.Sc.IT
NIP. 197902082010121002 NIP. 198301292009121003
Diketahui / Disetujui oleh
Program Studi S1 Teknologi Informasi Ketua,
PERNYATAAN
KLASIFIKASI NOVEL SESUAI DENGAN GENRE MENGGUNAKAN TF-IDF
SKRIPSI
Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, Juni 2015
UCAPAN TERIMA KASIH
Segala puji dan syukur penulis panjatkan kepada Tuhan Yesus Kristus atas segala berkat dan pengasihanNya yang sungguh berlimpah, sehingga penulis dapat menyelesaikan skripsi ini sebagai syarat untuk memperoleh gelar Sarjana Teknologi Informasi Program Studi S1 Teknologi Informasi Universitas Sumatera Utara.
Penyelesaian skripsi ini tidak terlepas dari bantuan dari berbagai pihak, untuk itu, penulis ingin mengucapkan terima kasih yang sebesar-besarnya kepada:
1. Kedua orangtua penulis yang telah memberikan dukungan moril dan spiritual, alm Ir.Nelson Eddy Siahaan.(+) dan almh Dra.Bonur Rulyanna Sitorus.(+) yang terlebih dahulu meninggalkan dunia saat masa akhir perkuliahan penulis, kedua adik saya Stephany Novianty Siahaan SE, dan Silvia Pratiwi Yunisari Siahaan yang terus memberikan motivasi dan dukungan.
2. Bapak M.Fadly Syahputra B.Sc.,M.Sc.,IT dan Bapak Baihaqi Siregar,S.Si.,MT selaku pembimbing yang telah banyak meluangkan waktu dan pikirannya, memotivasi dan memberikan kritik dan saran kepada penulis.
3. Bapak M. Anggia Muchtar ST.,MM.IT dan Bapak Dani Gunawan,ST.,M.T yang telah bersedia menjadi dosen pembanding yang telah memberikan kritik dan saran kepada penulis.
4. Ketua dan Sekretaris Program Studi Teknologi Informasi, Bapak M. Anggia Muchtar, ST.,MM.IT dan Bapak M. Fadly Syahputra, B.Sc.,M.Sc.IT.
5. Seluruh Dosen dan Staff pegawai di Program Studi S1 Teknologi Informasi
6. Terima kasih juga penulis ucapkan kepada teman-teman: Fernando, Alex, Christop, Alman, Andi, Suando, Tony, Leo, Ranap, Juki, Salman, Icha, Amira, Fadullah, Fadli, Yanna, seluruh teman angkatan 09 Teknologi Informasi, seluruh abang kakak dan adik di jurusan Teknologi Informasi yang tidak dapat disebutkan satu per satu, Vanesa Felicia, Bruno, Karina, Mewati, J.sirait. Junnie hutabarat, dan Leonardi sitanggang,
ABSTRAK
Novel memiliki beberapa genre antara lain genre romantis, horror, misteri, inspiratif dan masih banyak lagi. Namun pada saat ini pengklasifikasian novel kedalam genre-genre masih dilakukan secara manual. Oleh sebab itu dibutuhkan suatu sistem yang dapat mengklasifikasikan novel kedalam genrenya masing-masing secara otomatis. Hal ini dilakukan karena banyaknya genre dari novel tersebut, sehingga sistem ini nantinya dapat membantu pembaca, penerbit dan penulis yang hendak membuat dan membaca novel untuk mengetahui secara singkat genre novel yang sedang dibaca atau ditulisnya. Penelitian ini menggunakan text mining dan TF-IDF untuk proses pengklasifikasian novel. Text
mining dapat diartikan sebagai penemuan informasi yang baru yang sebelumnya
tidak diketahui oleh komputer dengan mengekstrak informasi secara otomatis dari sumber yang berbeda. Sedangkan data resource digunakan sebagai acuan dalam mengklasifikasi novel. Pada penelitian ini novel dibagi menjadi 4 kategori: horor,inspiratif,misteri dan romantis. Text yang dimasukan berupa judul, penulis, dan sinopsis. Sinopsis inilah yang akan diproses untuk menghasilkan klasifikasi genre novel. Proses pertama adalah proses persiapan dokumen dan seleksi dokumen. Kemudian dilanjutkan dengan proses pembobotan kata menggunakan
TF-IDF, kemudian klasifikasi dilakukan dengan membandingkan nilai kemiripan
diantara teks dan sebuah node yang ada di data resource. Teks yang diperoleh akan diklasifikasikan dalam sebuah genre atau node yang ada jika memiliki nilai kemiripan paling tinggi di salah satu node di data resource. Pengujian sistem dilakukan dengan mengambil 100 sinopsis novel online secara acak dan menghasilkan tingkat akurasi sebesar 75%.
NOVEL CLASSIFICATION BASED ON GENRE USING TF-IDF ABSTRACT
Novel has many genres such as romantic, horror, mystery, inspirational, and many more. However, today the classification of novel into genre is done manually. Therefore, we need a novel classification system which can classify novels into their each genre automatically. A novel classification system is needed because novel has many genres, so this system will help the reader, the publisher, and the writer who writing and reading a novel to know shortly about the genre of novel that they read or write. This research is using text mining method with TF-IDF method for classifying the novel. Text mining is a process to discover new information which is not known by the computer before by extracting the information automatically from the different sources. Whereas, data resource is used a as reference for classifying novel. This research will divide novel into four categories : horror, inspirational, mystery, and romantic. The text which is entered into the program such as title, writer, and synopsis. The synopsis will be processed to classify the genre of novel. The first step is preparing the document and selecting the document. The next step is giving a weight into word using TF-IDF method, then comparing the similarity between text and a node in data resource to do the classification process. The text that has been obtained will be classified into a genre or an existing node if it has the highest similarity value in one node in data
resource. The system testing collects randomly 100 synopsis from electronic novel
and the result is 75% accuracy rate from the testing.
DAFTAR ISI 2.2 Algoritma Nazief & Adriani 9
2.4 Novel 13
2.5 Tesaurus Bahasa Indonesia 14
2.6 Penelitian Terdahulu 15
Bab 3 ANALISIS DAN PERANCANGAN
3.1 Analisis Data 17
3.1.1 Novel 17
3.1.2 Data Resource 18
3.2 Analisis Sistem 19
3.2.1 Data Set 20
3.2.2 Proses Persiapan dan seleksi dokumen 21
3.3.2.1 Tokenisasi 21
3.3.2.2 Pembuangan Stopword 23
3.3.2.3 Stemming 27
3.3.3 Pembobotan Kata dengan TF-IDF 30 3.3 Perancangan Tampilan Antarmuka 35 3.3.1 Rancangan Tampilan Halaman Utama 35 3.3.2 Rancangan Tampilan Halaman Data Resource 36 3.3.3 Rancangan Tampilan Halaman About 36 3.3.4 Rancangan Tampilan Halaman Proses 37
Bab 4 IMPLEMENTASI DAN PENGUJIAN
4.1 Implementasi Sistem 39
4.1.1 Spesifikasi perangkat keras dan perangkat lunak 39 4.1.2 Tampilan Halaman Utama 40 4.1.3 Tampilan Halaman Data Resource 40 4.1.4 Tampilan Halaman About 41 4.1.5 Tampilan Halaman Proses 42
4.2 Hasil Pengujian Sistem 44
Bab 5 KESIMPULAN DAN SARAN
5.2 Saran 54
DAFTAR TABEL
Hal
Tabel 2.1 Tabel kombinasi awalan akhiran yang tidak diijinkan 10
Tabel 2.2 Tabel aturan peluruhan kata dasar 10
Tabel 2.3 Tabel Penelitian Terdahulu 16
Tabel 3.1 Tabel Data Resource 18
Tabel 3.2 Tabel Tokenisasi 22
Tabel 3.3 Stopword list 24
Tabel 3.4 Hasil Filtering Proses Stopword 26
Tabel 3.5 Tahapan Hasil Stemming 30
Tabel 3.6 Hasil Pembobotan Kata 31
Tabel 3.7 Hasil Pengklasifikasian Genre Novel 33
DAFTAR GAMBAR
Halaman
Gambar 3.1 Arsitektur Umum 20
Gambar 3.2 Input Sinopsis Novel 20
Gambar 3.3 Flowchart Proses Tokenisasi 21
Gambar 3.4 Flowchart Proses Stopword 24
Gambar 3.5 Flowchart Proses Steeming 27
Gambar 3.6 Rancangan Tampilan Halaman Utama 35
Gambar 3.7 Rancangan Tampilan Data Resource 36
Gambar 3.8 Rancangan Tampilan Halaman About 36
Gambar 3.9 Rancangan Tampilan Halaman Proses 37
Gambar 3.10 Rancangan Tampilan Halaman Hasil Proses 38
Gambar 3.11 Rancangan Tampilan Halaman Detail Proses 38
Gambar 4.1 Tampilan halaman utama 40
Gambar 4.2 Tampilan Halaman Data Resource 41
Gambar 4.3 Tampilan halaman about 41
Gambar 4.4 Tampilan halaman proses 42
Gambar 4.5 Tampilan halaman hasil proses 43