KLASIFIKASI DOKUMEN BERITA BERBAHASA
INDONESIA DI TWITTER
TUGAS AKHIR
Disusun Oleh :
HANUM MASAYU PURNAMASARI NIM : 09560281
JURUSAN TEKNIK INFORMATIKA
FAKULTAS TEKNIK
UNIVERSITAS MUHAMMADIYAH MALANG
2013
KLASIFIKASI DOKUMEN BERITA BERBAHASA
INDONESIA DI TWITTER
TUGAS AKHIR
Diajukan Untuk Memenuhi
Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang
Disusun Oleh :
HANUM MASAYU PURNAMASARI NIM : 09560281
JURUSAN TEKNIK INFORMATIKA
FAKULTAS TEKNIK
UNIVERSITAS MUHAMMADIYAH MALANG
2013
LEMBAR PERSETUJUAN
KLASIFIKASI DOKUMEN BERITA BERBAHASA
INDONESIA DI TWITTER
TUGAS AKHIR
Diajukan Untuk Memenuhi
Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang
Mengetahui/Menyetujui
Dosen Pembimbing I Dosen Pembimbing II
LEMBAR PENGESAHAN
KLASIFIKASI DOKUMEN BERITA BERBAHASA
INDONESIA DI TWITTER
TUGAS AKHIR
Diajukan Untuk Memenuhi
Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang
Disusun Oleh :
HANUM MASAYU PURNAMASARI 09560281
Tugas Akhir ini telah diuji dan dinyatakan lulus oleh tim penguji pada tanggal 25 Oktober 2013
Mengetahui/Menyetujui
Mengtahui
Ketua Jurusan Teknik Informatika
( Eko Budi Cahyono, S.Kom, MT ) Penguji I
(Zamah Sari, ST, MT)
Penguji II
KATA PENGANTAR
Alhamdulillah, segala puji bagi Allah SWT yang telah memberi petunjuk dan serta melancarkan jalan sehingga penulis dapat menyelesaikan tugas akhir yang berjudul :
”KLASIFIKASI DOKUMEN BERITA BERBAHASA INDONESIA DI TWITTER”
Di dalam tulisan ini disajikan pokok-pokok bahasan yang meliputi perancangan preprocessing, pembuatan aplikasi mechine learning, implementasi klasifikasi dokumen menggunakan algoritma SVM, serta pengujian aplikasi yang sudah dibuat.
Penulis menyadari bahwa penelitian ini masih jauh dari kesempurnaan. Oleh karena itu penulis mengaharapkan saran dan kritik yang membangun agar tulisan ini dapat bermanfaat bagi pengembangan ilmu pengetahuan kedepan. Perangkat lunak ini juga masih membutuhkan pengembangan lebih lanjut sehingga dapat lebih bermanfaat.
Akhir kata penulis mengucapkan terima kasih kepada semua pihak yang telah membantu hingga tugas akhir ini terselesaikan.
Malang, 1 Oktober 2013
LEMBAR PERSEMBAHAN
Alhamdulilllahirabbil’alamin. Segala puji syukur saya ucapkan hanya kepada Allah SWT, yang telah memberikan segala nikmat, rezeki, kekuatan, keikhlasan dan kesabaran kepada penulis. Tiada tuhan selain Allah tempat hambamu ini bersujud, memohon, dan berpasrah. Saya selalu memohon kepadaMu agar memberikan berkah, ridho, dan lindungan kepada hambaMu dan orang-orang yang tercinta. Shalawat serta salam selalu tercurahkan untuk junjungan Nabi Muhammad SAW.
Penulis menyadari pembuatan skripsi ini dapat terselesaikan dengan baik berkat dengan adanya dukungan semangat, motivasi, dan doa dari orang-orang terdekat. Oleh karena itu, pada kesempatan ini penulis ingin mengucapkan terimakasih yang sebesar-sebesarnya kepada:
1. Ayah, Ibu, Dek Ina, Dek Syahrul dan keluarga besar tercinta yang selalu memberikan dorongan semangat, motivasi dalam menempuh pendidikan, kasih sayang dan perhatian serta doa.
2. Bapak Yuda Munarko, S.Kom, M.Sc dan Bapak Ali Sofyan Kholimi, S.Kom selaku pembimbing skripsi yang telah berkenan meluangkan waktu untuk membimbing penulis dengan penuh kesabaran dan arahan yang diberikan. Terimakasih atas segala kritikan dan saran yang diberikan sehingga skripsi saya ini dapat terselesaikan.
3. Terimakasih untuk Bapak Murjani dan Ibu Astuti dan sebagai orang tua kedua saya yang selalu memberikan doanya, terimakasih untuk dek Dhani atas dukungan dan doanya. Terimakasih juga untuk Asmuransyah yang juga selalu memberikan semangat, doa, dan motivasi yang di berikan.
4. Terimakasih untuk teman-teman Teknik Informatika kelas F angkatan 2009, khususnya : Nuril, Udin, Andi (Jhon), Mien (Mince), Farin , Neny, Putri, Maya, Lusi, Luky, Andik, dan teman-teman yg tidak bisa saya sebutkan satu-persatu. Terimakasih atas semua dukungan serta doanya teman-teman semua.
5. Terimakasih untuk teman-teman kost 86C khususnya : Putri, Hilwa, Luluk, Rahma, Tiyas, Ninik, Riska, Dini, Helvy, dan Yuli.
DAFTAR ISI
LEMBAR PERSETUJUAN... i
LEMBAR PENGESAHAN ... ii
LEMBAR PERNYATAAN ... iii
ABSTRAKSI ... iv
ABSTRACT ... v
KATA PENGANTAR ... vi
LEMBAR PERSEMBAHAN ... vii
DAFTAR ISI ... viii
DAFTAR GAMBAR ... x
DAFTAR TABEL ... xii
BAB I PENDAHULUAN 1.1. Latar Belakang ... 1 1.2. Rumusan Masalah... 2 1.3. Batasan Masalah ... 2 1.4. Tujuan ... 2 1.5. Metodelogi ... 2 1.6. Sistematika Penulisan ... 4
BAB II LANDASAN TEORI ... 6
2.1. Document Preprocessing ... 6
2.1.1. Document Input ... 6
2.1.2. Tokenizing... 6
2.1.3. Stopword ... 7
2.1.4. Stemming ... 8
2.1.5. Metode TF-IDF/ Pembobotan ... 8
2.2. Klasifikasi Dokumen ... 9
2.3. Support Vector Machine (SVM) ... 11
2.3.1. SVM pada Linearly Separable Data ... 12
2.3.3. Karakteristik Support Vector Machine ... 18 2.3.4. Kelebihan SVM ... 18 2.3.5. Kekurangan SVM... 19 2.4. Evaluasi ... 19 2.4.1. Confusion Matrix ... 20 2.4.2. Akurasi ... 21 2.4.3. Precion (Ketepatan) ... 21 2.4.4. Recall (Perolehan) ... 23 2.4.5. F.measure ... 24
BAB III ANALISA DAN PERANCANGAN... 25
3.1. Analisa Data ... 25
3.2. Preprocessing ... 25
3.2.1. Tahap Proses Tokenization ... 27
3.2.2. Tahap Proses Stopword ... 27
3.2.3. Stemming ... 28
2.2.4. Pembobotan ... 31
3.3. Klasifikasi ... 32
3.3. Rancangan Algoritma Support Vector Mechine (SVM) ... 32
BAB IV IMPLEMENTASI DAN PENGUJIAN SISTEM ... 34
4.1. Spesifikasi Kebutuhan Hardware dan Software ... 34
4.2. Implementasi Sistem ... 34
4.2.1. Implementasi Preprocessing ... 34
4.2.1.1. Menu Data Berita ... 35
4.2.1.2. Penerapan dan Hasil Tokenizing ... 35
4.2.1.3. Penerapan dan Hasil Stopword dengan stemming ... 36
4.2.1.4. Penerapan dan Hasil Pembobotan ... 37
4.2.2. Penerapan dan Hasil Klasifikasi SVM ... 38
BAB V KESIMPULAN DAN SARAN ... 49
5.1. Kesimpulan ... 49
5.2. Saran ... 49
DAFTAR GAMBAR
Gambar 2.1. Contoh Kalimat Input ... 6
Gambar 2.6. Proses Klasifikasi dengan Masukan Nilai Antribut x ke dalam kelas label y ... 10
Gambar 2.10 Alternatif bidang pemisah (kiri) dan bidang pemisah terbaik dengan margin (m) terbesar (kanan) ... 13
Gambar 2.11 Soft margin hyperplane ... 16
Gambar 2.12. Contoh SVM pada Non Linearly Separable Data ... 17
Gambar 2.13 Contoh Trasformasi Untuk Data Yang Tidak Dapat Dipisahkan Secara Linear ... 17
Gambar 3.1. Alur Klasifikasi Dokumen Berita Berbahasa Indonesia ... 25
Gambar 3.2 Alir/ Flowchat Preprocessing ... 26
Gambar 3.3 Contoh Kalimat Input ... 26
Gambar 3.4. Flowchat Tokenizing ... 27
Gambar 3.5. Flowchat Stopword ... 27
Gambar 3.6. Flowchat Stemming ... 30
Gambar 3.7. Flowchat Pembobotan ... 31
Gambar 3.8. Flowchat Klasifikasi ... 32
Gambar 3.9. Flowchat Support Vector Mechine ... 33
Gambar 4.1. Contoh Data Berita ... 35
Gambar 4.2. Hasil Tokenizing. ... 36
Gambar 4.3 Hasil Stopword dan Stemming ... 36
Gambar 4.4. Hasil Term Frequensi (TF) ... 37
Gambar 4.5. Hasil Document Frequensi (DF) ... 37
Gambar 4.6. Hasil Pembobotan (W) ... 38
Gambar 4.7. Hasil Perhitungan Vector x dan y ... 39
Gambar 4.8. Hasil Perhitungan Kernel Radial ... 39
Gambar 4.10. Hasil Klasifikasi ... 40
Gambar 4.19. Hasil Evaluas Precision ... 47
Gambar 4.20. Hasil Evaluasi Recall ... 47
DAFTAR TABEL
Tabel 2.2. Contoh Tokenizing ... 7
Tabel 2.3. Contoh Hasil Penghapusan Stopword ... 7
Tabel 2.4. Contoh Hasil Stemmning ... 8
Tabel 2.5. Contoh Perhitungan TF/ IDF ... 9
Tabel 2.13. Confusion Matrix ... 20
Tabel 2.14. Contoh hitungan penentuan recall dan precision ... 22
Tabel 4.11. Jumlah Pengelompokan Data Sesuai Dengan Kategori ... 41
Tabel 4.12. Hasil Keseluruhan Klasifikasi ... 42
Tabel 4.13. Hasil Evaluasi Confusion Matrix Kelas Olahraga. ... 43
Tabel 4.14. Hasil Evaluasi Confusion Matrix Kelas Bisnis ... 43
Tabel 4.15. Hasil Evaluasi Confusion Matrix Kelas Kriminal ... 44
Tabel 4.16. Hasil Evaluasi Confusion Matrix Kelas Gaya Hidup ... 45
Tabel 4.17. Hasil Evaluasi Confusion Matrix Hiburan ... 46
DAFTAR PUSTAKA
[1] Abdur, Agus, Diana, 2011. “Klasifikasi Dokumen Teks Berbahasa Arab
menggunakan algoritma Naïve Bayes”. Fakultas Teknologi Informasi. Institut Teknologi Sepuluh Nopember.
[2] Anto Satriyo Nugroho, Arief Budi Witarto, Dwi Handoko, 2003. Support
VectorMachine. (online). http://asnugroho.net/papers/ikcsvm.pdf. (diakses 26
Mei 2013).
[3] Budy, 2012. “Stemming Potter Bahasa Indonesia”. (online).
http://budyblog9.wordpress.com/2012/. (diakses 26 Mei 2013). tf
[4] Ensiklopedia, 2010. “Support Vector Machine (SVM)”. (online).
http://digilib.ittelkom.ac.id/index.php?view=article&catid=15%3Apemrosesa nsinyal&id=687%3Asvm&tmpl=component&print=1&page=&option=com_c
ontent&Itemid=14. (diakses 1 April 2013).
[5] Hermoza, Tya, 2011. “Evaluating Accuracy”. Falkutas matematika dan Ilmu
Pengetahuan Alam. Universitas Gadjah Mada.
[6] Hardi, Wishnu, 2006. “Mengukur Kinerja search Engine : Sebuah
Eksperimentasi Penilaian precision dan recall untuk Informasi ilmiah bidang Ilmu Perpustakaan dan Informasi”. Peneliti pada Veritas Document Management, Jakarta.
[7] Jananto, Arief, 2010. “Perbandingan Performansi Algoritma Nearest
Neighbor dan SLIQ untuk Prediksi Kinerja Akademik Mahasiswa Baru”. Fakultas Teknologi Informasi. Universitas Stikubank Semarang.
[8] Melli , Gabor Settimio, 2010. “Supervised Ontology To Dokument
[9] Mulyana, Iyan, 2010 “Penerapan Term Frequency - Invers Document Frequency Pada Sistem Peringkasan Teks Otomatis dokumen tunggal berbahasa Indonesia” Jurusan Ilmu Komputer. Universitas pakuan.
[10] Putri, Yosi Amelia, 2009. “Stemming Untuk Tesk Berbahasa Indonesia dan
Pengaruhnya Dalam Kategori”. Falkutas informatika, Institut Teknologi Telkom.
[11] Sembiring, Krisantus, 2007. “Penerapan Teknik Support Vector Machine
untuk Pendeteksian Intrusi pada Jaringan”. Jurusan Teknik Informatika. Institut Teknologi Bandung.
[12] Susanto, Sylvia, 2006. “Pengklasifikasian Artikel Berita Berbahasa Indonesia
Secara Otomatis Menggunakan Naïve Bayes Classifier”. Falkutas Ilmu Computer, Universitas Indonesia.
[13] Tan, Steinbach, Kumar, 2006. “Data Mining
Classification: Basic Concepts, Decision Trees, and Model Evaluation”.
(online). http://www-users.cs.umn.edu/~kumar/dmbook/index.php (diakses 20
Mei 2013).