• Tidak ada hasil yang ditemukan

KLASIFIKASI DOKUMEN BERITA BERBAHASA INDONESIA DI TWITTER

N/A
N/A
Protected

Academic year: 2021

Membagikan "KLASIFIKASI DOKUMEN BERITA BERBAHASA INDONESIA DI TWITTER"

Copied!
14
0
0

Teks penuh

(1)

KLASIFIKASI DOKUMEN BERITA BERBAHASA

INDONESIA DI TWITTER

TUGAS AKHIR

Disusun Oleh :

HANUM MASAYU PURNAMASARI NIM : 09560281

JURUSAN TEKNIK INFORMATIKA

FAKULTAS TEKNIK

UNIVERSITAS MUHAMMADIYAH MALANG

2013

(2)

KLASIFIKASI DOKUMEN BERITA BERBAHASA

INDONESIA DI TWITTER

TUGAS AKHIR

Diajukan Untuk Memenuhi

Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang

Disusun Oleh :

HANUM MASAYU PURNAMASARI NIM : 09560281

JURUSAN TEKNIK INFORMATIKA

FAKULTAS TEKNIK

UNIVERSITAS MUHAMMADIYAH MALANG

2013

(3)

LEMBAR PERSETUJUAN

KLASIFIKASI DOKUMEN BERITA BERBAHASA

INDONESIA DI TWITTER

TUGAS AKHIR

Diajukan Untuk Memenuhi

Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang

Mengetahui/Menyetujui

Dosen Pembimbing I Dosen Pembimbing II

(4)

LEMBAR PENGESAHAN

KLASIFIKASI DOKUMEN BERITA BERBAHASA

INDONESIA DI TWITTER

TUGAS AKHIR

Diajukan Untuk Memenuhi

Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang

Disusun Oleh :

HANUM MASAYU PURNAMASARI 09560281

Tugas Akhir ini telah diuji dan dinyatakan lulus oleh tim penguji pada tanggal 25 Oktober 2013

Mengetahui/Menyetujui

Mengtahui

Ketua Jurusan Teknik Informatika

( Eko Budi Cahyono, S.Kom, MT ) Penguji I

(Zamah Sari, ST, MT)

Penguji II

(5)

KATA PENGANTAR

Alhamdulillah, segala puji bagi Allah SWT yang telah memberi petunjuk dan serta melancarkan jalan sehingga penulis dapat menyelesaikan tugas akhir yang berjudul :

”KLASIFIKASI DOKUMEN BERITA BERBAHASA INDONESIA DI TWITTER”

Di dalam tulisan ini disajikan pokok-pokok bahasan yang meliputi perancangan preprocessing, pembuatan aplikasi mechine learning, implementasi klasifikasi dokumen menggunakan algoritma SVM, serta pengujian aplikasi yang sudah dibuat.

Penulis menyadari bahwa penelitian ini masih jauh dari kesempurnaan. Oleh karena itu penulis mengaharapkan saran dan kritik yang membangun agar tulisan ini dapat bermanfaat bagi pengembangan ilmu pengetahuan kedepan. Perangkat lunak ini juga masih membutuhkan pengembangan lebih lanjut sehingga dapat lebih bermanfaat.

Akhir kata penulis mengucapkan terima kasih kepada semua pihak yang telah membantu hingga tugas akhir ini terselesaikan.

Malang, 1 Oktober 2013

(6)

LEMBAR PERSEMBAHAN

Alhamdulilllahirabbil’alamin. Segala puji syukur saya ucapkan hanya kepada Allah SWT, yang telah memberikan segala nikmat, rezeki, kekuatan, keikhlasan dan kesabaran kepada penulis. Tiada tuhan selain Allah tempat hambamu ini bersujud, memohon, dan berpasrah. Saya selalu memohon kepadaMu agar memberikan berkah, ridho, dan lindungan kepada hambaMu dan orang-orang yang tercinta. Shalawat serta salam selalu tercurahkan untuk junjungan Nabi Muhammad SAW.

Penulis menyadari pembuatan skripsi ini dapat terselesaikan dengan baik berkat dengan adanya dukungan semangat, motivasi, dan doa dari orang-orang terdekat. Oleh karena itu, pada kesempatan ini penulis ingin mengucapkan terimakasih yang sebesar-sebesarnya kepada:

1. Ayah, Ibu, Dek Ina, Dek Syahrul dan keluarga besar tercinta yang selalu memberikan dorongan semangat, motivasi dalam menempuh pendidikan, kasih sayang dan perhatian serta doa.

2. Bapak Yuda Munarko, S.Kom, M.Sc dan Bapak Ali Sofyan Kholimi, S.Kom selaku pembimbing skripsi yang telah berkenan meluangkan waktu untuk membimbing penulis dengan penuh kesabaran dan arahan yang diberikan. Terimakasih atas segala kritikan dan saran yang diberikan sehingga skripsi saya ini dapat terselesaikan.

3. Terimakasih untuk Bapak Murjani dan Ibu Astuti dan sebagai orang tua kedua saya yang selalu memberikan doanya, terimakasih untuk dek Dhani atas dukungan dan doanya. Terimakasih juga untuk Asmuransyah yang juga selalu memberikan semangat, doa, dan motivasi yang di berikan.

4. Terimakasih untuk teman-teman Teknik Informatika kelas F angkatan 2009, khususnya : Nuril, Udin, Andi (Jhon), Mien (Mince), Farin , Neny, Putri, Maya, Lusi, Luky, Andik, dan teman-teman yg tidak bisa saya sebutkan satu-persatu. Terimakasih atas semua dukungan serta doanya teman-teman semua.

5. Terimakasih untuk teman-teman kost 86C khususnya : Putri, Hilwa, Luluk, Rahma, Tiyas, Ninik, Riska, Dini, Helvy, dan Yuli.

(7)

DAFTAR ISI

LEMBAR PERSETUJUAN... i

LEMBAR PENGESAHAN ... ii

LEMBAR PERNYATAAN ... iii

ABSTRAKSI ... iv

ABSTRACT ... v

KATA PENGANTAR ... vi

LEMBAR PERSEMBAHAN ... vii

DAFTAR ISI ... viii

DAFTAR GAMBAR ... x

DAFTAR TABEL ... xii

BAB I PENDAHULUAN 1.1. Latar Belakang ... 1 1.2. Rumusan Masalah... 2 1.3. Batasan Masalah ... 2 1.4. Tujuan ... 2 1.5. Metodelogi ... 2 1.6. Sistematika Penulisan ... 4

BAB II LANDASAN TEORI ... 6

2.1. Document Preprocessing ... 6

2.1.1. Document Input ... 6

2.1.2. Tokenizing... 6

2.1.3. Stopword ... 7

2.1.4. Stemming ... 8

2.1.5. Metode TF-IDF/ Pembobotan ... 8

2.2. Klasifikasi Dokumen ... 9

2.3. Support Vector Machine (SVM) ... 11

2.3.1. SVM pada Linearly Separable Data ... 12

(8)

2.3.3. Karakteristik Support Vector Machine ... 18 2.3.4. Kelebihan SVM ... 18 2.3.5. Kekurangan SVM... 19 2.4. Evaluasi ... 19 2.4.1. Confusion Matrix ... 20 2.4.2. Akurasi ... 21 2.4.3. Precion (Ketepatan) ... 21 2.4.4. Recall (Perolehan) ... 23 2.4.5. F.measure ... 24

BAB III ANALISA DAN PERANCANGAN... 25

3.1. Analisa Data ... 25

3.2. Preprocessing ... 25

3.2.1. Tahap Proses Tokenization ... 27

3.2.2. Tahap Proses Stopword ... 27

3.2.3. Stemming ... 28

2.2.4. Pembobotan ... 31

3.3. Klasifikasi ... 32

3.3. Rancangan Algoritma Support Vector Mechine (SVM) ... 32

BAB IV IMPLEMENTASI DAN PENGUJIAN SISTEM ... 34

4.1. Spesifikasi Kebutuhan Hardware dan Software ... 34

4.2. Implementasi Sistem ... 34

4.2.1. Implementasi Preprocessing ... 34

4.2.1.1. Menu Data Berita ... 35

4.2.1.2. Penerapan dan Hasil Tokenizing ... 35

4.2.1.3. Penerapan dan Hasil Stopword dengan stemming ... 36

4.2.1.4. Penerapan dan Hasil Pembobotan ... 37

4.2.2. Penerapan dan Hasil Klasifikasi SVM ... 38

(9)

BAB V KESIMPULAN DAN SARAN ... 49

5.1. Kesimpulan ... 49

5.2. Saran ... 49

(10)

DAFTAR GAMBAR

Gambar 2.1. Contoh Kalimat Input ... 6

Gambar 2.6. Proses Klasifikasi dengan Masukan Nilai Antribut x ke dalam kelas label y ... 10

Gambar 2.10 Alternatif bidang pemisah (kiri) dan bidang pemisah terbaik dengan margin (m) terbesar (kanan) ... 13

Gambar 2.11 Soft margin hyperplane ... 16

Gambar 2.12. Contoh SVM pada Non Linearly Separable Data ... 17

Gambar 2.13 Contoh Trasformasi Untuk Data Yang Tidak Dapat Dipisahkan Secara Linear ... 17

Gambar 3.1. Alur Klasifikasi Dokumen Berita Berbahasa Indonesia ... 25

Gambar 3.2 Alir/ Flowchat Preprocessing ... 26

Gambar 3.3 Contoh Kalimat Input ... 26

Gambar 3.4. Flowchat Tokenizing ... 27

Gambar 3.5. Flowchat Stopword ... 27

Gambar 3.6. Flowchat Stemming ... 30

Gambar 3.7. Flowchat Pembobotan ... 31

Gambar 3.8. Flowchat Klasifikasi ... 32

Gambar 3.9. Flowchat Support Vector Mechine ... 33

Gambar 4.1. Contoh Data Berita ... 35

Gambar 4.2. Hasil Tokenizing. ... 36

Gambar 4.3 Hasil Stopword dan Stemming ... 36

Gambar 4.4. Hasil Term Frequensi (TF) ... 37

Gambar 4.5. Hasil Document Frequensi (DF) ... 37

Gambar 4.6. Hasil Pembobotan (W) ... 38

Gambar 4.7. Hasil Perhitungan Vector x dan y ... 39

Gambar 4.8. Hasil Perhitungan Kernel Radial ... 39

(11)

Gambar 4.10. Hasil Klasifikasi ... 40

Gambar 4.19. Hasil Evaluas Precision ... 47

Gambar 4.20. Hasil Evaluasi Recall ... 47

(12)

DAFTAR TABEL

Tabel 2.2. Contoh Tokenizing ... 7

Tabel 2.3. Contoh Hasil Penghapusan Stopword ... 7

Tabel 2.4. Contoh Hasil Stemmning ... 8

Tabel 2.5. Contoh Perhitungan TF/ IDF ... 9

Tabel 2.13. Confusion Matrix ... 20

Tabel 2.14. Contoh hitungan penentuan recall dan precision ... 22

Tabel 4.11. Jumlah Pengelompokan Data Sesuai Dengan Kategori ... 41

Tabel 4.12. Hasil Keseluruhan Klasifikasi ... 42

Tabel 4.13. Hasil Evaluasi Confusion Matrix Kelas Olahraga. ... 43

Tabel 4.14. Hasil Evaluasi Confusion Matrix Kelas Bisnis ... 43

Tabel 4.15. Hasil Evaluasi Confusion Matrix Kelas Kriminal ... 44

Tabel 4.16. Hasil Evaluasi Confusion Matrix Kelas Gaya Hidup ... 45

Tabel 4.17. Hasil Evaluasi Confusion Matrix Hiburan ... 46

(13)

DAFTAR PUSTAKA

[1] Abdur, Agus, Diana, 2011. “Klasifikasi Dokumen Teks Berbahasa Arab

menggunakan algoritma Naïve Bayes”. Fakultas Teknologi Informasi. Institut Teknologi Sepuluh Nopember.

[2] Anto Satriyo Nugroho, Arief Budi Witarto, Dwi Handoko, 2003. Support

VectorMachine. (online). http://asnugroho.net/papers/ikcsvm.pdf. (diakses 26

Mei 2013).

[3] Budy, 2012. “Stemming Potter Bahasa Indonesia”. (online).

http://budyblog9.wordpress.com/2012/. (diakses 26 Mei 2013). tf

[4] Ensiklopedia, 2010. “Support Vector Machine (SVM)”. (online).

http://digilib.ittelkom.ac.id/index.php?view=article&catid=15%3Apemrosesa nsinyal&id=687%3Asvm&tmpl=component&print=1&page=&option=com_c

ontent&Itemid=14. (diakses 1 April 2013).

[5] Hermoza, Tya, 2011. “Evaluating Accuracy”. Falkutas matematika dan Ilmu

Pengetahuan Alam. Universitas Gadjah Mada.

[6] Hardi, Wishnu, 2006. “Mengukur Kinerja search Engine : Sebuah

Eksperimentasi Penilaian precision dan recall untuk Informasi ilmiah bidang Ilmu Perpustakaan dan Informasi”. Peneliti pada Veritas Document Management, Jakarta.

[7] Jananto, Arief, 2010. “Perbandingan Performansi Algoritma Nearest

Neighbor dan SLIQ untuk Prediksi Kinerja Akademik Mahasiswa Baru”. Fakultas Teknologi Informasi. Universitas Stikubank Semarang.

[8] Melli , Gabor Settimio, 2010. “Supervised Ontology To Dokument

(14)

[9] Mulyana, Iyan, 2010 “Penerapan Term Frequency - Invers Document Frequency Pada Sistem Peringkasan Teks Otomatis dokumen tunggal berbahasa Indonesia” Jurusan Ilmu Komputer. Universitas pakuan.

[10] Putri, Yosi Amelia, 2009. “Stemming Untuk Tesk Berbahasa Indonesia dan

Pengaruhnya Dalam Kategori”. Falkutas informatika, Institut Teknologi Telkom.

[11] Sembiring, Krisantus, 2007. “Penerapan Teknik Support Vector Machine

untuk Pendeteksian Intrusi pada Jaringan”. Jurusan Teknik Informatika. Institut Teknologi Bandung.

[12] Susanto, Sylvia, 2006. “Pengklasifikasian Artikel Berita Berbahasa Indonesia

Secara Otomatis Menggunakan Naïve Bayes Classifier”. Falkutas Ilmu Computer, Universitas Indonesia.

[13] Tan, Steinbach, Kumar, 2006. “Data Mining

Classification: Basic Concepts, Decision Trees, and Model Evaluation”.

(online). http://www-users.cs.umn.edu/~kumar/dmbook/index.php (diakses 20

Mei 2013).

Referensi

Dokumen terkait

untuk Nanda, Melda sahabat dari sma terimakasih atas dukungan dan doanya semoga selalu dalam perlindungan-Nya terimakasih banyak selama ini atas kebahagiaan yang

Terimakasih buat teman-temanku Syaiful, mas Aji, Agus, Elida, Helmy, yang selalu memberikan motivasi untuk semangat dalam menyelesaikan karya ini. Teman-teman FKIP PPKn

Sahabat-sahabat penulis (Zulkaida, Fatim, Lilis, Ekka, Rina, Dewi, Ria) terimakasih telah memberikan doa serta dukungan kepada penulis. Teman-teman Fakultas Psikologi

Seseorang yang spesial Taufan Alexander Tarigan yang telah membantu saya selama menyelesaikan skripsi ini, memberikan dukungan, semangat serta doanya.. Seluruh

Kakakku, Letda Laut (Pelaut) Arianto Wibowo, S.ST.Han yang telah memberikan kasih sayangnya, cinta kasihnya, semangat, dukungan, serta doa, terima kasih atas

membantu memberikan dukungan doa dan semangat hingga penulis menyelesaikan skripsi ini. Kepada semua teman-teman dan sahabat-sahabatku yang telah membantu memberikan

Bapak dan Ibu penulis tercinta yang senantiasa memberikan dukungan serta doa dan motivasi, sehingga dapat menyelesaikan penulisan skripsi ini, serta terimakasih atas

Seluruh teman seperjuangan yang tidak dapat disebutkan satu-satu, terima kasih atas dukungan, semangat dan doa yang membangun motivasi dalam penyelesaian selama