• Tidak ada hasil yang ditemukan

KLASIFIKASI DOKUMEN BERITA BERBAHASA INDONESIA DI TWITTER

N/A
N/A
Protected

Academic year: 2021

Membagikan "KLASIFIKASI DOKUMEN BERITA BERBAHASA INDONESIA DI TWITTER"

Copied!
14
0
0

Teks penuh

(1)

KLASIFIKASI DOKUMEN BERITA BERBAHASA

INDONESIA DI TWITTER

TUGAS AKHIR

Disusun Oleh :

HANUM MASAYU PURNAMASARI NIM : 09560281

JURUSAN TEKNIK INFORMATIKA

FAKULTAS TEKNIK

UNIVERSITAS MUHAMMADIYAH MALANG

2013

(2)

KLASIFIKASI DOKUMEN BERITA BERBAHASA

INDONESIA DI TWITTER

TUGAS AKHIR

Diajukan Untuk Memenuhi

Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang

Disusun Oleh :

HANUM MASAYU PURNAMASARI NIM : 09560281

JURUSAN TEKNIK INFORMATIKA

FAKULTAS TEKNIK

UNIVERSITAS MUHAMMADIYAH MALANG

2013

(3)

LEMBAR PERSETUJUAN

KLASIFIKASI DOKUMEN BERITA BERBAHASA

INDONESIA DI TWITTER

TUGAS AKHIR

Diajukan Untuk Memenuhi

Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang

Mengetahui/Menyetujui

Dosen Pembimbing I Dosen Pembimbing II

(4)

LEMBAR PENGESAHAN

KLASIFIKASI DOKUMEN BERITA BERBAHASA

INDONESIA DI TWITTER

TUGAS AKHIR

Diajukan Untuk Memenuhi

Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang

Disusun Oleh :

HANUM MASAYU PURNAMASARI 09560281

Tugas Akhir ini telah diuji dan dinyatakan lulus oleh tim penguji pada tanggal 25 Oktober 2013

Mengetahui/Menyetujui

Mengtahui

Ketua Jurusan Teknik Informatika

( Eko Budi Cahyono, S.Kom, MT ) Penguji I

(Zamah Sari, ST, MT)

Penguji II

(5)

KATA PENGANTAR

Alhamdulillah, segala puji bagi Allah SWT yang telah memberi petunjuk dan serta melancarkan jalan sehingga penulis dapat menyelesaikan tugas akhir yang berjudul :

”KLASIFIKASI DOKUMEN BERITA BERBAHASA INDONESIA DI TWITTER”

Di dalam tulisan ini disajikan pokok-pokok bahasan yang meliputi perancangan preprocessing, pembuatan aplikasi mechine learning, implementasi klasifikasi dokumen menggunakan algoritma SVM, serta pengujian aplikasi yang sudah dibuat.

Penulis menyadari bahwa penelitian ini masih jauh dari kesempurnaan. Oleh karena itu penulis mengaharapkan saran dan kritik yang membangun agar tulisan ini dapat bermanfaat bagi pengembangan ilmu pengetahuan kedepan. Perangkat lunak ini juga masih membutuhkan pengembangan lebih lanjut sehingga dapat lebih bermanfaat.

Akhir kata penulis mengucapkan terima kasih kepada semua pihak yang telah membantu hingga tugas akhir ini terselesaikan.

Malang, 1 Oktober 2013

(6)

LEMBAR PERSEMBAHAN

Alhamdulilllahirabbil’alamin. Segala puji syukur saya ucapkan hanya kepada Allah SWT, yang telah memberikan segala nikmat, rezeki, kekuatan, keikhlasan dan kesabaran kepada penulis. Tiada tuhan selain Allah tempat hambamu ini bersujud, memohon, dan berpasrah. Saya selalu memohon kepadaMu agar memberikan berkah, ridho, dan lindungan kepada hambaMu dan orang-orang yang tercinta. Shalawat serta salam selalu tercurahkan untuk junjungan Nabi Muhammad SAW.

Penulis menyadari pembuatan skripsi ini dapat terselesaikan dengan baik berkat dengan adanya dukungan semangat, motivasi, dan doa dari orang-orang terdekat. Oleh karena itu, pada kesempatan ini penulis ingin mengucapkan terimakasih yang sebesar-sebesarnya kepada:

1. Ayah, Ibu, Dek Ina, Dek Syahrul dan keluarga besar tercinta yang selalu memberikan dorongan semangat, motivasi dalam menempuh pendidikan, kasih sayang dan perhatian serta doa.

2. Bapak Yuda Munarko, S.Kom, M.Sc dan Bapak Ali Sofyan Kholimi, S.Kom selaku pembimbing skripsi yang telah berkenan meluangkan waktu untuk membimbing penulis dengan penuh kesabaran dan arahan yang diberikan. Terimakasih atas segala kritikan dan saran yang diberikan sehingga skripsi saya ini dapat terselesaikan.

3. Terimakasih untuk Bapak Murjani dan Ibu Astuti dan sebagai orang tua kedua saya yang selalu memberikan doanya, terimakasih untuk dek Dhani atas dukungan dan doanya. Terimakasih juga untuk Asmuransyah yang juga selalu memberikan semangat, doa, dan motivasi yang di berikan.

4. Terimakasih untuk teman-teman Teknik Informatika kelas F angkatan 2009, khususnya : Nuril, Udin, Andi (Jhon), Mien (Mince), Farin , Neny, Putri, Maya, Lusi, Luky, Andik, dan teman-teman yg tidak bisa saya sebutkan satu-persatu. Terimakasih atas semua dukungan serta doanya teman-teman semua.

5. Terimakasih untuk teman-teman kost 86C khususnya : Putri, Hilwa, Luluk, Rahma, Tiyas, Ninik, Riska, Dini, Helvy, dan Yuli.

(7)

DAFTAR ISI

LEMBAR PERSETUJUAN... i

LEMBAR PENGESAHAN ... ii

LEMBAR PERNYATAAN ... iii

ABSTRAKSI ... iv

ABSTRACT ... v

KATA PENGANTAR ... vi

LEMBAR PERSEMBAHAN ... vii

DAFTAR ISI ... viii

DAFTAR GAMBAR ... x

DAFTAR TABEL ... xii

BAB I PENDAHULUAN 1.1. Latar Belakang ... 1 1.2. Rumusan Masalah... 2 1.3. Batasan Masalah ... 2 1.4. Tujuan ... 2 1.5. Metodelogi ... 2 1.6. Sistematika Penulisan ... 4

BAB II LANDASAN TEORI ... 6

2.1. Document Preprocessing ... 6

2.1.1. Document Input ... 6

2.1.2. Tokenizing... 6

2.1.3. Stopword ... 7

2.1.4. Stemming ... 8

2.1.5. Metode TF-IDF/ Pembobotan ... 8

2.2. Klasifikasi Dokumen ... 9

2.3. Support Vector Machine (SVM) ... 11

2.3.1. SVM pada Linearly Separable Data ... 12

(8)

2.3.3. Karakteristik Support Vector Machine ... 18 2.3.4. Kelebihan SVM ... 18 2.3.5. Kekurangan SVM... 19 2.4. Evaluasi ... 19 2.4.1. Confusion Matrix ... 20 2.4.2. Akurasi ... 21 2.4.3. Precion (Ketepatan) ... 21 2.4.4. Recall (Perolehan) ... 23 2.4.5. F.measure ... 24

BAB III ANALISA DAN PERANCANGAN... 25

3.1. Analisa Data ... 25

3.2. Preprocessing ... 25

3.2.1. Tahap Proses Tokenization ... 27

3.2.2. Tahap Proses Stopword ... 27

3.2.3. Stemming ... 28

2.2.4. Pembobotan ... 31

3.3. Klasifikasi ... 32

3.3. Rancangan Algoritma Support Vector Mechine (SVM) ... 32

BAB IV IMPLEMENTASI DAN PENGUJIAN SISTEM ... 34

4.1. Spesifikasi Kebutuhan Hardware dan Software ... 34

4.2. Implementasi Sistem ... 34

4.2.1. Implementasi Preprocessing ... 34

4.2.1.1. Menu Data Berita ... 35

4.2.1.2. Penerapan dan Hasil Tokenizing ... 35

4.2.1.3. Penerapan dan Hasil Stopword dengan stemming ... 36

4.2.1.4. Penerapan dan Hasil Pembobotan ... 37

4.2.2. Penerapan dan Hasil Klasifikasi SVM ... 38

(9)

BAB V KESIMPULAN DAN SARAN ... 49

5.1. Kesimpulan ... 49

5.2. Saran ... 49

(10)

DAFTAR GAMBAR

Gambar 2.1. Contoh Kalimat Input ... 6

Gambar 2.6. Proses Klasifikasi dengan Masukan Nilai Antribut x ke dalam kelas label y ... 10

Gambar 2.10 Alternatif bidang pemisah (kiri) dan bidang pemisah terbaik dengan margin (m) terbesar (kanan) ... 13

Gambar 2.11 Soft margin hyperplane ... 16

Gambar 2.12. Contoh SVM pada Non Linearly Separable Data ... 17

Gambar 2.13 Contoh Trasformasi Untuk Data Yang Tidak Dapat Dipisahkan Secara Linear ... 17

Gambar 3.1. Alur Klasifikasi Dokumen Berita Berbahasa Indonesia ... 25

Gambar 3.2 Alir/ Flowchat Preprocessing ... 26

Gambar 3.3 Contoh Kalimat Input ... 26

Gambar 3.4. Flowchat Tokenizing ... 27

Gambar 3.5. Flowchat Stopword ... 27

Gambar 3.6. Flowchat Stemming ... 30

Gambar 3.7. Flowchat Pembobotan ... 31

Gambar 3.8. Flowchat Klasifikasi ... 32

Gambar 3.9. Flowchat Support Vector Mechine ... 33

Gambar 4.1. Contoh Data Berita ... 35

Gambar 4.2. Hasil Tokenizing. ... 36

Gambar 4.3 Hasil Stopword dan Stemming ... 36

Gambar 4.4. Hasil Term Frequensi (TF) ... 37

Gambar 4.5. Hasil Document Frequensi (DF) ... 37

Gambar 4.6. Hasil Pembobotan (W) ... 38

Gambar 4.7. Hasil Perhitungan Vector x dan y ... 39

Gambar 4.8. Hasil Perhitungan Kernel Radial ... 39

(11)

Gambar 4.10. Hasil Klasifikasi ... 40

Gambar 4.19. Hasil Evaluas Precision ... 47

Gambar 4.20. Hasil Evaluasi Recall ... 47

(12)

DAFTAR TABEL

Tabel 2.2. Contoh Tokenizing ... 7

Tabel 2.3. Contoh Hasil Penghapusan Stopword ... 7

Tabel 2.4. Contoh Hasil Stemmning ... 8

Tabel 2.5. Contoh Perhitungan TF/ IDF ... 9

Tabel 2.13. Confusion Matrix ... 20

Tabel 2.14. Contoh hitungan penentuan recall dan precision ... 22

Tabel 4.11. Jumlah Pengelompokan Data Sesuai Dengan Kategori ... 41

Tabel 4.12. Hasil Keseluruhan Klasifikasi ... 42

Tabel 4.13. Hasil Evaluasi Confusion Matrix Kelas Olahraga. ... 43

Tabel 4.14. Hasil Evaluasi Confusion Matrix Kelas Bisnis ... 43

Tabel 4.15. Hasil Evaluasi Confusion Matrix Kelas Kriminal ... 44

Tabel 4.16. Hasil Evaluasi Confusion Matrix Kelas Gaya Hidup ... 45

Tabel 4.17. Hasil Evaluasi Confusion Matrix Hiburan ... 46

(13)

DAFTAR PUSTAKA

[1] Abdur, Agus, Diana, 2011. “Klasifikasi Dokumen Teks Berbahasa Arab

menggunakan algoritma Naïve Bayes”. Fakultas Teknologi Informasi. Institut Teknologi Sepuluh Nopember.

[2] Anto Satriyo Nugroho, Arief Budi Witarto, Dwi Handoko, 2003. Support

VectorMachine. (online). http://asnugroho.net/papers/ikcsvm.pdf. (diakses 26

Mei 2013).

[3] Budy, 2012. “Stemming Potter Bahasa Indonesia”. (online).

http://budyblog9.wordpress.com/2012/. (diakses 26 Mei 2013). tf

[4] Ensiklopedia, 2010. “Support Vector Machine (SVM)”. (online).

http://digilib.ittelkom.ac.id/index.php?view=article&catid=15%3Apemrosesa nsinyal&id=687%3Asvm&tmpl=component&print=1&page=&option=com_c

ontent&Itemid=14. (diakses 1 April 2013).

[5] Hermoza, Tya, 2011. “Evaluating Accuracy”. Falkutas matematika dan Ilmu

Pengetahuan Alam. Universitas Gadjah Mada.

[6] Hardi, Wishnu, 2006. “Mengukur Kinerja search Engine : Sebuah

Eksperimentasi Penilaian precision dan recall untuk Informasi ilmiah bidang Ilmu Perpustakaan dan Informasi”. Peneliti pada Veritas Document Management, Jakarta.

[7] Jananto, Arief, 2010. “Perbandingan Performansi Algoritma Nearest

Neighbor dan SLIQ untuk Prediksi Kinerja Akademik Mahasiswa Baru”. Fakultas Teknologi Informasi. Universitas Stikubank Semarang.

[8] Melli , Gabor Settimio, 2010. “Supervised Ontology To Dokument

(14)

[9] Mulyana, Iyan, 2010 “Penerapan Term Frequency - Invers Document Frequency Pada Sistem Peringkasan Teks Otomatis dokumen tunggal berbahasa Indonesia” Jurusan Ilmu Komputer. Universitas pakuan.

[10] Putri, Yosi Amelia, 2009. “Stemming Untuk Tesk Berbahasa Indonesia dan

Pengaruhnya Dalam Kategori”. Falkutas informatika, Institut Teknologi Telkom.

[11] Sembiring, Krisantus, 2007. “Penerapan Teknik Support Vector Machine

untuk Pendeteksian Intrusi pada Jaringan”. Jurusan Teknik Informatika. Institut Teknologi Bandung.

[12] Susanto, Sylvia, 2006. “Pengklasifikasian Artikel Berita Berbahasa Indonesia

Secara Otomatis Menggunakan Naïve Bayes Classifier”. Falkutas Ilmu Computer, Universitas Indonesia.

[13] Tan, Steinbach, Kumar, 2006. “Data Mining

Classification: Basic Concepts, Decision Trees, and Model Evaluation”.

(online). http://www-users.cs.umn.edu/~kumar/dmbook/index.php (diakses 20

Mei 2013).

Referensi

Dokumen terkait

Buku Pegangan Jaminan Kesehatan Nasional (JKN) dalam Sistem Jaminan Sosial Nasional. Jakarta: Pusat Pembiayaan dan Jaminan Kesehatan Kementerian Kesehatan RI. Mengenal

Pada usaha Bakpia Nura ini, ibu Suratmi yang memiliki tiga orang anak menuturkan pada peneliti mengenai pengenalan nilai-nilai kewirausahaan yang terjadi di keluarganya,

Berdasarkan hasil konsultasi dengan Prof Dr Diany Yogiantoro SpM, gejala-gejala dari penyakit mata yang sering terjadi di kehidupan masyarakat antara lain:

Hasil penelitian ini menunjukkan bahwa: (1) terdapat pengaruh linear yang positif dan signifikan antara skill argumentasii terhadap literasi sains siswa; (2) terjadi

Kekerasan dalam rumah tangga menurut pasal 1 Undang-undang Nomor 23 Tahun 2004 tentang Penghapusan Kekerasan Dalam Rumah Tangga adalah setiap perbuatan

Skripsi Perbandingan Efisiensi Uji Korelasi Peringkat ..... ADLN - Perpustakaan

Studi Kasus Penerapan Konseling Agama Terhadap Resistensi Siswa Kepada Guru Dengan Pendekatan BH, RET, dan CC di Kelas VIII C MTs.Kedungombo Buaran mayong Jepara Tahun Pelajaran

The following procedure, which is stored in the Code window for the ThisWorkbook object, is executed when any sheet in the workbook is activated. The code displays a message with