CLUSTERISASI BERITA BERDASARKAN VARIASI
AUTHOR, VARIASI ISI DAN VARIASI PRO-KONTRA
PADA KOMENTARNYA
Tugas Akhir
Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang
Oleh :
Evita Fidyasari 09560205
JURUSAN TEKNIK INFORMATIKA
FAKULTAS TEKNIK
UNIVERSITAS MUHAMMADIYAH MALANG
2014
ii
LEMBAR PERSETUJUAN
CLUSTERISASI BERITA BERDASARKAN VARIASI AUTHOR, VARIASI ISI DAN VARIASI PRO-KONTRA PADA KOMENTARNYA
TUGAS AKHIR
Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang
Menyetujui
Pembimbing I
Yuda Munarko, S.Kom., M.Sc. NIP : 108.0611.0443
Pembimbing II
Yufis Azhar, M.Kom. NIDN : 072 8088 701
iii
LEMBAR PENGESAHAN
CLUSTERISASI BERITA BERDASARKAN VARIASI AUTHOR, VARIASI ISI DAN VARIASI PRO-KONTRA PADA KOMENTARNYA
TUGAS AKHIR
Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang
Disusun Oleh : EVITA FIDYASARI
09560205
Tugas akhir ini telah diuji dan dinyatakan lulus melalui sidang majelis penguji pada tanggal 16 Juli 2014
Menyetujui,
Gita Indah M., ST, M.Kom Nur Hayatin, S.ST NIP : 108.0611.0442 NIP : 108.0907.0476
Mengetahui,
Ketua Jurusan Teknik Informatika
Yuda Munarko, S.Kom., M.Sc. NIP : 108.0611.0443
iv
LEMBAR PERNYATAAN
Yang bertanda tangan dibawah ini : NAMA : EVITA FIDYASARI NIM : 09560205
FAK /JUR : TEKNIK/INFORMATIKA
Dengan ini saya menyatakan bahwa Tugas Akhir dengan judul “CLUSTERISASI BERITA BERDASARKAN VARIASI AUTHOR, VARIASI ISI DAN VARIASI PRO-KONTRA PADA KOMENTARNYA” beserta seluruh isinya adalah karya saya sendiri dan bukan merupakan karya tulis orang lain, baik sebagian maupun seluruhnya, kecuali dalam bentuk kutipan yang telah disebutkan sumbernya. Demikian surat pernyataan ini saya buat dengan sebenar-benarnya. Apabila kemudian ditemukan adanya pelanggaran terhadap etika keilmuan dalam karya saya ini, atau ada klaim dari pihak lain terhadap keaslian karya saya ini maka saya siap menanggung segala bentuk resiko/sanksi yang berlaku.
Malang, 8 Juli 2014
Yang Membuat Pernyataan
(Evita Fidyasari)
Mengetahui,
Dosen Pembimbing I
Yuda Munarko, S.Kom., M.Sc. NIP : 108.0611.0443
Dosen Pembimbing II
Yufis Azhar, M.Kom. NIDN : 072 8088 701
v ABSTRAK
Internet adalah salah satu teknologi yang berkembang pesat dibidang informasi dan komunikasi. Salah satu yang dapat diakses lewat internet adalah berita elektronik. Berita elektronik akan terus bertambah banyak setiap harinya, jadi dibutuhkan metode khusus untuk mengelompokkan berita-berita tersebut, sehingga dapat mempermudah dalam pengambilan informasi penting yang ada pada berita-berita tersebut.
Atribut untuk pengelompokkan berita adalah komentar yang ada di tiap-tiap berita (bukan isi berita). Ada juga atribut-atribut lain yang dipakai, yaitu : variasi author, variasi isi dan variasi pro-kontra dari komentar-komentar tersebut. Metode pengelompokkan yang digunakan adalah Klasterisasi (pengelompokkan data tanpa berdasarkan kelas data atau klaster tertentu). Sedangkan algoritma yang digunakan adalah K-Means (suatu algoritma yang melakukan pengelompokkan data dengan sistem partisi).
Proses pengelompokkan dilakukan menggunakan empat analisa. Dari keempat analisa tersebut akan didapatkan kesimpulan bahwa analisa 2 : dengan cara memperhatikan nilai ternormalisasi per kata adalah analisa yang baik digunakan untuk proses klasterisasi, karena dapat menampilkan nilai hasil dari kelompok positif, kelompok negatif dan kelompok netral secara merata.
Kata Kunci : komentar, variasi author, variasi isi, variasi pro-kontra, klasterisasi,, algoritma k-means
vi ABSTRACT
Internet is one of the rapidly developing technology in the field of information and communication. One that can be accessed via the Internet is an electronic the news. Electronic news will keep multiplying every day, so it takes a special method to classify the news, so as to facilitate the retrieval of important information that is on the news.
Attributes for the classification of news is that there are comments on each news (not the news content). There are also other attributes are used, namely: authorvariation, content variation and variation of the pros and cons of these comments. Grouping method used is clustering (grouping the data without the data or clusters based on a certain class). While the algorithm used is the K-Means (an algorithm that perform grouping of data to the system partition).
The process of grouping is done using four analysis. From those four analysis we can conclude that the analysis 2: by looking at the normalized value per word is a good analysis for clustering process, as it can display the value of the result of the positive group, negative group and the neutral group evenly.
Keywords: comments, author variation, content variation, variation pros and cons, clustering, k-means algorithm
vii
LEMBAR PERSEMBAHAN
Alhamdulillah, ucapan rasa syukur saya kepada Allah SWT, yang telah membukakan jalan kepada penulis untuk dapat menyelesaikan Tugas Akhir ini dengan hasil yang memuaskan. Dalam menyelesaikan Tugas Akhir ini penulis memberikan rasa hormat dari hati yang terdalam kepada seluruh pihak yang memberikan motivasi dan semangatnya kepada penulis hingga terselesaikannya Tugas Akhir ini, rasa hormat dan ucapan terimakasih yang sebesar-besarnya saya haturkan kepada :
1. Kedua orang tuaku (Ayah dan mama) yang selalu memberikan dukungan, do’a, motivasi, semangat baik dari segi materi hingga moril yang tidak ternilai harganya yang mereka perjuangkan untukku, semoga Allah SWT selalu melindungi mereka. (Amin).
2. Adikku Dio yang sudah beranjak dewasa dan temen bertengkarku dirumah. 3. Kakek, nenek, pakde, bude, om, tante dan sepupu-sepupuku yang aku
sayangi, makasih banyak sudah memberikan dukungan, do’a dan semangat kepadaku.
4. Bapak Yuda Munarko S. Kom., M.Sc selaku pembimbing I dan Bapak Yufis Azhar, M.Kom selaku pembimbing II, yang memberikan masukan, arahan serta bimbingan selama penulis mengerjakan Tugas Akhir ini.
5. Ibu Gita Indah Maharsi, ST, M.Kom selaku dosen penguji I dan Ibu Nur Hayatin, S.ST selaku penguji II, yang telah memberikan kritik serta saran yang bermanfaat demi terselesaikan Tugas Akhir ini.
6. Kepada Dosen serta Staff FT-UMM khususnya jurusan Teknik Informatika yang telah banyak memberikan bantuan selama penulis kuliah di UMM. 7. Okii Dokii \0_0/ yang selalu ada dalam susah maupun senang, tempat curhat,
tempat melampiaskan amarah, berantem kayak anak kecil. Deanita Mandasari (Dea), Achmad Fikri Setyawan (Mr. Panda), Desi Ariana Sari (Si bebeb), Lailatul Khusnia (Ila), Nurin Adi Rachmawati (Chef), Tri Haidar Muhammad (Babon), Teddy Abdurahman (Beruang Teddy), Hafizh Nurul Irsyad (Hafizh), Octavi Putri Liberta (Mbak Bee), Ridwan
viii
Wahyudi (Iwan), Dwi Putri Yuni Lestari (Putri), kalian bukan teman biasa kalian itu keluarga sampai akhir zaman.
8. Keluarga besar Hummasoft : Mas Afrizal, Annisa, Mas Catur, Mas Panji yang telah banyak membantu dalam menyelesaikan tugas akhir ini.
9. Buat adik-adik tingkat angkatan 2010 : Resti Fuji Lestari, Sukma Fitri Agustin dan Kurniawan Tirta Aji yang memberikan dukungan, semangat, do’a dan menjadi teman seperjuangan baruku dalam menyelesaikan tugas akhir ini.
10. Sahabat-sahabatku di MAN 3 MALANG dulu : Nurani Afifah Elpidia, Muniroh dan Fadilla Catur Rahayu yang memberikan dukungannya, semangatnya dan juga do’anya untukku dalam menyelesaikan tugas akhir ini.
Akhir kata kupersembahkan karya berharga ini untuk pembaca, khususnya Mahasiswa Fakultas Teknik Informatika Universitas Muhammadiyah Malang. Semoga Tugas Akhir ini bermanfaat dalam penelitian dan pembelajaran selanjutnya.
ix
KATA PENGANTAR
Saya panjatkan puji dan syukur ke hadirat Tuhan yang Maha Esa, karena berkat rahmat-Nya lah penulis dapat menyelesaikan penulisan skripsi yang berjudul “CLUSTERISASI BERITA BERDASARKAN VARIASI AUTHOR, VARIASI ISI DAN VARIASI PRO-KONTRA PADA KOMENTARNYA”. Adapun tujuan dari penulisan skripsi ini adalah sebagai salah satu syarat untuk memperoleh gelar kesarjanaan pada Jurusan Teknik Informatika di Universitas Muhammadiyah Malang.
Penulis menyadari bahwa terselesaikannya karya tulis ini tidak terlepas dari bantuan berbagai pihak. Oleh karena itu, dalam proses penulisan dan penyusunan skripsi ini, penulis meminta maaf sebesar – besarnya apabila terdapat kesalahan dalam proses penyusunan skripsi ini. Penulis juga menyadari bahwa begitu banyak bantuan, dukungan dan kerjasama yang luar biasa dari berbagai pihak. Oleh karena itu, penulis mengharapkan saran yang membangun agar tulisan ini bermanfaat bagi perkembangan ilmu pengetahuan kedepan.
Malang, 8 Juli 2014
x
DAFTAR ISI
LEMBAR PERSETUJUAN ... ii
LEMBAR PENGESAHAN ... iii
LEMBAR PERNYATAAN ... iv
ABSTRAK ... v
ABSTRACT ... vi
LEMBAR PERSEMBAHAN ... vii
KATA PENGANTAR ... ix
DAFTAR ISI ... x
DAFTAR GAMBAR ... xii
DAFTAR TABEL ... xiii
BAB I PENDAHULUAN ... 1 1.1 Latar Belakang... 1 1.2 Rumusan Masalah ... 2 1.3 Tujuan Penelitian ... 2 1.4 Batasan Masalah ... 3 1.5 Metodologi Penelitian ... 3
1.5.1 Mekanisme Pengumpulan Data ... 3
1.5.2 Membangun Klasterisasi ... 3
1.5.3 Analisa Hasil Klasterisasi ... 3
1.5.4 Dokumentasi ... 3
1.6 Sistematika Penulisan ... 3
BAB II LANDASAN TEORI ... 5
2.1 Data Mining ... 5
2.1.1 Pengertian Data Mining ... 5
2.1.2 Tujuan Data Mining ... 7
2.1.3 Pengelompokkan Data Mining ... 7
2.2 Stopword ... 10
2.2.1 Pengertian Stopword ... 10
2.2.2 Alasan Pemakaian Stopword ... 11
2.3 Stemming ... 11 2.3.1 Pengertian Stemming ... 11 2.3.2 Metode Stemming ... 11 2.4 Klasterisasi ... 13 2.4.1 Pengertian Klasterisasi ... 13 2.4.2 Metode Klasterisasi ... 14 2.5 Algoritma K-Means ... 14
xi
BAB III ANALISA DAN PERANCANGAN SISTEM ... 18
3.1 Analisa Data ... 18
3.2 Analisa Kebutuhan Sistem ... 20
3.2.1 Flowchart Perangkat Lunak ... 21
3.2.2 Use Case Diagram ... 23
3.2.2 Activity Diagram ... 25
3.3 Perancangan Sistem ... 26
3.3.1 Perancangan Dataset ... 28
3.4 Desain Interface ... 31
BAB IV IMPLEMENTASI DAN HASIL PENGUJIAN SISTEM ... 34
4.1 Implementasi ... 34
4.1.1 Implementasi Proses Hitung Author ... 35
4.1.2 Implementasi Proses Hitung Kata ... 36
4.1.3 Implementasi Proses Variasi Isi ... 37
4.1.4 Implementasi Proses Hitung Proneg ... 38
4.1.5 Implementasi Proses Klastering ... 39
4.2 Pengujian Sistem ... 40
4.2.1 Pengujian Secara Fungsionalitas ... 40
4.2.2 Pengujian Proses Klasterisasi Data Dilakukan Menggunakan Empat Analisa ... 44
BAB V KESIMPULAN DAN SARAN... 68
5.1 Kesimpulan... 68
5.2 Saran ... 69
DAFTAR PUSTAKA ... 70 LAMPIRAN
xii
DAFTAR GAMBAR
Gambar 2.1 Proses KDD Secara Garis Besar... 6
Gambar 2.2 Contoh Klastering ... 13
Gambar 2.3 Flowchart Cara Kerja Algoritma K-Means... 15
Gambar 2.4 Rumus Euclidian Distance ... 16
Gambar 2.5 Contoh K-Means Klastering ... 17
Gambar 3.1 Flowchart Garis Besar Aplikasi ... 22
Gambar 3.2 Use Case Diagram ... 24
Gambar 3.3 Activity Diagram Lihat Kamus Kata ... 26
Gambar 3.4 Activity Diagram Lihat Data Dokumen ... 26
Gambar 3.5 Activity Diagram Lihat Analisis Kamus Kata ... 27
Gambar 3.6 Activity Diagram Lihat Analisis Data Dokumen... 28
Gambar 3.7 Tampilan Menu Awal ... 31
Gambar 3.8 Tampilan Halaman Kamus Kata ... 32
Gambar 3.9 Tampilan Halaman Data Dokumen ... 32
Gambar 3.10 Tampilan Halaman Analisa Data Dokumen... 33
Gambar 4.1 Class analisadatadokumen ... 34
Gambar 4.2 Method Proses Hitung Author ... 35
Gambar 4.3 Method Proses Hitung Kata... 36
Gambar 4.4 Method Proses Variasi Isi ... 37
Gambar 4.5 Method Proses Hitung Proneg ... 38
Gambar 4.6 Method Proses Klastering ... 39
Gambar 4.7 Tampilan Menu Awal ... 40
Gambar 4.8 Tampilan Menu Data Dokumen ... 41
Gambar 4.9 Tampilan Menu Kamus Kata ... 42
Gambar 4.10 Tampilan Menu Proses... 43
Gambar 4.11 Hasil Klasterisasi Analisa 1 dengan Variasi isi (Visi) ... 44
Gambar 4.12 Hasil Klasterisasi Analisa 1 tanpa Variasi isi (Visi) ... 47
Gambar 4.13 Hasil Klasterisasi Analisa 2 dengan Variasi isi (Visi) ... 50
Gambar 4.14 Hasil Klasterisasi Analisa 2 tanpa Variasi isi (Visi) ... 52
Gambar 4.15 Hasil Klasterisasi Analisa 3 dengan Variasi isi (Visi) ... 56
Gambar 4.16 Hasil Klasterisasi Analisa 3 tanpa Variasi isi (Visi) ... 58
Gambar 4.17 Hasil Klasterisasi Analisa 4 dengan Variasi isi (Visi) ... 62
xiii
DAFTAR TABEL
Tabel 3.1 Tabel Contoh Analisa Data ... 18
Tabel 3.2 Tabel Author ... 28
Tabel 3.3 Tabel Berita ... 29
Tabel 3.4 Tabel Komentar ... 29
Tabel 3.5 Tabel Kamus Kata ... 29
Tabel 3.6 Tabel Stopword ... 30
Tabel 3.7 Tabel Hasil ... 30
Tabel 4.1 Tabel Hasil Klaster 1 dari Analisa 1 dengan Variasi isi (Visi) ... 44
Tabel 4.2 Tabel Hasil Klaster 2 dari Analisa 1 dengan Variasi isi (Visi) ... 45
Tabel 4.3 Tabel Hasil Klaster 3 dari Analisa 1 dengan Variasi isi (Visi) ... 46
Tabel 4.4 Tabel Kesimpulan Hasil Klaster Analisa 1 dengan Variasi isi (Visi) ... 46
Tabel 4.5 Tabel Hasil Klaster 1 dari Analisa 1 tanpa Variasi isi (Visi) ... 47
Tabel 4.6 Tabel Hasil Klaster 2 dari Analisa 1 tanpa Variasi isi (Visi) ... 48
Tabel 4.7 Tabel Hasil Klaster 3 dari Analisa 1 tanpa Variasi isi (Visi) ... 49
Tabel 4.8 Tabel Kesimpulan Hasil Klaster Analisa 1 tanpa Variasi isi (Visi) ... 49
Tabel 4.9 Tabel Hasil Klaster 1 dari Analisa 2 dengan Variasi isi (Visi) ... 50
Tabel 4.10 Tabel Hasil Klaster 2 dari Analisa 2 dengan Variasi isi (Visi) ... 51
Tabel 4.11 Tabel Hasil Klaster 3 dari Analisa 2 dengan Variasi isi (Visi) ... 52
Tabel 4.12 Tabel Kesimpulan Hasil Klaster Analisa 2 dengan Variasi isi (Visi) . 52 Tabel 4.13 Tabel Hasil Klaster 1 dari Analisa 2 tanpa Variasi isi (Visi) ... 53
Tabel 4.14 Tabel Hasil Klaster 2 dari Analisa 2 tanpa Variasi isi (Visi) ... 54
Tabel 4.15 Tabel Hasil Klaster 3 dari Analisa 2 tanpa Variasi isi (Visi) ... 54
Tabel 4.16 Tabel Kesimpulan Hasil Klaster Analisa 2 tanpa Variasi isi (Visi) .... 55
Tabel 4.17 Tabel Hasil Klaster 1 dari Analisa 3 dengan Variasi isi (Visi) ... 56
Tabel 4.18 Tabel Hasil Klaster 2 dari Analisa 3 dengan Variasi isi (Visi) ... 57
Tabel 4.19 Tabel Hasil Klaster 3 dari Analisa 3 dengan Variasi isi (Visi) ... 57
Tabel 4.20 Tabel Kesimpulan Hasil Klaster Analisa 3 dengan Variasi isi (Visi) . 58 Tabel 4.21 Tabel Hasil Klaster 1 dari Analisa 3 tanpa Variasi isi (Visi) ... 59
Tabel 4.22 Tabel Hasil Klaster 2 dari Analisa 3 tanpa Variasi isi (Visi) ... 60
Tabel 4.23 Tabel Hasil Klaster 3 dari Analisa 3 tanpa Variasi isi (Visi) ... 60
Tabel 4.24 Tabel Kesimpulan Hasil Klaster Analisa 3 dengan Variasi isi (Visi) . 61 Tabel 4.25 Tabel Hasil Klaster 1 dari Analisa 4 dengan Variasi isi (Visi) ... 62
Tabel 4.26 Tabel Hasil Klaster 2 dari Analisa 4 dengan Variasi isi (Visi) ... 62
Tabel 4.27 Tabel Hasil Klaster 3 dari Analisa 4 dengan Variasi isi (Visi) ... 63
Tabel 4.28 Tabel Kesimpulan Hasil Klaster Analisa 4 dengan Variasi isi (Visi) . 64 Tabel 4.30 Tabel Hasil Klaster 1 dari Analisa 4 tanpa Variasi isi (Visi) ... 65
Tabel 4.31 Tabel Hasil Klaster 2 dari Analisa 4 tanpa Variasi isi (Visi) ... 65
Tabel 4.32 Tabel Hasil Klaster 3 dari Analisa 4 tanpa Variasi isi (Visi) ... 66 Tabel 4.33 Tabel Kesimpulan Hasil Klaster Analisa 4 dengan Variasi isi (Visi) . 67
70
DAFTAR PUSTAKA
[1] Basnur, Prajna Wira dan Dana Indra Sensuse. 2010. Pengklasifikasian Otomatis Berbasis Ontologi Untuk Artikel Berita Berbahasa Indonesia. Fakultas Ilmu Komputer, Universitas Indonesia. Jakarta.
[2] Santoso, Heri. 2012. “Analisis Dan Prediksi Pada Perilaku Mahasiswa Diploma Untuk Melanjutkan Studi Ke Jenjang Sarjana Menggunakan Teknik Decision Tree Dan Support Vektor Machine”. Program Studi Magister (S2) Teknik Informatika, Fakultas Ilmu Komputer Dan Teknologi, Universitas Sumatera Utara. Medan.
[3] Mujib Ridwan, dkk. 2013. Penerapan Data Mining Untuk Evaluasi Kinerja Akademik Mahasiswa Menggunakan Algoritma Naive Bayes Classifier. Universitas Brawijaya. Malang.
[4] Nango, Dwi Noviati. 2012. Penerapan Algoritma K-Means Untuk Clustering Data Anggaran Pendapatan Belanja Daerah Di Kabupaten XYZ. Jurusan Teknik Informatika, Program Studi Sistem Informasi, Fakultas Teknik, Universitas Negeri Gorontalo. Gorontalo.
[5] Noor, Agus Maulana Yusuf. 2011. Analisis Information Retrieval System Dengan Model Ruang Vektor. Jurusan Teknik Informatika, Fakultas Teknik Dan Ilmu Komputer, Universitas Komputer Indonesia. Bandung.
[6] Referensi Dosen Narotama. 2011.
http://referensi.dosen.narotama.ac.id/files/2011/12/Lexical-Analysis-Stopword-Stemming.pdf pada tanggal 17 Maret 2014.
[7] Andita, Dwiyoga Tahitoe, dkk. 2010. Implementasi Modifikasi Enhanced Confix Stripping Stemmer Untuk Bahasa Indonesia Dengan Metode Corpus Based Stemming Method. Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember. Surabaya.
[8] Widiartha, I Made. 2011. Metode Klasterisasi Data Adaptif Berbasis Artificial Bee Colony Dan K-Harmonic Means. Program Magister Bidang Keahlian Komputasi Cerdas Dan Visualisasi, Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember. Surabaya.
71 [9] Baskoro, Ilham Heru. 2010. Implementasi Algoritma K-Means
Menggunakan Data Penyewaan Alat Berat Untuk Melakukan Estimasi Nilai Outcome. Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Pembangunan Nasional “Veteran”. Jakarta.
[10] Universitas Pembangunan Nasional “Veteran”. Diambil dari http://www.library.upnvj.ac.id/pdf/2s1teknikinformasi/206511014/sk206511 014.pdf pada tanggal 19 Maret 2014.
[11] Amanda Adityaningrum. 2013. http://adityaningrum-wlelf.blogspot.com/2013/04/k-means.html pada tanggal 19 Maret 2014.
[12] Universitas Bina Nusantara. Diambil dari
http://thesis.binus.ac.id/Asli/Bab2/2009-1-00477-TIAS%20Bab%202.pdf pada tanggal 19 Maret 2014.
[13] Darsono.
http://sdarsono.staff.gunadarma.ac.id/Downloads/files/16512/Flowchart.pd f pada tanggal 19 Maret 2014.
[14] Nicki Hermanto Putro. 2013.
http://nickizoner.blogspot.com/2013/06/mengenal-use-case-diagram.html pada tanggal 19 Maret 2014.
[15] Dewa Dirga. 2011. http://dewadirga.blogspot.com/2011/09/tentang-activity-diagram.html pada tanggal 19 Maret 2014.