SKRIPSI
RANTI RAMADHIANA
121402056
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
EKSTRAKSI KATA KUNCI OTOMATIS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE TEXTRANK
SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi
RANTI RAMADHIANA 121402056
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
PERSETUJUAN
Judul : EKSTRAKSI KATA KUNCI OTOMATIS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE TEXTRANK
Kategori : SKRIPSI
Nama : RANTI RAMADHIANA Nomor Induk Mahasiswa : 121402056
Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI Departemen : TEKNOLOGI INFORMASI
Fakultas : FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
Komisi Pembimbing :
Pembimbing 2 Pembimbing 1
Romi Fadillah Rahmat, B.Comp.Sc., M.Sc Dani Gunawan, ST., M.T NIP. 19860303 201012 1 004 NIP. 19820915 201212 1 002
Diketahui/disetujui oleh
Program Studi S1 Teknologi Informasi Ketua,
Romi Fadillah Rahmat, B.Comp.Sc., M.Sc
PERNYATAAN
EKSTRAKSI KATA KUNCI OTOMATIS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE TEXTRANK
SKRIPSI
Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, 28 Juli 2017
Ranti Ramadhiana
UCAPAN TERIMA KASIH
Puji dan syukur penulis sampaikan kehadirat Allah SWT yang telah memberikan rahmat dan izin-Nya sehingga penulis dapat menyelesaikan skripsi ini sebagai syarat untuk memperoleh gelar sarjana Komputer pada Program Studi S1 Teknologi Informasi Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara. Selama dalam penyelesaian tugas akhir ini, banyak sekali bantuan dan dukungan serta doa dari berbagai pihak sehingga penulis ingin menyampaikan ucapan terima kasih sedalam-dalamnya dan penghargaan kepada :
1. Kedua orang tua penulis, Ayahanda Zakaria Ilyas(Alm) dan Ibunda Fetrimayanti yang telah membesarkan penulis dengan sabar dan penuh kasih sayang serta memberikan doa dan dukungan moril maupun materiil serta memberikan motivasi terbesar kepada penulis sehingga penulis dapat memberikan yang terbaik untuk menyelesaikan skripsi ini. Serta kepada seluruh anggota keluarga penulis yang selalu memberikan semangat kepada penulis.
2. Bapak Dani Gunawan, ST., M.T selaku pembimbing pertama dan Bapak Romi Fadillah Rahmat, B.Comp.Sc.,M.Sc selaku pembimbing kedua yang telah meluangkan waktu dan pikiran beliau untuk membimbing penulis dalam menyelesaikan penelitian dan skripsi ini. Tanpa motivasi dan arahan yang diberikan dari kedua pembimbing, tentu penulis tidak akan dapat menyelesaikan skripsi ini dengan baik.
3. Ibu Sarah Purnamawati, ST., MSc sebagai dosen pembanding pertama dan Bapak Ainul Hizriadi, S.Kom, M.Sc sebagai dosen pembanding kedua yang telah memberikan masukan dan kritik yang membangun dan bermanfaat dalam penulisan skripsi ini.
4. Semua dosen serta pegawai dilingkungan Fakultas Ilmu Komputer dan Teknologi Informasi yang telah membantu dan membimbing penulis selama proses perkuliahan.
5. Sahabat penulis khususnya Eriza Mediana, Nurul Khadijah, Putri Nursafitri, Annisa Faradina, Endang Windarsih, Nurrahmadayeni, Rona Idona Vynaima S, Siti Fatimah, Siti Hazizah Hrp, Nurchalissa Saragih yang telah memberikan dukungan dan memberikan nasehat kepada penulis.
6. Teman-teman dan sahabat seperjuangan mahasiswa Teknologi Informasi USU yang telah memberikan dukungan dan bantuan selama masa perkuliahan yang namanya tidak dapat penulis sebutkan satu persatu.
Semoga Allah SWT melimpahkan berkah kepada semua pihak yang telah memberikan bantuan, perhatian serta dukungan dan motivasinya kepada penulis dalam menyelesaikan skripsi ini.
Medan, 28 Juli 2017
ABSTRAK
Tahapan ekstraksi kata kunci merupakan salah satu tahapan penting dari beberapa aplikasi text mining. Untuk mendapatkan kata kunci yang tepat secara lebih otomatis, berbagai metode ekstraksi kata kuncipun terus dikembangkan dan diuji. Pada artikel ilmiah, ekstraksi kata kunci dibutuhkan untuk memberikan alternatif kata kunci secara lebih sistematis kepada penulis jurnal. Penentuan kata kunci secara manual pada artikel ilmiah tidaklah efektif terutama jika artikel ilmiah yang akan dianalisis kata kuncinya tersebut jumlahnya sangat banyak. Pada penelitian ini ekstraksi kata kunci dikembangkan menggunakan metode textrank untuk mengekstraksi dokumen teks bahasa Indonesia dengan memodifikasi tahapan preprocessing pembentukan kandidat kata kunci dari algoritma textrank tersebut menggunakan aturan multiword expression candidate. Tahapan keseluruhan metode yang digunakan pada penelitian ini yaitu preprocessing(text cleaning,tokenizing,case folding,stopword removal, POS tagging, candidates multiword extraction), ekstraksi kata kunci dan tahapan terakhir yaitu post-processing untuk pemfilteran kata kunci yang terlalu umum. Hasil akhir dari penelitian ini menunjukkan bahwasanya textrank dengan multiword expression candidate memiliki waktu ekstraksi yang lebih cepat dan persentase akurasi recall yang sedikit lebih tinggi dibandingkan algoritma textrank biasa pada top-15 kata kunci.
AUTOMATIC KEYWORDS EXTRACTION FROM INDONESIAN TEXT DOCUMENT USING TEXTRANK METHOD
ABSTRACT
Keywords extraction is one of the most important stage in some of text mining applications. To acquire the right keywords more automatically, various methods of keywords extraction continues to be developed and examined. In most scientific articles, keywords extraction is needed to offer alternatives keywords systematically to journal authors. Most of the cases, keywords of scientific articles are offered manually and this is not really effective, especially when many scientific articles contains keywords to be extracted. In this research, keywords extraction is developed by using textrank method to extract Indonesian text document by modifying the preprocessing stage of candidate keywords selection in textrank algorithm using multiword expression candidate rule. The overall stages used in this research are preprocessing (text cleaning, tokenizing, case folding, stopword removal, POS tagging, multiword candidates extraction), keyword extraction and the last stage is post-processing for filter keywords that have common words. The result of this research showed that textrank with multiword expression candidate has a faster extraction time and a slightly higher recall accuracy compared to common textrank algorithm in the top-15 keywords.
Keyword:Keywords extraction, Textrank, Preprocessing, multiword expression
DAFTAR ISI
Hal.
PERSETUJUAN i
PERNYATAAN ii
UCAPAN TERIMA KASIH iii
ABSTRAK v
1.6 Metodologi Penelitian 4 1.7 Sistematika Penulisan 5
BAB 2 LANDASAN TEORI
2.1 Ekstraksi Kata Kunci 7
2.2 Part of Speech Tagging 8
2.3 Multiword Expression 10
2.4 Algoritma Textrank 11
2.5 Penelitian Terdahulu 13
BAB 3 ANALISIS DAN PERANCANGAN SISTEM
3.1Data 18
3.2.1 Input 20
3.2.2 Preprocessing 20
3.2.3 Keyword Extraction 26
3.2.4 Post-Processing 30
3.3Perancangan Sistem 31
3.3.1Diagram Aktifitas untuk Ekstraksi Kata Kunci 31 3.3.2 Perancangan Antarmuka Sistem 32
BAB 4 IMPLEMENTASI DAN PENGUJIAN SISTEM
4.1Implementasi Sistem 35
4.1.1Spesifikasi Hardware dan Software yang digunakan 35 4.1.2 Implementasi Perancangan Antarmuka 35
4.2Pengujian Sistem 38
BAB 5 KESIMPULAN DAN SARAN
5.1 Kesimpulan 46
5.2 Saran 46
DAFTAR TABEL
Hal. Tabel 2.1 Label Kata untuk Bahasa Indonesia 9 Tabel 2.2 Penelitian Terdahulu 15 Tabel 3.1 Tahapan Tokenizing 22 Tabel 3.2 Tahapan Case Folding 23 Tabel 3.3 Tahapan Filtering 23
Tabel 3.4 Daftar Stopword 24
Tabel 3.5 Daftar Kandidat Kata dan Multiword 26 Tabel 3.6 Contoh Hasil dari Perhitungan Textrank dengan Multiword Expression
Candidate 28
Tabel 3.7 Stop-phrase 30
Tabel 3.8 Contoh Hasil Pengurutan Kata Kunci berdasarkan Skor Bobot Kata 31
Tabel 4.1 Data Uji Sistem 38
DAFTAR GAMBAR
Hal. Gambar 2.1 Flowchart Metode Multiword Expression Candidates 11
Gambar 3.1 Arsitektur Umum 19
Gambar 3.2 Contoh Input Teks Berbahasa Indonesia 20
Gambar 3.3 Text Cleaning 22