Ekstraksi Kata Kunci Otomatis Teks Berbahasa Indonesia Menggunakan Metode TextRank

12 

Loading.... (view fulltext now)

Loading....

Loading....

Loading....

Loading....

Teks penuh

(1)

SKRIPSI

RANTI RAMADHIANA

121402056

PROGRAM STUDI S1 TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

MEDAN

(2)

EKSTRAKSI KATA KUNCI OTOMATIS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE TEXTRANK

SKRIPSI

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi

RANTI RAMADHIANA 121402056

PROGRAM STUDI S1 TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA

(3)

PERSETUJUAN

Judul : EKSTRAKSI KATA KUNCI OTOMATIS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE TEXTRANK

Kategori : SKRIPSI

Nama : RANTI RAMADHIANA Nomor Induk Mahasiswa : 121402056

Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI Departemen : TEKNOLOGI INFORMASI

Fakultas : FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

Komisi Pembimbing :

Pembimbing 2 Pembimbing 1

Romi Fadillah Rahmat, B.Comp.Sc., M.Sc Dani Gunawan, ST., M.T NIP. 19860303 201012 1 004 NIP. 19820915 201212 1 002

Diketahui/disetujui oleh

Program Studi S1 Teknologi Informasi Ketua,

Romi Fadillah Rahmat, B.Comp.Sc., M.Sc

(4)

PERNYATAAN

EKSTRAKSI KATA KUNCI OTOMATIS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE TEXTRANK

SKRIPSI

Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

Medan, 28 Juli 2017

Ranti Ramadhiana

(5)

UCAPAN TERIMA KASIH

Puji dan syukur penulis sampaikan kehadirat Allah SWT yang telah memberikan rahmat dan izin-Nya sehingga penulis dapat menyelesaikan skripsi ini sebagai syarat untuk memperoleh gelar sarjana Komputer pada Program Studi S1 Teknologi Informasi Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara. Selama dalam penyelesaian tugas akhir ini, banyak sekali bantuan dan dukungan serta doa dari berbagai pihak sehingga penulis ingin menyampaikan ucapan terima kasih sedalam-dalamnya dan penghargaan kepada :

1. Kedua orang tua penulis, Ayahanda Zakaria Ilyas(Alm) dan Ibunda Fetrimayanti yang telah membesarkan penulis dengan sabar dan penuh kasih sayang serta memberikan doa dan dukungan moril maupun materiil serta memberikan motivasi terbesar kepada penulis sehingga penulis dapat memberikan yang terbaik untuk menyelesaikan skripsi ini. Serta kepada seluruh anggota keluarga penulis yang selalu memberikan semangat kepada penulis.

2. Bapak Dani Gunawan, ST., M.T selaku pembimbing pertama dan Bapak Romi Fadillah Rahmat, B.Comp.Sc.,M.Sc selaku pembimbing kedua yang telah meluangkan waktu dan pikiran beliau untuk membimbing penulis dalam menyelesaikan penelitian dan skripsi ini. Tanpa motivasi dan arahan yang diberikan dari kedua pembimbing, tentu penulis tidak akan dapat menyelesaikan skripsi ini dengan baik.

3. Ibu Sarah Purnamawati, ST., MSc sebagai dosen pembanding pertama dan Bapak Ainul Hizriadi, S.Kom, M.Sc sebagai dosen pembanding kedua yang telah memberikan masukan dan kritik yang membangun dan bermanfaat dalam penulisan skripsi ini.

4. Semua dosen serta pegawai dilingkungan Fakultas Ilmu Komputer dan Teknologi Informasi yang telah membantu dan membimbing penulis selama proses perkuliahan.

5. Sahabat penulis khususnya Eriza Mediana, Nurul Khadijah, Putri Nursafitri, Annisa Faradina, Endang Windarsih, Nurrahmadayeni, Rona Idona Vynaima S, Siti Fatimah, Siti Hazizah Hrp, Nurchalissa Saragih yang telah memberikan dukungan dan memberikan nasehat kepada penulis.

6. Teman-teman dan sahabat seperjuangan mahasiswa Teknologi Informasi USU yang telah memberikan dukungan dan bantuan selama masa perkuliahan yang namanya tidak dapat penulis sebutkan satu persatu.

(6)

Semoga Allah SWT melimpahkan berkah kepada semua pihak yang telah memberikan bantuan, perhatian serta dukungan dan motivasinya kepada penulis dalam menyelesaikan skripsi ini.

Medan, 28 Juli 2017

(7)

ABSTRAK

Tahapan ekstraksi kata kunci merupakan salah satu tahapan penting dari beberapa aplikasi text mining. Untuk mendapatkan kata kunci yang tepat secara lebih otomatis, berbagai metode ekstraksi kata kuncipun terus dikembangkan dan diuji. Pada artikel ilmiah, ekstraksi kata kunci dibutuhkan untuk memberikan alternatif kata kunci secara lebih sistematis kepada penulis jurnal. Penentuan kata kunci secara manual pada artikel ilmiah tidaklah efektif terutama jika artikel ilmiah yang akan dianalisis kata kuncinya tersebut jumlahnya sangat banyak. Pada penelitian ini ekstraksi kata kunci dikembangkan menggunakan metode textrank untuk mengekstraksi dokumen teks bahasa Indonesia dengan memodifikasi tahapan preprocessing pembentukan kandidat kata kunci dari algoritma textrank tersebut menggunakan aturan multiword expression candidate. Tahapan keseluruhan metode yang digunakan pada penelitian ini yaitu preprocessing(text cleaning,tokenizing,case folding,stopword removal, POS tagging, candidates multiword extraction), ekstraksi kata kunci dan tahapan terakhir yaitu post-processing untuk pemfilteran kata kunci yang terlalu umum. Hasil akhir dari penelitian ini menunjukkan bahwasanya textrank dengan multiword expression candidate memiliki waktu ekstraksi yang lebih cepat dan persentase akurasi recall yang sedikit lebih tinggi dibandingkan algoritma textrank biasa pada top-15 kata kunci.

(8)

AUTOMATIC KEYWORDS EXTRACTION FROM INDONESIAN TEXT DOCUMENT USING TEXTRANK METHOD

ABSTRACT

Keywords extraction is one of the most important stage in some of text mining applications. To acquire the right keywords more automatically, various methods of keywords extraction continues to be developed and examined. In most scientific articles, keywords extraction is needed to offer alternatives keywords systematically to journal authors. Most of the cases, keywords of scientific articles are offered manually and this is not really effective, especially when many scientific articles contains keywords to be extracted. In this research, keywords extraction is developed by using textrank method to extract Indonesian text document by modifying the preprocessing stage of candidate keywords selection in textrank algorithm using multiword expression candidate rule. The overall stages used in this research are preprocessing (text cleaning, tokenizing, case folding, stopword removal, POS tagging, multiword candidates extraction), keyword extraction and the last stage is post-processing for filter keywords that have common words. The result of this research showed that textrank with multiword expression candidate has a faster extraction time and a slightly higher recall accuracy compared to common textrank algorithm in the top-15 keywords.

Keyword:Keywords extraction, Textrank, Preprocessing, multiword expression

(9)

DAFTAR ISI

Hal.

PERSETUJUAN i

PERNYATAAN ii

UCAPAN TERIMA KASIH iii

ABSTRAK v

1.6 Metodologi Penelitian 4 1.7 Sistematika Penulisan 5

BAB 2 LANDASAN TEORI

2.1 Ekstraksi Kata Kunci 7

2.2 Part of Speech Tagging 8

2.3 Multiword Expression 10

2.4 Algoritma Textrank 11

2.5 Penelitian Terdahulu 13

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

3.1Data 18

(10)

3.2.1 Input 20

3.2.2 Preprocessing 20

3.2.3 Keyword Extraction 26

3.2.4 Post-Processing 30

3.3Perancangan Sistem 31

3.3.1Diagram Aktifitas untuk Ekstraksi Kata Kunci 31 3.3.2 Perancangan Antarmuka Sistem 32

BAB 4 IMPLEMENTASI DAN PENGUJIAN SISTEM

4.1Implementasi Sistem 35

4.1.1Spesifikasi Hardware dan Software yang digunakan 35 4.1.2 Implementasi Perancangan Antarmuka 35

4.2Pengujian Sistem 38

BAB 5 KESIMPULAN DAN SARAN

5.1 Kesimpulan 46

5.2 Saran 46

(11)

DAFTAR TABEL

Hal. Tabel 2.1 Label Kata untuk Bahasa Indonesia 9 Tabel 2.2 Penelitian Terdahulu 15 Tabel 3.1 Tahapan Tokenizing 22 Tabel 3.2 Tahapan Case Folding 23 Tabel 3.3 Tahapan Filtering 23

Tabel 3.4 Daftar Stopword 24

Tabel 3.5 Daftar Kandidat Kata dan Multiword 26 Tabel 3.6 Contoh Hasil dari Perhitungan Textrank dengan Multiword Expression

Candidate 28

Tabel 3.7 Stop-phrase 30

Tabel 3.8 Contoh Hasil Pengurutan Kata Kunci berdasarkan Skor Bobot Kata 31

Tabel 4.1 Data Uji Sistem 38

(12)

DAFTAR GAMBAR

Hal. Gambar 2.1 Flowchart Metode Multiword Expression Candidates 11

Gambar 3.1 Arsitektur Umum 19

Gambar 3.2 Contoh Input Teks Berbahasa Indonesia 20

Gambar 3.3 Text Cleaning 22

Figur

Memperbarui...

Referensi

Memperbarui...