Ekstraksi Kata Kunci Otomatis Teks Berbahasa Indonesia Menggunakan Metode TextRank

(1)

BAB 1 PENDAHULUAN

1.1.Latar Belakang

Kata kunci (keyword) merupakan kata-kata singkat yang dapat menggambarkan isi suatu artikel ataupun dokumen (Figueroa,et al. 2014). Kata kunci memberikan kemudahan bagi setiap pembaca artikel untuk dapat secara cepat mengetahui inti dari artikel tersebut. Ekstraksi kata kunci adalah sebuah tahapan untuk dapat mengindentifikasi berbagai kumpulan teks pada suatu dokumen dan menemukan kata kunci yang tepat sesuai dengan topik pembahasan dari dokumen yang diolah. Saat ini dengan adanya perkembangan teknologi yang semakin pesat menyebabkan beragam informasi tersebar dengan cepat melalui internet sehingga sulit untuk mengakses informasi yang ada secara menyeluruh. Dengan adanya kata kunci (keyword) maka kita dapat menemukan informasi yang kita butuhkan dari miliaran informasi yang ada secara lebih cepat (Li, et al.2014).

Ekstraksi kata kunci (keyword) merupakan tahapan penting dari aplikasi text mining. Biasanya diimplementasikan pada berbagai aplikasi text mining seperti peringkasan teks otomatis, pengindeksan otomatis, klasifikasi dan pengkategorian teks, klasterisasi dokumen, deteksi topik dan pelacakan, visualisasi informasi dan lain sebagainya (Zhang, 2008).Pada berbagai artikel ilmiah, kata kunci biasanya diletakkan setelah abstrak. Umumnya setiap penulis jurnal diharuskan menentukan kata kunci untuk jurnalnya tersebut. Saat ini dalam menentukan kata kunci untuk artikel ilmiah masih dilakukan secara manual sehingga tidak efektif dan membutuhkan banyak

waktu untuk para analis informasi ataupun mahasiswa dalam menemukan kata kunci yang tepat terutama jika menentukan kata kunci untuk banyak artikel ilmiah. Tidak

(2)

Untuk memudahkan proses ekstraksi kata kunci, banyak penelitian yang telah dikembangkan dengan memanfaatkan berbagai metode sehingga memperoleh hasil yang akurat. Pada penelitian Anggraeni(2012) menggunakan metode Corephrase untuk ekstraksi frase kunci dari sekelompok dokumen berbahasa Indonesia. Penelitian selanjutnya dilakukan oleh Bhaskar et al.(2012) menggunakan pendekatan supervised seperti Conditional Random Fields (CRF) untuk ekstraksi kata kunci dari dokumen jurnal berbahasa Inggris. Penelitian oleh Ali et al.(2014) menggabungkan metode pembelajaran mesin (machine learning) seperti linear logistic regression, linear discriminant analysis dan support vector machines serta metode statistikal hybrid untuk ekstraksi frase kunci dokumen berbahasa Arab. Penelitian lainnya oleh Figueroa et al.(2014) menggunakan metode HybridRank yaitu metode gabungan TextRank dan KEA untuk mengolah abstrak jurnal berbahasa Inggris.

Li et al.(2014) mencoba meningkatkan algoritma textrank menggunakan domain pengetahuan yang diambil dari pengetahuan terhadap kata kunci yang sudah dikenali dilihat dari panjang kata kunci,komponen kata kunci, ataupun frekuensi kemunculan katanya. Dimana pada tahapan penentuan kandidat kata kuncinya menggunakan metode DF-AV. Sedangkan penelitian Farizi(2015) membuat sistem rekomendasi tag pada berita online berbahasa Indonesia menggunakan metode TF-IDF dan Collaborative Tagging. Penelitian Paymard (2015) menggunakan metode neural network untuk menyelesaikan ekstraksi kata kunci dari dokumen berbahasa

Persia dan pada penelitian Horita et al.(2016) melakukan ekstraksi kata kunci untuk proses wikifikasi dimana yang menjadi data sumbernya yaitu artikel di dalam web wikipedia untuk dokumen berbahasa asia seperti bahasa Jepang dengan menggunakan metode Top Consecutive Nouns Cohesion (TCNC) dan Dice Coefficient atau Kephraseness.

(3)

penelitian ini, penulis juga menerapkan modifikasi tahapan preprocessing dan postprocessing dalam menunjang kinerja dari algoritma textrank untuk ekstraksi kata kunci teks berbahasa Indonesia. Pada tahapan preprocessing, penulis menerapkan aturan multiword expression candidate dalam penentuan kandidat kata untuk diolah oleh algoritma textrank

Berdasarkan latar belakang diatas, maka penulis mengajukan penelitian dengan judul “EKSTRAKSI KATA KUNCI OTOMATIS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE TEXTRANK”. Hasil dari penelitian ini diharapkan mampu menemukan seberapa efektif kata kunci yang dihasilkan dan direkomendasikan ke pengguna sistem dengan menggunakan algoritma textrank terutama untuk kata kunci dari teks berbahasa Indonesia.

1.2. Rumusan Masalah

Ekstraksi kata kunci merupakan tahapan penting dari beberapa aplikasi text mining seperti peringkasan teks, clustering, indexing otomatis dan lain sebagainya. Dalam pengaplikasiannya terutama dalam mengolah teks bahasa Indonesia, hasil dari ekstraksi kata kunci cenderung berupa kata kunci satu kata, padahal kata kunci yang berupa frase ataupun multiword lebih informatif dan lebih spesifik menggambarkan

topik suatu artikel. Penentuan kata kunci secara manual terutama untuk artikel ilmiah tentu saja akan menghabiskan banyak waktu dan tidak efektif terutama jika dokumen yang diolah jumlahnya banyak. Oleh karena itu, dibutuhkan suatu pendekatan yang dapat mengekstraksi kata kunci satu kata ataupun multiword secara lebih otomatis dari dokumen teks berbahasa Indonesia.

1.3. Batasan Masalah

 Dokumen yang digunakan sebagai data uji adalah dokumen artikel ilmiah

berbahasa Indonesia.

 Data yang diambil sebagai data uji adalah dokumen ataupun artikel ilmiah

terutama yang memiliki kata kunci yang telah ditentukan manual oleh penulisnya sebagai evaluasi sistem.

 Jumlah maksimum kata kunci yang dihasilkan adalah 15 kata kunci per artikel.  Menangani kata kunci satu kata ataupun dalam bentuk multi-kata/frase.

(4)

 Ekstraksi dilakukan secara offline.

1.4. Tujuan Penelitian

Penelitian ini bertujuan untuk mengimplementasikan ekstraksi kata kunci satu kata ataupun multiword untuk dokumen teks berbahasa Indonesia menggunakan metode TextRank dan menganalisis pengaruh modifikasi tahapan preprocessing dari metode TextRank terhadap kinerja ekstraksi kata kunci teks berbahasa Indonesia.

1.5. Manfaat Penelitian

 Memberikan rekomendasi kata kunci yang berbentuk satu kata ataupun beberapa

kata secara cepat.

 Mengetahui seberapa akurat ekstraksi kata kunci dari dokumen berbahasa

Indonesia yang mengimplementasikan algoritma TextRank.

 Memudahkan pengguna seperti mahasiswa ataupun analis informasi dalam menemukan alternatif pilihan kata kunci untuk artikel ilmiahnya secara lebih otomatis dan cepat.

 Penelitian dapat dimanfaatkan untuk pengembangan penelitian lebih lanjut seperti

penelitian tentang peringkasan teks, pengklasifikasian teks, klasterisasi dokumen dan lain sebagainya yang menggunakan tahapan ekstraksi kata kunci.

1.6. Metodologi Penelitian

Terdapat beberapa metode penelitian yang digunakan yaitu:

1. Studi Literatur

Pada tahapan ini penulis mengumpulkan berbagai referensi dari buku, internet, jurnal ataupun paper terdahulu serta mempelajari teori yang berkaitan dengan permasalahan ekstraksi kata kunci pada penelitian ini.

2. Analisis dan Pengumpulan Data

(5)

yang berkaitan dengan ekstraksi kata kunci dan informasi berkaitan dengan metode TextRank yang digunakan.

3. Perancangan Sistem

Pada tahapan ini dilakukan proses perancangan arsitektur, pengumpulan data serta perancangan antarmuka sistem.

4. Implementasi Sistem

Tahapan selanjutnya yaitu melakukan perancangan terhadap sistem dengan mengimplementasikannya menggunakan bahasa pemograman Java(Eclipse). 5. Pengujian Sistem

Pada tahapan ini dilakukan proses pengujian sistem dengan melihat kesamaan dari kata kunci yang dihasilkan sistem dengan kata kunci yang dibuat manual oleh penulisnya dan melihat seberapa akurat metode TextRank dan modifikasinya dalam mengekstraksi kata kunci dari dokumen teks berbahasa Indonesia.

6. Dokumentasi dan Penyusunan Laporan

Pada tahapan akhir ini dilakukan tahapan pendokumentasian dan penyusunan laporan hasil penelitian yang telah dibuat.

1.7. Sistematika Penulisan

Sistematika penulisan pada skripsi ini dibagi menjadi beberapa bagian seperti berikut:

BAB 1. PENDAHULUAN

Pada bab ini akan dibahas mengenai latar belakang penelitian, rumusan masalah, batasan masalah, tujuan penelitian, manfaat, metodologi penelitian serta sistematika penulisan.

BAB 2. LANDASAN TEORI

(6)

BAB 3. ANALISIS DAN PERANCANGAN SISTEM

Pada bab ini akan dibahas mengenai analisis permasalahan penelitian dan penjelasan tentang rancangan struktur program dan antarmuka dari aplikasi ekstraksi kata kunci yang dibuat.

BAB 4. IMPLEMENTASI DAN PENGUJIAN SISTEM

Bab ini berisi penjelasan pengimplementasian sistem seperti gambaran antarmuka aplikasi yang dibuat dan pengujian aplikasi apakah berhasil dijalankan dengan baik serta menemukan error yang muncul didalam sistem yang dibuat. Pada bab ini juga membahas hasil pengujian berupa persentase akurasi keberhasilan sistem.

BAB 5. KESIMPULAN DAN SARAN