Metodologi penelitian adalah suatu proses atau prosedur yang sistematik yang digunakan untuk mencapai tujuan dari suatu penelitian. Penelitian yang dilakukan harus memiliki prosedur yang jelas tahapannya sehingga dapat mencapai tujuan dari suatu penelitian. Penelitian ini dilakukan dengan beberapa tahapan sebagaimana dijabarkan pada gambar 3.1 berikut.”
III-2
3.1 Identifikasi Masalah
Identifikasi masalah merupakan tahapan pertama dalam melakukan penelitian. Penelitian yang dilakukan merupakan pengembangan dari penelitian (Zamuri, 2017) yang melakukan penelitian tentang implementasi Vector Space Model dalam mencari kalimat yang memiliki ide pokok dalam teks artikel berbahasa Indonesia, jadi tahapan identifikasi masalah dilakukan dengan mengetahui kelemahan dari penelitian tersebut dan melakukan pengembangan pada penelitian ini. Identifikasi masalah yang dilakukan menghasilkan sebuah rumusan masalah yaitu penerapan algoritma K-Means Clustering untuk peringkasan teks artikel yang akan dijadikan kueri, dan penerapan algoritma Vector Space Model untuk mencari kalimat yang mengandung ide pokok teks artikel berbahasa Indonesia.
3.2 Studi Pustaka
Studi pustaka merupakan tahap lanjutan setelah melakukan identifikasi masalah. Studi pustaka merupakan tahap pencarian informasi melalui jurnal dan buku yang terkait dengan penelitian yang akan dilakukan. Pada penelitian ini peneliti mengumpulkan informasi terkait dengan sistem temu kembali informasi, peringkasan teks otomatis, metode K-Means Clustering, dan metode Vector Space Model.
3.3 Pengumpulan Data
Tahapan pengumpulan data dilakukan untuk mendapatkan data yang akan dianalisa dan diterapkan metode K-Means Clustering dan Vector Space Model pada data tersebut. Data yang digunakan adalah data berupa artikel yang telah diperoleh dari studi pustaka dan kajian online dari internet.
3.4 Analisa dan Perancangan
Tahapan analisa dan perancangan berisi mengenai tahapan analisa dalam peringkasan teks otomatis dan proses pencarian kalimat yang mengandung ide pokok dalam artikel serta perancangan dari aplikasi yang akan dibangun pada tahapan implementasi.
III-3 3.4.1 Analisa
Tahapan analisa pada penelitian ini dilakukan dengan menggunakan data yang telah diperoleh sebelumnya. Tahapan analisa terdiri dari analisa menggunakan metode K-Means Clustering, analisa menggunakan metode Vector Space Model, dan analisa fungsional. Tahapan analisa terdiri dari 3 tahap akan dijelaskan sebagai berikut:
3.4.1.1 Analisa dengan Metode K-Means Clustering (Peringkasan Teks)
Analisa dengan metode K-Means Clustering merupakan analisa peringkasan teks dengan menerapkan metode K-Means Clustering untuk meringkas teks artikel yang telah didapatkan sebelumnya. Gambar 3.2 berikut merupakan flowchart dari analisa dengan metode K-Means Clustering:
Gambar 3.2 Analisa dengan Metode K-Means Clustering
Peringkasan teks artikel dilakukan untuk menghasilkan ringkasan dari teks artikel yang akan dilakukan pencarian ide pokok pada artikel tersebut. Hasil dari peringkasan teks artikel akan dijadikan sebagai masukan kueri pada tahapan
III-4 selanjutnya agar dapat mengatasi kelemahan penelitian sebelumnya. Berikut adalah analisa dalam melakukan peringkasan teks:
1. Text Preprocessing
Pemrosesan teks dilakukan pada tahapan pertama peringkasan teks. Pemrosesan teks terdiri dari beberapa tahapan yaitu pemecahan kalimat, Case Folding dan Cleaning, Tokenizing, Filtering, dan Stemming.
2. Topic Identification
Tahapan topic identification merupakan tahapan mengidentifikasi topik apa yang dibicarakan di dalam teks tersebut. Topic identification dilakukan dengan menggunakan teknik word frequency yang mendeteksi topik berdasarkan jumlah kata yang sering muncul dalam artikel tersebut (Pratama, 2014) yang merujuk kepada (Mustaqhfiri, Abidin and Kusumawati, 2012). 3. Interpretation
“Interpretasi peringkas teks yang digunakan yaitu interpretasi ekstraktif berdasarkan pada metode yang digunakan. Pada penelitian ini akan digunakan dua metode dalam peringkasan teks. Pertama, dilakukan pemberian bobot hubungan suatu kata (term) terhadap dokumen dengan menggunakan metode Term Frequency–Inverse Document Frequency (TF-IDF) dengan rumus (2.5). Bobot tiap kata (term) terhadap dokumen yang diperoleh akan dijumlahkan sehingga menjadi bobot kalimat. Selanjutnya, dilakukan proses clustering data dengan tujuan meminimalisasikan variasi di dalam cluster dan memaksimalisasikan variasi antar cluster dengan menggunakan metode K-Means Clustering dengan rumus (2.4).”
4. Generating
Tahapan terakhir pada peringkasan teks adalah tahap generating yang merupakan”tahapan pembangkitan atau pembentukan hasil akhir. Tahapan ini terdiri dari beberapa langkah yaitu penggabungan frase, pencetakan kata atau frase dan pembangkitan kalimat. Pemilihan kalimat dipilih pada tiap cluster berdasarkan bobot kalimat yang paling besar menjadi hasil ringkasan dan panjang hasil ringkasan disesuaikan dengan persentase yang telah ditentukan, yaitu 10% dari teks artikel aslinya. Sehingga diharapkan hasil
III-5 ringkasan yang diperoleh nantinya merupakan teks yang dapat dijadikan kueri pada tahap selanjutnya yaitu tahap pencarian ide pokok dengan metode Vector Space Model. Metode generating yang digunakan yaitu topic list yang merupakan teknik hasil akhir yang berisi kata-kata yang sering muncul atau penggabungan pengertian yang telah diinterpretasi”(Pratama, 2014) yang merujuk kepada (Mustaqhfiri, Abidin and Kusumawati, 2012).
3.4.1.2 Analisa dengan Metode Vector Space Model (Pencarian Ide Pokok) Analisa dengan metode Vector Space Model merupakan analisa pencarian ide pokok dengan menerapkan metode Vector Space Model. Gambar 3.3 berikut merupakan flowchart dari analisa dengan metode Vector Space Model:
Gambar 3.3 Analisa dengan Metode Vector Space Model
Setelah mendapatkan hasil ringkasan artikel dengan melakukan tahapan dalam peringkasan teks, maka hasil ringkasan tersebut akan dijadikan sebagai kueri masukan pada proses pencarian kalimat yang mengandung ide pokok. Pada penelitian sebelumnya, proses pencarian kalimat yang mengandung ide pokok menggunakan judul artikel sebagai masukan kueri yang memiliki kelemahan. Berikut adalah analisa dalam pencarian kalimat yang mengandung ide pokok pada artikel:
III-6 1. Pembobotan Kata TF-IDF
Pembobotan kata yang dilakukan menggunakan algoritma Term Frequency-Inverse Document Frequency (TF-IDF) menggunakan rumus (2.5) dengan melakukan pencarian TF menggunakan rumus (2.6) yang merupakan Term Frequency yang berarti frekuensi kemunculan term dalam setiap dokumen, lalu dilanjutkan dengan melakukan pencarian nilai IDF menggunakan rumus (2.8) yang merupakan nilai bobot suatu term yang didapatkan dengan menghitung seringnya suatu term muncul di beberapa dokumen.
2. Vector Space Model
Setelah mendapatkan hasil pembobotan kata dengan menggunakan Term Frequency-Inverse Document Frequency (TF-IDF) maka dilanjutkan dengan melakukan pencarian nilai Vector Space Model menggunakan rumus (2.9). Dalam model ruang vektor koleksi dokumen direpresentasikan oleh matriks term document atau matriks Term Frequency. Setiap sel dalam matriks bersesuaian dengan bobot yang diberikan dari suatu term dalam dokumen yang ditentukan. Nilai nol berarti bahwa term tersebut tidak ada dalam dokumen. Pada penelitian ini nilai akhir yang didapatkan dari hasil perhitungan Vector Space Model diurutkan dari nilai tertinggi yang diambil sebagai kalimat yang mengandung ide pokok.”
3. Analisa Fungsional
Analisa fungsional merupakan analisa yang digunakan pada sistem dengan pemodelan fungsional. Analisa fungsional pada sistem menggunakan Unified Modelling Language (UML) yang terdiri dari Use Case Diagram, Class Diagram, dan Sequence Diagram.
3.4.2 Perancangan
Setelah tahap analisa selesai dilakukan maka akan dilakukan tahapan perancangan. Perancangan yang dilakukan pada penelitian ini adalah perancangan database, dan perancangan antar muka (interface) aplikasi. Perancangan database adalah perancangan basis data yang didasari oleh data yang digunakan, sedangkan perancangan antar muka (interface) berfungsi sebagai panduan tampilan yang akan dibuat pada aplikasi.
III-7
3.5 Implementasi dan Pengujian
“Tahapan implementasi dan pengujian dapat dilakukan setelah tahapan analisa dan perancangan telah selesai dilakukan.
3.5.1 Implementasi
Lingkungan implementasi pada pembuatan sistem temu kembali informasi ini terdiri dari lingkungan perangkat keras (hardware) dan perangkat lunak (software). Berikut adalah penjelasan dari lingkungan implementasi tersebut.
1. Perangkat Keras (Hardware)
Processor : Intel(R) Core(TM) i3-4030U CPU @ 1.90 GHz 1.90 GHz System Type : 64-bit Operating System, x64-based processor
RAM : 4,00 GB
Harddisk : 500 GB 2. Perangkat Lunak (Software)
Sistem Operasi : Microsoft Windows 8.1 Enterprise Bahasa Pemrograman : PHP
Text Editor : JetBrains PhpStorm 2017.3.2 x64
Browser : Mozilla Firefox”
3.5.2 Pengujian
Pengujian sistem temu kembali informasi ini dilakukan menggunakan pengujian tingkat akurasi dengan menggunakan persamaan (2.10). Artikel yang digunakan adalah artikel yang telah memiliki kunci jawaban yang didapatkan dari pakar bahasa Indonesia.
3.6 Kesimpulan dan Saran
Tahapan terakhir dari penelitian ini adalah memberikan kesimpulan dan saran. Kesimpulan berisi tentang hasil pengujian terhadap artikel berdasarkan langkah-langkah yang telah dijelaskan sebelumnya. Hal tersebut bertujuan untuk mengetahui apakah penerapan metode K-Means Clustering dan Vector Space Model dapat diterapkan dengan baik pada penelitian ini. Saran merupakan komentar yang membangun terhadap topik penelitian yang dilakukan sehingga penelitian dapat dilanjutkan dengan pengembangan yang lebih baik lagi.