85
SISTEM REKOMENDASI BERITA ONLINE DENGAN
MENGGUNAKAN PEMBOBOTAN TF-IDF DAN COSINE
SIMILARITY
Noorhidayah1, Fatma Indriani 2, Mohammad Reza Faisal 3
1,2,3Prodi Ilmu Komputer FMIPA ULM Jl. A. Yani Km 36 Banjarbaru, Kalimantan Selatan
Email:Noorhidayah573 @gmail.com
Abstract
The growing number news circulating online results in readers often having difficulty in determining the similarity of news to one another, Looking for news by opening the news one by one on the radar site will certainly be inconvenient for users, and not necessarily what is sought according to what the reader wants. The recommendation system developed to overcome these problems is by using TF-IDF weighting and Cosine Similarity, both of these methods use news data that is already in TF-IDF to look for news data that are close to very high similarities as in the description, and the contents to use both as a basis for recommendations. The results of the recommendations and the ability to determine the similarity of online news generated from TF-IDF and Cosine Similiarty will be more accurate in finding similarities on a news website on Radar Banjarmasin to be made recommendations for users or readers and based on the results of research obtained precision results from the calculation of similarity namely 76% of all news.
Keywords : System Recommendation, Online News, Weighting, TF-IDF, Cosine Similarity
Abstrak
Hasil Semakin banyak berita yang beredar secara online mengakibatkan pembaca sering kesulitan dalam menentukan kemiripan berita yang satu dengan berita lainnya, Mencari berita dengan membuka satu persatu berita yang ada di situs radar tentu akan merepotkan pengguna, dan belum tentu yang dicari sesuai dengan apa diinginkan pembaca. Sistem rekomendasi yang dikembangkan untuk mengatasi permasalahan tersebut ialah dengan menggunakan pembobotan IDF dan Cosine Similarity, kedua metode ini menggunakan data berita yang sudah di TF-IDF untuk mencari data berita yang mendekati kemiripan yang sangat tinggi seperti dalam deskripsi, dan isi untuk digunakan keduanya sebagai dasar rekomendasi. Hasil dari rekomendasi dan kemampuan menentukan kemiripan dari berita online yang dihasilkan dari TF-IDF dan Cosine Similiarty akan lebih akurat dalam mencari kemiripan pada suatu situs web berita di Radar Banjarmasin untuk dijadikan rekomendasi bagi user atau pembaca dan berdasarkan hasil penelitian didapatkan hasil presisi dari perhitungan similarity yaitu 76% dari seluruh berita.
Kata Kunci : Sistem Rekomendasi, Berita Online, Pembobotan TF-IDF, Cosine Similarity
1. PENDAHULUAN
Salah satu faktor penting penunjang globalisasi ialah internet.
Semakin majunya teknologi internet
menyebabkan banyaknya
86 membuat bermacam aplikasi online, salah satunya yakni berita secara online. Banyak berita online yang saat ini sedang digandrungi, oleh masyarakat Indonesia. Salah satu contoh social media yang sedang trend saat ini, yakni Radar Banjarmasin yang sering dibaca oleh warga kaliamantan khususnya[3].
Mencari berita dengan membuka satu persatu berita yang ada di situs radar tentu akan merepotkan pengguna. Pembaca berita online sering mengalami kesulitan menentukan kemiripan berita yang satu dengan berita lainnya karena terlalu banyak berita yang beredar secara online, untuk mencari berita yang sesuai dengan apa diinginkan pembaca dan tidak membuang waktu jika harus membaca berita teratas atau terbaru mengenai trending topic tadi dan belum tentu berita tersebut mewakili berita atau informasi yang ingin disampaikan, karena biasanya beberapa berita ada yang melenceng dari hashtag atau tema bahkan judul berita[3].
Proses penggalian informasi dimana seorang user berinteraksi dengan sekumpulan dokumen menggunakan tools analisis merupakan komponen-komponen yang fungsinya adalah kategorisasi, hal ini disebut teks mining. Adapun sistem rekomendasi yang dikembangkan untuk mengatasi permasalahan tersebut dengan berbagai metode seperti pembobotan
TF-IDF dan Cosine Similarity. Metode
pembobotan TF-IDF dan Cosine
Similarity menggunakan data berita
yang sudah di TF-IDF untuk mencari data berita yang mendekati kemiripan yang sangat tinggi seperti dalam deskripsi, dan isi untuk digunakan
keduanya sebagai dasar rekomendasi [5].
Hasil dari rekomendasi dan kemampuan mencari kesamaan ini dapat mengurangi waktu. Untuk menggambarkan tingkat kesamaan antara dokumen dapat diukur oleh Metode Cosine Similarity. Berdasarkan tingkat kesamaan dokumen dapat direkomendasikan dengan
menggunakan Algoritma
pembobotan[5].
TF-IDF. Untuk mendeteksi
tingkat kemiripan dari objek tersebut dibuat Aplikasi dengan menggunakan Bahasa pemrograman java web dan MySql 5 database server. Objek penelitian ini adalah tentang berita di Radar Banjarmasin.
Menentukan kemiripan dari berita online yang dihasilkan dari
TF-IDF dan Cosine Similiarty akan lebih
akurat dalam mencari kemiripan pada suatu situs web berita di Radar Banjarmasin untuk dijadikan rekomendasi bagi user atau pembaca.
2. METODOLOGI PENELITIAN 2.1. Prosedur Penelitian
2.1.1. Pengumpulan Data,
Mengumpulkan data berita melalui web Prokal.co (radar Banjarmasin).
2.1.2. Memecah Berita, Memecah
Berita yaitu proses memecah string teks dokumen yang panjang menjadi kumpulan data asli berita yang diambil sampel data 50 berita dari bulan januari-maret. Dalam memecah dokumen menjadi beberapa berita menggunakan fungsi split ( , ), dengan tanda baris baru sebagai delimiter untuk memotong string dokumen[1].
2.1.3. Case Folding, Case Folding
87 pada berita menjadi huruf kecil, menghilangkan karakter angka[1].
2.1.4. Menghilangkan Delimiter,
Menghilangkan Delimiter yaitu seperti tanda ( . ), ( , ), ( : ), ( ; ), ( ? ), dan ( !) [1].
2.1.5. Menghilangkan Stopwords,
Menghilangkan Stopwords yaitu untuk menghilangkan kata-kata yang dianggap tidak penting (stopwords), seperti kata di, ke, apa, dan, ini, itu, pun, agar, akan, dari, juga, oleh, pada, yang, bahwa, dapat, namun, untuk, dengan, kepada, ya, nya,serta menghilakan huruf yang kosak kata 2 huruf misal “ar” akan dihilangkan[1].
2.1.6. Stemming, Stemming ialah
tahapan pemetaan dari bentuk (variants) menjadi kata dasar dan huruf awalan dan akhiran[3].
2.1.7. Perhitungan Bobot dengan TF-IDF, Untuk menentukan frekuensi
banyak kata yang muncul pada sebuah dokumen dan menentukan kemunculan term atau kata pada kumpulan dokumen[1].
2.1.8. Perhitungan Cosine
Similarity, Untuk menetukan dua
buah atau lebih dan mengambil nilai kemiripan (similarity) antara kedua objek berupa bilangan riil[6].
3. HASIL DAN PEMBAHASAN 3.1. Hasil
“Sistem rekomendasi berita
online dengan menggunakan
pembobotan TF-IDF dan Cosin
Similarity” merupakan penelitian yang
ditujukan untuk membantu dalam merekomendasikan para user atau pembaca berita radar banjarmasin sehingga memudahkan dalam
pencarian berita yang serupa dengan berita yang pertama dibaca oleh user atau pembaca.
Proses penelitian dilakukan dengan membaca data hasil berita online radar banajrmasin dari tahun sebelumnya. Proses rekomendasi ini dilakukan menggunakan metode
Pembobotan TF-IDF dan Cison
Similarity dengan membandingkan
kemiripan antara berita satu dengan berita yang lainnya dengan didasari oleh judul berita. Hasil rekomendasi ini berupa saran untuk pembaca berita agar lebih memudahkan membaca berita yang ke dua sama menariknya dari berita awal yang sdh dibaca, tanpa harus mencari berita yang lainnya.
3.2. Pengumpulan Data
Proses penarikan data dilakukan secara fisik dengan mengajukan permohonan kepada PT. Duta Banua Banjar Media Jaringan Jawa Post Group. Data yang berhasil didapatkan yaitu data berita online dalam rentan waktu 2018.
Gambar 1. Data Berita Data yang didapatkan pada penelitian ini berisikan 50 data berita dengan tahun pengambilan data januari-maret 2018. Data yang didapatkan kemudian disusun menjadi 4 klasifikasi yang datanya berbentuk txt* untuk dilanjutkan ke dataset harus terlebih dahulu di
88 import ke dalam program supaya dapat dimasukan ke dalam database dan dilanjutkan ke perhitungan pembobotan tf-idf dan cosin similarity.
Gambar 2. data berbentuk txt* Data berita tersebut lalukan tahapan text preprocessing yaitu memecah berita, case folding, menghilangkan delimiter, menghilangkan stopword, normalisasi, dan stremming.
3.3. Text Preprocessing 1) Membaca berita
Judul : Ketua PD Perwari Kalsel Hj Artitah Harmadji saat memberikan Sembako simbolis kepada petugas kebersihan di Pawon Tlogo, Kamis (10/5) kemarin.
Paragraf pertama : Mendekati Bulan Suci Ramadan yang tinggal hitungan hari, PD Persatuan Wanita Republik Indonesia (Perwari) Kalsel menggelar kegiatan bakti sosial. Kegiatan digelar di RM Pawon Telogo dengan Membagi-bagikan sembako kepada 100 orang petugas kebersihan khususnya wanita.
Paragraf terakhir : Imah, salah satu petugas kebersihan mengaku berterima kasih atas bantuan dan kepedulian dari PD Perwari Kalsel. Bantuan ini benar benar sangat bermanfaat bagi keluarganya. "Terima kasih kepada PD Perwari Kalsel semoga makin berkah dan berjaya,"
Gambar. 3 Membaca Berita
2) Tahap Case Folding
Setelah didapat proses membaca file, proses selanjutnya yaitu case folding proses ini berfungsi untuk mengubah semua huruf pada berita menjadi
huruf kecil dan
menghilangkan karakter angka. Proses case folding dilihat pada gambar 4 dibawah ini.
Judul : Ketua PD Perwari Kalsel Hj Artitah Harmadji saat memberikan Sembako simbolis kepada petugas kebersihan di Pawon Tlogo, Kamis (10/5) kemarin.
Paragraf pertama : Mendekati Bulan Suci Ramadan yang tinggal hitungan hari, PD Persatuan Wanita Republik Indonesia (Perwari) Kalsel menggelar kegiatan bakti sosial. Kegiatan digelar di RM Pawon Telogo dengan Membagi-bagikan sembako kepada 100 orang petugas kebersihan khususnya wanita. Paragraf terakhir : Imah, salah satu petugas kebersihan mengaku berterima kasih atas bantuan dan kepedulian dari PD Perwari Kalsel. Bantuan ini benar benar sangat bermanfaat bagi keluarganya. "Terima kasih kepada PD Perwari Kalsel semoga makin berkah dan berjaya,"
Gambar 4. Hasil Membaca File berita
Judul : ketua pd perwari kalsel hj artitah harmadji saat memberikan sembako simbolis kepada petugas kebersihan di pawon tlogo, kamis (10/5) kemarin.
Paragraf pertama : mendekati bulan suci ramadan yang tinggal hitungan hari, pd persatuan wanita republik indonesia (perwari) kalsel menggelar kegiatan bakti sosial. kegiatan digelar di rm pawon telogo dengan membagi-bagikan sembako kepada 100 orang petugas kebersihan khususnya wanita.
Paragraf terakhir : imah, salah satu petugas kebersihan mengaku berterima kasih atas bantuan dan kepedulian dari pd perwari kalsel. bantuan ini benar benar sangat bermanfaat bagi keluarganya. "terima kasih kepada pd perwari kalsel semoga makin berkah dan berjaya,"
Gambar 5. Hasil Proses case folding Setelah mendapatkan hasil dari case folding maka akan dilanjutkan pada tahapan delimeter.
3) Tahap Mengilangkan
Delimiter
Proses selanjutnya yaitu mengilangkan delimiter ialah menghilakan tanda baca seprti ( . ), ( , ), ( : ), ( ; ), ( ? ), dan ( ! ). Pada proses ini berita awal sampai akhir akan dihilangkan tanda baca disetiap paragrafnya dilihat dari gambar 6 dibawah ini.
Judul : ketua pd perwari kalsel hj artitah harmadji saat memberikan sembako simbolis kepada petugas kebersihan di pawon tlogo, kamis kemarin.
Paragraf pertama : mendekati bulan suci ramadan yang tinggal hitungan hari, pd persatuan wanita republik indonesia (perwari) kalsel menggelar kegiatan bakti sosial. kegiatan digelar di rm pawon telogo dengan membagi
-bagikan sembako kepada orang petugas kebersihan khususnya wanita.
Paragraf terakhir : imah, salah satu petugas kebersihan mengaku berterima kasih atas bantuan dan kepedulian dari pd perwari kalsel. bantuan ini benar benar sangat bermanfaat bagi keluarganya. "terima kasih kepada pd perwari kalsel semoga makin berkah dan berjaya,"
89 Gambar 6. Tahapan Menghilangkan Delimiter
Judul : ketua pd perwari kalsel hj artitah harmadji saat memberikan sembako simbolis kepada petugas kebersihan di pawon tlogo kamis kemarin
Paragraf pertama : mendekati bulan suci ramadan yang tinggal hitungan hari pd persatuan wanita republik indonesia perwari kalsel menggelar kegiatan bakti sosial kegiatan digelar di rm pawon telogo dengan membagi bagikan sembako kepada orang petugas kebersihan khususnya wanita
Paragraf terakhir : imah salah satu petugas kebersihan mengaku berterima kasih atas bantuan dan kepedulian dari pd perwari kalsel bantuan ini benar benar sangat bermanfaat bagi keluarganya terima kasih kepada pd perwari kalsel semoga makin berkah dan berjaya
Gambar. 7 Hasil Menghilangkan Delimiter
Setelah melakukan tahapan mengihalngkan Delimeter akan dilanjutkan ketahapan stopword.
4) Tahap Stopwords
Tahapan berikut ini adalah untuk menghilangkan kata-kata yang dianggap tidak penting (stopwords), seperti kata di, ke, apa, dan, ini, itu, pun, agar, akan, dari, juga, oleh, pada, yang, bahwa, dapat, namun, untuk, dengan, kepada, ya, nya. Dilihat dari gambar 8 dibawah ini.
Judul : ketua pd perwari kalsel hj artitah harmadji saat memberikan sembako simbolis kepada petugas kebersihan di pawon tlogo kamis kemarin
Paragraf pertama : mendekati bulan suci ramadan yang tinggal hitungan hari pd persatuan wanita republik indonesia perwari kalsel menggelar kegiatan bakti sosial kegiatan digelar di rm pawon telogo dengan membagi bagikan sembako kepada orang petugas kebersihan khususnya wanita.
Paragraf terakhir : imah salah satu petugas kebersihan mengaku berterima kasih atas bantuan dan kepedulian dari pd perwari kalsel bantuan ini benar benar sangat bermanfaat bagi keluarganya terima kasih kepada pd perwari kalsel semoga makin berkah dan Berjaya.
Gambar.8 Tahap Stopwords
Judul : ketua perwari kalsel artitah harmadji memberikan sembako simbolis petugas kebersihan pawon tlogo kamis kemarin
Paragraf pertama : mendekati bulan suci ramadan tinggal hitungan hari persatuan wanita republik indonesia perwari kalsel menggelar kegiatan bakti sosial kegiatan digelar pawon telogo membagi bagikan sembako orang petugas kebersihan khususnya wanita
Paragraf terakhir : imah petugas kebersihan mengaku berterima kasih atas bantuan kepedulian perwari kalsel bantuan benar benar sangat bermanfaat bagi keluarganya terima kasih perwari kalsel semoga makin berkah berjaya
Gambar.9 Hasil Tahap Stopword
Setelah melakukan tahapan stopwords dianjutkan ketahapan stemming tapah akhir dari text preprossesing.
5) Tahap Stemming
Tahapan berikut ini adalah pemetaan dari bentuk (variants) menjadi kata dasar dan menghapus awalan dan akhiran.
Judul : ketua perwari kalsel artitah harmadji memberikan sembako simbolis petugas kebersihan pawon tlogo kamis kemarin
Paragraf pertama : mendekati bulan suci ramadan tinggal hitungan hari persatuan wanita republik indonesia perwari kalsel menggelar kegiatan bakti sosial kegiatan digelar pawon telogo membagi bagikan sembako orang petugas kebersihan khususnya wanita
Paragraf terakhir : imah petugas kebersihan mengaku berterima kasih atas bantuan kepedulian perwari kalsel bantuan benar benar sangat bermanfaat bagi keluarganya terima kasih perwari kalsel semoga makin berkah berjaya
Gambar.13 Tahap Stemming
Judul : ketua perwari kalsel artitah harmadji memberikan sembako simbolis tugas bersihan pawon tlogo kamis kemarin
Paragraf pertama : dekati bulan suci ramadan tinggal hitungan hari persatuan wanita republik indonesia perwari kalsel gelar giat bakti sosial kegiatan gelar pawon telogo bagi bagi sembako orang tugas bersihan khususnya wanita
Paragraf terakhir : imah petugas bersihan ngaku terima kasih atas bantuan peduli perwari kalsel bantu benar benar sangat manfaat bagi keluarga terima kasih perwari kalsel semoga makin berkah Berjaya
Gambar 15. Hasil Tahapan Stemming
Pada penelitian ini tahapan editing, normalisasi (stopwords), dan stemming dilakukan secara manual tahapan setelah melewati text preprossesing adalah tahapan perhitungn TF dan IdF.
90
3.4. Perhitungan Pembobotan
dengan TF-IDF
Tabel 1. Hasil data Dokumen
Dokumen Klasifikasi banyuwangi . . . menarget beban
Tahapan dimana data dokumen didapat setelah melakukan hasil dari stemming kata-kata dasar akan disusun dengan acar sesuai dengan isi berita yang di dapatkan. Setelah mendapatkan hasil document dari berika maka langkah yang akan dilakukan adalah tahapan TF.
1) Tahapan perhitungan dengan menggunakan IDF dengan data yang sudah dilakukan tahapan Tf akan didaptkan hasil IDF
Tahapan perhitungan dengan menggunakan tf data sebelumnya dilakukan tahapan penilaian 0-1 yang dinyatakan dengan nilai 0 maka dalam 1 judul berita tersebut tidak ada Term yang dicari, sedangkan untuk 1 adalah data berita yang terdapat di term (Terlampir).
Tabel. 2 Hasil TF
Untuk menghitung perkalian
scalar antara bobot hitung dengan persamaan 4 yaitu :
Berdasarkan hasil Tf akan dilalukan langkah selanjutnya yaitu mencari IDF dalam judul berita, pargraf pertama,dan paragraf akhir.
2) Tahapan perhitungan dengan menggunakan IDF dengan data yang sudah dilakukan tahapan Tf akan didaptkan hasil IDF (Terlampir).
Tabel.5 Hasil perhitungan IDF
Hasil IDF yang didapat diatas mengunakan perhitungan dengan persamaan 5 yaitu :
3) Tahapan perhitungan dengan menggunakan TF-IDF dengan data akumulasi antara ft dan idf serta menggunakan pada
Term Doc1 Doc2 Doc3 . . . Doc50
pasti 0.301 0 0 . . . 0 tol 0.699 0 0 . . . 0 pasuruanruas0.301 0 0 . . . 0 jalur 0.301 0 0 . . . 0 . . . . . . . . . . . . . . . . . . menarget 0 0 0 . . . 0.301 beban 0 0 0 . . . 0.301 Term Total pasti 1.699 tol 1.699 pasuruanruas 1.699 timur 1.699 . . . . . . mengemukamengacu 1.699 swastapemko 1.699 menarget 1.699 beban 1.699
91 rumus 5 dan 6 (Terlampir).
Tabel.6 Hasil Perhitungan TF-IDF
Perhitungan TF-IDF dengan menggunakan persamaan 6
Setelah didapatkan nilai perhitungan kemiripan berita dengan menggunakan rumus perhitungan jarak kemiripan yaitu dengan menggunakan pembobotan TF-IDF maka akan di lakukan langkah selanjutnya adalah perhitungan cosine.
3.5. Tahapan Cosine Similarity
Menurut Herwijayanti [3] Menghitung dua buah objek atau lebih dan mengambil nilai kemiripan (similarity) antara kedua objek berupa bilangan riil. Umumnya, nilai yang dihasilkan oleh fungsi similarity berkisar pada interval [0...1]. Namun ada juga beberapa fungsi similarity yang menghasilkan nilai yang berada diluar interval tersebut. Menentukan hasil fungsi tersebut dapat dilakukan normalisasi. Dengan menggunakan rumus yang telah dijelaskan pada bab II :
Tabel.7 Tahapan Cosine Similarity
Setelah dilakukan tahapan TF-IDF maka akan dilakukan memgitungan kemiripan jarak anatar berita 1 dengan berita yang lainnya yaitu dengan menggunakan persamaan perhitungan 7. Setelah dilakukan tahapan TF-IDF maka akan dilakukan mengitungan kemiripan jarak anatar berita 1 dengan berita yang lainnya yaitu dengan menggunakan persamaan perhitungan 7.
Tabel.8 Hasil Perhitungan jarak dengan menggunakan Cosine Similarity
Dokumen TF -IDF Similarity
D1 D8 0.1669 D1 D32 0.1017 D1 D41 0.101 D1 D34 0.0658 D1 D3 0.0614
Dokumen TF -IDF Similarity
D2 D5 2,8795
D2 D7 0.673
Term Doc1 Doc2 Doc3 . . . Doc50
pasti 0.511 0 0 . . . 0 tol 1.188 0 0 . . . 0 pasuruanruas 0.511 0 0 . . . 0 jalur 0.368 0 0 . . . 0 . . . . . . . . . . . . menarget 0 0 0 . . . 0.511 beban 0 0 0 . . . 0.511
Dokument TF-IDF Total
D1
agent(0.421), albis(0.421), altaif(0.368), banjarmasin(0.66), berkesempatan(0.511), besar(0.421), bintang(0.421), dominasi(0.368), foto(0.277), garuda(0.951), hasanudin(0.421), hm(0.421), hubung(0.421), indah(0.368), indonesia(0.544), informasi(0.257), international(0.421), jemaah(0.301), jl(0.421), kalimantan(0.439), kaltrabu(0.368), kantor(0.257), kontributor(0.421), kunjung(0.301), layan(0.407), madina(0.421), maskapai(0.421), memiliki(0.24), menancapkan(0.421), nimahuntuk(0.421), nusawisata(0.421), pancar(0.421), pegang(0.421), periode(0.421), pesawat(0.368), ppiupihk(0.421), produk(0.368), quarter(0.421), reputasi(0.421), satusatunya(0.421), saudi(0.368), selatan(0.277), selatanuntuk(0.421), terbang(0.368), travel(0.277), umrah(0.407), whatsapp(0.421), wisata(0.523)
196.736
D2
angkat(0.583), arif(0.511), awar(0.421), banua(0.511), bimbing(0.511), bis(0.811), bisuntuk(0.511), buka(0.24), bukti(0.511), calon(0.277), daftar(0.33), direktur(0.368), fakhrul(0.511), favorit(0.511), harga(0.224), indah(0.368), isi(0.421), jalan(0.277), jamaah(0.421), jemaah(0.301), kaltrabu(0.736), lebaran(0.368), mahal(0.421), masyarakat(0.224), minta(0.421), paket(0.368), pengarahan(0.511), program(1.166), ramadan(0.845), ramadanpt(0.511), rijani(0.511), suci(0.511), tahunnyadiakui(0.511), tanah(0.301), target(0.511), teknis(0.421), tembus(0.511), umrah(0.257)
177.283
. . . . . . . . .
D50
banyuwangi(0.511), bas(0.511), digunakanjokowi(0.511), jalur(0.368), jawa(0.421), juni(0.511), lahan(0.421), lanjut(0.421), lebaran(0.368), menuntaskan(0.511), mudik(0.368), on(0.511), pasti(0.511), pasuruan(0.811), pasuruanruas(0.511), perintah(0.407), probolinggo(0.811), provinsi(0.33), rencana(0.421), ruas(1.023), surabaya(0.421), the(0.511), timur(0.511), tol(1.188), track(0.511)
92 D2 D4 0.3541 D2 D6 0.2709 D2 D9 0.2282 . . . . . . . . .
Dokumen TF -IDF Similarity
D50 D23 1,1645
D50 D12 0,1241
D50 D26 0,1961
D50 D43 0,1952
D50 D46 0,1521
Berdasarkan hasil yang dilakukan dalam tahapan akhir perhitungan jarak kemiripan antara berita D1 dengan berita D8 memiliki kemiripan paling tinggi dengan nilai 0,1696, D1 dengan D32 memiliki nilai lebih rendah dari D41 yaitu 0,1017, selanjutnya berita D1 dan D41 dengan jarak kemiripan 0,101. Berita D1 dengan D34 jarak kemiripannya senilai 0,0658, D1 dengan D3 jarak kemiripan adalah 0,0614.
Hasil jarak kemiripan berita D2 dengan D5 memiliki jarak yang tertinggi diantara berita D2 dengan D7, D4, D6, D9, yaitu sebesar 2,8795 , sedangkan D2 dengan D7 memiliki jarak yaitu 0,673, kemudian berita D2 dengan berita D4 jaraknya memiliki 0,3541, berita D6 dengan D9 memilki nilai jaraknya masing-masing 0,2709 dan 0,2282.
Jarak kemiripan D3 dengan D9 memiliki nilai tertinggi 0,2481, sedangkan nilai D3 dengan D30 adalah memiliki jarak 0,2466, dilihat pada berita D3 dengan D42 jarak yang dimiliki yaitu 0,212, nilai jarak kemiripan pada berita D3 dengan D5 adalah 0,2088, Jarak kemiripan paling
kecil pada perbandingan berita D3 dengan D34 adalah 0,205.
semakin besar hasil fungsi similarity, maka kedua objek yang dievaluasi dianggap semakin mirip. Jika sebaliknya, maka semakin kecil hasil fungsi similarity, maka kedua objek tersebut dianggap semakin berbeda. Dari tahapan hasil akhir similaritynya maka akan dicari lagi perhitungan akurasi kemiripan tesebut.
Setelah dilakukan tahapan TF-IDF dan cosine similarity maka akan dilakukan penghitungan akurasi persisi kemiripan jarak antara berita 1 dengan berita yang lainnya. Berikut merupakan salah satu contoh hasil data berita yang telah dibandingkan (Terlampir).
Tabel 9. Hasil data berita yang telah dibandingkan antara dukomen D1 dengan D8,D32,D41,D34, dan D3
Total keseluruhan berita terhitung nilai presesinya adalah 76%, hal ini didasarkan pada perhitungan :
4. SIMPULAN
Perbandingan Berita Similarity Kesesuaian Berita Tingkat Presisi Berita
D1-D8 0.1669 Sesuai
D1-D32 0.1017 Sesuai
D1-D41 0.101 Kurang Sesuai D1-D34 0.0658 Kurang Sesuai D1-D3 0.0614 Kurang Sesuai
Perbandingan Berita Similarity Kesesuaian Berita Tingkat Presisi Berita
D2-D5 2,8795 Sesuai
D2-D7 0.673 Sesuai
D2-D4 0.3541 Sesuai
D2-D6 0.2709 Sesuai
D2-D9 0.2282 Sesuai
Perbandingan Berita Similarity Kesesuaian Berita Tingkat Presisi Berita
D50-D23 1,1645 Sesuai D50-D12 0,1241 Kurang Sesuai D50-D22 0,1961 Kurang Sesuai D50-D43 0,1952 Kurang Sesuai 20% 40% 100%
93
1. Berdasarkan perbandingan
berita dapat disimpulkan bahwa diantara seluruh berita yang memiliki nilai kesamaan presesi berita paling tertinggi didapat dari berita D2, D7, dan D21 yaitu sebesar 100% sedangkan yang memiliki nilai kesamaan presesi 80% ialah D4, D5, D6, D11, D12, D16, D18, D22, D24, D28, D32, D36, D37, D43, D45, D46, dan D49 sedangkan nilai 60% yaitu berita D10, D13, D15, D19, D23,D25, D26, D27, D33, D38, D39, D44, D47, D48 atau D1, D20, D30, D31, D34, D35, D40 dan D42 memiliki nilai kesamaan 40%, kemudian dengan nilai yang paling rendah ialah D8, D9, D17, D29, dan D50.
2. Berdasarkan hasil similarity
antara keseluruhan dari 5 teratas maka nilai presisinya yang didapat sebesar 76%.
DAFTAR PUSTAKA
[1] Annisa, dkk (2016). Peringkasan
Tweet Berdasarkan Trending Twitter dengan Pembobotan TF-IDF dan Single Linkage Angglomerative Hierarchical Clustering. Kinektik, Vol.1, No.01,
Mei 2016, Hal 9-16 ISSN : 2503-2259, E-ISSN : 2503-2267.
[2] Akbar.T.M,.dkk (2012). Analisis
Perbandingan Metode
Pembobotan Kata TF.IDF dan
TF.RF terhadap perfromansi
kategorisasi teks. Teknik
Informatika, Fakultas Teknik
Informatika,Universitas.
[3] Herwijayanti.B, dkk (2018).
Klasifikasi berita online dengan menggunakan pembobotan Cosine Similarity Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer. E-ISSN : 2548-964X.
Http:// j-ptiik.ub.ac.id. Vol.2 No.1 januari 2018, hlm.306-312.
[4] Okfalisa, dkk (2016). Implementasi
Metode Term Frequency-Inverse Document Frequency (TF-IDF) dan Maximum Marginal Relevance untuk Monitoring Diskusi Online.
Jurnal Sains, Teknologi dan Industri, Vol. 13, No.2, Juni 2016, Pp.151-159, ISSN : 1693-2390, ISSN : 2407-0939.
[5] Prasetya.C.S.D. (2017). Sistem
Rekomendasi pada E-Commerce menggunakan K-Nearest Neighbor “.Jurnal Teknologi Informasi dan
Ilmu Kompter (JTIK), Vol.4 No.3 September 2017,hlm 194-200, p-ISSN : 2355-7699, e-p-ISSN : 2528-6579.
[6] Sugiyamta. (2015). Sistem Deteksi
Kemiripan Dokumen dengan
Algoritma Cosine Similarity dan Single Pass Clustering. Dinamika
Informasi, Vol.17, No.2, Oktober 2015, ISSN : 2085-3343.
[7] Widyasanti N.K,.Dkk. (2018). Seleksi
Fitur Bobot kata dengan
Menggunakan TF-IDF untuk
Ringkasan Bahasa Indonesia.
Merpati,Vol 6, No. 2 Agustus 2018, ISSN : 2252-3006.