• Tidak ada hasil yang ditemukan

SISTEM REKOMENDASI BERITA ONLINE DENGAN MENGGUNAKAN PEMBOBOTAN TF-IDF DAN COSINE SIMILARITY

N/A
N/A
Protected

Academic year: 2021

Membagikan "SISTEM REKOMENDASI BERITA ONLINE DENGAN MENGGUNAKAN PEMBOBOTAN TF-IDF DAN COSINE SIMILARITY"

Copied!
9
0
0

Teks penuh

(1)

85

SISTEM REKOMENDASI BERITA ONLINE DENGAN

MENGGUNAKAN PEMBOBOTAN TF-IDF DAN COSINE

SIMILARITY

Noorhidayah1, Fatma Indriani 2, Mohammad Reza Faisal 3

1,2,3Prodi Ilmu Komputer FMIPA ULM Jl. A. Yani Km 36 Banjarbaru, Kalimantan Selatan

Email:Noorhidayah573 @gmail.com

Abstract

The growing number news circulating online results in readers often having difficulty in determining the similarity of news to one another, Looking for news by opening the news one by one on the radar site will certainly be inconvenient for users, and not necessarily what is sought according to what the reader wants. The recommendation system developed to overcome these problems is by using TF-IDF weighting and Cosine Similarity, both of these methods use news data that is already in TF-IDF to look for news data that are close to very high similarities as in the description, and the contents to use both as a basis for recommendations. The results of the recommendations and the ability to determine the similarity of online news generated from TF-IDF and Cosine Similiarty will be more accurate in finding similarities on a news website on Radar Banjarmasin to be made recommendations for users or readers and based on the results of research obtained precision results from the calculation of similarity namely 76% of all news.

Keywords : System Recommendation, Online News, Weighting, TF-IDF, Cosine Similarity

Abstrak

Hasil Semakin banyak berita yang beredar secara online mengakibatkan pembaca sering kesulitan dalam menentukan kemiripan berita yang satu dengan berita lainnya, Mencari berita dengan membuka satu persatu berita yang ada di situs radar tentu akan merepotkan pengguna, dan belum tentu yang dicari sesuai dengan apa diinginkan pembaca. Sistem rekomendasi yang dikembangkan untuk mengatasi permasalahan tersebut ialah dengan menggunakan pembobotan IDF dan Cosine Similarity, kedua metode ini menggunakan data berita yang sudah di TF-IDF untuk mencari data berita yang mendekati kemiripan yang sangat tinggi seperti dalam deskripsi, dan isi untuk digunakan keduanya sebagai dasar rekomendasi. Hasil dari rekomendasi dan kemampuan menentukan kemiripan dari berita online yang dihasilkan dari TF-IDF dan Cosine Similiarty akan lebih akurat dalam mencari kemiripan pada suatu situs web berita di Radar Banjarmasin untuk dijadikan rekomendasi bagi user atau pembaca dan berdasarkan hasil penelitian didapatkan hasil presisi dari perhitungan similarity yaitu 76% dari seluruh berita.

Kata Kunci : Sistem Rekomendasi, Berita Online, Pembobotan TF-IDF, Cosine Similarity

1. PENDAHULUAN

Salah satu faktor penting penunjang globalisasi ialah internet.

Semakin majunya teknologi internet

menyebabkan banyaknya

(2)

86 membuat bermacam aplikasi online, salah satunya yakni berita secara online. Banyak berita online yang saat ini sedang digandrungi, oleh masyarakat Indonesia. Salah satu contoh social media yang sedang trend saat ini, yakni Radar Banjarmasin yang sering dibaca oleh warga kaliamantan khususnya[3].

Mencari berita dengan membuka satu persatu berita yang ada di situs radar tentu akan merepotkan pengguna. Pembaca berita online sering mengalami kesulitan menentukan kemiripan berita yang satu dengan berita lainnya karena terlalu banyak berita yang beredar secara online, untuk mencari berita yang sesuai dengan apa diinginkan pembaca dan tidak membuang waktu jika harus membaca berita teratas atau terbaru mengenai trending topic tadi dan belum tentu berita tersebut mewakili berita atau informasi yang ingin disampaikan, karena biasanya beberapa berita ada yang melenceng dari hashtag atau tema bahkan judul berita[3].

Proses penggalian informasi dimana seorang user berinteraksi dengan sekumpulan dokumen menggunakan tools analisis merupakan komponen-komponen yang fungsinya adalah kategorisasi, hal ini disebut teks mining. Adapun sistem rekomendasi yang dikembangkan untuk mengatasi permasalahan tersebut dengan berbagai metode seperti pembobotan

TF-IDF dan Cosine Similarity. Metode

pembobotan TF-IDF dan Cosine

Similarity menggunakan data berita

yang sudah di TF-IDF untuk mencari data berita yang mendekati kemiripan yang sangat tinggi seperti dalam deskripsi, dan isi untuk digunakan

keduanya sebagai dasar rekomendasi [5].

Hasil dari rekomendasi dan kemampuan mencari kesamaan ini dapat mengurangi waktu. Untuk menggambarkan tingkat kesamaan antara dokumen dapat diukur oleh Metode Cosine Similarity. Berdasarkan tingkat kesamaan dokumen dapat direkomendasikan dengan

menggunakan Algoritma

pembobotan[5].

TF-IDF. Untuk mendeteksi

tingkat kemiripan dari objek tersebut dibuat Aplikasi dengan menggunakan Bahasa pemrograman java web dan MySql 5 database server. Objek penelitian ini adalah tentang berita di Radar Banjarmasin.

Menentukan kemiripan dari berita online yang dihasilkan dari

TF-IDF dan Cosine Similiarty akan lebih

akurat dalam mencari kemiripan pada suatu situs web berita di Radar Banjarmasin untuk dijadikan rekomendasi bagi user atau pembaca.

2. METODOLOGI PENELITIAN 2.1. Prosedur Penelitian

2.1.1. Pengumpulan Data,

Mengumpulkan data berita melalui web Prokal.co (radar Banjarmasin).

2.1.2. Memecah Berita, Memecah

Berita yaitu proses memecah string teks dokumen yang panjang menjadi kumpulan data asli berita yang diambil sampel data 50 berita dari bulan januari-maret. Dalam memecah dokumen menjadi beberapa berita menggunakan fungsi split ( , ), dengan tanda baris baru sebagai delimiter untuk memotong string dokumen[1].

2.1.3. Case Folding, Case Folding

(3)

87 pada berita menjadi huruf kecil, menghilangkan karakter angka[1].

2.1.4. Menghilangkan Delimiter,

Menghilangkan Delimiter yaitu seperti tanda ( . ), ( , ), ( : ), ( ; ), ( ? ), dan ( !) [1].

2.1.5. Menghilangkan Stopwords,

Menghilangkan Stopwords yaitu untuk menghilangkan kata-kata yang dianggap tidak penting (stopwords), seperti kata di, ke, apa, dan, ini, itu, pun, agar, akan, dari, juga, oleh, pada, yang, bahwa, dapat, namun, untuk, dengan, kepada, ya, nya,serta menghilakan huruf yang kosak kata 2 huruf misal “ar” akan dihilangkan[1].

2.1.6. Stemming, Stemming ialah

tahapan pemetaan dari bentuk (variants) menjadi kata dasar dan huruf awalan dan akhiran[3].

2.1.7. Perhitungan Bobot dengan TF-IDF, Untuk menentukan frekuensi

banyak kata yang muncul pada sebuah dokumen dan menentukan kemunculan term atau kata pada kumpulan dokumen[1].

2.1.8. Perhitungan Cosine

Similarity, Untuk menetukan dua

buah atau lebih dan mengambil nilai kemiripan (similarity) antara kedua objek berupa bilangan riil[6].

3. HASIL DAN PEMBAHASAN 3.1. Hasil

“Sistem rekomendasi berita

online dengan menggunakan

pembobotan TF-IDF dan Cosin

Similarity” merupakan penelitian yang

ditujukan untuk membantu dalam merekomendasikan para user atau pembaca berita radar banjarmasin sehingga memudahkan dalam

pencarian berita yang serupa dengan berita yang pertama dibaca oleh user atau pembaca.

Proses penelitian dilakukan dengan membaca data hasil berita online radar banajrmasin dari tahun sebelumnya. Proses rekomendasi ini dilakukan menggunakan metode

Pembobotan TF-IDF dan Cison

Similarity dengan membandingkan

kemiripan antara berita satu dengan berita yang lainnya dengan didasari oleh judul berita. Hasil rekomendasi ini berupa saran untuk pembaca berita agar lebih memudahkan membaca berita yang ke dua sama menariknya dari berita awal yang sdh dibaca, tanpa harus mencari berita yang lainnya.

3.2. Pengumpulan Data

Proses penarikan data dilakukan secara fisik dengan mengajukan permohonan kepada PT. Duta Banua Banjar Media Jaringan Jawa Post Group. Data yang berhasil didapatkan yaitu data berita online dalam rentan waktu 2018.

Gambar 1. Data Berita Data yang didapatkan pada penelitian ini berisikan 50 data berita dengan tahun pengambilan data januari-maret 2018. Data yang didapatkan kemudian disusun menjadi 4 klasifikasi yang datanya berbentuk txt* untuk dilanjutkan ke dataset harus terlebih dahulu di

(4)

88 import ke dalam program supaya dapat dimasukan ke dalam database dan dilanjutkan ke perhitungan pembobotan tf-idf dan cosin similarity.

Gambar 2. data berbentuk txt* Data berita tersebut lalukan tahapan text preprocessing yaitu memecah berita, case folding, menghilangkan delimiter, menghilangkan stopword, normalisasi, dan stremming.

3.3. Text Preprocessing 1) Membaca berita

Judul : Ketua PD Perwari Kalsel Hj Artitah Harmadji saat memberikan Sembako simbolis kepada petugas kebersihan di Pawon Tlogo, Kamis (10/5) kemarin.

Paragraf pertama : Mendekati Bulan Suci Ramadan yang tinggal hitungan hari, PD Persatuan Wanita Republik Indonesia (Perwari) Kalsel menggelar kegiatan bakti sosial. Kegiatan digelar di RM Pawon Telogo dengan Membagi-bagikan sembako kepada 100 orang petugas kebersihan khususnya wanita.

Paragraf terakhir : Imah, salah satu petugas kebersihan mengaku berterima kasih atas bantuan dan kepedulian dari PD Perwari Kalsel. Bantuan ini benar benar sangat bermanfaat bagi keluarganya. "Terima kasih kepada PD Perwari Kalsel semoga makin berkah dan berjaya,"

Gambar. 3 Membaca Berita

2) Tahap Case Folding

Setelah didapat proses membaca file, proses selanjutnya yaitu case folding proses ini berfungsi untuk mengubah semua huruf pada berita menjadi

huruf kecil dan

menghilangkan karakter angka. Proses case folding dilihat pada gambar 4 dibawah ini.

Judul : Ketua PD Perwari Kalsel Hj Artitah Harmadji saat memberikan Sembako simbolis kepada petugas kebersihan di Pawon Tlogo, Kamis (10/5) kemarin.

Paragraf pertama : Mendekati Bulan Suci Ramadan yang tinggal hitungan hari, PD Persatuan Wanita Republik Indonesia (Perwari) Kalsel menggelar kegiatan bakti sosial. Kegiatan digelar di RM Pawon Telogo dengan Membagi-bagikan sembako kepada 100 orang petugas kebersihan khususnya wanita. Paragraf terakhir : Imah, salah satu petugas kebersihan mengaku berterima kasih atas bantuan dan kepedulian dari PD Perwari Kalsel. Bantuan ini benar benar sangat bermanfaat bagi keluarganya. "Terima kasih kepada PD Perwari Kalsel semoga makin berkah dan berjaya,"

Gambar 4. Hasil Membaca File berita

Judul : ketua pd perwari kalsel hj artitah harmadji saat memberikan sembako simbolis kepada petugas kebersihan di pawon tlogo, kamis (10/5) kemarin.

Paragraf pertama : mendekati bulan suci ramadan yang tinggal hitungan hari, pd persatuan wanita republik indonesia (perwari) kalsel menggelar kegiatan bakti sosial. kegiatan digelar di rm pawon telogo dengan membagi-bagikan sembako kepada 100 orang petugas kebersihan khususnya wanita.

Paragraf terakhir : imah, salah satu petugas kebersihan mengaku berterima kasih atas bantuan dan kepedulian dari pd perwari kalsel. bantuan ini benar benar sangat bermanfaat bagi keluarganya. "terima kasih kepada pd perwari kalsel semoga makin berkah dan berjaya,"

Gambar 5. Hasil Proses case folding Setelah mendapatkan hasil dari case folding maka akan dilanjutkan pada tahapan delimeter.

3) Tahap Mengilangkan

Delimiter

Proses selanjutnya yaitu mengilangkan delimiter ialah menghilakan tanda baca seprti ( . ), ( , ), ( : ), ( ; ), ( ? ), dan ( ! ). Pada proses ini berita awal sampai akhir akan dihilangkan tanda baca disetiap paragrafnya dilihat dari gambar 6 dibawah ini.

Judul : ketua pd perwari kalsel hj artitah harmadji saat memberikan sembako simbolis kepada petugas kebersihan di pawon tlogo, kamis kemarin.

Paragraf pertama : mendekati bulan suci ramadan yang tinggal hitungan hari, pd persatuan wanita republik indonesia (perwari) kalsel menggelar kegiatan bakti sosial. kegiatan digelar di rm pawon telogo dengan membagi

-bagikan sembako kepada orang petugas kebersihan khususnya wanita.

Paragraf terakhir : imah, salah satu petugas kebersihan mengaku berterima kasih atas bantuan dan kepedulian dari pd perwari kalsel. bantuan ini benar benar sangat bermanfaat bagi keluarganya. "terima kasih kepada pd perwari kalsel semoga makin berkah dan berjaya,"

(5)

89 Gambar 6. Tahapan Menghilangkan Delimiter

Judul : ketua pd perwari kalsel hj artitah harmadji saat memberikan sembako simbolis kepada petugas kebersihan di pawon tlogo kamis kemarin

Paragraf pertama : mendekati bulan suci ramadan yang tinggal hitungan hari pd persatuan wanita republik indonesia perwari kalsel menggelar kegiatan bakti sosial kegiatan digelar di rm pawon telogo dengan membagi bagikan sembako kepada orang petugas kebersihan khususnya wanita

Paragraf terakhir : imah salah satu petugas kebersihan mengaku berterima kasih atas bantuan dan kepedulian dari pd perwari kalsel bantuan ini benar benar sangat bermanfaat bagi keluarganya terima kasih kepada pd perwari kalsel semoga makin berkah dan berjaya

Gambar. 7 Hasil Menghilangkan Delimiter

Setelah melakukan tahapan mengihalngkan Delimeter akan dilanjutkan ketahapan stopword.

4) Tahap Stopwords

Tahapan berikut ini adalah untuk menghilangkan kata-kata yang dianggap tidak penting (stopwords), seperti kata di, ke, apa, dan, ini, itu, pun, agar, akan, dari, juga, oleh, pada, yang, bahwa, dapat, namun, untuk, dengan, kepada, ya, nya. Dilihat dari gambar 8 dibawah ini.

Judul : ketua pd perwari kalsel hj artitah harmadji saat memberikan sembako simbolis kepada petugas kebersihan di pawon tlogo kamis kemarin

Paragraf pertama : mendekati bulan suci ramadan yang tinggal hitungan hari pd persatuan wanita republik indonesia perwari kalsel menggelar kegiatan bakti sosial kegiatan digelar di rm pawon telogo dengan membagi bagikan sembako kepada orang petugas kebersihan khususnya wanita.

Paragraf terakhir : imah salah satu petugas kebersihan mengaku berterima kasih atas bantuan dan kepedulian dari pd perwari kalsel bantuan ini benar benar sangat bermanfaat bagi keluarganya terima kasih kepada pd perwari kalsel semoga makin berkah dan Berjaya.

Gambar.8 Tahap Stopwords

Judul : ketua perwari kalsel artitah harmadji memberikan sembako simbolis petugas kebersihan pawon tlogo kamis kemarin

Paragraf pertama : mendekati bulan suci ramadan tinggal hitungan hari persatuan wanita republik indonesia perwari kalsel menggelar kegiatan bakti sosial kegiatan digelar pawon telogo membagi bagikan sembako orang petugas kebersihan khususnya wanita

Paragraf terakhir : imah petugas kebersihan mengaku berterima kasih atas bantuan kepedulian perwari kalsel bantuan benar benar sangat bermanfaat bagi keluarganya terima kasih perwari kalsel semoga makin berkah berjaya

Gambar.9 Hasil Tahap Stopword

Setelah melakukan tahapan stopwords dianjutkan ketahapan stemming tapah akhir dari text preprossesing.

5) Tahap Stemming

Tahapan berikut ini adalah pemetaan dari bentuk (variants) menjadi kata dasar dan menghapus awalan dan akhiran.

Judul : ketua perwari kalsel artitah harmadji memberikan sembako simbolis petugas kebersihan pawon tlogo kamis kemarin

Paragraf pertama : mendekati bulan suci ramadan tinggal hitungan hari persatuan wanita republik indonesia perwari kalsel menggelar kegiatan bakti sosial kegiatan digelar pawon telogo membagi bagikan sembako orang petugas kebersihan khususnya wanita

Paragraf terakhir : imah petugas kebersihan mengaku berterima kasih atas bantuan kepedulian perwari kalsel bantuan benar benar sangat bermanfaat bagi keluarganya terima kasih perwari kalsel semoga makin berkah berjaya

Gambar.13 Tahap Stemming

Judul : ketua perwari kalsel artitah harmadji memberikan sembako simbolis tugas bersihan pawon tlogo kamis kemarin

Paragraf pertama : dekati bulan suci ramadan tinggal hitungan hari persatuan wanita republik indonesia perwari kalsel gelar giat bakti sosial kegiatan gelar pawon telogo bagi bagi sembako orang tugas bersihan khususnya wanita

Paragraf terakhir : imah petugas bersihan ngaku terima kasih atas bantuan peduli perwari kalsel bantu benar benar sangat manfaat bagi keluarga terima kasih perwari kalsel semoga makin berkah Berjaya

Gambar 15. Hasil Tahapan Stemming

Pada penelitian ini tahapan editing, normalisasi (stopwords), dan stemming dilakukan secara manual tahapan setelah melewati text preprossesing adalah tahapan perhitungn TF dan IdF.

(6)

90

3.4. Perhitungan Pembobotan

dengan TF-IDF

Tabel 1. Hasil data Dokumen

Dokumen Klasifikasi banyuwangi . . . menarget beban

Tahapan dimana data dokumen didapat setelah melakukan hasil dari stemming kata-kata dasar akan disusun dengan acar sesuai dengan isi berita yang di dapatkan. Setelah mendapatkan hasil document dari berika maka langkah yang akan dilakukan adalah tahapan TF.

1) Tahapan perhitungan dengan menggunakan IDF dengan data yang sudah dilakukan tahapan Tf akan didaptkan hasil IDF

Tahapan perhitungan dengan menggunakan tf data sebelumnya dilakukan tahapan penilaian 0-1 yang dinyatakan dengan nilai 0 maka dalam 1 judul berita tersebut tidak ada Term yang dicari, sedangkan untuk 1 adalah data berita yang terdapat di term (Terlampir).

Tabel. 2 Hasil TF

Untuk menghitung perkalian

scalar antara bobot hitung dengan persamaan 4 yaitu :

Berdasarkan hasil Tf akan dilalukan langkah selanjutnya yaitu mencari IDF dalam judul berita, pargraf pertama,dan paragraf akhir.

2) Tahapan perhitungan dengan menggunakan IDF dengan data yang sudah dilakukan tahapan Tf akan didaptkan hasil IDF (Terlampir).

Tabel.5 Hasil perhitungan IDF

Hasil IDF yang didapat diatas mengunakan perhitungan dengan persamaan 5 yaitu :

3) Tahapan perhitungan dengan menggunakan TF-IDF dengan data akumulasi antara ft dan idf serta menggunakan pada

Term Doc1 Doc2 Doc3 . . . Doc50

pasti 0.301 0 0 . . . 0 tol 0.699 0 0 . . . 0 pasuruanruas0.301 0 0 . . . 0 jalur 0.301 0 0 . . . 0 . . . . . . . . . . . . . . . . . . menarget 0 0 0 . . . 0.301 beban 0 0 0 . . . 0.301 Term Total pasti 1.699 tol 1.699 pasuruanruas 1.699 timur 1.699 . . . . . . mengemukamengacu 1.699 swastapemko 1.699 menarget 1.699 beban 1.699

(7)

91 rumus 5 dan 6 (Terlampir).

Tabel.6 Hasil Perhitungan TF-IDF

Perhitungan TF-IDF dengan menggunakan persamaan 6

Setelah didapatkan nilai perhitungan kemiripan berita dengan menggunakan rumus perhitungan jarak kemiripan yaitu dengan menggunakan pembobotan TF-IDF maka akan di lakukan langkah selanjutnya adalah perhitungan cosine.

3.5. Tahapan Cosine Similarity

Menurut Herwijayanti [3] Menghitung dua buah objek atau lebih dan mengambil nilai kemiripan (similarity) antara kedua objek berupa bilangan riil. Umumnya, nilai yang dihasilkan oleh fungsi similarity berkisar pada interval [0...1]. Namun ada juga beberapa fungsi similarity yang menghasilkan nilai yang berada diluar interval tersebut. Menentukan hasil fungsi tersebut dapat dilakukan normalisasi. Dengan menggunakan rumus yang telah dijelaskan pada bab II :

Tabel.7 Tahapan Cosine Similarity

Setelah dilakukan tahapan TF-IDF maka akan dilakukan memgitungan kemiripan jarak anatar berita 1 dengan berita yang lainnya yaitu dengan menggunakan persamaan perhitungan 7. Setelah dilakukan tahapan TF-IDF maka akan dilakukan mengitungan kemiripan jarak anatar berita 1 dengan berita yang lainnya yaitu dengan menggunakan persamaan perhitungan 7.

Tabel.8 Hasil Perhitungan jarak dengan menggunakan Cosine Similarity

Dokumen TF -IDF Similarity

D1 D8 0.1669 D1 D32 0.1017 D1 D41 0.101 D1 D34 0.0658 D1 D3 0.0614

Dokumen TF -IDF Similarity

D2 D5 2,8795

D2 D7 0.673

Term Doc1 Doc2 Doc3 . . . Doc50

pasti 0.511 0 0 . . . 0 tol 1.188 0 0 . . . 0 pasuruanruas 0.511 0 0 . . . 0 jalur 0.368 0 0 . . . 0 . . . . . . . . . . . . menarget 0 0 0 . . . 0.511 beban 0 0 0 . . . 0.511

Dokument TF-IDF Total

D1

agent(0.421), albis(0.421), altaif(0.368), banjarmasin(0.66), berkesempatan(0.511), besar(0.421), bintang(0.421), dominasi(0.368), foto(0.277), garuda(0.951), hasanudin(0.421), hm(0.421), hubung(0.421), indah(0.368), indonesia(0.544), informasi(0.257), international(0.421), jemaah(0.301), jl(0.421), kalimantan(0.439), kaltrabu(0.368), kantor(0.257), kontributor(0.421), kunjung(0.301), layan(0.407), madina(0.421), maskapai(0.421), memiliki(0.24), menancapkan(0.421), nimahuntuk(0.421), nusawisata(0.421), pancar(0.421), pegang(0.421), periode(0.421), pesawat(0.368), ppiupihk(0.421), produk(0.368), quarter(0.421), reputasi(0.421), satusatunya(0.421), saudi(0.368), selatan(0.277), selatanuntuk(0.421), terbang(0.368), travel(0.277), umrah(0.407), whatsapp(0.421), wisata(0.523)

196.736

D2

angkat(0.583), arif(0.511), awar(0.421), banua(0.511), bimbing(0.511), bis(0.811), bisuntuk(0.511), buka(0.24), bukti(0.511), calon(0.277), daftar(0.33), direktur(0.368), fakhrul(0.511), favorit(0.511), harga(0.224), indah(0.368), isi(0.421), jalan(0.277), jamaah(0.421), jemaah(0.301), kaltrabu(0.736), lebaran(0.368), mahal(0.421), masyarakat(0.224), minta(0.421), paket(0.368), pengarahan(0.511), program(1.166), ramadan(0.845), ramadanpt(0.511), rijani(0.511), suci(0.511), tahunnyadiakui(0.511), tanah(0.301), target(0.511), teknis(0.421), tembus(0.511), umrah(0.257)

177.283

. . . . . . . . .

D50

banyuwangi(0.511), bas(0.511), digunakanjokowi(0.511), jalur(0.368), jawa(0.421), juni(0.511), lahan(0.421), lanjut(0.421), lebaran(0.368), menuntaskan(0.511), mudik(0.368), on(0.511), pasti(0.511), pasuruan(0.811), pasuruanruas(0.511), perintah(0.407), probolinggo(0.811), provinsi(0.33), rencana(0.421), ruas(1.023), surabaya(0.421), the(0.511), timur(0.511), tol(1.188), track(0.511)

(8)

92 D2 D4 0.3541 D2 D6 0.2709 D2 D9 0.2282 . . . . . . . . .

Dokumen TF -IDF Similarity

D50 D23 1,1645

D50 D12 0,1241

D50 D26 0,1961

D50 D43 0,1952

D50 D46 0,1521

Berdasarkan hasil yang dilakukan dalam tahapan akhir perhitungan jarak kemiripan antara berita D1 dengan berita D8 memiliki kemiripan paling tinggi dengan nilai 0,1696, D1 dengan D32 memiliki nilai lebih rendah dari D41 yaitu 0,1017, selanjutnya berita D1 dan D41 dengan jarak kemiripan 0,101. Berita D1 dengan D34 jarak kemiripannya senilai 0,0658, D1 dengan D3 jarak kemiripan adalah 0,0614.

Hasil jarak kemiripan berita D2 dengan D5 memiliki jarak yang tertinggi diantara berita D2 dengan D7, D4, D6, D9, yaitu sebesar 2,8795 , sedangkan D2 dengan D7 memiliki jarak yaitu 0,673, kemudian berita D2 dengan berita D4 jaraknya memiliki 0,3541, berita D6 dengan D9 memilki nilai jaraknya masing-masing 0,2709 dan 0,2282.

Jarak kemiripan D3 dengan D9 memiliki nilai tertinggi 0,2481, sedangkan nilai D3 dengan D30 adalah memiliki jarak 0,2466, dilihat pada berita D3 dengan D42 jarak yang dimiliki yaitu 0,212, nilai jarak kemiripan pada berita D3 dengan D5 adalah 0,2088, Jarak kemiripan paling

kecil pada perbandingan berita D3 dengan D34 adalah 0,205.

semakin besar hasil fungsi similarity, maka kedua objek yang dievaluasi dianggap semakin mirip. Jika sebaliknya, maka semakin kecil hasil fungsi similarity, maka kedua objek tersebut dianggap semakin berbeda. Dari tahapan hasil akhir similaritynya maka akan dicari lagi perhitungan akurasi kemiripan tesebut.

Setelah dilakukan tahapan TF-IDF dan cosine similarity maka akan dilakukan penghitungan akurasi persisi kemiripan jarak antara berita 1 dengan berita yang lainnya. Berikut merupakan salah satu contoh hasil data berita yang telah dibandingkan (Terlampir).

Tabel 9. Hasil data berita yang telah dibandingkan antara dukomen D1 dengan D8,D32,D41,D34, dan D3

Total keseluruhan berita terhitung nilai presesinya adalah 76%, hal ini didasarkan pada perhitungan :

4. SIMPULAN

Perbandingan Berita Similarity Kesesuaian Berita Tingkat Presisi Berita

D1-D8 0.1669 Sesuai

D1-D32 0.1017 Sesuai

D1-D41 0.101 Kurang Sesuai D1-D34 0.0658 Kurang Sesuai D1-D3 0.0614 Kurang Sesuai

Perbandingan Berita Similarity Kesesuaian Berita Tingkat Presisi Berita

D2-D5 2,8795 Sesuai

D2-D7 0.673 Sesuai

D2-D4 0.3541 Sesuai

D2-D6 0.2709 Sesuai

D2-D9 0.2282 Sesuai

Perbandingan Berita Similarity Kesesuaian Berita Tingkat Presisi Berita

D50-D23 1,1645 Sesuai D50-D12 0,1241 Kurang Sesuai D50-D22 0,1961 Kurang Sesuai D50-D43 0,1952 Kurang Sesuai 20% 40% 100%

(9)

93

1. Berdasarkan perbandingan

berita dapat disimpulkan bahwa diantara seluruh berita yang memiliki nilai kesamaan presesi berita paling tertinggi didapat dari berita D2, D7, dan D21 yaitu sebesar 100% sedangkan yang memiliki nilai kesamaan presesi 80% ialah D4, D5, D6, D11, D12, D16, D18, D22, D24, D28, D32, D36, D37, D43, D45, D46, dan D49 sedangkan nilai 60% yaitu berita D10, D13, D15, D19, D23,D25, D26, D27, D33, D38, D39, D44, D47, D48 atau D1, D20, D30, D31, D34, D35, D40 dan D42 memiliki nilai kesamaan 40%, kemudian dengan nilai yang paling rendah ialah D8, D9, D17, D29, dan D50.

2. Berdasarkan hasil similarity

antara keseluruhan dari 5 teratas maka nilai presisinya yang didapat sebesar 76%.

DAFTAR PUSTAKA

[1] Annisa, dkk (2016). Peringkasan

Tweet Berdasarkan Trending Twitter dengan Pembobotan TF-IDF dan Single Linkage Angglomerative Hierarchical Clustering. Kinektik, Vol.1, No.01,

Mei 2016, Hal 9-16 ISSN : 2503-2259, E-ISSN : 2503-2267.

[2] Akbar.T.M,.dkk (2012). Analisis

Perbandingan Metode

Pembobotan Kata TF.IDF dan

TF.RF terhadap perfromansi

kategorisasi teks. Teknik

Informatika, Fakultas Teknik

Informatika,Universitas.

[3] Herwijayanti.B, dkk (2018).

Klasifikasi berita online dengan menggunakan pembobotan Cosine Similarity Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer. E-ISSN : 2548-964X.

Http:// j-ptiik.ub.ac.id. Vol.2 No.1 januari 2018, hlm.306-312.

[4] Okfalisa, dkk (2016). Implementasi

Metode Term Frequency-Inverse Document Frequency (TF-IDF) dan Maximum Marginal Relevance untuk Monitoring Diskusi Online.

Jurnal Sains, Teknologi dan Industri, Vol. 13, No.2, Juni 2016, Pp.151-159, ISSN : 1693-2390, ISSN : 2407-0939.

[5] Prasetya.C.S.D. (2017). Sistem

Rekomendasi pada E-Commerce menggunakan K-Nearest Neighbor “.Jurnal Teknologi Informasi dan

Ilmu Kompter (JTIK), Vol.4 No.3 September 2017,hlm 194-200, p-ISSN : 2355-7699, e-p-ISSN : 2528-6579.

[6] Sugiyamta. (2015). Sistem Deteksi

Kemiripan Dokumen dengan

Algoritma Cosine Similarity dan Single Pass Clustering. Dinamika

Informasi, Vol.17, No.2, Oktober 2015, ISSN : 2085-3343.

[7] Widyasanti N.K,.Dkk. (2018). Seleksi

Fitur Bobot kata dengan

Menggunakan TF-IDF untuk

Ringkasan Bahasa Indonesia.

Merpati,Vol 6, No. 2 Agustus 2018, ISSN : 2252-3006.

Gambar

Tabel 1. Hasil data Dokumen  Dokumen  Klasifikasi  banyuwangi  .  .  .  menarget  beban
Tabel  9.  Hasil  data  berita  yang  telah  dibandingkan  antara  dukomen  D1  dengan D8,D32,D41,D34, dan D3

Referensi

Dokumen terkait

Berbeda dengan pendapat di atas yang menyatakan bahwa profitabilitas berpengaruh positif terhadap pengungkapan tanggung jawab sosial perusahaan, Donovan dan Gibson

Dari sini, penulis ingin membahas adanya ketidaksiapan tuan rumah penyelenggara dalam menjadikan Sochi sebagai tempat bekerja yang ideal buruh migran asing dengan sesuai

Dalam melaksanakan pengawasan, kepala sekolah mempunyai peran penting dalam pengambilan keputusan, tenaga administrasi pendidikan sekolah, terutama pengawasan dari kepala

Berdasarkan uraian tentang strategi pemasaran produk dalam meningkatkan kunjungan wisatawan yang telah dipaparkan pada bab sebelumnya, maka dapat disimpulkan

Nilai r = 0,9871 menunjukan hubungan antara penambahan sorbitol dengan persen pemanjangan sangat erat dan bersifat searah.. Intersep 5,8938 menunjukan apabila

Karena nilai signifikansi kurang dari taraf signifikansi maka dapat diambil kesimpulan bahwa hipotesis diterima yang berarti ada hubungan antara pemberian

Figure 1 shows the graph of the increase and decrease of average production per hectare of tissue culture and banana budding farmers. Production on the tillers

Tujuan penelitian untuk mengetahui perbedaan penambahan jantung pisang dan kluwih dalam pembuatan abon ikan tongkol ( Euthynnus affinis ) terhadap mutu abon, dan untuk