• Tidak ada hasil yang ditemukan

Implementasi Metode Term Frequency-Inverse Document FrequencyClass Frequency untuk Peringkasan Berita Online

N/A
N/A
Protected

Academic year: 2021

Membagikan "Implementasi Metode Term Frequency-Inverse Document FrequencyClass Frequency untuk Peringkasan Berita Online"

Copied!
8
0
0

Teks penuh

(1)

54

Celebes Engineering Journal

http://journal.lldikti9.id/CEJ Vol 1, No, 1, April 2019, pp 54-61 p-ISSN:2684-8538 dan e-ISSN: 2685-0958

DOI: https://doi.org/

Implementasi Metode Term Inverse Document

Frequency-Class Frequency untuk Peringkasan Berita Online

Marwa Sulehu1, Juhar2, Watty Rimalia3, Akbar Iskandar4

1Sistem Informasi, STMIK AKBA 3Teknik Informatika, Universitas Pancasakti

2,4Teknik Informatika, STMIK AKBA

Email: akbar.iskandar06@gmail.com Artikel info Artikel history: Received; Maret-2019 Revised; Maret-2019 Accepted; April-2019

Abstract. This study aims to improve and implement the Term Frequency Inverse Document Frequency Method with the Class Frequency method in summarizing online news to save time for news readers in understanding news through news summaries. Data (text documents) used in this study amounted to 20 Indonesian language news documents obtained from the site http://www.kompas.com. The trial document is a collection of news from the economic sports and technology categories. Data were analyzed using the Term Frequency Inverse Document Frequency Class Frequency method. The results of this study, show that Class Frequency implementation can affect the accuracy of word weighting in the Term Frequency and Inverse Document Frequency methods where the test results obtain an average accuracy of up to 75% of the 20 documents tested by comparing system testing with manual testing. Abstrak. Penelitian ini bertujuan untuk meningkatkan dan mengimplementasikan Metode Term Frequency Inverse Document Frequency dengan metode Class Frequency pada peringkasan berita online untuk menghemat waktu bagi para pembaca berita dalam memahami berita melalui ringkasan berita. Data (dokumen teks) yang digunakan dalam penelitian ini berjumlah 20 dokumen berita berbahasa Indonesia yang diperoleh dari situs http://www.kompas.com. Dokumen uji coba tersebut merupakan kumpulan berita dari kategori olahraga ekonomi dan teknologi. Data dianalisis dengan mengunakan metode Term Frequency Inverse Document Frequency Class Frequency. Hasil penelitian ini, menunjukan bahwa implementasi Class Frequency dapat mempengaruhi akurasi pembobotan kata pada metode Term Frequency dan Inverse Document Frequency dimana hasil pengujian memperoleh rata-rata akurasi sampai 75% dari 20 dokumen yang diuji dengan membandingkan pengujian sistem dengan pengujian manual.

(2)

| Celebes Engineering Journal Keywords: Peringkasan; Term Frequency; Inverse Document Frequency; Class Frequency. Coresponden author: Email: akbar.iskandar06@gmail.com artikel dengan akses terbuka dibawah lisensi CC BY -4.0

PENDAHULUAN

Informasi secara online semakin meningkat seiring berkembangnya media elektronik. Salah satu bentuk informasi tersebut adalah dokumen ataupun artikel berita. Kebutuhan akan informasi yang berupa dokumen atau artikel meyebabkan pengguna membutuhkan waktu yang lebih lama membaca keseluruhan dokumen atau artikel (Firmawati & Ataina, 2011). Jumlah informasi yang tersedia menyebabkan penurunan efektivitas dan efesiensi ketika individu menggunakan informasi. Pertumbuhan informasi yang tersedia membuat sulit untuk mendapatkan informasi yang diperlukan yang berkaitan dengan kebutuhan pengguna. Dengan menggunakan ringkasan pengguna dapat memutuskan jika dokumen sesuai dengan kebutuhan tanpa membaca seluruh isi dokumen atau artikel dengan berbagai macam metode(Ozsoy, M. G., Alpaslan & Cicekli, 2011). Berbagai metode untuk melakukan peringkasan dokumen telah diusulkan oleh para peneliti. Beberapa metode tersebut antara lain Term Frequency-Inverse Document Frequency (TF-IDF) (Gupta & Lehal, 2010), Dependency Based Discourse Tree (DEP-DT) (Silvia, Rukmana, Aprilia, Suhartono, Wongso, & Meiliana., 2014), Latent Semantic Analysis (LSA) (Silvia, Rukmana et al., 2014), Term-Based And Ontology-Based Methods (Qiang, Chen, Ding, Xie, & Wu, 2016). Metode-metode tersebut dapat digunakan untuk meringkas dokumen secara otomatis dengan kelebihan dan kekurangan tertentu.

Metode TF-IDF ,DEP-DT ,LSA dan Term-Based And Ontology-Based Methods masing-masing memiliki kelebihan dan kekurangan. Metode-metode tersebut telah dicoba sepuluh tahun terakhir dan terbukti keberhasilannya dalam melakukan peringkasan. Akan tetapi ringkasan yang di hasilkan tidak akurasi (Hirao et al., 2015). Metode TF-IDF memiliki banyak kelebihan seperti kecepatan dan efesien dibandingkan dengan metode DEP-DT, LSA dan Term-Based And Ontology-Based Methods (Liu & Yang, 2012)(Akbar Iskandar, Virma, & Ahmar, 2018).

Metode TF-IDF merupakan metode yang efesien dan sederhana dalam melakukan peringkasan. Namu metode TF-IDF memiliki kekurangan dalam akurasi pembobotan kata. Kekurangan tersebut membuat motode TF-IDF akurasi dalam pembobotan kata apabila dokumen yang diringkas terlalu besar (Liu & Yang, 2012)(Iskandar, Rismawati, & Rahim, 2018). Keterbatasan pada metode TF-IDF harus di atasi agar ringkasan dapat lebih akurasi.

Penelitian ini diusulkan sebuah solusi untuk mengatasi kekurangan pada metode TF-IDF dengan metode pengembangan TF-IDF untuk meningkatkan keakurasian dengan mengusulkan metode Term Frequency-Inverse Document Frequency-Class Frequency (TF-IDF-CF)(Liu & Yang, 2012). Penelitian ini bertujuan mengimplementasikan metode TF-IDF-CF untuk pembobotan kata pada peringkasan berita online.

METODE PENELITIAN

Peringkasan berita online dengan penerapan metode Term Frequency Inverse Document Frequency dengan metode Class Frequency memiliki beberapa langkah yaitu :

Pengumpulan data

Data (dokumen teks) yang digunakan dalam penelitian ini berjumlah 20 dokumen berita berbahasa Indonesia yang diperoleh dari situs http://www.kompas.com. Dokumen uji coba tersebut merupakan kumpulan berita dari kategori olahraga ekonomi dan teknologi.

(3)

Term frequency

Term frequency merupakan frekuensi dokumen berdasarkan kemunculan sebuah term (istilah)

dalam dokumen yang bersangkutan. Semakin sering sebuah kata muncul, semakin tinggi bobot dokumen untuk istilah tersebut, begitu sebaliknya (Wahib, A., Santika & Arifin, 2014). Pada Term

Frequency, terdapat beberapa jenis formula yang dapat diguanakan :

a. TF biner (binary TF), hanya memperhatikan apakah suatu kata atau term ada atau tidak dalam dokumen, jika ada diberi nilai satu, jika tidak diberi nilai nol.

b. TF murni (raw TF), nilai TF diberikan berdasarkan jumlah kemunculan suatu term di dokumen. Contohnya, jika muncul lima kali maka kata tersebut akan bernilai lima.

c. TF logaritmik, hal ini untuk menghindari dominansi dokumen yang mengandung sedikit term dalam query, namun mempunyai frekuensi yang tinggi.

(1)

d. TF normalisasi, menggunakan perbandingan antara frekuensi sebuah term dengan nilai

maksimum dari keseluruhan atau kumpulan frekuensi term yang ada pada suatu dokumen (2)

Inverse Document Frequency

Inverse Document Frequency merupakan metode pembobotan yang dipadukan dengan Ters

Frequency yang menghitung banyaknya istilah tertentu dalam keseluruhan dokumen. Metode

Inverse Document Frequency merupakan perhitungan dari bagaimana term di distribusikan

secara pada koleksi dokumen yang bersangkutan (Gupta & Lehal, 2010).

Inverse Document Frequency menunjukan hubungan ketersedian sebuah term dalam seluruh

dokumen. Semakin sedikit jumlah dokumn yang mengandung term yang dimaksud, maka nilai IDF semakin besar. Sedangkan untuk IDF dihitung dengan menggunakan formula sebagai berikut :

(3) Dimana :

D : jumlah semua dokumen

dfj : jumlah dokumen yang mengandung term

Class Frequency(CF)

Class Frequency (CF) merupakan metode yang meningkatkan pembobotan dengan menekankan

kemampuan mengkarakteristik istilah dalam kelas yang sama (Liu & Yang, 2012). Sedangkan untuk CF dihitung dengan menggunakan formula sebagai berikut :

dimana df, banyak dokumen sedangkan D, jumlah dokumen yang mengandung Term.

HASIL DAN PEMBAHASAN

Pengambilan sampel dokumen asli

Pengusaha yang tergabung dalam Kamar Dagang dan Industri (Kadin) Indonesia mempertanyakan rencana Ditjen Pajak memeriksa wajib pajak yang sudah ikut program tax amnesty. Padahal sebelumnya, Ditjen Pajak menuturkan, pemeriksaan pajak hanya akan memprioritaskan wajib pajak yang tidak ikut tax amnesty. "Pemeriksaan sebaiknya dilakukan kepada wajib pajak yang tidak ikut tax amnesty," ujar Ketua Kadin Rosan Roeslani kepada Kompas.com, Jakarta, Selasa (16/5/2017). Kebingungan yang meliputi pengusaha lantaran pemerintah sudah memberikan janji tidak akan lagi mengejar wajib pajak bila ikut program tax amnesty. Seharusnya tutur ia, perlakuan kepada wajib pajak

(4)

| Celebes Engineering Journal

yang sudah ikut dan wajib pajak yang tidak ikut tax amnesty harus berbeda. Pemeriksaan pajak seharusnya memprioritaskan wajib pajak yang tidak ikut tax amnesty."Menkeu sudah menyampaikan belum lama ini kepada kami kalau wajib pajak sudah ikut tax amnesty dan comply tidak akan di uber-uber orang pajak lagi," kata Rosan

Gambar 4.1 Dokumen Asli

Tabel 4.1. Term Frequency, Inverce Document Frequency & Class Frequency

Term d f d/ df idf cf Tf*idf*cf K1 K2 K3 K4 K5 K6 K7 K8 beda 1 8 0.9030 8 0.12 5 0.112 87 beri 1 8 0.9030 8 0.12 5 0.11287 bingun g 1 8 0.9030 8 0.12 5 0.11287 bidang 1 8 0.9030 8 0.12 5 0.1128 7 gabung 1 8 0.9030 8 0.12 5 0.1128 7 ia 1 8 0.9030 8 0.12 5 0.112 87 ikut 7 1.1 42 86 0.0579 9 0.87 5 0.0507 4 0.05 074 0.0507 4 0.05074 0.050 74 0.050 74 0.050 74 indone sia 1 8 0.9030 8 0.12 5 0.1128 7 industr i 1 8 0.9030 8 0.12 5 0.1128 7 janji 1 8 0.9030 8 0.12 5 0.11287 kamar 1 8 0.9030 8 0.12 5 0.1128 7 kami 1 8 0.9030 8 0.12 5 0.112 87 kata 1 8 0.9030 8 0.12 5 0.112 87 kejar 1 8 0.9030 8 0.12 5 0.11287 ketua 1 8 0.9030 8 0.12 5 0.1128 7 kompa 1 8 0.9030 0.12 0.1128 57

(5)

s 8 5 7 laku 2 4 0.6020 5 0.25 0.1505 1 0.150 51 Lama 1 8 0.9030 8 0.12 5 0.112 87 Liput 1 8 0.9030 8 0.12 5 0.11287 Orang 1 8 0.9030 8 0.12 5 0.112 87 Pajak 7 1.1 42 86 0.0579 9 0.87 5 0.0507 4 0.05 074 0.0507 4 0.05074 0.050 74 0.050 74 0.050 74 Periksa 4 2 0.3010 3 0.5 0.1505 1 0.15 051 0.1505 1 0.150 51 Priorit as 2 4 0.6020 5 0.25 0.15 051 0.150 51 Progra m 2 4 0.6020 5 0.25 0.1505 1 0.15051 Rencan a 1 8 0.9030 8 0.12 5 0.1128 7 Rosan 2 4 0.6020 5 0.25 0.1505 1 0.150 51 Selasa 1 8 0.9030 8 0.12 5 0.11 287 Tanya 1 8 0.9030 8 0.12 5 0.1128 7 Tutur 2 4 0.6020 5 0.25 0.15 051 0.150 51 Uber 1 8 0.9030 8 0.12 5 0.112 87 Ujar 1 8 0.9030 8 0.12 5 0.1128 7 Usaha 2 4 0.6020 5 0.25 0.1505 1 0.15051 Wajib 7 1.1 42 86 0.0579 9 0.87 5 0.0507 4 0.05 074 0.0507 4 0.05074 0.050 74 0.050 74 0.050 74 Jumlah 1.396 70 0.60 375 0.942 39 0.11 287 1.01765 0.679 01 0.453 25 0.867 08

1)

Inverse Document Frequency (IDF)

a)

Nilai 0.90308

= log10

(6)

| Celebes Engineering Journal

b)

Nilai 0.05799 = log10

c)

Nilai 0.60205 = log10

d)

Nilai 0.30103 = log10

2)

Class Frequency (CF)

a)

Nilai 0.125

b)

Nilai 0.875

c)

Nilai 0.25

d)

Nilai 0.5

3)

W atau TF-IDF-CF

Hasil dari W di dapatkan dari hasil kali dari metode TF x IDF x CF untuk mendapatkan bobot dokumen.

Pembahasan

Setelah melakukan fase atau tahap dari metode TF-IDF-CF maka akan menentukan total jumlah nilai dari W atau jumlah TF-IDF-CF, dan untuk mendapatkan hasil ringkasan di mana :

Jika ringkasan yang diingikan 75% maka :

Nilai 8 diperoleh dari jumlah dokumen, dan nilai 75 di peroleh dari nilai threshold. Sehingga Hasil yang di peroleh adalah 6 Kalimat dari nilai tertinggi seperti pada Hasil ringkasan 75% data berikut.

(1.397)Pengusaha yang tergabung dalam Kamar Dagang dan Industri (Kadin) Indonesia

mempertanyakan rencana Ditjen Pajak memeriksa wajib pajak yang sudah ikut program tax amnesty.(1.02)Kebingungan yang meliputi pengusaha lantaran pemerintah sudah memberikan

janji tidak akan lagi mengejar wajib pajak bila ikut program tax amnesty.(0.945) "Pemeriksaan

sebaiknya dilakukan kepada wajib pajak yang tidak ikut tax amnesty," ujar Ketua Kadin Rosan Roeslani kepada Kompas.(0.869)"Menkeu sudah menyampaikan belum lama ini kepada kami

kalau wajib pajak sudah ikut tax amnesty dan comply tidak akan di uber-uber orang pajak lagi," kata Rosan.(0.681) Seharusnya tutur ia, perlakuan kepada wajib pajak yang sudah ikut dan

wajib pajak yang tidak ikut tax amnesty harus berbeda.(0.606) Padahal sebelumnya, Ditjen Pajak

menuturkan, pemeriksaan pajak hanya akan memprioritaskan wajib pajak yang tidak ikut tax amnesty.

Jika ringkasan yang diingikan 50% Maka : 59

(7)

Dari nilai threshold 50, akan menghasilkan ringkasan 4 kalimat dari dokumen asli dari nilai tertinggi, seperti yang tampak berikut ini.

(1.397)Pengusaha yang tergabung dalam Kamar Dagang dan Industri (Kadin) Indonesia

mempertanyakan rencana Ditjen Pajak memeriksa wajib pajak yang sudah ikut program tax amnesty.(1.02)Kebingungan yang meliputi pengusaha lantaran pemerintah sudah memberikan

janji tidak akan lagi mengejar wajib pajak bila ikut program tax amnesty.(0.945) "Pemeriksaan

sebaiknya dilakukan kepada wajib pajak yang tidak ikut tax amnesty," ujar Ketua Kadin Rosan Roeslani kepada Kompas.(0.869)"Menkeu sudah menyampaikan belum lama ini kepada

kami kalau wajib pajak sudah ikut tax amnesty dan comply tidak akan di uber-uber orang pajak lagi," kata Rosan.

Jika ringkasan yang diingikan 40% Maka :

Dari nilai 3,2 akan menghasilkan ringkasan 3 kalimat dari dokumen asli seperti:

(1.397)Pengusaha yang tergabung dalam Kamar Dagang dan Industri (Kadin) Indonesia

mempertanyakan rencana Ditjen Pajak memeriksa wajib pajak yang sudah ikut program tax amnesty.(1.02)Kebingungan yang meliputi pengusaha lantaran pemerintah sudah

memberikan janji tidak akan lagi mengejar wajib pajak bila ikut program tax amnesty.(0.945) "Pemeriksaan sebaiknya dilakukan kepada wajib pajak yang tidak ikut tax

amnesty," ujar Ketua Kadin Rosan Roeslani kepada Kompas. Jika ringkasan yang diingikan 30% Maka :

Dari nilai 2,4 akan menghasilkan ringkasan 2 kalimat dari dokumen asli seperti:

(1.397)Pengusaha yang tergabung dalam Kamar Dagang dan Industri (Kadin) Indonesia

mempertanyakan rencana Ditjen Pajak memeriksa wajib pajak yang sudah ikut program tax amnesty.(1.02)Kebingungan yang meliputi pengusaha lantaran pemerintah sudah

memberikan janji tidak akan lagi mengejar wajib pajak bila ikut program tax amnesty. Jika ringkasan yang diingikan 10% Maka :

Dari nilai 2,4 akan menghasilkan ringkasan 1 kalimat dari dokumen asli seperti:

(1.397)Pengusaha yang tergabung dalam Kamar Dagang dan Industri (Kadin) Indonesia

mempertanyakan rencana Ditjen Pajak memeriksa wajib pajak yang sudah ikut program tax amnesty.

Samakin besar nilai presentase semakin besar hasil ringkasan yang akan dihasilkan, sebaliknya semakin kecil nilai presentase semakin kecil hasil ringkasan. Batasan untuk nilai presentase

(threshold) yaitu lebih besar atau sama dengan (>=) 0,5 dari hasil penjumlahan. Mengukur

tingkat akurasi hasil ringkasan dilakukan dengan menguji 20 dokumen di mana pengujian berdasarkan pada metode TF-IDF-CF yang dilakukan manual atau oleh manusia yang berlandaskan pada hasil jumlah TF-IDF-CF atau W. Pada pengujian yang dilakukan terdapat 5 dokumen dari 20 dokumen yang berbeda dengan pengujian sistem. Berikut adalah hasil perhitungan tingkat keakurasian system hasil analisis berikut.

Akurasi = = 75%

Dari pengujian yang telah dilakukan secara manual dengan 20 dokumen, maka nilai akurasi yang dihasilkan sebesar 75%.

SIMPULAN DAN SARAN

(8)

| Celebes Engineering Journal

Kesimpulan dari penelitian ini dapat di jelaskan sebagai berikut bahwa Metode Class Frequency dapat dihitung dengan mengalikan Term Frequency-Inverse Document Frequency dengan Class Frequency untuk meningkatkan bobot dokumen, untuk mendapatkan hasil ringkasan 50%, maka jumlah dokumen dikali dengan 50 dibagi 100 sehingga nilai hasil perhitungan akan dijadikan dasar jumlah dokumen hasil ringkasan dari bobot terbesar. Selanjutnya Sistem peringkasan dokumen dapat diimplementasikan dengan menggunakan metode Term Frequncy – Inverce Document Frequncy dan menggabungkan metode Class Frequency untuk meningkatkan pembobotan kata yang mana hasil uji coba sistem yang telah dilakukan dengan pengujian manual dari 20 dokumen menunjukan bahwa nilai relevansi yang dihasilkan sampai 75% dengan nilai presentasi (threshold) 50%. Sehingga saran untuk para peneliti atau para pembaca berita dapat menggunakan sistem ini karena dapat menghemat waktu bagi para pembaca berita dalam memahami berita melalui ringkasan berita.

UCAPAN TERIMAKASIH

Ucapan terimakasih kepada teman sejawat dosen stmik akba atas sumbangsi pemikiran dan dukungan dari institusi berupa dana publikasi.

DAFTAR RUJUKAN

Akbar Iskandar, Virma, E., & Ahmar, A. S. (2018). Implementing DMZ in Improving Network Security of Web Testing in STMIK AKBA. International Journal of Engineering & Technology (UEA), 7(2.3), 99–104.

Firmawati, F. A., & Ataina, I. (2011). Automatic Text Summarization On Single-Document News Using Shortest Path Algorithm Pendahuluan.

Gupta, V., & Lehal, G. S. (2010). A Survey of Text Summarization Extractive techniques. Journal of Emerging Technologies in Web Intelligence.

Hirao, T., Nishino, M., Yoshida, Y., Suzuki, J., Yasuda, N., & Nagata, M. (2015). Summarizing a Document by Trimming the Discourse Tree. IEEE/ACM Transactions on Speech and Language Processing.

Iskandar, A., Rismawati, & Rahim, R. (2018). Designing Application for Performance Assessment to Measure Employee Profesionalism in Goverment. Joint Workshop KO2PI and The 1st

International Conference on Advance & Scientific Innovation, 154–161.

Liu, M., & Yang, J. (2012). An improvement of TFIDF weighting in text categorization.

Ozsoy, M. G., Alpaslan, F. N., & Cicekli, I. (2011). Text summarization using Latent Semantic Analysis. Proceedings of the 23rd International Conference on Computational Linguistics, 405–417.

Qiang, J.-P., Chen, P., Ding, W., Xie, F., & Wu, X. (2016). Knowle dge-Base d Systems Multi-document

summarization using closed patterns. Knowledge-Based Systems. (99), 28–38.

Silvia, Rukmana, P., Aprilia, V. R., Suhartono, D., Wongso, R., & Meiliana. (2014). Summarizing Text for Indonesian Language by Using Latent Dirichlet Allocation and Genetic Algorithm, (August),.

Wahib, A., Santika, P. P., & Arifin, A. Z. (2014). Perangkingan Dokumen Berbahasa Arab

Menggunakan Latent Semantic Indexing. 83–92.

Gambar

Gambar 4.1 Dokumen Asli

Referensi

Dokumen terkait

Sebagaimana diketahui bahwa pakaian bekas dari luar negeri yang termasuk barang dilarang impor sebagaimana diatur dalam Peraturan Menteri Perdagangan Nomor

Kadar Glukosa Darah Subyek Penelitian (Kelompok Perlakuan) Berdasarkan hasil penelitian pada Diagram 2 didapatkan kadar glukosa darah pada subyek penelitian (kelompok

Berdasarkan hasil penelitian quaisy experimental design (eksperimen berpura- pura) yang dilakukan oleh peneliti di SMA Negeri 7 Pontianak dari hasil penelitian

Lantai dari Canary cafe, DailySweet Cafe dan Stilrod Cafe menggunakan terapan gaya yang termasuk kedalam periode vintage yaitu perpaduan gaya American Beaux Arts dan

Model migrasi internasional ditinjau dari sisi migran yang keluar dari Jawa, Sumatera, Kalimantan, Sulawesi dan Pulau lain dengan tujuan mencari kerja, menuju

Saya juga memberitahukan Yang Mulia bahwa di tahun 1688 telah tiba di pelabuhan Sarangam sebuah kapal dengan nakhoda seorang Cina peranakan berasal dari Japara, bernama Loanko,

Donor darah dengan HBsAg negatif yang berada pada persentil 20 dari cut off point pada Unit Transfusi Darah PMI Cabang Padang, yang sudah dianggap bebas dari

Tujuan dari penulisan ini adalah untuk mengetahui fluktuasi sinyal LTE-1800 MHz pada daerah Lepas Pantai kemudian melakukan Memodifikasi pemodelan propagasi