PERINGKASAN INFORMASI OTOMATIS BERITA KRIMINAL ONLINE BAHASA INDONESIA MENGGUNAKAN LEXRANK ALGORITHM
SKRIPSI
NADYA MAYSYARAH 141402076
PROGRAM STUDI TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
MEDAN 2019
PERINGKASAN INFORMASI OTOMATIS BERITA KRIMINAL ONLINE BAHASA INDONESIA MENGGUNAKAN LEXRANK ALGORITHM
SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi
NADYA MAYSYARAH 141402076
PROGRAM STUDI TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
MEDAN 2019
ii
UCAPAN TERIMA KASIH
Puji dan syukur penulis sampaikan kehadirat Allah Subhanallahu wa Ta’ala yang telah memberikan rahmat, taufik dan ridho-Nya sehingga penulis dapat menyelesaikan skripsi ini sebagai syarat untuk memperoleh gelar sarjana Komputer pada Program Studi S1 Teknologi Informasi Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara. Skripsi ini penulis persembahkan kepada ayah juara 1 seluruh dunia, Bapak Syahrul, SE. Meskipun raganya tak lagi ada di dunia, namun semangat, kasih sayang serta makna hidup yang beliau berikan selalu melekat sepanjang hayat.
Selama dalam penyelesaian tugas akhir ini, banyak sekali bantuan dan dukungan serta doa dari berbagai pihak sehingga penulis ingin menyampaikan ucapan terima kasih sedalam-dalamnya dan penghargaan kepada:
1. Ibu penulis, Nani Wahyuni yang selama 12 tahun telah berjuang sendiri untuk memenuhi kebutuhan finansial, rohani, moral dan mendukung pendidikan penulis. Do’a serta semangat yang tak henti beliau berikan menjadi penguat bagi penulis dalam menyelesaikan skripsi. Berkat restu dari beliaulah skripsi ini dapat terselesaikan dengan baik.
2. Ibu Sarah Purnamawati, ST., M.Sc. selaku dosen pembimbing pertama dan Ibu Dr. Erna Budhiarti Nababan, M.IT selaku dosen pembimbing kedua yang telah meluangkan waktu dan pikiran beliau uuntuk membimbing penulis dalam menyelesaikan skripsi.
3. Bapak Prof. Dr. Drs. Opim Salim Sitompul, M.Sc. selaku dosen penguji pertama dan Bapak Dani Gunawan, ST. M.T. selaku dosen penguji kedua yang telah memberi masukan, saran dan kritikan yang membangun dan bermanfaat dalam penelitian ini.
4. Bapak Mohammad Andri Budiman, ST., M.Com.Sc. MEM yang selalu memberi motivasi, dukungan moral serta do’a untuk penulis. Dan semua dosen serta pegawai di lingkungan Fakultas Ilmu Komputer dan Teknologi Informasi yang telah membantu dan membimbing penulis selama proses perkuliahan.
v
5. Kakanda Reza Andhika Febriansyah, SE, yang dalam diamnya menyimpan begitu banyak kasih sayang. Beliau yang selama 2 tahun mengantar dan menjemput penulis dalam menempuh pendidikan perguruan tinggi tanpa pamrih.
6. Adik-adik tercinta, Koestandi Loehur yang selalu cemas dengan kondisi penulis tatkala tidur terlalu larut. Maghfira Syahruni, adik perempuan yang masih dalam proses saling memahami dengan penulis. Dan juga adik bungsu tercinta, teman membaca buku, teman berdiskusi tentang agama, ilmu dan kehidupan, orang yang memahami situasi hati tanpa penulis perlu katakan, Dito Akbar.
Terimakasih juga karena berkenan memberikan makan kucing-kucing penulis tatkala penulis sibuk menyelesaikan skripsi.
7. M. Fachrin Aulia Nasution, seorang teman bertengkar yang di tengah kesibukannya selalu menyempatkan diri untuk membantu penulis tanpa pamrih dan dengan penuh kesabaran membagi ilmunya dengan penulis. Semangat yang ditularkan selalu terasa saat hidup dirundung masalah.
8. Teman-teman sejawad yang selama 4 tahun membersamai di kala susah dan senang. Fanny Ramadhana, teman cerita dan pulang seperjalanan. Zurwatus Saniyah, Helva Silvianita, Veny Apriyanti dan Yunda Andriyani yang selalu mendengarkan kisah suka dan duka. Ayu Astuti Kartika, Aggie Wicita, Lisa Olivia, Fadhlah Hani, Irmayani Syahfitri dan Novy Yolanda yang mendorong saya untuk terus berjuang.
9. Tim Kak Rizmi, Kak Ida Mayasari, Annisa Kamila, Kak Morayenita, Kak Nanda, Yulia Shafira, Julia, dan Mutiah yang selalu membantu dalam berdakwah di jalan Allah, yang selalu menyemai kebaikan dan memotivasi dalam ibadah.
10. Penulis juga mengucapkan terimakasih kepada teman-teman yang membantu penulis tanpa pamrih, Nova Suyanto, Syaiful Husein Lubis, M. Fadly Tanjung, Isa Dadi, Rendra Mahardika, Afzalurrahmah dan M. Furqan.
11. Teman-teman Teknologi Informasi angkatan 2014 dan KOM C yang selama masa kuliah selalu menbantu dan memberi pelajaran hidup yang berharga kepada penulis
Medan, April 2019 Penulis
ABSTRAK
Pesatnya perkembangan informasi digital kini membuat minat masyarakat untuk membaca berita melalui media cetak beralih ke media digital. Meningkatnya ketersedian portal berita online menjadi pemicu lahirnya penelitian di bidang peringkasan teks otomatis. Berita digital seharusnya menawarkan konsep berita yang cepat dan ringkas, namun pada kenyataannya isi berita digital tidak terorganisir dan begitu panjang menyebabkan pembaca kesulitan mencari inti dan poin suatu berita.
Peringkasan dokumen merupakan cara yang efektif untuk mendapatkan informasi dari suatu dokumen tanpa membaca keseluruhan dokumen. Peringkasan dokumen secara otomatis untuk bahasa Indonesia masih sedikit jumlahnya jika dibandingkan dengan perkembangan untuk bahasa lainnya. Penelitian ini mengembangkan peringkasan otomatis berita kriminal bahasa Indonesia menggunakan metode berbasis graf yaitu Algoritma LexRank yang sudah terbukti baik kinerjanya untuk bahasa Inggris.
Penelitian peringkasan sudah diuji dengan menggunakan dataset berita kriminal Bahasa Indonesia yang diperoleh dari detik.com. Jumlah kalimat yang diekstraksi adalah 25%- 50% dari total kalimat dalam dokumen. Hasil ringkasan algoritma dievaluasi dengan metode Rouge N. Hasil perhitungan Rouge N memperlihatkan hasil untuk λ = 0.1 memiliki akurasi Precisison 0.624, Recall 0.688 dan F Score 0.627. Sedangkan untuk threshold 0.2, nilai Precision 0.565, Recall 0.685 dan F Score 0.686. Pada Threshold 0.3, Precision 0.519, Recall 0.684, F Score 0.578. Threshold 0.4 memiliki nila Precision 0.512, Recall 0.679 dan F Score 0.572. Dan untuk hasil ROUGE – 2, LexRank memperoleh nilai F Score sebesar 0.475.
Kata Kunci: Berita, Peringkasan Dokumen Otomatis, LexRank, Representasi Berbasis Graf
vii
AN AUTOMATIC INFORMATION SUMMARIZER IN BAHASA INDONESIA ONLINE CRIME NEWS USING LEXRANK ALGORITHM
ABSTRACT
The rapid development of digital information has now made the interest of the society to read news through conventional media turning to digital media. The increasing availability of news portal has necessitated intensive research in the area of automatic text summarization. Digital news should offer a quick and concise news concept, but in fact the content of digital news nowadays is unorganized and serpentine that it makes it difficult for readers to find the main information of the news and its point. Text summarization is an effective way to obtain information from a document without reading the whole document. Currently the small number of automatic text summarizations for Indonesian are available compared to those for other languages.
This study develops an Indonesian automatic text summarization using the graph-based methods, the LexRank algorithm. It has been proven that the method and the algorithm have good performance in summarizing texts for English. The proposed summarization method has been tested in experiments using dataset of Bahasa Indonesia Crime News provided by detik.com. This work extracts about 25%-50% of the total of sentences in the document. The ROUGE-N method is applied to evaluate the results of this research.
The result based ROUGE on shows that the LextRank algorithm has good performance with λ = 0.1 with Precisison 0.624, Recall 0.688 and F Score 0.627. While for the threshold of 0.2, Precision 0.565, Recall 0.685 and F Score 0.686. Threshold 0.3, Precision 0.519, Recall 0.684, F Score 0.578. Threshold 0.4 has a value of Precision 0.512, Recall 0.679 and F Score 0.572. And for ROUGE – 2, LexRank reached F Score 0.475.
Keywords: News, Automatic Text Summarization, LexRank, Graph-based Methods
DAFTAR ISI
Hal.
PERSETUJUAN i
PERNYATAAN ii
UCAPAN TERIMA KASIH iii
ABSTRAK v
ABSTRACT vi
DAFTAR ISI vii
DAFTAR TABEL xi
DAFTAR GAMBAR xii
DAFTAR GRAFIK xiii
BAB I PENDAHULUAN
1.1 Latar Belakang 1
1.2 Rumusan Masalah 3
1.3 Batasan Masalah 3
1.4 Tujuan Penelitian 3
1.5 Manfaat Penelitian 3
1.6 Metodologi Penelitian 4
1.7 Sistematika Penulisan 5
BAB 2 LANDASAN TEORI
ix
2.2. Berita 8
2.2.1. Berita Kriminal 10
2.3. Web Scraping 11
2.4. Automatic Text Summarization 12
2.5. Natural Language Processing 13
2.6. LexRank Algorithm 15
2.7. Metode Berbasis Graf 15
2.8. Term Frequency-Inverse Document Frequency 16
2.9. Cosine Similarity 17
2.10. ROGUE 18
2.10.1. ROGUE – N 19
2.11. Penelitian Terdahulu 21
2.12. Perbedaan Dengan Penelitian Terdahulu 22
BAB 3 ANALISIS DAN PERANCANGAN
3.1. Data yang Digunakan 23
3.2.Arsitektur Umum 23
3.3.Analisis Sistem 24
3.3.1. Aplikasi 24
3.3.2. Request detik.com 25
3.3.3. Preprocessing 25
3.3.3.1.Data Collection 25
3.3.3.2.Parsing 25
3.3.3.3.Fitur Kata 25
3.3.3.4.Stopword Removal 26
3.3.4. Pembobotan TF-IDF 26
3.3.5. Proses Algoritma LexRank 26
3.3.5.1.Menghitung Similarity Vertex 26
3.3.5.2.Proses Pemeringkasan 27
3.3.5.3.Ekstraksi Kalimat 27
3.4.Keluaran 27
3.5.Perancangan Sistem 27
3.6.Metode Evaluasi 29
BAB 4 IMPLEMENTASI DAN PEMBAHASAN
4.1. Implementasi Sistem 30
4.1.1. Spesifikasi Hardware dan Software yang Digunakan 30
4.2. Implementasi Perancangan Antarmuka 30
4.2.1. Halaman Utama 31
4.3. Pengujian Sistem 32
4.3.1. Pemilihan Fitur Kata 33
4.3.2. Stopword Removal 33
4.3.3. Pembobotan TF-IDF 33
4.3.4. Penentuan Term 34
4.3.5. Representasi Graf 35
4.3.6. Proses Pemeringkasan 40
4.3.6.1. Perhitungan IDF 40
4.3.6.2. Perhitungan Bobot 40
4.3.6.3. Perhitungan Nilai Panjang Vektor Setiap Kalimat 41
xi
4.3.7. Ekstraksi Kalimat 45
4.3.8. Evaluasi Hasil Ringkasan 46
BAB 5 KESIMPULAN DAN SARAN
5.1. Kesimpulan 49
5.2. Saran 50
DAFTAR PUSTAKA 56
LAMPIRAN 58
DAFTAR TABEL
Tabel 2.1. Penelitian Terdahulu 21
Tabel 4.1. Daftar Term Pada Berita 35
Tabel 4.2. Perhitungan Nilai IDF 36
Tabel 4.3. Nilai Bobot 37
Tabel 4.4. Nilai Panjang Vektor Setiap Kalimat 38 Tabel 4.5. Hasil Perhitungan Cosine Similarity 39
Tabel 4.6. Nilai Bobot Akhir 43
Tabel 4.7. Urutan Kalimat 43
Tabel 4.8. Hasil Evaluasi ROUGE – 1 LexRank 47 Tabel 4.9. Hasil Evaluasi ROUGE – 2 LexRank 48
xiii
DAFTAR GAMBAR
Gambar 2.1. Langkah pada Web Scrapping 12
Gambar 2.2. Organisasi Sistem NLP 15
Gambar 3.1. Arsitektur Umum 24
Gambar 3.2. Rancangan Halaman Beranda 28
Gambar 4.1. Implementasi Halaman Utama 31
Gambar 4.2. Tampilan Berita Pada Situs detik.com 32
Gambar 4.3. Hasil Ringkasan Berita 45
DAFTAR GRAFIK
Grafik 4.1. Hasil Akurasi dengan Confusion Matrix 41 Grafik 4.2. Nilai F-Measure untuk λ = 0.1, 0,2, 0.3, dan 0.4 42
BAB 1 PENDAHULUAN
1.1. Latar Belakang
Pesatnya perkembangan teknologi membuat penggunanya semakin bertambah.
Beragam kemudahan yang ditawarkan sangat membantu pekerjaan manusia, salah satu kemudahan yang diberikan adalah dalam mengakses informasi berita digital. Hasil riset yang dilakukan oleh lembaga riset global GFK, dan Indonesian Digital Association (IDA) pada tahun 2017, persentase konsumsi berita melalui online mencapai 96 persen.
Kebiasaan masyarakat Indonesia dalam mengkonsumsi berita melalui media cetak koran telah berubah sepanjang dekade ini. Penggunaan media cetak koran yang tidak efisien membuat banyak penerbit media cetak beralih ke portal berita digital. Hal ini juga menyebabkan sebagian besar masyarakat mengandalkan media online sebagai salah satu sumber informasi pertama mereka. Selain aspek ekonomis serta kemudahan dan kecepatan yang ditawarkan, berita online memiliki kapasitas untuk menulis berita dengan ranah yang lebih estetik agar menarik perhatian pembaca tanpa harus menghilangkan esensi berita. Namun, hal tersebut tidak serta merta mendatangkan kepuasan bagi pembaca. Maraknya pertumbuhan portal berita digital tidak sejalan dengan penyediaan konten berita yang berkualitas. Penyampaian berita yang berbelit- belit menyebabkan pembaca kesulitan mencari inti dan poin suatu berita. Hal ini disebabkan karena informasi penting tertutup oleh informasi yang tidak dibutuhkan atau yang disebut sebagai News Information Overload.
Menurut Effendy (2000), Berita adalah laporan tercepat mengenai fakta atau opini yang menarik atau penting, atau kedua-duanya bagi sejumlah besar penduduk.
Pada penulisan berita mengandung unsur- unsur 5W + 1H. Informasi utama pada sebuah berita dapat dikategorikan 5W1H (what, who, when, where, why dan how) agar pembaca dapat mendapatkan inti dari sebuah informasi. Maka, peringkasan berita merupakan cara yag efektif untuk mendapatkan informasi dari suatu berita tanpa membaca keseluruhan berita. Peringkasan sebuah dokumen yang berfokus pada berita
secara otomatis untuk Bahasa Indonesia belum ada. Sedangkan penelitian tentang peringkasan teks otomatis sudah banyak dilakukan sejak tahun 1958. Namun demikian, penelitian yang dilakukan hanya pada Bahasa tertentu dan untuk Bahasa Indonesia masih sedikit jumlahnya jika harus dibandingkan dengan bahasa lain.
Pada tahun 2011, Xueming Li, Jiapei Zhang dan Minling Xing melakukan penelitian dengan judul “Automatic Summarization for Chinese text based on Sub Topic Partition and Sentence Features”. Penelitian ini membahas tentang pengekstraksian teks berbahasa China menjadi sebuah kesimpulan berdasarkan sub-topik dan kalimat dengan mengkombinasikan antara Fuzzy Similarity Matrix dan LexRank Algorithm.
Namun, metode yang digunakan dalam penelitian tersebut kurang efektif dalam mendapatkan informasi dari berita. Metode yang diusulkan hanya berfokus pada mengekstraksi teks berbahasa China menjadi satu sub-topik yang sama.
Penelitian berikutnya yaitu sebuah sistem yang mSampu menarik sebuah kesimpulan dari teks komentar pada laman website e-commerce. Pada penelitian tersebut, sebuah komentar akan disimpulkan dengan kalimat yang lebih sederhana ataupun menerjemahkannya ke dalam bentuk kalimat yang lengkap (Xu Liang, et al, 2012)
Lexrank Algorithm adalah salah satu teknik dalam algoritma peringkasan dokumen berbasis graf. LexRank mengasumsikan graf yang fully-connected dan graf tidak berarah dengan unit teks (seperti kata atau kalimat) sebagai vertex dan similarity antarteks unit sebagai edge. LexRank algorithm digunakan untuk peringkasan dokumen tunggal atau multi dokumen, yaitu satu 2 ringkasan berasal dari satu dokumen atau lebih dari satu dokumen. LexRank menggunakan pendekatan berbasis centroid dalam proses peringkasan. Menurut Erkan dan Radev (2004), pendekatan berbasis centroid cukup sukses dibandingkan dengan sistem peringkasan lainnya dalam peringkasan multi dokumen.
Berdasarkan latar belakang tersebut, dalam penelitian ini dikembangkan sistem peringkasan berita kriminal online otomatis berbahasa Indonesia dengan menggunakan algoritma LexRank dengan judul “Peringkasan Informasi Otomatis Berita Kriminal Online Bahasa Indonesia Menggunakan LexRank Algorithm”
3
1.2. Rumusan Masalah
Pesatnya pertumbuhan portal berita digital di Indonesia yang tidak dapat dikontrol menyebabkan konten berita yang tidak terorganisir. Isi berita yang begitu panjang menyebabkan pembaca kesulitan mencari inti dan poin suatu berita. Hal ini disebabkan karena informasi penting tertutup oleh informasi yang tidak dibutuhkan. Peringkasan berita secara otomatis diperlukan guna mempercepat pencarian dan memahami isi suatu berita yang cukup panjang. Dengan adanya sistem peringkasan secara real time, pembaca dapat membaca berita terbaru secara cepat mengetahui inti berita tanpa menghilangkan esensi berita tersebut.
1.3. Batasan Masalah
Dalam penelitian ini, penulis membatasi ruang masalah yang akan diteliti untuk menghindari perluasan dan penyimpangan yang tidak diperlukan, maka penulis membuat batasan sebagai berikut:
1. Topik yang digunakan adalah kriminal (Pembunuhan, pencurian, pemerkosaan, penganiayaan, pemerasan)
2. Dataset berita kriminal diacu dari portal berita digital berbahasa Indonesia detik.com secara real-time.
3. Tidak menangani kesalahan penulisan kata.
1.4.Tujuan Penelitian
Tujuan utama yang ingin dicapai pada penelitian ini adalah untuk meringkas informasi otomatis berita kriminal online Bahasa Indonesia guna mendapatkan informasi utama sebuah berita secara efektif dengan menggunakan algoritma LexRank yang dapat diakses melalui aplikasi berbasis website.
1.5.Manfaat Penelitian
Manfaat yang diperoleh dari penelitian ini adalah untuk memudahkan pembaca untuk mengetahui inti dari sebuah berita sehingga pembaca dapat membaca berita lebih banyak dan lebih cepat.
1.6. Metodologi Penelitian
Tahapan-tahapan yang dilakukan selama penelitian adalah sebagai berikut:
1. Studi Literatur
Tahap ini dilakukan untuk mengumpulkan bahan referensi dan mempelajari informasi yang diperoleh dari buku, jurnal, dan berbagai sumber referensi lain yang berkaitan dengan penelitian seperti Peringkasan Berita, Algoritma LexRank, Data Mining, Semantic Web, Representasi Berbasis Graf, Berita Kriminal.
2. Analisis Permasahalan
Pada tahap ini dilakukan analisis terhadap studi literature yang telah dikumpulkan dari berbagai sumber yang terkait dengan penelitian dan mendapatkan pemahaman mengenai metode-metode yang diterapkan seperti, LexRank Algorithm serta masalah yang akan diselesaikan yaitu pengekstraksian berita digital Indonesia.
3. Pengumpulan Data
Setelah analisis permasalahan dilakukan, maka tahap selanjutnya adalah mengumpulkan data yang diperlukan sesuai dengan permasalahan yang ada. Data yang digunakan bersumber pada sebuah portal berita online berbahasa Indonesia yaitu detik.com
4. Perancangan Sistem
Pada tahap ini dilakukan perancangan arsitektur dan perancangan antarmuka. Proses ini dilakukan berdasarkan hasil dari analisis studi literatur yang telah diperoleh.
5. Implementasi
Pada tahap ini dilakukan implementasi ke dalam kode sesuai dengan analisis dan perancangan yang telah dilakukan pada tahapan sebelumnya.
6. Pengujian
5
Pada tahap ini dilakukan pengujian terhadap hasil yang didapatkan melalui implementasi algoritma LexRank dalam melakukan pengekstraksian artikel berita digital untuk memastikan bahwa hasil implementasi yang dilakukan sudah sesuai.
7. Dokumentasi dan Penyusunan Laporan
Pada tahap ini dilakukan dokumentasi dan penyusunan laporan hasil evaluasi dan analisis serta implementasi algoritma LexRank dalam melakukan ekstraksi berita digital.
1.7. Sistematika Penulisan
Sistematika penulisan pada skripsi ini dibagi menjadi beberapa bagian seperti berikut:
BAB 1. PENDAHULUAN
Bab ini berisi latar belakang pemilihan judul skripsi “Peringkasan Informasi Otomatis Berita Kriminal Online Bahasa Indonesia Menggunakan LexRank Algorithm, rumusan masalah, tujuan penelitian, batasan masalah, manfaat penelitian, metodologi penelitian dan sistematika penulisan.
BAB 2. LANDASAN TEORI
Pada bab ini berisi berbagai landasan teori yang digunakan untuk memahami permasalahan yang ada pada penelitian ini. Dimana teori-teori tersebut seperti teori umum tentang Text Summarization, berita, teori dasar dari algoritma LexRank.
BAB 3. ANALISIS DAN PERANCANGAN SISTEM
Pada bab ini akan dibahas mengenai analisis permasalahan penelitian dan penjelasan tentang rancangan struktur program dan antarmuka, analisis kebutuhan perangkat lunak serta penerapan algoritma LexRank dalam menghasilkan ringkasan berita secara real time.
BAB 4. IMPLEMENTASI DAN PENGUJIAN SISTEM
Bab ini berisi penjelasan pengimplementasian sistem seperti gambaran antarmuka aplikasi yang dibuat dan pengujian aplikasi apakah berhasil dijalankan dengan baik.
Pada bab ini juga membahas hasil pengujian berupa persentase keberhasilan sistem.
BAB 5. KESIMPULAN DAN SARAN
Pada bab ini akan dijabarkan beberapa kesimpulan dari perancangan sistem dan saran untuk pengembangan penelitian lebih lanjut.
BAB 2
LANDASAN TEORI 2.1. Text Mining
Teks mining adalah istilah yang digunakan dalam implementasi teknologi dalam menganalisis dan memeproses data teks yang bertujuan untuk pengambilan pola berupa informasi dan pengetahuan yang berguna sesuai kebutuhan (Miner at al, 2012). Data teks yang menjadi input dapat berupa data teks seperti Word, PDF, korpus, atau kumpulan teks pada file berekstensi .txt. Text Mining didefinisikan sebagai proses menemukan pattern, model, petunjuk, trends, atau rules yang berguna atau menarik dari teks tidak terstruktur. Beberapa teknik telah diusulkan dalam text mining termasuk information extraction, information retrieval, natural language processing, categorization, clustering (Mooney, 2002).
Text Mining berasal dari banyak inspirasi dan arah dari penelitian yang berkembang pada data mining. Oleh karena itu, sistem text mining dan data mining memperlihatkan banyak kesamaan arsitektur sistemnya. Misalnya, kedua jenis system bergantung pada rutinitas preprocessing, pattern-discovery algorithm, dan elemen presentation-layer seperti alat-alat visualisasi untuk meningkatkan pencarian untuk menetapkan jawaban (Fieldman & Sanger, 2007).
Namun demikian Text mining merupakan hal yang berbeda dengan data mining.
Pada text mining, data teks yang diproses bersifat semi terstruktur dan tidak terstruktur.
Sedangkan pada data mining data yang diproses adalah data yang terstruktur seperti basis data. Tujuan dari text mining adalah untuk menemukan arti semantic atau maksud dari teks berdasarkan susunan kata-kata atau teks yang disebut sintaksis. Proses pengolahan data teks menjadi text mining sebenarnya adalah proses pengolahan teks dengan mengubahknya menjadi data dalam bentuk numerik agar dapat diolah oleh program secara otomatis. Hal inilah yang membuat text mining menghabiskan 80-90%
usaha dan waktu pada preprocessing datanya (Miner, 2012).
2.2. Berita
Berita adalah suatu laporan mengenai peristiwa yang sedang terjadi atau telah terjadi dan penting untuk disampaikan kepada masyarakat yang dapat disajikan dalam bentuk surat kabar, radio, siaran tv maupun media online (Agung Wijayanto, 2014). Menurut Mickhel V. Charniey (2009) mengemukakan bahwa berita adalah laporan tercepat dari suatu peristiwa atau kejadian yang faktual, penting, dan menarik bagi sebagian pembaca, serta menyangkut kepentingan mereka. Willard C. Bleyer (2009) berpendapat bahwa berita adalah sesuatau yang terkini yang di pilih oleh wartawan untuk dimuat dalam surat kabar sehingga menarik minat bagi pembaca.
Menurut Zonamapel (2015) bagian-bagian berita secara umum adalah sebagai berikut:
a. Headline
Headline dapat disebut juga sebagai judul, umumnya dilengkapi juga dengan anak judul. Yang fungsinya untuk memudahkan para pembaca supaya dapat segera mengetahui peristiwa apa yang akan disampaikan dan menonjolkan berita tersebut dengan dukungan grafik supaya lebih menarik.
b. Deadline
Biasanya deadline terdiri dari nama media massa, tempat peristiwa dan juga tanggal terjadinya peristiwa. Tujuannya untuk menunjukan tempat peristiwa dan inisial dari media massa yang menyampaikan berita.
c. Lead
Merupakan unsur yang sangat penting dalam berita, karena dapat menentukan apakah isi dari berita tersebut akan dibaca atau tidak oleh masyarakat. Dapat dikatakan juga sebagai inti suatu berita, yang berfungsi untuk menggambarkan seluruh isi berita tapi secara ringkas. Biasanya disebut dengan teras berita dan ditulisnya pada paragraf pertama.
d. Body
Merupakan bagian tubuh berita, isinya peristiwa-peristiwa yang dilaporkan dengan bahasa yang singkat, jelas dan padat. Body dapat disebut juga sebagai bagian perkembangan berita.
9
Menurut Inung Cahya (2013), unsur- unsur dalam berita harus memenuhi jawaban dari 6 pertanyaan yaitu 5W + 1H (what, who, when, where, why, dan how).
1. What (apa)
Merupakan unsur yang akan menjelaskan apa yang terjadi dan akan mendorong wartawan untuk mengumpulkan fakta yang berkaitan dengan hal-hal yang dilakukan oleh pelaku maupun korban dalam suatu kejadian.
2. Who (siapa)
Merupakan unsur yang akan mengandung fakta yang berkaitan dengan setiap orang yang terkait langsung atau tidak langsung dengan kejadian. Disni akan terlihat, nama-nama yang terlibat dalam lingkup berita yang sedang dibicarakan. Unsur ini mencakup nama, umur, identitas-identitas lainnya. Tokoh ini bisa perorangan, kelompok, organisasi.
3. Why (mengapa)
Merupakan unsur yang mejelaskan latar belakang atau penyebab kejadian.
4. Where (dimana)
Merupakan unsur yang menjelaskan menyangkut tempat kejadian. Tempat kejadian bisa tertulis detail atau hanya garis besarnya saja.
5. When (Kapan)
Merupakan unsur yang berkaitan dengan penjelasan menyangkut waktu kejadian.
Waktu yang tertera tidak sebatas tanggal, tapi dapat ditulis hari, jam, bahkan menit saat berlangsung sebuah kejadian.
6. How (bagaimana)
Merupakan unsur yang akan memberikan fakta mengenai proses kejadian yang diberikan. Bisa menceritakan alur kejadian bahkan suasana saat suatu kejadian yang diberitakan tengah berlangsung.
2.2.1. Berita Kriminal
Mengenai penggolongan berita kejahatan atau kriminal, Assegaf (1982) mengatakan, Berita kejahatan atau kriminal adalah pembunuhan, penodongan, pencopetan, perampokan pencurian, perkosaan dan lainnya yang melangar.
Sedangkan menurut Projodikoro Wirjono (1986) kejahatan-kejahatan yang diatur KUHP (Kitab Umum Hukum Pidana) Indonesia, antara lain:
Pencurian, tindak pidana pasal 362 KUHP dirumuskan sebagai berikut:
a. Mengambil barang, seluruhnya atau sebagian milik orang lain dengan tujuan memilikinya secara melanggar hukum.
b. Pemerasan, tindak pidana pemerasan (affersing) dimuat dalam pasal 368 KUHP dan dirumuskan sebagai berikut: Dengan maksud menguntungkan dirinya atau orang lain dengan melanggar hukum, memaksa dengan kekerasan supaya orang lain memberikan sesuatu barang seluruhnya atau sebagian kepunyaan orang itu, orang ketiga, atau supaya orang yang menghutang menghapus utang piutangnya.
c. Pembunuhan, pembunuhan oleh pasal 338 KUHP dirumuskan sebagai “dengan sengaja menghilangkan nyawa orang”, yang diancam dengan maksimum hukuman lima belas tahun penjara. Perbuatan ini dapat terwujud macam-macam, dapat berupa penembakan dengan senjata api, menikam dengan pisau, memukul dengan sepotong besi, mencekik leher dengan tangan, dengan memberi racun dalam makanan, dan lain-lainnya.
d. Penganiayaan, pasal 351 KUHP hanya mengatakan, bahwa penganiayaan dihukum dengan penjara selama lamanya dua tahun delapan bulan denda sebanyak-banyaknya tiga ratus ribu rupiah. Dalam rancangan undang-undang Pemerintah Hindia Belanda ditemukan rumusan “dengan sengaja mengakibatkan rasa sakit dalam tubuh orang lain, dan merugikan kesehatan orang lain”.
e. Perkosaan (Verkacthing), dalam kualifikasi verkacthing yang tercantum dalam pasal 285 KUHP dirumuskan suatu tindak pidana berupa kekerasan atau ancaman kekerasan memaksa seorang perempuan untuk bersetubuh, dengan dia diluar perkawinan, dengan ancaman hukuman dua belas tahun.
11
2.3. Web Scraping
Web Scraping (Turland, 2010) adalah proses pengambilan sebuah dokumen semi- terstruktur dari internet, umumnya berupa halaman-halaman web dalam bahasa markup seperti HTML atau XHTML, dan menganalisis dokumen tersebut untuk diambil data tertentu dari halaman tersebut untuk digunakan bagi kepentingan lain. Web scraping sering dikenal sebagai screen scraping. Web Scraping tidak dapat dimasukkan dalam bidang data mining karena data mining menyiratkan upaya untuk memahami pola semantik atau tren dari sejumlah besar data yang telah diperoleh. Aplikasi web scraping atau intelligent, automated atau autonomous agents hanya fokus pada cara memperoleh data melalui pengambilan dan ekstraksi data dengan ukuran data yang bervariasi. Web scraping memiliki sejumlah langkah, sebagai berikut (A. Josi, L.A. Abdillah, Suryayusra, 2010):
a. Create Scraping Template
Pembuat program mempelajari dokumen HTML dari website yang akan diambil informasinya untuk tag HTML yang mengapit informasi yang akan diambil.
b. Explore Site Navigation
Pembuat program mempelajari teknik navigasi pada website yang akan diambil informasinya untuk ditirukan pada aplikasi web scraper yang akan dibuat.
c. Automate Navigation and Extraction
Berdasarkan informasi yang didapat pada langkah 1 dan 2 di atas, aplikasi web scraper dibuat untuk mengotomatisasi pengambilan informasi dari website yang ditentukan.
d. Extracted Data and Package History
Informasi yang didapat dari langkah 3 disimpan dalam tabel atau tabel-tabel database.
Gambar 2.1. Langkah pada Web Scraping Sumber: https://angel.co/
Manfaat dari web scraping ialah agar informasi yang digali lebih terfokus sehingga memudahkan dalam melakukan pencarian sesuatu.
2.4. Automatic Text Summarization
Text summarization adalah proses mengurangi dokumen teks dengan program komputer untuk menciptakan sebuah ringkasan yang mempertahankan poin yang paling penting dari dokumen asli. Metode Ekstraksi bekerja dengan memilih bagian dari kata yang ada, frase, atau kalimat dalam teks asli untuk membentuk ringkasan. Ringkasan adalah teks yang dihasilkan dari sebuah teks atau banyak teks, yang mengandung isi informasi dari teks asli dan panjangnya tidak lebih dari setengah teks aslinya (Hovy, 2001)
Information Summarization bisa diartikan sebagai sebuah proses untuk menemukan informasi terstruktur dari dokumen tidak terstruktur atau semi terstruktur (Jiang. J, 2012). Peringkasan informasi merupakan salah satu bagian dari Pemrosesan Bahasa Alami yang di dedikasikan pada masalah umum dalam mendeteksi entitas yang mengacu pada teks bahasa alami, relasi yang terdapat di dalamnya dan peristiwa- peristiwa yang diikutinya. Secara tidak langsung tujuannya adalah mendeteksi elemen- elemen seperti “siapa” melakukan “apa” ke “siapa”, “kapan” dan “dimana” (Marquez et al. 2008). Ekstraksi informasi termasuk tugas penting dalam text mining dan telah dipelajari secara ekstensif dalam berbagai komunitas penelitian termasuk natural languange processing, information retrieval, dan Web mining (Jiang. J, 2012).
13
Proses Ekstraksi Informasi bisa melakukan dua teknik pendekatan yaitu teknik berdasarkan aturan dan berdasarkan statistik, teknik berdasarkan aturan dibuat dan dirancang oleh pakar, teknik berdasarkan statistik dibangun dan dibuat dengan menggunakan data latih, data latih sesuai dengan teks yang dijadikan sebagai objek Ekstraksi Informasi (Ilyas & Khodra, 2015). Pendekatan yang paling umum dalam melakukan ekstraksi informasi adalah dengan penggalian teks/text mining. Penggalian teks didefinisikan sebagai cara melakukan penemuan otomatis informasi yang tidak ditemukan sebelumnya, dilakukan oleh komputer secara otomatis dan diambil dari sumber informasi yang berbeda (Ilyas & Khodra, 2015)
2.5. Natural Language Processing
Natural Language Processing adalah salah satu bidang ilmu komputer, kecerdasan buatan, dan bahasa (linguistik) yang berkaitan dengan interaksi antara komputer dan bahasa alami manusia, seperti bahasa Indonesia atau bahasa Inggris (Putstejovsky James, 2012). Tujuan utama dari studi NLP adalah membuat mesin yang mampu mengerti dan memahami makna bahasa manusia lalu memberikan respon yang sesuai.
NLP (Natural Languege Processing) merupakan salah satu cabang ilmu AI yang berfokus pada pengolahan bahasa natural (Kristanto Andri, 2003). Bahasa natural adalah bahasa yang secara umum digunakan oleh manusia dalam berkomunikasi satu sama lain. Bahasa yang diterima oleh komputer butuh untuk diproses dan dipahami terlebih dahulu supaya maksud dari user bisa dipahami dengan baik oleh komputer.
NLP memodelkan pengetahuan terhadap bahasa, baik dari segi kata, bagaimana kata- kata bergabung menjadi suatu kalimat dan konteks kata dalam kalimat. Disiplin ilmu dari NLP, yaitu:
1. Fonetik/fonologi
Fonetik atau fonologi merupakan ilmu yang berhubungan dengan suara yang menghasilkan kata yang dapat dikenali.
2. Semantik
Semantik yaitu pemetaan bentuk struktur sintaksis dengan memanfaatkan tiap kata ke dalam bentuk yang lebih mendasar dan tidak tergantung struktur kalimat. Semantik mempelajari arti suatu kata dan bagaimana dari arti kata - arti kata tersebut membentuk suatu arti dari kalimat yang utuh.
3. Pragmatik
Pengetahuan pada tingkatan ini berkaitan dengan masing – masing konteks yang berbeda tergantung pada situasi dan tujuan pembuatan sistem.
4. Discource knowledge
Pengetahuan discource knowledge melakukan pengenalan apakah suatu kalimat yang sudah dibaca dan dikenali sebelumnya akan mempengaruhi arti dari kalimat selanjutnya.
Informasi ini penting diketahui untuk melakukan pengolahan arti terhadap kata ganti orang dan untuk mengartikan aspek sementara dari informasi.
5. World knowledge
Word knowledge mempelajari arti dari sebuah kata secara umum atau arti secara khusus bagi suatu kata dalam suatu percakapan dengan konteks tertentu.
Secara umum, jenis aplikasi yang dapat dibuat dalam bidang ilmu NLP terbagi dua, yaitu text-based application dan dialogue-based application. Text-based application adalah segala macam aplikasi yang melakukan proses terhadap teks tertulis seperti misalnya dokumen, e-mail, buku, dan sebagainya. Sedangkan dialogue-based application biasanya melibatkan bahasa lisan atau pengenalan suara, akan tetapi bisa juga memasukan interaksi dialog dengan mengetikkan teks pertanyaan melalui keyboard.
15
Gambar 2.2. Organisasi Sistem NLP
Sumber: http://eeasynotes.blogspot.com
2.6. LexRank Algoritm
LexRank merupakan algoritma untuk peringkasan dokumen tunggal atau multi dokumen, yaitu satu ringkasan berasal dari satu dokumen atau lebih dari satu dokumen.
LexRank menggunakan pendekatan berbasis centroid dalam proses peringkasan.
Menurut Erkan dan Radev (2004) LexRank digunakan sebagai bagian dari sistem yang lebih besar summarization yang menggabungkan skor LexRank (probabilitas stasioner) dengan fitur-fitur lain seperti posisi kalimat dan panjang menggunakan kombinasi linear dengan baik bobot yang ditentukan pengguna atau secara otomatis disetel. LexRank menerapkan langkah pengolahan pasca heuristik yang membangun ringkasan dengan menambahkan kalimat dalam urutan peringkat.
2.7. Metode Berbasis Graf
Metode berbasis graf tergolong memodelkan teks ke dalam bentuk graf dengan menjadikan unit-unit teks sebagai vertex dan menambahkan edges pada graf berdasarkan hubungan antar unit teks yang dijadikan vertex, kemudian menentukan tingkat pentingnya setiap vertex berdasarkan struktur graf keseluruhan. Konsep
perankingan halaman web dengan pagerank diterapkan terhadap graf pada domain lain, yaitu graf tekstual. Graf tekstual adalah graf yang dibangun dari teks dengan tujuan untuk melakukan perankingan halaman-halaman web, penerapan perankingan graf tekstual adalah untuk melakukan perankingan terhadap unit-unit teks. Dari hasil perankingan dapat dipilih unit-unit teks paling penting yang akan menjadi penyusun ringkasan ekstraktif.
Pada perankingan graf tekstual, teks direpresentasikan menjadi sebuah graf.
Vertex atau node pada graf tekstual adalah unit teks yang akan diranking, yaitu dapat berupa kata-kata, kalimat-kalimat, atau paragraf-paragraf dalam teks. Edge atau link dalam graf menunjukkan keterhubungan antar vertex atau node. Keterhubungan tersebut dapat berupa similarity antar kalimat ataupun hubungan leksikal atau gramatikal antar kata atau frasa.
2.8. Term Frequency-Inverse Document Frequency
Metode Term Frequency-Inverse Document Frequency (TF-IDF) adalah cara pemberian bobot hubungan suatu kata (term) terhadap dokumen. Metode ini menggabungkan dua konsep untuk perhitungan bobot, yaitu Term frequency (TF) merupakan frekuensi kemunculan kata (t) pada kalimat (d). Document frequency (DF) adalah banyaknya kalimat dimana suatu kata (t) muncul. Frekuensi kemunculan kata di dalam dokumen yang diberikan menunjukkan seberapa penting kata itu di dalam dokumen tersebut. Frekuensi dokumen yang mengandung kata tersebut menunjukkan seberapa umum kata tersebut. Bobot kata semakin besar jika sering muncul dalam suatu dokumen dan semakin kecil jika muncul dalam banyak dokumen (Robertson, 2005).
Pada Metode ini pembobotan kata dalam sebuah dokumen dilakukan dengan mengalikan nilai TF dan IDF. Pembobotan diperoleh berdasarkan jumlah kemunculan term dalam kalimat (TF) dan jumlah kemunculan term pada seluruh kalimat dalam dokumen (IDF). Pemanfaatan pembobotan ini dapat menghilangkan kebutuhan stopword removal karena stopword memiliki bobot yang sangat kecil. Bobot suatu istilah semakin besar jika istilah tersebut sering muncul dalam suatu dokumen dan semakin kecil jika istilah tersebut muncul dalam banyak dokumen (Grossman, 1998).
17
Nilal formula IDF diberlakukan ke semua kalimat tunggal dicari dengan persamaan 2.1 berikut:
𝐼𝐷𝐹= log (𝑑𝑓𝑖𝑁) (2.1)
Apabila sebuah kata muncul di banyak kalimat, maka hasil dari IDF akan semakin kecil, begitu pula sebaliknya. Kata-kata yang sering muncul pada setiap dokumen biasanya adalah kata-kata yang tidak penting. Oleh karena itu, IDF sesuai untuk diterapkan pada pemilihan fitur kata dalam peringkasan dokumen karena kata- kata dengan nilai IDF tertinggi merupakan kata-kata yang jarang muncul atau hanya muncul pada dokumen dengan kategori tertentu.
Nilai IDF sebuah term dihitung menggunakan persamaan 2.2 di bawah:
𝑊𝑠.𝑡 = 𝑇𝐹𝑑.𝑡 * 𝐼𝐷𝐹𝑡 (2.2) Perhitungan panjang vektor menggunakan rumus berikut:
|Si| = |Si| = √(𝐼𝐷𝐹𝑡12) + (𝐼𝐷𝐹2) + ⋯ (𝐼𝐷𝐹𝑡𝑛2) (2.3)
Simbol Keterangan
s Kalimat ke-s
t Kata (term) ke-t dari kalimat
TF Banyaknya term i pada sebuah kalimat IDF Inversed Document Frequency
W Bobot kalimat ke-s terhadap kata (term) ke-t 2.9. Cosine Similarity
Vector space model adalah suatu model yang digunakan untuk mengukur kemiripan antara suatu dokumen dengan suatu query. Pada model ini, query dan dokumen dianggap sebagai vektor-vektor pada ruang n-dimensi, dimana n adalah jumlah dari seluruh term yang ada dalam leksikon. Leksikon adalah daftar semua term yang ada dalam indeks. Salah satu cara untuk mengatasi hal tersebut dalam model vector space
Simbol Keterangan
IDF Inverse document frequency
N jumlah seluruh kalimat dalam 1 dokumen df jumlah kalimat yang berisi term (t)
adalah dengan cara melakukan perluasan vektor. Proses perluasan dapat dilakukan pada vektor query, vektor dokumen, atau pada kedua vektor tersebut.
Pada algoritma vector space model digunakan rumus untuk mencari nilai cosinus sudut antara dua vektor dari setiap bobot dokumen (WD) dan bobot dari kata kunci (WK). Rumus yang digunakan dalam vector space model (Andika,2015) diuraikan pada persamaan 2.4.
Idf-modified-cosine (x,y) = 𝐴.𝐵
|𝐴| . |𝐵|
∑ 𝑤∈𝑥,𝑦𝑡𝑓 𝑤,𝑥𝑡𝑓𝑤,𝑦(𝑖𝑑𝑓𝑤)2
√∑ 𝑥𝑖∈𝑥 (𝑡𝑓𝑥𝑖,𝑥 𝑖𝑑𝑓𝑥𝑖)2 × √∑ 𝑦𝑖∈𝑦 (𝑡𝑓𝑦𝑖,𝑦 𝑖𝑑𝑓𝑦𝑖)2
(2.4)
Simbol Keterangan
A Vektor A, yang akan dibandingkan kemiripannya B Vektor B, yang akan dibandingkan kemiripannya
|A| Panjang vektor A
|B| Panjang vektor B
𝑊𝑖𝑗 Bobot kata i pada dokumen j 𝑊𝑞 Bobot query
Perhitungan nilai cosinus sudut antara dua vektor ini dikenal dengan metode Cosine Similarity. Nilai sudut cosinus antara dua vektor menentukan kesamaan dua buah objek yang dibandingkan dimana nilai terkecil adalah 0 dan nilai terbesar adalah 1 (Firdaus, 2014). Metode pengklasifikasian ini membandingkan kesamaan atau similaritas antara judul dokumen dengan kata kunci pertama, kemudian cara membandingkan kesamaan atau similaritas antara judul dokumen dengan kata kunci kedua, begitu seterusnya hingga kata kunci kedelapan. Kemudian dicari jumlah similaritas yang tertinggi antara kedelapan kata kunci.
2.10. ROUGE
ROUGE atau biasa dikenal dengan Recall-Oriented Understudy for Gisting Evaluation adalah serangkaian metriks dan perhitungan komputer yang biasanya digunakan untuk mengevaluasi peringkasan teks otomatis ataupun terjemahan otomatis yang dilakukan
19
Algoritma ini digunakan untuk menentukan kualitas dari peringkasan teks otomatis yang dilakukan oleh sistem dengan membandingkannya dengan ringkasan ideal yang dibuat oleh manusia. Langkah yang dilakukan dalam pengerjaan algoritma ini adalah dengan menghitung tiap unit yang berulang dan membandingkannya ke dalam beberapa aspek penilaian antara lain n-gram, urutan kata, dan kesamaan antar unit yang hasilnya akan dievaluasi langsung oleh peringkasan yang dilakukan oleh manusia Chin-Yew Lin (2004).
2.10.1. ROUGE – N
ROUGE – N adalah perhitungan yang dilakukan dengan merepresentasikan ringkasan kedalam n – gram dan dihitung berdasarkan recall yang selanjutnya akan dibandingkan dengan referensi peringkasan yang telah dibuat oleh ahli. Rumus perhitungannya dapat dilihat pada Persamaan 2.4 berikut :
(2.5)
Dimana n adalah panjang n – gram dan 𝐶𝑜𝑢𝑛𝑡𝑚𝑎𝑡𝑐ℎ(𝑔𝑟𝑎𝑚𝑛) adalah nilai maksimum dari n-gram yang diberikan untuk dihitung berdasarkan referensi yang telah disediakan.
Nilai dari n ditetapkan berdasarkan 2 hal yaitu:
1. ROUGE – 1 : Mengacu pada unit yang dibandingkan berdasarkan 1-gram (tiap kata) antara sistem dan referensi.
2. ROUGE – 2 : Mengacu pada bigrams keseluruhan isi dari sistem dengan referensi.
2.11. Penelitian Terdahulu
Penelitian tentang peringkasan informasi sudah dilakukan sejak tahun 1958 oleh Luhn.
Penelitian semakin berkembang dari tahun ke tahun seperti yang dilakukan (Lee Chang- Shing, et al., 2003) yang meringkas berita cuaca berbahasa china dari sebuah website ChinaTimes. Dari 27 rules yang digunakan dalam model ini, nilai parameter: L (low) dan M (medium) cukup mendominasi.
Berikutnya penelitian mengenai sistem peringkasan feedback atau review sebuah website belanja (e-commerce) dengan menggunakan algoritma LexRank. Model ini menghasilkan akurasi sebesar 60.88% dan LexRank dengan nilai threshold (λ) = 0 adalah yang terbaik.
Penelitian berikutnya dilakukan oleh (Wu Kang, et al., 2015) yaitu meringkas teks berbahasa China dengan menggunakan model penggabungan antara Spectral Clustering dengan LexRank. Pada proses Clustering, penelitian ini menggunakan matriks K- Nearest Neighbor. Proses peringkasan dilakukan dengan mengkalkulasikan similarity setiap kalimat dan panjang kalimat per paragraf tanpa mengacu pada stop word atau corpus. Penelitian ini menghasilkan akurasi tinggi pada threshold (λ) = 0.2.
Selanjutnya penelitian yang dilakukan oleh (Ailin Li, et al. 2016) yaitu meringkas single-document corpus Bahasa Tibet dengan menggunakan penggabungan antara algoritma TextRank dan LexRank. Penelitian ini membuktikan bahwa pada penggunaan algoritma LexRank dan TextRank dapat mengoptimalkan kinerja model dan pembobotan kalimat. Dari jumlah total 2400 data yang diuji coba, model ini memberikan hasil terbaik pada batas peringkasan hingga 3-8 baris kalimat.
Penelitian selanjutnya dilakukan oleh (Aqil M. Azmi, et al. 2018) yaitu meringkas single-document abstrak berbahasa Arab dengan menggunakan model User Controlled Granulaty. Penelitian ini berhasil meringkas artikel berita serta memperbaiki tata bahasa (grammar) teks berbahasa Arab. Data set dari penelitian ini diperoleh dari website berita online www.alriyadh dan www.al-jazirah.com dengan data sebanyak sebanyak 1300 data.
Penelitian selanjutnya dilakukan oleh Abdurrohman pada tahun 2018 dengan judul Evaluasi Algoritma Textrank Pada Peringkasan Teks Berbahasa Indonesia.
Penelitian ini menggunakan metode Textrank dalam meringkas kalimat penting pada teks berbahasa Indonesia dapat dilakukan dengan mudah tanpa memerlukan data training dengan menghasilkan nilai rata – rata F-Score 0,439 pada ROUGE -1 dan 0,3186 pada ROUGE-2.
21
Tabel 2.1 Penelitian Terdahulu
No. Peneliti Judul Keterangan
1. Chang-Shing Lee, et al. 2003
Ontology-based fuzzy event extraction agent for Chinese e-news summarization
Penelitian ini berfokus pada peringkasan berita cuaca berbahasa China dengan menggunakan metode ontology dan fuzzy.
Model Event ontology filter algorithm yang digunakan pada penelitian ini masih kurang efektif dalam meringkas berita elektronik berbahasa china.
2. Xu Liang, et al.
2012
Research on Extension LexRank in
Summarization for Opinionated Texts
Meringkas feedback atau review sebuah website belanja (e-commerce) dengan menggunakan algoritma LexRank. Model ini menghasilkan akurasi sebesar 60.88%
3. Kang Wu, et al.
2015
An Approach to Automatic Summarization For Chinese Text Based on the Combination of Spectral Clustering and LexRank
Meringkas Teks berbahasa China dengan menggunakan model penggabungan antara Spectral Clustering dengan LexRank. Pada proses Clustering, penelitian ini menggunakan matriks K-Nearest Neighbor.
4. Ailin Li, et al.
2016
The Mixture of TextRank and LexRank Techniques of Single Document Automatic Summarization Research in Tibetan
Meringkas single document Bahasa Tibet dengan menggunakan penggabungan antara algoritma TextRank dan LexRank. Model bekerja dengan baik.
Tabel 2.1 Penelitian Terdahulu
2.12. Perbedaan Dengan Penelitian Terdahulu
Terdapat beberapa perbedaan antara penelitian terdahulu dengan penelitian ini.
Penelitian peringkasan informasi otomatis ini merupakan single-document yang berfokus pada satu topik berita, yaitu berita kriminal. Penelitian ini juga mmenggunakan representasi berbasis graf untuk menentukan kalimat yang akan menjadi keluaran pada ringkasan berita. Penentuan kalimat ini dihitung per kata (term) pada setiap kalimat (sentence) yang nantinya akan dihitung bobot kata sehingga membentuk edge. Selain itu, pada penelitian ini dihitung pula nilai similarity setiap kata yang ada pada seluruh dokumen. Perhitungan similarity dengan menggunakan idf-modified-cosine yang akan menampilkan nilai similarity untuk setiap kata pada setiap kalimat. Hal ini berguna untuk menghasilkan keluaran yang lebih baik.
No. Peneliti Judul Keterangan
5. Aqil M. Azmi, et al. 2018
An abstractive
Arabic text
summarizer with user controlled
granularity
Meringkas single document abstrak berbahasa Arab dengan menggunakan model User Controlled Granulaty.
Penelitian ini berhasil meringkas dan memperbaiki tata bahasa (grammar) teks berbahasa Arab.
6. Abdurrohman, 2018
Evaluasi Algoritma Textrank Pada Peringkasan Teks Berbahasa Indonesia
Penelitian ini menggnakan single document yang dalam menguji akurasi menggunakan ROUGE – N
5. Aqil M. Azmi, et al. 2018
An abstractive
Arabic text
summarizer with user controlled
granularity
Meringkas single document abstrak berbahasa Arab dengan menggunakan model User Controlled Granulaty.
Penelitian ini berhasil meringkas dan memperbaiki tata bahasa (grammar) teks berbahasa Arab.
23
BAB 3
ANALISIS DAN PERANCANGAN
Bab ini membahas tentang analisis dan perancangan penelitian seperti data yang digunakan, arsitektur umum, analisis kebutuhan perangkat lunak serta penerapan algoritma LexRank pada penelitian ini.
3.1. Data yang Digunakan
Data yang digunakan adalah berita berbahasa Indonesia yang diperoleh secara real time dari portal berita online detik.com dengan cara melakukan proses ekstraksi data melalui halaman webiste dalam format Hypertext Markup Language (HTML) dan Application Programming Interface (API) dalam format Javascript Object Notation (JSON).
3.2.Arsitektur Umum
Sistem peringkasan berita berbahasa Indonesia merupakan system yang mampu meringkas isi berita per paragraph berdasarkan aturan tata Bahasa Indonesia dimana peringkasan memiliki 6 unsur berita, yaitu what (apa), who (siapa), when (kapan), where (di mana), why (kenapa), dan how (bagaimana). Sistem akan terhubung langsung dengan server detik.com untuk mengambil berita secara real time dengan mengakses halaman website atau halaman API. Lalu, system akan menerima respon data dari halaman tersebut dalam bentuk HTML. Format tersebut akan melewati proses pasing yang kemudian system akan melakukan proses ekstraksi data berupa judul, isi berita serta gambar. Lalu, data akan diubah menjadi plain text yang nantinya akan ditambilkan pada sistem, lalu berita akan dibagi menjadi potongan-potongan kalimat yang nantinya akan diproses dengan menggunakan Algoritma LexRank untuk menyerap 6 unsur berita. Lokasi tertentu pada teks seperti heading, judul, dan paragraf pertama cenderung mengandung informasi penting. Metode sederhana dengan mengambil paragraf pertama (lead) sebagai ringkasan biasanya cukup bagus terutama pada artikel berita.
Untuk lebih jelasnya, metode penelitian ini dapat dilihat pada arsitektur umum pada gambar3.1.
Gambar 3.1. Arsitektur Umum
Arsitektur umum pada penelitian ini terbagi atas 4 bagian yaitu aplikasi, pengumpulan data (data collection), preprocessing, pemrosesan berita menggunakan algoritma LexRank, serta output berupa ringkasan berita (summaries)
3.3. Analisis Sistem 3.3.1. Aplikasi
Aplikasi merupakan halaman yang terintegrasi secara real-time dengan website detik.com. Pengguna (reader) dapat membaca berita kriminal secara ringkas dengan menyertakan poin dan unsur penting dalam sebuah berita. Pengguna juga dapat menentukan berapa jumlah baris ringkasan yang akan ditampilkan dalam aplikasi.
25
3.3.2. Request detik.com
Proses ini menjalin koneksi antara server aplikasi dengan server detik.com. Tahapan paling awal dimulai dari input data yang dilakukan secara real-time dari sebuah portal berita digital berbahasa Indonesia.
3.3.3. Preprocessing 3.3.3.1. Data Collection
Setelah proses request connection yang dilakukan oleh aplikasi ke server detik.com, maka aplikasi akan menerima respon teks berformat HTML. Selanjutnya, pada tahap ini dilakukan proses pengumpulan data setiap arikel berita pada situs tersebut. Data akan diekstraksi dengan menggunakan metode Parsing atau web scrapping.
3.3.3.2.Parsing
Pada tahap ini proses pengumpulan data dilakukan dengan melakukan parsing pada dokumen teks berformat HTML. Proses parsing pada detik.com hanya dilakukan pada dokumen teks berbasis HTML. Tahap pertama proses perngkasan dokumen yaitu memecah isi dokumen menjadi kumpulan kalimat. Parsing kalimat adalah proses memisahkan teks dalam dokumen menjadi kalimat-kalimat berdasarkan tanda baca tertentu sebagai pemisah di antaranya tanda baca titik (.), tanda tanya (?), dan tanda seru (!). Namun, sebelum menganalisa 3 tanda pemisah tersebut, aplikasi akan terlebih dahulu mencari adanya tanda kutip (“ “) yang merupakan tanda dari kutipan langsung.
Apabila terdapat kutipan langsung, kalimat dalam tanda kutip dianggap sebagai 1 kalimat.
3.3.3.3. Fitur Kata
Selain memecah isi dokumen, dilakukan juga pemisahan query atau term, yang mana baris pertama pada dokumen merupakan judul dokumen serta kata kunci yang akan digunakan sebagai query yang diperlukan untuk seleksi kalimat. Selain itu query atau term juga berguna untuk memberi skor pada kalimat-kalimat sesuai jumlah kata-kata yang muncul pada judul, heading atau body.
3.3.3.4. Stopword Removal
Proses pembuangan stopword dimaksudkan untuk mengetahui suatu kata masuk ke dalam stopword atau tidak. Pembuangan stopword adalah proses pembuangan term yang tidak memiliki arti atau tidak relevan. Term yang diperoleh dari tahap pemilihan fitur kata dengan pemisahan query dicek dalam suatu daftar stopword, apabila sebuah kata masuk di dalam daftar sstopword maka kata tersebut tidak akan diproses lebih lanjut, Sebaliknya apabila sebuah kata tersebut tidak termasuk dalam dafta stopword maka kata tersebut akan masuk ke dalam proses berikutnya.
Daftar stopword tersimpan dalam suatu file berformat .txt, dalam penelitian ini menggunakan daftar stopword yang digunakan oleh Tala (2003), yang merupakan stopword Bahasa Indonesia sebanyak 758 kata.
3.3.4. Pembobotan TF-IDF
Setelah dilakukan proses stopword removal, maka tahap berikutnya adalah melakukan pembobotan TF-IDF untuk tiap fitur kata tersebut pada masing-masing kalimat dalam dokumen. TF-IDF merupakan metode pemeringkatan berbasis graf, vertex merepresentasikan kalimat-kalimat yang berada dalam dokumen, sedangkan edge merepresentasikan similarity antara dua kalimat yang saling berelasi. Setiap kalimat tunggal yang diperoleh dari proses pemisahan kalimat dianggap sebagai vertexdalam graf.
3.3.5. Proses Algoritma LexRank 3.3.5.1. Menghitung Similarity Vertex
Pada algoritma LexRank formula similarity yang digunakan ialah invers document frequency-modified-cosince. Idf-modified-cosine menghitung bobot dari setiap term yang terdapat di setiap pasang kalimat dengan pembobotan tf-idf. Hasil dari pembobotan tf-idf untuk term yang terdapat di kedua kalimat kemudian dinormalisasi.
Proses normalisasi dilakukan dengan membagi hasil tf-idf term yang terdapat di kedua kalimat dengan tf-idf setiap term pada masing-masing kalimat. Idf-modified-cosine memiliki nilai antara 0.0–20, hal ini dipengaruhi oleh frekuensi kata yang muncul di setiap pasang kalimat dan frekuensi kemunculan kata tersebut di keseluruhan dokumen
27
serta di kalimat itu sendiri. Jika tidak ada kata yang sama di setiap pasang kalimat maka nilai similarity idf-modified-cosine bernilai 0.
3.3.5.2. Proses Pemeringkatan
Proses pemeringkatan bertujuan mendapatkan bobot akhir dari suatu vertex. Semakin besar bobot akhir dari suatu vertex, maka semakin banyak informasi di dalamnya. Pada algoritma LexRank proses pemeringkatan dilakukan dnega menghitung degree centrality dari tiap vertex. Kemudian nilai similarity diperbaharui dengan membagi nilai similarity lama dengan degree centrality. Nilai similarity yang baru dijadikan masukan untuk algoritma power method. Algoritma power method digunakan untuk mencari nilai eigen terbesar dari suatu matriks sehingga didapatkan eigenvector yang dominan dari nilai eigen tersebut. Hasil dari algoritma power method adalah matriks eigenvector yang merupakan bobot akhir dari setiap vertex. Kemudian bobot vertex diurutkan dari yang terbesar sampai yang terkecil.
3.3.5.3. Ekstraksi Kalimat
Proses ekstraksi kalimat dilakukan dengan mengambil 25% kalimat dari total kalimat yang ada pada dokumen. Kalimat yang diekstraksi adalah kalimat yang memiliki peringkat paling tinggi. Menurut Kupiec (1995), 25% hasil ekstraksi dari teks sumber memiliki 84% kalimat penting yang dipilih oleh para ahli untuk menjadi ringkasan.
Hasil ekstraksi kalimat dijadikan sebagai hasil ringkasan.
3.4. Keluaran
Keluaran atau output dari algoritma LexRank akan dikonversi menjadi dokumen teks berformat JSON yang kemudian akan dikirim kembali ke aplikasi dan ditampilkan dalam dokumen teks berformat HTML yang dapat diakses oleh pengguna melalui peramban sebuah halaman website. Tahap ini merupakan akhir dari keseluruhan proses pada arsitektur.
3.5. Perancangan Sistem
Pada bagian ini dijelaskan rancnagan aplikasi yang akan dibuat sebagai alat untuk menjalankan sistem yang akan dibangun dengan tujuan untuk memudahkan pengguna menjalankan sistem yang akan dibangun nantinya. Rancangan ini hanya terdiri dari satu
halaman inti yang nantinya akan menampilkan berita yang dihasilkan dari detik.com, dan sistem akan langsung menampilkan ringkasan dari berita tersebut.
Gambar 3.2 Rancangan Halaman Beranda
Adapun rincian tampilan halaman pada gambar 3.2 adalah sebagai berikut:
1. Nama Aplikasi, menunjukkan nama aplikasi yang dibangun.
2. Deskripsi Aplikasi, menjelaskan tujuan dari pemakaian aplikasi atau sebagai slogan
3. Menu Max Summary Per News digunakan untuk mengatur banyaknya jumlah kata yang dihasilkan dalam ringkasan pada sistem, jumlah baris kata yang disediakan dari 1 hingga 10 baris.
4. Menu Threshold, merupakan tingkat error yang dapat berpengaruh pada hasil ringkasan berita.
5. Tombol Save digunakan untuk menyimpan perubahan yang dilakukan pada menu Max Summary Per News dan Threshold
6. Kolom Berita merupakan area untuk menampilkan berita kriminal yang dihasilkan dari detik.com
7. Tombol Read merupakan akan link isi berita keseluruhan yang akan langsung tersinkron dengan laman website detik.com
29
8. Kolom Ringkasan Berita, merupakan kolom yang akan menampilkan hasil ringkasan dari berita.
9. Tombol Previous digunakan untuk melihat berita di halaman sebelumnya.
10. Tombol Next digunakan untuk melihat berita di halam selanjutnya.
3.6. Metode Evaluasi
Tahapan evaluasi diperlukan untuk perhitungan seberapa baik sistem dalam meringkas artikel berita secara real time yang diujikan dalam sistem. Tahapan ini dilakukan dengan mmebandingkan hasil pemeringkasan oleh system dengan hasil yang dilakukan oleh manusia. Oleh sebab itu, pada proses evaluasi diperlukan responden yang dapat memberikan jawabannya sesuai dengan kapasitas ilmu yang diperlukan, terutama pada artikel berita. Penelitian ini menggunakan seorang resonden ahli pada bidang linguistic yang biodatanya dapat dilihat sebagai berikut:
1. Nama Lengkap : Muhammad Furqan 2. Umur : 24 Tahun
3. Pekerjaan : Content Writer dan Editor
4. Alamat : Jalan Sisingamangaraja, Meulaboh, Aceh, Indonesia.
5. E-mail : [email protected]
6. Media Experience :1. Content Writer (2014-2018) - Islampoin.com
- Kosongan.id
- Creative Content Writing & Social Media Marketing 2. Editor (2015 – Sekarang)
- Dafunda Community
- Content Writer and Editor dafunda.com 3. Writer and Editor GAMEDAIM (2016-2017)
- Content writer and editor gamedaim.com
BAB 4
IMPLEMENTASI DAN PEMBAHASAN
Bab ini akan membahas tentang hasil yang diperoleh dari implementasi algoritma LexRank dalam meringkas berita digital kriminal berbahasa Indonesia. Bab ini akan menjabarkan implementasi dari sistem, prosedur penggunaan aplikasi, dan hasil dari setiap tahapan yang ada.
4.1. Implementasi Sistem
4.1.1. Spesifikasi Hardware dan Software yang Digunakan
Pada penelitian ini spesifikasi perangkat keras dan perangkat lunak yang digunakan untuk membangun sistem adalah sebagai berikut:
a. Processor Intel® Celeron® CPU N2820 2.13GHz b. Memori RAM 2,00 GB
Spesifikasi perangkat lunak yang digunakan untuk perancangan system pada penelitian ini adalah sebagai berikut:
a. Bahasa pemrograman Python, PHP, HTML
b. Library Bahasa pemrograman Python, yaitu: requests, beautisoup, urllib.parse dan lexrank.
c. Visual Code sebagai sumber penyunting sumber kode d. Anaconda
e. Sistem operasi Microsoft Windows 10 Ultimate 64 bit
4.2. Implementasi Perancangan Antarmuka
Antarmuka dibangun berdasarkan perandangan antarmuka yang telah dipaparkan pada Bab III. Adapun rinciannya sebagai berikut:
31
4.2.1. Halaman Utama
Aplikasi Narank hanya terdiri dari 1 halaman saja, di mana seluruh proses akan dilakukan pada halaman tersebut. Pada halaman utama ini pengguna dapat membaca berita secara langsung tanpa harus melakukan interaksi lain terhadap aplikasi. Hal ini bertujuan agar pengguna dapat dengan mudah menggunakan aplikasi serta dapat membaca berita secara cepat. Pada halaman utama ini memungkinkan bagi pengguna untuk berinteraksi dengan aplikasi seperti memilij jumlah baris ringkasan serta nilai threshold. Jumlah baris ringkasan yang tersedia pada aplikasi ini berjumlah 1 hingga 10 baris dengan jumlah baris default sebanyak 5 baris. Pemilihan baris kalimat pada ringkasan akan menentukan banyaknya ringkasan pada aplikasi.
Pada halaman utama ini, pengguna juga dapat menentukan nilai threshold untuk peringkasan ada aplikasi Narank. Nilai threshold merupakan nilai atau tingkat kesalahan/error pada proses peringkasan berita. Nilai threshold dapat mempengaruhi kalimat ringksan, jumlah baris ringkasan hingga pemilihan fitur kata pada ringkasan berita. Tampilan halaman dapat dilihat pada Gambar 4.1.
Gambar 4.1 Implementasi Halaman Utama
Gambar 4.2 Tampilan Berita Pada Situs detik.com 4.3. Pengujian Sistem
Pada tahap ini dilakukan pengujian dengan beberapa artikel berita kriminal dari website detik.com.
33
4.3.1. Pemilihan Fitur Kata
Pemilihan fitur kata dalam penelitian ini dihitung menggunakan persamaan 1 untuk tiap kata unik dalam sebuah dokumen. Kemudian dilakukan filtering atau penghapusan kata unik yang terdiri atas kurang dari tiga huruf. Kata unik terpilih tersebut kemudian disimpan ke dalam database untuk digunakan sebagai fitur kata. Fitur kata terpilih tersebut masih mengandung kata-kata yang merupakan stopwords seperti kata ”agar”, ”adapun”, ”jika”, dan lain sebagainya. Ada sekitar 758 stopwords yang terambil sebagai fitur kata. Namun, tidak semua stopwords muncul sebagai fitur kata, misalnya kata ”dan”, ”dari”, ”ada”, dan lain sebagainya tidak terpilih sebagai fitur kata kerena kata-kata tersebut muncul di hampir seluruh dokumen.
4.3.2. Stopword Removal
Keempat query tersebut dihilangkan pada stoplist atau simbol-simbol yang tidak mempengaruhi penilaian, seperti tanda titik (.), tanda koma (,), tanda seru (!), dan sebagainya. Keempat query tersebut dihilangkan stopwords atau kata-kata umum yang lazim digunakan dalam suatu query yang dalam penelitian ini menggunakan daftar stopwords pada penelitian Tala (2003).
4.3.3. Pembobotan TF-IDF
Berikut adalah perhitungan similarity pada salah satu berita kriminal dari detik.com dengan mengambil salah satu contoh berita.
Polisi Tembak Jambret Sadis di Pekanbaru
Pekanbaru - 2 jambret sadis yang membuat korbannya Dewi Tanjung (26) tak sadarkan diri di rumah sakit RSUD Arifin Achmad Pekanbaru akhirnya ditangkap. Dari dua pelaku, satu di antaranya ditembak karena melakukan perlawanan.
"Dua orang pelaku jambret sadis yang telah membuat korbannya tak sadarkan diri akibat terjatuh dari motor sudah kita amankan," kata Kapolresta Pekanbaru, Kombes Susanto kepada wartawan, Rabu (28/11/2018).
Santo menjelaskan, kedua pelaku adalah, Delvian Ramadani (21) dan Fiqri (18) keduanya warga Kecamatan Tampan, Pekanbaru. Kedua pengangguran ini sengaja mencari sasaran aksinya terutama kepada wanita yang mengendarai sepeda motor.