Pembuat Berita Otomatis dari Topik Populer pada Twitter Menggunakan Phrase Reinforcement Algorithm dan Pembobotan Hybrid TF-IDF David Febryanto Bina Nusantara University School of Computer Science Jakarta, Indonesia

(1)

Pembuat Berita Otomatis dari Topik Populer pada Twitter Menggunakan Phrase Reinforcement Algorithm dan Pembobotan Hybrid TF-IDF

David Febryanto Bina Nusantara University School of Computer Science

Jakarta, Indonesia

[email protected]

Novita Latief Bina Nusantara University School of Computer Science

Jakarta Indonesia

[email protected]

Willyh Hariardi Bina Nusantara University School of Computer Science

Jakarta Indonesia [email protected]

Abstract

Twitter merupakan salah satu media sosial terbesar yang memberikan beragam informasi di dalamnya.

Twitter dominan terhadap teks sehingga cenderung membuat pengguna kesulitan untuk mendapatkan informasi yang diinginkan. Tujuan dari penelitian ini adalah membuat sebuah aplikasi pembuat berita otomatis berdasarkan topik populer (Trending Topic) pada Twitter. Penelitian ini menggunakan Phrase Reinforcement Algorithm dan pembobotan Hybrid TF-IDF. Hasil yang ingin dicapai adalah sebuah summary yang dihasilkan secara cepat dan singkat, namun mewakili semua informasi yang terdapat pada Twitter secara real-time. Dapat disimpulkan, penelitian ini memiliki tujuan untuk dapat mempermudah pengguna dalam mendapatkan berita atau informasi yang diinginkan dengan tingkat keakuratan informasi semaksimal mungkin dan juga menghemat waktu pengguna secara signifikan.

1 Pendahuluan

Media sosial merupakan sebuah media yang memungkinkan penggunanya untuk saling bersosialisasi secara online dalam dunia maya. Pengguna media sosial dapat dengan

mudah dalam mencari dan berbagi informasi secara global maupun lokal serta berinteraksi dengan pengguna lain. Terdapat 1,4 miliar pengguna media sosial di seluruh dunia yang dimana akan selalu bertumbuh seiring dengan perkembangan teknologi perangkat mobile, internet dan aplikasi sosial. Salah satu media sosial yang paling diminati dan sering digunakan pengguna dunia adalah Twitter. Twitter merupakan media sosial yang paling banyak dipakai oleh para pengguna di seluruh dunia setelah Facebook berdasarkan pada survei media sosial worldwide Agustus 2015. Twitter termasuk dalam kategori layanan sosial yang bersifat microblogging yakni blog yang memungkinkan pengguna untuk menuliskan teks singkat kurang dari 200 kata. Twitter dapat digunakan oleh media yang terhubung dengan internet seperti laptop atau computer desktop, smartphone dan handphone. Twitter menawarkan beberapa fitur-fitur menarik yang membuat Twitter menjadi berbeda dengan media sosial sebelumnya terutama dalam isi pesan, yakni:

- Twitter interaktif dengan API yang terbuka.

- Pengguna dapat menulis, membaca serta mengirimkan pesan singkat yang disebut dengan tweet.

- Pada Twitter, tweet hanya dibatasi sampai dengan 140 karakter dan dapat dilihat oleh seluruh pengguna Twitter. Oleh karena itu, Twitter disebut dengan media sosial microblogging (Lee et al, 2011)

(2)

- Pengguna dapat mengelompokkan tweet berdasarkan topik dengan menggunakan hashtag (#) serta mengirim atau membalas tweet pengguna lain dengan menggunakan tanda “@” atau yang disebut juga dengan

“mention”.

Salah satu hal yang menarik bagi pengguna Twitter adalah pengguna dapat mengikuti Trending Topic secara lokal ataupun secara global (worldwide). Trending Topic adalah topik atau hal dalam frasa yang paling banyak dibicarakan oleh para pengguna Twitter berdasarkan jumlah hashtag yang di-mention oleh para pengguna Twitter atau berdasarkan kata yang sering muncul dalam suatu tweet. Suatu topik dapat menjadi tren karena adanya suatu kejadian yang mendorong pengguna Twitter untuk membicarakan topik tersebut sehingga pengguna Twitter dapat mengetahui apa yang sedang terjadi.

Banyaknya informasi yang terdapat pada Trending Topic membuat pengguna Twitter menjadi kesulitan untuk membaca dan memahami semua berita yang ada. Dalam Trending Topic, juga terdapat kata atau bahasa yang berbeda satu sama lain sehingga seringkali membuat pembaca sulit untuk memahami informasi yang ada (Lee et al, 2011). Informasi yang beredar pada Twitter kadang tidak sesuai dengan topik yang dibahas sehingga dapat dikatakan bersifat spam.

Karena pengguna membutuhkan waktu lebih untuk membaca dan menghubungkan setiap bagian tweet yang penting, maka pengguna membutuhkan teknik pencarian dan penyimpulan teks yang disebut dengan summarization. Summarization menurut Lloret (2009), merupakan sebuah teknik untuk menghasilkan sebuah teks yang berisi informasi penting yang berasal dari teks sebelumnya. Summarization dapat dibuat dengan menggunakan teknik extractive dan abstractive. Penelitian ini menggunakan

Phrase Reinforcement Algorithm dalam membuat summary dan pembobotan Hybrid TF-IDF. Algoritma Phrase Reinforcement bersifat semi-abstractive sehingga hasil summary yang didapat hampir sama dengan menggunakan teknik abstractive summarization. Metode abstractive membutuhkan analisa yang mendalam pada teks dan kemampuan untuk menghasilkan sebuah kalimat baru dimana dapat menghasilkan keuntungan yang jelas dalam fokus membuat summary, mengurangi terjadinya redundancy atau pengulangan dan menjaga tingkat kompresi dengan baik (Genest dan Lapalme, 2009). Sedangkan Hybrid TF-IDF (Term Frequency Inverse Document Frequency) merupakan suatu teknik pembobotan yang digunakan dan diterapkan untuk masalah pencarian informasi (Sharifi, Hutton, dan Kalita, 2010).

TF-IDF biasanya digunakan untuk automatic indexing, query matching of documents, dan automated summarization.

2 Tinjauan Pustaka

Proses summarization banyak dilakukan oleh para peneliti. Secara mayoritas, pendekatan yang sering digunakan adalah pendekatan ekstraktif (extractive summarization).

Pendekatan ekstraktif merupakan teknik membuat suatu kesimpulan yang diambil dari kata atau kalimat yang utuh dari dokumen aslinya (Cheung, 2008). Teknik ini memiliki metodologi yang mirip dengan struktur kalimat aslinya dan keragaman dari microblog. Sedangkan pendekatan abstraktif lebih fokus pada tingkat kompresi yang digunakan tinggi sehingga kalimat yang dihasilkan lebih baik dibandingkan dengan ekstraktif.

Judd dan Kalita (2013) dalam jurnal Better Twitter Summaries melakukan summarization dengan menggunakan Phrase Reinforcement Algorithm (PRA). Pendekatan tersebut dilakukan dengan menguraikan

(3)

summary mentah hasil PRA dan dilanjutkan dengan membuat daftar untuk kata utama di mana setiap kata bergantung pada setiap summary. Berikut adalah algoritma yang dilakukan untuk memperbaiki summary mentah hasil PRA:

1. Untuk setiap kata, cek kesesuaian grammar dengan kata sebelum dicek dan kata setelah dicek. Hal ini dilakukan untuk membangun dependensi antara kata yang bersangkutan dengan kata lainnya.

2. Apabila sebuah kata tidak memiliki dependensi baik sebelum dicek atau setelah dicek, maka kata tersebut dihapus.

3. Setelah setiap kata dicek, cek kata yang membentuk frasa gramatikal.

4. Tulis summary tanpa melakukan drop kata atau frasa.

5. Apabila dibutuhkan, kembali ke langkah tiga karena tidak boleh ada kata tunggal tanpa depedensi untuk melakukan pengecekan dan lakukan pengulangan sebanyak yang diperlukan.

Berdasarkan hasil penelitian pada jurnal ini, dapat disimpulkan bahwa algoritma PR membuat summary Twitter dengan menggabungkan kata dan kalimat yang sering terjadi tetapi tetap menjaga urutan kata sesuai yang di tulis. Dengan pendekatan yang digunakan Judd dan Kalita (2013), summary mentah hasil PRA dapat diolah untuk meningkatkan gramatikal kalimat dalam summary sehingga summary dapat menghasilkan teks yang singkat dan bahasa yang lebih tertata. Penelitian ini fokus pada gramatikal bahasa untuk membuat sebuah summary lebih mudah dibaca.

Penelitian lainnya dilakukan oleh Sharifi, Hutton, dan Kalita pada tahun 2010 dalam jurnal Experiments in Microblog Summarization yang juga menggunakan Phrase Reinforcement Algorithm (PRA).

Pada jurnal ini peneliti menggunakan The Hybrid TF-IDF Algorithm untuk melakukan

pembobotan pada setiap kata yang terdapat dalam kalimat. Algoritma yang digunakan terinspirasi oleh dua pengamatan sederhana yaitu pengguna Twitter akan menggunakan kata yang sama atau kata yang berkaitan dengan kalimat topik serta pengguna akan sering melakukan retweet (RT) terhadap tweet yang bersangkutan dengan Trending Topic. Misalnya seorang pengguna menuliskan tweet “Anjing saya kemarin baru saja mati” dan “Anjing saya mati pada jam 5 sore kemarin”. Kedua tweets tersebut merujuk pada kematian anjing dari pengguna tersebut. PRA memiliki beberapa tahap, yaitu:

1. Membangun Word Graph

Graph ini dimulai dengan membangun kata dari kalimat topik di sebelah kiri dan kanan dengan cara yang sama. Untuk membangun graph kiri, algoritma dimulai dengan meletakkan kata-kata yang muncul sebelum kata topik dan sebaliknya untuk membangun graph kanan, kata-kata yang muncul setelah kata topik akan ditaruh disebelah kanan. Algoritma ini melakukan proses secara rekursif untuk setiap node yang ditambahkan ke dalam graph sampai dengan semua kata yang ingin digunakan selesai ditambahkan.

2. Melakukan pembobotan pada setiap kata Dalam algoritma ini dipersiapkan pembobotan node untuk mengetahui bahwa beberapa kata memiliki informasi yang penting dan dapat digunakan untuk yang informasi lain. Weight di mulai dari angka 0 (nol).

Weight (Node) :

Count (Node) – Distance (Node) * logb Count (Node)

Logaritma b digunakan untuk menentukan panjang pendek sebuah summary yang ingin dihasilkan. Logaritma b yang digunakan pada penelitian ini adalah 10.

(4)

3. Menghasilkan summary

Pada fase ini, parsial summary dibuat dengan mencari semua path menggunakan depth-first search algorithm yang dimulai dari node root dan berakhir di root berikutnya. Path dengan weight tertinggi akan dipilih dan digunakan untuk menghasilkan summary.

4. Post-Processing

Summary dapat dikatakan cocok apabila terdapat dua frasa input kalimat pada saat algoritma menghasilkan ringkasan umum dari frasa. Setelah menemukan frasa yang cocok, maka frasa tersebut merupakan summary yang sebenarnya.

Sedangkan Hybrid TF-IDF (Term Frequency - Inverse Document Frequency) adalah proses pembobotaon kalimat dengan menjumlahkan nilai setiap token per kalimat untuk masalah pencarian informasi (Sharifi, Hutton dan Kalita, 2010). Ide pokok dalam TF-IDF adalah menghitung weight setiap kalimat untuk digunakan pada tahap selanjutnya. Setelah menghitung bobot kalimat, kalimat tersebut diurutkan dari weight yang paling tinggi. Formula yang digunakan untuk menghitung weight adalah

TF_IDF = tf ij * log2 N

𝑛

Dimana tf ij merupakan frekuensi t pada kalimat; N = jumlah seluruh kalimat; n = jumlah kalimat yang mengandung term t.

3 Metodologi

Penelitian ini memiliki alur kerangka berpikir yaitu alur proses workout. Flowchart workout digunakan untuk menunjukkan alur dari pengambilan data pada Twitter, pengolahan data (tweets), dan pembobotan setiap tweet menggunakan Hybrid TF-IDF.

Berikut adalah flowchart workout penelitian ini:

Gambar 1. Flowchart workout.

1. Streaming

Proses streaming adalah proses awal yang dilakukan untuk mengambil data yang akan digunakan pada penelitian ini. Data diambil dengan menggunakan Twitter API (Application Programming Interface) yang disediakan secara langsung oleh Twitter.

Penelitian ini memiliki ruang lingkup yaitu hanya menggunakan Trending Topic lokal (hanya menggunakan Trending Topic Indonesia) dan bersifat real-time.

Gambar 2. Proses Streaming.

2. Read Tweet @ Trending Topics

Proses ini merupakan proses untuk memilih Trending Topic yang diinginkan dan melakukan penyeleksian data (tweets).

Tweets yang digunakan harus berbahasa Indonesia dan mempunyai panjang lebih dari tiga kata dalam satu kalimat.

(5)

Gambar 3. Proses Read Tweet @ Trending Topics.

3. Pre-summarization I

Pre-summarization I fokus dalam mengolah struktur teks asli pada tweets agar dapat digunakan secara optimal pada proses summarization. Proses ini menggunakan teknik tokenization untuk melakukan penormalan pada setiap kata yang terdapat dalam satu tweet. Menurut Attia (2007), tokenization adalah proses membagi suatu kalimat atau teks kedalam token sehingga dapat digunakan untuk proses selanjutnya.

Hal ini dilakukan karena pada tweets berbahasa Indonesia banyak terdapat kata yang tidak baku dan ridak normal.

Gambar 4. Proses Pre-Summarization I.

4. Pre-summarization II

Proses ini melanjutkan hasil dari proses pre- summarization I sebelum akhirya diolah di proses summarization. Fokus dari proses ini adalah pembobotan setiap tweet dengan menggunakan Hybrid TF-IDF dan

mengambil top 10 tweets dari Trending Topic yang dipilih.

Gambar 5. Proses Pre-Summarization II.

5. Summarization

Proses summarization merupakan proses inti dari penelitian ini yang dilakukan dengan menggunakan Phrase Reinforcement Algorithm. Proses ini juga menggunakan teknik tokenization untuk mempermudah dalam membangun graph PRA, pembobotan weight untuk setiap token, serta pencarian menggunakan Depth First Search (DFS).

Gambar 6. Proses Summarization.

4 Hasil dan Pembahasan

Data penelitian yang digunakan adalah Trending Topic Indonesia “Koruptor” pada tanggal 25 Oktober 2015. Berikut adalah data-data tweets yang dikumpulkan sebelum melalui proses pre-summarization I:

1. “Selain lemahkan KPK, DPR juga usulkan draf RUU untuk ampuni koruptor | http://t.co/LhuZJItPtu

http://t.co/eTB844NHe1”

2. “RT @detikcom: Ketua PDIP: Setelah Diampuni, Koruptor Akan Jadi Orang Baik

(6)

http://t.co/vQfqEGAjvH http://t.co/6OYI5dZKHU”

3. “RT @detikcom: Kontroversi DPR: Pasal Kretek, Revisi UU KPK sampai

Pengampunan Koruptor

http://t.co/elHFClih9o”

4. “RT @Imamdaratan: Bubarkan KPK, Tp bikin aja Petrus khusus Koruptor.”

5. “Setya: Dorong Peradilan Koruptor Kelas Kakap http://t.co/jHudxIqHtR”

6. “RT @Arie_Kriting: Kalau koruptor sudah diampuni, usulkan juga pembuatan buku dan seminar.”

7. “hanjer apa banget RUU pengampunan bagi koruptor???Sucks”

8. “RT @detikcom: Untuk Apa Koruptor Diampuni? http://t.co/UPlLbhss5k”

Berikut adalah hasil dari proses pre- summarization I yang berisi tweets yang telah dinormalisasi sebelum digunakan ke dalam proses berikutnya:

1. Selain lemahkan KPK, DPR juga usulkan draf RUU untuk ampuni koruptor.

2. Ketua PDIP: setelah diampuni, koruptor Akan Jadi Orang Baik.

3. Kontroversi DPR: Pasal Kretek, Revisi UU KPK sampai Pengampunan koruptor.

4. Bubarkan KPK, Tp bikin aja Petrus khusus koruptor.

5. Dorong Peradilan koruptor Kelas Kakap.

6. Kalau koruptor sudah diampuni, usulkan juga pembuatan buku dan seminar.

7. Hanjer apa banget RUU pengampunan bagi koruptor.

8. Untuk Apa koruptor Diampuni.

Selanjutnya, bobot kalimat tersebut dihitung dengan menggunakan TF-IDF untuk mendapatkan kalimat dengan weight tertinggi. Pada penelitian ini, penulis hanya mengambil sebanyak 50% dari hasil pre- summarization I. Berikut adalah contoh

empat kalimat terpilih yang memiliki jumlah weight tertinggi:

1. Selain lemahkan KPK, DPR juga usulkan draf RUU untuk ampuni koruptor.

(Weight = 1.0)

2. Kalau koruptor sudah diampuni, usulkan juga pembuatan buku dan seminar.

(Weight = 0.968318579562)

3. Kontroversi DPR: Pasal Kretek, Revisi UU KPK sampai Pengampunan koruptor.

(Weight = 0.9542274134)

4. Ketua PDIP: setelah diampuni, koruptor Akan Jadi Orang Baik.

(Weight = 0.921020773291)

Setelah mendapatkan hasil seperti di atas, selanjutnya dilakukan summarization dengan menggunakan Phrase Reinforcement Algorithm (PRA) sesuai dengan tahap yang dijelaskan pada tinjauan pustaka.

1. Menentukan posisi token

Gambar 7. PR Graph (distance / weight).

2. Menentukan start node terbaik

Dalam menentukan start node terbaik, perlu dilakukan pengecekan weight pada awal kata dari setiap kalimat dalam graph. Apabila terdapat kata yang memiliki jumlah weight yang sama, maka diperlukan pengecekan pada distance antara kata tersebut dengan root.

Misalnya, setiap awal kata dari keempat contoh tweet di atas diambil, maka akan didapatkan hasil (distance/weight) sebagai berikut:

(7)

Awal kata kalimat 1 : Selain (10/1.0) Awal kata kalimat 2 : Kalau (1/1.0) Awal kata kalimat 3 : Kontroversi (9/1.0) Awal kata kalimat 4 : Ketua (4/1.0)

Berdasarkan hasil di atas, jumlah weight yang dihasilkan sama sehingga distance terjauh yang akan ditentukan sebagai start node.

3. Menentukan path terbaik sebagai hasil summarization

Dalam menentukan path terbaik, diperlukan metode Depth First Search (DFS) disertai pengecekan weight agar tidak terjadi perulangan pada node yang sama. Hasil yang didapatkan adalah sebagai berikut:

Gambar 8. Hasil Path terbaik dari PR Graph menggunakan DFS dan pengecekan weight.

5 Simpulan

Simpulan yang dapat diperoleh dari dari penelitian yang dilakukan ini adalah sebagai berikut:

-Fitur summarization akan memberikan hasil yang maksimal apabila data dari setiap kalimat saling berkaitan satu sama lain.

Beberapa perbaikan dan usulan yang dapat dikerjakan untuk penelitian lanjutan adalah:

-Mengembangkan teknik normalisasi terhadap kata-kata singkat berbahasa Indonesia yang saat ini masih kurang efektif dalam penerapannya.

-Menambahkan fitur punctuation (pernambahan tanda baca secara otomatis)

sehingga hasil kalimat yang didapatkan menjadi lebih terstruktur.

Referensi

Cheung, J.C.K (2008). Comparing Abstractive and Extractive Summarization of Evaluative Text: Controversiality and Content Selection. Thesis of University of British Columbia, Minors in Linguistics and German.

Dunlap, J. C. & Lowenthal, P. R. (2009).

Tweeting the night away: Using Twitter to enhance social presence. Journal of Information Systems Education, 20(2).

Lloret, E. and Palomar, M.

(2009). Challenging Issues of Automatic Summarization: Relevance Detection and Quality-based Evaluation. International Journal of Informatica, 34 (1).

Java, A., Finin, T., Song, X., & Tseng, B.

(2007). Why We Twitter: Understanding Microblogging Usage and Communities.

Procedings of the Joint 9th WEBKDD and 1st SNA-KDD Workshop 2007.

Judd, J., & Kalita, J. (2013). Better Twitter Summaries. Proceedings of NAACL- HLT, 445–449.

Kageback, M., Mogren, O., Tahmasebi, N.,

& Dubhashi, D. (2014). Extractive Summarization using Continuous Vector Space Models. Proceedings of the 2nd Workshop on Continuous Vector Space Models and their Compositionality (CVSC) @ EACL 2014, 31–39.

Lloret, E. and Palomar, M.

(2009). Challenging Issues of Automatic Summarization: Relevance Detection and Quality-based Evaluation. International Journal of Informatica, 34 (1).

Shariﬁ, B., Hutton, M. A., & Kalita., J. K.

(2010). Experiments in microblog summarization. In Proc. of IEEE Second International Conference on Social Computing.