RANCANGAN SISTEM PEMBANGKIT ANOTASI OTOM

(1)

RANCANGAN SISTEM PEMBANGKIT ANOTASI OTOMATIS UNTUK

KREDIBILITAS DAN RELIABILITAS INFORMASI DALAM

JEJARING SOSIAL ONLINE

Yudi Wibisono1_{, Dwi Hendratmo Widyantoro}2_,_{Nur Ulfa Maulidevi}3

1 _{Ilmu Komputer, Fakultas Pendidikan Ilmu Pengetahuan Alam, Universitas Pendidikan Indonesia} Jl. Dr. Setiabudhi 229, Bandung, Indonesia

2,3 _{SekolahTeknik Informatika dan Elektro, Institut Teknologi Bandung} Jl. Ganesha 10 Bandung

1 _yudi@upi.edu2 _{dwi@stei.itb.ac.id}2 _{ulfa@stei.itb.ac.id}

Abstrak

Saat ini jejaring sosial online (JSO) menjadi sumber penting untuk mendapatkan informasi. Tetapi karakteristik JSO yang terbuka membuat pengguna sulit untuk menentukan apakah informasi yang diperoleh dapat dipercaya dan dapat digunakan. Solusi yang ditawarkan adalah menggunakan sistem yang dapat melakukan analisis kredibilitas informasi dan reliabilitas sumber secara otomatis dan kemudian menampilkannya dalam bentuk penjelasan berbentuk anotasi. Makalah ini membahas rancangan dan arsitektur sistem tersebut sebagai tahapan awal pengembangan sistem.

Kata kunci : analisis teks, kredibilitas sumber, reliabilitas informasi, anotasi, jejaring sosial online

1. Pendahuluan

Salah satu peranan dari Jejaring Sosial Online (JSO) adalah sebagai sumber informasi terbaru [11, 15]. Setiap pengguna dapat berperan sebagai sumber dan penerus informasi baik diteruskan secara utuh maupun dengan modifikasi dan tambahan. Peranan JSO sebagai sumber informasi bahkan lebih menonjol dalam kondisi darurat seperti kecelakaan, bencana alam dan kejadian terorisme karena memberikan laporan yang lebih cepat dibandingkan media konvensional [10,12,18-19,22].

Namun, setiap pengguna memiliki bias, persepsi, tujuan dan kemampuan mengelola informasi yang berbeda sehingga tidak semua informasi yang ada di dalam JSO dapat diandalkan dan dipercaya. Berbeda dengan sumber berita konvensional seperti surat kabar dan majalah, informasi yang beredar pada JSO umumnya tidak melalui proses editorial dan pemeriksaan fakta [20]. Informasi yang tidak akurat tapi menarik perhatian dan dipapar berulang-ulang dapat menyebar dengan cepat sehingga dianggap menjadi suatu kebenaran [17]. Hal ini dapat berdampak serius pada pengguna yang menggunakan JSO sebagai sumber informasi dan pengambilan keputusan.

Pada bulan Agustus 2012, rumor mengenai Muslim pendatang yang menyerang penduduk asli menyebar melalui JSO dan menimbulkan kerusuhan etnis di Assam, India. Kerusuhan ini menyebabkan 75 orang tewas dan 400 ribu orang mengungsi [1]. Rumor tentang meledaknya bom di gedung putih dari akun Twitter Associated Press yang diretas menyebabkan indeks Dow Jones Industrial Average turun 150 poin hingga menghilangkan market value sebesar 136 Milyar USD, walaupun kemudian index pulih dalam beberapa menit [4]. JSO juga dimanfaatkan untuk menyebarkan spam [2,8], malware [23], dan rumor [12,16-17]. Hasil wawancara terhadap 13 organisasi international humanitarian relief menyimpulkan bahwa walaupun ada keinginan kuat untuk menggunakan informasi dari JSO, tetapi informasi tersebut belum dapat digunakan sebagai dasar pengambilan keputusan penanganan bencana alam [21].

(2)

berbagai sudut pandang, pengguna JSO sulit untuk menentukan kredibilitas suatu informasi. Pengguna kemudian lebih mengandalkan aspek visual permukaan, seperti foto profil dan nama pengguna untuk mengukur kredibilitas [5,14]. Aspek visual ini rentan untuk dimanipulasi sehingga diperlukan metode yang lebih akurat untuk mengukur kredibilitas informasi beserta penjelasan yang dapat dimengerti pengguna.

Penelitian yang ada saat ini masih ditujukan untuk mengklasifikasikan kredibilitas informasi [3,16-17]. Penelitian-penelitian tersebut belum menjelaskan bagaimana nilai kredibilitas ditentukan dan keterkaitan antara elemen-elemen kredibilitas. Penelitian ini merupakan penelitian awal untuk menghasilkan model prediksi tingkat kredibilitas informasi secara otomatis. Anotasi akan memperlihatkan elemen penyusun kredibilitas dan keterkaitan antar elemen sehingga dapat menjelaskan bagaimana tingkat kredibilitas suatu informasi ditentukan.

Pada bagian selanjutnya, akan dibahas metodologi penelitian yang digunakan. Bagian 3 membahas anotasi kredibilitas. Bagian 4 membahas sistem otomatis pembangkit anotasi kredibilitas informasi beserta contoh anotasinya. Pada bagian menjelaskan dan menjustifikasi keputusan yang diambil berdasarkan informasi tersebut dan jika diperlukan pengguna dapat mengubah keputusannya jika terdapat data baru. Oleh karena itu anotasi menjadi bagian inti dari fasilitas prediksi kredibilitas.

Gill dkk [7] mendefinisikan bahasa anotasi yang masih dibuat secara manual. Tujuannya agar pengguna dapat mencatat alasan untuk setiap keputusan, hipotesis dan opini saat pengguna tersebut menganalisis informasi dari berbagai sumber. Penelitian ini menggunakan modifikasi dari anotasi tersebut.

Pada penelitian ini, anotasi kredibilitas terdiri atas sekumpulan unit dengan sintaks yang diadaptasi dari Gill dkk [7]:

statement {and statement}* construct {and statement}* is {not} likelihood-qualifier because

credibility-qualifier because statement and according to source-description which is reliability-qualifier because statement

Statement adalah hipotesis, observasi atau kesimpulan. Likehood qualifier adalah tingkat kepercayaan terhadap informasi yang mengkombinasikan kredibilitas informasi dan reliabilitas sumber. Credibility qualifier adalah tingkat kredibilitas informasi. Source adalah sumber dari statement. Untuk setiap sumber dapat ditambahkan reliability qualifier sebagai ukuran reliabilitas sumber. Kumpulan statement disebut dengan unit dan satu dokumen dapat memiliki beberapa unit.

Statement dapat dihubungkan dengan statement lain dengan relasi yang disebut construct. Untuk penelitian ini construct dibatasi sebagai berikut “is contraindicated with”, “is supported by”, “is consistent with” dan “is summarized by”.

Likehood-qualifier dapat memiliki nilai sebagai berikut: certainly (pasti benar), probable (kemungkinan besar benar), possible (mungkin benar), improbable (kemungkinan besar tidak benar) dan dismissable (statement dapat diabaikan).

Standar militer NATO [13] diadaptasi untuk menentukan reliability qualifier untuk sumber dan credibility qualifier untuk informasi. Dalam penentuan kredibilitas informasi, ada dua hal yang perlu dipertimbangkan: apakah informasi dikonfirmasi oleh sumber lain yang independen dan apakah informasi konsisten atau konflik dengan informasi sebelumnya untuk topik yang sama. Sedangkan untuk reliabilitas sumber, faktor yang menentukan adalah sejarah sumber dalam memberikan informasi yang akuratdan kompetensi yang dimilikinya.

Untuk rating reliability qualifier dari sumber, digunakan skala (A-F) dengan ketentuan sebagai berikut:

A: completely reliable (tidak ada keraguan). Sumber memiliki sejarah yang sempurna dalam memberikan dan meneruskan informasi akurat dan memiliki kompetensi terkait (misal peneliti, dokter, mahasiswa pasca sarjana). Kompetensi dapat dilihat dari credentials yang dimiliki.

B: usually reliable (keraguan minor). Sumber memiliki sejarah baik dalam memberikan dan meneruskan informasi akurat (sebagian besar akurat) tapi masih memiliki elemen keraguan seperti tidak memiliki elemen kompetensi.

(3)

memberikan atau meneruskan informasi salah.

D: not usually reliable (secara signifikan meragukan). Lebih sering memberikan informasi yang salah.

E: unreliable (sama sekali tidak dapat digunakan).

F: not possible to judge (tidak dapat ditentukan) karena tidak diketahui perilaku sebelumnya.

Sedangkan untuk credibility qualifier dari informasi, representasinya angka 1 - 6:

1: confirmed by other sources (dikonfirmasi oleh account lain yang independen). Independen artinya tidak memiliki hubungan dengan sumber. Informasi konsisten dengan semua informasi lain pada topik yang sama.

2: probably true (tidak dikonfirmasi pengguna lain tapi masih konsisten dengan semua informasi lain pada topik yang sama). 3: possibly true (tidak dikonfirmasi pengguna

lain tapi masihkonsisten dengan beberapa informasi lain pada topik yang sama). 4: doubtfully true (tidak ada konfirmasi dari

account lain). Tidak ada informasi lain pada topik yang sama.

5: improbable (tidak ada konfirmasi dari account lain dan konflik dengan informasi lain pada topik yang sama).

6: not possible to judge (tidak dapat ditentukan).

Sebagai contoh realibility qualifier dan credibility qualifier, kode “A1” berarti bernilai paling tinggi karena sumber informasi dapat diandalkan dan informasi yang diberikannya telah dikonfirmasi oleh sumber yang lain, sebaliknya F6 adalah informasi dengan nilai terendah.

4. Sistem Otomatis Pembangkit Anotasi Kredibilitas Informasi

Untuk dapat menentukan kredibilitas suatu informasi, sistem membutuhkan kumpulan data pendukung. Data pendukung didapatkan dari JSO dan sumber eksternal seperti berita. Karena topik yang dibahas sangat beragam, diperlukan proses pengelompokan data ini berdasarkan topiknya.

Setiap data harus dicari keterhubungannya dengan data lainnya. Proses pengelompokan berdasarkan topiknya dan pencarian relasi dengan data lainnya disebut analisis discourse. Untuk efisiensi, seperti pada sistem pencarian secara umum, kumpulan data ini disimpan dalam bentuk indeks.

Sistem ini menerima query dari pengguna.Untuk memproses query, diperlukan proses retrieval yang mengambil kumpulan data yang relevan dengan query dari indeks.

Setelah mendapatkan data pendukung, dilakukan penentuan reliabilitas sumber informasi dan kredibilitas informasi untuk setiap data pendukung tersebut. Analisis reliabilitas memprediksi sejauh mana sumber dapat diandalkan dan analisis kredibilitas memprediksi sejauh mana isi informasi bisa dipercaya. Berdasarkan reliabilitas dan kredibilitas ini, ditentukan likelihood qualifier yang menyatakan sejauh mana informasi dapat dipercaya.

Setelah melakukan prediksi reliabilitas sumber, kredibilitas konten, dan likelihood qualifier, semua data pendukung disusun menjadi sebuah struktur anotasi akhir (hasil akhir dapat dilihat pada contoh 1)

Berdasarkan analisis di atas, terdapat 6 proses utama yang diperlukan sistem ini yaitu:

a. Analisis discourse: mengelompokkan data sumber berdasarkan topiknya dan melakukan pencarian relasi setiap data dengan data lainnya. b. Retrieval : mengambil kumpulan data dari

indeks yang relevan dengan query.

c. Analisis reliabilitas sumber memprediksi sejauh mana sumber dapat diandalkan.

d. Analisis kredibilitas memprediksi sejauh mana isi informasi bisa dipercaya.

e. Analisis likelihood qualifier yang menentukan nlai likelihood qualifier yang menyatakan sejauh mana informasi dapat dipercaya berdasarkan nilai reliabilitas dan kredibilitas. f. Pembangkit anotasi akhir berdasarkan sintaks

yang diadaptasi dari Gill dkk [7].

(4)

Gambar 1. Deskripsi sistem otomatis pembangkit anotasi kredibilitas informasi

Dengan melakukan semua tahapan di atas, berikut adalah contoh anotasi informasi vaksin menyebabkan autism dengan query “vaccines cause autism” dari total 55 akun Twitter.

Contoh 1:

Query: vaccines cause autism

is supported by

Italian court rules MMR caused autism is probable according to

 dailymail.co.uk [link] which is

o completely reliable (A)

 confirmed by other [independent.co.uk][link] (1) is contradicts with

Italian court rules MMR caused autism is dissmissable according to

>50 accounts [link] which is

 unreliable (E ) because spam like content

 improbable (5) because contradicts with previous information [wikipedialink]

is supported by

Thimerosal-containing vaccine administration and the risk for an autism spectrum disorder diagnosis in the US [link] is probable

 doubtfully true (4) because

o not confirmed by other account

o conflict with previous information according to

Paul Whiteley (@PaulWhiteleyPhD) which is

 completely reliable (A) because

o work as Autism research at ESPA http://www.espa-research.org.uk/

o formal education is PhD is contradicts with

Vaccines and infant mortality rates: A false relationship promoted by the anti-vaccine movement [link] is probable because

 confirmed by other sources (1): Dr Rachael Dunlop (@DrRachie) which is completely reliable because

o postdoctoral fellow

o heart disease researcher

o 8679 follower, 1754 following (ratio: 4.95)

according to

Dr John Weiner (@allergynet) which is

o work as medical consultant in the diagnosis and treatment of allergic diseases and asthma

o formal education is specialist in internal medicine (clinical immunology)

o PhD student

Query

Retrieval

Analisis Kredibilitas Informasi Analisis

Reliabilitas Sumber

Prediksi

Analisis Likehood Qualifier

Pembangkitan Anotasi

Anotasi data JSO dan

sumber eksternal

(5)

o 1769 follower, 179 following (ratio:9.88)

is contradicts with

sad to see @inhabitat evoke “risk” of vacciness, while providing no citation or info. False balance is at its worst is probable

according to

Steve Silberman (@stevesilberman) which is

o reporter for wired

o writing a book about autism

o 32674 follower, 4806 following (ratio:6.8)

o probably true (2): confirmed by Naomi Kaufman Price (@writeo )

5. Kesimpulan dan Penelitian Selanjutnya

Sistem yang dapat melakukan prediksi kredibilitas informasi dan reliabilitas sumber secara otomatis diperlukan untuk membantu pengguna menentukan apakah informasi yang diperoleh dari JSO dapat dipercaya dan dapat digunakan. Tetapi tidak hanya menampilkan kredibilitas dan reliabilitas saja, penjelasan berbentuk anotasi juga diperlukan agar pengguna memahami darimana sistem mengambil kesimpulan. Diperlukan penelitian lanjutan untuk mengkaji, mengimplementasi dan mengevaluasi setiap subsistem sebelum akhirnya sistem secara utuh dapat dikembangkan.

Daftar Pustaka:

[1] Arakali H, 2012, Thousands flee Bangalore over Assam violence, Reuters, 16 Agustus 2012,

http://in.reuters.com/article/2012/08/16/bang

alore-assam-north-east-bodo-idINDEE87F0BU20120816

[2] Benevenuto, Fabrıcio, dkk., 2010, Detecting spammers on twitter, Collaboration, Electronic messaging, Anti-Abuse and Spam Conference (CEAS). Vol. 6.

[3] Castillo, C.; Mendoza, M. & Poblete, B. , 2011, Information Credibility on Twitter, Proceedings of the 20th international conference on World wide web, 675-68 [4] Chozick A, Perlroth N, Twitter Speaks, 2013,

Markets Listen and Fears Rise,

http://www.nytimes.com/2013/04/29/busines s/media/social-medias-effects-on-markets-concern-egulators.html?

pagewanted=all&_r=0, diambil April 2013. [5] Flanagin, A. & Metzger, M., 2007,

The role of site features, user attributes, and information verification behaviors on the perceived credibility of web-based information

New Media & Society, SAGE Publications, 9, 319

[6] Fogg, B. & Tseng, H., 1999, The elements of

computer credibility, Proceedings of the SIGCHI conference on Human factors in computing systems: the CHI is the limit, 80-87

[7] Gill, Y. & Ratnakar, V., 2002, Trusting information sources one citizen at a time, The Semantic Web—ISWC 2002, Springer, 2002, 162-176

[8] Grier, C.; Thomas, K.; Paxson, V. & Zhang, M., 2010, @ spam: the underground on 140 characters or less, Proceedings of the 17th ACM conference on Computer and adoption and use in mass convergence and emergency events, International Journal of Emergency Management (6:3), pp. 248--260. [11] Java, A.; Song, X.; Finin, T. & Tseng, B., 2007, Why we twitter: understanding microblogging usage and communities, Proceedings of the 9th WebKDD and 1st SNA-KDD 2007 workshop on Web mining and social network analysis, 56-6

[12] Mendoza, M.; Poblete, B. & Castillo, C. , 2010, Twitter Under Crisis: Can we trust what we RT?, Proceedings of the First Workshop on Social Media Analytics, 71-79 [13] Ministry of Defence, Joint Doctrine

Publication 2-00, Understanding and Intelligence Support to Join Operations, 2011 [14] Morris, M.; Counts, S.; Roseway, A.; Hoff, A. & Schwarz, J., 2012, Tweeting is believing?: understanding microblog credibility perceptions, Proceedings of the ACM 2012 conference on Computer Supported Cooperative Work, 441-450 [15] Naaman, M.; Boase, J. & Lai, C. , 2010,

Is it really about me?: message content in

social awareness streams,

Proceedings of the 2010 ACM conference on Computer supported cooperative work, 189-192

[16] Qazvinian, V.; Rosengren, E.; Radev, D. & Mei, Q., 2011, Rumor has it: identifying misinformation in microblogs, Proceedings of the Conference on Empirical Methods in Natural Language Processing, 1589-1599 [17] Ratkiewicz, J.; Conover, M.; Meiss, M.;

Goncalves, B.; Flammini, A. & Menczer, F. , 2011, Detecting and tracking political abuse in social media, Fifth International AAAI Conference on Weblogs and Social Media, 29

(6)

2010, Earthquake shakes Twitter users: real-time event detection by social sensors, Proceedings of the 19th international conference on World wide web, ACM, pp. 851--860.

[19] Starbird, K., Palen, L., Hughes, A. and Vieweg, S. , 2010, Chatter on the red: what hazards threat reveals about the social life of microblogged information, Proceedings of the 2010 ACM conference on Computer supported cooperative work, ACM, pp. 241 —250

[20] Sundar, S. Shyam. , 2008, The MAIN Model: A Heuristic Approach to Understanding Technology Effects on Credibility. Digital Media, Youth, and Credibility. Edited by Miriam J. Metzger and Andrew J. Flanagin. The John D. and Catherine T. MacArthur Foundation Series on

Digital Media and Learning. Cambridge, MA: The MIT Press. 73–100. doi:

10.1162/dmal.9780262562324.073

[21] Tapia, A., Bajpai, K., Jansen, B., Yen, J. and Giles, L., 2011, Seeking the trustworthy tweet: Can microblogged data fit the information needs of disaster response and humanitarian relief organizations, Proceedings of the 8th International ISCRAM Conference, pp. 1--10.

[22] Vieweg, S., Hughes, A., Starbird, K. and Palen, L., 2010, Microblogging during two natural hazards events: what twitter may contribute to situational awareness, Proceedings of the 28th international conference on Human factors in computing systems', ACM, pp. 1079--1088.