Comparative Opinion Mining dari Jejaring Sosial Berbahasa Indonesia
Harlili1), ZK Abdurahman Baizal2)
Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jl Ganesha No 10, Bandung1,2)
1[email protected], 2[email protected]
Abstrak
Saat ini semakin banyak orang yang memberikan review tentang satu atau beberapa produk di internet. Review produk yang berjenis komparasi tentunya akan menarik bagi user maupun produsen produk, karena dari sini akan dengan mudah dilihat keunggulan dan kekurangan suatu produk dibandingkan produk yang lain. Banyak penelitian yang membahas opinion mining untuk review berbahasa Indonesia, tetapi kebanyakan merupakan opini user terhadap suatu produk tertentu (direct opinion), belum banyak yang mencoba meneliti untuk review yang bersifat komparasi (comparative opinion), yaitu review yang membandingkan suatu produk dengan produk yang lain untuk fitur-fitur tertentu. Paper ini mencoba menyusun State of The Art dari Comparative Opinion Mining dan mengusulkan penelitian tentang opinion mining untuk dokumen berbahasa Indonesia, dengan mengangkat permasalahan comparative opinion mining. Pendekatan yang digunakan untuk klasifikasi comparative sentence adalah Class Sequencial Rules (CSR) dan Support Vector Machine (SVM), Ekstraksi relasi menggunakan Label Sequential Rules (LSR), sedangkan untuk menentukan preferensi produk digunakan pendekatan yang mengacu pada context dependent opinion. Dari beberapa pendekatan ini diharapkan dapat menghasilkan akurasi yang baik, sehingga pada akhirnya sistem yang dibangun dapat dimanfaatkan sebagai alat bantu pengambilan keputusan, baik bagi calon pembeli produk maupun produsen produk.
Kata Kunci : Opinion Mining, Comparative Opinion Mining, Comparative Sentence, Relation Extraction, Product Preference, Sentiment Analysis
1. Pendahuluan
Dewasa ini, dengan cepatnya pertumbuhan e-commerce, lebih banyak produk yang dijual melalui media internet, dan juga semakin banyak orang-orang yang membeli produk secara online. Untuk menjamin kepuasan pelanggan dan pengalaman berbelanja, biasanya situs belanja online menyediakan fasilitas bagi para pelanggan untuk memberikan review, dan menyatakan opininya terhadap suatu produk. Dengan semakin maraknya situs e- commerce, maka semakin banyak orang yang memberikan review di internet. Dengan demikian jumlah review terhadap suatu produk meningkat cukup cepat.
Seorang pelanggan yang ingin membeli sebuah produk biasanya mencari informasi di internet dan mencoba mendapatkan analisis dari orang lain melalui review yang diberikan. Demikian juga pihak perusahaan yang memproduksi produk tertentu juga membutuhkan informasi tentang tanggapan dari pengguna produknya melalui review-review di internet. Karena banyaknya review yang ada di internet, tentunya sangat sulit bagi calon pembeli maupun phak produsen untuk membaca semua review yang ada. Sehingga diperlukan suatu metode untuk mendapatkan informasi tentang review produk secara efisien. Pemrosesan otomatis pada dokumen untuk mendeteksi opini yang terkandung di dalamnya, disebut opinion mining/sentiment analysis. Mayoritas riset dalam bidang ini dilakukan pada jenis yang sangat subyektif seperti artikel – artikel dalam blog atau review-review produk. Dalam hal ini penulis menyatakan opininya secara bebas.
Opinion Mining / Sentiment Analysis merupakan sebuah cabang dalam domain Text Mining yang mulai berkembang pesat pada awal tahun 2002-an. Riset dalam bidang ini mulai berkembang sejak paper dari Pang B., Lee, dkk [13]. Dalam [14], dibahas beberapa definisi berbeda tentang opinion mining. Sebagai contoh, Subjectivity analysis adalah pengenalan bahasa berorientasi opini, Sentiment Analysis mengklasifikasikan review menurut polaritasnya (positive atau negative). Beberapa task dalam opinion mining adalah mencoba mengklasifikasikan opini menggunakan skala-skala berbeda. Dalam banyak kasus, tujuan opinion mining adalah mengidentifikasi opini dalam teks, dan mengklasifikasikannya ke dalam klas positive, negative, dan neutral.
Banyak riset yang telah dilakukan dalam bidang opinion mining, tetapi mayoritas berfokus pada direct opinions atau sentiments terhadap suatu product. Semetara itu sedikit riset yang dilakukan pada comparative opinion.
Sebagai contoh, direct opinion sentence adalah “Quality camera of Phone A is good” sementara itu contoh comparative sentence adalah “ The quality camera of Phone A is better than that of Phone B”. Kita dapat melihat bahwa comparative opinion sentence menggunakan konstruksi bahasa yang berbeda dengan direct
opinion sentence. Sebuah comparison opinion sentence menyatakan sebuah comparative opinion pada 2 atau lebih produk untuk suatu fitur tertentu, dalam contoh ini adalah camera quality.
Penelitian ini lebih fokus pada comparative opinion. Comparative Opinion ini mempunyai manfaat yang besar, dalam aplikasinya. Sebagai contoh, setelah sebuah produk diluncurkan oleh perusahaan A, maka perusahaan A tersebut ingin mengetahui, bagaimana opini konsumen tentang produknya, dibandingkan dengan produk kompetitornya. Dengan informasi ini, sebuah perusahaan dapat mengetahui kelemahan maupun keunggulan dari produknya, dan juga perencanaan perancangan produk serta strategi pemasarannya ke depan. Selain itu, dari sisi seorang calon pembeli, dia tentu ingin mengetahui keunggulan maupun kekurangan dari suatu produk dibanding dengan produk lain yang sejenis, untuk beberapa fitur tertentu.
Paper ini mengajukan sebuah usulan penelitian tentang opinion mining untuk dokumen berbahasa Indonesia, dengan mengangkat permasalahan comparative opinion mining. Pendekatan yang digunakan untuk klasifikasi comparative sentence adalah Class Sequencial Rules (CSR) dan Metode Machine Learning, Ekstraksi relasi menggunakan Label Sequential Rules (LSR), sedangkan untuk menentukan preferensi produk digunakan pendekatan yang mengacu pada context dependent opinion.
2. Opinion Mining
Telah banyak riset yang dilakukan dalam opinion mining dari user opinion data [2,10] dimana sebagian besar menentukan polaritas dari user review. Dalam riset bidang opinion mining, sentiment analysis terbagi dalam 3 level : document level, sentence level dan atributte level. Sentiment analysis untuk document level mengklasifikasikan review ke dalam 3 polaritas : positive, negative dan neutral [13, 19]. Dalam [13], term presence lebih efektif daripada term frequency untuk klasifikasi polaritas dokumen, dan posisi term juga mempunyai pengaruh penting dalam sentiment analysis. POS tags of words, seperti adjective dan adverbs, merupakan indikator yang baik untuk deteksi subyektifitas dan klasifikasi polaritas sentiment [1, 18]. Dalam [5], digunakan opinion word list yang dikompile menggunakan sebuah pendekatan bootsrapping yang berbasis pada WordNet, untuk menentukan polaritas sebuah dokumen.
Sentiment Analysis pada sentence level pernah dibahas pada [16, 8, 21]. Riset pada [5, 9] mempelajari tentang opinion mining pada feature level. Tahapan pengerjaan melibatkan (1) ekstraksi entity features ( misal “picture quality” dan “battery life” dalam review tentang kamera) dan (2) menentukan sematic orientation (positive, negative atau neutral) dari opini-opini yang dinyatakan oleh reviewer. Riset-riset ini menangani direct opinion mining. Selain itu, riset [3] mengusulkan sebuah algoritma untuk mengidentifikasi fitur-fitur potensial.
Algoritma diberi nama High Adjective Count (HAC) Algorithm. Idenya adalah, Nouns dimana reviewer- reviewer banyak memberikan opini pada noun tersebut, maka noun tersebut kemungkinan merupakan fitur yang penting.
Kebanyakan penelitian tentang direct opinion mining untuk sentence level, untuk menentukan semantic orientation berfokus pada fitur yang terdapat dalam kalimat itu sendiri. Namun dalam [23], menentukan sematic orientation dari sebuah kalimat review dengan memadukan intra document evidence dan inter document evidence, dengan Intra evidence : memanfaatkan kaitan antara kalimat target dengan kalimat sebelumnya dan kalimat sesudahnya dala dokumen yang sama. Inter evidence : memanfaatkan kalimat dalam dokumen lain (topik sama) yang mempunyai sematik yang sama dengan kalimat target. Namun dalam penelitian ini hanya membahas tentang direct opinion mining, belum dibahas tentang comparative opinion mining
3. Opinion Mining Dokumen Berbahasa Indonesia
Riset-riset dalam bidang opinion mining/sentiment analysis untuk dokumen berbahasa Indonesia, telah banyak dilakukan para peneliti Indonesia, di antaranya [11]., yang melakukan analisis sentimen pada dokumen twitter dengan Support Vector Machine. Dalam paper ini, setiap kata di dalam dokumen diekstrak menggunakan bahasa based lexicon, yaitu Kamus Besar Bahasa Indonesia (KBBI). Pembobotan fitur dilakukan dengan Term Presence (TP), Term Frequency (TF) dan Term Frequency Invert Document Frequency (TF-IDF). Sedangkan klasifikasi menggunakan Support Vector Machine (SVM). Akurasi yang dihasilkan dengan pendekatan yang dibuat adalah 74,46%. Beberapa tool untuk preprocessing, khususnya POS-Tagger juga telah dikembangkan dalam [12, 20]. Sampai saat ini belum banyak riset yang membahas tentang comparative opinion mining untuk dokumen berbahasa Indonesia.
4. Comparative Opinion Mining
Paper ini akan menekankan pada penelitian tentang Comparative opinion mining, yang terkait erat dengan [7,4].
Dalam [7] dilakukan dengan melakukan 2 tahap:
1. Mengidentifikasi comparative sentence dari teks, dan mengklasifikasikan comparative sentence yg teridentifikasi ke dalam klas-klas yg berbeda, yaitu Non equal gradable, Equative, Superlative, dan Non gradable. Untuk menangani hal ini, digunakan gabungan Class Sequential Rules (CSR), dan naive bayesian classification.
2. Mengekstrak comparation relation dari comparative sentence yg teridentifikasi, dan menetukan preferensi produk. Ini melibatkan ekstraksi entities dan fitur yg dibandingkan, dan comparative keywords. Untuk menangani hal ini digunakan jenis baru dari rules disebut Label Sequential Rules (LSR), untuk melakukan ekstraksi. Dari pengujian menunjukkan LSR lebih unggul daripada Conditional Random Fields (CRF).
Penelitian ini akan mengadopsi kelas-kelas dari comparative sentence yang didefinisikan dalam [6,7] ini, serta tahapan ekstraksinya. Namun dalam [6,7] tidak menangani ekstraksi produk yang lebih disukai oleh penilis review dalam suatu comparative sentence.
Dalam [4], peneliti melakukan penelitian tentang comparative sentence mining, dengan melakukan ekstraksi produk yang disukai oleh user untuk setiap comparative sentence dan ekstraksi produk yang disukai untuk context dependent opinion, dengan memanfaatkan informasi eksternal. Informasi eksternal yang digunakan adalah pernyataan pros dan cons dari user review. Asosiasi comparative word dan feature word dalam comparative sentence dengan frasa comparative-feature word dalam pros dan cons, dihitung menggunakan One Side Association (OSA). Penelitian ini mengambil ide dalam penentuan produk yang dipilih oleh penulis review dalam sebuah comparative sentence. Namum dalam [4] tidak melakukan ekstraksi implicit comparative sentence.
[22] juga melakukan riset untuk comparative opinion sentence,dengan merumuskan higher-order relation.
Dalam hal ini, satu comparative sentence dapat mengandung lebih dari satu relasi comparative, dan menggunakan two-level CRF untuk memodelkan relasi ini, untuk kemudian menetukan produk yang dipilih oleh penulis review. Penelitian ini lebih fokus pada satu relasi dalam satu comparative sentence, karena pada kenyataan, mayoritas comparative sentence dalam user review adalah membandingkan 2 produk dalam satu kalimat [7].
Dataset dari product reviews (Twitter)
POS Tagging
Klasifikasi Comparative sentence
Class Sequence
Rules SVM
Entity Recognition : Product names, feature names, comparative word
Kelas non-equal gradable Kelas Equative Kelas Superlative Non comparative sentence
Ekstraksi Relasi dengan LSR
Penentuan product yang dipilih oleh user menggunakan
Graph Model &
Potts Model Penandaan explicit comparative sentence,
implicit comparative sentence
Lexicons nama products
Gambar 1. Ruang lingkup sistem yang dibangun
5. Ruang Lingkup Sistem
Ruang lingkup sistem serta langkah-langkah yang akan dilakukan dalam sistem akan yang dibangun ditunjukkan pada gambar 1.
1. Mengambil dataset dari Social media Twitter, setelah itu dilakukan ekstraksi dokumen review dari halaman-halaman web.
2. Dilakukan POS tagging dan stemming terhadap terhadap dokumen review, untuk membangkitkan POS (Part of Speech) tag untuk masing-masing word.
3. Entity Recognition yang meliputi product names, atribut names, dan comparative word. Membangun lexicons untuk nama-nama product. Pada penelitian ini hanya akan fokus pada review untuk produk mobile phones. Sebenarnya terdapat cara lain untuk mengenali sebuah product entity, seperti dengan melihat aturan grammatical dari sebuah kalimat. Misal sebuah product entity adalah subyek dari
sebuah kalimat. Dalam penelitian ini digunakan lexicon based method untuk ekstraksi product entity, dikarenakan sangat bervariasinya penulisan tipe-tipe sebuah produk mobile phones.
4. Perumusan CSR untuk setiap sentence dan dibangun classifier untuk klasifikasi ke dalam klas non comparative sentence, non-equal gradable, equal gradable dan superlative. Deteksi comparative sentence tidak cukup hanya dengan melihat munculnya comparative word dalam sentence, karena dimungkinkan sebuah comparative word muncul dalam sebuah non-comparative sentence. Karena banyaknya variasi indikator sebuah comparative sentence, dan sulit mencari pola dari indikator ini, maka dalam penelitian ini akan menggunakan comparative words lexicons [6].
5. Mengekstrak comparation relation dari comparative sentence yg teridentifikasi. Ini melibatkan ekstraksi entities dan fitur yg dibandingkan, dan comparative keywords. Untuk menangani hal ini digunakan jenis baru dari rules disebut Label Sequential Rules (LSR), untuk melakukan ekstraksi.
6. Tuple dari hasil ekstraksi pada langkah 6 diperluas, sehingga didapatkan tuple :
{product1, product2, feature, comparative word, gradable class}, nantinya sebagai masukan untuk penentuan product1 atau product2 yang dipilih oleh penulis review. Pendekatan untuk ini dengan memadukan metode yang digunakan dalam [4] dan model graf [23] dengan melihat bentuk-bentuk khusus dari adjective serta adverb untuk menentukan preferesi produk.
6. Kesimpulan dan Diskusi
Comparative opinion mining tentunya akan membawa manfaat yang besar baik bagi calon pembeli produk, maupun produsen produk. Seseorang yang akan membeli sebuah produk, tentunya dia mempunyai beberapa kandidat produk yang akan dibeli. Dengan demikian si calon pembeli tersebut tentu akan lebih tertarik untuk melihat perbandingan keunggulan antar beberapa produk untuk fitur-fitur tertentu, sehingga akan memantapkan si calon pembeli untuk membeli produknya. Sementara itu, bagi produsen produk, melihat opini pengguna produknya dibandingkan dengan produk lain, tentunya dapat memberikan masukan untuk perbaikan produk di masa mendatang, Sistem yang dibangun ini nantinya akan menghasilkan map pembandingan antar produk untuk fitur-fitur tertentu.
Untuk menyelesaikan permasalahan comparative opinion mining ini, penulis mencoba mengusulkan pendekatan CSR dan SVM untuk klasifikasi comparative sentence dan LSR untuk ekstraksi relasi. Sedangkan untuk menentukan preferensi produk dilakukan dengan Graph Model dan Potts model, yang dapat mengani context- dependent opinion. Implementasi dari model yang diaukan memang belum dilakukan, karena paper ini masih berupa usulan penelitian.
Yang menjadi tantangan dalam opinion mining dokumen berbahasa Indonesia adalah belum matang-nya tools untuk keperluan preprocessing. POS-Tagger, Stemmer yang telah dikembangkan, masih harus ditingkatkan lagi kemampuannya, Wordnet untuk bahasa Indonesia juga belum bisa selengkap unuk yang berbahasa Inggris.
Pendekatan yang digunakan untuk entity recognition juga masih berbasis lexicon. Kekurangan dari pendekatan ini adalah tingkat adaptasi yang kurang. Jika sistem yang dibangun digunakan unuk domain yang berbeda, tentu harus banyak dilakukan banyak penyesuaian.
Daftar Pustaka
[1] Argamon, S., Whitelaw, C., Chase, P., Raj Hota, S., Garg, N., Levitan, S., Stylistic text clasification using functional lexical features, Journal of American Society for Information Science and Technology 58 (6), 2007
[2] Chen, H., Intelligence and Security informatics: information system perspective, Decision Support Systems 41 (3), 2006
[3] Eirinaki, Magdalini., Pisal,Shamita., Singh, Japinder., Feature-based opinion mining and Ranking, Journal of Computer System and System Sciences, 2011
[4] Ganapathibhotla, Murthy., Liu, Bing., Mining Opinions in Comparative Sentences, COLING ’08 Proceeding of the 22nd International Conference on Computational Linguistics – Volume 1, ISBN : 978-1-905593-44- 6, 2008
[5] Hu, M and Liu, B. Mining and summarizing customer reviews. KDD’04, 2004.
[6] Jindal, N. and Liu, B. Identifying comparative sentences in text documents. SIGIR-06, 2006.a [7] Jindal, N. and Liu, B. Mining Comparative Sentences and Relations. AAAI’06, 2006b [8] Kim, S. and Hovy, E. Determining the Sentiment of Opinions. COLING’04, 2004.
[9] Mei, Q., Ling, X., Wondra, W., Su, H. and Zhai, C. Topic Sentiment Mixture: Modeling Facets and Opinions in Weblogs. WWW’07, 2007.
[10] Miao, Q., Qiudan, Li., Ruwei, Dai., AMAZING: A sentiment mining and retrieval system, Expert System with Applications 36(2009) 7192-7198
[11] Nur, Yusuf M., Santika, Diaz D., Analisis Sentimen pada Dokumen Berbahasa Indonesia dengan Pendekatan Support Vector Machine, Konferensi Nasional Sistem dan Informatika (KNSI), 12 November 2011
[12]Nurwidyantoro, A., Winarko, E., Parallelization of Maximum Entropy POS Tagging for Bahasa Indonesia with MapReduce, Internation Journal of Computer Science Issues (IJCSI), Vol 9, Issue 4, July 2012 [13] Pang. B., Lee, L., Vaithyanathan, S., Thumps up? Sentiment classification usning Machine learning
Techniques in : Yarowsky, D., Radev, D.,(Eds), Proceeding of the Conference on Empirical Methods in Natural Language Processing, Philadelphia PA, USA, pp. 79-86, 2002
[14] B. Pang, L. Lee, Opinion mining and sentiment analysis, in: J. Callan, F. Sebastiani (Eds.), Foundations and Trends in Information Retrieval, 2, Now Publishers, 2008.
[15] Popescu, A.-M. and Etzioni, O., Extracting Product Features and Opinions from Reviews. EMNLP’05, 2005
[16] Riloff, E & Wiebe, J. Learning extraction patterns for subjective expressions. EMNLP’03, 2003.
[17] Stoyanov, V. and Cardie, C. Toward opinion summarization: Linking the sources. In Proc. of the Workshop on Sentiment and Subjectivity in Text, 2006.
[18] Turney, P. D., Thumbs up or thumps down? : Sematic Orientation applied to unsupervised classification of reviews, in : P. Isabelle (Ed), Proceeding of the 40th Annual Meeting on Association for Computational Linguistics, Philadelphia, Pennsylvania, USA, pp. 417-424, 2001
[19] Turney, P. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews.ACL, 2002.
[20] Wicaksono, Alfan Farizki., Purwarianti, Ayu., HMM Based Part-of-Speech Tagger for Bahasa Indonesia, Proceeding of the Fourth International MALINDO Workshop, 2010
[21] Wilson, T., Wiebe, J. and Hwa, R., Just how mad are you? Finding strong and weak opinion clauses.
AAAI’04, 2004.
[22] Xu, Kaiquan., Liao, Shaoyi Liao., Li, Jiexun., Song, Yuxia., Mining Comparative Opinions from Customer reviews for Competitive Intelligence, Decision Support Sysytems 50, 743-754, 2001
[23] Yan, Zhao Yan., Bing, Qin., Ting, Liu., Integrating Intra and Inter document Evidences for Improving Sentence Sentiment Classification, Acta Automata Sinica, Vol 36, No 10, October 2010