PEMBENTUKAN THESAURUS YANG SENSITIF TERHADAP TINGKAT POLARITAS REVIEW PADA CROSS-DOMAIN SENTIMENT CLASSIFICATION Putu Praba Santika, Agus Zainal Arifin, Diana Purwitasari

(1)

133

PEMBENTUKAN THESAURUS YANG SENSITIF TERHADAP TINGKAT

POLARITAS REVIEW PADA CROSS-DOMAIN SENTIMENT CLASSIFICATION

Putu Praba Santika, Agus Zainal Arifin,Diana Purwitasari Jurusan Teknik Informatika, Institut Teknologi Sepuluh Nopember Kampus ITS Keputih, Sukolilo, Surabaya 60111, Jawa Timur, Indonesia

Email: [email protected]

ABSTRAK

Ketidaksesuaian antara isi opini dan rating yang diberikan pada review produk mungkin terjadi karena diberikan secara terpisah. Pendekatan Machine Learning dapat dilakukan untuk klasifikasi sentimen yang terdapat pada opini untuk mendapatkan rating. Idealnya classifier dilatih dengan data yang sudah diketahui polaritasnya dari domain yang sama dengan domain yang akan diuji, sehingga diperlukan data latih tersendiri. Pelabelan secara manual pada pembuatan data latih sangat menghabiskan waktu dan biaya. Untuk menghidari pelabelan secara manual, dilakukan dengan pendekatan cross-domain sentiment classification.

Pendekatan ini hanya membedakan polaritas opini menjadi positif dan negatif. Hal ini menyebabkan kerancuan, sehingga perlu digunakan rentang nilai untuk menunjukkan tingkat polaritas suatu opini. Penelitian ini bertujuan untuk mengusulkan pendekatan pengukuran tingkat polaritas review pada cross-domain sentiment classification agar dapat melakukan klasifikasi pada domain yang berbeda. Metode yang digunakan adalah membuat thesaurus

yang sensitif terhadap tingkat polaritas sentimen digunakan dalam features expansion untuk menambahkan feature baru pada Review. Review yang sudah ditambah feature baru digunakan pada training dan testing.

Hasil pengujian menunjukkan bahwa rata-rata akurasi pada pengujian cross-domain sentiment classification yang menerapkan features expansion dengan memanfaatkan

thesaurus yang sensitif terhadap sentiment 8.17% lebih baik dari pada yang tidak menerapkan features expansion. Penelitian ini membuktikan bahwa klasifikasi pada domain yang berbeda dapat dilakukan dengan menerapkan features expansion dengan memanfaatkan

thesaurus yang sensitif terhadap tingkat polaritas sentiment.

Kata kunci: cross-domain, machine learning, sentiment classification, tingkat polaritas.

1. Pendahuluan

Tren berbelanja secara online

membuat pembeli produk atau jasa mengekpresikan opini mengenai produk atau jasa dengan menuliskan review secara

online pula. Calon pembeli dapat memanfaatkan review dari pembeli produk atau jasa sebelumnya sebagai pertimbangan sebelum memutuskan menggunakan produk atau jasa tersebut

(D’Avanzo & Pilato, 2014). Sebanyak 80% calon pembeli mempertimbangkan review sebelum memutuskan untuk membeli atau menggunakan produk atau jasa (Pang & Lee, 2008) (D'avanzo & Kuflik, 2013).

(2)

134

layanan. Saat ini, rating atau penilain tingkat kepuasan pengguna terhadap suatu produk harus diberikan secara manual oleh penulis opini. Ketidaksesuaian antara isi opini dan nilai tingkat kepuasan mungkin terjadi, sehingga diperlukan pemberian tingkat kepuasan secara otomatis terhadap opini tersebut. Opinion Mining adalah suatu cara untuk mengidentifikasi opini terhadap suatu subjek kemudian mengevaluasi polaritas dari opini tersebut (Tsytsarau & Palpanas, 2012). Dengan

opinion mining dapat diketahui polaritas sebuah ulasan produk. Polaritas review menunjukkan apakah ulasan tersebut mengandung opini positif atau negatif. Klasifikasi dapat dilakukan berdasarkan sentimen yang terdapat pada opini tersebut. Turney melakukan klasifikasi terhadap review untuk merekomendasikan atau tidak suatu produk dilakukan dengan cara menghitung rata-rata nilai orientasi semantiknya (Turney, 2002). Orientasi simantik dihitung berdasarkan kedekatan dengan kata “excellent” dikurangi

kedekatan dengan “poor”. Machine Learning juga digunakan untuk melakukan klasifikasi terhadap sentimen. Metode

Machine Learning memberikan tingkat akurasi yang lebih tinggi. (Pang, Lee, & Vaithyanathan, 2002).

Pada pendekatan machine learning idealnya classifier dilatih dengan data yang sudah diketahui polaritasnya dari domain yang sama dengan domain yang akan diuji. Classifier yang dilatih kemudian diuji dengan data dari domain yang berbeda akan memberikan hasil yang buruk (Whitehead & Yaeger, 2009). Hal ini terjadi karena fitur yang terdapat pada domain sumber (domain yang digunakan untuk pelatihan) tidak cocok dengan fitur yang terdapat pada domain tujuan (domain yang diuji).

Untuk dapat melakukan opinion mining atau sentiment analysis diperlukan data latih yang sudah diketahui polaritasnya. Untuk masing-masing

domain diperlukan data latih tersendiri (Blitzer, Dredze, & Pereira, 2007). Pelabelan fitur secara manual pada pembuatan data latih sangat menghabiskan waktu dan biaya. Untuk menghidari pelabelan secara manual, dilakukan penelitian agar dapat menggunakan data latih dari domain yang sudah tersedia untuk menangani klasifikasi pada domain yang berbeda. Klasifikasi sentimendengan menggunakan data latih dari domain yang berbeda dengan domain data yang akan diuji disebut cross-domain sentiment classification.

Cross-domain classification atau

transfer learning berfokus pada

menganalisa data dari sebuah domain kemudian hasilnya digunakan untuk melakukan klasifikasi pada domain yang berbeda. Secara umum Cross-domain sentiment classification memanfaatkan data berlabel dari domain sumber ditambah data yang belum berlabel dari domain target untuk melakukan transfer learning.

Whitehead (Whitehead & Yaeger, 2009) melakukan penelitian dengan menggunakan data dari beberapa domain berbeda digabungkan untuk digunakan sebagai data latih. Penggunaan gabungan data dari beberapa domain terbukti meningkatkan akurasi namun tidak terlalu signifikan. Penggunaan gabungan data dari beberapa domain berbeda sangat terpengaruh oleh kesamaan antara fitur pada data latih hasil penggabungan dengan fitur yang terdapat pada data dari domain yang akan diuji. Metode lain untuk menangani masalah cross-domain adalah dengan memanfaatkan feature expansion

(Bollegala, Weir, & Carroll, 2013). Ketidak cocokan fitur pada domain yang berbeda ditangani dengan membuat

(3)

135 ditambahkan pada vektor fitur untuk

menjembatani domain sumber dan domain tujuan.

Penelitian tersebut hanya membedakan polaritas opini menjadi dua, yaitu positif dan negatif. Walaupun opini sebenarnya hanya bernada sedikit positif, namun jika menggunakan pendekatan tersebut, opini akan dianggap menjadi positif sehingga menimbulkan kerancuan (Okanohara & Tsujii, 2005). Untuk mengatasi kerancuan ini perlu digunakan rentang nilai untuk menunjukkan tinggkat polaritas suatu opini.

Pada penelitian ini dikembangkan metode yang dapat menunjukkan tingkat poaritas opini suatu produk, tanpa harus memberikan label terhadap data latih pada domain tersebut. Sebelum dilakukan klasifikasi, review mengalami feature

expansion dengan memanfaatkan

thesaurus yang sensitif terhadap tingkat polaritas sentimen.

2. Tinjauan Pustaka 2.1. Opinion Mining

Opinion mining / Sentiment analysis bertujuan untuk mengidentifikasi pendapat yang dikemukakan pada suatu subjek tertentu dan mengevaluasi polaritas pendapat ini. Polaritas sentimen adalah titik pada skala evaluasi yang sesuai dengan evaluasi positif atau negatif tentang makna sentimen ini.

Tujuan dari Opinion mining adalah untuk membuat komputer mampu mengenali dan mengekspresikan emosi. Tugas dasar dalam analisis sentimen adalah mengelompokkan teks kalimat atau dokumen dan menentukan pendapat yang dikemukakan dalam kalimat atau dokumen tersebut apakah bersifat positif atau negatif. Sebuah pikiran, pandangan, atau sikap berdasarkan emosi, disebut sentimen. Jadi

Opinion mining juga disebut sebagai analisis sentiment (Khan, Baharudin, Khan, & Malik, 2009). Sentiment analysis juga

dapat menyatakan perasaan emosional sedih, gembira, atau marah.

Sentiment analysis mengidentifikasi informasi subjektif dari dokumen tekstual menggunakan pengolahan bahasa alami (natural language processing) dan teknik

data mining. Fokus utama dari analisis sentimen untuk menentukan sikap pembicara atau penulis terhadap beberapa topik, atau polaritas kontekstual keseluruhan dokumen. Sikap dapat berupa penilaian atau evaluasi yang dilakukan oleh penulis, atau efek emosional. (Kurian, 2014)

Salah satu penerapan sentiment analysis adalah pada pemberian rating produk. Pengguna dapat secara tidak sengaja memberikan rating rendah, padahal review

yang diberikan sangat positif. Kesalahan ini dapat diatasi dengan melakukan klasifikasi terhadap sentiment review, sehingga dapat memberikan rating secara otomatis (Pang & Lee, 2008).

2.2 Cross-Domain Sentiment

Classification

Pada pendekatan machine learning idealnya classifier dilatih dengan data yang sudah diketahui polaritasnya dari domain yang sama dengan domain yang akan diuji. Classifier yang dilatih kemudian diuji dengan data dari domain yang berbeda akan memberikan hasil yang buruk (Whitehead & Yaeger, 2009). Hal ini terjadi karena fitur yang terdapat pada domain sumber (domain yang digunakan untuk pelatihan) tidak cocok dengan fitur yang pada domain tujuan (domain yang diuji).

(4)

136

tingkat korelasi yang sama dengan label kelas yang sama di target domain (Kurian, 2014).

Tantangan yang terdapat pada pendekatan machine learning adalah bagaimana memanfaatkan data yang telah memiliki label sentimen dalam satu domain (yaitu domain sumber) agar dapat digunakan untuk melakukan klasifikasi sentimen di domain lain (yaitu domain target). Konsep

cross-domain sentiment classification

digunakan untuk menangani masalah ini. Data dari sebuah domain dianalisis kemudian hasilnya digunakan untuk melakukan klasifikasi pada domain yang berbeda.

3. Desain Sistem

Proses-proses yang dilalui pada pengukuran tingkat polaritas review pada

cross-domain sentiment classification

disusun sesuai framework pada Gambar 1.

Gambar 1. Tahapan Klasifikasi Tingkat Polaritas Opini

2.1 Tahap Preprocessing

Pada tahap preprocessing, review dipecah menjadi kalimat. Selanjutnya kata-kata dalam kalimat tersebut ditandai sesuai dengan jenis katanya. Tahapan penandaan jenis kata ini disebut Part-of-Speech Tagging.

Untuk setiap kata yang sudah ditandai jenis katanya kemudian dicek apakah kata tersebut sudah tidak mengandung angka dan karakter khusus, bukan merupakan

stopword, dan jenis katannya atau Part-of-Speech nya sudah sesuai dengan jenis kata yang akan digunakan pada tahap pembentukan thesaurus yang sensitif terhadap tingkat polaritas sentiment. Jika semua syarat tersebut terpenuhi maka kata tersebut dimasukkan kedalam daftar unigram yang berbentuk list, banyaknya kemunculan kata ini dalam kalimat juga disimpan dalam list terpisah.

Setelah terbentuk unigram, kemudian dilanjutkan dengan dengan membentuk

bigram. Bigram dibentuk dengan

menggabungkan dua buah unigram yang berurutan. Bigram dan dan banyaknya kemunculan bigram dalam kalimat juga disimpan dalam list yang sebelumnya sudah berisi unigram. ID dari setiap elemen list ini merupakan kode dari unigram atau bigram

tersebut. Kode unigram, bigram serta banyak kemunculannya dalam dokumen

review dicatat sebagai kode penyusun teks review tersebut.

3.2 Tahap Pembentukan Thesaurus yang Sensitif Terhadap Tingkat Polaritas Sentimen

Thesaurus yang sensitif terhadap tingkat polaritas sentiment didapat dengan mencari hubungan antar lexical elements.

Tahapan yang dilakukan untuk membentuk

thesaurus yang sensitif terhadap tingkat polaritas sentiment adalah menghitung banyaknya kemunculan masing-masing

lexical elements dengan sentiment emlement

dalam review. Review … Review n

Feature Expansion

Klasifikasi Tingkat Polaritas Opini Review 1 Review 2

Membentuk Thesaurus

Yang Sensitif Terhadap Tingkat Polaritas

Sentimen

(5)

137 Banyaknya kemunculan antara lexical

elements u dan sentiment elements w

dilambangkan dengan c(u,w). Banyaknya kemunculan antara lexical elements u dan

sentiment elements w digunakan untuk menghitung Pointwise Mutual Information

(PMI) antara lexical elements u dan

sentiment elements w dilambangkan dengan

f(u,w) sesuai persamaan 1.

𝑓(𝑢, 𝑤) = log ( 𝑐(𝑢,𝑤)𝑁 ∑𝑛_𝑖=1𝑐(𝑖,𝑤)

𝑁 ×

∑𝑚_𝑗=1𝑐(𝑢,𝑗) 𝑁

),

(1)

Dengan banyaknya lexical element u dan

sentiment element w dinotasikan dengan n

dan m. Sedangkan N dihitung dengan menggunakan persamaan 2,

𝑁 = ∑ ∑𝑚 𝑐(𝑖, 𝑗) 𝑗=1 𝑛

𝑖=1 .

(2)

Pointwise Mutual Information digunakan untuk mengetahui keterkaitan antara sebuah lexical elements dan sentiment elements. Selanjutnya, nilai keterkaitan anatara sebuah lexical elements dan

sentiment elements digunakan untuk melakukan perhitungan nilai kemiripan antar lexical elements.

Untuk menghitung kemiripan antara lexical element u dan lexical element v

digunakanpersamaan 3

𝜏(𝑣, 𝑢) = ∑𝑤∈{ 𝑥| 𝑓(𝑣,𝑥)>0𝑓(𝑢,𝑤) ∑𝑤∈{ 𝑥| 𝑓(𝑢,𝑥)>0𝑓(𝑢,𝑤)

(3)

dimana f(u,w) pada persamaan 3 dihitung sesuai dengan persamaan 1.

3.3 Tahap Feature Expansion

Sebuah review d dimodelkan dalam set {w1, w2, …, wN} dimana w1 merupakan

unigram atau bigram pada review d. dimana

dj adalah banyaknya kemunculan unigram

atau bigram wj pada review d. Kandidat yang akan digunakan untuk melakukan ekspansi terhadap semua base entry dihitung dengan persamaan 4.

𝑠𝑐𝑜𝑟𝑒 (𝑢𝑖, 𝑑) = ∑ 𝑑𝑗𝜏(𝑤𝑗,𝑢𝑖) 𝑁

𝑗=1 ∑𝑁𝑙=1𝑑𝑙

(4)

Skor ui diurutkan secara menurun, kemudian dipilih k buah yang terbaik. Base entry yang terpilih untuk review d

dilambangkan dengan 𝑣_𝑑𝑟 dengan nilai r

berupa rentang dari 1 sampai k. Vektor review d yang awalnya hanya berisi {w1, w2, …, wN} digabungkan dengan base entry yang terpilih, sehingga menjadi {w1, w2, …, wN, 𝑣_𝑑1, 𝑣𝑑2, … , 𝑣𝑑𝑘}, vektor ini disebut sebagai d’.

Nilai N elemen pertama pada d’ sama dengan nilai N elemen pertama pada vektor

d yaitu banyaknya kemunculan wi pada

review d. Sedangkan untuk elemen ke N+1

sampai k pada vektor d’ berisi nilai skor yang dihasilkan pada Persamaan 4 untuk masing masing base entry yang terpilih.

3.4 Tahap Klasifikasi Tingkat Polaritas Opini

Untuk mengetahui tingkat polaritas suatu review dilakukan melalui metode klasifikasi multi class. Untuk melakukan klasifikasi digunakan L1 regularized logistic regression. Class yang ingin dibentuk adalah class sesuai dengan tingkatan polaritasnya yaitu (1,2,3,4,5).

Untuk melakukan klasifikasi, terdapat dua langkah yang harus dilakukan, yaitu

training dan testing. Tahap training,

classifier dilatih dengan vektor d’ yang merupakan vektor review digabungkan dengan vektor hasil ekspansi nya. Langkah selanjutnya adalah menggunakan classifier

yang telah dilatih untuk menentukan class

(6)

138

4. HASIL UJI COBA DAN

PEMBAHASAN

Pada ujicoba ini digunakan data review produk pada web Amazon yang telah diambil dan digunakan dalam penelitian yang dilakukan oleh McAuley (McAuley & Leskovec, 2013) , kemudian diperbaharui pada penelitian (McAuley, Pandey, & Leskovec, 2015). Domain yang dipilih adalah Book, CDs & Vinyl, Electronics, Home & Kitchen karena memiliki komentar terbanyak. Keempat domain ini digunakan sebagai domain sumber dan domain tujuan secara bergantian, sehingga didapat 12 kombinasi domain sumber dan domain target.

Untuk masing-masing domain produk diambil secara acak 100 review yang memiliki rating 1, 100 review yang memiliki rating 2, 100 review yang memiliki rating 3, 100 review yang memiliki rating 4, 100 review yang memiliki rating 5. Sehingga terdapat 500 review yang terbagi dalam 5 rating yang berbeda. Review ini disebut sebagai labeled review karena telah memiliki tingkat polaritas. Selain itu diambil 1000 review lain tanpa memperhatikan rating dari review tersebut. Review ini disebut sebagai

unlabeled review, karena dianggap tidak memiliki tingkat polaritas.

Dalam pengujian terdapat tiga buah parameter yang dikombinasikan untuk mencapai akurasi maksimal. Ketiga parameter tersebut adalah k yaitu banyaknya fitur atau lexical elements yang akan diambahkan pada review, c yaitu

regularization parameter, dan eps yaitu kriteria terminasi pada proses training. Ketiga variable ini diberikan nilai awal seperti ditunjukkan pada tabel 1.

Banyaknya fitur atau lexical element

yang akan diambahkan pada review (k) ditentukan pada rentang antara 1 sampai 100 dengan kenaikan 1 karena penambahan

lexical element yang terlalu banyak pada

review akan menyebabkan akurasi menurun. Akurasi menurun karena semakin banyak

lexical element yang ditambahkan, maka semakin besar kemungkinan terdapat lexical element yang sebenarnya tidak memiliki kaitan erat dengan review, namun ikut ditambahkan pada review. Nilai

regularization parameter (c) ditetapkan pada rentang antara 1 sampai 20 dengan kenaikan 1 karena nilai regularization parameter yang telalu kecil menyebabkan model klasifikasi yang terbentuk pada saat training menjadi overfiting, sebaliknya jika terlalu besar, maka akan terbentuk model klasifikasi yang underfiting.

Tabel 1. Parameter yang Dioptimasi dan Nilainya

Parameter Nilai Parameter

K {1, 2, 3, … , 100}

C {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20}

Eps { 0,01; 0,02; 0,03; 0,04; 0,05; 0,06; 0,07; 0,08; 0,09; 0,1}

Pengujian pertama bertujuan untuk mendapatkan nilai akurasi maksimum untuk masing-masing kombinasi domain sumber dan target pada kasus cross-domain sentiment classification yang menerapkan

feature expansion dengan memanfaatkan

thesaurus yang sensitif terhadap tingkat polaritas sentimen. Nilai ketiga parameter dikombinasikan dan digunakan dalam melakukan cross-domain sentiment classification untuk masing-masing kombinasi domain yang tersedia, yaitu

Book, CDs & Vinyl, Electronics, Home & Kitchen. Masing-masing akurasi dicatat, kemudian diurutkan berdasarkan nilai akurasi secara menurun. Hasil akurasi maksimum dan kombinasi nilai parameter untuk masing-masing kombinasi domain ditunjukkan pada Tabel 2.

Tabel 2 menunjukkan akurasi maksimum didapat pada kombinasi domain

(7)

139 Sedangkan akurasi terendah didapat pada

kombinasi domain CDs & Vinyl sebagai domain sumber dan domain Home & Kitchen sebagai domain target. Akurasi yang diperoleh sebesar 30%. Rata-rata akurasi pada pengujian cross-domain sentiment classification yang menerapkan

features expansion dengan memanfaatkan

thesaurus yang sensitif terhadap sentiment untuk semua kombinasi domain adalah 48.75%.

Tabel 2. Hasil Cross-Domain Sentiment Classification dengan Menerapkan

Feature Expansion Domain

Pengujian kedua bertujuan untuk mendapatkan nilai akurasi maksimum untuk masing-masing kombinasi domain sumber dan target pada kasus cross-domain

sentiment classification tanpa menerapkan

feature expansion. Nilai ketiga parameter dikombinasikan dan digunakan dalam melakukan cross-domain sentiment classification untuk masing-masing kombinasi domain yang tersedia, yaitu

Book, CDs & Vinyl, Electronics, Home & Kitchen dengan menggunakan kombinasi nilai parameter yang telah disebutkan sebelumnya. Untuk pengujian pada kasus

cross-domain sentiment classification tanpa menerapkan feature expansion nilai parameter k selalu bernilai 0. Parameter k

bernilai 0 berarti tidak ada lexical elements

yang ditambahkan pada review tersebut. Masing-masing akurasi dicatat, kemudian diurutkan berdasarkan nilai akurasi secara menurun. Hasil akurasi maksimum dan kombinasi nilai parameter untuk masing-masing kombinasi domain ditunjukkan pada tabel 3.

Tabel 3. Hasil Cross-Domain Sentiment Classification tanpa Menerapkan

(8)

140

Akurasi terbaik yang diperoleh sebesar 57%. Akurasi terbaik didapat pada Sedangkan akurasi terendah didapat pada kombinasi domain Electronics sebagai domain sumber dan domain CDs & Vinyl

sebagai domain target. Akurasi yang diperoleh sebesar 22%. Rata-rata akurasi pada pengujian cross-domain sentiment classification tanpa menerapkan features expansion untuk semua kombinasi domain adalah 40,58%.

Pada pengujian cross-domain sentiment classification yang menerapkan

features expansion dengan memanfaatkan

thesaurus yang sensitif terhadap tingkat polaritas sentimen, kombinasi CDs & Vinyl sebagai domain sumber dan

Electronics sebagai domain target, menghasilkan nilai akurasi yang sangat rendah, akurasi yang didapat hanya sebesar 26%. Nilai akurasi ini bahkan lebih rendah dibandingkan pengujian cross-domain sentiment classification tanpa menerapkan

features expansion, yaitu 28%.

Akurasi yang didapat pada kombinasi

CDs & Vinyl sebagai domain sumber dan domain Home & Kitchen sebagai domain target sangat rendah disebabkan oleh kurangnya informasi sentiment element, sehingga belum mampu memunculkan keterkaitan antara lexical element penyusun

review dengan lexical element kandidat yang ditambahkan pada review dalam proses

feature expansion. Hal ini akan menyebabkan skor keterkaitan menjadi rendah. Dalam prosesnya, feature expansion

akan mengurutkan skor keterkaitan antara

lexical element penyusun review dengan

lexical element yang menjadi kandidat. Kemudian dipilih sebanyak k lexical element baru dengan skor tertinggi yang digunakan untuk ditambahkan pada review. Walaupun skor keterkaitan untuk lexical element kandidat kecil, jika lexical element

kandidat tersebut termasuk dalam k lexical element kandidat dengan nilai tertinggi, maka terpaksa fitur tersebut digunakan.

Lexical element terpaksa ditambahkan pada

review tersebut juga tampak dari nilai parameter k yaitu parameter yang menyatakan banyaknya jumlah lexical element yang harus ditambah. Pada kombinasi CDs & Vinyl sebagai domain sumber dan domain Home & Kitchen

sebagai domain target akurasi maksimal didapat pada parameter k bernilai 1. Nilai k sangat kecil, yaitu hanya bernilai 1 karena ternyata penambahan lebih banyak lexical element pada review malah menurunkan nilai akurasi. Lexical element dengan skor keterkaitan rendah terhadap review, berarti

lexical element tersebut tidak memiliki hubungan rengan review tersebut. Penambahan lexical element yang tidak memiliki berkaitan dengan review malah menyebabkan hasil klasifikasi menurun. Hal ini dapat dilihat pada salah satu contoh

(9)

141 0615391206A388T8QB30Y6U11

ditunjukkan pada Tabel 4.

Tabel 4. Lexical Element Dengan Skor Tertinggi pada Review 0615391206A388T8QB30Y6U11

Kode lexical

element Skor Keterkaitan

17289 0,0606

17284 0,0328

3640 0,0113

3639 0,0099

17286 0,0097

30260 0,0076

17281 0,0066

4971 0,0057

2303 0,0056

30266 0,005

Pada kombinasi domain Home & Kitchen

sebagai domain sumber dan Book sebagai domain target, sepuluh lexical element

dengan skor tertinggi pada review 0001714384A19HM4UCA0MC9R1

ditunjukkan pada tabel 5

Pada contoh review dari kombinasi domain Home & Kitchen sebagai domain sumber dan Book sebagai domain target, skor keterkaitan antara lexical element yang ditambahkan memiliki keterkaitan yang erat dengan review, hal ini ditunjukkan dengan skor keterkaitan yang tinggi. Keterkaitan antara review dan lexical element tidak harus memiliki kesamaan arti, atau sinonim, namun kedekatan lebih pada kesamaan tingkat polaritas antara review dengan

lexical element tersebut. Tambahan lexical element yang memiliki keterkaitan erat akan membantu proses training dan testing pada tahap klasifikasi.

Tabel 5. Lexical Element Dengan Skor Tertinggi pada Review 0001714384A19HM4UCA0MC9R 1

Kode lexical element Skor Keterkaitan

4970 5.504

3640 1.793

17287 1.4212

2303 0.7981

2306 0.7534

2308 0.5544

4969 0.5415

3634 0.5384

1 0.4506

4966 0.3424

5. KESIMPULAN

Pada paper ini diusulkan cross-domain sentiment classification yang menerapkan

feature expansion dengan memanfaatkan

thesaurus yang sensitif terhadap tingkat polaritas sentiment. Thesaurus yang sensitif terhadap tingkat polaritas sentiment dibentuk dengan menghitung keterkaitan anatara lexical elements dan sentiment elements. Keterkaitan antar lexical elements

dihitung dengan membagi jumlah nilai keterkaitan sentiment elements yang pernah muncul bersama kedua lexical elements

dibagi dengan jumlah semua nilai keterkaitan dengan semua sentiment elements. Keterkaitan antar lexical elements

(10)

142

DAFTAR PUSTAKA

[1] Blitzer, J., Dredze, M., & Pereira, F. (2007). Biographies, Bollywood, Boom-boxes and Blenders: Domain Adaptation for Sentiment Classiﬁcation. The 45th Annual Meeting of the Association of Computational Linguistics (pp. 440– 447). Prague: Association for Computational Linguistics.

[2] Bollegala, D., Weir, D., & Carroll, J. (2013). Cross-Domain Sentiment Classification Using a Sentiment Sensitive Thesaurus. IEEE Transactions On Knowledge And Data Engineering, 1719-1731. [3] D’Avanzo, E., & Pilato, G. (2014).

Mining social network users opinions to aid buyers shopping decisions. Computers in Human Behavior.

[4] D'avanzo, E., & Kuflik, T. (2013). E-Commerce Websites Services Versus Buyers Expectations: An Empirical Analysis Of The Online Marketplace. International Journal of Information Technology & Decision Making.

[5] Dave, K., Lawrence, S., & Pennock, D. (2003). Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews. WWW2003. Budapest: ACM.

[6] Khan, K., Baharudin, B., Khan, A., & Malik, F. (2009). Mining Opinion from Text Documents: A Survey.

IEEE International Conference on

Digital Ecosystems and

Technologies (pp. 217-222). IEEE. [7] Kurian, N. (2014). Cross Domain

Sentiment Classification: Current Solutions. International Journal of Advanced Research in Computer Engineering & Technology (IJARCET), 1747-1750.

[8] Liu, B. (2010). Sentiment Analysis: A Multi-Faceted Problem. IEEE Intelligent Systems.

[9] McAuley, J., & Leskovec, J. (2013). Hidden factors and hidden topics: understanding rating dimensions with review text. 7th ACM conference on Recommender systems

(pp. 165-172). New York: ACM. [10] McAuley, J., Pandey, R., &

Leskovec, J. (2015). Inferring networks of substitutable and complementary products. Knowledge Discovery and Data Mining.

[11] Okanohara, D., & Tsujii, J. (2005). Assigning Polarity Scores to Reviews Using Machine Learning Techniques. Lecture Notes in Computer Science, 314-325.

[12] Pang, B., & Lee, L. (2008). Opinion Mining and Sentiment Analysis.

Foundations and Trends in

Information Retrieval, 1-135.

[13] Pang, B., Lee, L., & Vaithyanathan, S. (2002). Thumbs up?: sentiment classification using machine learning techniques. Empirical Methods in Natural Language Processing (pp. 79-86). ACM.

[14] Tsytsarau, M., & Palpanas, T. (2012). Survey on Mining Subjective Data on the Web. Data Mining and Knowledge Discovery, 478-514. [15] Turney, P. D. (2002). Thumbs up or

thumbs down?: semantic orientation applied to unsupervised classification of reviews. ACL '02 Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (pp. 417-424). Stroudsburg.

[16] Whitehead, M., & Yaeger, L. (2009). Building a General Purpose Cross-Domain Sentiment Mining Model. [17] World Congress on Computer

Science and Information