• Tidak ada hasil yang ditemukan

Prediksi Kepribadian Big 5 Pengguna Twitter dengan Support Vector Regression

N/A
N/A
Protected

Academic year: 2018

Membagikan "Prediksi Kepribadian Big 5 Pengguna Twitter dengan Support Vector Regression"

Copied!
9
0
0

Teks penuh

(1)

Prediksi Kepribadian Big 5 Pengguna Twitter dengan

Support Vector Regression

Agnes Theresia Damanik

Institut Teknologi Bandung

[email protected]

Masayu Leylia Khodra

Institut Teknologi Bandung

[email protected]

ABSTRAK

Informasi biografi dan tweets dari pengguna Twitter dapat dimanfaatkan untuk menggambarkan kepribadian Big 5, yang terdiri dari openness, conscientiousness, extraversion, agreeableness, dan neuroticism. Makalah ini membahas penggunaan infomasi pengguna Twitter untuk membentuk suatu model pembelajaran prediksi kepribadian Big 5. Fitur yang digunakan sebagai eksperimen terdiri dari dua fitur utama, yaitu fitur perilaku sosial dan linguistik. Fitur linguistik yang digunakan terbagi atas 2 bagian besar, yaitu fitur kategori kata dari kamus yang dibangun secara manual dan fitur yang diekstrak langsung dari data pada Twitter. Dari eksperimen dan pengujian yang dilakukan dengan metode Support Vector Regression (SVR), didapatkan bahwa secara keseluruhan model pembelajaran yang paling baik dalam memprediksi kepribadian pengguna Twitter adalah model yang menggunakan gabungan fitur perilaku sosial dan linguistik bigram. Model tersebut menghasilkan nilai Mean Absolute Error (MAE) terkecil 0.2739, sedangkan nilai Pearson-correlation terbesar 0.8559 didapatkan untuk kepribadian Extraversion.

Kata Kunci

fitur perilaku sosial, fitur linguistik, kepribadian Big 5, SVR, twitter.

1.

PENDAHULUAN

Kepribadian Big 5 merupakan salah satu metode yang dikenal dalam dunia psikologi untuk menginterpretasi kepribadian seseorang, terutama untuk menemukan hubungan kepribadian dengan lingkungan pekerjaan. Kepribadian Big 5 terdiri dari openness (O), conscientiousness (C), extraversion (E), agreeableness (A), dan neuroticism (N) (Costa dkk, 1991). Kepribadian O memiliki imajinasi yang aktif, kepekaan terhadap estetika, kepedulian terhadap perasaan pribadi, ketertarikan terhadap perbedaan, keingintahuan intelektual, dan kebebasan berpendapat. Kepribadian C berhubungan erat dengan mengendalikan impulse, pengendalian diri demi perencanaan yang matang, pengaturan, dan pengerjaan tugas-tugas. Kepribadian E percayadiri, aktif, cerewet, optimis, serta menyukai kesenangan dan selalu merasa ceria secara alami. Kepribadian A mengutamakan orang lain, simpatik terhadap orang lain, dan suka menolong. Kepribadian N cenderung mengalami perasaan-perasaan negatif seperti ketakutan, kesedihan, rasa canggung, kemarahan, rasa bersalah, dan rasa benci atau jijik.

Pengukuran kepribadian Big 5 dapat dilakukan dengan menggunakan berbagai metode. Salah satu metodenya adalah metode BFI (John et al, 1991) berupa kuesioner berisi 44 pertanyaan berisi sifat-sifat berbentuk skala dari paling tidak setuju sampai paling setuju dengan setiap sifat menggambarkan setiap kepribadian Big 5. Jawaban kuesioner dikalkukasi dengan rumus sesuai dengan metode yang dipilih. Cara ini memiliki kekurangan, yaitu dibutuhkannya partisipasi aktif dari orang yang

hendak diprediksi kepribadiannya untuk menjawab pertanyaan-pertanyaan kuesioner dan orang sering tidak mengetahui kecenderungan sifatnya sehingga menyebabkan hasil prediksi kurang valid.

Kepribadian berhubungan dan mempengaruhi beberapa aspek dari linguistik. Prediksi berdasarkan linguistik dilakukan dengan menganalisis pemilihan kata-kata dan letak kata-kata tersebut di dalam kategori yang ditentukan sesuai dengan bahasa yang digunakan. Analisis linguistik telah dilakukan terhadap esai bebas, alamat email, profil Facebook, blog, penggunaan bahasa sehari-hari, pesan singkat, dll. Para psikolog telah mendokumentasikan keberadaan hubungan kepribadian-linguistik dengan menemukan korelasi berbagai variabel linguistik dengan kepribadian.

Beberapa perusahaan, khususnya perusahaan industri menengah ke atas, telah menggunakan media sosial untuk mempertimbangkan penerimaan pegawai baru, selain hasil tes psikologi formal yang selalu dilakukan (CareerBuilder, 2012). Berdasarkan hal ini, kepribadian seseorang dapat diprediksi berdasarkan informasi pada akun media sosialnya, seperti Facebook atau Twitter. Gosling (2007) menemukan bahwa profil Facebook memberikan nilai yang konsisten terhadap kepribadian Big 5 terutama untuk E dan O.

Makalah ini bertujuan untuk membangun model prediksi kepribadian Big 5 dari pengguna twitter dengan menggunakan Support Vector Regression (SVR). Saat ini belum ada penelitian yang memprediksi kepribadian Big 5 untuk pengguna Twitter. Pada makalah ini dilakukan analisis terhadap perilaku sosial pengguna Twitter dan penggunaan linguistik ketika menuliskan tweet dan biografinya untuk menemukan fitur-fitur yang paling sesuai membentuk model pembelajaran memprediksi kepribadian pengguna. Untuk menemukan fitur dari penggunaan linguistiknya, penelitian ini menggunakan dua pendekatan yang selama ini dilakukan secara terpisah dalam penelitian lain. Pendekatan pertama adalah closed-vocabulary, yaitu menggunakan kamus kata dan pendekatan kedua adalah open-vocabulary, yaitu mengekstrak fitur dari data yang digunakan. Model pembelajaran akan dibentuk menggunakan masing-masing fitur dan pada akhirnya seluruh fitur akan digabung.

Pada bagian berikutnya akan dibahas tentang kajian yang dilakukan terhadap penelitian terkait linguistik dan Twitter terhadap kepribadian Big 5. Bagian berikutnya membahas tentang sistem prediksi kepribadian yang dibangun. Bagian 4 membahas eksperimen yang dilakukan, selanjutnya bagian berikutnya memberikan kesimpulan dan saran yang didapatkan dari penelitian yang dilakukan.

2.

KAJIAN TERKAIT

(2)

1991; Komarraju & Karau, 2005), kemampuan memimpin (Hogan dkk., 1994), dan mempengaruhi kinerja pekerjaan (Furnham dkk., 1999). Salah satu pengukuran Big 5 yang paling sederhana adalah pengukuran BFI (John dkk, 1991). BFI merupakan kuesioner berisi 44 pertanyaan yang mengandung sifat-sifat yang menggambarkan kepribadian Big 5.

Kepribadian Big 5 adalah berikut (Costa dkk, 1991).

Openness (O)

O adalah imajinasi yang aktif, kepekaan terhadap estetika, kepedulian terhadap perasaan pribadi, ketertarikan terhadap perbedaan, keingintahuan intelektual, dan kebebasan berpendapat.

Conscientiousness (C)

C berhubungan erat dengan pengendalian diri demi perencanaan yang matang, pengaturan, dan pengerjaan tugas-tugas. Biasanya C berhubungan dengan prestasi dalam bidang akademik dan karier.

Extraversion (E)

E adalah sosialis yaitu menyukai perkumpulan dan berkumpul. E percaya diri, aktif, cerewet, optimis.

Agreeableness (A)

A adalah tendensi untuk berinteraksi. Kepribadian A mengutamakan orang lain, simpatik terhadap orang lain, dan suka menolong.

Neuroticism (N)

N cenderung mengalami perasaan-perasaan negatif seperti ketakutan, kesedihan, rasa canggung, kemarahan, rasa bersalah, dan rasa benci atau jijik. Kepribadian N bernilai rendah menandakan emosi yang stabil, tenang.

2.1

Kepribadian Berdasarkan Linguistik

Pennebaker dan King (1999) melakukan analisis terhadap esai yang ditulis oleh sejumlah mahasiswa dan membandingkan hasil yang didapatkan dengan hasil kuesioner yang diisi mahasiswa-mahasiswa tersebut sebelumnya. Penelitian ini memanfaatkan kakas LIWC untuk penghitungan kategori kata. Hasil yang didapat adalah bahwa N sering menggunakan kata ganti orang pertama tunggal dan kata bermakna negatif dibandingkan dengan kata bermakna positif. A lebih sering menggunakan kata bermakna positif dibandingkan dengan kata bermakna negatif dan sedikit menggunakan articles. Sedikit dari C ditemukan menggunakan kata negasi, kata bermakna negatif, dan kata diskrepansi (contoh: seharusnya, seandainya). O ditemukan menulis kalimat yang panjang dan kalimat yang mengekspresikan tentatif (contoh: mungkin). Sedikit dari O menggunakan kata ganti orang pertama tunggal dan bentuk present tense.

Nowson (2006) melakukan analisis linguistik terhadap blog dan menemukan hubungan linguistik dan kepribadian Big 5. E sering menggunakan kata-kata di kategori social process, dan human serta jarang menggunakan kata-kata di kategori occupation, achievement, discrepancy, school, dan TV. A cenderung menulis kalimat yang terdiri dari 6 kata atau lebih dan sering menggunakan articles serta jarang menggunakan kata discrepancy dan negation. Sedikit dari C yang menggunakan kata-kata di kategori death. N menggunakan kata-kata di kategori discrepancy, work, anciety, future tense verb, eating, dan physical state serta jarang menggunakan kata-kata di kategori human. Dan O menggunakan kalimat berjumlah 6 kata atau lebih, kata-kata di

kategori positive emotion, grooming, inclusive, dan preposition seta jarang menggunakan kata-kata di kategori school dan occupation.

Watson & Clark (1992) menemukan E dan C berhubungan erat dengan emosi positif, N berkorelasi positif dengan emosi negatif, dan A berkorelasi negatif dengan emosi negatif. Mehl (2006) menemukan bahwa O sering menggunakan kalimat yang membuka wawasan dan A berkorelasi negatif dengan penggunaan kata-kata umpatan/caci maki (swear words). Penelitian di atas menggunakan kamus kategori-kata yang bernama Linguistic Inquiry and Word Count (LIWC).

Schwartz (2013) menggunakan pendekatan data-driven atau dikenal sebagai pendekatan open-vocabulary untuk melakukan analisis linguistik dan menemukan bahwa E menggunakan n-gram

bermakna sosial (‘love you’, ‘party’, ‘boys’, ‘ladies’) dan N menggunakan ‘depression’, ‘sick of’, ‘I hate’.

Iacobelli (2011) menggunakan pendekatan open-vocabulary dan menemukan bahwa E menggunakan kata sumpah serapah yang

kasar (‘you f**ck’, ‘b**ch I’,’ was f**k’), lokasi (‘i’m at’), dan

kata bermakna sosial dan positif (‘dance i’, ‘a club’, ‘fun anyway’). A menggunakan kata sumpah serapah yang lebih halus

daripada E (‘like s**t’, ‘the hell’) dan kata bermakna positif (‘even better’, ‘of beauty’). Dan C menggunakan kata-kata yang mencerminkan perencanaan, prestasi, dan evaluasi diri (‘to study’, ‘on track’, ‘succeed in’)

2.1.1

Pendekatan Closed-Vocabulary

Pendekatan closed-vocabulary adalah metode yang umum digunakan dalam menganalisis hubungan antara bahasa dan variabel-variabel psikologi. Pendekatan closed-vocabulary bergantung pada penghitungan kata di dalam suatu kategori tertentu. Pengelompokan kata tersebut dilakukan oleh beberapa pakar.

LIWC (Linguistic Inquiry and Word Count) adalah kakas yang dikembangkan Pennebaker sejak tahun 2007 yang berfungsi sebagai program penghitung kata otomatis berdasarkan kategorinya. LIWC memiliki 64 kategori teks. Versi terakhir dari LIWC adalah LIWC2007 dan telah melalui tahapan yang berlangsung bertahun-tahun karena domain kategori-kata dianggap semakin berkembang seiring dengan bertambahnya waktu. Tahapan yang dilakukan untuk membangun kamus LIWC dibagi menjadi 4 langkah yaitu koleksi kata, fase peratingan oleh pakar, evaluasi psikometrika, serta perubahan dan ekspansi.

Tabel 1 menampilkan seluruh fitur LIWC2007 serta korelasinya terhadap linguistik berdasarkan penelitian Yarkoni (2010) yang menggunakan analisis LIWC terhadap penggunaan kata para blogger (ns = not significant pada p<.05).

2.1.2

Pendekatan Open-Vocabulary

Pendekatan open-vocabulary merupakan kebalikan dari pendekatan closed-vocabulary. Perbedaan yang paling jelas adalah pendekatan open-vocabulary tidak membutuhkan kamus kata dan pengelompokan kosakata ke dalam kategori tertentu.

(3)

Tabel 1. Kategori LIWC dan nilai korelasi Yarkoni (2010)

Dengan demikian pengetahuan baru yang didapatkan adalah olahraga dapat menjadikan keadaan emosional seseorang lebih stabil. Ilustrasi mengenai hal tersebut dapat dilihat pada Gambar II.2.

Karakteristik dari pendekatan open-vocabulary adalah sebagai berikut.

1. Kamus kata yang tidak terbatas

Kata-kata tidak dibatasi pada kata yang berada di dalam daftar kata tertentu. Fitur linguistik seperti kata dan frasa ditentukan secara otomatis dari data yang digunakan. Hal ini menyebabkan jumlah data latih yang diperlukan harus sangat banyak.

2. Discriminating

Langsung menemukan fitur linguistik utama, yaitu kata dan frasa yang mencerminkan kepribadian.

3. Sederhana

Pembentukan fitur dilakukan dengan cara yang sederhana yaitu fitur ngram.

Langkah-langkah yang dilakukan dalam melakukan pendekatan open-vocabulary adalah melakukan ekstraksi fitur linguistik dilanjutkan dengan melakukan seleksi fitur. Ekstraksi fitur linguistik dilakukan dengan cara memecah kalimat ke dalam beberapa kata dan frasa (sekuens dari dua hingga tiga kata) dengan menggunakan n-gram dengan maksimal n=3. Iacobelli (2011) mendapatkan hasil yang terbaik dengan bigram sedangkan Schwartz menggunakan n=1 sampai n=3. Ketika melakukan ekstraksi kata dan frasa, kata dan frasa diberi bobot dengan pembobotan TF*IDF.

Seleksi fitur bertujuan untuk menjelaskan data dengan cara yang lebih sederhana karena fitur yang redundant dibuang, mengurangi collinearity yang disebabkan oleh terlalu banyaknya variabel yang melakukan pekerjaan yang sama, dan menghemat waktu dalam pembentukan model pembelajaran

2.2

Kepribadian Berdasarkan Perilaku Sosial

Perilaku sosial mendefinisikan kepribadian melalui frekuensi penggunaan media sosial dan tingkat keaktifan antar pengguna (Golbeck dkk, 2011). Fitur yang menunjukkan tingkat perilaku sosial pengguna Twitter berdasarkan penelitian yang dilakukan Golbeck (2011) adalah sebagai berikut.

Follower: Follower adalah pengguna Twitter lain yang mengikuti pengguna yang diacu. Follower dapat melihat tweet pengguna yang diacu pada halaman muka akun Twitter mereka.

Friend: Friend adalah pengguna yang diacu menjadi follower dari pengguna lain.

Jumlah mention: Mention yang ditandai dengan ‘@username’ menunjukkan tingkat interaksi pengguna Twitter dengan pengguna lain.

Jumlah hashtag: Hashtag menunjukkan keterlibatan pengguna dengan isu/topik yang sedang dibahas. Hashtag ditandai dengan karakter ‘#’.

Jumlah reply: Reply adalah mention dari pengguna lain kepada pengguna Twitter yang diacu.

Jumlah URL: URL adalah tautan berupa informasi website/blog yang dicantumkan pengguna.

Jumlah kata dalam tweet:

Tweet adalah tulisan yang terdiri dari kumpulan kata dengan panjang maksimal 140 karakter. Jumlah kata dalam tweet adalah total kata yang menyusun tweet itu.

(4)

teks yang panjang dan kepribadian A berkorelasi positif dengan topik baru dan keseringan dalam melakukan reply.

Selain delapan komponen di atas, terdapat komponen dari Twitter yang dapat dijadikan pertimbangan dalam melakukan analisis pemilihan fitur yang menunjukkan tingkat keaktifan perilaku sosial pengguna Twitter sebagai berikut.

Favourites: Favourites adalah tweet pengguna lain yang difavoritkan oleh pengguna yang diacu.

Retweeted: Retweeted adalah jumlah pengguna lain melakukan retweet terhadap tweet yang ditulis sendiri oleh pengguna yang diacu.

Retweet: Retweet yang ditandai dengan ‘RT’ menunjukkan pengguna yang diacu mengulangi tweet pengguna lain.

2.3

Support Vector Regression (Svr)

Model pembentuk kepribadian yang dibangun menggunakan regresi adalah model yang sangat akurat (Mairesse, 2007). Tujuan utama dari persoalan regresi adalah menunjukkan hubungan antara dua variabel. Variabel yang satu, sebagai predictor, digunakan untuk memprediksi nilai variabel yang lainnya, sebagai response. Meskipun hasil prediksi variabel response dari variabel predictor tidak selalu sempurna, response yang dihasilkan akan lebih akurat apabila melihat hubungan antara kedua variabel dibandingkan dengan tanpa menggunakan variabel predictor. Sehingga dapat dituliskan untuk x sebagai predictor dan y sebagai response:

Untuk himpunan { } { }.

Model regresi menunjukkan hubungan sebab akibat antara x dan y, x dapat digunakan untuk memprediksi y dan y dapat digunakan untuk memprediksi x. Sehingga untuk sepasang variabel terjadi dua kemungkinan regresi (Lavine, 2013). Hubungan sebab akibat kedua variabel dapat diukur dengan menghitung keeratan hubungan keduanya atau korelasi. Korelasi juga menunjukkan seberapa baik predictor menentukan nilai response.

Inti dari metode Support Vector (SV) adalah memetakan data pembelajaran yang tidak linier ke dalam feature space (dot product space) F melalui Φ (non-linear map), dan membangun sebuah pemisah (separating hyperlane) di dalam dimensi yang lebih tinggi tersebut. Keadaan ini menciptakan sebuah pembatas nonlinier pada input space. Untuk menghitung separating hyperplane tanpa secara eksplisit memasukkan Φ ke dalam F, kita menggunakan fungsi kernel k.

Untuk data pembelajaran {( ) ( )} ;

( ) ( ( ) ( ))

Dalam menyelesaikan permasalahan regresi, algoritma SVR akan membangun sebuah fungsi linier di dalam feature space sehingga nilai dari data pembelajaran berada pada rentang . Dengan menggunakan persamaan suku dua (quadratic) sebagai kernel, permasalahan prediksi regresi dirumuskan sebagai berikut,

( ) ∑ ( )

Pada rumusan tersebut, kita dapat memilih apakah menentukan nilai secara spesifik terlebih dahulu atau nilai dihitung secara

otomatis dengan kita menentukan batas atas dari nilai data pembelajaran yang diperbolehkan di luar rentang dimulai dari prediksi regresi.

Penggunaan kernel menjadi salah satu keunggulan SVR karena kesulitan dalam menggunakan fungsi linier pada feature space berdimensi lebih tinggi dapat dihindari (Vapnik, 1999). Performansi SVR ditentukan juga oleh pengaturan meta-parameter dari meta-parameter C, ԑ, dan kernelnya, sama seperti persoalan klasifikasi menggunakan metode SV.

2.4

Sistem Prediksi Kepribadian

Sistem yang dibangun terdiri dari tiga bagian, yaitu crawler, predictor, dan interface. Keterhubungan antara ketiga bagian diacu pada Gambar 1. Crawler adalah bagian yang berfungsi sebagai pengumpul data Twitter. Crawler memanfaatkan Twitter API untuk mengumpulkan data. Predictor adalah bagian yang berfungsi sebagai penginterpretasi kepribadian Big 5 pengguna. Interface adalah bagian yang berfungsi sebagai presentasi hasil kepribadian Big 5 dan penggunaan Twitter pengguna. Selain itu, interface juga menampilkan kamus kategori yang digunakan untuk pendekatan closed-vocabulary dan pengguna sistem dapat menambahkan atau membuang kata di dalam kamus tersebut.

Gambar 1. Sistem prediksi kepribadian Big 5 pengguna Twitter

Berdasarkan studi terhadap kajian terkait, makalah ini menggunakan dua fitur utama, yaitu fitur linguistik dan fitur perilaku sosial. Berdasarkan metode linguistik yang dijelaskan pada bagian kajian terkait, maka fitur linguistik dibedakan menjadi dua bagian besar, yaitu fitur linguistik closed-vocabulary dan fitur linguistik open-vocabulary.

Penentuan fitur linguistik closed-vocabulary dengan cara mengambil kategori kata LIWC yang menunjukkan nilai korelasi paling signifikan terhadap setiap kepribadian Big 5. Nilai korelasi yang paling signifikan dibatasi untuk kategori yang memperoleh korelasi lebih besar dari 0.1.

(5)

Pada kepribadian C, kategori yang memberikan nilai korelasi di atas 0.1 hanya satu kategori sementara kepribadian lainnya dapat memperoleh empat hingga lima kategori kata. Oleh karena itu, agar tidak terlalu sulit dibedakan dari kepribadian lainnya, pada kepribadian C batas nilai korelasi diturunkan menjadi 0.09 sehingga dengan demikian didapatkan tiga kategori kata yang dapat membedakan kepribadian C dengan kepribadian lainnya. Tabel 2 menampilkan 20 kategori yang didapatkan. Kosakata yang dimasukkan ke dalam kategori kata yang ditentukan ditentukan tanpa melibatkan pakar di bidang bahasa. Apabila melibatkan pakar bidang bahasa dalam pembangunan kamus maka kamus yang dihasilkan lebih baik dan terpercaya. Hal tersebut tidak dapat digunakan karena kekurangan sumber daya manusia. Untuk menutupi kekurangan tersebut, kosakata yang dimasukkan ke dalam kamus berasal dari contoh kata yang diberikan pada situs resmi LIWC, situs bertemakan linguistik, dan definisinya dalam bahasa Indonesia dan bahasa Inggris. Bahasa Inggris turut disertakan karena pengguna menulis tweet dalam bahasa Indonesia dan bahasa Inggris.

Selain kategori LIWC tersebut, terdapat fitur yang tidak tercakup di dalam kategori LIWC. Tabel 3 merangkum fitur-fitur tersebut.

Mengacu pada Subbab 2.1.2, penentuan fitur linguistik untuk metode open-vocabulary dilakukan dengan ekstraksi fitur, yaitu dengan cara memecah isi tweet ke dalam beberapa kata dan frasa (dibatasi menjadi sekuens dari dua kata) dengan menggunakan ngram dengan n dari 1 sampai 2. Selanjutnya seleksi fitur dilakukan terhadap hasil ekstraksi yang didapatkan. Penentuan fitur perilaku sosial dilakukan dengan menganalisis fitur yang diacu pada Subbab 2.2. Tabel 4 menampilkan keseluruhan fitur.

2.5

Pengumpulan Data

Pengumpulan data dilakukan dengan dua tahapan. Data yang didapat di tahap pertama digunakan sebagai pelabelan untuk data yang dikumpulkan pada tahap kedua dan selanjutnya digunakan sebagai data pembelajaran.

Tabel 2. Kategori LIWC yang memberikan signifikan pada nilai korelasi ρdi atas 0.1

Data tahap pertama didapatkan dari pengisian kuesioner BFI seperti yang dijelaskan pada bagian Kajian Terkait. Sebanyak 119 pengguna Twitter yang secara sukarela mengisi kuesioner memiliki latar belakang mahasiswa dan sarjana muda yang berada pada kisaran usia 19 hingga 25 tahun. Hal tersebut terjadi karena penyebaran kuesioner dilakukan oleh orang yang telah mengisi kuesioner sebelumnya sehingga persebaran usia dan latar belakangnya tidak terlalu luas.

Data pada tahap kedua didapatkan dari isi Twitter dari pengisi kuesioner sebelumnya. Tweet pengguna yang diambil adalah 200 tweet terbaru termasuk mention, retweet, dan reply. Sebanyak 10 data kuesioner dipisahkan dari data keseluruhan untuk digunakan dalam pengujian terhadap model pembelajaran yang terbentuk melalui eksperimen.

Tabel 3 Fitur linguistik closed-vocabulary

Fitur Keterangan

bio_length Fitur biografi. Menjelaskan jumlah kata yang digunakan pengguna untuk membentuk biografi

numbers Fitur tweet. Menjelaskan jumlah angka dalam tweet

long_word Fitur tweet. Menjelaskan jumlah kata yang diperpanjang

positiv_emoticon Fitur tweet. Menjelaskan jumlah emoticon bermakna positif, contoh: ^^,:),:-) negative_emoticon Fitur tweet. Menjelaskan jumlah emoticon

bermakna negatif, contoh: vv,:(,:-(

Tabel 4 Fitur perilaku sosial

Fitur Keterangan

Follower Follower

Friend Friend

Favourites Favourites

Retweeted Jumlah status yang di-retweet pengguna lain Retweet Fraksi tweet berupa retweet

Not_Retweet Fraksi tweet bukan retweet

URL Rata-rata jumlah URL di dalam tweet Hashtag Rata-rata jumlah hashtag dalam tweet Mention Rata-rata jumlah mention dalam tweet Length Rata-rata panjang tweet

Tujuan pengambilan data kuesioner adalah menggunakan hasilnya sebagai pelabelan data pembelajaran. Pada awalnya terdapat dua pertimbangan cara pelabelan data pembelajaran, yaitu menggunakan hasil kuesioner dan menggunakan hasil interpretasi kepribadian oleh psikolog. Cara pertama memiliki beberapa kekurangan, yaitu pengisi kuesioner bisa berbohong, tidak memahami maksud pertanyaan, dan tidak mengenali kepribadiannya. Cara kedua adalah cara yang lebih baik daripada yang pertama karena melibatkan pakar namun cara kedua tidak dapat digunakan pada penelitian ini karena tidak tersedianya sumber daya manusia yang mencukupi dengan jumlah data.

(6)

agar dapat lebih mudah dibandingkan. Perbandingan rangkuman dari hasil penghitungan kuesioner data pengujian dengan hasil interpretasi yang diberikan oleh pakar psikolog terhadap data Twitter pengguna yang akan digunakan sebagai pembelajaran, yaitu jumlah follower, friend, favourites, retweeted, biografi, dan isi dari 200 tweet ditampilkan pada Tabel 6.

Menurut Tabel 6, psikolog menginterpretasikan kepribadian seseorang sebagai nilai yang paling dominan diantara kelima variabel kepribadian yang ada. Dengan merangkum hasil kuesioner ke dalam bentuk interpretasi psikolog maka ditemukan bahwa tiga dari sepuluh data memenuhi interpretasi psikolog, yaitu data ke-2, ke-5, dan ke-9. Selain itu ada dua data lain yang memenuhi sebagian interpretasi psikolog, yaitu data 1 dan ke-3. Dikatakan memenuhi sebagian interpretasi psikolog adalah karena sebenarnya psikolog menemukan dua kepribadian dominan dari data tersebut namun kedua kepribadian tersebut hanya memenuhi satu kepribadian diantara dua kepribadian dominan yang ditemukan apabila merumuskan hasil kuesioner BFI berdasarkan dua kepribadian yang memperoleh nilai paling tinggi.

Perbandingan tersebut menunjukkan bahwa mungkin model pembelajaran yang dibentuk akan berbeda apabila seluruh data pembelajaran murni dilabeli dengan hasil interpretasi pakar. Model pembelajaran tersebut mungkin akan menunjukkan hasil yang lebih baik. Selain itu interpretasi dari psikolog pada Tabel 6. memberikan wawasan bahwa dunia psikologi memandang kepribadian seseorang dapat didefinisikan sebagai satu atau dua kepribadian yang paling dominan saja. Hal ini menunjukkan bahwa nilai riil setiap kepribadian tidak terlalu penting. Yang terpenting adalah perbandingan nilai yang diperoleh antar kelima kepribadian tersebut.

Tabel 5. Hasil kuesioner data pengujian beserta rangkuman hasil

Data Hasil perhitungan BFI Pelabelan

O C E A N

1 3.6 3.77 3.5 3.88 3 Dominan A dan C

2 3.5 2.77 3.75 3.44 3.12 Dominan E

3 2.9 2.66 3.62 2.66 3.6 Dominan E dan N

4 3.6 3.44 3.37 4.33 1.75 Dominan A

5 4.6 3.33 3.5 3.44 2.75 Dominan O

6 4.1 3.33 4.5 4.33 3.75 Dominan E

7 3.7 3 2.62 3.33 3.5 Dominan O

8 3.5 4 4.12 3.88 1.25 Dominan C dan E

9 3.6 3.11 3 3.33 3 Dominan O

10 3.2 2.55 3.37 4.11 2.62 Dominan A

Tabel 6. Perbandingan rangkuman hasil kuesioner data pengujian dengan interpretasi psikolog

Data Rangkuman

pelabelan

Interpretasi psikolog (terhadap data Twitter) 1 Dominan A dan C Dominan C dan E

2 Dominan E Dominan E

3 Dominan E dan N Dominan A dan N

4 Dominan A Dominan E

5 Dominan O Dominan O

6 Dominan E Dominan O

7 Dominan O Dominan E

8 Dominan C dan E Dominan C dan E

9 Dominan O Dominan O

10 Dominan A Dominan O

2.6

Praproses Data

Praproses bertujuan untuk mengubah data tweet mentah ke dalam bentuk yang lebih sederhana sehingga dapat diekstraksi fitur-fiturnya. Praproses yang dilakukan terhadap isi tweet adalah sebagai berikut.

 Menghapus retweet. Retweet adalah tweet pengguna lain yang dikutip oleh pengguna. Hal tersebut menyebabkan isi retweet tidak dapat menunjukkan kepribadian pengguna secara langsung. Retweet dihilangkan dari tweet agar tweet berisikan opini pengguna saja. Penghitungan penggunaan retweet tetap dihitung meskipun kontennya dibuang.

 Menghapus mention

 Menghapus hashtag

 Menghapus URL

Casefolding

Mengubah seluruh huruf dalam tweet menjadi huruf kecil

 Mengganti seluruh angka dengan common token ‘numbers’

 Mengganti seluruh ekspresi tawa dengan common token ‘laughter’

 Menghapus karakter khusus (contoh: !$*&^)(-_=-‘:)

Bagian biografi pengguna bisa berisi dan kosong. Oleh karena itu, bagian biografi diwakili oleh panjangnya saja, yaitu jumlah kata pembentuk biografi.

3.

EKSPERIMEN

Eksperimen dilakukan dengan memisahkan dataset yang sudah diberi label menjadi dua bagian. Bagian pertama data digunakan sebagai data pembelajaran untuk membentuk model pembelajaran dan bagian kedua data digunakan sebagai pengujian model pembelajaran yang telah terbentuk. Eksperimen dilakukan menggunakan kakas Weka yang menyediakan algoritma Support Vector Regression (SVR). Kemudian model pembelajaran yang sudah dibentuk dievaluasi dengan skema 10 fold cross validation, ukuran kinerja model pembelajaran ditentukan melalui pengukuran Mean Absolute Error (MAE) dan Pearson-correlation r yang tersedia pada Weka.

Eksperimen terdiri dari tiga tahapan besar, yaitu eksperimen menggunakan fitur perilaku sosial, eksperimen menggunakan fitur linguistik, dan eksperimen menggunakan gabungan fitur. Eksperimen mengunakan fitur linguistik dibagi menjadi dua bagian, yaitu eksperimen menggunakan metode closed-vocabulary dan eksperimen menggunakan metode open-vocabulary. Eksperimen menggunakan gabungan fitur juga dibagi menjadi dua bagian, yaitu eksperimen menggunakan gabungan fitur dengan metode closed-vocabulary dan eksperimen menggunakan gabungan fitur dengan metode open-vocabulary.

(7)

itu hasil yang diperoleh pada eksperimen menggunakan fitur linguistik unigram dan pada eksperimen menggunakan gabungan fitur unigram adalah sama, yaitu menunjukkan bahwa korelasi kedua fitur tersebut paling positif untuk kepribadian A. Hal yang sama juga terjadi pada eksperimen menggunakan fitur linguistik bigram dan gabungan fitur bigram, yaitu memperoleh korelasi paling positif untuk kepribadian E. Kedua hal ini bukanlah hal yang aneh karena hasil seleksi fitur pada pembentukan model pembelajarannya adalah mirip. Perbedaan hanya terletak pada gabungan fitur, yaitu terdapat satu fitur dari fitur perilaku sosial yang turut membentuk model pembelajarannya.

Dari hasil seleksi fitur linguistik open-vocabulary ditemukan bahwa jumlah favourites mempengaruhi kepribadian O, rata-rata penggunaan retweet mempengaruhi kepribadian C, dan jumlah friend mempengaruhi kepribadian A, hal ini sesuai dengan definisi dan hasil analisis kepribadian A. Fitur perilaku sosial yang lolos seleksi fitur adalah jumlah favourites, fraksi retweet, dan jumlah friend. Selain fitur-fitur tersebut, fitur perilaku sosial tidak digunakan untuk memprediksi kepribadian pada model pembelajaran gabungan fitur. Dengan demikian berdasarkan data yang digunakan pada penelitian ini dapat disimpulkan bahwa fitur

linguistik lebih berguna untuk memprediksi atau mengenali kepribadian Big 5 pengguna.

Satu hal lagi yang perlu diperhatikan, terutama ketika membandingkan hasil pengujian model pembelajaran dengan pelabelan data pengujian, bahwa pelabelan data dilakukan tanpa melibatkan pakar dan pengambilan data untuk pelabelan tidak dilakukan secara kolektif. Hal-hal ini menyebabkan pelabelan mungkin tidak valid untuk beberapa data dan valid untuk beberapa data. Selain itu, hal ini juga mempersulit penentuan model pembelajaran yang terbaik apabila didasarkan pada hasil pengujian.

4.

HASIL DAN PEMBAHASAN

Melalui eksperimen didapatkan model pembelajaran menggunakan fitur perilaku sosial (PS), model fitur linguistik closed-vocabulary (LC), model fitur linguistik open-vocabulary unigram (LOuni) dan bigram (LObi), model gabungan fitur closed-vocabulary (GC), dan model gabungan fitur open-vocabulary unigram (GOuni) dan bigram (GObi). Tabel 7 menampilkan hasil dari eksperimen.

Tabel 7. Hasil eksperimen terhadap kombinasi fitur serta perolehan eror (MAE) dan korelasi (r)

No Model O C E A N

r MAE r MAE r MAE r MAE r MAE

1 PS 0.1172 0.4245 0.0439 0.5387 0.0852 0.5323 0.2776 0.3833 0.1994 0.5365

2 LC 0.0622 0.4637 -0.1164 0.5586 -0.0849 0.5847 -0.1449 0.4616 0.0396 0.6113

3 LOuni 0.6892 0.3104 0.8078 0.2822 0.7153 0.3681 0.819 0.2269 0.7221 0.3605

4 LObi 0.6959 0.308 0.7649 0.3092 0.8559 0.2739 0.8351 0.223 0.7455 0.3748

5 GC 0.2419 0.4107 0.0033 0.5565 -0.0326 0.575 0.0465 0.4246 0.1587 0.5724

6 GOuni 0.6982 0.3061 0.8078 0.2822 0.7153 0.3681 0.819 0.2269 0. 7221 0.3605

7 GObi 0.7365 0.2998 0.8026 0.2971 0.8559 0.2739 0.8329 0.2275 0.7455 0.3748

Berdasarkan hasil eksperimen yang diperoleh, dari seluruh model yang dibangun kepribadian O memiliki korelasi paling positif dengan model GObi. Kepribadian C memiliki korelasi paling positif dengan model GOuni. Kepribadian E memiliki korelasi paling positif dengan model GObi. Kepribadian A memiliki korelasi paling positif dengan model LObi. Yang terakhir kepribadian N memiliki korelasi paling positif dengan model GObi.

Secara keseluruhan semua model yang memiliki korelasi positif dengan setiap kepribadian adalah model yang dibangun dengan pendekatan open-vocabulary dibandingkan pendekatan closed-vocabulary dengan nilai korelasi yang berbeda sangat jauh. Penelitian sebelumnya memang telah menunjukkan bahwa pendekatan open-vocabulary menunjukkan hasil yang lebih memuaskan dibandingkan dengan pendekatan closed-vocabulary, namun bukan berarti pendekatan closed-vocabulary akan menghasilkan hasil yang sangat jelek. Hasil yang tidak cukup baik dari eksperimen ini mungkin disebabkan kurangnya kata-kata di dalam kamus kategori yang dibangun.

Tabel 8 menampilkan perbandingan antara rangkuman pelabelan dan hasil pengujian yang diperoleh menggunakan model Gobi.

Kepribadian A yang ditunjukkan oleh hasil pengujian memiliki jumlah friend yang tergolong tinggi berdasarkan pada data pembelajaran, yaitu berkisar pada 300-400 orang.

Tweet pengguna 1, yang mendapatkan hasil pengujian dominan kepribadian A, bernuansa positif ditunjukkan dengan banyaknya penggunaan token laughter. Contoh tweet pengguna 1 misalnya

adalah ‘haha apeu banget, masak puding busa tapi

penampilannya kayak brownies bakar amanda HAHAHAHA’,’ indah banget pagi ini. cerah, sejuk, tenang, ada suara burung2’.

Tabel 8. Hasil pengujian model pembelajaran menggunakan gabungan fitur bigram

Data Pelabelan Hasil pengujian

1 A A

2 E A

3 E O

4 A A

5 O A

6 E A

7 O E

8 E E

9 O O

10 A O

(8)

Tokopedia, nama tokonya… http://t.co/w62f77ZFQF’,’ "You can't lose what you never had."Yes, I agree. It'd (perhaps) better to be just friends with someone you… https://t.co/yfZCC0aK3Y, dan ‘I use Pure Skin facial wash! Mau

harga lebih murah??? #oriflame #oriflamemurah…

http://t.co/hZBAvgx5MX’.

Pengguna 7 memperoleh hasil pengujian berupa dominan kepribadian E. Tweet pengguna menunjukkan sifat ekstraversi yang berfokus pada dunia luar dan pengalaman diri sendiri. Beberapa contoh tweet-nya adalah ‘baru sadar hari ini ada UN! semangat buat semuanya, sukses yaaak semoga bs ngerjain dengan baik :")’,’ dan baru menyadari kalau pipi saya terlalu tembem belakangan ini T_T’, dan ‘aku kangen donut yg biasa mama masak sore2’.

5.

KESIMPULAN DAN SARAN

Berdasarkan analisis, implementasi, eksperimen, dan pengujian yang telah dilakukan, kesimpulan yang dapat ditarik adalah secara keseluruhan untuk dataset eksperimen penelitian ini, kepribadian Big 5 pengguna Twitter dapat diprediksi dengan baik menggunakan model gabungan fitur perilaku sosial dan fitur linguistik dengan metode open-vocabulary bigram. Selain itu dapat disimpulkan pula bahwa fitur linguistik lebih dapat mengenali kepribadian pengguna dibandingkan dengan fitur perilaku sosial. Perlu diingat bahwa hasil prediksi bergantung pada eksperimen yang dilakukan sehingga penelitian lain yang sejenis dapat menghasilkan hasil akhir yang berbeda sesuai dengan parameter eksperimen yang digunakan.

Saran untuk pengembangan penelitian ini di kemudian hari adalah bahwa untuk menggunakan metode closed-vocabulary, pembangunan kamus kata perlu melibatkan pakar di bidang linguistik, khususnya bahasa Indonesia dan bahasa Inggris. Selain itu waktu pembangunannya dapat diperpanjang sehingga lebih banyak kosakata yang dicakup. Selain itu saran untuk mendapatkan pelabelan data yang lebih baik adalah pengumpulan data kuesioner yang digunakan sebagai pelabelan sebaiknya dilakukan secara kolektif di bawah arahan pakar.

6.

REFERENSI

Atkinson, Rita, L., Richard C. Atkinson, Edward E. Smith, Daryl J. Bem, & Susan Nolen-Hoeksema. (2000). Hilgard's Introduction to Psychology (13th ed.). Orlando, Florida: Harcourt College Publishers. p. 437.

Costa, P.T.,Jr., & McCrae, R.R. (1992). Revised NEO Personality Inventory PI-R) and NEO Five-Factor Inventory (NEO-FFI) manual. Odessa, FL: Psychological Assessment Resources. Furnham, A., Jackson, C. J., & Miller, T. (1999). Personality, Learning Style and Work Performance. Personality and Individual Differences, 27, 1113-1122.

Furnham, A., & Mitchell, J. (1991). Personality, Needs, social skills and academic achieve-ment: A longitudinal study. Personality and Individual Differences, 12, 1067–1073.

Golbeck, Jennifer., Cristina Robles, & Karen Turner. (2011). Predicting Personality with Social Media. CHI 2011, May 7-12, 2011, Vancouver, BC, Canada.

Goldberg, L. R. (1981). Language and Individual Differences: The Search for Universals in Personality Lexicons. In L. Wheeler

(Ed.), Review of Personality and Social Psychology: Vol.2 (pp. 141-165). Beverly Hills, CA: Sage.

Gosling, S.D. (2007). Personality Impressions based on Facebook Profiles.

Hearst, Marti A. (1998). Trends and Controversies Support Vector Machines. IEEE Intelligent Systems.

Hogan, R., Curphy, G. J., & Hogan, J. (1994). What we know about leadership: Effectiveness and personality. American Psychologist, 49 (6), 493–504.

http://www.careerbuilder.co.id diakses tanggal 12 November pukul 03.26 WIB.

Iacobelli, F., Gill, AJ., Nowson, S., Oberlander, J. (2011). Large scale personality classification of bloggers. Affective Computing and Intelligent Interaction.

John, O. P., Donahue, E. M., & Kentle, R. L. (1991). The Big Five Inventory--Versions 4a and 54. Berkeley, CA: University of California, Berkeley, Institute of Personality and Social Research. Komarraju, M., & Karau, S. J. (2005). The relationship between the Big Five personality traits and academic motivation. Personality and Individual Differences, 39, 557–567.

Mairesse, François., Marilyn A. Walker, Matthias R. Mehl, & Roger K. Moore. (2007). Using Linguistic Cues for the Automatic Recognition of Personality in Conversation and Text. Journal of Artificial Intelligence Research, 30, 457-500

Mehl, M. R., Gosling, S. D., & Pennebaker, J. W. (2006). Personality in its natural habitat: Manifestations and implicit folk theories of personality in daily life. Journal of Personality and Social Psychology, 90, 862–877.

Newman, M. L., Pennebaker, J. W., Berry, D. S., & Richards, J. M. (2003). Lying words: Predicting deception from linguistic style. Personality and Social Psychology Bulletin, 29, 665–675

Pennebaker, J. W., & King, L. A. (1999). Linguistic styles: Language use as an individual difference. Journal of Personality and Social Psychology, 77, 1296–1312.

Riggio, R. E., Salinas, C., & Tucker, J. (1988). Personality and deception ability. Personality and Individual Differences, 9 (1), 189–191.

Smith, B. L., Brown, B. L., Strong, W. J., & Rencher, A. C. (1975). Effects of speech rate on personality perception. Language and Speech, 18, 145–152.

Schacter, Gilbert, Wegner. (2011). Psychology (2nd ed.). Worth. pp. 474–475.

Scherer, K. R. (2003). Vocal communication of emotion: A review of research paradigms. Speech Communication, 40 (1-2), 227–256.

Schwartz, HA., Eichstaedt, JC., Kern, ML., Dziurzynski, L., Ramones, SM. (2013). Personality, Gender, and Age in the Language of Social Media: The Open-Vocabulary Approach. PLoS ONE 8(9): e73791. doi:10.1371/journal.pone.0073791 Wald, Randall., Taghi Khoshgoftaar, & Chris Sumner. (2012). Machine Prediction of Personality from Facebook Profiles. IRI, page 109-115. IEEE.

(9)

Yarkoni, Tal. (2010). Personality in 100.000 Words: A large scale analysis of personality and word use among bloggers. J Res Pers, 2010 June 1; 44(3), 363-373.

Gambar

Tabel 1. Kategori LIWC dan nilai korelasi Yarkoni (2010)
Gambar 1. Sistem prediksi kepribadian Big 5 pengguna
Tabel 2. Kategori LIWC yang memberikan signifikan pada nilai korelasi ρ di atas 0.1
Tabel 5. Hasil kuesioner data pengujian beserta rangkuman
+2

Referensi

Dokumen terkait

Data kuartalan atau semesteran sebaiknya digunakan untuk lebih dapat mengantisipasi struktur nonlinearitas pada perubahan return saham menggunakan formulasi model nonlinear

Aplikasi analisis pola garis dasar tulisan tangan ini dibangun menggunakan metode Support Vector Machine (SVM) yang terbagi menjadi dua tahapan yaitu tahap pelatihan dan tahap

Dengan demikian, kata-kata yang dituliskan oleh seorang pemilik akun media sosial dapat digunakan untuk memahami kepribadiannya.. Pengukuran self-report tidak praktis

Pada penelitian ini dilakukan pengimplementasian algoritma C4.5 dengan data yang diperoleh dari hasil analisis perilaku pengguna Twitter untuk mendapat model pendeteksi kepribadian

Tahapan dalam penelitian ini yaitu persiapan pengumpulan data penelitian data sekunder yang disimpan di dalam file format (.jpg) dengan jumlah data puluhan ribu dan tahap kedua

Aplikasi analisis pola garis dasar tulisan tangan ini dibangun menggunakan metode Support Vector Machine (SVM) yang terbagi menjadi dua tahapan yaitu tahap pelatihan dan tahap

dilihat dari grafik bahwa semakin banyak jumlah data latih yang digunakan akan menghasilkan nilai MAPE yang semakin kecil meskipun terjadi peningkatan yang tidak

Kemudian dari hasil testing 52 data didapat hasil 43 komentar negatif dan 9 komentar positif sehingga dapat disimpulkan masyarakat lebih banyak yang tidak setuju dengan adanya kenaikan