Rekomendasi Lagu berdasarkan Lirik dan Genre Lagu menggunakan Metode Word Embedding (Word2Vec)

(1)

Fakultas Ilmu Komputer

Universitas Brawijaya

7898

Rekomendasi Lagu berdasarkan Lirik dan Genre Lagu menggunakan

Metode Word Embedding (Word2Vec)

Melati Ayuning Lestari1_{, Putra Pandu Adikara}2_{, Sigit Adinugroho}3

Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya Email: 1_{[email protected],}2_{[email protected],}3_{[email protected]}

Abstrak

Mendengarkan lagu telah menjadi kebiasaan dalam kegiatan sehari-hari masyarakat dengan berbagai tujuan, dan setiap waktu ada lagu yang disebarkan ke masyarakat salah satunya lewat penyedia layanan pemutar lagu. Pengguna layanan pun dihadapi pada keterbatasan untuk menjelajahi pilihan-pilihan lagu yang melimpah dengan banyaknya layanan pemutar lagu yang ada. Model perekomendasian lagu dapat memainkan peran sebagai penyeleksi lagu otomatis, sehingga memudahkan pengalaman pengguna. Penelitian model perekomendasian lagu ini menggunakan metode Word2Vec Skip-Gram yang berperan untuk menghasilkan bobot yang berguna untuk query expansion dari lirik lagu yang dicari. Sebelumnya TF-IDF digunakan untuk menyeleksi kata-kata dalam lirik yang akan di proses. Model akan memberikan daftar lagu rekomendasi sebanyak 10 lagu. Hasil dari evaluasi daftar rekomendasi lagu menunjukkan nilai rata-rata Precision@10 tertinggi yang diperoleh sebesar 0.584 dan nilai Mean Average Precision (MAP) tertinggi diperoleh sebesar 0,7278.

Kata kunci: Rekomendasi, Lagu, Word2Vec, Skip-gram, TF-IDF, Query Expansion, Cosine Similarity.

Abstract

Listening to songs has become a norm in society, serving many different purposes, and songs are released frequently nowadays, especially by media-service providers. Users need to overcome the struggle of selecting specific songs because of the enormous information provided by media-service providers. The song recommendation model can play an important part in this puzzlement as an automatic song selector, thus improving the user’s experience. In this research, the song recommendation model uses Word2Vec Skip-Gram that functions as a query expansion for the sole purpose of finding the desired lyrics by producing a weight for query expansion. TF-IDF is first used to select the words in the lyrics that will be expanded. The model will give a list of 10 recommended songs. The evaluation results of the recommended song list shows the highest average of precision@10 score of 0.584 and the highest Mean Average Score (MAP) score of 0.7278.

Keywords: Recommendation, Song, Word2Vec, Skip-gram, TF-IDF, Query Expansion, Cosine Similarity.

1. PENDAHULUAN

Pencarian informasi yang akurat dan relevan dengan yang diinginkan oleh pengguna merupakan salah satu tantangan yang dialami oleh pengguna saat dihadapkan dengan informasi digital yang melimpah. Walaupun dapat mengembalikan informasi yang relevan, sistem temu kembali informasi yang telah ada belum dapat memberikan informasi yang sesuai dengan yang diinginkan pengguna, sehingga pengguna melakukan usaha ekstra untuk mencari faktor pendukung lainnya dalam menentukan pilihannya seperti iklan ataupun

pendapat pengguna lain. Dengan menyaring informasi digital yang ada dan memprediksi informasi yang sesuai dengan selera pengguna, sistem rekomendasi dapat menjadi solusi untuk membantu pengguna dalam menentukan pilihan.

Mendengarkan lagu telah menjadi kebiasaan dalam kegiatan sehari-hari dengan berbagai tujuan seperti memotivasi pendengar untuk berolahraga (Fang, et al., 2017), maupun untuk melepaskan stress dan dapat mempengaruhi emosi pendengarnya. Schellenberg, et al. (2007) juga membuktikan dalam penelitiannya bahwa mendengarkan musik dapat mempengaruhi kemampuan kognitif orang dewasa dan

(2)

anak-anak dalam mengerjakan tugasnya. Dengan menjamurnya layanan pemutar musik yang ada, pengguna layanan dihadapi pada keterbatasan untuk menjelajahi pilihan-pilihan lagu yang melimpah. Dalam hal ini pengguna kesulitan untuk membuat daftar lagu yang sesuai dengan yang diinginkan pada layanan, dan pada akhirnya harus membuat daftar lagu yang random dan mencoba menyeleksi lagu dengan cara mendengarkan lagu satu persatu. Model perekomendasian lagu dapat memainkan peran sebagai penyeleksi lagu otomatis, sehingga memudahkan pengalaman pengguna.

Terdapat penelitian-penelitian sebelumnya yang membahas atau mengusung model perekomendasian lagu seperti perekomendasian lagu yang mengandalkan jaringan antar keyword dari lirik lagu, penelitian ini menggunakan TF-IDF dalam melakukan ekstraksi keyword untuk merepresentasikan lagu yang nantinya akan digunakan dalam jaringan lirik untuk menentukan lagu-lagu yang memiliki tingkat kemiripan yang baik, namun model ini tidak dapat digunakan pada lagu-lagu yang tidak memiliki lirik (Nakamura, et al., 2017). Penelitian selanjutnya adalah perekomendasian lagu yang menggunakan algoritma genetika, sistem dapat beradaptasi sesuai dengan pilihan yang dipilih oleh pengguna (Kim, et al., 2010). Penelitian yang dilakukan oleh Naser, et al.(2014) mengusung model perekomendasian lagu menggunakan sistem hybrid. penelitian mengusung model rekomendasi yang memperbaiki perekomendasian dengan basis

collaborative filtering dengan

mengombinasikan 3 sistem perhitungan: track,

tag, time. Model perekomendasian lagu yang

pernah diteliti selanjutnya adalah perekomendasian lagu menggunakan latent

semantic analysis (LSA) yang mengandalkan

riwayat music yang diakses oleh pengguna sebelumnya (Saptariani, et al., 2014).

Penelitian ini mengusung model rekomendasi yang memiliki fungsi untuk merekomendasikan lagu-lagu dengan cara menghitung similaritas lirik dalam lagu. Lirik – lirik dalam lagu akan melalui proses word

embedding (Word2Vec) yaitu adalah proses

untuk merepresentasikan lirik – lirik lagu dalam bentuk matematis (vector) dan jenis Word2Vec yang akan digunakan dalam penelitian ini adalah

Skip-gram. Cosine similarity digunakan untuk

menghitung hasil dari proses Word2Vec yang berfungsi untuk mengukur tingkat kedekatan atau kesamaan lagu – lagu yang ada. Disebutkan

bahwa Word2Vec memiliki kapasitas untuk merepresentasikan kata-kata lebih unggul dibandingkan dengan menggunakan metode LSA (Naili, et al., 2017). Diharapkan dengan digunakannya Word2Vec, model perekomendasian lagu dapat menghasilkan daftar rekomendasi lagu yang lebih baik. 2. KAJIAN PUSTAKA

2.1 Musik

Musik merupakan susunan suara atau bunyi yang membentuk sebuah melodi atau ritme sehingga memiliki sebuah nilai seni (KBBI). Susunan musik yang pendek dan memiliki lirik dapat disebut sebuah lagu. Lagu menggabungkan seni musik yang dihasilkan dari berbagai instrument music seperti gitar dan piano, dengan nyanyian berdasarkan lirik. 2.2 Text Mining

Text mining merupakan sebuah teknik yang dilakukan untuk memproses data berupa teks. Data-data teks yang ada diproses secara otomatis sehingga didapatkannya informasi dari isi data teks tersebut, seperti hasil prediksi maupun klasifikasi, yang nantinya dapat di analisis atau dijadikan bahan untuk melakukan pengambilan keputusan secara otomatis. Teknik text mining yang digunakan dalam penelitian ini adalah teknik preprocessing yang berguna untuk membersihkan teks sebelum diproses lebih lanjut menjadi representasi vektor.

2.4.1 Tokenisasi

Data teks berupa kalimat dipecah sebagai token dan akan menjadi satuan yang disebut sebagai tipe sehingga tidak ada duplikasi (Weiss, Indurkhya dan Zhang, 2015).

2.4.2 Filtering

Pembersihan data teks dari stopwords, kata-kata yang tidak memiliki kapasitas dalam merepresentasikan kalimat sehingga menggangu proses prediksi, dapat membantu untuk membentuk data teks menjadi fitur yang lebih berguna (Weiss, Indurkhya dan Zhang, 2015). Daftar stoplist yang digunakan untuk melakukan pembersihan berasal dari library NLTK.

2.3 TF-IDF

Pembobotan kata TF-IDF sering digunakan untuk menilai seberapa pentingnya kata-kata yang ada pada suatu dokumen. Jika suatu kata

(3)

muncul di berbagai tempat dengan frekuensi kemunculan kata yang tinggi, maka kata itu akan diberikan nilai yang sangat kecil karena ditandai sebagai kata yang kurang penting. Sebaliknya, jika kata-kata yang ada memiliki frekuensi kemunculan yang relative rendah di berbagai tempat maka kata-kata tersebut akan diberikan nilai yang tinggi untuk menandakan bahwa kata-kata tersebut penting (Weiss, Indurkhya dan Zhang, 2015). Tahap-tahap perhitungan TF-IDF dijelaskan pada Persamaan nomor 1 sampai 3: 1. Perhitungan Term frequency (𝑡𝑓𝑡,𝑑)

𝑡𝑓

𝑗

= 1 + log 𝑡𝑓

𝑗

(1)

Keterangan:

𝑡𝑓

_𝑗

= Jumlah kemunculan dari term (j)

2. Perhitungan Document Frequency 𝑖𝑑𝑓𝑗= log (

𝑁

𝑑𝑓𝑗) (2) Keterangan:

𝑖𝑑𝑓𝑗 = Inverse document frequency pada

dokumen (j)

𝑑𝑓𝑗 = Jumlah kemunculan pada dokumen

(j)

N = Jumlah dokumen

3. Perhitungan Term Frequency-Inverse Document Frequency

𝑊

_𝑡,𝑑

= 𝑡𝑓

_𝑗

∗ 𝑖𝑑𝑓

_𝑗 (3) Keterangan:

𝑊

𝑡,𝑑 = Bobot term (t) pada dokumen (d)

𝑖𝑑𝑓𝑗 = Inverse document frequency pada

term (j)

𝑡𝑓𝑗 = Term frequency pada term (j)

2.4 Word2Vec

Word Embedding (Word2Vec) Terdapat dua buah model arsitektur yang dapat merepresentasikan kata kata ke dalam bentuk vector yaitu adalah model Continuous

Bag-ofWords (CBOW) dan model Continuous Skip-gram. Penelitian ini akan menggunakan model Continous Skip-gram, karena model Skip-gram

dapat menangkap hubungan kata secara sintaksis dan semantic dengan baik. (Mikolov, et al., 2013). Model Skip-gram menggunakan kata yang terletak di tengah kalimat yang dipilih untuk memprediksi katakata lain yang berada di kalimat tersebut. Dalam prosesnya, model akan melakukan feed forward dan kalkulasi error untuk memberikan nilai baru pada bobot. Terdapat beberapa tahapan algoritme Word2Vec

dengan model Skip-Gram, yaitu:

1. Perhitungan bobot pada hidden layer

ℎ = 𝑥

𝑇

₍₄₎

Keterangan:

ℎ = Matriks hidden layer

𝑥

𝑇 = Vektor input W = Matriks bobot

2. Perhitungan dari hidden layer ke output

layer.

𝑢𝑐 = 𝑊′𝑇ℎ (5)

Keterangan:

𝑢𝑐 = Output ke-c dari hidden layer

𝑊′𝑇 = Matriks bobot dari hidden layer

menuju ouput layer ℎ = Matriks Hidden layer 3. Perhitungan fungsi softmax.

𝑦𝑐,𝑗=

exp (𝑢𝑐,𝑗)

∑𝑊𝑤=1exp (𝑢𝑗′) (6) Keterangan:

𝑦𝑐,𝑗 = fungsi softmax

𝑢𝑐,𝑗 = Matriks output pada baris ke-j

𝑢𝑗′ = Matriks output pada seluruh baris

4. Perhitungan perubahan bobot w2

𝑊′𝑐,𝑗𝑛𝑒𝑤= 𝑊′𝑐,𝑗𝑜𝑙𝑑− 𝜂 ∗ ∑𝐶𝑐=1(𝑦𝑐,𝑗− 𝑡𝑐,𝑗)∗ ℎ (7) Keterangan:

𝑊′𝑐,𝑗𝑛𝑒𝑤 = Bobot baru pada baris ke-j

𝑊′_𝑐,𝑗𝑜𝑙𝑑 = Bobot lama pada baris ke-j 𝜂 = Learning rate

𝑦𝑐,𝑗 = Output pada baris ke-j

𝑡𝑐,𝑗 = Target pada baris ke-j

h = Matriks Hidden layer 5. Perhitungan perubahan bobot w1

𝑊_𝑐,𝑗𝑛𝑒𝑤_{= 𝑊}

𝑐,𝑗𝑜𝑙𝑑− 𝜂 ∗ ∑𝐶𝑐=1(𝑦𝑐,𝑗− 𝑡𝑐,𝑗)∗ 𝑤′𝑐,𝑗𝑜𝑙𝑑(8) Keterangan:

𝑊𝑐,𝑗𝑛𝑒𝑤 = Bobot baru pada baris ke-j

𝑊_𝑐,𝑗𝑜𝑙𝑑 = Bobot lama pada baris ke-j 𝜂 = Learning rate

𝑦𝑐,𝑗 = Output pada baris ke-j

𝑡𝑐,𝑗 = Target pada baris ke-j

𝑤′_𝑐,𝑗𝑜𝑙𝑑 = Bobot lama pada baris ke-j 6. Perhitungan kedekatan kata

𝜃 = ∑(𝑤 ′ 𝑐,𝑗 𝑛𝑒𝑤 ∗ 𝑤_𝑐,𝑗𝑛𝑒𝑤) [∑ 𝑎𝑏𝑠(𝑤_𝑐,𝑗𝑛𝑒𝑤)2_]1/2_{∗ [∑ 𝑎𝑏𝑠(𝑤}′ 𝑐,𝑗 𝑛𝑒𝑤 )2_]1/2 (9) Keterangan: 𝜃 = Vektor kata

(4)

𝑤′_𝑐,𝑗𝑛𝑒𝑤 = Bobot baru pada baris ke-j 𝑤′𝑐,𝑗𝑜𝑙𝑑 = Bobot lama pada baris ke-j

2.5 Cosine Similarity

Data – data teks dapat di proses lebih lanjut menggunakan model ruang vektor. Hal ini dilakukan untuk mengurutkan data-data dengan membandingkan tingkat similaritas setiap data. Perhitungan dilakukan dengan fungsi Cosine

Similarity, menghitung data yang telah direpresentasikan sebagai vector dengan besar sudut di antara vector pada Persamaan 10.

𝑠𝑖𝑚(𝑑𝑗, 𝑞) = 𝑑_𝑗 ∙𝑞 ‖𝑑𝑗‖‖𝑞‖= ∑𝑁_𝑖=1𝑤_𝑖,𝑗𝑤_𝑖,𝑞 √∑𝑁_𝑖=1𝑤_𝑖,𝑗2√∑𝑁_𝑖=1𝑤_𝑖,𝑞2 (10) Keterangan :

𝑠𝑖𝑚(𝑑𝑗, 𝑞) = Similaritas dokumen ke-j dengan

query

𝑑𝑗 = Dokumen

𝑞 = Query

𝑤𝑖,𝑗 = Bobot ke-i pada dokumen ke-j

𝑤𝑖,𝑞 = Bobot ke-i pada query ke-j

2.6 Evaluasi

Penelitian model Rekomendasi lagu yang diusung ini akan menggunakan evaluasi berperingkat. Untuk mengukur kinerja model maka dilakukan pengukuran precision rate @ k, dan mean average precision (MAP) pada informasi yang dikembalikan dipengaruhi oleh peringkat informasi (Weiss, Indurkhya dan Zhang, 2015). 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑟𝑎𝑡𝑒 @ 𝑘 = |𝑟𝑒𝑙𝑒𝑣𝑎𝑛 𝑝𝑎𝑑𝑎 𝑘| |𝑑𝑜𝑘.𝑑𝑖𝑝𝑒𝑟𝑜𝑙𝑒ℎ 𝑝𝑎𝑑𝑎 𝑘| (11) MAP =1 N∑ 1 Q_j∑ P(doci) Qj i=1 N j=1 (12) Keterangan: 𝑄𝑗 = Banyaknya dokumen

relevan untuk query j N = Banyaknya query

𝑃(𝑑𝑜𝑐𝑖) = Precision pada dokumen

relevan ke-i

3. IMPLEMENTASI ALGORITME

Strategi penelitian yang dilakukan dengan mengumpulan data lirik melalui website penyedia lirik lagu dan juga genre lagu menggunakan API. Setelah data telah dikumpulkan, maka dilakukan proses yang ada pada Gambar1.

Gambar 1. Gambaran alir proses pada model Tahapan yang pertama dilakukan adalah memproses masukan (input) yang dimasukan kedalam model menggunakan preprocessing yang merupakan salah satu teknik dalam text

mining. Setelah itu, hasil dari preprocessing akan

dimasukan kedalam jaringan saraf tiruan word embedding (Word2Vec). Hasil vektor dari jaringan saraf tiruan ini lalu diteruskan ke proses

Cosine Similarity untuk mendapatkan tingkat

kemiripan data lagu. Model lalu memberikan rekomendasi judul dan genre lagu dengan tingkat kemiripan paling tinggi sebanyak jumlah rekomendasi lagu yang ditentukan sebelumnya. 4. PENGUJIAN DAN ANALISIS

Dalam pengujian yang dilakukan dalam penelitian ini, nilai batas K yang digunakan untuk menghitung nilai evaluasi precision dan

recall adalah 10 (precision @ 10). Untuk

pengujian model rekomendasi, parameter-parameter yang digunakan yaitu learning rate,

hidden neuron, window size, epoch, Top-N kata

TF-IDF dan Top-N kata Word2Vec, merujuk pada jurnal penelitian (Caselles-Dupré, Lesaint dan Royo-Letelier, 2018) mengenai

hyperparameter optimal untuk proses rekomendasi dan merujuk pada parameter

default Word2Vec dari gensim.

4.1 Rata-rata Precision@10 untuk Pengujian Kata Tertinggi (N) TF-IDF

Tabel 1. Hasil Pengujian Precision@k Top-N Kata Hasil TF-IDF

Top-N tf-idf Jumlah Query Jumlah Relevan Tidak Relevan Rata-rata Precision @10 5 25 146 104 0.584 10 25 148 102 0.592 25 25 141 109 0.564 50 25 131 119 0.524

Tabel 1 menunjukkan nilai rata-rata

(5)

Nilai tertinggi ini dihasilkan dengan mengambil nilai kata tertinggi TF-IDF sebanyak 10 kata dengan nilai relevansi tertinggi sebesar 148 buah data relevan yang dinilai oleh penguji model. Sementara nilai presisi terendah dengan nilai sebesar 0.524 diperoleh dengan mengambil jumlah kata tertinggi TF-IDF sebanyak 50 kata. Presisi yang paling rendah diantara ke-4 pengujian tersebut didapat karena jumlah data relevan yang dinilai juga paling rendah yaitu sebanyak 131 data. Hal ini disebabkan oleh banyaknya kata yang di hasilkan pada tahap

query expansion. Hasil rekomendasi menjadi

banyak yang tidak relevan, karena pencarian dokumen terlalu beragam.

Tabel 2. Hasil Pengujian MAP Top-N Kata Hasil TF-IDF

Top-N kata hasil TF-IDF Nilai MAP

5 0.7010

10 0.7161

25 0.6615

50 0.6676

Tabel 2 menunjukkan hasil nilai MAP menunjukkan skor tertinggi diraih dengan mengambil nilai-N kata tertinggi TF-IDF sebanyak 10 kata. Jika dilihat nilai MAP pada Tabel 2, nilai MAP cenderung menurun, yang berarti nilai presisi menurun dan diakibatkan oleh nilai relevansi yang juga menurun. Setelah pengambilan kata sebanyak 10 kata, nilai MAP langsung menurun. Ini dikarenakan semakin banyaknya kata tertinggi yang diambil, maka semakin banyak juga kata-kata terdekat yang dihitung pada proses Word2Vec dan pada akhirnya query baru tidak dapat merepresentasikan pencarian yang dimaksud oleh pengguna model rekomendasi.

4.2 Pengujian dan Pembahasan Kata Terdekat (N) Word2Vec yang Diambil

Tabel 3. Rata-rata Precision@10 untuk Pengujian Kata Terdekat (N) Word2Vec

Top-N tf-idf Jumlah Query Jumlah Relevan Tidak Relevan Rata-rata Precision @10 3 25 146 104 0.584 5 25 144 106 0.576 7 25 136 114 0.544 10 25 141 109 0.564

Tabel 3 menunjukkan skor precision@k tertinggi diperoleh dengan menambahkan 3 kata tertinggi yang dihasilkan dengan menghitung bobot Word2Vec dan nilai TF-IDF query yang baru. Jumlah data relevan yang ada dengan menggunakan parameter pengambilan 3 kata ini juga paling tinggi diantara ke-4 pengujian pengambilan kata-N tertinggi setelah melakukan proses perhitungan query expansion, sehingga memberikan nilai presisi yang lebih tinggi dari yang lain sebesar 0.584. Data yang tidak relevan pada nilai parameter pengambilan 3 kata ini juga menjadi yang paling rendah diantara ke-4 nilai pengujian parameter. Menurunnya nilai rata-rata

precision@10 seiring dengan naiknya pemilihan

kata hasil dari perhitungan bobot Word2Vec menandakan bahwa semakin banyaknya kata yang di proses melalui query expansion, hasil rekomendasinya pun menjadi semakin bervariatif. Jika dilihat dari bentuk data, lagu memiliki lirik yang pendek dan berulang-ulang, sehingga daftar rekomendasi lagu dapat dengan mudah berubah maksud jika hasil kata-kata

query expansion terlalu luas.

Tabel 4. Perhitungan Nilai MAP untuk Pengujian Kata Tertinggi (N) Word2Vec

Top-N kata hasil Word2Vec Nilai MAP 3 0.7077 5 0.7102 7 0.7278 10 0.7277

Namun, jika dilihat dari sisi penilaian evaluasi MAP parameter bernilai 7 mendapatkan skor terbaik sebesar 0.7278. Ini berarti, jika evaluasi relevansi ditentukan berdasarkan peringkat data relevan dalam daftar lagu yang ada, pengambilan 7 kata terdekat dari query rata-rata memberikan lagu yang relevan dengan peringkat yang paling baik diantara ke-4 nilai parameter pengujian. Dalam kata lain, berdasarkan evaluasi

precision@10 hasil rekomendasi akan semakin

tidak relevan dengan meluasnya kata-kata yang digunakan ke dalam query terbaru. Namun walau begitu, nilai MAP cenderung naik. Hal ini menandakan bahwa perubahan nilai parameter secara berkala mulai dari 3, 5, 7 dan 10, rata-rata masih dapat memberikan daftar rekomendasi

(6)

lagu yang relevan sesuai ranking kedekatan lagu dengan query yang dicari.

4.3 Pengujian dan Pembahasan Pengaruh Penggunaan Query Expansion

Tabel 5. Perhitungan Nilai Precision@k untuk Pengujian Model Tanpa Query Expansion. Jumlah Query Jumlah Relevan Tidak Relevan Rata-rata Precision@10 25 151 99 0,604

Hasil dari pengujian model tanpa penggunaan query expansion menunjukkan skor yang lebih tinggi daripada pengujian model perekomendasian lagu yang menggunakan query

expansion atau pembaruan query menggunakan

kata-kata terdekat yang dihasilkan oleh

Word2Vec. Hasil pengujian model

perekomendasian lagu dengan tidak menggunakan query expansion dapat dilihat pada Tabel 5 dan Tabel 6. Dengan tidak menggunakan query expansion jumlah data relevan yang terekomendasi oleh model sebesar 151 data, dengan jumlah data tidak relevan sebanyak 99 data lagu rekomendasi. Rata-rata

precision@10 pada pengujian tanpa query expansion memiliki skor 0,604, lebih besar dari

rata-rata precision@10 saat menggunakan query

expansion, yaitu 0,584. Hal tersebut menunjukkan bahwa model yang menggunakan metode Word2Vec tidak dapat menghasilkan rekomendasi lagu dengan data relevan yang lebih baik, karena kata yang ditambahkan menghasilkan query baru yang tidak dapat merepresentasikan pencarian yang user maksud atau inginkan.

Tabel 6. Perhitungan Nilai MAP untuk Pengujian Model Tanpa Query Expansion.

Jumlah Query Nilai MAP

25 0,6829

Nilai MAP model tanpa query expansion lebih kecil daripada nilai MAP untuk model yang menggunakan query expansion. Nilai MAP untuk pengambilan 7 kata terdekat menggunakan Word2Vec sebesar 0.7278, Sementara nilai MAP untuk model yang tidak menggunakan query expansion memperoleh nilai sebesar 0.6892. Ini menunjukkan jika peringkat relevansi pada daftar rekomendasi lagu dianggap penting, maka penggunaan query

expansion pada model perekomendasian lagu

lebih unggul daripada model yang tidak menggunakan query expansion.

5. KESIMPULAN DAN SARAN

Beberapa kesimpulan yang dapat ditarik dari penelitian yang dilakukan oleh penulis yaitu

Word2Vec menghitung tiap kata yang terdapat

pada lirik tiap lagu yang ada pada dataset. Proses pembobotan tersebut diakukan hingga epoch yang telah ditetapkan atau hingga konvergen. Bobot yang dihasilkan oleh Word2Vec ini nantinya digunakan untuk melakukan proses

query expansion. Sebelumnya, Nilai TF-IDF

lagu dihitung untuk proses pencarian nilai katatertinggi. Kata tertinggi yang telah terseleksi sebanyak N-kata selanjutnya dihitung kedekatannya dengan kata-kata lain menggunakan Word2Vec. Hasil dari pengambilan nilai TF-IDF lagu yang terbaik adalah sebanyak 10 kata dengan skor

precision@10 sebesar 0.592 serta nilai MAP

sebesar 0.7161. Hasil dari pengambilan kata-kata terdekat sebanyak N untuk Word2Vec adalah 3, dengan nilai precision@10 sebesar 0.584, Namun nilai tertinggi yang dihasilkan dari Mean Average Precision (MAP) yaitu sebesar 0,7278, pada saat kata terdekat sebanyak N untuk Word2Vec yang diambil sebanyak 7 dengan nilai Precision@10 0,544.

Penelitian yang telah dilakukan oleh penulis masih belum dapat menguji semua parameter yang ada. Selain itu, masih terdapat ruang untuk menggali potensi penelitian ini sehingga dapat memberikan manfaat yang lebih luas terhadap masyarakat. Beberapa saran yang dapat membantu penyempurnaan penelitian ini di masa depan yaitu penambahan pengujian parameter window size, learning rate, dan pembobotan awal untuk mencari nilai parameter yang optimal, sehingga pada akhirnya dapat membantu dalam memperbaiki nilai presisi menjadi lebih tinggi lagi, selanjutnya dapat menggunakan Bi-gram atau N-gram untuk pelatihan bobot Word2Vec selanjutnya. Bi-gram atau N-gram digunakan agar tidak ada kata-kata yang terpisah karena tokenisasi, karena saat dipisah kata-kata tersebut jadi memiliki arti yang berbeda.

6. DAFTAR REFERENSI

Intekhab Naser, Reena Pagare, NayanKumar Wathap, Vinod Pingale (2014). Hybrid Music Recommendation System. In: 2014

(7)

Annual IEEE India Conference (INDICON). [online] IEEE. Tersedia di:

<https://ieeexplore.ieee.org/stamp/stamp. jsp?arnumber=7030392> [Diakses 11 Juni 2019].

Kim, H., Kim, E., Lee, J. and Ahn, C. (2010)., A recommender system based on genetic algorithm for music data, 2010 2nd

International Conference on Computer Engineering and Technology. Chengdu,

China, pp.414-417. Tersedia di: <https://ieeexplore.ieee.org/document/54 86161/> [Diakses 28 Oktober 2018]. Nakamura, K., Fujisawa, T., & Kyoudou, T.

(2017). Music recommendation system using lyric network. 2017 IEEE 6th

Global Conference on Consumer Electronics, GCCE 2017, 2017– January(Gcce), pp.1-2. Tersedia di :

<https://doi.org/10,1109/GCCE.2017.822 9316> [Diakses 28 Oktober 2018]. Saptariani, T., Pramana, E., Shabrina, F. N.,

Theodora, R., & Sabrina, A. O. (2014). Sistem Rekomendasi Musik Menggunakan Latent Semantic Analysis.

Prosiding Seminar Ilmiah Nasional Komputer Dan Sistem Intelijen (KOMMIT 2014), 8(Kommit), 416–424. Tersedia di : <https://media.neliti.com/media/publicati ons/172797-ID-none.pdf%0Ahttp://ejournal.gunadarma.a c.id/index.php/kommit/article/view/1059 > [Diakses 28 Oktober 2018].

Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. (2013). Efficient estimation of word representations in vector space,

International Conference on Learning Representations. Scottsdale, Arizona.

Tersedia di: <

https://arxiv.org/abs/1301.3781> [Diakses 28 Oktober 2018].

T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean (2013), Distributed Representations of Words and Phrases and their Compositionality, Neural Information Processing Systems. Tersedia di: <https://papers.nips.cc/paper/5021- distributed-representations-of-words-and-phrases-and-their-compositionality.pdf> [Diakses 28 Oktober 2018].

Weiss, S., Indurkhya, N. and Zhang, T. (2015). Fundamentals of Predictive Text Mining.

London: Springer London. p.35-37. [Diakses 28 Oktober 2018].