Fakultas Ilmu Komputer
Universitas Brawijaya
7898
Rekomendasi Lagu berdasarkan Lirik dan Genre Lagu menggunakan
Metode Word Embedding (Word2Vec)
Melati Ayuning Lestari1, Putra Pandu Adikara2, Sigit Adinugroho3
Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya Email: 1[email protected], 2[email protected], 3[email protected]
Abstrak
Mendengarkan lagu telah menjadi kebiasaan dalam kegiatan sehari-hari masyarakat dengan berbagai tujuan, dan setiap waktu ada lagu yang disebarkan ke masyarakat salah satunya lewat penyedia layanan pemutar lagu. Pengguna layanan pun dihadapi pada keterbatasan untuk menjelajahi pilihan-pilihan lagu yang melimpah dengan banyaknya layanan pemutar lagu yang ada. Model perekomendasian lagu dapat memainkan peran sebagai penyeleksi lagu otomatis, sehingga memudahkan pengalaman pengguna. Penelitian model perekomendasian lagu ini menggunakan metode Word2Vec Skip-Gram yang berperan untuk menghasilkan bobot yang berguna untuk query expansion dari lirik lagu yang dicari. Sebelumnya TF-IDF digunakan untuk menyeleksi kata-kata dalam lirik yang akan di proses. Model akan memberikan daftar lagu rekomendasi sebanyak 10 lagu. Hasil dari evaluasi daftar rekomendasi lagu menunjukkan nilai rata-rata Precision@10 tertinggi yang diperoleh sebesar 0.584 dan nilai Mean Average Precision (MAP) tertinggi diperoleh sebesar 0,7278.
Kata kunci: Rekomendasi, Lagu, Word2Vec, Skip-gram, TF-IDF, Query Expansion, Cosine Similarity.
Abstract
Listening to songs has become a norm in society, serving many different purposes, and songs are released frequently nowadays, especially by media-service providers. Users need to overcome the struggle of selecting specific songs because of the enormous information provided by media-service providers. The song recommendation model can play an important part in this puzzlement as an automatic song selector, thus improving the user’s experience. In this research, the song recommendation model uses Word2Vec Skip-Gram that functions as a query expansion for the sole purpose of finding the desired lyrics by producing a weight for query expansion. TF-IDF is first used to select the words in the lyrics that will be expanded. The model will give a list of 10 recommended songs. The evaluation results of the recommended song list shows the highest average of precision@10 score of 0.584 and the highest Mean Average Score (MAP) score of 0.7278.
Keywords: Recommendation, Song, Word2Vec, Skip-gram, TF-IDF, Query Expansion, Cosine Similarity.
1. PENDAHULUAN
Pencarian informasi yang akurat dan relevan dengan yang diinginkan oleh pengguna merupakan salah satu tantangan yang dialami oleh pengguna saat dihadapkan dengan informasi digital yang melimpah. Walaupun dapat mengembalikan informasi yang relevan, sistem temu kembali informasi yang telah ada belum dapat memberikan informasi yang sesuai dengan yang diinginkan pengguna, sehingga pengguna melakukan usaha ekstra untuk mencari faktor pendukung lainnya dalam menentukan pilihannya seperti iklan ataupun
pendapat pengguna lain. Dengan menyaring informasi digital yang ada dan memprediksi informasi yang sesuai dengan selera pengguna, sistem rekomendasi dapat menjadi solusi untuk membantu pengguna dalam menentukan pilihan.
Mendengarkan lagu telah menjadi kebiasaan dalam kegiatan sehari-hari dengan berbagai tujuan seperti memotivasi pendengar untuk berolahraga (Fang, et al., 2017), maupun untuk melepaskan stress dan dapat mempengaruhi emosi pendengarnya. Schellenberg, et al. (2007) juga membuktikan dalam penelitiannya bahwa mendengarkan musik dapat mempengaruhi kemampuan kognitif orang dewasa dan
anak-anak dalam mengerjakan tugasnya. Dengan menjamurnya layanan pemutar musik yang ada, pengguna layanan dihadapi pada keterbatasan untuk menjelajahi pilihan-pilihan lagu yang melimpah. Dalam hal ini pengguna kesulitan untuk membuat daftar lagu yang sesuai dengan yang diinginkan pada layanan, dan pada akhirnya harus membuat daftar lagu yang random dan mencoba menyeleksi lagu dengan cara mendengarkan lagu satu persatu. Model perekomendasian lagu dapat memainkan peran sebagai penyeleksi lagu otomatis, sehingga memudahkan pengalaman pengguna.
Terdapat penelitian-penelitian sebelumnya yang membahas atau mengusung model perekomendasian lagu seperti perekomendasian lagu yang mengandalkan jaringan antar keyword dari lirik lagu, penelitian ini menggunakan TF-IDF dalam melakukan ekstraksi keyword untuk merepresentasikan lagu yang nantinya akan digunakan dalam jaringan lirik untuk menentukan lagu-lagu yang memiliki tingkat kemiripan yang baik, namun model ini tidak dapat digunakan pada lagu-lagu yang tidak memiliki lirik (Nakamura, et al., 2017). Penelitian selanjutnya adalah perekomendasian lagu yang menggunakan algoritma genetika, sistem dapat beradaptasi sesuai dengan pilihan yang dipilih oleh pengguna (Kim, et al., 2010). Penelitian yang dilakukan oleh Naser, et al.(2014) mengusung model perekomendasian lagu menggunakan sistem hybrid. penelitian mengusung model rekomendasi yang memperbaiki perekomendasian dengan basis
collaborative filtering dengan
mengombinasikan 3 sistem perhitungan: track,
tag, time. Model perekomendasian lagu yang
pernah diteliti selanjutnya adalah perekomendasian lagu menggunakan latent
semantic analysis (LSA) yang mengandalkan
riwayat music yang diakses oleh pengguna sebelumnya (Saptariani, et al., 2014).
Penelitian ini mengusung model rekomendasi yang memiliki fungsi untuk merekomendasikan lagu-lagu dengan cara menghitung similaritas lirik dalam lagu. Lirik – lirik dalam lagu akan melalui proses word
embedding (Word2Vec) yaitu adalah proses
untuk merepresentasikan lirik – lirik lagu dalam bentuk matematis (vector) dan jenis Word2Vec yang akan digunakan dalam penelitian ini adalah
Skip-gram. Cosine similarity digunakan untuk
menghitung hasil dari proses Word2Vec yang berfungsi untuk mengukur tingkat kedekatan atau kesamaan lagu – lagu yang ada. Disebutkan
bahwa Word2Vec memiliki kapasitas untuk merepresentasikan kata-kata lebih unggul dibandingkan dengan menggunakan metode LSA (Naili, et al., 2017). Diharapkan dengan digunakannya Word2Vec, model perekomendasian lagu dapat menghasilkan daftar rekomendasi lagu yang lebih baik. 2. KAJIAN PUSTAKA
2.1 Musik
Musik merupakan susunan suara atau bunyi yang membentuk sebuah melodi atau ritme sehingga memiliki sebuah nilai seni (KBBI). Susunan musik yang pendek dan memiliki lirik dapat disebut sebuah lagu. Lagu menggabungkan seni musik yang dihasilkan dari berbagai instrument music seperti gitar dan piano, dengan nyanyian berdasarkan lirik. 2.2 Text Mining
Text mining merupakan sebuah teknik yang dilakukan untuk memproses data berupa teks. Data-data teks yang ada diproses secara otomatis sehingga didapatkannya informasi dari isi data teks tersebut, seperti hasil prediksi maupun klasifikasi, yang nantinya dapat di analisis atau dijadikan bahan untuk melakukan pengambilan keputusan secara otomatis. Teknik text mining yang digunakan dalam penelitian ini adalah teknik preprocessing yang berguna untuk membersihkan teks sebelum diproses lebih lanjut menjadi representasi vektor.
2.4.1 Tokenisasi
Data teks berupa kalimat dipecah sebagai token dan akan menjadi satuan yang disebut sebagai tipe sehingga tidak ada duplikasi (Weiss, Indurkhya dan Zhang, 2015).
2.4.2 Filtering
Pembersihan data teks dari stopwords, kata-kata yang tidak memiliki kapasitas dalam merepresentasikan kalimat sehingga menggangu proses prediksi, dapat membantu untuk membentuk data teks menjadi fitur yang lebih berguna (Weiss, Indurkhya dan Zhang, 2015). Daftar stoplist yang digunakan untuk melakukan pembersihan berasal dari library NLTK.
2.3 TF-IDF
Pembobotan kata TF-IDF sering digunakan untuk menilai seberapa pentingnya kata-kata yang ada pada suatu dokumen. Jika suatu kata
muncul di berbagai tempat dengan frekuensi kemunculan kata yang tinggi, maka kata itu akan diberikan nilai yang sangat kecil karena ditandai sebagai kata yang kurang penting. Sebaliknya, jika kata-kata yang ada memiliki frekuensi kemunculan yang relative rendah di berbagai tempat maka kata-kata tersebut akan diberikan nilai yang tinggi untuk menandakan bahwa kata-kata tersebut penting (Weiss, Indurkhya dan Zhang, 2015). Tahap-tahap perhitungan TF-IDF dijelaskan pada Persamaan nomor 1 sampai 3: 1. Perhitungan Term frequency (𝑡𝑓𝑡,𝑑)
𝑡𝑓
𝑗= 1 + log 𝑡𝑓
𝑗(1)
Keterangan:
𝑡𝑓
𝑗= Jumlah kemunculan dari term (j)
2. Perhitungan Document Frequency 𝑖𝑑𝑓𝑗= log (
𝑁
𝑑𝑓𝑗) (2) Keterangan:
𝑖𝑑𝑓𝑗 = Inverse document frequency pada
dokumen (j)
𝑑𝑓𝑗 = Jumlah kemunculan pada dokumen
(j)
N = Jumlah dokumen
3. Perhitungan Term Frequency-Inverse Document Frequency
𝑊
𝑡,𝑑= 𝑡𝑓
𝑗∗ 𝑖𝑑𝑓
𝑗 (3) Keterangan:𝑊
𝑡,𝑑 = Bobot term (t) pada dokumen (d)𝑖𝑑𝑓𝑗 = Inverse document frequency pada
term (j)
𝑡𝑓𝑗 = Term frequency pada term (j)
2.4 Word2Vec
Word Embedding (Word2Vec) Terdapat dua buah model arsitektur yang dapat merepresentasikan kata kata ke dalam bentuk vector yaitu adalah model Continuous
Bag-ofWords (CBOW) dan model Continuous Skip-gram. Penelitian ini akan menggunakan model Continous Skip-gram, karena model Skip-gram
dapat menangkap hubungan kata secara sintaksis dan semantic dengan baik. (Mikolov, et al., 2013). Model Skip-gram menggunakan kata yang terletak di tengah kalimat yang dipilih untuk memprediksi katakata lain yang berada di kalimat tersebut. Dalam prosesnya, model akan melakukan feed forward dan kalkulasi error untuk memberikan nilai baru pada bobot. Terdapat beberapa tahapan algoritme Word2Vec
dengan model Skip-Gram, yaitu:
1. Perhitungan bobot pada hidden layer
ℎ = 𝑥
𝑇(4)
Keterangan:
ℎ = Matriks hidden layer
𝑥
𝑇 = Vektor input W = Matriks bobot2. Perhitungan dari hidden layer ke output
layer.
𝑢𝑐 = 𝑊′𝑇ℎ (5)
Keterangan:
𝑢𝑐 = Output ke-c dari hidden layer
𝑊′𝑇 = Matriks bobot dari hidden layer
menuju ouput layer ℎ = Matriks Hidden layer 3. Perhitungan fungsi softmax.
𝑦𝑐,𝑗=
exp (𝑢𝑐,𝑗)
∑𝑊𝑤=1exp (𝑢𝑗′) (6) Keterangan:
𝑦𝑐,𝑗 = fungsi softmax
𝑢𝑐,𝑗 = Matriks output pada baris ke-j
𝑢𝑗′ = Matriks output pada seluruh baris
4. Perhitungan perubahan bobot w2
𝑊′𝑐,𝑗𝑛𝑒𝑤= 𝑊′𝑐,𝑗𝑜𝑙𝑑− 𝜂 ∗ ∑𝐶𝑐=1(𝑦𝑐,𝑗− 𝑡𝑐,𝑗)∗ ℎ (7) Keterangan:
𝑊′𝑐,𝑗𝑛𝑒𝑤 = Bobot baru pada baris ke-j
𝑊′𝑐,𝑗𝑜𝑙𝑑 = Bobot lama pada baris ke-j 𝜂 = Learning rate
𝑦𝑐,𝑗 = Output pada baris ke-j
𝑡𝑐,𝑗 = Target pada baris ke-j
h = Matriks Hidden layer 5. Perhitungan perubahan bobot w1
𝑊𝑐,𝑗𝑛𝑒𝑤= 𝑊
𝑐,𝑗𝑜𝑙𝑑− 𝜂 ∗ ∑𝐶𝑐=1(𝑦𝑐,𝑗− 𝑡𝑐,𝑗)∗ 𝑤′𝑐,𝑗𝑜𝑙𝑑(8) Keterangan:
𝑊𝑐,𝑗𝑛𝑒𝑤 = Bobot baru pada baris ke-j
𝑊𝑐,𝑗𝑜𝑙𝑑 = Bobot lama pada baris ke-j 𝜂 = Learning rate
𝑦𝑐,𝑗 = Output pada baris ke-j
𝑡𝑐,𝑗 = Target pada baris ke-j
𝑤′𝑐,𝑗𝑜𝑙𝑑 = Bobot lama pada baris ke-j 6. Perhitungan kedekatan kata
𝜃 = ∑(𝑤 ′ 𝑐,𝑗 𝑛𝑒𝑤 ∗ 𝑤𝑐,𝑗𝑛𝑒𝑤) [∑ 𝑎𝑏𝑠(𝑤𝑐,𝑗𝑛𝑒𝑤)2]1/2∗ [∑ 𝑎𝑏𝑠(𝑤′ 𝑐,𝑗 𝑛𝑒𝑤 )2]1/2 (9) Keterangan: 𝜃 = Vektor kata
𝑤′𝑐,𝑗𝑛𝑒𝑤 = Bobot baru pada baris ke-j 𝑤′𝑐,𝑗𝑜𝑙𝑑 = Bobot lama pada baris ke-j
2.5 Cosine Similarity
Data – data teks dapat di proses lebih lanjut menggunakan model ruang vektor. Hal ini dilakukan untuk mengurutkan data-data dengan membandingkan tingkat similaritas setiap data. Perhitungan dilakukan dengan fungsi Cosine
Similarity, menghitung data yang telah direpresentasikan sebagai vector dengan besar sudut di antara vector pada Persamaan 10.
𝑠𝑖𝑚(𝑑𝑗, 𝑞) = 𝑑𝑗 ∙𝑞 ‖𝑑𝑗‖‖𝑞‖= ∑𝑁𝑖=1𝑤𝑖,𝑗𝑤𝑖,𝑞 √∑𝑁𝑖=1𝑤𝑖,𝑗2√∑𝑁𝑖=1𝑤𝑖,𝑞2 (10) Keterangan :
𝑠𝑖𝑚(𝑑𝑗, 𝑞) = Similaritas dokumen ke-j dengan
query
𝑑𝑗 = Dokumen
𝑞 = Query
𝑤𝑖,𝑗 = Bobot ke-i pada dokumen ke-j
𝑤𝑖,𝑞 = Bobot ke-i pada query ke-j
2.6 Evaluasi
Penelitian model Rekomendasi lagu yang diusung ini akan menggunakan evaluasi berperingkat. Untuk mengukur kinerja model maka dilakukan pengukuran precision rate @ k, dan mean average precision (MAP) pada informasi yang dikembalikan dipengaruhi oleh peringkat informasi (Weiss, Indurkhya dan Zhang, 2015). 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑟𝑎𝑡𝑒 @ 𝑘 = |𝑟𝑒𝑙𝑒𝑣𝑎𝑛 𝑝𝑎𝑑𝑎 𝑘| |𝑑𝑜𝑘.𝑑𝑖𝑝𝑒𝑟𝑜𝑙𝑒ℎ 𝑝𝑎𝑑𝑎 𝑘| (11) MAP =1 N∑ 1 Qj∑ P(doci) Qj i=1 N j=1 (12) Keterangan: 𝑄𝑗 = Banyaknya dokumen
relevan untuk query j N = Banyaknya query
𝑃(𝑑𝑜𝑐𝑖) = Precision pada dokumen
relevan ke-i
3. IMPLEMENTASI ALGORITME
Strategi penelitian yang dilakukan dengan mengumpulan data lirik melalui website penyedia lirik lagu dan juga genre lagu menggunakan API. Setelah data telah dikumpulkan, maka dilakukan proses yang ada pada Gambar1.
Gambar 1. Gambaran alir proses pada model Tahapan yang pertama dilakukan adalah memproses masukan (input) yang dimasukan kedalam model menggunakan preprocessing yang merupakan salah satu teknik dalam text
mining. Setelah itu, hasil dari preprocessing akan
dimasukan kedalam jaringan saraf tiruan word embedding (Word2Vec). Hasil vektor dari jaringan saraf tiruan ini lalu diteruskan ke proses
Cosine Similarity untuk mendapatkan tingkat
kemiripan data lagu. Model lalu memberikan rekomendasi judul dan genre lagu dengan tingkat kemiripan paling tinggi sebanyak jumlah rekomendasi lagu yang ditentukan sebelumnya. 4. PENGUJIAN DAN ANALISIS
Dalam pengujian yang dilakukan dalam penelitian ini, nilai batas K yang digunakan untuk menghitung nilai evaluasi precision dan
recall adalah 10 (precision @ 10). Untuk
pengujian model rekomendasi, parameter-parameter yang digunakan yaitu learning rate,
hidden neuron, window size, epoch, Top-N kata
TF-IDF dan Top-N kata Word2Vec, merujuk pada jurnal penelitian (Caselles-Dupré, Lesaint dan Royo-Letelier, 2018) mengenai
hyperparameter optimal untuk proses rekomendasi dan merujuk pada parameter
default Word2Vec dari gensim.
4.1 Rata-rata Precision@10 untuk Pengujian Kata Tertinggi (N) TF-IDF
Tabel 1. Hasil Pengujian Precision@k Top-N Kata Hasil TF-IDF
Top-N tf-idf Jumlah Query Jumlah Relevan Tidak Relevan Rata-rata Precision @10 5 25 146 104 0.584 10 25 148 102 0.592 25 25 141 109 0.564 50 25 131 119 0.524
Tabel 1 menunjukkan nilai rata-rata
Nilai tertinggi ini dihasilkan dengan mengambil nilai kata tertinggi TF-IDF sebanyak 10 kata dengan nilai relevansi tertinggi sebesar 148 buah data relevan yang dinilai oleh penguji model. Sementara nilai presisi terendah dengan nilai sebesar 0.524 diperoleh dengan mengambil jumlah kata tertinggi TF-IDF sebanyak 50 kata. Presisi yang paling rendah diantara ke-4 pengujian tersebut didapat karena jumlah data relevan yang dinilai juga paling rendah yaitu sebanyak 131 data. Hal ini disebabkan oleh banyaknya kata yang di hasilkan pada tahap
query expansion. Hasil rekomendasi menjadi
banyak yang tidak relevan, karena pencarian dokumen terlalu beragam.
Tabel 2. Hasil Pengujian MAP Top-N Kata Hasil TF-IDF
Top-N kata hasil TF-IDF Nilai MAP
5 0.7010
10 0.7161
25 0.6615
50 0.6676
Tabel 2 menunjukkan hasil nilai MAP menunjukkan skor tertinggi diraih dengan mengambil nilai-N kata tertinggi TF-IDF sebanyak 10 kata. Jika dilihat nilai MAP pada Tabel 2, nilai MAP cenderung menurun, yang berarti nilai presisi menurun dan diakibatkan oleh nilai relevansi yang juga menurun. Setelah pengambilan kata sebanyak 10 kata, nilai MAP langsung menurun. Ini dikarenakan semakin banyaknya kata tertinggi yang diambil, maka semakin banyak juga kata-kata terdekat yang dihitung pada proses Word2Vec dan pada akhirnya query baru tidak dapat merepresentasikan pencarian yang dimaksud oleh pengguna model rekomendasi.
4.2 Pengujian dan Pembahasan Kata Terdekat (N) Word2Vec yang Diambil
Tabel 3. Rata-rata Precision@10 untuk Pengujian Kata Terdekat (N) Word2Vec
Top-N tf-idf Jumlah Query Jumlah Relevan Tidak Relevan Rata-rata Precision @10 3 25 146 104 0.584 5 25 144 106 0.576 7 25 136 114 0.544 10 25 141 109 0.564
Tabel 3 menunjukkan skor precision@k tertinggi diperoleh dengan menambahkan 3 kata tertinggi yang dihasilkan dengan menghitung bobot Word2Vec dan nilai TF-IDF query yang baru. Jumlah data relevan yang ada dengan menggunakan parameter pengambilan 3 kata ini juga paling tinggi diantara ke-4 pengujian pengambilan kata-N tertinggi setelah melakukan proses perhitungan query expansion, sehingga memberikan nilai presisi yang lebih tinggi dari yang lain sebesar 0.584. Data yang tidak relevan pada nilai parameter pengambilan 3 kata ini juga menjadi yang paling rendah diantara ke-4 nilai pengujian parameter. Menurunnya nilai rata-rata
precision@10 seiring dengan naiknya pemilihan
kata hasil dari perhitungan bobot Word2Vec menandakan bahwa semakin banyaknya kata yang di proses melalui query expansion, hasil rekomendasinya pun menjadi semakin bervariatif. Jika dilihat dari bentuk data, lagu memiliki lirik yang pendek dan berulang-ulang, sehingga daftar rekomendasi lagu dapat dengan mudah berubah maksud jika hasil kata-kata
query expansion terlalu luas.
Tabel 4. Perhitungan Nilai MAP untuk Pengujian Kata Tertinggi (N) Word2Vec
Top-N kata hasil Word2Vec Nilai MAP 3 0.7077 5 0.7102 7 0.7278 10 0.7277
Namun, jika dilihat dari sisi penilaian evaluasi MAP parameter bernilai 7 mendapatkan skor terbaik sebesar 0.7278. Ini berarti, jika evaluasi relevansi ditentukan berdasarkan peringkat data relevan dalam daftar lagu yang ada, pengambilan 7 kata terdekat dari query rata-rata memberikan lagu yang relevan dengan peringkat yang paling baik diantara ke-4 nilai parameter pengujian. Dalam kata lain, berdasarkan evaluasi
precision@10 hasil rekomendasi akan semakin
tidak relevan dengan meluasnya kata-kata yang digunakan ke dalam query terbaru. Namun walau begitu, nilai MAP cenderung naik. Hal ini menandakan bahwa perubahan nilai parameter secara berkala mulai dari 3, 5, 7 dan 10, rata-rata masih dapat memberikan daftar rekomendasi
lagu yang relevan sesuai ranking kedekatan lagu dengan query yang dicari.
4.3 Pengujian dan Pembahasan Pengaruh Penggunaan Query Expansion
Tabel 5. Perhitungan Nilai Precision@k untuk Pengujian Model Tanpa Query Expansion. Jumlah Query Jumlah Relevan Tidak Relevan Rata-rata Precision@10 25 151 99 0,604
Hasil dari pengujian model tanpa penggunaan query expansion menunjukkan skor yang lebih tinggi daripada pengujian model perekomendasian lagu yang menggunakan query
expansion atau pembaruan query menggunakan
kata-kata terdekat yang dihasilkan oleh
Word2Vec. Hasil pengujian model
perekomendasian lagu dengan tidak menggunakan query expansion dapat dilihat pada Tabel 5 dan Tabel 6. Dengan tidak menggunakan query expansion jumlah data relevan yang terekomendasi oleh model sebesar 151 data, dengan jumlah data tidak relevan sebanyak 99 data lagu rekomendasi. Rata-rata
precision@10 pada pengujian tanpa query expansion memiliki skor 0,604, lebih besar dari
rata-rata precision@10 saat menggunakan query
expansion, yaitu 0,584. Hal tersebut menunjukkan bahwa model yang menggunakan metode Word2Vec tidak dapat menghasilkan rekomendasi lagu dengan data relevan yang lebih baik, karena kata yang ditambahkan menghasilkan query baru yang tidak dapat merepresentasikan pencarian yang user maksud atau inginkan.
Tabel 6. Perhitungan Nilai MAP untuk Pengujian Model Tanpa Query Expansion.
Jumlah Query Nilai MAP
25 0,6829
Nilai MAP model tanpa query expansion lebih kecil daripada nilai MAP untuk model yang menggunakan query expansion. Nilai MAP untuk pengambilan 7 kata terdekat menggunakan Word2Vec sebesar 0.7278, Sementara nilai MAP untuk model yang tidak menggunakan query expansion memperoleh nilai sebesar 0.6892. Ini menunjukkan jika peringkat relevansi pada daftar rekomendasi lagu dianggap penting, maka penggunaan query
expansion pada model perekomendasian lagu
lebih unggul daripada model yang tidak menggunakan query expansion.
5. KESIMPULAN DAN SARAN
Beberapa kesimpulan yang dapat ditarik dari penelitian yang dilakukan oleh penulis yaitu
Word2Vec menghitung tiap kata yang terdapat
pada lirik tiap lagu yang ada pada dataset. Proses pembobotan tersebut diakukan hingga epoch yang telah ditetapkan atau hingga konvergen. Bobot yang dihasilkan oleh Word2Vec ini nantinya digunakan untuk melakukan proses
query expansion. Sebelumnya, Nilai TF-IDF
lagu dihitung untuk proses pencarian nilai katatertinggi. Kata tertinggi yang telah terseleksi sebanyak N-kata selanjutnya dihitung kedekatannya dengan kata-kata lain menggunakan Word2Vec. Hasil dari pengambilan nilai TF-IDF lagu yang terbaik adalah sebanyak 10 kata dengan skor
precision@10 sebesar 0.592 serta nilai MAP
sebesar 0.7161. Hasil dari pengambilan kata-kata terdekat sebanyak N untuk Word2Vec adalah 3, dengan nilai precision@10 sebesar 0.584, Namun nilai tertinggi yang dihasilkan dari Mean Average Precision (MAP) yaitu sebesar 0,7278, pada saat kata terdekat sebanyak N untuk Word2Vec yang diambil sebanyak 7 dengan nilai Precision@10 0,544.
Penelitian yang telah dilakukan oleh penulis masih belum dapat menguji semua parameter yang ada. Selain itu, masih terdapat ruang untuk menggali potensi penelitian ini sehingga dapat memberikan manfaat yang lebih luas terhadap masyarakat. Beberapa saran yang dapat membantu penyempurnaan penelitian ini di masa depan yaitu penambahan pengujian parameter window size, learning rate, dan pembobotan awal untuk mencari nilai parameter yang optimal, sehingga pada akhirnya dapat membantu dalam memperbaiki nilai presisi menjadi lebih tinggi lagi, selanjutnya dapat menggunakan Bi-gram atau N-gram untuk pelatihan bobot Word2Vec selanjutnya. Bi-gram atau N-gram digunakan agar tidak ada kata-kata yang terpisah karena tokenisasi, karena saat dipisah kata-kata tersebut jadi memiliki arti yang berbeda.
6. DAFTAR REFERENSI
Intekhab Naser, Reena Pagare, NayanKumar Wathap, Vinod Pingale (2014). Hybrid Music Recommendation System. In: 2014
Annual IEEE India Conference (INDICON). [online] IEEE. Tersedia di:
<https://ieeexplore.ieee.org/stamp/stamp. jsp?arnumber=7030392> [Diakses 11 Juni 2019].
Kim, H., Kim, E., Lee, J. and Ahn, C. (2010)., A recommender system based on genetic algorithm for music data, 2010 2nd
International Conference on Computer Engineering and Technology. Chengdu,
China, pp.414-417. Tersedia di: <https://ieeexplore.ieee.org/document/54 86161/> [Diakses 28 Oktober 2018]. Nakamura, K., Fujisawa, T., & Kyoudou, T.
(2017). Music recommendation system using lyric network. 2017 IEEE 6th
Global Conference on Consumer Electronics, GCCE 2017, 2017– January(Gcce), pp.1-2. Tersedia di :
<https://doi.org/10,1109/GCCE.2017.822 9316> [Diakses 28 Oktober 2018]. Saptariani, T., Pramana, E., Shabrina, F. N.,
Theodora, R., & Sabrina, A. O. (2014). Sistem Rekomendasi Musik Menggunakan Latent Semantic Analysis.
Prosiding Seminar Ilmiah Nasional Komputer Dan Sistem Intelijen (KOMMIT 2014), 8(Kommit), 416–424. Tersedia di : <https://media.neliti.com/media/publicati ons/172797-ID-none.pdf%0Ahttp://ejournal.gunadarma.a c.id/index.php/kommit/article/view/1059 > [Diakses 28 Oktober 2018].
Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. (2013). Efficient estimation of word representations in vector space,
International Conference on Learning Representations. Scottsdale, Arizona.
Tersedia di: <
https://arxiv.org/abs/1301.3781> [Diakses 28 Oktober 2018].
T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean (2013), Distributed Representations of Words and Phrases and their Compositionality, Neural Information Processing Systems. Tersedia di: <https://papers.nips.cc/paper/5021- distributed-representations-of-words-and-phrases-and-their-compositionality.pdf> [Diakses 28 Oktober 2018].
Weiss, S., Indurkhya, N. and Zhang, T. (2015). Fundamentals of Predictive Text Mining.
London: Springer London. p.35-37. [Diakses 28 Oktober 2018].