Rekomendasi Lagu Berdasarkan Lirik Lagu Menggunakan Metode N-Gram dan Cosine Similarity

(1)

Fakultas Ilmu Komputer

Universitas Brawijaya 2279

Rekomendasi Lagu Berdasarkan Lirik Lagu Menggunakan Metode N-Gram dan Cosine Similarity

Jesika Silviana Situmorang¹, Putra Pandu Adikara², Dian Eka Ratnawati³ Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya Email: ¹[email protected], ²[email protected], ³[email protected]

Abstrak

Kegitan mendengarkan lagu merupakan salah satu kegiatan manusia yang sering dilakukan oleh manusia. Lagu adalah suatu seni yang bernada atau suara yang memiliki unsur urutan syair dan kombinasi dengan satu atau beberapa gabungan alat musik. Syair atau lirik dalam lagu biasanya berisi beberapa bait yang memiliki makna tersendiri bagi penulis syair lagu. Perkembangan lagu sekarang sudah bertambah maju dan membuat pencinta musik maupun lagu semakin menyukai lagu atau pun musik. Hal ini terjadi karena adanya smartphone yang membuat penyuka lagu dapat mendengarkan lagu secara online maupun offline. Namun banyaknya lagu yang ada membuat pecinta musik mempunyai batasan dalam memilih lagu dalam pemutar musik. Masalah tersebut membutuhkan suatu inovasi yang memudahkan pencarian lagu berdasarkan lirik yang sesuai dengan pengguna (pecinta musik). Masalah tersebut dapat diselesaikan dalam sebuah bentuk sistem pemerolehan informasi.

Model perekomendasi lagu dapat menjadi penyeleksi lagu secara otomatis berdasarkan lirik, sehingga mempermudah pengguna dalam pencarian lagu yang diinginkan. Penelitian model perekomendasian lagu menggunakan metode N-gram (unigram bigram dan trigram) dan cosine similarity. Lirik lagu akan melalui tahap preprocessing kemudian tahap Term Frequency-Inverse Document Frequency (TF- IDF) agar setiap kata yang ada dalam lirik lagu diseleksi terlebih dahulu. Sistem akan mengeluarkan 10 rekomendasi judul lagu dengan penyanyinya. Hasil evaluasi daftar rekomendasi lagu mendapatkan nilai rata-rata precision@10 tertinggi yang diperoleh sebesar 0,628 menggunakan unigram.

Kata kunci: rekomendasi, sistem pemerolehan informasi, lagu, N-Gram, Cosine Similarity, TF-IDF.

Abstract

Listening to songs is one of the human activities that is often carried out by humans. Song is an art that has a pitch or sound that has elements of poetry sequences and a combination with one or several combinations of musical instruments. The lyrics in the song usually contain several verses that have their own meaning for the songwriter. The development of songs has now progressed and made music and song lovers increasingly like songs or music. This happens because of the smartphone that allows song enthusiasts to listen to songs online and offline. But the number of songs available makes music lovers have limitations in choosing songs in the music player. This problem requires an innovation that makes it easy to search for songs based on lyrics that suit the user (music lover). This problem can be solved in the form of an information acquisition system. Song recommendation model can automatically select songs based on lyrics, make it easier for users to search for desired songs.. The research for this song recommendation model used the N-gram method (unigram bigram and trigram) and cosine similarity. Song lyrics will go through the preprocessing stage then Term Frequency- Inverse Document Frequency (TF-IDF) so that the words in the song lyrics are selected first. The system will issue 10 song recommendations. The evaluation result of the song recommendation list shows the highest average value of precision@ 10 is 0.628 using unigram.

Keywords: recommendations, information retrieval, songs, N-Gram, Cosine Similarity, TF-IDF.

(2)

1. PENDAHULUAN

Lagu adalah sebuah seni yang bernada atau suara yang memiliki unsur urutan syair dan kombinasi dengan satu atau beberapa gabungan alat musik. Lagu menghasilkan musik yang mempunyai kesatuan dan irama dengan beragam nada atau suara. Manusia dalam kegiatan sehari-hari mendengarkan lagu dengan banyak tujuan, misalnya untuk memotivasi ketika sedang berolahraga (Fang, et al., 2017).

Lirik dalam lagu biasanya berisi beberapa bait yang memiliki makna tersendiri bagi penulis syair lagu. Namun, ada penulis mencipkan lirik lagu berdasarkan dengan politik, agama dan prosa lain sebagainya. Lagu memiliki berbagai macam genre, genre tersebut adalah pop, jazz, dangdut, R&B, rock, folk, hiphop. Genre lagu ini berbeda-beda di setiap negara, di Indonesia genre lagu dangdut populer di Indonesia, tetapi di negara Amerika genre lagu dangdut tidak banyak yang mengetahui dan kurang diminati oleh penduduk Amerika.

Perkembangan lagu sekarang sudah bertambah maju dan membuat pencinta musik maupun lagu semakin menyukai lagu atau pun musik. Hal ini dikarenakan lirik yang sebelumnya berkaitan dengan cinta, persahabatan, politik, berubah menjadi lirik yang berisi tentang kebebasan dan perpaduan berbagai genre yang membuat musik semakin memiliki seni yang sangat indah.

Mendengarkan musik di era digital semakin mudah karena adanya fitur pada smartphone yang dapat memutar musik secara offline dan online (Stafford, 2010). Namun, banyaknya lagu yang ada membuat pecinta musik mempunyai batasan dalam memilih lagu dalam pemutar musik. Masalah tersebut membutuhkan suatu inovasi yang memudahkan pencarian lagu berdasarkan lirik yang sesuai dengan pengguna (pecinta musik). Masalah tersebut dapat diselesaikan dalam sebuah bentuk sistem pemerolehan informasi. Model perekomendasi lagu dapat menjadi penyeleksi lagu secara otomatis berdasarkan lirik, sehingga mempermudah pengguna dalam pencarian lagu yang diinginkan.

Terdapat penelitian-penelitian sebelumnya tentang model perekomendasian yang menggunakan beberapa metode. Penellitian yang dilakukan oleh Rahmadhani, et al.(2012)

mengusung model perekomendasian lagu berbasis sistem menggunakan metode colaborative filtering yang memanfaatkan implicit feedback datasets pada penelitian ini peneliti memakai metode collaborative filtering dengan memanfaatkan neighborhood model yaitu metode cosine similarity dan menggunakan K-means untuk klasifikasi data dari penelitian. Penelitian selanjutnya mengenai perekomendasian lagu yang berbasis sistem menggunakan Convolutional Recurrent Neural Networks (CRNN) yang dilakukan dengan menghitung cosine similarity ekstraksi fitur dari satu musik ke musik lainnya, ekstraksi fitur dalam bentuk vektor, sehingga jarak antar musik satu dengan musik lainnya dapat dihitung (Aldiayansjah, et al., 2018). Penelitian selanjutnya tentang rekomendasi lagu berbasis content-based yang digunakan untuk memposisikan lagu dalam database dan membantu pengguna untuk menemukan lagu yang diinginkan. Penelitian tentang model perekomendasian juga telah banyak dilakukan, tidak hanya model perekomendasian lagu saja, penelitian rekomendasi obat berdasarkan ulasan pasien berbasis web ini dilakukan dengan pemodelan N-gram yang mendapatkan akurasi 80% (Rao, et al., 2020).

Berdasarkan penelitian-penelitian di atas, penulis ingin melakukan penelitian rekomendasi lagu berdasarkan lirik lagu dengan metode N-gram dan cosine. similarity. Metode N-gram dalam penelitian ini akan digunakan untuk menguraikan jumlah satuan lirik menjadi beberapa gram, dan setiap gram akan memiliki nilainya sendiri-sendiri, kemudian dilanjutkan dengan menggunakan algoritma cosine similarity, algoritma ini berfungsi untuk mengetahui lirik yang ingin dicari pengguna yang mendekati, kemudian akan menghasilkan daftar rekomendasi lagu. Diharapkan dengan menggunakan metode N-gram, sistem ini dapat menghasilkan daftar lagu yang lebih relevan terhadap masukan lirik lagu dari user.

2. DASAR TEORI 2.1 Sistem Rekomendasi

Sistem Rekomendasi memiliki arti sebagai sistem yang memberikan informasi berisi daftar objek yang sesuai dengan masukan pengguna. Menurut Sanjung (2011) rancangan sistem yang memprediksi suatu objek atau item yang sesuai

(3)

dengan masukan user, dan masukan tersebut akan menghasilkan rekomendasi kepada user.

Sistem rekomndasi dapat mengeluarkan daftar rekomendasi kepada pengguna bisa berdasarkan input yang diisi oleh pengguna jika pengguna mengisi kolom lirik yang disukai, maka akan keluar daftar rekomendasi lagu, bisa juga dengan pola aksi prilaku pengguna, misalnya ketika pengguna mendengarkan lagu genre pop, maka akan disimpan sebagai data pengguna, kemudian dengan adanya data pengguna sistem dapat mengetahui tipe lagu yang disukai oleh pengguna

2.2 Information Retrieval

Information Retrieval merupakan perbandingan antara dua dokumen untuk mengukur tingkat kemiripan kedua dokumen.

Information retrieval dilakukan dengan mencari dokumen yang relevan diantara dokumen dokumen yang berguna meskipun tidak relevan.

Information Retrieval memiliki tujuan yaitu mendapatkan.informasi dan menampilkan dokumen terkait dengan sejumlah besar input dari pengguna atau. query (Witanti et al., 2016).

2.3 Text Mining

Text Mining merupakan teknik mencari dokumen dengan hasil tertentu dari sekumpulan dokumen. Text mining memiliki fungsi mempermudah dalam memproses data.

Pengertian text mining lainnya adalah bentuk lain dari data mining yang dapat mengekstrak informasi, berguna dengan cara mengeksplorasi pola dari sumber data. teks tidak terstrukur (Feldman, et al., 2006). Pada tahapan pemrosesan, text mining memerlukan beberapa langkah pertama yaitu mempersipapkan teks agar dapat diganti lebih mempunyai struktur (Budi Susanto, 2013).

2.4 Lagu

Lagu adalah musik yang memiliki syair atau lirik sehingga dapat dinyanyikan. Musik merupakan alunan instrument yang berasal dari gabungan beberapa alat musik yang membentuk gabungan nada. Prier (1996: 2) teori bahwa penyusun dari unsurmusik dalam sebuah kompoisi (melodi, irama, harmoni, dan dinamika). Lirik terdiri dari beberapa gabungan kata yang dirangkai. Lirik sebuah lagu merupakan bagian dari rangkaian kata-kata, lirik sebuah lagu tidak semudah menulis puisi, namun dapat bersumber dari berbagai inspirasi.

Selain itu, lirik lagu juga bisa jadi merupakan ekspresi tentang pengalaman seseorang. Lagu memiliki aliran musik yang biasa disebut dengan genre. Ada banyak genre lagu, genre lagu tersebut adalah pop, jazz, blues, folk, rock, RnB dan hiphop.

2.5 Preprocessing Text

Preprocessing text sebagai tahapan awal yang menghasilkan kata pilihan atau term index. Term Index adalah sebuah kata yang sesuai untuk Information Retrieval.

Preprocessing text memiliki fungsi untuk merubah sebuah kumpulan data masih belum terstruktur menjadi kumpulan data yang terstruktur menyesuaikan dengan kebutuhan (Even, et al., 2002).

2.6 Pembobotan Kata

Pembobotan Kata (term) pada peneliian rekomendasi lagu ini dilakukan dengan menggunakan TF-IDF (Term Frequency- Inverse Document Frequency). Teknik TF-IDF digunakan untuk memberikan pada masing- masing term atau. kata yang ada pada dokumen dengan nilai masing-masing kata berdasarkan munculnya kata atau term pada suatu dokumen.Jika bobot sebuah term tinggi maka semakin kata tersebut akan pentiing dibandingkan dengan kata-kata lainnya yang terdapat di dalam dokumen. Bobot berdasarkan kriteria kata ini dimasukkan dalam inverted index buat digunakan dalam proses pemerolehan informasi dokumen. Ketika menggunakan penelursuran kata-kata tunggal untuk mengidentifikasi isi dari dokumen yang terkumpul, harus dilakukkan pembedaan pada kata-kata yang tunggal berdasarkan nilai istilah tersebut sebagai pendeskripsi pada data. Ini menunjukkan penggunaan bobot istilah yang diletakkan dalam proses identifikasi (Salton, et al., 1987). Bobot kata selain bertujuan utuk membedakan kepentinggan suatu kata dalam kumpulan dokumen/data, bobot dapat digunakan untuk memakai pengurutan pada saat memperoleh informasii dengan susunan yang semakin turun menurut bobot yang bernilai tinggi hingga ke kecil sesuai dengan nilai istilah kata yang mirip antara query dan dokumen.

a. Term Frequency (TF)

Term Frequency (TF) menyatakan frekuensi dari setiap munculnya term .atau kata pada dokumen. Untuk menghitung frekuensi

(4)

dalam setiap term dapat menggunakan beberapa jenis rumus yaitu biner TF. Jika suatu kata ada dalam dokumen maka kata tersebut akan diberikan nilai 1, tetapi jika kata tidak ditemukan pada dokumen maka, kata tersebut diberi bobot 0. Kemudian raw TF, pemberian bobot menggunakan raw tf dengan berdasarkan banyaknya suatu term tertentu yang ditemukan dalam dokumen. Misal, jika kata “sabar”

ditemukan dalam dokumen sebanyak tiga kali maka kata “sabar” diberikan nilai tiga. Formula yang terakhir adalah nilai TF, logaritmik digunakan agar tidak terjadi.dominansi dokumen yang memiliki jumlah term dalam query rendah tetapi dengan frekuensi yang tinggi. Rumus.perhitungan TF logaritmik dirumuskan dalam Persamaaan 1.

{ ( )

(1) Keterangan:

= frekuensi term (t) pada dokumen (d).

Dalam metode ini, diasumsikan bahwa nilai kepentingan setiap term sebanding dengan berapa kali term tersebut muncul dalam teks.

(Hall, et al., 1999).

b. Document Frequency ) dan Inverse Document Frequency ( )

Document Frequency ) merupakan banyaknya data mengandung term (t). Selain itu Document Frequency ) adalah metode future selection yang sederhana karena memiliki waktu komputasi yang cukup cepat (Yang, et al., 1997). Inverse Document Frequency ( ) adalah menghitung term yang muncul di seluruh dokumen. Jika elemen term yang ditemukan di seluruh dokumen semakin kecil, maka akan semakin besar nilai IDF.

Rumus perhitungan dirumuskan dalam Persamaaan 2.

(2) Keterangan:

= Hasil dari inverse

= Total dokumen yang memiliki term t N = Total dokumen

c. TF-IDF

TF-IDF merupakan term weighting paling popular. Nilai term t yang dihasilkan term

frequency dan inverse document frequency dikalikan. Rumus perhitungan TF-IDF dirumuskan dalam Persamaaan 3.

(3) Keterangan:

= Nilai term t terhadap dokumen d

= Nilai jumlah term t yang muncul pada dokumen d

= Hasil dari inverse d. Normalisasi Bobot TF-IDF

Normalisasi dilakukan dengan membandingkan antara term frekuensi dengan nilai maksimum dari total term frekuensi yang terdapat dalam dokumen. Normalisasi dilakukan untuk membuat dokumen panjang yang bernilai tinggi karena memiliki probabilitas term yang tinggi. Rumus.

perhitungan normalisasi dirumuskan dalam Persamaaan 4.

√∑

(4)

2.7 N-Gram

N-gram adalah kata yang diperoleh dari pemotongan kata dalam kalimat . Nilai N dapat beragam, mulai dari satu hingga sepanjang kalimat yang ada pada dokumen. Metode N- gram digunakan untuk mengurutkan jumlah kemunculan term, yang merupakan hasil pemotongan N-gram secara berurutan (Utomo, 2015). N-gram digunakkan untuk memperoleh karakter alafabet dari kata, kalimat, paragraf atau dokumen, yang dibaca dari teks sumber sampai akhir. Misalnya kalimat “saya suka musik”diuraikan sebagai berikut:

Unigram = saya, suka, musik.

Bigram = saya suka, suka musik.

Trigram = saya suka musik.

2.8 Cosine Similarity

Metode cosine similarity merupakan salah satu vektor space model bertujuan mencari banyaknya kesamaan dari antara vektor dokumen dan vektor query. Untuk melakukan klasifikasi berdasarkan nilai similarity, diperlukan perhitungan untuk menghitungan kesamaan antar dokumen. Metode yang umum dan sering digunakan adalah cosine similarity.

(5)

Jika x dan y merupakan vektor dokumen maka persamaan metode ini dapat dituliskan pada persamaan.Rumus perhitungan cosine similarity dirumuskan dalam .Persamaan 5.

( ) ^∑

√∑ √∑ (5) Keterangan:

= Banyaknya pada q dokumen q = kata yang dicari

= dokumen

= bobot term i pada dokumen j

= bobot term i pada dokumen q 2.9 Evaluasi

Evaluasi digunakan sebagai pengukuran dan perbaikan terhadap hasil dari model atau pun sistem. Evaluasi ini dilakukan agar kriteria yang sudah ditentukan dapat diimplementasikan dengan benar. Evaluasi akan menjadi tolak ukur dari masalah rekomendasi lagu. Pada sistem ini menggunakan evaluasi rekomendasi berperingkat yaitu precision@k dan Mean.Average Precision@k (MAP@K).

Precision@k mempunyai cara kerja membandingan banyaknya kumpulan dokumen terkait yang diperoleh sistem dan banyaknya dokumen yang dianggap relevan atau tidak relevan oleh nilai K. Nilai K merupakan bilangan bulat yang ditentukan untuk mengeluarkan hasil rekomendasi teratas.

Rumus dituliskan dalam Persamaan 6.

(6) Keterangan:

r = Jumlah dokumen yang relevan pada K dokumen teratas

K = Nilai threshold peringkat

Mean Average Precision@k (MAP@K)

adalah nilai rata-rata dari nilai precision. Nilai Mean Average Precision@k (MAP@K) dipengaruhi oleh urutan yang dikeluarkan oleh sistem. Rumus dituliskan dalam Persamaan 7.

_{| |}∑^{| |} ∑ ( ) (7)

Keterangan:

Q = Banyaknya query yang diuji R = Item precision yang relevan

= Banyaknya item yang relevan untuk query j

3. Metodologi Penelitian

Pada tahapan perancangan algoritme ini mengambarkan unsur-usnur yang dibutuhkan pada saat membuat sistem rekomedasi.

Implementasi algoritme diawali dengan langkah awal yaitu preprocessing pada dokumen Lagu dan query. Kemudian membangun model N- gram dan menghitung bobot pada masing- masing query dan setelah didapatkan term index, selanjutnya menggunakan cosine similarity untuk menghitung similaritas antar query dan dokumen. Gambar 1 menunjukan algoritma atau proses yang akan dilakukan.

Gambar 1 Alir Proses pada Model

4. Hasil dan Pembahasan 4.1 Pengujian Unigram

Pengujian dilakukan dengan 25 data uji yang dimasukkan ke dalam sistem. Judul lagu yang dimasukkan ke dalam sistem rekomendasi lagu akan mengeluarkan 10 rekomendasi lagu unigram. Tabel 2 menunjukkan hasil precision@k pada setiap query pada unigram.

(6)

Tabel 1. Pengujian Precision@10 pada Unigram

Query Relevan Tidak

Relevan Precision@10

Q1 5 5 0,5

Q2 6 4 0,6

Q3 7 3 0,7

Q4 4 6 0,4

Q5 7 3 0,7

Q6 5 5 0,5

Q7 6 4 0,6

Q8 5 5 0,5

Q9 6 4 0,6

Q10 7 3 0,7

Q11 5 5 0,5

Q12 7 3 0,7

Q13 6 4 0,6

Q14 6 4 0,6

Q15 7 3 0,7

Q16 6 4 0,6

Q17 8 2 0,8

Q18 7 3 0,7

Q19 7 3 0,7

Q20 8 2 0,8

Q21 5 5 0,5

Q22 7 3 0,7

Q23 6 4 0,6

Q24 7 3 0,7

Q25 7 3 0,7

Rata-Rata 0,628

Berdasarkan pengujian yang dilakukan pada sistem rekomendasi menggunakan precision@10 menggunakan metode unigram nilai rata-rata yang diperoleh sebesar 0,656.

Dalam hasil precision@k setiap dokumen, hasilnya antara 0,4 dan 0,8. Berdasarkan nilai precision, tidak ada nilai yang sama dengan satu, dengan itu dapat diambil kesimpulan bahwa sistem rekomendasi tidak menampilkan hasil yang relevan untuk semua keluaran kueri yang dimasukkan oleh user.Terjadinya hal ini karena kurangnya dokumen lagu yang ada pada sistem. Pengujian sistem rekomendasi

menggunakan Mean Average Precision@k yang dihitung pada Tabel 2 untuk menguji sistem yang direkomendasikan.

Tabel 2. Pengujian MAP@k pada Unigram

Query Average Precision@k

Q1 0,859751

Q2 0,60496

Q3 0,697279

Q4 0,622619

Q5 0,897619

Q6 0,808333

Q7 0,896825

Q8 0,902857

Q9 0,581944

Q10 0,844104

Q11 0,731111

Q12 0,895139

Q13 0,786735

Q14 0,870833

Q15 0,982143

Q16 0,594728

Q17 0,878263

Q18 0,786961

Q19 0,961735

Q20 1

Q21 0,871111

Q22 0,891723

Q23 0,817857

Q24 0,961735

Q25 0,982143

MAP@k 0,82914032

Hasil MAP@k pada Tabel 2 diperoleh. rata- rata precision dari setiap judul lagu yang dimasukkan. Tabel 2 dihitung nilai Mean Average Precision@k (MAP@k) dengan menggunakan nilai setiap average precision@k dari kueri judul lagu, kemudian dibagi dengan jumlah kuerii dan mendapatkan hasil 0,82914032.

4.2 Pengujian Bigram

Pengujian dilakukan dengan 25 data uji yang dimasukkan ke dalam sistem. Judul lagu yang dimasukkan ke dalam sistem rekomendasi

(7)

lagu akan mengeluarkan 10 rekomendasi lagu bigram. Tabel 3 menunjukkan hasil precision@k pada setiap query pada bigram.

Tabel 3. Pengujian Precision@10 pada Bigram

Q1 5 5 0,5

Q2 6 4 0,6

Q3 5 5 0,5

Q4 4 6 0,4

Q5 4 6 0,4

Q6 5 5 0,5

Q7 5 5 0,5

Q8 3 7 0,3

Q9 3 7 0,3

Q10 5 5 0,5

Q11 6 4 0,6

Q12 3 7 0,3

Q13 5 5 0,5

Q14 7 3 0,7

Q15 3 7 0,3

Q16 5 5 0,5

Q17 6 4 0,6

Q18 6 4 0,6

Q19 4 6 0,4

Q20 5 5 0,5

Q21 5 5 0,5

Q22 5 5 0,5

Q23 4 6 0,4

Q24 5 5 0,5

Q25 6 4 0,6

Rata-Rata 0,48

Berdasarkan pengujiian yang dilakukan pada sistem rekomendasi menggunakan precision@10 menggunakan metode bigram diperoleh hasil sesbesar .0,524. Dalam hasil precision@10 setiap kueri judul lagu didapatkan hasil antara 0,3 sampai 0,7.

Berdasarkan nilai precision, tidak ada nilai yang sama dengan 1, dengan itu dapat diambil kesimpulkan bahwa sistem rekomendasi tidak menampilkan hasil yang relevan untuk semua keluaran kueri judul lagu yang dimasukkan oleh user. Terjainya hal ini karena kurangnya

dokumen lagu yang ada pada sistem. Pengujian sistem menggunakan Mean Average Precision@k (MAP@k) dapat dilihat pada Tabel 4 untuk menguji sistem yang direkomendasikan

Tabel 4. Pengujian MAP@k pada Bigram

Q1 0,82619

Q2 0,656944

Q3 0,757738

Q4 0,377083

Q5 0,875

Q6 0,876667

Q7 0,852857

Q8 0,792857

Q9 0,551587

Q10 0,808333 Q11 0,883333

Q12 0,86

Q13 0,611667 Q14 0,80102 Q15 0,386905 Q16 0,937925 Q17 0,635714 Q18 0,734524 Q19 0,759286 Q20 0,572619 Q21 0,525397 Q22 0,948413 Q23 0,775397 Q24 0,627778

Q25 1

MAP@k 0,73740936

Hasil Tabel 4 diperoleh hasil rata-rata precision@k pada setiap kueri yang dimasukkan ke dalam sistem. Tabel 4 dihitung nilai Mean Average Precision@k (MAP@K) dengan menggunakan nilai setiap average precision@k dari kueri judul lagu, kemudian dibagi dengan jumlah kuerii dan mendapatkan hasil 0,73740936.

(8)

4.3 Pengujian Trigram

Pengujian dilakukan dengan 25 data uji yang dimasukkan ke dalam sistem. Judul lagu yang dimasukkan ke dalam sistem rekomendasi lagu akan mengeluarkan 10 rekomendasi lagu trigram. Tabel 5 menunjukkan hasil precision@k pada setiap query pada Trigram.

Tabel 5. Pengujian Precision@10 pada Trigram

Q1 4 6 0,4

Q2 4 6 0,4

Q3 2 8 0,2

Q4 5 5 0,5

Q5 4 6 0,4

Q6 6 4 0,6

Q7 5 5 0,5

Q8 2 8 0,2

Q9 4 6 0,4

Q10 3 7 0,3

Q11 4 6 0,4

Q12 3 7 0,3

Q13 5 5 0,5

Q14 6 4 0,6

Q15 4 6 0,4

Q16 2 8 0,2

Q17 3 7 0,3

Q18 4 6 0,4

Q19 4 6 0,4

Q20 5 5 0,5

Q21 5 5 0,5

Q22 5 5 0,5

Q23 6 4 0,6

Q24 2 8 0,2

Q25 5 5 0,5

Rata-Rata 0,408

Berdasarkan hasil pengujian sistem rekomendasi menggunakan precision@10 pada trigram memperoleh nilai sebesar 0,456.

Dalam hasil precision@10 setiap kueri judul lagu diperoleh hasil antara 0,3 hingga 0,6.

Berdasarkan nilai precision, tidak ada nilai 1, dengan itu dapat diambil kesimpulkan bahwa sistem rekomendasi tidak menampilkan hasil yang relevan untuk semua keluaran kueri judul lagu yang dimasukkan oleh user. Terjadinya hal

ini karena kurangnya dokumen lagu yang ada pada sistem. Sistem ini juga menggunakan pengujian Mean Average Precision@k dapat dilihat pada Tabel .6 untuk menguji sistem yang direkomendasiikan.

Tabel 6. Pengujian MAP@k pada Trigram

Q1 0,45

Q2 0,45833

Q3 0,44444

Q4 0,38127

Q5 0,82619

Q6 0,76204

Q7 0,75444

Q8 0,80556

Q9 0,39861

Q10 0,73929 Q11 0,67873 Q12 0,79286

Q13 0,5454

Q14 0,62996 Q15 0,48611 Q16 0,61667 Q17 0,64583 Q18 0,56667 Q19 0,71825 Q20 0,56444 Q21 0,49111 Q22 0,61111 Q23 0,67163 Q24 0,57778 Q25 0,72778 MAP@k 0,61378

Pada hasil Tabel 6 diperoleh hasil rata-rata precision@k pada setiap kueri yang dimasukkan ke dalam sistem. Tabel 6 dihitung nilai Mean Average Precision@k (MAP@K) dengan menggunakan nilai setiap average precision@k dari kueri judul lagu, kemudian dibagi dengan jumlah kuerii dan mendapatkan hasil 0,61378.

(9)

4.4 Analisis Pengujian

Berdasarkan pengujian yang telah dilakukan yaitu pengujian terhadap hasil rekomendasi lagu unigram, bigram dan trigram. Hasil keluaran rekomendasi unigram, bigram, trigram akan dibandingkan. Berdasarkan hasil precision@10 menggunakan unigram, bigram, dan trigram didapatkan nilai 0,656, 0,524, dan 0,456. Berdasarkan hasil rata-rata precision@10 nilai tertinggi adalah 0,656 ketika sistem menggunakan metode unigram.

Nilai Mean Average Precision@k (MAP@K) pada unigram, bigram, dan trigram didapatkan nilai 0,82914032, 0,73740936, 0,61378.

Berdasarkan hasil MAP@K, nilai MAP@K tertinggi adalah 0,82914032 pada unigram. Hal ini terjadi karena pada unigram hanya memisahkan satu kata dan membandingkan satu kata pada lirik dokumen lagu dengan lirik data uji. Hal ini juga terjadi karena dokumen lagu yang ada pada sistem masih kurang sehingga hasil keluaran rekomendasi sedikit yang relevan dengan data uji. Gambar 6.1 menunjukkan grafik average precision@k yang terdiri dari nilai average precision@k pada setiap query dan hasil rekomendasi berdasarkan unigram, bigram, dan trigram.Berdasarkan pengujian yang dilakukan yaitu pengujian terhadap hasil rekomendasi lagu unigram, bigram dan trigram. Hasil keluaran rekomendasi unigram, bigram, trigram akan dibandingkan.

Contoh hasil rekomendasi pencarian lagu

“firasat” yang dinyanyikan oleh Marcell. Hasil rekomendasi pencarian lagu tersebut mengeluarkan tujuh hasil rekomendasi unigram yang relevan, lima hasil rekomendasi bigram yang relevan, dan dua hasil rekomendasi trigram yang relevan. Pada lirik lagu firasat terdapat term unigram yaitu “pulang”, term bigram yaitu “cepat pulang”, dan term trigram yaitu “cepat pulang cepat”. Hasil keluaran rekomendasi unigram tertinggi karena term

“pulang” banyak ditemukan pada data latih

dibandingkan term “cepat pulang”, dan term

“cepat pulang cepat”.

5. PENUTUP

5.1 Kesimpulan dan Saran

Rekomendasi lagu menggunakan 250 dokumen lagu dengan lirik bahasa Indonesia yang diambil dari situs website. Data dokumen lagu melalui tahap preprocessing kemudian data akan diproses dengan metode N-gram.

Setelah itu, dilakukan pembobotan kata menggunakan TF-IDF, kemudian bobot TF-IDF dinormalisasikan. Langkah terakhir adalah pemeringkatan hasil keluaran rekomendasi yang sesuai dengan data uji menggunakan cosine similarity. Hasil pengujian menggunakan precision@10. Data uji yang digunakan berjumlah 25 kueri dari lima user dan menghasilkan 10 rekomendasi lagu untuk setiap kueri. Hasil rata-rata precision@10 menggunakan unigram, bigram dan trigram didapatkan sebesar 0,656, 0,524, dan 0,456.

Nilai rata-rata precision@10 tertinggi diperoleh bernilai 0,656 menggunakan unigram. Nilai Mean Average Precision@k (MAP@K) pada unigram, bigram, dan trigram didapatkan nilai 0,82914032, 0,73740936, 0,61378. Berdasarkan hasil MAP@K, nilai MAP@K tertinggi sebesar 0,82914032 pada unigram. Hal ini terjadi karena pada unigram hanya memisahkan satu kata dan membandingkan satu kata pada lirik dokumen lagu dengan lirik data uji, sedangkan pada bigram dan trigram yang membandingkan dua atau tiga kata yang membuat tingkat kemiripan data uji dengan data latih rendah.

Saran yang diberikan penulis agar memperbanyak dokumen lagu yang digunakan.

Jika dokumen lagu yang digunakan banyak, maka hasil rekomendasi yang diperoleh semakin relevan. Rekomendasi tidak hanya berdasarkan lirik saja, menggunakan genre agar hasil rekomendasi lebih sesuai dengan yang ingin dicari pengguna.

6. DAFTAR PUSTAKA

Even, Y. Z. (2002). Introduction to Text Mining. National Center for Supercomputing Applications University of Illinois.

Lestari, M. A. (2019). Rekomendasi Lagu berdasarkan Lirik dan Genre Lagu Menggunakan Metode Word Embedding (Word2Vec). Jurnal

0 0,5 1 1,5

Q1 Q3 Q5 Q7 Q9 Q11 Q13 Q15 Q17 Q19 Q21 Q23 Q25

Unigram Bigram Trigram

(10)

Pengembangan Teknologi Informasi dan Ilmu Komputer, 3, 7898-7904.

Lisangan M, A. (2013). Implementasi N-gram Technique dalam Deteksi Plagiarisme pada Tugas Mahasiswa.

Nakamura, K., Fujisawa, T., & Kyoudou, T.

(2017). Music recommendation system using lyric network. Retrieved from https://doi.org/10,1109/GCCE.2017.82 2

Rahmadani, D., Maulana, F., & Agnia, M.

(2012). Metode Colaborative Filtering yang Memanfaatkan Implicit Feedback Datasets.

doi::http://digilib.polban.ac.id/files/disk 1/67/jbptppolban-gdl-dinarahmad- 3338-1-daftar--5.pdf.

Sanjung, A., & Maharani, W. (2011).

Perbandingan Semantic Classification dan Cluster-Based Smoothed pada Recommender System berbasis Colaborative Filtering .

Stafford, S. (2010). Music in the Digital Age:

The Emergence of Digital Music and Its Repercussions on the Music Industry. The Elon Journal of Undergraduate Research in Communications. I(2).

Sugiyamta. (2015). Sistem Deteksi Kemiripan Dokumen dengan Algoritma Cosine Similarity dan Single Pass Clustering, 7, 2085-3343.

Utami, R. (2018). Rekomendasi Resep Masakan Berdasarkan Ketersediaan Bahan Masakan Menggunakan Metode N-gram dan Cosine Similarity. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, 3, 1524-1531.

Zaman, B., Eva, H., & Endah, P. (2015). Sistem Deteksi Bahasa pada Dokumen menggunakan N-gram. doi:

https://doi.org/10.32722/multinetics.v1i 2.1027