Analisis Similaritas Melodi
Menggunakan The Earth Mover’s Distance
Wahyu KusumaJurusan Sistem Informasi Fakultas Ilmu Komputer Universitas Gunadarma Jl. Margonda Raya No. 100 Depok
Email : [email protected] Intisari
Dalam sistem retrival informasi musik, kueri pada umumnya berupa informasi teks, seperti judul lagu, nama penyanyi, lirik lagu atau komposer. Selain itu kueri dapat juga berupa sinyal musik atau sinyal vokal (melodi vokal) seperti bernyanyi, bersenandung dari potongan lagu. Penelitian ini bertujuan untuk menganalisis similaritas melodi vokal sebagai data kueri dengan melodi musik sebagai data target. Metode similaritas yang digunakan adalah the Earth Mover’s Distance (EMD). Untuk menganalisis akurasi similaritas, maka pada penelitian ini perlu dilakukan proses representasi melodi melalui metode segmentasi dengan deteksi onset. Representasi melodi yang dihasilkan dalam format waktu onset, pitch interval, dan rasio waktu onset interval. Dalam pendeteksian onset, sinyal mengalami proses pemfilteran, penyearahan, pembentukan kontur sinyal, pendeteksian gradien, dan pemilihan sinyal di atas nilai threshold. Posisi onset yang diperoleh digunakan untuk segmentasi sinyal, sehingga setiap segmen hanya berisi satu nada. Selanjutnya setiap segmen menjalani proses penelusuran pitch melalui analisis frekuensi dengan bantuan transformasi fourier dan estimasi pitch dengan pendekatan distribusi frekuensi fundamental. Berdasarkan hasil pengujian nilai distance menggunakan EMD, dapat ditentukan nilai rank dan nilai mean reciprocal rank (MRR). Pengujian yang dilakukan terhadap 30 data kueri (bernyanyi dan bersenandung) dengan 30 data dokumen (musik piano) diperoleh nilai MRR sebesar 0.479. Pada perhitungan kinerja pada rank 6 diperoleh kinerja sebesar 93.3 %. Hasil pengujian menunjukkan akurasi similaritas dan kinerja sistem retrival menggunakan EMD sudah baik. Kata kunci – ekstraksi, representasi melodi, similaritas, Earth Mover’s Distance
Pendahuluan
Perkembangan teknologi penyimpanan data memungkinkan seseorang dapat menyimpan ratusan bahkan ribuan koleksi musik atau lagu. Permasalahan yang dihadapi pecinta musik yang mempunyai koleksi lagu yang tersimpan dalam banyak perekam adalah tidak ingat judul lagu dan nama penyanyi dari musik atau lagu yang ingin diputarnya. Dia berharap ada suatu sistem yang dapat mengenali suara nyanyiannya atau senandungnya, sehingga dari suara itu dapat mencarikan lagu yang diinginkannya.
Permasalahan tersebut, dalam lingkungan penelitian termasuk dalam lingkup sistem retrival
informasi musik (Music Information Retrieval, MIR) dan Query by Singing/Humming (QBSH). Dalam
sistem ini, kueri dibuat tidak hanya bersifat informasi teks, seperti judul lagu, nama penyanyi, lirik lagu atau komposer. Tetapi juga diinginkan queri berupa sinyal musik (melodi musik) dan suara manusia (melodi vokal) seperti bernyanyi atau bersenandung dari potongan lagu.
Penelitian Music Information Retrieval (MIR) dan Query by Singing/Humming (QBSH) telah
dilakukan dalam fokus metode ekstraksi dan metode retrival/ similaritas. Penelitian yang difokuskan pada metode ekstraksi menghasilkan bentuk atau format representasi melodi. Beberapa penelitian pada
fokus metode ekstraksi antara lain Melodic Contour [Ghias, J. Logan, D. Chamberlin, and B. Smith
1995]. Melodic Contour Interval [Batke and G. Eisenberg 2004], Triplet Representation Melody [Lu,
dan tempo/ritme. Sehingga pendekatan dengan representasi interval pitch dan rasio ritme akan lebih invarian terhadap inkonsitensi pitch dan ritme pada melodi vokal manusia
Penelitian ini mencoba menentukan representasi melodi dalam format geometrik yang
mengacu pada metode EMD. Hal ini didasarkan [volk et al 2007] pada sifat metode EMD yang partial
matching. Sifat ini lebih menguntungkan jika panjang urutan pitch antara data kueri dengan data target berbeda. Penelitian ini menggunakan data dokumen yang berupa melodi musik dengan data kueri yang berupa melodi vokal mempunyai panjang urutan pitch yang berbeda. Penelitian ini bertujuan menganalisis similaritas melodi vokal dan melodi musik menggunakan metode EMD sehingga dapat diketahui tingkat akurasinya.
Metodologi
Secara keseluruhan diagram tahapan penelitian yang dilakukan diperlihatkan seperti gambar 1.
Proses Ekstraksi Sinyal Musik Sinyal Vokal Proses Ekstraksi • Nilai distance • Hasil Rank • Nilai MRR Representasi Melodi (waktu onset, pitch-Interval, WOIrasio) Uji Similaritas Representasi Melodi (waktu onset, pitch-Interval, WOIrasio)
Gambar 1. Diagram Tahapan Penelitian
Tahapan Proses Ekstraksi
Secara keseluruhan proses ekstraksi melodi vokal dan melodi musik diperlihatkan seperti gambar 2. Deteksi
Onset Segmentasi FFT Differensiasi
Estimasi Pitch Representasi Melodi Sinyal Musik dan Vokal (wav file)
Gambar 2. Blok diagram tahapan ekstraksi pitch interval
rectifying enveloping differensiasi thresholding
in filtering out
Gambar 4. Blok diagram proses deteksi onset
Proses Deteksi Onset pada gambar 4, digunakan untuk mencari posisi-posisi gradien yang bernilai tinggi (di atas threshold) dari kontur sinyal. Proses ini terdiri dari : Blok filtering digunakan untuk meloloskan frekuensi musik dan frekuensi vokal dengan menggunakan band pass filter. Proses
Pengambilan sinyal positif, dilakukan dengan proses rectifying, dimana seluruh simpangan yang
bernilai negatif dijadikan positif.
y(n) = |x(n)| …...………...………(8)
Proses pembentukan kontur sinyal (enveloping),dilakukan dengan melewatkan sinyal x(n) hasil
rectifying dengan penyaring lolos bawah.
Proses diferensiasi digunakan untuk mendapatkan nilai gradien.
Proses tresholding digunakan untuk mendapatkan nilai gradien yang tinggi. Posisi-posisi dari
gradien yang nilainya di atas ambang merupakan posisi onset dari not. Posisi onset yang diperoleh,
digunakan pada proses berikutnya, yaitu segmentasi. Pada proses segmentasi ini, sinyal dipotong-potong sehingga pada setiap dipotong-potongan (segmen) sinyal akan terdapat satu not.
Sekuens segmen kemudian dikirim ke proses pitch tracking. Pitch tracking adalah proses untuk mengidentifikasi not-not yang terdapat pada suatu segmen sinyal musik dan vokal. Metode utama yang
digunakan di sini adalan frequency analysis, yang dalam eksperimen ini dilakukan dengan bantuan FFT
(Fast Fourier Transform). Dari spektrum FFT yang diperoleh, dicari nilai frekuensi yang memiliki
magnitude terbesar. Nilai frekuensi ini kemudian dikonversi menjadi kode not/ pitch. Pitch interval diperoleh dari sekuens kode not melalui proses diferensiasi.
Representasi Melodi
Setiap not yang diekstraksi akan tersusun dalam representasi seperti berikut: (Wo,Pi, Woir)
Dimana :
WO = waktu awal pitch (onset)
PI = Pitch Interval, dimana PI = Pitch(i) – Pitch(i+1)
WOIr = Rasio waktu onset interval, dimana WOIr = WOI(i)/WOI(i+1)
Pengujian Similaritas
Pengujian ini digunakan untuk mengetahui tingkat similaritas data sinyal kueri vokal dengan data dokumen musik. Pengujian ini menggunakan metode EMD. Hasil dari pengujian ini diperoleh nilai distance, untuk kemudian diperoleh nilai rank dan mean reciprocal rank (MRR). MRR menunjukkan nilai rata-rata dari 1/R, dimana nilai distance data kueri terhadap data target ditunjukkan urutan dalam
rank [Dannenberg, et al 2004]. Semakin kecil nilai distance, semakin kecil rank. Data kueri yang
mempunyai rank terkecil merupakan data yang paling mirip atau similar. Nilai MRR berkisar antara 0
sampai 1. Dimana jikan MRR = 1 dapat dikatakan ‘perfect’, sedangkan jika nilai MRR = 0 dikatakan
‘worst’.
Hasil dan Pembahasan
Pendeteksian Onset 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 x 105 -0.5 0 0.5 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 x 105 0 0.2 0.4 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 x 105 0 100 200 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 x 105 0 5 10x 10 7 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 x 105 -1 0 1x 10 5 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 5 0 0.5 1 (A) (B) (C) (D) (E) (F)
Gambar 6. Hasil proses deteksi onset, File wav sinyal senandung du du (potongan lagu Bengawan Solo)
(A) Tampilan File wav sinyal senandung (potongan lagu Bengawan Solo). (B) Tampilan sinyal yang telah disearahkan
(C)(D) Tampilan sinyal hasil konvolusi. (E) Tampilan hasil diferensiasi
(F) Tampilan sinyal onset
Data Percobaan
Data pengujian terdiri atas dua data yaitu sinyal melodi vokal sebagai data kueri dan sinyal melodi sebagai data dokumen. Sebagai data kueri diambil dari 42 responden dewasa terdiri dari 24 pria dan 18 wanita. Pengambilan data kueri dilakukan dengan beberapa variasi model kueri. Model kueri berupa menyanyikan lirik, bersenandung (du du, la la) atau kombinasi lirik dan senandung. Sedangkan data target digunakan sinyal musik file MIDI sebanyak 30 potongan lagu, monofonik (musik yang dihasilkan oleh hanya satu instrumen musik), dengan instrumen musik piano.
Representasi Melodi
Tabel 2. Urutan representasi melodi sinyal musik sebagai data target (dokumen)
Nama File Nama File wav dan Representasi Melodi pahlawan
merdeka1(piano).wav
0,2,1.1/1.0047,2,0.9/1.9529,1,0.7/2.9677,-5,3.1/4.5171,-3,0.3/ 5.0195,-4,3.2/6.5568,4,1.8/7.0378,1,0.2/7.2985,-1,3.6/8.7729,-2,0.4/ 9.1869,-7,2.5/10.1089,5,1.2/10.4775,2,0.9
gundul pacul2
(piano)-mono.wav 0,4,0.5/0.5998,3,1/1.7917,-2,2/2.9912,0,1/3.5924,2,1/4.1944,-2,1/ 4.7872,-1,1/5.3898,-4,1/5.995,5,1/6.5849,-1,1
Penentuan nilai Distance, Rank, dan Mean Reciprocal Rank (MRR).
Pengujian similaritas data kueri dengan data target diukur dengan parameter nilai distance, nilai rank, dan nilai MRR.
Tabel 4.
Hasil penentuan rank dari 30 data kueri terhadap 30 data dokumen Nama File Data Kueri Rank 1/R vok9Bgwsolo 2 ½ Lala10Bgwsolo 1 1 Vok5Bgwsolo 2 ½ Vok2Bgwsolo 3 1/3 Vok8Bgwsolo 1 1 Vok1Bgwsolo 4 ¼ Vok10Bgwsolo 5 1/5 Vok7Bgwsolo 3 1/3 Lala1Bgwsolo 1 1 Vok3Bgwsolo 5 1/5 00017L16.wav 2 ½ 00017w61.wav 4 ¼ 00017w214.wav 1 1 00017L19.wav 3 1/3
00017L116.wav 5 1/5 00017w113.wav 6 1/6 00017w623.wav 4 ¼ 00017L15.wav 2 ½ 00020w22.wav 1 1 00017L316.wav 3 1/3 00020w12.wav 3 1/3 00017w12.wav 1 1 00020L14.wav 6 1/6 00017w22.wav 7 1/7 0020L16.wav 3 1/3 du du bgwSolo w9.wav 4 ¼ 00045w12.wav 2 ½ 00045L1-14.wav 8 1/8 MRR : 0.479
Tabel 5. Jumlah kueri yang berada pada posisi rank.
Rank Jumlah Kueri Kinerja (%)
1 7 23,3 2 13 43,3 3 19 60 4 23 76,6 5 26 86,6 6 28 93,3
Berdasar data-data pengujian rank pada 30 data kueri diperoleh grafik hubungan rank dengan kinerja seperti diperlihatkan pada gambar 8.
Gambar 8. Grafik hubungan nilai rank terhadap kinerja sistem retrival
Kesimpulan
Hasil nilai MRR dan prosentase kinerja sistem retrival yang menggunakan kueri melodi vokal (sinyal suara) menunjukkan hasil akurasi similaritas dan kinerja yang baik. Hal ini didasarkan pada
pengujian similaritas menggunakan metode The Earth Mover’s Distance terhadap 30 data kueri
(bernyanyi dan bersenandung) dengan 30 data dokumen (musik piano) menggunakan menghasilkan nilai MRR sebesar 0.479. Pada perhitungan kinerja sistem retrival, diperoleh hasil sebesar 93.3% dari
Grafik Hubungan Nilai Rank terhadap Kinerja Sistem Retrival 0 20 40 60 80 100 1 2 3 4 5 6 Rank Ki n e rj a ( % )
memerlukan perhatian dalam beberapa hal, yaitu kueri vokal tidak boleh mengandung efek bending dan kueri vokal harus diusahakan dilakukan dengan pitch control yang baik.
Dari kegiatan penelitian yang telah dilakukan, terdapat kesempatan untuk mengembangkan penelitian lebih lanjut, yaitu data target sebagai data dokumen dikembangkan menggunakan beberapa intrumens musik yang lain, seperti gitar, flute, trumpet, dan lain-lain, dalam bentuk polifonik.
Daftar Pustaka
Cabello, S., 2003, Matching Point Sets with respect to the Earth Mover's Distance, in ICME
2003 Conference proceedigs
Dannenberg, R. and Ning Hu, 2003, Understanding Search Performance in Query-by-Humming
Systems, School of Computer Science, Carnegie Mellon University Pittsburgh, PA 15213 USA
Giannopoulos, P. and R. Veltkamp, 2002, A pseudo-metric for weighted point sets. In
Proceedings of the European Conference on Computer Vision, pages 715–730
Heo, S. and Sung-Phil, 2003, Multiple Pitch Candidate based Music Information Retrieval Method
for Query-by-Humming. In International Workshop on AMR
Jang, J. and H. Lee, 2001, Hierarchical ltering method for content-based music retrieval via
acoustic input. In Proceedings of the ninth ACM international conference on Multimedia, ACM
Press
Jang, R., Melody Recognition Toolbox, www.cs.nthu.edu.tw/~jang, akses Juli 2007
Keogh, E. J., 2002, Exact indexing of dynamic time warping. In VLDB 2002,Proceedings of 28th
International Conference on Very Large Data Bases, August 20-23, 2002, Hong Kong, China Orio, N., 2006, Music Retrieval : A Tutorial and Review, Jurnal Foundations and Trends in Information
Retrieval, Vol.1 No.1, Padova University, Italy
Ning Hu, and R. Dannenber, 2002, A comparison of melodic database retrieval techniques using
sung queries. In Proceedings of the ACM/IEEE Joint Conference on Digital Libraries,
pages 301–307
Profita, J. and G. Bidder, 1988, Perfect pitch. In American Journal of Medical Genetics, pages 763-771
Raspaud, M., 2003, Query by Humming, master theses proposed by Philips , presented at Universite
bde Bordeaux I
Rubner, Y., The Earth Mover’s Distance (EMD), http://datamill.info/emd.0.html, Agustus 2007
Typke, R., P. Giannopoulos, and R. Veltkamp, 2003, Using Transportation Distances for Measuring
Melodic Similarity. In Proc of 4th Int. Symp. On Music Inf. Retrieval (ISMIR), pages
107–114
Volk, A., P. Garbers, and P. Kranenburg, 2007, Comparing Computational Approaches to
Rhythmic and Melodic Similarity in Folksong Research, Thesis of Utrecht University
_____________, Mean Reciprocal Rank (MRR), http://en.wikipedia.org/wiki/Mean_reciprocal_rank,