• Tidak ada hasil yang ditemukan

PENDAHULUAN. Latar Belakang

N/A
N/A
Protected

Academic year: 2022

Membagikan "PENDAHULUAN. Latar Belakang"

Copied!
5
0
0

Teks penuh

(1)

PENDAHULUAN Latar Belakang

Genre musik adalah pengelompokan musik sesuai dengan kemiripan satu dengan yang lain, seperti kemiripan dalam hal frekuensi musik, struktur ritmik, dan konten harmoni. Genre musik merupakan hal yang penting bagi masyarakat yang menyukai musik, karena membuat masyarakat dengan mudah mengelompokan musik yang yang mereka sukai.

Pada umumnya pengelompokan lagu dilakukan secara manual yaitu dengan mendengarakan lagu secara langsung kemudian dikelompokkan bedasarkan genre lagu tersebut.

Metode ini mempunyai keunggulan yaitu mempunyai tingkat akurasi yang tinggi, tetapi kekurangan dari metode ini adalah sangat tidak efisien untuk data berjumlah banyak, karena harus didengarkan satu persatu. Pengelompokan genre lagu secara otomatis mulai dikembangkan untuk membantu mengelompokan lagu yang berjumlah banyak. Proses ini mempunyai keunggulan dalam jumlah data yang bisa diporses namun kekurangan dari proses otomatis adalah akurasi yang rendah.

Untuk dapat dikelompokkan data musik harus melalui proses ekstraksi ciri yang bertujuan mendapatkan ciri dari lagu tersebut.

Salah satu metode yang dapat digunakan adalah Mel-frequency cepstral coefficient (MFCC).

MFCC mengekstraksi ciri suara berdasarkan spektrum yang dihasilkan dari musik. Penelitian yang menggunakan MFCC dalam proses ekstraksi ciri antara lain, Prameswari (2010) yang melakukan penelitian pengembangan sistem pengenalan kata berbasis fonem dalam bahasa Indonesia dengan metode resilent backpropagation, dan Wisnudhisastra (2009) tentang pengenalan chord gitar dengan teknik ekstraksi ciri Mel-frequency cepstral coefficient (MFCC).

Leaning Vector Quantization (LVQ) merupakan salah satu contoh dari jaringan syaraf tiruan yang digunakan untuk proses klasifikasi. Metode LVQ sudah banyak digunakan untuk penelitian, seperti penelitian oleh Effedy et al (2008) mengenai deteksi pornografi pada citra digital menggunakan pengolahan citra dan jaringan syaraf tiruan, Qur’ani & Rosmalinda (2010) yang meneliti jaringan syaraf tiruan LVQ untuk aplikasi pengenalan tanda tangan.

Klasifikasi genre musik telah dilakukan oleh Talupur et al (2002). Pada penelitian ini genre

yang diklasifikasikan antara lain klasik, rock, jazz dan country dengan akurasi tertinggi yang dihasilkan sebesar 80 %. Berdasarkan penelitian yang terkait, metode MFCC dan LVQ dapat digunakan untuk klasifikasi genre musik.

Rumusan Masalah

Rumusan masalah dalam penelitian ini adalah bagaimana membuat model klasifikasi data audio menggunakan jaringan syaraf tiruan LVQ.

Ruang Lingkup

Ruang lingkup pada penelitian ini antara lain:

1. Dalam penelitian ini, genre musik yang diklasifikasikan dibatasi hanya genre rock, klasik, jazz dan keroncong.

2. Musik yang diolah mempunyai durasi 5, 10, 20, dan 25 detik dengan format wav.

3. Data musik menggunakan chanel mono.

Tujuan

Tujuan dari penelitian ini adalah mengembangkan model Learning Vector Quantization untuk klasifikasi genre musik.

Manfaat

Penelitian ini diharapkan dapat melakukan klasifikasi pada data musik menggunakan Learning Vector Quantization agar dapat membantu peran manusia dalam hal menentukan genre musik, sehingga genre musik tidak lagi bersifat relatif, tetapi dapat dikelompokkan dengan standardisasi yang telah ditentukan.

TINJAUAN PUSTAKA Genre Musik

Genre musik adalah label yang dibuat dan digunakan manusia untuk mengkategorikan dan menggambarkan musik di dunia (Tzanekatis 2002). http://allmusic.com mengelompokan genre musik ke dalam 11 genre utama, yaitu pop/rock, jazz, r&b, rap, country, blues, elektronik, latin, reggae, internasional, dan klasik.

Digitalisasi Gelombang Audio

Gelombang audio merupakan gelombang longitudinal yang merambat melalui medium seperti medium padat, cair, atau gas.

Gelombang suara merupakan gelombang analog yang apabila diolah menggunakan peralatan elektronik, gelombang tersebut harus melalui tahap digitalisasi sehingga gelombang tersebut berupa data digital.

(2)

Dalam proses digitalisasi audio, gelombang audio melalui dua tahap proses yaitu sampling dan kuantisasi (Jurafsky & Martin 2000).

Sampling merupakan proses pengambilan nilai dalam jangka waktu tertentu. Nilai yang dimaksud adalah amplitudo, yaitu besarnya volume suara pada suatu waktu. Proses sampling menghasilkan sebuah vektor yang menyatakan nilai – nilai hasil sampling. Vektor tersebut mempunyai panjang yang bergantung pada lamanya sinyal dan sampling rate yang digunakan. Sampling rate sendiri adalah banyaknya nilai yang diambil setiap detiknya.

Untuk mengukur panjang vektor sinyal, digunakan rumus beikut:

𝑆 = 𝐹𝑠× 𝑇 dengan

S = panjang vektor 𝐹𝑠= sampling rate (Hertz) T = panjang sinyal (detik)

Tahap selanjutnya adalah proses kuantisasi.

Kuantisasi bertujuan menyimpan nilai amplitudo ke dalam representasi nilai 8 bit atau 16 bit (Jurafsky & Martin 2000).

Ekstraksi Ciri Sinyal Audio

Ekstraksi ciri berfungsi mengkarakterisasi sinyal audio. Beberapa fitur sinyal audio yang biasa digunakan antara lain Linear Predictive Coding, Perceptual Linear Prediction, dan Mel- Frequency. Proses ini dilakukan karena sinyal audio merupakan sinyal yang bervariasi yang diwaktukan dengan lambat. Jadi pada jangka waktu yang sangat pendek (5–100 ms), karakteristik sinyal tersebut hampir sama, tetapi dalam jangka waktu yang lebih panjang (0,2 detik atau lebih), karakteristik sinyal audio tersebut berubah dan memperlihatkan perbedaan sinyal audio yang diolah (Do 1994).

Mel-Frequency Cepstrum Coefficient (MFCC) Tujuan dari MFCC adalah mengadapatasi kemampuan telinga manusia dalam mendengar dan mengolah suara. Proses MFCC dapat dilihat pada Gambar 1.

Sinyal Kontinu

Frame Blocking

Windowing frame

Fast Fourier Transform

Mel Frequency Wrapping

spectrum

Cepstrum mel spctrum

mel spectrum Windowing

Gambar 1 Diagram blok proses MFCC (Do 1994)

Tahap-tahap dari proses MFCC dapat dijelaskan sebagai berikut (Do 1994):

1. Frame Blocking, proses ini membagi sinyal audio ke dalam frame. Tiap frame terdiri atas N sample. Gambar 2 menggambarkan ilustrasi dari proses frame blocking.

Gambar 2 Proses Frame Blocking

(3)

2. Windowing, pada tahap ini sinyal yang telah dibagi ke dalam frame dilakukan proses windowing untuk meminimalkan diskontinuitas sinyal, dengan cara meminimalkan distorsi spectral dengan menggunakan window untuk memperkecil sinyal hingga mendekati nol pada awal dan akhir tiap frame. Window yang dipakai pada proses ini adalah Hamming window dengan persamaan :

𝑤 𝑛 = 0,54 − 0,46 𝑐𝑜𝑠 (2𝜋𝑛/(𝑁 − 1)) (1) Dengan n = 1, 2, 3... N-1 (N adalah jumlah frame yang digunakan)

Ilustrasi dari Hamming window dapat dilihat pada Gambar 3.

Gambar 3 Hamming window

3. Fast Fourier Transform (FFT), merupakan fast algorithm dari Discrete Fourier Transform (DFT) yang berguna untuk konversi setiap frame dari domain waktu menjadi domain frekuensi. Berikut persamaan yang digunakan :

𝑋𝑛 = 𝑥𝑘𝑒−2𝜋𝑗𝑘𝑛 /𝑁

𝑁−1

𝑘=0

(2) dengan n=0, 1, 2 ... N-1, j adalah bilangan imajiner, yaitu j = − 1.

Gambar 4 memperlihatkan sinyal yang sudah berubah ke dalam domain frekuensi.

Gambar 4 Sinyal audio dalam domain frekuensi

4. Mel-Frequency Wrapping. Berdasarkan studi psikofisik, persepsi manusia terhadap frekuensi sinyal audio tidak berupa skala linier. Jadi untuk setiap nada dengan frekuensi aktual f (dalam Hertz) dapat diukur tinggi subjektifnya menggunakan skala ‘mel’. Skala mel-frequency adalah selang frekuensi di bawah 1000 Hz, dan selang logaritmik untuk frekuensi di atas 1000 Hz. Gambar 5 mengilustrasikan filter pada proses mel- frequency wrapping.

Gambar 5 Mel - frequency filter

Proses wrapping terhadap sinyal dalam domain frekuensi menggunakan persamaan berikut :

𝑋𝑖 = 𝑙𝑜𝑔10 𝑥 𝑘 𝐻𝑖(𝑘)

𝑁−1

𝑘=0

(3) dengan i= 1,2,3...,M (M adalah jumlah filter segitiga) dan Hi(k) adalah nilai filter segitiga untuk frekuensi akustik sebesar k.

5. Cepstrum, tahap ini menkonversikan log mel spectrum ke dalam domain waktu Hasil proses ini disebut mel frequency cepstrum coefficients. Berikut ini adalah persamaan yang digunakan dalam DCT :

𝐶𝑗 = 𝑋𝑖𝑐𝑜𝑠(𝑗(𝑖 − 1)/2 𝜋 𝑀)

𝑀

𝑗 =1

(4) dengan j= 1,2,3, . . . K (K adalah jumlah koefisien yang diingankan) dan M adalah jumlah filter.

(4)

Klasifikasi

Klasifikasi merupakan proses menemukan sekumpulan model (atau fungsi) yang menggambarkan dan membedakan konsep atau kelas-kelas data, dengan tujuan agar model tersebut dapat digunakan untuk memprediksi kelas dari suatu objek atau data yang label kelasnya tidak diketahui (Han & Kamber 2001).

Klasifikasi terdiri atas dua tahap, yaitu pelatihan dan prediksi (klasifikasi). Pada tahap pelatihan dibentuk sebuah model domain permasalahan dari setiap instance yang ada.

Penentuan model tersebut berdasarkan analisis pada sekumpulan data pelatihan, yaitu data yang label kelasnya telah diketahui. Pada tahap klasifikasi, dilakukan prediksi kelas dari instance (kasus) baru yang telah dibuat pada tahap pelatihan (Güvnir et al 1998).

Jaringan Syaraf Tiruan

Jaringan syaraf tiruan (JST) adalah sistem pemroses informasi yang memiliki karakteristik mirip dengan jaringan syaraf biologi. JST dibentuk sebagai generalisasi model matematika dari jaringan syaraf biologi, dengan asumsi bahwa:

 Pemrosesan informasi terjadi pada banyak elemen sederhana (neuron).

 Sinyal dikirimkan di antara neuron-neuron melalui penghubung-penghubung (sinapsis).

 Untuk menentukan output, setiap neuron menggunakan fungsi aktivasi (Jong 1992).

Arsitektur jaringan syaraf tiruan disajikan pada Gambar 6.

Gambar 6 Arsitektur JST sederhana (Jong 1992)

Learning Vector Quantization (LVQ)

Learning Vector Quantization (LVQ) merupakan suatu metode klasifikasi pola yang masing-masing unit output mewakili kategori atau kelas tertentu. Vektor bobot untuk unit output sering disebut vektor referensi untuk kelas yang dinyatakan oleh unit tersebut. LVQ mengklasifikasikan vektor input dalam kelas yang sama dengan unit output yang memiliki vektor bobot yang paling dekat dengan vektor

input (Widodo 2005). Ilustrasi dari jaringan LVQ dapat dilihat pada Gambar 7.

Gambar 7 Arsitektur jaringan LVQ (Widodo 2005)

Algoritme pelatihan LVQ bertujuan memperoleh unit output yang paling dekat dengan vektor input. Bila x dan wc berasal dari kelas yang sama, maka vektor bobot didekatkan ke vektor input, tetapi apabila berasal dari kelas yang berbeda, maka vektor bobot akan dijauhkan dengan vektor input.

Kelebihan dari LVQ adalah:

1. nilai error yang lebih kecil dibandingkan dengan jaringan syaraf tiruan seperti backpropagation.

2. Dapat meringkas data set yang besar menjadi vektor codebook berukuran kecil untuk klasifikasi.

3. Dimensi dalam codebook tidak dibatasi seperti dalam teknik nearest neighbour.

4. Model yang dihasilkan dapat diperbaharui secara bertahap.

Kekurangan dari LVQ adalah:

1. Dibutuhkan perhitungan jarak untuk seluruh atribut.

2. Akurasi model dangan bergantung pada inisialisasi model serta parameter yang digunakan (learning rate, iterasi, dan sebagainya).

3. Akurasi juga dipengaruhi distribusi kelas pada data training.

4. Sulit untuk menentukan jumlah codebook vektor untuk masalah yang diberikan.

Algoritme LVQ

Berikut ini adalah algoritme dari LVQ :

 Diinisialisasikan nilai bobot, maksimum epoch, dan learning rate,

Nilai input (m,n), dan kelas target dimasukkan ke dalam vector (1,n)

 Selama kondisi berhenti bernilai salah, dilakukan :

(5)

a. Untuk masing-masing pelatihan vektor input x

b. Dicari j sehingga ||x-wj|| bernilai minimum

c. Perbaiki wj dengan : 1. Jika T = cj maka

wj baru =wj lama + α x-wj lama 2. Jika T ≠ cj

wj baru =wj lama - α x-wj lama d. Learning rate dikurangi e. Kondisi berhenti dilihat K-fold Cross Validation

Metode k-fold cross validation membagi data menjadi k-buah subset, sebanyak k-1 buah subset digunakan sebagai training set dan 1 buah set sebagai testing set (Guiterez 2000).

Sebagai gambaran, pada Gambar 8 terdapat ilustrasi k-fold cross validation menggunakan 4 buah fold.

Gambar 8 Contoh cross validation dengan 4 fold

Confusion Matrix

Confusion matrix mengandung informasi tentang aktual dan prediksi klasifikasi yang dilakukan oleh sistem. Hasil dari sebuah sistem sering dievaluasi menggunakan confusion matrix (Kohavi and Provost 1998).

METODE PENELITIAN

Penelitian ini melalui beberapa tahapan proses. Tahapan proses yang dilakukan dalam penelitian ini disajikan pada Gambar 9.

Studi Pustaka

Pada tahap ini, kegiatan yang dilakukan adalah mengumpulkan semua informasi atau literatur yang terkait dalam penelitian.

Informasi tersebut didapatkan dari buku, jurnal, internet dan artikel-artikel yang membahas klasifikasi genre musik.

Mulai

Studi Pustaka

Perumusan Masalah

Data Musik

Pelatihan Klasifikasi

Evaluasi

Selesai Praproses

LVQ

Data Latih Data Uji

Pembagian data (K-fold cross validation)

Gambar 9 Metodologi penelitian Perumusan Masalah

Pada tahap ini dilakukan analisis terhadap permasalahan seperti pemilihan data musik, pemilihan bagian yang akan dijadikan data latih dan data uji.

Data Musik

Data yang digunakan pada penelitian ini berjumlah 80 buah data yang dibagi ke dalam 4 buah genre yaitu, keroncong, jazz, klasik, dan rock, (masing–masing genre terdiri atas 20 buah lagu). Penulis menggunakan 4 buah genre dikarenakan penelitian ini dimaksudkan sebagai model awal penelitian klasifikasi genre musik.

Setelah data dikumpulkan proses selanjutnya adalah memotong durasi dari tiap lagu secara random, menjadi 5, 10, 20 dan 25 detik dengan menggunakan software Audacity.

Gambar

Gambar 1  Diagram blok proses MFCC   (Do  1994)
Ilustrasi dari Hamming window dapat dilihat  pada Gambar 3.
Gambar 6  Arsitektur  JST  sederhana  (Jong  1992)
Gambar 8  Contoh cross validation dengan 4  fold

Referensi

Dokumen terkait

A CLARINET-vizsgálat közepesen differenciált és a májtö- meg 25%-ánál nagyobb daganattömeggel társult neuro- endokrin daganatokban is kimutatta a lanreotid haté- konyságát

5. Rataan nilai dari 20 bilangan adalah 14,2. Jika rataan dari 12 bilangan pertama adalah 12,6 dan rataan dari 6 bilangan berikutnya adalah 18,2, maka rataan 2 bilangan terakhir

Gambar 3.5 menunjukkan bahwa pola grafik curah hujan bulanan yang diperoleh dari model analisis CFSv2 menunjukkan kesesuaian dengan observasi di Stasiun Klimatologi,

Berdasarkan Tabel 3 di atas dapat dilihat dari total skor ketiga perlakuan dalam uji organoleptik terhadap warna, skor tertinggi adalah pada keripik A3 yakni

Karena adanya beberapa keunggulan dari bagian tersebut itulah maka semen glass ionomer saat ini secara luas digunakan oleh dokter gigi, terutama pada kavitas

Peningkatan Minat dan Hasil Belajar IPA Pokok Bahasan Penggolongan Makhluk Hidup Menggunakan Metode Demonstrasi dengan Media Puzzle Pada Siswa Kelas III SDN Kaliwining 07

dasar dari evaluasi dan penerimaan diri yang baik pula; (6) pengaruh keberhasilan, orang yang berhasil dan memperoleh kesuksesan akan mengarah terhadap penerimaan

a) Intensitas, prinsip intensitas dari suatu perhatian dapat dinyatakan bahwa semakin besar intensitas stimulus dari luar, tentunya semakin besar pula hal – hal itu