BAB I PENDAHULUAN. 1.1 Latar Belakang

(1)

1.1 Latar Belakang

Perkembangan teknologi sejalan dengan perkembangan interaksi manusia dan komputer. Demi kenyamanan pengguna, para pengembang perangkat lunak dan peneliti berpikir keras untuk mengembangkan teknologi yang efisien serta mudah digunakan. Penyederhanaan iteraksi pengguna dengan sistem pun dilakukan, salah satu- nya dengan menggantikan interaksi langsung menyentuh perangkat dengan perintah suara. Dalam satu tahun terakhir, teknologi tersebut banyak digunakan di berbagai bidang (Elisse, 2016). Dengan kendali perintah berupa suara, interaksi dilakukan dengan lebih cepat dan usaha yang dilakukan menjadi semakin kecil. Suara sebagai cara berinteraksi dengan komputer semakin banyak digunakan. Pengaruh baiknya yaitu pengguna tidak perlu lagi menggenggam perangkat. Keuntungan dari bebas genggam atau hands-free yaitu kesederhanaan, mobilitas tinggi, mudah disesuaikan, dan lain-lain.

Pada saat ini, keberadaan berbagai perangkat cerdas bukan lagi hal yang lang- ka, seperti televisi cerdas (smart television), otomasi rumah cerdas (smart home au- tomation), sistem navigasi mobil (car navigation system), dan robot asisten. Keba- nyakan dari perangkat tersebut telah mengimplementasikan pengenalan suara sebagai perintah masukan (Elisse, 2016). Pada beberapa aplikasi dari perangkat elektronik pribadi seperti telepon genggam, jarak pengguna ke microphone cenderung lebih de- kat jika dibandingkan dengan beberapa aplikasi lainnya. Kondisi suara di sekitar pengguna ketika proses pengucapan perintah kendali akan berpengaruh terhadap ke- sesuaian perintah yang disampaikan dengan yang dikenali oleh sisten. Semakin jauh jarak pengguna terhadap microphone, dapat menimbulkan banyak penyimpangan dari prediksi perintah suara oleh sistem karena akan banyak noise yang ditemukan. Su- ara pengucapan yang terganggu oleh noise lebih sulit untuk dikenali, sehingga perlu teknik khusus untuk mengatasi hal tersebut.

Voice activity detection(VAD), juga disebut sebagai speech activity detection, adalah langkah awal yang penting pada berbagai macam sistem pemrosesan suara berbasis ucapan atau speech. Menurut Hughes dan Mierle (2013) dan Ferroni et al.

(2015), VAD adalah proses pengidentifikasian secara otomatis, pada bagian kapan

1

(2)

sinyal mengandung speech (suara pengucapan manusia) dan yang tidak mengandung speech.

VAD sering diaplikasikan pada tiga macam pemrosesan sinyal suara, yaitu speech coding, speech enhancement, dan automatic speech recognition (Ramirez et al., 2007). Pada Automatic Speech Recognition (ASR), hal ini sangatlah penting untuk menghindari terselipnya kata yang diakibatkan dari noise baik dari kondisi suara dari lingkungan sekitar ketika berbicara, seperti gaung maupun suara-suara yang tidak diinginkan lainnya. Karena hal tersebut akan menurunkan performa dari pengenalan pengucapan (Ferroni et al., 2015).

Hughes dan Mierle (2013) mengatakan bahwa implementasi VAD itu sulit karena banyaknya variasi sinyal suara dari speech dan non-speech. Disamping itu, karakteristik sumber suara dan kondisi lingkungan merupakan faktor yang mempe- ngaruhi kompleksitas dari sinyal suara ketika berbicara. Pada kondisi sinyal suara yang tidak terganggu dengan noise, proses VAD dapat dengan mudah diselesaikan (Ferroni et al., 2015). Namun apabila sinyal suara terganggu dengan adanya noise, VAD semakin sulit untuk memperoleh performa yang baik. Banyak kegunaan teknologi VAD serta tantangan dalam pengembangannya membuat penulis tertarik untuk mengangkat isu ini dalam penelitian penulis.

Pada permasalahan VAD, salah satu metode yang memberikan performa yang baik ialah Recurrent Neural Network (RNN), seperti yang dilakukan oleh Hughes dan Mierle (2013). RNN adalah salah satu arsitektur jaringan syaraf tiruan yang mampu menangani hubungan antar sekuen dengan panjang tertentu pada data sekuensial.

Lalu dengan menggunakan Long Short-Term Memory (LSTM) (Hochreiter dan Sch- midhuber, 1997) pada RNN seperti yang telah dilakukan oleh Eyben et al. (2013), mampu memberikan performa yang lebih baik dibandingkan dengan metode VAD berbasis statistik. Hasil eksperimen tersebut menunjukkan pada kondisi sinyal suara yang terdapat banyak noise sekalipun, RNN memberikan hasil yang lebih baik dibanding metode-metode state-of-the-art sebelumnya. Hal ini diperkuat dengan hasil penelitian dari Tong et al. (2016) bahwa pada VAD, LSTM-RNN cenderung lebih kuat dibanding Convolutional Neural Network (CNN) dan Deep Neural Network (DNN).

Selain untuk VAD, LSTM-RNN telah terbukti mampu memberikan hasil yang mena- jubkan pada kasus yang memetakan sequence-to-sequence (Jozefowicz et al., 2015).

Selain LSTM-RNN, terdapat sebuah mekanisme gating lain yang merupakan modifikasi dari LSTM, yaitu Gated Recurrent Unit (GRU) oleh Cho et al. (2014).

GRU sedikit menyederhanakan model LSTM, sehingga operasi yang terjadi pada sa-

(3)

tu unit lebih sedikit dibandingkan dengan LSTM. Eksplorasi dan perbandingan dari GRU, LSTM, dan fungsi aktivasi tanh dilakukan pada penelitian Chung et al. (2014) dan Jozefowicz et al. (2015). Hasil dari penelitian tersebut menunjukkan bahwa GRU mampu mengimbangi LSTM. Terlebih lagi karena kompleksitas dari GRU relatif lebih rendah dari LSTM. Oleh karena itu, pada penelitian ini GRU-RNN dicoba dievaluasi dengan melakukan eksperimen pada permasalahan VAD.

Penelitian-penelitian terkait VAD menggunakan salah satu arsitektur dengan mekanisme gating yaitu GRU, belum pernah dibahas dan dievaluasi secara empiris.

Evaluasi GRU sebagai metode untuk VAD secara empiris dilakukan dengan melakukan eksperimen pengujian performa terhadap arsitektur RNN lain yaitu LSTM dan RNN dengan aktivasi tanh pada suara pengucapan dengan tingkatan noise yang riuh.

Evaluasi dilakukan dengan membandingkan performa pelatihan maupun pengujian dari arsitektur GRU terhadap arsitektur LSTM dan tanh-RNN.

1.2 Rumusan masalah

Berdasarkan latar belakang yang telah diuraikan sebelumnya, arsitektur Re- current Neural Network(RNN) dengan Long Short-Term Memory (LSTM) telah di- buktikan bekerja lebih baik dari metode state-of-the-art Voice Activity Detection (VAD), dan Gated Recurrent Unit (GRU) yang memiliki kompleksitas yang relatif lebih rendah dari LSTM belum pernah digunakan pada VAD. Maka rumusan masalah dalam penelitian ini adalah:

1. Bagaimana arsitektur RNN dengan GRU digunakan dalam permasalahan yang ada pada VAD?

2. Bagaimana hasil dari evaluasi empiris penggunaan arsitektur GRU sebagai metode pada VAD jika dibandingkan dengan arsitektur LSTM dan RNN biasa?

3. Bagaimana perbandingan performa GRU jika dibandingkan dengan arsitektur LSTM dan RNN biasa?

1.3 Batasan masalah

Pada penelitian ini, ruang lingkup penelitian dibatasi agar dapat dihasilkan penelitian yang lebih fokus dan tidak meluas. Ruang lingkup permasalahan akan dibatasi seperti berikut :

(4)

1. Implementasi pembangunan model menggunakan Tensorflow.

2. Suara noise yang digunakan adalah suara dengan noise yang ditimbulkan pada tiga kondisi, yaitu di dalam mobil, di jalan raya, dan kondisi babble (suara riuh percakapan).

3. Metrik evaluasi yang digunakan adalah Area Under ROC Curve (AUC).

4. Implementasi perhitungan AUC menggunakan metrics Tensorflow.

1.4 Tujuan penelitian

Tujuan dari penelitian ini adalah untuk menunjukkan dan mengevaluasi penggunaan dan performa dari Gated Recurrent Unit (GRU) pada Recurrent Neural Ne- twork(RNN) untuk Voice Activity Detection (VAD).

1.5 Manfaat penelitian

Dengan adanya penelitian ini diharapkan dapat memberikan manfaat sebagai berikut :

1. Dapat dijadikan sebagai sumber referensi penentuan metode Voice Activity De- tection(VAD).

2. Peneliti lain dapat mengetahui pengaplikasian arsitektur Gated Recurrent Unit Recurrent Neural Network(GRU-RNN) pada VAD.

3. Peneliti lain dapat mengetahui keunggulan dan kelemahan GRU-RNN pada VAD.

1.6 Metodologi Penelitian

Penelitian yang dilakukan akan dibagi dalam beberapa tahapan yang sistema- tis. Tahapan tersebut ialah :

1. Studi Literatur

Studi literatur dilakukan untuk mengetahui penelitian dan perkembangan ter- kini dari penelitian yang akan dilakukan oleh penulis. Pada tahap ini, hal-hal

(5)

yang dilakukan penulis meliputi pengumpulan teori, informasi, penelitian, serta data literatur pendukung dalam memahami struktur dan penggunaan Recurrent Neural Network (RNN) baik pada kasus Voice Activity Detection (VAD) maupun kasus lain, strategi persiapan data dan pelabelan, metode pelatihan RNN, dan metode pengujian arsitektur. Literatur diperoleh dari buku-buku dan doku- mentasi pustaka terbuka online maupun jurnal ilmiah.

2. Analisis

Pada tahap ini dilakukan analisis terhadap studi literatur untuk memahami permasalahan, kebutuhan yang diperlukan untuk tahap perancangan, dan tahapan yang perlu dilakukan untuk menerapkan metode yang dapat menyelesaikan permasalahan sesuai dengan tujuan penelitian.

3. Perancangan

Pada tahap ini, rancangan penelitian didesain berdasarkan hasil analisis. Ran- cangan penelitian meliputi rancangan data, ekstraksi fitur, arsitektur, dan pelatihan.

4. Implementasi

Implementasi dilakukan dengan menerapkan hasil analisis dan perancangan yang sudah dilakukan pada tahapan sebelumnya.

5. Pengujian

Pengujain dilakukan untuk mengetahui model yang tepat dengan mengujinya pada himpunan data tes. Dengan begitu, hasil akurasi dari model yang diimple- mentasikan dapat dibandingkan dengan model lain.

1.7 Sistematika Penulisan I BAB 1 : PENDAHULUAN

Pada bab ini berisi tentang latar belakang penelitian, rumusan masalah, batasan masalah, tujuan, manfaat, serta metodologi penelitian dari penelitian yang dilakukan.

II BAB 2 : TINJAUAN PUSTAKA

Pada bab ini berisi mengenai penelitian-penelitian sebelumnya yang telah dilakukan yang terkait dengan penelitian yang penulis lakukan.

(6)

III BAB 3 : LANDASAN TEORI

Pada bab ini berisi tentang penjabaran teori yang dipakai.

IV BAB 4 : ANALISIS DAN PERANCANGAN

Pada bab ini berisi tentang analisis dan perancangan penelitian yang dilakukan.

V BAB 5 : IMPLEMENTASI

Pada bab ini berisi mengenai implementasi rancangan penelitian.

VI BAB 6 : PEMBAHASAN DAN PENGUJIAN

Pada bab ini berisi mengenai pembahasan dan pengujian model yang telah di- buat.

VII BAB 7 : PENUTUP

Pada bab ini berisi tentang kesimpulan dari penelitian yang telah dilakukan.

Selain itu juga disertakan juga saran untuk penelitian selanjutnya.