SUBJECTIVE AND OBJECTIVE MEASURE ON SPEECH INTELLIGIBILITY OF COCHLEAR
IMPLANT BY RELEASE OF MASKING
Anintyo Adi Nugroho
[1], Dr. Dhany Arifianto ST, M.Eng
[2]Jurusan Teknik Fisika
Fakultas Teknologi Industri
Institut Teknologi Sepuluh Nopember (ITS)
Kampus ITS Sukolilo, Surabaya – 60111
email : [email protected]
[1],[email protected]
[2]ABSTRAK
Subjective measure (tes pendengaran) pada prinsipnya adalah mengukur intelligibility
index dari sekumpulan sampel pendengar Teknik ini lazim dipakai karena memiliki keakuratan
yang tinggi untuk menentukan tingkat kualitas suara setelah proses. Namun dalam prakteknya
metode subjective measure memiliki banyak kekurangan, yaitu membutuhkan ± 20 – 40
pendengar dengan pendengaran normal untuk memenuhi kriteria kecukupan sampel secara
statistic sehingga mahal. Untuk mengatasi masalah ini dibutuhkan alternatif yaitu dengan
menggunakan metode objective measure (tes simulasi) dengan pembobotan sehingga mendekati
hasil uji subyektif. Penelitian ini difokuskan pada teknik mendapatkan bobot dari objective
measure. Tujuan dari penelitian ini adalah proses enhance pada campuran stimuli dapat
meningkatkan nilai %correct words. Pada percobaan penentuan Iintelligibility index sebanyak 10
responden diperdengarkan 60 kalimat stimuli setelah itu responden diharuskan untuk menuliskan
kembali ke 60 stimuli yang telah didengarkan dengan kombinasi target dan masker (stimuli)
yang memiliki perbandingan channel 20 dan 2, 20 dan 12, 20 dan 20, 12 dan 20, 8 dan 20, 2 dan
20. Setelah itu dilakukan penilaian persen kata benar, kemudian menentukan intelligibility index
tiap percobaan. Berdasarkan penelitian yang telah dilakukan maka dapat diambil beberapa
kesimpulan yakni responden lebih mudah memahami tiap kata stimuli target pada campuran
stimuli jika stimuli target lebih dominan daripada stimuli masker. Proses enhancement pada
campuran stimuli membuat stimuli target lebih terdengar jelas daripada stimuli masker yang
mengakibatkan memudahkan responden untuk memahami setiap kata stimuli target pada
campuran stimuli. Kemampuan responden dalam memahami stimuli target berbanding lurus
dengan %correct words. Semakin tinggi tingkat %correct words semakin baik kemampuan
memahami stimuli target oleh responden.
Kata kunci:
subjective measure, objective measure1.
PENDAHULUAN
Kualitas suara yang telah melalui suatu proses (pemfilteran, kompresi, dan lain-lain) diukur dengan subjective measure (tes
pendengaran) yang pada prinsipnya mengukur
intelligibility index dari sekumpulan sampel
pendengar [1,2]. Prinsip kerja dari teknik pengukuran ini adalah stimulus sinyal suara berupa kalimat setelah proses diperdengarkan pada sekumpulan orang (populasi sampel) kemudian menentukan persen kata benar (%
correct word) dari stimulus. Persen kata benar
ini kemudian diubah menjadi intelligibility
index. Teknik ini lazim dipakai karena memiliki
keakuratan yang tinggi untuk menentukan
tingkat kualitas suara setelah proses. Namun dalam prakteknya metode subjective measure memiliki banyak kekurangan, yaitu membutuhkan ± 20 – 40 pendengar dengan pendengaran normal untuk memenuhi kriteria kecukupan sampel secara statistic sehingga mahal. Untuk mengatasi masalah ini dibutuhkan alternatif yaitu dengan menggunakan metode
objective measure (tes simulasi) dengan pembobotan sehingga mendekati hasil uji subyektif.
Pengukuran kualitas suara berupa percakapan atau music didalam ruang karena suatu proses ke-rekayasa-an dilakukan dengan menggunakan teknik obyektif yang secara adalah membandingkan sinyal asli dengan derau
dalam satuan decibel (dB SNR) [2]. Banyak
objective measure telah diajukan sebelumnya
untuk memprediksi kualitas suara hasil pendengaran [3-5]. Teknik pengukuran ini dikembangkan dengan maksud untuk mengevaluasi distorsi yang diakibatkan gangguan pada sinyal akibat sumber, kanal atau sisi penerima pada komunikasi. Esensinya adalah membandingkan sinyal asli dengan sinyal yang diterima setelah melalui proses mengeliminasi derau pada sinyal memakai ukuran kuantitatif. Penjelasan lebih lanjut dapat dilihat pada bab II teori penunjang.
Pada penelitian yang telah dilakukan sebelumnya [10] diperoleh hasil subjective
measure yang berbeda jauh dengan hasil objective measure, sehingga sulit menentukan
kualitas mana yang lebih baik akibat perbedaan teknik pengukuran. Focus penelitian ini adalah untuk mendapatkan bobot (dari koefisien korelasi) dari objective measure terhadap
subjective measure. Diharapkan objective measure nantinya dapat memberikan hasil yang
mendekati sama dengan hasil subjective measure, sehingga objective measure dapat
dipakai sebagai teknik pengukuran kualitas suara akibat proses yang akurat tanpa memakai
subjective measure
Tujuan dari penelitian ini adalah proses
enhance pada campuran stimuli dapat meningkatkan nilai %correct words. Dengan meng-enhancing campuran stimuli, maka stimuli yang bersifat lebih dominan akan terdengar lebih jelas, sedangkan stimuli yang powernya lebih lemah akan semakin tidak jelas atau tidak terdengar. Dalam hal ini di harapkan stimuli target dapat terdengar lebih jelas daripada stimuli masker. Hasil enahcaning stimuli di harapkan dapat meningkatkan kemampuan pemahaman respoden terhadap stimuli target pada campuran stimuli, sehingga dapat memberikan hasil berupa peningkatan nilai
%correct words.
2.
DASAR TEORI
Sesuai dengan draft standar ISO 9921 [13] yang baru tentang “Penilaian Komunikasi Suara” bahwa pendefinisian kejelasan kalimat adalah ukuran efektivitas serangkaian kata yang dapat dimengerti. Standar ISO 9921 menggambarkan dan membandingkan beberapa langkah dalam menentukan kejelasan suara. Secara umum terdapat dua metode penilaian kualitas suara antara lain:
1. Subjective Measure berdasarkan tes pendengaran
2. Objective measure berdasarkan tes simulasi
2.1
Subjective Measure
Pesan yang disampaikan dapat dimengerti jika pendengar dapat memahami seluruh atau sebagian kalimat yang diucapkan oleh pembicara. Ukuran seseorang dalam memahami pesan dapat dilakukan melalui tes pendengaran, hal ini dilakukan dengan tujuan untuk mengetahui pemahaman seseorang dalam menangkap ucapan kalimat-kalimat yang didengarnya.
Tes pendengaran yang dilakukan menggunakan stimuli yang diambil dari IEEE
Database. Stimuli berupa kalimat yang tidak
mengalami pemrosesan (kalimat tidak terproses) maupun kalimat yang mengalami pemrosesan (kalimat terproses). Kalimat tidak terproses merupakan kalimat asli yang tidak terusak oleh
noise, sedangkan kalimat yang mengalami
pemrosesan merupakan kalimat asli yang telah terusak oleh noise.
Langkah-langkah melakukan tes pendengaran yang pertama adalah memperdengarkan sejumlah stimuli kepada pendengar yang memiliki pendengaran normal sambil menuliskan kalimat yang telah didengar pada kertas kosong selama kurang lebih 2 – 3 jam. Selanjutnya melakukan penilaian persen kata benar terhadap stimuli yang tertulis pada kertas. Persen kata benar merupakan persentase perhitungan jmulah kata yang benar dalam satu kalimat yang telah dituliskan pada kertas kosong. Yang terakhir mengubah persen kata benar menjadi intelligibility index. Intelligibility
index merupakan suatu penunjuk baik atau
buruknya seseorang dalam menangkap ucapan kalimat-kalimat yang didengarnya.
2.2
Objective Measure
Pengukuran speech intelligibility tidak hanya dapat dilakukan melalui subjective
measure akan tetapi dapat pula melalui objective emasure. Objective measure dilakukan didasarkan pada tes simulasi yakni menggunakan model contoh kognitif pengganti system pendengaran manusia. Teknik pengukuran ini dikembangkan dengan maksud untuk mengevaluasi distorsi yang diakibatkan gagngguan pada sinyal akibat sumber, kanal atau sisi penerima pada komunikasi. Esensinya adalah membandingkan sinyal asli dengan sinyal yang diterima setelah melalui proses
mengeliminasi derau pada sinyal dalam satuan decibel (dB) [2].
2.3 Signal Enhancement
Sebuah system signal enhancement biasanya terdiri dari dua komponen utama yaitu estimasi daya spectrum noise
signal. Pada saat ini terdapat banyak metode
dalam signal enhancement yang selanjutnya akan dijelaskan pada subbab berikut.
2.3.1 Signal EnhancementBased On Spectral
Subtraction
Metode Spectral Subtraction diusulkan oleh Boll pada tahun 1979 adalah teknik pengurangan kebisingan yang popular dikarenakan teknik ini menggunakan konsep yang sederhana dan bekerja efektif dalam meningkatkan sinyal suara yang terdegradasi oleh adanya kebisingan. Prinsip dasar
Spectral Subtraction adalah mengurangi besarnya spectrum kebisingan dari sinyal suara yang telah bercampur dengan kebisingan. Dua asumsi utama yang digunakan dalam
Subtraction adalah 1) sinyal suara dan sinyal
kebisingan tidak berkorelasi, dan 2) sinyal noise adalah stasioner.
Apabila ada sinyal suara yang bercampur dengan noise maka sinyal suara itu dapat dikatakan rusak.Sinyal suara yang rusak tersebut dapat dituliskan sebagai berikut [5]
y(n) = s(n) + d(n)
(2.1)
dimana y(n), s(n), dan d(n) berturut
sinyal suara yang rusak, sinyal suara asli, dan sinyal noise. Daya spectrum suara yang rusak dapat dituliskan sebagai[5]
|| || ||
(2.2)
Dimana adalah transformasi Fourier
y(n), S(k), dan D(k)
masing-besarnya daya spectrum sinyal suara asli dan daya spectrum noise, sehingga
|| || ||
Dimana || adalah sinyal tanpa
di estimasi dari persamaan (2.3). Ilustrasi dari mengeliminasi derau pada sinyal dalam satuan
signal enhancement
biasanya terdiri dari dua komponen utama yaitu
noise dan estimasi
. Pada saat ini terdapat banyak metode yang selanjutnya akan dijelaskan pada subbab berikut.
Based On Spectral
Spectral Subtraction yang
diusulkan oleh Boll pada tahun 1979 adalah teknik pengurangan kebisingan yang popular dikarenakan teknik ini menggunakan konsep yang sederhana dan bekerja efektif dalam meningkatkan sinyal suara yang terdegradasi oleh adanya kebisingan. Prinsip dasar dari adalah mengurangi besarnya spectrum kebisingan dari sinyal suara yang telah bercampur dengan kebisingan. Dua asumsi utama yang digunakan dalam Spectral adalah 1) sinyal suara dan sinyal n 2) sinyal noise Apabila ada sinyal suara yang maka sinyal suara itu dapat dikatakan rusak.Sinyal suara yang rusak tersebut dapat dituliskan sebagai berikut [5]
na y(n), s(n), dan d(n) berturut-turut adalah sinyal suara yang rusak, sinyal suara asli, dan . Daya spectrum suara yang rusak
adalah transformasi Fourier dari -masing adalah besarnya daya spectrum sinyal suara asli dan
(2.3) adalah sinyal tanpa noise yang
di estimasi dari persamaan (2.3). Ilustrasi dari
Signal Enhancement
SSBoll dapat dilihat pada gambar 2.4.
SpektrumSinyal Target SpektrumSinyal Masker
HasilPenguranganSpektrum Target dan Masker
Gambar 2.4 Signal Enhancement metode SSBoll
Gambar 2.3 menganalogikan suatu sinyal suara yang tercampur dengan
kemudian di enhancing
SSBoll. Garis merah adalah spectrum sinyal garis ungu adalah spectrum dari
2.3.2 Speech Enhancement Algorithm Based
on MMSE Short Time Spectral Amplitude Method
Pada algoritma Minimum Mean Square Error-Short Time Spectral Amplitude (MMSE STSA), yang dikemukakan
Malah pada tahun 1984. suara yang rusak akibat dirubah dari domain waktu frekuensi. Kemudian dibagi segmen. Penentuan
tergantung pada frekuensi sampling data. Sebagai contoh, apabila
sinyal suara adalah 8000 maka adalah 256 karena pada membutuhkan waktu kurang
Proses selanjutnya magnitude tertinggi dari
kemudian dirata-rata. Dari hasil hasil rata-rata kebawah
noise yang pada akhirnya Magnitudo
Signal Enhancement Menggunakan metode
SSBoll dapat dilihat pada gambar 2.4.
SpektrumSinyal Target SpektrumSinyal Masker
HasilPenguranganSpektrum Target dan
Signal Enhancement Menggunakan
metode SSBoll
Gambar 2.3 menganalogikan suatu sinyal suara yang tercampur dengan sinyal noise dan
enhancing menggunakan metode
adalah spectrum sinyal dan adalah spectrum dari noise.
Speech Enhancement Algorithm Based on MMSE Short Time Spectral Amplitude Method
algoritma Minimum Mean Square Short Time Spectral Amplitude (MMSE-STSA), yang dikemukakan oleh Ephraim and
tahun 1984. Pada metode ini, sinyal akibat adanya suara bising dari domain waktu kedalam domain dibagi dalam
segmen-banyaknya segment frekuensi sampling data. frekuensi sampling dari adalah 8000 maka lebar segmennya pada speech 1 getaran kurang lebih 30 ms. Proses selanjutnya adalah mencari
dari tiap-tiap segmen dan rata. Dari hasil tersebut maka akan dianggap sebagai akhirnya akan direduksi.
SpektrumSinyal Target SpektrumSinyal Masker
Gambar 2.5 Signal Enhancement Menggunakan MMSE-STSA
Gain spectral dapat dihitung dalam
persamaan[4] 1 ! "#$ % & Ʌ 'Ʌ (2.4)
Dimana dan menunjukkan fungsi Bessel dari urutan 0 dan urutan pertama.
'((
)*
(2.5)Ʌ
+,, -./'( (2.6)
0
1*+, (2.7)
)*
|2| 3 4 (2.8)
Dimana adalah transformasi Fourier dari sinyal suara yang bercampur noise
dan 5 adalah estimasi daya spektrum
noise.Ilustrasi dari Signal Enhancement
Menggunakan MMSE-STSA dapat dilihat pada gambar 2.5.
2.3.3 Speech EnhancementBased onA
Multi-Band Spectral Subtraction
Pada [5] dijelaskan bahwa Sunil D. Kamath dan Philipos C. Loizou mengusulkan sebuah pendekatan multi-band kepada metode
Spectral Subtraction yang telah ada dalam
pereduksian noise untuk mendapatkan kualitas sinyal suara yang bagus. Untuk memperhitungkan fakta bahwa noise yang bervariasi mempengaruhi spectrum sinyal suara pada berbagai frekuensi maka metode ini perlu digunakan. Pada metode ini, spectrum sinyal suara dibagi menjadi N non-overlapping bands dan selanjutnya metode Spectral Subtraction diterapkan kepada tiap-tiap band. Sehingga estimasi spectrum sinyal suara yang bersih untuk
band ke-i dapat dituliskan[5]
678 6 6:8 6 ;8<86=8 6>8? ? "8
(2.9)
Dengan >8dan"8adalah awal dan akhir dari frekuensi bins dari band frekuensi ke-i, ;8 adalah faktor over-subtaction dari band frekuensi ke-i, dan <8 adalah faktor tweaking yang dapat ditentukan untuk tiap frekuensi
band[5]. ;8 C 5 EF8 G 5 4 I EF8 5 ? EF8 ? 20 1 EF8 L 20 M (2.10) <8 N 1 O8? 1 PQ 2.5 1 PQ G O8 ?S3 2 PQ 1.5 O8 LS3 2 PQ M (2.11)
Ilustrasi Signal Enhancement
Menggunakan Multi Band Spectral Substraction dapat dilihat pada gambar 2.6.
SegmentalSNR (SNRi) adalah nilai rata-rata SNR yang dihitung untuk tiap segmen data atau band frekuensi. Jadi segmentalSNR untuk tiap band frekuensi ke-i dapat dituliskan [5]
EF8 10 TUVW∑∑ZY[\]Y|26^=Y|3
Y [63 ZY
[\]Y _
SpektrumSinyal Target SpektrumSinyal Masker
HasilPenguranganSpektrum Target dan Masker
Gambar 2.6 Signal Enhancement Menggunakan
Multi Band Spectral Substraction
3.
METODOLOGI
3.1 Penentuan Responden
Penelitin ini melibatkan responden sebanyak 8 orang. Mereka memiliki pendengaran yang normal. Rata-rata usia responden adalah 25 tahun dan mereka semua adalah native speakers.
3.2 Stimuli
Stimuli merupakan sinyal suara yang
akan diujikan kepada responden. Sinyal suara yang diujikan semuanya adalah suara laki-laki dan diperoleh dari database IEEE dengan frekuensi sampling 25 kHz. Jenis masker yang digunakan adalah suara laki-laki tunggal.
3.3 Pemrosesan Stimuli
Sinyal suara diproses menggunakan
bandpass filter kedalam 2, 8, 12, dan 20 channel
dengan spasi filter sesuai dengan filter mel (persamaan 3.1) seperti pada tabel 3.2 menggunakan Matlab 7.8. Sinyal suara kemudian dikombinasikan dengan rasio yang tepat seperti pada tabel 3.1 menggunakan audacity 1.3 dengan SNR 0 dB dan frekuensi sampling 25 kHz.
Tabel 3.1 Tabel Perbandingan Channel Target dan Masker No. Channel Target Channel Masker 1 20 2 2 20 12 3 20 20 4 12 2 5 12 8 6 12 12 7 12 20 8 8 20 9 2 20 3.4 Prosedur
1. Penentuan Intelligibility Index.
Pengujian terhadap responden dilakukan pada ruangan yang sunyi, dalam hal ini dilakukan di ruang kedap suara laboratorium akustik dan fisika bangunan Teknik Fisika ITS menggunakan laptop yang dikoneksikan dengan
soundcard Pro Tolls dengan keluaran sinyal
suara yang mempunyai frekuensi sampling 44.1 kHz untuk audio. Stimuli diperdengarkan kepada responden melalui headphone
Sennheiser HD 650 pada level pendengaran yang nyaman. Pada percobaan pertama sebanyak 8 responden diperdengarkan 60 kalimat stimuli dengan kombinasi target dan masker (stimuli) yang memiliki perbandingan channel 20 dan 2, 20 dan 12, 20 dan 20, 12 dan 20, 8 dan 20, 2 dan 20. Masing-masing kombinasi channel masker dan target yang diujikan adalah sepuluh kalimat. Sebelum stimuli diujikan, diberikan sesi training dengan memperdengarkan responden sebanyak 10 kalimat stimuli. Sesi ini responden diperdengarkan sebanyak 10 kalimat stimuli acak yang diambil masing-masing 2 kalimat dari tiap kombinasi, setelah itu responden diharuskan untuk menuliskan ulang 10 kalimat stimuli. Sesi ini diberikan untuk memudahkan responden dalam tahap pengujian stimuli sebenarnya. Pada tahap pengujian stimuli sesuai dengan kombinasi
channel target dan masker seperti yang telah
disebutkan diatas, pemutaran stimuli hanya dilakukan satu kali dan tidak dapat diulang. Setelah itu akan dilakukan penghitungan hasil pengujian dan menentukan intelligibility index.
4.
ANALISA DATA dan PEMBAHASAN
Pembobotan yang diberikan pada
objective
measure
membuat
objective
measure dapat memberikan hasil mendekati
hasil subjective measure, sehingga objective
measure dapat digunakan sebagai alternatf
pengukuran speech intellitgibility.
4.1 Penentuan %correct words
Nilai %correct words yang diperoleh
dari hasil pengujian terhadap empat belas
(14) responden untuk mengetahui pengaruh
release of masking dalam meningkatkan
speech intelligibility pada campuran stimuli
dengan kombinasi channel target dan
masker 2 dan 20, 8 dan 20, 12 dan 2, 12 dan
8, 12 dan 12, 12 dan 20, 20, dan 2, 20
dengan 12, 20 dan 20 channel dapat dilihat
pada gambar 4.1 dan gambar 4.2.
Gambar 4.1 grafik nilai %correct words vs
stimuli pada percobaan 1
Gambar 4.1 merupakan gambar
grafik hasil penelitian hearing test kepada
sepuluh responden dengan menggunakan
campuran stimuli 2 dan 20, 8 dan 20, 12 dan
20, 20 dan 2, 20 dan 12, 20 dan 20 yang
berupa %correct words. Batang diagram
pada campuran stimuli 2 dan 20, 8 dan 20,
12 dan 20 menunjukkan nilai %correct
words yang rendah, merepresentasikan
rendah nya kemampuan responden dalam
memahami stimuli target dari campuran
stimuli yang di perdengarkan, hal ini di
sebabkan pada campuran stimuli, stimuli
masker lebih dominan daripada stimuli
target. Batang diagram pada campuran
stimuli 20 dan 2, 20 dan 12, 20 dan 20
menunjukkan nilai %correct words yang
tinggi,
merepresentasikan
tingginya
kemampuan responden dalam memahami
stimuli target dari campuran stimuli yang di
perdengarkan, hal ini di sebabkan pada
campuran stimuli stimuli target lebih
dominan daripada stimuli masker.
Gambar 4.2 merupakan gambar
grafik hasil penelitian hearing test kepada
sepuluh responden dengan menggunakan
campuran stimuli 12 dan 2, 12 dan 8, 12 dan
12, 12 dan 20, 20 dan 2, 20 dan 12, 20 dan
20 yang berupa %correct words. Batang
diagram pada campuran stimuli 12 dan 2,
12 dan 8, 12 dan 12 menunjukkan nilai
%correct
words
yang
rendah,
merepresentasikan rendah nya kemampuan
responden dalam memahami stimuli target
dari campuran stimuli yang di perdengarkan,
hal ini di sebabkan pada campuran stimuli,
stimuli masker lebih dominan daripada
stimuli
target.
Batang
diagram
pada
campuran stimuli 20 dan 2, 20 dan 12, 20
dan 20 menunjukkan nilai %correct words
yang tinggi, merepresentasikan tingginya
kemampuan responden dalam memahami
stimuli target dari campuran stimuli yang di
perdengarkan, hal ini di sebabkan pada
campuran stimuli, stimuli target lebih
dominan daripada stimuli masker.
Gambar 4.2 grafik nilai %correct words vs
stimuli pada percobaan 2
Nilai %correct words yang diperoleh
dari hasil pengujian terhadap tiga (3)
responden dalam penentuan jenis metode
signal enhancement yang akan dipakai dari
8 metode untuk menaikkan kualitas sinyal
suara target yang rusak akibat masker
dengan kombinasi channel target dan
masker 12 dan 2, 12 dan 8, 12 dan 12, 12
0 10 20 30 40 50 60 70 80 90 100 2 dan 20 8 dan 20 12 dan 20 20 dan 2 20 dan 12 20 dan 20 % co rr e ct w o rd s (% ) stimuli 0 10 20 30 40 50 60 70 80 90 100 12 dan 2 12 dan 8 12 dan 12 12 dan 20 20 dan 2 20 dan 12 20 dan 20 % co rr e ct w o rd s (% ) stimulidan 20, 20, dan 2, 20 dengan 12, 20 dan 20
channel dapat dilihat pada gambar 4.3.
Gambar 4.3 merupakan gambar
grafik hasil penelitian hearing test kepada
sepuluh responden dengan menggunakan
campuran stimuli 12 dan 2, 12 dan 8, 12 dan
12, 12 dan 20, 20 dan 2, 20 dan 12, 20 dan
20 yang berupa %correct words. Batang
diagram pada campuran stimuli 12 dan 2,
12 dan 8, 12 dan 12 menunjukkan nilai
%correct
words
yang
rendah,
merepresentasikan rendah nya kemampuan
responden dalam memahami stimuli target
dari campuran stimuli yang di perdengarkan,
hal ini di sebabkan pada campuran stimuli,
stimuli masker lebih dominan daripada
stimuli
target.
Batang
diagram
pada
campuran stimuli 20 dan 2, 20 dan 12, 20
dan 20 menunjukkan nilai %correct words
yang tinggi, merepresentasikan tingginya
kemampuan responden dalam memahami
stimuli target dari campuran stimuli yang di
perdengarkan, hal ini di sebabkan pada
campuran stimuli, stimuli target lebih
dominan daripada stimuli masker.
Gambar 4.3 grafik nilai %correct words vs
stimuli pada percobaan 3
4.2 penentuan metode signal enhancemet
Score rata-rata yang diperoleh dari
hasil pengujian terhadap tiga (3) responden
dalam penentuan jenis metode signal
enhancement yang akan dipakai dari 8
metode untuk menaikkan kualitas sinyal
suara target yang rusak akibat masker
dengan kombinasi channel target dan
masker 12 dan 2, 12 dan 8, 12 dan 12, 12
dan 20, 20 dan 2, 20 dan 12, 20 dan 20
channel dapat dilihat pada gambar 4.4 dan
4.5. Kombinasi tersebut dipakai karena
selisih channel target dan masker tidak
terlalu besar dan dengan channel masker
yang relatif jauh lebih kecil dibandingkan
channel target maka kualitas sinyal suara
target masih baik. Pengujian terhadap
responden dengan memutarkan stimuli
bertujuan untuk mengetahui kualitas sinyal
target pada stimuli yang diproses dengan
semua metode signal enhancement dalam
persepsi manusia (secara subyektif).
Dari gambar 4.4 dan 4.5 dapat
diperoleh
informasi
bahwa
responden
cenderung mendengar sinyal suara target
lebih jelas dengan menggunakan metode
Spectral Subtraction yang berdasarkan
penelitian
Boll
pada
tahun
1979
dibandingkan dengan kondisi pemrosesan
sinyal yang lain, hal ini terlihat dari hasil
penghitungan segSNR yang diperlukan
untuk mengetahui secara numerik/objektif
sebesar mana peningkatan perbandingan
antara sinyal asli dengan noise. Pada gambar
4.4 dan gambar 4.5 terlihat bahwa segmental
SNR
signal
enhancement
dengan
menggunakan metode Spectral Subtraction
Boll memiliki nilai yang lebih besar
dibandingkan metode signal enhancement
yang lainnya. Atas dasar itulah, metode
signal enhancement SSBoll digunakan untuk
kombinasi jumlah channel target dan masker
yang lain yang selanjutnya akan diuji
cobakan lagi kepada responden.
0 10 20 30 40 50 60 70 80 90 100 12 dan 2 12 dan 8 12 dan 12 12 dan 20 20 dan 2 20 dan 12 20 dan 20 % co rr e ct w o rd s (% ) stimuli
Gambar 4.4 Grafik Hasil uji signal
enhancement dari
percobaan 1 dan 2
Gambar 4.5 Grafik Hasil uji signal
enhancement dari percobaan 3
4.3 Pembahasan
Hasil penelitian pertama yang di
tunjukkan pada grafik pertama menunjukkan
hasil nilai %correct words yang
berbeda-beda untuk tiap campuran stimuli. Pada
campuran 2 dan 20, 8 dan 20, 12 dan 20
menunjukkan stimuli masker lebih dominan
daripada stimuli target. Respoden lebih
cenderung mudah memahami stimuli masker
daripada stimuli target. Pada campuran 20
dan, 20 dan 12, 20 dan 20 menunjukkan
stimuli target lebih dominan daripada
stimuli
masker,
sehingga
responden
cenderung lebih mudah memahami stimuli
target daripada stimuli masker
Hasil penelitian kedua yang di
tunjukkan pada grafik kedua menunjukkan
hasil nilai %correct words yang
berbeda-beda untuk tiap campuran stimuli. Pada
campuran 12 dan 2, 12 dan 8, 12 dan 12
menunjukkan stimuli target lebih dominan
daripada stimuli masker., namun dengan
power
yang
sedang
Respoden
lebih
cenderung mudah memahami stimuli target
daripada stimuli masker. Pada campuran 20
dan, 20 dan 12, 20 dan 20 menunjukkan
stimuli target lebih dominan daripada
stimuli masker, dengan power stimuli target
lebih kuat sehingga responden cenderung
lebih mudah memahami stimuli target
daripada stimuli masker
Hasil penelitian ketiga yang di
tunjukkan pada grafik ketiga menunjukkan
hasil nilai %correct words yang
berbeda-beda untuk tiap campuran stimuli. Pada
campuran 12 dan 2, 12 dan 8, 12 dan 12
menunjukkan stimuli target lebih dominan
daripada stimuli masker., namun dengan
power
yang
sedang
Respoden
lebih
cenderung mudah memahami stimuli target
daripada stimuli masker. Pada campuran 20
dan, 20 dan 12, 20 dan 20 menunjukkan
stimuli target lebih dominan daripada
stimuli masker, dengan power stimuli target
lebih kuat sehingga responden cenderung
lebih mudah memahami stimuli target
daripada stimuli masker
.
5.1 Kesimpulan
Berdasarkan penelitian yang telah
dilakukan maka dapat diambil beberapa
kesimpulan yakni pengaruh release of
masking telah menunjukkan peningkatan
pada speech intelligibility, hal ini terlihat
dari grafik pertama dan grafik kedua yang
menujukkan, campuran stimuli target yang
lebih dominan menujukkan nilai %correct
words yang tinggi daripada campuran
stimuli masker yang lebih dominan. Dari
delapan teknik signal enhancement yang
digunakan, teknik Spectral Substraction by
Boll (SSBoll79) masih menunjukkan hasil
yang paling baik, hal ini terlihat pada grafik
“Nilai SegSNR HASIL UJI SIGNAL
ENHANCEMENT” bahwa teknik SSBoll79
0 1 2 3 4 5 6 7 8 9 10 N il ai s e g S N R ( d B ) signal enhancement 0 0.5 1 1.5 2 2.5 3 n il ai s e g S N R ( d B ) signal enhancementmenunjukkan nilai tertinggi yakni 8.75566
dB (pada grafik pertama), dan 2.57499 dB
(pada grafik kedua)
5.2 Saran
Diharapkan untuk penelitian speech
intelligibility berikutnya dilakukan secara
objective measure, dengan menggunakan
PESQ sebagai teknik objective measure.
dimana hasil objective measure yang
diharapkan bisa mendekati hasil subjective
measure setelah diberikan bobot.
DAFTAR PUSTAKA
[1] C. J. Plack, A. J. Oxenham, A. Simonson, C. O'Hanlon, V. Drga, D. Arifianto, Estimates
of Compression at Low and High Frequencies using Masking Additivity in Normal and Impaired Ears, Journal Acoustical Society of America, vol.123, No. 6, pp.4321-4330, June 2008.
[2] Hadi Kurniawan, Indra, “pemanfaatan Fenomena
Relaese of Masking untuk meningkatkan speech intelligibility
pada cochlear implant, Tugas Akhir, Surabaya, Juli, 2010
[3] Dorman, M F., Loizou, P. C., and Rainey, D., “ Speech Intelligibility as a Function of
the Number of Channels of Stimulation for Signal Processors Using Sine-wave and Noise-band outputs”, Journal of the Acoustical Society of America, no.102, pp.2403-2411, 1997.
[4] Heng Lu, Zhi., Zong Shao, Huai., Liang Ju, Tai “Speech Enhancement Algorithm Based
On MMSE Short Time Spectral Amplitude In Whispered Speech”, Journal Of Electronic
Science And Technology Of China, Vol. 7, No. 2, June 2009.
[5] Kamath, Sunil D., Loizou, Philipos C “A
Multi-Band Spectral Substarction Method For Enhancing Speech Corrupted By Colored Noise”, University of Texas at
Dallas.
[8] Qin, Michael K., Oxenham, Andrew J, “Effect of Envelope-Vocoder Processing on
F0 Discrimination and Concurrent-Vowel Identification”, Lippincott Williams and
Wilkins. 0196/0202/05/2605-0451/0, October 2005.
[9] Qin, Michael K., Oxenham, Andrew J “Effect of Simulated Cochlear Implant
Processing On Speech Reception In Fluctuating Maskers”, Journal of the
Acoustical Society of America, no.114(1), July 2003
.