V HASIL DAN PEMBAHASAN

(1)

V HASIL DAN PEMBAHASAN

5.1 Karakteristik Video dan Ektraksi Frame

Video yang digunakan di dalam penelitian ini merupakan gabungan dari beberapa cuplikan video yang berbeda. Tujuan penggabungan beberapa video yang berbeda adalah untuk lebih meragamkan konten citra/frame yang akan diekstraksi sehingga hasil temu kembali dapat lebih signifikan sesuai dengan tema video dan kueri yang diberikan.

Pada penelitian ini digunakan lima cuplikan video iklan komersial produk antara lain iklan obat Fatigon, pasta gigi Pepsodent, minuman ringan Coca Cola, dan susu Frisian Flag. Video tersebut diambil dari situs www.youtube.com dan **disimpan ke dalam format *.mpeg dengan resolusi 720 480 piksel. Gambar 13 memperlihatkan contoh cuplikan frame video yang digunakan pada penelitian.**

Iklan obat Fatigon (138 frame, 720 480 piksel)

Iklan pasta gigi Pepsodent #1 (342 frame, 720 480 piksel)

Iklan minuman CocaCola (434 frame, 720 480 piksel)

Iklan pasta gigi Pepsodent #2 (282 frame, 720 480 piksel)

Iklan susu Frisian Flag (448 frame, 720 480 piksel)

Gambar 13 Contoh cuplikan frame video yang digunakan pada penelitian.

Video gabungan berdurasi 54 detik dengan frame rate 30 frame/detik dan

jumlah total frame adalah 1644 frame. Ekstraksi frame video dilakukan dengan

mengambil 3 frame/detik. Jumlah frame yang berhasil diekstraksi sebanyak 165

**frame disimpan sebagai citra grayscale dengan format *.jpg beresolusi 320 240**

piksel. Tabel 1 menunjukkan rangkuman jumlah frame total yang terdapat di

(2)

setiap video dan jumlah frame yang berhasil diekstraksi dari masing-masing tema video tersebut. Detail frame video yang terekstraksi disajikan pada Lampiran 1.

Gambar 14 memperlihatkan contoh frame yang berhasil diekstraksi dari setiap tema video.

Tabel 1 Jumlah frame total dan jumlah frame yang berhasil diekstraksi

Video Iklan Fatigon Pepsodent 1 Pepsodent 2 Coca Cola Susu Bendera

Durasi (detik) 4 11 10 14 15

Total frame 138 342 282 434 448

Frame

Terekstraksi 14 35 29 43 44

Iklan obat Fatigon (14 frame, 320 240 piksel)

Iklan pasta gigi Pepsodent #1 (35 frame, 320 240 piksel)

Iklan minuman CocaCola (43 frame, 320 240 piksel)

Iklan pasta gigi Pepsodent #2 (29 frame, 320 240 piksel)

Iklan susu Frisian Flag (44 frame, 320 240 piksel)

Gambar 14 Contoh frame yang berhasil diekstraksi dari setiap tema video.

5.2 Ekstraksi Fitur SIFT

Fitur SIFT diekstraksi dari seluruh citra frame grayscale (Gambar 14).

Jumlah keypoint yang berhasil dideteksi dari setiap frame sangat beragam. Total

keypoint yang terdeteksi dari seluruh citra frame adalah 19020 keypoint dengan

sebaran seperti terlihat pada Gambar 15. Waktu yang diperlukan untuk melakukan

ekstraksi fitur SIFT dari 165 frame adalah 720 detik (12 menit) dan waktu rata-

rata untuk mengekstraksi fitur SIFT dari sebuah frame adalah 4,3636 detik.

(3)

0 50 100 150 200 250 300 350 400 450

1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97 101 105 109 113117121125129133137 141 145 149153157161 165 Frame ke-

Keypoint

Gambar 15 Sebaran keypoint pada seluruh frame yang berhasil diekstraksi.

Dari setiap keypoint yang terdeteksi kemudian dilakukan ekstraksi deskriptor SIFT, dimana setiap frame akan menghasilkan sebanyak 128 k, k merupakan jumlah keypoint. Gambar 16 merupakan contoh deskriptor yang berhasil diekstraksi dari salah satu frame.

Gambar 16 Visualisasi deskriptor yang berhasil diekstraksi dari sebuah frame.

Seperti terlihat pada Gambar 16, jumlah keypoint yang berhasil dideteksi

adalah 111 keypoint. Lingkaran menunjukkan region yang dicakup oleh deskriptor

yang berhasil diekstraksi dari keypoint tersebut, ukuran lingkaran sebanding

dengan magnitude piksel cakupan deskriptor.

(4)

Gambar 17 menunjukkan detail dari sebuah keypoint serta arah orientasi masing- masing piksel pada sebuah keypatch.

Gambar 17 Visualisasi keypoint dan orientasi tiap piksel yang tercakup (4 4).

Kemunculan keypoint pada frame sangat beragam tergantung pada variasi representasi ruang-skala (scale space) antar piksel yang menyusun frame tersebut.

Jumlah keypoint berbanding lurus dengan variasi ruang-skala piksel, semakin banyak variasi ruang-skala antar piksel maka semakin banyak pula jumlah keypoint yang terdeteksi. Gambar 18 menunjukkan jumlah keypoint terbanyak yang terdeteksi ada pada frame ke-826 yaitu sebanyak 423 keypoint, dan pada beberapa frame tertentu keypoint tidak terdeteksi.

Gambar 18 Frame ke-826, frame dengan jumlah keypoint terbanyak.

5.3 Pembentukan Kantong Kata Visual (Bag of "Visual" Words)

Seluruh fitur SIFT yang sudah berhasil diekstraksi kemudian disimpan ke

dalam sebuah matriks yang berukuran 128 19020. Pemilihan titik pusat dilakukan

dengan memperhatikan kemunculan keypoint yang berhasil dideteksi dari setiap

frame dimana rata-rata keypoint yang berhasil dideteksi di setiap frame adalah

(5)

sebanyak 115 keypoint. Kemudian dilakukan pembentukan kata visual dengan melakukan kuantisasi deskriptor keypoint menggunakan clustering k-means.

Titik pusat cluster mewakili kata visual yang ada di dalam kantong kata visual, dimana pada penelitian ini jumlah titik pusat cluster dipilih sebanyak 100 buah. Hasil dari kuantisasi fitur dengan cluster k-means menghasilkan sebuah matriks baru yang mereduksi matriks semula 128 19020 elemen menjadi 128 100 elemen. Matriks ini kemudian direduksi kembali menjadi sebuah vektor dengan ukuran 1 100. Reduksi dilakukan dengan menghitung second norm setiap kolom matriks awal (128 100). Gambar 19 merupakan sebaran deskriptor (128 19020) yang telah dikuantisasi menjadi sebuah vektor berukuran 1 100 (matriks hasil kuantisasi ini disajikan pada Lampiran 2).

0.7 0.75 0.8 0.85 0.9 0.95

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97 100 Pusat ke-

Kata Visual

Gambar 19 Sebaran kata visual hasil kuantisasi fitur SIFT.

Pembentukan kata visual memerlukan waktu 346,8 detik (5 menit 46

detik) dengan rata-rata waktu per frame adalah 2,1 detik. Clustering k-means

dilakukan hingga konvergen (titik pusat cluster tidak mengalami perubahan)

dengan rata-rata waktu per iterasi adalah 34,44 detik (40 kali iterasi).

(6)

Setelah kata visual (representasi dari kuantisasi fitur SIFT) berhasil diekstraksi, kemudian dilakukan penghitungan sebaran kata visual tersebut di setiap frame. Sebaran kata visual di setiap frame ditentukan dengan menghitung jarak Euclidean terdekat antara nilai titik pusat cluster dengan nilai tiap deskriptor pada frame tersebut. Gambar 20 dan 21 menunjukkan sebaran kata visual yang terdapat pada video serta sebaran kata visual pada sebuah frame (frame ke-826).

0 50 100 150 200 250 300 350 400 450

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97 100 Kata Visual

Frekuensi kemunculan kata visual

Gambar 20 Sebaran kata visual pada video.

0 2 4 6 8 10 12 14 16 18 20 22

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97 100 Kata visual

Kata visual

Gambar 21 Sebaran kata visual pada sebuah frame (contoh frame ke-826).

(7)

5.4 Temu Kembali

Setelah kuantisasi fitur selesai dilakukan dan sebaran kata visual di setiap frame berhasil diperoleh, kemudian proses dilanjutkan pada pembentukan model Vector Space Model (VSM) sebagai tahap temu kembali. Model VSM dilakukan dalam beberapa tahap sebagai berikut:

5.4.1 Pengideksan Dengan Inverse Document Frequency (idf

t

)

Indeks Inverse Document Frequency (idf

t

) merupakan representasi peranan sebuah kata visual pada sebuah frame dari serangkaian frame yang ada pada video. idf

t

dihitung berdasarkan frekuensi frame yang mengandung setiap jenis kata visual ke-t, dimana sebanyak 100 buah kata visual yang tersebar di dalam 165 frame dengan nilai total frekuensi kemunculan kata visual ke-t di setiap frame adalah 7747. Gambar 22 dan 23 merupakan grafik nilai frekuensi frame dan idf

_t

kata visual pada video (sebanyak 165 frame dengan frekuensi frame 7747).

0 20 40 60 80 100 120

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97 100 Kata visual ke-

Kata Visual

Gambar 22 Sebaran frekuensi frame kata visual pada video.

(8)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97 100 Kata visual

idf

Gambar 23 Nilai idf

t

kata visual pada video.

Pada Gambar 22 dan 23 dapat dilihat bahwa kata visual dengan frekuensi frame yang besar akan memiliki nilai idf

t

yang rendah. Hal ini sesuai dengan kaidah Persamaan 7, dimana frekuensi kemunculan kata visual pada seluruh frame video berbanding terbalik dengan bobot kata visual tersebut pada frame yang bersangkutan. Misalnya pada kata visual ke-93 muncul sebanyak 418 kali di 114 frame memiliki nilai idf

t

terendah, yaitu 0,1606. Kata visual ke-72 memiliki nilai idf

t

tertinggi yaitu 0,6612 dengan kemunculan sebanyak 145 kali pada 36 frame (nilai frekuensi frame dan idf

_t

disajikan pada Lampiran 3).

**5.4.2 Pembobotan tf*idf**

**Pembobotan tf*idf menghasilkan bobot komposit untuk tiap kata**

**visual yang ada di setiap dokumen. tf*idf memberikan bobot pada kata**

visual ke-t di frame ke-i. Tabel 2 memperlihatkan hubungan antara nilai

**tf*idf dengan frekuensi kemunculan kata visual di setiap frame (detail nilai**

**tf*idf disajikan pada Lampiran 3).**

(9)

**Tabel 2 Hubungan nilai bobot tf*idf dengan frekuensi kemunculan kata visual pada frame**

Kata Visual ke-

Frekuensi Kemunculan kata

(tf)

Frekuensi Dokumen

(df)

idf

_t

**tf*idf**

20 304 49 Log(165/49)= 0,5273 160,29

38 165 70 Log(165/70)= 0,3724 61,44

1 76 61 Log(165/61)= 0,4322 32,84

Sesuai Tabel 2, dapat dilihat bahwa:

**1 Nilai tf*idf**

t

bernilai paling tinggi ketika sebuah kata visual (kata visual ke-20) muncul berulang kali (304 kali) hanya di sedikit frame saja (49 frame), sehingga kata visual ini dapat menjadi penciri dari frame-frame tersebut.

**2 Nilai tf*idf**

t

bernilai rendah ketika kemunculan sebuah kata visual pada sebuah frame relatif jarang atau muncul pada beberapa frame.

Dengan demikian kata visual tersebut memberikan ciri yang sedikit terhadap sebuah dokumen. Seperti pada Tabel 2, kata visual ke-38 dengan frekuensi kemunculan sebanyak 165 kali pada 70 frame.

**3 Nilai tf*idf**

_t

bernilai paling rendah ketika kata visual muncul di hampir semua frame, sehingga kata visual yang demikian tidak memberikan ciri sama sekali pada frame tersebut. Seperti kata visual ke-1 yang muncul sebanyak 76 kali pada 61 frame.

5.4.3 Temu Kembali

Ada dua jenis temu kembali yang diterapkan, yaitu temu kembali objek dan temu kembali frame. Temu kembali ini dibedakan berdasarkan kueri yang diberikan pada sistem. Frame yang ditemukembalikan pada proses temu kembali adalah 10 frame dengan nilai skor tertinggi untuk tiap-tiap kategori video iklan.

5.4.3.1 Temu Kembali Objek

Temu kembali objek adalah temu kembali yang dilakukan

dengan memberikan kueri berupa cuplikan objek tertentu yang akan

ditemukembalikan dari video. Cuplikan objek tersebut dapat berupa

citra kemasan produk yang ada di dalam video iklan, citra logo

(10)

produk tertentu atau cuplikan citra wajah model pemeran iklan tersebut. Citra tersebut dapat diambil dari citra yang bukan merupakan bagian dari video yang akan ditemukembalikan. Gambar 24 memperlihatkan contoh kueri untuk melakukan temu kembali objek, citra ini bukan merupakan bagian dari video yang digunakan.

Gambar 24 Contoh kueri untuk temu kembali objek.

Frame relevan yang berhasil diekstraksi dari setiap kategori video pada proses ekstraksi fitur SIFT untuk temu kembali objek adalah seperti ditunjukkan pada Tabel 3. Frame relevan untuk kueri objek disajikan pada Lampiran 4.

Tabel 3 Daftar jumlah frame relevan untuk temu kembali objek

No. Objek Frame

Relevan

Frame Terekstraksi

1. 13 14

2. 22 64

3. 28 43

4. 13 44

(11)

Gambar 25 merupakan hasil temu kembali objek 10 frame dengan skor tertinggi dari setiap kategori video iklan.

Citra Kueri

a. b. c.

d.

Hasil Temu Kembali

Gambar 25 Hasil temu kembali objek.

Sesuai dengan hasil temu kembali objek yang terlihat pada Gambar 25, objek b dan d berhasil ditemukembalikan dengan sempurna dimana seluruh frame yang ditemukembalikan sesuai dengan frame relevan yang ada. Untuk objek a dan c tidak dapat ditemukembalikan dengan sempurna, terdapat beberapa frame yang tidak relevan dengan objek kueri.

5.4.3.2 Temu Kembali Frame

Temu kembali frame adalah sistem ditugaskan untuk

menemukembalikan frame-frame yang sesuai dengan kueri yang

(12)

diberikan. Kueri yang digunakan adalah contoh cuplikan frame yang berhasil diekstraksi dari video tersebut dan bukan citra/frame yang diambil dari luar video. Gambar 26 merupakan frame-frame yang dipakai sebagai kueri.

Gambar 26 Contoh kueri untuk temu kembali frame.

Frame relevan yang berhasil diekstraksi dari tiap-tiap kategori video pada proses ekstraksi fitur SIFT untuk temu kembali frame adalah seperti terlihat pada Tabel 4. Frame relevan untuk kueri frame disajikan pada Lampiran 5.

Tabel 4 Daftar jumlah frame relevan untuk temu kembali frame

No. Frame Frame

Relevan

Frame Terekstraksi

1. 10 14

2. 20 64

3. 17 43

4. 8 44

Gambar 27 merupakan hasil temu kembali frame, terlihat 10 frame

dengan skor tertinggi dari tiap-tiap kategori video iklan.

(13)

Citra Kueri

a. b. c. d.

Hasil Temu Kembali

Gambar 27 Hasil temu kembali frame.

Sesuai dengan hasil temu kembali frame yang terlihat pada Gambar 27, frame b, c dan d berhasil ditemukembalikan dengan sempurna dimana seluruh frame yang ditemukembalikan sesuai dengan frame relevan yang ada. Untuk frame a tidak dapat ditemukembalikan dengan sempurna, terdapat frame yang tidak relevan dengan kueri. Kegagalan sistem menemukembalikan objek/frame kueri dengan benar disebabkan objek/frame yang tidak relevan tersebut memiliki kemiripan skor dengan citra kueri. Hal ini berarti terdapat beberapa nilai fitur pada frame yang tidak relevan dikelompokkan ke dalam fitur yang mirip dengan fitur pada frame relevan.

5.5 Evaluasi

Penilaian tingkat efektivitas proses temu kembali ditentukan dengan

menggunakan nilai precision dan recall serta nilai F-measure dari proses temu

(14)

kembali objek dan temu kembali frame relevansinya berdasarkan hasil pada Tabel 3 dan 4 serta Gambar 25 dan 27.

Nilai precision dan recall serta F-measure dihitung sesuai dengan hasil temu kembali yang diperoleh pada sub bab 5.4.3 di atas. F-measure merupakan parameter yang menggabungkan nilai precision dan recall sebagai ukuran tunggal keberhasilan temu kembali. Interpolated precision dihitung berdasarkan 11 titik nilai recall (0, 0.1, 0.2, …, 1). Nilai recall ini menunjukkan jumlah bagian frame dari seluruh frame yang ditemukembalikan untuk perhitungan nilai precision.

5.5.1 Precision dan Recall serta F-measure Temu Kembali Objek Tabel 5 merupakan nilai precision dan recall serta F-measure hasil temu kembali objek. Terlihat bahwa temu kembali objek dengan kueri-2 dan kueri-4 memberikan nilai F-measure yang cukup baik sedangkan kueri-1 dan kueri-3 memberikan hasil yang sebaliknya.

Tabel 5 Hasil perhitungan precision dan recall serta F-measure untuk temu kembali objek

#frame yang

dikembalikan 1 2 3 4 5 6 7 8 9 10

Kueri-1 Fatigon

#frame relevan 1 2 3 4 4 4 4 4 4 4

Precision 1.00 1.00 1.00 1.00 0.80 0.67 0.57 0.50 0.44 0.40 Recall 0.08 0.15 0.23 0.31 0.31 0.31 0.31 0.31 0.31 0.31 F-measure 0.14 0.27 0.38 0.47 0.44 0.42 0.40 0.38 0.36 0.35

Kueri-2 Pepsodent

#frame relevan 1 2 3 4 5 6 7 8 9 10

Precision 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 Recall 0.05 0.09 0.14 0.18 0.23 0.27 0.32 0.36 0.41 0.45 F-measure 0.09 0.17 0.24 0.31 0.37 0.43 0.48 0.53 0.58 0.63

Kueri-3Coca-cola

#frame relevan 1 1 2 3 4 5 5 6 7 8

Precision 1.00 0.50 0.67 0.75 0.80 0.83 0.71 0.75 0.78 0.80 Recall 0.04 0.04 0.07 0.11 0.14 0.18 0.18 0.21 0.25 0.29 F-measure 0.07 0.07 0.13 0.19 0.24 0.29 0.29 0.33 0.38 0.42

Kueri-4 Susu Bendera

#frame relevan 1 2 3 4 5 6 7 8 9 10

Precision 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 Recall 0.08 0.15 0.23 0.31 0.38 0.46 0.54 0.62 0.69 0.77 F-measure 0.14 0.27 0.38 0.47 0.56 0.63 0.70 0.76 0.82 0.87

Gambar 28 memperlihatkan gambaran nilai F-measure untuk setiap

kueri sampai dengan temu kembali frame ke-10. Untuk kueri-2 dan kueri-4

(15)

memberikan nilai F-measure yang baik, yaitu 63% (kueri-2) dan 87%

(kueri-4). Kueri-1 menunjukkan nilai yang fluktuatif mencapai 35% dan kueri-3 memberikan nilai F-measure mencapai 42%.

- 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00

1 2 3 4 5 6 7 8 9 10

# frame relevam

Kueri-1 Fatigon Kueri-2 Pepsodent Kueri-3 Coca Cola Kueri-4 Susu Bendera

Gambar 28 Nilai F-measure hasil temu kembali objek.

Untuk mengetahui nilai precision (Tabel 5) pada setiap titik recall dapat dilakukan dengan menginterpolasi nilai precision pada 11 titik recall. Pada Tabel 6 dapat dilihat bahwa nilai rataan precision mengalami penurunan pada tingkat nilai recall yang berbeda-beda untuk setiap kueri.

Penurunan nilai ini disebabkan pada tingkat nilai recall tersebut sistem sudah tidak dapat menemukembalikan frame yang relevan dengan kueri yang diberikan.

Untuk kueri-1 penurunan rataan precision terjadi pada tingkat

recall 0,4 dengan nilai rataan precision mencapai 0,45. Kueri-2,

penurunan rataan precision terjadi pada tingkat recall 0,5 dengan nilai

rataan precision pada tingkat recall tersebut 0,55, sedangkan untuk kueri-

3 rataan precision hanya mencapai 0,33 pada tingkat recall 0,3. Untuk

kueri-4 penurunan nilai rataan precision mencapai 0,82 terjadi pada

tingkat recall 0,8.

(16)

Tabel 6 Nilai precision hasil temu kembali objek yang diinterpolasikan pada 11 titik nilai recall

Interpolated Precision

Recall Fatigon Pepsodent Coca-cola Susu Bendera Rataan Recall

0,0 1,00 1,00 1,00 1,00 1,00

0,1 1,00 1,00 1,00 1,00 1,00

0,2 1,00 1,00 0,83 1,00 0,96

0,3 1,00 1,00 0,80 1,00 0,95

0,4 1,00 1,00 0,00 1,00 0,75

0,5 0,00 1,00 0,00 1,00 0,50

0,6 0,00 0,00 0,00 1,00 0,25

0,7 0,00 0,00 0,00 1,00 0,25

0,8 0,00 0,00 0,00 1,00 0,25

0,9 0,00 0,00 0,00 0,00 0,00

1,0 0,00 0,00 0,00 0,00 0,00

Rataan

Precision 0,45 0,55 0,33 0,82 0,54

Trade off nilai Interpolated precision pada 11 tingkat nilai recall yang paling baik ada pada hasil temu kembali objek dengan kueri-4, dimana sebanyak 82% frame relevan berhasil ditemukembalikan dengan benar. Nilai rataan precision yang paling buruk ada pada hasil temu kembali objek dengan kueri-3, dimana frame relevan yang berhasil ditemukembalikan mencapai 33%.

5.5.2 Precision dan Recall, F-measure Temu Kembali Frame

Tabel 7 merupakan nilai precision dan recall serta F-measure hasil

temu kembali frame. Terlihat bahwa temu kembali frame memberikan

nilai precision, recall dan F-measure yang baik pada seluruh kueri,

dimana pada kueri-1 dan kueri-4 nilai F-measure mencapai nilai 90% dan

100%. Nilai F-measure yang demikian mengindikasikan temu kembali

frame menunjukkan hasil yang sangat baik.

(17)

Tabel 7 Hasil perhitungan precision dan recall serta F-measure untuk temu kembali frame

#frame yang

dikembalikan 1 2 3 4 5 6 7 8 9 10

Kueri-1 Fatigon

#frame relevan 1 2 3 4 5 6 7 8 9 9

Precision 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 0.90 Recall 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 0.90 F-measure 0.18 0.33 0.46 0.57 0.67 0.75 0.82 0.89 0.95 0.90

Kueri-2 Pepsodent

#frame relevan 1 2 3 4 5 6 7 8 9 10

Precision 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 Recall 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 F-measure 0.10 0.18 0.26 0.33 0.40 0.46 0.52 0.57 0.62 0.67

Kueri-3 Coca-cola

#frame relevan 1 2 3 4 5 6 7 8 9 10

Precision 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 Recall 0.06 0.12 0.18 0.24 0.29 0.35 0.41 0.47 0.53 0.59 F-measure 0.11 0.21 0.30 0.38 0.45 0.52 0.58 0.64 0.69 0.74

Kueri-4 Susu Bendera

#frame relevan 1 2 3 4 5 6 7 8

Precision 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 Recall 0.13 0.25 0.38 0.50 0.63 0.75 0.88 1.00 F-measure 0.22 0.40 0.55 0.67 0.77 0.86 0.93 1.00

- 0.20 0.40 0.60 0.80 1.00 1.20

1 2 3 4 5 6 7 8 9 10

#frame relevan

Kueri-1 Fatigon Kueri-2 Pepsodent Kueri-3 Coca-cola Kueri-4 Susu Bendera

Gambar 29 Nilai F-measure temu kembali frame.

Gambar 29 memperlihatkan gambaran nilai F-measure untuk tiap-

tiap kueri hingga temu kembali frame ke-10. Untuk kueri-1 dan kueri-4

memberikan nilai F-measure yang baik, yaitu mencapai 90% (kueri-1) dan

(18)

100% (kueri-4). Kueri-2 dan kueri-3 mempunyai nilai F-measure mencapai 67% dan 74%.

Tabel 8 Nilai precision hasil temu kembali frame yang diinterpolasi pada 11 titik nilai recall

Interpolated Precision

Recall Fatigon Pepsodent Coca-cola Susu Bendera Rataan Recall

0,0 1,00 1,00 1,00 1,00 1,00

0,1 1,00 1,00 1,00 1,00 1,00

0,2 1,00 1,00 1,00 1,00 1,00

0,3 1,00 1,00 1,00 1,00 1,00

0,4 1,00 1,00 1,00 1,00 1,00

0,5 1,00 1,00 1,00 1,00 1,00

0,6 1,00 0,00 1,00 1,00 0,75

0,7 1,00 0,00 0,00 1,00 0,50

0,8 1,00 0,00 0,00 1,00 0,50

0,9 1,00 0,00 0,00 1,00 0,50

1,0 0,00 0,00 0,00 1,00 0,25

Rataan

Precision 0,91 0,55 0,64 1,00 0,77

Untuk mengetahui nilai precision (Tabel 7) pada setiap titik recall dilakukan dengan menginterpolasi nilai precision pada 11 titik recall.

Pada Tabel 8 dapat dilihat bahwa nilai rataan precision mengalami penurunan pada tingkat nilai recall yang berbeda-beda untuk tiap-tiap kueri.

Untuk kueri-1, penurunan rataan precision terjadi pada tingkat recall 0,9, dengan nilai rataan precision mencapai 0,91. Kueri-2, penurunan rataan precision terjadi pada tingkat recall 0,5 dengan nilai rataan precision pada tingkat recall tersebut 0,55, sedangkan untuk kueri- 3 rataan precision mencapai 0,64 pada tingkat recall 0,6. Untuk kueri-4 nilai rataan precision mencapai 1,00, dimana seluruh dokumen relevan berhasil ditemukembalikan oleh sistem.

Trade off nilai interpolated precision pada 11 tingkat nilai recall

yang paling baik ada pada hasil temu kembali frame dengan kueri-4, yaitu

100% frame relevan berhasil ditemukembalikan dengan benar. Nilai

rataan precision yang paling buruk ada pada hasil temu kembali frame

(19)

dengan kueri-2, dimana frame relevan yang berhasil ditemukembalikan mencapai 55%.

- 0.20 0.40 0.60 0.80 1.00 1.20

0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

Tingkat Recall

Temu kembali objek Temu kembali frame

Gambar 30 Perbandingan rataan recall hasil temu kembali objek dan temu kembali frame.

Secara umum temu kembali frame menunjukkan hasil yang sangat bagus jika dibandingkan dengan temu kembali objek. Gambar 30 menunjukkan perbandingan rataan recall temu kembali objek dan temu kembali frame. Temu kembali frame memberikan rataan recall yang lebih baik daripada hasil temu kembali objek.

5.6 Pembahasan

Secara umum temu kembali frame (rataan precision 77% untuk keempat

jenis kueri) memberikan hasil evaluasi yang lebih baik jika dibandingkan dengan

hasil temu kembali objek (rataan precision 54% untuk keempat jenis kueri). Hal

ini disebabkan oleh kueri yang diberikan kepada sistem, dimana kueri untuk temu

kembali frame diambil secara langsung dari hasil ekstraksi frame video yang

bersangkutan sehingga properti yang terdapat pada citra frame tersebut tidak jauh

berbeda dengan komponen frame yang lainnya. Untuk temu kembali objek, citra

yang digunakan sebagai kueri murni berasal dari luar video sehingga properti citra

tersebut akan sangat beragam jika dibandingkan dengan citra frame yang

(20)

diekstraksi dari video. Hal ini menunjukkan beberapa keterbatasan pada model VSM antara lain:

1 Frame dengan objek yang banyak dan rumit akan direpresentasikan kurang bagus sehingga hasil temu kembali menjadi kurang baik dimana frame yang demikian akan menghasilkan scalar product yang rendah sedangkan dimensinya sangat besar.

2 Kata visual yang terekstraksi dari citra kueri harus sesuai/cocok dengan kata visual yang terdapat pada frame. Adanya substring kata visual akan menghasilkan "false positive match" sehingga dapat menurunkan precision.

3 Sensitivitas semantik, frame dan kueri dengan konteks yang mirip tetapi dengan kata visual yang berbeda tidak akan memberikan hasil temu kembali yang baik dan menghasilkan "false negative match" hal ini akan menurunkan nilai recall.

4 Urutan/peran kata visual yang muncul pada frame/kueri hilang ketika direpresentasikan didalam ruang vektor.

5 Kata visual yang terekstraksi diasumsikan bersifat bebas satu sama lain.

Faktor lainnya yang mempengaruhi hasil temu kembali objek ini adalah hanya digunakannya satu buah detektor saja untuk mendeteksi keberadaan keypoint di dalam frame dan kueri. Operator Gaussian di dalam difference of Gaussian (DoG) yang digunakan pada SIFT kurang sensitif dan tidak dapat mendeteksi kemunculan sudut (corner) meskipun detektor DoG dapat mendeteksi keberadaan tepi (edge). Hal ini berpengaruh pada temu kembali objek dengan bentuk yang rumit (dengan keberadaan sudut relatif banyak) seperti pada contoh Gambar 31, keypoint yang terdeteksi dari citra logo produk Coca-cola.

Gambar 31 Keypoint pada objek dengan bentuk yang rumit.

(21)

Keypoint yang berhasil dideteksi oleh SIFT pada citra kueri tersebut sebanyak 257 keypoint. Setelah dilakukan temu kembali, frame relevan yang berhasil ditemukembalikan hanya 3 frame saja seperti terlihat pada Gambar 32 pada rangking ke-7, rangking ke-9 dan ke-10.

Gambar 32 Hasil temu kembali objek dengan bentuk yang rumit.

5.7 Pengembangan Sistem

Sistem dibangun dengan menggunakan MATLAB versi 7 dan dilengkapi dengan Graphical User Interface (GUI) agar dapat lebih mudah digunakan dan user friendly. Rancangan dibuat sedemikian rupa sehingga dapat lebih mudah dioperasikan, Gambar 33 merupakan interface yang dikembangkan:

Gambar 33 Interface sistem.

Interface tersebut terdiri dari 5 modul utama antara lain modul untuk operasi dasar video (play & stop), modul untuk ekstraksi fitur SIFT, modul VSM untuk temu kembali, modul untuk mencocokkan frame hasil temu kembali dengan citra/frame kueri dan modul untuk menampilkan hasil temu kembali.

2 3 4

5

1

(22)

Berikut detail interface sistem sesuai dengan Gambar 33,

1 Merupakan menu untuk melakukan operasi sistem, terdiri atas dua menu dengan sub menu sebagai berikut (Gambar 34):

a. b.

Gambar 34 Tampilan menu bar.

a Menu File, terdiri atas 3 submenu antara lain submenu Open video yang berfungsi mengambil video yang akan diproses, submenu Open query yang berfungsi mengambil citra/frame yang akan dijadikan sebagai kueri dan menu Exit berfungsi keluar dari sistem.

b Menu Action, terdiri atas 3 submenu antara lain submenu pertama Process video, submenu ini dibagi lagi menjadi 3 sub submenu, yaitu sub submenu Extract feature untuk melakukan ekstraksi fitur SIFT dari video input, sub submenu Generate model merupakan modul yang berfungsi melakukan kuantisasi fitur SIFT dan membangun model VSM dan sub submenu Do all merupakan modul gabungan antara sub submenu Extract feature dan sub submenu Generate model. Submenu kedua Retrieved frames, merupakan menu yang berfungsi melakukan temu kembali objek/frame berdasarkan kueri yang diberikan. Submenu Match berfungsi melakukan pencocokan fitur yang terdeteksi pada frame dengan fitur yang ada pada citra objek/frame.

2 Merupakan jendela untuk menampilkan cuplikan frame video ketika user melakukan playback video dan temu kembali (Gambar 36 a).

3 Merupakan interface yang merangkum semua fungsi yang terdapat

pada menu bar (poin 1). Fungsi dari tombol tersebut sama dengan

fungsi yang terdapat pada menu bar (Gambar 35).

(23)

Gambar 35 Interface untuk mengakses modul penting pada sistem.

4 Jendela ini berfungsi menampilkan citra objek/frame yang dijadikan sebagai kueri ke dalam sistem (Gambar 36 b).

a. b.

Gambar 36 Interface untuk menampilkan frame video (a) dan frame kueri (b).

5 Merupakan jendela yang berfungsi menampilkan hasil temu kembali, dimana frame yang ditampilkan adalah 5 frame dengan skor tetinggi (Gambar 37). Untuk menampilkan 10 frame dengan skor tertinggi dapat dilakukan dengan menekan tombol Show other (Top10) (tombol pada poin 3) (Gambar 39).

Gambar 37 Jendela untuk menampilkan hasil temu kembali.

(24)

Fitur SIFT hasil temu kembali dapat dicocokkan dengan fitur SIFT yang terdeteksi pada citra/frame kueri, pencocokan fitur ini dapat dilakukan dengan menggunakan fungsi Match (Gambar 35) atau dengan mengakses sub menu Match dari menu bar Action. Gambar 38 merupakan contoh pencocokan fitur yang berhasil dilakukan oleh modul Match.

Gambar 38 Contoh hasil pencocokan fitur antara citra kueri dengan frame yang berhasil ditemukembalikan.

Gambar 39 berikut memperlihatkan 10 frame dengan skor tertinggi untuk citra kueri yang diujikan pada Gambar 38.

Gambar 39 Frame dengan skor tertinggi (10 frame) yang berhasil

ditemukembalikan oleh sistem.