Optimalisasi Metode Deskripsi Video terhadap Dataset dan Evaluasi Metrik

(1)

Optimalisasi Metode Deskripsi Video terhadap

Dataset dan Evaluasi Metrik

Nani Mintarsih, Yuli Maharetta Arianti Fakultas Ilmu Komputer dan Teknologi Informasi

Universitas Gunadarma

Jl. Margonda Raya No.100, Depok 16424, Indonesia Email : {nanim,yuli_maharetta }@staff.gunadarma.ac.id

Abstrak — Deskripsi video digunakan untuk membantu gangguan penglihatan, interaksi manusia-komputer, robotika, dan pengindeksan video. Beberapa tahun terakhir telah banyak penelitian di bidang ini karena keberhasilan Machine Learning dalam visi komputer dan pemrosesan bahasa alami. Sejumlah metode, set data, dan langkah-langkah evaluasi diusulkan dalam literatur yang memungkinkan perlunya survei komprehensif untuk lebih memfokuskan upaya penelitian bidang ini. Penulisan ini membahas beberapa metode, dataset dan evaluasi yang digunakan dalam menghasilkan deskripsi video. Makalah ini mensurvei beberapa pendekatan termasuk model deep laerning; membandingkan dataset benchmark dalam hal domain, jumlah kelas, dan ukuran repositori; dan mengidentifikasi pro dan kontra dari berbagai metrik evaluasi seperti BLEU, ROUGE, METEOR, CIDEr, SPICE, dan WMD. Sejauh ini penelitian deskripsi video memiliki proses yang belum dapat menyamai kinerja manusia. Hal ini dikarenakan set data yang ada tidak cukup mewakili keragaman dalam video domain terbuka dan struktur linguistik yang kompleks dan ukuran evaluasi saat ini tidak selaras dengan penilaian manusia. Misalnya, video yang sama dapat memiliki deskripsi yang sangat berbeda namun benar. Dari uraian di atas dibutuhkan untuk perbaikan dalam langkah-langkah evaluasi serta set data dalam hal ukuran, keragaman dan akurasi penjelasan karena mereka secara langsung mempengaruhi pengembangan model deskripsi video yang lebih baik. Dari sudut pandang algoritmik, diagnosis kualitas deskripsi sulit karena sulit menilai tingkat kontribusi dari fitur visual dibandingkan dengan bias yang datang secara alami dari model bahasa yang diadopsi.

Indeks — Deep Learning, deskripsi video, teks video, bahasa alami, set data teks video, metrik

evaluasi teks video, BLEU, METEOR, ROUGE, CIDEr, SPICE, WMD.

1. PENDAHULUAN.

Menjelaskan video pendek dalam bahasa alami adalah merupakan ide awal terbentuknya deskripsi video. Deskripsi video otomatis melibatkan

pemahaman banyak entitas dan deteksi

kemunculannya dalam video menggunakan teknik perangkat komputer. Entitas-entitas ini meliputi adegan latar belakang, manusia, objek, tindakan manusia, interaksi objek-manusia, interaksi manusia-manusia, peristiwa lain, dan urutan kejadian. Semua informasi ini kemudian harus diartikulasikan menggunakan teks yang dapat dipahami dan secara tata bahasa menggunakan teknik Natural Language Processing (NLP). Sejauh ini Computer Vision (CV) dan Natural Language Processing (NLP) telah bergabung untuk mengatasi peningkatan minat penelitian dalam memahami dan menggambarkan gambar dan video. [1]

Deskripsi video otomatis banyak digunakan dalam aplikasi interaksi manusia-robot, subtitle video otomatis, dan pengawasan video. Ini dapat digunakan

untuk membantu para tunanetra dengan

menghasilkan deskripsi verbal dari lingkungan melalui sintesis ucapan, atau secara otomatis menghasilkan dan membaca deskripsi film. Namun saat ini semua itu dicapai melalui proses manual yang sangat mahal dan memakan waktu. Aplikasi lain adalah deskripsi video bahasa isyarat dalam bahasa alami. Deskripsi video juga dapat menghasilkan prosedur tertulis untuk interaksi robot manusia atau layanan dengan secara otomatis mengubah tindakan dalam video demonstrasi menjadi instruksi sederhana.

Kemajuan deskripsi video membuka peluang besar dibanyak domain aplikasi. Diperkirakan bahwa dalam waktu dekat, akan dapat berinteraksi dengan

(2)

robot yang berperilaku sama seperti manusia. Jika deskripsi video ditingkatkan ke tahap mampu memahami peristiwa yang terjadi di dunia nyata dan mampu mengucapkan kata-kata seperti manusia, Robot Layanan atau Aplikasi Smartphone akan dapat memahami tindakan manusia dan peristiwa lain untuk berkomunikasi dengan manusia dengan cara yang jauh lebih bisa dipahami dengan cara yang koheren. Misalnya, mereka dapat menjawab pertanyaan pengguna tentang ke mana mereka

menempatkan suatu barang mereka atau

mendiskusikan menu untuk makan malam. Dalam pengaturan industri, aplikasi berpotensi mengingatkan pekerja tentang tindakan / prosedur yang hilang dari operasi rutin. Bahkan, Talk the Walk [2], telah memperkenalkan aplikasi menarik lainnya di mana dialog bahasa alami antara pemandu dan turis membantu wisatawan untuk mencapai lokasi yang sebelumnya tak terlihat di peta menggunakan persepsi, aksi, dan interaksi pemodelan.

Gambar 1: Kerangka dasar untuk penulisan video berbasis pembelajaran yang mendalam. Model visual mengkodekan frame video ke dalam ruang vektor. Model bahasa mengambil input vektor visual dan embeddings kata untuk menghasilkan kalimat yang menggambarkan input konten visual

.

Dalam menghasilkan kalimat bahasa alami yang menggambarkan konten video memiliki dua

komponen; memahami konten visual dan

menggambarkannya dalam kalimat bahasa alami yang benar secara tata bahasa. Gambar 1. menunjukkan kerangka kerja video berbasis pembelajaran sederhana yang mendalam. Tugas deskripsi video relatif lebih menantang, dibandingkan dengan penulisan gambar, karena tidak semua objek dalam video relevan dengan deskripsi seperti objek yang terdeteksi yang tidak memainkan peran apa pun dalam aktivitas yang diamati. Selain itu, metode

deskripsi video juga harus menangkap kecepatan, arah objek yang relevan serta hubungan sebab akibat antara peristiwa, tindakan, dan objek. Selanjutnya, peristiwa dalam video dapat memiliki panjang yang bervariasi dan bahkan dapat menyebabkan kemungkinan terjadi tumpang tindih. Lihat Gambar 2. Misalnya, acara resital piano terbentang dihampir seluruh durasi video, namun tepuk tangan adalah peristiwa yang sangat singkat yang hanya terjadi di akhir acara. Contoh tersebut menggambarkan perbedaan antara tiga bidang terkait penelitian, yaitu, teks gambar, teks video dan teks video padat.

(3)

Gambar. 2: Ilustrasi perbedaan antara teks gambar, teks video dan teks video padat. Keterangan gambar (bingkai video) menjelaskan setiap bingkai dengan satu kalimat. Teks video menjelaskan video lengkap dengan satu kalimat. Dalam teks video yang padat, setiap peristiwa dalam video tersebut dideteksi untuk sementara waktu dan dijelaskan oleh satu kalimat yang akhirnya menghasilkan banyak kalimat yang terlokalisasi dalam waktu tetapi tidak selalu koheren.

Gambar 3. merangkum penelitian terkait di bawah payung Deskripsi Visual. Klasifikasi didasarkan pada apakah inputnya berupa gambar diam (Captioning Gambar) atau video pendek multi-bingkai (Captioning Video). Namun, perlu dicatat bahwa teks video pendek sangat berbeda dari transkripsi video otomatis di mana audio dan pidato

adalah fokus utama. Video keterangan menyangkut terutama konten visual yang bertentangan dengan sinyal audio. Khususnya, Deskripsi Video memperluas teks video dengan tujuan untuk memberikan akun yang lebih rinci tentang konten

visual dalam video.

Gbr. 3: Klasifikasi deskripsi konten visual. Survei ini berfokus hanya pada video dan bukan gambar

.

Di bawah didefinisikan beberapa terminologi yang digunakan dalam makalah ini.

• Deskripsi Visual: Konsep pemersatu yang mencakup (lihat Gambar. 3) generasi otomatis kalimat bahasa tunggal atau ganda yang menyampaikan informasi dalam gambar diam atau klip video.

• Keterangan Video: Menyampaikan informasi klip video secara keseluruhan melalui satu kalimat bahasa alami yang dihasilkan secara otomatis berdasarkan pada premis bahwa klip video pendek biasanya berisi satu peristiwa utama [3]

• Deskripsi Video: Secara otomatis menghasilkan beberapa kalimat bahasa alami yang memberikan narasi klip video yang relatif lebih panjang. Deskripsi lebih rinci dan mungkin dalam bentuk paragraf. Deskripsi video kadang-kadang juga disebut sebagai mendongeng atau pembuatan paragraf .

• Keterangan Video Padat: Deteksi dan penyampaian informasi dari semua, mungkin tumpang tindih, peristiwa dengan panjang berbeda dalam video menggunakan kalimat bahasa alami per peristiwa. Seperti diilustrasikan pada Gambar. 2, teks video yang padat

melokalkan peristiwa dalam waktu dan menghasilkan kalimat yang tidak selalu koheren. Di sisi lain, deskripsi video memberikan akun yang lebih rinci tentang satu atau lebih peristiwa dalam klip video menggunakan beberapa kalimat yang koheren tanpa harus melokalisasi masing-masing peristiwa.

Penelitian teks video dimulai dengan pendekatan berbasis templat klasik di mana Subjek (S), kata kerja (V), dan Objek (O) dideteksi secara terpisah dan kemudian bergabung menggunakan templat kalimat. Pendekatan-pendekatan ini disebut sebagai SVO-Triplets yang kemudian menyarah ke penulisan video. Selanjutnya, pendekatan terbaru mengikuti arsitektur berbasis deep learning yang menyandikan fitur visual dengan 2D / 3D-CNN dan menggunakan LSTM / GRU untuk mempelajari urutannya. Penelitian awal pada deskripsi video sebagian besar berfokus pada klip video pendek spesifik domain dengan kosa kata terbatas objek dan kegiatan. Deskripsi domain terbuka dan video yang relatif tetap menjadi tantangan, karena membutuhkan kosakata besar dan data pelatihan. Metode yang mengikuti kerangka CNN-LSTM / GRU terutama berbeda satu sama lain dalam berbagai jenis CNN

(4)

dan model bahasa (vanilla RNN, LSTM, dan GRUs) yang mereka gunakan dan juga bagaimana mereka mengirimkan fitur visual yang diekstraksi ke model bahasa ( pada langkah waktu pertama saja atau langkah sepanjang waktu). Metode kemudian berkembang dengan memperkenalkan transformasi tambahan di atas kerangka encoder-decoder standar. Transformasi ini termasuk mekanisme Attention [3] di mana model mempelajari bagian video mana yang menjadi fokus, sequence learning [4] yang memodelkan urutan bingkai video dengan urutan kata dalam kalimat yang sesuai, atribut semantik yang mengeksploitasi semantik visual selain fitur CNN, dan pemodelan bersama konten visual dengan teks komposisi. Baru-baru ini, masalah uraian visual berbasis video telah berkembang ke arah penulisan video yang padat dan penceritaan video.

2. METODE DESKRIPSI VIDEO

Literatur deskripsi video dapat dibagi menjadi tiga fase utama :

2.1 Metode Klasik

Metode berbasis tuple SVO (Subjek, Objek, Verb) adalah salah satu metode sukses pertama yang digunakan khusus untuk deskripsi video. Namun, upaya penelitian dilakukan jauh sebelum untuk menggambarkan konten visual ke dalam bahasa alami, meskipun tidak secara eksplisit untuk teks atau deskripsi.

Pada metode berbasis tuple SVO, yang menangani tugas pembuatan deskripsi video dalam dua tahap. Tahap pertama yang dikenal sebagai identifikasi konten berfokus pada pengenalan visual dan klasifikasi objek utama dalam klip video. Ini biasanya termasuk pemain atau aktor, aksi dan objek dari tindakan itu. Soundstage ini melibatkan pembuatan kalimat yang memetakan objek yang diidentifikasi pada tahap pertama menjadi Subject, Verb dan Object (dan karenanya nama SVO), dan mengisi template yang dibuat dengan tangan untuk kalimat yang secara tata bahasa terdengar. Templat ini dibuat menggunakan tata bahasa atau sistem berbasis aturan, yang hanya efektif di lingkungan yang sangat terbatas, mis. Klip pendek atau video dengan sejumlah objek dan tindakan yang terbatas.

Berbagai metode telah diusulkan untuk mendeteksi objek, manusia, tindakan, dan peristiwa dalam video. Di bawah ini dirangkum teknik yang digunakan dalam Tahap I dari pendekatan berbasis tupel SVO.

• Pengenalan Objek: Pengenalan objek dalam

pendekatan SVO dilakukan biasanya

menggunakan metode konvensional, termasuk pencocokan bentuk berbasis model melalui deteksi tepi atau pencocokan warna [5], pencocokan fitur [6]dan sebagainya.

• Deteksi Manusia dan Aktivitas: Metode deteksi manusia menggunakan fitur seperti Histogram Berorientasi Gradien (HOG) diikuti oleh SVM. Untuk deteksi aktivitas, fitur-fitur seperti Spatiotemporal Interest Points suchas Histogram of Oriented Optical Flow (HOOF) , Bayesian Networks (BN) dan sebagainya • Pendekatan Terpadu :Stochastic Attribute

Image Grammar (SAIG) [7] dan Tata Bahasa

Bebas Konteks Stochastic (SCFG),

memungkinkan representasi komposisi entitas visual yang menyajikan video, gambar atau adegan berdasarkan hubungan spasial dan fungsional mereka.

Untuk Tahap II, pembuatan kalimat, berbagai metode telah diusulkan termasuk representasi HALogen, Head-driven Phrase Structure Grammar (HPSG) , perencana dan perwujudan permukaan. Tugas umum utama dari metode ini adalah untuk mendefinisikan template. Templat adalah struktur bahasa yang ditentukan pengguna yang mengandung placeholder. Agar berfungsi dengan baik, templat terdiri dari tiga bagian bernama leksikon, tata bahasa, dan aturan tem`plat. Lexicon mewakili kosa kata SVO yang menggambarkan fitur video tingkat tinggi. Aturan template adalah aturan yang ditentukan pengguna yang memandu pemilihan leksikon yang sesuai untuk pembuatan kalimat. Grammar

mendefinisikan aturan linguistik untuk

menggambarkan struktur ekspresi dalam bahasa, memastikan bahwa kalimat yang dihasilkan benar secara sintaksis. Dengan menggunakan aturan produksi, Grammar dapat menghasilkan sejumlah besar berbagai konfigurasi dari kosakata yang relatif kecil.

(5)

Gbr. 4: Contoh berbagai templat yang digunakan untuk pembuatan kalimat dari video. Subjek, kata kerja, dan objek digunakan untuk mengisi template ini. Kata kerja tersebut diperoleh dari metode deteksi aksi / aktivitas menggunakan fit ur Spatio-temporal sedangkan subjek dan objek diperoleh dari metode deteksi objek menggunakan fitur spasial.

2.2 Metode Statistik

Untuk tahap pengenalan objek dan aktivitas, penelitian beralih dari deteksi berbasis pengetahuan sebelumnya [5] ke rekayasa fitur manual dan klasifikasi tradisional. Untuk tahap pembuatan kalimat, penggunaan metode pembelajaran mesin dapat diamati dalam beberapa tahun terakhir untuk mengatasi masalah kosakata besar. Ini juga dibuktikan oleh tren dalam metode baru-baru ini yang menggunakan model untuk entri leksikal yang dipelajari dalam diawasi dengan lemah atau

sepenuhnya diawasi mode. Namun, pemisahan kedua tahap ini membuat kelompok metode ini tidak mampu menangkap interaksi fitur visual dan pola linguistik, apalagi mempelajari ruang keadaan yang dapat ditransfer antara artefak visual dan representasi linguistik. Pada bagian berikutnya, kita melihat metode pembelajaran yang mendalam dan membahas bagaimana mereka mengatasi skalabilitas, kompleksitas bahasa dan masalah transferabilitas domain yang dihadapi oleh deskripsi video domain terbuka.

Gambar.5 : Teknik deskripsi video berbasis pembelajaran yang mendalam dalam literatur terdiri dari dua tahap utama. Tahap pertama melibatkan ekstraksi konten visual dan diwakili oleh vektor panjang tetap atau oleh vektor dinamis. Tahap kedua mengambil input vektor representasi visual dari tahap pertama untuk pembuatan teks dan menghasilkan satu / beberapa kalimat.

2.3 Model Pembelajaran Mendalam (Deep

Learning Models).

Keberhasilan yang cepat deep learning di hampir semua bidang visi komputer juga telah merevolusi pendekatan deskripsi video. Secara khusus, Convolutional Neural Networks (CNNs) [8] adalah bagian dari seni untuk memodelkan data visual dan unggul dalam tugas-tugas seperti pengenalan objek [8]. Memori Jangka Pendek Panjang (LSTMs) dan yang lebih umum Recurrent Neural Networks

(RNNs), di sisi lain, sekarang mendominasi bidang pemodelan urutan, menetapkan tolak ukur baru dalam terjemahan mesin , pengenalan suara dan tugas terkait erat penulisan gambar . Sementara metode konvensional berjuang untuk mengatasi dataset skala besar, lebih kompleks, dan beragam untuk deskripsi video, para peneliti telah menggabungkan jaring dalam ini dalam berbagai konfigurasi dengan kinerja yang menjanjikan.

Seperti yang ditunjukkan pada Gambar 5, pendekatan pembelajaran mendalam untuk deskripsi

(6)

video juga dapat dibagi menjadi dua tahap berurutan, yaitu, ekstraksi konten visual dan pembuatan teks. Namun, berbeda dengan Metode Tuple SVO , di mana token kata leksikal dihasilkan sebagai hasil dari tahap pertama melalui ekstraksi konten visual, fitur visual yang diwakili oleh vektor bernilai riil tetap atau dinamis dihasilkan sebagai gantinya. Ini sering disebut sebagai tahap penyandian video. CNN, RNN atau Long Short-Term Memory (LSTM) digunakan dalam tahap penyandian ini untuk mempelajari fitur-fitur visual ini, yang kemudian digunakan pada tahap kedua untuk pembuatan teks, juga dikenal sebagai tahap decoding. Untuk decoding, berbagai varian RNN digunakan, seperti RNN dalam, RNN dua arah, LSTM atau Gated Recurrent Units (GRU). Deskripsi yang dihasilkan dapat berupa satu kalimat atau beberapa kalimat. Gambar 6 mengilustrasikan sistem deskripsi video end-to-end khas dengan tahapan encoder-decoder. Bagian pengkodean diikuti oleh transformasi seperti pengumpulan rata-rata, pengodean temporal atau mekanisme perhatian untuk mewakili konten visual. Beberapa metode menerapkan pembelajaran urutan-ke-urutan dan / atau pembelajaran atribut semantik dalam kerangka kerja mereka. Mekanisme yang disebutkan di atas telah digunakan dalam kombinasi yang berbeda dengan metode kontemporer. Kami mengelompokkan literatur berdasarkan kombinasi yang berbeda dari arsitektur pembelajaran mendalam untuk tahap encoding dan decoding, yaitu:

• CNN - RNN Video Description, di mana arsitektur konvolusi digunakan untuk pengodean visual dan struktur berulang digunakan untuk pengodean ulang. Ini adalah arsitektur yang paling umum digunakan dalam metode deskripsi video berbasis pembelajaran mendalam;

• RNN - Deskripsi Video RNN, di mana jaringan berulang digunakan untuk kedua tahap; dan • Jaringan penguatan yang dalam, area penelitian

yang relatif baru untuk deskripsi video. 2.3.1 CNN-RNN Video Description

Mengingat keberhasilannya dalam penglihatan dan kesederhanaan komputer, CNN sejauh ini merupakan struktur jaringan paling populer yang digunakan untuk pengkodean visual. Proses pengkodean dapat dikategorikan secara luas ke dalam pengkodean video ukuran-tetap dan ukuran-variabel.

Donahue et al. [9] adalah yang pertama menggunakan jaringan saraf dalam untuk

memecahkan masalah teks video. Mereka

mengusulkan tiga arsitektur untuk deskripsi video. Model mereka didasarkan pada asumsi untuk mengambil prediksi berdasarkan objek, objek, dan kata kerja setelah lulus penuh dari video lengkap. Ini memungkinkan arsitektur untuk mengamati video lengkap pada setiap langkah waktu. Arsitektur pertama, LSTM encoder-decoder dengan CRF max, dimotivasi oleh pendekatan deskripsi video statistik mesin terjemahan (SMT) oleh Rohrbach et al.[10]. Menyadari keadaan kinerja terjemahan mesin seni LSTMs, modul SMT di [10] diganti dengan LSTM bertumpuk yang terdiri dari dua lapisan untuk pengodean dan pengodean. Mirip dengan lapisan LSTM pertama mengkodekan vektor satu-panas dari kalimat input yang memungkinkan input panjang variabel. Representasi tersembunyi terakhir dari tahap encoder pertama kemudian dimasukkan ke dalam tahap decoder untuk menghasilkan kalimat dengan menghasilkan satu kata per langkah waktu. Varian lain dari arsitektur, LSTM decoder dengan CRF max, menggabungkan prediksi max. Arsitektur ini mengkodekan representasi semantik ke dalam vektor panjang tetap. Mirip dengan deskripsi gambar, LSTM mampu melihat seluruh konten visual pada setiap langkah waktu. Keuntungan dari LSTM adalah dapat menggabungkan vektor probabilitas selama pelatihan dan juga pengujian. Keutamaan LSTM ini dieksploitasi dalam varian ketiga arsitektur, dekoder LSTM dengan probabilitas CRF. Alih-alih menggunakan predikasi max seperti pada varian kedua (LSTMdecoderwithCRFmax), arsitektur ini menggabungkan distribusi probabilitas. Meskipun LSTM mengungguli pendekatan berbasis SMT dari [11], itu masih tidak bisa dilatih secara end-to-end.

(7)

Gambar 6: Ringkasan metode deskripsi video berbasis pembelajaran yang mendalam. Sebagian besar metode menggunakan penyatuan representasi bingkai untuk merepresentasikan video. Metode yang lebih maju menggunakan mekanisme perhatian, pembelajaran atri but semantik, dan / atau menggunakan pendekatan urutan-ke-urutan. Metode-metode ini berbeda dalam apakah fitur visual diumpankan hanya pada langkah pertama atau semua langkah waktu dari model bahasa.

Berbeda dengan karya Donahue et al.[2], di mana representasi peran menengah diadopsi, Venugopalan et al.[12] menyajikan arsitektur jaringan yang dapat dilatih ujung-ke-ujung pertama untuk menghasilkan deskripsi bahasa video secara alami. Model mereka mampu secara simultan mempelajari semantik serta struktur gramatikal bahasa terkait. Selain itu, Donahueetal. [9] menyajikan video memasak khusus domain spesifik yang terdiri dari objek dan aktor yang telah ditentukan. Di sisi lain, Venugopalan et al. [12] melaporkan hasil pada domain terbuka Klip YouTube. Untuk menghindari representasi perantara yang diawasi, mereka menghubungkan LSTM langsung ke output CNN. CNN mengekstrak fitur visual sedangkan LSTM memodelkan dinamika urutan. Mereka mengubah video pendek menjadi input visual panjang tetap menggunakan model CNN yang sedikit berbeda dari AlexNet [8]. Model CNN dipelajari menggunakan dataset klasifikasi objek ILSVRC-2012 (terdiri dari gambar 1,2M), yang merupakan bagian dari ImageNet . Ini memberikan cara yang kuat dan efisien tanpa pemilihan fitur manual untuk pengenalan objek inisialisasi dalam video. Mereka mengambil sampel setiap frame kesepuluh dalam video dan mengekstraksi fitur untuk semua frame sampel dari lapisan fc7 dari CNN. Selain itu, mereka merepresentasikan video lengkap dengan rata-rata semua vektor fitur bingkai-bijaksana yang diekstraksi menjadi satu vektor. Vektor fitur ini kemudian dimasukkan ke dalam LSTM dua lapis . Vektor fitur dari CNN membentuk input ke lapisan pertama LSTM. Lapisan LSTM kedua ditumpuk di atas lapisan LSTM pertama, di mana status tersembunyi dari lapisan LSTM pertama menjadi input ke unit LSTM kedua untuk pembuatan teks.

Pada intinya, mentransformasikan beberapa vektor fitur berbasis bingkai menjadi satu vektor berbasis video agregat mengurangi masalah deskripsi video menjadi satu gambar keterangan gambar. Model ujung ke ujung ini berkinerja lebih baik daripada sistem deskripsi video sebelumnya pada saat itu dan mampu secara efektif menghasilkan urutan tanpa template. Namun, akibat rata-rata sederhana, informasi temporal yang berharga dari video, seperti urutan penampilan dari dua objek, hilang. Oleh karena itu, pendekatan ini hanya cocok untuk membuat teks untuk klip pendek dengan satu tindakan utama dalam klip.

2.3.2 RNN - RNN Video Description

Yu et al.[13] mengusulkan pendekatan serupa dan menggunakan dua struktur RNN untuk tugas deskripsi video. Konfigurasi mereka adalah dekoder hierarkis dengan beberapa Gated Recurrent Units (GRU) untuk pembuatan kalimat. Output dari decoder ini kemudian diumpankan ke generator paragraf yang memodelkan dependensi waktu antara kalimat sambil berfokus pada aspek linguistik. Para penulis meningkatkan hasil mutakhir untuk deskripsi video, namun, metode mereka tidak memadai untuk video yang melibatkan aktivitas berbutir halus dan objek interaktif kecil.

2.3.3 Deep Reinforcement Learning Models Deep Reinforcement Learning (DRL) telah mengungguli manusia dalam banyak game di dunia nyata. INDRL, agen cerdas buatan belajar dari lingkungan melalui coba-coba dan sesuaikan kebijakan pembelajaran murni dari imbalan atau

(8)

hukuman lingkungan. Pendekatan DRL dipopulerkan oleh Google Deep Mind sejak 2013. Karena tidak adanya fungsi biaya langsung, mekanisme pembelajaran dalam pendekatan ini jauh lebih sulit untuk dirancang dibandingkan dengan teknik tradisional yang diawasi. Dua tantangan berbeda terbukti dalam pembelajaran penguatan bila dibandingkan dengan pendekatan yang diawasi konvensional: (1) Model tidak memiliki akses penuh ke fungsi yang dioptimalkan. Itu harus query fungsi melalui interaksi. (2) Interaksi dengan lingkungan berbasis stasion di mana input ini tergantung pada tindakan sebelumnya. Pilihan algoritma pembelajaran penguatan tergantung pada ruang lingkup masalah yang dihadapi. Misalnya, varian kerangka Hierarchical Reinforcement Learning (HRL) telah diterapkan pada game Atari, Demikian pula, berbagai varian DRL telah digunakan untuk memenuhi persyaratan yang menantang dari penulisan gambar serta deskripsi video [14].

Xwang et al.[14] mengusulkan arsitektur jaringan saraf yang sepenuhnya dapat dibedakan menggunakan pembelajaran penguatan untuk deskripsi video. Metode mereka mengikuti kerangka

umum encoder-decoder. Tahap pengkodean

menangkap fitur bingkai video menggunakan ResNet-152 . Fitur level-frame diproses melalui dua-tahap encoder yaitu LSTM tingkat rendah diikuti oleh LSTM tingkat tinggi. Untuk decoding, mereka menggunakan HRL untuk menghasilkan kata demi kata deskripsi bahasa alami. Agen HRL terdiri dari tiga komponen, seorang pekerja tingkat rendah yang menyelesaikan tugas-tugas yang ditetapkan oleh manajer, seorang manajer tingkat tinggi yang menetapkan tujuan dan kritik internal untuk memastikan apakah tugas tersebut telah selesai atau belum dan menginformasikan manajer sesuai untuk membantu manajer perbarui tujuan. Proses iterates hingga mencapai akhir token kalimat. Metode ini terbukti mampu menangkap lebih detail konten video sehingga menghasilkan deskripsi yang lebih halus. Namun, metode ini hanya menunjukkan sedikit peningkatan dibandingkan metode baseline yang ada.

Pada 2018, Chen et al.[15] mengusulkan model berbasis RL memilih bingkai informatif utama untuk mewakili video lengkap, dalam upaya untuk

meminimalkan kebisingan dan perhitungan yang tidak perlu. Bingkai kunci dipilih sedemikian rupa sehingga memaksimalkan keragaman visual dan meminimalkan perbedaan tekstual. Oleh karena itu, subset kompak 6-8 frame rata-rata dapat mewakili video penuh. Dievaluasi terhadap beberapa tolok ukur populer, ditunjukkan bahwa teks video dapat diproduksi tanpa penurunan kinerja tetapi dengan biaya komputasi yang sangat berkurang. Metode ini tidak menggunakan fitur gerak untuk penyandian, desain trade-off antara kecepatan dan akurasi. Metode berbasis DRL semakin populer dan telah menunjukkan hasil yang sebanding dalam deskripsi

video. Dengan metodologi pembelajaran

konvensional, metode DRL tidak mungkin menderita kekurangan data pelatihan berlabel, kendala perangkat keras, dan masalah overfitting. Oleh karena itu, metode ini diharapkan berkembang. 3. DATASET

Ketersediaan dataset berlabel untuk deskripsi video telah menjadi kekuatan pendorong utama di balik kemajuan cepat dari area penelitian ini. Kumpulan data dikategorikan ke dalam empat kelas utama yaitu Film, Video lainnya dan Media Sosial.

3.1 Film (Movies) 3.1.1 MPII-MD

MPII-Movie Description Corpus [16] berisi deskripsi audio transkrip yang diekstraksi dari 94 film Hollywood.

3.1.2 M-VAD

Montreal Video Annotation Dataset (M-VAD) [17] didasarkan pada Layanan Video Deskriptif (DVS) dan berisi 48.986 klip video dari 92 film yang berbeda.

3.2 Social Media (Media Sosial) 3.2.1 VideoStory (Cerita Video )

video story adalah dataset deskripsi multi-kalimat yang terdiri dari 20k video media sosial.

(9)

Gbr. 7: Contoh frame video (3 frame non-berurutan per klip) dan keterangan dari berbagai dataset deskripsi video benchmark. C1-C5 mewakili keterangan terkait (contoh) dari dataset.

3.2.2 Entitas ActivityNet

Kumpulan data ActivityNet Entities (atau ANet-Entities) adalah dataset video pertama dengan landasan dan anotasi entitas. Dataset ini dibangun di atas pemisahan pelatihan dan validasi dari dataset ActivityNet Captions, tetapi dengan teks yang berbeda. Dalam dataset ini, frasa kata benda (NP) dari deskripsi video telah di-grounded ke kotak-kotak pembatas dalam bingkai video. Dataset terdiri dari

14281 video beranotasi, segmen video 52k dengan setidaknya satu frase nomina dianotasi per segmen dan 158k kotak terikat dengan anotasi. Dataset ini menggunakan set pelatihan (10k) yang mirip dengan Keterangan ActivityNet. Namun, kumpulan validasi Keterangan ActivityNet secara acak dan merata dibagi menjadi validasi ANet-Entities (2.5k) dan pengujian (2.5k).

(10)

3.3 Video lainnya 3.3.1 Dataset MSVD

Microsoft Video Description (MSVD) [18] terdiri dari 1.970 klip YouTube dengan kalimat beranotasi manusia. Gambar 7(a) menunjukkan contoh klip dan deskripsi dari dataset MSVD. 3.3.2 MSR-VTT

MSR-Video ke Teks (MSR-VTT) berisi beragam video domain terbuka untuk tugas penulisan video. Ini terdiri dari 7180 video yang dibagi menjadi 10.000 klip. Klip dikelompokkan ke dalam 20 kategori berbeda. Contoh ditunjukkan pada Gambar 7(c). Dataset dibagi menjadi 6513 pelatihan, 497 validasi, dan 2990 video uji. Setiap video terdiri dari 20 judul referensi yang dianotasi oleh AMTworkers. Dalam hal jumlah klip dengan beberapa kalimat yang berhubungan, ini adalah salah satu set data teks video terbesar. Selain konten video, set data ini juga berisi informasi audio yang berpotensi digunakan untuk penelitian multimodal.

3.3.3 Charades

Dataset ini berisi 9848 video kegiatan rumah tangga harian dalam ruangan. Catatan ini direkam bersama oleh pekerja yang berasal dari 2 AMAM dari tiga benua yang berbeda. Mereka diberi skrip yang menggambarkan tindakan dan objek dan diminta untuk mengikuti skrip untuk melakukan tindakan dengan objek yang ditentukan. Objek dan tindakan yang digunakan dalam skrip berasal dari kosa kata tetap. Video direkam dalam 15 adegan dalam ruangan yang berbeda dan dibatasi untuk penggunaan 46 objek dan 157 kelas aksi saja. Dataset terdiri dari 66500 penjelasan yang menjelaskan 157 tindakan. Ini juga menyediakan 41104 label untuk 46 kelas objeknya. Selain itu, ini berisi 27.847 deskripsi yang mencakup semua video. Video dalam dataset menggambarkan aktivitas kehidupan sehari-hari dengan durasi rata-rata 30 detik. Dataset dibagi menjadi 7985 dan 1863 video untuk tujuan pelatihan dan pengujian

3.3.4 VTW

Video Titles in the Wild (VTW) berisi 18100 klip video dengan rata-rata durasi 1,5 menit per klip. Setiap klip dijelaskan dengan satu kalimat saja. Namun, itu menggabungkan kosa kata yang beragam, di mana rata-rata satu kata muncul dalam tidak lebih dari dua kalimat di seluruh dataset. Selain kalimat tunggal per video, dataset juga menyediakan deskripsi yang menyertainya (dikenal sebagai kalimat augmented) yang menggambarkan informasi yang tidak ada dalam konten visual klip. Dataset ini diusulkan untuk pembuatan judul video yang

bertentangan dengan deskripsi konten video tetapi juga dapat digunakan untuk tugas pemahaman tingkat bahasa termasuk menjawab pertanyaan video. 3.3.5 ActivityNet Captions (Keterangan Net Kegiatan )

Dataset Activity Net Captions [11] berisi 100k deskripsi bahasa alami yang padat dari sekitar 20k video dari ActivityNet yang sesuai dengan sekitar 849 jam. Rata-rata, setiap deskripsi terdiri dari 13,48 kata dan mencakup sekitar 36 detik video. Ada beberapa deskripsi untuk setiap video dan ketika digabungkan, deskripsi ini mencakup 94,6% konten yang ada di seluruh video. Selain itu, 10% temporal overlap membuat dataset sangat menarik dan menantang untuk mempelajari berbagai peristiwa yang terjadi pada saat yang sama. Contoh dataset ini diberikan pada Gambar 7(h).

4 . METRIK EVALUASI (EVALUATION METRICS)

Evaluasi yang dilakukan melalui teks / deskripsi video yang dihasilkan mesin dapat dibagi menjadi Evaluasi Otomatis dan Evaluasi Manusia. Evaluasi otomatis dilakukan dengan menggunakan enam metrik yang berbeda yang awalnya dirancang untuk terjemahan mesin dan penulisan gambar. Metrik ini adalah BLEU [19], ROUGEL [20], METEOR [21], CIDEr [22], WMD [23] dan, SPICE [24]. Di bawah ini, akan dibahas metrik ini secara rinci :

4.1 Evaluasi Generasi Kalimat Otomatis (Automatic Sentence Generation Evaluation)

Untuk evaluasi otomatis, ketika membandingkan kalimat yang dihasilkan dengan uraian kebenaran dasar, tiga metrik evaluasi dipinjam dari terjemahan mesin, yaitu, Bilingual Evaluation Understudy (BLEU) , Recall Oriented Orifudy of Gisting Evaluationlua (ROUGE) dan Metrik untuk Evaluasi Penerjemahan dengan Eksplisit Pemesanan Metric for Evaluation of Translation with Explixit Ordering (METEOR). Consensus based Image Description Evaluation (CIDEr) adalah Evaluasi Deskripsi Gambar Berbasis Konsensus dan Semantic Propositional Image Captioning Evaluation (SPICE) yaitu Evaluasi Penulisan Gambar Proposional Semantik adalah dua metrik lain yang baru-baru ini diperkenalkan yang secara khusus dirancang untuk tugas penulisan gambar, yang juga digunakan untuk evaluasi otomatis deskripsi video. Tabel 1 memberikan gambaran umum tentang metrik yang termasuk dalam survei ini. Selain metrik evaluasi otomatis ini, evaluasi manusia juga digunakan untuk

(11)

menentukan kinerja algoritma deskripsi video otomatis.

4.1.1 Bilingual Evaluation Understudy (BLEU, 2002)

BLEU adalah metrik populer yang digunakan untuk mengukur kualitas teks yang dihasilkan mesin. Kualitas mengukur korespondensi antara mesin dan output manusia. Skor BLEU memperhitungkan tumpang tindih antara unigrams yang diprediksi (satu kata) atau n-gram berurutan lebih tinggi (urutan n kata yang berdekatan) dan satu set satu atau lebih kalimat referensi kandidat. Menurut BLEU, deskripsi skor tinggi harus cocok dengan kalimat kebenaran tanah panjangnya yaitu pencocokan kata yang tepat serta urutannya. Evaluasi BLEU akan skor 1 untuk pertandingan yang tepat. Perhatikan bahwa semakin banyak jumlah kalimat referensi dalam kebenaran dasar per video, semakin besar peluang skor BLEU lebih tinggi. Ini terutama dirancang untuk mengevaluasi teks pada tingkat korpus dan, oleh karena itu, penggunaannya sebagai metrik evaluasi atas kalimat individu mungkin tidak adil. BLEU dihitung sebagai,

Dalam persamaan di atas, lr / lc adalah rasio antara

panjang korpus referensi yang sesuai dan deskripsi kandidat, wn adalah bobot positif, dan pn adalah

rata-rata geometrik dari precision n-gram yang dimodifikasi. Sementara istilah kedua menghitung skor pertandingan aktual, istilah pertama adalah hukuman singkat yang menghukum deskripsi yang lebih pendek dari deskripsi referensi.

4.1.2 Recall Oriented Understudy for Gisting

Evaluation (ROUGE, 2004)

Metrik ROUGE(Recall Oriented Understudy for Gisting Evaluation) diusulkan pada tahun 2004 untuk mengevaluasi ringkasan teks. Ini menghitung skor recall dari kalimat yang dihasilkan sesuai dengan kalimat referensi menggunakan n – gram. Mirip dengan BLEU, ROUGE juga dihitung dengan memvariasikan jumlah n-gram. Namun, tidak seperti BLEU yang didasarkan pada presisi, ROUGE didasarkan pada nilai recall. Selain itu, selain varian n-gram ROUGEn, ia memiliki versi lain yang dikenal sebagai, ROUGEL (Long Term Common Sub Priorence), ROUGEW (Weighted Substanence Umum

Terpanjang -Weighted Longest Common

Subsequence ), ROUGES (Skip-Bigram

Co-Occurrences Statistics), dan ROUGESU

(perpanjangan ROUGES - extension of ROUGES ). Kami merujuk pembaca ke makalah asli untuk detailnya. Versi yang digunakan dalam evaluasi captioning gambar dan video adalah ROUGEL, yang menghitung skor recall dan presisi dari common Common terpanjang (LCS) antara kalimat yang dihasilkan dan setiap kalimat referensi. Metrik membandingkan urutan kata yang umum dalam kalimat kandidat dan kalimat referensi. Intuisi di belakang adalah bahwa LCS kandidat dan kalimat referensi yang lebih lama sesuai dengan kesamaan yang lebih tinggi antara kedua ringkasan. Kata-kata tidak harus berurutan tetapi harus berurutan. ROUGE-N dihitung sebagai:

n menjadi panjang n-gram, dan

mewakili jumlah n-gram tertinggi yang ada dalam kandidat serta ringkasan kebenaran dasar dan RSum singkatan dari ringkasan referensi.

Salah satu kelebihan ROUGEL adalah bahwa ia tidak mempertimbangkan kecocokan kata yang berurutan tetapi menggunakan pencocokan urutan tetapi dalam sebuah kalimat. Selain itu, menentukan panjang n-gram juga tidak diperlukan karena ini secara otomatis dimasukkan oleh LCS.

4.1.3 Metric for Evaluation of Translation with

Explicit Ordering (METEOR, 2005)

METEOR (Metric for Evaluation of Translation with Explicit Ordering ) diusulkan untuk mengatasi kekurangan BLEU . Alih-alih pencocokan leksikal

yang dibutuhkan oleh BLEU, METEOR

memperkenalkan pencocokan semantik. METEOR menggunakan WordNet, basis data leksikal dari bahasa Inggris untuk memperhitungkan berbagai tingkat kecocokan, termasuk kecocokan kata-kata yang tepat, pencocokan kata-kata yang bersumber, pencocokan sinonim, dan pencocokan parafrase.

Perhitungan skor METEOR didasarkan pada seberapa baik kalimat yang dihasilkan dan rujukan disejajarkan. Setiap kalimat diambil sebagai satu set unigrams dan penyelarasan dilakukan dengan memetakan unigrams dari kandidat dan referensi kalimat. Selama pemetaan, unigram dalam kalimat kandidat (atau kalimat referensi) harus dipetakan ke unigram dalam kalimat referensi (atau kalimat kandidat) atau ke nol. Dalam hal beberapa opsi

(12)

tersedia untuk penyelarasan antara dua kalimat,

konfigurasi penyelarasan dengan jumlah

penyeberangan yang lebih sedikit lebih disukai. Setelah menyelesaikan proses penyelarasan, skor METEOR dihitung.

Awalnya, skor presisi berbasis unigram P

dihitung menggunakan hubungan .

Di sini mcr mewakili jumlah unigram yang terjadi bersamaan di kedua kandidat, serta kalimat referensi dan mct sesuai dengan jumlah total unigram dalam kalimat kandidat. Kemudian skor recall berbasis

unigram R dihitung menggunakan

.Di sini mewakili jumlah unigram yang terjadi bersamaan di kedua kandidat serta kalimat referensi. Namun, adalah jumlah unigram dalam kalimat referensi. Lebih lanjut, skor presisi dan recall digunakan untuk menghitung skor-F menggunakan persamaan berikut:

Pengukuran presisi, penarikan kembali dan skor-F memperhitungkan kongruitas berbasis unigram dan tidak memenuhi n-gram. Kesamaan berbasis n-gram digunakan untuk menghitung hukuman p untuk penyelarasan antara kandidat dan kalimat referensi. Hukuman ini memperhitungkan pemetaan yang tidak berdekatan antara kedua kalimat. Hukuman dihitung dengan mengelompokkan unigrams ke dalam jumlah minimum. Potongan termasuk unigram yang berdekatan dalam kandidat serta kalimat referensi. Jika kalimat yang dihasilkan cocok dengan kalimat referensi, maka hanya akan ada satu potongan. Hukuman dihitung sebagai:

di mana Nc dalam mewakili jumlah bongkahan dan

Nu sesuai dengan jumlah unigram yang

dikelompokkan bersama. Skor METEOR untuk kalimat tersebut kemudian dihitung sebagai:

Skor tingkat Corpus dapat dihitung dengan menggunakan persamaan yang sama dengan menggunakan nilai-nilai teragregasi dari semua argumen yaitu P, R dan p. Dalam kasus beberapa kalimat referensi, skor METEOR maksimum dari

kalimat yang dihasilkan dan referensi diambil. Sampai saat ini, korelasi skor METEOR dengan penilaian manusia lebih baik daripada skor BLEU. Apalagi Elliot et al.[11]juga menemukan METEOR menjadi metrik evaluasi yang lebih baik dibandingkan dengan metrik kontemporer. Kesimpulan mereka didasarkan pada perhitungan korelasi Spearman dari metrik evaluasi otomatis terhadap penilaian manusia.

4.1.4 Consensus based Image Description Evaluation (CIDEr, 2015)

CIDEr (Consensus based Image Description Evaluation ) adalah metrik evaluasi yang baru diperkenalkan untuk tugas penulisan gambar. Ini mengevaluasi konsensus antara ci kalimat yang diprediksi dan kalimat referensi dari gambar yang sesuai. Itu melakukan stemming dan mengubah semua kata dari kandidat serta kalimat referensi ke dalam bentuk root mereka mis. batang, batang, batang, dan batang ke akar kata akar mereka. CIDEr memperlakukan setiap kalimat sebagai satu set n-gram yang mengandung 1 hingga 4 kata. Untuk menyandikan konsensus antara kalimat yang diprediksi dan kalimat referensi, ini mengukur frekuensi koeksistensi n-gram dalam kedua kalimat. Akhirnya, n-gram yang sangat umum di antara kalimat referensi dari semua gambar diberi bobot lebih rendah, karena mereka cenderung kurang informatif tentang konten gambar, dan lebih bias terhadap struktur leksikal kalimat. Bobot untuk setiap n-gram dihitung menggunakan Term Frequency Inverse Document Frequency (TFIDF) . The term TF puts higher weight age jarang terjadi n-gram dalam kalimat referensi gambar, sedangkan bobot IDFputslower pada umumnya muncul n-gram di seluruh dataset.

Akhirnya, skor CIDErn dihitung sebagai :

di mana adalah vektor yang mewakili semua

n-gram dengan panjang n dan

menggambarkan besarnya . Hal

yang sama berlaku untuk . Lebih lanjut, CIDEr menggunakan orde-n-gram yang lebih tinggi (urutannya lebih tinggi, urutan kata-kata lebih lama) untuk menangkap properti gramatikal dan semantik teks yang lebih kaya. Untuk itu, ia menggabungkan skor n-gram yang berbeda menggunakan persamaan berikut:

(13)

Versi paling populer dari CIDEr dalam evaluasi deskripsi gambar dan video adalah CIDEr-D, yang menggabungkan beberapa modifikasi dalam CIDEr yang awalnya diusulkan untuk mencegah skor yang lebih tinggi untuk teks yang gagal dalam penilaian

manusia. Pertama, mereka mengusulkan

penghapusan stemming untuk memastikan bentuk kata yang benar digunakan. Jika tidak, beberapa bentuk kata kerja (tunggal, jamak, dll) dipetakan ke token yang sama menghasilkan skor tinggi untuk kalimat yang salah. Kedua, mereka memastikan bahwa jika kata-kata kepercayaan tinggi diulang dalam kalimat skor tinggi tidak dihasilkan seperti dalam CIDEr asli menghasilkan bahkan jika kalimat itu tidak masuk akal. Hal ini dilakukan dengan memperkenalkan hukuman Gaussian atas perbedaan panjang antara kandidat dan kalimat referensi dan dengan memotong ke jumlah n-gram yang sama dengan jumlah kemunculan dalam kalimat referensi. Yang terakhir memastikan bahwa panjang kalimat yang diinginkan tidak tercapai dengan pengulangan kata-kata kepercayaan tinggi untuk mendapatkan skor tinggi. Perubahan tersebut membuat metrik lebih kuat dan memastikan skor korelasinya yang tinggi .

TABEL 1: Ringkasan metrik yang digunakan untuk evaluasi deskripsi video [27]

4.1.5 Word Mover’s Distance (WMD, 2015)

WMD (Word Mover’s Distance ) memanfaatkan embeddings kata yang secara vektor bermakna mewakili kata-kata yang dipelajari dari teks korpora. Jarak WMD mengukur ketidaksamaan antara dua dokumen teks. Dua keterangan dengan kata yang berbeda mungkin masih memiliki makna semantik yang sama. Di sisi lain, dimungkinkan beberapa teks memiliki atribut, objek, dan hubungan yang sama namun tetap memiliki makna yang sangat berbeda. WMD diusulkan untuk mengatasi masalah ini. Ini karena embeddings kata bagus dalam menangkap makna semantik dan lebih mudah untuk dihitung daripada WordNet berkat distribusi vektor kata yang terdistribusi. Jarak antara dua teks dilemparkan sebagai Earth Mover’s Distance (EMD) , biasanya digunakan dalam transportasi untuk menghitung biaya perjalanan menggunakan embeddings

word2vec

.

Gbr. 8: Komponen metrik WMD antara kueri D0 dan dua kalimat D1 dan D2 dengan jarak BOW yang sama. D1 dengan jarak kurang 1.07 cocok dengan kueri D0 dari D2 dengan jarak 1.63. Panah menunjukkan aliran antara dua kata dan diberi label dengan kontribusi jarak mereka. [27]

Dalam metrik ini, setiap teks atau deskripsi diwakili oleh histogram bag-of-words yang mencakup semua kecuali kata-kata awal dan berhenti. Besarnya masing-masing histogram kata kemudian dinormalisasi. Untuk menjelaskan kesamaan

semantik yang ada di antara pasangan kata, metrik WMD menggunakan jarak Euclidean di ruang embed word2vec. Jarak antara dua dokumen atau teks kemudian ditentukan karena biaya yang diperlukan untuk memindahkan semua kata di antara teks.

(14)

Gambar 8 menggambarkan contoh proses perhitungan WMD. WMD dimodelkan sebagai kasus khusus EMD dan kemudian diselesaikan dengan optimasi linear. Dibandingkan dengan BLUE, ROUGE, dan CIDEr, WMD kurang sensitif terhadap urutan kata atau pertukaran sinonim. Lebih lanjut, mirip dengan CIDEr dan METEOR, ini memberikan korelasi yang tinggi terhadap penilaian manusia. 4.1.6 Evaluasi Penulisan Gambar Proposisi Semantik (SPICE, 2016)

SPICE (Semantic Propositional Image

Captioning Evaluation) adalah metrik evaluasi yang diusulkan terbaru untuk deskripsi gambar dan video. SPICE mengukur kesamaan antara grafik adegan tupel yang diuraikan dari deskripsi yang dihasilkan mesin dan kebenaran dasar. Grafik adegan semantik mengkodekan objek, atributnya, dan hubungan melalui pohon parse dependensi. Sebuah adegan grafik tuple G(c) dari keterangan c terdiri dari token semantik seperti kelas objek O(c), tipe hubungan R(c) dan atribut tipe A(c),

SPICE dihitung berdasarkan skor-F1 antara tupel deskripsi yang dihasilkan mesin dan kebenaran dasar. Seperti METEOR, SPICE juga menggunakan

WordNet untuk menemukan dan memperlakukan sinonim sebagai pasangan positif. Meskipun, dalam literatur saat ini, skor SPICE belum digunakan banyak faktor pembatas yang jelas pada kinerjanya bisa kualitas parsing.

4.2 Evaluasi Manusia ( Human Evalution)

Mengingat tidak adanya teks referensi dan korelasi yang rendah dengan penilaian manusia terhadap metrik evaluasi otomatis, evaluasi manusia juga sering digunakan untuk menilai kualitas teks yang dihasilkan mesin. Evaluasi manusia dapat berasal dari kerumunan, seperti pekerja AMT atau hakim spesialis seperti dalam beberapa kompetisi. Evaluasi manusia tersebut dapat disusun lebih lanjut dengan menggunakan pengukuran seperti Relevansi atau Tata Bahasa Benar (Relevance or Grammar

Correctness).

5. HASIL BENCHMARK (BENCHMARK

RESULTS)

Hasil benchmark berdasarkan berbagai teknik pada setiap dataset deskripsi video yang uraikan di atas dalam bentuk tabel :

TABEL 2: Performa metode penulisan video pada dataset MSVD. Skor yang lebih tinggi lebih baik di semua metrik. [27]

Teknik/Models/Methods Tahun Set Data Hasil

BLEU METEOR CIDEr ROUGE

LSTM_YT[32] 2015 MSVD 33.3 29.1 - - TA[10] 2015 MSVD 41.9 29.6 51.67 - S2VT[17] 2015 MSVD - 29.8 - - h-RNN[34] 2016 MSVD 49.9 32.6 65.8 - GRU-RCN[5] 2016 MSVD 43.3 31.6 68.0 - LSTM-E [19] 2016 MSVD 45.3 31.0 - - SCN-LSTM [38] 2017 MSVD 51.1 33.5 77.7 - PickNet[39] 2018 MSVD 46.1 33.1 76.0 69.2 GRU-EVE[55] 2019 MSVD 47.9 35.0 78.1 71.5

TABEL 3: Performa metode penulisan video pada dataset M-VAD.[27]

Temporal-Attention (TA)[10] 2015 M-VAD 0.7 5.7 6.1 -

S2VT [17] 2015 M-VAD - 6.7 - -

LSTM-E[19] 2016 M-VAD 0.7 6.7 - -

LSTM-TSA [56] 2017 M-VAD - 7.2 - -

(15)

S2VT [17] 2015 MPII-MD - 7.1 - -

LSTM-E[19] 2016 MPII-MD - 7.3 - -

LSTM-TSA [56] 2017 MPII-MD - 8.0 - -

6. KESIMPULAN.

Dari uraian di atas maka literatur yang dipublikasikan terlebih dahulu dari deskripsi penelitian video, mulai dari metode klasik yang dibuat pada tuple Subjek-Verb-Object (SVO) hingga metode berbasis statistik dan pembelajaran yang lebih canggih.

Dari perspektif desain algoritma, meskipun LSTM telah menunjukkan kinerja pembuatan caption yang kompetitif, interpretabilitas dan kejelasan model yang mendasarinya rendah. Khususnya, sulit untuk membedakan berapa banyak fitur visual yang berkontribusi pada pembuatan kata tertentu dibandingkan dengan bias yang datang secara alami dari model bahasa yang diadopsi.

Hasil yang diperoleh dari makalah di atas adalah sebagai berikut, perfoma yang didapat dari dataset

MSVD pada metode GRU-EVE dengan

menggunakan evalusi metrik CIDEr mencapai nilai tertinggi pada skor 78.1. Pada penggunaan dataset M-VAD nilai tertinggi didapatkan 7.2 pada penggunaan metode LSTM-TSA dan evaluasi metrik METEOR sedangkan pada performa dataset MPII-MD juga menghasilkan nilai tertinggi pada penggunaan metode LSTM-TSA dam metric METEOR yaitu skor 8.0.

Berdasarkan hasil di atas menunjukkan bahwa hambatan utama yang menghambat kemajuan sepanjang jalur penelitian ini adalah kurangnya metrik evaluasi deskripsi video yang dirancang dengan khusus Metrik saat ini telah diadopsi baik dari terjemahan mesin atau teks gambar dan gagal dalam mengukur kualitas teks video yang dihasilkan mesin dan persetujuan mereka dengan penilaian manusia. Salah satu cara untuk meningkatkan metrik ini adalah dengan meningkatkan jumlah kalimat referensi. Kami percaya bahwa metrik yang dibangun dengan tujuan yang dipelajari dari data itu sendiri adalah kunci untuk memajukan penelitian deskripsi video.

Penelitian di masa depan harus fokus pada merancang arsitektur pemodelan temporal yang lebih baik yang menggunakan cara kerja secara end-to-end daripada menguraikan deskripsi visual dari model temporal dan pemodelan temporal dari deskripsi bahasa.

REFERENSI :

[1] M. Margaret, M. Ishan, H. Ting-Hao, and F. Frank. 2018. Story Telling Workshop and Visual Story Telling Challenge at NAACL 2018.

[2] J. Donahue, L. A. Hendricks, S. Guadarrama, M. Rohrbach, S. Venugopalan, K. Saenko, and T. Darrell. 2015. Long-term RCNN for visual recognition and description. In IEEE CVPR.

[3] L. Yao, A. Torabi, K. Cho, N. Ballas, C. Pal, H. Larochelle, and A. Courville.2015. Describing videos by exploiting temporal structure. In IEEE ICCV. [4] S. Venugopalan, M. Rohrbach, J. Donahue, R. Mooney, T. Darrell, and K. Saenko. 2015. Sequence to sequence-video to text. In IEEE ICCV.

[5]A. Kojima, T. Tamura, and K. Fukunaga. 2002.

Natural language

descriptionofhumanactivitiesfromvideoimagesbasedo nconcept hierarchy of actions. IJCV 50, 2 (2002), 171-184

[6] P. Viola and M. Jones. 2001. Rapid object detection using a boosted cascade of simple features. In IEEE CVPR.

[7] S. Zhu and D. Mumford. 2007. A stochastic grammar of images. Foundations and Trends in Computer Graphics and Vision, Vol. 2, 4, 259-362. [8]A.Krizhevsky,I.Sutskever,and G.E.Hinton.2012. Image Net classiﬁcation with deep convolutional neural networks. In Advances in Neural Information Processing Systems. 1097-1105.

[9] J. Donahue, L. A. Hendricks, S. Guadarrama, M. Rohrbach, S. Venugopalan, K. Saenko, and T. Darrell. 2015. Long-term RCNN for visual recognition and description. In IEEE CVPR.

[10]

M.Rohrbach,W.Qiu,I.Titov,S.Thater,M.Pinkal,andB. Schiele. 2013. Translating video content to natural language descriptions. In IEEE ICCV.

[11] R. Krishna, K. Hata, F. Ren, L. Fei-Fei, and J. C. Niebles. 2017. Dense-Captioning Events in Videos. arXiv:1705.00754, (2017).

[12]

S.Venugopalan,H.Xu,J.Donahue,M.Rohrbach,R.Moo ney,and K. Saenko. 2014. Translating videos to natural language using deep recurrent neural networks. arXiv preprint arXiv:1412.4729, (2014).

(16)

[13] L. Yu, E. Park, A. C. Berg, and T. L. Berg. 2015. Visual madlibs: Fill in the blank description generation and question answering. In IEEE ICCV. [14] X. Wang, W. Chen, J. Wu, Y. Wang, and W. Y. Wang. 2017. Video Captioning via Hierarchical

Reinforcement Learning. arXiv preprint

arXiv:1711.11135, (2017).

[15] Y. Chen, S. Wang, W. Zhang, and Q. Huang. 2018. Less Is More: Picking Informative Frames for Video Captioning. arXiv preprint arXiv:1803.01457, (2018).

[16] A. Rohrbach, M. Rohrbach, N. Tandon, and B. Schiele. 2015. A dataset for movie description. In IEEE CVPR.

[17] A. Torabi, C. Pal, H. Larochelle, and A. Courville. 2015. Using descriptive video services to create a large data source for video annotation research. arXiv preprint arXiv:1503.01070, (2015). [18] D. Chen and W. Dolan. 2011. Collecting highly parallel data for paraphrase evaluation. In ACL: Human Language TechnologiesVolume 1. ACL, 190-200.

[19] K. Papineni, S. Roukos, T. Ward, and W. Zhu. 2002. BLEU: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting on ACL. 311-318.

[20] C. Lin. 2004. Rouge: A package for automatic evaluation of summaries. in: Text Summarization Branches Out.

[21] S. Banerjee and A. Lavie. 2005. METEOR: An automatic metric for MT evaluation with improved correlation with human judgments. ACL workshop on intrinsic and extrinsic evaluation measures for MT and/or summarization. 65-72.

[22] R. Vedantam, C. L. Zitnick, and D. Parikh. 2015. Cider: Consensus-based image description evaluation. In IEEE CVPR.

[23] M.Kusner,Y.Sun,N. Kolkin, and

K.Weinberger.2015. From word embeddings to document distances. In International Conference on Machine Learning (ICML).

[24] P. Anderson, B. Fernando, M. Johnson, and S. Gould. 2016. Spice: Semantic propositional image caption evaluation. In IEEE ECCV .

[25] N. Aafaq, N. Akhtar, W. Liu, S. Z. Gilani and A.

Mian. 2019.

Spatio-TemporalDynamicsandSemanticAttributeEnrichedVi sual Encoding for Video Captioning. In IEEE CVPR. [26] Y. Pan, T. Yao, H. Li, and T. Mei. 2017. Video Captioning With Transferred Semantic Attributes. In IEEE CVPR.

[27] Nayyer A. A. Mian, Wei L, S.Z. Gilani, Mubarak S. 2019. Vidoe Desscription : A Survey of Methods, Dataset and Evaluation Metrics. In IEEE CVPR.