PENDAHULUAN
Latar Belakang
Dengan demikian, penggunaan kombinasi berbagai teknik dalam penelitian pembelajaran transfer untuk menghasilkan akurasi yang baik masih menjadi masalah terbuka (Weiss et al., 2016a). Selain kedua pengklasifikasi tersebut, penelitian awal tentang pembelajaran transfer juga menerapkan pengklasifikasi regresi logistik (Y. Zhang et al., 2010).
Rumusan Masalah
WbFTL mengusung konsep “sederhana” yang terlihat dari tidak adanya parameter yang digunakan dalam proses transformasi fitur. Terdapat tiga tahap transformasi fitur pada WbFTL, dua tahap pertama menggunakan pendekatan pemilihan fitur dan satu tahap menggunakan pendekatan jarak.
Tujuan
Transformasi fitur yang kedua ini memilih fitur-fitur yang signifikan bagi label, karena transformasi fitur yang pertama tidak memperhatikan informasi label. Inti dari metode transfer representasi fitur adalah melakukan transformasi fitur hingga membentuk representasi fitur baru yang akan digunakan oleh model atau pengklasifikasi untuk menghasilkan label prediksi.
Metodologi Penelitian
Pada tahap ini pembelajaran dilakukan dengan membentuk representasi fitur baru menggunakan konsep inti dalam rumus MMD (Borgwardt et al., 2006). Tahapan pembelajaran yang digunakan untuk meningkatkan kinerja sistem (akurasi dan parameter minimum) adalah menerapkan pemilihan fitur dan memberikan bobot pada fitur yang dipilih.
Batasan Masalah
Pembelajaran transfer homogen merupakan kondisi ketika terdapat ruang fitur yang sama antara domain sumber dan domain target. Euclidean distance juga biasa digunakan dalam penelitian pembelajaran transfer representasi fitur pada fungsi pemetaan yang digunakan (Sinno Jialin Pan, Ivor W. Tahapan umum pendekatan pembelajaran transfer berbasis fitur iteratif ini dapat dilihat pada Gambar 2.3 di bawah ini.
Label yang digunakan pada penelitian ini juga dibatasi hanya 10 label yang juga pernah digunakan pada penelitian feature-based transfer learning sebelumnya. Uji akurasi ini merupakan tahapan untuk melihat kedudukan kinerja WbFTL dibandingkan dengan metode transfer learning berbasis fitur sebelumnya. Nilai akurasi ini hanya dapat menandingi keakuratan metode pembelajaran transfer berbasis fitur yang canggih.
TRANSFER LEARNING
Perbedaan Pembelajaran Mesin dengan Transfer Learning
Dalam pembelajaran mesin secara umum, domain sumber disebut data pelatihan dan domain tujuan atau target disebut data pengujian (Shao et al., 2015). Data latih dan uji yang digunakan pada machine learning masih berasal dari kumpulan data yang sama, hanya saja dilakukan partisi sedemikian rupa sehingga beberapa instance pada kumpulan data tersebut akan digunakan sebagai data latih dan sisanya digunakan sebagai data uji. Karena berasal dari dataset yang sama, maka data pelatihan dan pengujian akan memiliki ruang fitur dan distribusi data yang sama.
Sebagai ilustrasi, gambar 2.1 di bawah menjelaskan perbedaan antara pembelajaran mesin konvensional dan pembelajaran transfer. Gambar 2.1 di bawah ini menunjukkan bahwa dalam pembelajaran transfer, proses pembelajaran dapat melibatkan bidang-bidang yang tidak persis sama. Pembelajaran transfer dan pembelajaran mesin tradisional dapat menggunakan teknik/metode yang sama atau sangat berbeda tergantung pada pendekatan yang digunakan dalam pembelajaran transfer.
Perbedaan domain yang dimaksud dalam pembelajaran transfer ini dapat terjadi akibat adanya perbedaan bentuk, perbedaan warna, perbedaan ukuran. Perbedaan tersebut dapat terletak pada distribusi instance, ruang instance, ruang fitur, dan juga ruang label (Kouw & Loog, 2018; Kouw & Loog, 2021).
Cross-domain
Pengelompokkan Transfer Learning
Sedangkan heterogeneous transfer learning merupakan algoritma pembelajaran transfer untuk kondisi dimana terdapat perbedaan ruang fitur antara domain sumber dan domain target. Sedangkan berdasarkan ketersediaan label kelas baik pada domain sumber maupun target, setting pembelajaran transfer dibagi menjadi tiga kelompok, yaitu pembelajaran transfer induktif, pembelajaran transfer transduktif, dan pembelajaran transfer tanpa pengawasan (Pan & Yang, 2010). Pengaturan pembelajaran transfer induktif dapat mencakup transfer representasi fitur, transfer contoh, transfer model, dan transfer pengetahuan relasional.
Sementara itu, pengaturan pembelajaran transfer transduktif dapat mencakup pendekatan transfer contoh dan transfer fitur. Dalam transfer representasi fitur, metode yang digunakan adalah dengan mencari representasi fitur yang “baik” berdasarkan kesamaan yang diukur menggunakan metrik kesamaan tertentu, seperti divergensi Kullback-Leibler (Zhong et al., 2018). Untuk transfer model, metode yang digunakan adalah upaya mencari parameter umum model yang dibuat antara domain sumber dan domain target (Mihalkova et al., 2007).
Sedangkan pada transfer pengetahuan relasional akan dibuat pemetaan relasi pengetahuan antara domain sumber dan domain target, misalnya dengan menggunakan kerangka ansambel yang membuat proses prediksi label kelas sesuai dengan kondisi domain target (Gao et al. .., 2008). Pembelajaran zero-shot juga bisa dikatakan sebagai proses pembelajaran dimana label domain sumber dan label domain tujuan saling lepas (Saad et al., 2022). Sementara itu, dalam pembelajaran beberapa langkah, masih sedikit label di domain aslinya (Xiaomeng et al., 2020).
Komponen dalam Transfer Learning
Fungsi prediksi 𝑓(∙) adalah fungsi yang digunakan untuk memprediksi label instance di domain target berdasarkan pembelajaran vektor fitur dan label instance di domain sumber. 𝑥𝑆𝑛, 𝑦𝑆𝑛)}, dengan 𝑥𝑆𝑖∈ 𝒳𝑆, adalah turunan ke-𝑖 dari 𝐷𝑆 dan 𝑦𝑆𝑝, misalnya label terkait, 𝑖.
Beragam Teknik Pembelajaran pada Transfer Learning
Pemanfaatan jarak pada penelitian sebelumnya tentang transfer learning umumnya dilakukan untuk menghitung kemiripan atau sebagai fungsi pemetaan. Manhattan Distance merupakan perhitungan jarak dengan menggunakan garis lurus baik horizontal maupun vertikal, dan juga digunakan untuk menghitung kemiripan antar vektor fitur. Mahalanobis Distance merupakan perhitungan jarak yang juga dipengaruhi oleh nilai matriks kovarians dengan bentuk persamaan terlihat pada Persamaan 2.3.
Feature-Representation Transfer (Feature-based Transfer Learning)
Tahapan umum pendekatan iteratif pada pembelajaran transfer berbasis fitur Berdasarkan penelitian sebelumnya terlihat bahwa ada dua pendekatan yang umum digunakan. Tahapan umum kelompok pembelajaran transfer fitur mudah ini dapat dilihat pada Gambar 2.4, dimana kotak merah menunjukkan proses pembelajaran dan transformasi fitur yang dilakukan dengan metode pembelajaran transfer fitur yang menggunakan pendekatan transfer representasi fitur mudah. Seluruh pengujian performa pada eksperimen ini dilakukan dengan menghitung akurasi, seperti yang juga dilakukan pada penelitian pembelajaran transfer berbasis fitur lainnya.
Pengujian akurasi dilakukan pada tingkat pembelajaran dan dibandingkan dengan penelitian transfer pembelajaran berbasis fitur yang canggih. Beberapa fungsi pembelajaran transfer canggih yang digunakan, yaitu: TCA, TJM, JDA, BDA, MEDA, VDA, SA, Coral. Nilai ini mengungguli CoRaL, salah satu metode dalam kelompok pembelajaran transfer sederhana berbasis fitur, yang memiliki akurasi paling tinggi di kelompoknya.
Setelah menganalisis metode pembelajaran transfer berbasis fitur yang paling modern dan melakukan eksperimen penerapan WbFTL, maka dapat dijelaskan kelebihan dan kekurangan WbFTL. Akurasi yang dihasilkan WbFTL dengan menggunakan SVM sebagai pengklasifikasi baru dapat menandingi namun belum melampaui metode pembelajaran transfer berbasis fitur sebelumnya.
METODOLOGI PENELITIAN
Gambaran Umum WbFTL
Pengembangan yang dilakukan adalah pada strategi transformasi fitur yang dilaksanakan dengan metode pemilihan fitur dan pemberian bobot pada fitur yang dipilih. Pada metode WFbTL ini untuk mengatasi perbedaan distribusi antar domain dilakukan dengan menggunakan rumus MMD dan kernel untuk membentuk representasi fitur baru dari interdomain. Selain itu, untuk mengatasi perbedaan distribusi kondisional, kami juga menggunakan ANOVA (Analysis of Variance) untuk memilih hanya fitur-fitur yang signifikan antara label kelas dan dalam label kelas.
Fitur terpilih ini akan digunakan untuk pelatihan pengklasifikasi dan proses inferensi, sehingga menghasilkan label prediksi (𝑌𝑇) untuk 𝐷𝑇. Dalam pemilihan fitur, transformasi pertama ini juga menggunakan mean sebagai ambang batas untuk menentukan fitur yang dipilih. Demikian pula transformasi fitur kedua menggunakan varians untuk memilih fitur signifikan dalam kelas label dan antar kelas label.
Fungsi transformasi ini bertujuan untuk meningkatkan akurasi dengan memanfaatkan fitur-fitur penting untuk klasifikasi. Dengan menerapkan teknik ANOVA, hanya fitur-fitur yang signifikan pada label dan fitur-fitur yang signifikan pada label yang diambil. Hasil transformasi fitur 1 diolah menggunakan ANOVA dan menghasilkan vektor representasi fitur yang ditulis dengan notasi 𝐹𝑇𝑟𝑎𝑛𝑠2.
Feature Transformasi 1 dengan Pemilihan Feature (Feature Selection)
Fase ini bertujuan untuk mengurangi perbedaan distribusi kondisional di beberapa domain dengan menggunakan instance tak berlabel di 𝐷𝑇. Transformasi fitur 3 dilakukan dengan menghitung jarak instance ke pusat setiap label kelas (label kelas antar cluster). Setelah semua fitur di 𝐹𝑧 diberi bobot, maka fitur transformasi 1 (𝐹𝑇𝑟𝑎𝑛𝑠1) dibentuk untuk instance di 𝐷𝑆 dan 𝐷𝑇, seperti pada Persamaan 3.5 dan Persamaan 3.6.
Transformasi Feature 2 dengan Teknik Pemilihan Feature Menggunakan
Transformasi Feature 3 dengan Inter-Cluster Class Label
Resume Cara Kerja WbFTL
Sedangkan jika dibandingkan dengan kelompok recurrent feature-based transfer learning, nilai yang diperoleh tidak jauh berbeda dengan MEDA yang mempunyai nilai rata-rata akurasi tertinggi di kelompoknya.
HASIL PENELITIAN
Dataset dan Eksperimen Setting
Sumber dataset awal yang digunakan dalam penelitian ini ada dua, yaitu Research Data Repository di California Institute of Technology dan Electrical Engineering di UC Berkeley. SURF sendiri merupakan algoritma pendeteksi fitur dan deskriptor fitur yang dapat bekerja lebih efisien (cepat dan menghemat memori) dibandingkan algoritma pendeteksi fitur dan deskriptor sejenis, seperti SIFT dan DAISY, dengan hasil yang tetap sebanding. Hasil pemrosesan SURF untuk gambar yang diambil dari penjual online, dengan sudut pandang kanonik berbeda dan resolusi rata-rata diambil dari studio foto.
Hasil pengolahan SURF untuk gambar yang diambil dengan kamera DSLR di lingkungan alami dengan cahaya alami memiliki resolusi tinggi dan noise rendah. Hasil pemrosesan SURF untuk gambar yang diambil dengan kamera web sederhana beresolusi rendah banyak mengandung noise dan artefak white balance.
Metode State-of The-Art
Algoritma WbFTL
Hasil Eksperimen dengan Classifier SVM
Hasil Eksperimen dengan Classifier Logistic Regression
Perbandingan Hyperparameter
Instance weighting for domain adaptation in NLP Existing work on domain adaptation • Existing work overview.
PENUTUP
Kesimpulan
Namun ketika dilakukan pengembangan eksperimental dengan mengganti classifier regresi logistik, nilai akurasi yang dihasilkan meningkat menjadi 51,7%. Dapat dikatakan bahwa akurasi klasifikasi yang baik dapat dicapai dengan menerapkan pendekatan pemilihan fitur dan pembobotan serta pemetaan fitur. Bahkan akurasi klasifikasi yang baik pada lintas domain juga dapat dilakukan dengan cara yang sederhana, tanpa perlu menggunakan banyak parameter dalam proses pembelajarannya.
Melihat hasil akurasi setiap pasangan lintas domain, terlihat bahwa hasil eksperimen menunjukkan bahwa ketika 𝐷𝑆 besar maka ada kecenderungan nilai akurasinya juga baik. Representasi fitur yang dibentuk dari jarak kecil antar aset fitur di interdomain dapat dilakukan dan memberikan hasil yang baik, namun hal ini hanya untuk mengatasi perbedaan marginal di interdomain. Perbedaan distribusi kondisional antar domain dapat dikurangi dengan menggunakan instance yang tidak menguntungkan pada 𝐷𝑇, dan dengan menggunakan mean dan distance kita dapat melihat dampaknya terhadap nilai akurasi akhir atau hasil akurasi pada transformasi fitur kedua (𝐹𝑇𝑟𝑎𝑛𝑠2).
Peningkatan kinerja metode telah terbukti dapat dilakukan dengan menerapkan strategi pemilihan fitur yang menggunakan mean sebagai ambang batas dan varians untuk menilai fitur yang informatif untuk label kelas.
Kelebihan Metode WbFTL
Kekurangan Metode WbFTL
Keterbatasan Metode WbFTL
Saran Pengembangan