ANALISIS DAN IMPLEMENTASI PERBANDINGAN METODE COSINE SIMILARITY DAN CORRELATION BASED SIMILARITY PADA RECOMENDER
SYSTEM BERBASIS ITEM-BASED COLLABARATIVE FILTERING
Danang Setyo Nugroho¹, Yanuar Firdaus A.w.², Warih Maharani³
¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
Abstrak
Recommender System adalah sebuah sistem yang menyediakan rekomendasi-rekomendasi mengenai hal-hal yang diinginkan dan sesuai dengan profil penggunanya. Pada tugas akhir ini menitik beratkan dimana sebuah recommender system mampu memberikan rekomendasi sesuai dengan profil penggunanya.
Sistem yang akan dikembang adalah recomender system berbasis item based collaboratif filtering. Dalam pengembangan nya akan digunakan metode Cosine based Similarity dan correlation based similarity. Dari kedua metode akan terlihat mana metode yang menghasilkan nilai akurasi yang lebih baik.
Pengujian terhadap algoritma yang dirancang dilakukan dengan menggunakan data nilai PMDK dari sebuah universitas.dari hasil pengujian kedua metode mampu menghasilakan rekomendasi dengan baik namun terlihat bahwa akurasi hasil rekomendasi metode cosine similarity
menjukkan hasil yang lebih baik. Hal ini terkait dengan hasil pengujian.
Kata Kunci : recommender system, collaborative filtering.similarity,MAE.
Abstract
Recommender System is a system that provides recommendations about things that are desirable and in accordance with the user profile. In this final test focuses where a recommender system is able to give recommendations in accordance with the user profile.
System to be developed is recommender system based on item-based collaborative filtering. In his development will be used a method based Cosine Similarity and correlation-based similarity. Of the two methods will be seen where the method produces better accuracy values.
Tests on the algorithm designed by using data values PMDK test results from a university. The test result of both methods can be good recommendations but it appears that the accuracy of recommendations cosine similarity method is better results. It is associated with the test results.
1
1. Pendahuluan
1.1
Latar belakang
Perkembangan teknologi dan system komunikasi pada sekarang ini berkembang sangat pesat baik itu teknologi berbasis web maupun teknolagi yang berbasis aplikasi desktop. Dengan adanya teknologi dan system komunikasi tesebut mampu mempermudah aktifitas dan membantu manusia menyelesaikan masalah setiap harinya. Salah satu masalah manusia coba diangkat menjadi topik dalam penyelesaian tugas akhir ini.
Recommender System adalah sebuah sistem yang menyediakan rekomendasi-rekomendasi mengenai hal-hal yang diinginkan dan sesuai dengan profil penggunanya. Pada tugas akhir ini menitik beratkan dimana sebuah recommender system mampu memberikan rekomendasi sesuai dengan profil penggunanya
Recommender system sendiri dibagi menjadi klasifikasi yaitu content based filtering, collaborative filtering dan hybrid filtering. Collaborative filtering merupakan metode yang paling berhasil dan paling banyak digunakan pada saat ini. Oleh sebab itu pada tugas akhir inii akan menggunakan collaborative filtering. [1] membagi CF dalam 2 kategori, yaitu metode Memorybased (user-based) dan metode Model-based (item-based). Keunggulan Model-based CF (item-based) dibandingkan dengan Memory-based CF (user-based) adalah proses komputasi rekomendasi yang cepat meskipun jumlah data bertambah. Oleh karena itu sangat cocok bila di aplikasi ke dunia nyata.
Collaborative filtering mencari kesamaan diantara item-item yang sebelumnya telah diberi peringkat oleh pengguna untuk menghasilkan sebuah rekomendasi. Metode kesamaan tersebut ialah Cosine based Similarity, Correlation based Similarity ,dan adjusted cosine similarity [1] Metode kesamaan yang paling umum digunakan dalam recommender system adalah adjusted cosine similarity, karena metode ini menghasilkan error rate yang kecil Sedangkan metode cosine similarity memiliki error rate yang relative kecil juga sedangkan pada metode correlation similarity belum ada keterangan yang pasti berapa jumlah error rate nya Dalam tugas akhir ini akan dibuat sebuah recommender system menggunakan metode Cosine based Similarity dan correlation based similarity sebagai pembanding berbasis item-based collaborative filtering,
1.2
Perumusan masalah
Masalah – masalah yang akan dikaji dalam Tugas Akhir ini adalah :
1. Bagaimana mengimplementasikan metode metode Cosine based Similarity dan Correlation based Similarity pada recommender system berbasis item-based collaborative filtering?
2. Bagaimana analisis metode Cosine based Similarity dan Correlation based Similarity pada recommender system berbasis item-based collaborative filtering?
Batasan masalah yang didefinikaan dalam Tugas Akhir ini adalah:
1. Sistem yang dibangun adalah sistem perekomendasi pemilihan jurusan perguruan tinggi negeri.
2. Rekomendasi diberikan hanya berdasarkan pada nilai mata pelajaran, sedangkan faktor minat, bakat, psikologi dan lain-lain diabaikan.
3. Nilai masukan dari user adalah nilai mata pelajaran SMA mulai kelas X semester I sampai dengan Kelas XII semester I.
4. Diasumsikan sistem mempunyai data nilai standar untuk membandingkan dengan data nilai user.
1.3
Tujuan
Tujuan pembuatan Tugas Akhir ini adalah :
1. Membangun aplikasi recommender system berbasis item-based collaborative filtering yang mengimplementasikan metode Cosine based Similarity dan correlation based similarrity
2. Melakukan analisis terhadap metode yang digunakan berdasarkan akurasi, pemberian rekomendasi, dengan membandingkan hasil rekomendasi menggunakan parameter MAE
1.4
Metodologi penyelesaian masalah
Metode yang akan digunakan untuk menyelesaikan tugas akhir ini adalah : 1. Studi Literatur.
Studi Literatur dengan mempelajari literatur-literatur yang relevan dengan permasalahan yang meliputi konsep sistem rekomendasi,metode yang digunakan dan parameter uji yang digunakan.
2. Mengambil data referensi
Mengambil data sample ke perguruan tinggi negeri sebagai data acuan (data standar) .
3. Analisis dan Perancangan Perangkat Lunak.
Menganalisis permasalahan yang akan ditangani, menganalisis metode yang akan digunakan untuk menyelesaikan permasalahan, merancang tahapan– tahapan yang akan dilakukan untuk menyelesaikan masalah berdasarkan analisis yang telah dilakukan sebelumnya.
4. Implementasi Sistem.
Melakukan coding dengan membangun perangkat lunak untuk implementasi recommender system.
5. Pengujian Sistem dan Analisis Hasil.
Pengujian metode akan dilakukan dengan menggunakan input berupa nilai raport user di bandingkan dengan data standart, kemudian dilakukan analisis hasil berdasar parameter yang telah ditentukan.
3
Laporan yang dihasilkan merupakan buku Tugas Akhir. Penyusunan laporan menggunakan kaidah penulisan laporan yang berlaku yang berisi mengenai semua dasar teori dan penelitian tugas akhir.
Powered by TCPDF (www.tcpdf.org)
4. Analisis hasil pengujian
Bagian ini berisi penjelasan mengenai implementasi sistem dan pengujian metode yang telah dirancang terhadap aplikasi recommender system. Hasil pengujian ini selanjutnya dapat digunakan untuk berbagai penyempurnaan dan perbaikan, dan juga sebagai bagian dari studi
4.1
Kebutuhan system
Memberikan rekomendasi kepada pengguna berdasarkan deskripsi item yang telah dievaluasi sebelumnya menggunakan metode cosine dan correlation based similarity berbasis item-based collaborative filtering.
4.1.1 Perangkat keras yang dibutuhkan
Aplikasi Recommender Sistem ini diimplementasikan dengan menggunakan perangkat keras sebuah komputer dengan spesifikasi sebagai berikut:
1. Prosesor Core 2 duo (1,83 GHz) 2. Memori DDR2 1 GB
3. Harddisk 160 GB 4. Mobile intel graphics
4.1.2 Perangkat lunak yang dibutuhkan
Sedangkan perangkat lunak yang digunakan di dalam pengembangan aplikasi Recommender Sistem ini adalah:
1. Sistem operasi Windows XP Professional.
2. Rational Rose 2002 Enterprise Edition dan Microsoft Visio 2003 sebagai alat bantu analisis dan perancangan.
3. Macromedia Dreamweaver versi 8 sebagai editor untuk membuat file PHP dan sebagai editor templete web browser
4. XAMPP versi 1.7 sebagai web server dan database server (MySQL) 5. Web browser Mozilla Firefox.
4.2
Implementasi system
Aplikasi recommender system diimplementasi berdasarkan perancangan yang telah dijelaskan pada bab sebelumnya. Aplikasi ini merupakan aplikasi yang berbasis web yang dikembangkan dengan menggunakan bahasa pemrograman PHP 5.
4.2.1 Collaboratif filtering
Collaborative Filtering (CF)adalah teknik bagaimana membuat prediksi otomatis atau rekomendasi tentang minat seorang user dengan pengumpulan informasi cita rasa dari banyak user. Yang mendasari asumsi Pendekatan CF adalah bahwa mereka yang menyetujui di masa lalu cenderung untuk setuju lagi di masa yang akan datang.
20
4.3
Pengujian dan analisis sistem
4.3.1 Data set
Untuk melakukan pengujian terhadap aplikasi yang telah dibuat, maka dibutuhkan data yang sesuai dengan aplikasi yang sedang dikembangkan dan valid, sehingga pengujian dapat memberikan gambaran yang benar
Dalam mengimplementasikan metode cosine similarity dan correlation based similarity pada recommender system berbasis item based collaborative filtering pada kasus ini, data yang dibutuhkan adalah data nilai PMDK dari Universitas yang valid yang dapat menjadi kriteria dalam merekomendasikan suatu alternatif pilihan dan digunakan sebagai alat ukur untuk mengukur tingkat pencapaian tujuan. Dataset yang disediakan oleh Universitas dapat digunakan untuk melakukan pengujian ini. Attribute item untuk tiap-tiap jurusan adalah nilai dari semester 1 kelas X sampai dengan nilai semester 1 kelas XII pada tiap mata pelajaran mata pelajaran berikut adalah daftar mata pelajaran yang digunakan sebagai attribute
Tabel : 4-1 Atribute-item/jurusan
4.3.2 Sekenario pengujian
Pengujian bertujuan untuk menganalisa performansi metode yang digunakan yaitu cosine similarity dan correlation based similarity pada recommender system berbasis item based collaborative filtering. Pengujian dilakukan dengan skenario sebagai berikut:
1. Menghitung nilai akurasi antara nilai siswa yang telah diterima di satu jurusan dengan hasil rekomendasi yang diberikan. Untuk menghitung tingkat akurasi dari hasil rekomendasi dapat dihitung berdasarkan besarnya MAE (mean absolute error) data yang digunakan ialah data 91 mahasiswa yang telah diterima pada masing-masing jurusan pada sebuah universitas dimana nilainya diambil secara acak untuk tiap2 jurusannya.hasil rekomendasi yang ditampilkan hanya 1 yaitu rekomendasi dengan similarity terbesar.
2. Pengukuran pengaruh perhitungan algorima cosine similarity dan corelation based similarity terhadap akurasi rekomendasi yaitu dengan cara menghitung rata-rata nilai MAE dari masing masing metode. Pada pengujian ini hanya digunakan 2 user aktif saja( 1 user aktif jurusan IPA dan 1 User aktif jurusan IPS). Nilai yang digunakan ialah sample nilai
siswa SMA baik dari jurusan IPA maupun IPS. Rekomendasi yang diberikan ada 9 jurusan. Dari hasil pengujian akan diperoleh besarnya nilai similarity dan error dari masing masing jurusan hasil rekomendasi. 3. Pengukuran tingkat akurasi metode yang digunakan dengan
membandingkan besarnya nilai MAE . untuk mengetahui nilai akurasi yang diberikan yaitu dengan menggunakan 8 user aktif ( 4 user aktif untuk jurusan IPA dan 4 user aktif untuk jurusan IPS) dimana pada pengujian ini diberikan 3 hasil rekomendasi untuk masing-masing user aktif . dari hasil pengujian akan diperoleh besarnya nilai similarity dan MAE untuk masing-masing user. Untuk melihat akurasi metode digunakan Normalized Mean Absolute Error
Berdasrkan skenario pengujian diatas akan diperoleh data pengujian dari data akan dianalisa sehingga diperoleh hasil analisa sesuai dengan tujuan pembuatan tugas akhir ini.
4.4
Analisis hasil pengujian
4.4.1 Performansi metode cosine dan correlation similarity
Hasil pengujian metode berdasarkan jurusan yang telah diterima dengan menggunakan 91 jurusan dimana nilainya diambil secara acak, dapat pada tabel 4-2 hanya ada 20 sample saja.
Tabel : 4-2 Hasil Pengujian
Jurusan
cosine similarity correlation similarity
Jurusan similarity MAE jurusan similarity MAE D3.agribisni minatagrofarmaka D3 T. Kimia Produksi 0.997118 0.711442 D3 T. Kimia Produksi 0.613118 3.3115
D3. Farmasi D3 Farmasi 0.999021 0.192323 D3 Farmasi 0.685219 2.3584 D3 T. mesin produksi D3 T. Mesin Produksi 1 0 D3 T. Mesin Produksi 1 0 D3 manajemen
informatika Pend. Fisika 0.998145 0.466467 Pend. Fisika 0.479176 4.2106
D3. T. kimia produksi D3 Hyperkes Dan Keselamatan Kerja 0.99826 0.429783 D3 Hyperkes & Kes-Kerja 0.524829 3.6225
Fisika Peternakan 0.99845 0.347689 Peternakan 0.704688 2.2988
Pend. Dokter
Pend. Biologi
(SBI) 0.998211 1.06986
Pend. Biologi
(SBI) 0.643511 3.6864
Pend. kimia (SBI) Pend.Kimia(SBI) 1 0 Pend. Kimia (SBI) 1 0
Pend. Fisika Pend.Biologi(SBI) 0.99843 0.373522 Pend.Biologi(SBI) 0.678286 2.5832
22
Tabel diatas menunjukkan nilai performansi dan akurasi metode cosine dan corellation based similirarity terhadap kualitas hasil recomendasi. dapat dilihat memang hasil jurusan yang direkomendasikan cenderung berbeda dari jurusan yang telah diterima hanya beberapa jurusan saja yang tepat sesuai dengan jurusan yang telah diterima. Hal ini dikarenakan pengaruh besarnya nilai similarity yang dihasilkan oleh masing-masing metode yang digunakan.
Nilai similarity memegang peranan penting dalam menentukan rekomendasi yang diberikan. Untuk dapat mengetahui besarnya nilai error dari hasil rekomendasi dengan jurusan yang telah diterima digunakan parameter MAE .sedangkan untuk dapat menghitung nilai MAE maka terlebih dahulu harus dihitung score prediksinya . disinilaah nilai similarity digunakan. Score prediksi merupakan hasil dot product antara similarity dengan nilai database. Hasil perhitungan inilah yang digunakan untuk menghitung nilai MAE.untuk contoh perhitungan MAE dapat dilihat pada lampiran.
Pada tabel 4-2 ketika nilai similarity bernilai 1 maka nilai errornya menjadi 0 dikarenakan nilai yang dibandingakan tepat sama dan score prediction-nya juga sama. Pada tabel juga terlihat ketika similarity mendekati 1 ada beberapa error yang bervariasi hal ini disebabkan nilai yang dibandingkan juga berbeda-beda sehingga score predition nya juga berberbeda-beda yang mengakibatkan nilai MAEnya bebeda-beda.
Jurusan
cosine similarity correlation similarity
Jurusan similarity MAE jurusan similarity MAE
AK. D3 AK. Perpajakan 0.998289 0.653257 D3 AK. Perpajakan 0.671803 3.005 D3 bisnis internasional D3 Bisnis Internasional 1 0 D3 Bisnis Internasional 1 0 D3 deskomfis D3 AK. Perpajakan 0.997566 0.443982 D3 AK. Perpajakan 0.58893 3.0766 D3 Man.
Administrasi Manajemen 0.998938 0.277093 Manajemen 0.803725 1.4861
Pend. Eko. Eko. Pembangunan 0.998821 0.805006 Eko. Pembangunan 0.699134 2.9248 ilmu administrasi
Negara Pend. Eko. 0.997113 0.67824 Pend. Eko. 0.715315 2.6446
D3 periklanan D3 Bahasa Inggris 0.998393 0.983056 D3 Bahasa Inggris 0.691898 2.956 pen bhs ingris
SBI
Eko.
Pembangunan 0.997968 1.50104 Pend. Geografi 0.628688 4.0961
Pend. luar biasa
Pend.
Sosiologi-Antropologi 0.997404 0.736988
Pend.
Sosiologi-Antropologi 0.647967 3.1694
Manajemen D3 AK. Keuangan 0.99775 0.416348 D3 AK. Keuangan 0.612119 2.6085
4.4.2 Analisis pengaruh perhitungan similarity terhadap akurasi hasil rekomendasi
pengujian dilakukan terhadap 1 user aktif baik untuk jurusan IPA maupun IPS dengan jumlah hasil rekomendas 9 jurusan teratas.
Tabel : 4-3 Nilai input IPS
Tabel : 4-4 Hasil pengujian IPS
rekomendasi cosine similarity MAE
rekomendasi
correlation similarity MAE Manajemen 0.998192 0.5874665 Manajemen 0.726719 2.4253691 Eko. Pembangunan 0.997812 0.4933981 Pend. Sejarah 0.636664 2.9566523
Pend. Sejarah 0.997588 0.5111836 Eko. Pembangunan 0.62631 3.0532339 D3 Penyiaran 0.99748 0.4079869 D3 AK. Perpajakan 0.605733 2.9645652 Pend.
Sosiologi-Antropologi 0.997438 0.5272563 D3 Penyiaran 0.605286 3.0929922 D3 AK. Perpajakan 0.997358 0.412096 Pend. Bhs Inggris (SBI) 0.574301 3.2499692 D3 AK. Keuangan 0.99735 0.4743975 D3 AK. Keuangan 0.56981 3.3860196
Sastra Inggris 0.997208 0.7084381
Pend.
Sosiologi-Antropologi 0.552529 3.5603774 Pend. Bhs Inggris (SBI) 0.99716 0.4323435 Pend. Eko. 0.552249 3.5494796
Tabel : 4-5 Nilai input IPA
IPA semester Matapelajaran I II III IV V Bahasa Indonesia 7.2 7.5 7.6 8 8.1 Matematika 6.5 6.4 6.7 7 6.8 Bahasa Inggris 6.8 6.9 7 7.5 7.3 Fisika 7 7.2 7 7.5 8 Kimia 7.5 8 8.2 8.1 7.6 Biologi 7 8.5 8.1 8.6 8.9
Tabel : 4-6 Hasil pengujian IPA
rekomendasi cosine similarity MAE rekomendasi similarity MAE IPS Semester Matapelajaran I II III IV V Bahasa Indonesia 7.2 7.5 7.6 8 8.1 Matematika 6.5 6.4 6.7 7 6.8 Bahasa Inggris 6.8 6.9 7 7.5 7.3 Geografi 7 7.2 7 7.5 8 Eko. 7.5 8 8.2 8.1 7.6 Sosiologi 7 8.5 8.1 8.6 8.9
24 correlation D3 T. Kimia Produksi 0.99791 0.5640063 D3 T. Kimia Produksi 0.754464 2.2020853 D3 Agribisnis Peternakan 0.997052 0.8749148 D3 Agribisnis Peternakan 0.523656 3.9905478 Biologi 0.996871 0.5912791 Fisika 0.475154 4.2253607 T. Arsitektur 0.996594 0.6255427 Pend. Biologi 0.44455 4.383338
Fisika 0.996586 0.72674 D3 Agribisnis Minat Agrofarmaka 0.41478 4.5425431 D4 Kebidanan (SMA) 0.996285 0.5364787 D4 Kebidanan (SMA) 0.405265 4.4249335 T. Mesin 0.996213 0.8369019 Biologi 0.399983 4.6607866 D3 T. Sipil Infrastruktur
Perkotaan 0.996166 0.707368 Pend. Dokter 0.398663 4.6740881 Kimia 0.996148 0.5939956 Kimia 0.351942 4.9681212
Tabel 4-4 dan 4-6 menunjukkan pengaruh nilai similarity terhadap besarnya nilai error (MAE) hasil rekomendasi. Ketika nilai similarity yang dihasilkan menurun dapat terlihat bahwa nilai MAE cenderung mengalami kenaikan atau semakin besar nilainya. Sehingga nilai similarity sangat berpengaruh dalam menentukan hasil rekomendasi yang diberikan.
Pada tabel 4-4 dan 4-6 nilai similarity digunakan untuk membangkitkan score prediksi untuk menghitung besarnya MAE. Ketika semakin besar similarity semakin besar score prediksinya. Pada correlation nilai similarity nya terlihat lebih kacil dari cosine hal ini karena perhitungannya menggunakan perbandingan nilai rata-rata inputan dengan nilai rata-rata nilai data base sehingga similaritinya menjadi kecil.nilai MAE juga bergantung pada besarnya nilai inputan dan nilai pada data base.
Pada tabel 4-4 dan 4-6 juga terlihat bahwa jurusan hasil rekomendasi antara metode cosine dan correlation ada yang sama dan berbeda ini pengaruh dari nilai similarity yang digunakan untuk membangkitkan score prediksi. Dapat dilihat pada correlation saat nilai similarity-nya turun nilai MAE nya cenderung mengalami kenaikan. Namun pada cosine ketika similarity nya turun nilai MAE nya sedikit naik namun tidak beraturan hal ini disebabkan ketika nilai mae dihitung score prediksinya dibangkitakan saat dilakukan perhitungan ada nilai negatif (-) karena absolute maka nilainya menjadi positif hal inilah yang mengakibatkan nilai errornya menjadi naik turun.
4.4.3 Analisis pengukuran tingkat akurasi metode yang digunakan dengan membandingkan besarnya nilai mae.
Tabel : 4-7 Pengujian MAE
IPA/ IPS
cosine similarity Correlation
jurusan MAE NMAE jurusan MAE
user 1 IPA D3 T. Sipil Infrastruktur Perkotaan 0.31705055 0.15852527 D3 T. Kimia Produksi 2.035825 1.0179125
D3 T. Kimia Produksi 0.346239147 0.17311957 D3 T. Sipil Infrastruktur Perkotaan 2.18076325 1.090381625 Biologi 0.341756163 0.17087808 Agroteknologi / Agroekoteknolog 2.89145884 1.44572942 average 0.33501528 0.16750764 2.36934903 1.184674515 user 2 IPA Pend. Biologi (SBI) 0.341694937 0.13667797 Pend. Biologi (SBI) 1.68353508 0.673414033 PGSD Guru Kelas 0.401538427 0.16061537 PGSD GuruKelas 2.21898740 0.887594963 D3 T. Sipil Infrastruktur Perkotaan 0.490218953 0.19608758 D3 T. Sipil Infrastruktur Perkotaan 3.04664541 1.218658167 average 0.41115077 0.16446030 2.3163893 0.926555721 user 3 IPA T. Mesin 0.489109993 0.27172777 D3 T. Sipil Infrastruktur Perkotaan 3.43967978 1.910933213 D3 T. Sipil Infrastruktur
Perkotaan 0.410512817 0.22806267 Pend. Dokter 3.49306215 1.940590085 Biologi 0.43866705 0.24370391 T. Mesin 4.08168466 2.267602593 average 0.44609662 0.24783145 3.67147553 2.03970863
user 4 IPA
Biologi 0.238454367 0.11922718 Pend. Dokter 1.60754483 0.803772417 Pend. Fisika 0.30820863 0.15410431
D3 Agribisnis
Peternakan 2.42723978 1.213619892 Pend. Dokter 0.288606907 0.14430345 Biologi 2.49350797 1.246753987 average 0.27842330 0.13921165 2.17609753 1.088048765
user 5 IPS
Pend. Sejarah 0.32845085 0.16422542 Pend. Sejarah 1.81605796 0.90802898 D3 Akuntansi
Perpajakan 0.48380536 0.24190268
D3 Akuntansi
Perpajakan 1.55817874 0.77908937 Sastra Inggris 0.424908573 0.21245428 D3 Bahasa China 3.05049145 1.525245725 average 0.4123882 0.20619413 2.14157605 1.070788025
user 6 IPS
Ilmu Hukum 0.465976747 0.18639069 Ilmu Hukum 4.02244872 1.608979491 Sosiologi 0.480500133 0.19220005 deskomvis 4.38411293 1.753645173 Sastra Inggris 0.603133913 0.24125356 D3 Bahasa China 4.20417221 1.681668887 average 0.51653693 0.20661477 4.20357795 1.681431184 user 7 IPS Seni Rupa Murni 0.587031983 0.32612888 Ekonomi Pembangunan 4.38502334 2.436124081 Sosiologi 0.350269087 0.19459393 D3 Bahasa China 4.38666070 2.437033724 Ekonomi
Pembangunan 0.354149253 0.19674958 Sastra Inggris 4.71480123 2.619334017 average 0.43048344 0.23915746 4.49549509 2.497497274 user 8 IPS Ilmu Hukum 0.306844853 0.15342242 D3 Keuangan Perbankan 2.25389762 1.126948812 D3 Keuangan
Perbankan 0.388469967 0.19423498 Ilmu Hukum 2.97061263 1.485306317 Sosiologi 0.385748053 0.19287402 Sastra Jawa 3.35135906 1.675679531 average 0.36035421 0.18017714 2.85862316 1.429311553
26
Tabel diatas menunjukan hasil perbadingan MAE untuk metode cosine dan correlation similarity. Terlihat memang nilai error yang dihasilkan oleh cosine lebih rendah dibandingkan metode correlation. Untuk menghitung tingkat besar kecilnya nilai error digunakan nilai error digunakan NMAE (normalized Mean absolute error) yaitu dimana nilai MAE dibagi dengan jarak interval nilai input maximum dikurangi nilai input minimum. Atau disebut dengan toleransi error Pada metode cosine similarity rata-rata nilai NMAE nya lebih rendah dibanding kan dengan rata-rata NMAE metode correlation similarity. Sehingga dapat di simpulkan bahwa metode cosine similarity lebih cocok digunakan pada aplikasi recomender sistem karena nilai error yang dihasilkan lebih kecil
4.5
Analisis hasil pengujian
Dari hasil pengujian yang dilakukan maka dapat dilihat bahwa metode cosine dan corellation similarity sama-sama dapat menghasilkan satu rekomendasi jurusan dengan baik. Namun apabila dilihat kembali nilai similarity yang dihasilakan metode cosine similarity menunjukan nilai yang lebih baik karena nilai similarity dikatakan baik apapila nilainya berada di interval antara 0.0 sampai 1.0 dan hasilnya metode cosine selalu mendekati 1 . sedangkan pada metode correlation similarity terdapat interval antara -1 sampai 1.0 diamana pada kasus ini nila -1 sampai 0.0 tidak dapat digunakan karena mempunyai hubungan terbalik. Dan nilai pada interval 0.0 sampai 1.0 pada metode correlation juga mendekati 1 namun nilainya jauh dibawah 1.
Dari hasil pengujian juga terlihat bahwa nilai similarity berpengaruh besar terhadap hasil rekomendasi yang diberikan . Pada metode cosine karena hasil similarity-nya besar maka tingkat akurasinya pun juga bagus hal ini ditunjukkan dengan nilai error (MAE) yang kecil nilai error kecil apabila semakin mendekati 0 (Nol). Sedangkan pada metode correlation nilai error-nya lebih besar karena nilai similarity-nya kecil.
Faktor yang menyebabkan nilai similarity nilainya kecil disebabkan pada metode correlation ada perhitungan rata-rata antara input dan rata-rata nilai standar yang ada pada data base. NMAE digunakan untuk menguji tingkat akurasi rekomendasi yang diberikan. NMAE menunjukkan toleransi error yang dihasilkan. Pada metode cosine similarity NMAE yang dihasilkan memang lebih baik karena selalu berada dibawah toleransi error pada hasil rekomendasinya sedangkan pada correlation ada beberapa hasil rekomendasi yang melebihi batas error yang diberikan.
Dari hasil pengujian skenario 1,2 dan 3 jika dilihat dari hasil jurusan yang direkomendasikan memang ke-2 metode sama-sama menghasilkan rekomendasi. Tapi jika dilihat dari segi kemiripan atau nilai similarity dapat terlhat jelas metode cosine memang lebih baik.selain itu ada kelemahan dari metode correlation yaitu ada worst case saat nilai inputan nilainya sama (misal semua diberi nilai 6 semua) maka similarity yang dihasilkan adalah 0 (Nol) sehingga semua jurusan menjadi rekomendasi.sehingga terlihat jelas metode cosine lebih baik dibandingkan dengan metode correlation similarity.
Dari analisa diatas dapat di simpulkan beberapa hal yang mempengaruhi hasil rekomendasi
1. Nilai similarity memegang peranan penting dalam penentuan hasil rekomendasi, suatu nilai dikatakan similar atau mirip dengan nilai lain
apabila nilai tersebut = 1 sehingga bila suatu nilai similarity semakin mendekati 1 maka semakin besar peluang kandidat tersebut dijadikan hasil rekomendasi. Pada metode cosine nilai similarity yang dihasilkan selalu lebih baik karena nilainya selalu mendekati 1 dibanding metode correlation
2. Score prediction prediksi digunakan Untuk menghitung nilai MAE maka sebelumnya harus dihitung nilai prediksinya. Nilai prediksi disini berguna untuk dapat mengukur berapa jarak antara nilai hasil rekomendasi dengan nilai inputan dari user, semakin besar Nilai prediksinya maka kemungkinan besar MAE yang dihasilkan juga semakin kecil.
3. Mean absolute Error (MAE) nilai MAE ini menunjukkan tingkat kesalahan (error) hasil rekomendasi . semakin kecil nilai error maka semakin bagus hasil rekomendasi. Pada metode cosine nilai error yang dihasilkan cenderung semakin besar ketika nilai similaritynya semakin kecil begitu juga pada correlation. Jika dilihat nilai error yang dihasilkan metode correlation lebih besar bila dibandingkan dengan metode cosine begitu juga saat dihitung presentase nya menggunakan NMAE (normalized mean absolute error) terlihat jelas bahwa nilai NMAE pada metode cosine lebih kecil nilai error nya.
4. Ketika nilai acuan pada data base dirubah maka hasil rekomendasi yang dihasilkan pun ikut berubah meskipun nilai inputannya sama. Hal ini jelas disebabkan karena ketika nilai acuan dinaikkan maka standar untuk dapat masuk disebuah jurusan akan semakin tinggi. Jika dilihat dari segi akurasi (MAE) pemberian rekomendasi tidak dapat disbandingkan karena nilai acuanyya sudah berbeda sehingga nilai MAE-nya pun juga berbeda. Namun hasil nya tetap sama ketika nilai similarritynya semakin turun maka nilai MAE nya pun semakin naik, baik untuk metode cosine maupun metode correlation.
Dari hasil analisa dapat dilihat bahwa untuk pembuatan aplikasi recomender berbasis item-base colaborative filtering lebih baik menggunakan metode cosine similarity
29
6. Referensi
[1] Sarwar, Badrul, George Karypis, Joseph Konstan, and John Riedl. (2001). Itembased Collaborative Filtering Recommendation Algorithms.
[2] Montainer, M., et al. (2003). A Taxonomy of Recommender Agents on the Internet. Artificial Intelligence Review 19: 285-330. Kluwer Academic Publisher. Netherlands.
[3] Peter, Hans (1998). Multi Attribute Decision Making in Individual and Social Choice. Departement of Quantitative Economics, University of Maastricht, Netherland.
[4] Wikipedia,RecommenderSystem,
http://en.wikipedia.com/wiki/recommender_system. Didownload pada tanggal 15 Januari 2009.
[5] Saptono, R. (2006). Recommender System untuk pencarian buku dengan user item based Collaborative Filtering. Thesis. ITB, Bandung.
[6] Hanafi, Mohd (2005). Pemodelan Rekomendasi Halaman Web Berasaskan Teknik Perlombongan Data. Thesis. Universiti Teknologi Malaysia.
[7] Goldberg, Ken. (2001). Eigentaste: A Constant Time Collaborative Filtering Algorithm. Kluwer Academic Publishers. Volume 4, pp. 133-151
[8] Konstan, J., Millar, B., Maltz, D., Herlocker, J., Gordon, L., and Riedl, J. (1997).Grouplens: Applying Collaborative Filtering to Usenet
News. Comunication of the ACM, 40(3), pp. 77-87
[9] Hyeong-Joon Kwon, Tae-Hoon Lee, and Kwang-Seok Hong
(2009)Improved Memory-based Collaborative Filtering Using Entropy-based Similarity Measures.Sungkyunkwan University, Suwon 440-746,pp. 029-034 South Korea
Powered by TCPDF (www.tcpdf.org)