SISTEM REKOMENDASI MOVIE MENGGUNAKAN PENDEKATAN CONTENT BASED FILTERING DAN DICE COEFFICIENT SEBAGAI
UKURAN KEMIRIPAN SKRIPSI
Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer
Program Studi Informatika
Oleh:
Reneldis Putri Tanggu 175314048
PROGRAM STUDI INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA YOGYAKARTA
2022
SISTEM REKOMENDASI MOVIE MENGGUNAKAN PENDEKATAN CONTENT BASED FILTERING DAN DICE COEFFICIENT SEBAGAI
UKURAN KEMIRIPAN SKRIPSI
Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer
Program Studi Informatika
Oleh:
Reneldis Putri Tanggu 175314048
PROGRAM STUDI INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA YOGYAKARTA
2022
i
MOVIE RECOMMENDATION SYSTEM USING CONTENT BASED FILTERING AND DICE COEFFICIENT APPROACH AS SIGNIFICANTS
THESIS
Submitted to Meet One of the Conditions Obtaining a Bachelor's Degree in Computer
Informatics Study Program
By:
Reneldis Putri Tanggu 175314048
INFORMATION STUDY PROGRAM FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY YOGYAKARTA
2022
ii
iii
iv
HALAMAN PERSEMBAHAN
“Jika jiwa dan ragamu lelah, istirahatlah, kemudian bangun dan lanjutkan apa yang telah kamu mulai”
Karya ini saya persembahkan kepada : Tuhan Yesus dan Bunda Maria
Kedua Orang Tua Keluarga dan secara khusus
Kampus tercinta Universitas Sanata Dharma
v
PERNYATAAN KEASLIAN KARYA
Saya menyatakan dengan sesungguhnya bahwa skripsi yang saya tulis ini tidak memuat karya atau bagian karya dari orang lain, kecuali yang telah disebutkan dalam kutipan daftar pustaka sebagaimana layaknya karya ilmiah.
Yogyakarta, 16 Desember 2021 Penulis
Reneldis Putri Tanggu
vi
LEMBAR PERNYATAAN PERSETUJUAN
PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS
Yang bertanda tangan di bawah ini, saya mahasiswa Universitas Sanata Dharma : Nama : Reneldis Putri Tanggu
Nomor Mahasiswa : 175314048
Demi pengembangan ilmu pengetahuan, saya memberikan kepada Perpustakaan Universitas Sanata Dharma karya ilmiah saya yang berjudul :
SISTEM REKOMENDASI MOVIE MENGGUNAKAN PENDEKATAN CONTENT BASED FILTERING DAN DICE COEFFICIENT SEBAGAI UKURAN
KEMIRIPAN
beserta perangkat yang diperlukan (bila ada). Dengan demikian saya memberikan kepada Perpustakaan Universitas Sanata Dharma hak untuk menyimpan, me- ngalihkan dalam bentuk media lain, mengelolanya dalam bentuk pangkalan data, mendistribusikan secara terbatas, dan mempublikasikannya di Internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari saya maupun memberikan royalti kepada saya selama tetap mencantumkan nama saya sebagai penulis.
Atas kemajuan teknologi informasi, saya tidak berkeberatan jika nama, tanda tangan, gambar atau image yang ada di dalam karya ilmiah saya terindeks oleh mesin pencari (search engine), misalnya google.
Demikian pernyataan ini yang saya buat dengan sebenarnya.
Dibuat di Yogyakarta Pada tanggal : 6 April 2022
Yang menyatakan
( Reneldis Putri Tanggu)
vii
ABSTRAK
Film salah satu hiburan yang banyak diminati banyak orang karena tampilannya berupa gambar bergerak yang tidak membuat pengguna bosan. Namun film yang ditayangkan terlalu banyak menjadikan pengguna bingung untuk memilih film yang akan ditonton. Sistem rekomendasi bertujuan mengatasi masalah ini, sehingga pengguna dengan mudah mendapatkan rekomendasi film yang sesuai dengan yang diinginkan.
Sistem rekomendasi adalah sistem yang mampu memberikan rekomendasi yang mungkin disukai oleh pengguna. Metode Content Based Filtering merupakan salah satu metode pada sistem rekomendasi. Metode Content Based Filtering merekomendasikan film untuk user berdasarkan konten dimana pada penelitian ini penulis menggunakan title dan genre.
Pengujian dengan menghitung kemiripan konten genre film menggunakan Dice Coefficient untuk mengukur kemiripan film yang sudah ditonton oleh pengguna dengan film yang akan direkomendasikan.
Sistem rekomendasi movie menggunakan pendekatan Content Based Filtering dan Dice Coefficient sebagai ukuran kemiripan dalam pencarian judul film mendaptakan akurasi yang cukup baik dengan nilai precision 72% dan nilai recall 50%. Serta kurva interpolasi yang lebih mendekati dengan sudut kanan atas, dimana dalam hal ini menunjukkan tingkat relevansi yang lebih baik.
Kata kunci : Sistem Rekomendasi, Content Based Filtering, Dice Coefficient, Precision, Recall.
viii
ABSTRACT
Movies are one of the entertainments that many people are interested in because it looks like a moving image that doesn't make users bored. However, too many films are shown, making users confused about which films to watch. The recommendation system aims to solve this problem, so that users can easily get movie recommendations that match what they want.
A recommendation system is a system capable of providing recommendations that users may like. The Content Based Filtering method is one of the methods in the recommendation system. The Content Based Filtering method recommends films for users based on content where in this study the author uses titles and genres.
Tests with an assessment of film content that have genre using the Dice Coefficient to measure the films that will be watched by users with films that will be recommended.
The film recommendation system using the Content Based Filtering and Dice Coefficient approach as a measure of assessment in the search for film titles has a fairly good accuracy with a precision value of 72% and recall of 50%. As well as the interpolation curve that is closer to the top corner, where in this case the right shows a better level of relevance.
Keywords: Recommendation System, Content Based Filtering, Dice Coefficient,Precision, Recall.
ix
KATA PENGANTAR
Puji dan syukur penulis panjatkan kepada Tuhan Yang Maha Esa, karena rahmat dan karunia-Nya, penulis dapat menyelesaikan skripsi yang berjudul
“Sistem Rekomendasi Movie Menggunakan Pendekatan Content Based Filtering dan Dice Coefficient Sebagai Ukuran Kemiripan” dengan baik.
Pada kesempatan ini penulis juga ingin mengucapkan rasa terima kasih kepada :
1. Bapak Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D. selaku dekan Fakultas Sains dan Teknologi Universitas Sanata Dharma.
2. Bapak Robertus Adi Nugroho, S.T., M.Eng selaku dosen pembimbing tugas akhir yang senantiasa memberikan masukan dan denga sabar membimbing penulis, sehingga tugas akhir ini dapat diselesaikan dengan baik.
3. Segenap dosen prodi Informatika yang telah membagikan ilmu dan pengalaman kepada penulis selama perkuliahan di Universitas Sanata Dharma.
4. Kepada kedua orang tua, Bapa Yohanes Lede Tanggu dan Mama Christina Ndada Gole yang selalu memberikan semangat, motivasi, dukungan serta doa yang melimpah kepada penulis selama proses pengerjaan skripsi ini.
5. Sahabat-sahabat penulis yang telah memberikan semangat serta penghiburan kepada penulis selama proses pengerjaan skripsi ini.
6. Seluruh teman angkatan 2017 yang telah berjuang dan membagi pengalaman bersama penulis selama proses perkuliahan di Universitas Sanata Dharma.
Yogyakarta, 16 Desember 2021 Penulis
Reneldis Putri Tanggu x
DAFTAR ISI
HALAMAN JUDUL ... i
HALAMAN PERSETUJUAN PEMBIMBING ... iii
HALAMAN PERSEMBAHAN... iv
ABSTRAK ... vi
ABSTRACT ... vii
KATA PENGANTAR ... viii
DAFTAR GAMBAR ... xi
DAFTAR TABEL ... xii
PENDAHULUAN ... 1
1.1 Latar Belakang ... 1
Rumusan Masalah ... 3
Tujuan penelitian ... 3
Manfaat Penelitian ... 3
Batasan Masalah... 4
Sistematika Penulisan... 4
LANDASAN TEORI ... 2
2.1 Movie ... 2
2.2 Sistem Rekomendasi ... 2
2.3 Content Based Filtering... 6
2.4 Sorensen Dice Coefficient ... 7
2.5 Precision, Recall ... 9
2.6 Teori Interpolasi ... 10
2.7 Perhitungan Precision dan Recall ... 11
2.8 Penelitian Paling Relevan... 12
METODE PENELITIAN ... 6
3.1 Cara mendapatkan data ... 6
3.1.1 Jenis Data ... 6
3.2 Perancangan Sistem Secara Umum ... 15
3.3 Analisis Sistem ... 16
3.4 Contoh Implementasi Algoritma untuk Dice Coefficient ... 16
3.5 Kebutuhan Perangkat Hardware dan Software ... 17 xi
HASIL DAN ANALISA ... 18
4.1 Pengolahan Data... 18
Membaca Data ... 18
Preprocessing ... 18
4.2 Hasil perhitungan Dice Coefficient ... 21
4.3 Pengujian Sistem ... 22
4.4 Pembahasan ... 35
4.4.1 Rata-rata Interpolasi 21 titik Recall-Precision ... 35
PENUTUP ... 37
5.1 Kesimpulan ... 37
5.2 Saran ... 37
DAFTAR PUSTAKA ... 38
xii
DAFTAR GAMBAR
Gambar 2.1 Konsep Content Based Filtering ... 7
Gambar 2.2 Grafik interpolasi yang relevan… ... 10
Gambar 3.1 Perancangan Sistem… ...15
Gambar 4.1 Hasil Cleaning Data... 20
Gambar 4.2 Hasil One-Hot-Encoding... 21
Gambar 4.3 Hasil drop kolom genre dan title ... 21
Gambar 4.4 Hasil perhitungan Dice Coefficient… ... 22
Gambar 4.5 Grafik interpolasi 21 titik Recall Precision pengguna 1. ... 25
Gambar 4.6 Grafik interpolasi 21 titik Recall Precision pengguna 2. ... 27
Gambar 4.7 Grafik interpolasi 21 titik Recall Precision pengguna 3. ... 29
Gambar 4.8 Grafik interpolasi 21 titik Recall Precision pengguna 4. ... 31
Gambar 4.9 Grafik interpolasi 21 titik Recall Precision pengguna 5. ... 33
Gambar 4.10 Grafik rata-rata interpolasi 21 titik Recall precision dengan 5 pengguna ... 34
xiii
DAFTAR TABEL
Tabel 2.1 Confusion Matrix ... 9
Tabel 3.1 Data movie_metadata.csv ... 14
Tabel 3.2 Contoh data film…... 14
Tabel 3.3 Hasil perhitungan Similaritas Dice Coefficient… ... 17
Tabel 3.4 Hasil perangkingan berdasarkan hasil similaritas Dice Coefficient… 17 Tabel 4.1 Hasil pencarian pada sistem rekomendasi pengguna 1… ... 24
Tabel 4.2 Interpolasi 21 titik Recall precision pengguna1. ... 24
Tabel 4.3 Hasil pencarian pada sistem rekomendasi pengguna 2 ... 26
Tabel 4.2 Interpolasi 21 titik Recall precision pengguna 2. ... 26
Tabel 4.2 Hasil pencarian pada sistem rekomendasi pengguna 3 ... 28
Tabel 4.2 Interpolasi 21 titik Recall precision pengguna 3. ... 28
Tabel 4.2 Hasil pencarian pada sistem rekomendasi pengguna 4 ... 30
Tabel 4.2 Interpolasi 21 titik Recall precision pengguna 4. ... 30
Tabel 4.2 Hasil pencarian pada sistem rekomendasi pengguna 5 ... 32
Tabel 4.2 Interpolasi 21 titik Recall precision pengguna 5. ... 32
Tabel 4.2 Rata-rata interpolasi 21 titik Recall precision dengan 5 pengguna ... 33
xiv
1.1 Latar Belakang
PENDAHULUAN
Semakin berkembang teknologi akan semakin banyak informasi yang tersedia. Dahulu informasi hanya terdapat di media cetak, seiring dengan berkembangnya teknologi informasi maka mulai berpindah ke media elektronik.
Saat ini dengan adanya teknologi internet, hampir semua informasi yang dibutuhkan sudah tersedia di internet dengan berbagai versi yang kadang membingungkan karena informasi yang tersedia terlalu banyak. Hal ini juga terjadi pada informasi yang berkaitan dengan movie. Movie merupakan seni modern dan populer yang dibuat untuk kepentingan bisnis dan hiburan.
Menurut British Film Institute (BFI) film box office yang diproduksi terus meningkat setiap tahunnya. Sampai Oktober 2020, tercatat telah ada 7,419,772 judul yang telah dirilis dengan 3,521,263 genre dan akan terus bertambah.
Banyaknya judul yang dirilis membuat seseorang menjadi kesulitan untuk menemukan movie yang ingin mereka tonton. Untuk mengatasi masalah tersebut, dibutuhkan sebuah sistem yang dapat memberikan informasi yang sesuai dengan keinginan pengguna. Sistem tersebut sering disebut dengan sistem rekomendasi.
Sistem rekomendasi adalah suatu cara yang dapat memberikan informasi atau rekomendasi yang sesuai dengan kesukaan pengguna berdasarkan informasi yang didapat dari pengguna tersebut. Dalam pembuatan sistem rekomendasi, ada dua metode rekomendasi yang bisa dipakai yaitu collaborative filtering dan content based filtering (Ricci, 2015).
Beberapa penelitian terkait sistem rekomendasi pada penelitian ini antara lain Verma et al (2020) membandingkan dan membedakan kesamaan struktural pengukuran yang mirip dengan indeks Jaccard dan berguna untuk mendefinisikan pengertian kesamaan antara pengguna/item dalam Collaborative Filtering. Secara khusus, tindakannya seperti koefisien pencocokan sederhana (SMC), Sorensen – Dice koefisien (SDC), Salton’s cosine index (SCI), dan overlap coefficient (OLC)
1
2
dibandingkan secara teoritis dan empiris sehubungan dengan indeks Jaccard. Sejak menemukan pengguna atau item adalah komponen inti dari lingkungan berbasis rekomendasi kolaboratif, langkah-langkah ini dapat digunakan untuk memodelkan afinitas antara pengguna atau item. Hasil yang diperoleh secara empiris menunjukkan bahwa Salton’s cosine index (SCI) menghasilkan akurasi yang lebih baik untuk kumpulan data besar sedangkan overlap coefficient (OLC) menghasilkan rekomendasi yang lebih akurat untuk kumpulan data kecil. Arishintha (2013) melakukan penelitian tentang sistem rekomendasi pemasaran barang dagang sales menggunakan content based filtering. Hasil dari penelitian ini diperoleh akurasi yang cukup baik dengan menggunakan perhitungan Precision yaitu 61%. Dewi (2013) melakukan penelitian tentang sistem rekomendasi penjualan obat menggunakan content based filtering. Hasil dari penelitian ini diperoleh average precision sebesar 77,93%. Nastiti (2013) melakukan penelitian tentang sistem rekomendasi hasil pertanian tanaman pangan menggunakan pendekatan content based filtering. Hasil dari penelitian ini diperoleh rata-rata nilai presisi 78,40%.
Metode yang digunakan dalam penelitian ini adalah content based filtering.
Metode CBF merekomendasikan item yang mirip dengan item yang disukai user sebelumnya. Nilai kesamaan antar item dihitung berdasarkan fitur yang ada pada setiap konten( Ricci, 2015) CBF menggunakan informasi profil atau rating hanya untuk pengguna aktif, dan dengan demikian mereka dapat menghasilkan rekomendasi yang akurat bahkan jika jumlah rating dari pengguna lain tidak cukup besar. Meski demikian, CBF memiliki beberapa kekurangan. CBF tidak dapat menghasilkan saran yang sesuai jika konten yang dianalisis untuk suatu item tidak berisi informasi yang sesuai untuk kategorisasi. Pada metode Content Based Filtering akan menggunakan algoritma Sorensen Dice Coefficient untuk menghitung kemiripin antara dua sampel data genre dari data set dari Kaggle.com.
Lalu diakhir penelitian ini akan merekomendasikan movie berdasarkan hasil perhitungan kemiripan genre yang disukai.
3
Rumusan Masalah
Berdasarkan pada latar belakang yang telah dijelaskan dapat disusun rumusan masalah yaitu :
1. Bagaimana menerapkan metode pendekatan Content Based Filtering pada sistem rekomendasi movie dengan menggunakan algoritma Sorensen Dice Coefficient.
2. Bagaimana hasil akurasi sistem rekomendasi movie dengan menggunakan Recall dan Precision?
Tujuan penelitian
Tujuan dari penelitian ini adalah sebagai berikut :
1. Merekomendasikan movie dengan menggunakan pendekatan content based filtering.
2. Mengetahui berapa optimal hasil rekomendasi dengan menggunakan content based filtering dan dice coefficient sebagai ukuran kemiripan.
Manfaat Penelitian
Beberapa manfaat yang diharapkan dalam penelitian ini adalah sebagai berikut:
1. Bagi peneliti bidang sistem rekomendasi :
Hasil yang diperoleh dari penelitian dapat digunakan menjadi bahan untuk rekomendasi kepada user yang diharapkan mampu meningkatkan kualitas rekomendasi.
2. Bagi Penulis
Penulis dapat mengimplementasikan ilmu yang diperoleh dari perkuliahan di Universitas Sanata Dharma dan dapat dijadikan sebagai pengalaman baru. Dalam hal ini adalah ilmu tentang mata kuliah sistem rekomendasi.
4
Batasan Masalah
Batasan-batasan masalah dari penelitian ini adalah :
1. Data di ambil dari Kaggle.com yang berisikan 26 juta rating dari 270.000 pengguna untuk 45.000 movie.
2. Menggunakan bahasa pemrograman Phyton Sistematika Penulisan
BAB 1: PENDAHULUAN
Bab ini berisi tentang latar belakang masalah, rumusan masalah, tujuan,manfaat, batasan masalah serta sistematika penulisan dari penelitian yang akan dilakukan.
BAB 2: LANDASAN TEORI
Bab ini berisi teori-teori dasar yang berkaitan dengan penelitian yang akan dilakukan, yang meliputi dari objek yang digunakan, metode preprocessing yang digunakan.
BAB 3: METODOLOGI PENELITIAN
Bab ini berisi tentang langkah-langkah yang dilakukan dalam penelitian yang bertujuan untuk menjawab dan menyelesaikan rumusan masalah yang dimiliki.
BAB 4: HASIL PENELITIAN DAN ANALISIS
Bab ini berisi tentang penjelasan mengenai sistem yang akan dibangun,penerapan algoritma serta rancangan yang telah dibuat, cara penggunaan sistem, serta hasil analisa dri pengujian-pengujian yang dilakukan.
BAB 5: PENUTUP
Bab ini kesimpulan dari hasil penelitian serta saran yang diusulkan untuk dapat mengembangkan penelitian ini.
LANDASAN TEORI 2.1 Movie
Movie adalah sekedar gambar yang bergerak. Adapun pergerakannya disebut sebagai intermittent movement, gerakan yang muncul hanya karena keterbatasan kemampuan mata dan otak manusia menangkap sejumlah pergantian gambar dalam seperkian detik. Movie menjadi media yang sangat berpengaruh, melebihi media- media yang lain, karena secara visual dan audio movie bekerjasama dengan baik dalam membuat penontonnya tidak bosan dan lebih mudah mengingat, karena formatnya yang menarik. Genre dalam film dapat menunjukkan kepada penonton poin utama referensi untuk sebuah film dan dapat berfungsi sebagai quasi-search karakteristik yang menyebabkan penonton dapat mengetahui gambaran besar tentang film tersebut tanpa harus menonton film tersebut. Dengan adanya genre, industri perfilman dapat memberitahu kepada penonton terdapat kesenangan yang mirip seperti film sebelumnya dan genre merupakan sebuah faktor yang penting untuk penonton dalam membuat keputusan tentang film yang ingin ditonton.
2.2 Sistem Rekomendasi
Tujuan dari sistem rekomendasi adalah untuk menghasilkan rekomendasi yang berarti bagi pengguna untuk item yang mungkin menarik bagi mereka. Sistem rekomendasi membantu individu dengan menyediakan personalisasi rekomendasi dengan memanfaatkan berbagai sumber informasi yang terkait dengan pengguna, item, dan interaksi(Ricci et al. 2011). Sistem rekomendasi telah banyak digunakan oleh sumber informasi untuk mempersonalisasikan konten mereka bagi pengguna.
Dalam konteks Semantic Web, pendekatan rekomendasi yang banyak digunakan adalah content based, collabotive filtering dan knowledge based.
Pendekatan content based menganalisis konten; pendekatan collaborative filtering didasarkan pada pendapat kelompok pengguna yang memiliki preferensi yang sama; pendekatan knowledge based memanfaatkan pengetahuan dalam bentuk terstruktur untuk menghasilkan rekomendasi yang dipersonalisasi.
5
6
2.3 Content Based Filtering
Sistem Informasi memanfaatkan berbagai sumber informasi untuk menyediakan pengguna suatu prediksi dan rekomendasi. Sistem rekomendasi memanfaatkan konsep information filtering. Pada information filtering pengguna sudah mempunyai profil yang merepresentasikan kepentingan jangka panjang dan sistem mencoba memberikan kepada setiap pengguna item yang relevan.
Berdasarkan pada ukuran kesamaan antara masing-masing profil, sistem memilih dan membuat peringkat pada item yang relevan, kemudian direkomendasikan kepada pengguna. Terdapat dua pendekatan pada information filtering. yaitu collaborative filtering dan content based filtering.
Pendekatan yang digunakan untuk membangun sistem rekomendasi adalah content based filtering. Pemfilteran berbasis konten menganalisis perilaku pengguna di masa lalu dan merekomendasikan item yang mirip dengannya berdasarkan parameter yang dipertimbangkan. Dasar prinsip sistem rekomendasi berbasis konten adalah merekomendasikan barang-barang yang mirip dengan yang di sukai oleh pengguna di masa lalu (Lang dkk.,1997). Untuk contoh, jika pengguna mendengarkan musik pop, maka sistem mungkin merekomendasikan lagu yang bergenre pop. Jika pengguna telah memberi peringkat tinggi untuk film tertentu, direkomendasikan film lain yang berisi genre serupa oleh sistem ( Ricci et al, 2011).
Gambar 2.1 Berikut akan menjelaskan algoritma content based filtering dalam memberikan rekomendasi.
7
Gambar 2.1 Konsep Content Based Filtering ( Kim Falk, 2019)
Dari Gambar 2.1 di atas dapat dilihat bahwa, di ambil sebuah film Ex Machina di mana dengan genre pada film tersebut terdapat beberapa kategori yaitu action, robots, dan Sci-fi kemudian dari kategori tersebut dilihat beberapa film yang mirip dengan Ex Machina yaitu Star Wars, Terminator dan Die Hard. Dari ketiga film tersebut dilihat bahwa film Terminator paling mirip dengan Ex Machina kemudian diikuti oleh Star Wars lalu Die Hard.
Perbedaan mendasar antara content based filtering dengan item based collaborative yaitu pada cara pemberian rekomendasi kepada user. Content based filtering memberi rekomendasi kepada user berdasarkan histori ketertarikan user terhadap item tertentu dengan melihat beberapa penentu, seperti genre pada film.
Sedangkan item based filtering memberikan rekomendasi berdasarkan kedekatan(similarity) tentang item yang telah diberikan user.
2.4 Sorensen Dice Coefficient
Pendekatan metode Sorensen Dice Coefficient adalah metode yang dikembangkan secara independen oleh Sorensen (1948) dan Dice (1945) adalah statistik yang digunakan untuk menganalisis kesamaan antara dua sampel data.
Untuk dua himpunan hingga, A & B, itu didefinisikan sebagai berikut :
���(�, �) =
2|�∩�|
|�|+|�|
(1)
8
dimana |�| & |�| mewakili kardinalitas dari kedua set. Ukuran ini dikenal sebagai indeks Sorensen Dice koefisien, nilainya terletak antara 0 dan 1, yaitu 0 ≤ SDC (A,B) ≤ 1. Semakin tinggi nilai SDC (A, B) menampilkan lebih banyak kesamaan antara set sampel.
Persamaan (1) dapat ditulis ulang sebagai berikut ( dengan menambahkan dan mengurangkan suku 2A ∩ B dalam penyebut dan setelah penyusunan kembali).
���(�, �) = 2|� ∩ �|
{|�|−|� ∩�|}+{|�|−|� ∩ �|}+2|� ∩
�|
(2)
Selanjutnya, persamaan (2) dapat ditulis ulang, bila diterapkan ke objek data biner dan menggunakan bahasa kontingensi, sebagai berikut :
���(�, �) = 2�11
�10+�01+�11
……….. (2.1)
keterangan :
�01 = jumlah atribut A adalah 0 dan atribut B adalah 1
�10= jumlah atribut A adalah 1 dan atribut B adalah 0
�11 = jumlah atribut A adalah 1 dan atribut B adalah 1
Dari persamaan (3) jelas bahwa SDC mirip dengan Jaccard indeks, dan indeks Jaccard mempertimbangkan nilai �11 hanya sekali dalam pembilang dan penyebutnya, sedangkan SDC menganggap istilah �11 dua kali di kedua pembilang dan penyebutnya. Untuk nilai tertentu dari koefisien Sorensen- Dice(SDC), seseorang dapat menghitung nilai yang sesuai indeks Jaccard dan sebaliknya, menggunakan persamaan (4).
� = ���
2−���
�� ��� =
2�
1+�
(4)
9
2.5 Precision, Recall
Menurut Kurniawan (2010) Recall adalah perbandingan jumlah dokumen relevan yang terambil sesuai dengan query yang diberikan dengan total kumpulan dokumen yang relevan dengan query. Precision adalah perbandingan jumlah dokumen yang relevan terhadap query dengan jumlah dokumen yang terambil dari hasil pencarian.
Precision dan Recall digunakan untuk mengukur kinerja sistem. Precision adalah kecocokan antara bagian data yang diambil dengan informasi yang dibutuhkan. Recall merupakan tingkat keberhasilan sistem dalam menemukan kembali sebuah informasi. Precision dan Recall dapat dihitung menggunakan confusion matrix dapat dilihat pada Tabel 2.1.
Tabel 2.1 Confusion Matrix
True False
True (Positive) TP FP
False (Negative) FN TN
Precision = ��
��+�� (5)
Recall = ��
��+�� (6)
Keterangan :
TP = Banyak data dengan nilai sebenarnya positif dan nilai prediksi positif FP = Banyak data dengan nilai sebenarnya negatif dan nilai prediksi positif TP = Banyak data dengan nilai sebenarnya positif dan nilai prediksi negatif TP = Banyak data dengan nilai sebenarnya negatif dan nilai prediksi negatif
10
Kedua ukuran diatas biasanya diberi nilai dalam bentuk persentase, 1 sampai 100%.
Sebuah sistem informasi akan dianggap baik jika tingkat recall maupun precision- nya tinggi. Jika seseorang mencari dokumen tentang “Perpustakaan” dan sistem tersebut memiliki 100 buku tentang perpustakaan maka kinerja yang paling baik adalah jika sistem tersebut berhasil menemukan 100 dokumen tentang perpustakaan.
Kalau sistem tersebut memberikan 100 temuan, dan ditemukan tersebut ada 50 dokumen tentang perpustakaan, maka nilai recall-nya adalah 0,5 (atau 50%) dan nilai precision-nya juga 0,5. Kalau sistem tersebut memberikan 1 dokumen saja dan dokumen tersebut adalah “perpustakaan” maka recall-nya bernilai 0,01 dan precision-nya 1. Nilai precision-nya yang tinggi sebenarnya terjadi karena sistem memberikan 1 jawaban kepada pencari informasi. Kalau sistem memberikan 100 dokumen dan hanya 1 yang relevan maka nilai recall-nya tetap 0,01 tetapi precision-nya merosot ke 0,01 (Pendit,2008).
2.6 Teori Interpolasi
Interpolasi adalah suatu metode untuk membandingkan nilai antara dua persamaan linear atau persamaan garis lurus. Ketika membandingkan dua atau lebih sistem, kurva yang paling dekat ke sudut kanan atas grafik menunjukkan kinerja yang baik atau relevan. Berikut contoh Gambar 2.2 untuk grafik nilai interpolasi yang relevan :
Gambar 2.2 Grafik interpolasi yang relevan
Series 120 1
% 100
% 80%
60%
40%
20%
0% 0
%
50
%
100
%
150 Reca %
ll Precisi on
11
Sedangkan untuk grafik interpolasi yang tidak relevan yaitu kurvanya tidak dekat dengan ke sudut kanan atas grafik.
2.7 Perhitungan Precision dan Recall Contoh kasus :
Mengukur kinerja dari sebuah mesin pemisah ikan yang bertugas memisahkan ikan-ikan salmon dari semua ikan yang telah didapat. Untuk mengujinya kita akan memasukan 100 ikan salmon dan 900 ikan lain(bukan ikan salmon). Hasilnya mesin tersebut memisahkan 110 ikan yang dideteksi sebagai ikan salmon. Ke 110 ikan tersebut kemudian dicek kembali oleh manusia, ternyata dari 110 ikan tersebut hanya 90 ekor ikan yang merupakan ikan salmon, sedangkan 20 lainnya merupakan ikan lain.
Dari kasus tersebut maka dapat kita simpulkan bahwa mesin tersebut memiliki precision sebesar 82%, recall sebesar 90% dan accuracy sebesar 97%
yang didapat dari perhitungan berikut :
Precision = Jumlaℎ ������ ���� ������ℎ��� ������ �����
�����ℎ ���� ���� ������ℎ���
Precision = 90
110 = 82%
Recall = Jumlah salmon yang dipisahkan dengan benar
�����ℎ ������ ����������
Recall = 90
100 = 90%
Secara umum contoh kasus tersebut dapat dituliskan seperti pada Tabel 2.2 di atas:
Nilai Prediksi
Nilai Sebenarnya
True False
True 90 20
False 10 880
12
Precision = 90
110 = 82%
Recall = 90
100 = 90%
2.8 Penelitian Paling Relevan
Pada bagian ini berisi tentang beberapa penelitian yang digunakan peneliti sebagai acuan dalam membuat sistem rekomendasi.
Beberapa penelitian yang digunakan peneliti sebagai berikut:
a. Penelitian yang dilakukan oleh Nastiti(2013) tentang sistem rekomendasi hasil pertanian pangan menggunakan pendekatan content based filtering.
Penelitian ini dilakukan karena masih banyak petani kesulitan dalam mendistribusikan hasil panennya. Penelitian ini bertujuan untuk membangun sebuah sistem yang dapat mencatat data lahan pertanian serta merekomendasikan lahan pertanian mana saja yang berpotensi menghasilkan komoditas tanaman pangan. Hasil dari penelitian dengan pengujian 10 profil pedagang dengan 15 rekomendasi kelompok tani teratas, didapatkan hasil rata-rata presisi 78,40% dimana hasil evaluasi sistem in belum dapat dikatakan baik karena pengujian yang dilakukan hanya menggunakan precision saja.
b. Penelitian yang dilakukan oleh Arishintha (2013) tentang sistem rekomendasi pemasaran barang dagang sales menggunakan metode content based filtering berbasis mobile android. Penelitian dilakukan karena masalah yang dihadapi sales yaitu perusahaan grosir ingin produknya dipasarkan pada setiap toko dan warung. Penelitian ini menyediakan informasi tentang rekomendasi toko yang memiliki profil yang sama dengan profil sales. Sales akan mendapat rekomendasi mengenai informasi toko- toko pelanggan tetap dan pelanggan promosi. Hasil dari penelitian ini berdasarkan hasil pengujian precision rekomendasi tetap memiliki akurasi yaitu 61% dan promosi pelanggan memiliki akurasi yaitu 62%. Evaluasi
13
sistem ini belum dapat dikatakan baik karena pengujian dilakukan menggunakan variabel precision dan tanpa dilakukan pengujian recall.
c. Penelitian yang dilakukan oleh Dewi (2013) tentang sistem rekomendasi penjualan obat menggunakan pendekatan content based filtering berbasis mobile android. Penelitian ini bertujuan membantu MedRep dalam mendapatkan informasi seperti informasi dokter dan rumah sakit. Hasil dari penelitian dengan menggunakan 10 profil medrep didapatkan hasil average precision sebesar 77,93%.
METODE PENELITIAN
3.1 Cara mendapatkan data 3.1.1 Jenis Data
Data yang akan digunakan untuk menyelesaikan tugas akhir ini berupa tabel movies metadata , dalam format csv (Comma Separated Values).
3.1.2 Proses Pengambilan Data
Sumber data yang digunakan untuk menjalankan penelitian ini berupa data movie yang diambil dari website Kaggle.Com yaitu 45.000 data mentah. Dari 45.000 data mentah digunakan 2.500 data karena untuk mengurangi beban komputasi karena pada perangkat yang digunakan.Pemilihan dilakukan secara acak. Pada folder file data ada beberapa file yang formatnya berupa csv (comma separated values) dimana pada penelitian ini juga menggunakan data yang formanya csv yaitu file “movies metadata” yang berisikan beberapa atribut dan atribut yang digunakan pada penelitian ini yaitu atribut title dan genres, dan pada atribut genres terdapat 11 genres. Contoh data movie_metadata dapat dilihat pada tabel 3.1.
Tabel 3.1 Data movie_metadata
Title Genres
Toy Story [Animation,Comedy,Family]
Jumanji [Adventure,Fantasy,Family]
Grumpier Old Men [Romance,Comedy]
Waiting to Exhale [Comedy,Drama,Romance]
14
15
3.2 Perancangan Sistem Secara Umum
Pada perancangan sistem ini akan menjelaskan secara umum langkah- langkah proses sistem yang akan dibangun.
Gambar 3.1 Perancangan sistem
1) Langkah pertama, membaca dataset movie yang akan dipakai.
2) Langkah kedua preprocessing data. Preprocessing data berfungsi untuk menghilangkan missing value. Pada tahap ini akan dilakukan cleaning data dimana menghapus atribut-atribut yang tidak dibutuhkan dalam perhitungan similarity kecuali atribut title dan genres dan selanjutnya dilakukan transformasi data yang mana pada tahap ini akan membuat matriks genre.
3) Langkah ketiga, kemudian setelah itu membuat data frame dimana genre akan diubah menjadi data biner yang nantinya akan digunakan untuk menghitung data similarity, setelah data frame dibentuk selanjutnya melakukan perhitungan similarity dengan menggunakan metode Dice Coefficient.
16
4) Langkah keempat, hasil dari proses perhitungan similarity akan digunakan untuk menentukan rekomendasi movie dengan content based filtering yang nantikan akan menghasilkan prediksi title berdasarkan konten terhadap movie tertentu.
5) Langkah kelima,setelah mendapatkan hasil rekomendasi yang berperingkat maka pada tahap ini akan menghitung nilai akurasi dengan menggunakan Recall dan Precision .
3.3 Analisis Sistem
Analisis sistem dilakukan dengan melihat perhitungan akurasi dengan menggunakan Recall dan Precision terhadap hasil prediksi dalam sistem rekomendasi movie.
3.4 Contoh Implementasi Algoritma untuk Dice Coefficient
Content Based Filtering secara sederhana memiliki pengertian memberikan rekomendasi kepada active user berdasarkan konten dari user lain. Dalam implementasinya, perhitungan similaritas untuk menentukan tetangga terdekat dilakukan setelah preprocessing sederhana seperti menghilangkan atribut yang tidak dibutuhkan. Berikut tabel contoh data film dengan menggunkan 5 title dengan 6 genres film:
Tabel 3.2 Contoh Data Film Dram
a
Romanc e
Family Fantas y
Adventur e
Comed y
Die Hard 1 1 0 1 1 0
Parasite 1 0 1 0 1 0
Titanic 0 1 1 0 0 1
Wall-E 1 1 0 0 1 0
Pada contoh yang ditampilkan di atas, angka-angka yang berada dalam kolom merupakan angka yang diberikan user dimana angka 1 untuk genre film yang telah ditonton sedangkan nilai 0 untuk genre yang pada film yang belum ditonton
17
oleh user. Kemudian setelah itu dilakukan perhitungan similaritas pencarian tetangga terdekat. Berikut tabel hasil perhitungan similaritas :
Tabel 3.3 Hasil Perhitungan Similaritas dengan Dice Coefficient
Title Nilai similaritas
Sim(Die Hard, Parasite) 0,5714285714
Sim(Die Hard, Titanic) 0,2857142857
Sim(Die Hard, Wall-E) 0,8571428571
Selanjutnya mengurutkan title berdasarkan tingkat similaritasnya.
Tabel 3.4 Urutan Title berdasarkan similaritas Dice Coefficient
Title Nilai similaritas
Sim(Die Hard, Wall-E) 0,8571428571
Sim(Die Hard, Parasite) 0,5714285714
Sim(Die Hard, Titanic) 0,2857142857
3.5 Kebutuhan Perangkat Hardware dan Software a. Spesifikasi Software
1. Sistem operasi yang digunakan adalah Microsoft Windows 10 64- bit
2. Bahasa pemrograman yang digunakan adalah Python dengan aplikasi Jupyter
b. Spesifikasi Hardware
1. Processor Intel® Core™ i3-6006U CPU @2.00GHz 2. Memori(RAM) sebesar 4.00 GB
import pandas as pd
# input data movie
movie = pd.read_excel("movie.xlsx") movie
4.1 Pengolahan Data
HASIL DAN ANALISA
Membaca Data
Langkah pertama pada sistem adalah membaca dataset dan kemudian akan disimpan dalam data frame dengan atribut movie.
Berikut adalah code untuk membaca data :
Preprocessing
Tahap preprocessing dilakukan untuk mengubah data mentah menjadi data yang bersih dan siap digunakan. Tahap preprocessing terbagi menjadi 2 yaitu cleaning data dan transformasi data.
4.1.2.1 Cleaning Data
Tahap awal pada yang dilakukan yaitu cleaning data, dimana pada proses ini akan menghapus kolom-kolom yang tidak diperlukan. Berikut adalah code untuk menghapus kolom data:
18
19
Proses preprocessing data ini dilakukan dengan menginput data movie. Kemudian kolom-kolom yang tidak diperlukan akan
20
data_movie = movie.copy()
for index, row in movie.iterrows():
for genre in row['genres']:
data_movie.at[index, genre] = 1 data_movie = data_movie.fillna(0)
dihilangkan dengan menggunakan fungsi if elif , kemudian setelah itu dilanjutkan dengan menghilangkan karakter pada kolom genres.
Hasil cleaning data dapat dilihat pada Gambar 4.1.
Gambar 4.1 Hasil Cleaning data 4.1.2.2 Tranformasi Data
Setelah dilakukan cleaning data langkah selanjutnya yang dilakukan adalah One_Hot_Encoding untuk daftar genre.
Pengkodean diperlukan untuk memasukkan data kategorikal.
Dimana dalam hal ini, akan menyimpan setiap genre yang berbeda dalam kolom yang berisi 1 atau 0. 1 menunjukkan bahwa film memiliki genre tersebut dan 0 menunjukkan tidak. Berikut code untuk pengkodean genre :
Pada proses pengkodean dilakukan pengulangan pada movie, lalu tambahkan genre film sebagai kolom 1 atau 0. 1 jika kolom itu berisi film dalam genre pada indeks saat ini dan 0 jika tidak.Hasil pengkodean menggunakan One_Hot-Encoding dapat dilihat pada Gambar 4.2 .
21
def single_dice_coef(y_true, y_pred_bin):
intersection = np.sum(y_true * y_pred_bin)
if (np.sum(y_true)==0) and (np.sum(y_pred_bin)==0):
return 1
return (2*intersection) / (np.sum(y_true) + np.sum(y_pred_bin)) Gambar. 4.2 Hasil One_Hot_Encoding 4.2 Hasil perhitungan Dice Coefficient
Pada tahap ini akan dilakukan perhitungan similaritas dengan menggunakan algoritma dice coefficient. Perhitungan dice coefficient hanya menggunakan tabel genre, maka perlu menghapus kolom genres dan title pada gambar 4.2. Berikut code untuk menghapus kolom genres dan title:
Pada tahap ini sistem akan drop index yang ada dan menghapus kolom- kolom yang tidak diperlukan. Data hasil dapat dilihat pada Gambar 4.3.
Gambar 4.3 Hasil drop kolom genres dan title
Kemudian setelah membuat table genre, maka langkah selanjutnya adalah menghitung similaritas dari data tabel genre pada gambar 4.3. Berikut adalah code untuk menghitung similaritas dice coefficient :
genreTable = data_movie.drop('genres', 1).drop('title', 1) genreTable.head()
22
Pada proses ini dilakukan perhitungan similaritas dengan menggunakan dice coefficient . Berikut hasil dari perhitungan similaritas dapat diliha pada Gambar 4.4.
Gambar 4.4 Hasil perhitungan Dice Coefficient
4.3 Pengujian Sistem
Pengujian sistem dilakukan dengan menghitung nilai Recall dan Precision dan melakukan rekomendasi movie untuk user tertentu. Pengujian sistem dilakukan dengan menggunakan data movie yang telah di preprocessing yang kemudian menghitung nilai similarity dengan menggunakan metode dice coefficient setelah mendapatkan hasil perhitungan similaritas selanjutnya akan di lakukan rekomendasi movie berdasarkan hasil perhitungan similaritas dan hasil rekomendasi sudah dirangking berdasarkan dari yang paling relevan hingga yang tidak relevan . Pengujian sistem dilakukan dengan menggunakan 2.500 data movie yang nilainya telah diubah menjadi 1 dan 0.
Proses pengujian sistem dilakukan dengan menggunakan 5 pengguna sekaligus berdasarkan film yang sudah pernah ditonton atau disukai oleh pengguna tersebut. Dalam pengujian ini pengguna akan memilih 20 judul yang disukai oleh pengguna.
23
Relevan ={Ants, Little big Leaque, The Wrong Trousers, A Close Shave, Big Bully,Toy Story,Sabrina,Waiting to Exhale ,Heat, Casino ,Money Train ,GoldenEye,Jumanji Grumpier Old Men,Tom and Huck,One Hundred and One Dalmatians, Sudden Death,Nixon,Power ,Four Rooms}
4.2.1 Hasil Perhitungan Akurasi Sistem Rekomendasi Perhitungan akurasi sistem rekomendasi dilakukan dengan menggunakan 5 pengguna.Berikut adalah hasil perhitungan recall dan precision setiap pengguna.
1. Pengguna 1
Ada 20 judul film yang relevan atau yang disukai oleh pengguna 1, berikut adalah judul film yang relevan atau yang disukai oleh pengguna 1:
Hasil pencarian dengan sistem rekomendasi judul film yang direkomendasikan sebanyak 20 judul film. Dari 20 judul film yang direkomendasikan diperoleh 5 judul film yang paling relevan dengan pengguna 1. Sehingga dapat dicari nilai Recall dan precision seperti pada Table 4.1.
24
Tabel 4.1 Hasil pencarian pada sistem rekomendasi untuk pengguna 1
Selanjutnya, Interpolasi 21 titik recall precision dari perhitungan recall-precision pada Tabel 4.1, ditampilkan pada Tabel 4.2 berikut ini :
Tabel 4.2 Interpolasi 21 titik recall precision pada sistem rekomendasi pengguna 2
25
Relevan = {Young and Innocent, Clockers,Bottle Rocket, Kids,The Godfather: Part II,Traveller,Squeeze, New Jersey Drive, Hoodlum,Fireworks,Malice,Taxi Driver,The Usual Suspects, True Crime,Cyclo, The Basketball Diaries,Mildred Pierce,Dangerous Minds,Normal Life, The Funeral}
Berikut ditampilkan visualisasi interpolasi 21 titik recall precision pada Tabel 4.2. Ditampilkan dalam bentuk grafik pada Gambar 4.5.
Gambar 4.5. Grafik interpolasi 21 titik recall precision pengguna 1 Selanjutnya menghitung rata-rata precision dari pengguna 1. Berikut perhitungan untuk pengguna 1 :
Recall 0.05 0.1 0.15 0.20 0.25
Precision 1.0 1.0 0.3 0.33 0.29
AvgPrec = 28%
Berdasarkan hasil perhitungan rata-rata precision didapatkan nilai rata-rata 28%.
2. Pengguna 2
Ada 20 judul film yang relevan atau yang disukai oleh pengguna 2, berikut adalah judul film yang relevan atau yang disukai oleh pengguna 2:
Pengguna
150
1
% 100
% 50
% 0%
0
%
20
%
40
%
60%
Reca ll
80
%
100
%
120
% Precisi on
26
Hasil pencarian dengan sistem rekomendasi judul film yang direkomendasikan sebanyak 20 judul film. Dari 20 judul film yang direkomendasikan diperoleh 7 judul film yang paling relevan dengan pengguna 2. Sehingga dapat dicari nilai recall dan precision seperti pada Table 4.3.
Tabel 4.3 Hasil pencarian pada sistem rekomendasi untuk pengguna 2
Selanjutnya, Interpolasi 21 titik recall precision dari perhitungan recall-precision pada Tabel 4.3, ditampilkan pada Tabel 4.4 berikut ini :
Tabel 4.4 Interpolasi pada 21 titik recall precision pada rekomendasi pengguna 2
27
Relevan = A Little Princess,The Jungle Book,Casper,Santa Claus: The Movie,Fluke, Labyrinth,The Flintstones,The Secret of Roan Inish, Alice in Wonderland,Miracle on 34th Street, Major Payne,The Rescuers Down Under,A Simple Wish,The Borrowers, Babe: Pig in the City, Balto, Dunston Checks In,Peter Pan,Super Mario Bros.
Berikut ditampilkan visualisasi interpolasi 21 titik recall precision pada Tabel 4.4. Ditampilkan dalam bentuk grafik pada Gambar 4.6.
Gambar 4.6 Grafik interpolasi 21 titik recall precision pengguna 2 Selanjutnya menghitung rata-rata precision dari pengguna 2. Berikut perhitungan untuk pengguna 2 :
Berdasarkan hasil perhitungan rata-rata precision didapatkan nilai rata-rata 42%.
3. Pengguna 3
Ada 20 judul film yang relevan atau yang disukai oleh pengguna 3, berikut adalah judul film yang relevan atau yang disukai oleh pengguna 3:
Pengguna 2
120
% 100
% 80%
60%
40%
20%
0% 0
%
20
%
40
%
60%
Reca ll
80
%
100
%
120
% Precisi on
Recall 0.05 0.1 0.15 0.20 0.25 0.30 0.35 Precision 1.0 0.75 0.75 0.66 0.50 0.43 0.43 AvgPrec= 42%
28
Hasil pencarian dengan sistem rekomendasi judul film yang direkomendasikan sebanyak 20 judul film. Dari 20 judul film yang direkomendasikan diperoleh 4 judul film yang paling relevan dengan pengguna 3. Sehingga dapat dicari nilai recall dan precision seperti pada Table 4.5.
Tabel 4.5 Hasil pencarian pada sistem rekomendasi pengguna 3
Selanjutnya, Interpolasi 21 titik recall precision dari perhitungan recall-precision pada Tabel 4.5, ditampilkan pada Tabel 4.6 berikut ini :
29
Tabel 4.6 Interpolasi pada 21 titik recall precision pada sistem rekomendasi pengguna 3
Berikut ditampilkan visualisasi interpolasi 21 titik recall precision pada Tabel 4.6. Ditampilkan dalam bentuk grafik pada Gambar 4.7.
Gambar 4.7 Grafik interpolasi 21 titik recall precision pengguna 3 Selanjutnya menghitung rata-rata precision dari pengguna 3. Berikut perhitungan untuk pengguna 3:
Pengguna
60
3
% 50
% 40
% 30
% 20
% 10
% 0
% 0
%
20
%
40
%
60%
Reca ll
80
%
100
%
120
% Precisi on
Recall 0.05 0.1 0.15 0.20
Precision 0.50 0.50 0.50 0.50
AvgPrec= 31%
30
Relevan = Mighty Aphrodite,Two If by Sea,Sprung, Mr.
Wrong,Love and Other Catastrophes, Best Men, Boomerang,The Beautician and the Beast, Speechless,Fierce Creatures,Mallrats, Blue Juice, Miami Rhapsody, Breathing Room, Pie in the Sky, Chasers,Real Genius, Swingers,My Man Godfrey,French Kiss
Berdasarkan perhitungan rata-rata precision didapatkan nilai rata-rata sebesar 31%.
4. Pengguna 4
Ada 20 judul film yang relevan atau yang disukai oleh pengguna 4, berikut adalah judul film yang relevan atau yang disukai oleh pengguna 4:
Hasil pencarian dengan sistem rekomendasi judul film yang direkomendasikan sebanyak 20 judul film. Dari 20 judul film yang direkomendasikan diperoleh 4 judul film yang paling relevan dengan pengguna 4. Sehingga dapat dicari nilai recall dan precision seperti pada Table 4.7.
31
Tabel 4.7 Hasil pencarian pada sistem rekomendasi pengguna 4
Selanjutnya, Interpolasi 21 titik recall precision dari perhitungan recall-precision pada Tabel 4.7, ditampilkan pada Tabel 4.8 berikut ini :
Tabel 4.8 Interpolasi pada 21 titik recall precision pada sistem rekomendasi pengguna 4
32
Relevan = Street Fighter,Fire Down Below Drop Zone,,Starship Troopers,Daylight,The Rock,The Big Hit, Dante's Peak, Tomorrow Never Dies,Armageddon ,Black Dog, Assassins, Maximum Risk,Rambo III,The River Wild, Waterworld, The Hunted,Knock Off,Firestorm,Hard Target
Berikut ditampilkan visualisasi interpolasi 21 titik recall precision pada Tabel 4.8. Ditampilkan dalam bentuk grafik pada Gambar 4.8.
Gambar 4.8 Grafik interpolasi 21 titik recall precision pengguna Selanjutnya menghitung rata-rata
perhitungan untuk pengguna 4 :
precision dari pengguna 4. Berikut
Recall 0.05 0.1 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 Precision 1.0 1.0 0.75 0.66 0.62 0,66 0.70 0.66 0.64 0.55 AvgPrec= 51%
Berdasarkan perhitungan rata-rata precision didapatkan nilai rata-rata sebesar 51%.
5. Pengguna 5
Ada 20 judul film yang relevan atau yang disukai oleh pengguna 5, berikut adalah judul film yang relevan atau yang disukai oleh pengguna 5:
Pengguna
120
4
% 100
% 80%
60%
40%
20%
0% 0
%
20
%
40
%
60%
Reca ll
80
%
100
%
120
% Precisi on
33
Hasil pencarian dengan sistem rekomendasi judul film yang direkomendasikan sebanyak 20 judul film. Dari 20 judul film yang direkomendasikan diperoleh 4 judul film yang paling relevan dengan pengguna 5. Sehingga dapat dicari nilai recall dan precision seperti pada Table 4.9.
Tabel 4.9 Hasil pencarian pada sistem rekomendasi pengguna 5
Selanjutnya, Interpolasi 21 titik recall precision dari perhitungan recall-Precision pada Tabel 4.9, ditampilkan pada Tabel 4.10 berikut ini :
34
Tabel 4.10 Interpolasi pada 21 titik recall precision pada sistem rekomendasi pengguna 5
Berikut ditampilkan visualisasi interpolasi 21 titik recall precision pada Tabel 4.10. Ditampilkan dalam bentuk grafik pada Gambar 4.9.
Gambar 4.9 Grafik interpolasi 21 titik recall precision pengguna 5 Selanjutnya menghitung rata-rata precision dari pengguna 5. Berikut perhitungan untuk pengguna 5 :
Pengguna
120
5
% 100
% 80%
60%
40%
20%
0% 0
%
20
%
40
%
60%
Reca ll
80
%
100
%
120
% Precisi on
35
Recall 0.05 0.1 0.15 0.20 0.25 0.3 0.35 0.40 0.45 0.50 0.55 0.60 065 Precision 1.0 1.0 0.60 0.66 0.71 0.75 0.63 0.66 0.69 0.71 0.68 0.63 0.65
AvgPrec = 55%
Berdasarkan perhitungan rata-rata precision didapatkan nilai rata-rata sebesar 55%.
4.4 Pembahasan
4.4.1 Rata-rata Interpolasi 21 titik Recall-Precision
Hasil Interpolasi 21 titik recall precision dari pengujian 5 pengguna menggunakan sistem rekomendasi disajikan dalam Tabel 4.11 berikut ini:
Tabel 4.11 Rata-rata Interpolasi 21 titik Recall Precision dengan 5 pengguna
36
Gambar 4.10 Grafik rata-rata interpolasi 21 titik Recall Precision dengan 5 pengguna
Berdasarkan nilai yang dimuat pada Tabel 4.11 dan Gambar grafik 4.11, menunjukkan hasil nilai precision yang cukup baik pada pengguna 5 dengan rata-rata nilai precision 55%, nilai ini cukup baik untuk sistem rekomendasi film yang relevan atau yang disukai, dimana pada pengguna 5 ada 20 film yang disukai kemudian sistem merekomendasi 20 film yang paling relevan dengan 20 film yang disukai oleh pengguna 5, dari 20 film yang direkomendasikan ditemukan 13 film yang paling relevan dengan pengguna 5 sehingga dapat simpulkan bahwa sistem rekomendasi ini cukup baik dalam merekomendasikan film yang disukai oleh pengguna.
5.1 Kesimpulan
PENUTUP
Berdasarkan penelitian yang dilakukan yaitu sistem rekomendasi movie menggunakan pendekatan Content Based Filtering dan Dice Coefficient sebagai ukuran kemiripan didapatkan kesimpulan :
1. Metode Content Based Filtering menggunakan Dice Coefficient dapat di terapkan dalam rekomendasi movie
2. Sistem rekomendasi dengan menggunakan Content Based Filtering mendapatkan akurasi yang cukup baik dengan nilai precision 72% dan nilai recall 50%. Serta kurva interpolasi yang lebih mendekati dengan sudut kanan atas, dimana dalam hal ini menunjukkan tingkat relevansi yang lebih baik.
5.2 Saran
Berdasarkan analisis pada pada penelitian ini, saran penulis untuk pengembangan penelitian selanjutnya adalah menggunakan recall dan precision dengan data lebih banyak untuk menguji keefektifan sistem.
37
DAFTAR PUSTAKA
Arishintha, Christina Rusma. (2013). Sistem Rekomendasi Pemasaran Barang Dagang Sales menggunakan Metode Content Based Filtering berbasis Mobile Android. Skripsi. Fakultas Sains dan Teknologi. Universitas Sanata Dharma:
Yogyakarta.
Dewi, Laurina Silvianty. (2013). Sistem Rekomendasi Penjualan Obat menggunakan pendekatan Content Based Filtering berbasis Mobile Android.
Skripsi. Fakultas Sains dan Teknologi. Universitas Sanata Dharma:
Yogyakarta.
Falk,Kim. (2019). Practical Recommender System. New York, US : Manning Publications Co.
Kurniawan, D. (2010). Evaluasi sistem temu kembali informasi model ruang vector dengan pendekatan user judgement. Jurusan Matematika Program Studi Ilmu Komputer FMIPA. Universitas Lampung : Lampung.
Nastiti, Putri. (2013). Sistem Rekomendasi hasil Pertanian Tanaman Pangan menggunakan pendekatan Content Based Filtering. Skripsi. Fakultas Sains dan Teknologi. Universitas Sanata Dharma: Yogyakarta.
Pendit, PL. (2008). Perpustakaan digital dari A sampai Z . Jakarta:Cita Karyakarsa Mandiri
Ricci, F., Rokach Lior, dan Bracha Shapira. (2011). Recommender System Handbook. New York, US : Springer Science+Business Media.
Verma, V. (2020). A comparative analysis of similarity measures akin to the Jaccard index in collaborative recommendations: empirical and theoretical perspective. Austria : Springer-Verlag GmbH.
38