Penerapan Data Mining dalam Pembuatan Rekomendasi Film Netflix Menggunakan Metode Collaborative Filtering dan Korelasi Pearson

(1)

Penerapan Data Mining dalam Pembuatan

Rekomendasi Film Netflix Menggunakan Metode

Collaborative Filtering dan Korelasi Pearson

1

Kevin Obert Richardo

2

Silvia Harlena, S.Kom, MMSI.

1

Jalan Kober No.10 Pondok Cina, Kecamatan Beji, Kota Depok. Email: kevinobertrichardo@student.gunadarma.ac.id

2

Jl. Margonda Raya No.100, Pondok Cina, Kecamatan Beji, Kota Depok. E-mail: silvia@staff.gunadarma.ac.id

Jurusan Teknik Informatika, Fakultas Teknologi Industri, Universitas Gunadarma

ABSTRAK

Perkembangan teknologi komputer, informasi dan komunikasi telah mengarahkan masyarakat ke era digital. Digitalisasi tersebut telah merambah ke sektor industry perfilman. Banyaknya film digital ari platform ditigal yang beredar akan membuat kesulitan kepada pelanggan dalam memilih film yang akan meraka tonton. Maka dari itu dibutuhkan adanya sistem rekomendasi yang tidak hanya akan membantu pelanggan dalam menentukan film yang akan ditonton namun juga dari sektor bisnis dapat menarik pelanggan untuk menambah pemasukan dari bertambahnya konsumsi fim oleh pelanggan. Salah satu cara untuk membuat sistem rekomendasi menurut perilaku user adalah menggunakan metode collaborative filtering. Metode collaborative filtering dapat dimanfaatkan untuk mendapatkan rekomendasi film untuk pelanggan berdasarkan preferensi pelaanggan lain yang memiliki selera film sejenis. Dari 51.031.355 data rating akan dihasilkan 10 rekomendasi film dengan prediksi score tertinggi. Berdasarkan hasil analisa, penerapan data mining dalam pembuatan rekomendasi film Netflix menggunakan metode collaborative filtering dan korelasi pearson dapat menghasilkan rekomendasi film yang akurat.

Kata kunci : Data Mining, Sistem Rekomendasi, Metode Collaborative Filtering, Korelasi Pearson.

ABSTRACT

The development of computer technology, information and communication has directed people to the digital age. The digitalization has penetrated into the film industry sector. The number of digital films in the digital platform that are circulating will make it difficult for customers to choose the films they will watch. Therefore, a recommendation system is needed that will not only help the customer in determining the film to be watched but also from the business sector can attract customers to increase revenue from increased film consumption by customers. One way to make a recommendation system according to user behavior is to use a collaborative filtering method. The collaborative filtering method can be utilized to obtain film

(2)

recommendations for customers based on the preferences of other customers who have similar film tastes. From 51,031,355 rating data 10 movie recommendations will be produced with the highest predicted score. Based on the analysis results, the application of data mining in making Netflix movie recommendations using collaborative filtering methods and Pearson correlation can produce accurate film recommendations.

Keywords: Data Mining, Recommendation System, Collaborative Filtering Method, Pearson Correlation.

PENDAHULUAN

Perkembangan teknologi

komputer, informasi dan

komunikasi telah mengarahkan

masyarakat ke era digital.

Digitalisasi bukan hanya

diterapkan dalam bidang ekonomi, pengetahuan dan sosial tapi juga sudah merambah ke dunia industri hiburan seperti industri musik dan perfilman. Digitalisasi tersebut menghasilkan data digital yang sangat besar baik berupa teks, audio, gambar, maupun video yang tersimpan dalam database masing masing perusahaan penyedia jasa. Pertumbuhan yang pesat dan integrasi dari sistem database memberikan sumber daya yang luas kepada para peneliti yang bertujuan untuk menganalisis data ilmiah, mengoptimalkan sistem industri, dan menemukan pola informasi yang berharga dalam

database tersebut. Banyak sekali informasi yang masih tersembunyi dalam database tersebut, yang mana informasi tersebut sangat penting namun masih belum

ditemukan atau belum

diartikulasikan. Maka dari itu, diperlukan suatu teknik dalam mengolah informasi yang berharga dan berguna dalam kumpulan data tersebut. Secara sederhana data

mining adalah teknik untuk

ekstrasi atau “menambang”

pengetahuan dari sekumpulan data yang jumlahnya besar.

Dalam dunia industri film,

pengolahan data juga tidak kalah pentingnya. Netflix contohnya, perusahaan jasa streaming film yang memiliki lebih dari 130 juta pelanggan di seluruh dunia dan lebih dari 2000 library film dan serial tv. Dengan jumlah film yang sangat banyak dan terus bertambah

(3)

tiap tahunnya, hal itu membuat

calon penonton menghadapi

kesulitan dalam mencari dan memilih film mana yang ingin ditonton sesuai dengan selera mereka masing masing. Oleh karena itu penulis tertarik untuk melakukan analisa data mining

menggunakan metode

collaborative filtering dan korelasi pearson yang berfungsi untuk menampilkan suatu rekomendasi film berdasarkan variabel tertentu. Sistem rekomendasi adalah suatu perangkat lunak dan teknik untuk memberikan saran rekomendasi terhadap item yang akan digunakan oleh pengguna dan bertujuan untuk membantu dalam berbagai macam proses pengambilan keputusan, seperti barang apa yang harus dibeli, musik apa yang harus didengar atau berita apa yang ingin dibaca.

Pada penelitian ini penulis

menggunakan metode

collaborative filtering dan korelasi

pearson untuk menentukan

prediksi film yang akan ditonton

oleh pelanggan. Collaborative

filtering, atau yang biasa disebut

dengan crowd-wisdom adalah

salah satu metode rekomendasi yang menggunakan data rating dari seorang pengguna, dan pengguna

lain untuk menghasilkan

rekomendasi. Collaborative

filtering menganggap bahwa selera pengguna terhadap suatu item atau barang akan cenderung sama dari waktu ke waktu. Ditambah lagi, pengguna yang menyukai suatu item biasanya juga akan menyukai item lain yang disukai oleh pengguna lain yang juga menyukai item yang sama dengan pengguna

tersebut. Sedangkan korelasi

pearson merupakan salah satu ukuran korelasi yang digunakan untuk mengukur kekuatan dan arah hubungan linier dari dua variabel. Dua variabel dikatakan berkorelasi apabila perubahan salah satu variabel disertai dengan perubahan variabel lainnya, baik dalam arah yang sama ataupun arah yang sebaliknya.

METODE PENELITIAN

(4)

penelitian ini adalah :

a. Studi Literatur

Tahapan ini dilakukan dengan

mengumpulkan dan mempelajari sumber seperti buku referensi, jurnal, makalah maupun dari artikel dari internet yang berkaitan dengan penelitian ini.

b. Analisis Permasalahan

Pada tahap ini dilakukan analisis terhadap studi literatur yang telah dilakukan

sebelumnya untuk mengetahui dan

memahami mengenai metode data mining, khususnya metode collaborative filtering.

c. Pengambilan dan Pengenalan Data

Data yang digunakan diambil dari Netflix prize data. Dan pada tahap ini penulis juga mengumpulkan deskripsi data dan detail informasi mengenai atribut yang terdapat dalam data.

d. Pemuatan Libraries dan Package

Pada tahapan ini penulis melakuakan penginstalan dan pemuatan terhadap

libraries atau package yang akan

digunakan.

e. Pra-pemrosesan data

Pra-pemrosesan yang dilakukan terhadap

data adalah data cleaning, data slicing,

dan transformasi data, sehingga data lebih mudah dimuat dalam kernel.

f. Penerapan Metode Collaborative

Filtering dan Korelasi Pearson

Melakukan metode collaborative filtering

dan korelasi pearson untuk menentukan

tingkat similarity dari film maupun rating

user.

g. Visualisasi Hasil Rekomendasi

Menyajikan hasil rekomendasi kedalam bentuk visualisasi

PEMBAHASAN Gambaran Umum

Analisa ini ditujukan sebagai sarana untuk membantu pengambilan keputusan perusahaan dalam merekomendasikan film yang akan ditonton oleh pelanggan Netflix berdasarkan riwayat rating film yang diberikan oleh pelanggan pada tiap film yang telah ditotonton sehingga dapat membantu pelanggan dalam memilih film yang akan ditonton. Analisa ini akan menghasilkan 10 rekomendasi film teratas kepada pelanggan disertai perkiraan rating berdasarakan metode collaborative filtering dan korelasi Pearson. Metodologi dalam penelitian ini terdiri dari

(5)

beberapa tahap yakni dimulai dari tahap untuk mendapatkan dataset riwayat rating pelanggan Netflix dan dataset film Netflix yang di dapat dari nf_prize dataset yang disediakan oleh netfix yang akan digunakan untuk analisa data mining. Kemudian tahap pengenalan data untuk mendapatkan detail informasi dari data yang nantinya akan diolah. Kemudian tahap selanjutnya adalah pemasangan package dan libraries yang akan digunakan dalam proses analisa. Lalu proses pemuatan dan penggabungan data. Kemudian tahap pra-pemrosesan data, pada tahap ini yang dilakukan adalah data cleaning, data slicing, dan transformasi data. Tahap terakhir adalah tahap analisa yakni menggunakan metode collaborative filtering dan korelasi Pearson untuk menghasilkan rekomendasi film.

Gambar 1 Gambaran Umum

Pengambilan Data

Tahap awal yang dilakukan pada

penelitian ini adalah pengambilan dataset

yang berupa riwayat rating film yang diberikan oleh pelanggan pada tiap film

netflix yang telah ditotonton dan dataset

berupa kumpulan judul film disertai tahun

rilis. Dataset ini didapat dari internet

archive di bawah lisensi dari Netflix, yang merupakan data yang disediakan oleh Netflix pada kompetisi Netflix prize event.

Dataset tersebut dapat diunduh di

https://archive.org/download/nf_prize_da

taset. Setelah pengunduhan dataset

selesai, dataset tersebut diletakan pada

direktori local tempat project python yaitu

home/Documents/PI/Data Mentah.

Pengenalan Data

Nf_prize dataset merupakan data

riwayat pemberian rating pada tiap film Netflix yang telah ditonton oleh

pelanggan dan data film beserta tahun rilis. Data terdiri dari 51.031.355 rating yang diambil dari 478.018 pelanggan secara acak dan 9.210 buah judul film disertai tahun rilis yang diambil dari

(6)

Oktober 1998 sampai Desember 2005 yang dibuat dalam bentuk 2 data terpisah

berformat .txt. Dataset rating pada tiap

film terdiri dari 3 buah atribut yaitu :

1. Id_Pelanggan : Nomor id

pelanggan yang memberikan

rating bertipe number yang terdiri dari 7 buah digit yang unik untuk tiap pelangganya.

2. Rating : Rating yang diberikan

oleh pelanggan pada film tersebut yang bertipe number dari rentang 1 - 5

3. Tanggal : Tanggal pemberian

rating oleh pelanggan yang bertipe date

Pemasangan dan Pemuatan Libraries

Sebelum masuk ke selanjutnya diperlukan pemasangan dan pemuatan

libraries serta package yang akan

digunakan pada analisis dengan metode

collaborative filtering dan korelasi

Pearson.

Penggabungan Data

Setelah proses pemasangan dan pemuatan libraries serta package selesai,

tahap selanjutnya adalah pemuatan dan penggabungan dataset yang telah di unduh. Dataset rating terdiri dari dua buah data berbentuk txt. Proses pemuatan data menggunakan fitur dataframe pada libraries pandas yang telah dimuat. Dataframe diarahkan ke direktori dimana dataset di simpan pada C:\Users\KEVIN\Documents\PI, kemudian diberi header sebagai judul kolom bernama Id_Pelanggan dan Rating, judul kolom pertama dibiarkan kosong karena merupakan nomor urutan record. Kemudian dilakukan pengubahan tipe data rating dari yang awalnya bertipe data string ke dalam bentuk float agar dapat diolah.

Pra-pemrosesan Data

Sebelum data dapat digunakan,

diperlukan adanya pra-pemrosesan

terlebih dahulu agar data siap pakai dan sesuai dengan model arsitektur yang dibangun. Pra- pemrosesan data yang

dilakukan yakni data cleaning, data

slicing, dan transformasi data menjadi tabel pivot dalam bentuk matriks dengan ukuran besar.

Data Cleaning

Data cleaning merupakan salah

(7)

cleaning biasa disebut dengan data

cleansing atau scrubbing. Proses data cleaning dilakukan untuk menghilangkan kesalahan informasi pada data. Sehingga

proses data cleaning dapat digunakan

untuk menentukan data yang tidak akurat, tidak lengkap atau tidak benar dan untuk

memperbaiki kualitas data melalui

pendeteksian kesalahan pada data. Data

cleaning diperlukan pada analisis ini dikarenakan Id_Film yang berulang pada

dataframe membuat kernel yang

digunakan kehabisan memori.

Data Slicing

Data slicing adalah proses

segmentasi pada data mining yang bertujuan agar memperoleh data yang

sesuai untuk analisis. Data slicing pada

analisis ini bertujuan untuk mengurangi jumlah data agar analisis dapat dilakukan secara efektif baik secara waktu proses maupun dalam penggunaan kernel. Data yang dikurangi pada dataset adalah film

dengan sedikit review dengan asumsi

bahwa film tersebut kurang popular, dan juga pelanggan yang memberikan sedikit

review dengan asusmsi bahwa pelanggan tersebut kurang aktif.

Transformasi Data

Transformasi data dalam proses data

mining berarti proses pengubahan bentuk data dengan format yang sesuai dengan tipe analisis. Pada analisis ini data diubah kedalam bentuk tabel pivot atau matriks

dengan ukuran besar. Id_Film menjadi

kolom pada tabel pivot sedangkan Id_Pelanggan menjadi baris pada tabel.

Pemuatan Data Judul Film

Setelah pra-pemrosesan data selesai dilakukan pemuatan data judul film yang diubah kedalam bentuk dataframe dengan mengunakan libraries pandas. Setelah itu dilakukan proses pembuatan dataframe baru bernama df_title dengan data film sebagai datasetnya. Dataset film diletakan pada direktori

C:\Users\KEVIN\Documents\PI\movie_titles. csv. Dataset dimuat dengan sistem encoding ISO-8859-1 yang mencakup 256 karakter Unicode. Dataset disusun dengan kolom Id_Film, Tahun, Judul dan kemudian diurutkan berdasarkan Id_film secara ascending. Setelah itu dilakukan pencetakan sampel dataframe berupa judul film dengan 10 indeks teratas.

(8)

Penerapan Metode Collaborative Filtering

Setelah pemuatan seluruh data selesai dan telah melalui pra-pemroesan data. Maka proses analisis untuk membuat rekomendasi siap dimulai. Sebelumnya dilakukan penghitungan tingkat akurasi

algoritma yang digunakan. Proses

penghitungan akurasi ini menggunakan fitur evaluate pada library SVD. Untuk menghitung akurasi analisis dengan

metode collaborative filtering ini

parameter yang digunakan adalah RMSE (Root Mean Square Error) dan MAE (Mean Absolute Error).

Visualisasi Rekomendasi Film dan Prediksi Rating

Setelah menampilkan film yang

disukai oleh pelanggan kemudian

dilakukan proses analisis rekomendasi film yang sesuai dengan pelanggan

tersebut menggunakan metode

collaborative filtering. Dilakukan terlebih dahulu pengosongan dataframe pelanggan yang sebelumnya berisi film favorit pelanggan tersebut. Kemudian membuat dataframe baru bernama data yang berisi

dataset rating dengan kolom

Id_Pelanggan, Id_Film, dan Rating.

Setelah itu menerapkan metode

collaborative filtering untuk menghasilkan 10 rekomendasi film teratas dengan mengunakan fungsi train pada library svd. Rekomendasi film juga disertai dengan prediksi rating fim terhadap pelanggan

(9)

PENUTUP Kesimpulan

Berdasarkan dari data dan

visualisasi ahkir rekomendasi film

menunjukan bahwa metode collaborarive

filtering dan korelasi pearson dapat

diterapkan untuk membuat sistem

rekomendasi film dengan hasil yang akurat dan nilai error dibawah 1 untuk 10 rekomendasi film teratas.

Berdasarkan penelitian yang telah dilakukan dapat dihasilkan rekomendasi yang spesifik pada selera film masing – masing user yang menjadikan sistem rekomendasi ini lebih cocok diterapkan

pada suatu platform film digital

dibandingkan dengan sistem rekomendasi film menurut rating yang dihimpun dari penonton secara global.

Film – film yang termasuk kedalam daftar 10 rekomendasi film

teratas berdasarkan metode collaborative

filtering dan korelasi pearson nantinya dapat disajikan atau ditawarkan kepada pelanggan setelah pelanggan selesai menonton atau ketika pelanggan masuk kedalam home aplikasi platform film digital mereka. Selain pada platform Netflix analisa ini juga dapat diterapkan pada platform film digital lainnya ataupun

situs – situs video streaming.

Peneerapan metode collaborative

filtering dan korelasi pearson dalam pembuatan rekomendasi film Netflix dan menghasilkan informasi 10 rekomendasi film teratas yang dapat dipakai dalam pengambilan keputusan film apa yang akan ditonton selanjutnya oleh user dapat menjawab latar belakang dan tujuan penulisan ilmiah ini.

Saran

Berikut adalah beberapa saran yang dapat

dilakukan untuk penelitian terkait

penerapan data mining dalam pembuatan rekomendasi film netflix menggunakan

metode Collaborative Filtering dan

korelasi pearson.

1. Menggunakan baris kode python

yang lebih efisien terkait

pembuatan array untuk

mendapatkan waktu pemrosesan yang lebih cepat.

2. Menggunakan data film maupun

rating dari user terbaru sehingga dapat menyajikan rekomendasi untuk film film terbaru

3. Mengembangkan analisa menjadi

model machine learning pada web

(10)

DAFTAR PUSTAKA

[1] Budi Santoso, dan Ardian Umam.

2018. Data Mining dan Big Data

Analytics. Edisi ke-2. Media Pustaka.Yogyakarta

[2] Suyanto. 2019. Data Mining untuk

Klasifikasi dan Klasterisasi Data. Informatika. Bandung.

[3] Totewar, Akansha. Introduction to

Data Mining.

https://www.slideshare.net/akanns hat/data-mining-153229899 (24 November 2012) (Diakses tanggal : 18 Juli 2019)

[4] P. Melville, R. J. Mooney, and R.

Nagarajan. Content-Boosted

Collaborative Filtering for

Improved Recommendations.

https://www.slideshare.net/Melvill

e/collaborative-filtering (26

Oktober 2014) (Diakses tanggal : 8 Agustus 2019)

[5] Gupta, Shivam . Python

Introduction.

https://www.slideshare.net/Shiva mGupta276/python-60414461. (3

April 2016) (Diakses tanggal : 20 Agustus 2019)

[6]mkkhttps://en.wikipedia.org/wiki/Proje

ct_Jupyter (Diakses tannggal 21 Agustus 2019)

[7] Chandra, Feri. Analisa Korelasi

Pearson.

https://www.slideshare.net/Ferich 18/makalah-analisa-korelasi-pearson-ppm. ( 5 Maret 2013) (Diakses tanggal : 21 Agustus 2019)

[8] H. Mase dan H. Ohwada, A

Collaborative Filtering

Incorporating Hybrid-Clustering Technologyi I , I, no. Icsai, 2012.