Makalah
Sistem Temu Kembali Informasi
Sistem Rekomender
Oleh :
Sigit Purnomo 14.01.53.0061 Ali Imron 14.01.53.0066
Dosen Pengampu : Dr.Drs. Eri Zuliarso, M.Kom
FAKULTAS TEKNOLOGI INFORMASI
UNIVERSITAS STIKUBANK
Kami panjatkan puja dan puji syukur atas kehadirat-Nya, yang telah melimpahkan rahmat, hidayah, dan inayah-Nya kepada kami, sehingga kami dapat menyelesaikan makalah ilmiah tentang Tokenisasi, Stopword Removal, dan Stemming.
Harapan kami semoga makalah ini dapat menambah pengetahuan dan pengalaman bagi para pembaca, Untuk ke depannya dapat memperbaiki bentuk maupun menambah isi makalah agar menjadi lebih baik lagi. Atas dukungan moral dan materil yang diberikan dalam penyusunan makalah ini, maka penulis mengucapkan banyak terima kasih kepada :
1. Dr.Drs. Eri Zuliarso, M.Kom. selaku Dosen Mata Kuliah Sistem Temu Kembali Informasi.
2. Serta semua pihak yang turut serta memberikan semangat dan motivasi.
Penulis menyadari bahwa makalah ini belumlah sempurna. Oleh karena itu, saran dan kritik yang membangun dari rekan-rekan sangat dibutuhkan untuk penyempurnaan makalah ini.
Semarang, Januari 2017
BAB I PENDAHULUAN
1.1. Latar Belakang
Peningkatan jumlah dokumen ilmiah yang ada menimbulkan kebutuhan akan suatu sistem yang dapat memberikan rekomendasi dokumen ilmiah yang baik. Recommendation system merupakan model aplikasi yang dibangun dari hasil pengamatan terhadap keadaan dan keinginan pengguna. Sistem ini memanfaatkan opini pengguna terhadap suatu item dalam domain atau kategori tertentu. Karena itu sistem ini memerlukan model rekomendasi yang tepat agar apa yang direkomendasikan sesuai dengan keinginan pengguna, serta mempermudah pengguna mengambil keputusan yang tepat (McGinty dan Smyth, 2006).
Recommendation system atau disebut pula recommender system mulai diperhatikan sejak kemunculan penelitian tentang collaborative filtering pada pertengahan 90‟an (Goldberg, dkk., 1992), (Resnick, dkk., 1994). Selama dekade terakhir ini, recommendation system telah banyak diterapkan dengan berbagai pendekatan baru, baik oleh dunia industri maupun akademis. Pada dunia industri,
recommendation system sangat diperlukan terutama pada e-commerce web sites. Ini ditunjukkan dengan penggunaan recommendation system pada sebagian besar
e-commerce web sites yang dimiliki oleh industri. Selain membantu pengguna dalam mencari item yang diinginkan, recommendation system juga dapat meningkatkan penjualan, ketertarikan maupun loyalitas pengguna terhadap suatu
item dan juga perusahaan (Godfrey, 2007). Amazone.com merupakan contoh industri yang menerapkan sistem rekomendasi dalam e-commerce web sites
mereka (Linden, dkk., 2003). Penerapan recommendation system berbasis
collaborative filtering juga diterapkan pada jejaring sosial seperti Facebook, MySpace, dan LinkedIn (Ricci, dkk., 2011)
Berbagai metode pendekatan telah diterapkan dan dikembangkan dalam implementasi recommendation system. Berdasarkan object filtering, metode tersebut dapat dikelompokkan ke dalam 3 jenis umum, yaitu metode collaborative
filtering, content-based filtering, dan hybrid filtering (Hsieh, dkk., 2004). Metode yang banyak digunakan adalah collaborative filtering dan content-based filtering. Masing-masing metode tersebut memiliki sejumlah kelebihan. Umpan balik yang digunakan pada metode collaborative filtering mengakibatkan sistem dapat memprediksi keinginan pengguna. Sedangkan metode content-based filtering menggunakan konten dari item
sehingga dapat memberikan rekomendasi tanpa adanya umpan balik dari pengguna.
1.2.Tujuan Penelitian
Tujuan penelitian yaitu menghasilkan recommendation system dokumen ilmiah bahasa Indonesia yang berfokus pada pemanfaatan algoritma penggalian frequent itemset
9
BAB II
LANDASAN TEORI
2.1. Information Retrieval
Information Retrieval (IR) sering sekali dikaitkan dengan pencarian data, merupakan teknologi yang mencakup crawling, processing dan indexing konten, serta querying untuk konten. Crawling adalah tindakan mengakses web server dan file system untuk mendapatkan informasi. Dengan mengikuti link yang ada, pengguna dapat melintasi hirarki konten web berdasarkan sebuah URL (Uniform Resource Locator). Pada tahapan processing memungkinkan pengguna untuk melakukan penambahan, menghapus, dan mengubah informasi menjadi sebuah dokumen, seperti menambah informasi meta baru untuk laguange processing atau menggali informasi tentang bahasa yang tertulis pada dokumen tersebut. Indexing sendiri merupakan proses untuk memeriksa konten yang telah diperiksa pada tahap processing dan membuat sebuah struktur data yang dicari, disebut dengan index, dimana index berisi tentang referensi konten. Querying adalah tahapan untuk melakukan request informasi. IR memperbolehkan pengguna untuk menulis query
dalam bentuk keyword yang menggambarkan informasi yang dibutuhkan oleh pengguna. Disini pengguna dapat berinteraksi dengan query interface, lalu sebuah query-processor
akan menggunakan index untuk mencari referensi informasi berdasarkan keyword dan kemudian menampilkan referensi yang ada. Tujuannya adalah untuk menganalisa dan mengidentifikasi tujuan dari penggunaan query dan memberikan hasil yang paling relevan.
mereka cari dengan cara yang kompatibel dengan mendeskripsi konten yang diciptakan selama indexing (Mortensen, Magnus. 2007).
2.2Information Filtering
Information Filtering (IF) berfokus pada penyaringan informasi berdasarkan profil dari user. Profil user dapat dibentuk dengan membiarkan pengguna menentukan dan menggabungkan minat secara eksplisit, atau dengan membiarkan sistem implisit memonitor prilaku pengguna. Keuntungan IF adalah kemampuannya beradaptasi dengan minat jangka panjang dari pengguna. Sistem ini dibangun atas gagasan untuk memiliki sistem yang mampu memberikan panduan kepada pengguna untuk memilih sesuatu informasi yang bersifat personal atau sesuai dengan selera pengguna. Sistem yang merealisasikan ide ini disebut dengan recommender system Mortensen, Magnus. 2007).
2.3Recommender System (Sistem Rekomendasi)
untuk menarik lebih banyak perhatian pengguna dan meningkatkan kepuasan industri di bidang teknologi informasi dan e-commerce saat ini yang secara bertahap mendatangkan keuntungan dari segi popularitas di berbagai aplikasi, misalnya proyek Netflix, Google news, dan Amazon.
Sistem rekomendasi dibangun dengan tujuan membantu user untuk memilih
item-item yang disukainya dari sekian banyak item yang tersedia. Teknik pencari item
yang akan direkomendasikan dapat dilakukan berdasarkan kemiripan, bisa berupa kemiripan suatu item dengan item lainnya, berdasarkan konten atau kemiripan selera suatu user dengan user lain berdasarkan rating yang diberikan pada item.
2.3.1Teknik Pengumpulan Data Recommender System
Dalam pengumpulan data yang akan digunakan dalam sistem rekomendasi dapat dilakukan dengan dua cara (Sanjung, Ariyani. 2011) yaitu secara eksplisit dan implisit :
1. Secara eksplisit dapat dilakukan misalnya dengan meminta user untuk merating sebuah item dari range tertentu, memberikan ranking berdasarkan dari item yang disukai dan yang tidak disukai oleh user, ataupun dengan meminta user untuk melakukan list terhadap item-item yang disukai.
2. Implisit dilakukan dengan mengamati pola kecenderungan user (behavior user) melalui observasi social network atau dengan mengamati item-item yang sering dilihat atau didengar oleh user. Dengan kata lain, jika secara eksplisit
2.3.2Metode – Metode Recommender System
Berdasarkan pendekatan yang digunakan untuk menghasilkan rekomendasi,
recommender system dapat diklasifikasikan dalam tiga kelompok utama (Leimstoll, U., Stormer, H. 2007) adalah sebagai berikut :
1. Content Based Recommender System.
Metode content based membuat rekomendasi dengan menganalisa deskripsi setiap item untuk mengidentifikasi item mana yang mempunyai hubungan ketertarikan khusus dari seorang user. Deskripsi ketertarikan user diperoleh dari profil user yang didasarkan atas penilaian menarik atau tidaknya suatu
item yang ada pada recommender system ini (Pazzani, Michael J. & Billsus, Daniel. 2007). Pada data item film misalnya, deskripsi konten bisa berupa
genre, aktor yang berpartisipasi, sutradara, dan sebagainya.
2. Collaborative Filtering Recommender System.
Pendekatan collaborative filtering merekomendasikan item kepada user
berdasarkan korelasi antara rating user yang berbeda terhadap item atau transaksi user di dalam sistem. Sementara user merating item, sistem akan menggunakan data rating user tertentu untuk melakukan perhitungan prediksi dan memberikan rekomendasi item yang belum pernah dirating oleh user
tersebut.
3. Hybrid Recommender System.
Secara umum pendekatan hybrid recommendations adalah dengan menggabungkan lebih dari satu metode yang ada pada recommender system, kombinasi yang ada pada teknik ini misalnya dengan menggabungkan metode
2.4Metode Collaborative Filtering
Collaborative filtering (CF) adalah teknologi recommender system yang paling sukses dan populer saat ini, serta penggunaan CF sangat sukses untuk berbagai recommender system yang ada di internet. Teknik ini menggunakan teknik statistik untuk menemukan satu set user yang dikenal sebagai neighbors, dimana setiap user
memiliki kesamaan minat dan pendapat dengan target user (yaitu, mereka memiliki beberapa rating item yang sama atau kecenderungan user menyukai item yang sama). Setelah lingkungan neighbors terbentuk, sistem ini akan menggunakan beberapa algoritma untuk menghasilkan rekomendasi.
Gambar 2.1 Proses Collaborative Filtering (Sarwar, Badrul. 2001).
Dalam skenario CF terdapat daftar pengguna m user U = {u1, u2,…, um} dan daftar item I = {p1, p2,…, pn}. Setiap ui user mengekspresikan pendapatnya tentang daftar item miliknya. Kumpulan set dari pendapat itu disebut dengan rating dari user
ui dan dilambangkan dengan Iui. Setelah sistem ini menentukan ketetanggaan terdekat, maka sistem akan merepresentasikan item yang mungkin disukai user dalam dua bentuk, yaitu:
belum pernah dibeli atau dirating oleh active user. Output dari algoritma CF ini juga dikenal sebagai Top-N Recommendation.
Gambar 2.1 menunjukkan diagram skema dari proses collaborative filtering. Algoritma CF merepresentasikan seluruh m x n user-item sebagai matriks rating dimana setiap entri merupakan nilai rating dari user untuk setiap item. Active user (Ua) pada skema ini merupakan user yang akan dicari
BAB III
IMPLEMENTASI
3.1. Program
install.packages("recommenderlab")
library(datasets)
library(recommenderlab) # package being evaluated
library(ggplot2) # For plots
data(MovieLense)
MovieLense
qplot(getRatings(MovieLense), binwidth = 1,
main = "Histogram of ratings", xlab = "Rating")
summary(getRatings(MovieLense))
Gambar 3.2 Hasil Dari summary(getRatings(MovieLense))
qplot(rowCounts(MovieLense), binwidth = 10,
xlab = "# of users",
ylab = "# of movies rated")
recommenderRegistry$get_entries(dataType = "realRatingMatrix")
scheme <- evaluationScheme(MovieLense, method = "split", train = .9,
k = 1, given = 10, goodRating = 4) scheme
Gambar 3.3. Hasil DarirecommenderRegistry$get_entries(dataType = "realRatingMatrix")scheme <- evaluationScheme(MovieLense, method =
"split", train = .9,k = 1, given = 10, goodRating = 4) scheme
algorithms <- list(
"random items" = list(name="RANDOM", param=list(normalize = "Z-score")),
"popular items" = list(name="POPULAR", param=list(normalize = "Z-score")),
"user-based CF" = list(name="UBCF", param=list(normalize = "Z-score",
results <- evaluate(scheme, algorithms, n=c(1, 3, 5, 10, 15, 20))
plot(results, annotate = 1:4, legend="topleft")
Gambar 3.4. Hasil dari plot(results, annotate = 1:4, legend="topleft")
plot(results, "prec/rec", annotate=3)