KESIMPULAN DAN SARAN - 5.2.1 Pencarian frequent item FP-Tree Conditional FP-Tree Ekstraksi item

Pada bab ini berisi kesimpulan dari hasil penelitian serta saran-saran untuk penelitian lebih lanjut.

BAB II

TINJAUAN PUSTAKA

Recommendation system pertama kali muncul pada tahun 1997 (Resnick dan Varian, 1997). Beberapa penelitian yang telah dilakukan sebelumnya berkaitan dengan document recommendation system dan hybrid recommendation system.

2.1 Document Recommendation System

Hsieh dkk. (2004) mengajukan recommendation system yang dapat melakukan penyaringan berita online secara efektif pada world wide web. Recommendation system ini menggunakan pendekatan content-based dan collaborative filtering yang dimodifikasi. Untuk meminimalisasi waktu komputasi, pendekatan ini mengatur minimum support dan confident untuk pencarian hunbungan asosiatif antar item. Klasterisasi akan diterapkan dalam pencarian kedekatan berita dengan berbasis isi dari berita. Setiap pengguna sistem harus memasukkan peringkat untuk setiap berita yang dibaca, sehingga pengguna harus terdaftar sebelumnya. Jika pengguna membaca berita dan merasa tertarik pada isi berita, maka berita tersebut akan direkomendasikan ke tetangga terdekat. Dimana kedekatan ini dihitung dengan algoritma lintasan terpendek. Dengan penggunaan pendekatan yang diusulkan Hsieh dkk. (2004), sistem dapat mengatasi kelemahan cluster-based recommnedation system yaitu dapat memberikan rekomendasi kepada pengguna walaupun pengguna tidak masuk ke dalam salah satu kelas.

Penelitian Hsieh dkk. (2004) memiliki perbedaan dengan penelian ini pada penggunaan data input untuk menentukan rekomendasi. Penelitian ini hanya melibatkan data transaksi pemilihan dokumen dan konten dokumen untuk menentukan rekomendasi. Penelitian dkk. (2004) menggunakan kaidah asosiasi sebagai algoritma untuk mencari hubungan asosiatif antara berita, sedangkan penelitian ini hanya menggunakan penggalian itemset untuk pencarian hubungan asosiatif antara dokumen.

Market-based collaborative information-filtering (MarCol) dibangun untuk untuk pencarian dokumen yang relevan untuk pengguna. MarCol diusulkan oleh Melamed dkk. (2007) dengan memanfaatkan pendekatan collaborative filtering. Pencarian dokumen yang relevan dicari menggunakan kemiripan antara query yang dimasukkan pengguna serta kemiripan antara pengguna. Dengan kata lain, dokumen yang direkomendasikan dihasilkan dari pencocokan keyword yang dimasukkan oleh pengguna yang dikombinasikan dengan data transaksi dan data profil penggguna. Selain itu, recommendation system diaplikasikan dengan penerapan biaya rekomendasi. Dalam penelitian Melamed dkk. (2007) terdapat 2 biaya yang diuji yaitu gratis dan berbayar. Berdasarkan hasil penelitian, penerapan model MarCol menunjukkan adanya peningkatan umpan balik dan kualitas rekomendasi. MarCol merupakan penelitian yang berfokus pada perbedaan anatara sistem gratis dan berbayar. Selain dalam penggunaan algoritma, penelitian ini berbeda dengan MarCol pada bagian penggunaan data identitas pengguna dalam penentuan rekomendasi dokumen.

Penelitian recommendation system untuk dokumen juga dilakukan oleh Popa dkk. (2008). Hanya saja, penelitian Popa dkk. (2008) difokuskan untuk dokumen ilmiah dan menerapkan sistem yang terdistribusi. Sistem yang dibangun akan menghasilkan 2 rekomendasi yaitu “pengguna yang mirip” dan “dokumen yang mungkin disukai”. Untuk rekomendasi “pengguna yang mirip”, sistem akan menghitung kemiripan menggunakan pendekatan klasifikasi dengan berbasis pada identitas pengguna. Daftar rekomendasi pengguna tersebut akan digunakan untuk membentuk identitas pengguna yang baru terdaftar. Sedangkan untuk “dokumen yang mungkin disukai”, sistem akan melakukan klaterisasi terhadap dokumen. Sebelum melakukan klasterisasi, sistem akan mencari dokumen yang sesuai dengan pengguna berdasarkan data transaksi pengguna lain yang memiliki karakteristik sama. Dalam implementasinya, pendekatan Popa dkk. (2008) berhasil melakukan rekomendasi dokumen ilmiah berbasis sudut pandang pengguna. Penelitian Popa dkk. (2008) juga memanfaatkan content-based filtering dengan isi dokumen sebagai data untuk melakukan penyaringan dokumen

rekomendasi. Penelitian Popa dkk. (2008) dan penelitian ini memiliki perbedaan pada bagian penggunaan data identitas untuk menghitung kemiripan antara pengguna. Penelitian ini tidak memperhatikan latar belakang dari pengguna sistem dalam penentuan dokumen terkait.

Pham dan Trach (2011) mengungkapkan bahwa menemukan dan merekomendasikan dokumen yang relevan bagi pengguna yang membutuhkan bukanlah tugas yang mudah. Mereka lalu mengusulkan pendekatan recommendation system dengan memanfaatkan kemiripan dokumen. Pendekatan Pham dan Trach (2011) menggunakan konten dari dokumen digabungkan dengan social tags dan data pengguna yang terkait. Ketiga faktor tersebut lalu disebut sebagai 3 dimensi dokumen. Dilihat dari faktor yang digunakan, pendekatan yang diusulkan merupakan gabungan antara user-based, item-based collaborative filtering, dan content-based filtering. Dengan demikian, pendekatan sistem yang diusulkan merupakan sistem hybrid. Penelitian Pham dan Trach (2011) mendapati hasil bahwa ketiga dimensi tersebut memiliki kontribusi penting dalam perhitungan kemiripan dokumen. Akan tetapi, penggunaan tag yang diberikan oleh komunitas dan profil pengguna untuk menghitung kemiripan mengakibatkan pengguna harus terdaftar terlebih dahulu di dalam sistem.

Suzuki dkk. (2011) mengusulkan metode recommendation system baru untuk dokumen dengan pendekatan content-based menggunakan kompresi data. Berbeda dengan penelitian recommendation system dokumen sebelumnya yang hanya menggunakan sejumlah kata pada dokumen untuk mencari kedekatan profil pengguna serta dokumen, pendekatan Suzuki dkk. (2011) menggunakan kombinasi kompresi data, kedekatan profil pengguna, dan dokumen berdasarkan kata yang ada pada dokumen. Hasil eksperimen menggunakan surat kabar Jepang menunjukkan bahwa metode kompresi data lebih baik daripada metode yang hanya mengandalkan sejumlah kata pada dokumen, terutama ketika topik pada surat kabar berjumlah besar. Selain itu metode kombinasi Suzuki dkk. (2011) mengungguli metode kompresi data sebelumnya dan kombinasi kompresi data serta pemanfaatan kata pada dokumen juga dapat meningkatkan kinerja. Maka

dari itu dapat disimpulkan bahwa metode Suzuki dkk. (2011) lebih baik dalam menangkap profil pengguna dan dengan demikian memberikan kontribusi untuk membuat recommendation system untuk dokumen yang lebih baik.

Perbedaan penelitian ini dengan penelitian Suzuki dkk. (2011) terletak pada penggunaan algoritma dan data acuan untuk menentukan rekomendasi. Penelitian ini menggunakan keyword sebagai penentu rekomendasi. Penentuan keyword ini tidak menggunakan tahap kompresi data. Penelitian ini juga mengabaikan data identitas pengguna dalam penentuan rekomendasi.

2.2 Hybrid Recommendation System

Item-based Clustering Hybrid Method (ICHM) diusulkan oleh Li dan Kim (2003). Metode ini dirancang untuk mengatasi kasus cold-start yang terdapat pada metode collaborative filtering. Bebeda dengan penelitian ini, ICHM memanfaatkan atribut dari item dalam penemtuaan rekomendasi saat kasus coldstart. Metode ini memanfaatkan klasterisasi untuk pengelompokan item dengan memanfaatkan kemiripian setiap item yang dicari berdasarkan atribut dari item tersebut. Lalu dengan collaborative filtering, data peringkat yang diberikan pengguna akan digunakan untuk menentukan kemiripan selera pengguna satu dengan pengguna lain terhadap item tertentu. Sistem ICHM diaplikasikan untuk rekomendasi data film yang diambil dari MovieLens.org. Sistem ICHM diuji dengan menggunakan perhitungan mean absolute error (MAE). Setelah diuji, sistem ICHM dikatakan dapat mengatasi cold-start problem dengan memanfaatkan teknik klasterisasi tersebut. Selain itu, sistem ICHM juga dapat meningkatkan kualitas prediksi yang dihasilkan.

Liangxing dan Aihua (2010) mengusulkan sebuah hybrid recommendation system yang berbasis content-base filtering dan collaborative filtering yang dapat memberikan rekomendasi pembelian bagi pelanggan VIP dari toko pakaian ritel. Sebelum menghasilkan rekomendasi akhir, sistem yang diusulkan Liangxing dan Aihua (2010) membentuk daftar rekomendasi awal dengan menggunakan gabungan hasil dari 2 proses collaborative filtering. Proses pertama adalah

pengolahan data transaksi pembelian menggunakan metode item-based collaborative filtering. Proses kedua adalah pengolahan data pengguna menggunakan metode user-based collaborative filtering. Daftar rekomendasi awal tersebut diproses dengan content-based filtering yang berupa pengklasifikasian produk untuk menghasilkan rekomendasi akhir. Penggunaan metode user-based collaborative filtering mebuat penelitian Liangxing dan Aihua (2010) berbeda dengan penelitian ini. Hasil pengujian menunjukkan bahwa hybrid recommendation system dapat melaksanakan analisis selera pelanggan dan rekomendasi produk di toko pakaian ritel.

Penelitian tentang Item-based Clustering Hybrid Method (ICHM) kembali dilakukan oleh Djamal dkk. (2010). ICHM merupakan salah satu cara untuk menggabungkan metode yang digunakan dalam pembangunan recommendation system. Pembahasan pada penelitian difokuskan pada implementasi ICHM dalam recommendation system untuk film dengan dataset yang bersumber dari movielens.org. Pada sistem yang dibangun, content-based filtering dimanfaatkan pada klasterisasi pada konten setiap item. Sedangkan item-based collaborative filtering dimanfaatkan dalam perhitungan kedekatan antara item dengan menggunakan peringkat yang telah diberikan oleh pengguna. Untuk perhitungan prediksi yang dihasilkan, sistem ICHM menggunakan 2 pendekatan yang berbeda. Yang pertama untuk masalah start dan yang kedua untuk masalah non cold-start. Walaupun dapat memberikan rekomendasi tanpa data peringkat, penggunaan data peringkat sebagai salah satu penentu rekomendasi pada penelitian Djamal dkk. (2010) berbeda dengan penelitian ini yang sama sekali tidak memperhitungkan data peringkat item sebagai penentu rekomendasi. Hasil implementasi menunjukkan bahwa recommender system dengan metode ICHM dapat memprediksi item baru yang belum memiliki peringkat sama sekali dengan cara memperhitungkan kedekatan berdasarkan genre item. Selain itu setelah dihitung berdasarkan mean absolute error (MAE) penambahan jumlah cluster hingga 70 buah cenderung meningkatkan akurasi prediksi baik untuk kasus cold-start dan kasus non cold-cold-start, namun akurasi turun pada jumlah cluster sebanyak

60 buah karena terdapat nilai membership yang saling bertolak belakang untuk beberapa item di beberapa cluster.

Hybrid recommendation system yang menerapkan pendekatan berbeda diajukan oleh Chikhaoui dkk. (2011) dengan melakukan penelitian tentang recommendation system yang menggunakan 3 pendekatan, yaitu collaborative filtering, content-based, dan demographic filtering untuk rekomendasi film. Pada collaborative filtering digunakan pendekatan dengan menggunakan neigborhood-based terhadap data peringkat. Dalam pendekatan neigborhood-neigborhood-based, kesukaan dari pengguna u terhadap item i akan dihitung berdasarkan kesukaan pengguna lain yang memiliki karakteristik mirip dengan pengguna u terhadap item i. Dengan algoritma KNN, data karakteristik film seperti genre, negara pembuat, dan tanggal perilisan digunakan sebagai pembanding untuk menentukan kemiripan suatu item terhadap item i. Pengolahan data karakteristik film tersebut merupakan content-based filtering. Pada sisi demographic filtering dicari pengguna yang memiliki kesukaan yang mirip atau selera yang sama. Demographic filtering ini digunakan untuk mengatasi kelemahan dari collaborative filtering dan juga content-based filtering pada saat terjadinya kasus coldstart. Selain algoritma yang digunakan, penggunaan data identitas pengguna dan penggunaan atribut item merupakan perbedaan utama antara penelitian ini dan penelitian Chikhaoui dkk. (2011). Dengan melalui eksperimen, hasil penelitian Chikhaoui dkk. (2011) menunjukkan bahwa pendekatan tersebut mencapai akurasi yang baik dengan cakupan tinggi melebihi algoritma penyaringan konvensional serta metode hybrid biasa. Selain itu, hasil eksperimen menunjukkan bagaimana pendekatan Chikhaoui dkk. (2011) berhasil mengatasi kasus cold-start dengan memasukkan karakteristik demografis pengguna.

Di tahun yang sama, Hayati (2011) membangun hybrid recommendation system untuk penentuan daerah wisata. Dalam penentuan rekomendasi, sistem yang dibangun menggunakan peringkat daerah wisata dan profil pengguna sebagai acuan. Sistem tersebut juga memiliki keunggulan dengan tidak diperlukannya data masukan dan peringkat awal untuk mendapatkan rekomendasi karena penggunaan

algoritma klasifikasi terhadap data daerah wisata dan profil pengguna. Pengklasifikasian dilakukan dengan menggunakan algoritma nearest neighbor untuk mencari kedekatan antara daerah wisata dan juga pengguna, sehingga hybrid recommendation system yang dibangun berhasil mengatasi masalah cold-start.

Penentuan rekomendasi dokumen dilakukan dengan memperhatikan data peringkat dan data identitas pengguna. Pendekatan tersebut memiliki kelemahan pada kasus coldstart yaitu saat sistem tidak memiliki data umpan balik dari pengguna. Selain itu, penelitian sebelumnya tidak memperhatikan data transaksi yang didapat dari pemilihan dokumen. Secara umum, terdapat beberapa perbedaan antara penelitian ini dengan penelitian-penelitian sebelumnya. Selain pada algoritma penentuan rekomendasi, penelitian ini tidak memanfaatkan data identitas pengguna dan data peringkat sebagai data acuan untuk penentuan rekomendasi. Hal ini dapat mengurangi kekhawatiran penyalahgunaan data identitas pengguna. Selain itu, untuk pengguna baru maupun saat sistem baru dibangun tidak akan terkendala dengan kebutuhan data umpan balik dari pengguna untuk penentuan rekomendasi dokumen. Hal ini dimungkinkan karena penggunaan konten dokumen sebagai data penentuan rekomendasi.

Pada Tabel 2.1 akan ditunjukkan perbandingan dan ringkasan dari beberapa penelitian yang telah disebutkan diatas.

16 Tabel 2.1 Tinjauan pustaka

No. Peneliti Domain Metode Hasil

1. Li dan Kim (2003) Film Collaborative filtering pada pemeringkatan item

dan klasifikasi terhadap atribut item

Mengatasi masalah cold-start pada

collaborative filtering

2. Hsieh, Huang, Hsu dan Chang (2004)

Berita Collaborative fitering pada pemeringkatan item

dan content-based filtering pada konten beserta data transaksi item

Mengatasi kelemahan cluster-based

recommnedation system yaitu dapat

memberikan rekomendasi kepada pengguna walaupun pengguna tidak masuk ke dalam salah satu kelas

3. Melamed, Shapira dan Elovici (2007)

Dokumen Collaborative filtering pada umpan balik

pengguna dan pencarian dengan memperhatikan

query yang dimasukkan pengguna

Menunjukkan adanya peningkatan umpan balik dan kualitas rekomendasi

4. Popa, Negru, Pop dan Muscalagiu (2008)

Dokumen ilmiah

Pendekatan klasifikasi dengan berbasis pada profil pengguna dan klasterisasi pada data dokumen

Menghasilkan recommendation system terdistribusi berbasis sudut pandang pengguna 5. Liangxing dan Aihua

(2010)

Pakaian Item-based collaborative filtering pada data

transaksi pembelian, user-based collaborative

filtering pada data pengguna, content-base filtering untuk pengklasifikasian produk

Dapat melaksanakan analisis selera pelanggan dan rekomendasi produk di toko pakaian ritel

6. Djamal, Maharani dan Kurniati (2010)

Film Content-base filtering pada klasterisasi pada

konten setiap item. Item-based collaborative

filtering dalam perhitungan peringkat

Dapat memprediksi item baru yang belum memiliki peringkat sama sekali

7. Pham dan Thach (2011)

Dokumen User-based collaborative filtering terhadap data

pengguna, item-based collaborative filtering terhadap social tag, dan content-based

filteringterhadap isi dokumen

Ketiga dimensi dokumen Memiliki kontribusi penting dalam perhitungan kemiripan dokumen

8. Chikhaoui, Chiazzaro dan Wang (2011)

Film collaborative filtering pada data peringkat item, content-based pada data karakteristik film, dan demographic filtering pada data pengguna

Mengatasi kasus cold-start dengan memasukkan karakteristik demografis pengguna

9. Hayati (2011) Daerah wisata

Collaborative filtering pada peringkat daerah

wisata dan profil pengguna. Jika tidak

Mengatasi masalah cold-start dengan penerapan klasifikasi

Hamamoto dan Aizawa (2011)

data yang menggunakan “kantong kata”

11. Parwita (2014) Dokumen Ilmiah

Item-based collaborative filtering pada penggalian frequent itemset dengan memanfaatkan data

transaksi dan content-based filtering pada perbandingan keyword dokumen dengan perhitungan cosine similarity.

Menghasilkan rekomendasi tanpa menggunakan data identitas pengguna dan data peringkat. Serta mengatasi kelemahan dan

menggabungkan keunggulan penggunaan metode collaborative filtering atau

BAB III

LANDASAN TEORI

3.1 Recommendation System

Recommendation system merupakan teknik dan software untuk menghasilkan usulan item yang akan dimanfaatkan oleh pengguna. “Item” merupakan istilah yang digunakan untuk menyatakan apa yang direkomendasikan oleh sistem kepada pengguna. Usulan tersebut dihasilkan berdasarkan berbagai proses pengambilan keputusan seperti barang apa yang akan dibeli, lagu apa yang ingin didengarkan dan berita apa yang akan dibaca. Dalam bentuknya, recommendation system akan memberikan semacam daftar item. Item tersebut dapat berupa produk maupun jasa. Dalam pembuatan daftar item tersebut, recommendation system mencoba untuk menemukan produk atau jasa yang paling sesuai berdasarkan kebutuhan dan keinginan pengguna. Untuk menemukannya, recommendation system menggunakan data ketertarikan pengguna yang dinyatakan secara eksplisit dalam data peringkat item atau disimpulkan dengan menebak tindakan pengguna (Ricci, dkk., 2011).

Pembangunan recommendation system dimulai dari keinginan untuk meniru kebiasaan sederhana yaitu pengguna sering mengandalkan rekomendasi yang diberikan oleh pengguna lain dalam membuat rutinitas maupun keputusan. Contohnya adalah saat penonton ingin menyaksikan sebuah film. Untuk memutuskan apakah layak atau tidak menyaksikan film tersebut, maka penonton akan menilai dari review maupun pendapat dari penonton yang telah menyaksikan film tersebut. Dalam pembangunan recommendation system, dilakukan penerapan algoritma dengan memanfaatkan rekomendasi yang dihasilkan oleh komunitas pengguna untuk memberikan rekomendasi kepada pengguna lain. Item yang direkomendasikan merupakan item yang disukai oleh pengguna-pengguna dengan selera serupa. Pendekatan ini disebut collaborative filtering dengan dasar pemikirannya adalah jika pengguna setuju dengan pendapat beberapa pengguna lain terhadap suatu item, maka rekomendasi yang dihasilkan dari pengguna lain dengan selera sama akan relevan dan menarik bagi pengguna tersebut. Pendapat

pengguna dapat berupa peringkat yang diberikan maupun pilihan yang dilakukan oleh pengguna.

Collaborative filtering merupakan implementasi paling sederhana dan merupakan versi awal dari pendekatan recommendation system. Kemiripan selera dari dua pengguna dihitung berdasarkan kesamaan dalam pendapat pengguna terhadap item. Dengan kata lain, collaborative filtering adalah proses penyaringan atau evaluasi item menggunakan pendapat dari orang lain (Schafer, dkk., 2007).

Content-based filtering dan collaborative filtering telah lama dipandang saling melengkapi. Content-based filtering dapat memprediksi relevansi untuk item tanpa peringkat (misalnya, item baru, artikel berita, halaman website). Content-based filtering memerlukan konten untuk melakukan analisis. Pada beberapa hal, konten merupakan sesuatu yang langka (misalnya, rekomendasi untuk restoran dan buku teks yang tersedia tanpa ulasan) atau sulit untuk mendapatkan dan mewakili konten itu (misalnya, film dan musik). Di sisi lain, collaborative filtering membutuhkan peringkat item untuk melakukan prediksi tanpa memerlukan konten.

Content based filtering dan collaborative filtering dapat dikombinasikan secara manual oleh pengguna untuk menentukan fitur tertentu. Dalam implementasinya kedua metode tersebut dapat digabungkan secara otomatis yang disebut dengan pendekatan hybrid. Ada banyak cara dalam menggabungkan metode tersebut dan tidak ada kesepakatan di antara peneliti untuk cara menggabungannya.

3.2 Penggalian Frequent Itemset

Kaidah asosiasi adalah teknik data mining untuk menemukan aturan asosiatif antara suatu kombinasi item. Fungsi kaidah asosiasi seringkali disebut dengan “market basket analysis”. Penting tidaknya suatu aturan asosiatif dapat diketahui dengan menggunakan dua parameter, support yaitu persentase kombinasi item tersebut dalam basis data dan confidence yaitu kuatnya hubungan antar item dalam aturan asosiatif. Salah satu tahap dalam kaidah asosiasi adalah

menemukan semua kombinasi dari item, disebut dengan itemset, yang jumlah kemunculannya lebih besar daripada minimum support (Rajaraman dan Ullman, 2010). Misalkan, ada sekumpulan data transaksi pembelian perangkat komputer seperti yang ditunjukkan pada Tabel 3.1.

Tabel 3.1 Data transaksi

Transaction ID (TID) Item

1 processor, motherboard, memory 2 processor, motherboard, memory

3 processor 4 processor, motherboard 5 motherboard 6 processor, motherboard 7 processor, memory 8 motherboard, memory 9 motherboard 10 memory

Setiap data transaksi sering disebut dengan keranjang (basket). Setelah disusun, setiap keranjang tersebut dapat direpresentasikan dengan Tabel 3.2.

Tabel 3.2 Representasi keranjang

Produk TID Jumlah

processor 1, 2, 3, 4, 6, 7 6 motherboard 1, 2, 4, 6, 8, 9 6 memory 1, 2, 7, 8, 10 5 processor, motherboard 1, 2, 4, 6 4 processor, memory 1, 2, 7 3 motherboard, memory 1, 2, 8 3

processor, motherboard, memory 1, 2 2

Tabel 3.3 Frequent itemset Produk

processor motherboard memory

Data transaksi tersebut akan dikenakan minimum support sebesar 40% dari jumlah data transaksi sehingga didapatkan beberapa itemset melebihi minimum support disebut dengan frequent itemset yang ditunjukkan oleh Tabel 3.3.

3.2.1 FP-Growth

Salah satu algoritma penggalian frequent itemset yang cepat dan juga populer adalah algoritma FP-Growth. FP-Growth berbasis pada tree disebut dengan FP (Frequent Pattern)-Tree (Zaki dan Meira, 2014). FP-Tree dapat menghemat penggunaan memori untuk penyimpanan data transaksi. Ide dasar dari FP-Growth dapat digambarkan sebagai skema eliminasi secara rekursif. Dalam langkah preprocessing, dilakukan penghapusan semua item yang kemunculannya kurang dari minimum support yang diberikan. Kemudian dipilih semua transaksi yang mengandung frequent item lalu dibentuk FP-Tree berdasarkan data transaksi tersebut. Dalam penggalian frequent itemset, dibentuk conditional FP-Tree yang berakhir pada salah satu frequent item. Pembentukan ini dilakukan secara rekursif dengan mengeliminasi satu persatu frequent item akhir yang terdapat pada tree tersebut. Penentuan frequent itemset dilakukan bersamaan saat pengeliminasian dengan melihat support dari frequent item tersebut (Han, dkk., 2011).

a d f d a a c d e d 8 d c a e b d b 7 d b b c d c 5 d b c b c a 4 b c a b d e 3 d b a b d e f 2 d b e b c e g g 1 b c e c d f d c a b d d b a

Gambar 3.1 Penentuan frequent item

Sebelum membentuk FP-Tree, semua item tunggal yang memenuhi minimum support (frequent item) diidentifikasi dan diurutkan berdasarkan banyaknya jumlah kemunculan (Han, dkk., 2011). Kemudian untuk item yang tidak memenuhi minimum support akan diabaikan dari data transaksi, karena item tersebut sudah pasti bukan bagian dari frequent itemset. Pengurutan item

dilakukan dari yang paling sering muncul ke yang paling jarang. Hal ini untuk meningkatkan kinerja dari algoritma (Borgelt, 2005). Gambar 3.1 merupakan contoh penentuan frequent item untuk minimum support 3 dan pengurutan itemset berdasarkan jumlah kemunculan.

d : 8 b : 7 a : 4 e : 3 c : 5 d : 8 b : 5 b : 2 c : 1 c : 2 c : 2 a : 2 a : 1 a : 1 e : 1 e : 1 e : 1 Gambar 3.2 FP-Tree

FP-Tree mengandung data label, jumlah kemunculan, alamat parent, child, dan prefix path (Han, dkk., 2011). Contoh FP-Tree ditunjukkan oleh Gambar 3.2. Untuk kepentingan pembentukan prefix path, maka child sebuah node diurutkan berdasarkan jumlah kemunculan keseluruhan.

d : 8 b : 7 a : 4 e : 3 c : 5 d : 8 b : 5 b : 2 c : 1 c : 2 c : 2 a : 2 a : 1 a : 1 e : 1 e : 1 e : 1

Conditional FP-Tree merupakan bagian FP-Tree yang berakhir pada node tertentu. Conditional FP-Tree digunakan untuk penggalian frequent itemset (Han, dkk., 2011). Misalnya, untuk penentuan item „e‟ akan diambil semua path node yang berakhir di „e‟. Lalu, node „e‟ di masing path akan dihapus. Gambar 3.3 dan Gambar 3.4 merupakan contoh pembentukan conditional FP-Tree yang berakhir pada node „e‟.

d : 2 b : 1 c : 1 c : 1 a : 1 b : 1 d : 2 b : 2 a : 1 c : 2

Gambar 3.4 Conditional FP-Tree item „e‟

Untuk penentuan itemset lain yang mengandung „e‟, maka conditional FP-Tree item tersebut akan dibentuk dari conditional FP-FP-Tree „e‟. Gambar 3.5 merupakan contoh pembentukan conditional FP-Tree untuk itemset „b e‟. Penggalian frequent itemset dilakukan secara rekursif. Jika node memenuhi minimum support maka node tersebut merupakan frequent itemset. Gambar 3.6

Dalam dokumen 5.2.1 Pencarian frequent item FP-Tree Conditional FP-Tree Ekstraksi itemset Implementasi Cosine (Halaman 15-102)