Analisa dan Penerapan Metode Algoritma K-Means Clustering Untuk Mengidentifikasi Rekomendasi Kategori Baru Pada List Movie IMDb

(1)

**Analisa dan Penerapan Metode Algoritma K-Means Clustering Untuk** Mengidentifikasi Rekomendasi Kategori Baru Pada List Movie IMDb

Abraham Situmorang^*, Arifin, Ilpan Rusilpan, Christina Juliane Program Pasca Sarjana, STMIK LIKMI, Bandung, Indonesia

Email: ^1,*[email protected], ²[email protected], ³[email protected], ⁴[email protected] Email Penulis Korespondensi: [email protected]

Abstrak−IMDb (Internet Movie Database) situs lengkap yang menyediakan informasi berkaitan dengan film-film di seluruh dunia, berbagai informasi berkaitan dengan profil sutradara, aktor, aktris penulis film serta nominasi penghargaan. Di situs IMDb fasilitas pengunjung bisa melihat rating dan review sesuai apa film yang akan ditonton. IMDb mengkategorikan Top 250 Movies, Most Popular Movies. Kedua kategori yang ada tersebut dirasa kurang efektif dan tidak relevan dengan rekomendasi terhadap para pengunjung untuk memilih dan memutuskan terhadap suatu film tersebut, dikarenakan hasil dari rating tertinggi dan votes yang paling besar saja yang ditampilkan berdasarkan urutan paling tertinggi baik votes ataupun rating dari permasalah itu maka dilakukan pengolahan data menggunakan data mining dengan metode algoritma K-means clustering agar terlihat pola-pola data dan akurasi menggunakan Davies-Bouldin Index (DBI) untuk mengelompokan rating dan votes dengan perhitungan rata-rata dari sebuah klaster untuk menentukan titik centroid, hasil dari penelitian ini menunjukan bahwa DBI paling optimal terdapat pada Cluster K=2 populasi 509 dengan nilai akurasi 0.456, berdasarkan knowledge hasil vote dan rating maka disimpulkan dijadikan sebagai rekomendasi film kategori baru dengan nama Best Recommended Movie kepada calon penonton film di situs imdb.com.

Kata Kunci: IMDb; Data Mining; K-Means; Clustering

Abstract−IMDb (Internet Movie Database) is a comprehensive website that offers information about movies from all over the world, as well as various information about director, actor, actress, and writer biographies and award nominations. Visitors to the IMDb website can browse ratings and reviews based on the movies they plan to watch. Top 250 Movies and Most Popular Movies are two categories on IMDb. Because the results of the highest rating and the largest votes are only displayed based on the highest order of votes or ratings, the two existing categories are judged less useful and irrelevant to the suggestions f or visitors to choose and decide on a film. This is due to the results of the highest rating and the most numerous votes, as determined by the highest ruling on either the votes or the rating. As a result of this, data mining with the K-means clustering algorithm is used to geolocate data in order to view data and accuracy using Davies-Bouldin Index (DBI) to combine ratings and votes with average approach to determine the centroid. Based on the results of this study, it is concluded that the DBI population with the highest accuracy is Cluster K=2 with population 509, with a score of 0.456, based on the voting and rating information, it can be deduced that a new category of movies called Best Recommended Movie is being recommended to potential moviegoers on the imdb.com website.

Keywords: IMDb; Data Mining; K-Means; Clustering

1. PENDAHULUAN

IMDb (Internet Movie Database) merupakan situs yang sangat lengkap dalam menyediakan informasi yang berkaitan dengan film-film dari seluruh dunia, serta informasi yang berkaitan dengan profil aktor atau artis, sutradara, penulis film, sampai informasi mengenai nominasi penghargaan [1]. Ada banyak website yang menyediakan informasi dan ringkasan mengenai film yang terdapat diseluruh dunia, tapi IMDb merupakan salah satu yang terkenal dan paling banyak diminati. IMDb sudah ada sejak tahun 1990, yang membuat website ini menjadi nomor 1 di dunia dalam hal terlengkap dan tercepat untuk menayangkan informasi mengenai film-film tersebut. Pada website tersebut pengunjung bisa memberikan Rating dan Review sesuai apa yang mereka inginkan pada suatu film yang dipilih. Website IMDb sangat terkenal dengan fasilitas para pengunjung bisa melihat Rating pada suatu film yang akan mau ditonton oleh pengunjung tersebut, dengan memperhatikan Rating pengunjung IMDb dengan mudah bisa memutuskan menonton film tersebut atau tidak. Pada website IMDB ini ada banyak juga film-film yang sangat rendah penilaian dan ulasannya, penyebabnya ada banyak faktor, dari mulai faktor jenis genre film, pemeran film, alur film, dan juga yang utama adalah Rating film tersebut sangat rendah.

Penelitian ini bertujuan untuk membuat pengelompokan data IMDB berdasarkan atribut Votes dan Ratings agar mengetahui hubungan antar data yang ada untuk dapat menemukan kategori baru yaitu Best Recommended Movie. Pada website IMDb saat ini hanya mempunyai 2 kelompok besar pembagian film, yaitu Top 250 Movies, Most Popular Movies. Kedua kategori yang ada tersebut dirasa kurang efektif dan tidak relevan dengan rekomendasi terhadap para pengunjung untuk memilih dan memutuskan terhadap suatu film tersebut, sebagai contoh pada film A yang direkomendasikan pada kategori itu mempunyai Voting 10 orang dan semuanya masing- masing memberi Rating 9, maka hasil dari Rating film tersebut akan mendapatkan Rating sangat tinggi yaitu 9.

Disisi lain pada film B mempunyai Voting 1 juta orang, maka akan ada banyak variasi pemberian Rating misalnya 1000 orang memberikan Rating 9, tetapi tidak pengaruh dengan Rating pada film tersebut karena sisanya memberi nilai rendah, yang mengakibatkan Rating film tersebut menjadi rendah karena tidak memperhitungkan Rating tinggi lainnya. Oleh karena itu kami ingin mendapatkan kategori terbaru untuk bisa merekomendasikan film yang

(2)

relevan sesuai parameter Votes dan Ratings agar menghasilkan daftar film-film yang termasuk di dalam Best Recommended Movie.

Pada penelitian ini kami menggunakan perangkat lunak RapidMiner. Ada banyak perangkat lunak untuk melakukan proses data mining, tapi kami memilih RapidMiner karena mudah digunakan, hanya drag and drop.

Perangkat lunak selain RapidMiner memerlukan pengkodean yang cukup rumit, dan butuh waktu mempelajari algoritma standar data mining, itulah alasan kami memilih RapidMiner dari pada perangkat lunak lainnya. Lisensi yang kami digunakan pada RapidMiner ialah Education Version, yang gratis dan sudah cukup dalam mengelola data untuk penelitian kami. RapidMiner dapat melakukan berbagai jenis proses data mining, mulai dari yang mudah sampai yang kompleks, melakukan analisa terhadap text mining sampai pada proses analisa prediksi yang kompleks sekalipun. Dari sisi User Interface, hanya dibutuhkan singkat untuk mempelajari RapidMiner ini, dan juga kami sangat dipermudah dalam melakukan proses data mining, hanya cukup memilih Datasets dalam bentuk file CSV, berikutnya memasukkan komponen Operator yang diperlukan dalam penelitian ini dan dalam waktu singkat kita bisa melakukan proses data mining yang sederhana sesuai tujuan penelitian kami. Jika ingin melakukan yang lebih kompleks lagi, RapidMiner menyediakan pemrograman menggunakan programming language Python atau R sehingga jika membutuhkan proses yang lebih kompleks lagi kita bisa menggunakan fitur programming language tersebut.

Pada penelitian ini kami menggunakan metode penelitian Clustering dengan K-Means menggunakan evaluasi Davies–Bouldin Index atau disingkat DBI [2]. K-Means merupakan metode algoritma yang sangat efektif untuk menganalisis data dengan cepat dan mudah dalam jumlah besar dan cocok dalam penelitian ini [3]. K- Means pada dasarnya bertujuan untuk pengelompokan data-data dalam datasets dengan variabel K yang sudah ditentukan di awal. Variabel K ini kita bisa atur untuk menentukan seberapa banyak kelompok yang ingin dibagi untuk menghasilkan klaster sesuai kemiripan pada atribut tertentu yang sudah ditentukan sebelumnya [4]. Pada K- Means pengelompokan dibuat berdasarkan titik-titik data sesuai kemiripan pada setiap masing-masing cluster.

Titik awal yang dibuat pertama kali dipilih secara acak lalu dibandingkan dan dimasukkan kedalam cluster tersebut atau cluster berikutnya tergantung pada kemiripan dalam suatu titip pada cluster. Titik-titik yang sudah dibuat akan melakukan penghitungan ulang atau evaluasi pada setiap clusternya, ini untuk mengoptimalkan data dalam suatu kelompok setiap klaster. K-Means melakukan titik-titik sebagai penentu cluster atau kelompok mana yang akan dibagi, banyak klaster tergantung variabel K yang kita atur di awal operator Clustering ini. Dalam kasus yang sebenarnya atau kita sebut data sungguhan, K-Means akan membuat titik-titik akan semakin jauh, itu dikarenakan semakin banyak data digunakan akan mempengaruhi titik-titik pada setiap data dalam suatu klaster [5]. Pemilihan Best Recommended Movie dilakukan dengan menggunakan metode K-Means Clustering. Dengan menggunakan metode ini, data-data yang telah didapatkan dapat dikelompokkan ke dalam beberapa cluster berdasarkan kemiripan dari data tersebut, sehingga data yang memiliki karakteristik yang sama dikelompokkan dalam satu cluster dan yang memiliki karakteristik berbeda dikelompokkan dalam cluster lain [6].

Untuk proses data mining membutuhkan data yang disebut dataset [7]. Dataset dibagi kedalam 2 jenis, yaitu private dan public. Pada datasets bersifat private biasanya digunakan atau diambil pada suatu organisasi atau perusahaan. Dataset public biasanya tersedia dengan lisensi bebas yang mudah di download di berbagai website penyedia layanan atau komunitas data mining [8]. Dataset yang kami gunakan adalah IMDb yang bersifat lisensi publik dan mudah didapatkan pada website komunitas data mining seperti kaggle.com. Total dataset yang digunakan pada penelitian ini adalah 9988 film yang cukup banyak untuk kebutuhan proses penelitian ini karena semakin banyak sampel data akan mendapatkan hasil yang optimal [9]. Jumlah yang kami gunakan adalah sebanyak 9 klaster yaitu dua sampai sepuluh klaster dimana setiap klaster memiliki karakteristik yang sama jumlah agar klaster lebih optimal dapat diperiksa menggunakan Davies-Bouldin Index (DBI) [10]. Ada banyak teknik validasi disediakan perangkat lunak RapidMiner, salah satu yang sering dan sangat optimal adalah Performance Vector yang diukur menggunakan algoritma Davies Bouldin Index [11]. Davies Bouldin Index sangat populer dan sangat optimal dengan menghitung rata-rata nilai setiap titik pada himpunan data [12]. Data pada proses mining akan diproses menghasilkan pola rata-rata titik yang terdapat atribut yang sudah ditentukan diawal agar mendapatkan daftar baru pada website IMDb yaitu Best Recommended Movie [13].

Pada penelitian sebelumnya pada tahun 2022 juga, yang dilakukan Reza Gustrianda, dkk [14] meneliti dengan pemodelan data untuk menghasilkan transformasi data yang diolah dengan metode yang digunakan adalah algoritma K-Means dan metode K-Medoids, untuk mendapatkan pemilihan produk unggulan dalam suatu cluster.

Pada tahap evaluasi kinerja clustering pada penelitian ini menggunakan Davies-Bouldin Index karena pada penelitian sebelumnya yang dilakukan Suranta Bill Fatric Ginting, dkk [15] mendapatkan hasil yang terbaik yaitu nilai signifikan yang lebih kecil pada suatu cluster.

2. METODOLOGI PENELITIAN

2.1 Tahapan Penelitian

Pada penelitian ini metode yang digunakan dalam proses pengolahan data untuk menemukan pola-pola tertentu yang sudah kami tentukan yaitu Best Recommended Movie dan referensi dari algoritma analisis yang kami gunakan dalam penelitian ini adalah menggunakan clustering. Pada proses pemilihan data yang kami lakukan dalam jumlah

(3)

besar dari sumber situs kaggle.com mempunyai 6 buah kolom. Perangkat lunak yang kami gunakan adalah menggunakan RapidMiner untuk membantu proses data mining untuk mendapatkan pengelompokan dengan nilai K yang optimal [16]. Beberapa tahapan seperti ditampilkan di Gambar 1 dengan metode clustering dilakukan untuk analisis sentimen agar memiliki alur yang tergambar pada gambar tersebut. Proses preprocessing dilakukan untuk memvalidasi dataset yang meliputi proses tokenizing, filtering, stopword removal, dan stemming [17].

Gambar 1. FlowChart Penelitian cluster K-Means 2.2 Dataset

Dataset yang digunakan adalah data dari situs kaggle.com dengan jumlah data 9998 baris data. Data yang kami unduh dari situs kaggle.com mempunyai 6 buah kolom seperti pada Gambar 2, tetapi yang dibutuhkan dalam proses penelitian ini ada 2 kolom saja yaitu total_vote dan vote_average.

Gambar 2. Contoh Dataset IMDb 2.3 Klasterisasi

Pada tahap ini data proses pengklasteran dilakukan dengan memilih sumbu x dan y dengan rating dan votes, a. Pemilihan secara acak data sebagai centroid

b. Perulangan penempatan data rating dalam centroid terdekat, agar perhitungan terbentuk c. Centroid yang nilainya lebih tinggi akan diambil

2.4 Davies Bouldin Index (DBI)

Dalam penelitian ini penulis menggunakan alat ukur untuk klasterisasi menggunakan Davies Bouldin Index (DBI) dimana akurasi data klaster dengan jarak titik-titik cluster yang paling kecil [18]. Nilai DBI menunjukan Cluster yang paling Optimal [19] untuk formula DBI dijabarkan sebagai berikut:

𝑅𝑗, 𝑘 =𝑀𝐴𝐸𝑗 + 𝑀𝐴𝐸𝑘

𝑑(𝐶𝑗,𝐶𝑘 ) (1)

𝐷𝐵𝐼 =¹

𝑀∑^𝑀_𝑗=1 𝑚𝑎𝑥_𝑗≠1 𝑅𝑗, 𝑘 (2)

3. HASIL DAN PEMBAHASAN

Data hasil preprocessing akan digunakan untuk proses data mining, terdapat dua atribut kunci yang nantinya dipakai dalam penelitian ini yaitu atribut total_vote yang menggambarkan jumlah vote yang dilakukan oleh

(4)

pengguna imdb.com terhadap sebuah film, sedangkan atribut vote_average merupakan atribut yang menggambarkan nilai rating dari suatu film, nilai rating dari suatu film ini biasanya berkisar antara 0 – 10.

3.1 Tahap Data Mining

Dalam tahapan proses data mining, kami menggunakan metode K-Means Clustering untuk mendapatkan cluster terbaik yang selanjutnya bisa dipakai untuk memberikan rekomendasi film terbaik kepada calon penonton berdasarkan parameter jumlah vote dan rating. Hal utama yang menjadi menjadi perhatian sebelum diproses menggunakan metode K-Means Clustering adalah pemilihan atribut supaya proses cluster bisa dijalankan. Dalam hal ini atribut yang dipakai untuk proses cluster adalah atribut total_vote dan atribut vote_average seperti yang ditunjukkan pada Gambar 3.

. Gambar 3. Pemilihan Atribut pada Aplikasi RapidMiner

Setelah dilakukan pemilihan atribut, maka secara proses design bisa ditambahkan metode K-Means Clustering sehingga dihasilkan klaster-klaster data antara jumlah vote dan rating sebagai sumbu x dan y. K-Means Clustering ini menggunakan perangkat lunak bantuan RapidMiner, proses dimulai dari import dataset, pemilihan atribut dan pengaturan metode K-Means Clustering seperti yang terlihat pada Gambar 4.

Gambar 4. Proses Design K-Means Clustering 3.2 Tahap Evaluasi

Setelah dilakukan proses data mining sampai dengan menghasilkan cluster sebagai bentuk representasi dari Knowledge, penulis perlu melakukan proses evaluasi agar hasil cluster yang diperoleh optimal. Dalam penelitian ini dilakukan sembilan kali iterasi, dimana setiap kali iterasi dilakukan perubahan pada parameter jumlah cluster.

Davies-Bouldin Index (DBI) akan digunakan dalam penelitian ini sebagai metode memaksimalkan performance cluster pada tahapan evaluasi sehingga bisa mengelompokkan data berdasarkan film dengan jumlah vote dan rating pada tingkat kemiripan data. Proses desain evaluasi ditambahkan pada setiap metode K-Means Clustering, yang dimulai dari jumlah cluster =2 sampai dengan jumlah cluster =10 seperti yang terlihat pada Gambar 5.

Gambar 5. Proses Desain Evaluasi K-Means Clustering menggunakan DBI

(5)

3.2.1 Iterasi Pertama (K=2)

Proses iterasi dimulai dari jumlah cluster dua atau K=2 sehingga dihasilkan performance vector Avg. within centroid distance senilai 1318271.470, Avg. within centroid distance cluster pertama senilai 695597.745 dan Avg.

within centroid distance cluster kedua senilai 12914193.352. Secara hasil evaluasi performance menggunakan DBI, nilai Davies Bouldin pada jumlah cluster = 2 bernilai 0.456 seperti yang terlihat pada Gambar 6.

Gambar 6. Performance Vector, K=2 3.2.2 Iterasi Kedua (K=3)

Proses iterasi dimulai dari jumlah cluster dua atau K=3 sehingga dihasilkan performance vector Avg. within centroid distance senilai 619341.384, Avg. within centroid distance cluster pertama senilai 208991.386, Avg.

within centroid distance cluster kedua senilai 1939655.701 dan Avg. within centroid distance cluster ketiga senilai 10728358.981. Secara hasil evaluasi performance menggunakan DBI, nilai Davies Bouldin pada jumlah cluster = 3 bernilai 0.478 seperti yang terlihat pada Gambar 7.

Gambar 7. Performance Vector, K=3 3.2.3 Iterasi Ketiga (K=4)

Proses iterasi dimulai dari jumlah cluster dua atau K=4 sehingga dihasilkan performance vector Avg. within centroid distance senilai 371748.843, Avg. within centroid distance cluster pertama senilai 125661.806, Avg.

within centroid distance cluster kedua senilai 8483468.765, Avg. within centroid distance cluster ketiga senilai 2253117.923 dan Avg. within centroid distance cluster keempat senilai 791680.737. Secara hasil evaluasi performance menggunakan DBI, nilai Davies Bouldin pada jumlah cluster = 4 bernilai 0.492 seperti yang terlihat pada Gambar 8.

Gambar 8. Performance Vector, K=4

(6)

3.2.4 Iterasi Keempat (K=5)

Proses iterasi dimulai dari jumlah cluster dua atau K=5 sehingga dihasilkan performance vector Avg. within centroid distance senilai 244358.596, Avg. within centroid distance cluster pertama senilai 61644.775, Avg. within centroid distance cluster kedua senilai 1847040.945, Avg. within centroid distance cluster ketiga senilai 721763.705, Avg. within centroid distance cluster keempat senilai 278453.191 dan Avg. within centroid distance cluster kelima senilai 8101165.647. Secara hasil evaluasi performance menggunakan DBI, nilai Davies Bouldin pada jumlah cluster = 5 bernilai 0.500 seperti yang terlihat pada Gambar 9.

Gambar 9. Performance Vector, K=5 3.2.5 Iterasi Kelima (K=6)

Proses iterasi dimulai dari jumlah cluster dua atau K=6 sehingga dihasilkan performance vector Avg. within centroid distance senilai 184835.651, Avg. within centroid distance cluster pertama senilai 58880.978, Avg. within centroid distance cluster kedua senilai 71000207.999, Avg. within centroid distance cluster ketiga senilai 1348600.069, Avg. within centroid distance cluster keempat senilai 630186.920, Avg. within centroid distance cluster kelima senilai 1938774.779 dan Avg. within centroid distance cluster keenam senilai 260869.591. Secara hasil evaluasi performance menggunakan DBI, nilai Davies Bouldin pada jumlah cluster = 6 bernilai 0.513 seperti yang terlihat pada Gambar 10.

Gambar 10. Performance Vector, K=6 3.2.6 Iterasi Keenam (K=7)

Proses iterasi dimulai dari jumlah cluster dua atau K=7 sehingga dihasilkan performance vector Avg. within centroid distance senilai 129935.444, Avg. within centroid distance cluster pertama senilai 24482.616, Avg. within centroid distance cluster kedua senilai 1118443.375, Avg. within centroid distance cluster ketiga senilai 7100207.999, Avg. within centroid distance cluster keempat senilai 242909.367, Avg. within centroid distance cluster kelima senilai 515808.511, Avg. within centroid distance cluster keenam senilai 86714.983 dan Avg. within centroid distance cluster ketujuh senilai 1904766.741. Secara hasil evaluasi performance menggunakan DBI, nilai Davies Bouldin pada jumlah cluster = 7 bernilai 0.514 seperti yang terlihat pada Gambar 11.

(7)

3.2.7 Iterasi Ketujuh (K=8)

Proses iterasi dimulai dari jumlah cluster dua atau K= 8 sehingga dihasilkan performance vector Avg. within centroid distance senilai 106093.858, Avg. within centroid distance cluster pertama senilai 23759.048, Avg. within centroid distance cluster kedua senilai 861362.459, Avg. within centroid distance cluster ketiga senilai 78509.404, Avg. within centroid distance cluster keempat senilai 418574.566, Avg. within centroid distance cluster kelima senilai 3054401.578, Avg. within centroid distance cluster keenam senilai 1371317.018, Avg. within centroid distance cluster ketujuh senilai 197430.385 dan Avg. within centroid distance cluster kedelapan senilai 1905329.828. Secara hasil evaluasi performance menggunakan DBI, nilai Davies Bouldin pada jumlah cluster = 8 bernilai 0.481 seperti yang terlihat pada Gambar 12.

Gambar 12. Performance Vector, K=8 3.2.8 Iterasi Kedelapan (K=9)

Proses iterasi dimulai dari jumlah cluster dua atau K=9 sehingga dihasilkan performance vector Avg. within centroid distance senilai 83953.020, Avg. within centroid distance cluster pertama senilai 71126.547, Avg. within centroid distance cluster kedua senilai 745754.054, Avg. within centroid distance cluster ketiga senilai 510307.917, Avg. within centroid distance cluster keempat senilai 3054401.578, Avg. within centroid distance cluster kelima senilai 22350.512, Avg. within centroid distance cluster keenam senilai 320300.037, Avg. within centroid distance cluster ketujuh senilai 504891.930, Avg. within centroid distance cluster delapan senilai 1626453.595 dan Avg. within centroid distance cluster kesembilan senilai 169004.482. Secara hasil evaluasi performance menggunakan DBI, nilai Davies Bouldin pada jumlah cluster = 9 bernilai 0.483 seperti yang terlihat pada Gambar 13.

Gambar 13. Performance Vector, K=9 3.2.9 Iterasi Kesembilan (K=10)

Proses iterasi dimulai dari jumlah cluster dua atau K=10 sehingga dihasilkan performance vector Avg. within centroid distance senilai 76865.785, Avg. within centroid distance cluster pertama senilai 22350.512, Avg. within centroid distance cluster kedua senilai 968859.500, Avg. within centroid distance cluster ketiga senilai 473432.633, Avg. within centroid distance cluster keempat senilai 320300.037, Avg. within centroid distance cluster kelima senilai 169004.482, Avg. within centroid distance cluster keenam senilai 517739.490, Avg. within centroid distance cluster ketujuh senilai 2178776.052, Avg. within centroid distance cluster kedelapan senilai 498840.247, Avg. within centroid distance cluster kesembilan senilai 400967.593 dan Avg. within centroid

(8)

distance cluster kesepuluh senilai 71126.547. Secara hasil evaluasi performance menggunakan DBI, nilai Davies Bouldin pada jumlah cluster = 10 bernilai 0.478 seperti yang terlihat pada Gambar 14.

Dari keseluruhan hasil iterasi yang telah dijalankan menggunakan metode evaluasi DBI, didapatkan jumlah cluster optimal terdapat pada cluster K=2 dengan nilai Davies Bouldin sebanyak 0.456. Selanjutnya akan di ambil hasil berupa Knowledge dari hasil data mining dengan pola penyebaran data jumlah vote (total_vote) dan rating (vote_average) seperti yang terlihat pada Gambar 15.

Gambar 15. Titik-titik bentuk Visual

Hasil clustering setelah kami melakukan optimasi maka diketahui titik-titik centroidnya. Berikut titik-titik centroid yang terdapat pada sembilan kali iterasi berikut dengan nilai DBI-nya yang tertuang pada tabel dibawah ini:

Tabel 1. Tabel Pengukuran Cluster

Iterasi Klaster Result Of DBI Avg.within centroid distance

Iterasi 1 2 0.456 1.318.271.470

Iterasi 2 3 0.478 619.341.384

Iterasi 3 4 0.492 371.748.843

Iterasi 4 5 0.500 244.358.596

Iterasi 5 6 0.513 184.835.651

Iterasi 6 7 0.514 129.935.444

Iterasi 7 8 0.481 106.093.858

Iterasi 8 9 0.483 83.953.020

Iterasi 9 10 0.478 76.865.785

4. KESIMPULAN

Proses penelitian data mining menggunakan dataset IMDb Movie telah dilakukan, didapatkan hasil dan kesimpulan bahwa Clustering K-Means dengan evaluasi Davies-Bouldin-Index menghasilkan optimasi jumlah cluster. Terdapat sembilan kali iterasi yang dijalankan, didapatkan nilai DBI paling optimal dari jumlah cluster K

= 2. Sesuai dengan tujuan penelitian ini yaitu menemukan kategori baru untuk memberikan rekomendasi list film

(9)

kepada calon penonton, pada hasil jumlah cluster K =2 bisa disimpulkan bahwa cluster kedua (cluster 1) dengan populasi data sebanyak 509 data seperti yang ditunjukkan pada Gambar 15 merupakan cluster terbaik atau bisa kita sebut sebagai Best Recommended Movie yang berhasil mengelompokkan film berdasarkan vote dan rating sehingga memberikan New Insight kepada calon penonton dalam memilih film2 yang ada pada situs imdb.com.

Untuk penelitian lebih lanjut, sebaiknya Clustering K-Means dibandingkan dengan tools Data Mining lainnya. dan dari segi data, diharapkan data IMDB dapat dimanfaatkan lebih besar lagi misalnya 1 juta film, sehingga proses clustering lebih baik dan tepat dalam mengelompokkan data dalam jumlah besar dan dapat menentukan kinerja teknik data mining saat menggunakan data yang besar. Karena keterbatasan waktu dan tenaga, kami menyadari bahwa hasil penelitian ini masih belum sempurna, oleh karena itu untuk penelitian selanjutnya dapat dibandingkan dengan metode clustering lainnya ataupun bisa menggunakan metode evaluasi yang lain sebagai bahan perbandingan. Selain itu metode penelitian bisa juga menggunakan dengan Forecasting sehingga bisa diprediksi berdasarkan parameter yang ada untuk film2 jenis tertentu.

REFERENCES

[1] G. Cahyani, W. Widayani, S. D. Anggita, and ..., “Klasifikasi Data Review IMDb Berdasarkan Analisis Sentimen Menggunakan Algoritma Support Vector Machine,” J. Media …, vol. 6, pp. 1418–1425, 2022, doi:

10.30865/mib.v6i3.4023.

[2] Z. Nabila, A. Rahman Isnain, and Z. Abidin, “Analisis Data Mining Untuk Clustering Kasus Covid-19 Di Provinsi Lampung Dengan Algoritma K-Means,” J. Teknol. dan Sist. Inf., vol. 2, no. 2, p. 100, 2021, [Online]. Available:

http://jim.teknokrat.ac.id/index.php/JTSI

[3] T. M. Dista and F. F. Abdulloh, “Clustering Pengunjung Mall Menggunakan Metode K-Means dan Particle Swarm Optimization,” vol. 6, pp. 1339–1348, 2022, doi: 10.30865/mib.v6i3.4172.

[4] D. Anggarwati, O. Nurdiawan, I. Ali, and D. A. Kurnia, “Penerapan Algoritma K-Means Dalam Prediksi Penjualan Karoseri,” J. Data Sci. Inform., vol. 1, no. 2, pp. 58–62, 2021.

[5] G. Gustientiedina, M. H. Adiya, and Y. Desnelita, “Penerapan Algoritma K-Means Untuk Clustering Data Obat-Obatan,”

J. Nas. Teknol. dan Sist. Inf., vol. 5, no. 1, pp. 17–24, 2019, doi: 10.25077/teknosi.v5i1.2019.17-24.

[6] T. Hartati, O. Nurdiawan, and E. Wiyandi, “Analisis Dan Penerapan Algoritma K-Means Dalam Strategi Promosi Kampus Akademi Maritim Suaka Bahari,” J. Sains Teknol. Transp. Marit., vol. 3, no. 1, pp. 1–7, 2021, doi:

10.51578/j.sitektransmar.v3i1.30.

[7] R. R. Putra and C. Wadisman, “Implementasi Data Mining Pemilihan Pelanggan Potensial Menggunakan Algoritma K- Means Implementation of Data Mining for Potential Customer Selection Using K-Means Algorithm,” J. Inf. Technol.

Comput. Sci., vol. 1, no. 1, pp. 72–77, 2018.

[8] I. F. Ashari, R. Banjarnahor, D. R. Farida, S. P. Aisyah, A. P. Dewi, and N. Humaya, “Application of Data Mining with the K-Means Clustering Method and Davies Bouldin Index for Grouping IMDB Movies,” J. Appl. Informatics Comput., vol. 6, no. 1, pp. 07–15, 2022, doi: 10.30871/jaic.v6i1.3485.

[9] A. Maulana and A. A. Fajrin, “Penerapan Data Mining Untuk Analisis Pola Pembelian Konsumen Dengan Algoritma Fp-Growth Pada Data Transaksi Penjualan Spare Part Motor,” Klik - Kumpul. J. Ilmu Komput., vol. 5, no. 1, p. 27, 2018, doi: 10.20527/klik.v5i1.100.

[10] I. Romli, “Penerapan Data Mining Menggunakan Algoritma K-Means Untuk Klasifikasi Penyakit Ispa,” Indones. J. Bus.

Intell., vol. 4, no. 1, p. 10, 2021, doi: 10.21927/ijubi.v4i1.1727.

[11] I. R. Mahartika and A. Wibowo, “Data Mining Klasterisasi dengan Algoritme K-Means untuk Pengelompokkan Provinsi Berdasarkan Konsumsi Bahan Bakar Minyak Nasional,” Pros. Semin. Nas. SISFOTEK (Sistem Inf. dan Teknol., vol. 3, no. 1, pp. 87–91, 2019, [Online]. Available: https://seminar.iaii.or.id/index.php/SISFOTEK/article/view/108

[12] I. Kamila, U. Khairunnisa, and M. Mustakim, “Perbandingan Algoritma K-Means dan K-Medoids untuk Pengelompokan Data Transaksi Bongkar Muat di Provinsi Riau,” J. Ilm. Rekayasa dan Manaj. Sist. Inf., vol. 5, no. 1, p. 119, 2019, doi:

10.24014/rmsi.v5i1.7381.

[13] R. Gustrianda and D. I. Mulyana, “Penerapan Data Mining Dalam Pemilihan Produk Unggulan dengan Metode Algoritma K-Means Dan K-Medoids,” J. Media Inform. Budidarma, vol. 6, no. 1, p. 27, 2022, doi: 10.30865/mib.v6i1.3294.

[14] S. B. F. Ginting, S. Sawaluddin, and M. Zarlis, “Kombinasi Pembobotan Symmetrical Uncertainty Pada K-Means Clustering Dalam Peningkatan Kinerja Pengelompokan Data,” J. Media Inform. Budidarma, vol. 6, no. 1, p. 484, 2022, doi: 10.30865/mib.v6i1.3366.

[15] W. Gie and D. Jollyta, “Perbandingan Euclidean dan Manhattan Untuk Optimasi Cluster Menggunakan Davies Bouldin Index : Status Covid-19 Wilayah Riau,” Pros. Semin. Nas. Ris. Dan Inf. Sci. 2020, vol. 2, no. April, pp. 187–191, 2020.

[16] M. R. L. Iin Parlina, Agus Perdana Windarto, Anjar Wanto, “Memanfaatkan Algoritma K-Means Dalam Menentukan Pegawai Yang Layak Mengikuti Asessment Center,” Memanfaatkan Algoritm. K-Means Dalam Menentukan Pegawai Yang Layak Mengikuti Asessment Cent. Untuk Clust. Progr. Sdp, vol. 3, no. 1, pp. 87–93, 2018.

[17] S. Hendrian, “Algoritma Klasifikasi Data Mining Untuk Memprediksi Siswa Dalam Memperoleh Bantuan Dana Pendidikan,” Fakt. Exacta, vol. 11, no. 3, pp. 266–274, 2018, doi: 10.30998/faktorexacta.v11i3.2777.

[18] S. Ramadhani, D. Azzahra, and T. Z, “Comparison of K-Means and K-Medoids Algorithms in Text Mining based on Davies Bouldin Index Testing for Classification of Student’s Thesis,” Digit. Zo. J. Teknol. Inf. dan Komun., vol. 13, no.

1, pp. 24–33, 2022, doi: 10.31849/digitalzone.v13i1.9292.

[19] A. A. Az-zahra, A. F. Marsaoly, I. P. Lestyani, R. Salsabila, and W. O. Z. Madjida, “Penerapan Algoritma K-Modes Clustering Dengan Validasi Davies Bouldin Index Pada Pengelompokkan Tingkat Minat Belanja Online Di Provinsi Daerah Istimewa Yogyakarta,” J. MSA ( Mat. dan Stat. serta Apl. ), vol. 9, no. 1, p. 24, 2021, doi:

10.24252/msa.v9i1.18555.