• Tidak ada hasil yang ditemukan

ANALISIS KLASTERISASI PELANGGARAN LALU LINTAS MENGGUNAKAN ALGORITMA K-PROTOTYPE - Teknokrat Repository

N/A
N/A
Protected

Academic year: 2024

Membagikan "ANALISIS KLASTERISASI PELANGGARAN LALU LINTAS MENGGUNAKAN ALGORITMA K-PROTOTYPE - Teknokrat Repository"

Copied!
23
0
0

Teks penuh

(1)

LANDASAN TEORI

2.1. Penelitian Terdahalu

Bahan perbandingan dalam penelitian ini adalah salah satu penelitian dari Elisawati, Deasy Wahyuni, dan Adi Arianto (2019) dari Jurusan Sistem Informasi dan Teknik Informatika Sekolah Tinggi Manajemen Informatika dan Komputer (STMIK) Dumai dengan judul penelitian Analisa Clustering Pada Data Pelanggaran Lalu Lintas Di Pengadilan Negeri Dumai Dengan Menggunakan Metode K-Means.

Permasalahan yang ada yaitu banyaknya data tilang pelanggaran yang diterima oleh Pengadilan Negeri Dumai dan data tersebut belum dikelompokkan sesuai dengan jenis pelanggaran. Penelitian ini menggunakan data pelanggaran lalu lintas di Pengadilan Negeri Dumai pada bulan Desember pada tahun 2017, dengan data sebanyak 621 data. Atribut yang digunakan pada penelitian ini yaitu jenis kendaraan dan jenis pelanggaran (pasal). Dengan melakukan analisa dan pengelompokkan menggunakan metode K-Means. Hasil dari penelitian ini adalah metode clustering dengan algoritma K-Means dapat diimplementasikan untuk membantu dalam pengelompokkan pelanggaran lalu lintas di pengadilan negeri dumai. Perbandingan pada penelitian terdahulu dan rancangan penelitian yang penulis lakukan yaitu ada pada algoritma yang digunakan pada penelitian terdahulu algoritma K-Means digunakan untuk mengolah data. Sedangkan pada rancangan penelitian yang penulis lakukan menggunakan algoritma K-Prototype dengan studi kasus pada penelitian ini dilakukan di Pengadilan Negeri Kotabumi dan data yang digunakan yaitu data

(2)

pelanggaran lalu lintas pada tahun 2020 sebanyak 3662 data. Atribut yang akan digunakan sebanyak 4 atribut yaitu berupa asal kendaraan, jenis pelanggaran, denda, dan bukti.

2.2. Tinjauan Pustaka

Dalam mendukung penelitian yang akan dilakukan, penulis mengambil enam tinjauan pustaka yang berkaitan dengan judul penulis. Berikut adalah tinjauan pustaka:

Tabel 2.1. Tinjauan Pustaka No.

Literatur

Penulis dan Tahun

Judul Algoritma Hasil

Literarur 01

(Abdussalam et al., 2020)

Klasterisasi Perkara

Pelanggaran Lalu Lintas

Menggunakan Algoritma K-Means dan Davies Bouldin Index

K-Means dan Davies Bouldin Index

Metode klasterisasi dengan

menggunakan algoritma K-Means dapat

diimplementasikan untuk

mengelompokkan perkara

pelanggaran lalu lintas yang ada di Pengadilan Negeri Slawi.

(3)

No.

Literatur

Penulis dan Tahun

Judul Algoritma Hasil

Literatur 02

(Nooraeni et al., 2019)

K-Prototype Untuk

Pengelompokan Data Campuran

Algoritma K- Prototype

Metode K-

Prototype adalah metode

pengklusteran berdasarkan pada metode K-Means tetapi

dikembangkan dengan

menambahkan ukuran jarak kemiripan untuk

data tipe

kategorikal.

Sehingga K-Prototype dapat diterapkan pada data berukuran besar dan data bertipe numerik maupun

kategorikal.

(4)

No.

Literatur

Penulis dan Tahun

Judul Algoritma Hasil

Literatur 03

Aris Wijayanto,

Yoyon K.

Sprapto, dan D.

P. Wulandari (2017)

Clustering on Multidimensional Poverty Data Using PAM an K- Prototypes Algorithm

Partitioning Around Medoids (PAM) dan K-Prototypes Algorithm

Dari penelitian ini didapatkan bahwa K-Prototype

dengan 2 klaster 59% lebih baik dibandingkan

PAM. Uji

skalabilitas menunjukkan

bahwa algoritma K-Prototypes lebih cepat daripada algoritma PAM Literatur

04

G.S. Nithya, dan K.Arun Prabha (2019)

A Lion

Optimization Based K-Prototype Clustering

Algorithm For Mixed Data

Algoritma A Lion

Optimization dengan K-Prototype

Hasil dari

penelitian ini dengan algoritma Lion Optimization berdasarkan K-Prototype

Clustering, lebih unggul

dibandingkan

(5)

No.

Literatur

Penulis dan Tahun

Judul Algoritma Hasil

kinerja algoritma K-Means

Clustering Literatur

05

Mehmed F

Yildirim, Mohammed Aladeemy, dan Mohammad Khasawneh (2019)

K-Prototype Clustering

Algorithm For Segmentation Of Primary Care Patietns

Algoritma K-Prototype

Hasilnya dapat membantu pembuat kebijakan

kesehatan untuk mengambil

keputusan berdasarkan kebutuhan

masyarakat. Studi ini membuktikan bahwa analisis cluster pada populasi pasien dapat membantu.

mengelola sumber daya secara efisien dalam komunitas

(6)

No.

Literatur

Penulis dan Tahun

Judul Algoritma Hasil

Literatur 06

Ahmad Shohibus Sulthoni, Rachmadita Andreswari, Faqih Hamami (2020)

Segmentasi Pelanggan Pt.

Telekomunikasi Seluler Indonesia Menggunakan Clustering Algoritma K-Prototypes Dan Metode Elbow Sebagai

Perumusan Strategi Marketing

Algoritma K-Prototype

Algoritma K-Prototype dapat digunakan pada studi kasus segmentasi

pelanggan Telkomsel,

algoritma yang digunakan dapat mengatasi data numerik dan kategorik dengan baik

a. Literatur 01

Oleh (Abdussalam et al., 2020) mahasiswa dari Fakultas Ilmu Komputer, Universitas Dian Nuswantoro Semarang dengan judul penelitian Klasterisasi Perkara Pelanggaran Lalu Lintas Menggunakan Algoritma K-Means dan Davies Bouldin Index. Penelitian ini dilakukan untuk menganalisis dan mengelompokan data perkara pelanggaran lalu lintas tahun 2017 dengan metode K-Means supaya mempermudah untuk mengetahui jenis pelanggaran yang sering kali dilakukan

(7)

oleh penguna kendaraan. Dimana atribut yang ditentukan sebanyak 5 atribut yaitu no register pelanggaran, form, pasal pelanggaran, jenis kendaraan, dan jenis kelamin. metode evaluasi cluster menggunakan metode Davies Bouldin Index (DBI). Hasil pada penelitian ini yaitu Metode klasterisasi dengan menggunakan algoritma K-Means dapat diimplementasikan untuk mengelompokkan perkara pelanggaran lalu lintas yang ada di Pengadilan Negeri Slawi.

b. Literatur 02

Oleh (Nooraeni et al., 2019) dari Sekolah Tinggi Ilmu Statistik dengan judul K-Prototype Untuk Pengelompokan Data Campuran. Penelitian ini dilakukan untuk mengetahui hasil cluster baik atau tidak jika digunakan untuk klasterisasi data bertipe campuran. Tujuannya adalah mencoba menerapkan algoritma K-Prototype pada data campuran. Data yang digunakan adalah dataset podes 2011. Ukuran data yang digunakan pada simulasi ini sebanyak 77.961 objek atau desa dan 37 atribut yang terdiri dari 17 atribut numerik dan 20 atribut kategorikal. Hasilnya adalah algoritma K-Prototype memberikan hasil clustering yang lebih baik.

c. Literatur 03

Oleh Aris Wijayanto, Yoyon K. Suprapto, D. P. Wulandari (2017) dari jurusan Teknik Elektro Institut Teknologi Sepuluh November dengan judul penelitian Clustering on Multidimensional Proverty Data Using PAM and K- Prototypes Algorithm. Permasalahan pada penelitian adalah angka kemiskinan di Indonesia dari tahun ke tahun terus menunjukan tren menurun. Akan tetapi,

(8)

masalah kemiskinan masih menjadi perhatian serius pemerintah Indonesia.

Pengukuran kemiskinan diperlukan untuk mengatasi ketidakpuasan dengan menggunakan pendekatan untuk mengukur kemiskinan moneter. Data kemiskinan multidimensi adalah jenis data numerikal dan kategorikal. Data yang digunakan adalah data mentah yaitu Survei Sosial Ekonomi Nasional (SUSENAS). Algoritma yang sesuai untuk clustering pada tipe data campuran adalah PAM dan K-prototypes. Studi ini bertujuan untuk menyelidiki penggunaan PAM (Partitioning Around Medoids) dan K-Prototype serta membandingkan efektivitasnya dalam pengelompokan tipe data campuran, menggunakan data kemiskinan dari data pemerintah yang dipublikasikan. Hasil dari penelitian ini didapatkan bahwa K-Prototype dengan 2 klaster 59% lebih baik dibandingkan PAM dalam pengelompokan rumah tangga miskin multidimensi di Provinsi Jambi. Uji skalabilitas menunjukkan bahwa algoritma K-prototypes lebih cepat daripada algoritma PAM.

d. Literatur 04

Oleh G.S. Nithya, dan K.Arun Prabha (2019) dari Vellalar College for Women, Erode, Tamil Nadu, India dengan judul penelitian A Lion Optimization Based K-Prototype Clustering Algorithm For Mixed Data. Tujuan dari penelitian ini adalah untuk mengoptimalkan algoritma clustering K-Prototype dengan menggunakan algoritma Lion Optimization Algorithm. Data yang digunakan yaitu data hepatitis, pasien pasca operasi, persetujuan kredit Australia, data kredit Jerman. Lion Optimization Algorithm merupakan salah

(9)

satu teknik optimasi sederhana yang dapat diimplementasikan secara efektif untuk meningkatkan hasil clustering. Berguna untuk menangani kumpulan data campuran. Ini mengarah pada pengoptimalan yang lebih baik untuk menghitung centroid dengan algoritma pengelompokan K-Prototype. Untuk mengatasi permasalahan pada algoritma clustering K-Prototype digunakan algoritma Lion optimization. Hasilnya algoritma Lion Optimization berdasarkan K-Prototype Clustering, lebih unggul dibandingkan kinerja algoritma K-Means Clustering.

e. Literatur 05

Oleh Mehmed F Yildirim, Mohammed Aladeemy, dan Mohammad Khasawneh dengan judul penelitian ”K-Prototype Clustering Algorithm For Segmentation Of Primary Care Patietns” Tujuan penelitian ini adalah untuk memastikan kelangsungan kesehatan dan kesejahteraan penduduk dengan berbagai intervensi. Dataset yang digunakan yaitu terdiri dari 165.171 catatan pasien unik di 32 lokasi perawatan primer rumah sakit komunikasi di Upstate New York selama rentang waktu 18 bulan berturut-turut. Sebanyak 17 faktor telah digunakan untuk analisis, yaitu umur, jenis kelamin, status pengobatan, asma, diabetes, gagal jantung kongestif, kanker, gangguan jiwa, jumlah obat, pemanfaatan ruang gawat darurat, jumlah kunjungan rawat inap dan rawat jalan, dll. Hasil dari penelitian ini adalah Algoritma clustering dapat membantu pembuat kebijakan kesehatan untuk mengambil keputusan berdasarkan kebutuhan masyarakat. Studi ini membuktikan bahwa analisis cluster pada

(10)

populasi pasien dapat membantu mengelola sumber daya secara efisien dalam komunitas.

f. Literatur 06

Oleh Ahmad Shohibus Sulthoni, Rachmadita Andreswari, Faqih Hamami (2020) dari dengan judul penelitian ”Segmentasi Pelanggan Pt.

Telekomunikasi Seluler Indonesia Menggunakan Clustering Algoritma K- Prototypes Dan Metode Elbow Sebagai Perumusan Strategi Marketing”

Penggunaan algoritma k-prototypes adalah data yang digunakan penulis berbentuk Tabel dengan nilai kategori dan numerik. Sehingga k-prototypes cocok untuk diimplementasikan pada data seperti ini. Selain itu, metode elbow juga termasuk metode yang tergolong populer untuk menemukan nilai parameter klaster yang tepat pada algoritma k-prototype. Algoritma K- Prototype dapat digunakan pada studi kasus segmentasi pelanggan Telkomsel, algoritma yang digunakan dapat mengatasi data numerik dan kategorik dengan baik

2.3. Pelanggaran Lalu Lintas

Pelanggaran lalu lintas adalah pelanggaran atau tindakan yang bertentangan dengan hukum lalu lintas/perundang-undangan lalu lintas. Berdasarkan Undang- Undang Nomor 22 Tahun 2009 tentang Lalu Lintas dan Angkutan Jalan, yang disahkan DPR pada 22 Juni 2009, berikut merupakan pelanggaran lalu lintas yang dilakukan oleh pengendara kendaraan bermotor :

(11)

1. Pasal 278, Setiap pengendara mobil yang tidak dilengkapi dengan perlengkapan berupa segitiga pengaman, ban cadangan, pembuka roda, dongkrak dan peralatan pertolongan pertama pada kecelakaan.

2. Pasal 280, Setiap pengendara kendaraan bermotor yang tak dipasangi Tanda Nomor Kendaraan.

3. Pasal 281, Setiap pengendara kendaraan bermotor yang tidak memiliki SIM.

4. Pasal 285 ayat 1, Setiap pengendara sepeda motor yangmtidak memenuhi persyaratan teknis dan laik jalan seperti spion, lampu utama, lampu rem, klakson, pengukur kecepatan, dan knalpot.

5. Pasal 285 ayat 2, Setiap pengendara mobil yang tidak memenuhi persyaratan teknis seperti spion, klakson, lampu utama, lampu mundur, lampu rem, kaca depan, bumper, penghapus kaca.

6. Pasal 287 ayat 1, Setiap pengendara yang melanggar rambu lalu lintas.

7. Pasal 287 ayat 2, Melanggar Apill (TL) Melanggar aturan Perintah atau larangan yang dinyatakan dengan alat pemberi isyarat Lalu Lintas.

8. Pasal 287 ayat 5, Setiap pengendara yang melanggar aturan batas kecepatan paling tinggi atau paling rendah.

9. Pasal 288 ayat 1, Setiap pengendara yang tidak dilengkapi Surat Tanda Nomor Kendaraan Bermotor atau Surat Tanda Coba Kendaraan Bermotor.

10. Pasal 288 ayat 2, Setiap pengendara kendaraan bermotor yang memiliki SIM namun tak dapat menunjukkannya saat razia.

11. Pasal 289, Setiap pengemudi atau penumpang yang duduk disamping pengemudi mobil tak mengenakan sabuk keselamatan.

(12)

12. Pasal 291 ayat 1, Setiap pengendara atau penumpang sepeda motor yang tidak mengenakan helm standar nasional.

13. Pasal 291 ayat 2, Setiap orang yang mengemudikan sepeda motor yang membiarkan penumpang tidak mengenakan helm.

14. Pasal 293 ayat 1, Setiap orang yang mengemudikan Kendaraan Bermotor di Jalan tanpa menyalakan lampu utama pada malam hari dan kondisi tertentu.

15. Pasal 293 ayat 2, Setiap orangyang mengemudikan Sepeda Motor di Jalan tanpa menyalakan lampu utama pada siang hari.

16. Pasal 294, Setiap pengendara sepeda motor yang akan berbelok atau balik arah tanpa memberi isyarat lampu.

17. Pasal 307, Setiap orang yang mengemudikan Kendaraan Bermotor Angkutan Umum Barang yang tidak mematuhi ketentuan mengenai tata cara pemuatan, daya angkut, dimensi kendaraan.

2.4. Data Mining

2.4.1. Pengertian Data Mining

Adapun pengertian Data Mining menurut beberapa ahli, Data mining adalah suatu proses untuk mendapatkan informasi dengan melakukan pencarian pola dan relasi-relasi yang tersembunyi didalam suatu tumpukan data yang banyak. Data mining bisa digunakan untuk membantu pengambilan keputusan dimasa mendatang (Sriandrita, 2018). Data mining adalah bidang ilmu yang digunakan untuk menangani masalah dalam pengambilan informasi dari database yang besar dengan menggabungkan teknik dari statistik, pembelajaran

(13)

mesin, visualisasi data, pengenalan pola, dan database (Indah, Barry, &

Muhammadun, 2020).

Data mining juga merupakan metode yang digunakan dalam pengolahan data berskala besar oleh karena itu data mining memiliki peranan yang sangat penting dalam beberapa bidang kehidupan diantaranya yaitu bidang industri, bidang keuangan, cuaca, ilmu dan teknologi (Sari, Wanto, & Windarto, 2018).

Data Mining adalah proses dari menganalisa data dari prespektif yang berbeda dan menyimpulkannya ke dalam informasi yang berguna (Arta et al, 2016). Data mining membahas penggalian atau pengumpulan informasi yang berguna dari kumpulan data. Informasi yang biasanya dikumpulkan adalah pola-pola tersembunyi pada data, berhubungan antar elemen-element data ataupun pembuatan model untuk keperluan peramalan. (Sigit adinugroho, 2018). Istilah data mining memiliki hakikat sebagai disiplin ilmu yang tujuan utamanya adalah untuk menemukan, menggali, atau menambang pengetahuan dari data atau informasi yang kita miliki.

2.4.2. Tahapan Data Mining

Tahapan dalam Data Mining Menurut (Zai, 2022) ada empat tahap yang akan dilalui dalam proses data mining, yaitu:

a. Tahap pertama: pernyataan yang tepat terhadap permasalahan sebelum mengakses perangkat lunak data mining, jika tidak ada masalah dalam penelitian tersebut maka solusi yang dihasilkan menjadi sia-sia.

(14)

b. Tahap kedua: tahap ini merupakan tahap mempersiapkan data yang termasuk dalam data mining dengan melakukan cleaning, transformasi data, memilih subset record, dataset, langkah awal seleksi. Memvisualisasikan dan Mendeskripsikan data merupakan kunci dari tahap ini.

c. Tahap ketiga: Memilih yang terbaik bagi performasi prediktif dan Melakukan pertimbangan terhadap ragam permodelan.

d. Tahap keempat: Memilih aplikasi yang tepat dan melakukan permodelan untuk membuat prediksi.

2.4.3. Fungsi Data Mining

() fungsi data mining dapat dibagi menjadi beberapa fungsi yaitu:

1. Fungsi Minor atau fungsi tambahan, yang meliputi deskripsi, estimasi dan prediksi.

2. Fungsi Mayor atau fungsi utama, yang meliputi klasifikasi, pengelompokan, dan asosiasi.

2.4.4. Karakteristik Data Mining

Data Mining memiliki beberapa karakteristik tertentu yaitu:

a. Data Mining berhubungan dengan penemuan sesuatu yang tersembunyi dan pola data tertentu yang tidak diketahui sebelumnya.

b. Data Mining dapat menggunakan data yang rumit, sangat besar dan lama dalam penyelesaiannya, sehingga informasi yang dihasilkan dapat terpercaya.

(15)

c. Data Mining hanya berguna dalam membuat keputusan kritis, terutama dalam strategi.

2.4.5. Pengelompokan Data Mining

Ada beberapa tugas yang dapat dilakukan oleh Data Mining dalam proses pemecahan masalah dan pencarian pengetahuan baru, diantaranya adalah sebagai berikut:

a. Klastering (Clustering)

Digunakan untuk mengelompokkan atau mengidentifikasi data yang mempunyai karakteristik tertentu. Contoh: K-Means, K-Modes, dan lain-lain.

b. Klasifikasi (Classification)

Digunakan untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Contoh algoritma: C4.5, K-Nearest Neighbor (KNN), dan lain-lain.

c. Asosiasi (Association)

Digunakan untuk mengatasi masalah bisnis yang khas, yakni dengan menganalisa Tabel transaksi penjualan dan mengidentifikasi produk-produk yang seringkali dibeli bersamaan oleh customer, misalnya apabila orang membeli sambal, biasanya juga dia membeli kecap. Contoh algoritma:

Apriori, Frequent Pattern Growth (FP-Growth), dan lain-lain.

(16)

d. Estimasi (Estimation)

Digunakan untuk memperkirakan atau menilai sesuatu hak yang belum pernah ada sebelumnya yang disajikan dalam bentuk hasil kuantitatif (angka).

Contoh algoritma : Regresi Linier, Confidence Interval Estimastions, dan lain-lain.

e. Prediksi (Predictions)

Digunakan untuk memperkirakan atau meramalkan suat kejadian yang belum pernah terjadi. Contoh algoritma: Decision Tree, K-Nearest Neighbor (KNN), dan lain-lain.

2.5. Knowledge Discovery in Database (KDD)

2.5.1. Tahapan Knowledge Discovery in Database (KDD)

Data Mining merupakan bagian internal atau tahapan dari Knowledge Discovery in Database. Knowledge Discovery in Database merupakan sekumpulan proses untuk menemukan pengetahuan yang bermanfaat dari data, dapat dibagi menjadi beberapa langkah-langkah. Berikut merupakan langkah- langkah yang dapat dilihat pada Gambar 2.1.

Gambar 2.1. Tahapan Knowledge Discovery in Database (KDD) Sumber: (Putra & Wadisman, 2018)

(17)

Keterangan Gambar :

a. Data Seleksi (Data Selection)

Merupakan pemilihan atau seleksi data dari sekumpulan data operasional, dilakukan sebelum tahap penggalian informasi dalam KDD. Data dari hasil seleksi disimpan pada suatu berkas yang terpisah dari basis data operasional.

b. Pre-processing

Proses cleaning perlu dilakukan pada data yang menjadi fokus knowledge discovery in database (KDD). Beberapa dari proses cleaning, memeriksa daya yang inkonsisten, membuang duplikasi data dan memperbaiki kesalahan data.

c. Transformasi (Transformation)

Pada tahap ini dilakukan perubahan data yang memiliki tipe data yang awalnya tidak bisa diolah secara metematis menjadi data yang bisa diolah.

d. Data Mining

Data mining atau penambangan data merupakan proses untuk mencari pola informasi menarik dalam data terpilih menggunakan metode atau teknik tertentu.

e. Interpretation

Proses ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya.

(18)

Knowledge Discovery in Databases (KDD) merupakam penerapan metode pada data mining. Dalam konteks ini data mining merupakan satu langkah dari proses KDD.

2.6. Clustering

2.6.1. Pengertian Clustering

Clustering atau klasterisasi adalah metode atau teknik pengelompokan data. Clustering berbeda dengan klasifikasi yaitu tidak adanya variabel target dalam clustering. Clustering tidak mencoba untuk melakukan klasifikasi ataupun memprediksi nilai dari variabel target. Akan tetapi, proses ini mencoba untuk melakukan pembagian terhadap keseluruhan data menjadi kelompok-kelompok yang memiliki kemiripan. Teknik clustering banyak diterapkan dalam berbagai bidang. Contohnya dalam bidang medis, clustering dapat digunakan untuk mengelompokkan jenis-jenis penyakit berdasarkan gejala-gejala dan karakteristik yang dialami pasien.

Clustering adalah proses pengelompokkan record, observasi, atau mengelompokkan kelas yang memiliki kesamaan objek. Clustering merupakan proses pengelompokan satu set objek data atau cluster sehingga benda-benda dalam suatu kelompok memiliki kesamaan yang tinggi, tetapi sangat berbeda dengan objek di kelompok lain.

2.6.2. Syarat Clustering

Menurut (Cui, 2020), syarat dan tantangan yang harus dipenuhi oleh algoritma clustering adalah:

(19)

a. Skalibilitas

Suatu metode clustering harus mampu untuk menangani data dalam jumlah sangat besar.

b. Kemampuan analisa beragam bentuk data.

Algoritma klasterisasi harus dapat diimplementasikan pada berbagai macam bentuk data seperti data ordinal, nominal, maupun gabungannya.

c. Menemukan cluster dengan bentuk yang tidak terduga

Banyak algoritma clustering yang menggunakan metode Euclidean atau Manhattan yang hasilnya berbentuk bulat. Padahal hasil clustering dapat berbentuk aneh dan tidak sama antara satu denga n yang lain. Karenanya dibutuhkan kemampuan untuk menganalisa cluster dengan bentuk apapun pada suatu algoritma clustering.

d. Kemampuan untuk dapat menangani noise

Data tidak selalu dalam keadaan baik. Ada saatnya terdapat data rusak, hilang, atau tidak dimengerti. Oleh karena itu suatu algoritma clustering dituntut untuk mampu menangani data yang rusak.

e. Sensifitas terhadap perubahan input

Perubahan atau penambahan data pada saat input data dapat menyebabkan terjadinya perubahan pada cluster yang telah ada bahkan dapat menyebabkan perubahan yang signifikan apabila menggunakan algoritma clustering yang memiliki tingkat sensifitas rendah.

(20)

f. Mampu melakukan clustering untuk data dimensi tinggi

Suatu kelompok data dapat berisi banyak atribut. Oleh sebab itu diperlukan algoritma clustering yang mampu menangani data dengan jumlah atribut yang tidak sedikit.

g. Interpresasi dan kegunaan

Hasil dari clustering harus berguna dan dapat diinpretasikan.

2.6.3. Metode Clustering

Metode clustering secara umum dapat dibagi menjadi dua yaitu hierarchical clustering dan partitional clustering, berikut ini merupakan metode clustering:

a. Hierarchical Clustering

Hierarchical clustering, data dikelompokkan melalui suatu bagan berupa hirarki, dimana terdapatpenggabungan dua grup yang terdekat disetiap iterasinya ataupun pembagian dari seluruh set data kedalam cluster.

b. Partitional Clustering.

Partitional clustering, data dikelompokkan ke dalam beberapa cluster tanpaadanya struktur hirarki antara satu dengan yang lainnya. Pad metode partitional clustering setiap cluster memiliki titik pusat cluster (centroid) dan secara umum metode ini memiliki fungsi tujuan yaitu meminimumkan jarak (dissimilarity) dari seluruh data ke pusat cluster masing-masing.

(21)

2.7. Algoritma K-Prototype

Algoritma K-Prototype merupakan algoritma dengan pendekatan gabungan dari algoritma k-means dan algoritma k-modes, yaitu data campuran penggabungan antara data numerik dan data kategorikal. Menurut (Yildirim et al., 2019), menganalisis algoritma clustering K-Prototype untuk data bertipe data campuran seperti data numerikal dan kategorikal. Metode berbasis K-Means memiliki efisiensi set data yang besar dan memiliki nilai numerik yang terbatas untuk dievaluasi. K-Protoype mempunyai keunggulan karena algoritma yang tidak terlalu kompleks dan mampu menangani data yang besar serta lebih baik dibandingkan dengan algoritma yang berbasis hierarki. Algoritma K-Prototype merupakan salah satu metode clustering berbasis partitioning. Menurut (Nooraeni, Suprijadi and Zulhanif, 2019), telah mengusulkan algoritma pengelompokan K-Prototype untuk dataset yang tidak lengkap dengan atribut bertipe data campuran numerikal dan kategorikal. Algoritma K Prototype tradisional sangat ahli dalam mengelompokkan data dengan atribut numerikal dan kategorikal campuran, sedangkan data yang lengkap terbatas.

Pada proses clustering dengan K-Prototype dilakukan beberapa proses yang terbagi menjadi 3 tahapan utama sebagai berikut :

a. Inisialisasi awal atau penentuan nilai k. Pada proses ini dilakukan pemilihan sejumlah k prototype secara acak dari dataset x sesuai dengan jumlah cluster yang ditentukan.

b. Menghitung jarak seluruh data pada dataset terhadap inisialisasi awal, lalu alokasikan data tersebut kedalam x cluster terdekat.

(22)

c. Menghitung titik pusat cluster atau centroid yang baru setelah semua objek pada cluster telah dialokasikan lalu lakukan realokasi pada semua objek jika titik pusat tidak terjadi perubahan maka proses akan berhenti. Proses ini akan terus dilakukan sampai tidak adalagi perubahan prototype atau sampai kriteria stopping terpenuhi. Ukuran ketidaksamaan yang digunakan dengan menggabungkan persamaan euclidean distance dengan dissimilarity, seperti pada persamaan (2.1) dan (2.2) sebagai berikut:

𝑑𝑖𝑠𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 ∶ 𝛿(𝑥 , 𝑦 )

𝑥 = 𝑦 0 ………(2.1)

𝑥 ≠ 𝑦 1 c

𝐸𝑢𝑐𝑙𝑖𝑑𝑒𝑎𝑛 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒 (𝑥, 𝑦) = ∑ (𝑥 − 𝑦 ) ……….………….(2.2) Ukuran jarak untuk data numerik dan data kategorikal adalah dengan persamaan (2.3) berikut :

𝒅𝟐(𝒙, 𝒚) = ∑ (𝒙𝒋 𝒑

𝒋 𝟏 − 𝒚𝒋)𝟐+ 𝒚 ∑𝒎 𝜹 𝒙𝒋, 𝒚𝒋

𝒋 𝒑 𝟏 ………..……….(2.3)

Keterangan:

𝒅𝟐(𝒙, 𝒚) = Ukuran jarak antara objek X dan Y ( atribut data campuran )

(𝒙𝒋

𝒑

𝒋 𝟏

− 𝒚𝒋)𝟐 = Ukuran jarak untuk atribut data bertipe numerik

𝒚 𝜹(𝒙𝒋, 𝒚𝒋)

𝒎

𝒋 𝒑 𝟏

= Ukuran jarak untuk atribut data bertipe nominal/kategorikal

𝜸 = Parameter

(23)

2.8. Metode Elbow

Metode Elbow adalah metode yang digunakan untuk menghasilkan informasi dalam menentukan jumlah cluster terbaik dengan cara melihat persentase hasil perbandingan antara jumlah cluster yang akan membentuk siku pada suatu titik, pemilihan nilai k optimal diketahui dari penurunan inertia yang curam sehingga membentuk sebuah siku (Yuan & Yang, 2019). Untuk mendapatkan perbandingannya adalah dengan menghitung SSE (Sum of Square Error) dari masing-masing nilai cluster. Karena semakin besar jumlah cluster k maka nilai SSE akan semakin kecil.

Metode Elbow ini memberikan ide atau gagasan dengan cara memilih nilai cluster dan kemudian menambah nilai cluster tersebut untuk dijadikan model data dalam penentuan cluster terbaik. Selain itu persentase perhitungan yang dihasilkan menjadi pembanding antara jumlah cluster yang ditambah. Hasil persentase yang berbeda dari setiap nilai cluster dapat ditunjukan dengan menggunakan grafik sebagai sumber informasinya. Jika nilai cluster pertama dengan nilai cluster kedua memberikan sudut dalam grafik atau nilainya mengalami penurunan paling besar maka nilai cluster tersebut yang terbaik (Muningsih and Kiswati, 2018).

Gambar

Tabel 2.1. Tinjauan Pustaka  No.
Gambar 2.1. Tahapan Knowledge Discovery in Database (KDD)  Sumber: (Putra & Wadisman, 2018)

Referensi

Dokumen terkait

Adapun penelitian menggunakan teknik klasifikasi yang sudah dilakukan, salah satunya pada penelitian Herdiyeni dan Wahyuni (2012) yang menggunakan metode ekstraksi

Berdasarkan pembahasan diatas maka penelitian ini berfokus untuk melakukan eksplorasi terhadap data penjualan dengan teknik clustering untuk klasterisasi outlet

Memenuhi Salah Satu Syarat Akademis dalam Menyelesaikan Pendidikan Tingkat Sarjana Program Strata – 1. Jurusan Teknik Sipil Fakultas Teknik Universitas

Setiap orang yang mengemudikan kendaraan bermotor di jalan yang melanggar aturan perintah atau larangan yang dinyatakan dengan Rambu Lalu Lintas sebagaimana dimaksud

Pada penelitian ini bertujuan untuk mengelompokan dan mencari daerah ya ng sering paling banyak melanggar lalu intas dengan menggunakan data sebanyak 2371 data pelanggaran lalu

Adapun penelitian menggunakan teknik klasifikasi yang sudah dilakukan, salah satunya pada penelitian Herdiyeni dan Wahyuni (2012) yang menggunakan metode ekstraksi

Penelitian ini menggunakan sampel data 202 penduduk desa Pelangsian yang menerima BLTD pada tahun 2021, dari data tersebut dilakukan nya klasterisasi untuk mengetahui bahwa penduduk

BAB III : HASIL PENELITIAN dan PEMBAHASAN Bab ini membahas tentang hasil penelitian dan pembahasan yang terdiri dari dua hal yaitu pertama faktor-faktor apa yang menyebabkan banyaknya