ANALISIS KLASTERISASI PELANGGARAN LALU LINTAS MENGGUNAKAN ALGORITMA K-PROTOTYPE
Traffic Violation Clustering Analysis of using Algorithm K-Prototype
SKRIPSI
Untuk memenuhi sebagian persyaratan Mencapai derajat sarjana S-1
Diusulkan Oleh:
RIDO FEBRYANSYAH 19311154
PROGRAM STUDI S1 SISTEM INFORMASI FAKULTAS TEKNIK DAN ILMU KOMPUTER
UNIVERSITAS TEKNOKRAT INDONESIA BANDAR LAMPUNG
2023
ii
ANALISIS KLASTERISASI PELANGGARAN LALU LINTAS MENGGUNAKAN ALGORITMA K-PROTOTYPE
Dipersiapkan dan disusun oleh RIDO FEBRYANSYAH
19311154
Telah dipertahankan didepan Dewan Penguji Pada Tanggal 14 Juni 2023
Pembimbing,
Auliya Rahman Isnain, S.Kom., M.Cs.
NIK. 022 16 02 02
Penguji,
Heni Sulistiani, S.Kom., M.Kom.
NIK. 022 13 02 11 Skripsi ini telah diterima sebagai salah satu persyaratan
Untuk memperoleh gelar sarjana Tanggal 26 Juni 2023
Fakultas Teknik dan Ilmu Komputer Dekan,
Dr. H. Mahathir Muhammad, S.E., M.M.
NIK. 023 05 00 09
Program Studi Sistem Informasi Ketua,
Damayanti, S.Kom., M.Kom.
NIK. 022 09 03 04
iii
LEMBAR PERNYATAAN
Yang bertanda tangan dibawah ini:
Nama : Rido Febryansyah
NPM : 19311154
Program Studi : S1 Sistem Informasi
Dengan ini menyatakan bahwa tugas akhir :
Judul : Analisis Klasterisasi Pelanggaran Lalu Lintas Menggunakan Algoritma K-Prototype
Pembimbing : Auliya Rahman Isnain, S.Kom., M.Cs.
Belum pernah diajukan untuk diuji sebagai persyaratan untuk memperoleh gelar akademik pada berbagai tingkatan di universitas / perguruan tinggi manapun. Tidak ada bagian dalam skripsi ini yang pernah di publikasikan oleh pihak lain, kecuali bagian yang digunakan sebagai referensi, berdasarkan kaidah penulisan ilmiah yang benar.
Apabila dikemudian hari ternyata laporan tugas akhir yang saya tulis terbukti hasil saduran/plagiat, maka saya akan bersedia menanggung segala resiko yang akan saya terima.
Demikian pernyataan ini dibuat dengan sebenar-benarnya.
Bandar Lampung, 1 Juni 2023 Yang Menyatakan
Rido Febryansyah NPM. 19311154
iv
Sebagai civitas akademik Fakultas Teknik dan Ilmu Komputer Universitas Teknokrat Indonesia, saya yang bertanda tangan di bawah ini:
Nama : Rido Febryansyah NPM : 19311154
Program Studi : S1 Sistem Informasi Jenis karya : Skripsi/Tesis
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Fakultas Teknik dan Ilmu Komputer Universitas Teknokrat Indonesia Hak Bebas Royalti Noneksklusif (Non-exclusive Royalty-Free Right) atas karya ilmiah saya yang berjudul :
ANALISIS KLASTERISASI PELANGGARAN LALU LINTAS
MENGGUNAKAN ALGORITMA K-PROTOTYPE
beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Noneksklusif ini FTIK Universitas Teknokrat Indonesia berhak menyimpan, mengalih media/formatkan, mengelola dalam bentuk pangkalan data (database), merawat, dan mempublikasikan tugas akhir saya selama tetap mencantumkan nama saya sebagai penulis/pencipta dan sebagai pemilik Hak Cipta.
Demikian pernyataan ini saya buat dengan sebenarnya.
Dibuat di : Bandar lampung Pada tanggal : 1 Juni 2023 Yang menyatakan,
Rido Febryansyah NPM. 19311154
v INTISARI
Terjadinya pelanggaran lalu lintas merupakan salah satu bentuk problematika yang sering menimbulkan permasalahan di jalan raya, seperti kecelakaan dan kemacetan. Salah satu penyebab tingginya kasus pelanggaran lalu lintas adalah kurangnya pengetahuan dan kesadaran pengguna kendaraan dalam mematuhi peraturan lalu lintas. Penelitian ini dilakukan bertujuan untuk mengelompokkan dan menganalisis data pelanggaran lalu lintas di Pengadilan Negeri Kotabumi pada tahun 2020 dengan menggunakan algoritma K-Prototype guna mempermudah dalam mengetahui jenis pelanggaran yang kerap kali dilakukan oleh pengendara. Atribut yang digunakan sebanyak 4 atribut yang terdiri dari jenis pelanggaran, jenis kendaraan, denda, dan pasal. Terdapat sebanyak 3 cluster yang terdiri dari C1 berjumlah 2202 dengan jumlah pelanggaran paling tinggi yaitu pasal 281, C2 berjumlah 861 dengan jumlah pelanggaran paling tinggi yaitu pasal 291(2), dan C3 berjumlah 586 dengan pelanggaran paling tinggi pasal 307. Dari hasil pengujian k optimal menggunakan elbow analysis didapatkan bahwa jumlah cluster yang optimal yaitu sebanyak 3 cluster.
Kata Kunci: Clustering, Pelanggaran Lalu Lintas, K-Prototype, Elbow.
vi
The occurrence of traffic violations is a form of problem that often causes problems on the highway, such as accidents and congestion. One of the causes of the high cases of traffic violations is the lack of knowledge and awareness of vehicle users in complying with traffic regulations. This study aims to classify and analyze traffic violation data at the Kotabumi District Court in 2020 using the K-Prototype algorithm to make it easier to find out the types of violations that are often committed by motorists. The attributes used are 4 attributes consisting of types of violations, types of vehicles, fines, and articles. 3 clusters are consisting of C1 totaling 2202 with the highest number of violations, namely article 281, C2 amounting to 861 with the highest number of violations, namely article 291(2), and C3 totaling 586 with the highest violation of article 307. From the results of the optimal k test using elbow analysis, it was found that the optimal number of clusters was 3 clusters.
Keyword: Clustering, Traffic Violations, K-Prototype, Elbow
vii
PERSEMBAHAN
Dengan mengucap syukur kepada Allah SWT atas semua karunia, berkah, rahmat dan nikmat-Nya, serta keberhasilan dan kesuksesanku yang merupakan kerja keras,
kesabaran dan doa dari orang-orang yang mencintaiku dengan ketulusan dan keikhlasan sebagai ungkapan terimakasih kepada mereka maka saya
mempersembahkan sebuah karya ini kepada:
Kedua Orang Tuaku, Alm. Ayahanda ku tercinta dan Ibunda ku tercinta yang selalu mendoakan ku dan memberi motivasi terbaik setiap harinya, memberi
semangat, dan terus meyakinkanku bahwa aku bisa dan mampu menyelesaikan pendidikan.
1. Terimakasih kepada Keluarga Besar ku yang selama ini telah memberikan semangat, motivasi, dan kasih sayangnya kepadaku.
2. Terimakasih kepada Bpk. Auliya Rahman Isnain, S.Kom., M.Cs. dan Ibu. Heni Sulistiani, S.Kom., M.Kom. yang telah memberikan support dan semangat kepadaku.
3. Terimakasih kepada tim di balik layar Pasukan Tian Feng yang selalu ada memberikan semangat dan support.
4. Terimasih kepada Seluruh Dosen dan Asisten Dosen Fakultas Teknik dan Ilmu Komputer yang telah memberikan ilmu selama di perkuliahan ini.
viii
penulis dapat menyelesaikan skripsi ini. Penulisan skripsi ini dilakukan dalam rangka memenuhi salah satu syarat untuk mencapai gelar sarjana pada Program Studi S1 Sistem Informasi Fakultas Teknik dan Ilmu Komputer di Universitas Teknokrat Indonesia. Penulis menyadari bahwa tanpa bantuan dan bimbingan dari berbagai pihak, sangatlah sulit bagi penulis untuk menyelesaikan skripsi ini. Oleh karena itu, penulis mengucapkan terima kasih kepada:
1. Bapak Dr. H.M. Nasrullah Yusuf, S.E., M.B.A., selaku Rektor Universitas Teknokrat Indonesia.
2. Bapak Dr. H. Mahathir Muhammad, S.E., M.M., selaku Dekan Fakultas Teknik dan Ilmu Komputer Universitas Teknokrat Indonesia.
3. Ibu Damayanti, S.Kom., M.Kom., selaku Ketua Program Studi Sistem Informasi Fakultas Teknik dan Ilmu Komputer Universitas Teknokrat Indonesia.
4. Bapak Auliya Rahman, S.Kom., M.Cs., selaku dosen pembimbing yang telah meluangkan waktu, tenaga, dan ilmu untuk mengarahkan penulis dalam menyelesaikan skripsi ini.
5. Ibu Heni Sulistiani, S.Kom., M.Kom., selaku dosen penguji yang telah menyediakan waktu, tenaga, dan ilmu untuk menguji skripsi ini.
6. Semua pihak terkait dalam pembuatan skripsi ini.
Sesungguhnya, susunan dari isi skripsi ini masih banyak kekurangan dan jauh dari kesempurnaan. Untuk itu penulis mohon maaf dan berterimakasih atas saran dan kritik yang bersifat membangun. Semoga skripsi ini bermanfaat bagi semua orang dan membawa manfaat bagi pengembangan ilmu pengetahuan dibidang sistem informasi.
Bandarlampung, 2 Juni 2023 Penulis
ix MOTTO
“Allah tidak membebani seseorang melanikan sesuai dengan kesanggupannya.”
- (Q.S Al-Baqarah, 2: 286) -
“Apa yang kita pikirkan menentukan apa yang akan terjadi pada kita. Jadi jika kita ingin mengubah hidup kita, kita perlu sedikit mengubah pikiran kita.”
- Wayne Dyer -
"Sesungguhnya Allah tidak akan mengubah nasib suatu kaum sehingga mereka mengubah keadaan yang ada pada diri mereka sendiri."
- (Q.S Ar-Ra’d: 11) -
“Lakukan hal kecil dengan cinta yang besar agar memperoleh hasil yang maksimal”
- Anonim -
x
HALAMAN JUDUL ... i
LEMBAR PENGESAHAN ... ii
LEMBAR PERNYATAAN KEASLIAN PENELITIAN ... iii
HALAMAN PERNYATAAN PUBLIKASI ... iv
INTISARI ... v
ABSTRAK ... vi
PERSEMBAHAN ... vii
KATA PENGANTAR ... viii
MOTTO ... ix
DAFTAR ISI ... x
DAFTAR GAMBAR ... xiii
DAFTAR TABEL ... xiv
BAB I ... 1
PENDAHULUAN ... 1
1.1. Latar Belakang ... 1
1.2. Rumusan Masalah ... 5
1.3. Batasan Masalah ... 6
1.4. Tujuan Penelitian ... 6
1.5. Manfaat Penelitian ... 6
BAB II ... 8
LANDASAN TEORI ... 8
2.1. Penelitian Terdahalu ... 8
2.2. Tinjauan Pustaka ... 9
2.3. Pelanggaran Lalu Lintas ... 17
2.4. Data Mining ... 19
2.4.1. Pengertian Data Mining ... 19
2.4.2. Tahapan Data Mining ... 20
2.4.3. Fungsi Data Mining ... 21
2.4.4. Karakteristik Data Mining... 21
2.4.5. Pengelompokan Data Mining ... 22
xi
2.5. Knowledge Discovery in Database (KDD) ... 23
2.5.1. Tahapan Knowledge Discovery in Database (KDD) ... 23
2.6. Clustering ... 25
2.6.1. Pengertian Clustering ... 25
2.6.2. Syarat Clustering... 25
2.6.3. Metode Clustering ... 27
2.7. Algoritma K-Prototype ... 28
2.8. Metode Elbow ... 30
BAB III ... 31
METODOLOGI PENELITIAN ... 31
3.1. Tahapan Penelitian ... 31
3.1.1. Studi Pustaka dan Literatur ... 32
3.1.2. Pengumpulan Data ... 32
3.1.3. Pengolahan Data... 32
3.1.5 Kesimpulan ... 40
3.2. Kerangka Kerja ... 40
3.2 Perhitungan Manual Pada Data Sampel Algoritma K-Prototype ... 42
3.2.1 Menentukan Jumlah k Cluster ... 42
3.2.2 Menentukan Centroid Awal ... 43
3.2.3 Proses Perhitungan Jarak Antar Data ... 43
3.3 Objek Penelitian ... 46
3.3.1 Tempat Penelitian... 46
3.3.2 Bahan Penelitian... 46
3.4 Metode Penelitian ... 47
3.5 Pemahaman Data ... 47
3.6 Spesifikasi Alat ... 47
3.6.1 Spesifikasi Perangkat Lunak ... 47
BAB IV ... 48
HASIL DAN PEMBAHASAN ... 48
4.1 Pembahasan ... 48
4.2 Pemahaman Data ... 48
xii
4.4.1 Prepocessing Data ... 50
4.4.2 Hasil Clustering ... 55
4.4.4. Evaluasi Clustering ... 57
BAB V ... 59
KESIMPULAN DAN SARAN ... 59
5.1 Kesimpulan ... 59
5.2 Saran ... 61
DAFTAR PUSTAKA ... 62
LAMPIRAN ... 65
xiii
DAFTAR GAMBAR
Hal
Gambar 2. 1 Tahapan Knowledge Discovery in Database (KDD) ... 23
Gambar 3. 1 Tahapan Penelitian ... 31
Gambar 3. 2 Kerangka Penelitian ... 41
Gambar 4. 1 Exploratory Data Analysis ... 49
Gambar 4. 2 Library Read Data dan Head ... 50
Gambar 4. 3 Hasil dari Library Read Data dan Head ... 50
Gambar 4. 4 Drop Data ... 50
Gambar 4. 5 Data Setelah Dihapus ... 50
Gambar 4. 6 Informasi Dataframe ... 51
Gambar 4. 7 Informasi Jumlah Variabel Data Kategorikal ... 51
Gambar 4. 8 Informasi Data Atribut ... 52
Gambar 4. 9 Pengecekan Missing Value ... 52
Gambar 4. 10 Menghilangkan Data Missing Value ... 53
Gambar 4. 11 Pengecekan Data Missing Value ... 53
Gambar 4. 12 Perintah Mengganti Tipe Data ... 54
Gambar 4. 13 Normalisasi Data Numerikal ... 54
Gambar 4. 14 Hasil dari Normalisasi Data Numerikal ... 54
Gambar 4. 15 Pengolahan Data ... 55
Gambar 4. 16 Data Array ... 55
Gambar 4. 17 Hasil Data Array ... 55
Gambar 4. 18 Centroid Cluster ... 56
Gambar 4. 19 Pengelompokkan data ... 56
Gambar 4. 20 Hasil ... 57
Gambar 4. 21 Evaluasi Clustering ... 58
xiv
Tabel 3. 1 Seleksi Data... 33
Tabel 3. 2 Deskripsi Data ... 33
Tabel 3. 3 Pembersihan Data ... 34
Tabel 3. 4 Penambahan Keterangan Pelanggaran ... 35
Tabel 3. 5 Inisialisasi Atribut Jenis Pelanggaran (Pasal) ... 36
Tabel 3. 6 Inisialisasi Atribut Jenis Kendaraan ... 37
Tabel 3. 7 Normalisasi Data Denda ... 38
Tabel 3. 8 Hasil Normalisasi Data ... 39
Tabel 3. 9 Data Sampel ... 42
Tabel 3. 10 Centroid Awal ... 43
Tabel 3. 11 Perhitungan Iterasi-1 ... 44
Tabel 3. 12 Titik Centroid Baru ... 45
Tabel 3. 13 Perhitungan Iterasi-2 ... 45
Tabel 3. 14 Titik Centroid Iterasi-3... 46
Tabel 3. 15 Spesifikasi Perangkat Lunak ... 47
BAB I
PENDAHULUAN 1.1. Latar Belakang
Transportasi merupakan salah satu unsur penting dalam sistem kehidupan masyarakat dan dapat menentukan keefektifan suatu daerah. Peningkatan jumlah penduduk memiliki pengaruh yang besar terhadap laju transportasi. Transportasi dan mobilitas perpindahan penduduk menjadi hal yang tidak dapat dipisahkan.
Perpindahan penduduk dan kegiatan ekonomi yang dilakukan sangat bergantung pada sistem transportasi yang digunakan. Transportasi adalah sarana penghubung atau yang menghubungkan antara daerah produksi dan pasar, atau dapat dikatakan mendekatkan daerah produksi dan pasar, atau seringkali menjembatani produsen dengan konsumen (Fatimah, 2019). Transportasi atau pengangkutan dapat didefenisikan sebagai suatu proses pergerakan atau perpindahan orang atau barang dari suatu tempat ke tempat lainnya dengan menggunakan suatu teknik atau cara tertentu untuk maksud dan tujuan tertentu. Transportasi juga merupakan seluruh proses, yakni proses gerak, proses pindah, proses mengangkut dan mengalihkan dimana proses ini tidak dapat dilepaskan dari keperluan akan alat pendukung untuk menjamin lancarnya proses perpindahan sesuai dengan waktu yang diinginkan.
Transportasi berperan dalam mendorong, menunjang dan mendukung semua aspek kehidupan baik dalam pembangunan ekonomi, sosial budaya, politik dan pertahanan keamanan.
Peningkatan jumlah penduduk disertai dengan peningkatan aktivitas penduduk menyebabkan meningkatnya kebutuhan akan kendaraan. Seiring dengan pertumbuhan penduduk yang terus meningkat, berdampak dengan meningkatnya jumlah kendaraan di Indonesia. Jumlah penduduk yang terus meningkat berakibat pada meningkatnya jumlah pergerakan atau mobilitas masyarakat dalam rangka pemenuhan kebutuhan hidupnya (Anshori and Nuraini, 2020). Peningkatan jumlah kendaraan terjadi seiring bertambahnya jumlah penduduk karena kendaraan dibutuhkan untuk memfasilitasi pergerakan masyarakat. Menurut (Hutabarat et al., 2022), seiring dengan pertumbuhan penduduk dan perkembangan ekonomi, banyak negara-negara berkembang yang mengalami peningkatan signifikan dalam jumlah motor dan mobil. Transportasi atau kendaraan merupakan kebutuhan turunan akibat adanya aktivitas ekonomi, sosial, budaya, dan sebagainya. Jumlah penduduk merupakan salah faktor yang dapat mempengaruhi permintaan suatu barang. Data yang dihimpun dari Badan Pusat Statistik (BPS) jumlah kendaraan bermotor di Indonesia sebanyak 126.508.776 jumlah ini naik 5.9% dari tahun sebelumnya yang meningkat sekitar 7.586.068 kendaran. Data pada Badan Pusat Statistik (BPS) dari tahun 2015-2018 mengalami peningkatan setiap tahunnya, dengan rincian kendaraan pada tahun 2018 yaitu Mobil penumpang 14.830.698, Mobil bis 222.872, Mobil barang 4.797.254, dan Sepeda motor 106.657.952. Kutzbach (2010) menegaskan bahwa peningkatan ini akan berdampak besar terkait dengan transportasi, seperti polusi, kemacetan dan kecelakaan di jalan raya (termasuk yang menyebabkan kematian).
3
Peningkatan jumlah penduduk disertai dengan peningkatan aktivitas penduduk menyebabkan meningkatnya kebutuhan akan kendaraan. Terjadinya pelanggaran lalu lintas merupakan salah satu bentuk problematika yang sering menimbulkan permasalahan di jalan raya, seperti kecelakaan dan kemacetan. Salah satu penyebab tingginya kasus pelanggaran lalu lintas adalah kurangnya pengetahuan dan kesadaran pengguna kendaraan dalam mematuhi peraturan lalu lintas. Faktor-faktor yang sering menyebabkan pelanggaran lalu lintas adalah faktor manusia, kendaraan dan jalan raya.
Masih tingginya kasus pelanggaran lalu lintas di Indonesia salah satunya di Kotabumi memiliki kasus pelanggaran lalu lintas masih terbilang relatif tinggi hal ini dapat dilihat pada Pengadilan Negeri Kotabumi yang memiliki kasus pelanggaran yang tidak sedikit. Dapat dilihat dari data pelanggaran lalu lintas yang ada pada website resmi milik Pengadilan Negeri Kotabumi tahun 2019 pada tiap bulannya. Pada bulan Januari terdapat data 1443, bulan Februari 753, bulan Maret 746, bulan April 506, bulan Mei 196, bulan Juni 123, bulan Juli 2114, bulan Agustus 3750, bulan September 3364, bulan Oktober 1252, bulan November 2287, bulan Desember 242, dan jumlah data pelanggaran pada tahun 2019 sebanyak 16.776 data, angka ini terbilang cukup tinggi. Dari data tersebut dapat diketahui bahwa jumlah pelanggar lalu lintas masih relatif tinggi. Permasalahan yang dihadapi Pengadilan Negeri Kotabumi juga dialami oleh Pengadilan Negeri Dumai (Elisawati et al., 2019) dengan kasus pelanggaran sebanyak 8986 pada tahun 2017. Dimana data-data pelanggaran tersebut belum dikelompokkan, sehingga belum diketahui jenis pelanggaran apa saja yang kerap kali dilanggar oleh pengendara. Jenis pelanggaran lalu lintas yang banyak dilanggar oleh pengguna jalan berupa pelanggaran dalam hal
kedisplinan berkendara seperti tidak memakai helm, tidak menggunakan sabuk pengaman untuk pengguna kendaraan roda empat, tidak dilengkapi dengan surat-surat berkendara, dan tidak mematuhi rambu-rambu lalu lintas.
Banyaknya data pelanggaran lalu lintas pada Pengadilan Negeri Kotabumi maka data tersebut akan diolah dengan menggunakan data mining. Penerapan data mining pada data pelanggaran lalu lintas yaitu untuk mempermudah pengelompokan data-data pelanggaran lalu lintas dan menentukan pola cluster dengan menggunakan algoritma K-Prototype yang nantinya dapat dikelompokkan dan dianalisis. Data mining juga merupakan metode yang digunakan dalam pengolahan data berskala besar oleh karena itu data mining memiliki peranan yang sangat penting dalam beberapa bidang kehidupan diantaranya yaitu bidang industri, bidang keuangan, cuaca, ilmu dan teknologi (Sari, Wanto, & Windarto, 2018). Algoritma K-Prototype adalah algoritma pengklusteran yaitu penggabungan antara algoritma K-Means yang berupa data numerik dan algoritma K-Modes yang berupa data kategorikal. Sehingga K-Prototype dapat diterapkan pada data berukuran besar dan data bertipe numerik maupun kategorikal. Secara keseluruhan algoritma K-Prototype memberikan hasil clustering yang lebih baik, dimana tingkat kesamaan ciri-ciri cluster menjadi lebih erat atau mirip. Berdasarkan hasil simulasi yang telah dilakukan maka dapat diambil kesimpulan bahwa secara umum algoritma K-Prototype dapat mempertahankan efisiensi algoritma K-means dalam menangani data berukuran besar tetapi menghilangkan keterbatasan penerapan hanya pada data numerik namun dapat diterapkan pada data kategorikal. Sehingga K-Prototype memberikan hasil clustering
5
yang lebih baik karena dapat memberikan ciri atau karakteristik yang lebih mirip dalam cluster yang terbentuk (Nooraeni et al., 2019).
Merujuk pada penelitian sebelumnya, penelitian ini memfokuskan pada algoritma K-Prototype yang akan digunakan untuk pengelompokan, menganalisa data dan untuk mengetahui keefektifan algoritma K-Prototype. Data yang akan digunakan yaitu data pelanggaran lalu lintas selama satu tahun pada tahun 2020 dan atribut yang digunakan sebanyak 4 atribut. Sebagaimana penulis uraikan diatas tentang pelanggaran lalu lintas yang kerap kali terjadi di Kotabumi kabupaten Lampung Utara, oleh karena itu penulis tertarik untuk melakukan penelitian dengan judul: “Analisa Klasterisasi Pelanggaran Lalu Lintas Menggunakan Algoritma K-Prototype (Studi Kasus : Di Pengadilan Negeri Kotabumi)”.
1.2. Rumusan Masalah
Berdasarkan latar belakang maka penulis dapat mengambil suatu rumusan masalah yaitu:
1. Bagaimana cara menggunakan dan mengimplementasikan algoritma K- Prototype dalam mengelompokkan kasus pelanggaran lalu lintas di Pengadilan Negeri Kotabumi?
2. Apakah algoritma K-Prototype dapat digunakan untuk mengelompokkan data pelanggaran lalu lintas di Pengadilan Negeri Kotabumi?
1.3. Batasan Masalah
Adapun batasan masalah pada penelitian ini agar pembahasan yang dibuat terarah dan tidak meluas, berikut merupakan batasan masalah yang dibuat oleh penulis:
1. Data yang digunakan adalah data pelanggaran lalu lintas selama 1 tahun pada tahun 2020 di Pengadilan Negeri Kotabumi.
2. Algoritma yang digunakan adalah algoritma K-Prototype.
3. Pengolahan data menggunakan 4 atribut yaitu jenis pelanggaran, jenis kendaraan, denda dan bukti.
4. Tools yang digunakan yaitu Python.
1.4. Tujuan Penelitian
Tujuan penelitian ini adalah mengelompokkan dan menganalisa data pelanggaran lalu lintas pada tahun 2020 di Pengadilan Negeri Kotabumi dengan menggunakan algoritma K-Prototype.
1.5. Manfaat Penelitian
Adapun manfaat dari penelitian ini, sebagai berikut :
1. Diharapkan dapat dijadikan referensi bagi mahasiswa yang ingin melakukan penelitian data mining menggunakan algoritma K-Prototype.
2. Dapat mengetahui bagaimana cara dalam menggunakan dan mengimplementasikan algoritma K-Prototype, guna mempermudah dalam mengetahui jenis pelanggaran yang kerap kali dilakukan oleh pengendara.
7
3. Dapat menjadi pengingat masyarakat bahwa masih tingginya kasus pelanggaran lalu lintas, yang diharapkan masyarakat dapat mentaati peraturan lalu lintas dan hasil dari penelitian ini diharapkan akan dipergunakan dalam membuat kebijakan-kebijakan atau sosialisasi di masa depan, untuk menanggulangi tingkat pelanggaran lalu lintas.
LANDASAN TEORI
2.1. Penelitian Terdahalu
Bahan perbandingan dalam penelitian ini adalah salah satu penelitian dari Elisawati, Deasy Wahyuni, dan Adi Arianto (2019) dari Jurusan Sistem Informasi dan Teknik Informatika Sekolah Tinggi Manajemen Informatika dan Komputer (STMIK) Dumai dengan judul penelitian Analisa Clustering Pada Data Pelanggaran Lalu Lintas Di Pengadilan Negeri Dumai Dengan Menggunakan Metode K-Means.
Permasalahan yang ada yaitu banyaknya data tilang pelanggaran yang diterima oleh Pengadilan Negeri Dumai dan data tersebut belum dikelompokkan sesuai dengan jenis pelanggaran. Penelitian ini menggunakan data pelanggaran lalu lintas di Pengadilan Negeri Dumai pada bulan Desember pada tahun 2017, dengan data sebanyak 621 data. Atribut yang digunakan pada penelitian ini yaitu jenis kendaraan dan jenis pelanggaran (pasal). Dengan melakukan analisa dan pengelompokkan menggunakan metode K-Means. Hasil dari penelitian ini adalah metode clustering dengan algoritma K-Means dapat diimplementasikan untuk membantu dalam pengelompokkan pelanggaran lalu lintas di pengadilan negeri dumai. Perbandingan pada penelitian terdahulu dan rancangan penelitian yang penulis lakukan yaitu ada pada algoritma yang digunakan pada penelitian terdahulu algoritma K-Means digunakan untuk mengolah data. Sedangkan pada rancangan penelitian yang penulis lakukan menggunakan algoritma K-Prototype dengan studi kasus pada penelitian ini dilakukan di Pengadilan Negeri Kotabumi dan data yang digunakan yaitu data
9
pelanggaran lalu lintas pada tahun 2020 sebanyak 3662 data. Atribut yang akan digunakan sebanyak 4 atribut yaitu berupa asal kendaraan, jenis pelanggaran, denda, dan bukti.
2.2. Tinjauan Pustaka
Dalam mendukung penelitian yang akan dilakukan, penulis mengambil enam tinjauan pustaka yang berkaitan dengan judul penulis. Berikut adalah tinjauan pustaka:
Tabel 2.1. Tinjauan Pustaka No.
Literatur
Penulis dan Tahun
Judul Algoritma Hasil
Literarur 01
(Abdussalam et al., 2020)
Klasterisasi Perkara
Pelanggaran Lalu Lintas
Menggunakan Algoritma K-Means dan Davies Bouldin Index
K-Means dan Davies
Bouldin Index
Metode klasterisasi dengan
menggunakan algoritma K-Means dapat
diimplementasikan untuk
mengelompokkan perkara
pelanggaran lalu lintas yang ada di Pengadilan Negeri Slawi.
No.
Literatur
Penulis dan Tahun
Judul Algoritma Hasil
Literatur 02
(Nooraeni et al., 2019)
K-Prototype Untuk
Pengelompokan Data Campuran
Algoritma K- Prototype
Metode K-
Prototype adalah metode
pengklusteran berdasarkan pada metode K-Means tetapi
dikembangkan dengan
menambahkan ukuran jarak kemiripan untuk
data tipe
kategorikal.
Sehingga K-Prototype dapat diterapkan pada data berukuran besar dan data bertipe numerik maupun
kategorikal.
11
No.
Literatur
Penulis dan Tahun
Judul Algoritma Hasil
Literatur 03
Aris Wijayanto,
Yoyon K.
Sprapto, dan D.
P. Wulandari (2017)
Clustering on Multidimensional Poverty Data Using PAM an K- Prototypes
Algorithm
Partitioning Around Medoids (PAM) dan K-Prototypes Algorithm
Dari penelitian ini didapatkan bahwa K-Prototype
dengan 2 klaster 59% lebih baik dibandingkan
PAM. Uji
skalabilitas menunjukkan
bahwa algoritma K-Prototypes lebih cepat daripada algoritma PAM Literatur
04
G.S. Nithya, dan K.Arun Prabha (2019)
A Lion
Optimization Based K-Prototype Clustering
Algorithm For Mixed Data
Algoritma A Lion
Optimization dengan K-Prototype
Hasil dari
penelitian ini dengan algoritma Lion Optimization berdasarkan K-Prototype
Clustering, lebih unggul
dibandingkan
No.
Literatur
Penulis dan Tahun
Judul Algoritma Hasil
kinerja algoritma K-Means
Clustering Literatur
05
Mehmed F
Yildirim, Mohammed Aladeemy, dan Mohammad Khasawneh (2019)
K-Prototype Clustering
Algorithm For Segmentation Of Primary Care Patietns
Algoritma K-Prototype
Hasilnya dapat membantu pembuat kebijakan
kesehatan untuk mengambil
keputusan berdasarkan kebutuhan
masyarakat. Studi ini membuktikan bahwa analisis cluster pada populasi pasien dapat membantu.
mengelola sumber daya secara efisien dalam komunitas
13
No.
Literatur
Penulis dan Tahun
Judul Algoritma Hasil
Literatur 06
Ahmad Shohibus Sulthoni, Rachmadita Andreswari, Faqih Hamami (2020)
Segmentasi Pelanggan Pt.
Telekomunikasi Seluler Indonesia Menggunakan Clustering Algoritma K-Prototypes Dan Metode Elbow Sebagai
Perumusan Strategi Marketing
Algoritma K-Prototype
Algoritma K-Prototype dapat digunakan pada studi kasus segmentasi
pelanggan Telkomsel,
algoritma yang digunakan dapat mengatasi data numerik dan kategorik dengan baik
a. Literatur 01
Oleh (Abdussalam et al., 2020) mahasiswa dari Fakultas Ilmu Komputer, Universitas Dian Nuswantoro Semarang dengan judul penelitian Klasterisasi Perkara Pelanggaran Lalu Lintas Menggunakan Algoritma K-Means dan Davies Bouldin Index. Penelitian ini dilakukan untuk menganalisis dan mengelompokan data perkara pelanggaran lalu lintas tahun 2017 dengan metode K-Means supaya mempermudah untuk mengetahui jenis pelanggaran yang sering kali dilakukan
oleh penguna kendaraan. Dimana atribut yang ditentukan sebanyak 5 atribut yaitu no register pelanggaran, form, pasal pelanggaran, jenis kendaraan, dan jenis kelamin. metode evaluasi cluster menggunakan metode Davies Bouldin Index (DBI). Hasil pada penelitian ini yaitu Metode klasterisasi dengan menggunakan algoritma K-Means dapat diimplementasikan untuk mengelompokkan perkara pelanggaran lalu lintas yang ada di Pengadilan Negeri Slawi.
b. Literatur 02
Oleh (Nooraeni et al., 2019) dari Sekolah Tinggi Ilmu Statistik dengan judul K-Prototype Untuk Pengelompokan Data Campuran. Penelitian ini dilakukan untuk mengetahui hasil cluster baik atau tidak jika digunakan untuk klasterisasi data bertipe campuran. Tujuannya adalah mencoba menerapkan algoritma K-Prototype pada data campuran. Data yang digunakan adalah dataset podes 2011. Ukuran data yang digunakan pada simulasi ini sebanyak 77.961 objek atau desa dan 37 atribut yang terdiri dari 17 atribut numerik dan 20 atribut kategorikal. Hasilnya adalah algoritma K-Prototype memberikan hasil clustering yang lebih baik.
c. Literatur 03
Oleh Aris Wijayanto, Yoyon K. Suprapto, D. P. Wulandari (2017) dari jurusan Teknik Elektro Institut Teknologi Sepuluh November dengan judul penelitian Clustering on Multidimensional Proverty Data Using PAM and K- Prototypes Algorithm. Permasalahan pada penelitian adalah angka kemiskinan di Indonesia dari tahun ke tahun terus menunjukan tren menurun. Akan tetapi,
15
masalah kemiskinan masih menjadi perhatian serius pemerintah Indonesia.
Pengukuran kemiskinan diperlukan untuk mengatasi ketidakpuasan dengan menggunakan pendekatan untuk mengukur kemiskinan moneter. Data kemiskinan multidimensi adalah jenis data numerikal dan kategorikal. Data yang digunakan adalah data mentah yaitu Survei Sosial Ekonomi Nasional (SUSENAS). Algoritma yang sesuai untuk clustering pada tipe data campuran adalah PAM dan K-prototypes. Studi ini bertujuan untuk menyelidiki penggunaan PAM (Partitioning Around Medoids) dan K-Prototype serta membandingkan efektivitasnya dalam pengelompokan tipe data campuran, menggunakan data kemiskinan dari data pemerintah yang dipublikasikan. Hasil dari penelitian ini didapatkan bahwa K-Prototype dengan 2 klaster 59% lebih baik dibandingkan PAM dalam pengelompokan rumah tangga miskin multidimensi di Provinsi Jambi. Uji skalabilitas menunjukkan bahwa algoritma K-prototypes lebih cepat daripada algoritma PAM.
d. Literatur 04
Oleh G.S. Nithya, dan K.Arun Prabha (2019) dari Vellalar College for Women, Erode, Tamil Nadu, India dengan judul penelitian A Lion Optimization Based K-Prototype Clustering Algorithm For Mixed Data. Tujuan dari penelitian ini adalah untuk mengoptimalkan algoritma clustering K-Prototype dengan menggunakan algoritma Lion Optimization Algorithm. Data yang digunakan yaitu data hepatitis, pasien pasca operasi, persetujuan kredit Australia, data kredit Jerman. Lion Optimization Algorithm merupakan salah
satu teknik optimasi sederhana yang dapat diimplementasikan secara efektif untuk meningkatkan hasil clustering. Berguna untuk menangani kumpulan data campuran. Ini mengarah pada pengoptimalan yang lebih baik untuk menghitung centroid dengan algoritma pengelompokan K-Prototype. Untuk mengatasi permasalahan pada algoritma clustering K-Prototype digunakan algoritma Lion optimization. Hasilnya algoritma Lion Optimization berdasarkan K-Prototype Clustering, lebih unggul dibandingkan kinerja algoritma K-Means Clustering.
e. Literatur 05
Oleh Mehmed F Yildirim, Mohammed Aladeemy, dan Mohammad Khasawneh dengan judul penelitian ”K-Prototype Clustering Algorithm For Segmentation Of Primary Care Patietns” Tujuan penelitian ini adalah untuk memastikan kelangsungan kesehatan dan kesejahteraan penduduk dengan berbagai intervensi. Dataset yang digunakan yaitu terdiri dari 165.171 catatan pasien unik di 32 lokasi perawatan primer rumah sakit komunikasi di Upstate New York selama rentang waktu 18 bulan berturut-turut. Sebanyak 17 faktor telah digunakan untuk analisis, yaitu umur, jenis kelamin, status pengobatan, asma, diabetes, gagal jantung kongestif, kanker, gangguan jiwa, jumlah obat, pemanfaatan ruang gawat darurat, jumlah kunjungan rawat inap dan rawat jalan, dll. Hasil dari penelitian ini adalah Algoritma clustering dapat membantu pembuat kebijakan kesehatan untuk mengambil keputusan berdasarkan kebutuhan masyarakat. Studi ini membuktikan bahwa analisis cluster pada
17
populasi pasien dapat membantu mengelola sumber daya secara efisien dalam komunitas.
f. Literatur 06
Oleh Ahmad Shohibus Sulthoni, Rachmadita Andreswari, Faqih Hamami (2020) dari dengan judul penelitian ”Segmentasi Pelanggan Pt.
Telekomunikasi Seluler Indonesia Menggunakan Clustering Algoritma K- Prototypes Dan Metode Elbow Sebagai Perumusan Strategi Marketing”
Penggunaan algoritma k-prototypes adalah data yang digunakan penulis berbentuk Tabel dengan nilai kategori dan numerik. Sehingga k-prototypes cocok untuk diimplementasikan pada data seperti ini. Selain itu, metode elbow juga termasuk metode yang tergolong populer untuk menemukan nilai parameter klaster yang tepat pada algoritma k-prototype. Algoritma K- Prototype dapat digunakan pada studi kasus segmentasi pelanggan Telkomsel, algoritma yang digunakan dapat mengatasi data numerik dan kategorik dengan baik
2.3. Pelanggaran Lalu Lintas
Pelanggaran lalu lintas adalah pelanggaran atau tindakan yang bertentangan dengan hukum lalu lintas/perundang-undangan lalu lintas. Berdasarkan Undang- Undang Nomor 22 Tahun 2009 tentang Lalu Lintas dan Angkutan Jalan, yang disahkan DPR pada 22 Juni 2009, berikut merupakan pelanggaran lalu lintas yang dilakukan oleh pengendara kendaraan bermotor :
1. Pasal 278, Setiap pengendara mobil yang tidak dilengkapi dengan perlengkapan berupa segitiga pengaman, ban cadangan, pembuka roda, dongkrak dan peralatan pertolongan pertama pada kecelakaan.
2. Pasal 280, Setiap pengendara kendaraan bermotor yang tak dipasangi Tanda Nomor Kendaraan.
3. Pasal 281, Setiap pengendara kendaraan bermotor yang tidak memiliki SIM.
4. Pasal 285 ayat 1, Setiap pengendara sepeda motor yangmtidak memenuhi persyaratan teknis dan laik jalan seperti spion, lampu utama, lampu rem, klakson, pengukur kecepatan, dan knalpot.
5. Pasal 285 ayat 2, Setiap pengendara mobil yang tidak memenuhi persyaratan teknis seperti spion, klakson, lampu utama, lampu mundur, lampu rem, kaca depan, bumper, penghapus kaca.
6. Pasal 287 ayat 1, Setiap pengendara yang melanggar rambu lalu lintas.
7. Pasal 287 ayat 2, Melanggar Apill (TL) Melanggar aturan Perintah atau larangan yang dinyatakan dengan alat pemberi isyarat Lalu Lintas.
8. Pasal 287 ayat 5, Setiap pengendara yang melanggar aturan batas kecepatan paling tinggi atau paling rendah.
9. Pasal 288 ayat 1, Setiap pengendara yang tidak dilengkapi Surat Tanda Nomor Kendaraan Bermotor atau Surat Tanda Coba Kendaraan Bermotor.
10. Pasal 288 ayat 2, Setiap pengendara kendaraan bermotor yang memiliki SIM namun tak dapat menunjukkannya saat razia.
11. Pasal 289, Setiap pengemudi atau penumpang yang duduk disamping pengemudi mobil tak mengenakan sabuk keselamatan.
19
12. Pasal 291 ayat 1, Setiap pengendara atau penumpang sepeda motor yang tidak mengenakan helm standar nasional.
13. Pasal 291 ayat 2, Setiap orang yang mengemudikan sepeda motor yang membiarkan penumpang tidak mengenakan helm.
14. Pasal 293 ayat 1, Setiap orang yang mengemudikan Kendaraan Bermotor di Jalan tanpa menyalakan lampu utama pada malam hari dan kondisi tertentu.
15. Pasal 293 ayat 2, Setiap orangyang mengemudikan Sepeda Motor di Jalan tanpa menyalakan lampu utama pada siang hari.
16. Pasal 294, Setiap pengendara sepeda motor yang akan berbelok atau balik arah tanpa memberi isyarat lampu.
17. Pasal 307, Setiap orang yang mengemudikan Kendaraan Bermotor Angkutan Umum Barang yang tidak mematuhi ketentuan mengenai tata cara pemuatan, daya angkut, dimensi kendaraan.
2.4. Data Mining
2.4.1. Pengertian Data Mining
Adapun pengertian Data Mining menurut beberapa ahli, Data mining adalah suatu proses untuk mendapatkan informasi dengan melakukan pencarian pola dan relasi-relasi yang tersembunyi didalam suatu tumpukan data yang banyak. Data mining bisa digunakan untuk membantu pengambilan keputusan dimasa mendatang (Sriandrita, 2018). Data mining adalah bidang ilmu yang digunakan untuk menangani masalah dalam pengambilan informasi dari database yang besar dengan menggabungkan teknik dari statistik, pembelajaran
mesin, visualisasi data, pengenalan pola, dan database (Indah, Barry, &
Muhammadun, 2020).
Data mining juga merupakan metode yang digunakan dalam pengolahan data berskala besar oleh karena itu data mining memiliki peranan yang sangat penting dalam beberapa bidang kehidupan diantaranya yaitu bidang industri, bidang keuangan, cuaca, ilmu dan teknologi (Sari, Wanto, & Windarto, 2018).
Data Mining adalah proses dari menganalisa data dari prespektif yang berbeda dan menyimpulkannya ke dalam informasi yang berguna (Arta et al, 2016). Data mining membahas penggalian atau pengumpulan informasi yang berguna dari kumpulan data. Informasi yang biasanya dikumpulkan adalah pola-pola tersembunyi pada data, berhubungan antar elemen-element data ataupun pembuatan model untuk keperluan peramalan. (Sigit adinugroho, 2018). Istilah data mining memiliki hakikat sebagai disiplin ilmu yang tujuan utamanya adalah untuk menemukan, menggali, atau menambang pengetahuan dari data atau informasi yang kita miliki.
2.4.2. Tahapan Data Mining
Tahapan dalam Data Mining Menurut (Zai, 2022) ada empat tahap yang akan dilalui dalam proses data mining, yaitu:
a. Tahap pertama: pernyataan yang tepat terhadap permasalahan sebelum mengakses perangkat lunak data mining, jika tidak ada masalah dalam penelitian tersebut maka solusi yang dihasilkan menjadi sia-sia.
21
b. Tahap kedua: tahap ini merupakan tahap mempersiapkan data yang termasuk dalam data mining dengan melakukan cleaning, transformasi data, memilih subset record, dataset, langkah awal seleksi. Memvisualisasikan dan Mendeskripsikan data merupakan kunci dari tahap ini.
c. Tahap ketiga: Memilih yang terbaik bagi performasi prediktif dan Melakukan pertimbangan terhadap ragam permodelan.
d. Tahap keempat: Memilih aplikasi yang tepat dan melakukan permodelan untuk membuat prediksi.
2.4.3. Fungsi Data Mining
() fungsi data mining dapat dibagi menjadi beberapa fungsi yaitu:
1. Fungsi Minor atau fungsi tambahan, yang meliputi deskripsi, estimasi dan prediksi.
2. Fungsi Mayor atau fungsi utama, yang meliputi klasifikasi, pengelompokan, dan asosiasi.
2.4.4. Karakteristik Data Mining
Data Mining memiliki beberapa karakteristik tertentu yaitu:
a. Data Mining berhubungan dengan penemuan sesuatu yang tersembunyi dan pola data tertentu yang tidak diketahui sebelumnya.
b. Data Mining dapat menggunakan data yang rumit, sangat besar dan lama dalam penyelesaiannya, sehingga informasi yang dihasilkan dapat terpercaya.
c. Data Mining hanya berguna dalam membuat keputusan kritis, terutama dalam strategi.
2.4.5. Pengelompokan Data Mining
Ada beberapa tugas yang dapat dilakukan oleh Data Mining dalam proses pemecahan masalah dan pencarian pengetahuan baru, diantaranya adalah sebagai berikut:
a. Klastering (Clustering)
Digunakan untuk mengelompokkan atau mengidentifikasi data yang mempunyai karakteristik tertentu. Contoh: K-Means, K-Modes, dan lain-lain.
b. Klasifikasi (Classification)
Digunakan untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Contoh algoritma: C4.5, K-Nearest Neighbor (KNN), dan lain-lain.
c. Asosiasi (Association)
Digunakan untuk mengatasi masalah bisnis yang khas, yakni dengan menganalisa Tabel transaksi penjualan dan mengidentifikasi produk-produk yang seringkali dibeli bersamaan oleh customer, misalnya apabila orang membeli sambal, biasanya juga dia membeli kecap. Contoh algoritma:
Apriori, Frequent Pattern Growth (FP-Growth), dan lain-lain.
23
d. Estimasi (Estimation)
Digunakan untuk memperkirakan atau menilai sesuatu hak yang belum pernah ada sebelumnya yang disajikan dalam bentuk hasil kuantitatif (angka).
Contoh algoritma : Regresi Linier, Confidence Interval Estimastions, dan lain-lain.
e. Prediksi (Predictions)
Digunakan untuk memperkirakan atau meramalkan suat kejadian yang belum pernah terjadi. Contoh algoritma: Decision Tree, K-Nearest Neighbor (KNN), dan lain-lain.
2.5. Knowledge Discovery in Database (KDD)
2.5.1. Tahapan Knowledge Discovery in Database (KDD)
Data Mining merupakan bagian internal atau tahapan dari Knowledge Discovery in Database. Knowledge Discovery in Database merupakan sekumpulan proses untuk menemukan pengetahuan yang bermanfaat dari data, dapat dibagi menjadi beberapa langkah-langkah. Berikut merupakan langkah- langkah yang dapat dilihat pada Gambar 2.1.
Gambar 2.1. Tahapan Knowledge Discovery in Database (KDD) Sumber: (Putra & Wadisman, 2018)
Keterangan Gambar :
a. Data Seleksi (Data Selection)
Merupakan pemilihan atau seleksi data dari sekumpulan data operasional, dilakukan sebelum tahap penggalian informasi dalam KDD. Data dari hasil seleksi disimpan pada suatu berkas yang terpisah dari basis data operasional.
b. Pre-processing
Proses cleaning perlu dilakukan pada data yang menjadi fokus knowledge discovery in database (KDD). Beberapa dari proses cleaning, memeriksa daya yang inkonsisten, membuang duplikasi data dan memperbaiki kesalahan data.
c. Transformasi (Transformation)
Pada tahap ini dilakukan perubahan data yang memiliki tipe data yang awalnya tidak bisa diolah secara metematis menjadi data yang bisa diolah.
d. Data Mining
Data mining atau penambangan data merupakan proses untuk mencari pola informasi menarik dalam data terpilih menggunakan metode atau teknik tertentu.
e. Interpretation
Proses ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya.
25
Knowledge Discovery in Databases (KDD) merupakam penerapan metode pada data mining. Dalam konteks ini data mining merupakan satu langkah dari proses KDD.
2.6. Clustering
2.6.1. Pengertian Clustering
Clustering atau klasterisasi adalah metode atau teknik pengelompokan data. Clustering berbeda dengan klasifikasi yaitu tidak adanya variabel target dalam clustering. Clustering tidak mencoba untuk melakukan klasifikasi ataupun memprediksi nilai dari variabel target. Akan tetapi, proses ini mencoba untuk melakukan pembagian terhadap keseluruhan data menjadi kelompok-kelompok yang memiliki kemiripan. Teknik clustering banyak diterapkan dalam berbagai bidang. Contohnya dalam bidang medis, clustering dapat digunakan untuk mengelompokkan jenis-jenis penyakit berdasarkan gejala-gejala dan karakteristik yang dialami pasien.
Clustering adalah proses pengelompokkan record, observasi, atau mengelompokkan kelas yang memiliki kesamaan objek. Clustering merupakan proses pengelompokan satu set objek data atau cluster sehingga benda-benda dalam suatu kelompok memiliki kesamaan yang tinggi, tetapi sangat berbeda dengan objek di kelompok lain.
2.6.2. Syarat Clustering
Menurut (Cui, 2020), syarat dan tantangan yang harus dipenuhi oleh algoritma clustering adalah:
a. Skalibilitas
Suatu metode clustering harus mampu untuk menangani data dalam jumlah sangat besar.
b. Kemampuan analisa beragam bentuk data.
Algoritma klasterisasi harus dapat diimplementasikan pada berbagai macam bentuk data seperti data ordinal, nominal, maupun gabungannya.
c. Menemukan cluster dengan bentuk yang tidak terduga
Banyak algoritma clustering yang menggunakan metode Euclidean atau Manhattan yang hasilnya berbentuk bulat. Padahal hasil clustering dapat berbentuk aneh dan tidak sama antara satu denga n yang lain. Karenanya dibutuhkan kemampuan untuk menganalisa cluster dengan bentuk apapun pada suatu algoritma clustering.
d. Kemampuan untuk dapat menangani noise
Data tidak selalu dalam keadaan baik. Ada saatnya terdapat data rusak, hilang, atau tidak dimengerti. Oleh karena itu suatu algoritma clustering dituntut untuk mampu menangani data yang rusak.
e. Sensifitas terhadap perubahan input
Perubahan atau penambahan data pada saat input data dapat menyebabkan terjadinya perubahan pada cluster yang telah ada bahkan dapat menyebabkan perubahan yang signifikan apabila menggunakan algoritma clustering yang memiliki tingkat sensifitas rendah.
27
f. Mampu melakukan clustering untuk data dimensi tinggi
Suatu kelompok data dapat berisi banyak atribut. Oleh sebab itu diperlukan algoritma clustering yang mampu menangani data dengan jumlah atribut yang tidak sedikit.
g. Interpresasi dan kegunaan
Hasil dari clustering harus berguna dan dapat diinpretasikan.
2.6.3. Metode Clustering
Metode clustering secara umum dapat dibagi menjadi dua yaitu hierarchical clustering dan partitional clustering, berikut ini merupakan metode clustering:
a. Hierarchical Clustering
Hierarchical clustering, data dikelompokkan melalui suatu bagan berupa hirarki, dimana terdapatpenggabungan dua grup yang terdekat disetiap iterasinya ataupun pembagian dari seluruh set data kedalam cluster.
b. Partitional Clustering.
Partitional clustering, data dikelompokkan ke dalam beberapa cluster tanpaadanya struktur hirarki antara satu dengan yang lainnya. Pad metode partitional clustering setiap cluster memiliki titik pusat cluster (centroid) dan secara umum metode ini memiliki fungsi tujuan yaitu meminimumkan jarak (dissimilarity) dari seluruh data ke pusat cluster masing-masing.
2.7. Algoritma K-Prototype
Algoritma K-Prototype merupakan algoritma dengan pendekatan gabungan dari algoritma k-means dan algoritma k-modes, yaitu data campuran penggabungan antara data numerik dan data kategorikal. Menurut (Yildirim et al., 2019), menganalisis algoritma clustering K-Prototype untuk data bertipe data campuran seperti data numerikal dan kategorikal. Metode berbasis K-Means memiliki efisiensi set data yang besar dan memiliki nilai numerik yang terbatas untuk dievaluasi. K-Protoype mempunyai keunggulan karena algoritma yang tidak terlalu kompleks dan mampu menangani data yang besar serta lebih baik dibandingkan dengan algoritma yang berbasis hierarki. Algoritma K-Prototype merupakan salah satu metode clustering berbasis partitioning. Menurut (Nooraeni, Suprijadi and Zulhanif, 2019), telah mengusulkan algoritma pengelompokan K-Prototype untuk dataset yang tidak lengkap dengan atribut bertipe data campuran numerikal dan kategorikal. Algoritma K Prototype tradisional sangat ahli dalam mengelompokkan data dengan atribut numerikal dan kategorikal campuran, sedangkan data yang lengkap terbatas.
Pada proses clustering dengan K-Prototype dilakukan beberapa proses yang terbagi menjadi 3 tahapan utama sebagai berikut :
a. Inisialisasi awal atau penentuan nilai k. Pada proses ini dilakukan pemilihan sejumlah k prototype secara acak dari dataset x sesuai dengan jumlah cluster yang ditentukan.
b. Menghitung jarak seluruh data pada dataset terhadap inisialisasi awal, lalu alokasikan data tersebut kedalam x cluster terdekat.
29
c. Menghitung titik pusat cluster atau centroid yang baru setelah semua objek pada cluster telah dialokasikan lalu lakukan realokasi pada semua objek jika titik pusat tidak terjadi perubahan maka proses akan berhenti. Proses ini akan terus dilakukan sampai tidak adalagi perubahan prototype atau sampai kriteria stopping terpenuhi. Ukuran ketidaksamaan yang digunakan dengan menggabungkan persamaan euclidean distance dengan dissimilarity, seperti pada persamaan (2.1) dan (2.2) sebagai berikut:
𝑑𝑖𝑠𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 ∶ 𝛿(𝑥𝑗, 𝑦𝑗)
(𝑥𝑗 = 𝑦𝑗) 0 ………(2.1) (𝑥𝑗 ≠ 𝑦𝑗) 1 c
𝐸𝑢𝑐𝑙𝑖𝑑𝑒𝑎𝑛 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒 (𝑥, 𝑦) = ∑𝑝𝑗=1(𝑥𝑗− 𝑦𝑗)2 ……….………….(2.2) Ukuran jarak untuk data numerik dan data kategorikal adalah dengan persamaan (2.3) berikut :
𝒅𝟐(𝒙, 𝒚) = ∑𝒑𝒋=𝟏(𝒙𝒋− 𝒚𝒋)𝟐+ 𝒚 ∑𝒎𝒋=𝒑+𝟏 𝜹(𝒙𝒋, 𝒚𝒋) ………..……….(2.3) Keterangan:
𝒅𝟐(𝒙, 𝒚) = Ukuran jarak antara objek X dan Y ( atribut data campuran )
∑(𝒙𝒋
𝒑
𝒋=𝟏
− 𝒚𝒋)𝟐 = Ukuran jarak untuk atribut data bertipe numerik
𝒚 ∑ 𝜹(𝒙𝒋, 𝒚𝒋)
𝒎
𝒋=𝒑+𝟏
= Ukuran jarak untuk atribut data bertipe nominal/kategorikal
𝜸 = Parameter
2.8. Metode Elbow
Metode Elbow adalah metode yang digunakan untuk menghasilkan informasi dalam menentukan jumlah cluster terbaik dengan cara melihat persentase hasil perbandingan antara jumlah cluster yang akan membentuk siku pada suatu titik, pemilihan nilai k optimal diketahui dari penurunan inertia yang curam sehingga membentuk sebuah siku (Yuan & Yang, 2019). Untuk mendapatkan perbandingannya adalah dengan menghitung SSE (Sum of Square Error) dari masing-masing nilai cluster. Karena semakin besar jumlah cluster k maka nilai SSE akan semakin kecil.
Metode Elbow ini memberikan ide atau gagasan dengan cara memilih nilai cluster dan kemudian menambah nilai cluster tersebut untuk dijadikan model data dalam penentuan cluster terbaik. Selain itu persentase perhitungan yang dihasilkan menjadi pembanding antara jumlah cluster yang ditambah. Hasil persentase yang berbeda dari setiap nilai cluster dapat ditunjukan dengan menggunakan grafik sebagai sumber informasinya. Jika nilai cluster pertama dengan nilai cluster kedua memberikan sudut dalam grafik atau nilainya mengalami penurunan paling besar maka nilai cluster tersebut yang terbaik (Muningsih and Kiswati, 2018).
BAB III
METODOLOGI PENELITIAN 3.1. Tahapan Penelitian
Tahapan penelitian adalah kegiatan yang dilakukan secara sistematis dan terencana untuk mencapai suatu tujuan tertentu. Tahapan penelitian yang dilakukan oleh penulis dapat dilihat pada Gambar berikut.
Gambar 3.1 Tahapan Penelitian Studi Pustaka dan Literatur:
Kajian Literatur : 1. Jurnal
2. Buku/E-Book
Identifikasi :
1. Identifikasi Masalah 2. Lingkup Penelitian
Pengumpulan Data:
Website Pengadilan Negeri Kotabumi
Pengolahan Data:
Preprocessing Data
Data Mining (K-Prototype)
Evaluasi Clustering:
Kesimpulan:
Untuk mengevaluasi clustering pada K-Protototype menggunakan Elbow Analysis.
Dapat mengetahui hasil clustering dari data pelanggaran lalu lintas, menjadi bahan untuk evaluasi kebijakan-kebijakan, dan dapat mengatahui cara
mengimplementasikan, serta dapat mengetahui keefektifan algorima K-Prototype.
Keterangan :
3.1.1. Studi Pustaka dan Literatur
Studi Pustaka pada penelitian ini bersumber dari buku, jurnal, dan segala kepustakaan lain yang dianggap penting untuk mendukung dari penelitian ini.
Identifikasi masalah merupakan proses untuk mendefinisikan masalah dan membuat definisi tersebut dapat diuji dan diukur. Pada proses ini dilakukan analisis masalah yang ada yaitu menemukan dan mengidentifikasi masalah.
Setelah ditemukan, permasalahan dapat diangkat menjadi sebuah penelitian.
Permasalahan pada penelitian ini adalah mengelompokkan kasus pelanggaran lalu lintas dengan metode clustering dengan menerapankan algoritma K- Prototype berdasarkan dari beberapa atribut.
3.1.2. Pengumpulan Data
Sumber data pada penelitian ini adalah data pelanggaran lalu lintas yang didapat dari website resmi pada Pengadilan Negeri Kotabumi tahun 2020 pada kasus perkara lalu lintas dengan jumlah data 3662 dan atribut yang digunakan sebanyak 4 atribut.
3.1.3. Pengolahan Data
Proses pengolahan data merupakan alur yang digunakan untuk mendapatkan hasil pengklusteran pada data pelanggaran lalu lintas, berikut merupakan langkah-langkah pengolahan data.
33
1. Seleksi Data (Data Selection)
Merupakan tahapan awal, yaitu memilih dan menyeleksi data yang akan digunakan. Dimana hanya memilih atribut-atribut yang memenuhi tujuan penelitian. Atribut yang akan digunakan adalah jenis pelanggaran, jenis kendaraan, denda, dan bukti, data yang akan diclustering sebanyak 3662 data.
Berikut merupakan Tabel 3.1 dari data selection.
Tabel 3.1 Seleksi Data
Tabel 3.2 Deskripsi Data NAMA PLAT
JENIS PELANGGARAN
(PASAL)
JENIS KENDARAAN
DENDA
(Rp) BUKTI
AMIN BE
8674 JO
289 UULLAJ Jo
106(6) ULLAJ TRUK 124000 STNK
FERA WANDI
BE 2935 AQ
289 UULLAJ Jo 106(6) ULLAJ
MOBIL PENUMPANG
PRIBADI
74000 STNK SALWANT
O - 293(2) ULLAJ JO 106
ULLAJ
SEPEDA
MOTOR 39000 STNK
NANA - 291 (2) UULLAJ JO
106 UULLAJ
SEPEDA
MOTOR 39000 STNK
……… ……… ……… ……… ……… ………
MEIRI SAPUTRA
BE 4324 JC
293(2)UULLAJ JO
106 UULLAJ SEPEDA
MOTOR 49000 SIM C
Nama Atribut Tipe Data
Jenis Pelanggaran (Pasal) Kategorikal Jenis Kendaraan Kategorikal Denda (Rp) Numerikal
Bukti Kategorikal
2. Prepocessing Data
Prepocessing dilakukan untuk membuang data yang tidak layak untuk memasuki proses data mining, seperti data noise dan missing value. Cara untuk memperbaiki noise dapat dilakukan dengan beberapa cara yaitu dapat dihapus, diisi secara manual, diabaikan, diisi dengan rata-rata parameter, atau dengan rata- rata kelas. Pada variabel non-numerik atau kategorikal, dapat mengganti missing values dengan nilai modus atau nilai yang paling banyak muncul dalam kolom tersebut (Nurmasani and Pristyanto, 2021). Tabel dibawah ini merupakan contoh dari data processing.
Tabel 3.3 Pembersihan Data
Berdasarkan Tabel diatas, atribut yang akan digunakan yaitu Jenis Pelanggaran (Pasal), Jenis Kendaraan, Denda (Rp), dan Bukti. Sedangkan atribut Nama dan Plat tidak digunakan.
NAMA PLAT
JENIS PELANGGARAN
(PASAL)
JENIS KENDARAAN
DENDA
(Rp) BUKTI
AMIN BE
8674 JO
289 UULLAJ Jo
106(6) ULLAJ TRUK 124000 STNK
FERA WANDI
BE 2935 AQ
289 UULLAJ Jo 106(6) ULLAJ
MOBIL PENUMPANG
PRIBADI
74000 STNK SALWA
NTO - 293(2) ULLAJ JO 106 ULLAJ
SEPEDA
MOTOR 39000 STNK
NANA - 291 (2) UULLAJ JO 106 UULLAJ
SEPEDA
MOTOR 39000 STNK
……… ……… ……… ……… ……… ………
MEIRI SAPUTR A
BE 4324 JC
293(2)UULLAJ JO
106 UULLAJ SEPEDA
MOTOR 49000 SIM C
35
Tabel 3.4 Penambahan Keterangan Pelanggaran
Pada Tabel Jenis Pelanggaran (Pasal) ditambahkan keterangan atau penjelasan terkait pasal yang dilanggar. Pada tahun 2020, pasal yang dilanggar sebanyak 24 pasal mengenai pelanggaran lalu lintas.
3. Transformasi Data
Pada tahap ini dilakukan perubahan data yang memiliki tipe data yang awalnya tidak bisa diolah secara matematis menjadi data yang dapat diolah.
Tujuan dari transformasi data untuk menghindari data yang rusak dan tidak valid, bentuk data dibagi menjadi beberapa golongan dengan skala tertentu, dengan tujuan agar variasi data pada atribut-atribut tertentu menjadi lebih sedikit. Berikut merupakan Tabel inisialisasi data.
JENIS PELANGGARAN
(PASAL)
JENIS PELANGGARAN (PASAL)
289 UULLAJ Jo 106(6) ULLAJ
Setiap pengemudi atau penumpang yang duduk disamping pengemudi mobil tidak menggunakan sabuk keselamatan (Pasal
289) 289 UULLAJ Jo 106(6)
ULLAJ
Setiap pengemudi atau penumpang yang duduk disamping pengemudi mobil tidak menggunakan sabuk keselamatan (Pasal
289) 293(2) ULLAJ JO 106
ULLAJ
Pengemudi Sepeda Motor di Jalan tanpa menyalakan lampu utama pada siang hari
(Pasal 293(2)) 291 (2) UULLAJ JO
106 UULLAJ
Penumpang tidak menggunakan helm standar nasional (Pasal 291(2))
……… ………
293(2)UULLAJ JO 106 UULLAJ
Pengemudi Sepeda Motor di Jalan tanpa menyalakan lampu utama pada siang hari
(Pasal 293(2))
Tabel 3.5 Inisialisasi Atribut Jenis Pelanggan (Pasal)
JENIS PELANGGARAN (PASAL) Inisialisasi Tidak dipasangi Tanda Nomor Kendaraan (Pasal 280) A
Tidak memiliki SIM (Pasal 281) B
Setiap Pengguna Jalan Tidak mematui perintah yang diberikan petugas Polri s ebagaimana dimaksud dalam pasal 104 ayat ( 3 ), yaitu
dalam keadaan tertentu untuk ketertiban dan kelancaran lalu lintas wajib untuk : Berhenti, jalan terus, mempercepat, memperlambat, dan /
atau mengalihkan arus kendaraan (Pasal 282)
C Pengemudi Sepeda Motor tidak memenuhi persyaratan teknis dan liak
jalan (Pasal 285(1))
D Pengemudi Mobil tidak memenuhi persyaratan teknis dan liak jalan
meliputi : kaca spion, klakson, ampu utama, lampu rem, lampu penunjuk arah, atau alat pemantul cahaya, alat pengukur kecepatan, knalpot dan
kedalaman alur ban(Pasal 285(2))
E Kesesuaian kinerja roda dan kondisi Ban; Kesesuaian daya mesin
pengerak terhadap berat kendaraan(Pasal 286)
F Melanggar rambu lalu lintas Pasal (Pasal 287(1)) G Melanggar aturan perintah atau melanggar yang dinyatakan dengan Alat
Pemberi Isyarat Lalu Lintas (Pasal 287(2))
H Tidak memberi prioritas jalan bagi Kendaraan Bermotor memiliki hak
utama yang menggunakan alat peringatan dengan bunyi dan sinar dan/atau yang di kawal oleh Petugas Polri (Pasal 287(4))
I
Tidak Memiliki STNK (288(1)) J
Pengendara Sepeda Motor yang memiliki SIM namun tidak dapat menunjukkannya saat razia (Pasal 288(2))
K Kendaraan tidak dilengkapi dengan surat keterangan uji berkala dan
tanda lulus uji berkala (Pasal 288(3))
L Setiap pengemudi atau penumpang yang duduk disamping pengemudi
mobil tidak menggunakan sabuk keselamatan (Pasal 289)
M Pengemudi dan Penumpang tidak mengenakan sabuk keselamatan dan
helm (Pasal 290)
N Tidak mengenakan helm standar nasional (Pasal 201) O Setiap pengendara atau penumpang sepeda motor tidak menggunakan
helm standar nasional (Pasal 291(1))
P Penumpang tidak menggunakan helm standar nasional (Pasal 291(2)) Q