BAB II LANDASAN TEORI
2.1 Tinjauan Pustaka
Terdapat beberapa penelitian yang telah dilakukan dalam penerapan data mining dalam konteks ini menggunakan metode naïve bayes classifier. Sehingga, dalam penelitian ini diperlukan tinjauan pustaka sebagai alat dalam penerapan metode ini, agar dapat menghindari pembuatan ulang, mengindentifikasi kesenjangan, mengetahui metode yang sudah diterapkan, mengetahui penelitian yang sama dibidang ini, serta melanjutkan untuk penelitian sebelumnya.
Tabel 2. 1 Daftar Literatur
No Nama Peneliti Tahun Judul
1 (Rhomadhona et al., 2019) 2019 Penerapan Naïve Bayes Classifier Untuk Klasifikasi Berita Kriminal di Kalimantan Selatan
2 (Rhomadhona and
Permadi, 2019)
2019 Klasifikasi Berita Kriminal Menggunakan Naïve Bayes Classifier (NBC) dengan Pengujian K- Fold Cross Validation
3 (Amalia, 2016) 2016 Klasifikasi Laporan Kriminalitas Pada Situs Lapor! Dengan Naïve Bayes Classifier (NBC)
Menggunakan Bahasa
Pemrograman R
4 (Jayanti et al., 2016) 2016 Analisa Pola Penyalahgunaan Facebook Sebagai Alat Kejahatan Trafficking Menggunakan Data Mining.
Tabel 2.1 Daftar Literatur (Lanjutan)
No Nama Peneliti Tahun Judul
5 (Arifin, 2018) 2018 Sistem Klasifikasi Berita Daring
Faktor Kejahatan
Penyalahgunaan Narkotika Berbasis Algoritma Naive Bayes 6 (Maghfiroh, Basuki and
Azhar, 2020)
2020 Klasifikasi Tweets Tindak Kejahatan Berbahasa Indonesia Menggunakan Naïve Bayes 7 (Yerpude and Gudur,
2017)
2017 Predictive Modelling Of Crime Dataset using Data Mining 8 (Abdulrahman and
Abedalkhader, 2017)
2017 KNN Classifier And Naïve Bayse Classifier For Crime Prediction in San Francisco Context
9 (Mukherjee and Sharma, 2012)
2012 Intrusion Detection using Naive Bayes Classifier with Feature Reduction
10 (Jangra and Kalsi, 2019) 2019 Crime Analysis for Multistate Network using Naive Bayes Classifier
2.1.1 Literatur 1
Penelitian ini menggunakan pendekatan deduktif dengan mereduksi konsep untuk dijadikan dasar penelitian. Metode analisis yang digunakan adalah kuantitatif-kuantitatif. Pada metode analisis kuantitatif digunakan teknik statistik deskriptif dan statistik inferensial. Statistik deskriptif digunakan untuk menganalisa data dengan mendeskripsikan data kuantitatif, sedangkan statistik inferensial yang digunakan pada penelitian ini meliputi uji korelasi dengan chi- square test. Metode analisis kualitatif digunakan untuk mendukung analisis karakteristik kriminalitas dan upaya pencegahannya. Unit amatan penelitian ini
adalah aspek-aspek karakteristik kriminalitas dan upaya pencegahannya di perumahan dan kampung di Kecamatan Depok dan Mlati, Kabupaten Sleman (variabel terikat), yang meliputi: lokasi, pola jalan dan lingkungan, keamanan secara fisik, fasilitas umum, tipe bangunan, tinggi bangunan, kepadatan bangunan, tingkat keramaian, jenis kriminalitas, pengawasan secara manajemen &
pengelolaan, surveillance/ pengawasan alami, pemeliharaan, dan interaksi sosial (variabel bebas).
2.1.2 Literatur 2
Berita kriminalitas merupakan berita yang selalu menjadi trending topik di setiap media massa, khususnya media massa online. Media massa online telah menyediakan beberapa fasilitas untuk mempermudah masyarakan dalam mencari sebuah berita berdasarkan topik. Media massa online melabeli suatu berita berdasarkan kategorinya. Namun, media massa onlinetidak memberikansub kategori pada berita tersebut. Sebagai contoh jika seorang pengguna membuka kategori kriminal, maka yang ditampilkan adalah semua jenis berita kriminal tanpa memberikan informasi yang spesifik dari jenis kriminalitasnya.
Permasalahan tersebut dapat diatasi dengan mengklasifikasikan berita kriminalitas berdasarkan subkategori. Penelitian ini menggunakan metode Naïve Bayes Classifier (NBC) untuk mengklasifikasi berita berdasarkan sub kategorinya.
Adapun subkategori terbagi kedalam 5 kategori yaitu korupsi, narkoba, pencurian, pemerkosaan dan pembunuhan. Penelitian ini bertujuan untuk mengetahui kemampuan NBC dalam mengklasifikasi berita dengan melakukan pengujian menggunakan teknik K-Fold Cross Validation dengan nilai K dari 3 sampai 10.
Hasil pengujian menyatakan bahwa NBC memiliki kemampuan dalam klasifikasi
berita kriminal dengan nilai precision sebesar 98,53 %, nilai recall sebesar 98,44 % dan nilai accuracy sebesar 99,38 %.
2.1.3 Literatur 3
Data LAPOR! yang tergolong sebagai laporan kriminalitas merupakan laporan yang diarsipkan dan tidak memiliki prosedur tindak lanjut. Laporan ini berasal dari pengguna yang menjadi korban atau saksi dari kejadian kriminalitas dan mereka laporkan melalui situs LAPOR!. Pada penelitian ini, dibangun model klasifikasi dengan Naïve Bayes Classifier (NBC) untuk mengetahui kategori kriminalitas yang tepat diterapkan pada data LAPOR!. Kategori kriminalitas yang digunakan bersumber dari Reserse Kriminal Umum POLDA Jawa Timur.
Hasil penelitian menunjukkan bahwa kategori 5 subdit lebih baik digunakan pada data penelitian ini daripada kategori 30 jenis kejahatan. Semua model pada percobaan subdit dapat menjadi pengklasifikasi walaupun dengan performa yang tidak semuanya baik. Sedangkan untuk model dengan 30 kategori, tidak semua dapat menjadi pengklasifikasi karena keterbatasan data. Model klasifikasi terbaik yang dihasilkan mampu bekerja akurat pada kelas penyuapan dengan nilai f – measure 100%. Disusul dengan kelas perjudian, penipuan, pengerusakan, korupsi, dan narkoba dengan nilai f – measure lebih dari 80%. Sedangkan untuk kelas pencurian ringan, lantas, pemerkosaan, penganiayaan, penghinaan, curas, curat, jabatan, penggelapan, pemerasan, curanmor, dan implikasi kontijensi memiliki nilai f – measure kurang dari 80%. Sementara untuk 12 kelas lainnya tidak mampu untuk melakukan proses klasifikasi.
Sedangkan performa yang dihasilkan pada kelas subdit yaitu subdit II dan II mampu melakukan kasifikasi dengan nilai f – measure masing – masing 85.5% dan
85.4%. Disusul dengan model subdit V sebesar 77.7% dan subdit I sebesar 66.6%.
Sedangkan model IV hanya mampu mengklasifikasi model dengan f – measure 14.2%. Pada penelitian ini juga dibentuk visualisasi berupa grafik alir dan wordcloud yang ditampikan pada aplikasi R berbasis web yang interaktif yaitu Shiny.
2.1.4 Literatur 4
Facebook memungkinkan penggunanya berinteraksi dengan orang yang kita kenal maupun orang yang tidak kita kenal, dimana hal tersebut dapat membuka peluang bagi kejahatan dunia maya seperti, penculikan, perdagangan manusia (trafficking), hingga pembunuhan. IOM mecatat bahwa korban perdagangan orang atau trafficking di Indonesia mencapai 74.616 hingga 1 juta per tahun, dimana tindak kejahatan tersebut banyak dilakukan melalui facebook sebagai medianya.
Data teks (status) yang berada di halaman facebook sangat besar. Dengan menggunakan Teknik pengolahan data dari ilmu Data Mining, terutama di bidang text mining, penulis memanfaatkannya untuk mengidentifikasi data teks (status facebook) yang terindikasi sebagai proses kejahatan trafficking dengan memakai salah satu teknik klasifikasi dengan teorema naïve bayes classifier (NBC).
2.1.5 Literatur 5
Tingginya tingkat penggunaan situs berita memungkinkan penyebaran berita yang lebih cepat, luas, aktual, dan ramah lingkungan. Kasus-kasus narkotika merupakan artikel yang banyak ditemui di media berita daring. Dari berita daring tersebut di kelompokkan berdasarkan faktor kejahatan penyalahgunaan narkotika berasal dari individu, lingkungan dan narkoba. Dengan demikian, perlu dikembangkan sebuah sistem klasifikasi yang diharapkan dapat membantu pihak
kepolisian dan pihak terkait dalam mengetahui faktor penyebab kejahatan penyalahgunaan narkotika yang peningkatan kasusnya sudah semakin memprihatinkan di Indonesia.
Text mining processing merupakan salah satu domain penelitian pada web mining yang bertujuan untuk menggali informasi dari kumpulan data teks yang jumlahnya sangat besar. Penelitian ini akan mengembangkan sebuah sistem dengan menggunakan teknik klasifikasi Naïve Bayes (NB). Pendekatan ini merupakan pendekatan mengacu pada teorema Bayes yang merupakan prinsip peluang statistika untuk mengkombinasikan pengetahuan sebelumnya dengan pengetahuan baru.
Hasil penelitian ini adalah sebuah sistem untuk mengklasifikasi berita daring faktor kejahatan penyalahgunaan narkotika yang dapat diimplementasikan dengan menggunakan algoritma Naive Bayes. Pengujian sistem menggunakan confusion matrix dengan tingkat performansi dengan data uji 225 di dapatkan nilai recall 75,8%, precision 97,7%, dan accuracy 96,4%. Maka sistem klasifikasi menggunakan algoritma Naive Bayes mempunyai tingkat akurasi yang baik karena tingkat akurasinya lebih dari 50%.
2.1.6 Literatur 6
Kasus tindak kejahatan konvensional seperti penganiayaan, penculikan, pencurian, dll masih jarang digunakan sebagai objek penelitian. Kasus kejahatan yang biasa diteliti hanya pada lingkup kejahatan cyber seperti pembajakan software, carding, penipuan online, dll. Maka dalam penelitian ini penulis mengangkat kasus kejahatan konvensional sebagai objek penelitian. Penulis mencoba mendapatkan informasi kejahatan dari media sosial, Twitter. Dari Twitter
didapatkan data berupa cuitan para pengguna yang mengandung unsur kejahatan.
Selanjutnya, akan dilakukan klasifikasi untuk menentukan mana di antara data tersebut yang benar-benar mengandung informasi kejahatan, dan bukan merupakan sebuah opini. Metode yang digunakan dalam pengklasifikasian data adalah algoritma Naive Bayes Classifier dengan 2 jenis dataset. Dataset pertama berisi fitur lexical atau bag of words dan dataset kedua berisi fitur sintaktik. Penulis menggunakan 2 dataset untuk membandingkan kinerja dari kedua fitur dalam proses klasifikasi data tweets. Rata-rata hasil akurasi model klasifikasi menggunakan fitur sintaktik adalah sebesar 88,1398% sedangkan pada fitur lexical atau bag of words sebesar 79,25%. Kemudian dari hasil klasifikasi, penulis mendapatkan lokasi di mana tindak kejahatan tersebut terjadi menggunakan metode Named Entity Recognition (NER). Dari proses NER tersebut, maka didapatkan hasil akurasi sebesar 65%.
2.1.7 Literatur 7
Dengan peningkatan yang substansial dalam kejahatan di seluruh dunia, analisis data kejahatan perlu diturunkan tingkat kejahatan. Ini membantu polisi dan warga untuk mengambil tindakan yang diperlukan dan menyelesaikan kejahatan lebih cepat. Dalam penelitian ini, teknik data mining diterapkan pada data kejahatan untuk memprediksi fitur yang berpengaruh tinggi tingkat kriminalitas.
Pembelajaran yang diawasi menggunakan kumpulan data untuk melatih, menguji, dan mendapatkan hasil yang diinginkan pada mereka Pembelajaran tanpa pengawasan membagi data yang tidak konsisten dan tidak terstruktur ke dalam kelas atau kelompok. Pohon keputusan, Naïve Bayes dan Regression adalah beberapa metode pembelajaran yang diawasi dalam data mining dan mesin mempelajari data
yang dikumpulkan sebelumnya dan dengan demikian digunakan untuk memprediksi fitur-fitur yang menyebabkannya kejahatan di suatu wilayah atau lokalitas. Berdasarkan peringkat fitur, Biro Catatan Kejahatan dan Polisi Departemen dapat mengambil tindakan yang diperlukan untuk mengurangi kemungkinan terjadinya kejahatan.
2.1.8 Literatur 8
Dalam makalah ini kami mengusulkan pendekatan untuk prediksi kejahatan dan klasifikasi menggunakan data mining untuk San Francisco. Pendekatan ini membandingkan dua jenis klasifikasi: klasifikasi K-NN dan Naïve Pengklasifikasi Bayes. Dalam pengklasifikasi K-NN, dua teknik berbeda dilakukan secara seragam dan terbalik. Sedangkan pada teknik Naïve Bayes, Gaussian, Bernoulli, dan Multinomial diuji. Validasi dan Validasi silang digunakan untuk menguji hasil masing-masing teknik. Hasil percobaan menunjukkan bahwa kami bisa dapatkan akurasi klasifikasi yang lebih tinggi dengan menggunakan multinomial Naïve Bayes menggunakan validasi silang.
2.1.9 Literatur 9
Deteksi intrusi adalah proses pemantauan dan analisis peristiwa yang terjadi dalam sistem komputer secara berurutan untuk mendeteksi tanda-tanda masalah keamanan. Saat ini sebagian besar pendekatan deteksi intrusi difokuskan pada masalah fitur seleksi atau pengurangan, karena beberapa fitur tidak relevan dan mubazir yang mengakibatkan proses deteksi menjadi lama dan menurunkan kinerja sistem deteksi intrusi (IDS).
Tujuan dari penelitian ini adalah untuk mengidentifikasi fitur masukan penting yang dikurangi dalam membangun IDS yang efisien dan efektif secara
komputasi. Untuk ini kami menyelidiki kinerja tiga metode pemilihan fitur standar menggunakan Seleksi Fitur berbasis Korelasi, Rasio Penguatan dan Penguatan Informasi. Dalam tulisan ini kami mengusulkan metode Metode Reduksi Berbasis Vitalitas Fitur, kepada mengidentifikasi fitur masukan penting yang dikurangi.
Kami menerapkan salah satu pengklasifikasi naif bayes yang efisien pada set data yang dikurangi untuk Deteksi gangguan. Hasil empiris menunjukkan bahwa atribut tereduksi yang dipilih memberikan kinerja yang lebih baik untuk desain IDS itu efisien dan efektif untuk deteksi intrusi jaringan.
2.1.10 Literatur 10
Proses yang digunakan untuk mengekstrak semua informasi yang diperlukan dan berguna untuk analisis data disebut penambangan data.
Pengklasifikasi KNN digunakan untuk menghitung nilai optimal kinerja yang baik.
Bayesian Jaringan adalah model grafis. Model ini digunakan untuk membangun asosiasi yang bermanfaat untuk sekumpulan variabel. Jaringan ini mewakili algoritma pembelajaran statistik. Asosiasi yang bersifat struktural perilaku terjadi untuk informasi lama. Pengklasifikasi ini tidak dapat diterapkan untuk kumpulan data yang memiliki banyak fitur dan ini adalah kelemahan utama dari pengklasifikasi ini. Performa pengklasifikasi Naïve Bayes dibandingkan dengan pengklasifikasi KNN. Pendekatan yang diusulkan diterapkan di Anaconda. Hasil simulasi menggambarkan hal itu Algoritma Naïve Bayes memiliki tingkat akurasi yang tinggi dan waktu eksekusi yang lebih sedikit. Kata
2.2 Kriminalitas
Kriminalitas dalam bahasa inggris “crime” yang mempunyai makna kejahatan. Kriminalitas adalah suatu tindakan tercela yang biasa menempel dengan
berkembangnya peradaban manusia. Kriminalitas atau biasa disebut tindakan menyimpang selalu ada dalam perilaku masayarakat. Tindak kejahatan adalah semua perbuatan yang melanggar hukum dan norma yang ada. Pelaku kejahatan sering dianggap sebagai kriminal. Seorang yang biasa disebut kriminal adalah seorang pencuri, perampok, teroris, dan pembunuh. Meskipun seorang teroris berbeda dari seorang kriminal lainnya sebab tindakan kejahatannya atas dasar nilai politik ataupun keyakinan.
Aparat Penegak Hukum sering mengalami kesulitan dalam menangani kajian dan analisis tindak kriminal. Perkembangan teknologi SIG dan analisis kriminalitas akan sangat meringankan secara efektif dan efisien dalam memetakan kriminalitas. Sehingga dapat diprediksi wilayah mana yang sering terjadi atau rawan tindak kejahatan dan wilayah mana yang aman. Pemetaan kriminalitas berguna untuk mengetahui lokasi atau memperoleh informasi jumlah kriminalitas yang dilaporkan(Octavianti, Santoso and Romlah, 2017).
Analisis kriminal yang dipakai dalam penelitian ini bertipe academic / administrative analysis karena informasi kriminalitas yang diberitahukan ke masyarakat bisa di-update kapan saja, setiap minggu, setiap bulan bahkan setiap tahun.
2.3 Klasifikasi
Klasifikasi merupakan proses untuk menemukan fungsi dan model yang dapat membedakan atau menjelaskan konsep atau kelas data dengan tujuan memperkirakan kelas yang tidak diketahui dari suatu objek. Dalam proses pengklasifikasian biasa terdapat dua proses yang harus dilakukan, yaitu:
1. Proses Training
Pada proses ini akan digunakan data training set atau data sampel yang telah diketahui label – label atau atribut dari data sampel tersebut untuk membangun model dengan menggunkan 80% dari keseluruhan data set.
2. Proses Testing
Pada proses testing ini dilakukan untuk mengetahui keakuratan model yang telah dibuat pada proses training maka dibangun data yang disebut dengan data testing untuk mengklasifikasi label – labelnya. Klasifikasi merupakan penempatan objek – objek kesalah satu dari beberapa kategori yang telah ditetapkan sebelumnya.
Klasifikasi sekarang ini telah banyak digunakan dalam berbagai aplikasi, sebagai contoh pendeteksian pesan email, spam berdasarkan header dan isi atau mengklasifikasikan galaksi berdasarkan bentuk – bentuknya. Pada proses klasifikasi data yang di-input-kan adalah data record atau data sampel. Pada setiap record dikenal sebagai instance atau atau contoh yang ditentukan oleh sebuah tuple (x,y).
Dimana x adalah himpunan atribut dan y adalah atribut tertentu yang menyatakan sebagai label class (Nugroho and Subanar, 2013).
2.3.1 Naive Bayes Classifier
Naive Bayes Classifier merupakan sebuah pengklasifikasian probalistik sederhana yang menghitung sekumpulan probabilitas dengan menjumlahkan frekuensi dan kombinasi nilai dari dataset yang diberikan. Algoritma menggunakan teorema bayes dan mengansumsikan semua atribut independen atau tidak saling ketergantungan yang diberikan oleh nilai pada variabel kelas. Naive Bayes juga didefinisikan sebagai pengklasifikasian dengan metode probabilitas dan statistik yang dikemukakan oleh ilmuan Inggis Thomas Bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya (Saleh, 2015).
Naive Bayes Classifier didasarkan pada asumsi penyederhanaan bahwa nilai atribut secara kondisional saling bebas jika diberikan nilai output. Dengan kata lain, diberikan nilai output, probabilitas mengamati secara bersama adalah produk dari probabilitas individu. Keuntungan penggunaan Naive Bayes Classifier adalah bahwa metode ini hanya membutuhkan jumlah data pelatihan (Training Data) yang kecil untuk menentukan estimasi parameter yang diperlukan dalam proses pengklasifikasian. Naive Bayes Classifier sering bekerja jauh lebih baik dalam kebanyakan situasi dunia nyata yang komples dari pada yang diharapkan (Saleh, 2015). Persamaan dari teorema Bayes dapat dilihat di bawah ini :
P(𝐶|X) =𝑃(𝐶)𝑃(𝑥|𝐶)
𝑃(𝑥) ……….…..2.1
Dimana :
C : Kelas
P(x|C) : Kemungkinan posterior x pada kondisi kelas C
P(C) : Kemungkinankelas C tanpa memandang bukti apapun P(x) : Kemungkinan posterior x tanpa memandang kelas/bukti lain (Amin Nur Rais, 2019)
2.4 Definisi Python
Python merupakan sebuah bahasa pemrograman yang cukup terkenal yang memiliki banyak manfaat untuk mendukung pemrograman yang berorientasi objek dan dapat berjalan diberbagai macam platform sistem operasi, seperti PCs, Macintosh, UNIX. Beberapa kelebihan dari bahasa pemrograman python diantara lain :
1. Pengembangan program dilakukan dengan cepat dan coding yang lebih sedikit
2. Mendukung multi platform
3. Memiliki sistem pengelolaan memori yang otomatis (Yerpude and Gudur, 2017)
2.5 Confusion Matrix
Confusion matrix adalah metode yang dapat melakukan perhitungan akurasi, presisi, dan recall. Akurasi merupakan hasil perhitungan dari semua nilai prediksi yang benar dibagi dengan jumlah keseluruhan data (Arini, Wardhani and Octaviano, 2020). Nilai akurasi terbaik jika nilai akurasi tersebut sama dengan 100% dan yang terburuk 0% (Sigit, 2018). Berbeda dengan dua kelas untuk tampilan tabel multiclass confusion matrix melobatkan selain tabel positif dan negative juga menampilkan tabel netral. Untuk lebih jelasnya dan persamaan yang digunakan untuk multiclass dapat dilihat pada tabel berikut ini:
Tabel 2.2 Multiclass Confusion Matrix
Prediksi
Positif Negatif Netral
Aktual
Positif TPos FPosNeg FPosNet
Negatif FNegPos TNeg FNegNet
Netral FNetPos FNetNeg TNet
𝐀𝐤𝐮𝐫𝐚𝐬𝐢 = 𝑻𝑷𝒐𝒔+𝑻𝑵𝒆𝒈+𝑻𝑵𝒆𝒕
𝑻𝑷𝒐𝒔+𝑭𝑷𝒐𝒔𝑵𝒆𝒈+𝑭𝑷𝒐𝒔𝑵𝒆𝒕+𝑭𝑵𝒆𝒈𝑷𝒐𝒔+𝑻𝑵𝒆𝒈+𝑭𝑵𝒆𝒈𝑵𝒆𝒕+𝑭𝑵𝒆𝒕𝑷𝒐𝒔+𝑭𝑵𝒆𝒕 𝑵𝒆𝒈+𝑻𝑵𝒆𝒕 ………….2.2
Precision didapat dengan menghitung jumlah keseluruhan nilai prediksi positif yang benar dibagi dengan jumlah keseluruhan prediksi kelas yang benar.
Nilai terbaik precision adalah 100% sementara yang terburuk 0% (Sigit, 2018).
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑖
𝑇𝑖+𝐹𝑖1+𝐹𝑖2𝑥100%………. 2.3
Sedangkan true positive rate atau biasa disebut dengan recall adalah jumlah prediksi benar dibagi dengan keseluruhan jumlah kelas yang salah. Untuk nilai terbaik recall adalah 100% sementara yang terburuk adalah 0% (Sigit, 2018).
𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑖𝑇
𝑇𝑃+𝑖1𝐹+𝑖2𝐹𝑥100%………....………2.4
Dan untuk perhitungan F1-Score menggunakan persamaan 2.5 sebagai berikut:
𝐹1 − 𝑆𝑐𝑜𝑟𝑒 = (2𝑥𝑅𝑒𝑐𝑎𝑙𝑙𝑥𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛)/(𝑅𝑒𝑐𝑎𝑙𝑙 +
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛)𝑥100%………...……2.5