ANALISIS DAN PERANCANGAN
3.2 Analisis Sistem
Untuk mengklasifikasi jenis pasal UU ITE pada kasus pelanggaran UU ITE penulis mengajukan metode yang terdiri dari beberapa proses. Adapun proses yang akan dilakukan pada penelitian ini adalah sebagai berikut: dokumen kronologi kasus
pelanggaran UU ITE di input. Setelah melakukan proses input data maka langkah selanjutnya yang akan dilakukan adalah proses preprocessing, proses tersebut terdiri dari cleaning, case folding, stopword removal, dan stemming. Setelah proses preprocessing dilakukan proses selanjutnya adalah pelatihan data menggunakan labeled latent dirichlet allocation yang akan menghasilkan model dan nilai probabilitas dari kata yang terdapat dari masing-masing kategori. Nilai tersebutlah yang menjadi acuan pada proses pengklasifikasian dokumen kronologi kasus pelanggaran UU ITE menjadi 6 kategori berdasarkan label yang didapat pada proses pelatihan data. Arsitektur umum dari perancangan sistem yang digunakan pada penelitian ini dapat dilihat pada gambar 3.1.
Gambar 3.1 Gambar Arsitektur Umum 3.2.1 Dataset
Tahapan pertama yang dilakukan adalah menginput data yang berupa kronologi kejadian dari kasus pelanggaran UU ITE yang diambil dari dokumen putusan kasus direktori mahkamah agung dan disimpan dalam bentuk txt, data tersebut akan dibagi
menjadi data latih (training) dan data uji (testing). Berikut adalah contoh dokumen kronologi kejadian dari kasus pelanggaran UU ITE.
Gambar 3.2 Gambar Contoh Input Kasus Pelanggaran UU ITE 3.2.2 Preprocessing
Pada tahap ini, dokumen yang telah di input akan dilakukan preprocessing yaitu proses pembuangan angka dan tanda baca, pengubahan karakter, pembuangan kata dan perubahan kata menjadi kata dasar. Tujuan dari tahapan ini adalah untuk menghasilkan dokumen yang siap di proses yang akan mempermudah proses pemodelan. Tahapan dalam preprocessing yaitu cleaning, case folding, stopwords removal dan stemming.
1) Cleaning
Proses Cleaning adalah proses untuk menghilangkan atau pembersihan kalimat dari elemen-elemen yang tidak diperlukan untuk mengurangi noise yang ada pada data seperti karakter HTML, retweet, username, hastag, url, simbol, tanda baca dan angka.
Hasil proses cleaning dapat dilihat pada pada tabel 3.2.
Tabel 3.2 Tabel Hasil Proses Cleaning
Sebelum Cleaning Setelah Cleaning
Pada 18 desember Nug mengirim pesan broadcast pada media sosial Blackberry Messenger BBM, nug menyebarkan foto bugil dari Yul ke semua contact BBMnya. Nug menyebarkan materi pornografi ke orang orang dalam daftar contact BBM nya. Nug melakukan penyebaran foto bugil Yul kepada orang orang yang ada di dalam daftar contact BBM nya
Pada desember Nug mengirim pesan bro adcast pada media sosial Blackberry Mes senger BBM nug menyebarkan foto bugi l dari Yul ke semua contact BBMnya Nu g menyebarkan materi pornografi ke ora ng orang dalam daftar contact BBM nya Nug melakukan penyebaran foto bugil Yul kepada orang orang yang ada di dala m daftar contact BBM nya
2) Case Folding
Pada proses ini dilakukan pengubahan semua huruf dalam dokumen menjadi huruf kecil (lowercase) sehingga jenis huruf yang akan diproses seragam, dan huruf yang mengalami perubahan hanya ‘a’ sampai ‘z’. Proses ini dilakukan karena tidak semua dokumen teks konsisten dalam penggunaan huruf kapital. Berdasarkan dokumen teks pada Gambar 3.2, hasil dari proses case folding dapat dilihat pada tabel 3.3.
Tabel 3.3 Tabel Hasil Proses Case Folding
Sebelum Case Folding Setelah Case Folding Pada desember Nug mengirim pesan bro
adcast pada media sosial Blackberry Mes senger BBM nug menyebarkan foto bugi l dari Yul ke semua contact BBMnya Nu g menyebarkan materi pornografi ke ora ng orang dalam daftar contact BBM nya Nug melakukan penyebaran foto bugil Yul kepada orang orang yang ada di dala m daftar contact BBM nya
pada desember nug mengirim pesan broa dcast pada media sosial blackberry mess enger bbm nug menyebarkan foto bugil d ari yul ke semua contact bbmnya nug me nyebarkan materi pornografi ke orang or ang dalam daftar contact bbm nya nug m elakukan penyebaran foto bugil yul kepa da orang orang yang ada di dalam daftar contact bbm nya
3) Stopwords Removal
Proses stopwords removal dilakukan untuk penghapusan kata yang terdapat pada kamus stopword dimana kata-kata tersebut tidak relevan atau memiliki arti dan kata yang berjumlah banyak tetapi tidak memiliki pengaruh terhadap isi dari sebuah kalimat dalam dokumen, sehingga proses pemodelan yang dilakukan akan lebih cepat. Hasil dari proses stopwords removal dapat dilihat di tabel 3.4.
Tabel 3.4 Tabel Hasil Proses Stopwords Removal
Sebelum Stopwords Removal Setelah Stopwords Removal pada desember nug mengirim pesan bro
adcast pada media sosial blackberry mes senger bbm nug menyebarkan foto bugil dari yul ke semua contact bbmnya nug menyebarkan materi pornografi ke orang
desember nug mengirim pesan broadcast media sosial blackberry messenger bbm nug menyebarkan foto bugil yul contact b bmnya nug menyebarkan materi pornogr afi orang orang daftar contact bbm nya
Tabel 3.5 Tabel Hasil Proses Stopwords Removal (Lanjutan) Sebelum Stopwords Removal Setelah Stopwords Removal orang dalam daftar contact bbm nya nug
melakukan penyebaran foto bugil yul kepada orang orang yang ada di dalam daftar contact bbm nya
nug penyebaran foto bugil yul orang orang daftar contact bbm nya
4) Stemming
Stemming adalah pengubahan kata ke bentuk kata dasar atau penghapusan imbuhan.
Stemming disini menggunakan kamus daftar kata berimbuhan yang mempunyai kata dasarnya dengan cara membandingkan kata-kata yang ada di dalam dokumen dengan daftar kamus stem. Hasil proses stemming dapat dilihat di tabel 3.5.
Tabel 3.6 Tabel Hasil Proses Stemming
Sebelum Stemming Setelah Stemming
desember nug mengirim pesan broadcas t media sosial blackberry messenger bbm nug menyebarkan foto bugil yul contact bbmnya nug menyebarkan materi porno grafi orang orang daftar contact bbm nya nug penyebaran foto bugil yul orang ora ng daftar contact bbm nya
desember nug kirim pesan broadcast med ia sosial blackberry messenger bbm nug s ebar foto bugil yul contact bbmnya nug s ebar materi pornografi orang orang dafta r contact bbm nya nug sebar foto bugil y ul orang orang daftar contact bbm nya
3.2.3 Implementasi Labeled Latent Dirichlet Allocation
Setelah proses preprocessing selesai dijalankan, maka tahap selanjutnya adalah implementasi Labeled Latent Dirichlet Allocation. LLDA melakukan pemodelan data dengan memisalkan 1 ≤ d ≤ D mengindeks sekumpulan dokumen yang berisi kata-kata spasial-temporal dari kosakata berukuran W, 1 ≤ Wn ≤ W. Setiap dokumen d direpresentasikan sebagai urutan kata Ndw = {W1, . . . , Wn, . . . , WNd} dan daftar indikator kehadiran / ketidakhadiran topik biner, Λd = (l1, ..., lk, .., lK),dengan lk ∈ {0, 1} dan K adalah jumlah total kategori atau kelompok label, seperti 27 ayat 1, 27 ayat 3, 27 ayat 4, 28 ayat 1, 28 ayat 2, dan pasal lainnya. Setelah itu akan dilakukan perhitungan perplexity dengan menggunakan persamaan (2.3), lalu setiap kata yang terdapat pada
masing-masing kategori akan dicari nilai probabilitasnya dengan menggunakan persamaan (2.4).
Pada setiap dokumen w(d) akan dilakukan proses untuk mendapatkan distribusi label-kata dan menentukan kategori mana dokumen ini akan masuk. Berdasarkan hal tersebut dapat disimpulkan z(d) dari w(d), dan proses tersebut bisa dilakukan dengan menggunakan Gibbs Sampling yang dijabarkan untuk probabilitas p (z(d)| w(d)).
Misalkan z(d)−I menunjukkan z (d) - {zi} dan w(d)−I menunjukkan w(d) - {wi}. Lalu, n(wi)−i, j menunjukkan jumlah total kata wi yang didistribusikan ke topik j tidak termasuk arus penugasan zi (Lakshminarayanan dan Raich, 2011). Mengikuti perhitungan standar (Griffiths dan Steyvers, 2004) yang tersedia, setelah proses dijalankan maka model akan terbentuk dengan nilai probabilitasnya masing-masing yang akan digunakan untuk tahap pengujian sistem. Proses pengujian akan dilakukan dengan menghitung nilai probabilitas kata yang ada pada data, dengan cara setiap kata yang ada pada data pengujian akan dibandingkan dengan kata dari model pembelajaran yang dibuat lalu dihitung jumlah nilai probabilitas yang didapatkan. Data testing tersebut akan diuji dengan melihat nilai tertinggi yang didapat oleh data yang diuji. Setelah pengujian selesai maka akan diperoleh akurasi dari keberhasilan sistem untuk mengklasifikasikan data.
3.3 Perancangan Sistem