KLASIFIKASI JENIS PASAL UU ITE MENGGUNAKAN LABELED LATENT DIRICHLET ALLOCATION SKRIPSI PENTARI TRIMITA PAKPAHAN

(1)

KLASIFIKASI JENIS PASAL UU ITE MENGGUNAKAN LABELED LATENT DIRICHLET ALLOCATION

SKRIPSI

PENTARI TRIMITA PAKPAHAN 161402043

PROGRAM STUDI S1 TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA

MEDAN 2021

(2)

KLASIFIKASI JENIS PASAL UU ITE MENGGUNAKAN LABELED LATENT DIRICHLET ALLOCATION

SKRIPSI

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi

PENTARI TRIMITA PAKPAHAN 161402043

PROGRAM STUDI S1 TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA

MEDAN 2021

(3)

(4)

PERNYATAAN

KLASIFIKASI JENIS PASAL UU ITE MENGGUNAKAN LABELED LATENT DIRICHLET ALLOCATION

SKRIPSI

Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

Medan, 8 April 2021

Pentari Trimita Pakpahan 161402043

(5)

UCAPAN TERIMA KASIH

Segala Puji dan Syukur penulis panjatkan kepada Tuhan Yesus Kristus yang telah memberikan berkat dan kasih-Nya sehingga penulis dapat menyelesaikan skripsi ini dengan baik sebagai syarat memperoleh gelar Sarjana Komputer pada Program Studi S1 Teknologi Informasi Universitas Sumatera Utara.

Skripsi ini penulis persembahkan kepada kedua orangtua terkasih yakni Bapak Wilson Pakpahan dan Mama Nila Tiurma Tambun yang telah memberikan penulis dukungan baik dalam doa dan sehari-hari, dan senantiasa mengasihi dan menyayangi penulis sampai saat ini sehingga penulis dapat menyelesaikan pendindikan sampai jenjang sarjana. Penulis juga berterima kasih kepada Keluarga besar penulis yang selalu memperhatikan dan menasehati penulis, juga kepada saudara penulis yaitu, bang Ivan, kak Jessica, adik Vito dan adik Kael yang selalu memberikan dukungan dan hiburan kepada penulis selama perkuliahan, dan juga kepada Opung penulis yang selalu menjaga dan menyayangi penulis dalam proses perkuliahan.

Penulis menyadari bahwa skripsi ini tidak akan terwujud tanpa adanya bantuan dari banyak pihak. Oleh karena itu, penulis ingin mengucapkan terima kasih kepada:

1. Bapak Dr. Muryanto Amin, S.Sos., M.Si., selaku Rektor Universitas Sumatera Utara.

2. Bapak Prof. Dr. Opim Salim Sitompul M.Sc., selaku Dekan Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.

3. Ketua dan Sekretaris Program Studi S1 Teknologi Informasi Bapak Romi Fadillah Rahmat, B.Comp.Sc, M.Sc, dan Ibu Sarah Purnamawati S.T, M.Sc.

4. Bapak Romi Fadillah Rahmat, B.Comp.Sc, M.Sc, selaku Dosen Pembimbing 1 penulis dan Bapak Dani Gunawan, S.T, M.T, selaku Dosen Pembimbing 2 penulis yang telah memberikan waktu, saran dan kritik kepada penulis dalam menyelesaikan skripsi ini.

5. Bapak Indra Aulia, S.TI, M.Kom, selaku Dosen pembanding 1 penulis, dan Ibu Ade Sarah Huzaifah, S.Kom, M.Kom, selaku Dosen pembanding 2 penulis yang telah memberikan kritik dan saran dalam penyempurnaan skripsi ini.

6. Seluruh Dosen pengajar di Program Studi Teknologi Informasi yang senantiasa memberi ilmu kepada penulis dari semester 1 sampai saat ini.

(6)

7. Staff dan pegawai Fasilkom-TI yang telah membantu penulis dalam proses administrasi dan kemahasiswaan selama proses perkuliahan.

8. Kepada Tulang dan Nantulang penulis yang memberikan nasihat dalam proses perkuliahan, dan adik Shalom yang selalu memberikan hiburan, dukungan, semangat dan keceriaan kepada penulis.

9. Kepada Sahabat terkasih penulis, Emmanuella Anggi Siallagan, S.Kom, Yunita S Marito Pane, S.Kom, yang membantu, mendukung dan mengajari penulis dalam pengerjaan skripsi dari awal hingga akhir dan sahabat penulis Andini Pratiwi, dan Sinta Anjelina yang senantiasa menjadi sahabat penulis dari awal, dan selalu membantu, menghibur dan menolong dalam proses perkuliahan.

10. Kepada sahabat penulis Ocing yang senantiasa mendengarkan keluhan penulis serta memberikan dukungan dan hiburan kepada penulis pada saat down.

11. Teman-teman Teknologi Informasi USU khususnya Angkatan 2016 Kom A yang sudah menemani penulis dari awal perkuliahan, senantiasa memberikan hiburan, dukungan dan semangat kepada penulis.

12. Kepada Keluarga dan teman penulis yang tidak dapat penulis sebutkan satu persatu yang telah memberikan dukungan dan doa kepada penulis.

Kiranya Damai Sejahtera Tuhan Yesus Kristus selalu memberkati dan melindungi kepada semua pihak yang telah memberikan dukungan, semangat dan waktu kepada penulis dalam menyelesaikan skripsi ini.

Medan, 8 April 2021

Pentari Trimita Pakpahan

(7)

ABSTRAK

Perkembangan Teknologi Informasi (TI) yang senantiasa berkembang dalam masyarakat saat ini sangat bermanfaat dalam menginformasikan berita, berinteraksi melalui sosial media, dan sebagainya. Namun, selain menyediakan manfaat bagi kehidupan manusia perkembangan teknologi informasi juga memiliki dampak negatif yaitu dengan munculnya perilaku jahat yang dilakukan masyarakat dalam penggunaan teknologi informasi yang menyebabkan masyarakat terjerat kasus kriminal pada bidang ITE yang tertulis pada UU ITE No. 11 Tahun 2008. Kasus kriminal yang terjadi pada bidang informasi dan transaksi elektronik seperti, penipuan online, pencemaran nama baik, pengancaman, dan berita palsu (hoax) pada umumnya dikaji dan disimpulkan oleh saksi ahli secara langsung melalui berita acara pemeriksaan. Keterbatasan waktu, akses dan biaya yang dimiliki masyarakat umum untuk berkomunikasi dengan saksi ahli menyebabkan masyarakat tidak mengetahui suatu jenis pasal UU ITE terhadap kasus pelanggaran ITE, sehingga untuk mempermudah dan membantu masyarakat maka diperlukannya suatu teknik yang mampu melakukan klasifikasi pasal UU ITE terhadap kasus kriminal yang terjadi pada bidang informasi dan transaksi elektronik secara komputerisasi. Penelitian ini menggunakan Algoritma Labeled Latent Dirichlet Allocation untuk mengklasifikasi kasus pelanggaran UU ITE yang tingkat akurasi evaluasi model sebesar 94,44% dan hasil akurasi sistem sebesar 93,33% dengan menggunakan 30 dataset pengujian.

Kata kunci: UU ITE, Kasus Pelanggaran UU ITE, Klasifikasi, Labeled Latent Dirichlet Allocation

(8)

CLASSIFICATION OF THE ITE LAW CASE USING LABELED LATENT DIRICHLET ALLOCATION

ABSTRACT

The increasing of Information Technology (IT) which is constantly developing in today's society is useful in informing news, interacting through social media, and so on.

However, in addition to providing benefits to human life, the development of information technology also has a negative impact, namely by the emergence of evil behavior by the community in the use of information technology which causes the community to get caught up in criminal cases in that field which is written on UU ITE No. 11 of 2008. Criminal cases that occur in the field of information and electronic transactions, such as online fraud, defamation, threats, and fake news (hoax) are generally reviewed and concluded by expert witnesses directly through examination reports. The limited time, access and costs that the general public has to communicate with expert witnesses causes the public not to know a type of article of the ITE Law on cases of ITE violations, so that to simplify and help the community, a technique is needed that is able to classify articles of the ITE Law on cases in the field. computerized electronic information and transactions. This study uses the Labeled Latent Dirichlet Allocation Algorithm to classify cases of violations of the ITE Law. This study resulted in an accuracy rate of model evaluation of 94.44% and a system accuracy of 93.33%

using 30 test datasets.

Keywords: ITE Law, ITE Law Case, Classification, Labeled Latent Dirichlet Allocation

(9)

DAFTAR ISI

Hal

PERSETUJUAN Error! Bookmark not defined.

PERNYATAAN ii

UCAPAN TERIMA KASIH iii

ABSTRAK v

ABSTRACT vi

DAFTAR ISI vii

DAFTAR TABEL ix

DAFTAR GAMBAR x

BAB 1 PENDAHULUAN 1

1.1 Latar Belakang 1

1.2 Rumusan Masalah 3

1.3 Batasan Masalah 3

1.4 Tujuan Penelitian 3

1.5 Manfaat Penelitian 4

1.6 Metodologi Penelitian 4

1.7 Sistematika Penulisan 5

BAB 2 LANDASAN TEORI 6

2.1 UU ITE 6

2.2 Jenis – Jenis Pelanggaran UU ITE 7

2.3 Text Preprocessing 8

2.3.1Cleaning 8

2.3.2 Case Folding 9

2.3.3Stopwords Removal 9

2.3.4Stemming 9

2.4 Latent Dirichlet Allocation (LDA) 9

2.5 Labeled Latent Dirichlet Allocation (LLDA) 11

(10)

2.5.1Gibbs Sampling pada LLDA 12

2.7 Metode Evaluasi 14

2.8 Penelitian Terdahulu 15

BAB 3 ANALISIS DAN PERANCANGAN 20

3.1 Data Penelitian 20

3.2 Analisis Sistem 20

3.2.1Dataset 21

3.2.2 Preprocessing 22

3.2.3 Implementasi Labeled Latent Dirichlet Allocation 24

3.3 Perancangan Sistem 25

3.3.1Rancangan Halaman Index 25

3.3.1Rancangan Halaman Menu 26

3.3.2Rancangan Halaman Pelatihan (Training) 27

3.3.3Rancangan Halaman Pengujian (Testing) 28

BAB 4 IMPLEMENTASI DAN PENGUJIAN SISTEM 30

4.1 Implementasi Sistem 30

4.1.1Spesifikasi Perangkat Keras 30

4.1.2 Spesifikasi Perangkat Lunak 30

4.1.3Implementasi Perancangan Antarmuka 31

4.2 Pengujian Sistem 36

4.2.1 Pelatihan Model 36

4.2.2 Pengujian Model 45

BAB 5 KESIMPULAN DAN SARAN 55

5.1 Kesimpulan 55

5.2 Saran 55

DAFTAR PUSTAKA 56

Lampiran 59

(11)

DAFTAR TABEL

Tabel 2.1 Tabel Confussion Matrix ... 15

Tabel 2.2 Penelitian Terdahulu ... 17

Tabel 2.3 Penelitian Terdahulu (Lanjutan) ... 18

Tabel 3.1 Tabel Data Latih dan Data Uji ... 20

Tabel 3.2 Tabel Hasil Proses Cleaning ... 22

Tabel 3.3 Tabel Hasil Proses Case Folding ... 23

Tabel 3.4 Tabel Hasil Proses Stopwords Removal ... 23

Tabel 3.5 Tabel Hasil Proses Stopwords Removal (Lanjutan) ... 24

Tabel 3.6 Tabel Hasil Proses Stemming ... 24

Tabel 4.1 Tabel Contoh Data Latih ... 36

Tabel 4.2 Tabel Contoh Data Latih (Lanjutan) ... 37

Tabel 4.6 Tabel Hasil Perplexity... 41

Tabel 4.7 Tabel Nilai Probabilitas Pasal 27 Ayat 1 ... 41

Tabel 4.8 Tabel Nilai Probabilitas Pasal 27 Ayat 1 (Lanjutan) ... 42

Tabel 4.13 Tabel Nilai Probabilitas Pasal Lainnya ... 44

Tabel 4.14 Tabel Hasil Pengujian Data ... 45

Tabel 4.15 Tabel Hasil Pengujian Data (Lanjutan) ... 46

Tabel 4.22 Tabel Hasil Pengujian Sistem ... 53

Tabel 4.23 Tabel Classification Report... 53

(12)

DAFTAR GAMBAR

Gambar 2.1 Diagram Model LDA 10

Gambar 2.2 Diagram Model LLDA 12

Gambar 3.1 Gambar Arsitektur Umum 21

Gambar 3.2 Gambar Contoh Input Kasus Pelanggaran UU ITE 22

Gambar 3.3 Gambar Desain Halaman Index 26

Gambar 3.4 Gambar Desain Halaman Menu 27

Gambar 3.5 Gambar Desain Halaman Pelatihan 28

Gambar 3.6 Gambar Desain Halaman Pengujian 29

Gambar 4.1 Gambar Antarmuka Halaman Index 31

Gambar 4.2 Gambar Antarmuka Halaman Menu 32

Gambar 4.3 Gambar Antarmuka Halaman Pelatihan 32

Gambar 4.4 Gambar Tampilan Input Data Latih 33

Gambar 4.5 Gambar Antarmuka Hasil Proses Pelatihan Data 33

Gambar 4.6 Gambar Antarmuka Halaman Pengujian 34

Gambar 4.7 Gambar Tampilan Input Data Uji 35

Gambar 4.8 Gambar Hasil Proses Pengujian 35

Gambar 4.9 Gambar Antarmuka Hasil Proses Pelatihan Data Lebih Sedikit 44

(13)

BAB 1 PENDAHULUAN

1.1 Latar Belakang

Perkembangan teknologi di tengah masyarakat modern saat ini dapat membantu manusia dalam mencari dan melihat informasi ataupun berita. Tetapi, perkembangan teknologi ini juga memberikan dampak yang buruk atau negatif bagi masyarakat.

Dampak negatif tersebut dapat berupa penipuan online, perjudian online, penggunaan data yang ilegal, dan berita palsu (hoax) yang dapat membuat masyarakat terkena kasus kriminal pada bidang informasi dan transaksi elektronik (Anto, 2018).

Indonesia yang merupakan Negara hukum memiliki peraturan-peraturan yang mengatur hubungan antar masyarakat, salah satunya adalah peraturan tentang informasi dan transaksi elektronik yang bertujuan untuk mengatasi dampak negatif yang terjadi pada bidang informasi dan transaksi elektronik. Peraturan tersebut tertulis pada Undang-Undang No. 11 tahun 2008 tentang informasi dan transaksi elektronik, dan mengalami perubahan pada Undang-Undang No. 19 tahun 2016 tentang perubahan atas Undang-Undang No. 11 tahun 2008 tentang informasi dan transaksi elektronik (ITE).

Setiap kasus kriminal pada bidang informasi dan transaksi elektronik pada umumnya akan dikaji dan disimpulkan oleh saksi ahli dengan cara manual yaitu dengan membaca kronologi kejadian kasus pelanggaran UU ITE. Hal ini menyebabkan masyarakat umum yang memiliki keterbatasan waktu, akses dan biaya untuk berkomunikasi dengan saksi ahli tidak mengetahui jenis pasal UU ITE yang akan dikenakan terhadap kasus pelanggaran UU ITE dan membuat sebagian besar dari masyarakat Indonesia masih banyak yang belum mengerti dan memahami peraturan yang tertera pada UU ITE (Saputra et al., 2016).

Oleh karena itu, untuk membantu masyarakat dalam mengetahui jenis pasal UU ITE terhadap kasus pelanggaran UU ITE berdasarkan kronologi kejadian maka dibutuhkannya suatu teknik yang mampu melakukan klasifikasi pasal UU ITE terhadap kasus pada bidang informasi dan transaksi elektronik secara komputerisasi. Kronologi

(14)

kejadian ini nantinya akan diproses dan dikaji agar merujuk kepada satu topik pasal UU ITE.

Topik pasal UU ITE tersebut dapat diidentifikasi melalui pemodelan topik yang merupakan perkembangan dari analisis teks yang bermanfaat dalam pemodelan data tekstual dengan tujuan menemukan topik yang tersembunyi didalamnya. Salah satu algoritma pemodelan topik adalah model probabilitas Labeled Latent Dirichlet Allocation (LLDA). Labeled Latent Dirichlet Allocation (LLDA) merupakan model data teks probabilistic yang dapat menjelaskan korelasi antara kata dan topik semantic yang tersembunyi dalam dokumen.

Pada penelitian terdahulu, Romsaiyud (2017) mendeteksi cyberbullying secara otomatis menggunakan pola clustering appeareance, lalu Alami (2015) menggunakan Text Mining untuk mendeteksi dan memprediksi aktivitas kriminal di postingan microblog menggunakan Latent Dirichlet Allocation. Lalu, Saputra et al. (2016) melakukan penelitian berupa Pencarian Pasal Pada UU ITE Berdasarkan Kasus Cyber Crime Dengan Metode Latent Semantic Indexing (LSI).

Penelitian yang dilakukan Widodo et al. (2016) menggunakan metode multi-label berbasis domain specific ontology untuk mempelajari klasifikasi berita dan dokumen lainnya, berdasarkan penelitian ini didapatkan akurasi kategori olahraga 93,85% dan kategori teknologi 96,32%. Disamping itu, penelitian tersebut juga melakukan pengukuran nilai f-measure dengan hasil masing-masing sebesar 74,74% untuk kategori olahraga dan 78,96% untuk kategori teknologi, dan (Nanayakkara P & Ranathunga 2018) yang melakukan penelitian Clustering Sinhala Artikel Berita menggunakan corpus berdasarkan Similarity Measures dengan akurasi 77%.

Penelitian lainnya juga dilakukan oleh Kusumaningrum et al. pada tahun 2016 yaitu mengklasifikasi Artikel Berita Indonesia menggunakan Latent Dirichlet Allocation, lalu Syed (2017) yang melakukan penelitian untuk memeriksa Skor Koherensi Topik dari teks lengkap atau abstrak Latent Dirichlet Allocation, dan (Bai, Y., & Wang, J. 2015) yang melakukan penelitian klasifikasi berita menggunakan Labeled Latent Dirichlet Allocation Classifier yang mendapatkan hasil bahwa LLDA-C lebih unggul dibanding SVM dalam hal precision.

Berdasarkan penelitian-penelitian tersebut, maka penulis mengajukan penelitian yang berjudul “Klasifikasi Jenis Pasal UU ITE Menggunakan Labeled Latent Dirichlet Allocation”. Dengan tujuan, penggunaan metode tersebut dapat membantu dan

(15)

memberikan hasil yang maksimal dalam melakukan klasifikasi jenis pasal UU ITE berdasarkan kronologi kejadian dari kasus pelanggaran UU ITE.

1.2 Rumusan Masalah

Kasus kriminal yang terjadi pada bidang informasi dan transaksi elektronik seperti, penipuan online, pencemaran nama baik, pengancaman, dan berita palsu (hoax) pada umumnya dikaji dan disimpulkan oleh saksi ahli secara langsung dengan cara membaca kronologi kejadian kasus. Keterbatasan waktu, akses dan biaya yang dimiliki masyarakat umum untuk berkomunikasi dengan saksi ahli menyebabkan masyarakat tidak mengetahui suatu jenis pasal UU ITE terhadap kasus pelanggaran ITE, sehingga untuk mempermudah dan membantu masyarakat maka diperlukannya suatu teknik yang mampu melakukan klasifikasi pasal UU ITE terhadap kasus pada bidang informasi dan transaksi elektronik secara komputerisasi.

1.3 Batasan Masalah

Saat melakukan penelitian penulis memberikan beberapa batasan masalah untuk menghindari penyimpangan dan perluasan yang tidak perlu, penulis menentukan batasan-batasan dalam penelitian ini sebagai berikut:

1. Data yang digunakan pada penelitian ini adalah kronologi kejadian dari kasus pelanggaran UU ITE.

2. Data yang digunakan adalah data berbahasa Indonesia.

3. Pasal UU ITE yang akan diklasifikasi adalah:

a. Pasal 27 ayat 1, pelanggaran mengenai keasusilaan.

b. Pasal 27 ayat 3, pelanggaran mengenai pencemaran nama baik.

c. Pasal 27 ayat 4, pelanggaran mengenai pengancaman.

d. Pasal 28 ayat 1, pelanggaran mengenai berita bohong kepada konsumen.

e. Pasal 28 ayat 2, pelanggaran mengenai penyebaran informasi yang menimbulkan kebencian masyarakat tertentu berdasarkan suku, agama, ras, dan antargolongan (SARA).

f. Pasal lainnya atau bukan UU ITE.

1.4 Tujuan Penelitian

Tujuan dari penelitian ini adalah untuk mengklasifikasi jenis pasal UU ITE berdasarkan kronologi kejadian kasus dengan menggunakan metode Labeled Latent Dirichlet Allocation (LLDA).

(16)

1.5 Manfaat Penelitian

Adapun manfaat yang dihasilkan dari penelitian ini adalah:

1. Mempermudah dan membantu masyarakat yang memiliki keterbatasan akses dalam mengetahui jenis pasal UU ITE terhadap kasus pelanggaran UU ITE tanpa mengeluarkan biaya.

2. Mengetahui kemampuan algoritma Labeled Latent Dirichlet Allocation dalam klasifikasi kasus pelanggaran UU ITE berdasarkan kronologi kejadian kasus pelanggaran UU ITE.

1.6 Metodologi Penelitian

Tahapan-tahapan yang akan dilakukan pada penelitian ini adalah sebagai berikut:

1. Studi Literatur

Pada tahapan ini penulikan melakukan pengumpulan dan pembelajaran informasi yang diperoleh dari buku, skripsi, jurnal, dan sumber lainnya yang dapat membantu penulis dalam mengerjakan penelitian ini. Informasi yang dipelajari dan dikumpulkan berhubungan dengan UU ITE, Text Preprocessing, algoritma Labeled Latent Dirichlet Allocation dan teknik penerapan lainnya untuk mencapai tujuan akhir dari penelitian.

2. Pengumpulan Data

Pada tahapan ini dilakukan pengumulan data. Penelitian ini menggunakan data brupa kronologi kejadian dari kasus pelanggaran UU ITE.

3. Analisis Permasalahan

Pada tahapan ini akan dilakukan analisis berbagai informasi terkait yang telah diperoleh yang bertujuan untuk mendapatkan metode yang sesuai dengan permasalahn yang akan diselesaikan yaitu klasifikasi jenis pasal UU ITE berdasarkan kronologi kejadian dari kasus pelanggaran UU ITE.

4. Perancangan Sistem

Tahapan perancangan sistem ini dilakukan agar masalah yang terdapat pada tahap analisis dapat diseleaikan. Pada tahap ini dilakukan pembangunan sistem untuk mengklasifikasi jenis pasal UU ITE berdasarkan kasus pelanggaran UU ITE.

5. Implementasi Sistem

Pada tahap ini dilakukan implementasi pengkodean program sesuai dengan analisis dan perancangan yang telah dilakukan pada tahap sebelumnya

(17)

6. Uji coba Sistem

Pada tahapan ini akan dilakukan uji coba terhadap sistem yang telah dibangun dalam mengklasifikasikan jenis pasal UU ITE terhadap kasus pelanggaran UU ITE. Tahapan ini bertujuan untuk mengetahui apakah sistem sudah bekerja menurut fungsi yang diharapkan.

7. Dokumentasi dan Penyusunan Laporan

Pada tahapan ini dilakukan penyusunan laporan dan menampilkan dokumentasi laporan akhirt dari penelitiasn yang telah dilakuksan mengenai klasifikasi jenis pasal UU ITE berdasarkan kasus pelanggaran UU ITE.

1.7 Sistematika Penulisan

Sistematika penulisan dari skripsi ini terdiri dari lima bagian utama yaitu sebagai berikut:

Bab 1: Pendahuluan

Bab ini berisi latar belakang, rumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, metodologi penelitian dan sistematika penulisan.

Bab 2: Landasan Teori

Bab ini berisi teori-teori yang digunakan untuk memahami permasalahan yang dibahas pada penelitian ini. Pada bab ini dijelaskan tentang jenis-jenis pelanggaran UU ITE, UU ITE, Text Preprocessing, Labeled Latent Dirichlet Allocation (LLDA).

Bab 3: Analisis dan Perancangan Sistem

Bab ini berisi analisis dan penerapan metode Labeled Latent Dirichlet Allocation serta perancangan seperti pemodelan dengan blok digaram maupun flowchart.

Bab 4: Implementasi dan Pengujian Sistem

Bab ini berisi pembahasan tentang implementasi dari analisis dan perancangan yang disusun pada Bab 3 dan pengujian apakah hasil yang didapatkan sesuai dengan yang diharapkan.

Bab 5: Kesimpulan Dan Saran

Bab ini berisi kesimpulan dari keseluruhan uraian bab-bab sebelumnya dan saran-saran yang diajukan untuk pengembangan penelitian selanjutnya.

(18)

BAB 2

LANDASAN TEORI

Bab ini akan menjelaskan tentang teori-teori yang digunakan untuk memahami permasalahan yang dibahas pada penelitian ini. Pada bab ini dijelaskan tentang jenis- jenis pelanggaran UU ITE, Text Preprocessing, Labeled Latent Dirichlet Allocation (LLDA).

2.1 UU ITE

Undang-Undang Informasi dan Transaksi Elektronik (UU ITE) atau UU No. 11 Tahun 2008 merupakan undang-undang yang mengatur tentang informasi dan transaksi elektronik secara umum. Undang-undang ini memiliki yurisdiksi yang berlaku untuk setiap orang yang melaksanakan proses hukum berdasarkan undang-undang ini baik yang berada di dalam wilayah Indonesia atau di luar yurisdiksi Indonesia, yang menyebabkan kerusakan kepetingan pada Indonesia (Kominfo, 2016). Isi Pasal 27 sampai pasal 30 UU ITE adalah sebagai berikut:

a. Pasal 27:

(1) Setiap Orang dengan sengaja dan tanpa hak mendistribusikan dan/atau mentransmisikan dan/atau membuat dapat diaksesnya Informasi Elektronik dan/atau Dokumen Elektronik yang memiliki muatan yang melanggar keasusilaan.

(2) Setiap Orang dengan sengaja dan tanpa hak mendistribusikan dan/atau mentransmisikan dan/atau membuat dapat diaksesnya Informasi Elektronik dan/atau Dokumen Elektronik yang memiliki muatan perjudian.

(3) Setiap Orang dengan sengaja dan tanpa hak mendistribusikan dan/atau mentransmisikan dan/atau membuat dapat diaksesnya Informasi Elektronik dan/atau Dokumen Elektronik yang memiliki muatan penghinaan dan/atau pencemaran nama baik.

(19)

(4) Setiap Orang dengan sengaja dan tanpa hak mendistribusikan dan/atau mentransmisikan dan/atau membuat dapat diaksesnya Informasi Elektronik dan/atau Dokumen Elektronik yang memiliki muatan pemerasan dan/atau pengancaman.

b. Pasal 28:

(1) Setiap Orang dengan sengaja dan tanpa hak menyebarkan berita bohong dan menyesatkan yang mengakibatkan kerugian konsumen dalam Transaksi Elektronik.

(2) Setiap Orang dengan sengaja dan tanpa hak menyebarkan informasi yang ditujukan untuk menimbulkan rasa kebencian atau permusuhan individu dan/atau kelompok masyarakat tertentu berdasarkan atas suku, agama, ras, dan antargolongan (SARA).

2.2 Jenis – Jenis Pelanggaran UU ITE

Ketentuan Pidana yang terdapat dalam UU ITE membuktikan adanya pelanggaran terhadap ketentuan tersebut yang dapat dikenai sanksi pidana. Jenis pelanggaran UU ITE dapat diklasifikasikan menurut hubungannya dengan tindak pidana pada bidang informasi dan transaksi elektronik (Supanto, 2016). Jenis – jenis pelanggaran UU ITE tersebut dapat diIihat sebagai berikut:

1. Kelompok Pertama (Pasal 27 & Pasal 28)

Dengan sengaja dan tanpa hak untuk mendistribusikan dan / atau mentransmisikan dan / atau membuat konten informasi elektronik dan / atau dokumen elektronik melanggar kesopanan, konten perjudian, penghinaan dan/ atau pencemaran nama baik, pemerasan dan / atau ancaman; menyebarkan berita palsu dan menyesatkan, mengarahkan Kepada konsumen yang mengalami kerugian dalam transaksi elektronik, menyebarkan informasi yang dimaksudkan untuk menyebabkan individu dan / atau komunitas tertentu berdasarkan kebencian atau kebencian suku, agama, ras dan antargolongan (SARA); pelanggaran tersebut termasuk ke dalam ancaman kekerasan atau intimidasi terhadap individu.

2. Kelompok Kedua (Pasal 30)

Secara sengaja, tanpa hak atau melawan hukum mengakses computer dan / atau sistem elektronik milik orang lain dengan cara apapun untuk memperoleh informasi elektronik dan / atau dokumen elektronik; pelanggaran tersebut beararti melanggar, merusak, melewati atau menghancurkan sistem keamanan.

(20)

3. Kelompok Ketiga (Pasal 31)

Secara sengaja, tanpa haka tau illegal menyadap atau menguping informasi elektronik dan / atau dokumen elektronik di komputer tertentu dan / atau sistem elektronik milik orang lain, dan apakah tidak akan menyebabkan perubahan atau mengarah pada perubahan, kelalaian dan/ atau penghentian informasi elektronik yang dikirimkan dan / atau dokumen elektronik.

4. Kelompok Keempat (Pasal 32 & Pasal 33)

Secara sengaja, tanpak hak atau melawan hukum, memodifikasi, menambah, mengurangi, mengirimkan, menghancurkan, menghapus, mentransmisikan, menyembunyikan, mentransfer informasi elektronik dan / atau dokumen elektronik milik orang lain atau milik umum. Mengalihkan sistem elektronik kepada orang lain tanpa hak; perubahan, penambahan, pengurangan, transmisi, pemusnahan, penghapusan, pemindahan, dan penyembunyian informasi elektronik dan / atau dokumen elektronik milik orang lain atau public, sehingga informasi elektronik dan / atau dokumen elektronik yang rahasia dapat diungkapkan dengan askses terbuka karena data yang tidak benar integritas dan perilaku apapun yang menyebabkan gangguan sistem elektronik dan / atau menyebabkan sistem elektronik gagal berfungsi dengan baik.

2.3 Text Preprocessing

Text Preprocessing adalah proses yang berguna untuk menetapkan data yang tidak akurat, tidak utuh atau tidak layak, seperti data yang ganda, nilai yang hilang, kesalahan pengisian, nilai yang tidak sesuai, dan lain sebagainya, yang bertujuan untuk meningkatkan kualitas dataset dengan cara mengoreksi ataupun menghilangkannya.

Data dengan kualitas rendah akan menghasilkan hasil dengan kualitas yang rendah pula (Han, 2015). Untuk dapat mengurangi data noise dan data yang tidak konsisten, saat ini terdapat beberapa teknik text preprocessing yang sering dilakukan. Beberapa di antaranya adalah, cleaning, case folding, stopwords removal, dan stemming.

2.3.1 Cleaning

Cleaning adalah proses untuk menghilangkan atau pembersihan kalimat dari seperti karakter HTML, retweet, username, hastag, url, simbol, tanda baca dan angka (Hemalatha et al., 2012).

(21)

2.3.2 Case Folding

Case Folding adalah proses pengubahan semua huruf dalam dokumen menjadi huruf kecil (lowercase) atau huruf besar (uppercase) sehingga jenis huruf yang akan diproses seragam, dan yang mengalami perubahan hanya huruf ‘a’ sampai ‘z’. Proses ini dilakukan karena adanya dokumen yang penulisan teksnya tidak konsisten dalam menggunakan huruf kapital (Kusumaningrum, R. et al., 2016).

2.3.3 Stopwords Removal

Stopwords Removal adalah proses penghapusan kata yang tidak relevan atau memiliki arti dan kata yang berjumlah banyak tetapi tidak memiliki pengaruh terhadap isi dari sebuah kalimat dalam dokumen. Kata-kata yang termasuk stopwords adalah yang, ke, di, dan, atau, dari, adalah, dan lain-lain (Tung, K. et al., 2015).

2.3.4 Stemming

Stemming adalah istilah yang digunakan untuk proses pencarian kata dasar dari sebuah kata yang mengandung imbuhan dengan cara menghilangkan prefix (awalan) dan suffix (akhiran) serta confix (awalan dan akhiran) dari suatu kata, yang bertujuan agar setiap kata dapat dikelompokkan (Adriani et al., 2007). Beberapa algoritma stemming kata bahasa Indonesia adalah algoritma Nazief dan Adriani, Arifin dan Setiono, algoritma Vega, serta algoritma Ahmad, Yussof, dan Sembok. Algoritma Nazief dan Adriani adalah Algoritma stemming yang paling bagus dalam menerapkan proses stemming ke dalam kata bahasa Indonesia (Asian et al., 2005).

2.4 Latent Dirichlet Allocation (LDA)

Ide dasar di balik LDA adalah bahwa dokumen direpresentasikan sebagai campuran acak atas topik laten, di mana setiap topik ditandai dengan distribusi kata- kata. Maka dari itu, LDA atau Latent Dirichlet Allocation adalah pemodelan topik probabilistik dimana setiap dokumen akan diwakilkan sebagai campuran acak atas serangkaian topik laten dan masing-masing topik yang diwakilkan sebagai distribusi melalui kosa kata (D. M. Blei, 2003). LDA dapat digunakan sebagai dua proses, yakni LDA sebagai proses inferensi dan LDA sebagai proses generatif. LDA sebagai proses inferensi digunakan ketika peneliti ingin mengidentifikasi variabel laten termasuk distribusi kata untuk setiap topik dan proporsi topik untuk setiap dokumen dan memiliki satu set kata sebagai variabel yang diamati, sedangkan LDA sebagai proses generatif digunakan ketika peneliti ingin menghasilkan sebuah corpus, yakni satu set dokumen, di mana terdapat nilai-nilai dari distribusi kata untuk setiap topik (Jk) dan proporsi topik

(22)

untuk setiap dokumen (Bd) yang telah diketahui nilainya (R. Kusumaningrum, 2014).

LDA sebagai proses generative untuk proses pembuatan corpus adalah sebagai berikut:

1. Untuk setiap topik j ∈ {1, ..., K}:

• Menggambar distribusi di setiap kata-kata pada kosakata Φj∼Dirichlet (β).

2. Untuk setiap dokumen d ∈ {1, ..., D} dalam korpus:

• Gambar vektor proporsi topik:

θd ∼ Dirichlet (α).

• Untuk setiap kata Wd, n dalam dokumen d, - Buatlah sebuah penugasan topik:

Zd, n ∼ Multinomial (θd);

- Gambar k ata Wd, n ∼Multinomial (ϕz,d,n).

Model LDA dapat digambarkan dalam sebuah diagram yang dapat digambarkan sebagai berikut:

Gambar 2.1 Diagram Model LDA (Zulhanif, 2016)

Berdasarkan gambar di atas alpha (α) melambangkan parameter yang digunakan untuk penghitungan distribusi topik pada dokumen. Nilai alpha inilah yang akan menunjukkan sedikit atau banyaknya campuran topik yang dibahas pada suatu dokumen, apabila nilai alpha semakin besar maka campuran topik yang dibahas akan semakin banyak, dan sebaliknya apabila nilai alpha semakin kecil maka campuran topik yang akan dibahas akan semakin kecil pada suatu dokumen. θ melambangkan distribusi topik dalam suatu dokumen. Z melambangkan topik dari kata tertentu yang terdapat dalam suatu dokumen. W melambangkan tiap-tiap kata yang terdapat dalam suatu dokumen. β melambangkan parameter yang melakukan proses kalkulasi distribusi terhadap tiap-tiap kata dalam suatu dokumen. Dari gambar 4. di atas distribusi dari parameter-parameter pada model LDA dapat dibuat ke dalam persamaan 2.1 berikut:

(23)

p(W, Z, θ, β | α, η) = p(θ | α) p(Z | θ) p(β | η) p(W | Z, β) (2.1)

Keterangan:

K = Total jumlah topik

βk = Topik, distribusi pada kosa kata D = Jumlah total dokumen

θd = Proporsi topik per dokumen Nd = Jumlah total kata dalam dokumen Zd,n = Penugasan topik per kata

Wd,n = Kata yang diamati α, η = Parameter Dirichlet

2.5 Labeled Latent Dirichlet Allocation (LLDA)

Labeled Latent Dirichlet Allocation (LLDA) adalah model grafis probabilistik yang menjelaskan proses untuk menghasilkan dokumen berlabel (Ramage et al., 2009).

Labeled LDA memodelkan setiap dokumen sebagai campuran topik yang mendasari dan menghasilkan setiap kata dari satu topik. Proses pemodelan LLDA terlebih dahulu dimulai dengan membuat dokumen pelabelan untuk menghimpun topik yang akan digunakan sebagai langkah pengelompokan/klasifikasi. Setiap label berhubungan langsung dengan satu topik, sehingga setiap topik digambarkan sebagai satu label (Ramage et al., 2009). Tidak seperti LDA, LLDA menggabungkan pengawasan dengan membatasi model topik untuk menggunakan topik yang sesuai dengan kumpulan label dokumen yang akan diamati (Blei et al., 2003).

Model LLDA dapat digambarkan dalam sebuah diagram yang dapat digambarkan sebagai berikut:

(24)

Gambar 2.2 Diagram Model LLDA (Ramage et al., 2009) Proses generatif untuk Labeled LDA dapat dilihat sebagai berikut:

1. Untuk setiap topik k ∈ {1,…. , K}:

a. Menghasilkan βk = (βk, 1,.., Βk, V)^T ∼ Dir (· | η) 2. Untuk setiap dokumen d:

a. Untuk setiap topik k ∈ {1,…., K}

i. Menghasilkan Λ(^𝑑_𝑘) ∈ {0, 1} ∼ Bernoulli (· | Φk)

b. Menghasilkan α^(d) = L^(d). α, dimana L^(d)adalah M^(d) × matriks K [𝑙^(𝑑)_𝑖𝑗], M^(d) = | λ^(d)|

λ^(d) = {k | Λ(^𝑑_𝑘) = 1}, 𝑙^(𝑑)_𝑖𝑗 = {1, 𝑗𝑖𝑘𝑎 λ⁽^𝑑_𝑖⁾= 𝑗

0, 𝑗𝑖𝑘𝑎 𝑡𝑖𝑑𝑎𝑘

c. Menghasilkan θ^(d) = (θl1,. . . , θlMd)^T ∼ Dir (· | α^(d)) d. Untuk setiap i di {1,. . . , Nd}:

i. Menghasilkan zi ∈ {λ(d)1,. . . , λ (d)Md} ∼ Mult (· | θ^(d)) ii. Menghasilkan wi ∈ {1,. . . , V} ∼ Mult (· | βzi)

Keterangan:

βk = Vektor yang berisi parameter distribusi multinomial yang sesuai dengan k^th topik

α = Parameter topik η = Parameter dari kata Φk = Label untuk topik k 2.5.1 Gibbs Sampling pada LLDA

Gibbs Sampling merupakan pendekatan simulasi untuk mengkonstruk distribusi bersama berdasarkan distribusi marginal, pada proses estimasi parameter LLDA, Gibbs sampling memerlukan nilai peluang dari topik z yang diasosiasikan untuk sebuah kata

(25)

(term). Proses Gibbs Sampling untuk setiap dokumen (dm) dapat dilakukan sebagai berikut:

a. Untuk setiap topik (k), 𝑘 𝜖 {1, … , 𝐾}:

 Menghasilkan label indikator binary topik 𝐴^(𝑑𝑚)∈ {0, 1} ~ 𝐵𝑒𝑟(. |Φ𝑘) b. Generate dimensi vektor yang lebih rendah untuk memproyeksikan parameter

vektor dari distribusi Dirichlet 𝛼(𝑑𝑚) = 𝐿(𝑑𝑚)𝑥 𝛼

c. Menghasilkan distribusi multinomial campuran 𝜃^(𝑑𝑚)= (𝜃𝑙1, . . . , 𝜃𝑙𝑀𝑑𝑚)𝑇 ~ 𝐷𝑖𝑟(.

|𝛼^(𝑑𝑚))

d. Untuk setiap iterasi sejumlah panjang kata dalam dokumen {1, ..., 𝑁𝑑}:

 Menghasilkan topik baru z𝑖 ∈ {𝜆₁^(𝑑), … , 𝜆^(𝑑)_𝑀𝑑} ~ 𝑀𝑢𝑙𝑡(. |𝜃𝑧𝑖)

 Menghasilkan list kata baru 𝑤𝑖 ∈ {1, … , 𝑉} ~ 𝑀𝑢𝑙𝑡(. |𝛽𝑧𝑖)

Persamaan Gibbs Sampling yang digunakan pada LLDA mengacu pada (Griffiths dan Steyvers, 2004) dapat dilihat pada persamaan (2.2).

P(Zi = j | Z-i) = ^𝑛^−𝑖,𝑗

(𝑤𝑖)+𝜂_𝑤𝑖

𝑛_−𝑖,𝑗^(⋅) +𝜂_𝑇1х^𝑛^−𝑖,𝑗

(𝑑)+ 𝛼𝑗

𝑛_−𝑖,.^(𝑑)+ 𝛼_𝑇1 (2.2)

Keterangan:

Zi = Proses kata ke topik j = Topik

Z-i = ηwi yang mengacu pada jumlah kata wi dalam topik 𝑛_−𝑖,𝑗^(𝑤𝑖) = Jumlah kata yang tidak terdapat dalam proses saat ini

𝑛_−𝑖,𝑗^(⋅) = Jumlah dari semua perhitungan kata yang tidak ada dalam proses ηT1 = Jumlah dokumen

αT1 = Parameter alpha

Dengan pelatihan model mengunakan LLDA, setiap dokumen terlebih dahulu diberi label dengan benar atau sudah diberi topik terlebih dahulu. Distribusi topik kata di setiap loop diperbarui dalam Gibbs sampling (Griffiths, T.L et al., 2004) yang lebih fleksibel dibandingkan dengan kemungkinan maksimum metode estimasi. Pertama, setiap dokumen diproses sebelumnya melalui cleaning, case folding, stopword removal dan stemming; kedua, matriks nomor sampling dari topik-topik SN dihasilkan oleh Gibbs sampler.

(26)

Perplexity adalah ukuran seberapa baik distribusi probabilitas atau model probabilitas memprediksi sampel. Ini dapat digunakan untuk membandingkan model probabilitas. perplexity yang rendah menunjukkan distribusi probabilitas bagus untuk memprediksi sampel (Perplexity-Wikipedia, 2021). Untuk kumpulan data D, perplexity ditentukan dengan persamaan (2,3) berikut:

𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝐷) = exp { −^∑^𝑀^𝑑=1^𝑙𝑜𝑔^𝑝(𝑤^𝑑⁾

∑^𝑀_𝑑=1𝑁_𝑑 } (2.3)

Keterangan:

M = Jumlah dokumen dalam kumpulan data Wd = Total jumlah kata

Nd = Jumlah kata dalam dokumen d

Pada saat nilai perplexity menurun dan berangsur-angsur menjadi stabil, maka model pelatihan topik yang dihasilkan sudah benar. Proses pelatihan model tersebut akan menghasilkan nilai probabilitas dari tiap-tiap kata dari masing-masing kategori.

Rumus untuk mencari nilai probabilitas (prob) tersebut dapat dilihat pada persamaan (2.4).

𝑃𝑟𝑜𝑏 =

^N^𝑘𝑣^+β

N_𝑘+𝐿_𝑣∗𝛽 (2.4)

Keterangan:

Nkv = Banyaknya kata V yang ditetapkan untuk topik K Nk =Jumlah Topik K

β

= Nilai parameter beta

Lv = Jumlah total keseluruhan kata 2.7 Metode Evaluasi

Metode evaluasi merupakan perhitungan nilai evaluasi yang digunakan untuk menilai seberapa baik hasil dari sistem yang dibuat dengan membandingan hasil dari sistem dengan hasil sebenarnya. Metode evaluasi dari sistem yang dibuat dapat dilihat dari recall, precision, f-score, akurasi dan lain-lain. Pada penelitian ini metode evaluasi yang digunakan adalah recall, precision, f-score, dan akurasi. Hasil evaluasi dari sistem pada setiap kategori dapat d itunjukkan pada tabel 2.1

(27)

Tabel 2.1 Tabel Confussion Matrix Label Manual

Yes No

Hasil Sistem

Yes True Positive (TP)

True Negative (TN) No False Positive

(FP)

False Negative (FN)

Hasil dari tabel 2.1 dapat digunakan untuk menghitung nilai recall, f-score, precision dan akurasi. Adapun rumus dari perhitungan nilai recall, precision, f-score, dan akurasi dapat dilihat pada persamaan (2.5), (2.6), (2.7), dan (2.8)

𝑅𝑒𝑐𝑎𝑙𝑙 = ^TP

TP+FN (2.5)

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = ^TP

TP+FP (2.6)

𝐹 − 𝑆𝑐𝑜𝑟𝑒 =2(Recall х Precision)

Recall+ Precision (2.7)

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =Jumlah dokumen yang benar

Jumlah seluruh dokumen х100% (2.8)

Keterangan:

TP = Dokumen berlabel benar yang terklasifikasi sebagai label benar oleh sistem TN = Dokumen berlabel salah yang terklasifikasi sebagai label benar oleh sistem FP = Dokumen berlabel benar namun terklasifikasi salah oleh sistem

FN = Dokumen berlabel salah namun terklasifikasi salah oleh sistem 2.8 Penelitian Terdahulu

Pada penelitian terdahulu, dengan menggunakan clustering appearance patterns peneliti mendeteksi cyberbullying secara otomatis dan membuktikan bahwa metode yang digunakan dapat mengklasifikasikan pesan kasar dari frekuensi kalimat dengan menggunakan skor statistik dan sumber data partisi, dan mampu mengklasifikasi model ke dalam delapan sub kategori yakni pendekatan kegiatan, komunikatif, desensitisasi, pujian, isolasi, informasi pribadi, reframing, dan hubungan (Romsaiyud, 2017).

Alami (2015) melakukan penelitian untuk mendeteksi dan memprediksi aktivitas kriminal di postingan microblog menggunakan Latent Dirichlet Allocation yang menghasilkan sistem otomatis untuk mendeteksi profil mencurigakan di media social

(28)

dengan menggunakan semantik sebagai pertukaran informasi dan mengidentifikasi profil yang mencurigakan.

Pada penelitian pengklasifikasian jurnal dengan menggunakan Latent Dirichlet Allocation untuk mengklasifikasi topik dari jurnal. Data yang digunakan adalah abstrak dari enam jurnal akuntansi top dari Web of Science, dan jumlah topik yang diidentifikasi dalam model penelitian ini adalah 32 yang memperoleh tujuh topik hangat dan enam topik dingin pada tingkat signifikansi 0,001 (Yang et al., 2018).

Pada tahun 2016, Saputra et al., melakukan penelitian berupa Pencarian Pasal Pada UU ITE Berdasarkan Kasus Cyber Crime Dengan Metode Latent Semantic Indexing (LSI) dengan menggunakan metode Latent Semantic Indexing (LSI), text processing, TF-IDF, SVD dan Cosine Similarity. Penelitian ini menghasilkan tingkat keberhasilan dengan nilai 83.33% untuk recall, 50% untuk precission dan 62.5% untuk f-measure, dengan nilai output sistem 10.

Penelitian mengenai klasifikasi dokumen seperti berita telah dilakukan oleh Widodo et al., (2016) dengan menggunakan metode multi-label berbasis domain specific ontology memberikan hasil akurasi masing-masing sebesar 93,85% untuk kategori olahraga dan 96,32% untuk kategori teknologi. Selain itu, pada penelitian tersebut juga melakukan pengukuran nilai f-measure dengan hasil masing-masing sebesar 74,74% untuk kategori olahraga dan 78,96% untuk kategori teknologi.

Pada tahun 2018 Nanayakkara P & Ranathunga melakukan penelitian yaitu Clustering artikel berita Sinhala berdasarkan corpus dan Similarity Measures yang menghasilkan akurasi 77% dari 9 penyedia berita. Penelitian lainnya juga dilakukan oleh Kusumaningrum et al., pada tahun 2016 yaitu mengklasifikasi Artikel Berita Indonesia menggunakan Latent Dirichlet Allocation dan hasil yang didapatkan menunjukkan bahwa akurasi keseluruhan terbaik adalah sekitar 70% sebagai akurasi rata-rata semua kelas. Bai, Y., & Wang, J. (2015) melakukan penelitian klasifikasi berita menggunakan Labeled LDA. Lalu, Wang, X et al., (2017) melakukan penelitian klasifikasi teks China pendek berdasarkan Sina Weibo menggunakan Labeled LDA dan Kernel SVM. Untuk lebih jelasnya, ringkasan mengenai penelitian terdahulu dapat dilihat pada Tabel 2.2.

(29)

Tabel 2.2 Penelitian Terdahulu

No. Peneliti Judul Keterangan

1 Romsaiyud et al., (2017)

Automated

cyberbullying detection using clustering appearance patterns

Berdasarkan penelitian ini, peneliti menunjukkan bahwa metode yang digunakan dapat mengklasifikasikan pesan kasar dari frekuensi kalimat dengan menggunakan skor statistik dan sumber data partisi, dan mampu mengklasifikasi model ke dalam delapan sub kategori yakni pendekatan kegiatan, komunikatif, desensitisasi, pujian, isolasi, informasi pribadi, reframing, dan hubungan.

2 Alami, S., &

Elbeqqali, O.

(2015)

Cybercrime profiling:

Text mining techniques to detect and predict criminal activities in microblog posts

Penelitian ini menyajikan sistem otomatis untuk mendeteksi profil mencurigakan di media social dengan menggunakan semantik sebagai pertukaran informasi untuk dapat mengidentifikasi profil yang mencurigakan serta meningkatkan sistem dalam hal waktu eksekusi.

3 Yang, Defin et al., (2018)

Discovering research topics from library electronic references using latent Dirichlet allocation

Berdasarkan penelitian ini, peneliti memperoleh tujuh topik positif dan enam topik negatif pada tingkat signifikansi 0,001.

4 Wang, X et al., (2017)

Labeled-LDA Kernel SVM: A Short Chinese Text Supervised Classification Based on Sina Weibo

Penelitian ini menggunakan LLDA untuk mendapatkan model dan menggunakan SVM untuk proses klasifikasi.

(30)

Tabel 2.3 Penelitian Terdahulu (Lanjutan)

No. Peneliti Judul Keterangan

5 Bai, Y., &

Wang, J. (2015)

News Classifications with Labeled LDA

Penelitian ini menyimpulkan bahwa baik LLDA-C dan SLLDA- C mengungguli SVM dalam hal presisi, serta skor Macro-F1 dan Micro-F1 rata-rata, pengklasifikasi LLDA lebih baik daripada SVM.

6 Kusumaningrum, R., Adhy, S., &

Wiedjayanto, I.

A. (2016)

Classification of Indonesian News Articles based on Latent Dirichlet Allocation

Berdasarkan penelitian ini didapatkan hasil yang menunjukkan bahwa akurasi keseluruhan terbaik adalah sekitar 70% sebagai akurasi rata-rata semua kelas.

7 Widodo et al., (2016)

Klasifikasi Kategori Dokumen Berita Berbahasa Indonesia dengan Metode Kategorisasi Multi- Label Berbasis Domain Specific Ontology

Penelitian mengenai klasifikasi dokumen seperti berita telah dilakukan oleh dengan menggunakan metode multi-label berbasis domain specific ontology memberikan hasil akurasi masing- masing sebesar 93,85% untuk kategori olahraga dan 96,32%

Penelitian yang akan saya lakukan memiliki perbedaan dengan penelitian terdahulu dalam berbagai hal. Pada penelitian yang dilakukan oleh Alami, S., &

Elbeqqali, O. (2015) menyajikan sistem otomatis untuk mendeteksi profil mencurigakan di media sosial dengan menggunakan semantik sementara penelitian ini melakukan klasifikasi pasal UU ITE terhadap kasus pelanggarannya. Pada penelitian yang dilakukan Saputra et al., (2018) dalam menentukan pasal-pasal UU ITE menggunakan metode latent semantic indexing (lsi) sedangkan penelitian ini menggunakan Algoritma Labeled Latent Dirichlet Allocation (LLDA) untuk mengklasifikasi pasal UU ITE terhadap kasus pelanggarannya. Pada penelitian yang dilakukan Wang, X et al., (2017) dalam mengklasifikasi teks pendek menggunakan Algoritma Labeled Latent Dirichlet Allocation (LLDA) yang digunakan untuk

(31)

menghasilkan model dan diklasifikasi menggunakan algoritma Support Vector Machine (SVM) sedangkan penelitian ini menggunakan Algoritma Labeled Latent Dirichlet Allocation (LLDA) sebagai algoritma pembuatan model dan pengklasifikasian. Secara keseluruhan dapat penulis sampaikan bahwa perbedaan penelitian ini saya adalah menggunakan algoritma Labeled Latent Dirichlet Allocation (LLDA) dengan menggunakan dataset berupa kronologi kejadian dari kasus pelanggaran UU ITE, dan output yang akan dihasilkan adalah pasal yang terkait terhadap kasus pelanggaran UU ITE dalam hal ini pasal tersebut adalah pasal 27 ayat (1), (3), (4), pasal 28 ayat (1) dan (2), serta pasal lainnya (diluar daripada adalah pasal 27 ayat (1), (3), (4), pasal 28 ayat (1) dan (2)).

(32)

BAB 3

ANALISIS DAN PERANCANGAN

Bab ini akan menjelaskan tentang analisis dan perancangan penelitian seperti data yang digunakan, pembuatan arsitektur umum, analisis kebutuhan perangkat lunak serta penerapan algoritma Labeled Latent Dirichlet Allocation dalam mengklasifikasikan kasus pelanggaran UU ITE.

3.1 Data Penelitian

Pada penelitian ini dataset yang digunakan terdiri dari data latih dan data uji. Data yang digunakan merupakan dokumen kronologi kejadian kasus pelanggaran UU ITE yang didapatkan dari direktori data putusan mahkamah agung yang terdapat pada website https://putusan3.mahkamahagung.go.id/. Data tersebut akan diproses untuk menghasilkan klasifikasi jenis pasal UU ITE dalam beberapa kategori seperti pasal 27 ayat 1, pasal 27 ayat 3, pasal 27 ayat 4, pasal 28 ayat 1, pasal 28 ayat 2 dan pasal lainnya dengan mengunakan algoritma Labeled Latent Dirichlet Allocation. Jumlah data latih dan data uji yang digunakan pada penelitian ini dapat dilihat pada tabel 3.1

Tabel 3.1 Tabel Data Latih dan Data Uji

No Kategori Data Latih Data Uji Jumlah

1 Pasal 27 Ayat 1 30 5 35

2 Pasal 27 Ayat 3 30 5 35

3 Pasal 27 Ayat 4 30 5 35

4 Pasal 28 Ayat 1 30 5 35

5 Pasal 28 Ayat 2 30 5 35

6 Pasal lainnya 30 5 35

Jumlah 180 30 210

3.2 Analisis Sistem

Untuk mengklasifikasi jenis pasal UU ITE pada kasus pelanggaran UU ITE penulis mengajukan metode yang terdiri dari beberapa proses. Adapun proses yang akan dilakukan pada penelitian ini adalah sebagai berikut: dokumen kronologi kasus

(33)

pelanggaran UU ITE di input. Setelah melakukan proses input data maka langkah selanjutnya yang akan dilakukan adalah proses preprocessing, proses tersebut terdiri dari cleaning, case folding, stopword removal, dan stemming. Setelah proses preprocessing dilakukan proses selanjutnya adalah pelatihan data menggunakan labeled latent dirichlet allocation yang akan menghasilkan model dan nilai probabilitas dari kata yang terdapat dari masing-masing kategori. Nilai tersebutlah yang menjadi acuan pada proses pengklasifikasian dokumen kronologi kasus pelanggaran UU ITE menjadi 6 kategori berdasarkan label yang didapat pada proses pelatihan data. Arsitektur umum dari perancangan sistem yang digunakan pada penelitian ini dapat dilihat pada gambar 3.1.

Gambar 3.1 Gambar Arsitektur Umum 3.2.1 Dataset

Tahapan pertama yang dilakukan adalah menginput data yang berupa kronologi kejadian dari kasus pelanggaran UU ITE yang diambil dari dokumen putusan kasus direktori mahkamah agung dan disimpan dalam bentuk txt, data tersebut akan dibagi

(34)

menjadi data latih (training) dan data uji (testing). Berikut adalah contoh dokumen kronologi kejadian dari kasus pelanggaran UU ITE.

Gambar 3.2 Gambar Contoh Input Kasus Pelanggaran UU ITE 3.2.2 Preprocessing

Pada tahap ini, dokumen yang telah di input akan dilakukan preprocessing yaitu proses pembuangan angka dan tanda baca, pengubahan karakter, pembuangan kata dan perubahan kata menjadi kata dasar. Tujuan dari tahapan ini adalah untuk menghasilkan dokumen yang siap di proses yang akan mempermudah proses pemodelan. Tahapan dalam preprocessing yaitu cleaning, case folding, stopwords removal dan stemming.

1) Cleaning

Proses Cleaning adalah proses untuk menghilangkan atau pembersihan kalimat dari elemen-elemen yang tidak diperlukan untuk mengurangi noise yang ada pada data seperti karakter HTML, retweet, username, hastag, url, simbol, tanda baca dan angka.

Hasil proses cleaning dapat dilihat pada pada tabel 3.2.

Tabel 3.2 Tabel Hasil Proses Cleaning

Sebelum Cleaning Setelah Cleaning

Pada 18 desember Nug mengirim pesan broadcast pada media sosial Blackberry Messenger BBM, nug menyebarkan foto bugil dari Yul ke semua contact BBMnya. Nug menyebarkan materi pornografi ke orang orang dalam daftar contact BBM nya. Nug melakukan penyebaran foto bugil Yul kepada orang orang yang ada di dalam daftar contact BBM nya

Pada desember Nug mengirim pesan bro adcast pada media sosial Blackberry Mes senger BBM nug menyebarkan foto bugi l dari Yul ke semua contact BBMnya Nu g menyebarkan materi pornografi ke ora ng orang dalam daftar contact BBM nya Nug melakukan penyebaran foto bugil Yul kepada orang orang yang ada di dala m daftar contact BBM nya

(35)

2) Case Folding

Pada proses ini dilakukan pengubahan semua huruf dalam dokumen menjadi huruf kecil (lowercase) sehingga jenis huruf yang akan diproses seragam, dan huruf yang mengalami perubahan hanya ‘a’ sampai ‘z’. Proses ini dilakukan karena tidak semua dokumen teks konsisten dalam penggunaan huruf kapital. Berdasarkan dokumen teks pada Gambar 3.2, hasil dari proses case folding dapat dilihat pada tabel 3.3.

Tabel 3.3 Tabel Hasil Proses Case Folding

Sebelum Case Folding Setelah Case Folding Pada desember Nug mengirim pesan bro

adcast pada media sosial Blackberry Mes senger BBM nug menyebarkan foto bugi l dari Yul ke semua contact BBMnya Nu g menyebarkan materi pornografi ke ora ng orang dalam daftar contact BBM nya Nug melakukan penyebaran foto bugil Yul kepada orang orang yang ada di dala m daftar contact BBM nya

pada desember nug mengirim pesan broa dcast pada media sosial blackberry mess enger bbm nug menyebarkan foto bugil d ari yul ke semua contact bbmnya nug me nyebarkan materi pornografi ke orang or ang dalam daftar contact bbm nya nug m elakukan penyebaran foto bugil yul kepa da orang orang yang ada di dalam daftar contact bbm nya

3) Stopwords Removal

Proses stopwords removal dilakukan untuk penghapusan kata yang terdapat pada kamus stopword dimana kata-kata tersebut tidak relevan atau memiliki arti dan kata yang berjumlah banyak tetapi tidak memiliki pengaruh terhadap isi dari sebuah kalimat dalam dokumen, sehingga proses pemodelan yang dilakukan akan lebih cepat. Hasil dari proses stopwords removal dapat dilihat di tabel 3.4.

Tabel 3.4 Tabel Hasil Proses Stopwords Removal

Sebelum Stopwords Removal Setelah Stopwords Removal pada desember nug mengirim pesan bro

adcast pada media sosial blackberry mes senger bbm nug menyebarkan foto bugil dari yul ke semua contact bbmnya nug menyebarkan materi pornografi ke orang

desember nug mengirim pesan broadcast media sosial blackberry messenger bbm nug menyebarkan foto bugil yul contact b bmnya nug menyebarkan materi pornogr afi orang orang daftar contact bbm nya

(36)

Tabel 3.5 Tabel Hasil Proses Stopwords Removal (Lanjutan) Sebelum Stopwords Removal Setelah Stopwords Removal orang dalam daftar contact bbm nya nug

melakukan penyebaran foto bugil yul kepada orang orang yang ada di dalam daftar contact bbm nya

nug penyebaran foto bugil yul orang orang daftar contact bbm nya

4) Stemming

Stemming adalah pengubahan kata ke bentuk kata dasar atau penghapusan imbuhan.

Stemming disini menggunakan kamus daftar kata berimbuhan yang mempunyai kata dasarnya dengan cara membandingkan kata-kata yang ada di dalam dokumen dengan daftar kamus stem. Hasil proses stemming dapat dilihat di tabel 3.5.

Tabel 3.6 Tabel Hasil Proses Stemming

Sebelum Stemming Setelah Stemming

desember nug mengirim pesan broadcas t media sosial blackberry messenger bbm nug menyebarkan foto bugil yul contact bbmnya nug menyebarkan materi porno grafi orang orang daftar contact bbm nya nug penyebaran foto bugil yul orang ora ng daftar contact bbm nya

desember nug kirim pesan broadcast med ia sosial blackberry messenger bbm nug s ebar foto bugil yul contact bbmnya nug s ebar materi pornografi orang orang dafta r contact bbm nya nug sebar foto bugil y ul orang orang daftar contact bbm nya

3.2.3 Implementasi Labeled Latent Dirichlet Allocation

Setelah proses preprocessing selesai dijalankan, maka tahap selanjutnya adalah implementasi Labeled Latent Dirichlet Allocation. LLDA melakukan pemodelan data dengan memisalkan 1 ≤ d ≤ D mengindeks sekumpulan dokumen yang berisi kata-kata spasial-temporal dari kosakata berukuran W, 1 ≤ Wn ≤ W. Setiap dokumen d direpresentasikan sebagai urutan kata Ndw = {W1, . . . , Wn, . . . , WNd} dan daftar indikator kehadiran / ketidakhadiran topik biner, Λd = (l1, ..., lk, .., lK),dengan lk ∈ {0, 1} dan K adalah jumlah total kategori atau kelompok label, seperti 27 ayat 1, 27 ayat 3, 27 ayat 4, 28 ayat 1, 28 ayat 2, dan pasal lainnya. Setelah itu akan dilakukan perhitungan perplexity dengan menggunakan persamaan (2.3), lalu setiap kata yang terdapat pada

(37)

masing-masing kategori akan dicari nilai probabilitasnya dengan menggunakan persamaan (2.4).

Pada setiap dokumen w(d) akan dilakukan proses untuk mendapatkan distribusi label-kata dan menentukan kategori mana dokumen ini akan masuk. Berdasarkan hal tersebut dapat disimpulkan z(d) dari w(d), dan proses tersebut bisa dilakukan dengan menggunakan Gibbs Sampling yang dijabarkan untuk probabilitas p (z(d)| w(d)).

Misalkan z(d)−I menunjukkan z (d) - {zi} dan w(d)−I menunjukkan w(d) - {wi}. Lalu, n(wi)−i, j menunjukkan jumlah total kata wi yang didistribusikan ke topik j tidak termasuk arus penugasan zi (Lakshminarayanan dan Raich, 2011). Mengikuti perhitungan standar (Griffiths dan Steyvers, 2004) yang tersedia, setelah proses dijalankan maka model akan terbentuk dengan nilai probabilitasnya masing-masing yang akan digunakan untuk tahap pengujian sistem. Proses pengujian akan dilakukan dengan menghitung nilai probabilitas kata yang ada pada data, dengan cara setiap kata yang ada pada data pengujian akan dibandingkan dengan kata dari model pembelajaran yang dibuat lalu dihitung jumlah nilai probabilitas yang didapatkan. Data testing tersebut akan diuji dengan melihat nilai tertinggi yang didapat oleh data yang diuji. Setelah pengujian selesai maka akan diperoleh akurasi dari keberhasilan sistem untuk mengklasifikasikan data.

3.3 Perancangan Sistem 3.3.1 Rancangan Halaman Index

Rancangan halaman Index merupakan halaman yang pertama kali muncul pada sistem yang akan dibangun. Pada halaman index terdapat button Menu untuk mengakses halaman Menu. Rancangan tampilan untuk halaman index dapat dilihat pada gambar 3.3.

(38)

Gambar 3.3 Gambar Desain Halaman Index

Keterangan :

1. Merupakan judul sistem

2. Merupakan gambar logo dari fasilkom-ti usu 3. Merupakan nama dari pembuat aplikasi 4. Button untuk menuju halaman Menu 3.3.1 Rancangan Halaman Menu

Halaman Menu merupakan tampilan yang berisi menu-menu yang terdapat pada sistem. Terdapat button Pelatihan untuk mengakses halaman pelatihan data, dan button Pengujian untuk mengakses halaman pengujian data dan button Kembali untuk kembali ke halaman Index. Rancangan tampilan untuk halaman Menu dapat dilihat pada gambar 3.4.

(39)

Gambar 3.4 Gambar Desain Halaman Menu Keterangan :

2. Merupakan judul dari halaman Menu

3. Button untuk menuju halaman Pelatihan (Training) 4. Button untuk menuju halaman Pengujian (Testing) 5. Button Kembali untuk menuju halaman Index 3.3.2 Rancangan Halaman Pelatihan (Training)

Halaman Pelatihan (Training) merupakan tampilan untuk melakukan proses pelatihan data dengan memasukkan file kasus pelanggaran UU ITE. Halaman ini akan menampilkan nilai perplexity dan akurasi dari model yang dibuat. Rancangan halaman pelatihan dapat dilihat pada gambar 3.5.

(40)

Gambar 3.5 Gambar Desain Halaman Pelatihan Keterangan :

2. Button untuk menuju halaman Pengujian (Testing) 3. Merupakan form untuk menampung nama file 4. Button untuk menginput file

5. Button untuk proses pelatihan data (training)

6. Merupakan form untuk menampilkan hasil perplexity pelatihan data 7. Merupakan form untuk menampilkan hasil akurasi proses pelatihan data 8. Button kembali untuk menuju halaman Menu

3.3.3 Rancangan Halaman Pengujian (Testing)

Halaman pengujian (testing) merupakan halaman yang akan digunakan untuk melakukan proses pengujian data dengan memasukkan file kasus pelanggaran UU ITE yang akan diklasifikasi berdasarkan jenis pasal UU ITE. Rancangan halaman pengujian dapat dilihat pada gambar 3.6.

(41)

Gambar 3.6 Gambar Desain Halaman Pengujian Keterangan :

2. Merupakan form untuk menampung nama file 3. Button untuk menginput file

4. Button untuk proses pengujian data (testing) 5. Merupakan form untuk manampilkan isi file input

6. Merupakan form untuk menampilkan hasil preprocessing file input 7. Merupakan form untuk menampilkan hasil klasifikasi file

8. Button untuk mereset halaman Pengujian 9. Button kembali untuk menuju halaman Menu

(42)

BAB 4

IMPLEMENTASI DAN PENGUJIAN SISTEM

Bab ini berisi pembahasan tentang implementasi dari analisis dan perancangan yang disusun pada Bab 3 dan pengujian apakah hasil yang didapatkan sesuai dengan yang diharapkan.

4.1 Implementasi Sistem

Pada tahap implementasi sistem ini, rancangan sistem yang telah dibuat pada bab 3 akan direpresentasikan ke dalam sistem untuk mengklasifikasi jenis pasal UU ITE terhadap kasus pelanggarannya dengan menggunakan bahasa pemrograman python.

4.1.1 Spesifikasi Perangkat Keras

Adapun spesifikasi perangkat keras yang digunakan untuk membangun sistem ini adalah sebagai berikut:

1. Processor IntelI CoreI i5-9300H CPU @ 2.40Ghz 2.40Ghz 2. Kapasitas Hardisk 512 GB

3. RAM 8 GB

4.1.2 Spesifikasi Perangkat Lunak

Adapun spesifikasi perangkat lunak yang digunakan untuk membangun sistem ini adalah sebagai berikut:

1. Sistem Operasi Windows 10 Home Single Language 2. Draw.io flowchart online

3. Anaconda3 version 4.7.12 4. Python version 3.7.4

5. Library Python yang digunakan: Pandas, Nltk, Numpy, Sastrawi, String, Json, Functools, Random, Pyqt5

6. Qt Designer

7. Visual Studio Code 8. Jupyter Python Notebook

(43)

9. Microsoft Excel 2019

4.1.3 Implementasi Perancangan Antarmuka 4.1.3.1 Halaman Index

Tampilan halaman index merupakan halaman pertama yang terbuka saat menjalankan sistem. Halaman ini menampilkan informasi judul dari penelitian ini, logo fakultas, dan nama serta nim dari penulis. Pada halaman ini terdapat satu button yaitu button Menu. Button Menu jika di klik maka akan masuk ke halaman Menu. Tampilan halaman index dapat dilihat pada gambar 4.1.

Gambar 4.1 Gambar Antarmuka Halaman Index 4.1.3.2 Halaman Menu

Tampilan halaman Menu merupakan halaman yang berisi menu dari sistem.

Pada halaman ini terdapat tiga button yaitu button pelatihan, button pengujian dan button kembali. Button pelatihan jika di klik maka akan masuk ke halaman pelatihan sistem, sementara untuk button pengujian jika diklik maka akan masuk ke halaman pengujian data, dan button kembali jika diklik akan kembali ke halaman Index.

Tampilan halaman Menu dapat dilihat pada gambar 4.2.

(44)

Gambar 4.2 Gambar Antarmuka Halaman Menu 4.1.3.3 Halaman Pelatihan (Training)

Halaman pelatihan merupakan halaman untuk melakukan pelatihan data dengan mengupload file dataset pelatihan yang akan dijadikan sebagai model. Pada halaman ini terdapat button pengujian yang berfungsi untuk berpindah ke halaman pengujian, button pilih file yang berfungsi untuk menginput file, button latih data yang berfungsi untuk melakukan pelatihan untuk membuat model, dan button Kembali untuk berpindah ke halaman Menu. Tampilan dari halaman pelatihan dapat dilihat pada gambar 4.3.

Gambar 4.3 Gambar Antarmuka Halaman Pelatihan

(45)

Untuk melakukan proses pelatihan pengguna mengklik button pilih file untuk menginput file yang ingin dilatih. Jenis file yang diinputkan adalah file berekstensi .csv.

Tampilan dari input file pelatihan dapat dilihat pada gambar 4.4.

Gambar 4.4 Gambar Tampilan Input Data Latih

Setelah menginput file, pengguna harus mengklik button “LATIH DATA”

untuk memulai proses pelatihan. Hasil dari proses ini merupakan nilai perplexity dari pelatihan data dan akurasi dari model yang dibuat. Tampilan hasil dari proses pelatihan dapat dilihat pada gambar 4.5.

Gambar 4.5 Gambar Antarmuka Hasil Proses Pelatihan Data

(46)

4.1.3.4 Halaman Pengujian (Testing)

Halaman pengujian merupakan halaman yang digunakan untuk melakukan pengujian data. Pada halaman ini terdapat button pilih file yang berfungsi untuk menginput file, button Uji Data yang berfungsi untuk mengklasifikasi data yang di input, button kembali yang berfungsi untuk berpindah ke halaman Menu, dan button reset untuk mereset tampilan pengujian. Tampilan dari halaman pengujian dapat dilihat pada gambar 4.5.

Gambar 4.6 Gambar Antarmuka Halaman Pengujian

Dalam melakukan proses pengujian pengguna mengklik button pilih file untuk menginput file yang ingin diklasifikasi. Pengguna menginput file data kasus pelanggaran UU ITE yang berekstensi .txt lalu data tersebut akan didistribusikan dengan model yang telah dibuat dan dihitung probabilitasnya. Tampilan dari input file data uji dapat dilihat pada gambar 4.7.

(47)

Gambar 4.7 Gambar Tampilan Input Data Uji

Setelah pengguna menginput file yang ingin diklasifikasi, pengguna harus mengklik button “UJI DATA” untuk menjalankan proses pengujian. Ketika pengujian data selesai, maka akan ditampilkan hasil dari pengujian. Hasil dari proses pengujian merupakan isi teks dari file yang di input, hasil tahapan preprocessing dan hasil klasifikasi dari file yang diinputkan. Tampilan dari hasil pengujian dapat dilihat pada gambar 4.8.

Gambar 4.8 Gambar Hasil Proses Pengujian