BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

(1)

1

BAB I PENDAHULUAN

1.

1.1. Latar Belakang

Perkembangan infrastruktur dan penggunaan teknologi informasi memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

Salah satunya adalah perolehan dan penyebaran informasi yang menjadi mudah dilakukan dalam bentuk elektronis, baik yang berwujud teks, wicara, citra, ataupun video. Hal ini mengakibatkan informasi menjadi berlimpah tetapi nilai informasi yang dikandungnya tidak teruji dan sulit dipertanggungjawabkan, bahkan berpotensi mengandung unsur negatif, salah satunya dalam bentuk pornografi.

Seiring berjalannya waktu, masalah pornografi semakin sulit diatasi dan semakin banyak ekspos pornografi kepada pengguna internet. Survey menunjukkan bahwa 64 persen pengguna internet berusia 10 sampai dengan 19 tahun di Indonesia mengetahui keberadaan konten pornografi di internet (KOMINFO dan UNICEF, 2014).

Di Indonesia terdapat beberapa upaya yang telah dilakukan untuk

menanggulangi masalah pornografi di internet, salah satunya adalah melalui

peraturan pemerintah. Di dalam Pasal 1 Peraturan Menteri Komunikasi dan

Informatika Republik Indonesia (PERMENKOMINFO RI) Nomor 19 Tahun 2014

Tentang Penanganan Situs Internet Bemuatan Negatif dijelaskan bahwa jenis situs

internet yang ditangani adalah situs yang mengandung pornografi dan kegiatan

(2)

ilegal lainnya berdasarkan peraturan perundang-undangan. Serta di dalam Pasal 8 dijelaskan bahwa Penyelenggara Jasa Akses Internet (PJAI) wajib melakukan pemblokiran terhadap situs-situs yang terdapat dalam TRUST+. Sistem TRUST+

menerapkan mekanisme kerja dengan menyediakan server pusat yang akan menjadi acuan dan rujukan kepada seluruh layanan akses informasi publik (fasilitas bersama), serta menerima informasi-informasi dari fasilitas akses informasi publik untuk menjadi alat analisis dan profiling penggunaan internet di Indonesia dengan melakukan perlindungan terhadap top level domain, Uniform Resource Locator (URL), dan konten .

Perlindungan terhadap URL tidak lain adalah upaya pemblokiran translasi URL situs bermuatan negatif terhadap alamat Internet Protocol (IP) penyedia dalam Domain Name Service (DNS). Akan tetapi, jumlah situs yang mengandung unsur pornografi terus berkembang. Selain itu, peraturan ini hanya berlaku pada penyelenggara akses internet Indonesia. Dengan demikian, apabila pengguna internet menggunakan DNS luar negeri, maka situs porno tetap dapat diakses.

Dengan adanya kelemahan tersebut, maka perlu dilakukan upaya pemblokiran situs porno melalui proses pengenalan konten situs web secara otomatis dimana komputer memiliki kemampuan mengenali dan mengklasifikasikan konten yang mengandung pornografi, baik konten visual, teks, ataupun kombinasi keduanya.

Pengklasifikasian berbasis teks merupakan hal yang penting dalam proses klasifikasi konten pornografi. Hal ini karena dalam beberapa penelitian terdahulu, klasifikasi teks merupakan deteksi awal kandungan konten pornografi (Du, 2003;

Hu, 2007; Ahmadi, 2011). Bahkan, dalam penelitian lain, klasifikasi teks menjadi

(3)

proses tunggal untuk pengenalan dan penapisan konten pornografi (Abidin, 2014).

Akan tetapi, klasifikasi teks bergantung pada Bahasa yang digunakan. Penelitian klasifikasi konten teks berbahasa Indonesia yang telah dilakukan sebelumnya dilakukan oleh Abidin (2014).

Abidin (2014) membangun sistem penapis konten pornografi dalam situs web Bahasa Indonesia berbasis klasifikasi teks dengan metode Vector Space Model (VSM) dan Term Frequency – Inverse Document Frequency (TF-IDF). Hasil pengujian menunjukkan 82.80% situs web yang mengandung pornografi berhasil tertapis. Untuk meningkatkan akurasi, Abidin menyarankan upaya peningkatan model klasifikasi dengan penggunaan metode tokenisasi n-gram dan reduksi term dalam pra-proses teks.

Namun demikian, akurasi klasifikasi teks dipengaruhi oleh banyak faktor, diantaranya koleksi data (Korde & Mahender, 2012), corpus category (Dan, 2013), pemilihan metode pra-proses, seleksi fitur, jumlah term atau kata yang digunakan (García Adeva, 2014) dan pemilihan algoritme klasifikasi. Oleh karena itu, pada penelitian ini akan dicari kombinasi proses klasifikasi yang menghasilkan akurasi terbaik pada kasus klasifikasi konten pornografi berbasis teks Bahasa Indonesia.

Proses klasifikasi yang dimaksud dalam penelitian ini adalah kombinasi

kerja antara metode pra-proses dan metode klasifikasi. Metode klasifikasi yang

populer dan menunjukkan akurasi yang tinggi dalam kasus klasifikasi teks

diantaranya adalah Naïve Bayes Classifier (NBC) dan Support Vector Machine

(SVM). Oleh karena itu, dalam penelitian ini dilakukan pengujian beberapa metode

pra-proses dan metode SVM dan NBC.

(4)

1.2. Rumusan Masalah

Berdasarkan paparan pada bagian latar belakang, maka rumusan masalah pada penelitian ini adalah sebagai berikut:

1. Akurasi klasifikasi yang belum tinggi pada klasifikasi konten pornografi berbahasa Indonesia berbasis teks.

2. Belum dieksplorasinya proses-proses pra-proses dan pemilihan metode klasifikasi yang digunakan untuk klasifikasi teks pornografi berbahasa Indonesia.

1.3. Batasan Masalah

Beberapa batasan yang dilakukan dalam penelitian ini adalah sebagai berikut:

1. batasan subyek penelitian, menggunakan kumpulan teks Bahasa Indonesia hasil ekstraksi dari situs-situs web yang telah digunakan pada penelitian Content Filtering oleh Abidin (2014), dan

2. batasan sistem, penelitian menggunakan perangkat lunak Weka versi 3.6.11 untuk pengolahan dan analisis data. Metode klasifikasi yang digunakan adalah Support Vector Machine (SVM) dengan kernel polinomial dan Naïve Bayes Classifier (NBC).

1.4. Pertanyaan Penelitian

1. Bagaimana penerapan metode SVM dan NBC pada proses klasifikasi teks

berbahasa Indonesia yang mengandung pornografi?

(5)

2. Apakah penggunaan metode tokenisasi yang berbeda dapat mempengaruhi proses klasifikasi teks berbahasa Indonesia yang mengandung pornografi?

3. Apakah penggunaan metode tokenisasi dan nilai C yang berbeda pada SVM dan NBC dapat mempengaruhi proses klasifikasi teks berbahasa Indonesia yang mengandung pornografi?

4. Apakah penggunaan metode tokenisasi, nilai C pada SVM dan NBC, dan stop word list yang berbeda dapat mempengaruhi proses klasifikasi teks berbahasa Indonesia yang mengandung pornografi?

1.5. Tujuan Penelitian

Tujuan dilakukannya penelitian ini adalah sebagai berikut:

1. mempelajari penerapan metode SVM dan NBC pada klasifikasi teks pada kasus klasifikasi teks Bahasa Indonesia yang mengandung konten pornografi,

2. melakukan analisis performa dan mengetahui tingkat akurasi algoritme SVM dan NBC dalam klasifikasi teks Bahasa Indonesia yang mengandung konten ponografi, dan

3. mengetahui pengaruh penggunaan metode-metode pra-proses dan nilai C yang digunakan terhadap akurasi klasifikasi menggunakan SVM dan NBC.

1.6. Manfaat Penelitian

Penelitian ini diharapkan dapat menjadi dasar dalam pengembangan sistem pengklasifikasi teks yang mengandung unsur pornografi yang lebih akurat.

Keberadaan sistem pengklasifikasi teks pornografi diharapkan dapat menjadi tapis

(6)

dari situs yang berisi konten pornografi baik yang berjalan di mesin client maupun berbasis proxy. Hasil penelitian ini diharapkan pula dapat dijadikan sebagai dasar dan pertimbangan dalam penelitian-penelitian yang terkait klasifikasi teks di masa depan.

1.7. Keaslian Penelitian

Penelitian ini merupakan kelanjutan dari penelitian ”System of Negative Indonesian Website Detection Using TF-IDF and Vector Space Model” yang telah dilakukan oleh Abidin (2014). Penilitian tersebut menggunakan metode TF-IDF dan Vector Space Model (VSM). Penelitian tersebut telah memperoleh akurasi klasifikasi sebesar 82.80%. Penelitian ini berupaya menghasilkan model klasifikasi terbaik yang merupakan kombinasi dari metode pra-proses dan metode klasifikasi yang digunakan.

Beberapa penelitian mengenai klasifikasi konten teks untuk penapis konten

pornografi lainnya dapat diamati dalam Tabel 1.1.

(7)

Tabel 1.1 Ringkasan Penelitian Tentang Klasifikasi Teks Pornografi

No Peneliti Judul Penelitian Metode Data Hasil

1 Hu dkk.

(2007)

Recognition of Pornographic Web

Pages by

Classifying Texts and Images

- C4.5 decision tree untuk mengklasifikasikan halaman web kedalam continuous text pages, discrete pages, dan image pages.

- SVM untuk klasifikasi continuous text pages.

- NBC untuk klasifikasi discrete pages.

- Klasifikasi continuous pages : 300 teks porno, 300 teks terkait seks, dan 1000 teks normal

- Klasifikasi discrete pages : 1000 teks porno dan 2000 teks normal

Hasil akurasi klasifikasi:

- 99.3% untuk klasifikasi continuous pages

- 91.6% untuk klasifikasi discrete text

2 Polpinij dkk.

(2008)

A Web Pornography Patrol System by Content-based Analysis: In Particular Text and Images

Naïve Bayes Classifier (NBC) dan Support Vector Machines (SVM).

- 1,200 halaman web berbahasa Thailand dan 1,200 halaman web berbahasa Inggris.

- 800 halaman untuk training dan 400 halaman untuk testing.

NBC menghasilkan akurasi 97,83%

dibandingkan SVM yang memperoleh akurasi 95% pada klasifikasi Bahasa Thailand. Sedangkan pada klasifikasi Bahasa Inggris, SVM menghasilkan akurasi 100% dibandingkan NBC yang menghasilkan akurasi 98%.

3 Ahmadi dkk.

(2011)

Intelligent

classification of web pages using contextual and visual features

Iterative Dichotomiser 3 (ID3) classifier.

1072 halaman berbahasa Inggris dan 223 halaman berbahasa Persia.

Dataset tersebut terdiri dari 700 halaman yang mengandung konten imoral, dan sisanya 595 halaman normal.

Hasil pengujian menunjukkan 89%

konten teks imoral berhasil ditapis dan

78% normal diizinkan. Pada penelitian

tersebut terjadi over blocking sebesar

22%.

(8)

4 Dan dkk.

(2013)

Research of Text Categorizatiom on Weka

NBC, SVM, dan Decision Tree. Data teks dari topik seni, komputer, pertanian, ekonomi, politik, dan olahraga.

Dan (2013) menyimpulkan bahwa performa klasifikasi tidak hanya dipengaruhi oleh algoritme klasifikasi, tetapi juga oleh kedekatan corpus category.

5 Abidin dkk.

(2014)

System of Negative Indonesian Website Detection Using TF-IDF and Vector Space Model

Metode TF-IDF sebagai pembobot fitur dan Vector Space Model.

193 data porno, dan 193 data tidak porno Bahasa Indonesia. Data tersebut dibagi menjadi 100 data latih dan 183 data uji.

Akurasi yang dihasilkan pada penelitian tersebut adalah 82.80%.

Akurasi pada penelitian tersebut

dipengaruhi oleh misspelling secara

sengaja berupa penggunaan kata

kamuflase

(9)

Berdasarkan penelitian-penelitian terdahulu mengenai klasifikasi teks di atas, dapat disimpulkan bahwa kebanyakan menggunakan tokenisasi unigram pada proses tokenisasi, kemudian menerapkan metode klasifikasi Support Vector Machine (SVM) dan Naïve Bayes Classifier (NBC). Selain itu, kasus klasifikasi teks kebanyakan diterapkan pada bahasa asing, khususnya Bahasa Inggris. Oleh Karena itu, Abidin (2014) membangun sistem penapis konten pornografi berbahasa Indonesia berbasis klasifikasi. Namun demikian, akurasi yang dihasilkan perlu ditingkatkan. Penelitian ini melanjutkan penelitian tersebut dengan mencari kombinasi metode pra-proses dan metode klasifikasi terbaik menggunakan SVM dan NBC dalam rangka peningkatan akurasi klasifikasi.

1.8. Sistematika Penulisan

Dalam penulisan laporan tugas akhir ini, penulis menggunakan sistematika untuk memperjelas keseluruhan isi dari penelitian. Adapun sistematika penulisan adalah sebagai berikut:

BAB 1: PENDAHULUAN

Bab ini menjelaskan latar belakang, rumusan masalah, batasan, dan manfaat dilakukannya penelitian klasifikasi teks yang mengandung pornografi, serta keterkaitan dengan penelitian lainnya.

BAB II: TINJAUAN PUSTAKA DAN DASAR TEORI

Bab ini menjelaskan tinjauan pustaka mengenai klasifikasi teks pornografi, skema

pra-proses teks mencakup metode tokenisasi dan stemming, metode term weighting

dan klasifikasi. Bab ini juga memaparkan teori-teori tentang pornografi, proses

(10)

klasifikasi teks, skema pra-proses, metode term weighting TF-IDF (Term Frequency Inverse Document Frequency), serta algoritme klasifikasi yang digunakan, yaitu SVM dan NBC.

BAB III: METODE PENELITIAN

Bab ini menjelaskan metode yang digunakan dalam penelitian, meliputi langkah kerja, alat dan bahan, serta alur penelitian klasifikasi teks pornografi.

BAB IV: HASIL DAN PEMBAHASAN

Bab ini memaparkan hasil penelitian klasifikasi teks pornografi beserta dengan pembahasannya.

BAB V: KESIMPULAN DAN SARAN

Bab ini berisikan kesimpulan akhir dari penelitian yang dilakukan dan saran untuk

perkembangan penelitian klasifikasi teks pornografi lebih lanjut.