RANCANG BANGUN MODUL PENGKATEGORIAN DAN PENGELOMPOKKAN TOPIK OTOMATIS PADA APLIKASI FORUM phpbb

(1)

Abstrak— Salah satu wadah untuk berbagi informasi tidak terkecuali bagi para perekayasa adalah forum. Didalam forum, informasi disimpan dalam bentuk topik. Perekayasa dapat berbagi informasi dengan cara membuat topik. Dalam sebuah forum, perekayasa harus terlebih dahulu menentukan kategori atau forum yang bersesuaian dari topik yang hendak dibuat. Topik yang dibuat oleh perekayasa mengandung pengetahuan dimana topik tersebut dapat dikelompokkan berdasarkan pengetahuannya. Akan tetapi seringkali ditemukan topik dengan kategori yang tidak sesuai dengan forum dimana topik tersebut ditempatkan.

Tugas Akhir ini menambahkan manajemen pengetahuan ke dalam sebuah sistem forum. Sistem yang dibangun dapat menentukan pengetahuan yang teradapat pada topik dan juga dapat mengelompokkan topik sesuai dengan pengetahuannya. Agar dapat menemukan pengetahuan yang diberikan oleh perekayasa, sistem menggunakan metode klasifikasi Naive Bayes untuk menentukan kategori atau forum dari sebuah topik baru. Sistem juga menggunakan algoritma klusterisasi K-Means untuk mengelompokkan ulang topik-topik ke dalam kategori-kategori baru jika dipandang perlu oleh seorang domain expert, yang dalam hal ini diperankan oleh admin sistem.

Pengujian dilakukan dengan menyebarkan kuisoner kepada 120 pengguna. Dari jawaban yang kembali, hasil analisis menunjukkan bahwa sebagian besar menyatakan klasifikasi topik sebagian besar menyatakan topik terklasifikasi dengan baik, dan hasil klasifikasi dibandingkan dengan hasil klasifikasi dari aplikasi weka.

Kata Kunci—sistem manajemen pengetahuan, forum, klasifikasi, clustering, Naive Bayes, K-Means

I. PENDAHULUAN

Pada zaman ini kebutuhan akan informasi semakin tinggi, baik individu maupun kelompok. Hampir semua lapisan masyarakat membutuhkan informasi untuk menunjang aktivitas kesehariannya. Hal tersebut menyebabkan informasi menjadi beragam bentuknya. Informasi yang beragam membuat pengolahan dan pengaturan informasi menjadi semakin rumit [1].

Perekayasa saat ini semakin banyak, dan pada umumnya perekayasa akan berpindah tempat kerja. Agar informasi yang dimiliki oleh perekayasa tersebut tidak hilang terutama untuk perekayasa yang baru, informasi tersebut harus didokumentasikan dan disimpan. Selain itu juga untuk

memudahkan pekerjaan, perekayasa dapat saling berbagi informasi dalam suatu wadah.

Salah satu wadah untuk berbagi informasi tidak terkecuali bagi para perekayasa adalah forum. Didalam forum, informasi disimpan dalam bentuk topik, perekayasa dapat berbagi informasi dengan cara membuat topik. Selain itu perekayasa juga dapat berdiskusi tentang informasi yang ditulis dalam bentuk topik.

Topik-topik yang diberikan oleh perekayasa mengandung pengetahuan dimana topik-topik tersebut dapat dikelompokkan berdasarkan pengetahuannya [2]. Dalam sebuah forum perekayasa harus menentukan kategori atau forum sebuah topik. Kategori atau forum dari sebuah topik tersebut dapat membantu perekayasa untuk menemukan informasi. Tetapi seringkali ditemukan topik dengan kategori yang salah dalam suatu forum.

Dengan algoritma tertentu sistem dapat mengenali pengetahuan yang terkandung dalam topik. Sistem manajemen pengetahuan merupakan sistem dimana sistemnya dapat mendapatkan pengetahuan dari data yang ada. Dengan adanya sistem tersebut akan memudahkan perekayasa untuk mengolah, mengatur dan mencari informasi dalam sutu sistem

II. ARSITEKTURSISTEM

Arsitektur dari sistem ini adalah sistem terdiri dari sistem forum menggunakan aplikasi forum phpBB dan juga modul untuk mengolah pengetahuan menggunakan library php-nlp-tools. Antara sistem forum dan modul berjalan di dalam dua file yang berbeda. Modul akan bekerja saat diminta oleh sistem forum, dimana modul akan merubah data yang terdapat pada basis data sesuai dengan hasil pengolahan pengetahuan yang diinginkan oleh pengguna, setelah itu modul akan mengembalikan ke sistem forum kembali. Desain arsitektur dapat dilihat pada Gambar 1.

RANCANG BANGUN MODUL PENGKATEGORIAN

DAN PENGELOMPOKKAN TOPIK OTOMATIS

PADA APLIKASI FORUM phpBB

Arthur Holong P.N , Daniel O.S., S.Kom, M.Sc, Pd.Eng.

, dan Nurul Fajrin A., S.Kom, M.Sc.

Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember (ITS)

Jl. Arief Rahman Hakim, Surabaya 60111 Indonesia

Email : [email protected]

(2)

Gambar 1. Arsitektur sistem III. FORUM

Dalam Tugas Akhir ini sistem yang dibangun adalah sistem manajemen pengetahuan dalam bentuk forum. Forum yang digunakan adalah forum yang bersifat open source. Salah satu open source forum yang cukup terkenal adalah phpBB. Forum yang digunakan dalama sistem ini adalah aplikasi phpBB. Saat ini phpBB memiliki aplikasi forum dengan versi tiga adalah versi yang paling terakhir. Bahasa pemrograman yang digunakan dalam forum ini adalah bahasa pemrograman php dengan pendekatan content management system.

A. phpBB

PhpBB merupakan aplikasi forum berbasis web. Untuk dapat aplikasi forum phpBB, harus dilakukan instalasi terlebih dahulu. Proses instalasi aplikasi untuk membangkitkan basis data dan koneksi ke basis data. Caranya adalah dengan mengakses folder phpBB yang dapat diunggah pada situs ‘www.phpbb.com’. Setelah direktori tersebut diakses situs yang ditampilkan pertama kali adalah situs untuk instalasi aplikasi ini. Di dalam situs tersebut akan diminta untuk mengisi form mulai dari yang berhubungan dengan basis data sampai pengguna administrator. Contoh tampilan untuk situs indtalasi dapat dilihat pada Gambar 2. Setelah proses instalasi dilakukan aplikasi forum phpBB sudah dapat digunakan dengan mengakses direktori phpBB, tetapi agar forum yang ada dapat ditampilkan ke dalam situs direktori ‘install’ harus dihapus terlebih dahulu.

B. Basis Data Forum

Untuk basis data yang digunakan pada sistem ini adalah basis data MySQL. Basis data ini dibangkitkan pada saat proses instalasi dilakukan. Desain dari basis data yang digunakan oleh sistem ini dijelaskan pada Gambar 3.

forums forum_id right_id forum_parents forum_name forum_posts forum_topics forum_topics_real forum_last_poster_id int int varchar(1024) varchar(1024) int int int int <pk> posts post_subject post_text poster_id post_id forum_id topics_id text text int int int int <pk> <fk1> <fk2> topics topics_id forum_id topic_first_poster_id topic_last_poster_id int int int int <pk> <fk> acl_groups forum_id group_id auth_option_id auth_role_id auth_setting int int int int int <fk>

Gambar 2. Desain basis data yang digunakan sistem

Pada sistem yang dibangun, entitas yang digunakan dalam modul klasifikasi dan clustering dijelaskan pada Gambar 2. Entitas ‘forums’ merupakan tabel yang menyimpan forum atau kategori. Entitas ‘topik’ merupakan tabel yang menyimpan judul topik atau post awal. Entitas ‘posts’ merupakan tabel yang menyimpan post dalam forum. Untuk menulis post terbagi menjadi dua, yaitu post untuk membuat topik baru atau post untuk membalas post lainnya dalam sebuah topik.

Entitas ‘acl_groups’ merupakan tabel untuk menyimpan hak akses untuk sebuah forum. Dalam aplikasi phpBB agar forum dapat dilihat dan diakses oleh semua pengguna, hak akses harus diatur terlebih dahulu.

C. Php-nlp-tools

Php-nlp-tools merupakan salah satu library yang menggunakan bahasa pemrograman PHP. Library ini memiliki modul-modul yang digunakan untuku pemoresan bahasa natural. Modul yang digunakan pada Tugas Akhir ini adalah modul Classifiers, Documents, Tokenizers, Utils, Clustering. Modul tersebut digunakan untuk menemukan klasifikasi dari data yang digunakan dan mengelompokkan topik.

IV. KLASIFIKASITOPIK A. Naive Bayes

Salah satu fitur yang terdapat pada modul ini adalah sistem dapat mengklasifikasikan topik baru yang dibuat oleh perekeyasa. Untuk mendapatkan kategori atau klasifikasi dari topik, sistem akan melakukan klasifikasi topik menggunakan metode Naive Bayes.

Klasifikasi Naive Bayes merupakan metode mengklasifikasikan data dengan melakukan nilai probabilitas suatu kategori terhadap data [3]. Nilai probabilitas tersebut dapat dihitung dengan menggunakan persamaan yang terdapat pada Persamaan 1.

(3)

Pada Persamaan 1 kategori dilambangkan dengan c dan d adalah data atau dokumen yang sudah memiliki kategori. Persamaan 1 merupakan persmaan untuk menghitung probabilitas suatu dokumen dengan diketahui kategorinya. Dokumen yang diolah terdiri dari kata-kata. Untuk menghitung probabilitas pada Persamaan 1, dapat dilakukan dengan menghitung probabilitas kemunculan kata pada dokumen. Dengan demikin perhitungan probabilitas dapat dituliskan seperti pada Persamaan 2.

(2)

Proses klasifikasi dilakukan dengan membuat model probabilistik dari pelatihan data, untuk pemberian kategori terhadap dokumen dilakukan dengan cara memilih nilai probabilitas terhadap c yang paling maksimum dan dapat dilihat pada Persamaan 3.

(3) Kategori c adalah kategori yang memiliki nilai probability

maksimum dari nilai .

B. Latih Data

Agar sistem dapat menentukan kategori atau forum yang tepat untuk topik baru, sistem harus mempunyai model dasar yang digunakan untuk menetukan forum dari topik. Untuk fungsi proses latih data terdapat pada library php-nlp-tool yang terdapat pada modull model. Model yang digunakan dalam metode Naive Bayes adalah nilai-nilai probabilitas kemunculan kata dalam suatu dokumen. Untuk mendapatkan nilai tersebut harus dilakukan terlebih dahulu proses latih data. Pada proses latih data, data yang digunakan harus diketahui kategorinya terlebih dahulu. Hasil dari proses latih data dalam sistem ini akan disimpan ke dalam basis data model. Data yang disimpan adalah nilai-nilai probabilitas dalam dokumen tersebut.

C. Basis Data Model

Database modul digunakan untuk menyimpan nilai-nilai probabilitas sebagai dasar untuk menentukan klasifikasi dari topik. Database ini hanya digunakan untuk menyimpan nilai, jadi tidak memiliki relasi antar entitas. Nilai yang disimpan terdiri dari tiga entitas.

cond_prob o o o word class value Variable characters (256) Variable characters (1024) Float priors o o class value Variable characters (1024) Float unknown o o class value Variable characters (1024) Float

Gambar 3 Diagram Entitas Database Model

Nilai di dalam database ini digunakan pada saat proses klasifikasi dan dimasukkan pada saat proses latih data yang terdapat pada subbab perancangan proses. Pada Gambar 3, setiap entitas mewakili satu nilai probabilitas. Entitas priors digunakan untuk menyimpan probabilitas kategori yang muncul. Entitas cond_prob digunakan untuk menyimpan probabilitas kata terhadap kategori. Sedangkan untuk entitas unknown digunakan untuk menyimpan probabilitas kategori untuk kata yang tidak ada pada entitas cond_prob.

D. Proses Klasifikasi

Proses klasifikasi adalah proses untuk mendapatkan hasil klasifikasi dari data yang baru dalam masalah ini adalah sebuah topik. Setelah aplikasi forum phpBB mendapat topik baru maka topik tersebut akan dikirim ke modul Tugas Akhir untuk didapatkan hasil klasifikasinya. Pada proses klasifikasi model yang digunakan untuk menentukan klasfikasi berasal dari database model. Setelah hasil klasifikasi didapatkan, kategori forum tersebut akan dirubah berdasarkan hasil klasifikasi yang didapatkan. Untuk proses klasifikasi topik menggunakan libary php-nlp-tools yang terdapat pada modul Classifiers.

E. Implementasi Pada Sistem

Proses klasifikasi digunakan sistem pada saat pengguna perekayasa membuat topik baru. Topik baru yang dibuat akan dikategorikan forumnya oleh sistem. Diagram alir proses yang terjadi pada sistem dijelaskan pada Gambar 4.

(4)

Tabel 1 Tabel hasil pengujian klasifikasi topik No Skenario Akurasi % 1 Skenario 1 57.50 2 Skenario 2 52.50 3 Skenario 3 72.50 4 Skenario 4 50.00 5 Skenario 5 52.50 6 Skenario 6 50.00 7 Skenario 7 55.00 8 Skenario 8 72.50 9 Skenario 9 75.00 10 Skenario 10 72.50 Rata-rata 61% F. Hasil Klasifikasi

. Evaluasi yang diberikan merupakan hasil akurasi klasifikasi yang dibandingkan dengan klasifikasi topik yang terdapat pada situs forum phpbb. Hasil akurasi dari klasifikasi topik dapat dilihat pada Tabel 5. Skenario yang digunakan untuk pengujian klasifikasi adalah dengan cara mengganti antara data latih dan data uji pada setiap skenarionya. Yang digunakan sebagai data latih sebanyak 50 topik untuk setiap forum dan sisanya digunakan sebagai data uji.

Berdasarkan hasil klasifikasi pada Tabel 1, akurasi yang didapatkan adalah 61%. Berdasarkan uji coba klasifikasi tersebut jumlah forum yang berbeda dengan hasil klasifikasi adalah forum Support. Presentasi hasil dari klasifikasi berbeda dengan klasifikasi pada data uji untuk forum Support adalah 67%, untuk forum General adalah 27%, sedangkan untuk forum Styles dan forum Modification adalah 25% dan 32%.

V. CLUSTERINGTOPIK

Clustering topik adalah fitur dimana sistem dapat mengelompokkan topik menjadi terkelompok sesuai dengan pengetahuannya. Fungsi ini akan memebuat kategori forum baru dan manghapus kategori forum yang lama. Metode yang digunakan untuk clustering topik adalah K-Means.

A. K-Means

K-Means merupakan metode clustering yang banyak digunakan di berbagai bidang karena sederhana dan memiliki kemampuan untuk mengelompokkan data yang besar. Kompleksitas waktu linear K-Means adalah O(nKT) dengan n adalah jumlah dokumen, K adalah jumlah cluster, dan T adalah jumlah iterasi. K-means merupakan metode yang memisahkan data ke dalam kelompok yang berbeda [4]. Dasar algoritma K-means adalah sebagai berikut :

1.

Tentukan nilai k sebagai jumlah cluster yang diinginkan.

2.

Bangkitkan nilai centroid k ( Ck ) secara random.

3.

Hitung jarak setiap data dokumen dengan nilai centroid menggunakan rumus Euclidean Distance.

4.

Kelompokkan setiap dokumen berdasarkan jarak terdekat antara dokumen dengan centroid.

5.

Tentukan nilai centroid baru ( Ck ) dengan cara menghitung nilai rata-rata dari data-data yang ada pada centroid yang sama.

6.

Kembali ke langkah tiga jika posisi centroid baru tidak sama dengan centroid lama.

Rumus untuk menghitung euclidean distance merupakan perkembangan dari rumus pythagoras, dengan cara menghitung akar dari perjumlahan kedua titik [5]. Rumus euclidean distance dapat dilihat pada Persamaan 4.

(4) Rumus untuk menghitun centroid baru seperti yang disebutkan dalam langkah lima dapat dilihat pada Persamaan 5.

(5) Penjelasan variabel pada persamaan diatas adalah sebagai berikut :

 Ck = posisi centroid dalam kluster k

 nK = jumlah dokuman dalam kluster k

 di = dokumen dalam kluster k B. Proses Clustering

Proses klustering adalah proses pengelompokkan dokumen sesuai dengan jumlah kelas yang diinginkan. Proses tersebut digunakan untuk pengguna admin ketika ingin membangun ulang topik sesuai jumlah forum yang diinginkan Proses clustering pada sistem menggunakan library php-nlp-tools yang terdapat pada modul Clustering.

Proses klustering hampir sama dengan proses latih data hanya saja untuk proses klustering pada proses set dokumen tidak diperlukan kelas atau nama forum. Database temporary digunakan untuk menampung sementara hasil dari kluster. Data yang disimpan adalah topik dan kelompok clustering.

Gambar 5 Diagram Alir Proses Pengelompokkan Topik C. Implementasi Pada Sistem

(5)

pengguna admin pada sistem forum phpBB. Pengguna admin dapat menentukan jumlah forum yang diinginkan, dan topik diambil dari data topik yang sudah tersimpan di dalam basis data. Setelah hasil dari proses clustering ditampilkan pada sistem admin dapat menentukan judul forum yang tepat dengan melihat kelompok topik tersebut. Diagram alir yang terjadi pada proses ini akan dijelaskan pada Gambar 5.

D. Hasil Clustering Topik

Pengelompokkan topik pada sistem ini menggunakan algoritma clustering K-Means. Skenario dari pengujian pengelompokkan topik ini adalah dengan cara melakukan perbandingan terhadap clustering topik menggunakan aplikasi weka dengan data dan metode yang sama. Pengujian akan dilakukan mulai dari pengelompokkan empat kelas sampai sepuluh kelas. Selain itu untuk mengukur nilai relevansi dari topik yang dikelompokkan akan dilakukan survey kepada para perekayasa yang pernah menggunakan forum dan membuat aplikasi web. Hasil dari perbandingan pengujian clustering menggunakan aplikasi weka akan dijelaskan melalui diagram di bawah sedangkan untuk hasil survey dapat dilihat pada Tabel 2.

Tabel 2 Tabel Hasil Survey Pengelompokkan Topik

Jawaban Survey Total Persen

Topik Tidak Terkelompok dengan benar 1 5% Beberapa topik terkelompok dengan

benar 6 30%

Sebagian besar topik terkelompok dengan

benar 10 50%

Topik terkelompok dengan benar 3 15%

Total 20 100%

Gambar 6. Diagram Perbandingan Clustering dengan 4 Kelas

Gambar 7. Diagram Hasil Uji Coba Proses Clustering dengan 5 Kelas VI. KESIMPULANDANSARAN

Kesimpulan yang didapat dari pembuatan sistem ini adalah sistem dapat menentukan hasil klasifikasi apabila topik yang diklasifikasikan mengandung pengetahuan. Selain itu data yang digunakan sebagai data latih seharusnya data yang jelas mengandung pengetahuan. Sistem juga dapat menetukan informasi yang relevan dari pengelompokkan topik, hal ini di dasarkan dari hasil clustering yang tidak berbeda signifikan dengan aplikasi weka dan juga hasil survey yang dilakukan.

Saran untuk perkembangan sistem ini adalah, adanya modul untuk mendeteksi apakah topik ini mengandung pengetahuan atau tidak, hal tersebut dapat membantu sistem untuk mengolah pengetahuan menjadi lebih baik.

UCAPANTERIMAKASIH

Penulis Arthur Holong P.N. mengucapkan terima kasih kepada keluarga yang telah memberikan dukungan moral dan juga finansial yang sangat membantu penulis. Selain itu penulis juga mengucapkan terima kasih kepada dosen pembimbing yang telah merelakan waktunya untuk membantu menyelesaikan sistem ini melalui masukan dan ilmu yang diberikan. Tidak lupa juga berterima kasih kepada semua teman penulis yang telah memberikan semangat untuk menyelesaikan sistem ini.

DAFTARPUSTAKA

[1] P. Jelinek, Knowledge Management in Software Development, Brno: MASARYK UNIVERSITY,

[2] 2010S. Sista, R. Schwartz, T. R. Leek dan J. Makhoul, “An Algorithm for Unsupervised Topic Discovery from,” Human Language Technology Research, pp. 110-114, 2002.

[3] A. M. Kibriya, B. Pfahringer, G. Holmes dan E. Frank, “Multinomial Naive Bayes for Text Categorization Revisited,” Lecture Notes In Computer Science, vol. 3339, pp. 488-499, 2005.

[4] P. Barrett, Euclidean distance: Raw, normalised, and double-scaled, Technical Whitepaper, 2005.

(6)

[5] K. Wagstaff, C. Cardie, S. Rogers dan S. Schroedl, “Constrained K-Means Clustering with Background Knowledge,” International Conference on Machine Leearning, pp. 577-584, 2001.

[6] T. Converse, J. Park dan C. Morgan, PHP5 and MySQL bible, Indianapolis: Wiley Publishing Inc.., 2004.

[7] “phpBB development wiki,” 1 November 2013. [Online]. Available: https://wiki.phpbb.com/Main_Page. [Diakses 9 July 2014].

[8] D. Dvorski, “Installing, Configuring, and Developing With XAMPP,” 2007. [Online]. Available: dvorski.net.