IMPLEMENTASI TEXT MINING SISTEM KLASIFIKASI DAN PENCARIAN
KONTEN BUKU PERPUSTAKAAN MENGGUNAKAN ALGORITMA
NAÏVE BAYES CLASSIFIER
M. Rizki Herga
Program Studi Teknik Informatika - Sekolah Tinggi Teknik Harapan Jl. HM Joni No 70 C Medan
Abstrak
Kebutuhan terhadap informasi dalam bentuk buku ataupun artikel ilmiah semakin meningkat, khususnya bagi mahasiswa yang sedang tugas akhir. Dimana mahasiswa membutuhkan banyak referensi terutama dari buku untuk mendukung teori yang dipelajari. Pengelompokan buku dibutuhkan untuk mempermudah pencarian informasi. lnformasi penting dari buku berupa topik (kategori) yang menggambarkan pokok pembahasan secara umum. Pemberian label topik diharapkan membantu mahasiswa dalam memahami isi buku, tanpa harus membaca secara keseluruhan. Text mining merupakan metode klasifikasi variasi dari data mining yang berusaha menemukan pola yang menarik dari sekumpulan data tekstual yang berjumlah besar. Sedangkan algoritma Naïve
Bayes Classifier merupakan algoritma pendukung untuk melakukan klasifikasi. Dalam penelitian ini data yang
digunakan berupa judul buku yang terdiri dari tiga kategori yaitu kategori pemrograman, kriptografi dan jaringan. Setiap kategori tediri dari beberapa kata kunci (keyword). Hasil dari penelitian ini menghasilkan sistem klasifikasi kategori buku berbasis web dengan menggunakan bahasa pemrograman PHP dan database MySQL menunjukkan bahwa judul buku testing bisa terklasifikasi secara otomatis.
Kata Kunci :Sistem Klasifikasi, Text Mining, Naïve Bayes Classifier
Abstract
The need for information in the form of books or scholarly articles is increasing , especially for students who are final. Where students need a lot of references, especially from the book to support the theory learned . Grouping of books required to facilitate information retrieval. The information is important from the book in the form of topics (categories ) that describes the subject matter in general . Labelling topic is expected to assist students in understanding the contents of the book, without having to read in its entirety. Text mining is a method of classification which is a variation of data mining are trying to find interesting patterns from the collection of large amounts of textual file. While the Naïve Bayes Classifier algorithm is an algorithm to classify supporters. In this study, the data used in the form of titles consisting of three categories, programming, cryptography and network. Each category comprises many keywords (keywords). The results of this research resulted in the book category classification system using web based PHP programming language and MySQL database shows that the title of the book can be classified automatically testing
Keywords :Classification System, Text Mining, Naïve Bayes Classifier
1. Pendahuluan
Kebutuhan terhadap informasi dalam bentuk buku ataupun artikel ilmiah semakin meningkat, khususnya bagi mahasiswa yang sedang tugas akhir. Dimana mahasiswa membutuhkan banyak referensi terutama dari buku untuk mendukung teori yang dipelajari. Pengelompokan buku dibutuhkan untuk mempermudah pencarian informasi. lnformasi penting dari buku berupa topik (kategori) yang menggambarkan pokok
pembahasan secara umum. Pemberian label topik diharapkan membantu mahasiswa dalam memahami isi buku, tanpa harus membaca secara keseluruhan. Dalam kenyataannya, pengelompokan buku yang mengacu topik (kategori) tertentu sulit dilakukan jika hanya mengandalkan query biasa.
Query adalah standard query language untuk
mendefinisikan dan memanipulasi database yang didukung oleh database server.
Pemilihan query yang kurang spesifik akan menghasilkan pencarian yang tidak relevan. Hasil konten buku pada peringkat awal belum tentu relevan, sehingga dapat dinyatakan pencarian dengan query biasa tidaklah efektif. Jadi, dibutuhkan pengelompokan buku untuk mengatasi kendala tersebut. Permasalahan yang muncul adalah dapatkah sistem tersebut melakukan pengelompokan dan pencarian buku yang relevan untuk memenuhi kebutuhan konsumen khusunya mahasiswa yang sedang mencari referensi tugas akhir mereka.
Dari permasalahan diatas, maka tujuan yang harus dicapai dan dilakukan dalam penelitian ini adalah membangun aplikasi pengklasifikasian buku dengan text mining menggunakan algoritma Naïve
Bayes Classifier, sehingga bisa mempercepat
proses klasifikasi dan menghasilkan kategori buku yang sesuai. Manfaat yang diharapkan adalah memberikan efisiensi waktu dan efisiensi kerja dalam mengklasifikasikan buku perpustakaan dan membantu mahasiswa yang sedang mencari referensi untuk mendapatkan buku yang mereka inginkan.
Berdasarkan pemaparan permasalahan diatas, maka penulis tertarik untuk melakukan penelitian yang dituangkan dalam bentuk tugas akhir dengan judul “Implementasi Text Mining Sistem Klasifikasi Dalam Pencarian Konten Buku Perpustakaan Menggunakan Algoritma Naïve Bayes Classifier”.
Tujuan yang harus dicapai dan dilakukan dalam penelitian yaitu untuk menganalisis dan mengklasifikasikan konten buku perpustakaan, sehingga bisa mempercepat proses klasifikasi secara otomatis dan menghasilkan kategori buku yang sesuai dengan yang diharapkan.
1.1 Text Mining
Text mining adalah istilah yang mendeskripsikan sebuah teknologi yang mampu menganalisis data teks semi-terstruktur maupun tidak terstruktur, hal inilah yang membedakannya dengan data mining, dimana data mining mengolah data yang sifatnya terstruktur. Secara umum konsep pekerjaan text mining mirip dengan data mining, yaitu penggalian prediktif dan penggalian deskriptif. Text mining mengekstrak indeks numerik yang bermakna dari teks dan kemudian informasi yang terkandung dalam teks akan diakses dengan menggunakan berbagai algoritma data
mining [1].
Pekerjaan text mining dikelompokkan menjadi 7 daerah praktek, yaitu:
1. Pencarian dan perolehan informasi (search and
information retrieval), yaitu penyimpanan dan
penggalian dokumen teks misalnya dalam mesin pencarian (search engine) dan pencarian kata kunci (keywords).
2. Pengelompokan dokumen, yaitu pengelompokan dan pengkategorian kata, istilah, paragraf, atau dokumen dengan menggunakan metode klaster (clustering) data
mining.
3. Klasifikasi dokumen, yaitu pengelompokan dan pengkategorian kata, istilah, paragraf, atau dokumen dengan menggunkan metode klasifikasi (classification) data mining
berdasarkan model terlatih yang sudah memiliki label.
4. Webmining, yaitu penggalian informasi dari
internet dengan skala fokus yang spesifik.
5. Ekstraksi informasi (information extraction), yaitu mengidentifikasi dan mengekstraksi informasi dari data yang sifatnya semi-terstruktur atau tidak terstruktur dan mengubahnya menjadi data yang terstruktur. 6. Natural language processing (NLP), yaitu
pembuatan program yang memiliki kemampuan untuk memahami bahasa manusia.
7. Ekstraksi konsep, yaitu pengelompokan kata atau frase ke dalam kelompok yang mirip secara semantik.
1.2 Pra-proses (Pre-processing task)
Fitur-fitur fase pra-proses terdiri dari beberapa tahap sebagai berikut:
1. Tokenizing
Proses ini memotong kata dalam setiap teks dan mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf ‘a’ dan ‘z’ yang diterima, sedangkan karakter selain huruf dihilangkan. Jadi hasil dari proses tokenizing adalah kata-kata yang merupakan penyusunan kalimat (string) yang dimasukkan.
2. Filtering
Pada tahap ini dilakukan proses filter atau penyaringan kata hasil dari proses tokenizing, dimana kata-kata serta tanda-tanda yang tidak bermakna secara signifikan, seperti hashtag (#), url, tanda baca tertentu (emoticon), dan lainnya akan dibuang. Proses ini menggunakan pendekatan stoplist, yang termasuk stoplist adalah ‘yang’, ‘di’, ‘dari’, dan lain-lain.
3. Stemming
Stemming adalah proses untuk menggabungkan
atau memecahkan varian-varian suatu kata menjadi kata dasar. Stem (akar kata) adalah bagian dari akar yang tersisa setelah dihilangkan imbuhannya (awalan dan akhiran). Misalnya kata memakai, dipakai, pemakai, dan pemakaian akan memiliki akar kata yang sama yaitu “pakai”.
4. Stemming
Stemming adalah suatu proses mencari bentuk
asal dari kata bentuk lampau. Tahap ini tidak digunakan pada teks berbahasa Indonesia karena kata dalam bahasa Indonesia tidak mempunyai bentuk lampau.
5. Analizing
Pada tahap ini dilakukan proses perhitungan bobot (w) dokumen agar diketahui seberapa
jauh tingkat similaritas antara keyword yang dimasukkan dengan dokumen [2].
Naïve Bayes Classifier merupakan sebuah metoda
klasifikasiyang berakar pada teorema bayes.Cirri utama dari Naïve Bayes Classifier ini adalah asumsi yang sangat kuat akan independasi dari masing-masing kondisi atau kejadian [3].
1.3 Naïve Bayes Classifier
Naïve Bayes Classifier merupakan algoritma
yang digunakan untuk mencari nilai probabilitas tertinggi untuk mengklasifikasi data uji pada kategori yang paling tepat. Dalam penelitian ini yang menjadi data uji adalah dokumen buku perpustakaan.Ada dua tahap pada klasifikaasi dokumen.Tahap pertama yaitu pelatihan terhadap dokumen yang sudah diketahui kategorinya. Sedangkan tahap kedua adalah proses klasifikasi dokumen yang belum diketahui kategorinya [4].
Dalam algoritma Naïve Bayes Classifier setiap dokumen direpresentasikan dengan pasangan atribut “x1, x2, x3,...xn” dimana x1 adalah kata pertama, x2 adalah kata kedua dan seterusnya. Sedangkan V adalah himpunan kategori buku. Pada saat klasifikasi algoritma akan mencari probabilitas tertinggi dari semua kategori dokumen yang diujikan (Vmap), dimana persamaannya adalah
sebagai berikut : 𝑉𝑀𝐴𝑃= (
𝑃(𝑥1, 𝑥2, 𝑥3, … 𝑥𝑛|𝑉𝑗)𝑃(𝑉𝑗)
𝑃(𝑥1, 𝑥2, 𝑥3, … 𝑥𝑛)
) … … (1) Untuk P(x1, x2, x3,...xn) nilainya konstan untuk semua kategori (Vj) sehingga persamaan dapat ditulis sebagai berikut :
𝑉𝑀𝐴𝑃= (𝑃(𝑥1, 𝑥2, 𝑥3, … 𝑥𝑛|𝑉𝑗)𝑃(𝑉𝑗) … (2)
Persamaan diatas dapat disederhanakan menjadi sebagai berikut :
𝑉𝑀𝐴𝑃= ∏(𝑃(𝑥𝑖 𝑛 𝑖=1 |𝑉𝑗)𝑃(𝑉𝑗) … … … . (3) Keterangan: Vj : Kategori buku j : 1,2,3,...n
P(xi|Vj) : Probabilitas xi pada kategori Vj
P(Vj) : Probabilitas dari Vj
Flowchart merupakan representasi grafik dari
langkah-langkah yang harus diikuti dalam penyelesaiian suatu permasalahan yang terdiri atas sekumpulan simbol, dimana masing-masing simbol mempresentasikan suatu kegiatan tertentu [5].
Usecase diagram adalah diagram yang bersifat
statis. Diagram ini menjelaskan tentang relasi antara grup usecase (kasus)dan aktor yang berpartisipasi dalam proses[6].
1.4 Software Pendukung
Dalam merancang system berbasis web dibutuhkan beberapa aplikasi pendukung seperti
HTML, PHP, CSS. Serta untuk menjalankan system
dibutuhkan aplikasi pendukung seperti MySQL dan
APACHE.
Database adalah kumpulan informasi yang
disimpan didalam komputer secara sitematik sehingga dapat diperiksa menggunakkan suatu program komputer untuk memperoleh informasi dari database tersebut [7].
MySQL adalah sebuah perangkat lunak sistem
manajemen basis data SQL atau DBMS yang
multithread, multi-user, dengan sekitar 6 juta
instalasi di seluruh dunia. Tidak seperti Apache yang merupakan software yang dikembangkan oleh komunitas umum, dan hak cipta untuk kode sumber dimiliki oleh penulisnya masing-masing, MySQL dimiliki dan disponsori oleh sebuah perusahaan komersial Swedia yaitu MySQL AB.
Web Server merupakan sebuah perangkat
lunak dalam server yang berfungsi menerima permintaan (request) berupa halaman web melalui
HTTP atau HTTPS dari klien yang dikenal dengan browser web dan mengirimkan kembali (response)
hasilnya dalam bentuk halaman-halaman web yang umumnya berbentuk dokumen HTML[8].
PHP (Hypertext Prepocessor) merupakan
bahasa pemrograman web yang dapat disisipkan dalam script HTML. Banyak sintaks di dalamnya yang mirip dengan bahasa C, Java dan Perl. Tujuan dari bahasa ini adalah membantu para pengembang
web untuk membuat web dinamis dengan cepat [9]. HTML adalah bahasa markup yang umum
digunakan untuk membuat halaman
web.Sebenarnya HTML bukanlah sebuah bahasa
pemrograman. Apabila di tinjau dari namanya,
HTML merupakan bahasa markup atau penandaan
terhadap sebuah dokumen teks. Tanda tersebut di gunakan untuk menentukan format atau style dari teks yang di tandai.
Nama CSS didapat dari fakta bahwa setiap deklarasi style yang berbeda dapat diletakkan secara berurutan, yang kemudian membentuk suatu hubungan layaknya hubungan ayah-anak
(parent-child) pada setiap style. CSS sendiri merupakan
sebuah teknologi internet yang direkomendasikan oleh World Wide WebConsortium atau W3C pada tahun 1996. Setelah CSS di standarisasikan,
Internet Explorer dan Netscape melepas browser
terbaru mereka yang telah sesuai atau paling tidak hampir mendekati dengan standart CSS [10].
2. Perancangan Sistem
Dalam contoh ini buku yang diambil memiliki kategori atau class: kriptografi, jaringan dan pemrograman.
Tabel 1. Kategori Judul Buku Latih
Buku yang digunakan berjudul “Kumpulan Pemrograman Aplikasi Dengan Kriptografi Berbasis Jaringan”. Seperti halnya proses pelatihan proses klasifikasi judul juga melewati tahapan preprocessing dan text transformation.
Adapun proses tahapannya dapat dijelaskan sebagai berikut:
Langkah 1: Menghilangkan Stop Words
Tabel 2. Proses CaseFolding
Judul Buku CaseFolding
Kumpulan Pemrograman Aplikasi Dengan Kriptografi Berbasis Jaringan kumpulan pemrograman aplikasi dengan kriptografi berbasis jaringan
Langkah 2: Memilah isi teks sehingga menjadi satuan kata-kata.
Tabel 3. Proses Tokenizing
Judul Buku Tokenizing
kumpulan pemrograman aplikasi dengan kriptografi berbasis jaringan kumpulan pemrograman aplikasi dengan kriptografi berbasis jaringan
Langkah 3: Mengambil kata-kata penting dari hasil token.
Tabel 4. Proses Filtering
Judul Buku Filtering
kumpulan pemrograman aplikasi dengan kriptografi berbasis jaringan Kumpulan pemrograman aplikasi kriptografi berbasis jaringan
Langkah 4: Mereduksi kata ke bentuk dasarnya.
Tabel 5. Proses Stemming
Judul Buku Stemming
Kumpulan pemrograman aplikasi kriptografi berbasis jaringan Kumpul program aplikasi kriptografi basis jaringan
Setelah melewati proses akhir yaitu stemming, proses selanjutnya adalah penentuan kategori buku menggunakan metode Naïve bayes Classifier. Adapun hasil probabilitas pada kategori Pemrograman adalah:
Kesimpulan :
Maka dapat disimpulkan bahwa judul buku ke 7 tersebut diklasifikasikan sebagai kategori buku Pemrograman.
Data Internal
(buku latih dan buku uji)
Data Management
Structured Query Language (SQL)
Model Management
Unified Modelling Language (UML)
Knowledge-Based Subsystem
-Textpreprocessing -Texttransformation -Patten Discovery (Naïve Bayes Classifier) User Interface -Front-end -Back-end User -Admin -Pengunjung
Gambar 1.Arsitektur Sistem Klasifikasi Buku
Perancangan usecase diagram merupakan tahap awal dan utama dalam proses pengembangan sistem, dimana dalam tahapan ini dijelaskan dan didefinisikan fungsi-fungsi serta fitur-fitur apa saja yang dapat disediakan oleh sistem. Pada usecase diagram mempunyai dua aktor, yaitu user (pengunjung) dan admin.
Antarmuka (interface) merupakan bagian dari sistem klasifikasi kategori buku yang digunakan sebagai media atau alat komunikasi antar user dan sistem. Pada sistem klasifikasi buku ini terdapat beberpa menu yang bisa diakses oleh user seperti menu home untuk menampilkan halaman home, menu Update Data yang berfungsi untuk menampilkan halaman update data buku yang meliputi create data, update data, dan delete data, menu Upload Buku untuk menampilkan halaman
upload buku, menu Klasifikasi Buku yang
berfungsi untuk menampilkan halaman klasifikasi buku.
Main Menu
Home
Daftar Klasifikasi Buku Terbaru
Kategori Buku 1 Kategori Buku 2 Kategori Buku 3
Isi abstraksi buku sesuai kategori buku yang di pilih
Update Data Upload Buku Klasifikasi Buku Kategori Buku 4 Kategori Buku 5 Kategori Buku 1 Tanggal
Gambar 2.Rancangan Halaman Home
Adapun tampilan dari halaman Buku Upload dapat dilihat pada gambar dibawah ini.
Main Menu Home Update Data Upload Buku Klasifikasi Buku Upload Buku Simpan
Ketikkan judul buku Judul Buku
Abstraksi Buku
Ketikkan abstraksi buku Tanggal
Gambar 3.Rancangan Halaman Upload Buku
Adapun rancangan dari halaman Klasifikasi Buku seperti terlihat pada gambar dibawah ini.
Main Menu
Home Update Data Upload Buku Klasifikasi Buku
Proses Klasifikasi Buku
Judul Buku Hasil Kategori Hasil Analisa Action
xxxxxxxxxxxxxxxxx xxxxxxxx xxxxxx Delete Reg xxxxxxxxxxxxxxxxx xxxxxxxx xxxxxx Delete Reg Tanggal xxxxxxxxxxxxxxxxx xxxxxxxx xxxxxx Delete Reg xxxxxxxxxxxxxxxxx xxxxxxxx xxxxxx Delete Reg xxxxxxxxxxxxxxxxx xxxxxxxx xxxxxx Delete Reg xxxxxxxxxxxxxxxxx xxxxxxxx xxxxxx Delete Reg
Gambar 4.Rancangan Halaman Upload Buku
3. Implementasi Sistem
Dalam tahap ini, penulis melakukan pengujian terhadap kemampuan sistem untuk menggunakan
form menu utama di mana userakan berinteraksi
langsung dengan sistem.
Halaman upload buku digunakan untuk menginputkan judul buku dan abstrak buku kemudian mengklik tombol submit untuk mengupload buku. Buku yang di upload ini nantinya akan diproses untuk menentukan klasifikasi kategori judul buku tersebut.
Halaman klasifikasi buku berfungsi untuk melakukan proses klasifikasi buku yang telah diupload. Proses klasifikasi dimulai dengan memilih artikel buku yang akan diklasifikasi kemudian pilih dan klik tombol reg, maka sistem akan memproses dan menampilkan hasil klasifikasi masuk ke kategori buku yang mana. Buku yang sudah terklasifikasi bisa dihapus dengan memilih tombol delete.
Gambar 5. Tampilan Halaman Klasifikasi Buku
Data yang bisa diklasifikasikan dalam apliasi ini hanya judul buku yang memiliki kata kunci yang tersimpan dalam database.Jika judul buku yang ingin diklasifikasikan tidak memiliki daftar kata kunci, maka sistem tidak bisa mengklasifikasikannya dan hanya menampilkan judul buku tanpa hasil klasifikasi.
4. Kesimpulan
Setelah melakukan studi literatur, perancangan, analisis, implementasi dan pengujian aplikasi pengklasifikasian buku secara otomatis maka dapat disimpulkan sebagai berikut :
1.Aplikasi yang dibuat sudah sesuai dengan algoritma yang digunakan yaitu Algoritma
Naïve Bayes Classifier. Dimana hasil pengujian
klasifikasi buku yang dilakukan oleh aplikasi sudah sesuai dengan hasil klasifikasi secara manual.
2. Pemrosesan klasifikasi kategori buku berhasil jika memiliki kata kunci (keyword) karena pengklasifikasian berdasarkan nilai probabilitas per kata, jika tidak maka hasil klasifikasi akan dikosongkan.
3. Jumlah data latih sangat berpengaruh dalam proses klasifikasi, karena akan dibandingkan dengan semua jenis kategori dan menghitung nilai frekuensi kemunculan setiap kata. Semakin banyak data latih maka tingkat keakuratan dalam penentuan klasifikasi kategori buku akan semakin tinggi begitu juga sebaliknya.
5. Saran
Berdasarkan hasil penelitian sistem klasifikasi buku perpustakaan menggunakan algoritma Naïve
Bayes Classifier, penulis memiliki beberapa saran
untuk pengembangan selanjutnya, antara lain : 1. Perlu adanya penelitian yang lebih mendalam
untuk mengetahui bagaimana pengaruh kinerja
algoritma Naïve Bayes Classifier ini terhadap kategori lain.
2. Untuk penelitian berikutnya diharapkan sistem ini tidak hanyauntuk mengklasifikasikan buku melainkan bias juga digunakan untukmengklasifikasikan dokumen lain seperti berita, olahraga, dan jurnal.
Daftar Pustaka
[1]. Megawati, Chyntia. 2015. Analisis Aspirasi Dan Pengaduan Di Situs Lapor! Dengan Menggunakan Text Mining. Fakultas Teknik Program Studi Teknik Industri.Universitas Indonesia.
[2]. Hatta, Achmad, dkk. 2010. Rancang Bangun Sistem Pengelolaan Dokumen-Dokumen Penting Menggunakan Text Mining. Politeknik Elektronika Negeri Surabaya
[3] Yudha, Faris. 2014. Analisis Jawaban Soal Essay Menggunakan Text Mining Dengan Metode Naïve Bayes. Artikel Skripsi Universitas Nusantara PGRI Kediri
[4] Kurniawan, Bambang, dkk. 2012. Klasifikasi Konten Berita Dengan Metode TextMining. Jurnal Dunia Teknologi Informasi. USU. [5] Anharku. 2010. Flowchart. Ilmu
Komputer.org.
[6] Sulistriyono, Prastuti. 2010. Pemodelan Visual dengan Menggunakan UML dan Rational
Rose. Jurnal Teknologi Informasi Dinamik.
STMIK Widiyah Pratama Pekalongan. [7] Solichin, Achmad. 2010.MySQL Dari Pemula
Hingga Mahir. Universitas Budi Luhur. Jakarta
[8] Solichin, Achmad. 2009. Pemrograman Web Dengan PHP Dan MySQL. Universitas Budi Luhur. Jakarta
[9] Dwiartara, Loka. 2010. Menyelam Dan Menaklukkan Samudra PHP. Cyber Business School. Bogor.
[10] Hadisaputra, Adi. 2010. HTML dan CSS Fundamental Dari Akar Menuju Daun. Cyber Business School. Bogor.