IMPLEMENTASI TEXT MINING SISTEM KLASIFIKASI DAN PENCARIAN KONTEN BUKU PERPUSTAKAAN MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER.

(1)

IMPLEMENTASI TEXT MINING SISTEM KLASIFIKASI DAN PENCARIAN

KONTEN BUKU PERPUSTAKAAN MENGGUNAKAN ALGORITMA

NAÏVE BAYES CLASSIFIER

M. Rizki Herga

Program Studi Teknik Informatika - Sekolah Tinggi Teknik Harapan Jl. HM Joni No 70 C Medan

Abstrak

Kebutuhan terhadap informasi dalam bentuk buku ataupun artikel ilmiah semakin meningkat, khususnya bagi mahasiswa yang sedang tugas akhir. Dimana mahasiswa membutuhkan banyak referensi terutama dari buku untuk mendukung teori yang dipelajari. Pengelompokan buku dibutuhkan untuk mempermudah pencarian informasi. lnformasi penting dari buku berupa topik (kategori) yang menggambarkan pokok pembahasan secara umum. Pemberian label topik diharapkan membantu mahasiswa dalam memahami isi buku, tanpa harus membaca secara keseluruhan. Text mining merupakan metode klasifikasi variasi dari data mining yang berusaha menemukan pola yang menarik dari sekumpulan data tekstual yang berjumlah besar. Sedangkan algoritma Naïve

Bayes Classifier merupakan algoritma pendukung untuk melakukan klasifikasi. Dalam penelitian ini data yang

digunakan berupa judul buku yang terdiri dari tiga kategori yaitu kategori pemrograman, kriptografi dan jaringan. Setiap kategori tediri dari beberapa kata kunci (keyword). Hasil dari penelitian ini menghasilkan sistem klasifikasi kategori buku berbasis web dengan menggunakan bahasa pemrograman PHP dan database MySQL menunjukkan bahwa judul buku testing bisa terklasifikasi secara otomatis.

Kata Kunci :Sistem Klasifikasi, Text Mining, Naïve Bayes Classifier

Abstract

The need for information in the form of books or scholarly articles is increasing , especially for students who are final. Where students need a lot of references, especially from the book to support the theory learned . Grouping of books required to facilitate information retrieval. The information is important from the book in the form of topics (categories ) that describes the subject matter in general . Labelling topic is expected to assist students in understanding the contents of the book, without having to read in its entirety. Text mining is a method of classification which is a variation of data mining are trying to find interesting patterns from the collection of large amounts of textual file. While the Naïve Bayes Classifier algorithm is an algorithm to classify supporters. In this study, the data used in the form of titles consisting of three categories, programming, cryptography and network. Each category comprises many keywords (keywords). The results of this research resulted in the book category classification system using web based PHP programming language and MySQL database shows that the title of the book can be classified automatically testing

Keywords :Classification System, Text Mining, Naïve Bayes Classifier

1. Pendahuluan

Kebutuhan terhadap informasi dalam bentuk buku ataupun artikel ilmiah semakin meningkat, khususnya bagi mahasiswa yang sedang tugas akhir. Dimana mahasiswa membutuhkan banyak referensi terutama dari buku untuk mendukung teori yang dipelajari. Pengelompokan buku dibutuhkan untuk mempermudah pencarian informasi. lnformasi penting dari buku berupa topik (kategori) yang menggambarkan pokok

pembahasan secara umum. Pemberian label topik diharapkan membantu mahasiswa dalam memahami isi buku, tanpa harus membaca secara keseluruhan. Dalam kenyataannya, pengelompokan buku yang mengacu topik (kategori) tertentu sulit dilakukan jika hanya mengandalkan query biasa.

Query adalah standard query language untuk

mendefinisikan dan memanipulasi database yang didukung oleh database server.

(2)

Pemilihan query yang kurang spesifik akan menghasilkan pencarian yang tidak relevan. Hasil konten buku pada peringkat awal belum tentu relevan, sehingga dapat dinyatakan pencarian dengan query biasa tidaklah efektif. Jadi, dibutuhkan pengelompokan buku untuk mengatasi kendala tersebut. Permasalahan yang muncul adalah dapatkah sistem tersebut melakukan pengelompokan dan pencarian buku yang relevan untuk memenuhi kebutuhan konsumen khusunya mahasiswa yang sedang mencari referensi tugas akhir mereka.

Dari permasalahan diatas, maka tujuan yang harus dicapai dan dilakukan dalam penelitian ini adalah membangun aplikasi pengklasifikasian buku dengan text mining menggunakan algoritma Naïve

Bayes Classifier, sehingga bisa mempercepat

proses klasifikasi dan menghasilkan kategori buku yang sesuai. Manfaat yang diharapkan adalah memberikan efisiensi waktu dan efisiensi kerja dalam mengklasifikasikan buku perpustakaan dan membantu mahasiswa yang sedang mencari referensi untuk mendapatkan buku yang mereka inginkan.

Berdasarkan pemaparan permasalahan diatas, maka penulis tertarik untuk melakukan penelitian yang dituangkan dalam bentuk tugas akhir dengan judul “Implementasi Text Mining Sistem Klasifikasi Dalam Pencarian Konten Buku Perpustakaan Menggunakan Algoritma Naïve Bayes Classifier”.

Tujuan yang harus dicapai dan dilakukan dalam penelitian yaitu untuk menganalisis dan mengklasifikasikan konten buku perpustakaan, sehingga bisa mempercepat proses klasifikasi secara otomatis dan menghasilkan kategori buku yang sesuai dengan yang diharapkan.

1.1 Text Mining

Text mining adalah istilah yang mendeskripsikan sebuah teknologi yang mampu menganalisis data teks semi-terstruktur maupun tidak terstruktur, hal inilah yang membedakannya dengan data mining, dimana data mining mengolah data yang sifatnya terstruktur. Secara umum konsep pekerjaan text mining mirip dengan data mining, yaitu penggalian prediktif dan penggalian deskriptif. Text mining mengekstrak indeks numerik yang bermakna dari teks dan kemudian informasi yang terkandung dalam teks akan diakses dengan menggunakan berbagai algoritma data

mining [1].

Pekerjaan text mining dikelompokkan menjadi 7 daerah praktek, yaitu:

1. Pencarian dan perolehan informasi (search and

information retrieval), yaitu penyimpanan dan

penggalian dokumen teks misalnya dalam mesin pencarian (search engine) dan pencarian kata kunci (keywords).

2. Pengelompokan dokumen, yaitu pengelompokan dan pengkategorian kata, istilah, paragraf, atau dokumen dengan menggunakan metode klaster (clustering) data

mining.

3. Klasifikasi dokumen, yaitu pengelompokan dan pengkategorian kata, istilah, paragraf, atau dokumen dengan menggunkan metode klasifikasi (classification) data mining

berdasarkan model terlatih yang sudah memiliki label.

4. Webmining, yaitu penggalian informasi dari

internet dengan skala fokus yang spesifik.

5. Ekstraksi informasi (information extraction), yaitu mengidentifikasi dan mengekstraksi informasi dari data yang sifatnya semi-terstruktur atau tidak terstruktur dan mengubahnya menjadi data yang terstruktur. 6. Natural language processing (NLP), yaitu

pembuatan program yang memiliki kemampuan untuk memahami bahasa manusia.

7. Ekstraksi konsep, yaitu pengelompokan kata atau frase ke dalam kelompok yang mirip secara semantik.

1.2 Pra-proses (Pre-processing task)

Fitur-fitur fase pra-proses terdiri dari beberapa tahap sebagai berikut:

1. Tokenizing

Proses ini memotong kata dalam setiap teks dan mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf ‘a’ dan ‘z’ yang diterima, sedangkan karakter selain huruf dihilangkan. Jadi hasil dari proses tokenizing adalah kata-kata yang merupakan penyusunan kalimat (string) yang dimasukkan.

2. Filtering

Pada tahap ini dilakukan proses filter atau penyaringan kata hasil dari proses tokenizing, dimana kata-kata serta tanda-tanda yang tidak bermakna secara signifikan, seperti hashtag (#), url, tanda baca tertentu (emoticon), dan lainnya akan dibuang. Proses ini menggunakan pendekatan stoplist, yang termasuk stoplist adalah ‘yang’, ‘di’, ‘dari’, dan lain-lain.

3. Stemming

Stemming adalah proses untuk menggabungkan

atau memecahkan varian-varian suatu kata menjadi kata dasar. Stem (akar kata) adalah bagian dari akar yang tersisa setelah dihilangkan imbuhannya (awalan dan akhiran). Misalnya kata memakai, dipakai, pemakai, dan pemakaian akan memiliki akar kata yang sama yaitu “pakai”.

4. Stemming

Stemming adalah suatu proses mencari bentuk

asal dari kata bentuk lampau. Tahap ini tidak digunakan pada teks berbahasa Indonesia karena kata dalam bahasa Indonesia tidak mempunyai bentuk lampau.

5. Analizing

Pada tahap ini dilakukan proses perhitungan bobot (w) dokumen agar diketahui seberapa

(3)

jauh tingkat similaritas antara keyword yang dimasukkan dengan dokumen [2].

Naïve Bayes Classifier merupakan sebuah metoda

klasifikasiyang berakar pada teorema bayes.Cirri utama dari Naïve Bayes Classifier ini adalah asumsi yang sangat kuat akan independasi dari masing-masing kondisi atau kejadian [3].

1.3 Naïve Bayes Classifier

Naïve Bayes Classifier merupakan algoritma

yang digunakan untuk mencari nilai probabilitas tertinggi untuk mengklasifikasi data uji pada kategori yang paling tepat. Dalam penelitian ini yang menjadi data uji adalah dokumen buku perpustakaan.Ada dua tahap pada klasifikaasi dokumen.Tahap pertama yaitu pelatihan terhadap dokumen yang sudah diketahui kategorinya. Sedangkan tahap kedua adalah proses klasifikasi dokumen yang belum diketahui kategorinya [4].

Dalam algoritma Naïve Bayes Classifier setiap dokumen direpresentasikan dengan pasangan atribut “x1, x2, x3,...xn” dimana x1 adalah kata pertama, x2 adalah kata kedua dan seterusnya. Sedangkan V adalah himpunan kategori buku. Pada saat klasifikasi algoritma akan mencari probabilitas tertinggi dari semua kategori dokumen yang diujikan (Vmap), dimana persamaannya adalah

sebagai berikut : 𝑉𝑀𝐴𝑃= (

𝑃(𝑥1, 𝑥2, 𝑥3, … 𝑥𝑛|𝑉𝑗)𝑃(𝑉𝑗)

𝑃(𝑥1, 𝑥2, 𝑥3, … 𝑥𝑛)

) … … (1) Untuk P(x1, x2, x3,...xn) nilainya konstan untuk semua kategori (Vj) sehingga persamaan dapat ditulis sebagai berikut :

𝑉𝑀𝐴𝑃= (𝑃(𝑥1, 𝑥2, 𝑥3, … 𝑥𝑛|𝑉𝑗)𝑃(𝑉𝑗) … (2)

Persamaan diatas dapat disederhanakan menjadi sebagai berikut :

𝑉𝑀𝐴𝑃= ∏(𝑃(𝑥𝑖 𝑛 𝑖=1 |𝑉𝑗)𝑃(𝑉𝑗) … … … . (3) Keterangan: Vj : Kategori buku j : 1,2,3,...n

P(xi|Vj) : Probabilitas xi pada kategori Vj

P(Vj) : Probabilitas dari Vj

Flowchart merupakan representasi grafik dari

langkah-langkah yang harus diikuti dalam penyelesaiian suatu permasalahan yang terdiri atas sekumpulan simbol, dimana masing-masing simbol mempresentasikan suatu kegiatan tertentu [5].

Usecase diagram adalah diagram yang bersifat

statis. Diagram ini menjelaskan tentang relasi antara grup usecase (kasus)dan aktor yang berpartisipasi dalam proses[6].

1.4 Software Pendukung

Dalam merancang system berbasis web dibutuhkan beberapa aplikasi pendukung seperti

HTML, PHP, CSS. Serta untuk menjalankan system

dibutuhkan aplikasi pendukung seperti MySQL dan

APACHE.

Database adalah kumpulan informasi yang

disimpan didalam komputer secara sitematik sehingga dapat diperiksa menggunakkan suatu program komputer untuk memperoleh informasi dari database tersebut [7].

MySQL adalah sebuah perangkat lunak sistem

manajemen basis data SQL atau DBMS yang

multithread, multi-user, dengan sekitar 6 juta

instalasi di seluruh dunia. Tidak seperti Apache yang merupakan software yang dikembangkan oleh komunitas umum, dan hak cipta untuk kode sumber dimiliki oleh penulisnya masing-masing, MySQL dimiliki dan disponsori oleh sebuah perusahaan komersial Swedia yaitu MySQL AB.

Web Server merupakan sebuah perangkat

lunak dalam server yang berfungsi menerima permintaan (request) berupa halaman web melalui

HTTP atau HTTPS dari klien yang dikenal dengan browser web dan mengirimkan kembali (response)

hasilnya dalam bentuk halaman-halaman web yang umumnya berbentuk dokumen HTML[8].

PHP (Hypertext Prepocessor) merupakan

bahasa pemrograman web yang dapat disisipkan dalam script HTML. Banyak sintaks di dalamnya yang mirip dengan bahasa C, Java dan Perl. Tujuan dari bahasa ini adalah membantu para pengembang

web untuk membuat web dinamis dengan cepat [9]. HTML adalah bahasa markup yang umum

digunakan untuk membuat halaman

web.Sebenarnya HTML bukanlah sebuah bahasa

pemrograman. Apabila di tinjau dari namanya,

HTML merupakan bahasa markup atau penandaan

terhadap sebuah dokumen teks. Tanda tersebut di gunakan untuk menentukan format atau style dari teks yang di tandai.

Nama CSS didapat dari fakta bahwa setiap deklarasi style yang berbeda dapat diletakkan secara berurutan, yang kemudian membentuk suatu hubungan layaknya hubungan ayah-anak

(parent-child) pada setiap style. CSS sendiri merupakan

sebuah teknologi internet yang direkomendasikan oleh World Wide WebConsortium atau W3C pada tahun 1996. Setelah CSS di standarisasikan,

Internet Explorer dan Netscape melepas browser

terbaru mereka yang telah sesuai atau paling tidak hampir mendekati dengan standart CSS [10].

2. Perancangan Sistem

Dalam contoh ini buku yang diambil memiliki kategori atau class: kriptografi, jaringan dan pemrograman.

(4)

Tabel 1. Kategori Judul Buku Latih

Buku yang digunakan berjudul “Kumpulan Pemrograman Aplikasi Dengan Kriptografi Berbasis Jaringan”. Seperti halnya proses pelatihan proses klasifikasi judul juga melewati tahapan preprocessing dan text transformation.

Adapun proses tahapannya dapat dijelaskan sebagai berikut:

Langkah 1: Menghilangkan Stop Words

Tabel 2. Proses CaseFolding

Judul Buku CaseFolding

Kumpulan Pemrograman Aplikasi Dengan Kriptografi Berbasis Jaringan kumpulan pemrograman aplikasi dengan kriptografi berbasis jaringan

Langkah 2: Memilah isi teks sehingga menjadi satuan kata-kata.

Tabel 3. Proses Tokenizing

Judul Buku Tokenizing

kumpulan pemrograman aplikasi dengan kriptografi berbasis jaringan kumpulan pemrograman aplikasi dengan kriptografi berbasis jaringan

Langkah 3: Mengambil kata-kata penting dari hasil token.

Tabel 4. Proses Filtering

Judul Buku Filtering

kumpulan pemrograman aplikasi dengan kriptografi berbasis jaringan Kumpulan pemrograman aplikasi kriptografi berbasis jaringan

Langkah 4: Mereduksi kata ke bentuk dasarnya.

Tabel 5. Proses Stemming

Judul Buku Stemming

Kumpulan pemrograman aplikasi kriptografi berbasis jaringan Kumpul program aplikasi kriptografi basis jaringan

Setelah melewati proses akhir yaitu stemming, proses selanjutnya adalah penentuan kategori buku menggunakan metode Naïve bayes Classifier. Adapun hasil probabilitas pada kategori Pemrograman adalah:

(5)

Kesimpulan :

Maka dapat disimpulkan bahwa judul buku ke 7 tersebut diklasifikasikan sebagai kategori buku Pemrograman.

Data Internal

(buku latih dan buku uji)

Data Management

Structured Query Language (SQL)

Model Management

Unified Modelling Language (UML)

Knowledge-Based Subsystem

-Textpreprocessing -Texttransformation -Patten Discovery (Naïve Bayes Classifier) User Interface -Front-end -Back-end User -Admin -Pengunjung

Gambar 1.Arsitektur Sistem Klasifikasi Buku

Perancangan usecase diagram merupakan tahap awal dan utama dalam proses pengembangan sistem, dimana dalam tahapan ini dijelaskan dan didefinisikan fungsi-fungsi serta fitur-fitur apa saja yang dapat disediakan oleh sistem. Pada usecase diagram mempunyai dua aktor, yaitu user (pengunjung) dan admin.

Antarmuka (interface) merupakan bagian dari sistem klasifikasi kategori buku yang digunakan sebagai media atau alat komunikasi antar user dan sistem. Pada sistem klasifikasi buku ini terdapat beberpa menu yang bisa diakses oleh user seperti menu home untuk menampilkan halaman home, menu Update Data yang berfungsi untuk menampilkan halaman update data buku yang meliputi create data, update data, dan delete data, menu Upload Buku untuk menampilkan halaman

upload buku, menu Klasifikasi Buku yang

berfungsi untuk menampilkan halaman klasifikasi buku.

Main Menu

Home

Daftar Klasifikasi Buku Terbaru

Kategori Buku 1 Kategori Buku 2 Kategori Buku 3

Isi abstraksi buku sesuai kategori buku yang di pilih

Update Data Upload Buku Klasifikasi Buku Kategori Buku 4 Kategori Buku 5 Kategori Buku 1 Tanggal

Gambar 2.Rancangan Halaman Home

Adapun tampilan dari halaman Buku Upload dapat dilihat pada gambar dibawah ini.

Main Menu Home Update Data Upload Buku Klasifikasi Buku Upload Buku Simpan

Ketikkan judul buku Judul Buku

Abstraksi Buku

Ketikkan abstraksi buku Tanggal

Gambar 3.Rancangan Halaman Upload Buku

Adapun rancangan dari halaman Klasifikasi Buku seperti terlihat pada gambar dibawah ini.

Main Menu

Home Update Data Upload Buku Klasifikasi Buku

Proses Klasifikasi Buku

Judul Buku Hasil Kategori Hasil Analisa Action

xxxxxxxxxxxxxxxxx xxxxxxxx xxxxxx Delete Reg xxxxxxxxxxxxxxxxx xxxxxxxx xxxxxx Delete Reg Tanggal xxxxxxxxxxxxxxxxx xxxxxxxx xxxxxx Delete Reg xxxxxxxxxxxxxxxxx xxxxxxxx xxxxxx Delete Reg xxxxxxxxxxxxxxxxx xxxxxxxx xxxxxx Delete Reg xxxxxxxxxxxxxxxxx xxxxxxxx xxxxxx Delete Reg

Gambar 4.Rancangan Halaman Upload Buku

3. Implementasi Sistem

Dalam tahap ini, penulis melakukan pengujian terhadap kemampuan sistem untuk menggunakan

form menu utama di mana userakan berinteraksi

langsung dengan sistem.

Halaman upload buku digunakan untuk menginputkan judul buku dan abstrak buku kemudian mengklik tombol submit untuk mengupload buku. Buku yang di upload ini nantinya akan diproses untuk menentukan klasifikasi kategori judul buku tersebut.

Halaman klasifikasi buku berfungsi untuk melakukan proses klasifikasi buku yang telah diupload. Proses klasifikasi dimulai dengan memilih artikel buku yang akan diklasifikasi kemudian pilih dan klik tombol reg, maka sistem akan memproses dan menampilkan hasil klasifikasi masuk ke kategori buku yang mana. Buku yang sudah terklasifikasi bisa dihapus dengan memilih tombol delete.

(6)

Gambar 5. Tampilan Halaman Klasifikasi Buku

Data yang bisa diklasifikasikan dalam apliasi ini hanya judul buku yang memiliki kata kunci yang tersimpan dalam database.Jika judul buku yang ingin diklasifikasikan tidak memiliki daftar kata kunci, maka sistem tidak bisa mengklasifikasikannya dan hanya menampilkan judul buku tanpa hasil klasifikasi.

4. Kesimpulan

Setelah melakukan studi literatur, perancangan, analisis, implementasi dan pengujian aplikasi pengklasifikasian buku secara otomatis maka dapat disimpulkan sebagai berikut :

1.Aplikasi yang dibuat sudah sesuai dengan algoritma yang digunakan yaitu Algoritma

Naïve Bayes Classifier. Dimana hasil pengujian

klasifikasi buku yang dilakukan oleh aplikasi sudah sesuai dengan hasil klasifikasi secara manual.

2. Pemrosesan klasifikasi kategori buku berhasil jika memiliki kata kunci (keyword) karena pengklasifikasian berdasarkan nilai probabilitas per kata, jika tidak maka hasil klasifikasi akan dikosongkan.

3. Jumlah data latih sangat berpengaruh dalam proses klasifikasi, karena akan dibandingkan dengan semua jenis kategori dan menghitung nilai frekuensi kemunculan setiap kata. Semakin banyak data latih maka tingkat keakuratan dalam penentuan klasifikasi kategori buku akan semakin tinggi begitu juga sebaliknya.

5. Saran

Berdasarkan hasil penelitian sistem klasifikasi buku perpustakaan menggunakan algoritma Naïve

Bayes Classifier, penulis memiliki beberapa saran

untuk pengembangan selanjutnya, antara lain : 1. Perlu adanya penelitian yang lebih mendalam

untuk mengetahui bagaimana pengaruh kinerja

algoritma Naïve Bayes Classifier ini terhadap kategori lain.

2. Untuk penelitian berikutnya diharapkan sistem ini tidak hanyauntuk mengklasifikasikan buku melainkan bias juga digunakan untukmengklasifikasikan dokumen lain seperti berita, olahraga, dan jurnal.

Daftar Pustaka

[1]. Megawati, Chyntia. 2015. Analisis Aspirasi Dan Pengaduan Di Situs Lapor! Dengan Menggunakan Text Mining. Fakultas Teknik Program Studi Teknik Industri.Universitas Indonesia.

[2]. Hatta, Achmad, dkk. 2010. Rancang Bangun Sistem Pengelolaan Dokumen-Dokumen Penting Menggunakan Text Mining. Politeknik Elektronika Negeri Surabaya

[3] Yudha, Faris. 2014. Analisis Jawaban Soal Essay Menggunakan Text Mining Dengan Metode Naïve Bayes. Artikel Skripsi Universitas Nusantara PGRI Kediri

[4] Kurniawan, Bambang, dkk. 2012. Klasifikasi Konten Berita Dengan Metode TextMining. Jurnal Dunia Teknologi Informasi. USU. [5] Anharku. 2010. Flowchart. Ilmu

Komputer.org.

[6] Sulistriyono, Prastuti. 2010. Pemodelan Visual dengan Menggunakan UML dan Rational

Rose. Jurnal Teknologi Informasi Dinamik.

STMIK Widiyah Pratama Pekalongan. [7] Solichin, Achmad. 2010.MySQL Dari Pemula

Hingga Mahir. Universitas Budi Luhur. Jakarta

[8] Solichin, Achmad. 2009. Pemrograman Web Dengan PHP Dan MySQL. Universitas Budi Luhur. Jakarta

[9] Dwiartara, Loka. 2010. Menyelam Dan Menaklukkan Samudra PHP. Cyber Business School. Bogor.

[10] Hadisaputra, Adi. 2010. HTML dan CSS Fundamental Dari Akar Menuju Daun. Cyber Business School. Bogor.