Data Penulis:
Dosen STEKOM
Iwan Koerniawan, M.Th., M.Si Program Studi Komputerisasi Akuntansi Julitta Dewayani, S.S., M.M. Program Studi Desain Grafis
Kustiyono, S.Kom, M.Kom Program Studi Manajemen Informatika
Mokhamad Iklil Mustofa, S.Kom Program Studi Sistem Komputer Rusito, S.Kom, M.Kom Program Studi Sistem Komputer Unang Achlison, S.T, M.Kom Program Studi Teknik Elektronika
Sulartopo, S.Pd, M.Kom Program Studi Sistem Komputer
Zaenal Mustofa, S.Kom Program Studi Sistem Komputer
Alumnus STEKOM
Dwi Anggraeni, S.Kom Program Studi Sistem Komputer
Siti Jumaroh, S.Kom Program Studi Sistem Komputer
Siti Maftukhah, S.Kom Program Studi Sistem Komputer
A.Sulthoni, S.Kom Program Studi Sistem Komputer
Jurnal E-BISNIS diterbitkan oleh Sekolah Tinggi Elektronika dan Komputer (STEKOM). Jurnal E-BISNIS sebagai sarana komunikasi dan penyebarluasan hasil penelitian,
pemikiran serta pengabdian pada masyarakat
Sistem Informasi Analisis Status Gizi Balita Berbasis Client Server Berdasarkan Standar Baku WHO-NCHS
Dwi Anggraeni, Iwan Koerniawan 1 – 6
Rancangan Bangun Sistem Informasi Penjualan dengan Konsep Business to Consumer pada PT. Cipta Bina Sejati Semarang
Siti Jumaroh, Julitta Dewayani 7 – 12
Penerapan Aplikasi Sistem Informasi Social Network sebagai Media Komunikasi dan Promosi pada SMP Muhammadiyah Salatiga
Kustiyono 13 – 19
Implementasi Squid Proxy untuk Mengontrol Penggunaan Internet di Magistra Utama Semarang
Mokhamad Iklil Mustofa 20 – 31
Sistem Pendukung Keputusan Pemilihan Alat Kontrasepsi Berbasis WEB Menggunakan Metode Simple Additive Weighting
Siti Maftukhah, Rusito 32 - 41
Sistem Informasi E-Commerce Pemasaran Hasil Pertanian Desa Kluwan Berbasis WEB
A.Sulthoni, Unang Achlison 42 – 48
Pengkategorian Topik Skripsi dengan Metode NBC
Sulartopo 49 - 53
Sistem Informasi Penjualan pada Toko Komputer Maju Jaya Berbasis WEB
JURNAL ILMIAH EKONOMI DAN BISNIS
Penanggung Jawab :
Ketua Sekolah Tinggi Elektronika dan Komputer
Pemimpin Redaksi :
Unang Achlison, S.T, M.Kom
Mitra Bestari :
Prof. YL Sukestiyarno M.S, Ph.D (Universitas Negeri Semarang)
Sekretaris Redaksi :
Maya Utami Dewi, S.Kom, M.Kom
Dewan Redaksi :
Dr. Ir. Agus Wibowo, M.Kom, M.Si, M.M
Budi Hartono, S.Kom, M.Kom
Iman Saufik Suasana, S.Kom, M.Kom
Sulartopo, S.Pd. M.Kom
Sumaryanto, S.Kom, M.Kom
Desain Grafis :
Mars Caroline Wibowo, S.T, M.Mm.Tech
Setyo Adi Nugroho, S.E, M.Kom
Alamat Redaksi :
Lembaga Penelitian dan Pengabdian Masyarakat
Sekolah Tinggi Elektronika dan Komputer
Jl. Majapahit No. 605 Semarang Telp. 024-6723456
i
KATA PENGANTAR
Puji syukur ke hadirat Tuhan Yang Maha Esa dengan terbitnya Jurnal E-BISNIS
(Ekonomi dan Bisnis) Edisi April 2015, Volume 8 Nomor 1 Tahun 2015 dengan
artikel-artikel yang selalu mengikuti perkembangan Ilmu Pengetahuan dan Teknologi dalam
bidang Ekonomi dan Komputer Bisnis.
Semua artikel yang dimuat pada Jurnal Ekonomi dan Bisnis (E-BISNIS) ini telah
ditelaah oleh Dewan Redaksi yang mempunyai kompetensi di bidang Ekonomi dan
Komputer Bisnis.
Pada edisi ini kami menyajikan beberapa topik menarik tentang penerapan aplikasi
Sistem Informasi yaitu: “Sistem Informasi Analisis Status Gizi Balita Berbasis Client
Server Berdasarkan Standar Baku WHO-NCHS”, serta “Penerapan Aplikasi Sistem
Informasi Social Network sebagai Media Komunikasi dan Promosi pada SMP
Muhammadiyah Salatiga” dan “Implementasi Squid Proxy untuk Mengontrol Penggunaan
Internet di Magistra Utama Semarang”.
Topik selanjutnya adalah makalah tentang penerapan Ekonomi dan Komputer
Bisnis dalam aplikasi Sistem Informasi yaitu: “Rancangan Bangun Sistem Informasi
Penjualan dengan Konsep Business to Consumer pada PT. Cipta Bina Sejati Semarang”,
selanjutnya “Sistem Informasi E-Commerce Pemasaran Hasil Pertanian Desa Kluwan
Berbasis WEB” dan “Sistem Informasi Penjualan pada Toko Komputer Maju Jaya
Berbasis WEB”.
Topik penutup kami menyajikan makalah tentang penerapan Ekonomi dan
Komputer Bisnis dalam aplikasi Sistem Pendukung Keputusan yaitu: “Sistem Pendukung
Keputusan Pemilihan Alat Kontrasepsi Berbasis WEB Menggunakan Metode Simple
Additive Weighting”, serta “Pengkategorian Topik Skripsi dengan Metode NBC”.
Terima kasih yang mendalam disampaikan kepada penulis makalah yang telah
berkontribusi pada penerbitan Jurnal E-BISNIS edisi kali ini. Dengan rendah hati dan
segala hormat, mengundang Dosen dan rekan sejawat peneliti dalam bidang Ekonomi dan
Komputer Bisnis untuk mengirimkan naskah, review, gagasan dan opini untuk disajikan
pada Jurnal Ekonomi dan Bisnis (E-BISNIS) ini.
Sebagai akhir kata, saran dan kritik terhadap Jurnal Ekonomi dan Bisnis
(E-BISNIS) yang membangun sangat diharapkan. Selamat membaca.
Semarang, April 2015
Vol.8 No.1 April 2015
JURNAL ILMIAH EKONOMI DAN BISNIS
DAFTAR ISI
Kata Pengantar ... i
Daftar Isi ... ii
1. Sistem Informasi Analisis Status Gizi Balita Berbasis Client Server Berdasarkan
Standar Baku WHO-NCHS (Dwi Anggraeni, Iwan Koerniawan) ... 1
2. Rancangan Bangun Sistem Informasi Penjualan dengan Konsep Business to Consumer
pada PT. Cipta Bina Sejati Semarang (Siti Jumaroh, Julitta Dewayani) ... 7
3. Penerapan Aplikasi Sistem Informasi Social Network sebagai Media Komunikasi dan
Promosi pada SMP Muhammadiyah Salatiga (Kustiyono) ... 13
4. Implementasi Squid Proxy untuk Mengontrol Penggunaan Internet di Magistra Utama
Semarang (Mokhamad Iklil Mustofa) ... 20
5. Sistem Pendukung Keputusan Pemilihan Alat Kontrasepsi Berbasis WEB
Menggunakan Metode Simple Additive Weighting (Siti Maftukhah, Rusito) ... 32
6. Sistem Informasi E-Commerce Pemasaran Hasil Pertanian Desa Kluwan Berbasis WEB
(A.Sulthoni, Unang Achlison) ... 42
7. Pengkategorian Topik Skripsi dengan Metode NBC (Sulartopo) ... 49
8. Sistem Informasi Penjualan pada Toko Komputer Maju Jaya Berbasis WEB
(Zaenal Mustofa) ... 54
PENGKATEGORIAN TOPIK SKRIPSI DENGAN METODE NBC (Sulartopo)
49
PENGKATEGORIAN TOPIK SKRIPSI DENGAN METODE NBC
SULARTOPO
Sekolah Tinggi Elektronika dan Komputer Jl. Majapahit 605 & 304
Semarang Indonesia E-mail : [email protected]
Abstract
This study was conducted to clarify how to manage categorization thesis to facilitate the search of information in the form of topics that describe the subject in general. In this regard, an important issue that can be raised is how to shape the management of the manual categorization thesis automated way using a categorization system. The purpose of this research is to design a thesis topic categorization system using Naive Bayes classifier (NBC). In this study, the system has a two-stage process, the first phase of training that the categorization of the thesis is already known category, and the second phase of testing that thesis categorization of unknown category. Results of the thesis topic categorization system after testing showed that the process of testing the thesis-thesis which has not been categorized will get the appropriate category.
Keywords: Naïve Bayes Classifier (NBC), text mining, categorization thesis topic
Intisari
Penelitian ini dilakukan untuk memperjelas cara mengelola pengkategorian skripsi untuk mempermudah pencarian informasi berupa topik yang menggambarkan pokok pembahasan secara umum. Berkaitan dengan hal tersebut, isu penting yang dapat dimunculkan adalah bagaimana bentuk pengelolaan pengkategorian skripsi cara manual menjadi otomatis dengan menggunakan sistem pengkategorian. Tujuan penelitian ini adalah merancang sistem pengkategorian topik skripsi dengan menggunakan metode Naive Bayes Classifier (NBC). Dalam penelitian ini sistem mempunyai dua tahapan proses, pertama tahap training yaitu pengkategorian terhadap skripsi yang sudah diketahui kategorinya, dan kedua tahap testing yaitu kategorisasi skripsi yang belum diketahui kategorinya. Hasil dari sistem pengkategorian topik skripsi menunjukkan bahwa setelah dilakukan pengujian proses testing maka skripsi-skripsi yang belum berkategori akan mendapatkan kategori yang sesuai.
Kata Kunci : Naïve Bayes Classifier (NBC), text mining, pengkategorian topik skripsi.
.
A. PENDAHULUAN
Kebutuhan mahasiswa terhadap informasi dalam bentuk skripsi (tugas akhir) semakin
meningkat, sehingga pengelompokan /
pengkategorian skripsi dibutuhkan untuk
mempermudah pencarian informasi. lnformasi
penting dari skripsi berupa topik yang
menggambarkan pokok pembahasan secara umum. Pemberian label topik diharapkan membantu mahasiswa dalam memahami isi
skripsi, tanpa harus membaca secara
keseluruhan.
Dalam kenyataannya, pengkategorian
skripsi ke dalam topik-topik tertentu untuk saat
ini masih dilakukan secara manual, artinya dalam mengkategorikan skripsi sesuai topik petugas harus terlebih dahulu mengetahui isi dari
skripsi yang akan dikategorikan secara
kesuluruhan, untuk selanjutnya dimasukkan ke dalam kategori yang tepat. Hal ini sangat merepotkan bagi para petugas apabila jumlah skripsi yang ingin dikategorikan berjumlah banyak. Sehingga perlu adanya sistem yang dapat mengkategorikan skripsi secara otomatis sesuai dengan topik-topik skripsi yang ada sehingga bisa membantu para petugas dalam mengkategorikan skripsi.
Oleh karena itu, akan dirancang sistem
Vol. 8 No.1 – EBISNIS, April 2015
menggunakan metode Naive Bayes Classifier (NBC). Diharapkan dengan dukungan dari metode tersebut, sistem dapat membantu petugas dalam melakukan pengkategorian skripsi dengan lebih cepat dan efisien.
Berikut adalah beberapa batasan masalah dari sistem yang dibuat. Skripsi bersumber dari program studi Desain Grafis pada perpustakaan STEKOM, yang dikategorikan dalam 4 kategori topik skripsi, yaitu : iklan cetak, iklan elektronik, desain web, dan pembelajaran. Bentuk masukan sistem berupa file skripsi berformat doc / pdf. Bentuk keluaran sistem adalah label berupa topik berdasarkan hasil kategori.
B. DASAR TEORI
1. Text Mining
Menurut Feldman, R. dan Sanger, J., "text
mining adalah sebuah proses pengetahuan
intensif dimana pengguna berinteraksi dan bekerja dengan sekumpulan dokumen dengan menggunakan beberapa alat analisis" (2007).
Text mining mencoba untuk mengekstrak
informasi yang berguna dari sumber data melalui identifikasi dan eksplorasi dari suatu
pola menarik. Sumber data berupa
sekumpulan dokumen dan pola menarik yang tidak ditemukan dalam bentuk database record, tetapi dalam data teks yang tidak terstruktur.
Tahapan proses text mining dibagi menjadi empat tahap utama, seperti pada gambar dibawah ini. Masukan awal dari proses adalah berupa suatu data teks dan akan menghasilkan keluaran berupa pola sebagai hasil tafsiran.
Gambar 1 : Tahapan text mining
a. Text Preprocessing
Tahap proses awal terhadap teks untuk mempersiapkan teks menjadi data
yang akan diolah lebih lanjut.
Sekumpulan karakter yang
bersambungan (teks) harus dipecah-pecah menjadi unsur yang lebih berarti. Hal ini dapat dilakukan dalam beberapa tingkatan yang berbeda. Suatu dokumen dapat dipecah menjadi bab, sub-bab, paragraf, kalimat, kata dan bahkan suku kata atau fonem. Parsing/tokenizing adalah proses memecah teks menjadi kalimat dan kata/token (Feldman, R. & Sanger, J.,2007). Fitur ini terdiri dari tipe kapitalisasi, keberadaan digit, tanda
baca, karakter spesial dan lain
sebagainya. Hasil keluaran dari proses
tokenizing akan dipergunakan sebagai
masukan dalam tahap transformasi teks. b. Text Transformation
Tahapan yang dipergunakan untuk mengubah kata-kata ke dalam bentuk dasar, sekaligus untuk mengurangi jumlah kata-kata tersebut. Pendekatan yang dapat dilakukan yaitu dengan
stemming dan penghapusan stopwords.
Teknik untuk meningkatkan performa, yaitu dengan cara menemukan variasi
token dari token pencarian yang
dimasukkan. Stemming dapat dilakukan pada saat indexing atau pencarian (Frakes, W. B. & Baeza, R., 1992). Keuntungan stemming saat indexing adalah efisiensi dan kompresi file.
Stoplist berisi kumpulan kata yang 'tidak
relevan', tetapi seringkali muncul dalam sebuah dokumen. Dengan kata lain,
stoplist berisi sekumpulan stopwords
(Han, J. & Kamber, M.,2001).
Stopwords removal adalah proses
menghilangkan kata yang 'tidak relevan' dari sebuah dokumen teks dengan cara
membandingkannya dengan stoplist
yang ada.
c. Feature Selection
Walaupun teks sudah melalui tahapan transformasi teks, tetapi tidak semua kata yang tersisa menggambarkan isi dari dokumen. Tahap seleksi fitur (feature selection) bertujuan mengurangi
PENGKATEGORIAN TOPIK SKRIPSI DENGAN METODE NBC (Sulartopo)
51
dimensi dari suatu kumpulan teks. Dengan kata lain, menghapus kata-kata yang dianggap tidak penting atau tidak
menggambarkan isi dokumen
berdasarkan frekuensi kemunculan kata tersebut.
d. Pattern Discovery
Tahapan penemuan pola adalah tahap terpenting dari keseluruhan proses
text mining. Merupakan penemuan pola
atau pengetahuan dari keseluruhan teks. e. Information Retrieval
Menurut Han, J. dan Kamber, M.,
information retrieval (IR) adalah
pengorganisasian dan penemuan
informasi dari sejumlah besar dokumen
berbasis teks (2001). Information
retrieval merupakan bidang yang
berkembang secara paralel dengan sistem basis data selama beberapa tahun. Sistem basis data lebih fokus pada query dan proses transaksional dari struktur
data. Sedangkan dalam sistem
information retrieval ditemukan
dokumen yang tidak terstruktur,
pencarian berdasarkan kata kunci dan tingkat kesamaan.
2. Metode Naïve Bayes Classifier
Metode NBC menempuh dua tahap dalam proses klasifikasi teks, yaitu tahap pelatihan dan tahap klasifikasi. Pada tahap pelatihan dilakukan proses analisis terhadap
sampel dokumen berupa pemilihan
vocabulary, yaitu kata yang mungkin muncul
dalam koleksi dokumen sampel yang sedapat
mungkin dapat menjadi representasi
dokumen. Selanjutnya adalah penentuan
probabilitas prior bagi tiap kategori
berdasarkan sampel dokumen. Pada tahap klasifikasi ditentukan nilai kategori dari suatu dokumen berdasarkan term yang muncul dalam dokumen yang diklasifikasi. Lebih kongkritnya jika diasumsikan dimiliki koleksi dokumen D={di |i=1,2,…|D|} = {d1,d2,…,d|D|} dan koleksi kategori V =
{vj|j=1,2,…|V|} = {v1,v2,…,v|V|}.
Klasifikasi NBC dilakukan dengan cara mencari probabilitas P(V=vj | D=di), yaitu probabilitas category vj jika diketahui dokumen di. Dokumen di dipandang sebagai
tuple dari kata-kata dalam dokumen, yaitu
<a1,a2,…,an>, yang frekuensi
kemunculannya diasumsikan sebagai variable
random dengan distribusi probabilitas
Bernoulli (McCallum and Nigam, 1998). Selanjutnya klasifikasi dokumen adalah mencari nilai maksimum dari :
𝑉𝑀𝐴𝑃
= argmax
𝑣𝑗 ∈𝑉 𝑃 𝑣𝑗 𝑎1, 𝑎2, … , 𝑎𝑛
(1)
Teorema Bayes menyatakan tentang probabilitas bersyarat menyatakan :
𝑃 𝐵 𝐴 =𝑃 𝐴 𝐵 𝑃 𝐵
𝑃 𝐴
(2)
Dengan menerapkan teorema Bayes persamaan (1) dapat ditulis :
𝑉𝑀𝐴𝑃 = argmax 𝑣𝑗 ∈𝑉 𝑃 𝑎1, 𝑎2, … , 𝑎𝑛 𝑣𝑗 𝑃 𝑣𝑗 𝑃 𝑎1, 𝑎2, … , 𝑎𝑛 (3 )
Karena nilai 𝑃 𝑎1, 𝑎2, … , 𝑎𝑛 untuk
semua vj besarnya sama maka nilainya dapat diabaikan, sehingga persamaan (3) menjadi :
𝑉𝑀𝐴𝑃
= argmax
𝑣𝑗 ∈𝑉 𝑃 𝑎1, 𝑎2, … , 𝑎𝑛 𝑣𝑗 𝑃 𝑣𝑗
(4)
Dengan mengasumsikan bahwa setiap
kata dalam < 𝑎1, 𝑎2, … , 𝑎𝑛 > adalah
independent, maka𝑃 𝑎1, 𝑎2, … , 𝑎𝑛 𝑣𝑗 dalam
persamaan (4) dapat ditulis sebagai :
𝑃 𝑎1, 𝑎2, … , 𝑎𝑛 𝑣𝑗
= 𝑃 𝑎1 𝑣𝑗
𝑖
(5)
Sehingga persamaan (4) dapat ditulis :
𝑉𝑀𝐴𝑃
= argmax
𝑣𝑗 ∈𝑉 𝑃 𝑣𝑗 𝑃 𝑎1 𝑣𝑗 𝑖
(6)
Nilai P(𝑣𝑗) ditentukan pada saat pelatihan,
Vol. 8 No.1 – EBISNIS, April 2015
𝑃 𝑣𝑗 =
𝑑𝑜𝑐𝑗
𝑐𝑜𝑛𝑡𝑜ℎ
(7)
dimana 𝑑𝑜𝑐𝑗 adalah banyaknya
dokumen yang memiliki kategori j dalam pelatihan, sedangkan 𝑐𝑜𝑛𝑡𝑜ℎ banyaknya dokumen dalam contoh yang digunakan
untuk pelatihan. Untuk nilai 𝑃 𝑤𝑘 𝑣𝑗 , yaitu
probabilitas kata 𝑤𝑘dalam kategori j
ditentukan dengan :
𝑃 𝑤𝑘 𝑣𝑗
= 𝑛𝑘÷ 1
𝑛 ÷ 𝑣𝑜𝑐𝑎𝑏𝑢𝑙𝑎𝑟𝑦
(8)
Dimana nk adalah frekuensi munculnya kata wk dalam dokumen yang ber kategori
𝑣𝑗, sedangkan nilain adalah banyaknya
seluruh kata dalam dokumen berkategori 𝑣𝑗
dan 𝑣𝑜𝑐𝑎𝑏𝑢𝑙𝑎𝑟𝑦 adalah banyaknya kata dalam contoh pelatihan
C. DESAIN PENELITIAN
Metode penelitian yang diterapkan dalam penelitian ini adalah sebagai berikut:
1. Pengumpulan Data
Data yang digunakan pada penelitian ini berupa database skripsi mahasiswa, data tersebut berjumlah 100 data judul skripsi mahasiswa program studi Desain Grafis dan dibagi menjadi 4 kategori topik skripsi, yaitu : iklan cetak, iklan elektronik, desain web, dan pembelajaran. Dimana masing-masing kategori berjumlah 25 data judul skripsi. Dari 100 data tersebut 80 data dijadikan sebagai data training dan 20 data dijadikan sebagai data testing.
2. Text Mining
Text mining merupakan variasi dari data mining yang berusaha menemukan pola yang
menarik dari sekumpulan data tekstual yang berjumlah besar (Feldman, R. & Sanger, J., 2007).
3. Algoritma NBC
Disini algoritma digunakan untuk mencari
nilai probabilitas tertinggi untuk
mengklasifikasi data uji pada kategori yang
paling tepat (Feldman, R. & Sanger, J., 2007). Dalam penelitian ini yang menjadi data uji adalah dokumen skripsi. Ada dua tahap pada klasifikasi dokumen. Tahap pertama adalah pelatihan terhadap dokumen
yang sudah diketahui kategorinya.
Sedangkan tahap kedua adalah proses kategorisasi dokumen yang belum diketahui kategorinya.
Dalam algoritma naïve bayes classifier setiap dokumen direpresentasikan dengan pasangan atribut “x1, x2, x3,...xn” dimana x1 adalah kata pertama, x2 adalah kata kedua dan seterusnya. Sedangkan V adalah himpunan kategori skripsi. Pada saat
kategorisasi algoritma akan mencari
probabilitas tertinggi dari semua kategori dokumen yang diujikan (VMAP).
D. HASIL DAN PEMBAHASAN
Dalam penelitian ini sistem mempunyai 2 tahapan proses yaitu tahapan pertama adalah tahap training yaitu tahap pengkategorian
terhadap skripsi yang sudah diketahui
kategorinya. Judul skripsi yang digunakan untuk proses training dapat dilihat pada gambar di bawah ini (Gambar 2).
Pada pengujian tahap testing hal-hal yang dilakukan adalah dengan melakukan kategorisasi skripsi yang belum diketahui kategorinya. Skripsi yang dijadikan pengujian tahap testing berjumlah 20 skripsi untuk masing-masing kategori.
Setelah melakukan pengujian proses testing maka skripsi-skripsi yang belum berkategori akan mendapatkan kategori yang sesuai. Skripsi-skripsi hasil pengujian proses testing dapat dilihat pada gambar di bawah ini (Gambar 3).
PENGKATEGORIAN TOPIK SKRIPSI DENGAN METODE NBC (Sulartopo)
53
Gambar 2 : Kategori Hasil Training
Gambar 3 : Kategori Hasil Pengujian Testing
E. SIMPULAN
Hasil dari sistem pengkategorian topik skripsi menunjukkan bahwa setelah dilakukan pengujian proses testing maka skripsi-skripsi yang belum berkategori akan mendapatkan kategori yang sesuai.
DAFTAR PUSTAKA
Feldman, R. & Sanger, J. (2007). The Text Mining
Handbook. New York: Cambridge
UniversityPress.
Frakes, W. B. & Baeza, R. (1992). lnformation Retrieval Data Structure and A/gorifhms. NewJersey: Prentice-Hall.
Han, J. & Kamber, M. (2001). Data Mining: Concepts and Techniques. San Francisco: Morgan Kaufmann.
McCallum, A. and Nigam, K., (1998), A comparison
of event models for Naive Bayes text classification,
di:http://citeseerx.ist.psu.edu/viewdoc/summary?doi =10.1.1.46.1529