• Tidak ada hasil yang ditemukan

Klasifikasi Dokumen Bahasa Indonesia Menggunakan Adaptive Classifier Combination (ACC)

N/A
N/A
Protected

Academic year: 2017

Membagikan "Klasifikasi Dokumen Bahasa Indonesia Menggunakan Adaptive Classifier Combination (ACC)"

Copied!
30
0
0

Teks penuh

(1)

KLASIFIKASI DOKUMEN BAHASA INDONESIA

MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION

(ACC)

MUTHIA AZIZA

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(2)

KLASIFIKASI DOKUMEN BAHASA INDONESIA

MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION

(ACC)

MUTHIA AZIZA

Skripsi

Sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(3)

ABSTRACT

MUTHIA AZIZA. Indonesian document classification using Adaptive Classifier Combination (ACC). Supervised by JULIO ADISANTOSO.

Search engine is a tool to find an information that match with user’s request based on query or keywords. However, the query of search engine often shows irrelevance sites that didn’t match with user’s desire.

Classification was developed to focused user’s request on the information that they searched, so the result would be more accurate and less effort yet effective and efficient for the system. Adaptive Classifier Combination is one of many methods that can be used for text classification. This method is a combination between k-nearest neighbor classification and Naive Bayes classification to get a better result than using single method.

The result of this research is an implementation of web-based application that developed using PHP language. The document is from horticulture reasearch journal from 2002 until 2009. From 340 documents, 300 document is used for data training and 40 documents is for testing. The accuracy of ACC is 80% and for Naive Bayes classification is 42.5%.

(4)

Judul : Klasifikasi Dokumen Bahasa Indonesia Menggunakan Adaptive Classifier Combination

(ACC) Nama : Muthia Aziza NIM : G64050444

Menyetujui, Pembimbing,

Ir. Julio Adisantoso, M. Kom NIP 19620714 198601 1 002

Mengetahui, Ketua Departemen

Dr. Ir. Sri Nurdiati, M.Sc NIP 19601126 198601 2 001

(5)

PRAKATA

Puji dan syukur penulis panjatkan kepada Allah SWT atas segala rahmat dan hidayah-Nya sehingga tugas akhir dengan judul Klasifikasi Dokumen Bahasa Indonesia Menggunakan Adaptive Classifier Combination (ACC) dapat terselesaikan. Penelitian ini dilaksanakan mulai Maret 2009 sampai dengan Desember 2010, bertempat di Departemen Ilmu Komputer.

Terima kasih penulis ucapkan kepada pihak-pihak yang telah membantu dalam penyelesaian tugas akhir ini, antara lain:

1 Kepada Bapak Ir. Julio Adisantoso, M.Kom. selaku pembimbing yang telah banyak memberi arahan selama penulis menjalankan penelitian

2 Kepada mama, papa, mas Ojan, mbak Maya, bude Anis, Lidya, Lulu, Fajar, Faiz, Nadine serta seluruh keluarga atas doa, dukungan, dan kasih sayangnya.

3 Kepada teman seperjuangan satu bimbingan, Tara, Elen, Netty, Utis, Hendrex, Tina, Eka, Yuchan, Wildan yang selama ini selalu bersama dalam mengerjakan tugas akhir ini dan saling memberikan semangat.

4 Kepada Tsamrul Fuad, suami, sahabat terbaik yang pernah ada, atas semangat, dukungan, dan selaku penghibur dikala jenuh selama penulis mengerjakan penelitian.

5 Kepada teman-teman seperjuangan ilkomerz 42, serta pihak lain yang turut membantu baik secara langsung maupun tidak langsung dalam penyelesaian tugas akhir ini.

Semoga karya ilmiah ini bermanfaat.

Bogor, Januari 2012

(6)

RIWAYAT HIDUP

Penulis dilahirkan di Jakarta pada tanggal 9 Juli 1987 dari ayah Achmad Suyuthi Dahlan dan Ibu Charisa Sullam. Penulis merupakan anak ketiga dari tiga bersaudara.

(7)
(8)

DAFTAR ISI

halaman

PENDAHULUAN

Latar Belakang ... …….1

Tujuan ... …….1

Ruang Lingkup ... …….1

TINJAUAN PUSTAKA Information Retrieval ... …….1

Klasifikasi ... …….2

Naïve Bayes ... …….2

K-Tetangga Terdekat ... …….2

Adaptive Classifier Combination ... …….3

Confusion Matrix ... …….3

METODE PENELITIAN Karakteristik Dokumen ... …….3

Pengindeksan ... …….4

Klasifikasi ACC ... …….4

Klasifikasi Naïve Bayes ... …….4

Evaluasi Klasifikasi ... …….4

Lingkungan Pengembangan Sistem ... …….4

HASIL DAN PEMBAHASAN Karakteristik Dokumen ... …….4

Pengindeksan ... …….4

Training ... …….4

Testing ... …….4

Klasifikasi ACC ... …….5

Klasifikasi Naïve Bayes ... …….5

Evaluasi Klasifikasi ... …….5

KESIMPULAN DAN SARAN Kesimpulan ... …….7

Saran ... …….7

DAFTAR PUSTAKA ... …….7

(9)

v

DAFTAR GAMBAR

halaman

1 Metode Penelitian ... 3

2 Tingkat Akurasi dengan berbagai nilai k ... 5

DAFTAR TABEL halaman 1 Confusion Matrix ... 3

2 Nilai k ... 5

3 Confusion matrix klasifikasi ACC ... 6

4 Confusion matrix klasifikasi naïve bayes ... 6

(10)

1

PENDAHULUAN

Latar Belakang

Seringkali pengguna sulit menemukan informasi yang diinginkan dengan cepat dan tepat pada web. Dari permasalahan ini muncul keinginan untuk mengembangkan alat dan perangkat lunak yang berguna dan efisien untuk membantu pengguna mencari informasi dalam web (Arifin & Setiono 2000). Mesin pencari adalah contoh alat yang mencari informasi sesuai dengan permintaan pengguna berdasarkan kueri atau kata kunci yang dimasukkan oleh pengguna. Tetapi tidak jarang juga kueri mesin pencari memunculkan dokumen yang tidak sesuai dengan keinginan pengguna.

Klasifikasi dikembangkan untuk memfokuskan pencarian pengguna pada informasi yang ingin dicari, sehingga hasil akan menjadi lebih akurat dan usaha yang dilakukan sistem lebih efektif dan efisien. Klasifikasi dokumen mengelompokkan dokumen yang sesuai dengan kategori yang terkandung pada dokumen tersebut. Apabila terdapat permintaan yang sudah diketahui memiliki kategori tertentu, pencarian dokumen hanya dilakukan pada kumpulan dokumen yang memiliki kategori tersebut, tidak dilakukan pada semua kumpulan dokumen yang dimiliki sehingga proses pencarian dapat dilakukan dengan cepat.

Banyak metode yang bisa digunakan untuk klasifikasi teks, seperti naïve bayes, k-nearest neighbor, decision trees, dan lain-lain. Pramujadi (2010) telah menggunakan metode

Naive Bayes classifier (NBC) yang merupakan salah satu metode untuk teks atau klasifikasi dokumen. Masalah umum yang sering terjadi pada metode NBC adalah data sparsity, terutama ketika ukuran data latih terlalu kecil. Salah satu cara untuk mengangani masalah

sparsity adalah dengan menggunakan teknik

background smoothing. Tujuan penelitian ini adalah untuk melihat efek background smoothing pada query pendek dan panjang, dan membandingkannya dengan NBC pada data pelatihan kecil.

Beberapa peneliti telah menunjukkan bahwa mengombinasikan metode klasifikasi yang berbeda (combination of multiple classifier) dapat menambah keakuratan klasifikasi (Li & Jain 1998). Simple voting, dynamic classifier selection (DCS), dan adaptive classifier combination (ACC) adalah contoh metode yang menggabungkan beberapa metode klasifikasi. Tiap-tiap metode klasifikasi seringkali

menghasilkan kelas yang berbeda-beda untuk satu dokumen tes.

Li dan Jain (1998) telah meneliti keakuratan

simple voting, dynamic classifier selection, dan

adaptive classifier combination untuk

klasifikasi dokumen dalam bahasa Inggris. ACC merupakan kombinasi dari naïve bayes dengan

k-nearest neighbor. Karena merupakan

kombinasi dari dua buah classifier, ACC dinilai cukup baik untuk digunakan sebagai metode klasifikasi.

Tujuan Penelitian

Tujuan utama dari penelitian ini adalah mengimplementasikan kinerja adaptive classifier combination untuk meningkatkan keakuratan klasifikasi dokumen berbahasa Indonesia.

Ruang Lingkup

Ruang lingkup penelitian ini meliputi: 1. Penelitian ini difokuskan kepada klasifikasi

dokumen dengan menggunakan adaptive

classifier combination pada dokumen

berbahasa Indonesia.

2. Penelitian dibatasi pada tahap klasifikasi dokumen, tidak sampai proses temu kembali dokumen.

TINJAUAN PUSTAKA

Information Retrieval

Information retrieval atau temu kembali informasi merupakan pencarian material, yang biasanya dokumen, dari sesuatu yang tidak terstruktur, biasanya teks, yang memenuhi kebutuhan informasi dari sekumpulan koleksi yang besar yang biasanya disimpan di komputer (Manning et al 2008).

Untuk menemukembalikan informasi terdapat proses pengindeksan tertentu seperti tokenisasi kata, membuang stopword, dan

stemming sehingga menghasilkan himpunan kosa kata sebagai dokumen indeks. Proses pengindeksan tersebut melibatkan isi dari seluruh kumpulan dokumen atau biasanya hanya terdiri atas judul atau kata kunci dan abstrak dari kumpulan dokumen. Tiap dokumen diwujudkan sebagai sebuah vektor dengan elemen sebanyak term yang berhasil dikenali dari proses pemisahan term.

(11)

2 pembobotan yang merupakan hasil kali antar

term frequency (tf), dan inverse document frequency (idf) yaitu:

(1)

sedangkan wt,d adalah bobot dari termt dalam dokumen d, tft adalah frekuensi term t dalam dokumen (tf), N merupakan ukuran dokumen yang ada dalam koleksi yang digunakan untuk penghitungan idf, dan dft adalah jumlah dari dokumen yang ada di koleksi yang mengandung nilai t.

Proses mendapatkan informasi yang dibutuhkan oleh pengguna berupa suatu query

dari pengguna yang merepresentasikan permintaan informasi. Query umumnya tidak memiliki struktur, sehingga perlu diformulasikan agar terjadi dialog interaktif antara pengguna dan sistem.

Perbandingan query terhadap permintaan informasi disebut proses penyesuaian (matching process). Pada proses inilah diharapkan dapat dihasilkan suatu keluaran yang relevan dengan permintaan pengguna.

Salah satu pendekatan dalam merepresen-tasikan informasi yang terorganisasi adalah dengan mengelompokkan dokumen ke dalam beberapa kategori atau klasifikasi. Dengan klasifikasi dokumen diharapkan informasi yang diambil dari kumpulan dokumen dapat lebih relevan (Pramurjadi 2010).

Klasifikasi

Klasifikasi yaitu proses untuk menemukan sekumpulan model atau fungsi yang mendeskripsikan dan membedakan kelas-kelas data dengan tujuan untuk memprediksikan kelas dari objek yang belum diketahui kelasnya (supervised learning) (Han & Kamber 2001).

Proses klasifikasi dibagi menjadi dua fase, yaitu learning dan test (Han & Kamber 2001). Pada fase learning, sebagian data yang telah diketahui kelas datanya (training set) digunakan untuk membentuk model. Selanjutnya pada fase

test, model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi model tersebut. Jika akurasinya mencukupi, maka model tersebut dapat dipakai untuk prediksi kelas data yang belum diketahui.

Naïve bayes

Naïve Bayes merupakan metode klasifikasi dengan cara menghitung peluang sebuah dokumen d berada di kelas c (Manning, 2008).

Kelas terbaik pada klasifikasi naïve bayes

adalah kelas yang paling mirip dengan dokumen

yang ingin diklasifikasikan atau yang mempunyai nilai posteriori tertinggi atau

maximum a posteriori (MAP), dengan rumus:

sedangkan merupakan nilai penduga peluang suatu dokumen d dikelaskan ke dalam kelas c, dengan rumus:

(2) sedangkan adalah peluang prior dari dokumen yang ada di dalam kelas c yang didapat dari , sedangkan

N

c

merupakan banyak dokumen yang ada di dalam kelas c,

N

adalah total dokumen yang ada, dan

adalah peluang bersyarat dari term

muncul dalam sebuah dokumen pada kelas c.

diartikan sebagai ukuran seberapa banyak term menyumbang untuk menunjukkan c merupakan kelas yang tepat untuk dokumen d. Nilai didapat dari:

(3)

sedangkan adalah jumlah kemunculan termt

dalam dokumen latih di kelas c, termasuk kemunculan ganda term t pada dokumen. Nilai penjumlahan adalah jumlah seluruh term pada dokumen latih yang ada di kelas c, termasuk kemunculan term ganda, dan

B adalah jumlah term dalam vocabulary seluruh dokumen.

K-Tetangga Terdekat

K-tetangga terdekat atau K-nearest neighbor

(kNN) merupakan metode klasifikasi yang memasukkan dokumen ke dalam mayoritas kelas dari k tetangga terdekatnya dimana k

adalah sebuah parameter (Manning, 2008). Metode kNN bekerja dengan berdasarkan pada jarak terdekat antara dokumen d dengan dokumen lainnya untuk menentukan tetangga terdekatnya. Setelah itu diambil mayoritas kelas dokumen yang merupakan tetangga terdekat untuk menentukan kelas dokumen d.

(12)

3 dimana adalah sekumpulan dari k tertangga

terdekat dari dokumen d dan bernilai 1 jika dan hanya jika dokumen d terdapat di kelas

c dan bernilai 0 jika sebaliknya. adalah ukuran kesamaan

cosine antara dokumen d’ dengan d. Dokumen akan dimasukkan ke kelas yang mempunyai skor tertinggi.

Adaptive Classifier Combination

Adaptive classifier combination (ACC) adalah metode klasifikasi yang menggabungkan metode naïve bayes dengan k-tetangga terdekat.

ACC memasukkan dokumen d ke dalam kelas

ci, dimana kelas yang akan dimasukkan

diidentifikasikan oleh classifier dengan local accuracy tertinggi dari semua kelas yang ada (Y. H. Li & A.K. Jain, 1998).

Untuk sebuah dokumen uji d yang akan diklasifikasikan, cari tetangga dari dokumen uji

d menggunakan metode k-nearest neighbor. Kemudian hasil klasifikasi untuk dokumen d

oleh n classifier ditunjukkan sebagai . Setelah itu, untuk setiap kelas dihitung:

(4)

dimana merupakan peluang xi terdapat pada kelas

c

j dan Wi merupakan ukuran kesamaan kosinus antara xi dan d. Kemudian dokumen d dimasukkan ke kelas ck, dengan rumus:

(5) Confusion Matrix

Confusion matrix merupakan sebuah tabel yang terdiri atas banyaknya baris data uji yang diprediksi benar dan tidak benar oleh model klasifikasi, yang digunakan untuk menentukan kinerja suatu model klasifikasi (Tan et al 2005). Tabel 1 Confusion Matrix

Predicted Class

Class = 1 Class = 0

Actual Class

Class = 1 F11 F10

Class = 0 F01 F00

Contoh tabel confusion matrix dapat dilihat pada Tabel 1. Perhitungan akurasi dengan menggunakan tabel confusion matrix adalah:

Akurasi =

METODE PENELITIAN

Penelitian ini dilaksanakan dalam beberapa tahap yang diilustrasikan pada Gambar 1. Secara garis besar tahapannya adalah pengumpulan data, praproses, implementasi sistem, klasifikasi ACC dan evaluasi klasifikasi.

Karakteristik Dokumen

Koleksi dokumen yang digunakan sebagai data latih dan dokumen uji adalah hasil penelitian dari Jurnal Penelitian Hortikultura tahun 2002 sampai dengan tahun 2009 dengan format XML.

Dokumen pada data latih diklasifikasikan langsung secara manual sebagai pembelajaran sistem. Dokumen yang dijadikan data latih sebanyak 300 dokumen dan 40 dokumen sebagai dokumen uji. Dokumen tersebut akan dibagi menjadi lima kelas yaitu fisiologi dan agronomi (1), pemuliaan dan teknologi benih (2), proteksi (3), pascapanen dan pascaproduksi (4), dan agroekonomi (5).

Pengumpulan Data

Implementasi Sistem

Klasifikasi ACC Klasifikasi Naïve Bayes

Confusion Matrix

Selesai Mulai

(13)

4 Training

Dokumen pada data training atau data latih diklasifikasikan langsung secara manual sebagai pembelajaran sistem untuk mengetahui dokumen yang belum diketahui kelasnya pada data uji. Data latih sebanyak 300 dokumen tersebut dibagi menjadi lima kelas, kelas (1) yaitu fisiologi dan agronomi terdapat 87 dokumen, kelas (2) yaitu pemuliaan dan teknologi benih terdapat 73 dokumen, kelas (3) yaitu proteksi terdapat 97 dokumen, kelas (4) yaitu pascapanen dan pascaproduksi terdapat 34 dokumen, dan kelas (5) yaitu agroekonomi terdapat 9 dokumen.

Dokumen yang telah diklasifikasikan secara manual tersebut disimpan dalam format .txt dengan struktur [nama file dokumen][,] [kelasnya].

Testing

Data testing atau data uji dimasukkan oleh

user dengan meng-upload file XML yang ada di koleksi ke dalam sistem. Kemudian dokumen uji yang di-upload diambil term-term penciri dokumen dan dihitung tf.idf-nya. Setelah itu dilakukan perhitungan menggunakan metode ACC untuk mengetahui kelas dokumen uji.

Pengindeksan

Tahap pengindeksan dilakukan untuk menghasilkan term-term yang akan digunakan sebagai penciri dokumen dan dilakukan pembobotan tf.idf dengan menggunakan (1) akan diperoleh bobot tiap term. Hasil dari tahap pengindeksan akan disimpan dalam file teks tersendiri untuk mempercepat sistem saat melakukan pemrosesan koleksi dokumen.

Klasifikasi Naive Bayes

Tahap pertama pada Naive Bayes adalah menghitung peluang term pada dokumen testing

terdapat di suatu kelas dengan menggunakan (3). Setelah itu dilakukan perhitungan peluang dokumen latih berada di suatu kelas tertentu kemudian diambil nilai yang tertinggi.

Tahap pertama pada Naive Bayes adalah menghitung peluang term pada dokumen uji terdapat di suatu kelas dengan menggunakan (3). Contoh dokumen latih adalah dokumen jurnalHorti1.txt dengan term “pengaruh”,

“macam”, “dosis”, “pupuk”, “organik”, “hasil”, “kentang”, “dataran”, “dium”, “lahan”, “sawah”, “subhan”, “deden”, “fatchullah”.

Term-term tersebut dihitung peluang terdapat di suatu kelas menggunakan (3) dengan membandingkan dengan term-term pada data latih.

Setelah perhitungan (3), dilakukan perhitungan Naive Bayes yaitu dengan menghitung peluang dokumen latih berada di suatu kelas tertentu kemudian diambil nilai yang tertinggi berdasarkan rumus

.

Klasifikasi ACC

Proses pengklasifikasian dokumen pada penelitian ini menggunakan algoritme klasifikasi ACC yang merupakan gabungan dari algoritme klasifikasi KNN dengan Naïve Bayes. Tahap ini diawali dengan penghitungan panjang vektor semua dokumen pada korpus. Setelah itu dilakukan perhitungan perkalian vektor atau dot product antara dokumen testing

dengan data latih kemudian dihitung kesamaannya dengan ukuran kesamaan cosine

dan diambil K hasil tertinggi sebagai K tetangga terdekat. Selanjutnya dilakukan proses perhitungan dengan algoritme Naive Bayes dengan data latihsebesar K.

Uji coba dilakukan dengan menggunakan beberapa nilai k pada algoritme kNN. Nilai k yang digunakan adalah 2, 3, 4, 5, 6, 7, 9, 10, 11, 12, 13, 14, dan 15. Nilai k yang paling optimal adalah yang menghasilkan error atau salah kelas paling sedikit. Dengan kata lain, k yang paling optimal adalah yang paling banyak menempatkan data test ke dalam kelas sesungguhnya.

Evaluasi Klasifikasi

Pada tahap evaluasi dilakukan penilaian kinerja sistem dengan melakukan pengukuran presentase ketepatan dalam klasifikasi dokumen menggunakan confusion matrix.

Lingkungan Pengembangan Sistem

(14)

5 1.Perangkat Lunak :

• Sistem operasi Microsoft Windows Vista

• Notepad++

2.Perangkat Keras :

• Intel Pentium 4 3.0 Ghz

• Memory 1536 MB RAM

• Monitor resolusi 1024 x 768 pixelMouse dan keyboard

HASIL DAN PEMBAHASAN

Klasifikasi Naive Bayes

Hasil klasifikasi Naive Bayes dengan dokumen tes jurnalHorti1.txt yang didapat dari menghitung peluang dokumen jurnalHorti1.txt terdapat di kelas fisiologi dan agronomi (1), pemuliaan dan teknologi benih (2), proteksi (3), pascapanen dan pascaproduksi (4), dan agroekonomi (5) adalah 0.0003, 0.0001, 0.00013, 0.00007, 0.00002.

Dengan demikian jurnalHorti.txt dengan menggunakan metode Naive Bayes akan dimasukkan ke dalam kelas fisiologi dan agronomi karena mempunyai nilai tertinggi yaitu sebesar ~ 0.0003.

Klasifikasi ACC

Hasil klasifikasi ACC sangat bergantung pada kNN yang mana dipengaruhi oleh nilai k. Untuk mengetahui nilai k yang optimal, yaitu nilai k yang mempunyai akurasi tertinggi, dilakukan uji coba nilai k. Berikut adalah hasil uji coba nilai k.

Tabel 2 Tabel nilai k

Nilai k

2 3 4 5 6 7 9 10 11 12 13 14 15

Jumlah dokumen

dengan kelas yang tepat

27 26 28 28 30

30 31 31 32 30 30

30 29

Dari Tabel 2 dapat dilihat bahwa nilai k=11 merupakan yang paling optimal karena jumlah dokumen yang dikelaskan di kelas yang tepat mempunyai jumlah paling tinggi, yaitu sebanyak 32 dokumen, dibandingkan dengan nilai k yang lain.

Akurasi tidak bergantung pada banyaknya nilai k, hal ini dapat dilihat bahwa akurasi dengan nilai k=2 lebih baik daripada nilai k=3. Pada Gambar 6 dapat dilihat bahwa nilai k=3 menghasilkan tingkat akurasi paling rendah diantara nilai k yang lain.

Nilai k yang paling optimal adalah k=11 dengan akurasi sebesar 80%. Artinya bahwa dalam penelitian ini dokumen uji paling banyak dikelaskan secara tepat sesuai dengan kelas sebenarnya dengan tingkat keakuratan 80% pada k=11. Maka, untuk menghitung tingkat akurasi sebagai evaluasi klasifikasi, akan digunakan k=11

Evaluasi Klasifikasi

Evaluasi yang dilakukan pada tahapan ini yaitu dengan membandingkan berapa dokumen yang dikelaskan dengan benar dengan kelas yang sebenarnya. Hasil dari evaluasi klasifikasi ACC dapat dilihat pada Tabel 3.

(15)

6 Tabel 3 Confusion matrix klasifikasi ACC

1 2 3 4 5

1 8 0 0 0 0

2 0 8 0 0 0

3 1 0 7 0 0

4 1 0 0 7 0

5 2 3 1 2 0

Kelas Prediksi

Kelas Aktual

Dokumen uji yang seharusnya dikelaskan ke kelas fisiologi dan agronomi (1) berjumlah 8 dokumen, dengan metode ACC terdapat 8 dokumen dikelaskan tepat ke dalam kelas fisiologi dan agronomi (1), tidak ada (0) dokumen yang dikelaskan ke dalam kelas pemuliaan dan teknoligi benih (2), tidak ada (0) dokumen yang dikelaskan ke dalam kelas proteksi (3), tidak ada (0) dokumen yang dikelaskan ke dalam kelas pascapanen dan pascaproduksi (4), dan tidak ada (0) dokumen yang dikelaskan ke dalam kelas agroekonomi (5). Setelah itu dihitung jumlah semua dokumen yang kelas prediksi sama dengan kelas sebenarnya lalu dibagi dengan jumlah seluruh dokumen uji. Maka akurasi klasifikasi ACC adalah 80%.

Hasil evaluasi klasifikasi menggunakan metode naïve bayes dapat dilihat pada Tabel 4. Tabel 4 Confusion matrix klasifikasi naïve

bayes

1 2 3 4 5

1 3 4 1 0 0

2 3 3 2 0 0

3 2 4 2 0 0

4 1 5 2 0 0

5 4 2 2 0 0

Kelas Prediksi

Kelas Aktual

Dokumenuji yang seharusnya dikelaskan ke kelas fisiologi dan agronomi (1) berjumlah 8 dokumen, namun dengan metode Naive Bayes terdapat 3 dokumen dikelaskan tepat ke dalam kelas fisiologi dan agronomi (1), terdapat 4 dokumen yang salah prediksi ke dalam kelas pemuliaan dan teknologi benih (2), terdapat 1 dokumen yang salah prediksi ke dalam kelas

-proteksi (3), tidak ada (0) dokumen yang dikelaskan ke dalam kelas pascapanen dan pascaproduksi (4), dan tidak ada (0) dokumen yang dikelaskan ke dalam kelas agroekonomi (5). Setelah itu dihitung jumlah semua dokumen yang kelas prediksi sama dengan kelas sebenarnya lalu dibagi dengan jumlah seluruh dokumen uji. Maka akurasi klasifikasi naïve bayes adalah 42.5%.

Dari kedua hasil diatas dapat diartikan ketika dilakukan klasifikasi dokumen dengan menggunakan metode ACC peluang dokumen diklasifikasikan sesuai dengan kelas sebenarnya adalah 80%. Dengan menggunakan metode naïve bayes peluang dokumen diklasifikasikan sesuai dengan kelas sebenarnya adalah 42.5%.

KESIMPULAN DAN SARAN

Kesimpulan

Dari 40 dokumen hortikultura yang didapat dari laboratorium Temu Kembali Informasi diklasifikasikan menggunakan metode ACC dengan data latihberjumlah 300 menghasilkan akurasi sebesar 80%. Dengan menggunakan metode Naive Bayes dengan jumlah data latih dan dokumen uji yang sama menghasilkan akurasi sebesar 42.5%.

Dari percobaan dapat dilihat klasifikasi ACC menghasilkan prediksi kelas yang jauh lebih akurat dibandingkan dengan klasifikasi Naive Bayes.

Dari hasil percobaan dapat dilihat bahwa klasifikasi dokumen menggunakan metode ACC dapat meningkatkan keakuratan hasil klasifikasi.

Saran

(16)

7 Pada penelitian ini setelah dokumen test

diketahui prediksi kelasnya tidak dimasukkan lagi ke dalam sistem untuk dijadikan data latih yang baru. Untuk pengembangan selanjutnya dokumen uji yang telah diketahui kelasnya dapat dimasukkan sebagai data latih yang baru agar sistem menjadi lebih akurat.

DAFTAR PUSTAKA

Arifin AZ, Ari NS. 2000. Klasifikasi Dokumen Berita Kejadian Berbahasa Indonesia dengan Algoritme Single Pass Clustering. Surabaya. Jurusan Teknik Informatika Institut Teknologi Sepuluh Nopember.

Han J, Kamber M. 2001. Data Mining: Concept

and Techniques. USA: Morgan Kaufmann

Publishers.

Juniawan I. 2009. Klasifikasi Dokumen Teks Berbahasa Indonesia Menggunakan Minor Component Analysis (MCA). [Skripsi]. Bogor. Departemen Ilmu Komputer Institut Pertanian Bogor.

Li YH, AK Jain. 1998. Classification of Text Document. Department of Computer Science and Engineering, Michigan State University. Michigan.

Manning CD, Raghavan P, Schutze H. 2008.

Introduction to Information Retrieval. New York : Cambridge University Press.

Pramurjadi A. 2010. Klasifikasi Dokumen Menggunakan Background Smoothing.

[Skripsi]. Bogor. Departemen Ilmu Komputer Institut Pertanian Bogor.

(17)

8

(18)

9 Lampiran 1a Antarmuka sistem ACC.

Lampiran 1b Antarmuka pemilihan dokumen.

(19)

ABSTRACT

MUTHIA AZIZA. Indonesian document classification using Adaptive Classifier Combination (ACC). Supervised by JULIO ADISANTOSO.

Search engine is a tool to find an information that match with user’s request based on query or keywords. However, the query of search engine often shows irrelevance sites that didn’t match with user’s desire.

Classification was developed to focused user’s request on the information that they searched, so the result would be more accurate and less effort yet effective and efficient for the system. Adaptive Classifier Combination is one of many methods that can be used for text classification. This method is a combination between k-nearest neighbor classification and Naive Bayes classification to get a better result than using single method.

The result of this research is an implementation of web-based application that developed using PHP language. The document is from horticulture reasearch journal from 2002 until 2009. From 340 documents, 300 document is used for data training and 40 documents is for testing. The accuracy of ACC is 80% and for Naive Bayes classification is 42.5%.

(20)

1

PENDAHULUAN

Latar Belakang

Seringkali pengguna sulit menemukan informasi yang diinginkan dengan cepat dan tepat pada web. Dari permasalahan ini muncul keinginan untuk mengembangkan alat dan perangkat lunak yang berguna dan efisien untuk membantu pengguna mencari informasi dalam web (Arifin & Setiono 2000). Mesin pencari adalah contoh alat yang mencari informasi sesuai dengan permintaan pengguna berdasarkan kueri atau kata kunci yang dimasukkan oleh pengguna. Tetapi tidak jarang juga kueri mesin pencari memunculkan dokumen yang tidak sesuai dengan keinginan pengguna.

Klasifikasi dikembangkan untuk memfokuskan pencarian pengguna pada informasi yang ingin dicari, sehingga hasil akan menjadi lebih akurat dan usaha yang dilakukan sistem lebih efektif dan efisien. Klasifikasi dokumen mengelompokkan dokumen yang sesuai dengan kategori yang terkandung pada dokumen tersebut. Apabila terdapat permintaan yang sudah diketahui memiliki kategori tertentu, pencarian dokumen hanya dilakukan pada kumpulan dokumen yang memiliki kategori tersebut, tidak dilakukan pada semua kumpulan dokumen yang dimiliki sehingga proses pencarian dapat dilakukan dengan cepat.

Banyak metode yang bisa digunakan untuk klasifikasi teks, seperti naïve bayes, k-nearest neighbor, decision trees, dan lain-lain. Pramujadi (2010) telah menggunakan metode

Naive Bayes classifier (NBC) yang merupakan salah satu metode untuk teks atau klasifikasi dokumen. Masalah umum yang sering terjadi pada metode NBC adalah data sparsity, terutama ketika ukuran data latih terlalu kecil. Salah satu cara untuk mengangani masalah

sparsity adalah dengan menggunakan teknik

background smoothing. Tujuan penelitian ini adalah untuk melihat efek background smoothing pada query pendek dan panjang, dan membandingkannya dengan NBC pada data pelatihan kecil.

Beberapa peneliti telah menunjukkan bahwa mengombinasikan metode klasifikasi yang berbeda (combination of multiple classifier) dapat menambah keakuratan klasifikasi (Li & Jain 1998). Simple voting, dynamic classifier selection (DCS), dan adaptive classifier combination (ACC) adalah contoh metode yang menggabungkan beberapa metode klasifikasi. Tiap-tiap metode klasifikasi seringkali

menghasilkan kelas yang berbeda-beda untuk satu dokumen tes.

Li dan Jain (1998) telah meneliti keakuratan

simple voting, dynamic classifier selection, dan

adaptive classifier combination untuk

klasifikasi dokumen dalam bahasa Inggris. ACC merupakan kombinasi dari naïve bayes dengan

k-nearest neighbor. Karena merupakan

kombinasi dari dua buah classifier, ACC dinilai cukup baik untuk digunakan sebagai metode klasifikasi.

Tujuan Penelitian

Tujuan utama dari penelitian ini adalah mengimplementasikan kinerja adaptive classifier combination untuk meningkatkan keakuratan klasifikasi dokumen berbahasa Indonesia.

Ruang Lingkup

Ruang lingkup penelitian ini meliputi: 1. Penelitian ini difokuskan kepada klasifikasi

dokumen dengan menggunakan adaptive

classifier combination pada dokumen

berbahasa Indonesia.

2. Penelitian dibatasi pada tahap klasifikasi dokumen, tidak sampai proses temu kembali dokumen.

TINJAUAN PUSTAKA

Information Retrieval

Information retrieval atau temu kembali informasi merupakan pencarian material, yang biasanya dokumen, dari sesuatu yang tidak terstruktur, biasanya teks, yang memenuhi kebutuhan informasi dari sekumpulan koleksi yang besar yang biasanya disimpan di komputer (Manning et al 2008).

Untuk menemukembalikan informasi terdapat proses pengindeksan tertentu seperti tokenisasi kata, membuang stopword, dan

stemming sehingga menghasilkan himpunan kosa kata sebagai dokumen indeks. Proses pengindeksan tersebut melibatkan isi dari seluruh kumpulan dokumen atau biasanya hanya terdiri atas judul atau kata kunci dan abstrak dari kumpulan dokumen. Tiap dokumen diwujudkan sebagai sebuah vektor dengan elemen sebanyak term yang berhasil dikenali dari proses pemisahan term.

(21)

2 pembobotan yang merupakan hasil kali antar

term frequency (tf), dan inverse document frequency (idf) yaitu:

(1)

sedangkan wt,d adalah bobot dari termt dalam dokumen d, tft adalah frekuensi term t dalam dokumen (tf), N merupakan ukuran dokumen yang ada dalam koleksi yang digunakan untuk penghitungan idf, dan dft adalah jumlah dari dokumen yang ada di koleksi yang mengandung nilai t.

Proses mendapatkan informasi yang dibutuhkan oleh pengguna berupa suatu query

dari pengguna yang merepresentasikan permintaan informasi. Query umumnya tidak memiliki struktur, sehingga perlu diformulasikan agar terjadi dialog interaktif antara pengguna dan sistem.

Perbandingan query terhadap permintaan informasi disebut proses penyesuaian (matching process). Pada proses inilah diharapkan dapat dihasilkan suatu keluaran yang relevan dengan permintaan pengguna.

Salah satu pendekatan dalam merepresen-tasikan informasi yang terorganisasi adalah dengan mengelompokkan dokumen ke dalam beberapa kategori atau klasifikasi. Dengan klasifikasi dokumen diharapkan informasi yang diambil dari kumpulan dokumen dapat lebih relevan (Pramurjadi 2010).

Klasifikasi

Klasifikasi yaitu proses untuk menemukan sekumpulan model atau fungsi yang mendeskripsikan dan membedakan kelas-kelas data dengan tujuan untuk memprediksikan kelas dari objek yang belum diketahui kelasnya (supervised learning) (Han & Kamber 2001).

Proses klasifikasi dibagi menjadi dua fase, yaitu learning dan test (Han & Kamber 2001). Pada fase learning, sebagian data yang telah diketahui kelas datanya (training set) digunakan untuk membentuk model. Selanjutnya pada fase

test, model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi model tersebut. Jika akurasinya mencukupi, maka model tersebut dapat dipakai untuk prediksi kelas data yang belum diketahui.

Naïve bayes

Naïve Bayes merupakan metode klasifikasi dengan cara menghitung peluang sebuah dokumen d berada di kelas c (Manning, 2008).

Kelas terbaik pada klasifikasi naïve bayes

adalah kelas yang paling mirip dengan dokumen

yang ingin diklasifikasikan atau yang mempunyai nilai posteriori tertinggi atau

maximum a posteriori (MAP), dengan rumus:

sedangkan merupakan nilai penduga peluang suatu dokumen d dikelaskan ke dalam kelas c, dengan rumus:

(2) sedangkan adalah peluang prior dari dokumen yang ada di dalam kelas c yang didapat dari , sedangkan

N

c

merupakan banyak dokumen yang ada di dalam kelas c,

N

adalah total dokumen yang ada, dan

adalah peluang bersyarat dari term

muncul dalam sebuah dokumen pada kelas c.

diartikan sebagai ukuran seberapa banyak term menyumbang untuk menunjukkan c merupakan kelas yang tepat untuk dokumen d. Nilai didapat dari:

(3)

sedangkan adalah jumlah kemunculan termt

dalam dokumen latih di kelas c, termasuk kemunculan ganda term t pada dokumen. Nilai penjumlahan adalah jumlah seluruh term pada dokumen latih yang ada di kelas c, termasuk kemunculan term ganda, dan

B adalah jumlah term dalam vocabulary seluruh dokumen.

K-Tetangga Terdekat

K-tetangga terdekat atau K-nearest neighbor

(kNN) merupakan metode klasifikasi yang memasukkan dokumen ke dalam mayoritas kelas dari k tetangga terdekatnya dimana k

adalah sebuah parameter (Manning, 2008). Metode kNN bekerja dengan berdasarkan pada jarak terdekat antara dokumen d dengan dokumen lainnya untuk menentukan tetangga terdekatnya. Setelah itu diambil mayoritas kelas dokumen yang merupakan tetangga terdekat untuk menentukan kelas dokumen d.

(22)

3 dimana adalah sekumpulan dari k tertangga

terdekat dari dokumen d dan bernilai 1 jika dan hanya jika dokumen d terdapat di kelas

c dan bernilai 0 jika sebaliknya. adalah ukuran kesamaan

cosine antara dokumen d’ dengan d. Dokumen akan dimasukkan ke kelas yang mempunyai skor tertinggi.

Adaptive Classifier Combination

Adaptive classifier combination (ACC) adalah metode klasifikasi yang menggabungkan metode naïve bayes dengan k-tetangga terdekat.

ACC memasukkan dokumen d ke dalam kelas

ci, dimana kelas yang akan dimasukkan

diidentifikasikan oleh classifier dengan local accuracy tertinggi dari semua kelas yang ada (Y. H. Li & A.K. Jain, 1998).

Untuk sebuah dokumen uji d yang akan diklasifikasikan, cari tetangga dari dokumen uji

d menggunakan metode k-nearest neighbor. Kemudian hasil klasifikasi untuk dokumen d

oleh n classifier ditunjukkan sebagai . Setelah itu, untuk setiap kelas dihitung:

(4)

dimana merupakan peluang xi terdapat pada kelas

c

j dan Wi merupakan ukuran kesamaan kosinus antara xi dan d. Kemudian dokumen d dimasukkan ke kelas ck, dengan rumus:

(5) Confusion Matrix

Confusion matrix merupakan sebuah tabel yang terdiri atas banyaknya baris data uji yang diprediksi benar dan tidak benar oleh model klasifikasi, yang digunakan untuk menentukan kinerja suatu model klasifikasi (Tan et al 2005). Tabel 1 Confusion Matrix

Predicted Class

Class = 1 Class = 0

Actual Class

Class = 1 F11 F10

Class = 0 F01 F00

Contoh tabel confusion matrix dapat dilihat pada Tabel 1. Perhitungan akurasi dengan menggunakan tabel confusion matrix adalah:

Akurasi =

METODE PENELITIAN

Penelitian ini dilaksanakan dalam beberapa tahap yang diilustrasikan pada Gambar 1. Secara garis besar tahapannya adalah pengumpulan data, praproses, implementasi sistem, klasifikasi ACC dan evaluasi klasifikasi.

Karakteristik Dokumen

Koleksi dokumen yang digunakan sebagai data latih dan dokumen uji adalah hasil penelitian dari Jurnal Penelitian Hortikultura tahun 2002 sampai dengan tahun 2009 dengan format XML.

Dokumen pada data latih diklasifikasikan langsung secara manual sebagai pembelajaran sistem. Dokumen yang dijadikan data latih sebanyak 300 dokumen dan 40 dokumen sebagai dokumen uji. Dokumen tersebut akan dibagi menjadi lima kelas yaitu fisiologi dan agronomi (1), pemuliaan dan teknologi benih (2), proteksi (3), pascapanen dan pascaproduksi (4), dan agroekonomi (5).

Pengumpulan Data

Implementasi Sistem

Klasifikasi ACC Klasifikasi Naïve Bayes

Confusion Matrix

Selesai Mulai

(23)

4 Training

Dokumen pada data training atau data latih diklasifikasikan langsung secara manual sebagai pembelajaran sistem untuk mengetahui dokumen yang belum diketahui kelasnya pada data uji. Data latih sebanyak 300 dokumen tersebut dibagi menjadi lima kelas, kelas (1) yaitu fisiologi dan agronomi terdapat 87 dokumen, kelas (2) yaitu pemuliaan dan teknologi benih terdapat 73 dokumen, kelas (3) yaitu proteksi terdapat 97 dokumen, kelas (4) yaitu pascapanen dan pascaproduksi terdapat 34 dokumen, dan kelas (5) yaitu agroekonomi terdapat 9 dokumen.

Dokumen yang telah diklasifikasikan secara manual tersebut disimpan dalam format .txt dengan struktur [nama file dokumen][,] [kelasnya].

Testing

Data testing atau data uji dimasukkan oleh

user dengan meng-upload file XML yang ada di koleksi ke dalam sistem. Kemudian dokumen uji yang di-upload diambil term-term penciri dokumen dan dihitung tf.idf-nya. Setelah itu dilakukan perhitungan menggunakan metode ACC untuk mengetahui kelas dokumen uji.

Pengindeksan

Tahap pengindeksan dilakukan untuk menghasilkan term-term yang akan digunakan sebagai penciri dokumen dan dilakukan pembobotan tf.idf dengan menggunakan (1) akan diperoleh bobot tiap term. Hasil dari tahap pengindeksan akan disimpan dalam file teks tersendiri untuk mempercepat sistem saat melakukan pemrosesan koleksi dokumen.

Klasifikasi Naive Bayes

Tahap pertama pada Naive Bayes adalah menghitung peluang term pada dokumen testing

terdapat di suatu kelas dengan menggunakan (3). Setelah itu dilakukan perhitungan peluang dokumen latih berada di suatu kelas tertentu kemudian diambil nilai yang tertinggi.

Tahap pertama pada Naive Bayes adalah menghitung peluang term pada dokumen uji terdapat di suatu kelas dengan menggunakan (3). Contoh dokumen latih adalah dokumen jurnalHorti1.txt dengan term “pengaruh”,

“macam”, “dosis”, “pupuk”, “organik”, “hasil”, “kentang”, “dataran”, “dium”, “lahan”, “sawah”, “subhan”, “deden”, “fatchullah”.

Term-term tersebut dihitung peluang terdapat di suatu kelas menggunakan (3) dengan membandingkan dengan term-term pada data latih.

Setelah perhitungan (3), dilakukan perhitungan Naive Bayes yaitu dengan menghitung peluang dokumen latih berada di suatu kelas tertentu kemudian diambil nilai yang tertinggi berdasarkan rumus

.

Klasifikasi ACC

Proses pengklasifikasian dokumen pada penelitian ini menggunakan algoritme klasifikasi ACC yang merupakan gabungan dari algoritme klasifikasi KNN dengan Naïve Bayes. Tahap ini diawali dengan penghitungan panjang vektor semua dokumen pada korpus. Setelah itu dilakukan perhitungan perkalian vektor atau dot product antara dokumen testing

dengan data latih kemudian dihitung kesamaannya dengan ukuran kesamaan cosine

dan diambil K hasil tertinggi sebagai K tetangga terdekat. Selanjutnya dilakukan proses perhitungan dengan algoritme Naive Bayes dengan data latihsebesar K.

Uji coba dilakukan dengan menggunakan beberapa nilai k pada algoritme kNN. Nilai k yang digunakan adalah 2, 3, 4, 5, 6, 7, 9, 10, 11, 12, 13, 14, dan 15. Nilai k yang paling optimal adalah yang menghasilkan error atau salah kelas paling sedikit. Dengan kata lain, k yang paling optimal adalah yang paling banyak menempatkan data test ke dalam kelas sesungguhnya.

Evaluasi Klasifikasi

Pada tahap evaluasi dilakukan penilaian kinerja sistem dengan melakukan pengukuran presentase ketepatan dalam klasifikasi dokumen menggunakan confusion matrix.

Lingkungan Pengembangan Sistem

(24)

5 1.Perangkat Lunak :

• Sistem operasi Microsoft Windows Vista

• Notepad++

2.Perangkat Keras :

• Intel Pentium 4 3.0 Ghz

• Memory 1536 MB RAM

• Monitor resolusi 1024 x 768 pixelMouse dan keyboard

HASIL DAN PEMBAHASAN

Klasifikasi Naive Bayes

Hasil klasifikasi Naive Bayes dengan dokumen tes jurnalHorti1.txt yang didapat dari menghitung peluang dokumen jurnalHorti1.txt terdapat di kelas fisiologi dan agronomi (1), pemuliaan dan teknologi benih (2), proteksi (3), pascapanen dan pascaproduksi (4), dan agroekonomi (5) adalah 0.0003, 0.0001, 0.00013, 0.00007, 0.00002.

Dengan demikian jurnalHorti.txt dengan menggunakan metode Naive Bayes akan dimasukkan ke dalam kelas fisiologi dan agronomi karena mempunyai nilai tertinggi yaitu sebesar ~ 0.0003.

Klasifikasi ACC

Hasil klasifikasi ACC sangat bergantung pada kNN yang mana dipengaruhi oleh nilai k. Untuk mengetahui nilai k yang optimal, yaitu nilai k yang mempunyai akurasi tertinggi, dilakukan uji coba nilai k. Berikut adalah hasil uji coba nilai k.

Tabel 2 Tabel nilai k

Nilai k

2 3 4 5 6 7 9 10 11 12 13 14 15

Jumlah dokumen

dengan kelas yang tepat

27 26 28 28 30

30 31 31 32 30 30

30 29

Dari Tabel 2 dapat dilihat bahwa nilai k=11 merupakan yang paling optimal karena jumlah dokumen yang dikelaskan di kelas yang tepat mempunyai jumlah paling tinggi, yaitu sebanyak 32 dokumen, dibandingkan dengan nilai k yang lain.

Akurasi tidak bergantung pada banyaknya nilai k, hal ini dapat dilihat bahwa akurasi dengan nilai k=2 lebih baik daripada nilai k=3. Pada Gambar 6 dapat dilihat bahwa nilai k=3 menghasilkan tingkat akurasi paling rendah diantara nilai k yang lain.

Nilai k yang paling optimal adalah k=11 dengan akurasi sebesar 80%. Artinya bahwa dalam penelitian ini dokumen uji paling banyak dikelaskan secara tepat sesuai dengan kelas sebenarnya dengan tingkat keakuratan 80% pada k=11. Maka, untuk menghitung tingkat akurasi sebagai evaluasi klasifikasi, akan digunakan k=11

Evaluasi Klasifikasi

Evaluasi yang dilakukan pada tahapan ini yaitu dengan membandingkan berapa dokumen yang dikelaskan dengan benar dengan kelas yang sebenarnya. Hasil dari evaluasi klasifikasi ACC dapat dilihat pada Tabel 3.

(25)

6 Tabel 3 Confusion matrix klasifikasi ACC

1 2 3 4 5

1 8 0 0 0 0

2 0 8 0 0 0

3 1 0 7 0 0

4 1 0 0 7 0

5 2 3 1 2 0

Kelas Prediksi

Kelas Aktual

Dokumen uji yang seharusnya dikelaskan ke kelas fisiologi dan agronomi (1) berjumlah 8 dokumen, dengan metode ACC terdapat 8 dokumen dikelaskan tepat ke dalam kelas fisiologi dan agronomi (1), tidak ada (0) dokumen yang dikelaskan ke dalam kelas pemuliaan dan teknoligi benih (2), tidak ada (0) dokumen yang dikelaskan ke dalam kelas proteksi (3), tidak ada (0) dokumen yang dikelaskan ke dalam kelas pascapanen dan pascaproduksi (4), dan tidak ada (0) dokumen yang dikelaskan ke dalam kelas agroekonomi (5). Setelah itu dihitung jumlah semua dokumen yang kelas prediksi sama dengan kelas sebenarnya lalu dibagi dengan jumlah seluruh dokumen uji. Maka akurasi klasifikasi ACC adalah 80%.

Hasil evaluasi klasifikasi menggunakan metode naïve bayes dapat dilihat pada Tabel 4. Tabel 4 Confusion matrix klasifikasi naïve

bayes

1 2 3 4 5

1 3 4 1 0 0

2 3 3 2 0 0

3 2 4 2 0 0

4 1 5 2 0 0

5 4 2 2 0 0

Kelas Prediksi

Kelas Aktual

Dokumenuji yang seharusnya dikelaskan ke kelas fisiologi dan agronomi (1) berjumlah 8 dokumen, namun dengan metode Naive Bayes terdapat 3 dokumen dikelaskan tepat ke dalam kelas fisiologi dan agronomi (1), terdapat 4 dokumen yang salah prediksi ke dalam kelas pemuliaan dan teknologi benih (2), terdapat 1 dokumen yang salah prediksi ke dalam kelas

-proteksi (3), tidak ada (0) dokumen yang dikelaskan ke dalam kelas pascapanen dan pascaproduksi (4), dan tidak ada (0) dokumen yang dikelaskan ke dalam kelas agroekonomi (5). Setelah itu dihitung jumlah semua dokumen yang kelas prediksi sama dengan kelas sebenarnya lalu dibagi dengan jumlah seluruh dokumen uji. Maka akurasi klasifikasi naïve bayes adalah 42.5%.

Dari kedua hasil diatas dapat diartikan ketika dilakukan klasifikasi dokumen dengan menggunakan metode ACC peluang dokumen diklasifikasikan sesuai dengan kelas sebenarnya adalah 80%. Dengan menggunakan metode naïve bayes peluang dokumen diklasifikasikan sesuai dengan kelas sebenarnya adalah 42.5%.

KESIMPULAN DAN SARAN

Kesimpulan

Dari 40 dokumen hortikultura yang didapat dari laboratorium Temu Kembali Informasi diklasifikasikan menggunakan metode ACC dengan data latihberjumlah 300 menghasilkan akurasi sebesar 80%. Dengan menggunakan metode Naive Bayes dengan jumlah data latih dan dokumen uji yang sama menghasilkan akurasi sebesar 42.5%.

Dari percobaan dapat dilihat klasifikasi ACC menghasilkan prediksi kelas yang jauh lebih akurat dibandingkan dengan klasifikasi Naive Bayes.

Dari hasil percobaan dapat dilihat bahwa klasifikasi dokumen menggunakan metode ACC dapat meningkatkan keakuratan hasil klasifikasi.

Saran

(26)

KLASIFIKASI DOKUMEN BAHASA INDONESIA

MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION

(ACC)

MUTHIA AZIZA

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(27)

KLASIFIKASI DOKUMEN BAHASA INDONESIA

MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION

(ACC)

MUTHIA AZIZA

Skripsi

Sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(28)

7 Pada penelitian ini setelah dokumen test

diketahui prediksi kelasnya tidak dimasukkan lagi ke dalam sistem untuk dijadikan data latih yang baru. Untuk pengembangan selanjutnya dokumen uji yang telah diketahui kelasnya dapat dimasukkan sebagai data latih yang baru agar sistem menjadi lebih akurat.

DAFTAR PUSTAKA

Arifin AZ, Ari NS. 2000. Klasifikasi Dokumen Berita Kejadian Berbahasa Indonesia dengan Algoritme Single Pass Clustering. Surabaya. Jurusan Teknik Informatika Institut Teknologi Sepuluh Nopember.

Han J, Kamber M. 2001. Data Mining: Concept

and Techniques. USA: Morgan Kaufmann

Publishers.

Juniawan I. 2009. Klasifikasi Dokumen Teks Berbahasa Indonesia Menggunakan Minor Component Analysis (MCA). [Skripsi]. Bogor. Departemen Ilmu Komputer Institut Pertanian Bogor.

Li YH, AK Jain. 1998. Classification of Text Document. Department of Computer Science and Engineering, Michigan State University. Michigan.

Manning CD, Raghavan P, Schutze H. 2008.

Introduction to Information Retrieval. New York : Cambridge University Press.

Pramurjadi A. 2010. Klasifikasi Dokumen Menggunakan Background Smoothing.

[Skripsi]. Bogor. Departemen Ilmu Komputer Institut Pertanian Bogor.

(29)

8

(30)

9 Lampiran 1a Antarmuka sistem ACC.

Lampiran 1b Antarmuka pemilihan dokumen.

Gambar

Gambar 1 Metode Penelitian
Tabel 2 Tabel nilai k
Tabel 4 Confusion matrix klasifikasi naïve
Gambar 1 Metode Penelitian
+3

Referensi

Dokumen terkait

text-processing terhadap himpunan dokumen berita, sedangkan tahap kedua yaitu proses pengkelompokan berita berdasarkan bobot yang telah diketahui dengan menggunakan

Tingkat akurasi precision , recall , dan F-Measure pada penggunaan metode K-Nearest Neighbor (K-NN) dan Chi-Square pada klasifikasi teks bahasa Indonesia pada dokumen

Pada penelitian ini, digunakan metode K-Nearest Neighbor (KNN) untuk melakukan klasifikasi dokumen hukum perceraian secara otomatis antara dokumen cerai talak dan

Klasifikasi artikel Wikipedia Indonesia adalah sebuah sistem yang berfungsi untuk mengklasifikasi artikel Wikipedia Indonesia yang berupa dokumen teks dengan tahapan

Dari penelitian ini dihasilkan bahwa seleksi fitur dapat meningkatkan nilai F-Measure dalam klasifikasi teks berbahasa Indonesia pada dokumen pengaduan SAMBAT

Dari penelitian ini dihasilkan bahwa seleksi fitur dapat meningkatkan nilai F-Measure dalam klasifikasi teks berbahasa Indonesia pada dokumen pengaduan SAMBAT

1. Nilai akurasi tertinggi metode SVM dengan menggunakan MI untuk klasifikasi dokumen abstrak adalah sebesar 94%. Penambahan data latih mengakibatkan metode Support

Dilakukan juga klasifikasi dengan metode naïve bayes classifier tanpa menggunakan seleksi fitur mutual information dan memperoleh akurasi sebesar 83,80%, berdasarkan kedua klasifikasi