• Tidak ada hasil yang ditemukan

Classification of Documents in Bahasa Indonesia using DCS-LA with Inverse Distance Weighting

N/A
N/A
Protected

Academic year: 2017

Membagikan "Classification of Documents in Bahasa Indonesia using DCS-LA with Inverse Distance Weighting"

Copied!
45
0
0

Teks penuh

(1)

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN

METODE DCS-LA DENGAN

INVERSE DISTANCE WEIGHTING

RONI NOVETTIO CHAIRULLAH

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(2)

ABSTRACT

Roni Novettio Chairullah. Classification of Documents in Bahasa Indonesia using DCS-LA with Inverse Distance Weighting. Supervised by AHMAD RIDHA.

Dynamic Classifier Selection with Local Accuracy (DCS-LA) is a document classification method that combines several classification methods and k-NN. In this study, we implemented the DCS-LA with Inverse Distance Weighting for documents writen in Bahasa Indonesia as well as comparing between the DCS-LA with Inverse Distance Weighting and DCS-LA without Inverse Distance Weighting. We used four classifiers: Rocchio, Naïve Bayes, Bernoulli, and Poisson Naïve Bayes as classifiers in the DCS-LA. For the data, we used agriculture documents consisting of 174 training documents and 75 test documents, and news documents consisting of 500 training documents and 250 test documents. This method can yield an accuracy of 66% and 96% for agriculture documents and news documents, respectively. Without Inverse Distance Weighting, DCS-LA only yields an accuracy of 56% and 86% for agriculture documents and news documents, respectively. Therefore, Inverse Distance Weighting can improve the accuracy of the DCS-LA in classifying text documents in Bahasa Indonesia.

(3)

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN

METODE DCS-LA DENGAN

INVERSE DISTANCE WEIGHTING

RONI NOVETTIO CHAIRULLAH

Skripsi

Sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(4)

Judul Penelitian : Klasifikasi Dokumen Bahasa Indonesia Menggunakan Metode DCS-LA dengan

Inverse Distance Weighting

Nama : Roni Novettio Chairullah

NRP : G64062134

Menyetujui: Pembimbing,

Ahmad Ridha, S.Kom. M.S. NIP. 19800507 200501 1 001

Mengetahui:

Ketua Departemen Ilmu Komputer,

Dr. Ir. Sri Nurdiati, M.Sc. NIP. 19601126 198601 2 001

(5)

KATA PENGANTAR

Puji dan syukur penulis panjatkan kepada Allah atas segala curahan rahmat dan karunia-Nya sehingga skripsi ini dapat diselesaikan. Skripsi ini merupakan hasil penelitian yang dilakukan dari Desember 2010 sampai Juni 2011 dengan bidang kajian Klasifikasi Dokumen Bahasa Indonesia Menggunakan Metode Dynamic Classifier Selection with Local Accuracies (DCS-LA) dengan Inverse Distance Weighting.

Penulis mengucapkan terima kasih kepada Bapak Ahmad Ridha, S.Kom. M.S. selaku pembimbing yang telah memberi saran, masukan, dan ide-ide kepada penulis dalam menyusun skripsi ini. Penulis juga mengucapkan terima kasih kepada:

1 Papa, Mama serta Adik yang selalu memberikan doa, nasihat, dukungan, semangat, dan kasih sayang yang luar biasa kepada penulis sehingga dapat menyelesaikan tugas akhir ini.

2 Syamsul Bachri, M Farhad Idris, Rangga AP, Wildan Rachman, Haryadi, M Awet Samana, dan Kartina yang telah banyak membantu penulis dalam menyelesaikan tugas akhir ini serta teman-teman satu bimbingan lainnya Rio Ramadhan, Andi Rusmia, Jafar, Rendy Rivaldi, dan Windu Purnomo yang selalu memberi semangat dan motivasi.

3 Wahyu Setyowidodo, Mikolehi Firdaus, Mukhlis Wahyudi, dan Nurwan Wahyudi yang memberikan motivasi kepada Penulis.

4 Teman-teman Ilkom angkatan 43 yang telah banyak membantu penulis.

5 Departemen Ilmu Komputer, tenaga kependidikan, serta dosen yang telah banyak membantu baik selama penelitian maupun pada masa perkuliahan.

6 Teman-teman Himalkom dan LDK DKM Al Hurriyyah IPB yang memberikan dukungan dan motivasi.

Kepada semua pihak lainnya yang telah memberikan kontribusi yang besar selama pengerjaan penelitian ini yang tidak dapat disebutkan satu per satu, penulis ucapkan terima kasih banyak.

Semoga penelitian ini dapat memberikan manfaat.

Bogor, 3 Agustus 2011

(6)

RIWAYAT HIDUP

Penulis dilahirkan di Kotamobagu pada tanggal 2 November 1988 dari ayah Rofik dan ibu Sri Nunik Wagiati. Penulis merupakan putra pertama dari dua bersaudara, kakak dari Figia Putri Rahmadita.

Tahun 2006 penulis lulus dari SMA Negeri 1 Cikampek dan pada tahun yang sama lulus seleksi masuk IPB melalui jalur Undangan Seleksi Masuk IPB (USMI). Tahun 2007 penulis diterima di Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam.

(7)

DAFTAR ISI

Halaman

DAFTAR TABEL ... v

DAFTAR GAMBAR ... v

DAFTAR LAMPIRAN ... v

PENDAHULUAN ... 1

Latar Belakang ... 1

Tujuan ... 1

Ruang Lingkup ... 1

Manfaat ... 1

TINJAUAN PUSTAKA ... 1

Klasifikasi ... 1

Metode Rocchio ... 1

Metode Naïve Bayes ... 2

Metode Bernoulli ... 2

Metode Poisson Naїve Bayes ... 2

Metode k-Nearest Neighbor ... 3

Metode Dynamic Classifier Selection with Local Accuracies ... 3

Inverse Distance Weighting (IDW) ... 3

Confusion Matrix ... 3

METODE PENELITIAN ... 3

Pengumpulan Dokumen ... 4

Implementasi Sistem ... 4

Klasifikasi DCS-LA dengan Inverse Distance Weighting ... 4

Evaluasi Klasifikasi ... 4

Perbandingan Sistem ... 4

Lingkungan Implementasi ... 4

HASIL DAN PEMBAHASAN... 5

Praproses ... 5

Pelatihan ... 5

Akurasi Classifier Tunggal ... 5

Klasifikasi DCS-LA... 7

Perbandingan Klasifikasi ... 8

KESIMPULAN DAN SARAN... 9

DAFTAR PUSTAKA ... 9

(8)

DAFTAR TABEL

Halaman

1 Confusion matrix ... 3

2 Confusion matrix metode Rocchio dengan dokumen pertanian ... 5

3 Confusion matrix metode Rocchio dengan dokumen berita ... 5

4 Confusion matrix metode Naїve Bayes dengan dokumen pertanian ... 6

5 Confusion matrix metode Naїve Bayes dengan dokumen berita ... 6

6 Confusion matrix metode Bernoulli dengan dokumen pertanian ... 6

7 Confusion matrix metode Bernoulli dengan dokumen berita ... 6

8 Confusion matrix metode Poisson Naïve Bayes dengan dokumen pertanian ... 7

9 Confusion matrix metode Poisson Naïve Bayes dengan dokumen berita ... 7

DAFTAR GAMBAR

Halaman 1 Metode penelitian. ... 3

2 Format XML. ... 4

3 Grafik hasil klasifikasi DCS-LA ... 7

4 Diagram perbandingan classifier ... 8

5 Perbandingan akurasi DCS-LA. ... 8

DAFTAR LAMPIRAN

Halaman 1 Contoh dokumen pertanian dalam format XML ... 12

2 Contoh dokumen berita dalam format XML ... 13

(9)

PENDAHULUAN

Latar Belakang

Klasifikasi dikembangkan untuk memfokuskan pencarian pengguna pada informasi yang ingin dicari, sehingga hasil akan menjadi lebih baik dan usaha yang dilakukan sistem lebih efektif dan efisien. Banyak metode yang bisa digunakan untuk klasifikasi teks, seperti Naïve Bayes, k-Nearest Neighbor (k-NN),

Support Vector Machine (SVM), Bernoulli,

Rocchio, dan Minor Component Analysis

(MCA).

Beberapa peneliti telah menunjukkan bahwa mengombinasikan metode klasifikasi yang berbeda dapat menambah akurasi klasifikasi (Xu

et al. 1992). Simple voting, Dynamic Classifier Selection (DCS), dan Adaptive Classifier Combination (AAC) adalah contoh metode yang menggabungkan beberapa metode klasifikasi.

DCS pertama kali diperkenalkan oleh Ho et al. (1994). Pada penelitian tersebut, DCS diterapkan pada sistem klasifikasi teks dan gambar, sehingga dapat dibuktikan bahwa dengan mengombinasikan beberapa metode klasifikasi yang berbeda dapat menambah akurasi sistem klasifikasi.

DCS dikembangkan menjadi Dynamic Classifier Selection with Local Accuracies (DCS-LA), yaitu dengan menambahkan konsep

k-NN dalam pemilihan akurasi lokal. Dalam pengujian metode klasifikasi DCS-LA menggunakan dokumen berbahasa Inggris, metode DCS-LA ini menghasilkan akurasi rata-rata 80% (Woods et al. 1997).

Kemudian DCS-LA dikembangkan lagi dengan menambahkan pembobotan dalam proses

k-NN untuk pemilihan akurasi dari setiap

classifier tunggal. Teknik tersebut dapat menambah akurasi dari DCS-LA hingga mencapai 90% (Morales et al. 2008).

Pada pengujian menggunakan dokumen berbahasa Indonesia, metode DCS-LA menghasilkan akurasi 56% untuk dokumen pertanian dan 86% untuk dokumen berita (Ramadhan 2010). Pada penelitian tersebut digunakan tiga classifier tunggal serta belum menambahkan pembobotan dalam proses DCS-LA. Dalam penelitian ini, akan ditambahkan

Inverse Distance Weighting (IDW) dalam teknik DCS-LA yang digunakan pada dokumen berbahasa Indonesia, serta menggunakan empat

classifier tunggal pada proses klasifikasinya.

Tujuan

Tujuan penelitian ini adalah:

1 Mengimplementasikan DCS-LA dengan IDW untuk klasifikasi dokumen berbahasa Indonesia.

2 Membandingkan akurasi klasifikasi DCS-LA yang menggunakan IDW dengan yang tidak menggunakan IDW.

3 Membandingkan DCS-LA dengan empat

classifier dan DCS-LA dengan tiga classifier.

Ruang Lingkup

Ruang lingkup penelitian ini difokuskan kepada klasifikasi dokumen dengan menggunakan DCS-LA pada dokumen pertanian dan berita berbahasa Indonesia serta menentukan metode yang memiliki akurasi tinggi.

Manfaat

Manfaat dari penelitian ini adalah menentukan metode yang memiliki akurasi tinggi dalam proses klasifikasi dokumen sehingga dapat meningkatkan akurasi klasifikasi dokumen berbahasa Indonesia.

TINJAUAN PUSTAKA

Klasifikasi

Klasifikasi adalah proses untuk menemukan sebuah model yang menggambarkan dan membedakan kelas-kelas data, dengan tujuan untuk memprediksikan kelas dari objek yang belum diketahui kelasnya. Model dari setiap kelas dibuat berdasarkan data latih (training data) melalui berbagai cara, di antaranya adalah

rules, decision tree, formula matematika, atau

neural network (Han & Kamber 2006). Selanjutnya digunakan sekumpulan data uji yang sudah diketahui kelasnya untuk menghitung akurasi dari model yang sudah didapatkan. Jika akurasinya mencukupi, maka model tersebut dapat digunakan untuk prediksi kelas dari data yang belum diketahui kelasnya.

Metode Rocchio

Rocchio merupakan metode klasifikasi berdasarkan ruang vektor. Metode Rocchio

membagi ruang vektor berdasarkan nilai centroid

pada setiap kelas (Manning et al. 2008).

(10)

= 1

� ∈� ( )

Dc adalah jumlah dokumen di kelas c. Nilai (d)

adalah vektor kata pada kelas c dan (c) adalah

centroid masing-masing kelas. Setelah (c) diketahui, dihitung jarak centroid setiap kelas dengan dokumen uji. Perhitungan jarak menggunakan metode Euclidean Distance yang didapatkan dari persamaan berikut:

Jarak = � − ( )

Metode Naïve Bayes

Naïve Bayes merupakan metode klasifikasi berdasarkan perhitungan peluang. Misalkan C = ( 1,..., ), nilai m adalah jumlah kelas yang digunakan. Untuk sebuah dokumen baru D yang belum diklasifikasikan, dokumen tersebut terdiri dari W =( 1,…., ) dengan W adalah daftar

tepat untuk setiap dokumen uji (Li & Jain 1998). Nilai P(wi|cj) didapatkan dari:

(kata unik) seluruh dokumen.

Metode Bernoulli

Bernoulli merupakan metode klasifikasi berdasarkan perhitungan peluang. Perhitungannya mirip dengan metode Naïve Bayes. Perbedaannya adalah � ( │�)

merupakan rasio dokumen dari kelas c yang

mengandung kata w dan adanya indikator kata, jika kata d berada di kelas c maka diberikan nilai 1, selainnya 0 (Manning et al. 2008).

Metode Poisson Naїve Bayes

Metode ini merupakan pengembangan dari metode Naїve Bayes, dengan mengibaratkan setiap dokumen uji sebagai selang kejadian serta

term yang sesuai dengan dokumen latih sebagai kejadian yang diinginkan (Kim 2001). Oleh karena itu, dapat digunakan sebaran Poisson

untuk mendapatkan peluang kejadian tersebut. Persamaan yang digunakan untuk mendapatkan peluang Poisson Naїve Bayes adalah sebagai berikut:

�( | ) =

.( ). +( )

Nilai P(c) merupakan banyaknya dokumen pada kelas c pada dokumen latih, sedangkan P( )

adalah banyaknya dokumen pada kelas bukan c

pada dokumen latih. Nilai e merupakan bilangan

natural, dan � didapatkan dengan persamaan

Nilai |V| merupakan jumlah kata unik pada setiap dokumen uji, nilai merupakan panjang dokumen uji, � merupakan jumlah dokumen latih pada kelas c, sedangkan � merupakan jumlah dokumen latih pada kelas bukan c. Nilai merupakan normalisasi dari setiap term pada dokumen uji, dan adalah nilai normalisasi setiap term pada dokumen latih dengan persamaan sebagai berikut:

= +�

(11)

Nilai θ merupakan Laplace smoothing, merupakan jumlah seluruh kata pada setiap dokumen, dan V merupakan jumlah kata unik pada dokumen latih.

Nilai merupakan nilai pembobotan fitur. Nilai a pada persamaan adalah banyaknya

term i pada kelas c, sedangkan variabel b adalah banyaknya term selain i pada kelas c. Variabel c

merupakan banyaknya term i pada kelas selain c, sedangkan d merupakan banyaknya term selain i

pada kelas selain c.

Metode k-NN

Metode k-NN merupakan teknik klasifikasi yang memasukkan dokumen ke dalam mayoritas kelas dari k tetangga terdekatnya dengan k

adalah sebuah parameter (Manning et al. 2008). Parameter k dalam k-NN seringkali dipilih berdasarkan pada pengalaman atau pengetahuan tentang masalah klasifikasi.

Metode Dynamic Classifier Selection with Local Accuracies

Dynamic Classifier Selection with Local Accuracies (DCS-LA) merupakan metode klasifikasi yang menggabungkan beberapa

classifier dan metode k-NN (Morales et al. 2008). Ilustrasi algoritme dari DCS-LA sebagai berikut:

1 Rancang classifier individu D1,...,DL, dan

pilih parameter k.

2 Setelah dapatkan nilai x yang dilabelkan oleh

D1,...,DL. Jika semua classifier sepakat pada

label x, maka diberikan label x.

3 Jika classifier tidak sepakat maka dilakukan perhitungan akurasi lokal dari setiap Di, i=1...L. Pilih k dokumen terbaik dari setiap

classifier. Lakukan pembobotan terhadap setiap dokumen, sehingga didapatkan bobot dari classifier. Pilih classifier dengan bobot paling besar.

4 Jika hasil perhitungan akurasinya sama maka pilih salah satu saja, karena dianggap menghasilkan hasil yang sama saja.

Inverse Distance Weighting (IDW)

Inverse Distance Weighting merupakan salah satu teknik pemilihan dalam k-NN. Teknik ini memberikan bobot terhadap masing-masing komponen k-top dokumen yang terpilih dengan

inverse jarak (distance) terhadap dokumen latih (Morales et al. 2008). Persamaan Inverse Distance Weighting didapat dari:

= 1 ≠0

dengan wj adalah Inverse Distance Weighting

dari setiap k-top dokumen yang terpilih. Nilai dj

adalah distance (jarak) yang dihitung dengan metode Euclidean Distance.

Confusion Matrix

Confusion matrix merupakan tabel yang digunakan untuk menentukan kinerja suatu model klasifikasi (Hamel 2008). Contoh tabel

confusion matrix dapat dilihat pada Tabel 1. Perhitungan akurasi dengan menggunakan tabel

confusion matrix adalah:

Akurasi = �11+�00

�11+�10+�01+�00

Tabel 1 Confusion matrix

Kelas Prediksi

Penelitian ini dilaksanakan dalam beberapa tahap yaitu pengumpulan data, pengolahan data, implementasi sistem, klasifikasi DCS-LA dengan Inverse Distance Weighting (IDW), evaluasi klasifikasi dan melakukan perbandingan sistem. Tahap-tahap yang dilakukan dalam penelitian ini diilustrasikan pada Gambar 1.

(12)

Pengumpulan Dokumen

Dokumen yang digunakan dalam penelitian ini sama dengan dokumen yang digunakan dalam penelitian Ramadhan (2010). Dokumen ini merupakan dokumen data publikasi hasil penelitian hortikultura dari badan penelitian dan pengembangan pertanian (Litbang) dan dokumen berita digital yang bersumber dari Media Indonesia.

Klasifikasi dokumen pertanian menggunakan klasifikasi manual oleh Litbang dan Media Indonesia. Dokumen pertanian diklasifikasikan menjadi tiga kelas yaitu:

1 Kelas Ekofisiologi dan Argonomi (EA). 2 Kelas Pemuliaan dan Teknologi Benih

(PTB).

3 Kelas Proteksi (P).

Dokumen berita diklasifikasikan menjadi lima kelas yaitu:

Pada dokumen pertanian setiap kelas memiliki 83 dokumen. Dokumen tersebut dibagi lagi menjadi data latih dan data uji dengan proposisi dokumen latih 70% dan dokumen uji 30% sehingga jumlah dokumen latih setiap kelas adalah 58 dan jumlah dokumen uji adalah 25. Pada dokumen berita setiap kelas berjumlah 150 dokumen. Jumlah dokumen latih setiap kelas 100 dan jumlah dokumen uji 50.

Gambar 2 Format XML.

Keseluruhan abstrak dari dokumen pertanian telah diubah dalam format XML oleh Ramadhan (2010), sedangkan untuk dokumen berita diubah dalam format XML oleh Juniawan (2009) seperti

pada Gambar 2. Contoh dokumen pertanian dalam format XML dapat dilihat pada Lampiran 1 dan dokumen berita pada Lampiran 2.

Implementasi Sistem

Implementasi sistem menggunakan bahasa pemrograman PHP dan MySQL sebagai tempat penyimpanan data.

Klasifikasi DCS-LA dengan Inverse Distance Weighting

Dalam metode DCS-LA dilakukan proses pengolahan data yaitu pengindeksan dokumen, klasifikasi dengan classifier, dan klasifikasi DCS-LA. Pengolahan data dilakukan dengan sistem yang digunakan oleh Cidhy (2009), yaitu dengan menghilangkan stopword, serta proses

indexing yaitu membagi setiap dokumen kedalam term-term kata berdasarkan dokumen dan kelas asal dokumen. Stopword yang digunakan dalam penelitian ini adalah stopword

yang dibuat oleh Ridha (2002).

Klasifikasi dilakukan dengan empat classifier

yaitu Rocchio, Naїve Bayes, Bernoulli, dan

Poisson Naїve Bayes. Hasil dari keempat

classifier ini disimpan dalam MySQL untuk digunakan dalam proses klasifikasi dengan DCS-LA. Dalam proses DCS-LA digunakan IDW dalam pembobotan k-NN untuk menentukan hasil klasifikasi.

Evaluasi Klasifikasi

Evaluasi dilakukan dengan cara membandingkan antara hasil DCS-LA dan hasil klasifikasi manual oleh Litbang dan Media Indonesia serta dihitung akurasinya dengan menggunakan confusion matrix.

Perbandingan Sistem

Perbandingan dilakukan antara sistem DCS-LA dengan IDW dan DCS-DCS-LA tanpa IDW. Perbandingan ini digunakan dokumen yang sama dan jumlah yang sama. Perbandingan juga dilakukan terhadap DCS-LA dengan menggunakan tiga classifier dan DCS-LA dengan empat classifier.

Lingkungan Implementasi

(13)

4 MySQL sebagai database.

5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil

penelitian dan pembuatan grafik. Perangkat keras:

1 ProsesorIntel Core i3. 2 RAM 2 GB.

indexing menggunakan sistem dari Cidhy (2009). Pada dokumen latih pertanian yang berjumlah 174 dihasilkan 2868 kata unik atau

term sedangkan pada dokumen latih berita yang berjumlah 500 dihasilkan 11285 kata unik.

Pelatihan

Pada tahap pelatihan ini keempat metode atau

classifier memiliki cara yang berbeda dalam perhitungannya. Pada metode Rocchio kata unik atau term dihitung bobotnya dengan metode

sublinear tf scaling. Setelah itu term atau kata unik dianggap sebuah vektor dan setiap kelas dihitung vektor centroid-nya masing-masing. Nilai vektor centroid disimpan dalam database

untuk digunakan dalam perhitungan klasifikasi berikutnya.

Pada metode Naїve Bayes, dihitung peluang dari setiap term atau kata unik dan peluang prior dari setiap dokumen latih. Nilai peluang dari setiap term atau kata disimpan dalam database. Pada metode Bernoulli, dihitung juga peluang dari setiap term atau kata unik dan peluang prior dari setiap dokumen latih. Nilai peluang dari setiap term atau kata juga disimpan dalam

database seperti pada metode NaїveBayes. Pada metode Poisson Naїve Bayes dihitung peluang dari setiap term, nilai rata-rata dari distribusi poisson terhadap masing-masing kelas, dan bobot dari setiap term menggunakan pembobotan rasio peluang. Nilai peluang, bobot, dan nilai rata-rata distribusi poisson setiap term

disimpan dalam database.

Akurasi Classifier Tunggal

Pada metode Rocchio dokumen uji dihitung bobotnya dengan metode Sublinear tf scaling.

Setelah itu dihitung jarak centroid kelas dengan dokumen uji mengunakan metode Euclidean distance. Dokumen uji akan diklasifikasikan ke-

dalam kelas yang memiliki jarak terdekat dengan dokumen uji.

Akurasi klasifikasi dari setiap metode yang ada dapat dihitung dengan bantuan tabel

confusion matrix. Pada dokumen pertanian akurasi metode rocchio dihitung dengan tabel

confusion matrix yang dapat dilihat pada Tabel 2. Demikian juga akurasi untuk dokumen berita dapat dilihat pada Tabel 3.

Dari Tabel 2 dan Tabel 3 dapat dilihat bahwa pada dokumen pertanian banyak terjadi kesalahan pengklasifikasian sedangkan pada dokumen berita sedikit. Akurasi pada dokumen pertanian dengan metode Rocchio ini adalah 61.23%, dan untuk dokumen berita menghasilkan akurasi 97.2%. Akurasi pada dokumen pertanian lebih rendah dibandingkan dengan dokumen berita. Hal ini karena pada dokumen pertanian setiap kelasnya masih memiliki hubungan atau keterkaitan, sehingga setiap centroid kelas memiliki jarak yang sama. Akibat centorid jarak yang sama ini banyak terjadi kesalahan pengklasifikasian.

Pada dokumen berita hasil akurasinya tinggi karena tidak ada keterkaitan setiap kelas, sehingga jarak antara centroid setiap kelas berbeda. Akibatnya sedikit terjadi kesalahan pengklasifikasian. Hasil klasifikasi dengan metode ini sangat dipengaruhi oleh nilai centroid

setiap kelas.

Tabel 2 Confusion matrix metode Rocchio

dengan dokumen pertanian Kelas Prediksi

Tabel 3 Confusion matrix metode Rocchio

(14)

Pada metode Naїve Bayes, peluang setiap

term pada dokumen uji akan dihitung. Setelah itu dihitung peluang dokumen uji terhadap kelas yang ada. Dokumen uji akan dimasukkan pada kelas yang memiliki peluang terbesar. Akurasi pada dokumen pertanian dengan metode Naїve Bayes dihitung dengan menggunakan bantuan tabel confusion matrix pada Tabel 4. Hal serupa dilakukan pada dokumen berita, hasil akurasinya dapat dilihat pada Tabel 5.

Tabel 4 Confusion matrix metode Naїve Bayes

dengan dokumen pertanian Kelas Prediksi

Tabel 5 Confusion matrix metode Naїve Bayes

dengan dokumen berita Kelas Prediksi dokumen pertanian terjadi banyak kesalahan pengklasifikasian sedangkan pada dokumen berita sedikit. Akurasi pada dokumen pertanian dengan metode Naїve Bayes ini adalah 65.33%, dan untuk dokumen berita menghasilkan 76.8%. Akurasi dokumen berita lebih tinggi dibandingkan dokumen pertanian. Hal ini karena pada dokumen berita setiap kelasnya saling bebas atau tidak ada keterkaitan antara kelasnya. Akibatnya setiap kelas memiliki penciri kata atau term yang berbeda, sehingga terjadi sedikit kesalahan pengklasifikasian.

Pada dokumen pertanian hasil akurasinya rendah karena setiap kelas memiliki keterkaitan. Akibatnya kata atau term dari masing-masing kelas sama, sehingga banyak terjadi kesalahan pengklasifikasian.

Pada metode Bernoulli peluang kata atau

term dari dokumen uji akan dihitung. Setelah itu dihitung peluang dokumen uji masuk ke dalam

kelas yang ada. Perhitungan ini mirip dengan metode Naїve Bayes, perbedaannya adalah metode Bernoulli hanya memperhitungkan rasio dokumen dari setiap kelas yang mengandung kata atau term. Akurasi pada dokumen pertanian dengan metode Bernoulli dihitung dengan menggunakan bantuan tabel confusion matrix

pada Tabel 6. Demikian juga hasil akurasi untuk dokumen berita dapat dilihat pada Tabel 7.

Dari Tabel 6 dan Tabel 7 dapat dilihat pada dokumen berita terjadi sedikit kesalahan pengklasifikasian sedangkan pada dokumen pertanian banyak kesalahan pengklasifikasian. Akurasi pada dokumen pertanian dengan metode

Bernoulli ini adalah 61.33%, dan untuk dokumen berita menghasilkan 76.8%. Akurasi dari dokumen berita lebih tinggi dari dokumen pertanian karena pada dokumen pertanian setiap kelasnya memiliki keterkaitan sehingga kata atau

term dari setiap kelas sama. Akibatnya banyak terjadi kesalahan pengklasifikasian.

Pada dokumen berita akurasinya tinggi karena setiap kelasnya tidak ada keterkaitan sehingga kata atau term dari setiap kelas berbeda. Akibatnya terjadi sedikit kesalahan pengklasifikasian.

Tabel 6 Confusion matrix metode Bernoulli

dengan dokumen pertanian Kelas Prediksi

Tabel 7 Confusion matrix metode Bernoulli

(15)

yang ada. Dokumen uji akan dimasukkan pada kelas yang memiliki peluang terbesar. Akurasi pada dokumen pertanian dengan metode Poisson Naїve Bayes dihitung dengan menggunakan bantuan tabel confusion matrix pada Tabel 8. Hal serupa dilakukan pada dokumen berita, sehingga hasil akurasinya dapat dilihat pada Tabel 9. Tabel 8 Confusion matrix metode Poisson Naïve

Bayes dengan dokumen pertanian Kelas Prediksi

Tabel 9 Confusion matrix metode Poisson Naïve Bayes dengan dokumen berita

Kelas Prediksi dokumen berita terjadi sedikit kesalahan pengklasifikasian sedangkan pada dokumen pertanian banyak kesalahan pengklasifikasian. Akurasi pada dokumen pertanian dengan metode

Poisson Naїve Bayes ini adalah 58.67 %, dan untuk dokumen berita menghasilkan akurasi 96.8%. Akurasi dari dokumen berita lebih tinggi dari dokumen pertanian karena pada dokumen pertanian setiap kelasnya memiliki keterkaitan atau tidak saling bebas sehingga kata atau term

dari setiap kelas sama. Akibatnya banyak terjadi kesalahan pengklasifikasian.

Pada dokumen berita akurasinya tinggi karena setiap kelasnya tidak ada keterkaitan atau saling bebas sehingga kata atau term dari setiap kelas berbeda. Akibatnya terjadi sedikit kesalahan pengklasifikasian.

Klasifikasi DCS-LA

Hasil klasifikasi dari empat classifier

dihitung dengan metode DCS-LA. Pada perhitungan pertama dilakukan simple voting. Jika semua classifier ini menghasilkan kelas

yang sama atau setuju maka langsung dilabelkan kelas tersebut. Jika hasil klasifikasi masing-masing classifier berbeda maka dilakukan proses

k-NN. Pada perhitungan k-NN, digunakan IDW sebagai pembobotan untuk menentukan hasil klasifikasi yang terpilih.

Pada dokumen pertanian dan berita dilakukan beberapa percobaan dengan nilai k = 1 sampai k

= 30. Pada dokumen pertanian akurasi tertinggi terdapat pada nilai k sama dengan 24 dan 25 sebesar 66.67%. Akurasi terendah pada klasifikasi DCS-LA ini adalah ketika k bernilai 6 sampai 30 sebesar 57.33%. Pada dokumen berita akurasi tertinggi terdapat pada k = 1 sebesar 97.6% dan terendah ketika k bernilai 3 sampai 30 sebesar 96.4%. Hasil akurasi klasifikasi DCS-LA dapat dilihat pada Gambar 3.

Gambar 3 Grafik hasil klasifikasi DCS-LA menggunakan IDW.

Dari Gambar 3 dapat dilihat bahwa akurasi dari dokumen berita lebih tinggi dari dokumen pertanian. Hasil ini dipengaruhi oleh akurasi dari setiap classifier. Semakin tinggi akurasi dari setiap classifier maka semakin tinggi pula akurasi dari DCS-LA begitu pula sebaliknya.

Pada dokumen pertanian parameter-k

mempengaruhi akurasi klasifikasi, terlihat bahwa rentang akurasi dari dokumen pertanian mencapai 9.34%. Pada dokumen berita parameter-k tidak berpengaruh secara signifikan, terlihat bahwa rentang akurasinya hanya 1.2%. Perbandingan akurasi ini dapat dilihat pada Gambar 3.

Hasil akurasi pada dokumen pertanian dengan metode DCS-LA adalah 66.67%, sedangkan pada dokumen berita sebesar 96.4% Pada penelitian ini, tinggi rendahnya akurasi yang dimiliki oleh DCS-LA dipengaruhi oleh

(16)

empat classifier yaitu: Rocchio, Naїve Bayes,

Bernoulli dan PoissonNaїve Bayes.

Dari Gambar 3 akurasi DCS-LA pada dokumen pertanian lebih rendah dibandingan dokumen berita. Hal ini disebabkan pada dokumen berita setiap kelasnya tidak berhubungan atau saling bebas, sedangkan pada dokumen pertanian setiap kelasnya berkaitan. Keterkaitan antarkelas pada dokumen pertanian dan berita masing-masing 48% dan 10% (Ramadhan 2010), keterkaitan yang kecil pada dokumen berita mempengaruhi akurasi klasifikasi

Jika dihitung akurasi rata-rata dari classifier

pada dokumen pertanian sebesar 61% dan dokumen berita sebesar 91.6%. Jika dibandingkan akurasi rata-rata dengan akurasi DCS-LA, maka metode DCS-LA memiliki akurasi yang lebih tinggi dari akurasi rata-rata

classifier. Akurasi dapat ditingkatkan dengan penambahan classifier. Perbandingan akurasi setiap classifier dengan DCS-LA dapat dilihat pada Gambar 4.

Gambar 4 Diagram perbandingan classifier

dengan DCS-LA.

Perbandingan Klasifikasi

Perbandingan dilakukan dengan cara membandingkan DCS-LA yang menggunakan IDW dengan DCS-LA tanpa IDW dari Ramadhan (2010). Hasil akurasi DCS-LA dengan IDW lebih baik dibandingkan DCS-LA tanpa IDW. Perbandingan akurasi ini dapat dilihat pada Gambar 5.

Penambahan satu classifier yaitu Poisson Naїve Bayes dapat menambah akurasi dari LA. Pada Gambar 5 dapat dilihat bahwa

DCS-LA dengan empat classifier memiliki akurasi yang lebih tinggi dibandingkan dengan DCS-LA dengan tiga classifier. DCS-LA tanpa IDW dengan tiga classifier menghasilkan akurasi 56% untuk dokumen pertanian dan 86% untuk dokumen berita, dan pada DCS-LA tanpa IDW dengan empat classifier menghasilkan akurasi 61.33% untuk dokumen pertanian dan 91.6% untuk dokumen berita.

Gambar 5 Perbandingan akurasi DCS-LA: a = klasifikasi DCS-LA tanpa IDW dengan tiga classifier, b = klasifikasi DCS-LA tanpa IDW dan empat

classifier, c = klasifikasi DCS-LA dengan IDW dan tiga classifier, d = klasifikasi DCS-LA dengan IDW dan empat classifier.

Pengaruh penambahan Poisson Naїve Bayes

pada dokumen pertanian dapat dilihat pada Lampiran 3. Pada Lampiran 3 terdapat dua kasus (dokumen nomor 25 dan 67) yang menunjukkan bahwa tiga classifierRocchio, Naїve Bayes dan

Bernoulli menghasilkan kelas prediksi yang salah sedangkan Poisson Naїve Bayes

menghasilkan kelas prediksi yang benar, sehingga menghasilkan kelas prediksi dari DCS-LA yang benar.

Penambahan pembobotan IDW juga dapat meningkatkan akurasi dari DCS-LA. Pada Gambar 5 dapat dilihat untuk DCS-LA dengan tiga classifier bahwa penambahan IDW pada metode tersebut dapat meningkatkan akurasi sampai 64% untuk dokumen pertanian dan 94 % untuk dokumen berita. Begitu pula dengan DCS-LA dengan empat classifier yang akurasinya meningkat menjadi 66.67% untuk dokumen pertanian dan 96.4% untuk dokumen berita setelah penambahan IDW.

(17)

Pengaruh penambahan pembobotan IDW pada dokumen pertanian dapat dilihat pada Lampiran 3. Pada Lampiran 3 terdapat tiga kasus (dokumen nomor 27, 58, dan 66) yang menunjukkan bahwa DCS-LA dengan penambahan IDW memiliki kelas prediksi yang benar sedangkan pada DCS-LA yang hanya menambahkan satu classifier menghasilkan kelas prediksi yang salah.

Pada Gambar 5 dapat dilihat pula bahwa penambahan IDW dapat meningkatkan akurasi lebih tinggi dibandingkan dengan hanya menambahkan satu classifier. Selain itu, penambahan IDW dan satu classifier sekaligus, memiliki akurasi yang lebih tinggi dibandingkan dengan hanya menambahkan satu classifier atau IDW saja.

KESIMPULAN DAN SARAN

Dari penelitian dalam menerapkan algoritme DCS-LA dengan IDW untuk klasifikasi dokumen pertanian dan dokumen berita dalam bahasa Indonesia, didapatkan kesimpulan sebagai berikut:

1 Penerapan klasifikasi DCS-LA dengan IDW untuk dokumen teks bahasa Indonesia berhasil dilakukan.

2 Akurasi dari metode DCS-LA ini sebesar 66.67% pada dokumen pertanian dan dokumen berita 96.4%.

3 Akurasi metode DCS-LA dengan IDW lebih tinggi dibandingkan dengan DCS-LA tanpa IDW.

4 Akurasi DCS-LA dengan empat classifier

lebih tinggi dibandingkan dengan tiga

classifier.

5 Metode DCS-LA menghasilkan akurasi lebih tinggi dari akurasi rata-rata classifier.

6 Kelas yang saling berhubungan atau terkait dapat memberikan hasil akurasi yang rendah. Saran yang diberikan untuk pengembangan lebih lanjut pada penelitian ini adalah sebagai berikut:

1 Mencoba menggunakan komponen classifier

lainnya misalkan MCA atau SVM untuk dibandingkan.

2 Menambahkan atau mengganti komponen

classifier pada sistem DCS-LA ini.

3 Membandingkan akurasi DCS-LA dengan AAC untuk dokumen berbahasa Indonesia.

DAFTAR PUSTAKA

Cidhy DATK. 2009. Implementasi Question Answering System dengan Pembobotan Heuristic [Skripsi]. Bogor: Departemen Ilmu Komputer, IPB.

Hamel L. 2008. The Encyclopedia of Data Warehousing and Mining. Ed. ke-2. Rhode Island: Idea Group Publisher.

Han J, Kamber M. 2006. Data Mining: Concept and Techniques. Ed. ke-2. San Francisco: Morgan Kaufmann Publishers.

Ho TK, Hull JJ, Srihari SN. 1994. Desicion Combination in Multiple Classifier Systems.

IEEE Transactions on Analisys and Machine Intelegence 16(1): 66 - 75.

Juniawan I. 2009. Klasifikasi Dokumen Teks Berbahasa Indonesia Menggunakan Minor Component Analysis [Skripsi]. Bogor: Departemen Ilmu Komputer, IPB.

Kim SB. 2001. Poisson Naive Bayes for Text Classification with Feature Weighting. Di dalam: Adachi J, editor. Proceedings of the 6th International Workshop on Information Retrieval with Asian Languange; Sappro, 7 Juli 2003. Stroudsburg: Association for Computational Linguistics. hlm 33 - 40. Li YH, Jain AK. 1998. Classification of Text

Document. The Computer Journal 41(8): 537 - 546.

Manning CD, Raghavan P, Schutze H. 2008.

Introduction to Information Retrieval. Cambridge: Cambridge University Press. Morales AI, Valdovinos RM, Sanchez JS. 2008.

On the Weighted Dynamic Classifier Selection with Local Accuracies. Di dalam: Grigoriadis K, editor. Proceedings of the 11th IASTED International Conference; Orlando, 16-18 November 1998. Anaheim: ACTA Press. hlm 204 - 206.

Ramadhan R. 2010. Klasifikasi Dokumen Berbahasa Indonesia Menggunakan Dinamic Classifier Selection with Local Accuracies

(DCS-LA) [Skripsi]. Bogor: Departemen Ilmu Komputer, IPB.

(18)

Woods K, Kegelmeyer WP, Bowyer K. 1997. Combination of Multiple Classifiers Using Local Accuracy Estimates. IEEE Transactions on Pattern Analysis and Machine Intelligence 19(4): 405 - 410. Xu L, Krzyzak A, Suen CY. 1992. Methods of

Combining Multiple Classifiers and Their Applications to Handwriting Recognition.

(19)
(20)

Lampiran 1 Contoh dokumen pertanian dalam format XML <DOC>

<DOCNO>5</DOCNO>

<TITLE>Studi Bedengan Kompos Permanen untuk Budidaya Kentang di Pekarangan</TITLE> <AUTHOR>Etty Sumiati dan Achmad Hidayat</AUTHOR>

<TEXT> <P>

Kebutuhan pupuk buatan/kimia untuk meningkatkan pertumbuhan dan hasil umbi kentang, sebagian dapat disubstitusi melalui pemanfaatan bahan limbah organik. Penelitian ini bertujuan untuk mengetahui teknik pengomposan dan efektivitas bedengan kompos untuk budidaya tanaman kentang di lahan kering. Penelitian dilakukan di dataran tinggi Samarang, Garut, Jawa Barat. Percobaan menggunakan Rancangan Acak Kelompok dengan enam ulangan. Perlakuan pada bedengan permanen terdiri atas empat macam formula, yaitu berbagai campuran limbah organik, serta pupuk kandang sapi sebagai kontrol. Hasil penelitian menunjukkan bahwa bedengan permanen yang digarit dan diisi limbah organik pupuk kandang sapi 20 t/ha ditambah pupuk NPK (15-15-15),memberikan

pertumbuhan serta hasil dan kualitas umbi kentang kultivar Granola yang tertinggi. Selain itu, proses dekomposisi limbah organik pupuk kandang sapi sangat cepat, hal ini tercermin dari nilai C/N yang terendah setelah satu bulan terjadi proses pengomposan.

(21)

Lampiran 2 Contoh dokumen berita dalam format XML <DOC>

<DOCNO>Bulu_tangkis_April_15</DOCNO> <TITLE>Target Satu Poin kian Terbuka</TITLE> <AUTHOR>Iwan Kurniawan</AUTHOR> <DATE>Senin, 13 April 2009</DATE> <TEXT> <P>

KEBERHASILAN pebulu tangkis Markis Kido/Hendra Setiawan dalam menyabet juara di Kejuaraan Asia di Suwon, Korea Selatan, Minggu (12/4), semakin memperkuat satu poin kemenangan dari sektor ganda putra pada kejuaraan dunia beregu campuran Piala Sudirman di Guangzhou, China, 10-17 Mei mendatang.

Pelatih ganda putra Sigit Pamungkas, di Jakarta, Senin (13/4) mengatakan kemenangan di Suwon tersebut semakin memantapkan satu target juara di Piala Sudirman. "Melihat kekuatan yang ada, tentunya kami akan berusaha sekeras mungkin untuk menyumbangkan satu angka bagi tim," ujarnya. Satu angka kemenangan dikarenakan tim Piala Sudirman diperkuat peringkat satu dunia

Markis/Hendra, peringkat delapan dunia Bona Septano/Mohammad Ahsan dan peringkat 11 dunia Rian Sukmawan/Yonatan Surtayama.

"Kita memiliki tiga pasangan yang dapat mendukung tim. Saya kita peningkatan performa akan terus kami lakukan kepada atlet untuk mendapatkam hasil maksimal. Khususnya untuk Kido yang baru saja bertandingan, masih perlu istirahat untuk mengembalikan kondisi," tandasnya.

Sementara itu, pelatih ganda putri Aryono Miranat terlihat sibuk melakukan latihan service kepada para pemain ganda putri seperti Shendy Puspa Irawati, Meliana Jauhari, Greysia Polii, dan Nitya Krishinda. Menurutnya, teknik permainan masih perlu diperbaiki di sisa waktu yang ada. "Teknik masih akan ditingkatkan karena lawan juga telah mengantisipasinya," jelas Aryono. Di tempat yang sama, Shendy yang kini berada di peringkat sembilan dunia bersama Meliana mengungkapakan teknik permainan masih perlu ditingkatkan. Apalagi bila bermain dalam lima set yang nota bene sangat menguras tenaga. "Saya masih terus fokus berlatih agar dapat bermain baik di lima set," jelasnya.

Penambahan teknik permainan service, ucap Shendy, menjadi upaya yang baik untuk mengukur kekuatan selama proses latihan. "Pelatih sudah menyarankan beberapa hal penting sehingga kami akan menerapkannya," tukasnya.

Sementara itu, guna mempersiapkan keberangkatan ke China, PB PBSI akan menyelenggarakan outbound pada 25-26 April. "Masih ada dua opsi untuk penentuan tempat yaitu di Sukabumi atau Bogor," ujar Ketua Bidang Pembinaan Prestasi Lius Pongoh.

Sejak memenangi Piala Sudirman pada 1989, Indonesia belum pernah lagi menjadi juara turnamen tersebut. Walaupun tujuh kali menjadi finalis, termasuk dalam dua edisi terakhir. Pada final 2005 di Beijing dan 2007 di Glasgow Skotlandia, Indonesia kalah dari juara bertahan negara 'Tirai Bambu' masing-masing dengan skor 0-3. (IK/OL-03)

(22)

Lampiran 3 Perbandingan akurasi setiap classifier dan DCS-LA untuk dokumen pertanian

No. Dokumen Rocchio Bayes Bernoulli Poisson NB

DCS-LA

DCS-LA 3 classifier

dengan IDW

DCS-LA 4 classifier

tanpa IDW

1 jurnalHorti1.txt 1 1 1 1 1 1 1

2 jurnalHorti102.txt 1 1 0 0 0 0 0

3 jurnalHorti117.txt 1 1 1 1 1 1 1

4 jurnalHorti127.txt 0 0 0 0 0 0 0

5 jurnalHorti133.txt 0 0 0 0 0 0 0

6 jurnalHorti141.txt 1 0 0 0 0 0 0

7 jurnalHorti155.txt 1 1 1 0 1 1 1

8 jurnalHorti159.txt 0 0 0 1 0 0 0

9 jurnalHorti166.txt 1 0 0 1 0 0 0

10 jurnalHorti17.txt 1 1 0 1 1 1 1

11 jurnalHorti178.txt 1 1 1 1 1 1 1

12 jurnalHorti19.txt 1 1 0 1 1 1 1

13 jurnalHorti209.txt 0 0 0 1 0 0 1

14 jurnalHorti263.txt 1 1 1 1 1 1 1

15 jurnalHorti34.txt 1 0 1 0 0 0 0

16 jurnalHorti4.txt 1 1 1 1 1 1 1

17 jurnalHorti43.txt 0 0 0 0 0 0 0

18 jurnalHorti49.txt 0 0 0 0 0 0 0

19 jurnalHorti51.txt 0 0 0 0 0 0 0

20 jurnalHorti60.txt 1 1 1 1 1 1 1

21 jurnalHorti69.txt 0 0 0 0 0 0 0

22 jurnalHorti75.txt 1 1 1 1 1 1 1

23 jurnalHorti82.txt 1 1 1 1 1 1 1

24 jurnalHorti87.txt 1 1 1 0 1 1 1

25 jurnalHorti91.txt 0 0 0 1 1 0 1

26 jurnalHorti100.txt 1 1 1 1 1 1 1

27 jurnalHorti106.txt 0 1 0 1 1 1 0

28 jurnalHorti108.txt 1 1 1 1 1 1 1

29 jurnalHorti113.txt 1 1 1 1 1 1 1

30 jurnalHorti121.txt 0 0 0 0 0 0 0

31 jurnalHorti124.txt 1 1 0 1 1 1 1

32 jurnalHorti126.txt 1 1 1 1 1 1 1

33 jurnalHorti130.txt 1 1 1 1 1 1 1

34 jurnalHorti14.txt 1 1 0 1 1 1 1

35 jurnalHorti22.txt 1 1 1 0 1 1 1

36 jurnalHorti23.txt 1 1 1 1 1 1 1

37 jurnalHorti25.txt 1 1 1 1 1 1 1

38 jurnalHorti31.txt 1 1 1 1 1 1 1

39 jurnalHorti53.txt 1 1 1 1 1 1 1

(23)

Lampiran 3 Lanjutan

No. Dokumen Rocchio Bayes Bernoulli Poisson NB

DCS-LA

DCS-LA 3 classifier

dengan IDW

DCS-LA 4 classifier

tanpa IDW

41 jurnalHorti59.txt 1 1 1 1 1 1 1

42 jurnalHorti62.txt 1 1 1 1 1 1 1

43 jurnalHorti65.txt 1 1 1 1 1 1 1

44 jurnalHorti70.txt 1 1 1 1 1 1 1

45 jurnalHorti77.txt 0 0 0 0 0 0 0

46 jurnalHorti78.txt 1 1 1 1 1 1 1

47 jurnalHorti83.txt 0 1 0 1 1 0 0

48 jurnalHorti85.txt 1 1 1 1 1 1 1

49 jurnalHorti93.txt 0 0 0 0 0 0 0

50 jurnalHorti97.txt 0 0 0 0 0 0 0

51 jurnalHorti10.txt 1 1 1 1 1 1 1

52 jurnalHorti105.txt 0 1 1 0 1 1 1

53 jurnalHorti112.txt 0 1 1 0 0 1 0

54 jurnalHorti12.txt 1 1 1 1 1 1 1

55 jurnalHorti149.txt 1 1 1 1 1 1 1

56 jurnalHorti15.txt 1 1 1 0 1 1 1

57 jurnalHorti177.txt 1 1 1 1 1 1 1

58 jurnalHorti21.txt 0 1 1 0 1 1 0

59 jurnalHorti210.txt 0 0 0 0 0 0 0

60 jurnalHorti28.txt 1 1 1 1 1 1 1

61 jurnalHorti33.txt 1 1 1 1 1 1 1

62 jurnalHorti38.txt 1 1 1 0 1 1 1

63 jurnalHorti41.txt 1 1 1 1 1 1 1

64 jurnalHorti46.txt 1 1 1 1 1 1 1

65 jurnalHorti54.txt 0 0 1 0 0 1 0

66 jurnalHorti56.txt 0 1 1 0 1 1 0

67 jurnalHorti64.txt 0 0 0 1 1 0 1

68 jurnalHorti66.txt 0 0 0 0 0 0 0

69 jurnalHorti71.txt 0 0 1 1 1 0 0

70 jurnalHorti73.txt 1 1 1 0 1 1 1

71 jurnalHorti76.txt 0 0 0 1 0 0 0

72 jurnalHorti79.txt 0 0 0 0 0 0 0

73 jurnalHorti9.txt 1 1 1 0 1 1 1

74 jurnalHorti90.txt 0 0 0 0 0 0 0

75 jurnalHorti95.txt 0 0 1 0 0 0 0

Total 46 49 46 44 50 48 46

(24)

ABSTRACT

Roni Novettio Chairullah. Classification of Documents in Bahasa Indonesia using DCS-LA with Inverse Distance Weighting. Supervised by AHMAD RIDHA.

Dynamic Classifier Selection with Local Accuracy (DCS-LA) is a document classification method that combines several classification methods and k-NN. In this study, we implemented the DCS-LA with Inverse Distance Weighting for documents writen in Bahasa Indonesia as well as comparing between the DCS-LA with Inverse Distance Weighting and DCS-LA without Inverse Distance Weighting. We used four classifiers: Rocchio, Naïve Bayes, Bernoulli, and Poisson Naïve Bayes as classifiers in the DCS-LA. For the data, we used agriculture documents consisting of 174 training documents and 75 test documents, and news documents consisting of 500 training documents and 250 test documents. This method can yield an accuracy of 66% and 96% for agriculture documents and news documents, respectively. Without Inverse Distance Weighting, DCS-LA only yields an accuracy of 56% and 86% for agriculture documents and news documents, respectively. Therefore, Inverse Distance Weighting can improve the accuracy of the DCS-LA in classifying text documents in Bahasa Indonesia.

(25)

PENDAHULUAN

Latar Belakang

Klasifikasi dikembangkan untuk memfokuskan pencarian pengguna pada informasi yang ingin dicari, sehingga hasil akan menjadi lebih baik dan usaha yang dilakukan sistem lebih efektif dan efisien. Banyak metode yang bisa digunakan untuk klasifikasi teks, seperti Naïve Bayes, k-Nearest Neighbor (k-NN),

Support Vector Machine (SVM), Bernoulli,

Rocchio, dan Minor Component Analysis

(MCA).

Beberapa peneliti telah menunjukkan bahwa mengombinasikan metode klasifikasi yang berbeda dapat menambah akurasi klasifikasi (Xu

et al. 1992). Simple voting, Dynamic Classifier Selection (DCS), dan Adaptive Classifier Combination (AAC) adalah contoh metode yang menggabungkan beberapa metode klasifikasi.

DCS pertama kali diperkenalkan oleh Ho et al. (1994). Pada penelitian tersebut, DCS diterapkan pada sistem klasifikasi teks dan gambar, sehingga dapat dibuktikan bahwa dengan mengombinasikan beberapa metode klasifikasi yang berbeda dapat menambah akurasi sistem klasifikasi.

DCS dikembangkan menjadi Dynamic Classifier Selection with Local Accuracies (DCS-LA), yaitu dengan menambahkan konsep

k-NN dalam pemilihan akurasi lokal. Dalam pengujian metode klasifikasi DCS-LA menggunakan dokumen berbahasa Inggris, metode DCS-LA ini menghasilkan akurasi rata-rata 80% (Woods et al. 1997).

Kemudian DCS-LA dikembangkan lagi dengan menambahkan pembobotan dalam proses

k-NN untuk pemilihan akurasi dari setiap

classifier tunggal. Teknik tersebut dapat menambah akurasi dari DCS-LA hingga mencapai 90% (Morales et al. 2008).

Pada pengujian menggunakan dokumen berbahasa Indonesia, metode DCS-LA menghasilkan akurasi 56% untuk dokumen pertanian dan 86% untuk dokumen berita (Ramadhan 2010). Pada penelitian tersebut digunakan tiga classifier tunggal serta belum menambahkan pembobotan dalam proses DCS-LA. Dalam penelitian ini, akan ditambahkan

Inverse Distance Weighting (IDW) dalam teknik DCS-LA yang digunakan pada dokumen berbahasa Indonesia, serta menggunakan empat

classifier tunggal pada proses klasifikasinya.

Tujuan

Tujuan penelitian ini adalah:

1 Mengimplementasikan DCS-LA dengan IDW untuk klasifikasi dokumen berbahasa Indonesia.

2 Membandingkan akurasi klasifikasi DCS-LA yang menggunakan IDW dengan yang tidak menggunakan IDW.

3 Membandingkan DCS-LA dengan empat

classifier dan DCS-LA dengan tiga classifier.

Ruang Lingkup

Ruang lingkup penelitian ini difokuskan kepada klasifikasi dokumen dengan menggunakan DCS-LA pada dokumen pertanian dan berita berbahasa Indonesia serta menentukan metode yang memiliki akurasi tinggi.

Manfaat

Manfaat dari penelitian ini adalah menentukan metode yang memiliki akurasi tinggi dalam proses klasifikasi dokumen sehingga dapat meningkatkan akurasi klasifikasi dokumen berbahasa Indonesia.

TINJAUAN PUSTAKA

Klasifikasi

Klasifikasi adalah proses untuk menemukan sebuah model yang menggambarkan dan membedakan kelas-kelas data, dengan tujuan untuk memprediksikan kelas dari objek yang belum diketahui kelasnya. Model dari setiap kelas dibuat berdasarkan data latih (training data) melalui berbagai cara, di antaranya adalah

rules, decision tree, formula matematika, atau

neural network (Han & Kamber 2006). Selanjutnya digunakan sekumpulan data uji yang sudah diketahui kelasnya untuk menghitung akurasi dari model yang sudah didapatkan. Jika akurasinya mencukupi, maka model tersebut dapat digunakan untuk prediksi kelas dari data yang belum diketahui kelasnya.

Metode Rocchio

Rocchio merupakan metode klasifikasi berdasarkan ruang vektor. Metode Rocchio

membagi ruang vektor berdasarkan nilai centroid

pada setiap kelas (Manning et al. 2008).

(26)

PENDAHULUAN

Latar Belakang

Klasifikasi dikembangkan untuk memfokuskan pencarian pengguna pada informasi yang ingin dicari, sehingga hasil akan menjadi lebih baik dan usaha yang dilakukan sistem lebih efektif dan efisien. Banyak metode yang bisa digunakan untuk klasifikasi teks, seperti Naïve Bayes, k-Nearest Neighbor (k-NN),

Support Vector Machine (SVM), Bernoulli,

Rocchio, dan Minor Component Analysis

(MCA).

Beberapa peneliti telah menunjukkan bahwa mengombinasikan metode klasifikasi yang berbeda dapat menambah akurasi klasifikasi (Xu

et al. 1992). Simple voting, Dynamic Classifier Selection (DCS), dan Adaptive Classifier Combination (AAC) adalah contoh metode yang menggabungkan beberapa metode klasifikasi.

DCS pertama kali diperkenalkan oleh Ho et al. (1994). Pada penelitian tersebut, DCS diterapkan pada sistem klasifikasi teks dan gambar, sehingga dapat dibuktikan bahwa dengan mengombinasikan beberapa metode klasifikasi yang berbeda dapat menambah akurasi sistem klasifikasi.

DCS dikembangkan menjadi Dynamic Classifier Selection with Local Accuracies (DCS-LA), yaitu dengan menambahkan konsep

k-NN dalam pemilihan akurasi lokal. Dalam pengujian metode klasifikasi DCS-LA menggunakan dokumen berbahasa Inggris, metode DCS-LA ini menghasilkan akurasi rata-rata 80% (Woods et al. 1997).

Kemudian DCS-LA dikembangkan lagi dengan menambahkan pembobotan dalam proses

k-NN untuk pemilihan akurasi dari setiap

classifier tunggal. Teknik tersebut dapat menambah akurasi dari DCS-LA hingga mencapai 90% (Morales et al. 2008).

Pada pengujian menggunakan dokumen berbahasa Indonesia, metode DCS-LA menghasilkan akurasi 56% untuk dokumen pertanian dan 86% untuk dokumen berita (Ramadhan 2010). Pada penelitian tersebut digunakan tiga classifier tunggal serta belum menambahkan pembobotan dalam proses DCS-LA. Dalam penelitian ini, akan ditambahkan

Inverse Distance Weighting (IDW) dalam teknik DCS-LA yang digunakan pada dokumen berbahasa Indonesia, serta menggunakan empat

classifier tunggal pada proses klasifikasinya.

Tujuan

Tujuan penelitian ini adalah:

1 Mengimplementasikan DCS-LA dengan IDW untuk klasifikasi dokumen berbahasa Indonesia.

2 Membandingkan akurasi klasifikasi DCS-LA yang menggunakan IDW dengan yang tidak menggunakan IDW.

3 Membandingkan DCS-LA dengan empat

classifier dan DCS-LA dengan tiga classifier.

Ruang Lingkup

Ruang lingkup penelitian ini difokuskan kepada klasifikasi dokumen dengan menggunakan DCS-LA pada dokumen pertanian dan berita berbahasa Indonesia serta menentukan metode yang memiliki akurasi tinggi.

Manfaat

Manfaat dari penelitian ini adalah menentukan metode yang memiliki akurasi tinggi dalam proses klasifikasi dokumen sehingga dapat meningkatkan akurasi klasifikasi dokumen berbahasa Indonesia.

TINJAUAN PUSTAKA

Klasifikasi

Klasifikasi adalah proses untuk menemukan sebuah model yang menggambarkan dan membedakan kelas-kelas data, dengan tujuan untuk memprediksikan kelas dari objek yang belum diketahui kelasnya. Model dari setiap kelas dibuat berdasarkan data latih (training data) melalui berbagai cara, di antaranya adalah

rules, decision tree, formula matematika, atau

neural network (Han & Kamber 2006). Selanjutnya digunakan sekumpulan data uji yang sudah diketahui kelasnya untuk menghitung akurasi dari model yang sudah didapatkan. Jika akurasinya mencukupi, maka model tersebut dapat digunakan untuk prediksi kelas dari data yang belum diketahui kelasnya.

Metode Rocchio

Rocchio merupakan metode klasifikasi berdasarkan ruang vektor. Metode Rocchio

membagi ruang vektor berdasarkan nilai centroid

pada setiap kelas (Manning et al. 2008).

(27)

= 1

� ∈� ( )

Dc adalah jumlah dokumen di kelas c. Nilai (d)

adalah vektor kata pada kelas c dan (c) adalah

centroid masing-masing kelas. Setelah (c) diketahui, dihitung jarak centroid setiap kelas dengan dokumen uji. Perhitungan jarak menggunakan metode Euclidean Distance yang didapatkan dari persamaan berikut:

Jarak = � − ( )

Metode Naïve Bayes

Naïve Bayes merupakan metode klasifikasi berdasarkan perhitungan peluang. Misalkan C = ( 1,..., ), nilai m adalah jumlah kelas yang digunakan. Untuk sebuah dokumen baru D yang belum diklasifikasikan, dokumen tersebut terdiri dari W =( 1,…., ) dengan W adalah daftar

tepat untuk setiap dokumen uji (Li & Jain 1998). Nilai P(wi|cj) didapatkan dari:

(kata unik) seluruh dokumen.

Metode Bernoulli

Bernoulli merupakan metode klasifikasi berdasarkan perhitungan peluang. Perhitungannya mirip dengan metode Naïve Bayes. Perbedaannya adalah � ( │�)

merupakan rasio dokumen dari kelas c yang

mengandung kata w dan adanya indikator kata, jika kata d berada di kelas c maka diberikan nilai 1, selainnya 0 (Manning et al. 2008).

Metode Poisson Naїve Bayes

Metode ini merupakan pengembangan dari metode Naїve Bayes, dengan mengibaratkan setiap dokumen uji sebagai selang kejadian serta

term yang sesuai dengan dokumen latih sebagai kejadian yang diinginkan (Kim 2001). Oleh karena itu, dapat digunakan sebaran Poisson

untuk mendapatkan peluang kejadian tersebut. Persamaan yang digunakan untuk mendapatkan peluang Poisson Naїve Bayes adalah sebagai berikut:

�( | ) =

.( ). +( )

Nilai P(c) merupakan banyaknya dokumen pada kelas c pada dokumen latih, sedangkan P( )

adalah banyaknya dokumen pada kelas bukan c

pada dokumen latih. Nilai e merupakan bilangan

natural, dan � didapatkan dengan persamaan

Nilai |V| merupakan jumlah kata unik pada setiap dokumen uji, nilai merupakan panjang dokumen uji, � merupakan jumlah dokumen latih pada kelas c, sedangkan � merupakan jumlah dokumen latih pada kelas bukan c. Nilai merupakan normalisasi dari setiap term pada dokumen uji, dan adalah nilai normalisasi setiap term pada dokumen latih dengan persamaan sebagai berikut:

= +�

(28)

Nilai θ merupakan Laplace smoothing, merupakan jumlah seluruh kata pada setiap dokumen, dan V merupakan jumlah kata unik pada dokumen latih.

Nilai merupakan nilai pembobotan fitur. Nilai a pada persamaan adalah banyaknya

term i pada kelas c, sedangkan variabel b adalah banyaknya term selain i pada kelas c. Variabel c

merupakan banyaknya term i pada kelas selain c, sedangkan d merupakan banyaknya term selain i

pada kelas selain c.

Metode k-NN

Metode k-NN merupakan teknik klasifikasi yang memasukkan dokumen ke dalam mayoritas kelas dari k tetangga terdekatnya dengan k

adalah sebuah parameter (Manning et al. 2008). Parameter k dalam k-NN seringkali dipilih berdasarkan pada pengalaman atau pengetahuan tentang masalah klasifikasi.

Metode Dynamic Classifier Selection with Local Accuracies

Dynamic Classifier Selection with Local Accuracies (DCS-LA) merupakan metode klasifikasi yang menggabungkan beberapa

classifier dan metode k-NN (Morales et al. 2008). Ilustrasi algoritme dari DCS-LA sebagai berikut:

1 Rancang classifier individu D1,...,DL, dan

pilih parameter k.

2 Setelah dapatkan nilai x yang dilabelkan oleh

D1,...,DL. Jika semua classifier sepakat pada

label x, maka diberikan label x.

3 Jika classifier tidak sepakat maka dilakukan perhitungan akurasi lokal dari setiap Di, i=1...L. Pilih k dokumen terbaik dari setiap

classifier. Lakukan pembobotan terhadap setiap dokumen, sehingga didapatkan bobot dari classifier. Pilih classifier dengan bobot paling besar.

4 Jika hasil perhitungan akurasinya sama maka pilih salah satu saja, karena dianggap menghasilkan hasil yang sama saja.

Inverse Distance Weighting (IDW)

Inverse Distance Weighting merupakan salah satu teknik pemilihan dalam k-NN. Teknik ini memberikan bobot terhadap masing-masing komponen k-top dokumen yang terpilih dengan

inverse jarak (distance) terhadap dokumen latih (Morales et al. 2008). Persamaan Inverse Distance Weighting didapat dari:

= 1 ≠0

dengan wj adalah Inverse Distance Weighting

dari setiap k-top dokumen yang terpilih. Nilai dj

adalah distance (jarak) yang dihitung dengan metode Euclidean Distance.

Confusion Matrix

Confusion matrix merupakan tabel yang digunakan untuk menentukan kinerja suatu model klasifikasi (Hamel 2008). Contoh tabel

confusion matrix dapat dilihat pada Tabel 1. Perhitungan akurasi dengan menggunakan tabel

confusion matrix adalah:

Akurasi = �11+�00

�11+�10+�01+�00

Tabel 1 Confusion matrix

Kelas Prediksi

Penelitian ini dilaksanakan dalam beberapa tahap yaitu pengumpulan data, pengolahan data, implementasi sistem, klasifikasi DCS-LA dengan Inverse Distance Weighting (IDW), evaluasi klasifikasi dan melakukan perbandingan sistem. Tahap-tahap yang dilakukan dalam penelitian ini diilustrasikan pada Gambar 1.

(29)

Nilai θ merupakan Laplace smoothing, merupakan jumlah seluruh kata pada setiap dokumen, dan V merupakan jumlah kata unik pada dokumen latih.

Nilai merupakan nilai pembobotan fitur. Nilai a pada persamaan adalah banyaknya

term i pada kelas c, sedangkan variabel b adalah banyaknya term selain i pada kelas c. Variabel c

merupakan banyaknya term i pada kelas selain c, sedangkan d merupakan banyaknya term selain i

pada kelas selain c.

Metode k-NN

Metode k-NN merupakan teknik klasifikasi yang memasukkan dokumen ke dalam mayoritas kelas dari k tetangga terdekatnya dengan k

adalah sebuah parameter (Manning et al. 2008). Parameter k dalam k-NN seringkali dipilih berdasarkan pada pengalaman atau pengetahuan tentang masalah klasifikasi.

Metode Dynamic Classifier Selection with Local Accuracies

Dynamic Classifier Selection with Local Accuracies (DCS-LA) merupakan metode klasifikasi yang menggabungkan beberapa

classifier dan metode k-NN (Morales et al. 2008). Ilustrasi algoritme dari DCS-LA sebagai berikut:

1 Rancang classifier individu D1,...,DL, dan

pilih parameter k.

2 Setelah dapatkan nilai x yang dilabelkan oleh

D1,...,DL. Jika semua classifier sepakat pada

label x, maka diberikan label x.

3 Jika classifier tidak sepakat maka dilakukan perhitungan akurasi lokal dari setiap Di, i=1...L. Pilih k dokumen terbaik dari setiap

classifier. Lakukan pembobotan terhadap setiap dokumen, sehingga didapatkan bobot dari classifier. Pilih classifier dengan bobot paling besar.

4 Jika hasil perhitungan akurasinya sama maka pilih salah satu saja, karena dianggap menghasilkan hasil yang sama saja.

Inverse Distance Weighting (IDW)

Inverse Distance Weighting merupakan salah satu teknik pemilihan dalam k-NN. Teknik ini memberikan bobot terhadap masing-masing komponen k-top dokumen yang terpilih dengan

inverse jarak (distance) terhadap dokumen latih (Morales et al. 2008). Persamaan Inverse Distance Weighting didapat dari:

= 1 ≠0

dengan wj adalah Inverse Distance Weighting

dari setiap k-top dokumen yang terpilih. Nilai dj

adalah distance (jarak) yang dihitung dengan metode Euclidean Distance.

Confusion Matrix

Confusion matrix merupakan tabel yang digunakan untuk menentukan kinerja suatu model klasifikasi (Hamel 2008). Contoh tabel

confusion matrix dapat dilihat pada Tabel 1. Perhitungan akurasi dengan menggunakan tabel

confusion matrix adalah:

Akurasi = �11+�00

�11+�10+�01+�00

Tabel 1 Confusion matrix

Kelas Prediksi

Penelitian ini dilaksanakan dalam beberapa tahap yaitu pengumpulan data, pengolahan data, implementasi sistem, klasifikasi DCS-LA dengan Inverse Distance Weighting (IDW), evaluasi klasifikasi dan melakukan perbandingan sistem. Tahap-tahap yang dilakukan dalam penelitian ini diilustrasikan pada Gambar 1.

(30)

Pengumpulan Dokumen

Dokumen yang digunakan dalam penelitian ini sama dengan dokumen yang digunakan dalam penelitian Ramadhan (2010). Dokumen ini merupakan dokumen data publikasi hasil penelitian hortikultura dari badan penelitian dan pengembangan pertanian (Litbang) dan dokumen berita digital yang bersumber dari Media Indonesia.

Klasifikasi dokumen pertanian menggunakan klasifikasi manual oleh Litbang dan Media Indonesia. Dokumen pertanian diklasifikasikan menjadi tiga kelas yaitu:

1 Kelas Ekofisiologi dan Argonomi (EA). 2 Kelas Pemuliaan dan Teknologi Benih

(PTB).

3 Kelas Proteksi (P).

Dokumen berita diklasifikasikan menjadi lima kelas yaitu:

Pada dokumen pertanian setiap kelas memiliki 83 dokumen. Dokumen tersebut dibagi lagi menjadi data latih dan data uji dengan proposisi dokumen latih 70% dan dokumen uji 30% sehingga jumlah dokumen latih setiap kelas adalah 58 dan jumlah dokumen uji adalah 25. Pada dokumen berita setiap kelas berjumlah 150 dokumen. Jumlah dokumen latih setiap kelas 100 dan jumlah dokumen uji 50.

Gambar 2 Format XML.

Keseluruhan abstrak dari dokumen pertanian telah diubah dalam format XML oleh Ramadhan (2010), sedangkan untuk dokumen berita diubah dalam format XML oleh Juniawan (2009) seperti

pada Gambar 2. Contoh dokumen pertanian dalam format XML dapat dilihat pada Lampiran 1 dan dokumen berita pada Lampiran 2.

Implementasi Sistem

Implementasi sistem menggunakan bahasa pemrograman PHP dan MySQL sebagai tempat penyimpanan data.

Klasifikasi DCS-LA dengan Inverse Distance Weighting

Dalam metode DCS-LA dilakukan proses pengolahan data yaitu pengindeksan dokumen, klasifikasi dengan classifier, dan klasifikasi DCS-LA. Pengolahan data dilakukan dengan sistem yang digunakan oleh Cidhy (2009), yaitu dengan menghilangkan stopword, serta proses

indexing yaitu membagi setiap dokumen kedalam term-term kata berdasarkan dokumen dan kelas asal dokumen. Stopword yang digunakan dalam penelitian ini adalah stopword

yang dibuat oleh Ridha (2002).

Klasifikasi dilakukan dengan empat classifier

yaitu Rocchio, Naїve Bayes, Bernoulli, dan

Poisson Naїve Bayes. Hasil dari keempat

classifier ini disimpan dalam MySQL untuk digunakan dalam proses klasifikasi dengan DCS-LA. Dalam proses DCS-LA digunakan IDW dalam pembobotan k-NN untuk menentukan hasil klasifikasi.

Evaluasi Klasifikasi

Evaluasi dilakukan dengan cara membandingkan antara hasil DCS-LA dan hasil klasifikasi manual oleh Litbang dan Media Indonesia serta dihitung akurasinya dengan menggunakan confusion matrix.

Perbandingan Sistem

Perbandingan dilakukan antara sistem DCS-LA dengan IDW dan DCS-DCS-LA tanpa IDW. Perbandingan ini digunakan dokumen yang sama dan jumlah yang sama. Perbandingan juga dilakukan terhadap DCS-LA dengan menggunakan tiga classifier dan DCS-LA dengan empat classifier.

Lingkungan Implementasi

Gambar

Gambar 1  Metode penelitian.
Tabel  2  Confusion matrix metode Rocchio
Tabel  6  Confusion matrix metode Bernoulli   dengan dokumen pertanian
Gambar 3  Grafik hasil klasifikasi DCS-LA
+7

Referensi

Dokumen terkait

Namun yang paling diminati oleh masyarakat pesisir khususnya di Desa Wosi adalah karang yang digunakan untuk pembuatan pembangunan, maka seiring dengan

Sebagaimana dilansir oleh Daud Ali dalam bukunya Hukum Islam bahwa ilmu fiqih adalah ilmu yang mempelajari atau memahami syariat dengan memusatkan perhatiannya

3.2 pengenceran desimal lanjutan suspensi atau larutan yang diperoleh dengan mencampur volume suspensi awal yang diukur 3.3 dengan sembilan kali volume pengencer dan

Menurut [1] , rekam medis adalah rekaman atau catatan mengenai siapa, apa, mengapa, bilamana, dan bagaimana pelayanan yang diberikan kepada pasien selama masa perawatan,

Kegiatan sosialisasi pelaksanaan JDIH ditutup oleh Kepala Divisi Pelayanan Hukum Kantor Wilayah Kementerian Hukum Dan Ham Provinsi Sulawesi Selatan dengan ucapan terima kasih

Program adalah perwujudan / implementasi teknis algoritma yang ditulis atau logika pemecahan masalah yang ditulis dalam bahasa pemrograman tertentu sehingga dapat

mengkaji pola pengembangan reklamasi Pantai Seruni di Kelurahan Tappanjeng dilakukan dengan cara metode analisis Overlay yakni kemampuan untuk menempatkan grafis satu

Data kadar ureum darah mencit berdistribusi normal dan homogen, maka dilanjutkan dengan analisis data dengan menggunakan one way anova untuk mengetahui pengaruh pemberian