• Tidak ada hasil yang ditemukan

Praproses

Dokumen dalam format XML terdiri atas data latih dan data uji serta dilakukan proses

indexing menggunakan sistem dari Cidhy (2009). Pada dokumen latih pertanian yang berjumlah 174 dihasilkan 2868 kata unik atau

term sedangkan pada dokumen latih berita yang berjumlah 500 dihasilkan 11285 kata unik.

Pelatihan

Pada tahap pelatihan ini keempat metode atau

classifier memiliki cara yang berbeda dalam perhitungannya. Pada metode Rocchio kata unik atau term dihitung bobotnya dengan metode

sublinear tf scaling. Setelah itu term atau kata unik dianggap sebuah vektor dan setiap kelas dihitung vektor centroid-nya masing-masing. Nilai vektor centroid disimpan dalam database

untuk digunakan dalam perhitungan klasifikasi berikutnya.

Pada metode Naїve Bayes, dihitung peluang dari setiap term atau kata unik dan peluang prior dari setiap dokumen latih. Nilai peluang dari setiap term atau kata disimpan dalam database. Pada metode Bernoulli, dihitung juga peluang dari setiap term atau kata unik dan peluang prior dari setiap dokumen latih. Nilai peluang dari setiap term atau kata juga disimpan dalam

database seperti pada metode NaїveBayes. Pada metode Poisson Naїve Bayes dihitung peluang dari setiap term, nilai rata-rata dari distribusi poisson terhadap masing-masing kelas, dan bobot dari setiap term menggunakan pembobotan rasio peluang. Nilai peluang, bobot, dan nilai rata-rata distribusi poisson setiap term

disimpan dalam database.

Akurasi Classifier Tunggal

Pada metode Rocchio dokumen uji dihitung bobotnya dengan metode Sublinear tf scaling.

Setelah itu dihitung jarak centroid kelas dengan dokumen uji mengunakan metode Euclidean distance. Dokumen uji akan diklasifikasikan ke-

dalam kelas yang memiliki jarak terdekat dengan dokumen uji.

Akurasi klasifikasi dari setiap metode yang ada dapat dihitung dengan bantuan tabel

confusion matrix. Pada dokumen pertanian akurasi metode rocchio dihitung dengan tabel

confusion matrix yang dapat dilihat pada Tabel 2. Demikian juga akurasi untuk dokumen berita dapat dilihat pada Tabel 3.

Dari Tabel 2 dan Tabel 3 dapat dilihat bahwa pada dokumen pertanian banyak terjadi kesalahan pengklasifikasian sedangkan pada dokumen berita sedikit. Akurasi pada dokumen pertanian dengan metode Rocchio ini adalah 61.23%, dan untuk dokumen berita menghasilkan akurasi 97.2%. Akurasi pada dokumen pertanian lebih rendah dibandingkan dengan dokumen berita. Hal ini karena pada dokumen pertanian setiap kelasnya masih memiliki hubungan atau keterkaitan, sehingga setiap centroid kelas memiliki jarak yang sama. Akibat centorid jarak yang sama ini banyak terjadi kesalahan pengklasifikasian.

Pada dokumen berita hasil akurasinya tinggi karena tidak ada keterkaitan setiap kelas, sehingga jarak antara centroid setiap kelas berbeda. Akibatnya sedikit terjadi kesalahan pengklasifikasian. Hasil klasifikasi dengan metode ini sangat dipengaruhi oleh nilai centroid

setiap kelas.

Tabel 2 Confusion matrix metode Rocchio

dengan dokumen pertanian Kelas Prediksi Akurasi EA PTB P Kelas yang sebenarnya EA 16 5 4 0.64 PTB 4 18 3 0.72 P 9 4 12 0.48

Tabel 3 Confusion matrix metode Rocchio

dengan dokumen berita Kelas Prediksi Akurasi B E K L P Kelas yang sebe- narnya B 48 1 0 0 1 0.96 E 0 50 0 1 0 1.00 K 0 1 48 1 0 0.96 L 0 1 0 48 1 0.96 P 0 0 0 1 49 0.98

4 MySQL sebagai database.

5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil

penelitian dan pembuatan grafik. Perangkat keras:

1 ProsesorIntel Core i3. 2 RAM 2 GB.

3 Harddisk 450 GB.

HASIL DAN PEMBAHASAN

Praproses

Dokumen dalam format XML terdiri atas data latih dan data uji serta dilakukan proses

indexing menggunakan sistem dari Cidhy (2009). Pada dokumen latih pertanian yang berjumlah 174 dihasilkan 2868 kata unik atau

term sedangkan pada dokumen latih berita yang berjumlah 500 dihasilkan 11285 kata unik.

Pelatihan

Pada tahap pelatihan ini keempat metode atau

classifier memiliki cara yang berbeda dalam perhitungannya. Pada metode Rocchio kata unik atau term dihitung bobotnya dengan metode

sublinear tf scaling. Setelah itu term atau kata unik dianggap sebuah vektor dan setiap kelas dihitung vektor centroid-nya masing-masing. Nilai vektor centroid disimpan dalam database

untuk digunakan dalam perhitungan klasifikasi berikutnya.

Pada metode Naїve Bayes, dihitung peluang dari setiap term atau kata unik dan peluang prior dari setiap dokumen latih. Nilai peluang dari setiap term atau kata disimpan dalam database. Pada metode Bernoulli, dihitung juga peluang dari setiap term atau kata unik dan peluang prior dari setiap dokumen latih. Nilai peluang dari setiap term atau kata juga disimpan dalam

database seperti pada metode NaїveBayes. Pada metode Poisson Naїve Bayes dihitung peluang dari setiap term, nilai rata-rata dari distribusi poisson terhadap masing-masing kelas, dan bobot dari setiap term menggunakan pembobotan rasio peluang. Nilai peluang, bobot, dan nilai rata-rata distribusi poisson setiap term

disimpan dalam database.

Akurasi Classifier Tunggal

Pada metode Rocchio dokumen uji dihitung bobotnya dengan metode Sublinear tf scaling.

Setelah itu dihitung jarak centroid kelas dengan dokumen uji mengunakan metode Euclidean distance. Dokumen uji akan diklasifikasikan ke-

dalam kelas yang memiliki jarak terdekat dengan dokumen uji.

Akurasi klasifikasi dari setiap metode yang ada dapat dihitung dengan bantuan tabel

confusion matrix. Pada dokumen pertanian akurasi metode rocchio dihitung dengan tabel

confusion matrix yang dapat dilihat pada Tabel 2. Demikian juga akurasi untuk dokumen berita dapat dilihat pada Tabel 3.

Dari Tabel 2 dan Tabel 3 dapat dilihat bahwa pada dokumen pertanian banyak terjadi kesalahan pengklasifikasian sedangkan pada dokumen berita sedikit. Akurasi pada dokumen pertanian dengan metode Rocchio ini adalah 61.23%, dan untuk dokumen berita menghasilkan akurasi 97.2%. Akurasi pada dokumen pertanian lebih rendah dibandingkan dengan dokumen berita. Hal ini karena pada dokumen pertanian setiap kelasnya masih memiliki hubungan atau keterkaitan, sehingga setiap centroid kelas memiliki jarak yang sama. Akibat centorid jarak yang sama ini banyak terjadi kesalahan pengklasifikasian.

Pada dokumen berita hasil akurasinya tinggi karena tidak ada keterkaitan setiap kelas, sehingga jarak antara centroid setiap kelas berbeda. Akibatnya sedikit terjadi kesalahan pengklasifikasian. Hasil klasifikasi dengan metode ini sangat dipengaruhi oleh nilai centroid

setiap kelas.

Tabel 2 Confusion matrix metode Rocchio

dengan dokumen pertanian Kelas Prediksi Akurasi EA PTB P Kelas yang sebenarnya EA 16 5 4 0.64 PTB 4 18 3 0.72 P 9 4 12 0.48

Tabel 3 Confusion matrix metode Rocchio

dengan dokumen berita Kelas Prediksi Akurasi B E K L P Kelas yang sebe- narnya B 48 1 0 0 1 0.96 E 0 50 0 1 0 1.00 K 0 1 48 1 0 0.96 L 0 1 0 48 1 0.96 P 0 0 0 1 49 0.98

Pada metode Naїve Bayes, peluang setiap

term pada dokumen uji akan dihitung. Setelah itu dihitung peluang dokumen uji terhadap kelas yang ada. Dokumen uji akan dimasukkan pada kelas yang memiliki peluang terbesar. Akurasi pada dokumen pertanian dengan metode Naїve Bayes dihitung dengan menggunakan bantuan tabel confusion matrix pada Tabel 4. Hal serupa dilakukan pada dokumen berita, hasil akurasinya dapat dilihat pada Tabel 5.

Tabel 4 Confusion matrix metode Naїve Bayes

dengan dokumen pertanian Kelas Prediksi Akurasi EA PTB P Kelas yang sebenarnya EA 13 5 7 0.52 PTB 2 20 3 0.80 P 4 5 16 0.64

Tabel 5 Confusion matrix metode Naїve Bayes

dengan dokumen berita Kelas Prediksi Akurasi B E K L P Kelas yang sebe- narnya B 46 1 1 0 2 0.92 E 0 48 0 1 1 0.96 K 0 0 49 1 0 0.98 L 0 1 0 48 1 0.96 P 2 0 0 0 48 0.96 Dari Tabel 4 dan Tabel 5 dapat dilihat pada dokumen pertanian terjadi banyak kesalahan pengklasifikasian sedangkan pada dokumen berita sedikit. Akurasi pada dokumen pertanian dengan metode Naїve Bayes ini adalah 65.33%, dan untuk dokumen berita menghasilkan 76.8%. Akurasi dokumen berita lebih tinggi dibandingkan dokumen pertanian. Hal ini karena pada dokumen berita setiap kelasnya saling bebas atau tidak ada keterkaitan antara kelasnya. Akibatnya setiap kelas memiliki penciri kata atau term yang berbeda, sehingga terjadi sedikit kesalahan pengklasifikasian.

Pada dokumen pertanian hasil akurasinya rendah karena setiap kelas memiliki keterkaitan. Akibatnya kata atau term dari masing-masing kelas sama, sehingga banyak terjadi kesalahan pengklasifikasian.

Pada metode Bernoulli peluang kata atau

term dari dokumen uji akan dihitung. Setelah itu dihitung peluang dokumen uji masuk ke dalam

kelas yang ada. Perhitungan ini mirip dengan metode Naїve Bayes, perbedaannya adalah metode Bernoulli hanya memperhitungkan rasio dokumen dari setiap kelas yang mengandung kata atau term. Akurasi pada dokumen pertanian dengan metode Bernoulli dihitung dengan menggunakan bantuan tabel confusion matrix

pada Tabel 6. Demikian juga hasil akurasi untuk dokumen berita dapat dilihat pada Tabel 7.

Dari Tabel 6 dan Tabel 7 dapat dilihat pada dokumen berita terjadi sedikit kesalahan pengklasifikasian sedangkan pada dokumen pertanian banyak kesalahan pengklasifikasian. Akurasi pada dokumen pertanian dengan metode

Bernoulli ini adalah 61.33%, dan untuk dokumen berita menghasilkan 76.8%. Akurasi dari dokumen berita lebih tinggi dari dokumen pertanian karena pada dokumen pertanian setiap kelasnya memiliki keterkaitan sehingga kata atau

term dari setiap kelas sama. Akibatnya banyak terjadi kesalahan pengklasifikasian.

Pada dokumen berita akurasinya tinggi karena setiap kelasnya tidak ada keterkaitan sehingga kata atau term dari setiap kelas berbeda. Akibatnya terjadi sedikit kesalahan pengklasifikasian.

Tabel 6 Confusion matrix metode Bernoulli

dengan dokumen pertanian Kelas Prediksi Akurasi EA PTB P Kelas yang sebenarnya EA 11 1 13 0.44 PTB 2 16 7 0.64 P 3 3 19 0.76

Tabel 7 Confusion matrix metode Bernoulli

dengan dokumen berita Kelas Prediksi Akurasi B E K L P Kelas yang sebe- narnya B 37 2 2 1 8 0.74 E 0 27 0 5 18 0.54 K 0 0 38 4 8 0.76 L 0 0 0 41 9 0.82 P 0 1 0 0 49 0.98

Pada metode Poisson Naїve Bayes dokumen uji dihitung bobot setiap term ( ), serta nilai rata-rata kemunculan kata setiap dokumen pada kelas c dan kelas bukan c ( dan ). Setelah itu, dihitung peluang dokumen uji terhadap kelas

yang ada. Dokumen uji akan dimasukkan pada kelas yang memiliki peluang terbesar. Akurasi pada dokumen pertanian dengan metode Poisson Naїve Bayes dihitung dengan menggunakan bantuan tabel confusion matrix pada Tabel 8. Hal serupa dilakukan pada dokumen berita, sehingga hasil akurasinya dapat dilihat pada Tabel 9. Tabel 8 Confusion matrix metode Poisson Naïve

Bayes dengan dokumen pertanian Kelas Prediksi Akurasi EA PTB P Kelas yang sebenarnya EA 14 9 2 0.56 PTB 4 19 2 0.76 P 8 6 11 0.44

Tabel 9 Confusion matrix metode Poisson Naïve Bayes dengan dokumen berita

Kelas Prediksi Akurasi B E K L P Kelas yang sebe- narnya B 50 0 0 0 0 1.00 E 0 50 0 0 0 1.00 K 0 0 50 0 0 1.00 L 0 4 1 43 2 0.86 P 0 0 0 1 49 0.98 Dari Tabel 8 dan Tabel 9 dapat dilihat pada dokumen berita terjadi sedikit kesalahan pengklasifikasian sedangkan pada dokumen pertanian banyak kesalahan pengklasifikasian. Akurasi pada dokumen pertanian dengan metode

Poisson Naїve Bayes ini adalah 58.67 %, dan untuk dokumen berita menghasilkan akurasi 96.8%. Akurasi dari dokumen berita lebih tinggi dari dokumen pertanian karena pada dokumen pertanian setiap kelasnya memiliki keterkaitan atau tidak saling bebas sehingga kata atau term

dari setiap kelas sama. Akibatnya banyak terjadi kesalahan pengklasifikasian.

Pada dokumen berita akurasinya tinggi karena setiap kelasnya tidak ada keterkaitan atau saling bebas sehingga kata atau term dari setiap kelas berbeda. Akibatnya terjadi sedikit kesalahan pengklasifikasian.

Klasifikasi DCS-LA

Hasil klasifikasi dari empat classifier

dihitung dengan metode DCS-LA. Pada perhitungan pertama dilakukan simple voting. Jika semua classifier ini menghasilkan kelas

yang sama atau setuju maka langsung dilabelkan kelas tersebut. Jika hasil klasifikasi masing- masing classifier berbeda maka dilakukan proses

k-NN. Pada perhitungan k-NN, digunakan IDW sebagai pembobotan untuk menentukan hasil klasifikasi yang terpilih.

Pada dokumen pertanian dan berita dilakukan beberapa percobaan dengan nilai k = 1 sampai k

= 30. Pada dokumen pertanian akurasi tertinggi terdapat pada nilai k sama dengan 24 dan 25 sebesar 66.67%. Akurasi terendah pada klasifikasi DCS-LA ini adalah ketika k bernilai 6 sampai 30 sebesar 57.33%. Pada dokumen berita akurasi tertinggi terdapat pada k = 1 sebesar 97.6% dan terendah ketika k bernilai 3 sampai 30 sebesar 96.4%. Hasil akurasi klasifikasi DCS-LA dapat dilihat pada Gambar 3.

Gambar 3 Grafik hasil klasifikasi DCS-LA menggunakan IDW.

Dari Gambar 3 dapat dilihat bahwa akurasi dari dokumen berita lebih tinggi dari dokumen pertanian. Hasil ini dipengaruhi oleh akurasi dari setiap classifier. Semakin tinggi akurasi dari setiap classifier maka semakin tinggi pula akurasi dari DCS-LA begitu pula sebaliknya.

Pada dokumen pertanian parameter-k

mempengaruhi akurasi klasifikasi, terlihat bahwa rentang akurasi dari dokumen pertanian mencapai 9.34%. Pada dokumen berita parameter-k tidak berpengaruh secara signifikan, terlihat bahwa rentang akurasinya hanya 1.2%. Perbandingan akurasi ini dapat dilihat pada Gambar 3.

Hasil akurasi pada dokumen pertanian dengan metode DCS-LA adalah 66.67%, sedangkan pada dokumen berita sebesar 96.4% Pada penelitian ini, tinggi rendahnya akurasi yang dimiliki oleh DCS-LA dipengaruhi oleh ke-

0% 20% 40% 60% 80% 100% 120% 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 Dokumen Pertanian Dokumen Berita Parameter- k

empat classifier yaitu: Rocchio, Naїve Bayes,

Bernoulli dan PoissonNaїve Bayes.

Dari Gambar 3 akurasi DCS-LA pada dokumen pertanian lebih rendah dibandingan dokumen berita. Hal ini disebabkan pada dokumen berita setiap kelasnya tidak berhubungan atau saling bebas, sedangkan pada dokumen pertanian setiap kelasnya berkaitan. Keterkaitan antarkelas pada dokumen pertanian dan berita masing-masing 48% dan 10% (Ramadhan 2010), keterkaitan yang kecil pada dokumen berita mempengaruhi akurasi klasifikasi

Jika dihitung akurasi rata-rata dari classifier

pada dokumen pertanian sebesar 61% dan dokumen berita sebesar 91.6%. Jika dibandingkan akurasi rata-rata dengan akurasi DCS-LA, maka metode DCS-LA memiliki akurasi yang lebih tinggi dari akurasi rata-rata

classifier. Akurasi dapat ditingkatkan dengan penambahan classifier. Perbandingan akurasi setiap classifier dengan DCS-LA dapat dilihat pada Gambar 4.

Gambar 4 Diagram perbandingan classifier

dengan DCS-LA.

Perbandingan Klasifikasi

Perbandingan dilakukan dengan cara membandingkan DCS-LA yang menggunakan IDW dengan DCS-LA tanpa IDW dari Ramadhan (2010). Hasil akurasi DCS-LA dengan IDW lebih baik dibandingkan DCS-LA tanpa IDW. Perbandingan akurasi ini dapat dilihat pada Gambar 5.

Penambahan satu classifier yaitu Poisson Naїve Bayes dapat menambah akurasi dari DCS- LA. Pada Gambar 5 dapat dilihat bahwa DCS-

LA dengan empat classifier memiliki akurasi yang lebih tinggi dibandingkan dengan DCS-LA dengan tiga classifier. DCS-LA tanpa IDW dengan tiga classifier menghasilkan akurasi 56% untuk dokumen pertanian dan 86% untuk dokumen berita, dan pada DCS-LA tanpa IDW dengan empat classifier menghasilkan akurasi 61.33% untuk dokumen pertanian dan 91.6% untuk dokumen berita.

Gambar 5 Perbandingan akurasi DCS-LA: a = klasifikasi DCS-LA tanpa IDW dengan tiga classifier, b = klasifikasi DCS-LA tanpa IDW dan empat

classifier, c = klasifikasi DCS-LA dengan IDW dan tiga classifier, d = klasifikasi DCS-LA dengan IDW dan empat classifier.

Pengaruh penambahan Poisson Naїve Bayes

pada dokumen pertanian dapat dilihat pada Lampiran 3. Pada Lampiran 3 terdapat dua kasus (dokumen nomor 25 dan 67) yang menunjukkan bahwa tiga classifierRocchio, Naїve Bayes dan

Bernoulli menghasilkan kelas prediksi yang salah sedangkan Poisson Naїve Bayes

menghasilkan kelas prediksi yang benar, sehingga menghasilkan kelas prediksi dari DCS- LA yang benar.

Penambahan pembobotan IDW juga dapat meningkatkan akurasi dari DCS-LA. Pada Gambar 5 dapat dilihat untuk DCS-LA dengan tiga classifier bahwa penambahan IDW pada metode tersebut dapat meningkatkan akurasi sampai 64% untuk dokumen pertanian dan 94 % untuk dokumen berita. Begitu pula dengan DCS-LA dengan empat classifier yang akurasinya meningkat menjadi 66.67% untuk dokumen pertanian dan 96.4% untuk dokumen berita setelah penambahan IDW.

61% 65% 61% 58% 66% 97% 95% 76% 96% 96% 0% 20% 40% 60% 80% 100% 120%

Dokumen pertanian Dokumen berita

56% 61% 64% 66.67% 84% 91.60% 94% 96.40% 0% 20% 40% 60% 80% 100% 120% a b c d

Pengaruh penambahan pembobotan IDW pada dokumen pertanian dapat dilihat pada Lampiran 3. Pada Lampiran 3 terdapat tiga kasus (dokumen nomor 27, 58, dan 66) yang menunjukkan bahwa DCS-LA dengan penambahan IDW memiliki kelas prediksi yang benar sedangkan pada DCS-LA yang hanya menambahkan satu classifier menghasilkan kelas prediksi yang salah.

Pada Gambar 5 dapat dilihat pula bahwa penambahan IDW dapat meningkatkan akurasi lebih tinggi dibandingkan dengan hanya menambahkan satu classifier. Selain itu, penambahan IDW dan satu classifier sekaligus, memiliki akurasi yang lebih tinggi dibandingkan dengan hanya menambahkan satu classifier atau IDW saja.

Dokumen terkait