HASIL DAN PEMBAHASAN
Koleksi Dokumen
Koleksi dokumen yang digunakan pada penelitian ini berasal dari corpus Adisantoso & Ridha (2004). Jumlah dokumen pada koleksi ini adalah 1000 dokumen. Akan tetapi, koleksi yang terbagi dalam 30 kategori hanya 953 dokumen. Dalam penelitian ini, hanya digunakan 10 kategori yang memiliki jumlah dokumen terbanyak. Kemudian dari 10 kategori tersebut akan dibentuk profil kategori berdasarkan sebagian dari dokumen-dokumen dalam tiap kategori. Jumlah dari ukuran dokumen-dokumen yang akan digunakan sebagai profil kategori untuk tiap kategori dapat dilihat pada Tabel 1.
Tabel 1 Profil kategori
Kategori Ukuran
Profil (KB)
Bencana Kekeringan 40,9
Gagal Panen 61,3
Harga Komoditas Pertanian 140
Impor Beras 66,7
Institut Pertanian Bogor 58,8
Musim Panen 50,3 Pembangunan Pertanian 107 Penerapan Bioteknologi 72,9 Riset Pertanian 130 Tanaman Pangan 51,4 TOTAL 780 Kategori Dokumen
Penentuan kategori-kategori yang akan digunakan dalam penelitian adalah sepuluh kategori yang memiliki jumlah dokumen terbanyak pada koleksi dokumen. Dari tiap kategori yang telah ditentukan tersebut, dilakukan pembuatan profil untuk masing-masing kategori dan jenis-jenis kategori tersebut disimpan dalam tabel “Kategori”.
Jenis-jenis kategori dan jumlah dokumen perbandingan dalam penelitian ini dapat dilihat pada Tabel 2.
Pembuatan Profil
Proses pembuatan profil kategori dan profil dokumen pada dasarnya adalah sama, yaitu proses tokenizing, stopword, proses penambahan blank pada awal dan akhir tiap token, pemotongan N-gram untuk tiap nilai n, penyusunan ke dalam tabel-tabel tiap nilai n, dan pengurutan tabel-tabel tersebut berdasarkan jumlah tiap N-gramhasil pemotongan N-gram. Perbedaan proses pembuatan profil kategori dan
profil dokumen adalah pada banyaknya tabel yang dihasilkan.
Tabel 2 Kategori dokumen
Kategori Jumlah
Dokumen
Bencana Kekeringan 32
Gagal Panen 39
Harga Komoditas Pertanian 44
Impor Beras 33
Institut Pertanian Bogor 32
Musim Panen 32 Pembangunan Pertanian 37 Penerapan Bioteknologi 34 Riset Pertanian 56 Tanaman Pangan 35 TOTAL 374
Proses pembuatan profil kategori menghasilkan empat tabel, yaitu tabel bigram (2gram), trigram (3gram), quadgram (4gram) dan Ngram (2gram, 3gram, 4gram). Sedangkan pada proses pembuatan profil dokumen hanya menghasilkan satu tabel, yaitu tabel dari jenis kategorisasi teks yang akan digunakan (2gram, 3gram, 4gram atau Ngram).
Tabel 3 Perbandingan jumlah dokumen Kategori Jumlah Profil Jumlah Dokumen % Bencana Kekeringan 7 39 17,949% Gagal Panen 9 48 18,75% Harga Komoditas Pertanian 11 55 20% Impor Beras 8 41 19,512% Institut Pertanian Bogor 8 40 20% Musim Panen 8 40 20% Pembangunan Pertanian 9 46 19,565% Penerapan Bioteknologi 8 42 19,048% Riset Pertanian 13 69 18,841% Tanaman Pangan 8 43 18,605%
Pada Tabel 3 dapat dilihat bahwa jumlah dokumen yang akan digunakan dalam pembuatan profil tiap kategori adalah < 20% dari jumlah dokumen tiap kategori.
Jumlah N-gram tiap kategori hasil dari pembuatan profil kategori dapat dilihat pada Tabel 4. Dari Tabel 4 dapat dilihat bahwa untuk jumlah N-gram pada Bigram tidak ada yang mencapai 1000 N-gram. Sedangkan pada Trigram, jumlah N-gram tiap kategori adalah
2000 – 4000 N-gram. Dan untuk Quadgram dan Ngram, jumlah N-gram mencapai lebih dari 4000 N-gram. Hal ini dapat disebabkan pada Bigram, tiap N-gram tidak memiliki pengertian yang jelas dalam pengelompokan N-gram. Pada Trigram, pengelompokan N-gram sudah memiliki pengertian jelas dalam tiap kelompok N-gram. Sedangkan pada Quadgram dan Ngram, tiap N-gram memiliki pengertian yang sangat jelas untuk dapat dikelompokkan seperti mengelompokkan kata dasar satu dengan yang lainnya atau kata dasar dengan imbuhannya. Tabel 4 Jumlah N-gram tiap kategori
Kategori 2gram 3gram 4gram Ngram
Bencana Kekeringan 475 2205 4696 7376 Gagal Panen 524 2616 5906 9046 Harga Komoditas Pertanian 567 3108 7720 11395 Impor Beras 501 2455 5588 8544 Institut Pertanian Bogor 514 2510 5774 8798 Musim Panen 483 2292 5113 7888 Pembangunan Pertanian 545 2852 6809 10206 Penerapan Bioteknologi 537 2861 6860 10258 Riset Pertanian 605 3396 8825 12826 Tanaman Pangan 521 2501 5420 8442 0 2000 4000 6000 8000 10000 12000 14000 40.9 50.3 51.4 58.8 61.3 66.7 72.9 107.0 130.0 140.0
2gram 3gram 4gram Ngram
Gambar 4 Grafik jumlah N-gram dengan ukuran profil tiap kategori.
Pada Gambar 4 dapat dilihat perbandingan jumlah N-gram dengan ukuran profil tiap kategorinya, dapat diketahui bahwa semakin besar ukuran profil suatu kategori maka jumlah N-gram kategori tersebut juga cenderung semakin banyak. Meskipun hal ini juga sangat tergantung pada seberapa banyak kesalahan-kesalahan pada dokumen-dokumen yang digunakan untuk membuat profil kategori baik kesalahan pengetikan, pengejaan maupun kesalahan pengenalan suatu kata dalam dokumen. Semakin banyak kesalahan yang terjadi maka semakin banyak juga jumlah
N-gram yang dihasilkan pada proses pembuatan profil kategori.
Hasil Perbandingan Jarak Profil
Pengukuran jarak dalam proses kategorisasi teks adalah dengan menghitung perbedaan rank atau baris tabel tiap token antara profil dokumen dengan profil kategori. Hasil perbandingan ini kemudian dikalkulasikan untuk tiap kategori.
Proses perbandingan dilakukan berdasarkan banyaknya dokumen yang akan diklasifikasikan (374 dokumen). Tiap dokumen akan diklasifikasikan untuk tiap jenis N-gram (2gram, 3gram, 4gram dan Ngram).
Hal yang menarik dari hasil kalkulasi jarak tiap dokumen adalah semakin besar jumlah N-gram tiap profil dokumen maka akan semakin besar juga jarak antara dokumen tersebut dengan tiap kategori. Karena dengan semakin besar jumlah N-gram pada profil dokumen maka akan semakin bervariasi N-gram profil dokumen tersebut dan kondisi jarak maksimum akan semakin sering terjadi. Tetapi sebaliknya, semakin banyak jumlah N-gram pada profil suatu kategori maka akan semakin kecil jarak antara kategori tersebut dengan tiap dokumen. Hal ini disebabkan karena semakin banyak jumlah N-gram pada profil kategori maka kondisi jarak maksimum akan jarang terjadi.
Evaluasi Klasifikasi Dokumen Berdasarkan Jenis N-gram
Berdasarkan ukuran jarak yang telah didapatkan, kita dapat menentukan jarak suatu dokumen dengan tiap kategori. Dengan jarak tersebut kita dapat menentukan termasuk ke dalam kategori apa suatu dokumen dengan mencari nilai minimum jarak antara dokumen dan kategori tersebut.
Akan tetapi setiap jenis klasifikasi memiliki kinerja yang berbeda dan perlu dievaluasi. Hasil klasifikasi tiap jenis N-gram dapat dievaluasi sebagai berikut.
Pada klasifikasi Bigram dapat diketahui bahwa proses klasifikasi berhasil mengklasifikasikan setidaknya dua dokumen untuk tiap kategori. Klasifikasi Bigram mencapai kinerja tertinggi pada proses klasifikasi kategori Penerapan Bioteknologi (32,353%) dan mengalami kinerja terendah pada kategori Impor Beras (6,061%). Hasil klasifikasi Bigram selengkapnya dapat dilihat pada Tabel 5.
Tabel 5 Klasifikasi Bigram Kategori Jumlah Benar Persentase Benar Bencana Kekeringan 9 28,125% Gagal Panen 8 20,513% Harga Komoditas Pertanian 8 18,182% Impor Beras 2 6,061% Institut Pertanian Bogor 9 28,125% Musim Panen 8 25% Pembangunan Pertanian 11 29,73% Penerapan Bioteknologi 11 32,353% Riset Pertanian 17 30,357% Tanaman Pangan 9 25,714% Total / Rata-rata 92 24,416%
Tabel 6 Kategorisasi Bigram dua kategori
Kategori Impor Beras Penerapan Bioteknologi Bencana Kekeringan 1 0 Gagal Panen 4 3 Harga Komoditas Pertanian 7 2 Impor Beras 2 0 Institut Pertanian Bogor 0 2 Musim Panen 10 3 Pembangunan Pertanian 5 0 Penerapan Bioteknologi 0 11 Riset Pertanian 0 10 Tanaman Pangan 4 3 Jumlah 33 34
Dari perbandingan dua kategori yang memiliki kinerja tertinggi dan terendah pada Tabel 6 juga dapat dilihat bahwa pada klasifikasi kategori Impor Beras sebagian besar dokumen diklasifikasikan pada kategori Musim Panen yang mencapai sepuluh dokumen (30,303%). Sedangkan pada kategori Penerapan Bioteknologi sebagian besar dokumen berhasil diklasifikasikan dengan benar walaupun cukup banyak diklasifikasikan pada kategori Riset Pertanian yang mencapai sepuluh dokumen (29,412%). Hal ini karena terdapat kesamaan topik antara Penerapan Bioteknologi dengan Riset Pertanian. Hasil lengkap kategorisasi Bigram dapat dilihat pada Lampiran 1.
Pada Tabel 7 untuk klasifikasi Trigram, proses kategorisasi berhasil mengklasifikasikan
minimal tiga dokumen untuk tiap kategori. Kinerja tertinggi terjadi pada kategori Bencana Kekeringan yang mencapai 81,25% dan memiliki kinerja terendah pada kategori Riset Pertanian (5,357%).
Tabel 7 Klasifikasi Trigram
Kategori Jumlah Benar Persentase Benar Bencana Kekeringan 26 81,25% Gagal Panen 4 10,256% Harga Komoditas Pertanian 6 13,636% Impor Beras 4 12,121% Institut Pertanian Bogor 12 37,5% Musim Panen 13 40,625% Pembangunan Pertanian 8 21,622% Penerapan Bioteknologi 10 29,412% Riset Pertanian 3 5,357% Tanaman Pangan 3 8,571% Total / Rata-rata 89 26,035%
Tabel 8 Kategorisasi Trigram dua kategori
Kategori Bencana Kekeringan Riset Pertanian Bencana Kekeringan 26 5 Gagal Panen 3 3 Harga Komoditas Pertanian 0 4 Impor Beras 0 5 Institut Pertanian Bogor 0 6 Musim Panen 3 18 Pembangunan Pertanian 0 0 Penerapan Bioteknologi 0 10 Riset Pertanian 0 3 Tanaman Pangan 0 2 Jumlah 32 56
Dari Tabel 8 dapat terlihat bahwa klasifikasi kategori Bencana Kekeringan yang memiliki kinerja tertinggi, hanya salah mengklasifikasikan enam dokumen yang terbagi rata tiga dokumen (9,375%) untuk kategori Gagal Panen dan kategori Musim Panen. Sedangkan kategori Riset Pertanian yang memiliki kinerja terendah, sebagian besar mengklasifikasikan dokumen pada kategori Musim Panen sebanyak delapan belas dokumen
(32,143%) dan kategori Penerapan Bioteknologi sebanyak sepuluh dokumen (17,857%). Hasil lengkap kategorisasi Trigram dapat dilihat pada Lampiran 2.
Tabel 9 Klasifikasi Quadgram
Kategori Jumlah Benar Persentase Benar Bencana Kekeringan 31 96,875% Gagal Panen 1 2,564% Harga Komoditas Pertanian 2 4,545% Impor Beras 4 12,121% Institut Pertanian Bogor 12 37,5% Musim Panen 8 25% Pembangunan Pertanian 4 10,811% Penerapan Bioteknologi 2 5,882% Riset Pertanian 0 0% Tanaman Pangan 4 11,429% Total / Rata-rata 68 20,673%
Tabel 10 Kategorisasi Quadgram dua kategori
Kategori Bencana Kekeringan Riset Pertanian Bencana Kekeringan 31 16 Gagal Panen 0 1 Harga Komoditas Pertanian 0 1 Impor Beras 0 4 Institut Pertanian Bogor 0 3 Musim Panen 1 28 Pembangunan Pertanian 0 0 Penerapan Bioteknologi 0 1 Riset Pertanian 0 0 Tanaman Pangan 0 2 Jumlah 32 56
Dengan melihat Tabel 9 dapat dikatakan bahwa pada klasifikasi Quadgram terdapat keanehan pada proses kategorisasi. Dapat terlihat pada kategori Bencana Kekeringan, proses kategorisasi berhasil mengklasifikasikan hampir semua dokumen dan memiliki kinerja tertinggi pada kategori ini yang mencapai 96,875%. Akan tetapi pada klasifikasi Quadgram, proses kategorisasi tidak
mengklasifikasikan satu dokumen pun dari 56 dokumen yang ada yang termasuk kategori Riset Pertanian.
Dengan melihat Tabel 10 dapat dikatakan bahwa kategori Bencana Kekeringan cukup mendominasi klasifikasi dokumen. Dengan mengklasifikasikan 31 dokumen benar dan hanya satu dokumen (3,125%) salah yang diklasifikasikan termasuk kategori Musim Panen. Sedangkan pada kategori Riset Pertanian, klasifikasi dokumen terkonsentrasi pada kategori Musim panen yang mencapai 28 dokumen atau 50% dari keseluruhan dokumen dan enam belas dokumen terklasifikasikan pada kategori Bencana Kekeringan tanpa ada satu dokumen pun yang termasuk klasifikasi kategori Riset Pertanian. Hasil lengkap kategorisasi Quadgram dapat dilihat pada Lampiran 3.
Dengan melihat pada Tabel 11 dapat dikatakan bahwa walaupun kategori Musim Panen dihilangkan dalam proses kategorisasi, klasifikasi Quadgram juga tidak berhasil mengklasifikasikan dokumen yang termasuk kategori Riset Pertanian dan lebih mengklasifikasikan sebagian besar dokumen pada kategori Bencana Kekeringan yang mencapai 34 dokumen (60,714%).
Tabel 11 Kategorisasi Quadgram tanpa kategori Musim Panen
Kategori Riset Pertanian
Bencana Kekeringan 34
Gagal Panen 1
Harga Komoditas Pertanian 2
Impor Beras 6
Institut Pertanian Bogor 4 Pembangunan Pertanian 0 Penerapan Bioteknologi 3
Riset Pertanian 0
Tanaman Pangan 6
Jumlah Dokumen 56
Pada klasifikasi Ngram memiliki beberapa kesamaan dengan klasifikasi Quadgram di mana pada klasifikasi kategori Bencana Kekeringan kinerja mencapai lebih dari 90%, yaitu 90,625% dan tidak mengklasifikasikan satu pun dokumen dari 56 dokumen kategori Riset Pertanian. Hasil lengkap dari klasifikasi Ngram dapat dilihat pada Tabel 12.
Tidak jauh berbeda dengan klasifikasi Quadgram pada kategori Bencana Kekeringan dan kategori Riset Pertanian. Klasifikasi Ngram berhasil mengklasifikasikan 29 dokumen yang termasuk kategori Bencana Kekeringan dan hanya salah mengklasifikasikan satu dokumen
(3,125%) yang termasuk kategori Gagal Panen dan dua dokumen (6,25%) yang termasuk kategori Musim Panen. Sedangkan untuk kategori Riset Pertanian, proses kategorisasi mengklasifikasikan 27 dokumen (48,214%) yang termasuk kategori Musim Panen. Ini dapat terlihat pada Tabel 13. Hasil lengkap kategorisasi Ngram dapat dilihat pada Lampiran 4.
Tabel 12 Klasifikasi Ngram
Kategori Jumlah Benar Persentase Benar Bencana Kekeringan 29 90,625% Gagal Panen 1 2,564% Harga Komoditas Pertanian 4 9,091% Impor Beras 6 18,182% Institut Pertanian Bogor 17 53,125% Musim Panen 9 28,125% Pembangunan Pertanian 5 13,514% Penerapan Bioteknologi 7 20,588% Riset Pertanian 0 0% Tanaman Pangan 3 8,571% Total / Rata-rata 81 24,439%
Tabel 13 Klasifikasi Ngram dua kategori
Kategori Bencana Kekeringan Riset Pertanian Bencana Kekeringan 29 9 Gagal Panen 1 1 Harga Komoditas Pertanian 0 2 Impor Beras 0 3 Institut Pertanian Bogor 0 6 Musim Panen 2 27 Pembangunan Pertanian 0 0 Penerapan Bioteknologi 0 4 Riset Pertanian 0 0 Tanaman Pangan 0 4 Jumlah 32 56
Hampir sama dengan hasil klasifikasi Quadgram, klasifikasi Ngram tanpa kategori Musim Panen juga tidak berhasil mengklasifikasikan dokumen untuk kategori Riset Pertanian. Akan tetapi pada klasifikasi Ngram, hasil klasifikasi dokumen
terdistribusikan hampir ke semua kategori dengan sebagian besar terklasifikasikan pada kategori Bencana Kekeringan sebanyak sembilan belas dokumen (33,929%) dan kategori Penerapan Bioteknologi sebanyak dua belas dokumen (21,429%). Hasil selengkapnya dapat dilihat pada Tabel 14.
Tabel 14 Klasifikasi Ngram tanpa kategori Musim Panen
Kategori Riset Pertanian
Bencana Kekeringan 19
Gagal Panen 2
Harga Komoditas Pertanian 3
Impor Beras 5
Institut Pertanian Bogor 8 Pembangunan Pertanian 1 Penerapan Bioteknologi 12
Riset Pertanian 0
Tanaman Pangan 6
Jumlah Dokumen 56
KESIMPULAN DAN SARAN
Kesimpulan
• Pada proses kategorisasi teks menggunakan N-gram, klasifikasi Trigram yang paling sesuai untuk dokumen-dokumen berbahasa Indonesia dengan persentase hasil 26,035%. • Klasifikasi Trigram juga cukup dapat
diandalkan untuk proses kategorisasi teks, karena semua kategori berhasil diklasifikasikan dengan benar dengan kinerja tertinggi 81,25% dan kinerja terendah 5,357%.
• Klasifikasi Trigram dianggap paling sesuai untuk implementasi Kategorisasi Teks karena pada dokumen berbahasa Indonesia, Trigram dapat mengelompokkan kata-kata dalam bahasa Indonesia baik kata-kata dasar maupun kata-kata yang berimbuhan tanpa menggunakan proses stemming. • Kategorisasi teks menggunakan N-gram
terbukti cukup efektif dalam mengklasifikasikan dokumen karena metode ini menggunakan pendekatan “kategorisasi menggunakan contoh” dengan cara mengumpulkan dan menggunakan profil kategori dari dokumen yang sudah ada.
• Dalam proses kategorisasi, masalah salah pengejaan suatu kata, karena pengetikan dan pengenalan suatu kata, tidak terlalu berpengaruh pada hasil klasifikasi dokumen secara keseluruhan.