• Tidak ada hasil yang ditemukan

HASIL DAN PEMBAHASAN. profil dokumen adalah pada banyaknya tabel yang dihasilkan. Tabel 2 Kategori dokumen Kategori

N/A
N/A
Protected

Academic year: 2021

Membagikan "HASIL DAN PEMBAHASAN. profil dokumen adalah pada banyaknya tabel yang dihasilkan. Tabel 2 Kategori dokumen Kategori"

Copied!
5
0
0

Teks penuh

(1)

HASIL DAN PEMBAHASAN

Koleksi Dokumen

Koleksi dokumen yang digunakan pada penelitian ini berasal dari corpus Adisantoso & Ridha (2004). Jumlah dokumen pada koleksi ini adalah 1000 dokumen. Akan tetapi, koleksi yang terbagi dalam 30 kategori hanya 953 dokumen. Dalam penelitian ini, hanya digunakan 10 kategori yang memiliki jumlah dokumen terbanyak. Kemudian dari 10 kategori tersebut akan dibentuk profil kategori berdasarkan sebagian dari dokumen-dokumen dalam tiap kategori. Jumlah dari ukuran dokumen-dokumen yang akan digunakan sebagai profil kategori untuk tiap kategori dapat dilihat pada Tabel 1.

Tabel 1 Profil kategori

Kategori Ukuran

Profil (KB)

Bencana Kekeringan 40,9

Gagal Panen 61,3

Harga Komoditas Pertanian 140

Impor Beras 66,7

Institut Pertanian Bogor 58,8

Musim Panen 50,3 Pembangunan Pertanian 107 Penerapan Bioteknologi 72,9 Riset Pertanian 130 Tanaman Pangan 51,4 TOTAL 780 Kategori Dokumen

Penentuan kategori-kategori yang akan digunakan dalam penelitian adalah sepuluh kategori yang memiliki jumlah dokumen terbanyak pada koleksi dokumen. Dari tiap kategori yang telah ditentukan tersebut, dilakukan pembuatan profil untuk masing-masing kategori dan jenis-jenis kategori tersebut disimpan dalam tabel “Kategori”.

Jenis-jenis kategori dan jumlah dokumen perbandingan dalam penelitian ini dapat dilihat pada Tabel 2.

Pembuatan Profil

Proses pembuatan profil kategori dan profil dokumen pada dasarnya adalah sama, yaitu proses tokenizing, stopword, proses penambahan blank pada awal dan akhir tiap token, pemotongan N-gram untuk tiap nilai n, penyusunan ke dalam tabel-tabel tiap nilai n, dan pengurutan tabel-tabel tersebut berdasarkan jumlah tiap N-gramhasil pemotongan N-gram. Perbedaan proses pembuatan profil kategori dan

profil dokumen adalah pada banyaknya tabel yang dihasilkan.

Tabel 2 Kategori dokumen

Kategori Jumlah

Dokumen

Bencana Kekeringan 32

Gagal Panen 39

Harga Komoditas Pertanian 44

Impor Beras 33

Institut Pertanian Bogor 32

Musim Panen 32 Pembangunan Pertanian 37 Penerapan Bioteknologi 34 Riset Pertanian 56 Tanaman Pangan 35 TOTAL 374

Proses pembuatan profil kategori menghasilkan empat tabel, yaitu tabel bigram (2gram), trigram (3gram), quadgram (4gram) dan Ngram (2gram, 3gram, 4gram). Sedangkan pada proses pembuatan profil dokumen hanya menghasilkan satu tabel, yaitu tabel dari jenis kategorisasi teks yang akan digunakan (2gram, 3gram, 4gram atau Ngram).

Tabel 3 Perbandingan jumlah dokumen Kategori Jumlah Profil Jumlah Dokumen % Bencana Kekeringan 7 39 17,949% Gagal Panen 9 48 18,75% Harga Komoditas Pertanian 11 55 20% Impor Beras 8 41 19,512% Institut Pertanian Bogor 8 40 20% Musim Panen 8 40 20% Pembangunan Pertanian 9 46 19,565% Penerapan Bioteknologi 8 42 19,048% Riset Pertanian 13 69 18,841% Tanaman Pangan 8 43 18,605%

Pada Tabel 3 dapat dilihat bahwa jumlah dokumen yang akan digunakan dalam pembuatan profil tiap kategori adalah < 20% dari jumlah dokumen tiap kategori.

Jumlah N-gram tiap kategori hasil dari pembuatan profil kategori dapat dilihat pada Tabel 4. Dari Tabel 4 dapat dilihat bahwa untuk jumlah N-gram pada Bigram tidak ada yang mencapai 1000 N-gram. Sedangkan pada Trigram, jumlah N-gram tiap kategori adalah

(2)

2000 – 4000 N-gram. Dan untuk Quadgram dan Ngram, jumlah N-gram mencapai lebih dari 4000 N-gram. Hal ini dapat disebabkan pada Bigram, tiap N-gram tidak memiliki pengertian yang jelas dalam pengelompokan N-gram. Pada Trigram, pengelompokan N-gram sudah memiliki pengertian jelas dalam tiap kelompok N-gram. Sedangkan pada Quadgram dan Ngram, tiap N-gram memiliki pengertian yang sangat jelas untuk dapat dikelompokkan seperti mengelompokkan kata dasar satu dengan yang lainnya atau kata dasar dengan imbuhannya. Tabel 4 Jumlah N-gram tiap kategori

Kategori 2gram 3gram 4gram Ngram

Bencana Kekeringan 475 2205 4696 7376 Gagal Panen 524 2616 5906 9046 Harga Komoditas Pertanian 567 3108 7720 11395 Impor Beras 501 2455 5588 8544 Institut Pertanian Bogor 514 2510 5774 8798 Musim Panen 483 2292 5113 7888 Pembangunan Pertanian 545 2852 6809 10206 Penerapan Bioteknologi 537 2861 6860 10258 Riset Pertanian 605 3396 8825 12826 Tanaman Pangan 521 2501 5420 8442 0 2000 4000 6000 8000 10000 12000 14000 40.9 50.3 51.4 58.8 61.3 66.7 72.9 107.0 130.0 140.0

2gram 3gram 4gram Ngram

Gambar 4 Grafik jumlah N-gram dengan ukuran profil tiap kategori.

Pada Gambar 4 dapat dilihat perbandingan jumlah N-gram dengan ukuran profil tiap kategorinya, dapat diketahui bahwa semakin besar ukuran profil suatu kategori maka jumlah N-gram kategori tersebut juga cenderung semakin banyak. Meskipun hal ini juga sangat tergantung pada seberapa banyak kesalahan-kesalahan pada dokumen-dokumen yang digunakan untuk membuat profil kategori baik kesalahan pengetikan, pengejaan maupun kesalahan pengenalan suatu kata dalam dokumen. Semakin banyak kesalahan yang terjadi maka semakin banyak juga jumlah

N-gram yang dihasilkan pada proses pembuatan profil kategori.

Hasil Perbandingan Jarak Profil

Pengukuran jarak dalam proses kategorisasi teks adalah dengan menghitung perbedaan rank atau baris tabel tiap token antara profil dokumen dengan profil kategori. Hasil perbandingan ini kemudian dikalkulasikan untuk tiap kategori.

Proses perbandingan dilakukan berdasarkan banyaknya dokumen yang akan diklasifikasikan (374 dokumen). Tiap dokumen akan diklasifikasikan untuk tiap jenis N-gram (2gram, 3gram, 4gram dan Ngram).

Hal yang menarik dari hasil kalkulasi jarak tiap dokumen adalah semakin besar jumlah N-gram tiap profil dokumen maka akan semakin besar juga jarak antara dokumen tersebut dengan tiap kategori. Karena dengan semakin besar jumlah N-gram pada profil dokumen maka akan semakin bervariasi N-gram profil dokumen tersebut dan kondisi jarak maksimum akan semakin sering terjadi. Tetapi sebaliknya, semakin banyak jumlah N-gram pada profil suatu kategori maka akan semakin kecil jarak antara kategori tersebut dengan tiap dokumen. Hal ini disebabkan karena semakin banyak jumlah N-gram pada profil kategori maka kondisi jarak maksimum akan jarang terjadi.

Evaluasi Klasifikasi Dokumen Berdasarkan Jenis N-gram

Berdasarkan ukuran jarak yang telah didapatkan, kita dapat menentukan jarak suatu dokumen dengan tiap kategori. Dengan jarak tersebut kita dapat menentukan termasuk ke dalam kategori apa suatu dokumen dengan mencari nilai minimum jarak antara dokumen dan kategori tersebut.

Akan tetapi setiap jenis klasifikasi memiliki kinerja yang berbeda dan perlu dievaluasi. Hasil klasifikasi tiap jenis N-gram dapat dievaluasi sebagai berikut.

Pada klasifikasi Bigram dapat diketahui bahwa proses klasifikasi berhasil mengklasifikasikan setidaknya dua dokumen untuk tiap kategori. Klasifikasi Bigram mencapai kinerja tertinggi pada proses klasifikasi kategori Penerapan Bioteknologi (32,353%) dan mengalami kinerja terendah pada kategori Impor Beras (6,061%). Hasil klasifikasi Bigram selengkapnya dapat dilihat pada Tabel 5.

(3)

Tabel 5 Klasifikasi Bigram Kategori Jumlah Benar Persentase Benar Bencana Kekeringan 9 28,125% Gagal Panen 8 20,513% Harga Komoditas Pertanian 8 18,182% Impor Beras 2 6,061% Institut Pertanian Bogor 9 28,125% Musim Panen 8 25% Pembangunan Pertanian 11 29,73% Penerapan Bioteknologi 11 32,353% Riset Pertanian 17 30,357% Tanaman Pangan 9 25,714% Total / Rata-rata 92 24,416%

Tabel 6 Kategorisasi Bigram dua kategori

Kategori Impor Beras Penerapan Bioteknologi Bencana Kekeringan 1 0 Gagal Panen 4 3 Harga Komoditas Pertanian 7 2 Impor Beras 2 0 Institut Pertanian Bogor 0 2 Musim Panen 10 3 Pembangunan Pertanian 5 0 Penerapan Bioteknologi 0 11 Riset Pertanian 0 10 Tanaman Pangan 4 3 Jumlah 33 34

Dari perbandingan dua kategori yang memiliki kinerja tertinggi dan terendah pada Tabel 6 juga dapat dilihat bahwa pada klasifikasi kategori Impor Beras sebagian besar dokumen diklasifikasikan pada kategori Musim Panen yang mencapai sepuluh dokumen (30,303%). Sedangkan pada kategori Penerapan Bioteknologi sebagian besar dokumen berhasil diklasifikasikan dengan benar walaupun cukup banyak diklasifikasikan pada kategori Riset Pertanian yang mencapai sepuluh dokumen (29,412%). Hal ini karena terdapat kesamaan topik antara Penerapan Bioteknologi dengan Riset Pertanian. Hasil lengkap kategorisasi Bigram dapat dilihat pada Lampiran 1.

Pada Tabel 7 untuk klasifikasi Trigram, proses kategorisasi berhasil mengklasifikasikan

minimal tiga dokumen untuk tiap kategori. Kinerja tertinggi terjadi pada kategori Bencana Kekeringan yang mencapai 81,25% dan memiliki kinerja terendah pada kategori Riset Pertanian (5,357%).

Tabel 7 Klasifikasi Trigram

Kategori Jumlah Benar Persentase Benar Bencana Kekeringan 26 81,25% Gagal Panen 4 10,256% Harga Komoditas Pertanian 6 13,636% Impor Beras 4 12,121% Institut Pertanian Bogor 12 37,5% Musim Panen 13 40,625% Pembangunan Pertanian 8 21,622% Penerapan Bioteknologi 10 29,412% Riset Pertanian 3 5,357% Tanaman Pangan 3 8,571% Total / Rata-rata 89 26,035%

Tabel 8 Kategorisasi Trigram dua kategori

Kategori Bencana Kekeringan Riset Pertanian Bencana Kekeringan 26 5 Gagal Panen 3 3 Harga Komoditas Pertanian 0 4 Impor Beras 0 5 Institut Pertanian Bogor 0 6 Musim Panen 3 18 Pembangunan Pertanian 0 0 Penerapan Bioteknologi 0 10 Riset Pertanian 0 3 Tanaman Pangan 0 2 Jumlah 32 56

Dari Tabel 8 dapat terlihat bahwa klasifikasi kategori Bencana Kekeringan yang memiliki kinerja tertinggi, hanya salah mengklasifikasikan enam dokumen yang terbagi rata tiga dokumen (9,375%) untuk kategori Gagal Panen dan kategori Musim Panen. Sedangkan kategori Riset Pertanian yang memiliki kinerja terendah, sebagian besar mengklasifikasikan dokumen pada kategori Musim Panen sebanyak delapan belas dokumen

(4)

(32,143%) dan kategori Penerapan Bioteknologi sebanyak sepuluh dokumen (17,857%). Hasil lengkap kategorisasi Trigram dapat dilihat pada Lampiran 2.

Tabel 9 Klasifikasi Quadgram

Kategori Jumlah Benar Persentase Benar Bencana Kekeringan 31 96,875% Gagal Panen 1 2,564% Harga Komoditas Pertanian 2 4,545% Impor Beras 4 12,121% Institut Pertanian Bogor 12 37,5% Musim Panen 8 25% Pembangunan Pertanian 4 10,811% Penerapan Bioteknologi 2 5,882% Riset Pertanian 0 0% Tanaman Pangan 4 11,429% Total / Rata-rata 68 20,673%

Tabel 10 Kategorisasi Quadgram dua kategori

Kategori Bencana Kekeringan Riset Pertanian Bencana Kekeringan 31 16 Gagal Panen 0 1 Harga Komoditas Pertanian 0 1 Impor Beras 0 4 Institut Pertanian Bogor 0 3 Musim Panen 1 28 Pembangunan Pertanian 0 0 Penerapan Bioteknologi 0 1 Riset Pertanian 0 0 Tanaman Pangan 0 2 Jumlah 32 56

Dengan melihat Tabel 9 dapat dikatakan bahwa pada klasifikasi Quadgram terdapat keanehan pada proses kategorisasi. Dapat terlihat pada kategori Bencana Kekeringan, proses kategorisasi berhasil mengklasifikasikan hampir semua dokumen dan memiliki kinerja tertinggi pada kategori ini yang mencapai 96,875%. Akan tetapi pada klasifikasi Quadgram, proses kategorisasi tidak

mengklasifikasikan satu dokumen pun dari 56 dokumen yang ada yang termasuk kategori Riset Pertanian.

Dengan melihat Tabel 10 dapat dikatakan bahwa kategori Bencana Kekeringan cukup mendominasi klasifikasi dokumen. Dengan mengklasifikasikan 31 dokumen benar dan hanya satu dokumen (3,125%) salah yang diklasifikasikan termasuk kategori Musim Panen. Sedangkan pada kategori Riset Pertanian, klasifikasi dokumen terkonsentrasi pada kategori Musim panen yang mencapai 28 dokumen atau 50% dari keseluruhan dokumen dan enam belas dokumen terklasifikasikan pada kategori Bencana Kekeringan tanpa ada satu dokumen pun yang termasuk klasifikasi kategori Riset Pertanian. Hasil lengkap kategorisasi Quadgram dapat dilihat pada Lampiran 3.

Dengan melihat pada Tabel 11 dapat dikatakan bahwa walaupun kategori Musim Panen dihilangkan dalam proses kategorisasi, klasifikasi Quadgram juga tidak berhasil mengklasifikasikan dokumen yang termasuk kategori Riset Pertanian dan lebih mengklasifikasikan sebagian besar dokumen pada kategori Bencana Kekeringan yang mencapai 34 dokumen (60,714%).

Tabel 11 Kategorisasi Quadgram tanpa kategori Musim Panen

Kategori Riset Pertanian

Bencana Kekeringan 34

Gagal Panen 1

Harga Komoditas Pertanian 2

Impor Beras 6

Institut Pertanian Bogor 4 Pembangunan Pertanian 0 Penerapan Bioteknologi 3

Riset Pertanian 0

Tanaman Pangan 6

Jumlah Dokumen 56

Pada klasifikasi Ngram memiliki beberapa kesamaan dengan klasifikasi Quadgram di mana pada klasifikasi kategori Bencana Kekeringan kinerja mencapai lebih dari 90%, yaitu 90,625% dan tidak mengklasifikasikan satu pun dokumen dari 56 dokumen kategori Riset Pertanian. Hasil lengkap dari klasifikasi Ngram dapat dilihat pada Tabel 12.

Tidak jauh berbeda dengan klasifikasi Quadgram pada kategori Bencana Kekeringan dan kategori Riset Pertanian. Klasifikasi Ngram berhasil mengklasifikasikan 29 dokumen yang termasuk kategori Bencana Kekeringan dan hanya salah mengklasifikasikan satu dokumen

(5)

(3,125%) yang termasuk kategori Gagal Panen dan dua dokumen (6,25%) yang termasuk kategori Musim Panen. Sedangkan untuk kategori Riset Pertanian, proses kategorisasi mengklasifikasikan 27 dokumen (48,214%) yang termasuk kategori Musim Panen. Ini dapat terlihat pada Tabel 13. Hasil lengkap kategorisasi Ngram dapat dilihat pada Lampiran 4.

Tabel 12 Klasifikasi Ngram

Kategori Jumlah Benar Persentase Benar Bencana Kekeringan 29 90,625% Gagal Panen 1 2,564% Harga Komoditas Pertanian 4 9,091% Impor Beras 6 18,182% Institut Pertanian Bogor 17 53,125% Musim Panen 9 28,125% Pembangunan Pertanian 5 13,514% Penerapan Bioteknologi 7 20,588% Riset Pertanian 0 0% Tanaman Pangan 3 8,571% Total / Rata-rata 81 24,439%

Tabel 13 Klasifikasi Ngram dua kategori

Kategori Bencana Kekeringan Riset Pertanian Bencana Kekeringan 29 9 Gagal Panen 1 1 Harga Komoditas Pertanian 0 2 Impor Beras 0 3 Institut Pertanian Bogor 0 6 Musim Panen 2 27 Pembangunan Pertanian 0 0 Penerapan Bioteknologi 0 4 Riset Pertanian 0 0 Tanaman Pangan 0 4 Jumlah 32 56

Hampir sama dengan hasil klasifikasi Quadgram, klasifikasi Ngram tanpa kategori Musim Panen juga tidak berhasil mengklasifikasikan dokumen untuk kategori Riset Pertanian. Akan tetapi pada klasifikasi Ngram, hasil klasifikasi dokumen

terdistribusikan hampir ke semua kategori dengan sebagian besar terklasifikasikan pada kategori Bencana Kekeringan sebanyak sembilan belas dokumen (33,929%) dan kategori Penerapan Bioteknologi sebanyak dua belas dokumen (21,429%). Hasil selengkapnya dapat dilihat pada Tabel 14.

Tabel 14 Klasifikasi Ngram tanpa kategori Musim Panen

Kategori Riset Pertanian

Bencana Kekeringan 19

Gagal Panen 2

Harga Komoditas Pertanian 3

Impor Beras 5

Institut Pertanian Bogor 8 Pembangunan Pertanian 1 Penerapan Bioteknologi 12

Riset Pertanian 0

Tanaman Pangan 6

Jumlah Dokumen 56

KESIMPULAN DAN SARAN

Kesimpulan

• Pada proses kategorisasi teks menggunakan N-gram, klasifikasi Trigram yang paling sesuai untuk dokumen-dokumen berbahasa Indonesia dengan persentase hasil 26,035%. • Klasifikasi Trigram juga cukup dapat

diandalkan untuk proses kategorisasi teks, karena semua kategori berhasil diklasifikasikan dengan benar dengan kinerja tertinggi 81,25% dan kinerja terendah 5,357%.

• Klasifikasi Trigram dianggap paling sesuai untuk implementasi Kategorisasi Teks karena pada dokumen berbahasa Indonesia, Trigram dapat mengelompokkan kata-kata dalam bahasa Indonesia baik kata-kata dasar maupun kata-kata yang berimbuhan tanpa menggunakan proses stemming. • Kategorisasi teks menggunakan N-gram

terbukti cukup efektif dalam mengklasifikasikan dokumen karena metode ini menggunakan pendekatan “kategorisasi menggunakan contoh” dengan cara mengumpulkan dan menggunakan profil kategori dari dokumen yang sudah ada.

• Dalam proses kategorisasi, masalah salah pengejaan suatu kata, karena pengetikan dan pengenalan suatu kata, tidak terlalu berpengaruh pada hasil klasifikasi dokumen secara keseluruhan.

Gambar

Tabel 3 Perbandingan jumlah dokumen  Kategori  Jumlah  Profil  Jumlah  Dokumen  %  Bencana  Kekeringan  7 39  17,949%  Gagal Panen  9  48  18,75%  Harga  Komoditas  Pertanian  11 55  20%  Impor Beras  8  41  19,512%  Institut  Pertanian  Bogor  8 40  20%
Tabel 4 Jumlah N-gram tiap kategori

Referensi

Dokumen terkait

Kortim harus melakukan pengecekan kelengkapan hasil pencacahan lapangan sebagai berikut:.. 1) Pastikan bahwa tidak ada rumah tangga dalam BS yang terlewat dimutakhirkan. 2)

Implementasi dari peraturan tersebut maka sejak tahun 2010 Universitas Sam Ratulangi telah melakukan evaluasi pelaksanaan tugas utama dosen dalam melaksanakan

Hasil inventarisasi komponen teknologi yang diterapkan oleh petani jagung di Kabupaten Sidrap dan Luwu pada lahan sawah tadah hujan secara umum menunjukkan bahwa

3.2 pengenceran desimal lanjutan suspensi atau larutan yang diperoleh dengan mencampur volume suspensi awal yang diukur 3.3 dengan sembilan kali volume pengencer dan

Menurut Romney dan Steinbart (2012: 27), siklus pemrosesan transaksi pada sistem adalah suatu rangkaian aktivitas yang dilakukan perusahaan dalam melakukan bisnisnya, mulai

Dalam mengikuti penerapan pelelangan dengan e-procurement di Pemerintah Daerah Kabupaten Musi Rawas Propinsi Sumatera Selatan, perusahaan jasa konstruksi dituntut

Melalui model pembelajaran Problem based learning dipadukan dengan pendekatan saintifik (Condition) diharapkan peserta didik mampu membangun kesadaran akan kebesaran Tuhan Yang

Dari tabel frekuensi dan pembahasan yang telah peneliti buat, dapat dilihat kategori pesan moral yang paling banyak muncul adalah kategori manusia dengan