• Tidak ada hasil yang ditemukan

HASIL DAN PEMBAHASAN Dokumen yang digunakan terdiri atas

6 “tanaman hama penyakit wereng”

HASIL DAN PEMBAHASAN Dokumen yang digunakan terdiri atas

5. Jika terdapat pasangan kata yang memiliki peluang kemunculan terlalu kecil, maka lakukan proses pembuangan pada pasangan kata tersebut. Karena pasangan kata yang peluang kemunculannya terlalu kecil bukan merupakan penciri dokumen.

Pasangan kata atau topic signature ini yang mempengaruhi klasifikasi semantic smoothing, karena pasangan kata dokumen yang akan diuji akan mendapatkan nilai peluang yang bergantung pada pasangan kata dari topic signature.

Background dan Semantic Smoothing Metode semantic smoothing dilakukan untuk memudahkan proses klasifikasi dokumen yang menggunakan metode NBC. Semantic smoothing sebagai parameter kontrol untuk menjadikan hasil klasifikasi menjadi akurat. Proses pertama yang dilakukan adalah menghitung peluang berdasarkan kata yang terdapat pada dokumen uji. Proses yang telah dilakukan oleh Pramurjadi (2010) menggunakan formula (1) dengan pendugaan parameter peluang pada dokumen oleh background smoothing. Proses berikutnya adalah yang dilakukan pada penelitian ini menggunakan semantic smoothing. Metode semantic smoothing sesuai dengan formula (2) dilakukan dengan menambah perhitungan probability, perhitungan tiap kata yang ada di korpus semantik. Metode semantic smoothing memiliki formula yang di dalamnya terdapat formula background smoothing. Teknik semantic smoothing merupakan penambahan parameter pada formula dari background smoothing. Setelah didapatkan peluang tiap kata dari dokumen uji berdasarkan topic signature dan kelas pada dokumen latih, proses dilanjutkan

dengan menghitung peluang tiap kelas terhadap dokumen uji.

Evaluasi Hasil Klasifikasi

Evaluasi hasil klasifikasi dokumen dilakukan untuk mengetahui tingkat keakurasian klasifikasi semantic smoothing. Evaluasi dilakukan pada hasil kelas untuk data testing yang terbagi menjadi short document dan long document. Selanjutnya membandingkan hasil klasifikasi dokumen antara background smoothing dan semantic smoothing. Perbandingan hasil kedua metode tersebut dengan melakukan pengukuran kesamaan menggunakan recall, precision, f-measure atau F-1, tabel confusion matrix dan tingkat akurasi.

HASIL DAN PEMBAHASAN Dokumen yang digunakan terdiri atas 83 dokumen untuk masing-masing kelas, yaitu :

1. Kelas Ekofisiologi dan Agronomi 2. Kelas Pemuliaan dan Teknologi Benih 3. Kelas Proteksi (Hama dan Penyakit)

Keseluruhan kelas yang berjumlah 249 terbagi menjadi 70% dokumen latih dan 30% dokumen uji. Dokumen yang akan diuji terbagi dua jenis yaitu long document dan short document. Dalam praproses dilakukan penentuan kata stopwords yang disesuaikan dengan kebutuhan penelitian. Setelah stopwords dihilangkan maka didapatkan 20415 total jumlah kata unik pada dokumen latih. Penelitian semantik dilanjutkan dengan ekstraksi topic signature. Tahap awal dilakukan proses penghilangan stopwords dan proses pembentukan pasangan kata. Tiap kata yang terdapat pada dokumen latih dibuat menjadi pasangan kata dan dicari peluang pasangan kata yang ada pada seluruh dokumen latih. Setelah dilakukan proses ektraksi maka didapatkan 13040 total jumlah pasangan kata yang menjadi topic signature.

Uji Coba Klasifikasi Dokumen

Uji coba dilakukan pada dokumen uji yang terdiri atas long document dan short document. Parameter pengontrol yang terdapat pada formula semantic smoothing yaitu λ=0.1 sampai dengan 0.9 digunakan untuk mengatur komposisi antara semantic smoothing dan background smoothing

6

“tanaman hama penyakit wereng”

Hasil : “tanaman hama” “hama penyakit” “penyakit wereng”

3. Setelah didapatkan deretan pasangan kata, kemudian dihitung peluang kemunculan masing-masing pasangan kata yang terdapat pada dokumen. 4. Peluang pasangan kata yang telah

didapatkan dapat digunakan untuk mengetahui frekuensi kemunculan semantik atau pasangan kata pada dokumen.

5. Jika terdapat pasangan kata yang memiliki peluang kemunculan terlalu kecil, maka lakukan proses pembuangan pada pasangan kata tersebut. Karena pasangan kata yang peluang kemunculannya terlalu kecil bukan merupakan penciri dokumen.

Pasangan kata atau topic signature ini yang mempengaruhi klasifikasi semantic smoothing, karena pasangan kata dokumen yang akan diuji akan mendapatkan nilai peluang yang bergantung pada pasangan kata dari topic signature.

Background dan Semantic Smoothing Metode semantic smoothing dilakukan untuk memudahkan proses klasifikasi dokumen yang menggunakan metode NBC. Semantic smoothing sebagai parameter kontrol untuk menjadikan hasil klasifikasi menjadi akurat. Proses pertama yang dilakukan adalah menghitung peluang berdasarkan kata yang terdapat pada dokumen uji. Proses yang telah dilakukan oleh Pramurjadi (2010) menggunakan formula (1) dengan pendugaan parameter peluang pada dokumen oleh background smoothing. Proses berikutnya adalah yang dilakukan pada penelitian ini menggunakan semantic smoothing. Metode semantic smoothing sesuai dengan formula (2) dilakukan dengan menambah perhitungan probability, perhitungan tiap kata yang ada di korpus semantik. Metode semantic smoothing memiliki formula yang di dalamnya terdapat formula background smoothing. Teknik semantic smoothing merupakan penambahan parameter pada formula dari background smoothing. Setelah didapatkan peluang tiap kata dari dokumen uji berdasarkan topic signature dan kelas pada dokumen latih, proses dilanjutkan

dengan menghitung peluang tiap kelas terhadap dokumen uji.

Evaluasi Hasil Klasifikasi

Evaluasi hasil klasifikasi dokumen dilakukan untuk mengetahui tingkat keakurasian klasifikasi semantic smoothing. Evaluasi dilakukan pada hasil kelas untuk data testing yang terbagi menjadi short document dan long document. Selanjutnya membandingkan hasil klasifikasi dokumen antara background smoothing dan semantic smoothing. Perbandingan hasil kedua metode tersebut dengan melakukan pengukuran kesamaan menggunakan recall, precision, f-measure atau F-1, tabel confusion matrix dan tingkat akurasi.

HASIL DAN PEMBAHASAN Dokumen yang digunakan terdiri atas 83 dokumen untuk masing-masing kelas, yaitu :

1. Kelas Ekofisiologi dan Agronomi 2. Kelas Pemuliaan dan Teknologi Benih 3. Kelas Proteksi (Hama dan Penyakit)

Keseluruhan kelas yang berjumlah 249 terbagi menjadi 70% dokumen latih dan 30% dokumen uji. Dokumen yang akan diuji terbagi dua jenis yaitu long document dan short document. Dalam praproses dilakukan penentuan kata stopwords yang disesuaikan dengan kebutuhan penelitian. Setelah stopwords dihilangkan maka didapatkan 20415 total jumlah kata unik pada dokumen latih. Penelitian semantik dilanjutkan dengan ekstraksi topic signature. Tahap awal dilakukan proses penghilangan stopwords dan proses pembentukan pasangan kata. Tiap kata yang terdapat pada dokumen latih dibuat menjadi pasangan kata dan dicari peluang pasangan kata yang ada pada seluruh dokumen latih. Setelah dilakukan proses ektraksi maka didapatkan 13040 total jumlah pasangan kata yang menjadi topic signature.

Uji Coba Klasifikasi Dokumen

Uji coba dilakukan pada dokumen uji yang terdiri atas long document dan short document. Parameter pengontrol yang terdapat pada formula semantic smoothing yaitu λ=0.1 sampai dengan 0.9 digunakan untuk mengatur komposisi antara semantic smoothing dan background smoothing

7

seperti yang terdapat pada formula (2). Semakin besar nilai parameter pengontrol menjadikan nilai peluang yang dihasilkan juga meningkat. Kemudian dilakukan perbandingan hasil klasifikasi dari tingkat keakurasian semantic smoothing dengan background smoothing.

Hasil Semantic Smoothing

Hasil klasifikasi semantic smoothing (SS) untuk kelas Ekofisiologi dan Agronomi (a), kelas Pemuliaan dan Teknologi Benih (b), kelas Proyeksi Hama dan Penyakit (c) berupa confusion matrix.

Tabel 2 merupakan hasil klasifikasi pada short document dan long document. Hasil dokumen uji short document yang benar masuk dalam kelas a,b dan c adalah 64 dan untuk jumlah dokumen yang salah berjumlah 11, sedangkan pada long document yang benar masuk dalam kelas a,b dan c adalah 70 untuk jumlah dokumen yang salah berjumlah 11.

Tabel 2. Confusion Matrix Semantic Smoothing Short Document TRUE FALSE TRUE 64 11 FALSE 11 139 Long Document TRUE FALSE TRUE 70 5 FALSE 5 145

Confusion matrix ini didapatkan dari hasil pengujian tiap kelas yang terdapat pada Lampiran 3 dan Lampiran 4. Terlihat bahwa hasil klasifikasi pada long document lebih besar dibandingkan dengan hasil short document.

Tabel 3. Hasil Kinerja Semantic Smoothing Short Document Rec Prec F-1 Akurasi SS (%) 85,33 85,33 85,33 90,22

Long Document Rec Prec F-1 Akurasi SS (%) 93,33 93,33 93,33 95,55

Gambar 3 Tingkat Kinerja Semantic Smoothing pada Long Document dan Short

Document

Akurasi yang didapatkan untuk dokumen uji short document adalah 90% dan dokumen uji long document adalah 95%. Pada penelitian ini didapatkan hasil short document lebih rendah, karena sedikitnya pasangan kata yang sama dengan topic signature dan mengakibatkan nilai peluang yang kecil. Jika nilai peluang yang didapatkan kecil bisa mengakibatkan kurang maksimalnya pengklasifikasian.

Tabel 4. Hasil Long Document dan Short Document

Akurasi Long Document 95,55% Short Document 90,22%

Terlihat bahwa hasil klasifikasi pada long document lebih baik dibandingkan dengan short document, karena long document memiliki banyaknya pasangan kata yang sama dengan topic signatures dan didapatkan nilai peluang yang cukup tinggi. Rata-rata akurasi kinerja semantic smoothing adalah 92.88% dengan adanya pengukuran pada long document dan short document.

0 10 20 30 40 50 60 70 80 90 100 Long Document Short Document T ing k a t K inerj a ( %)

Hasil Kinerja Semantic Smoothing Pada Short Document dan Long Document

8

Hasil Background & Semantic Smoothing Hasil klasifikasi yang didapatkan dari penggunaan metode background smoothing dan semantic smoothing dapat dilihat pada Tabel 5.

Tabel 5. Confusion Matrix Background dan Semantic Smoothing(Short Document)

Background Smoothing TRUE FALSE TRUE 63 12 FALSE 12 138 Semantic Smoothing TRUE FALSE TRUE 64 11 FALSE 11 139

Tabel 6. Perbandingan Hasil Background dan Semantic Smoothing (Short Document)

BGS SS

Recall 82,22% 85,33%

Precision 82,22% 85,33%

F-1 82,22% 85,33%

Akurasi 88,15% 90,22%

Perbandingan hasil klasifikasi background smoothing dan semantic smoothing dilihat pada Tabel 6 yaitu pengukuran hasil tingkat kinerja kedua metode tersebut untuk short document. Hasil klasifikasi pada short document menggunakan metode semantic smoothing

lebih baik, terjadi peningkatan untuk akurasi antara hasil background smoothing dengan metode semantic smoothing. Seperti yang terlihat pada Gambar 4 dan Gambar 5 hasil klasifikasi semantic smoothing lebih baik dibandingkan hasil klasifikasi background smoothing. Hal ini membuktikan bahwa keterkaitan kata yang ada pada dokumen dapat mempengaruhi klasifikasi dokumen. Tabel 7 merupakan perbandingan confusion matrix dari background smoothing dan semantic smoothing pada long document. Hasil klasifikasi background smoothing adalah 67 dokumen uji yang sesuai dengan kelas, sedangkan hasil klasifikasi dari semantic smoothing menghasilkan 70 dokumen uji yang sesuai dengan kelas. Perhitungan confusion matrix tersebut menghasilkan pengukuran kinerja yang diberikan pada Tabel 8. Tingkat akurasi pada semantic smoothing lebih tinggi dengan nilai 95.55% dibandingkan dengan tingkat akurasi background smoothing yaitu 92.88%.

Tabel 7. Confusion Matrix Background dan Semantic Smoothing(Long Document)

Background Smoothing TRUE FALSE TRUE 67 8 FALSE 8 142 Semantic Smoothing TRUE FALSE TRUE 70 5 FALSE 5 145

9

Tabel 8. Perbandingan Hasil Background dan Semantic Smoothing (Long Document)

BGS SS

Recall 89,33% 93,33%

Precision 89,33% 93,33%

F-1 89,33% 93,33%

Akurasi 92,88% 95,55%

Pertimbangan semantic smoothing dalam klasifikasi salah satunya adalah keterkaitan kata dan topic signature. Hal ini membuat akurasi semantic smoothing menjadi lebih baik dibandingkan dengan background smoothing. Sistem klasifikasi ini bergantung pada dokumen yang digunakan sehingga sistem ini hanya untuk dokumen pertanian.

Dokumen terkait