Klasifikasi Dokumen Menggunakan Metode Rocchio Dengan Pemilihan Fitur Menggunakan Chi-square

(1)

KLASIFIKASI DOKUMEN MENGGUNAKAN METODE ROCCHIO

DENGAN PEMILIHAN FITUR MENGGUNAKAN CHI-SQUARE

R. ANANDA RIZKI RAMDANI

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(2)

KLASIFIKASI DOKUMEN MENGGUNAKAN METODE ROCCHIO

DENGAN PEMILIHAN FITUR MENGGUNAKAN CHI-SQUARE

R. ANANDA RIZKI RAMDANI

Skripsi

sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer pada

Program Studi Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(3)

ABSTRACT

R. ANANDA RIZKI RAMDANI. Documents Classification Using Rocchio Method With Feature Selection Using Chi-square. Supervised by JULIO ADISANTOSO.

The drawback of document classification technique of a classification system is the significant increase of efforts when the contents of each document are large. One way to improve the performance of the classification system is by implementing the feature selection technique. This research implemented the Rocchio method as the document classifier and Chi-square as the feature selection technique at the significant level of 0.05 and 0.001. The document collections utilized in this research was taken from Reuters-21578 with 20 categories. The result showed that the effectiveness of classification in terms of F-measure and accuracy was insignificant. The highest F-measure value of 72.57% was achieved at a significant level of 0.001, or increasing 2.28% if compared with the previous F-measure value before feature selection method was applied. At a significant level of 0.05, the F-measure value was 72.42%. The obtained classification accuracy with feature selection technique was 83.67% at a significant level of 0.001 and 83.96% at a significant level of 0.05. These classification accuracies were higher than that without feature selection technique of 83.08%.

(4)

Penguji: 1 Mushthofa, S.Kom., M.Sc.

(5)

Judul Skripsi : Klasifikasi Dokumen Menggunakan Metode Rocchio Dengan Pemilihan Fitur Menggunakan Chi-square

Nama : R. Ananda Rizki Ramdani

NRP : G64076047

Disetujui: Pembimbing

Ir. Julio Adisantoso, M.Kom. NIP. 19620714 198601 1 002

Diketahui:

Ketua Departemen Ilmu Komputer

Dr. Ir. Agus Buono, M.Si., M.Kom. NIP. 19660702 199302 1 001

(6)

PRAKATA

Alhamdulillahi Rabbil’alamin, puji syukur penulis panjatkan ke hadirat Allah Subhanahu Wa Taala atas segala rahmat dan karunia-Nya, sehingga tugas akhir ini dengan judul Klasifikasi Dokumen Menggunakan Metode Rocchio dengan Pemilihan Fitur Menggunakan Chi-square dapat diselesaikan. Shalawat dan salam semoga Allah limpahkan kepada Nabi Muhammad Salallahu Alaihi Wasalam, keluarganya, sahabatnya, serta umatnya. Penelitian ini dilaksanakan mulai November 2011 sampai dengan Februari 2012, bertempat di Departemen Ilmu Komputer.

Penulis menyadari bahwa tugas akhir ini tidak dapat terselesaikan tanpa bantuan dari berbagai pihak. Pada kesempatan ini penulis ingin mengucapkan terima kasih kepada:

1 Keluarga tercinta, almarhum Ayahanda Sastra Atmadja dan Ibunda Dedeh Nurhasanah selaku orang tua. Sellymia Sastra Muthia, Adinda Methanelia, dan Suriah Bahrami, selaku kakak dan adik-adik tercinta. Endang Sari Fatonah selaku istri. Terima kasih selalu memberikan doa, nasihat, semangat, dukungan dan kasih sayang yang luar biasa kepada penulis.

2 Bapak Ir. Julio Adisantoso, M.Kom. selaku dosen pembimbing sekaligus Ketua Program S1 Ilmu Komputer Penyelenggaraan Khusus yang telah membantu memberikan bimbingan, nasehat, dan motivasi kepada penulis.

3 Bapak Mushthofa, S.Kom., M.Sc. dan Sony Hartono Wijaya, S.Kom., M.Kom. selaku dosen penguji yang telah memberikan masukan, saran, dan motivasi kepada penulis.

4 Boma, Sandi, Ezha, Ahmad, Teguh, Waldy, dan Imam. Terima kasih atas kebersamaannya 5 Iqbal, Imam, Munarni, Andy, Wanda, Fitra, Arifa, Ziah, Helli, Fauzi, Joko, Decky, Kamal,

Anggi, Jaka, Bursa, Tanti, serta seluruh rekan seperjuangan Ilmu Komputer Program Penyelenggaraan Khusus.

6 Ali Alkautsar dan Ade Opik selaku adik kelas. Terima kasih atas diskusinya selama ini. 7 Seluruh staf pengajar dan karyawan Departemen Ilmu Komputer FMIPA IPB.

Semoga karya ilmiah ini bermanfaat.

Bogor, Februari 2014

(7)

RIWAYAT HIDUP

Penulis dilahirkan di Bogor, pada tanggal 24 Januari 1984 merupakan anak kedua dari pasangan Ibu Dedeh Nurhasanah dan almarhum Bapak Sastra Atmadja. Pada tahun 2002 penulis lulus dari SMUN 1 Ciawi – Bogor dan pada satu tahun berikutnya penulis melanjutkan pendidikan Diploma 3 program Manajemen Informasi dan Dokumentasi, Departemen Ilmu Komputer, Insititut Pertanian Bogor dan lulus pada tahun 2006. Pada tahun 2007 penulis resmi sebagai mahasiswa Program Studi S1 Penyelenggaraan Khusus Departemen Ilmu Komputer, Institut Pertanian Bogor

(8)

DAFTAR ISI

Halaman

DAFTAR TABEL ... vi

DAFTAR GAMBAR... vi

DAFTAR LAMPIRAN ... vi

PENDAHULUAN ...1

Latar Belakang ...1

Tujuan ...1

Ruang Lingkup ...1

TINJAUAN PUSTAKA ...1

Sistem Temu Kembali Informasi ...1

Klasifikasi ...1

Model Ruang Vektor ...2

Pemilihan Fitur Dokumen ...2

Chi-square (� ) ...2

Klasifikasi Rocchio ...3

Confusion Matrix ...3

METODE PENELITIAN ...4

Gambaran Umum Sistem ...4

Koleksi Dokumen ...4

Praproses ...4

Pemilihan fitur ...4

Pembobotan ...5

Klasifikasi Rocchio ...5

Evaluasi Hasil Klasifikasi ...5

HASIL DAN PEMBAHASAN ...5

Pengembangan Sistem ...5

Praproses Data ...5

Pemilihan Fitur ...6

Evaluasi Hasil Klasifikasi ...6

KESIMPULAN DAN SARAN ...8

Kesimpulan ...8

Saran ...9

(9)

DAFTAR TABEL

Halaman

1 Tabel kontingensi ...2

2 Nilai kritis � untuk taraf nyata � dengan derajat bebas satu ...3

3 Hasil pengukuran recall. ...7

4 Hasil pengukuran precision. ...8

DAFTAR GAMBAR

Halaman 1 Matriks term-documents ...2

2 Format Confusion Matrix (Hamel 2008) ...3

3 Metode Penelitian. ...4

4 Jumlah kata pada tahap praproses data (jumlah awal) dan setelah pemilihan fitur (�=0.05 dan �=0.001). ...6

5 Jumlah kata unik pada tahap praproses data (jumlah awal) dan setelah pemilihan fitur (�=0.05 dan �=0.001). ...6

6 Grafik Akurasi pada setiap taraf nyata. ...7

7 Grafik F-measure (F1) pada setiap taraf nyata. ...8

DAFTAR LAMPIRAN

Halaman 1 Contoh isi dokumen ...11

2 Daftar kelas ...12

3 Daftar tabel basisdata ...13

4 Tampilan antarmuka sistem ...14

5 Stoplist ...17

6 Confusion matrix hasil klasifikasi tanpa pemilihan fitur ...18

7 Confusion matrix gasil klasifikasi dengan pemilihan fitur (�=0.05) ...19

(10)

1

PENDAHULUAN

Latar Belakang

Kemudahan dalam mengakses dan menyebarkan informasi saat ini menyebabkan informasi menjadi banyak dan beragam. Sejalan dengan hal ini, banyak orang cenderung lebih memilih informasi yang berguna secara selektif. Untuk itu diperlukan suatu metode dalam menyajikan dan mengorganisasikan informasi agar memudahkan pengguna dalam mencari informasi yang dibutuhkan.

Salah satu metode pengorganisasian informasi adalah klasifikasi berdasarkan kategori atau kelas yang telah ditentukan. Salah satu tujuan dari klasifikasi teks atau dokumen adalah menggolongkan atau mengelompokkan suatu dokumen ke dalam suatu kategori tertentu (Manning et al. 2008).

Isi dari uraian setiap dokumen dalam jumlah yang banyak mengakibatkan kerja yang lebih berat harus dilakukan oleh sistem classifier jika hanya mengandalkan teknik klasifikasi dokumen. Salah satu cara untuk meningkatkan kinerja dari sistem klasifikasi adalah dengan menerapkan teknik pemilihan fitur dokumen. Ada beberapa teknik yang digunakan untuk melakukan pemilihan fitur dokumen antara lain Document Frequency, Information Gain, Mutual Information, Term Strength, dan Chi-square (Yang & Pederson 1997).

Pada penelitian sebelumnya, Paskianti (2011) dan Herawan (2011) yang masing-masing menggunakan teknik klasifikasi Naïve Bayes dan KNN Fuzzy menyimpulkan bahwa pemilihan fitur menggunakan Chi-square (� ) pada 93 dokumen tumbuhan obat tidak memengaruhi kinerja klasifikasi. Data yang digunakan pada penelitian-penelitan tersebut dianggap kurang beragam dan jumlahnya sedikit sehingga Paskianti (2011) menyarankan agar penelitian berikutnya menggunakan data yang lebih banyak dan beragam. Selain itu, metode klasifikasi yang berbeda perlu dicoba dengan harapan dapat meningkatkan kinerja klasifikasi.

Penelitian ini akan menerapkan metode Rocchio untuk klasifikasi dokumen dengan menggunakan pemilihan fitur Chi-square (� ). Tujuan

Tujuan penelitian ini adalah menerapkan metode Rocchio sebagai pengklasifikasi dokumen dengan menggunakan pemilihan fitur Chi-square (� ) terhadap kinerja klasifikasi.

Ruang Lingkup

Penelitian ini dibatasi pada klasifikasi dokumen berita berbahasa Inggris dan hanya memiliki satu domain.

TINJAUAN PUSTAKA

Sistem Temu Kembali Informasi

Sistem temu kembali informasi merupakan sistem pencari pada sekumpulan dokumen elektronik yang memenuhi kebutuhan informasi tertentu (Manning et al. 2008). Sistem temu kembali informasi bertujuan untuk menjembatani kebutuhan informasi pengguna dengan sumber informasi.

Temu kembali informasi berkaitan dengan cara mempresentasikan, menyimpan, mengorganisasikan, dan mengakses informasi. Merepresentasikan dan mengorganisasikan suatu informasi harus membuat pengguna lebih mudah dalam mengakses informasi yang diinginkannya. Akan tetapi, bukan merupakan suatu hal yang mudah untuk mengetahui informasi yang diinginkan pengguna. Untuk itu, pengguna harus mentransformasikan informasi yang dibutuhkan ke dalam suatu kueri yang akan diproses mesin pencari sehingga kueri tersebut merepresentasikan informasi yang dibutuhkan oleh pengguna. Dengan kueri

tersebut, mesin pencari akan

menemukembalikan informasi yang relevan terhadap kueri (Baeza-Yates & Ribeiro-Neto 1999).

Klasifikasi

(11)

2

Secara garis besar, klasifikasi dokumen terbagi dalam dua pendekatan, yaitu pendekatan berbasis peluang dan pendekatan ruang vektor. Pada klasifikasi dengan pendekatan berbasis peluang, kelas sebuah dokumen ditentukan dengan cara menghitung peluang dari sebuah dokumen berada di sebuah kelas. Metode yang sering digunakan pada pendekatan ini diantaranya Naïve Bayes dan Bernoulli Model.

Pada pendekatan ruang vektor, setiap dokumen dianggap sebuah vektor. Pada pendekatan ini, kelas sebuah dokumen ditentukan dengan cara menghitung jarak atau kemiripan dokumen dengan pusat sebuah kelas. Metode yang sering digunakan pada pendekatan ini di antaranya Rocchio dan k Nearest Neighbor (KNN).

Model Ruang Vektor

Model ruang vektor atau vector space model (VSM) merupakan metode yang paling populer dalam temu kembali informasi (Manning et al. 2008). Dalam model ini, koleksi dokumen direpresentasikan oleh matriks term-documents. Setiap sel dalam matriks bersesuaian dengan bobot yang diberikan dari suatu term (T) dalam dokumen (D) yang ditentukan. Matriks term-documents dapat didefiniskan pada Gambar 1.

[ Gambar 1 Matriks term-documents Bobot term i pada sebuah dokumen j (wij) dapat dihitung menggunakan ukuran tf-idf yang didefinisikan dengan persamaan berikut:

= � × �� _�

� (1)

dengan tfij merupakan frekuensi kemunculan term i di dalam dokumen j, N merupakan jumlah keseluruhan dokumen, dan dfi merupakan frekuensi kemunculan dokumen d yang mengandung term i. Pembobotan dilakukan jika tfij > 0.

Pemilihan Fitur Dokumen

Pemilihan fitur adalah proses memilih subset kata (term) yang dianggap mewakili informasi penting dari suatu dokumen. Fitur inilah yang kemudian digunakan pada tahap klasifikasi dokumen. Pemilihan fitur dokumen memiliki dua tujuan utama yaitu membuat data latih yang diterapkan oleh sistem klasifikasi

menjadi lebih sederhana serta untuk meningkatkan akurasi sistem klasifikasi. Peningkatan akurasi sistem klasifikasi disebabkan karena pada proses pemilihan fitur akan dihilangkan kata-kata yang bukan merupakan penciri dokumen (Manning et al. 2008).

Chi-square (��)

Chi-square (� ) adalah suatu ukuran yang menyatakan perbedaan antara frekuensi observasi (O) dan frekuensi harapan (E) untuk diambil suatu keputusan statistik apakah terdapat perbedaan antara pola frekuensi observasi dengan frekuensi harapan. Hipotesis nol (H0) diterima jika nilai perhitungan � lebih kecil dari nilai kritis pada derajat bebas dan tingkat nyata tertentu. Hipotesis nol (H0) ditolak jika nilai perhitungan � lebih besar dari nilai kritis pada derajat bebas dan tingkat nyata tertentu.

Perhitungan nilai � pada setiap kata i yang muncul pada setiap kelas c dapat dibantu dengan menggunakan tabel kontingensi (Tabel 1).

Tabel 1 Tabel kontingensi

c ¬c

t A B

¬t C D

Perhitungan nilai � berdasarkan Tabel 1 disederhanakan dalam persamaan:

� �, = ₊ �₊ − ₊2 ₊ (3) dengan t merupakan kata yang sedang diujikan terhadap suatu kelas c, N merupakan jumlah dokumen latih, A merupakan banyaknya dokumen pada kelas c yang memuat kata t, B merupakan banyaknya dokumen yang tidak berada di kelas c yang memuat kata t, C merupakan banyaknya dokumen yang berada di kelas c yang tidak memuat kata t, dan D merupakan banyaknya dokumen yang tidak berada di kelas c dan tidak memuat kata t.

(12)

3

taraf nyata � dan derajat bebas satu adalah kata yang akan terpilih sebagai fitur. Jika jumlah kelas lebih dari dua, diutamakan untuk memilih satu set fitur yang sama untuk seluruh kelas daripada memilih set fitur yang berbeda untuk setiap kelas (Manning et al. 2008). Salah satu cara untuk melakukan hal ini yaitu dengan menghitung nilai � kata t pada setiap kelas. Kemudian term yang dipilih adalah term dengan nilai � tertinggi. Nilai kritis � dengan derajat bebas satu dan taraf nyata � dapat dilihat pada Tabel 2.

Tabel 2 Nilai kritis � untuk taraf nyata � dengan derajat bebas satu

� Nilai kritis

Klasifikasi Rocchio merupakan metode klasifikasi yang merepresentasikan setiap dokumen dalam ruang vektor dan membagi ruang vektor tersebut menjadi beberapa bagian berdasarkan centroid yang ada. Klasifikasi Rocchio mudah dan sederhana, tetapi akurasinya buruk jika jarak antar-centroid-nya sama (Manning et al. 2008). Nilai centroid diperoleh dengan menghitung rata-rata vektor pada semua dokumen. Centroid kelas c dihitung dengan persamaan:

�⃗

_{= | | ∑ ⃗}

(4)

∈ �

dengan Dc adalah gugus dokumen di kelas c,

⃗ adalah vektor kata-kata dalam kelas c, dan �⃗ adalah centroid masing-masing kelas.

Salah satu cara untuk menentukan kecocokan dokumen uji terhadap kelas adalah dengan menghitung jarak Euclidean antara kedua titik (x dan y) yang didefinisikan dengan

Confusion matrix atau disebut juga matriks klasifikasi adalah suatu alat visual yang biasanya digunakan dalam supervised learning. Matriks klasifikasi berisi jumlah kasus-kasus yang diklasifikasikan dengan benar dan kasus-kasus yang salah diklasifikasikan. Pada Kasus yang diklasifikasikan dengan benar muncul pada diagonal, karena kelompok prediksi dan kelompok aktual adalah sama. Elemen-elemen selain diagonal menunjukkan kasus yang salah diklasifikasikan. Jumlah elemen diagonal dibagi total jumlah kasus adalah rasio tingkat akurasi dari klasifikasi. Format dari confusion matrix dapat dilihat pada Gambar 3.

Gambar 2 Format Confusion Matrix (Hamel 2008)

Evaluasi kesamaan dokumen dapat diukur menggunakan recall, precision dan F-measure. Hasil klasifikasi (predicted class) memiliki kemungkinan yaitu benar dalam kelasnya (TP dan TN) atau salah, masuk kelas lainnya (FP dan FN).

Hasil pengukuran (performace metric) dapat diperoleh dengan melihat pada format confusion matrix di atas. Akurasi dari pengklasifikasian diperoleh dari formula:

Akurasi= _TP+TN+FP+FNTP+TN (6)

Pengukuran lain yaitu recall, precision, F-measure (F1) dapat dinotasikan sebagai berikut:

Recall= _TP+FNTP (7)

Precision= _TP+FPTP (8)

F1= 2*Recall*Precision_{Recall+Precision} (9)

(13)

4

entitas bernilai benar, dibagi dengan jumlah entitas yang seharusnya dapat dikenali oleh sistem. Sedangkan Precision adalah tingkat ketepatan hasil klasifikasi dari seluruh dokumen. Precision dihitung dari jumlah pengenalan yang bernilai benar oleh sistem, dibagi dengan jumlah keseluruhan pengenalan yang dilakukan oleh sistem. F-measure adalah nilai yang mewakili keseluruhan kinerja sistem dan merupakan gabungan nilai recall dan precision.

METODE PENELITIAN

Gambaran Umum Sistem

Secara garis besar penelitian dilakukan dalam beberapa tahap meliputi praproses, pemilihan fitur dengan � , pembobotan term, pengklasifikasian dengan Rocchio, dan evaluasi hasil klasifikasi. Metode penelitian diilustrasikan pada Gambar 3.

Koleksi Dokumen

Koleksi dokumen yang digunakan adalah Reuters-21578 yang merupakan kumpulan artikel berita berbahasa inggris (David 1997). Jumlah seluruh dokumen yaitu 21578 yang terbagi ke dalam 118 kelas.

Dalam penelitian ini jumlah kelas yang akan digunakan yaitu sebanyak 20 kelas. Kelas dipilih berdasarkan jumlah dokumen terbanyak. Setelah kelas yang akan digunakan terpilih, isi dokumen pada setiap kelas dibandingkan dengan isi dokumen pada kelas lainnya. Dokumen yang memiliki lebih dari satu kelas dihapus, sehingga dapat dipastikan tidak terdapat duplikasi dokumen yang akan digunakan pada proses pelatihan dan pengujian. Dari rangkaian proses tersebut diperoleh dokumen latih sebanyak 7107 dan dokumen uji sebanyak 2712. Contoh isi dokumen dan jumlah dokumen pada setiap kelas dapat dilihat pada Lampiran 1 dan 2.

Praproses

Praproses merupakan tahapan awal dalam proses klasifikasi dokumen setelah koleksi dokumen terkumpul. Praproses dalam penelitian ini dilakukan dalam beberapa tahapan, yaitu: 1 Tokenisasi dilakukan dengan memilah

dokumen menjadi unit-unit yang lebih kecil berupa kata, kemudian seluruh huruf kapital dikecilkan (lower-casing).

2 Proses pembuangan stopwords yaitu dihilangkannya kata yang tidak berhubungan dengan subjek utama dari

dokumen. Kata yang dihilangkan adalah kata yang sering muncul dalam koleksi dokumen dan tidak memunyai arti.

3 Proses stemming yaitu mengambil kata dasar dengan membuang imbuhan dari sebuah kata. Proses stemming dalam penelitian ini menggunakan metode Porter Stemmer.

Gambar 3 Metode penelitian. Pemilihan fitur

(14)

5

pada dokumen uji tidak terdapat pada dokumen latih, term tersebut dihapus.

Pembobotan

Fitur yang terpilih diberi bobot (w) dengan pendekatan tf-idf menggunakan persamaan (1), dan dilanjutkan dengan normalisasi menggunakan persamaan:

�,

=

�,

√∑

₌ _,

dengan _�, merupakan bobot term t pada dokumen d, dan wi,d merupakan bobot term ke-i pada dokumen d, dan m merupakan jumlah kata unik.

Klasifikasi Rocchio

Pada tahap ini centroid masing-masing kelas dihitung menggunakan persamaan (4). Kemudian, jarak Euclidean antara centroid setiap kelas dan vektor dokumen uji dihitung menggunakan persamaan (5). Hasil perhitungan ini digunakan untuk menentukan kelas untuk dokumen uji, yaitu dengan cara memilih nilai hasil perhitungan yang terkecil (terdekat). Klasifikasi dilakukan terhadap dua kelompok dokumen latih secara terpisah, yaitu dokumen latih yang telah melalui tahap pemilihan fitur dan dokumen latih tanpa melalui tahap pemilihan fitur.

Evaluasi Hasil Klasifikasi

Evaluasi dilakukan dengan cara membandingkan nilai akurasi (6), recall (7), precision (8), dan F-measure (9) yang diperoleh dari hasil uji klasifikasi pada setiap taraf. Tujuan tahap ini adalah untuk menganalisis pengaruh taraf nyata (�) pada proses pemilihan fitur terhadap kinerja klasifikasi.

HASIL DAN PEMBAHASAN

Pengembangan Sistem

Sistem dibangun dengan menggunakan PHP 5.3.2 sebagai bahasa pemrograman, MySQL 5.1.44 sebagai basis data, dan Apache 2.0.63 sebagai webserver. Pengembangan sistem dilakukan dengan konsep pemrograman berbasis objek dengan empat class utama yang terlibat yaitu ‘indexer’ (indexer.php), ‘chisquare’ (chisquare.php), ‘rocchio’ (rocchio.php), dan ‘evaluator’ (evaluator.php). Tabel-tabel yang digunakan pada database yaitu tabel ‘corpusTrain’, ‘token’, ‘chiSquare’, ‘dictionary’, ‘termWeight’, ‘centroid’, ‘corpusTest’, dan ‘testResult’. Daftar tabel

database dan tampilan utama antarmuka sistem dapat dilihat pada Lampiran 3 dan 4.

Untuk melakukan pengindeksan, dokumen dikelompokan dan disimpan dalam sebuah direktori berdasarkan kelas. Kemudian class ‘indexer’ membaca isi seluruh dokumen untuk memperoleh indeks berdasarkan dokumen dan kelas. Keluaran yang dihasilkan pada proses ini berupa array yang berisi nama kelas dokumen, nama dokumen, nama term, dan jumlah term yang selanjutnya disimpan di dalam tabel ‘corpusTrain’ dan ‘token’.

Perhitungan nilai � dilakukan oleh class

‘chisquare’ dengan menggunakan data yang diperoleh dari tabel ‘token’ dan ‘corpusTrain’. Keluaran yang dihasilkan oleh class ini berupa array yang berisi nama kelas, nama term, dan nilai � yang selanjutnya disimpan di dalam tabel ‘chiSquare’. Untuk keperluan proses klasifikasi, daftar fitur yang telah diperoleh disimpan pada tabel ‘dictionary’ berdasarkan taraf nyata yang telah ditentukan.

Fitur-fitur yang telah diperoleh selanjutnya digunakan untuk proses pelatihan dan pengujian klasifikasi yang dilakukan oleh class ‘rocchio’. Beberapa method utama yang berperan pada

class ‘rocchio’ yaitu ‘countWeight’, ‘countCentroid’, dan ‘countDistance’ yang masing-masing berperan sebagai pembobot fitur, penghitung centroid, dan penghitung jarak Euclidean. Keluaran yang dihasilkan pada proses pelatihan berupa daftar nilai centroid pada setiap kelas dan taraf nyata yang selanjutnya disimpan pada tabel ‘centroid’. Keluaran yang dihasilkan pada proses pelatihan berupa array yang berisi nama kelas beserta hasil perhitungan jarak Euclidean antara centroid setiap kelas dan vektor dokumen uji yang selanjutnya disimpan pada tabel ‘testResult’.

Evaluasi hasil klasifikasi dilakukan oleh class ‘evaluator’ dengan menggunakan data yang terdapat pada tabel ‘testResult’. Keluaran yang dihasilkan pada proses ini langsung ditampilkan pada antarmuka sistem berupa grafik perbandingan nilai akurasi, recall, precision, dan F-measure.

Praproses Data

(15)

6

selain huruf seperti spasi, titik, koma, dan tanda baca lainnya.

Setelah hasil tokenisasi diperoleh, selanjutnya dilakukan penghilangan stopwords berdasarkan stoplist yang dapat dilihat pada Lampiran 5. Untuk memperoleh kata dasar, imbuhan setiap kata dihilangkan dengan menggunakan Porter Stemmer.

Dari seluruh rangkaian proses diatas, jumlah token yang dihasilkan pada 7107 dokumen latih yaitu sebanyak 503651 dengan total kata unik sebanyak 17623. Seluruh term yang diperoleh pada tahap ini akan digunakan untuk proses klasifikasi tanpa pemilihan fitur.

Pemilihan Fitur

Kata unik yang telah dihasilkan dari tahapan praproses kemudian diproses pada tahap pemilihan fitur. Pemilihan fitur dengan metode pengujian � dilakukan pada dua taraf nyata, yaitu 0.05 dan 0.001. Berdasarkan teori terpenuhinya hipotesis, taraf nyata 0.05 dapat diartikan bahwa kriteria kata yang dipilih adalah kata yang memiliki nilai � di atas 3.84 dan taraf nyata 0.001 diartikan sebagai kriteria kata yang dipilih adalah kata yang memiliki nilai � di atas 10.83.

Pada taraf nyata 0.05, jumlah kata berkurang sebanyak 21.37% atau menjadi 396005, dan jumlah kata unik berkurang sebanyak 38.52% atau menjadi 10834. Pada taraf nyata 0.001, jumlah kata berkurang sebanyak 32.82% atau menjadi 299359, dan jumlah kata unik berkurang sebanyak 47.62% atau menjadi 9231. Hal ini menunjukkan bahwa proses pemilihan fitur dapat mengurangi jumlah kata karena yang terpilih hanyalah kata yang dianggap dapat menjadi penciri sebuah dokumen.

Himpunan kata penciri pada taraf nyata 0.001 berjumlah lebih sedikit daripada jumlah kata penciri yang dihasilkan pada taraf nyata 0.05, hal ini disebabkan karena jumlah term pada masing-masing kelas yang memiliki nilai � di atas nilai kritis 10.83 lebih sedikit daripada jumlah term yang memiliki nilai � di atas nilai kritis 3.84.

Perbandingan jumlah kata dan kata unik pada tahap praproses dan setelah pemilihan fitur dapat dilihat pada Gambar 4 dan 5.

Gambar 4 Jumlah kata pada tahap praproses data (jumlah awal) dan setelah pemilihan fitur (�=0.05 dan �=0.001).

Gambar 5 Jumlah kata unik pada tahap praproses data (jumlah awal) dan setelah pemilihan fitur (�=0.05 dan �=0.001).

Evaluasi Hasil Klasifikasi

Uji coba klasifikasi dilakukan menggunakan metode Rocchio dengan tiga perlakuan, yaitu klasifikasi tanpa melakukan pemilihan fitur dan klasifikasi yang terlebih dahulu dilakukan

(16)

7

pemilihan fitur menggunakan uji � pada taraf nyata 0.05 dan 0.001.

Penilaian kinerja klasifikasi dilakukan dengan cara menghitung nilai akurasi, recall, precision, dan F-measure dengan bantuan tabel confusion matrix pada Lampiran 6, 7, dan 8.

Proses pemilihan fitur mampu mengurangi jumlah term cukup signifikan, namun tidak membuang informasi penting pada setiap kelasnya. Hal ini ditunjukan dengan nilai akurasi pada setiap taraf nyata tidak memiliki perbedaan yang signifikan. Pada klasifikasi tanpa pemilihan fitur diperoleh nilai akurasi sebesar 83.08%, klasifikasi dengan pemilihan fitur pada taraf nyata 0.05 dan 0.001 masing-masing diperoleh nilai akurasi sebesar 83.96% dan 83.67%. Nilai akurasi pada setiap taraf nyata tidak banyak mengalami perubahan karena jumlah fitur yang diperoleh pada kedua taraf nyata tersebut tidak jauh berbeda.

Gambar 6 Grafik Akurasi pada setiap taraf nyata.

Terdapat beberapa term yang menghasilkan nilai perhitungan � yang tidak jauh berbeda pada setiap kelas menyebabkan adanya kemiripan makna isi dokumen pada beberapa kelas yang berbeda, sehingga terjadi kesalahan pelabelan kelas. Misalnya kata ‘saving’ dan ‘loan’ yang menjadi penciri kelas ‘money-supp’ banyak terdapat pada dokumen uji pada kelas ‘acq’, sehingga tidak sedikit dokumen yang tidak relevan yang seharusnya masuk ke dalam kelas ‘acq’ masuk ke dalam kelas ‘money-supp’. Grafik Akurasi pada setiap taraf nyata dapat dilihat pada Gambar 6.

Secara umum klasifikasi tanpa pemilihan fitur memiliki nilai recall lebih baik dibandingkan dengan klasifikasi tanpa pemilihan fitur yaitu sebesar 78.57%. Taraf nyata 0.001 memiliki nilai recall terendah yaitu sebesar 77.26%, dan nilai recall pada taraf nyata 0.05 adalah sebesar 78.55%.

Tabel 3 Hasil pengukuran recall.

Recall (%)

Kelas Taraf Nyata (�) - 0.05 0.001

acq 81.64 86.23 86.23

bop 63.33 66.67 66.67

carcass 76.47 76.47 76.47

cocoa 100.00 100.00 100.00

coffee 92.31 92.31 88.46

corn 72.22 72.22 59.26

cpi 62.50 62.50 62.50

crude 83.52 78.57 81.32

dlr 81.40 81.40 72.09

earn 88.27 88.18 87.90

gnp 94.74 94.74 94.74

gold 86.21 86.21 82.76

grain 71.11 70.00 71.11

interest 66.93 66.93 64.57

money-fx 56.70 56.70 63.92

money-supp 75.86 72.41 65.52

oilseed 83.33 83.33 83.33

ship 69.77 67.44 72.09

sugar 96.00 96.00 96.00

trade 69.05 72.62 70.24

Macro Average 78.57 78.55 77.26

Penurunan nilai recall terjadi karena proses pemilihan fitur telah menghilangkan beberapa term yang memiliki informasi penting pada beberapa kelas, sehingga pengklasifikasi tidak mampu memberi label kelas yang benar untuk beberapa dokumen uji. Hal ini selaras dengan perbedaan jumlah fitur yang dihasilkan oleh kedua taraf nyata yaitu taraf nyata 0.05 menghasilkan fitur lebih banyak dibandingkan dengan jumlah fitur yang dihasilkan pada taraf nyata 0.001.

(17)

8 taraf nyata sama. Hasil pengukuran nilai recall dapat dilihat pada Tabel 3.

Dari hasil perhitungan precision, klasifikasi dengan pemilihan fitur pada taraf nyata 0.001 memiliki nilai tertinggi yaitu sebesar 72.81%, sedangkan klasifikasi tanpa pemilihan fitur nilai terendah yaitu sebesar 77.26%. Hal ini menunjukkan bahwa pemilihan fitur berpengaruh terhadap rasio umlah dokumen relevan yang berhasil diklasifikasikan.

Tabel 4 Hasil pengukuran precision.

Precision (%)

Kelas Taraf Nyata (�) - 0.05 0.001

acq 92.88 92.40 91.99

bop 32.20 35.71 34.48

carcass 81.25 86.67 86.67

cocoa 60.71 94.44 94.44

coffee 96.00 96.00 95.83

corn 79.59 82.98 82.05

cpi 42.86 68.18 75.00

crude 86.86 85.12 85.55

dlr 66.04 63.64 70.45

earn 99.58 99.69 99.69

gnp 26.47 30.51 27.69

gold 78.13 75.76 77.42

grain 78.05 79.75 80.00

interest 76.58 78.70 78.85

money-fx 63.95 63.22 61.39

money-supp 14.86 13.46 11.45

oilseed 83.33 83.33 100.00

ship 52.63 50.88 58.49

sugar 77.42 75.00 80.00

trade 63.74 66.30 64.84

Macro Average 67.66 71.09 72.81

Nilai precision yang tinggi cenderung dimiliki oleh dokumen uji dengan jumlah yang relatif besar pada setiap kelasnya seperti kelas ‘acq’ dan ‘earn’. Selain itu dokumen-dokumen yang terdapat pada kelas tersebut cenderung memiliki jumlah fitur yang lebih banyak

dibandingkan dengan dokumen pada kelas lainnya. Hal ini menunjukkan bahwa perbedaan jumlah fitur pada setiap kelas mempengaruhi nilai precision pada setiap kelasnya.

Kinerja klasifikasi secara keseluruhan dapat ditentukan dengan membandingkan nilai F-measure (F1) yang dihitung berdasarkan nilai recall dan precision yang diperlihatkan pada Tabel 3 dan 4. Pada Gambar 7 dapat dilihat bahwa nilai pemilihan F-measure mengalami peningkatan pada setiap taraf nyata. Nilai F-measure tertinggi diperoleh pada taraf nyata 0.001 yaitu sebesar 72.57% atau meningkat sebanyak 2.28% jika dibandingkan dengan nilai F-measure pada sebelum pemilihan fitur yang sebesar 70.29%. Pada taraf nyata 0.05 diperoleh nilai F-measure sebesar 72.42%. Peningkatan nilai F-measure lebih banyak dipengaruhi oleh meningkatnya nilai recall pada klasifikasi dengan pemilihan fitur. Karena nilai precision tidak menunjukkan perbedaan yang signifikan.

Gambar 7 Grafik F-measure (F1) pada setiap taraf nyata.

KESIMPULAN DAN SARAN

Kesimpulan

Penelitian ini menerapkan metode � untuk pemilihan fitur dan metode Rocchio untuk klasifikasi dokumen. Pemilihan fitur dilakukan dengan dua taraf nyata, yaitu 0.05 dan 0.001.

Pemilihan fitur mampu mengurangi jumlah kata dan kata kunci yang akan digunakan untuk proses klasifikasi. Taraf nyata yang lebih tinggi menghasilkan jumlah fitur yang lebih sedikit.

(18)

9

Dengan mengacu kepada nilai evaluasi yang dihasilkan pada setiap taraf nyata, klasifikasi dengan pemilihan fitur dapat menghasilkan nilai kinerja yang lebih baik dibandingkan dengan klasifikasi tanpa pemilihan fitur. Meskipun terdapat peningkatan nilai kinerja, namun tidak ditemukan perbedaan nilai yang signifikan pada setiap taraf nyata.

Saran

Kesalahan pelabelan kelas pada beberapa dokumen uji disebabkan karena term yang memiliki nilai � tinggi pada salah satu kelas dapat dijadikan fitur untuk kelas yang lainnya, sehingga beberapa kelas memiliki fitur yang sama. Untuk penelitian selanjutnya disarankan untuk mengembangkan metode yang memungkinkan fitur yang terpilih tiap kelas berbeda sehingga diharapkan kinerja sistem klasifikasi dapat meningkat.

DAFTAR PUSTAKA

Baeza-Yates R, Riberio-Neto B. 1999. Modern Information Retrieval. Harlow: Addison Wesley.

David D. 1997. Reuters-21578 Text Categorization Test Collection Distribution 1.0. http://www.daviddlewis.com/resources/ testcollections/reuters21578/. [2 Nov 2011] Lutz Hamel. Model Assessment with ROC

Curves. 2008. The Encyclopedia of Data Warehousing and Mining.2nd Edition.Idea Group Publishers. http://homepage.cs.uri. edu/faculty/hamel/pubs/. [28 Okt 2011]. Han J, Kamber M. 2001. Data Mining: Concept

and Techniques. Ed. ke-2. San Francisco: Morgan Kaufmann Publishers.

Herawan Y. 2011. Ekstraksi Ciri Dokumen Tumbuhan Obat Menggunakan Chi-kuadrat Dengan Klasifikasi Naïve Bayes. [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Manning C, Raghavan P, Schűtze H. 2008. Introduction to Information Retrieval. Cambridge: Cambridge University Press. Paskianti K. 2011. Klasifikasi Dokumen

Tumbuhan Obat Menggunakan Algoritme KNN Fuzzy [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Yang Y, Pederson J. 1997. A Comparative Study on Feature Selection in Text

(19)

(20)

11

Lampiran 1 Contoh isi dokumen

INDIA TO GET U.K. COAL, STEEL INDUSTRY GRANTS NEW DELHI, March 14 - India will get 104.65 mln stg as grants from Britain to develop its coal, zinc and lead industries, the British Information Services said in a statement.

It said a 31 mln stg grant would be disbursed over three to four years under an agreement signed here yesterday between the Indian Finance Ministry and the British Overseas Development Administration.

The British grants for developing the Indian coal industry using British mechanised longwall technology totalled 52 mln stg in the past 10 years, it said.

Under a separate agreement, the British government agreed to provide 73.65 mln stg as a grant to develop a zinc and lead mine at Rampura-Agucha and an associated smelting complex at Chaneriya, both in India's northern state of Rajasthan, the statement said.

The grant will finance the basic engineering for the

(21)

12

Lampiran 2 Daftar kelas

Kelas Jumlah Dokumen

Latih Uji

acq 1650 719

bop 75 30

carcass 49 17

cocoa 55 17

coffee 101 26

corn 157 54

cpi 67 24

crude 370 182

dlr 126 43

earn 2843 1083

gnp 82 19

gold 83 29

grain 218 90

interest 329 127

money-fx 266 97

money-supply 123 29

oilseed 49 18

ship 112 43

sugar 98 25

trade 254 84

(22)

13

Lampiran 3 Daftar tabel basisdata

Tabel 'corpusTrain'

Field Tipe Data Keterangan

docID varchar (20) Id dokumen latih class varchar (20) Nama kelas latih

Tabel 'chiSquare'

term varchar (50) Nama term (t) class varchar (20) Nama kelas (c) x2 float Nilai � term t pada

kelas c

Tabel 'termWeight'

docID varchar (20) Id dokumen latih term varchar (50) Nama term (t) tf int (11) Jumlah kemunculan

term t tfidf float Bobot term t alpha float Taraf nyata

Tabel 'corpusTest'

docID varchar (20) Id dokumen uji class varchar (20) Nama kelas uji

Tabel 'testResult'

docID varchar (20) Id dokumen uji actual varchar (20)

Kelas aktual dokumen uji prediction varchar (20)

Kelas hasil pengujian uji distance float Jarak Euclidean

alpha float Taraf nyata

Tabel 'token'

term varchar (50) Nama term (t) docID varchar (20)

Id dokumen latih (d) yang

mengandung term I tf int (11)

Jumlah kemunculan term t pada

dokumen d

Tabel 'dictionary'

term varchar (20) Nama term (t) tf varchar (20) Jumlah kemunculan

term t

df text

Jumlah dokumen yang mengandung term t

alpha float Taraf nyata

Tabel 'centroid'

(23)

14

Lampiran 4 Tampilan antarmuka sistem

Halaman hasil proses pelatihan

(24)

15

Lampiran 4 (Lanjutan)

Halaman hasil perhitungan recall

(25)

16

Lampiran 4 (Lanjutan)

Halaman hasil perhitungan F-measure

(26)

17

Lampiran 5 Stoplist

(27)

18 Lampiran 6 Confusion matrix hasil klasifikasi tanpa pemilihan fitur

Aktual

Prediksi

acq bop carcass cocoa coffee corn cpi crude dlr earn gnp gold grain interest money-fx

money-supp oilseed ship sugar trade

acq 587 ₁ ₃ ₁₁ ₁ ₀ ₁₄ ₁₃ ₀ ₃ ₈ ₅ ₀ ₁₁ ₇ ₄₄ ₁ ₃ ₁ ₆

bop 0 19 ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₁₀ ₀ ₀ ₀ ₀ ₁ ₀ ₀ ₀ ₀

carcass 0 0 13 ₀ ₀ ₁ ₀ ₀ ₀ ₀ ₀ ₀ ₂ ₀ ₀ ₀ ₀ ₀ ₀ ₁

cocoa 0 0 0 17 ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀

coffee 0 0 0 0 24 ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₁ ₀ ₁

corn 0 1 0 0 0 39 ₀ ₀ ₀ ₀ ₀ ₀ ₁₃ ₀ ₀ ₀ ₀ ₀ ₁ ₀

cpi 0 1 0 0 0 0 15 ₁ ₀ ₀ ₆ ₀ ₀ ₁ ₀ ₀ ₀ ₀ ₀ ₀

crude 1 0 0 0 0 1 1 152 ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₇ ₀ ₁₈ ₀ ₂

dlr 0 0 0 0 0 0 1 0 35 ₀ ₁ ₀ ₀ ₂ ₃ ₁ ₀ ₀ ₀ ₀

earn 43 16 0 0 0 0 1 5 2 956 ₁₅ ₁ ₀ ₃ ₅ ₃₅ ₁ ₀ ₀ ₀

gnp 0 1 0 0 0 0 0 0 0 0 18 ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀

gold 0 0 0 0 0 0 0 0 1 0 0 25 ₀ ₀ ₀ ₂ ₀ ₀ ₀ ₁

grain 0 0 0 0 0 7 1 0 0 1 1 0 64 ₀ ₀ ₂ ₁ ₅ ₃ ₅

interest 0 0 0 0 0 0 0 0 3 0 4 0 0 85 ₁₄ ₁₇ ₀ ₀ ₀ ₄

money-fx 0 1 0 0 0 0 1 0 12 0 1 0 0 5 55 ₁₅ ₀ ₀ ₀ ₇

money-supp 0 0 0 0 0 0 1 0 0 0 2 0 0 3 1 22 ₀ ₀ ₀ ₀

oilseed 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 15 ₀ ₀ ₁

ship 1 0 0 0 0 0 0 3 0 0 0 1 1 0 0 1 0 30 ₂ ₄

sugar 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 24 ₁

(28)

19 Lampiran 7 Confusion matrix gasil klasifikasi dengan pemilihan fitur (�=0.05)

Aktual

Prediksi

acq 620 ₁ ₂ ₁ ₁ ₀ ₀ ₁₆ ₀ ₁ ₁ ₆ ₁ ₈ ₅ ₄₆ ₀ ₃ ₂ ₅

bop 0 20 ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₉ ₀ ₀ ₀ ₀ ₁ ₀ ₀ ₀ ₀

carcass 0 0 13 ₀ ₀ ₁ ₀ ₀ ₀ ₀ ₀ ₀ ₂ ₀ ₀ ₀ ₀ ₀ ₀ ₁

cocoa 0 0 0 17 ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀

coffee 0 0 0 0 24 ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₁ ₀ ₁

corn 0 1 0 0 0 39 ₁ ₀ ₀ ₀ ₀ ₀ ₁₂ ₀ ₀ ₀ ₀ ₀ ₁ ₀

cpi 0 1 0 0 0 0 15 ₁ ₀ ₀ ₆ ₀ ₀ ₁ ₀ ₀ ₀ ₀ ₀ ₀

crude 1 0 0 0 0 1 0 143 ₀ ₀ ₁ ₀ ₀ ₀ ₁ ₁₁ ₁ ₂₀ ₀ ₃

dlr 0 0 0 0 0 0 1 0 35 ₀ ₁ ₀ ₀ ₁ ₃ ₂ ₀ ₀ ₀ ₀

earn 49 13 0 0 0 0 0 4 2 955 ₁₅ ₁ ₀ ₃ ₅ ₃₆ ₀ ₀ ₀ ₀

gnp 0 1 0 0 0 0 0 0 0 0 18 ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀

gold 0 0 0 0 0 0 0 0 1 0 0 25 ₀ ₀ ₀ ₂ ₀ ₀ ₀ ₁

grain 0 0 0 0 0 6 3 0 0 1 1 0 63 ₀ ₀ ₄ ₂ ₄ ₂ ₄

interest 0 0 0 0 0 0 0 0 3 0 3 0 0 85 ₁₆ ₁₆ ₀ ₀ ₀ ₄

money-fx 0 1 0 0 0 0 1 0 14 0 1 0 0 5 55 ₁₅ ₀ ₀ ₀ ₅

money-supp 0 0 0 0 0 0 1 0 0 0 2 0 0 4 1 21 ₀ ₀ ₀ ₀

oilseed 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 15 ₀ ₀ ₁

ship 1 0 0 0 0 0 0 3 0 0 0 1 0 0 0 1 0 29 ₃ ₅

sugar 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 24 ₁

(29)

20 Lampiran 8 Confusion Matrix hasil klasifikasi dengan pemilihan fitur (�=0.001)

Aktual

Prediksi

acq 620 ₁ ₂ ₁ ₁ ₀ ₀ ₁₅ ₀ ₁ ₁ ₆ ₁ ₈ ₄ ₄₈ ₀ ₃ ₁ ₆

bop 0 20 ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₉ ₀ ₀ ₀ ₀ ₁ ₀ ₀ ₀ ₀

carcass 0 0 13 ₀ ₀ ₁ ₀ ₀ ₀ ₀ ₀ ₀ ₂ ₀ ₀ ₀ ₀ ₀ ₀ ₁

cocoa 0 0 0 17 ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀

coffee 0 0 0 0 23 ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₁ ₀ ₂

corn 0 0 0 0 0 32 ₁ ₀ ₀ ₀ ₂ ₀ ₁₂ ₀ ₀ ₇ ₀ ₀ ₀ ₀

cpi 0 1 0 0 0 0 15 ₁ ₀ ₀ ₆ ₀ ₀ ₁ ₀ ₀ ₀ ₀ ₀ ₀

crude 1 0 0 0 0 1 0 148 ₀ ₀ ₁ ₀ ₀ ₀ ₂ ₁₁ ₀ ₁₅ ₀ ₃

dlr 0 0 0 0 0 0 0 0 31 ₀ ₁ ₀ ₀ ₂ ₇ ₂ ₀ ₀ ₀ ₀

earn 52 15 0 0 0 0 0 4 2 952 ₁₄ ₁ ₀ ₂ ₆ ₃₅ ₀ ₀ ₀ ₀

gnp 0 1 0 0 0 0 0 0 0 0 18 ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀ ₀

gold 0 0 0 0 0 0 0 0 1 0 0 24 ₀ ₀ ₀ ₂ ₀ ₀ ₀ ₂

grain 0 0 0 0 0 5 2 1 0 1 1 0 64 ₀ ₀ ₆ ₀ ₃ ₂ ₅

interest 0 0 0 0 0 0 0 0 2 0 4 0 0 82 ₁₈ ₁₇ ₀ ₀ ₀ ₄

money-fx 0 1 0 0 0 0 1 0 8 0 1 0 0 5 62 ₁₆ ₀ ₀ ₀ ₃

money-supp 0 0 0 0 0 0 1 0 0 0 5 0 0 3 1 19 ₀ ₀ ₀ ₀

oilseed 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 15 ₀ ₀ ₁

ship 1 0 0 0 0 0 0 3 0 0 0 0 0 0 0 1 0 31 ₃ ₄

sugar 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 24 ₁