KLASIFIKASI DOKUMEN TEKS BERBAHASA INDONESIA
MENGGUNAKAN MINOR COMPONENT ANALYSIS
INDRA JUNIAWAN
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2009
KLASIFIKASI DOKUMEN TEKS BERBAHASA INDONESIA
MENGGUNAKAN MINOR COMPONENT ANALYSIS
INDRA JUNIAWAN
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2009
ABSTRACT
INDRA JUNIAWAN. Text Document Classification with Minor Component Analysis. Under the supervision of AHMAD RIDHA.
Document classification can improve information retrieval process by decreasing the search time and increase the relevance of the results. Many classification algorithms have been developed, e.g., Naïve Bayes Classifier, Nearest Neighbor, Principal Component Analysis, and Minor Component Analysis (MCA). This research investigates the performance of MCA in classifying text documents in Bahasa Indonesia. MCA has been applied for image classification, but has not been widely used in text classification. The dataset used in this research contains 750 documents from Media Indonesia Online, consisting of five classes, i.e., economics, education, crime, environment, and badminton. This research also observes the influence of stemming and stoplist in preprocessing to the classification performance. The experiment results show that MCA achieves more 90% accuracy and the preprocessing methods do not have significant effect to the performance.
Keywords: document text classification, minor component analysis.
i Judul : Klasifikasi Dokumen Teks Berbahasa Indonesia Menggunakan Minor Component Analysis Nama : Indra Juniawan
NRP : G64051546
Menyetujui: Pembimbing,
Ahmad Ridha, S.Kom, M.S. NIP 198005072005011001
Mengetahui:
Dekan Fakultas Matematika dan Pengetahuan Alam Institut Pertanian Bogor
Dr. drh. Hasim, DEA NIP 196103281986011002
ii
KATA PENGANTAR
Puji Syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan tugas akhir sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer di FMIPA, IPB.
Terima kasih penulis ucapkan kepada semua pihak yang telah membantu penyelesaian tugas akhir ini, antara lain kepada Bapak Weskoni dan Ibu Ipah Syaripah selaku kedua orang tua penulis, dan kepada Tia Lestari dan Aditya Mahendra selaku kakak penulis yang selalu memberikan motivasi, semangat, moril, serta kasih sayang yang telah diberikan. Ucapan terima kasih dan penghargaan yang setinggi-tingginya kepada Bapak Ahmad Ridha, S.Kom, M.S selaku pembimbing atas dukungan, bimbingan, serta perhatiannya kepada penulis selama penelitian berlangsung. Tidak lupa kepada semua dosen pengajar yang telah mendidik, membina, serta mengajar penulis selama menjadi mahasiswa Departemen Ilmu Komputer. Ucapan terima kasih juga penulis ucapkan kepada Adeth, Lena, Mirna, Medria, Indra, Huda, Dony, Nila, Vera, Ibu Yeni, dan seluruh rekan Ilkomerz 42 atas dukungan, kebersamaan, serta pengalaman yang tak terlupakan.
Penulis menyadari bahwa pelaksanaan penelitian ini masih jauh dari kesempurnaan, namun besar harapan penulis bahwa apa yang telah dikerjakan dapat memberikan manfaat bagi seluruh pihak.
Bogor, Juli 2009
iii
RIWAYAT HIDUP
Penulis dilahirkan di Bogor pada tanggal 23 Juni 1987 sebagai anak ketiga dari Bapak Weskoni dan Ibu Ipah Syaripah. Pada tahun 2002 penulis menempuh pendidikan di SMA Negeri 2 Cianjur hingga tahun 2005. Pada tahun yang sama penulis diterima sebagai mahasiswa Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Pada tanggal 7 Juli 2008 penulis melaksanakan Praktik Kerja Lapangan di Direktorat Jenderal Kelautan Pesisir dan Pulau-pulau Kecil Departemen Kelautan Perikanan sampai dengan tanggal 25 Agustus 2008.
iv DAFTAR ISI Halaman DAFTAR TABEL ... vi DAFTAR GAMBAR ... vi DAFTAR LAMPIRAN ... vi PENDAHULUAN Latar Belakang ... 1 Tujuan ... 1 Ruang Lingkup ... 1 Manfaat Penelitian ... 1 TINJAUAN PUSTAKA Klasifikasi Dokumen ... 1
Minor Component Analysis (MCA) ... 2
Algoritme MCA ... 2
Confusion Matrix ... 2
K-Fold Cross Validation ... 2
Uji Cochran ... 2 Tokenisasi ... 3 Stemming... 3 Stop Word ... 3 Pembobotan tf.idf... 3 Panjang Vektor ... 4 Proyeksi Vektor ... 4 METODOLOGI PENELITIAN Studi Pustaka ... 4 Pengumpulan Data... 4 Implementasi Sistem... 5 Klasifikasi MCA ... 5 Praproses ... 5 Perlakuan Pertama ... 5 Perlakuan Kedua ... 5 Perlakuan Ketiga ... 5 Perlakuan Keempat ... 5
Data Latih dan Data Uji ... 6
Pelatihan ... 6
Klasifikasi ... 6
Akurasi ... 6
Uji Cochran ... 6
3-Fold Cross Validation ... 6
Lingkungan Pengembangan ... 7
HASIL DAN PEMBAHASAN Praproses ... 7 Pelatihan ... 7 Perlakuan Pertama ... 8 Perlakuan Kedua ... 8 Perlakuan Ketiga ... 8 Perlakuan Keempat ... 8
Klasifikasi MCA pada Kelas Ekonomi ... 9
Klasifikasi MCA pada Kelas Bulutangkis... 9
Klasifikasi MCA pada Kelas Kriminal ... 9
v
Klasifikasi MCA pada Kelas Pendidikan ... 9
Akurasi Setiap Perlakuan ... 9
3-Fold Cross Validation ... 11
KESIMPULAN DAN SARAN Kesimpulan ... 11
Saran ... 11
DAFTAR PUSTAKA ... 11
vi
DAFTAR TABEL
Halaman
1 Confusion Matrix ... 2
2 Data percobaan ... 3
3 Contoh pembobotan idf ... 4
4 Kelas data ... 5
5 Jumlah term hasil praposes ... 7
6 Perbedaan akurasi pada jumlah term yang berbeda ... 7
7 Perhitungan waktu praproses ... 7
8 Akurasi perlakuan pertama ... 8
9 Akurasi perlakuan kedua ... 8
10 Akurasi perlakuan ketiga ... 8
11 Akurasi perlakuan keempat ... 9
12 Confusion matrix perlakuan pertama ... 9
13 Confusion matrix perlakuan kedua ... 10
14 Confusion matrix perlakuan ketiga ... 10
15 Confusion matrix perlakuan keempat ... 10
16 Rekapitulasi akurasi ... 10 DAFTAR GAMBAR Halaman 1 Tahap klasifikasi. ... 2 2 Proyeksi vektor. ... 4 3 Metodologi penelitian. ... 4 4 Alur klasifikasi. ... 5 5 Ilustrasi kelas. ... 6
6 Akurasi kelas ekonomi. ... 9
7 Akurasi kelas lingkungan. ... 9
8 Akurasi kelas pendidikan. ... 9
9 Akurasi pada setiap data set. ... 11
DAFTAR LAMPIRAN Halaman 1 Contoh tabel perhitungan uji Cohcran ... 13
2 Contoh dokumen dalam format XML ... 14
3 Stoplist ... 15
PENDAHULUAN Latar Belakang
World Wide Web (WWW) merupakan
sebuah galeri informasi yang dapat diakses dari semua penjuru dunia. Perkembangan dunia informasi dan teknologi yang sangat pesat memungkinkan ketersedian data melimpah. Pada akhir pertengahan tahun 1996 WWW mempunyai sekitar 60 juta dokumen dalam 12 juta host dan 600.000 server, padahal pada awal tahun 1996 hanya terdapat sekitar 9 juta
host dan 250.000 server (Li 1998). Pertumbuhan Internet yang cepat ini akan menyulitkan pengguna untuk mendapatkan informasi yang relevan dan cepat karena data yang sangat melimpah. Semakin besar data yang ada, semakin lama waktu yang dibutuhkan untuk mencari suatu informasi yang diinginkan. Hal tersebut akan mengarah pada pengembangan alat yang tepat untuk membantu dalam pencarian informasi untuk pengguna. Seperti halnya sebuah mesin pencari di Internet yang telah banyak berkembang seperti Google, Yahoo, Altavista, Bing, dan lainnya. Mesin pencari tersebut tidak jarang memberikan hasil yang tidak relevan dengan kebutuhan pengguna. Oleh karena itu, diperlukan sebuah algoritme klasifikasi dokumen agar lingkup pencarian dapat dipersempit sehingga hanya dokumen yang sejenis yang akan ditampilkan dalam hasil pencarian. Tanpa adanya klasifikasi dokumen, proses pencarian data akan memerlukan pencarian ke semua dokumen yang ada, sehingga memakan banyak waktu dan memberikan peluang hasil temu kembali yang terlalu melebar.
Sangatlah penting untuk bisa mengklasifikasi dokumen. Namun, untuk mengklasifikasi dokumen dengan jumlah yang sangat banyak membutuhkan biaya dan waktu yang lama. Untuk itu pengembangan algoritme untuk klasifikasi dokumen menggunakan bantuan komputer pun semakin dikembangkan.
Beberapa penelitian terkait klasifikasi dokumen telah banyak dilakukan. Beberapa algoritme dikembangkan dan diterapkan dalam klasifikasi dokumen di antaranya Naïve Bayes
Classifier, Nearest Neighbour, Clustering, Principal Component Analysis, dan Minor Component Analysis (MCA).
Beberapa penelitian tersebut tidak hanya melakukan klasifikasi pada dokumen melainkan beberapa diimplementasikan juga pada citra contohnya pada penerapan klasifikasi citra menggunakan MCA dalam sistem content
based image retrieval (CBIR) (Jankovic 2006).
Berdasarkan penelitian Marko Jancovic pada tahun 2006, didapatkan hasil penelitian bahwa penerapan MCA pada klasifikasi citra dapat mempercepat waktu pencarian dan efisien dalam kalsifikasi citra. Penelitian ini, mencoba menerapkan MCA dalam klasifikasi dokumen berita berbahasa Indonesia.
Tujuan
Tujuan dari penelitian ini adalah untuk mengimplementasikan dan menganalisis kinerja MCA dalam klasifikasi dokumen berita digital berbahasa Indonesia. Penelitian ini juga bertujuan menganalisis pengaruh perlakuan praproses pada hasil akurasi klasifikasi.
Ruang Lingkup
Ruang lingkup penelitian ini meliputi: 1. Penelitian ini difokuskan kepada klasifikasi
dokumen menggunakan MCA pada korpus berita digital berbahasa Indonesia.
2. Penelitian dibatasi pada tahap klasifikasi dokumen, tidak sampai proses temu kembali dokumen.
Manfaat Penelitian
Penelitian ini diharapkan dapat membentuk suatu model klasifikasi untuk klasifikasi dokumen berita berbahasa Indonesia yang memiliki tingkat akurasi yang baik.
TINJAUAN PUSTAKA Klasifikasi Dokumen
Klasifikasi merupakan sebuah model yang terbentuk unuk memprediksi suatu kategori. Kategori yang dimaksud dapat berupa nilai diskret yang tidak memiliki hierarki. Klasifikasi memiliki dua tahap proses, tahap pembelajaran dan tahap klasifikasi seperti yang ditunjukkan pada Gambar 1.
Pada tahap pertama, algoritme klasifikasi membentuk model klasifikasi dengan menganalisis data latih. Tahap ini disebut juga sebagai supervised learning karena setiap data latih telah memiliki label kelas masing-masing. Tahap ini pun dapat dilihat sebagai pemetaan sebuah fungsi y=f(x), menentukan label kelas y dari data x dengan fungsi pemetaan f. Tahap kedua adalah menentukan kelas untuk data uji dengan melihat model klasifikasi yang terbentuk (Han & Kamber 2005).
2 Gambar 1 Tahap klasifikasi.
Minor Component Analysis (MCA)
Minor Component merupakan arah dari
data, di mana data memiliki nilai ragam terkecil. MCA adalah metode statistika yang digunakan untuk mengambil komponen-komponen minor dari sebuah data. MCA merupakan alat yang baik untuk digunakan pemrosesan sinyal dan analisis data (Pheng & Yi 2006).
Menurut Moeller dan Konies (2003), MCA adalah salah suatu metode untuk menentukan arah dari ragam minimal pada suatu data. Pada
principal component analysis arah data yang
diambil merupakan arah dari data dengan nilai ragam data yang maksimum sedangkan MCA mengambil arah dari ragam data yang minimum.
Algoritme MCA
Terdapat sebuah single linear neuron dengan relasi input dan output sebagai berikut:
y(k)= neuron output, rangkaian input {x(k) | x(k) ª Rn (k=0,1,2,…)} memiliki rataan 0. Dan w(k) ª Rn (k=0,1,2,…) merupakan bobot vektor
dari neuron. Target MCA adalah mendapatkan komponen minor dari data input dengan melakukan update bobot w(k) secara adaptive. Bila R = x(k)xT(k) adalah matriks autokorelasi
dari input x(k). R akan memiliki nilai eigen yang terurut ë1> ë2> …> ën ≥ 0 dengan eigen
vektor yang bersesuaian v1, v2, …, vn. maka
merupakan dekomposisi nilai eigen.
Secara umum untuk mendapatkan komponen minor w ke-i dari vn adalah
(Chen & Amari 2001).
Confusion Matrix
Confusion matrix merupakan sebuah tabel
yang terdiri atas banyaknya baris data uji yang diprediksi benar dan tidak benar oleh model klasifikasi, tabel ini diperlukan untuk menentukan kinerja suatu model klasifikasi (Tan et al. 2005).
Tabel 1 Confusion Matrix
Predicted Class Class=1 Class = 0 Actual Class Class=1 F 11 F 10 Class=0 F 01 F 00 Contoh tabel confusion matrix dapat dilihat pada Tabel 1. Perhitungan akurasi dengan menggunakan tabel confusion matrix adalah sebagai berikut:
K-Fold Cross Validation
Dalam k-fold cross validation data akan dibagi ke dalam k buah partisi dengan ukuran yang sama D1, D2, D3,…, Dk. Pelatihan dan
pengujian dilakukan sebanyak k kali. Dalam iterasi ke-i, partisi Di akan menjadi data uji, selainnya menjadi data latih.
Pada iterasi pertama, D1 akan menjadi data
uji, D2, D3, ..., Dk akan menjadi data latih. Selanjutnya iterasi ke-2, D2 akan menjadi data
uji, D1, D3, …, Dk menjadi data latih, dan seterusnya (Han & Kamber 2005).
Uji Cochran
Uji Cochran merupakan uji statistik yang bersifat non-parametrik. Uji Cohran ini dapat diterapkan untuk menguji hasil tiga sampel atau lebih dengan catatan reaksi (hasil) terhadap suatu perlakuan bersifat nominal (kategori), hasil hanya dinyatakan dalam dua buah nilai yaitu 0 dan 1 (Santoso 2004). Ilustrasi data yang dapat digunakan dapat dilihat pada Tabel 2.
3 Tabel 2 Data percobaan
Perco baan Perlakuan 1 2 … c 1 X11 X12 … X1c R1 2 X21 X22 … X2c R2 … … … … r Xr1 Xr2 … Xrc Rr C1 C2 … Cc N Keterangan:
r = banyaknya perulangan percobaan. c = banyaknya perlakuan.
Xij = hasil percobaan bernilai {1,0}.
Ci = Xic.
N = Ci. Ri = Ci.
Statistik hitung untuk uji Cochran menggunakan rumus: ܳ ൌ൫ܿሺܿ െ ͳሻ σ ܿܿܰ െ σ ܴୀଵ ଶ൯ െ ൫ሺܿ െ ͳሻܰଶ൯ ଶ ୀଵ Ǥ
Hipotesis yang digunakan adalah:
H0 = Semua perlakuan mempunyai
efektivitas yang sama.
H1 = Terdapat perbedaan efektivitas
antar-perlakuan. Kriteria uji:
Terima H0 jika nilai Q lebih kecil dari ɖଵିఈȀଶǢିଵଶ .
Tolak H0 jika nilai Q lebih besar dari ɖଵିఈȀଶǢିଵଶ .
Contoh perhitungan dengan uji Cochran dapat dilihat pada Lampiran 1.
Tokenisasi
Tokenisasi merupakan tahap memotong-motong kalimat atau teks menjadi bagian- bagian yang lebih kecil yaitu token. Token sering kali didefinisikan sebagai sebuah term atau kata, namun terkadang token lebih baik bila dibedakan dengan hal tersebut. Token
merupakan sebuah rangkaian karakter dalam dokumen yang dikelompokkan sebagai sebuah unit semantik yang berguna dalam pemrosesan teks (Manning 2008). Term biasanya
merupakan turunan dari token dengan tahap-tahap normalisasi sebelumnya.
Contohnya bila sebuah kalimat yang akan diindeks adalah “aku dan dia akan pergi”. Hasil tokenisasi ada 5 buah token, yaitu “aku”, ”dan”,
“dia”, “akan”, “pergi”, sedangkan term hanya
ada tiga buah bila diterapkan pembuangan stop
word, kata “akan” dan “dan” akan dibuang
karena termasuk ke dalam daftar stoplist.
Stemming
Sebuah kata dapat memiliki bentuk yang berbeda-beda tergantung konteks pemakaian kata tersebut dalam suatu kalimat, seperti kata mencari, dicari, dan carilah. Kata-kata tersebut pada dasarnya memiliki arti yang sama, namun bila diindeks, kata-kata tersebut akan dianggap memiliki arti yang berbeda. Stemming
merupakan proses kasar dalam memotong suatu kata untuk membentuknya menjadi kata dasar dan untuk mengurangi kata-kata yang berinfleksi yaitu kata jamak dan tunggal (Manning 2008).
Stop Word
Terkadang kata-kata yang sering muncul dan umum merupakan kata-kata yang kurang bermakna bila dijadikan penciri sebuah dokumen, kata-kata tersebut akan dibuang dari himpunan kata yang akan diindeks nantinya. Kata-kata tersebut merupakan kata-kata yang termasuk dalam stop word (Manning 2008).
Kata-kata yang akan dibuang tersebut akan disimpan dalam sebuah daftar kata yang disebut
stoplist. Stoplist akan berbeda-beda tergantung
bahasa yang digunakan. Dalam konteks bahasa Indonesia, beberapa kata yang termasuk dalam
stoplist di antaranya adalah kata tugas seperti ‘yang’, ‘hingga’, dan ‘dengan’.
Pembobotan tf.idf
Pembobotan tf.idf merupakan gabungan dari pembobotan term frequency (tf) dengan pembobotan inverse document frequency (idf). Pembobotan tf didasarkan pada jumlah kemunculan term dalam sebuah dokumen. Skor sebuah term adalah frekuensi kemunculan term tersebut dalam dokumen. Idf merupakan pembobotan log N/df, dengan df adalah banyaknya dokumen dalam koleksi N yang mengandung term t. Ilustrasi pembobotan idf dapat dilihat pada Tabel 3.
4 Tabel 3 Contoh pembobotan idf
Term Df Idf
Mobil 25 125 1,5
Auto 6 700 2,08
Asuransi 18 165 1,62
Pembobotan tf.idf didapatkan dengan mengalikan tf dengan idf. Pada Tabel 3 terlihat bahwa skor tinggi akan muncul bila term muncul dalam sedikit dokumen dan akan semakin kecil bila term semakin sering muncul dalam dokumen (Manning 2008).
Pembobotan terbaik saat ini untuk klasifikasi dokumen teks adalah pembobotan
tf.rf yaitu salah satu pembobotan supervised learning yang baru dikembangkan pada tahun
2007. Namun, pembobotan tf.rf rumit untuk digunakan. Pembobotan tf.idf memiliki kinerja di atas pembobotan tf dan mendekati tf.rf (Lan
et al 2007).
Panjang Vektor
Panjang vektor (vector norm) suatu vektor
C=[x1,x2,…,xn] dapat dihitung sebagai panjang
dari sembarang segmen garis berarah (Leon 2001). Panjang segmen garis dari [0,0,…,0] ke [x1,x2,…,xn] adalah:
Proyeksi Vektor
Proyeksi sebuah vektor A terhadap vektor B adalah membentuk sebuah vektor C yang memiliki arah atau kemiringan yang sama dengan vektor B dan memiliki panjang |C| = A cos è (è merupakan sudut apit antara vektor A dan vektor B). Vektor C merupakan proyeksi vektor A terhadap vektor B, maka vektor C dikatakan sebagai suatu transformasi linear (Leon 2001). Ilustrasi proyeksi vektor A terhadap vektor B dapat dilihat pada Gambar 2. Untuk menghitung vektor C hasil proyeksi A terhadap B dapat digunakan rumus .
Gambar 2 Proyeksi vektor.
METODOLOGI PENELITIAN
Penelitian ini dilakukan dalam beberapa tahap seperti yang digambarkan pada Gambar 3. Secara garis besar tahapannya adalah studi pustaka, pengadaan data, implementasi sistem, praproses data, pelatihan, klasifikasi, uji Cochran, dan 3-fold cross validation.
Gambar 3 Metodologi penelitian.
Studi Pustaka
Pada tahap ini dilakukan pengumpulan informasi tentang klasifikasi dokumen menggunakan MCA. Literatur yang digunakan berupa buku, jurnal, dan artikel-artikel dari Internet.
Pengumpulan Data
Data yang digunakan dalam penelitian ini merupakan data berita digital sebanyak 750 dokumen yang bersumber dari Media Indonesia Online.
Klasifikasi dokumen menggunakan klasifikasi secara manual oleh Media Indonesia. Data tersebut diklasifikasikan menjadi lima kelas dokumen berita, yaitu kelas pendidikan, ekonomi, lingkungan, bulutangkis, dan kriminal dengan masing-masing anggota setiap kelas berjumlah 150 dokumen. Setiap kelas dokumen diambil dalam rentang waktu terbitan yang
5 berbeda, Tabel 4 menunjukkan perbedaan
rentang waktu pengambilan dokumen. Tabel 4 Kelas data
Kelas Terbitan
Pendidikan 25 Januari 2009 – 25 Maret 2009
Ekonomi 7 Mei 2009 – 31 Mei 2009 Lingkungan 21 Februari 2009 – 23 April
2009
Bulutangkis 15 November 2008 – 26 April 2009
Kriminal 24 April 2009 – 1 Mei 2009 Setiap dokumen direpresentasikan dalam format XML dengan bentuk sebagai berikut:
<DOC> <DOCNO> … </DOCNO> <TITLE> … </TITLE> <AUTHOR> … </AUTHOR> <DATE> … </DATE> <TEXT> … </TEXT> </DOCNO>.
Contoh dokumen dalam format XML dapat dilihat pada Lampiran 2.
Implementasi Sistem
Implementasi sistem terbagi menjadi dua, yaitu implementasi praproses dan implementasi klasifikasi MCA. Implementasi praproses meliputi pembuatan modul untuk tokenisasi dan pembuangan stop word dengan menggunakan bahasa PHP, implementasi klasifikasi MCA menggunakan perangkat lunak MATLAB 7.0.1.
Klasifikasi MCA
Tahapan ini meliputi tiga tahap utama yaitu praproses, pelatihan, dan klasifikasi. Alur klasifikasi MCA dapat dilihat pada Gambar 4.
Praproses
Setelah data terkumpul, dilakukan praproses data dengan empat perlakuan, meliputi parsing, pembuangan stop word, stemming serta pembuangan stop word dan stemming.
Pembobotan dokumen menggunakan pembobotan tf.idf. Sebelum dilakukan empat perlakuan tersebut, semua isi dokumen diubah dalam lower case.
Stoplist yang digunakan dalam penelitian ini
terdiri atas 263 kata yang diambil dari penelitian Ridha (2002), stoplist dapat dilihat pada Lampiran 3.
Stemmer yang digunakan dalam penelitian
ini menggunakan algoritme stemming untuk berbahasa Indonesia yang telah dikembangkan dengan mengikuti aturan tata bahasa Indonesia serta penambahan teknik pengecekan kamus (Adisantoso & Haryo 2009).
Perlakuan Pertama
Pada tahap ini semua teks dalam setiap dokumen dipilah menjadi sekumpulan token.
Token hanya dimulai oleh huruf dengan batas
minimal terdiri dari 3 karakter. Pemisah kata yang digunakan adalah white space, koma (,), titik (.), dan titik dua (:).
Gambar 4 Alur klasifikasi.
Perlakuan Kedua
Pada perlakuan kedua akan dilakukan pembuangan stop word. Semua kata-kata yang akan dibuang didaftarkan dalam daftar stoplist.
Perlakuan Ketiga
Pada perlakuan ketiga dilakukan proses
stemming. Pada perlakuan ini tidak ada
pembuangan kata-kata yang terdaftar dalam
stoplist.
Perlakuan Keempat
Perlakuan terakhir merupakan penggabungan dari perlakuan kedua dan ketiga yaitu hanya kata-kata di luar daftar stoplist yang akan di-stemm.
6 Dalam penelitian ini jumlah token yang
digunakan sebagai penciri dibatasi sebanyak n buah token dengan frekuensi tertinggi. Hasil dari praproses ini setiap dokumen akan direpresentasikan dalam bentuk vektor, yaitu setiap dokumen berbentuk vektor kolom dengan baris berisi bobot dari term (wi). Setiap kelas direpresentasikan dengan menggabungkan setiap vektor kolom anggota kelas tersebut membentuk vektor kelas, dapat divisualisasikan pada Gambar 5.
Gambar 5 Ilustrasi kelas.
Data Latih dan Data Uji
Setelah data terkumpul, data tersebut dibagi ke dalam data latih dan data uji dengan proporsi data latih lebih banyak dari data uji. Dari setiap kelas, masing-masing 100 dokumen menjadi data latih dan 50 dokumen akan menjadi data uji, sehingga total data latih sebanyak 500 dokumen dan 250 dokumen menjadi data uji.
Pelatihan
Pada tahap pelatihan, masing-masing kelas dokumen dari data latih akan dihitung komponen minornya dengan menggunakan algoritme MCA, hasilnya berupa sebuah vektor baris MCA. Dengan demikian akan terdapat lima buah vektor kolom untuk merepresentasikan nilai komponen minor masing-masing kelas.
Klasifikasi
Proses klasifikasi dilakukan dengan cara menghitung vektor proyeksi dari vektor dokumen terhadap setiap vektor kelas yang ada. Setelah itu norm dari vektor–vektor proyeksi tersebut dihitung. Vektor proyeksi yang memiliki norm terkecil menunjukkan kelas dari dokumen tersebut. Berikut adalah algoritme klasifikasi yang digunakan:
1. Proyeksikan vektor dokumen ke dalam setiap vektor kelas.
2. Hitung nilai norm dari setiap vektor proyeksi yang dihasilkan.
3. Urutkan nilai norm yang didapatkan. 4. Nilai norm terkecil menunjukkan kelas dari
dokumen tersebut.
Akurasi
Untuk menghitung tingkat akurasi hasil klasifikasi yang terbentuk digunakan confusion
matrix. Dari confusion matrix perhitungan
akurasi diperoleh dengan membandingkan antara jumlah data uji yang diklasifikasikan benar dengan total data uji. Rumus yang digunakan adalah:
Uji Cochran
Uji Cochran dilakukan untuk mengetahui beda nyata akurasi antar empat buah perlakuan praproses. Perlakuan tersebut meliputi tokenisasi, pembuangan stop word, stemming, serta pembuangan stop word dan stemming.
Dalam uji Cochran ini hipotesis yang digunakan adalah sebagai berikut:
H0: Keempat perlakuan memberikan hasil
akurasi yang sama.
H1: Keempat perlakuan berbeda dalam hal
akurasi klasifikasi. Taraf nyata á/2 = 0,05.
Hipotesis H0 akan ditolak jika Q lebih besar
dari .
3-Fold Cross Validation
Proses 3-fold cross validation dilakukan untuk menguji akurasi algoritme dengan data latih yang berbeda. Data akan dibagi menjadi
.
7 tiga buah subset, s1, s2, dan s3. Pengulangan
akan dilakukan sebanyak tiga kali, pada setiap ulangan satu buah subset akan menjadi data uji, dan sisanya menjadi data latih.
Pada iterasi pertama, subset s1 akan menjadi
data uji, s2 dan s3 akan menjadi data latih.
Selanjutnya iterasi ke-2, s2 akan menjadi data
uji, s1 dan s3 menjadi data latih, dan seterusnya.
Lingkungan Pengembangan
Lingkungan pengembangan yang digunakan adalah sebagai berikut:
Perangkat lunak:
Windows XP Professional
MATLAB 7.0.1
XAMPP 1.6.7
Perangkat keras:
Prosesor Intel Core 2 Duo E6300 (1.68 GHz)
2048 MByte RAM.
HASIL DAN PEMBAHASAN Praproses
Dari empat buah perlakuan praproses, akan dihasilkan kumpulan term unik yang berbeda. Jumlah term tersebut dihasilkan dari 750 koleksi dokumen. Hasil praproses data tersebut dapat dilihat pada Tabel 5.
Tabel 5 Jumlah term unik hasil praposes Perlakuan Jumlah term
Pertama 14145
Kedua 13932
Ketiga 10149
Keempat 10046
Terlihat dari Tabel 5 bahwa jumlah term yang dihasilkan setiap perlakuan memiliki jumlah yang berbeda dan jumlah semakin menurun. Penurunan jumlah term dikarenakan pada tahap perlakuan kedua kata-kata yang termasuk ke dalam daftar stoplist akan dibuang. Pada perlakuan ketiga terjadi penurunan jumlah
term karena kata dibentuk menjadi kata dasar,
sehingga kata-kata yang unik akan berkurang. Namun jumlah term yang banyak tidak akan efisien bila semua term dijadikan penciri dokumen, maka tidak semua term akan dijadikan sebagai penciri dokumen.
Sebelum melanjutkan ke proses selanjutnya, akan dilakukan beberapa percobaan untuk menentukan jumlah term yang akan digunakan, dengan pertimbangan akurasi dan efisiensi waktu pelatihan. Perbandingan akurasi beberapa percobaan dengan jumlah term yang berbeda dan perlakuan yang diberikan adalah perlakuan keempat dapat dilihat pada Tabel 6. Tabel 6 Perbedaan akurasi pada jumlah term yang berbeda
Jumlah
Term
Akurasi perlakuan ke- (%)
1 2 3 4 600 93,6 94,0 93,2 94,0 800 95,2 95,2 96,4 96,0 1000 94,4 96,0 97,2 97,2 1200 96,4 96,8 97,6 97,6 1400 96,8 97,2 97,6 97,6 Dari Tabel 6 terlihat bahwa pada jumlah
term 1200 dan 1400 tidak terdapat banyak
perubahan akurasi. Hal ini menunjukkan bahwa 1200 term sudah cukup baik untuk pelatihan. Dengan demikian, untuk pertimbangan efisiensi, jumlah term yang digunakan sebagai penciri adalah sebanyak 1200 term. Ukuran vektor untuk setiap dokumen yang terbentuk adalah ͳʹͲͲݔͳǤ
Setiap perlakuan praproses memerlukan waktu eksekusi yang berbeda. Tabel 7 menunjukkan perbedaan rataan waktu yang diperlukan untuk tahap praproses. Perhitungan waktu praproses didapatkan dari rataan tiga kali percobaan.
Tabel 7 Perhitungan waktu praproses
Perlakuan Ulangan ke- Rataan waktu (s) 1 2 3 Pertama 314 276 305 298,33 Kedua 2617 2395 2623 2 545,00 Ketiga 8791 8706 8718 8738,33 Keempat 10596 9543 10207 10115,33 Pelatihan
Pada tahap pelatihan ini vektor data latih akan menjadi input untuk algoritme MCA yang
8 akan menghasilkan komponen minor untuk
setiap kelas.
Beberapa variabel yang digunakan dalam algoritme ini adalah:
R adalah matriks autokorelasi, dengan R=E[x(k)xT(k)].
w(i) adalah pembobotan MCA. ߟ adalah laju pembelajaran.
Ukuran vektor data latih setiap kelas adalah 100 x 1200, sehingga ukuran vektor R adalah 1200 x 1200. Pembobotan awal yang digunakan adalah w(0)= {0.1 0.1… 0.1} berukuran 1200 x 1. Komponen minor pertama (w(k)) setiap kelas diperoleh dengan menggunakan rumus:
ݓሺ݇ ͳሻ ൌ
ݓሺ݇ሻ െ ߟሾܴሺ݇ሻݓሺ݇ሻݓ்ሺ݇ሻݓሺ݇ሻ െ
ݓሺ݇ሻݓ்ሺ݇ሻܴሺ݇ሻݓሺ݇ሻሿ
dengan nilai ߟ ൌ ͲǤͲͲͳ. Proses pembobotan
akan dilakukan berulang-ulang sampai bobot konvergen pada suatu nilai.
Pada penelitian ini komponen minor yang digunakan hanya komponen minor pertama karena algoritme yang digunakan masih memiliki kelemahan yaitu untuk beberapa kasus tidak mampu mengambil komponen minor kedua (Pheng & Zhang 2006).
Perlakuan Pertama
Pada perlakuan pertama, term yang diambil merupakan 1200 term pertama dengan tingkat frekuensi tertinggi. Pada perlakuan ini hasil klasifikasi pada tiap kelas sudah menunjukkan nilai akurasi yang tinggi, nilai akurasi minimal adalah 92% dan maksimal 100%. Akurasi klasifikasi tiap kelas dengan perlakuan pertama dapat dilihat pada Tabel 8.
Terdapat dua kelas yang tepat diklasifikasikan dengan akurasi 100% yaitu kelas bulutangkis dan kelas kriminal.
Tabel 8 Akurasi perlakuan pertama
Kelas Hasil Klasifikasi Akurasi Klasifikasi Benar Salah Ekonomi 46 4 92% Bulutangkis 50 0 100% Kriminal 50 0 100% Lingkungan 46 4 92% Pendidikan 49 1 98% Perlakuan Kedua
Pada perlakuan kedua terdapat kenaikan akurasi untuk kelas lingkungan sebesar 2%. Akurasi klasifikasi tiap kelas dengan perlakuan kedua dapat dilihat pada Tabel 9. Jumlah stop
word yang digunakan adalah sebanyak 263
kata. Kelas bulutangkis dan kriminal tetap memiliki akurasi 100%.
Tabel 9 Akurasi perlakuan kedua
Kelas Hasil Klasifikasi Akurasi Klasifikasi Benar Salah Ekonomi 46 4 92% Bulutangkis 50 0 100% Kriminal 50 0 100% Lingkungan 47 3 94% Pendidikan 49 1 98% Perlakuan Ketiga
Pada perlakuan ketiga terdapat kenaikan akurasi masing-masing sebesar 2% pada kelas ekonomi dan kelas pendidikan. Rentang akurasi mengalami kenaikan, akurasi minimal pada perlakuan ketiga menjadi 94% dan kelas yang tepat diklasifikasikan menjadi 3 kelas yaitu kelas bulutangkis, kriminal, dan kelas pendidikan. Akurasi klasifikasi tiap kelas dengan perlakuan ketiga dapat dilihat pada Tabel 10.
Tabel 10 Akurasi perlakuan ketiga
Kelas Hasil Klasifikasi Akurasi Klasifikasi Benar Salah Ekonomi 47 3 94% Bulutangkis 50 0 100% Kriminal 50 0 100% Lingkungan 47 3 94% Pendidikan 50 0 100% Perlakuan Keempat
Pada perlakuan keempat, terdapat penurunan akurasi dari perlakuan sebelumnya yaitu pada kelas ekonomi, penurunan sebesar 2%, namun pada kelas lingkungan terdapat kenaikan akurasi sebesar 2%. Akurasi klasifikasi tiap kelas dengan perlakuan keempat dapat dilihat
9 pada Tabel 11. Contoh dokumen yang salah
diklasifikasikan dapat dilihat pada Lampiran 4. Tabel 11 Akurasi perlakuan keempat
Kelas Hasil Klasifikasi Akurasi Klasifikasi Benar Salah Ekonomi 46 4 92% Bulutangkis 50 0 100% Kriminal 50 0 100% Lingkungan 48 2 96% Pendidikan 50 0 100%
Klasifikasi MCA pada Kelas Ekonomi
Pada kelas ekonomi, akurasi terbaik terdapat di perlakuan ketiga. Perlakuan pertama, kedua, dan keempat mempunyai nilai akurasi yang sama yaitu 92%. Perubahan perlakuan tidak menunjukkan perubahan signifikan pada kelas ekonomi. Perubahan akurasi pada setiap perlakuan dapat dilihat pada Gambar 6.
Gambar 6 Akurasi kelas ekonomi.
Klasifikasi MCA pada Kelas Bulutangkis
Pada kelas bulutangkis, semua perlakuan memberikan akurasi sempurna yaitu 100%. Hal ini dikarenakan pada kelas bulutangkis kata-kata yang digunakan spesifik, pada umumnya kata-kata yang digunakan pada kelas ini tidak digunakan pada kelas lainnya.
Klasifikasi MCA pada Kelas Kriminal
Pada kelas kriminal, seperti halnya pada kelas bulutangkis, kata-kata yang digunakan dalam kelas ini spesifik sehingga semua perlakuan memberikan akurasi 100%.
Klasifikasi MCA pada Kelas Lingkungan
Pada kelas lingkungan, peningkatan akurasi hampir selalu terjadi dalam setiap tahap perlakuan. Akurasi terbaik terdapat di perlakuan
keempat dengan nilai akurasi sebesar 96% dan akurasi terkecil sebesar 92% pada perlakuan pertama. Hasil akurasi pada setiap perlakuan dapat dilihat pada Gambar 7.
Klasifikasi MCA pada Kelas Pendidikan
Pada kelas lingkungan, peningkatan akurasi hampir selalu terjadi dalam setiap tahap perlakuan seperti yang terjadi pada kelas lingkungan. Akurasi terbaik terdapat di perlakuan ketiga dan keempat dengan nilai akurasi sebesar 100% dan akurasi terkecil sebesar 92% pada perlakuan pertama. Hasil akurasi kelas pendidikan pada setiap perlakuan dapat dilihat pada Gambar 8.
Gambar 7 Akurasi kelas lingkungan.
Gambar 8 Akurasi kelas pendidikan.
Akurasi Setiap Perlakuan
Akurasi perlakuan pertama secara keseluruhan dari algortime MCA dihitung dengan menggunakan bantuan tabel confusion
matrix dapat dilihat pada Tabel 12.
Tabel 12 Confusion matrix perlakuan pertama Kelas Prediksi 1 2 3 4 5 Kelas Aktual 1 46 0 0 4 0 2 0 50 0 0 0 92 92 94 92 65 70 75 80 85 90 95 100 92 94 94 96 65 70 75 80 85 90 95 100 92 98 100 100 65 75 85 95 105 (%) (%) (%)
10 Tabel 12 Lanjutan Kelas Prediksi 1 2 3 4 5 Kelas Aktual 3 0 0 50 0 0 4 3 0 0 46 1 5 0 0 0 1 49
Akurasi perlakuan pertama adalah:
ܣ݇ݑݎܽݏ݅ ൌ ଶସଵଶହ
= 96,4%.
Akurasi perlakuan kedua secara keseluruhan dihitung dengan menggunakan bantuan tabel
confusion matrix pada Tabel 13.
Tabel 13 Confusion matrix perlakuan kedua Kelas Prediksi 1 2 3 4 5 Kelas Aktual 1 46 0 0 4 0 2 0 50 0 0 0 3 0 0 50 0 0 4 2 0 0 47 1 5 0 0 0 1 49
Akurasi perlakuan kedua adalah:
ܣ݇ݑݎܽݏ݅ ൌ ଶସଶଶହ
= 96,8%.
Akurasi perlakuan ketiga secara keseluruhan dihitung dengan menggunakan bantuan tabel
confusion matrix pada Tabel 14.
Tabel 14 Confusion matrix perlakuan ketiga Kelas Prediksi 1 2 3 4 5 Kelas Aktual 1 47 0 0 2 1 2 0 50 0 0 0 3 0 0 50 0 0 4 2 0 0 47 1 5 0 0 0 0 50
Akurasi perlakuan ketiga adalah:
ܣ݇ݑݎܽݏ݅ ൌ ଶସସଶହ
= 97,6%.
Akurasi perlakuan keempat secara keseluruhan dihitung dengan menggunakan bantuan tabel confusion matrix pada Tabel 15.
Tabel 15 Confusion matrix perlakuan keempat Kelas Prediksi 1 2 3 4 5 Kelas Aktual 1 46 0 0 3 1 2 0 50 0 0 0 3 0 0 50 0 0 4 1 0 0 48 1 5 0 0 0 0 50
Akurasi perlakuan keempat adalah:
ܣ݇ݑݎܽݏ݅ ൌଶସସଶହ
= 97,6%.
Terdapat perbedaan akurasi yang tidak terlalu signifikan, rekapitulasi perhitungan akurasi setiap perlakuan dapat dilihat pada Tabel 16.
Tabel 16 Rekapitulasi akurasi Akurasi Perlakuan ke-
1 2 3 4
96,4% 96,8% 97,6% 97,6%
Untuk membuktikan beda nyata antar perlakuan, dilakukan uji Cochran dengan hipotesis:
H0: Keempat perlakuan memberikan hasil
akurasi yang identik.
H1: Keempat perlakuan berbeda dalam hal
akurasi klasifikasi.
ܳ ൌሺସሺସିଵሻሺଶଷହଵሻሻିቀሺସିଵሻଽଵସൈଽଵିଷ଼ହଽ మቁ
Hipotesis H0 akan ditolak jika Q lebih besar
dari atau sama dengan ɖଵିఈȀଶǢିଵଶ . Didapatkan dari perhitungan nilai Q = 3.24 dan dari tabel
ɖଶdiperoleh ɖ
ଵିఈȀଶǢିଵ
ଶ ൌ Ǥͺͳͷ, maka dapat
diambil kesimpulan Q lebih kecil dari
ɖଵିఈȀଶǢିଵଶ sehingga H0 tidak dapat ditolak.
Dengan demikian, keempat perlakuan memberikan hasil akurasi yang identik. Dengan demikian, keempat perlakuan praproses tidak memberikan pengaruh yang signifikan terhadap klasifikasi oleh MCA.
11 Gambar 9 Akurasi pada setiap data set.
3-Fold Cross Validation
Hasil perhitungan akurasi tiap perlakuan dengan data set yang berbeda menunjukkan tidak terdapat perubahan akurasi yang signifikan antar-data set yang berbeda.
Grafik pada Gambar 9 menunjukkan nilai akurasi yang tidak jauh berbeda dengan subset yang berlainan. Hal ini menunjukkan bahwa algoritme tahan terhadap perubahan data set.
KESIMPULAN DAN SARAN Kesimpulan
Dari penelitian dalam menerapkan algoritme MCA untuk klasifikasi dokumen berita, didapatkan kesimpulan sebagai berikut: 1. Penerapan klasifikasi MCA untuk dokumen
teks berhasil dilakukan.
2. Akurasi dari model klasifikasi yang terbentuk di atas 90%.
3. Algoritme tahan terhadap perubahan data set.
4. Perbedaan perlakuan pada praproses tidak memberikan pengaruh yang signifikan terhadap hasil akurasi klasifikasi oleh MCA.
Saran
Saran-saran yang diberikan untuk pengembangan lebih lanjut adalah sebagai berikut:
1. Penggunaan algoritme MCA yang mampu mengambil lebih dari satu komponen minor.
2. Penggunaan data yang lebih besar dan jumlah kelas yang lebih banyak untuk melihat konsistensi efektivitas MCA.
DAFTAR PUSTAKA
Adisantoso J, Haryo A. 2009. Stemmer Bahasa Indonesia dengan Kamus. Bogor: Departemen Ilmu Komputer.
Chen TP, Amari S, Murata N. 2001. Sequential Extraction of Minor Components. Neural
Processing Letters 13. 195-201.
Han J, Kamber M. 2006. Data Mining Concepts
and Techniques. San Fransisco: Morgan
Kaufman Publisher.
Jankovic M et al. 2006. Minor Component Analysis (MCA) Applied to Image Classification in CBIR Systems. IEEE
Transactions on Neural Network 6.
Lan M, Tan CL, Su J. 2007. Supervised and Traditional Methods for Automatic Text Categorization. IEEE PAMI Vol.10(10). Leon S J. 1999. Aljabar Linier dan Aplikasinya.
Jakarta: Penerbit Erlangga.
Li Y H, Jain A K. 2006. Classification of Text Documents. The Computer Journal.
Vol.41(2):537-546.
Manning C. 2008. Introduction to Information
Retrieval. Cambridge: Cambridge University Press.
Moller R, Konies A. 2003. Couple Principle Component Analysis Algorithm. IEEE
Transaction on Neural Network 3.
Peng D, Yi Z. 2006. A New Algorithm for Sequential Minor Component Analysis.
International Journal of Computational Intelligence Research. Vol.2(2): 207-208.
Ridha A. 2002. Pengindeksan Otomatis dengan
Istilah Tunggal untuk Dokumen Berbahasa Indonesia [Skripsi]. Bogor: Departemen
Ilmu Komputer, IPB.
Santoso S. 2003. Mengatasi Berbagai Masalah
Statistik dengan SPSS 11. Jakarta: PT Media
Elex Komputindo
Tan P, Michael S, Vipin K. 2005. Introduction
to Data Mining. Boston: Pearson Education,
Inc. 96.4 96.8 96.8 96 97.697.2 97.697.6 96.8 97.2 97.6 97.6 65 70 75 80 85 90 95 100
Ulangan-1 Ulangan-2 Ulangan-3
kkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk
13 Lampiran 1 Contoh tabel perhitungan uji Cohcran
Pekerja Perlakuan Jumlah nilai
baris (Ri)
Mesin A Mesin B Mesin C
1 0 0 1 1 2 0 1 0 1 3 1 1 0 2 4 1 1 1 3 5 1 0 0 1 6 0 0 1 1 7 0 1 1 2 8 0 0 0 0 C1= 3 C2= 3 C3= 4 N=10 Hipotesis:
H0: Ketiga mesin memberikan kinerja yang sama.
H1: Ketiga mesin mempunyai kinerja yang berbeda.
Keterangan:
Q = statistik hitung uji Cochran c = banyaknya perlakuan Ri = jumlah nilai baris ke-i
N = Ci ܳ ൌ൫ܿሺܿ െ ͳሻ σ ܿܿܰ െ σ ܴୀଵ ଶ൯ െ ൫ሺܿ െ ͳሻܰଶ൯ ଶ ୀଵ ൌ൫͵ሺ͵ െ ͳሻ σ ܿ͵ሺͳͲሻ െ σ ܴୀଵ ଶ൯ െ ൫ሺ͵ െ ͳሻͳͲଶ൯ ଶ ୀଵ ൌሺ͵ሺ͵ െ ͳሻሺ͵Ͷሻሻ െ ൫ሺ͵ െ ͳሻͳͲ͵ሺͳͲሻ െ ʹͳ ଶ൯ ൌ ͲǡͶͶͶͶ.
Didapatkan nilai statistik tabel sebesar 5,991 dengan á/2= 5%, karena nilai statistik hitung Q (0,444) lebih kecil dari statistik Tabel Khi (5,991), maka hipotesis H0 diterima, atau ketiga mesin
14 Lampiran 2 Contoh dokumen dalam format XML
<DOC>
<DOCNO>Bulu_tangkis_Nov_3</DOCNO>
<TITLE>Jenderal Djoko Santoso Jadi Ketua Umum PB PBSI </TITLE> <AUTHOR></AUTHOR>
<DATE>15 November 2008</DATE> <TEXT>
Panglima TNI Jenderal Djoko Santoso terpilih menjadi Ketua Umum PB PBSI periode 2008-2012 secara aklamasi.
Pernyataan tersebut disampaikan ketua pimpinan sidang Paris Yusuf dalam Musyawarah Nasional (Munas) PBB PBSI dengan agenda pemilihan ketua umum di Jakarta, Sabtu (15/11).
"Terhitung mulai hari ini Jenderal Djoko Santoso telah terpilih sebagai ketua umum periode 2008-2012 secara aklamasi," katanya.
Dalam pemilihan ketua umum yang dihadiri oleh Panglima TNI tersebut, Djoko terpilih secara aklamasi setelah menjadi calon tunggal yang didukung sepenuhnya oleh 32 Pengda yang hadir dalam Munas.
Djoko terpilih setelah memberikan surat pernyataan secara resmi yang menyatakan dia bersedia dicalonkan menjadi ketua umum. "Setelah mendengar dan memperhatikan 32 dukungan dari PBSIB dan Pengda pada tanggal 14 November 2008, saya Jenderal Djoko Santoso menyatakan dengan sesungguhnya menyatakan siap, bersedia, dicalonkan sebagai calon ketua umum PB PBSIB periode 2008-2012," demikian isi surat tersebut.
Usai pemilihan ketua umum tersebut, sidang dilanjutkan dengan pembentukan formatur untuk membentuk susunan pengurus. (Ant/OL-02)
</TEXT> </DOC>
15 Lampiran 3 Stoplist
ada biasanya kalau menunjukkan sedang seusai
adalah bila kalian menurut sedangkan sewaktu
adanya bilamana kami mereka sedikit si
adapun buat kamu merupakan segera siapa
aduh bukan karena meski sehabis siapakah
agar dalam kata meskipun sehingga siapapun
ah dan katanya misalnya sehubungan suatu
akan dapat kau mungkin sejak sudah
aku dari ke namun sejumlah supaya
alih-alih daripada kebanyakan nanti sekarang tak
anda dekat kecuali nyaris sekeliling tanpa
andai demi kemanakah oleh seketika tapi
antar demikian kemudian pada sekitar tatkala
antara dengan kenapa padahal
sekonyong-konyong telah
apa depan kenapakah para selagi tengah
apakah di kepada pasti selain tentang
apalagi dia ketika pelbagai selalu tentu
asalkan dikatakan ketimbang per selama tentunya
atas dilakukan kini peri selanjutnya tergolong
atau dkk kita perihal selesai terhadap
ataupun dll lagi pinggir seluruh terjadi
bagai dsb lain pula seluruhnya terkadang
bagaikan engkau lain-lain pun semakin terlalu
bagaimana hal lainnya saat semenjak terlebih
bagaimanakah hampir lalu saja sementara termasuk
bagaimanapun hanya lebih sambil semua ternyata
bagi harus lepas sampai semuanya tersebut
bahkan hingga lewat samping seorang tertentu
bahwa ia maka sang sepanjang tetap
balik ialah makin sangat seperti tetapi
banyak ini manakala sangatlah sepertinya tiap
barangkali itu masih saya seputar tiba-tiba
bawah iya masing-masing seakan seraya tidak
beberapa jadi
masing-masingnya seakan-akan sering ujar
16 Lampiran 2 Lanjutan
begitu jarang melainkan sebab serta umumnya
belakang jauh melakukan sebabnya sesuai untuk
belum jika melalui sebagai sesuatu walau
berapa jikalau memang sebagaimana sesudah walaupun
berbagai juga mengatakan sebagainya sesudahnya ya
bersama jumlah mengenai sebelum sesungguhnya yaitu
beserta justru menjadi sebelumnya setelah yakni
betapa kadang menjelang sebuah seterusnya yang
biar
17 Lampiran 4 Contoh dokumen yang salah diklasifikasikan
Dokumen pada kelas ekonomi yang diklasifikasikan ke dalam kelas lingkungan: <DOC>
<DOCNO>MI_eko_15_9</DOCNO>
<TITLE>JK Desak Perbankan Turunkan Bunga dan Kucurkan Kredit</TITLE> <DATE>Jumat, 15 Mei 2009</DATE>
<TEXT>
Wakil Presiden Jusuf Kalla mendesak perbankan untuk menurunkan suku bunga dan menggenjot kredit ke sektor riil. Dia mengingatkan, bank mempunyai utang kepada rakyat saat krisis 1997-1998 dengan BLBI-nya.
Menurut JK, saat ini potensi perbankan sangat kuat dengan likuiditas yang menumpuk di sertifikat Bank Indonesia. Namun, entah kenapa perbankan enggan menjalankan intermediasi dengan menyalurkan kredit.
Selain itu, suku bunga masih saja tinggi dan tidak mengindahkan kebijakan BI yang telah menurunkan suku bunga acuannya (BI Rate). "Anda bertanggung jawab kepada rakyat. Jadi bank jangan macam-macam dengan menaikkan suku bunga. Karena ingat, rakyat pernah membela anda," tegas JK di hadapan para bankir dalam kegiatan makan malam Perbanas di Jakarta, Kamis malam (14/5).
Kalla mengingatkan kembali tugas perbankan untuk berpartisipasi dalam menggerakkan ekonomi. Hal ini dilakukan dengan menerapkan fungsi intermediasi bank. Semua itu harus dilakukan guna memenuhi kebutuhan dan kepentingan rakyat. Ini adalah tugas perbankan kepada rakyat yang pernah membela mereka.
Lebih jauh, Kalla mengatakan sudah banyak uang rakyat yang dialokasikan untuk menyelamatkan perbankan. Melalui program Bantuan Likuiditas BI (BLBI), Rp600 triliun digelontorkan untuk menyelamatkan perbankan. Padahal, kehancuran bank saat itu bukan kesalahan rakyat. Akan tetapi, uang rakyat yang diambil melalui pajak tersebut harus dialokasikan ke bank guna penyelamatan.
Terkait desakan adanya penjaminan penuh (blanket guarantee), JK mengakui dirinya tidak akan menyetujuinya. Berkaca pada krisis 12 tahun lalu, fasilitas ini malah memancing moral hazard. Sehingga, sekarang posisinya dibalik, bukan rakyat yang bertanggung jawab pada ulah bank, tapi bank yang harus bertanggung jawab membantu rakyat. Apalagi, di saat krisis seperti sekarang, peran bank sangat krusial dalam upaya melepaskan diri dari krisis.
Dengan begitu, tidak ada alasan lagi bagi bank untuk memenuhi tanggung jawabnya. Ada atau tidak ada penjaminan penuh, bank harus bisa membantu rakyat untuk kembali bangkit dari krisis. Salah satunya dengan menyalurkan dan menurunkan bunga kredit. Dia memastikan negara menjamin siapapun pelaku perbankan yang melanggar hukum akan diproses.
"Siapa yang berbuat, dia yang akan ambil akibatnya. I guarantee you a blanket. Siapa yang berani macam-macam, saya kasih selimut di penjara," ujar Kalla.
Kalla mengingatkan saat ini dana bank di BI mencapai lebih dari Rp260 triliun. Sebuah jumlah yang sangat besar untuk disia-siakan dengan mengendap. Seharusnya dana itu bisa disalurkan melalui kredit agar masyarakat bisa berusaha. Dunia usaha bisa kembali memutar bisnisnya dan masyarakat bisa kembali bekerja. (Toh/OL-04)
</TEXT> </DOC>