KLASIFIKASI DOKUMEN TEKS BERBAHASA INDONESIA MENGGUNAKAN MINOR COMPONENT ANALYSIS INDRA JUNIAWAN

(1)

KLASIFIKASI DOKUMEN TEKS BERBAHASA INDONESIA

MENGGUNAKAN MINOR COMPONENT ANALYSIS

INDRA JUNIAWAN

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2009

(2)

KLASIFIKASI DOKUMEN TEKS BERBAHASA INDONESIA

MENGGUNAKAN MINOR COMPONENT ANALYSIS

INDRA JUNIAWAN

Skripsi

sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2009

(3)

ABSTRACT

INDRA JUNIAWAN. Text Document Classification with Minor Component Analysis. Under the supervision of AHMAD RIDHA.

Document classification can improve information retrieval process by decreasing the search time and increase the relevance of the results. Many classification algorithms have been developed, e.g., Naïve Bayes Classifier, Nearest Neighbor, Principal Component Analysis, and Minor Component Analysis (MCA). This research investigates the performance of MCA in classifying text documents in Bahasa Indonesia. MCA has been applied for image classification, but has not been widely used in text classification. The dataset used in this research contains 750 documents from Media Indonesia Online, consisting of five classes, i.e., economics, education, crime, environment, and badminton. This research also observes the influence of stemming and stoplist in preprocessing to the classification performance. The experiment results show that MCA achieves more 90% accuracy and the preprocessing methods do not have significant effect to the performance.

Keywords: document text classification, minor component analysis.

(4)

i Judul : Klasifikasi Dokumen Teks Berbahasa Indonesia Menggunakan Minor Component Analysis Nama : Indra Juniawan

NRP : G64051546

Menyetujui: Pembimbing,

Ahmad Ridha, S.Kom, M.S. NIP 198005072005011001

Mengetahui:

Dekan Fakultas Matematika dan Pengetahuan Alam Institut Pertanian Bogor

Dr. drh. Hasim, DEA NIP 196103281986011002

(5)

ii

KATA PENGANTAR

Puji Syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan tugas akhir sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer di FMIPA, IPB.

Terima kasih penulis ucapkan kepada semua pihak yang telah membantu penyelesaian tugas akhir ini, antara lain kepada Bapak Weskoni dan Ibu Ipah Syaripah selaku kedua orang tua penulis, dan kepada Tia Lestari dan Aditya Mahendra selaku kakak penulis yang selalu memberikan motivasi, semangat, moril, serta kasih sayang yang telah diberikan. Ucapan terima kasih dan penghargaan yang setinggi-tingginya kepada Bapak Ahmad Ridha, S.Kom, M.S selaku pembimbing atas dukungan, bimbingan, serta perhatiannya kepada penulis selama penelitian berlangsung. Tidak lupa kepada semua dosen pengajar yang telah mendidik, membina, serta mengajar penulis selama menjadi mahasiswa Departemen Ilmu Komputer. Ucapan terima kasih juga penulis ucapkan kepada Adeth, Lena, Mirna, Medria, Indra, Huda, Dony, Nila, Vera, Ibu Yeni, dan seluruh rekan Ilkomerz 42 atas dukungan, kebersamaan, serta pengalaman yang tak terlupakan.

Penulis menyadari bahwa pelaksanaan penelitian ini masih jauh dari kesempurnaan, namun besar harapan penulis bahwa apa yang telah dikerjakan dapat memberikan manfaat bagi seluruh pihak.

Bogor, Juli 2009

(6)

iii

RIWAYAT HIDUP

Penulis dilahirkan di Bogor pada tanggal 23 Juni 1987 sebagai anak ketiga dari Bapak Weskoni dan Ibu Ipah Syaripah. Pada tahun 2002 penulis menempuh pendidikan di SMA Negeri 2 Cianjur hingga tahun 2005. Pada tahun yang sama penulis diterima sebagai mahasiswa Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Pada tanggal 7 Juli 2008 penulis melaksanakan Praktik Kerja Lapangan di Direktorat Jenderal Kelautan Pesisir dan Pulau-pulau Kecil Departemen Kelautan Perikanan sampai dengan tanggal 25 Agustus 2008.

(7)

iv DAFTAR ISI Halaman DAFTAR TABEL ... vi DAFTAR GAMBAR ... vi DAFTAR LAMPIRAN ... vi PENDAHULUAN Latar Belakang ... 1 Tujuan ... 1 Ruang Lingkup ... 1 Manfaat Penelitian ... 1 TINJAUAN PUSTAKA Klasifikasi Dokumen ... 1

Minor Component Analysis (MCA) ... 2

Algoritme MCA ... 2

Confusion Matrix ... 2

K-Fold Cross Validation ... 2

Uji Cochran ... 2 Tokenisasi ... 3 Stemming... 3 Stop Word ... 3 Pembobotan tf.idf... 3 Panjang Vektor ... 4 Proyeksi Vektor ... 4 METODOLOGI PENELITIAN Studi Pustaka ... 4 Pengumpulan Data... 4 Implementasi Sistem... 5 Klasifikasi MCA ... 5 Praproses ... 5 Perlakuan Pertama ... 5 Perlakuan Kedua ... 5 Perlakuan Ketiga ... 5 Perlakuan Keempat ... 5

Data Latih dan Data Uji ... 6

Pelatihan ... 6

Klasifikasi ... 6

Akurasi ... 6

Uji Cochran ... 6

3-Fold Cross Validation ... 6

Lingkungan Pengembangan ... 7

HASIL DAN PEMBAHASAN Praproses ... 7 Pelatihan ... 7 Perlakuan Pertama ... 8 Perlakuan Kedua ... 8 Perlakuan Ketiga ... 8 Perlakuan Keempat ... 8

Klasifikasi MCA pada Kelas Ekonomi ... 9

Klasifikasi MCA pada Kelas Bulutangkis... 9

Klasifikasi MCA pada Kelas Kriminal ... 9

(8)

v

Klasifikasi MCA pada Kelas Pendidikan ... 9

Akurasi Setiap Perlakuan ... 9

3-Fold Cross Validation ... 11

KESIMPULAN DAN SARAN Kesimpulan ... 11

Saran ... 11

DAFTAR PUSTAKA ... 11

(9)

vi

DAFTAR TABEL

Halaman

1 Confusion Matrix ... 2

2 Data percobaan ... 3

3 Contoh pembobotan idf ... 4

4 Kelas data ... 5

5 Jumlah term hasil praposes ... 7

6 Perbedaan akurasi pada jumlah term yang berbeda ... 7

7 Perhitungan waktu praproses ... 7

8 Akurasi perlakuan pertama ... 8

9 Akurasi perlakuan kedua ... 8

10 Akurasi perlakuan ketiga ... 8

11 Akurasi perlakuan keempat ... 9

12 Confusion matrix perlakuan pertama ... 9

13 Confusion matrix perlakuan kedua ... 10

14 Confusion matrix perlakuan ketiga ... 10

15 Confusion matrix perlakuan keempat ... 10

16 Rekapitulasi akurasi ... 10 DAFTAR GAMBAR Halaman 1 Tahap klasifikasi. ... 2 2 Proyeksi vektor. ... 4 3 Metodologi penelitian. ... 4 4 Alur klasifikasi. ... 5 5 Ilustrasi kelas. ... 6

6 Akurasi kelas ekonomi. ... 9

7 Akurasi kelas lingkungan. ... 9

8 Akurasi kelas pendidikan. ... 9

9 Akurasi pada setiap data set. ... 11

DAFTAR LAMPIRAN Halaman 1 Contoh tabel perhitungan uji Cohcran ... 13

2 Contoh dokumen dalam format XML ... 14

3 Stoplist ... 15

(10)

PENDAHULUAN Latar Belakang

World Wide Web (WWW) merupakan

sebuah galeri informasi yang dapat diakses dari semua penjuru dunia. Perkembangan dunia informasi dan teknologi yang sangat pesat memungkinkan ketersedian data melimpah. Pada akhir pertengahan tahun 1996 WWW mempunyai sekitar 60 juta dokumen dalam 12 juta host dan 600.000 server, padahal pada awal tahun 1996 hanya terdapat sekitar 9 juta

host dan 250.000 server (Li 1998). Pertumbuhan Internet yang cepat ini akan menyulitkan pengguna untuk mendapatkan informasi yang relevan dan cepat karena data yang sangat melimpah. Semakin besar data yang ada, semakin lama waktu yang dibutuhkan untuk mencari suatu informasi yang diinginkan. Hal tersebut akan mengarah pada pengembangan alat yang tepat untuk membantu dalam pencarian informasi untuk pengguna. Seperti halnya sebuah mesin pencari di Internet yang telah banyak berkembang seperti Google, Yahoo, Altavista, Bing, dan lainnya. Mesin pencari tersebut tidak jarang memberikan hasil yang tidak relevan dengan kebutuhan pengguna. Oleh karena itu, diperlukan sebuah algoritme klasifikasi dokumen agar lingkup pencarian dapat dipersempit sehingga hanya dokumen yang sejenis yang akan ditampilkan dalam hasil pencarian. Tanpa adanya klasifikasi dokumen, proses pencarian data akan memerlukan pencarian ke semua dokumen yang ada, sehingga memakan banyak waktu dan memberikan peluang hasil temu kembali yang terlalu melebar.

Sangatlah penting untuk bisa mengklasifikasi dokumen. Namun, untuk mengklasifikasi dokumen dengan jumlah yang sangat banyak membutuhkan biaya dan waktu yang lama. Untuk itu pengembangan algoritme untuk klasifikasi dokumen menggunakan bantuan komputer pun semakin dikembangkan.

Beberapa penelitian terkait klasifikasi dokumen telah banyak dilakukan. Beberapa algoritme dikembangkan dan diterapkan dalam klasifikasi dokumen di antaranya Naïve Bayes

Classifier, Nearest Neighbour, Clustering, Principal Component Analysis, dan Minor Component Analysis (MCA).

Beberapa penelitian tersebut tidak hanya melakukan klasifikasi pada dokumen melainkan beberapa diimplementasikan juga pada citra contohnya pada penerapan klasifikasi citra menggunakan MCA dalam sistem content

based image retrieval (CBIR) (Jankovic 2006).

Berdasarkan penelitian Marko Jancovic pada tahun 2006, didapatkan hasil penelitian bahwa penerapan MCA pada klasifikasi citra dapat mempercepat waktu pencarian dan efisien dalam kalsifikasi citra. Penelitian ini, mencoba menerapkan MCA dalam klasifikasi dokumen berita berbahasa Indonesia.

Tujuan

Tujuan dari penelitian ini adalah untuk mengimplementasikan dan menganalisis kinerja MCA dalam klasifikasi dokumen berita digital berbahasa Indonesia. Penelitian ini juga bertujuan menganalisis pengaruh perlakuan praproses pada hasil akurasi klasifikasi.

Ruang Lingkup

Ruang lingkup penelitian ini meliputi: 1. Penelitian ini difokuskan kepada klasifikasi

dokumen menggunakan MCA pada korpus berita digital berbahasa Indonesia.

2. Penelitian dibatasi pada tahap klasifikasi dokumen, tidak sampai proses temu kembali dokumen.

Manfaat Penelitian

Penelitian ini diharapkan dapat membentuk suatu model klasifikasi untuk klasifikasi dokumen berita berbahasa Indonesia yang memiliki tingkat akurasi yang baik.

TINJAUAN PUSTAKA Klasifikasi Dokumen

Klasifikasi merupakan sebuah model yang terbentuk unuk memprediksi suatu kategori. Kategori yang dimaksud dapat berupa nilai diskret yang tidak memiliki hierarki. Klasifikasi memiliki dua tahap proses, tahap pembelajaran dan tahap klasifikasi seperti yang ditunjukkan pada Gambar 1.

Pada tahap pertama, algoritme klasifikasi membentuk model klasifikasi dengan menganalisis data latih. Tahap ini disebut juga sebagai supervised learning karena setiap data latih telah memiliki label kelas masing-masing. Tahap ini pun dapat dilihat sebagai pemetaan sebuah fungsi y=f(x), menentukan label kelas y dari data x dengan fungsi pemetaan f. Tahap kedua adalah menentukan kelas untuk data uji dengan melihat model klasifikasi yang terbentuk (Han & Kamber 2005).

(11)

2 Gambar 1 Tahap klasifikasi.

Minor Component Analysis (MCA)

Minor Component merupakan arah dari

data, di mana data memiliki nilai ragam terkecil. MCA adalah metode statistika yang digunakan untuk mengambil komponen-komponen minor dari sebuah data. MCA merupakan alat yang baik untuk digunakan pemrosesan sinyal dan analisis data (Pheng & Yi 2006).

Menurut Moeller dan Konies (2003), MCA adalah salah suatu metode untuk menentukan arah dari ragam minimal pada suatu data. Pada

principal component analysis arah data yang

diambil merupakan arah dari data dengan nilai ragam data yang maksimum sedangkan MCA mengambil arah dari ragam data yang minimum.

Algoritme MCA

Terdapat sebuah single linear neuron dengan relasi input dan output sebagai berikut:

y(k)= neuron output, rangkaian input {x(k) | x(k) ª Rn (k=0,1,2,…)} memiliki rataan 0. Dan w(k) ª Rn (k=0,1,2,…) merupakan bobot vektor

dari neuron. Target MCA adalah mendapatkan komponen minor dari data input dengan melakukan update bobot w(k) secara adaptive. Bila R = x(k)xT(k) adalah matriks autokorelasi

dari input x(k). R akan memiliki nilai eigen yang terurut ë1> ë2> …> ën ≥ 0 dengan eigen

vektor yang bersesuaian v1, v2, …, vn. maka

merupakan dekomposisi nilai eigen.

Secara umum untuk mendapatkan komponen minor w ke-i dari vn adalah

(Chen & Amari 2001).

Confusion Matrix

Confusion matrix merupakan sebuah tabel

yang terdiri atas banyaknya baris data uji yang diprediksi benar dan tidak benar oleh model klasifikasi, tabel ini diperlukan untuk menentukan kinerja suatu model klasifikasi (Tan et al. 2005).

Tabel 1 Confusion Matrix

Predicted Class Class=1 Class = 0 Actual Class Class=1 F 11 F 10 Class=0 F 01 F 00 Contoh tabel confusion matrix dapat dilihat pada Tabel 1. Perhitungan akurasi dengan menggunakan tabel confusion matrix adalah sebagai berikut:

K-Fold Cross Validation

Dalam k-fold cross validation data akan dibagi ke dalam k buah partisi dengan ukuran yang sama D1, D2, D3,…, Dk. Pelatihan dan

pengujian dilakukan sebanyak k kali. Dalam iterasi ke-i, partisi Di akan menjadi data uji, selainnya menjadi data latih.

Pada iterasi pertama, D1 akan menjadi data

uji, D2, D3, ..., Dk akan menjadi data latih. Selanjutnya iterasi ke-2, D2 akan menjadi data

uji, D1, D3, …, Dk menjadi data latih, dan seterusnya (Han & Kamber 2005).

Uji Cochran

Uji Cochran merupakan uji statistik yang bersifat non-parametrik. Uji Cohran ini dapat diterapkan untuk menguji hasil tiga sampel atau lebih dengan catatan reaksi (hasil) terhadap suatu perlakuan bersifat nominal (kategori), hasil hanya dinyatakan dalam dua buah nilai yaitu 0 dan 1 (Santoso 2004). Ilustrasi data yang dapat digunakan dapat dilihat pada Tabel 2.

(12)

3 Tabel 2 Data percobaan

Perco baan Perlakuan 1 2 … c 1 X11 X12 … X1c R1 2 X21 X22 … X2c R2 … … … … r Xr1 Xr2 … Xrc Rr C1 C2 … Cc N Keterangan:

r = banyaknya perulangan percobaan. c = banyaknya perlakuan.

Xij = hasil percobaan bernilai {1,0}.

Ci = ઱Xic.

N = ઱Ci. Ri = ઱Ci.

Statistik hitung untuk uji Cochran menggunakan rumus: ܳ ൌ൫ܿሺܿ െ ͳሻ σ ܿ_{ܿܰ െ σ ܴ}௖௝ୀଵ ௝ଶ൯ െ ൫ሺܿ െ ͳሻܰଶ൯ ௜ ଶ ௥ ௜ୀଵ Ǥ

Hipotesis yang digunakan adalah:

 H0 = Semua perlakuan mempunyai

efektivitas yang sama.

 H1 = Terdapat perbedaan efektivitas

antar-perlakuan. Kriteria uji:

 Terima H0 jika nilai Q lebih kecil dari ɖଵିఈȀଶǢ௖ିଵଶ .

 Tolak H0 jika nilai Q lebih besar dari ɖଵିఈȀଶǢ௖ିଵଶ .

Contoh perhitungan dengan uji Cochran dapat dilihat pada Lampiran 1.

Tokenisasi

Tokenisasi merupakan tahap memotong-motong kalimat atau teks menjadi bagian- bagian yang lebih kecil yaitu token. Token sering kali didefinisikan sebagai sebuah term atau kata, namun terkadang token lebih baik bila dibedakan dengan hal tersebut. Token

merupakan sebuah rangkaian karakter dalam dokumen yang dikelompokkan sebagai sebuah unit semantik yang berguna dalam pemrosesan teks (Manning 2008). Term biasanya

merupakan turunan dari token dengan tahap-tahap normalisasi sebelumnya.

Contohnya bila sebuah kalimat yang akan diindeks adalah “aku dan dia akan pergi”. Hasil tokenisasi ada 5 buah token, yaitu “aku”, ”dan”,

“dia”, “akan”, “pergi”, sedangkan term hanya

ada tiga buah bila diterapkan pembuangan stop

word, kata “akan” dan “dan” akan dibuang

karena termasuk ke dalam daftar stoplist.

Stemming

Sebuah kata dapat memiliki bentuk yang berbeda-beda tergantung konteks pemakaian kata tersebut dalam suatu kalimat, seperti kata mencari, dicari, dan carilah. Kata-kata tersebut pada dasarnya memiliki arti yang sama, namun bila diindeks, kata-kata tersebut akan dianggap memiliki arti yang berbeda. Stemming

merupakan proses kasar dalam memotong suatu kata untuk membentuknya menjadi kata dasar dan untuk mengurangi kata-kata yang berinfleksi yaitu kata jamak dan tunggal (Manning 2008).

Stop Word

Terkadang kata-kata yang sering muncul dan umum merupakan kata-kata yang kurang bermakna bila dijadikan penciri sebuah dokumen, kata-kata tersebut akan dibuang dari himpunan kata yang akan diindeks nantinya. Kata-kata tersebut merupakan kata-kata yang termasuk dalam stop word (Manning 2008).

Kata-kata yang akan dibuang tersebut akan disimpan dalam sebuah daftar kata yang disebut

stoplist. Stoplist akan berbeda-beda tergantung

bahasa yang digunakan. Dalam konteks bahasa Indonesia, beberapa kata yang termasuk dalam

stoplist di antaranya adalah kata tugas seperti ‘yang’, ‘hingga’, dan ‘dengan’.

Pembobotan tf.idf

Pembobotan tf.idf merupakan gabungan dari pembobotan term frequency (tf) dengan pembobotan inverse document frequency (idf). Pembobotan tf didasarkan pada jumlah kemunculan term dalam sebuah dokumen. Skor sebuah term adalah frekuensi kemunculan term tersebut dalam dokumen. Idf merupakan pembobotan log N/df, dengan df adalah banyaknya dokumen dalam koleksi N yang mengandung term t. Ilustrasi pembobotan idf dapat dilihat pada Tabel 3.

(13)

4 Tabel 3 Contoh pembobotan idf

Term Df Idf

Mobil 25 125 1,5

Auto 6 700 2,08

Asuransi 18 165 1,62

Pembobotan tf.idf didapatkan dengan mengalikan tf dengan idf. Pada Tabel 3 terlihat bahwa skor tinggi akan muncul bila term muncul dalam sedikit dokumen dan akan semakin kecil bila term semakin sering muncul dalam dokumen (Manning 2008).

Pembobotan terbaik saat ini untuk klasifikasi dokumen teks adalah pembobotan

tf.rf yaitu salah satu pembobotan supervised learning yang baru dikembangkan pada tahun

2007. Namun, pembobotan tf.rf rumit untuk digunakan. Pembobotan tf.idf memiliki kinerja di atas pembobotan tf dan mendekati tf.rf (Lan

et al 2007).

Panjang Vektor

Panjang vektor (vector norm) suatu vektor

C=[x1,x2,…,xn] dapat dihitung sebagai panjang

dari sembarang segmen garis berarah (Leon 2001). Panjang segmen garis dari [0,0,…,0] ke [x1,x2,…,xn] adalah:

Proyeksi Vektor

Proyeksi sebuah vektor A terhadap vektor B adalah membentuk sebuah vektor C yang memiliki arah atau kemiringan yang sama dengan vektor B dan memiliki panjang |C| = A cos è (è merupakan sudut apit antara vektor A dan vektor B). Vektor C merupakan proyeksi vektor A terhadap vektor B, maka vektor C dikatakan sebagai suatu transformasi linear (Leon 2001). Ilustrasi proyeksi vektor A terhadap vektor B dapat dilihat pada Gambar 2. Untuk menghitung vektor C hasil proyeksi A terhadap B dapat digunakan rumus .

Gambar 2 Proyeksi vektor.

METODOLOGI PENELITIAN

Penelitian ini dilakukan dalam beberapa tahap seperti yang digambarkan pada Gambar 3. Secara garis besar tahapannya adalah studi pustaka, pengadaan data, implementasi sistem, praproses data, pelatihan, klasifikasi, uji Cochran, dan 3-fold cross validation.

Gambar 3 Metodologi penelitian.

Studi Pustaka

Pada tahap ini dilakukan pengumpulan informasi tentang klasifikasi dokumen menggunakan MCA. Literatur yang digunakan berupa buku, jurnal, dan artikel-artikel dari Internet.

Pengumpulan Data

Data yang digunakan dalam penelitian ini merupakan data berita digital sebanyak 750 dokumen yang bersumber dari Media Indonesia Online.

Klasifikasi dokumen menggunakan klasifikasi secara manual oleh Media Indonesia. Data tersebut diklasifikasikan menjadi lima kelas dokumen berita, yaitu kelas pendidikan, ekonomi, lingkungan, bulutangkis, dan kriminal dengan masing-masing anggota setiap kelas berjumlah 150 dokumen. Setiap kelas dokumen diambil dalam rentang waktu terbitan yang

(14)

5 berbeda, Tabel 4 menunjukkan perbedaan

rentang waktu pengambilan dokumen. Tabel 4 Kelas data

Kelas Terbitan

Pendidikan 25 Januari 2009 – 25 Maret 2009

Ekonomi 7 Mei 2009 – 31 Mei 2009 Lingkungan 21 Februari 2009 – 23 April

2009

Bulutangkis 15 November 2008 – 26 April 2009

Kriminal 24 April 2009 – 1 Mei 2009 Setiap dokumen direpresentasikan dalam format XML dengan bentuk sebagai berikut:

<DOC> <DOCNO> … </DOCNO> <TITLE> … </TITLE> <AUTHOR> … </AUTHOR> <DATE> … </DATE> <TEXT> … </TEXT> </DOCNO>.

Contoh dokumen dalam format XML dapat dilihat pada Lampiran 2.

Implementasi Sistem

Implementasi sistem terbagi menjadi dua, yaitu implementasi praproses dan implementasi klasifikasi MCA. Implementasi praproses meliputi pembuatan modul untuk tokenisasi dan pembuangan stop word dengan menggunakan bahasa PHP, implementasi klasifikasi MCA menggunakan perangkat lunak MATLAB 7.0.1.

Klasifikasi MCA

Tahapan ini meliputi tiga tahap utama yaitu praproses, pelatihan, dan klasifikasi. Alur klasifikasi MCA dapat dilihat pada Gambar 4.

Praproses

Setelah data terkumpul, dilakukan praproses data dengan empat perlakuan, meliputi parsing, pembuangan stop word, stemming serta pembuangan stop word dan stemming.

Pembobotan dokumen menggunakan pembobotan tf.idf. Sebelum dilakukan empat perlakuan tersebut, semua isi dokumen diubah dalam lower case.

Stoplist yang digunakan dalam penelitian ini

terdiri atas 263 kata yang diambil dari penelitian Ridha (2002), stoplist dapat dilihat pada Lampiran 3.

Stemmer yang digunakan dalam penelitian

ini menggunakan algoritme stemming untuk berbahasa Indonesia yang telah dikembangkan dengan mengikuti aturan tata bahasa Indonesia serta penambahan teknik pengecekan kamus (Adisantoso & Haryo 2009).

Perlakuan Pertama

Pada tahap ini semua teks dalam setiap dokumen dipilah menjadi sekumpulan token.

Token hanya dimulai oleh huruf dengan batas

minimal terdiri dari 3 karakter. Pemisah kata yang digunakan adalah white space, koma (,), titik (.), dan titik dua (:).

Gambar 4 Alur klasifikasi.

Perlakuan Kedua

Pada perlakuan kedua akan dilakukan pembuangan stop word. Semua kata-kata yang akan dibuang didaftarkan dalam daftar stoplist.

Perlakuan Ketiga

Pada perlakuan ketiga dilakukan proses

stemming. Pada perlakuan ini tidak ada

pembuangan kata-kata yang terdaftar dalam

stoplist.

Perlakuan Keempat

Perlakuan terakhir merupakan penggabungan dari perlakuan kedua dan ketiga yaitu hanya kata-kata di luar daftar stoplist yang akan di-stemm.

(15)

6 Dalam penelitian ini jumlah token yang

digunakan sebagai penciri dibatasi sebanyak n buah token dengan frekuensi tertinggi. Hasil dari praproses ini setiap dokumen akan direpresentasikan dalam bentuk vektor, yaitu setiap dokumen berbentuk vektor kolom dengan baris berisi bobot dari term (wi). Setiap kelas direpresentasikan dengan menggabungkan setiap vektor kolom anggota kelas tersebut membentuk vektor kelas, dapat divisualisasikan pada Gambar 5.

Gambar 5 Ilustrasi kelas.

Data Latih dan Data Uji

Setelah data terkumpul, data tersebut dibagi ke dalam data latih dan data uji dengan proporsi data latih lebih banyak dari data uji. Dari setiap kelas, masing-masing 100 dokumen menjadi data latih dan 50 dokumen akan menjadi data uji, sehingga total data latih sebanyak 500 dokumen dan 250 dokumen menjadi data uji.

Pelatihan

Pada tahap pelatihan, masing-masing kelas dokumen dari data latih akan dihitung komponen minornya dengan menggunakan algoritme MCA, hasilnya berupa sebuah vektor baris MCA. Dengan demikian akan terdapat lima buah vektor kolom untuk merepresentasikan nilai komponen minor masing-masing kelas.

Klasifikasi

Proses klasifikasi dilakukan dengan cara menghitung vektor proyeksi dari vektor dokumen terhadap setiap vektor kelas yang ada. Setelah itu norm dari vektor–vektor proyeksi tersebut dihitung. Vektor proyeksi yang memiliki norm terkecil menunjukkan kelas dari dokumen tersebut. Berikut adalah algoritme klasifikasi yang digunakan:

1. Proyeksikan vektor dokumen ke dalam setiap vektor kelas.

2. Hitung nilai norm dari setiap vektor proyeksi yang dihasilkan.

3. Urutkan nilai norm yang didapatkan. 4. Nilai norm terkecil menunjukkan kelas dari

dokumen tersebut.

Akurasi

Untuk menghitung tingkat akurasi hasil klasifikasi yang terbentuk digunakan confusion

matrix. Dari confusion matrix perhitungan

akurasi diperoleh dengan membandingkan antara jumlah data uji yang diklasifikasikan benar dengan total data uji. Rumus yang digunakan adalah:

Uji Cochran

Uji Cochran dilakukan untuk mengetahui beda nyata akurasi antar empat buah perlakuan praproses. Perlakuan tersebut meliputi tokenisasi, pembuangan stop word, stemming, serta pembuangan stop word dan stemming.

Dalam uji Cochran ini hipotesis yang digunakan adalah sebagai berikut:

H0: Keempat perlakuan memberikan hasil

akurasi yang sama.

H1: Keempat perlakuan berbeda dalam hal

akurasi klasifikasi. Taraf nyata á/2 = 0,05.

Hipotesis H0 akan ditolak jika Q lebih besar

dari .

3-Fold Cross Validation

Proses 3-fold cross validation dilakukan untuk menguji akurasi algoritme dengan data latih yang berbeda. Data akan dibagi menjadi

.

(16)

7 tiga buah subset, s1, s2, dan s3. Pengulangan

akan dilakukan sebanyak tiga kali, pada setiap ulangan satu buah subset akan menjadi data uji, dan sisanya menjadi data latih.

Pada iterasi pertama, subset s1 akan menjadi

data uji, s2 dan s3 akan menjadi data latih.

Selanjutnya iterasi ke-2, s2 akan menjadi data

uji, s1 dan s3 menjadi data latih, dan seterusnya.

Lingkungan Pengembangan

Lingkungan pengembangan yang digunakan adalah sebagai berikut:

 Perangkat lunak:

 Windows XP Professional

 MATLAB 7.0.1

 XAMPP 1.6.7

 Perangkat keras:

 Prosesor Intel Core 2 Duo E6300 (1.68 GHz)

 2048 MByte RAM.

HASIL DAN PEMBAHASAN Praproses

Dari empat buah perlakuan praproses, akan dihasilkan kumpulan term unik yang berbeda. Jumlah term tersebut dihasilkan dari 750 koleksi dokumen. Hasil praproses data tersebut dapat dilihat pada Tabel 5.

Tabel 5 Jumlah term unik hasil praposes Perlakuan Jumlah term

Pertama 14145

Kedua 13932

Ketiga 10149

Keempat 10046

Terlihat dari Tabel 5 bahwa jumlah term yang dihasilkan setiap perlakuan memiliki jumlah yang berbeda dan jumlah semakin menurun. Penurunan jumlah term dikarenakan pada tahap perlakuan kedua kata-kata yang termasuk ke dalam daftar stoplist akan dibuang. Pada perlakuan ketiga terjadi penurunan jumlah

term karena kata dibentuk menjadi kata dasar,

sehingga kata-kata yang unik akan berkurang. Namun jumlah term yang banyak tidak akan efisien bila semua term dijadikan penciri dokumen, maka tidak semua term akan dijadikan sebagai penciri dokumen.

Sebelum melanjutkan ke proses selanjutnya, akan dilakukan beberapa percobaan untuk menentukan jumlah term yang akan digunakan, dengan pertimbangan akurasi dan efisiensi waktu pelatihan. Perbandingan akurasi beberapa percobaan dengan jumlah term yang berbeda dan perlakuan yang diberikan adalah perlakuan keempat dapat dilihat pada Tabel 6. Tabel 6 Perbedaan akurasi pada jumlah term yang berbeda

Jumlah

Term

Akurasi perlakuan ke- (%)

1 2 3 4 600 93,6 94,0 93,2 94,0 800 95,2 95,2 96,4 96,0 1000 94,4 96,0 97,2 97,2 1200 96,4 96,8 97,6 97,6 1400 96,8 97,2 97,6 97,6 Dari Tabel 6 terlihat bahwa pada jumlah

term 1200 dan 1400 tidak terdapat banyak

perubahan akurasi. Hal ini menunjukkan bahwa 1200 term sudah cukup baik untuk pelatihan. Dengan demikian, untuk pertimbangan efisiensi, jumlah term yang digunakan sebagai penciri adalah sebanyak 1200 term. Ukuran vektor untuk setiap dokumen yang terbentuk adalah ͳʹͲͲݔͳǤ

Setiap perlakuan praproses memerlukan waktu eksekusi yang berbeda. Tabel 7 menunjukkan perbedaan rataan waktu yang diperlukan untuk tahap praproses. Perhitungan waktu praproses didapatkan dari rataan tiga kali percobaan.

Tabel 7 Perhitungan waktu praproses

Perlakuan Ulangan ke- Rataan waktu (s) 1 2 3 Pertama 314 276 305 298,33 Kedua 2617 2395 2623 2 545,00 Ketiga 8791 8706 8718 8738,33 Keempat 10596 9543 10207 10115,33 Pelatihan

Pada tahap pelatihan ini vektor data latih akan menjadi input untuk algoritme MCA yang

(17)

8 akan menghasilkan komponen minor untuk

setiap kelas.

Beberapa variabel yang digunakan dalam algoritme ini adalah:

 R adalah matriks autokorelasi, dengan R=E[x(k)xT(k)].

 w(i) adalah pembobotan MCA.  ߟ adalah laju pembelajaran.

Ukuran vektor data latih setiap kelas adalah 100 x 1200, sehingga ukuran vektor R adalah 1200 x 1200. Pembobotan awal yang digunakan adalah w(0)= {0.1 0.1… 0.1} berukuran 1200 x 1. Komponen minor pertama (w(k)) setiap kelas diperoleh dengan menggunakan rumus:

ݓሺ݇ ൅ ͳሻ ൌ

ݓሺ݇ሻ െ ߟሾܴሺ݇ሻݓሺ݇ሻݓ்_{ሺ݇ሻݓሺ݇ሻ െ}

ݓሺ݇ሻݓ்_{ሺ݇ሻܴሺ݇ሻݓሺ݇ሻሿ}

dengan nilai ߟ ൌ ͲǤͲͲͳ. Proses pembobotan

akan dilakukan berulang-ulang sampai bobot konvergen pada suatu nilai.

Pada penelitian ini komponen minor yang digunakan hanya komponen minor pertama karena algoritme yang digunakan masih memiliki kelemahan yaitu untuk beberapa kasus tidak mampu mengambil komponen minor kedua (Pheng & Zhang 2006).

Perlakuan Pertama

Pada perlakuan pertama, term yang diambil merupakan 1200 term pertama dengan tingkat frekuensi tertinggi. Pada perlakuan ini hasil klasifikasi pada tiap kelas sudah menunjukkan nilai akurasi yang tinggi, nilai akurasi minimal adalah 92% dan maksimal 100%. Akurasi klasifikasi tiap kelas dengan perlakuan pertama dapat dilihat pada Tabel 8.

Terdapat dua kelas yang tepat diklasifikasikan dengan akurasi 100% yaitu kelas bulutangkis dan kelas kriminal.

Tabel 8 Akurasi perlakuan pertama

Kelas Hasil Klasifikasi Akurasi Klasifikasi Benar Salah Ekonomi 46 4 92% Bulutangkis 50 0 100% Kriminal 50 0 100% Lingkungan 46 4 92% Pendidikan 49 1 98% Perlakuan Kedua

Pada perlakuan kedua terdapat kenaikan akurasi untuk kelas lingkungan sebesar 2%. Akurasi klasifikasi tiap kelas dengan perlakuan kedua dapat dilihat pada Tabel 9. Jumlah stop

word yang digunakan adalah sebanyak 263

kata. Kelas bulutangkis dan kriminal tetap memiliki akurasi 100%.

Tabel 9 Akurasi perlakuan kedua

Kelas Hasil Klasifikasi Akurasi Klasifikasi Benar Salah Ekonomi 46 4 92% Bulutangkis 50 0 100% Kriminal 50 0 100% Lingkungan 47 3 94% Pendidikan 49 1 98% Perlakuan Ketiga

Pada perlakuan ketiga terdapat kenaikan akurasi masing-masing sebesar 2% pada kelas ekonomi dan kelas pendidikan. Rentang akurasi mengalami kenaikan, akurasi minimal pada perlakuan ketiga menjadi 94% dan kelas yang tepat diklasifikasikan menjadi 3 kelas yaitu kelas bulutangkis, kriminal, dan kelas pendidikan. Akurasi klasifikasi tiap kelas dengan perlakuan ketiga dapat dilihat pada Tabel 10.

Tabel 10 Akurasi perlakuan ketiga

Kelas Hasil Klasifikasi Akurasi Klasifikasi Benar Salah Ekonomi 47 3 94% Bulutangkis 50 0 100% Kriminal 50 0 100% Lingkungan 47 3 94% Pendidikan 50 0 100% Perlakuan Keempat

Pada perlakuan keempat, terdapat penurunan akurasi dari perlakuan sebelumnya yaitu pada kelas ekonomi, penurunan sebesar 2%, namun pada kelas lingkungan terdapat kenaikan akurasi sebesar 2%. Akurasi klasifikasi tiap kelas dengan perlakuan keempat dapat dilihat

(18)

9 pada Tabel 11. Contoh dokumen yang salah

diklasifikasikan dapat dilihat pada Lampiran 4. Tabel 11 Akurasi perlakuan keempat

Kelas Hasil Klasifikasi Akurasi Klasifikasi Benar Salah Ekonomi 46 4 92% Bulutangkis 50 0 100% Kriminal 50 0 100% Lingkungan 48 2 96% Pendidikan 50 0 100%

Klasifikasi MCA pada Kelas Ekonomi

Pada kelas ekonomi, akurasi terbaik terdapat di perlakuan ketiga. Perlakuan pertama, kedua, dan keempat mempunyai nilai akurasi yang sama yaitu 92%. Perubahan perlakuan tidak menunjukkan perubahan signifikan pada kelas ekonomi. Perubahan akurasi pada setiap perlakuan dapat dilihat pada Gambar 6.

Gambar 6 Akurasi kelas ekonomi.

Klasifikasi MCA pada Kelas Bulutangkis

Pada kelas bulutangkis, semua perlakuan memberikan akurasi sempurna yaitu 100%. Hal ini dikarenakan pada kelas bulutangkis kata-kata yang digunakan spesifik, pada umumnya kata-kata yang digunakan pada kelas ini tidak digunakan pada kelas lainnya.

Klasifikasi MCA pada Kelas Kriminal

Pada kelas kriminal, seperti halnya pada kelas bulutangkis, kata-kata yang digunakan dalam kelas ini spesifik sehingga semua perlakuan memberikan akurasi 100%.

Klasifikasi MCA pada Kelas Lingkungan

Pada kelas lingkungan, peningkatan akurasi hampir selalu terjadi dalam setiap tahap perlakuan. Akurasi terbaik terdapat di perlakuan

keempat dengan nilai akurasi sebesar 96% dan akurasi terkecil sebesar 92% pada perlakuan pertama. Hasil akurasi pada setiap perlakuan dapat dilihat pada Gambar 7.

Klasifikasi MCA pada Kelas Pendidikan

Pada kelas lingkungan, peningkatan akurasi hampir selalu terjadi dalam setiap tahap perlakuan seperti yang terjadi pada kelas lingkungan. Akurasi terbaik terdapat di perlakuan ketiga dan keempat dengan nilai akurasi sebesar 100% dan akurasi terkecil sebesar 92% pada perlakuan pertama. Hasil akurasi kelas pendidikan pada setiap perlakuan dapat dilihat pada Gambar 8.

Gambar 7 Akurasi kelas lingkungan.

Gambar 8 Akurasi kelas pendidikan.

Akurasi Setiap Perlakuan

Akurasi perlakuan pertama secara keseluruhan dari algortime MCA dihitung dengan menggunakan bantuan tabel confusion

matrix dapat dilihat pada Tabel 12.

Tabel 12 Confusion matrix perlakuan pertama Kelas Prediksi 1 2 3 4 5 Kelas Aktual 1 46 0 0 4 0 2 0 50 0 0 0 92 92 94 92 65 70 75 80 85 90 95 100 92 94 94 96 65 70 75 80 85 90 95 100 92 98 100 100 65 75 85 95 105 (%) (%) (%)

(19)

10 Tabel 12 Lanjutan Kelas Prediksi 1 2 3 4 5 Kelas Aktual 3 0 0 50 0 0 4 3 0 0 46 1 5 0 0 0 1 49

Akurasi perlakuan pertama adalah:

ܣ݇ݑݎܽݏ݅ ൌ ଶସଵ_ଶହ଴

= 96,4%.

Akurasi perlakuan kedua secara keseluruhan dihitung dengan menggunakan bantuan tabel

confusion matrix pada Tabel 13.

Tabel 13 Confusion matrix perlakuan kedua Kelas Prediksi 1 2 3 4 5 Kelas Aktual 1 46 0 0 4 0 2 0 50 0 0 0 3 0 0 50 0 0 4 2 0 0 47 1 5 0 0 0 1 49

Akurasi perlakuan kedua adalah:

ܣ݇ݑݎܽݏ݅ ൌ ଶସଶ_ଶହ଴

= 96,8%.

Akurasi perlakuan ketiga secara keseluruhan dihitung dengan menggunakan bantuan tabel

confusion matrix pada Tabel 14.

Tabel 14 Confusion matrix perlakuan ketiga Kelas Prediksi 1 2 3 4 5 Kelas Aktual 1 47 0 0 2 1 2 0 50 0 0 0 3 0 0 50 0 0 4 2 0 0 47 1 5 0 0 0 0 50

Akurasi perlakuan ketiga adalah:

ܣ݇ݑݎܽݏ݅ ൌ ଶସସ_ଶହ଴

= 97,6%.

Akurasi perlakuan keempat secara keseluruhan dihitung dengan menggunakan bantuan tabel confusion matrix pada Tabel 15.

Tabel 15 Confusion matrix perlakuan keempat Kelas Prediksi 1 2 3 4 5 Kelas Aktual 1 46 0 0 3 1 2 0 50 0 0 0 3 0 0 50 0 0 4 1 0 0 48 1 5 0 0 0 0 50

Akurasi perlakuan keempat adalah:

ܣ݇ݑݎܽݏ݅ ൌଶସସ_ଶହ଴

= 97,6%.

Terdapat perbedaan akurasi yang tidak terlalu signifikan, rekapitulasi perhitungan akurasi setiap perlakuan dapat dilihat pada Tabel 16.

Tabel 16 Rekapitulasi akurasi Akurasi Perlakuan ke-

1 2 3 4

96,4% 96,8% 97,6% 97,6%

Untuk membuktikan beda nyata antar perlakuan, dilakukan uji Cochran dengan hipotesis:

H0: Keempat perlakuan memberikan hasil

akurasi yang identik.

H1: Keempat perlakuan berbeda dalam hal

akurasi klasifikasi.

ܳ ൌሺସሺସିଵሻሺଶଷହ଻ଵ଻ሻሻିቀሺସିଵሻଽ଻ଵ_{ସൈଽ଻ଵିଷ଼ହଽ} మቁ

Hipotesis H0 akan ditolak jika Q lebih besar

dari atau sama dengan ɖ_{ଵିఈȀଶǢ௖ିଵ}ଶ . Didapatkan dari perhitungan nilai Q = 3.24 dan dari tabel

ɖଶ_diperoleh _ɖ

ଵିఈȀଶǢ௖ିଵ

ଶ _{ൌ ͹Ǥͺͳͷ, maka dapat}

diambil kesimpulan Q lebih kecil dari

ɖଵିఈȀଶǢ௖ିଵଶ sehingga H0 tidak dapat ditolak.

Dengan demikian, keempat perlakuan memberikan hasil akurasi yang identik. Dengan demikian, keempat perlakuan praproses tidak memberikan pengaruh yang signifikan terhadap klasifikasi oleh MCA.

(20)

11 Gambar 9 Akurasi pada setiap data set.

3-Fold Cross Validation

Hasil perhitungan akurasi tiap perlakuan dengan data set yang berbeda menunjukkan tidak terdapat perubahan akurasi yang signifikan antar-data set yang berbeda.

Grafik pada Gambar 9 menunjukkan nilai akurasi yang tidak jauh berbeda dengan subset yang berlainan. Hal ini menunjukkan bahwa algoritme tahan terhadap perubahan data set.

KESIMPULAN DAN SARAN Kesimpulan

Dari penelitian dalam menerapkan algoritme MCA untuk klasifikasi dokumen berita, didapatkan kesimpulan sebagai berikut: 1. Penerapan klasifikasi MCA untuk dokumen

teks berhasil dilakukan.

2. Akurasi dari model klasifikasi yang terbentuk di atas 90%.

3. Algoritme tahan terhadap perubahan data set.

4. Perbedaan perlakuan pada praproses tidak memberikan pengaruh yang signifikan terhadap hasil akurasi klasifikasi oleh MCA.

Saran

Saran-saran yang diberikan untuk pengembangan lebih lanjut adalah sebagai berikut:

1. Penggunaan algoritme MCA yang mampu mengambil lebih dari satu komponen minor.

2. Penggunaan data yang lebih besar dan jumlah kelas yang lebih banyak untuk melihat konsistensi efektivitas MCA.

DAFTAR PUSTAKA

Adisantoso J, Haryo A. 2009. Stemmer Bahasa Indonesia dengan Kamus. Bogor: Departemen Ilmu Komputer.

Chen TP, Amari S, Murata N. 2001. Sequential Extraction of Minor Components. Neural

Processing Letters 13. 195-201.

Han J, Kamber M. 2006. Data Mining Concepts

and Techniques. San Fransisco: Morgan

Kaufman Publisher.

Jankovic M et al. 2006. Minor Component Analysis (MCA) Applied to Image Classification in CBIR Systems. IEEE

Transactions on Neural Network 6.

Lan M, Tan CL, Su J. 2007. Supervised and Traditional Methods for Automatic Text Categorization. IEEE PAMI Vol.10(10). Leon S J. 1999. Aljabar Linier dan Aplikasinya.

Jakarta: Penerbit Erlangga.

Li Y H, Jain A K. 2006. Classification of Text Documents. The Computer Journal.

Vol.41(2):537-546.

Manning C. 2008. Introduction to Information

Retrieval. Cambridge: Cambridge University Press.

Moller R, Konies A. 2003. Couple Principle Component Analysis Algorithm. IEEE

Transaction on Neural Network 3.

Peng D, Yi Z. 2006. A New Algorithm for Sequential Minor Component Analysis.

International Journal of Computational Intelligence Research. Vol.2(2): 207-208.

Ridha A. 2002. Pengindeksan Otomatis dengan

Istilah Tunggal untuk Dokumen Berbahasa Indonesia [Skripsi]. Bogor: Departemen

Ilmu Komputer, IPB.

Santoso S. 2003. Mengatasi Berbagai Masalah

Statistik dengan SPSS 11. Jakarta: PT Media

Elex Komputindo

Tan P, Michael S, Vipin K. 2005. Introduction

to Data Mining. Boston: Pearson Education,

Inc. 96.4 96.8 96.8 96 97.697.2 97.697.6 96.8 97.2 97.6 97.6 65 70 75 80 85 90 95 100

Ulangan-1 Ulangan-2 Ulangan-3

(21)

kkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk

(22)

13 Lampiran 1 Contoh tabel perhitungan uji Cohcran

Pekerja Perlakuan Jumlah nilai

baris (Ri)

Mesin A Mesin B Mesin C

1 0 0 1 1 2 0 1 0 1 3 1 1 0 2 4 1 1 1 3 5 1 0 0 1 6 0 0 1 1 7 0 1 1 2 8 0 0 0 0 ઱ C1= 3 C2= 3 C3= 4 N=10 Hipotesis:

H0: Ketiga mesin memberikan kinerja yang sama.

H1: Ketiga mesin mempunyai kinerja yang berbeda.

Keterangan:

Q = statistik hitung uji Cochran c = banyaknya perlakuan Ri = jumlah nilai baris ke-i

N = ઱ Ci ܳ ൌ൫ܿሺܿ െ ͳሻ σ ܿ_{ܿܰ െ σ ܴ}௖௝ୀଵ ௝ଶ൯ െ ൫ሺܿ െ ͳሻܰଶ൯ ௜ଶ ௥ ௜ୀଵ ൌ൫͵ሺ͵ െ ͳሻ σ ܿ_{͵ሺͳͲሻ െ σ ܴ}௖௝ୀଵ ௝ଶ൯ െ ൫ሺ͵ െ ͳሻͳͲଶ൯ ௜ଶ ௥ ௜ୀଵ ൌሺ͵ሺ͵ െ ͳሻሺ͵Ͷሻሻ െ ൫ሺ͵ െ ͳሻͳͲ_{͵ሺͳͲሻ െ ʹͳ} ଶ൯ ൌ ͲǡͶͶͶͶ.

Didapatkan nilai statistik tabel sebesar 5,991 dengan á/2= 5%, karena nilai statistik hitung Q (0,444) lebih kecil dari statistik Tabel Khi (5,991), maka hipotesis H0 diterima, atau ketiga mesin

(23)

14 Lampiran 2 Contoh dokumen dalam format XML

<DOC>

<DOCNO>Bulu_tangkis_Nov_3</DOCNO>

<TITLE>Jenderal Djoko Santoso Jadi Ketua Umum PB PBSI </TITLE> <AUTHOR></AUTHOR>

<DATE>15 November 2008</DATE> <TEXT>

Panglima TNI Jenderal Djoko Santoso terpilih menjadi Ketua Umum PB PBSI periode 2008-2012 secara aklamasi.

Pernyataan tersebut disampaikan ketua pimpinan sidang Paris Yusuf dalam Musyawarah Nasional (Munas) PBB PBSI dengan agenda pemilihan ketua umum di Jakarta, Sabtu (15/11).

"Terhitung mulai hari ini Jenderal Djoko Santoso telah terpilih sebagai ketua umum periode 2008-2012 secara aklamasi," katanya.

Dalam pemilihan ketua umum yang dihadiri oleh Panglima TNI tersebut, Djoko terpilih secara aklamasi setelah menjadi calon tunggal yang didukung sepenuhnya oleh 32 Pengda yang hadir dalam Munas.

Djoko terpilih setelah memberikan surat pernyataan secara resmi yang menyatakan dia bersedia dicalonkan menjadi ketua umum. "Setelah mendengar dan memperhatikan 32 dukungan dari PBSIB dan Pengda pada tanggal 14 November 2008, saya Jenderal Djoko Santoso menyatakan dengan sesungguhnya menyatakan siap, bersedia, dicalonkan sebagai calon ketua umum PB PBSIB periode 2008-2012," demikian isi surat tersebut.

Usai pemilihan ketua umum tersebut, sidang dilanjutkan dengan pembentukan formatur untuk membentuk susunan pengurus. (Ant/OL-02)

</TEXT> </DOC>

(24)

15 Lampiran 3 Stoplist

ada biasanya kalau menunjukkan sedang seusai

adalah bila kalian menurut sedangkan sewaktu

adanya bilamana kami mereka sedikit si

adapun buat kamu merupakan segera siapa

aduh bukan karena meski sehabis siapakah

agar dalam kata meskipun sehingga siapapun

ah dan katanya misalnya sehubungan suatu

akan dapat kau mungkin sejak sudah

aku dari ke namun sejumlah supaya

alih-alih daripada kebanyakan nanti sekarang tak

anda dekat kecuali nyaris sekeliling tanpa

andai demi kemanakah oleh seketika tapi

antar demikian kemudian pada sekitar tatkala

antara dengan kenapa padahal

sekonyong-konyong telah

apa depan kenapakah para selagi tengah

apakah di kepada pasti selain tentang

apalagi dia ketika pelbagai selalu tentu

asalkan dikatakan ketimbang per selama tentunya

atas dilakukan kini peri selanjutnya tergolong

atau dkk kita perihal selesai terhadap

ataupun dll lagi pinggir seluruh terjadi

bagai dsb lain pula seluruhnya terkadang

bagaikan engkau lain-lain pun semakin terlalu

bagaimana hal lainnya saat semenjak terlebih

bagaimanakah hampir lalu saja sementara termasuk

bagaimanapun hanya lebih sambil semua ternyata

bagi harus lepas sampai semuanya tersebut

bahkan hingga lewat samping seorang tertentu

bahwa ia maka sang sepanjang tetap

balik ialah makin sangat seperti tetapi

banyak ini manakala sangatlah sepertinya tiap

barangkali itu masih saya seputar tiba-tiba

bawah iya masing-masing seakan seraya tidak

beberapa jadi

masing-masingnya seakan-akan sering ujar

(25)

16 Lampiran 2 Lanjutan

begitu jarang melainkan sebab serta umumnya

belakang jauh melakukan sebabnya sesuai untuk

belum jika melalui sebagai sesuatu walau

berapa jikalau memang sebagaimana sesudah walaupun

berbagai juga mengatakan sebagainya sesudahnya ya

bersama jumlah mengenai sebelum sesungguhnya yaitu

beserta justru menjadi sebelumnya setelah yakni

betapa kadang menjelang sebuah seterusnya yang

biar

(26)

17 Lampiran 4 Contoh dokumen yang salah diklasifikasikan

Dokumen pada kelas ekonomi yang diklasifikasikan ke dalam kelas lingkungan: <DOC>

<TITLE>JK Desak Perbankan Turunkan Bunga dan Kucurkan Kredit</TITLE> <DATE>Jumat, 15 Mei 2009</DATE>

<TEXT>

Wakil Presiden Jusuf Kalla mendesak perbankan untuk menurunkan suku bunga dan menggenjot kredit ke sektor riil. Dia mengingatkan, bank mempunyai utang kepada rakyat saat krisis 1997-1998 dengan BLBI-nya.

Menurut JK, saat ini potensi perbankan sangat kuat dengan likuiditas yang menumpuk di sertifikat Bank Indonesia. Namun, entah kenapa perbankan enggan menjalankan intermediasi dengan menyalurkan kredit.

Selain itu, suku bunga masih saja tinggi dan tidak mengindahkan kebijakan BI yang telah menurunkan suku bunga acuannya (BI Rate). "Anda bertanggung jawab kepada rakyat. Jadi bank jangan macam-macam dengan menaikkan suku bunga. Karena ingat, rakyat pernah membela anda," tegas JK di hadapan para bankir dalam kegiatan makan malam Perbanas di Jakarta, Kamis malam (14/5).

Kalla mengingatkan kembali tugas perbankan untuk berpartisipasi dalam menggerakkan ekonomi. Hal ini dilakukan dengan menerapkan fungsi intermediasi bank. Semua itu harus dilakukan guna memenuhi kebutuhan dan kepentingan rakyat. Ini adalah tugas perbankan kepada rakyat yang pernah membela mereka.

Lebih jauh, Kalla mengatakan sudah banyak uang rakyat yang dialokasikan untuk menyelamatkan perbankan. Melalui program Bantuan Likuiditas BI (BLBI), Rp600 triliun digelontorkan untuk menyelamatkan perbankan. Padahal, kehancuran bank saat itu bukan kesalahan rakyat. Akan tetapi, uang rakyat yang diambil melalui pajak tersebut harus dialokasikan ke bank guna penyelamatan.

Terkait desakan adanya penjaminan penuh (blanket guarantee), JK mengakui dirinya tidak akan menyetujuinya. Berkaca pada krisis 12 tahun lalu, fasilitas ini malah memancing moral hazard. Sehingga, sekarang posisinya dibalik, bukan rakyat yang bertanggung jawab pada ulah bank, tapi bank yang harus bertanggung jawab membantu rakyat. Apalagi, di saat krisis seperti sekarang, peran bank sangat krusial dalam upaya melepaskan diri dari krisis.

Dengan begitu, tidak ada alasan lagi bagi bank untuk memenuhi tanggung jawabnya. Ada atau tidak ada penjaminan penuh, bank harus bisa membantu rakyat untuk kembali bangkit dari krisis. Salah satunya dengan menyalurkan dan menurunkan bunga kredit. Dia memastikan negara menjamin siapapun pelaku perbankan yang melanggar hukum akan diproses.

"Siapa yang berbuat, dia yang akan ambil akibatnya. I guarantee you a blanket. Siapa yang berani macam-macam, saya kasih selimut di penjara," ujar Kalla.

Kalla mengingatkan saat ini dana bank di BI mencapai lebih dari Rp260 triliun. Sebuah jumlah yang sangat besar untuk disia-siakan dengan mengendap. Seharusnya dana itu bisa disalurkan melalui kredit agar masyarakat bisa berusaha. Dunia usaha bisa kembali memutar bisnisnya dan masyarakat bisa kembali bekerja. (Toh/OL-04)

</TEXT> </DOC>