KESIMPULAN DAN SARAN - Sistem klasifikasi dokumen Bahasa Jawa dengan metode K-Nearest Neighbor

Bab ini berisi semua kesimpulan yang didapatkan dari penelitian yang telah dilakukan. Kesimpulan menjawab rumusan masalah yang dituliskan pada bab pendahuluan secara ringkas dan jelas.

6 BAB II

LANDASAN TEORI 2.1Pemerolehan Informasi

Pemerolehan informasi adalah pencarian material (biasanya berupa dokumen) dari dokumen yang sifatnya tidak terstruktur (biasanya berupa teks) yang bertujuan untuk memenuhi kebutuhan informasi dari suatu kumpulan dokumen yang besar (biasanya disimpan di komputer) (Manning, 2008). Pemerolehan informasi berhubungan dengan representasi, media penyimpanan, pengaksesan, dan pengorganisasian sesuatu yang memiliki informasi.

Pemerolehan informasi digunakan untuk mengurangi jumlah informasi yang terlalu besar sehingga di dalam pencarian informasi akan menjadi lebih efektif dan memberikan hasil pencarian dokumen yang relavan dengan query.

Query berupa kata kunci yang diberikan oleh pengguna kepada sistem sebagai acuan untuk mendapatkan informasi yang relevan terhadap kebutuhan pada query.

Query yang dimasukkan ke dalam sistem akan diolah dengan menggunakan metode yang diterapkan dalam sistem pemerolehan informasi untuk kemudian ditampilkan berdasarkan urutan nilai relevansi yang paling tinggi. Untuk lebih mempermudah lagi maka data yang didapatkan diklasifikasi.

Fungsi utama pemerolehan informasi sistem adalah

1. Mengidentifikasi sumber informasi yang relefan dengan minat masyarakat pengguna yang ditargetkan.

2. Menganalisis isi sumber informasi (dokumen).

3. Merepresentasikan isi sumber informasi dengan cara tertentu yang

memungkinkan untuk dipertemukan dengan pertanyaan (query) pengguna. 4. Merepresentasikan pertanyaan (query) pengguna dengan cara tertentu

yang memungkinkan untuk dipertemukan sumber informasi yang terdapat dalam basis data.

5. Mempertemukan pernyataan pencarian dengan data yang tersimpan dalam basisdata.

6. Menemu-kembalikan informasi yang relevan.

7. Menyempurnakan unjuk kerja sistem berdasarkan umpan balik yang diberikan oleh pengguna.

2.2 Proses Preprocessing Teks Dokumen

Fungsi preprocessing pada program ini adalah untuk mendapatkan kata kunci yang nantinya akan digunakan sebagai pencocokan string atau perbandingan dokumen. Proses-proses yang dilakukan pada proses ini adalah membaca dokumen, tokenisasi, stopword, stemming, text frequency.

2.2.1. Tokenisasi

Menurut Manning, 2008, tokenisasi adalah proses memotong kalimat menjadi potongan-potongan kata, yang disebut token, dan pada saat yang sama karakter-karakter tertentu, seperti tanda baca dihapus.

Tokenisasi adalah tugas memisahkan deretan kata di dalam kalimat, paragraf atau halaman menjadi token atau potongan kata tunggal. Tahapan ini juga menghilangkan karakter-karakter tertentu seperti tanda baca dan mengubah semua token ke bentuk huruf kecil (lower case).

2.2.2. Stopword

Stopword adalah kata yang sangat umum yang akan muncul menjadi nilai yang kecil dalam membantu dokumen pilih yang cocok dengan kebutuhan pengguna dikecualikan dari kosakata seluruhnya (Manning, 2008).

Pada proses stopword dilakukan penghapusan kata-kata yang tidak mempengaruhi proses pemerolehan informasi. Stopword adalah kata umum yang biasanya muncul dalam jumlah besar dan dianggap tidak memiliki makna. Pada penerapan program ini daftar kata-kata yang digolongkan sebagai stopword disimpan pada dokumen stoplist.txt. Kata-kata hasil

tokenizing kemudian dicocokkan dengan tabel stopword dalam dokuemn, jika ternyata kata yang diperiksa sama dengan stopword maka kata hasil

tokenizing dihapus. Dan kata yang diperiksa tidak ada di dalam dokumen maka kata tersebut dijadikan kata penting dan kemudian dilakukan proses

2.2.3. Stemming

Proses ini adalah proses mengembalikan semua bentukan kata menjadi bentuk kata dasarnya dengan menghilangkan semua imbuhan baik yang terdiri dari awalan(perfixes), sisipan(infixes), akhiran(surfixes) dan

confixes (kombinasi dari awalan dan akhiran) pada kata turunan.

Sebelum membuat aturan stemming untuk bahasa Jawa, diuraikan terlebih dahulu penggunaan simbol-simbol dalam membuat stemmer rule.

(Joko, Sri Hartati, Mirna Adriani, JB. Budi Darmawan, Studi Pengaruh Stemming dalam Bahasa Jawa. Penelitian Mibah Pekerti DIKTI, 2011).

1. Aturan substitusi/penghapusan menggunakan tanda =>.

ny =>”” (ny dihapus)

ny => s (ny diganti s)

2. Simbol <> digunakan untuk menyatakan tingkat affix yang mempengaruhi urutan pengecekan di algoritma stemming.

Aturan yang digunakan adalah sebagai berikut : SUFFIX

<1> e=>"",n=>"",a=>"",i=>"",ing=>"", ku=>"",mu=>"" <2> ke=>"", ki=>"",wa=>"",

ya=>"",na=>"",ne=>"",en=>"",an=>"",ni=>"",nira=>"", ipun=>"", on=>"u", ning=>""

<3> ake=>"", en=>"i", kna=>"n", kno=>"n", ana=>"", ono=>"", ane=>"", kne=>"", nan=>"", yan=>"", nipun=>"", oni=>"u", eni=>"i"

<4> kake=>"n", ken=>"" ,kke=>"",nana=>"",nono=>"", nane=>"", nen=>"",kna=>"",kno=>"", ekne=>"i", onan=>"u",enan=>"i"

<5> kake=>"",kken=>"",aken=>"",kke=>"n",enana=>"i",enono=>"i",on en=>"u",enen=>"i",onana=>"u",onono=>"u",

ekna=>"i",ekno=>"i",okno=>"u",okna=>"u"

<6> ekken=>"i",kaken=>"n",okken=>"u",ekake=>"i",ekke=>"i",okake= >"u",okke=>"u", kaken=>"", kken=>"n"

<7> ekaken=>"i",okaken=>"u"

PREFIX

<1> dipun=>"",peng=>"",peny=>"",pem=>"",pam=>"",pany=>"",pra=>" ",kuma=>"",kapi=>"",

bok=>"",mbok=>"",dak=>"",tak=>"",kok=>"",tok=>"",ing=>"",ang =>"",any=>"", am=>"", sak=>"",

se=>"",su=>"",mang=>"",meng=>"",nge=>"",nya=>"",pi=>"",ge=>" ",ke=>"",u=>"", po=>"u",ke=>"u" <2> mer=>"",mra=>"",mi=>"",sa=>"",ku=>"",an=>"",ka=>"",ny=>"s",n g=>"k",di=>"",peng=>"k",pang=>"k",pany=>"c", pam=>"p",ke=>"i",mang=>"k",meng=>"k" <3> a=>"",k=>"",pam=>"w",pan=>"t", pen=>"t",mang=>"w",meng=>"w", ny=>"c",ng=>"" <4> n=>"t", pan=>"s", pen=>"s",man=>"s",men=>"s" <5> pan=>"",pen=>"",man=>"t",men=>"t",n=>"" <6> pa=>"",pe=>"",man=>"",men=>""

<7> p=>"",ma=>"",me=>"" <8> m=>"w" <9> m=>"p" <10> m=>"" INFIX <1> gum=>"b",gem=>"b",kum=>"p",kem=>"p" <2> kum=>"w", kem=>”w”

Algoritma untuk melakukan proses stemming terhadap kata tunggal atau duplikasi.

1. Kata berimbuhan adalah word. Kata sebagai hasil adalah stemW 2. Cek jumlah karakter word, jika < 2. Keluar.

3. Jika word mengandung “-“, maka pecah kata berdasar “-“ menjadi w1 dan w2. Dan lakukan langkah 4-13

4. w11 = w1 tanpa vokal dan w21 = w2 tanpa vokal.

5. Jika w11 = w21 dan panjang w1=w2 maka lakukan langkah 6-8 6. Jika w2 ada di kamus maka stemW=w2 dan keluar.

7. Jika w2 tidak ada di kamus, w22= hilangkan imbuhan(w2). 8. Jika w22 ada di kamus maka stemW=w22, jika tidak

9. Jika w11 != w21, lakukan langkah 10-13

10.ws11=hilangkan imbuhan(w1) dan ws21 = hilangkan imbuhan(w2).

11.Cek ws21 di kamus, jika ada maka stemW=ws21 dan keluar.

12.Cek ws11 di kamus, jika ada maka stemW=ws11 dan keluar.

13.Jika tidak maka stemW=ws11-ws21 dan keluar.

14.stemW = hilangkan imbuhan(stemW). Cek stemW di dictionary. Jika ada stemW dikembalikan dan keluar.

Algoritma untuk menghilangkan afiks pada kata berimbuhan. 1. Kata yang akan dihilangkan imbuhan adalah word.

2. ws1=hapus suffix (word). Cek di dictionary. Jika ada kembalikan kata. 3. ws1s2=hapus suffix (ws1). Cek di dictionary. Jika ada kembalikan

kata.

4. ws1i1=hapus infix (ws1). Cek di dictionary. Jika ada kembalikan kata. 5. dws1= pengulangan parsial (ws1). Cek di dictionary. Jika ada

kembalikan kata.

6. dws1s2= pengulangan parsial (ws1s2). Cek di dictionary. Jika ada kembalikan kata.

8. dwp1= pengulangan parsial (wp1). Cek di dictionary. Jika ada kembalikan kata.

9. wp1s1=hapus suffix(wp1). Cek di dictionary. Jika ada kembalikan kata.

10.dwp1s1= pengulangan parsial (wp1s1). Cek di dictionary. Jika ada kembalikan kata.

11.wp1s1s2=hapus suffix (wp1s1). Cek di dictionary. Jika ada kembalikan kata.

12.wp1p2=hapus prefix (wp1). Cek di dictionary. Jika ada kembalikan kata.

13.wp1p2s1=hapus suffix (wp1p2). Cek di dictionary. Jika ada kembalikan kata.

14.wp1p2s1s2=hapus suffix (wp1p2s1). Cek di dictionary. Jika ada kembalikan kata.

15.wi1=hapus infix (word). Cek di dictionary. Jika ada kembalikan kata. 16.wi1s1=hapus suffix (wi1). Cek di dictionary. Jika ada kembalikan kata.

2.2.4. Text Frequency

Semakin banyak kata yang mirip atau sama antara dua dokumen maka semakin dekat kedua dokumen tersebut dan akan memiliki bobot atau nilai yang lebih tinggi. (Manning, 2008). Sehingga diperlukan pemberian bobot untuk setiap token dalam dokumen tergantung pada jumlah kemunculan token tersebut dalam dokumen. pendekatan yang paling mudah

adalah dengan memberikan bobot yang nilainya sama dengan jumlah kemunculan token t dalam dokumen d. Pembobotan ini disebut term ferquency dan disimbolkan dengan tft,d.

Namun, dalam sistem yang akan dibangun oleh penulis, menggunakan teknik TF/IDF (term frequency/ Inverse document frequency). Term frequency adalah jumlah kemunculan suatu kata dalam sebuah dokumen, sedangkan inverse document frequency adalah inverse dari banyaknya dokumen dimana suatu term tersebut muncul.

Rumus pembobotan Salton (1983) adalah sebagai berikut:

w(t,d) = tft,d * idft = tf(t,d )* log(N/nt) (1)

Keterangan :

1. w(t,d) = bobot dari term(kata) t dalam dokumen d.

2. tf(t,d) = frekuensi kemunculan term(kata) t dalam dokumen d. 3. Idfd = Inverse document frequency dari kata t

4. N = jumlah seluruh dokumen

5. nt = jumlah dari dokumen yang ditraining yang mengandung nilai t. digunakan dalam referensi yang dijadikan acuan dalam pembuatan

Sistem klasifikasi yaitu nilai perbandingan antara jumlah kemunculan suatu kata dalam dokumen dibagi dengan jumlah keseluruhan kata yang ada dalam dokumen tersebut, sehingga jumlah dari semua tf dari kata yang ada di dalam dokumen tersebut sama dengan satu. Inverse

Dokumen Frequency (idf) atau kombinasi dari tf-idf juga dapat digunakan. Namun dalam klasifikasi teks, tf-idf tidak selalu efektif.

2.3. Klasifikasi Teks

Han dan Kamber (2006) mengatakan bahwa klasifikasi merupakan proses menemukan model atau fungsi yanng menjelaskan dan membedakan kelas-kelas data fungsi tersebut digunakan untuk memperkirakan kelas dari suatu objek yang labelnya tidak diketahui Proses klasifikasi ini terbagi menjadi dua tahapan, yaitu tahap pelatihan (learning) dan tahap uji. Pada tahap pelatihan, sebagian data yang telah diketahui kelas datanya diumpankan untuk membentuk model prediksi.

2.4. Metode k-Nearest Neighbor

Mertode k-Nearest Neighbor atau k-NN merupakan salah satu metode yang digunakan dalam sistem klasifikasi yang menggunakan pendekatan Machine Leraning. Machine Learning merupakan proses yang membangun sistem klasifikasi melalui pembelajaran dari sejumlah contoh yang sudah diklasifikasikan sebelumnya (Feldman & Sanger, 2007).

Menurut Han dan Kamber (2006), metode k-NN bersifat lazy learners di mana proses pembelajarannya menunggu hingga menit terakhir sebelum model dibangun dibutuhkan untuk mengklasifikasi data uji. Berbeda dengan eager leaners yang akan melakukan generalisasi pada kata pelatihan sebelum menerima data uji. Lazy learners akan menyimpan data pelatihan dan menunggu hingga diberikan data uji sehingga metode ini akan

bekerja lebih sedikit ketika diberikan data pelatihan dan bekerja lebih banyak ketika diberikan data uji, dibandingkan dengan eager learners. Lazy learners disebut juga instance-based learners karena menyimpan data pelatihan atau instances.

Agoritma metode k-NN

1. Tentukan parameter k= jumlah dokumen tetangga.

2. Hitung kemiripan antara dokumen baru dan dokumen pelatihan dengan menggunakan rumus cosine similarity

(2)

Keterangan : Q : dokumen uji Di : dokumen pelatihan

WQj : bobot token j dalam dokumen uji Q Wij : bobot token j dalam dokumen pelatihan ke-i

Sim(Q,Di) : nilai kesamaan antara dokumen uji Q dan dokumen pelatihan ke-i

3. Urutkan nilai kesamaan dan tentukan tetangga terdekat berdasarkan jarak terbesar, banyak tetangga terdekat diambil dari parameter k. 4. Kumpulkan kategori dari dokumen tetangga.

5. Gunakan mayoritas sederhana dari kategori dokumen tetangga sebagai nilai prediksi dokumen tes.

2.5. Perhitungan Akurasi

Perhitungan akurasi dilakukan dengan menggunakan metode cross-validation. Pada metode cross-validation, data dibagi menjadi k subset atau

fold yang saling bebas secara acak, yaitu S1, S2, …., Sk, dengan ukuran setiap subset sama. Pelatihan dan pengujian dilakukan sebanyak k kali. Pada iterasi ke-i, subset S1 diperlakukan sebagai data pengujian, dan subset

lainnya sebagai data pelatihan. Tingkat akurasi dihitung dengan membagi jumlah keseluruhan klasifikasi yang benar dengan jumlah semua instance

pada data awal (Han & Kamber 2006).

Tahap I

i. fold 1 sebagai data uji ii. fold 2 sebagai data pelatihan iii. fold 3 sebagai data pelatihan Tahap II

i. fold 2 sebagai data uji ii. fold 1 sebagai data pelatihan iii. fold 3 sebagai data pelatihan

Tahap III

i. fold 3 sebagai data uji ii. fold 1 sebagai data pelatihan iii. fold 2 sebagai data pelatihan

Setelah dilakukan cross validation maka digunakan precision untuk menentukan akurasi. Yaitu dengan cara :

Precision =

19 BAB III

ANALISIS DAN PERANCANGAN SISTEM

3.1Gambaran Umum Sistem

Sistem ini dibuat untuk mempermudah pencarian dokumen bahasa Jawa dengan mengklasifikasikan dokumen berita bahasa Jawa menggunakan proses information retrieval. Sistem terdiri atas 3 proses utama yaitu proses input, preprocessing yang terdiri dari proses tokenizing, stopword, stemming, dan text frequency, dan proses klasifikasi dokumen. Berikut ini adalah gambaran klasifikasi dokumen secara umum :

Input Teks Menghitung TF IDF ^KNN stemming stopword Tokenisa si Hasil klasifikasi preprocessing

Gambar 3.1 Gambaran Umum Sistem

Proses utama dalam sistem ini yaitu proses preprocessing dan

klasifikasi. Hasil akhir dari proses preprocessing yang berupa bobot kata disimpan dalam database kemudian digunakan untuk melakukan klasifikasi menggunakan metode k-Nearest Neighbor.

Lebih jelasnya proses dibagi menjadi beberapa bagian sebagai berikut ini :

3.1.1 Proses Input Data

Data yang diinputkan untuk klasifikasi ini adalah dokumen Bahasa Jawa dengan file berekstensi *.txt yang membahas beberapa topik yang berbeda yang kemudian topik tersebut dijadikan sebagai acuan dalam pengklasifikasian. Dokumen yang digunakan pada klasifikasi ini dibagi menjadi dua bagian, yaitu dokumen yang berfungsi sebagai data pelatihan dan dokumen yang berfungsi sebagai data uji yang akan digunakan sebagai uji coba terhadap data pelatihan. Dokumen yang digunakan sebagai data tes ini belum diketahui kelasnya.

3.1.2 Preprocessing Dokumen

Pada tahap preprocessing ini akan dilakukan tahapan seperti berikut :

a) Tokenisasi

Pada tahap ini, memecah kumpulan kata menjadi token dan penghapusan karakter-karakter yang tidak penting.

b) Stopword

Penghapusan kata yang tidak mempengaruhi sistem

pemerolehan informasi

c) Stemming

Proses mengembalikan semua bentuk kata ke bentuk kata dasarnya.

Pada proses ini dilakukan perhitungan bobot setiap kata yang telah melalui proses preproses.

3.1.3 Proses Klasifikasi

Pada proses klasifikasi ini dokumen yang telah diproses hingga tahap perhitungan text frequency akan diklasifikasikan berdasarkan kelas yang telah ditentukan. Proses klasifikasi ini menggunakan metode k-Nearest Neighbor (k-NN) sebagai berikut :

a. Menetukan K

Pada proses ini, user memasukkan nilai k, yaitu jumlah dokumen tetangga terdekat. Sebagai contoh k=3, berarti akan diambil 3 dokumen yang memiliki jarak terdekat dengan dokumen testing.

b. Perhitungan Cosine Similarity

Hitung kemiripan vektor [dokumen] query Q dengan setiap dokumen yang ada. Kemiripan antar dokumen dapat menggunakan cosine similarity. Rumusnya adalah sebagai berikut:

c. Pengurutan kemiripan Vektor

Urutkan hasil perhitungan kemiripan vektor dari hasil perhitungan

cosine similarity.

d. Mencari label mayoritas dengan menggunakan acuan k yang telah ditentukan untuk menentukan hasil kasifikasi dengan melihat jumlah kelas yang terbanyak diperoleh diantara k dokumen yang terdekat, dilakukan prediksi untuk mengetahui kelas dari dokumen tes tersebut, dengan melihat jumlah kelas yang terbanyak diperoleh diantara k dokumen yang terdekat.

3.1.4 Keluaran

Sistem ini akan menghasilkan keluaran berupa klasifikasi dokumen dengan K-Nearest Neighbor.

3.2Analisa Kebutuhan Sistem 3.2.1 Definisi Aktor

Aktor yang terlibat dalam sistem adalah user. User merupakan aktor yang dapat mengakses dan mengelolah semua kebutuhan sistem. Hak akses User dapat dilihat di bawah ini :

Aktor Hak Akses

User - Preprocessing

3.2.2 Diagram Use Case

Gambaran use case diagram sistem dapat dilihat pada gambar berikut ini

Klasifikasi Dokumen Preprocessing

pengguna

Gambar 3.2 Diagram Use Case

3.2.3 Skenario Use case

3.2.3.1 Skenario Use Case Preprocessing Dokumen

Nama use case Preprocessing dokumen

Id Use Case 1

Prioritas High

Pelaku Pengguna

Deskripsi ^{Pengguna melakukan}^{preprocessing}

dokumen

Pra kondisi ^{Dokumen yang diklasifikasikan telah}

melalui proses preprocessing

Aksi Aktor Reaksi Sistem

1. User berada pada halaman

utama

2. User memilih Menu

Preprosesing

3. Sistem menampilkan halaman

“Preprosesing”

4. User menekan tombol ambil data dokumen

5. Sistem menampikan halaman

browse 6. User memilih folder yang akan

di- Preprocessing

7. Sistem menampilkan alamat

direktori .

8. User menekan tombol Mulai 9. Sistem akan menyimpan data hasil Preprocessing pada folder testing

3.2.3.2Skenario Use Case Klasifikasi Dokumen

Nama use case Klasifikasi dokumen

Id Use Case 2

Prioritas High

Pelaku Pengguna

Deskripsi ^Pengguna ^melakukan ^klasifikasi

dokumen

Pra kondisi ^{Dokumen yang diklasifikasikan telah}

melalui proses preprocessing

Aksi Aktor Reaksi Sistem

1. User berada pada halaman

MainFrame

2. User memilih Menu Klasifikasi Dokumen

3. User menekan tombol ambil dokumen

4. Sistem menampilkan halaman

“browse”

5. User memilih dokumen yang

akan diklasifikasi dan

memasukkan nilai k kemudian menekan tombol klasifikasi

6. Sistem menampilkan hasil

3.2.4 Definisi Use Case

Tabel di bawah ini menjelaskan secara umum use case yang terdapat pada sistem klasifikasi dokumen/artikel Bahasa Jawa.

Tabel 3.1 Deskripsi Use Case

3.3Perancangan Model Penyimpanan Data

Media penyimpanan data yang dikelola oleh sistem adalah berupa file

plain text yang disimpan dengan ekstensi .txt. Setiap satu file mewakili satu surat. File – file tersebut kemudian disimpan dalam folder yang mewakili masing – masing kategori. Penjabaran folder dan file yang digunakan oleh sistem:

1. Preprocessing

Menyimpan file hasil preprocessing yang dilakukan oleh pengguna melalui sistem.

2. stopwords.txt

File yang berisi stopwords.

Contoh : aku, ada, ahh, aja, ana, apa.

No. Use Case Deskripsi Use Case

1. ^Klasifikasi

dokumen

Use case ini menggambarkan proses

klasifikasi dokumen baru. Dokumen

inputan akan ditentukan kategorinya secara otomatis.

2. Preprocessing

Use case ini menggambarkan proses

preprocessing mulai dari tokenisasi sampai hasil stemming

3. kamus.txt

File yang berisi kumpulan kata dasar yang ada dalam kamus bahasa Jawa. Contoh : abab, abad, abang, abdi, abnormal, abot, absen, ada, adang, adat.

4. stemWord2.pl

File yang berisi metode stemming. Contoh :

Lapangan  _an  lapang

pakaryane  “_ne” pakarya“pa_ “ karya  karya

5. Tanda baca.txt

File berisi tanda baca yang dihapus. Contoh :

3.4Diagram Konteks

USER ^{Sistem Klasifikasi}

Dokumen Bahasa Jawa Klasifikasi dokumen

info hasil klasifikasi

3.5Diagram Aktifitas

3.5.1 Diagram Aktifitas Preprocessing Dokumen

Pengguna akan melakukan preprocessing dokumen. Diagram aktivitas

preprocessing dokumen seperti pada gambar di bawah ini.

Menampilkan halaman Preprosesing Klik Ambil Dokumen

Klik Mulai

Memproses dokumen

Menampilkan pesan bahwa preprosesing dokumen selesai

Aktor Sistem

Menampilkan nama dokumen yang akan dipreprosesing Klik OK

3.5.2 Diagram Aktifitas Klasifikasi Dokumen

Pengguna akan melakukan klasifikasi dokumen. Diagram aktivitas

preprocessing dokumen seperti pada gambar di bawah ini.

Menampilkan halaman Klasifikasi Klik Ambil Dokumen

Isi nilai k

Memproses dokumen

Menampilkan hasil klasifikasi dokumen

Aktor Sistem

Menampilkan nama dokumen yang akan diklasifikasi pada tabel

Klasifikasi

3.6Diagram Sekuensial

3.6.1 Diagram Sekuensial Prerocessing Dokumen

Aktor

View Preprosesing

Dokumen baru

openFile(String path, String fileName)

text() ProsesData filterTandaBaca(String doc) doc tokenisasi(String doc) doc caseFolding(String doc) kataPenting stopWord(String doc) stemDoc(String doc) line doc sorting(String doc)

save(String doc, String filePath, String fileName) doc Dokumen hasil preprosesing Tanda baca.txt doc openFile(String path, String fileName) doc Stoplist.txt openFile(String path, String fileName) doc StemWord.pl stem(String word) hasil

3.6.2 Diagram Sekuensial Klasifikasi Dokumen Aktor View Klasifikasi Dokumen testing Train Nilai k testTrain(String path, String test) ProsesData static String[] listFile(String dir) daftar; sorting(String doc) result hapusDuplikasiKata(String doc) hasil + kata[kata.length - 1] + "\n"; listTerm(String Dok) listTerm

Hasil klasifikasi dokumen

Gambar 3.7 Diagram Sekuensial Klasifikasi Dokumen

3.7Langkah Pengerjaan Klasifikasi Dokumen

Diketahui ada terdapat 4 dokumen sample data training dan 1 sample

data testing. Data training untuk pendidikan yaitu pendidikan(1) dan pendidikan(2). Data training untuk kesehatan yaitu dokumen kesehatan(1) dan kesehatan (2). Data testing yaitu Test. Akan dicari kelas dari data testing, apakah temasuk dalam kategori pendidikan atau kesehatan dengan menggunakan perhitungan K-NN.

Tabel 3.2 Contoh Data Training dan Testing Nama Dokumen Isi Dokumen pendidikan (1)

Guru Basa Jawa ing jaman saiki gunggunge ora akeh, sebab jurusan basa Jawa iki dianggep angel lan ora nguntungake. Kejaba iku dianggep ciut lapangan pakaryane, angel kanggo golek pangupa jiwa. Lan isih akeh maneh panganggep remeh liyane, nanging apa iya pancen asor banget ta basa Jawa kuwi? Dra. Warih Jatirahayu nyoba njawab tantangan mau. Kabukten, ketekunane nggeluti basa Jawa, ndadekake kariere muluk ndedel tansaya dhuwur.

pendidikan (2)

Kanggo biyantu ningkatake kualitas pendhidhikan ing Kabupaten Sleman, durung suwe iki kadhapuk pengurus Dewan Pendhidhikan Kabupaten (DPK) Sleman. Kanthi anane DPK kasebut kaangkah masarakat ing Kabupaten Sleman bisa menehi sumbangan awujud saran, kritik lan liya-liyane kang tujuane kanggo ningkatake mutune pendhidhikan ing Kabupaten Sleman.

kesehatan (1)

Kanker mono mujudake momok mungguhing sok sapaa wae. Ora sethithik pawongan kang koncatan nyawa karana lelara kanker kang disandhang. Ora mokal menawa lelara mau kuwawa gawe giris, luwih-luwih tumrap pawongan panandhang lelara mau kang nate dioperasi nanging gagal

Dalam dokumen Sistem klasifikasi dokumen Bahasa Jawa dengan metode K-Nearest Neighbor (K-NN). (Halaman 25-118)