Dalam memproses kumpulan data yang ada, tentu saja terdapat beberapa hal yang perlu dilakukan sebelumnya. Dokumen yang terkumpul akan diproses terlebih dahulu. Proses yang akan dilalui oleh sebuah data akan terbagi menjadi beberapa bagian. Bagian-bagian proses data tersebut adalah case folding, tokenizing, stopword filtering dan juga stemming.
2.5.1. Case Folding
Case folding merupakan suatu proses untuk mengkonversikan seluruh huruf yang terdapat pada dokumen dari huruf “a,,, sampai dengan ,,,z” menjadi huruf kecil.
Penggunaan huruf yang tidak konsisten pada dokumen sering kali terjadi. Adanya penggunaan huruf kapital juga dapat kita lihat pada berbagai dokumen. Oleh sebab itu, proses case folding ini sangat dibutuhkan. Sehingga semua huruf kapital yang
Universitas Sumatera Utara
13 terdapat dalam dokumen akan diubah menjadi huruf kecil dan konsistensi penulisan akan terjadi.
Ada kalanya, penerapan huruf kapital dan huruf kecil tidak digunakan dengan konsisten. Hal ini akan mempengaruhi proses dalam clustering dokumen. Mengubah seluruh huruf kapital pada dokumen menjadi huruf kecil, adalah suatu hal yang seharusnya dilakukan dalam proses clustering document.
2.5.2. Tokenizing
Selain mengubah huruf kapital menjadi huruf kecil, proses penting selanjutnya adalah tokenizing.Pada tokenizing tanda baca seperti petik tunggal (‘), titik (.), semicolon (;), titik dua (:) adalah karakter yang penting yang dapat digunakan untuk memisahkan kalimatyang akan di baca oleh program. Sehinga program tidak salah dalam membaca dan mengartikan informasi.
Tanda baca memiliki fungsi yang sangat penting dalam memberikan informasi pada data. Program akan membaca informasi dengan benar apabila, dokumen tersebut memuat tanda baca yang benar pula. Maka dari itu, penggunaan tanda baca merupakan salah satu hal penting yang harus diperhatikan.
2.5.3. Stopword Filtering
Proses berikutnya dalam document processing adalah stopword filtering.
Pengguna algoritma akan menentukan kata-kata yang akan dimasukkan pada stop word list. Pengertian stop word list adalah daftar kata yang harus dihilangkan. digunakan untuk menyaring kata yang diperlukan.
Penyaringan kata pada data dilakukan untuk mendapatkan informasi yang tepat. Adanya kata-kata yang kurang efisien peggunaanya, dapat dimasukkan dalam stop word list sehingga tersaring dan tidak dimunculkan pada pencarian informasi.
Program akan membaca setiap kata yang ada dalam dokumen dan memproses kata tersebut.
Universitas Sumatera Utara
14 2.5.4. Stemming
Tahapan selanjutnya adalah stemming. Proses stemming memiliki tujuan menangkap kata dasar yang dimiliki oleh kata kerja yang telah mendapatkan imbuhan kata atau keterangan lainnya pada kata dasarnya. Terdapat banyak kata dasar yang telah ditambahkan dengan imbuhan untuk memperjelas suatu kata. Contohnya:
memprogram memiliki kata dasar program. Untuk menentukan kata dasar pada suatu data dilakukanlah proses stemming. Porter Stemming for Bahasa Indonesia merupakan algoritma stemming yang digunakan pada praproses.
Pada implementasinya, hasil stemming ini dilakukan pengecekkan pada daftar kata dasar yang ada. Proses ini sangat diperlukan karena banyaknya kata yang telah mendapatkan imbuhan yang terdapat suatu data. Sedangkan untuk mencapai nilai dari informasi suatu titik pada suatu cluster, dibutuhkan kata-kata yang memiliki unsur kesamaan.
2.6 TF-IDF
TF-IDF merupakan singkatan dari Term Frequency (TF) dan Inverse Document Frequency (IDF). TD-IDF merupakan sebuah metode penilaian yang mengaitkan antara term frequency dan inverse document frequency. Pada prosesnya setiap elemen dokumen yang telah di ekstrak akan diwaliki oleh sebuah vektor.
Vektor tersebut akan diberikan nilai pada setiap pemberhentian sesuai dengan perhitungan pada TF-IDF.
Langkah pada penilaian TF-IDF diawali dengan penemuan nomor kata yang diketahui sebagai bobot atau frequency term pada tiap dokumen setelah dilakukan pengalian oleh inverse document frequency. Berikut adalah pengertian dari term frequency, term weighting, inverse document frequency dan TF-IDF.
2.6.1 Term Frequency
Term Frequency (TF) didefinisikan sebagai tingkat seringnya satu kata (term) mucul pada sebuah dokumen yang bersangkutan. Semakin sering kata tersebut muncul, maka nilai yang dimiliki kata itu akan semakin besar. Begitu pula sebaliknya, kata yang jarang digunakan akan memiliki nilai yang lebih kecil. Dengan kata lain, term frequency diperlukan untuk menghitung nilai pada kata yang ada di dalam sebuah dokumen.
Universitas Sumatera Utara
15 Contoh dari term frequency adalah sebagai berikut. Dalam sebuah dokumen terdapat kata “cluster”. Jumlah muculnya kata cluster pada dokumen tersebut akan dihitung. Dokumen A terdapat 20 kali pengulangan kata “cluster”, dokumen B terdapat 30 kali pengulangan kata “cluster”, begitu pula seterusnya.
Dalam term frequency terdapat beberapa persamaan yang dapat digunakan untuk menghitung nilai dari pada. Persamaan itu terbagi menjadi:
a. TF biner (binary TF) merupakan persamaan yang memiliki nilai 1 dan 0.
Nilai 1 diberikan pada dokumen yang memiliki kata yang di tentukan, dan nilai 0 untuk dokumen yang idak memiliki kata yang ditentukan.
b. TF murni (raw TF) merupakan persamaan yang nilainya ditentukan dari seberapa sering kata yang ditentukan muncul dalam suatu dokumen.
Apabila kata yang ditentukan muncul sebanyak 10 kali, maka nilai dokumen itu adalah 10.
c. TF logaritmik merupakan persamaan dengan rumus:
{𝑇𝐹 = {1 + 𝑙𝑜𝑔10 Note: ft,d merupakan frekuensi term (t) pada dokumen (d)
d. TF normalisasi merupakan persamaan dengan rumus:
𝑇𝐹 = 0.5 + 0.5 𝑥 [ 𝑓𝑡,𝑑
𝑚𝑎𝑥{𝑓𝑡′,𝑑:𝑡′,𝑑 𝜖 𝑑}]
...(2.4) 2.6.2. Term Weighting
Term Weighting yaitu menghitung nilai dari setiap term yang telah disimpan.
Setelah setiap kata dalam suatu dokumen memiliki nilai, nilai tersebut akan dijumlahkan dengan menggunakan persamaan. Hal ini dilakukan untuk mendapatkan nilai pada semua kata dengan akurat. Persamaannya adalah sebagai berikut ini:
𝑤𝑖𝑗 = 𝑡𝑓𝑖𝑗𝑥𝑖𝑑𝑓𝑗 𝑤𝑖𝑗 = 𝑡𝑓𝑖𝑗𝑥 𝑙𝑜𝑔( 𝐷
𝑑𝑓𝑗)
...(2.5)
Universitas Sumatera Utara
16 2.6.3. Inverse Document Frequency
Inverse Document Frequency (IDF) merupakan dokumen yang mengandung term atau token atau kata t. Untuk mendapatkan nilai IDF dapat digunakan persamaan.
𝑖𝑑𝑓𝑗 = 𝑙𝑜𝑔 𝑑 𝑑𝑓𝑗
...(2.6)
Note: D merupakan jumlah semua dokumen, dfj merupakan jumlah dokumen yang mengandung term.
2.6.4. Weight Term Document (TF-IDF)
Weight Term Document (TF-IDF) dari suatu term atau token atau kata yang merupakan hasil perkaliaan antara tf weight dengan idf.
Ada beberapa contoh yang dapat kita temukan untuk memahami hasil persamaan TF-IDF. Hasil akhir dari persamaan ini adalah adanya nilai yang terbentuk dari sebuah vector diantara dokumen dan kata yang telah ditentukan.