Text Mining - : menggunakan metodologi yang tepat

Langkah 8 : menggunakan metodologi yang tepat

2.2.5 Text Mining

d. Strategi WT

Strategi ini didasarkan pada kegiatan yang bersifat defensif dan berusaha untuk meminimalkan kelemahan yang ada serta menghindari ancaman.

2.2.4 Knowledge Taxonomy

Knowledge Taxonomy dapat dianggap sebagai bangunan dari suatu

pengetahuan dan keahlian, taxonomy merupakan sistem aplikasi dasar yang berguna untuk memaparkan konsep-konsep dalam bentuk Hierarchical Model. Semakin tinggi suatu konsep diletakan, maka semakin umum dan dapat dirincikan. Begitu juga sebaliknya, semakin rendah suatu konsep, maka semakin spesifik nama dari satu subclass. Taxonomy adalah suatu skema klasifikasi kelompok yang saling terkait bersama-sama, sering dinamai sebagai suatu jenis konsep hubungan kepada satu sama lain dan memberikan pengertian tentang kategori secara umum dibandingkan contoh atau kasus khusus. Skema klasifikasi dapat sangat bersifat pribadi, seperti contoh penamaan pada sebuah folder pribadi[7].

2.2.5 Text Mining

Text mining digunakan untuk mengolah dokumen Sebelum melakukan proses similarity antar dokumen, perlu dilakukan pengolahan terlebih dahulu. Text mining digunakan untuk menggali informasi pada dokumen yang tidak terstruktur (Dorre, J, Gerstl, P & Seiffert, R., 1999)[12]. Sebelum melakukan text mining, perubahan bentuk data tidak menjadi nilai-nilai numerik. Hal pertama yang dilakukan dalam text mining adalah text preprocessing.

text preprocessing tahap ini bertujuan untuk mempersiapkan teks yang menjadi sumber data untuk diproses ke tahap selanjutnya. Terdapat beberapa hal yang dilakukan dalam tahap ini, yaitu tindakan yang bersifat kompleks seperti part-of-speech (pos), tagging, parse tree, dan tindakan sederhana seperti tokenization. Tokenization merupakan proses pengolahan token yang terdapat dalam rangkaian teks (Grossmann, D & Frieder, O., 2004). Dalam pembuatan indeks istilah dokumen dipecah menjadi unit-unit lebih kecil, misalnya berupa kata, frasa, atau kalimat. Unit pemrosesan tersebut disebut token. Tahapan ini juga menghilangkan karakter-karakter tertentu, seperti tanda baca, html tag, dan mengubah semua token huruf kecil (case folding)[9].

Tahap selanjutnya adalah Text Transforming. Dalam tahap Text Transforming Pada tahap ini dilakukan proses penyaringan (filtration) dengan menghilangkan stopword. Stop-word merupakan kata yang sering muncul dalam dokumen tetapi tidak memiliki makna yang berarti. Filtering berfungsi untuk mengurangi daftar kata indeks yang mempercepat indexing [9]. Dalam penelitian ini algoritma yang akan digunakan pada proses stemming adalah algoritma Nazief & Adriani. Tahap yang selanjutnya adalah pattern discovery.Pada tahap pattern discovery ini dilakukan pengukuran kemiripan antar dokumen. Tahapan yang dilakukan pada proses ini adalah menghitung bobot term. Dalam penelitian ini, pembobotan term dilakukan dengan menggunakan algoritma TF-IDF.

Tahap selanjutnya adalah Pattern Discover merupakan tahap yang paling penting dalam proses text mining adalah mengukur tingkat kemiripan text (similarity)

2.2.5.1. Algoritma Nazief & Adriani

Stemming merupakan salah satu cara yang digunakan untuk meningkatkan performa Information Retrieval (IR) dengan cara mentransformasikan kata-kata dalam sebuah dokumen teks ke data dasarnya [8].Algoritma stemming untuk bahasa Indonesia dapat menggunakan algoritma Nazief & Adriani. Proses stemming dokumen teks bahasa Indonesia menggunakan algoritma Nazief & Adriani memiliki persentase keakuratan yang lebih besar dibandingkan dengan algoritma Porter [9].

Algoritma Nazief-Andriani yang dibuat oleh Bobby Nazief dan Mirna Andriani ini memiliki tahap-tahap sebagai berikut[8] :

1. Pertama, cari kata yang akan di-stem dalam Kamus Besar Bahasa Indonesia. Jika ditemukan maka asumsikan kata sebagai root word. Algoritma berhenti.

2. Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”) dibuang. Jika ada yang berupa partikel (“-lah”, “-kah”, “-tah”, atau “-pun”) maka langkah ini diulang lagi untuk menghapus Possessive Pronouns (“-ku”, “-mu”, atau “-nya”) jika ada. 3. Hapus Derivation Suffixes (“-i”, “-an”, atau “-kan”). Jika kata ditemukan di

a. Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah “-k” maka “

-k” juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus, maka algoritma berhenti. Jika masih tidak ditemukan, maka lakukan langkah 3b.

b. Akhiran yang dihapus (“-i”, “-an”, atau “-kan”) dikembalikan, lanjut ke langkah 4. Hilangkan derivation prefixes (DP) {“di-”, “ke-”, “se-”, “me-”, “be-”, “pe-”, “te

-”} dengan iterasi maksimum tiga kali. Langkah 4 berhenti jika :

 Terjadi kombinasi awalan dan akhiran yang terlarang seperti pada Tabel 1.  Awalan yang dideteksi saat ini sama dengan awal yang dihilagkan

sebelumnya.

 Tiga awalan telah dihilangkan_.

Tabel 2. 1 Kombinasi Awalan Akhiran yang Tidak Diijinkan

Tabel 2. 2 Cara Menentukan Tipe Awalan pada Kata diawali “Te-“

Berdasarkan langkah-langkah penentuan tipe awalan yang telah dijelaskan,untuk mengatasi keterbatasan pada algoritma di atas, maka ditambahkan aturan-aturan di bawah ini :

1. Aturan untuk reduplikasi

a. Jika kedua kata yang di hubungkan oleh kata penghubung adalah kata yang sama maka root world adalah bentuk tunggalnya, contoh pada kata “buku

-buku” root word-nya adalah “buku”.

b. Kata lain, misalnya “bolak-balik”, “berbalas-balasan”, dan ”seolaholah”.Untuk mendapatkan root word-nya, kedua kata diartikan secara terpisah. Jika keduanya memiliki root word yang sama maka diubah

menjadi bentuk tunggal, contoh : kata “berbalas-balasan”, “berbalas” dan “balasan” memiliki root word yang sama yaitu “balas”, maka root word

“berbalas-balasan” adalah “balas”. Sebaliknya, pada kata “bolakbalik”, “bolak” dan “balik” memiliki root word yang berbeda, maka root word-nya

adalah “bolak-balik”.

2. Tambahan bentuk awalan dan akhiran serta aturannya

a. Untuk tipe awalan “mem-”, kata yang diawali dengan awalan “memp-” memiliki tipe awalan “mem-”.

b. Tipe awalan “meng-”, kata yang diawali dengan awalan “mengk-” memiliki tipe awalan “meng-”.

2.2.5.2 Term Frequency-Inverse Document Frequency (TF/IDF)

TF-IDF merupakan suatu cara untuk memberikan bobot hubungan suatu kata atau term terhadap suatu dokumen. Algoritma ini menggabungkan dua konsep untuk perhitungan bobot, yaitu frekuensi kemunculan sebuah kata di dalam sebuah dokumen tertentu atau TF dan inverse frekuensi dokumen yang mengandung kata tersebut atau IDF [5] .Berdasarkan penjelasan tersebut, untuk menemukan pencarian dokumen yang relevan, metode TF/IDF memberikan bobot lebih kepada istilah yang lebih penting, istilah yang jika muncul pada sebuah dokumen maka dokumen tersebut dapat dianggap relevan dengan query, pada gambar 2.11 merupakan ilustrasi algoritma TF-IDF [5]:

Gambar 2. 7 Ilustrasi Algoritma TF/IDF Keterangan pada gambar 2.8 :

D1 - D5 = dokumen

TF = banyaknya term yang dicari pada sebuah dokumen N = total dokumen

DF = banyaknya dokumen yang mengandung term yang dicari

Dalam penelitian ini, algoritma pembobotan Term Frequency (tf) – Inverse Document Frequency (idf) ditetapkan pada tahap similarity document. Nilai tf-idf diperoleh dengan menggunakan persamaan (Lee, D.L., Chuang, H., Seamons, K., 1997) [9].

, = ��_, X�� = ��_, Log (_��^�

�) … (1) Dimana :

, ^{= bobot term ke}–j terhadap dokumen ke -i

��_, = jumlah kemunculan term j ke dalam dokumen i N = jumlah dokumen secara keseluruhan

�� = jumlah dokumen yang mengandung term j

Berdasarkan persamaan (1). Berapapun besarnya nilai ��_, apabila N = �� maka akan didapatkan hasil nol (0) untuk perhitungan idf. Untuk itu dapat ditambahkan nilai 1 pada sisi idf, sehingga perhitungan bobotnya menjadi :

IDF = Log (_��^�

Dengan N merupakan jumlah seluruh dokumen dan DF adalah jumlah kata yang mengandung kata –t, apabila sebuah kata muncul dibanyak dokumen maka hasil IDF akan semakin kecil, begitu pula sebaliknya.

Dalam dokumen Penerapan Knowledge Management System pada Divisi Laboratorium Kimia Pada Balai Besar Bahan dan Barang Teknik Bandung (Halaman 42-47)