BAB II LANDASAN TEORI

(1)

BAB II

LANDASAN TEORI

2.1 Plagiarisme

Menurut Peraturan Menteri Pendidikan RI Nomor 17 Tahun 2010 dikatakan:

"Plagiat adalah perbuatan sengaja atau tidak sengaja dalam memperoleh atau mencoba memperoleh kredit atau nilai untuk suatu karya ilmiah, dengan mengutip sebagian atau seluruh karya dan atau karya ilmiah pihak lain yang diakui sebagai karya ilmiahnya, tanpa menyatakan sumber secara tepat dan memadai"

Menurut Soelistyo (2011) ada beberapa tipe plagiarisme:

1. Plagiarisme Kata demi Kata (Word for word Plagiarism). Penulis menggunakan kata-kata penulis lain (persis) tanpa menyebutkan sumbernya.

2. Plagiarisme atas sumber (Plagiarism of Source). Penulis menggunakan gagasan orang lain tanpa memberikan pengakuan yang cukup (tanpa menyebutkan sumbernya secara jelas).

3. Plagiarisme Kepengarangan (Plagiarism of Authorship). Penulis mengakui sebagai pengarang karya tulis karya orang lain.

4. Self Plagiarism. Termasuk dalam tipe ini adalah penulis mempublikasikan satu artikel pada lebih dari satu redaksi publikasi. Dan mendaur ulang karya tulis/ karya ilmiah. Yang penting dalam self plagiarism adalah bahwa ketika mengambil karya sendiri, maka ciptaan karya baru yang dihasilkan harus memiliki perubahan yang berarti. Artinya Karya lama merupakan bagian kecil dari karya baru yang dihasilkan. Sehingga pembaca akan memperoleh hal baru, yang benar-benar penulis tuangkan pada karya tulis yang menggunakan karya lama)

(2)

2.2 Ekstraksi Dokumen

Menurut Triawati(2009) Teks yang akan dilakukan proses text mining, pada umumnya memiliki beberapa karakteristik diantaranya adalah memiliki dimensi yang tinggi, terdapat noise pada data, dan terdapat struktur teks yang tidak baik.

Cara yang digunakan dalam mempelajari suatu data teks adalah dengan terlebih dahulu menentukan fitur-fitur yang mewakili setiap kata untuk setiap fitur yang ada pada dokumen. Sebelum menentukan fitur-fitur yang mewakili, diperlukan tahap preprocessing yang dilakukan secara umum dalam text mining pada dokumen, yaitu case folding, tokenizing ,filtering, stemming, tagging dan analyzing.

Case folding adalah tahap mengubah semua huruf menjadi huruf kecil serta menghilangkan karakter selain a-z.

Gambar 2. 1 Ilustrasi Case Folding

Tokenizing merupakan proses pemotongan string input berdasarkan tiap kata yang menyusunnya. Pemecahan kalimat menjadi kata-kata tunggal dilakukan dengan men-scan kalimat dengan pemisah (delimiter) white space (spasi, tab, dan newline).

(3)

Gambar 2. 2 Ilustrasi Tokenizing

Proses filtering merupakan tahap untuk menghilangkan kata-kata tidak penting (stop word) seperti “yang”, “dan”, “ini” dan sebagainya.

Gambar 2. 3 Ilustrasi Filtering

Proses stemming merupakan proses pencarian suatu kata dasar dari tiap kata yang dihasilkan dari tahap filtering.

Gambar 2. 4 Ilustrasi Stemming

(4)

2.3 Algoritma Rabin Karp

Algoritma Rabin-Karp adalah algoritma pencocokan string yang menggunakan fungsi hash sebagai pembanding antara string yang dicari (m) dengan substring pada teks (n). Apabila hash value keduanya sama maka akan dilakukan perbandingan sekali lagi terhadap karakter-karakternya. Apabila hasil keduanya tidak sama, maka substring akan bergeser ke kanan. Pergeseran dilakukan sebanyak (n-m) kali. Perhitungan nilai hash yang efisien pada saat pergeseran akan mempengaruhi performa dari algoritma ini (Nugroho, 2011).

Secara garis besar, algoritma Rabin Karp dapat dijelaskan dengan pseudocode berikut:

Gambar 2. 5 Pseudocode algoritma Rabin Karp (Nugroho, 2011)

(5)

Secara garis besar, pseudocode untuk algoritma Rabin Karp untuk pencarian kumpulan string berpola banyak adalah: (diasumsikan semua string masukan pada himpunan s memiliki panjang yang sama m).

Gambar 2. 6 Pseudocode algoritma Rabin Karp berpola banyak (Nugroho, 2011) Berikut ini adalah ilustrasi cara kerja algoritma Rabin Karp dikutip dari Nugroho (2011): Diberikan masukan “cab” dan teks “aabbcaba”. Fungsi hash yang dipakai misalnya akan menambahkan nilai keterurutan setiap huruf dalam alfabet (a = 1, b = 2, dst.) dan melakukan modulo dengan 3. Didapatkan nilai hash

“cab” adalah 0 dan tiga karakter pertama pada teks yaitu “aab” adalah 1(Nugroho, 2011).

Gambar 2. 7 String Awal (Nugroho, 2011)

(6)

Hasil perbandingan ternyata tidak sama, maka substring pada teks akan begeser satu karakter ke kanan. Algoritma tidak menghitung kembali nilai hashsubstring. Disinilah dilakukan apa yang disebut rolling hash yaitu mengurangi nilai karakter yang keluar dan menambahkan nilai karakter yang masuk sehingga didapatkan kompleksitas waktu yang relatif konstan pada setiap kali pergeseran.

Gambar 2. 8 Menggeser String (Nugroho, 2011)

Setelah pergeseran, didapatkan nilai hash dari fingerprint“abb” (abb = aab – a + b) menjadi dua (2 = 1 – 1 + 2).

Gambar 2. 9 Pembandingan kedua (Nugroho, 2011)

Hasil perbandingan juga tidak sama, maka dilakukan pergeseran. Begitu pula dengan perbandingan ketiga. Pada perbandingan keempat, didapatkan nilai hash yang sama.

Gambar 2. 10 Perbandingan keempat (Nugroho, 2011)

Karena nilai hash sama, maka dilakukan perbandingan string karakter per karakter antara “bca” dan “cab”. Didapatkan hasil bahwa kedua string tidak sama. Kembali substring bergeser ke kanan.

(7)

Gambar 2. 11 Perbandingan kelima string ditemukan(Nugroho, 2011) Pada perbandingan ke 5 nilai hash sama sehingga string tersebut dinyatakan sama.

2.4 Algoritma Nazief dan Andriani

Algoritma stemming Nazief dan Adriani (1996) dikembangkan berdasarkan aturan morfologi Bahasa Indonesia yang mengelompokkan imbuhan menjadi awalan (prefix), sisipan (infix), akhiran (suffix) dan gabungan awalan akhiran (confixes). Algoritma ini menggunakan kamus kata dasar dan mendukung recoding, yakni penyusunan kembali kata-kata yang mengalami proses stemming berlebih. Aturan morfologi Bahasa Indonesia mengelompokkan imbuhan ke dalam beberapa kategori sebagai berikut :

1. Inflection suffixes yakni kelompok akhiran yang tidak merubah bentuk kata dasar. Sebagai contoh, kata "duduk" yang diberikan akhiran "-lah"

akan menjadi "duduklah". Kelompok ini dapat dibagi menjadi dua :

a. Particle (P) atau partikel, yakni termasuk di dalamnya "-lah", "-kah",

"-tah", dan "-pun".

b. Possessive Pronoun (PP) atau kata ganti kepunyaan, termasuk di dalamnya adalah "-ku" , "-mu", dan "-nya".

2. Derivation Suffixes (DS) yakni kumpulan akhiran asli Bahasa Indonesia yang secara langsung ditambahkan pada kata dasar yaitu akhiran "-i", "-kan", dan "-an".

3. Derivation Prefixes (DP) yakni kumpulan awalan yang dapat langsung diberikan pada kata dasar murni, atau pada kata dasar yang sudah mendapatkan penambahan sampai dengan 2 awalan. Termasuk di dalamnya adalah :

a. Awalan yang dapat bermorfologi ("me-", "be-", "pe-", dan "te-") b. Awalan yang tidak bermorfologi ("di-", "ke-" dan "se-").

(8)

Berdasarkan pengklasifikasian imbuhan-imbuhan di atas, maka bentuk kata berimbuhan dalam Bahasa Indonesia dapat dimodelkan sebagai berikut :

[ DP+ [ DP+ [ DP+] ] ] Kata Dasar [ [+DS] [+PP] [+P] ]

Dengan model Bahasa Indonesia di atas serta aturan-aturan dasar morfologi Bahasa Indonesia, aturan yang dipergunakan dalam proses stemming algoritma Nazief-Adriani sebagai berikut :

1. Tidak semua kombinasi awalan dan akhiran diperbolehkan. Kombinasi- kombinasi imbuhan yang tidak diperbolehkan, yaitu "be-i", "di-an", "ke-i",

"ke-kan", "mean", "se-i", "se-kan", dan yang terakhir "te-an".

2. Penggunaan imbuhan yang sama secara berulang tidak diperkenankan.

3. Jika suatu kata hanya terdiri dari satu atau dua huruf, maka proses stemming tidak dilakukan.

4. Penambahan suatu awalan tertentu dapat mengubah bentuk asli kata dasar, ataupun awalan yang telah diberikan sebelumnya pada kata dasar bersangkutan (bermorfologi). Sebagai contoh, awalan "me-" dapat berubah menjadi "meng- ", "men-", "meny-", dan "mem-". Oleh karena itu, diperlukan suatu aturan yang mampu mengatasi masalah morfologi ini.

Algoritma stemmer yang diperkenalkan Nazief dan Adriani didefinisikan sebagai berikut :

1. Di awal proses stemming dan setiap langkah yang selanjutnya dilakukan, lakukan pengecekan hasil proses stemming kata yang di-input-kan pada langkah tersebut kekamus kata dasar. Jika kata ditemukan, berarti kata tersebut sudah berbentuk kata dasar dan proses stemming dihentikan. Jika tidak ditemukan, maka langkah selanjutnya dilakukan.

2. Hilangkan inflectional suffixes. Dimulai dari inflectional particle, kemudian possessive pronoun.

3. Hilangkan derivation suffixes.

4. Hilangkan derivation prefixes.

a. Langkah 4 berhenti jika :

(9)

ii. Awalan yang dideteksi saat ini sama dengan awalan yang dihilangkan sebelumnya.

iii. Tiga awalan telah dihilangkan

b. Identifikasikan tipe awalan dan hilangkan.Awalan terdiri dari dua tipe : i. Standar ("di-", "ke-", "se-") yang dapat langsung dihilangkan

dari kata.

ii. Kompleks ("me-", "be-", "pe", "te-") adalah tipe-tipe awalan yang dapat bermorfologi sesuai kata dasar yang mengikutinya.

Oleh karena itu, gunakan aturan pada Tabel 2.1 untuk mendapatkan hasil pemenggalan yang tepat.

c. Cari kata yang telah dihilangkan awalannya ini di dalam kamus kata dasar. Apabila tidak ditemukan, maka langkah 4 diulangi kembali.

Apabila ditemukan, maka keseluruhan proses dihentikan.

5. Apabila setelah langkah 4 kata dasar masih belum ditemukan, maka proses recoding dilakukan dengan mengacu pada aturan pada Tabel 2.1.

Recoding dilakukan dengan menambahkan karakter recoding di awal kata yang dipenggal. Pada Tabel 2.1, karakter recoding adalah huruf kecil setelah tanda hubung ("-") dan terkadang berada sebelum tanda kurung.

Sebagai contoh, kata "menangkap" (aturan 15), setelah dipenggal menjadi "nangkap". Karena tidak valid, maka recoding dilakukan dan menghasilkan kata "tangkap". Catatan : Disini ditemukan kejanggalan pada aturan pemenggalan awalan pada Tabel 2.1, dimana tidak tercantum aturan ke-22. Hingga tulisan ini selesai dibuat, belum ada konfirmasi atas kekurangan ini.

6. Jika semua langkah gagal, maka input kata yang diuji pada algoritma ini dianggap sebagai kata dasar.

(10)

Tabel 2. 1 Aturan Pemenggalan Awalan Stemmer Nazief dan Adriani

Aturan Format Kata Pemenggalan 1 berV... ber-V... | be-rV...

2 berCAP... ber-CAP... dimana C!=‟r‟ & P!=‟er‟

3 berCAerV... ber-CaerV... dimana C!=‟r‟

4 belajar bel-ajar

5 beC1erC2... be-C1erC2... dimana C1!={‟r‟|‟l‟}

6 terV... ter-V... | te-rV...

7 terCerV... ter-CerV... dimana C!=‟r‟

8 terCP... ter-CP... dimana C!=‟r‟ dan P!=‟er‟

9 teC1erC2... te-C1erC2... dimana C1!=‟r‟

10 me{l|r|w|y}V..

. me-{l|r|w|y}V...

11 mem{b|f|v}... mem-{b|f|v}...

12 mempe{r|l}... mem-pe...

13 mem{rV|V}... me-m{rV|V}... | me-p{rV|V}...

14 men{c|d|j|z}... men-{c|d|j|z}...

15 menV... me-nV... | me-tV 16 meng{g|h|q}... meng-{g|h|q}...

17 mengV... meng-V... | meng-kV...

18 menyV... meny-sV…

19 mempV... mem-pV... dimana V!=„e‟

20 pe{w|y}V... pe-{w|y}V...

21 perV... per-V... | pe-rV...

22 perCAP per-CAP... dimana C!=‟r‟danP!=‟er‟

23 perCAerV... per-CAerV... dimana C!=‟r‟

24 pem{b|f|V}... pem-{b|f|V}...

25 pem{rV|V}... pe-m{rV|V}... | pe-p{rV|V}...

26 pen{c|d|j|z}... pen-{c|d|j|z}...

27 penV... pe-nV... | pe-tV...

28 peng{g|h|q}... peng-{g|h|q}...

29 pengV... peng-V... | peng-kV...

30 penyV... peny-sV…

31 pelV...

pe-lV... kecuali “pelajar” yang menghasilkan “ajar”

32 peCerV... per-erV... dimana C!={r|w|y|l|m|n}

33 peCP...

pe-CP... dimana C!={r|w|y|l|m|n}

dan P!=‟er‟

Keterangan simbol huruf : C: huruf konsonan

V: huruf vokal

A: huruf vokal atau konsonan

P: partikel atau fragmen dari suatu kata, misalnya “er”

(11)

2.5 K-Gram

K-Gram adalah rangkaian terms dengan panjang K. Kebanyakan yang digunakan sebagai terms adalah kata. K-Gram merupakan sebuah metode yang diaplikasikan untuk pembangkitan kata atau karakter. Metode K-Gram ini digunakan untuk mengambil potongan-potongan karakter huruf sejumlah k dari sebuah kata yang secara kontinuitas dibaca dari teks sumber hingga akhir dari dokumen.(Kadek Versi Yana Yoga, Kumpulan Artikel Mahasiswa, 2012)

Berikut ini adalah contoh k-grams dengan k=5 : Text: universitas mercubuana

Kemudian dilakukan penghilangan spasi : universitasmercubuana

Sehingga dihasilkan rangkaian 5-grams yang diturunkan dari text

unive niver ivers versi ersit rsita sitas itasm tasme asmer smerc mercu ercub rcubu cubua ubuan buana

2.6 Pengukuran Nilai Similarity

Untuk pengukuran nilai persentase similarity menggunakan Dice’s Similarity Coeficient. Nilai similarity tersebut dapat dihitung dengan :

Similaritas (x, y) =

Untuk menentukan jenis kesamaan antara dokumen yang diuji, ada 5 jenis penilaian persentase similarity (Mutiara-Agustina, 2008):

 0% : Hasil uji 0% berarti kedua dokumen tersebut benar-benar berbeda baik dari segi isi dan kalimat secara keseluruhan

 < 15% : Hasil uji 1-14% berarti kedua dokumen tersebut hanya mempunyai sedikit kesamaan

 15-50%: Hasil uji 15-50% berarti menandakan dokumen tersebut termasuk plagiat tingkat sedang

 >50% : Hasil uji lebih dari 51-99% berarti dapat dikatakan bahwa dokumen tersebut mendekati plagiarisme

 100% : Hasil uji 100% menandakan bahwa dokumen tersebut adalah plagiat karena dari awal sampai akhir mempunyai isi yang sama persis.