Otomasi Pembentukan Abstrak Bahasa Indonesia Berdasarkan Keseluruhan Dokumen Menggunakan Term Frequency-Inverse Document Frequency (TF-IDF)

(1)

SKRIPSI

Diajukan untuk Menempuh Ujian Akhir Sarjana

ARIE PRIMA ANGGARA

10110038

PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS TEKNIK DAN ILMU KOMPUTER

(2)

iii

KATA PENGANTAR

Puji syukur penulis panjatkan kehadirat Allah SWT yang Maha pengasih

dan juga Maha penyayang, karena atas rahmat dan hidayah-Nya penulis dapat

menyelesaikan Skripsi yang berjudul “

OTOMASI PEMBENTUKAN ABSTRAK

BAHASA INDONESIA BERDASARKAN KESELURUHAN DOKUMEN

MENGGUNAKAN TERM FREQUENCY

–

INVERSE DOCUMENT

FREQUENCY (TF-IDF)

”.

Skripsi ini dibuat sebagai salah satu syarat kelulusan program Strata 1

Fakultas Teknik dan Ilmu Komputer, Program Studi Teknik Informatika di

Universitas Komputer Indonesia. Dengan penuh rasa syukur, ucapan terima kasih

yang mendalam serta penghargaan yang setinggi-tingginya penulis sampaikan

kepada :

1.

Allah SWT yang senantiasa memberikan kekuatan, kesehatan, dan

kesempatan kepada penulis dalam proses menyelesaikan skripsi ini serta

atas semua rahmat dan hidayah-Nya yang dapat menjadikan semangat

tiada henti.

2.

Kedua orang tua yang sangat penulis cintai dan hormati, yang selalu

memberikan semangat, kekuatan moril, dan selalu mendo’akan penulis.

3.

Ayah (Alm) tercinta yang penulis banggakan, terimakasih selama ini sudah

banyak membantu dan mendukung serta mendoakan semoga tenang

disana.

4.

Ibu Nelly Indriani W, S.Si., M.T selaku pembimbing/Penguji 2 dan Wali

Dosen IF-1 2010 yang selalu memberikan yang terbaik dan selalu

meluangkan waktunya kepada penulis dalam pembuatan tugas akhir ini.

5.

Ibu Ednawati Rainarli, S.Si., M.Si. selaku reviewer/Penguji 1 atas saran

dan arahan yang sangat membantu dalam penyempurnaan tugas akhir ini.

6.

Seluruh staf dosen Teknik Informatika yang telah memberikan ilmu yang

sangat berarti untuk penulis.

7.

Kepada Reza Fahlevi, Mugiana Munggaran, Yusuf Dwikarya, Ari

(3)

iv

Irawan, dan masih banyak khususnya teman- teman IF-1 2010 terimakasih

atas kebersamaan susah senang yang telah dilalui sehingga sampai pada

penulis untuk dapat menyelesaikan skripsi ini.

8.

Kepada teman seperjuangan driver gojek warsop yang telah mendukung

penulis untuk dapat menyelesaikan skripsi ini.

9.

Teman-teman satu bimbingan yang selalu kompak dan saling membantu

untuk mencapai kelulusan bersama-sama.

Penulis sangat menyadari bahwa skripsi ini masih banyak kekurangan dan

masih jauh dari kata sempurna. Oleh karena itu, kritik dan saran yang sifatnya

membangun akan penulis terima dengan senang hati. Akhir kata penulis berharap

skripsi ini dapat bermanfaat bagi yang membutuhkan.

Bandung, Februari 2016

(4)

v

DAFTAR ISI

ABSTRAK ... i

ABSTRACT

... ii

KATA PENGANTAR ... iii

DAFTAR ISI ... v

DAFTAR GAMBAR ... viii

DAFTAR TABEL ... x

DAFTAR SIMBOL ... xii

DAFTAR LAMPIRAN ... xv

BAB 1 PENDAHULUAN ... 1

1.1 Latar Belakang Masalah ... 1

1.2 Rumusan Masalah ... 2

1.3 Maksud dan Tujuan ... 2

1.3.1 Maksud ... 2

1.3.2 Tujuan ... 2

1.4 Batasan Masalah... 2

1.5 Metodologi Penelitian ... 3

1.5.1 Metode Pengumpulan Data ... 4

1.5.2 Metode Pembangunan Perangkat Lunak ... 4

1.6 Sistematika Penulisan ... 5

BAB 2 LANDASAN TEORI ... 7

2.1 Ringkasan ... 7

2.2 Teks ... 7

(5)

vi

2.7.1

Unified Modeling Language

(UML) ... 12

2.7.2

Use case Diagram ...

13

2.7.3

Activity Diagram ...

15

2.7.4

Sequence Diagram ...

16

2.7.5

Class Diagram ...

17

2.8 Teknik Evaluasi Sistem dan Pengujian ... 19

2.9 Perangkat Lunak pendukung ... 20

2.9.1 Bahasa Program C# ... 20

2.9.2 Microsoft Visual Studio ... 21

2.9.3 DevExpress ... 24

BAB 3 ANALISIS DAN KEBUTUHAN ... 25

3.1 Analisis Masalah ... 25

3.2 Analisis Masukan ... 25

3.3 Analisis Prepocessing Data ... 25

3.4 Analisis Penerapan (TF-IDF) ... 36

3.5 Spesifikasi Kebutuhan Perangkat Lunak ... 42

3.5.1 Analisis Kebutuhan Non Fungsional

...

42

3.5.1.1 Kebutuhan Perangkat Keras ... 43

3.5.1.2 Kebutuhan Perangkat Lunak ... 43

3.6 Pemodelan Sistem ... 43

3.6.1 Use Case Diagram ... 43

(6)

vii

3.6.2 Skenario Diagram ... 46

3.6.3 Activity Diagram ... 50

3.6.4 Sequence Diagram ... 58

3.6.5 Class Diagram ... 62

3.7 Perancangan Sistem ... 62

3.7.1 Diagram Relasi ... 62

3.7.2 Rancangan Antar Muka ... 62

3.7.3 Jaringan Semantik ... 64

BAB 4 IMPLEMENTASI DAN PENGUJIAN SISTEM ... 65

4.1 Implementasi Sistem ... 65

4.1.1 Implementasi Perangkat Keras ... 65

4.1.2 Implementasi Perangkat Lunak ... 65

4.1.3 Implementasi Basis Data ... 66

4.1.4 Implementasi Class ... 66

4.1.5 Implementasi Antarmuka ... 67

4.2 Pengujian Sistem ... 68

4.2.1 Pengujian Akurasi ... 68

4.2.2 Skenario Pengujian ... 68

4.2.3 Kesimpulan Hasil Pengujian ... 97

BAB 5 KESIMPULAN DAN SARAN ... 95

5.1 Kesimpulan ... 95

5.2 Saran ... 95

(7)

97

pg. 117.

New York

:

Macmillan Publishers

,

ISBN 0020130856

[2] Taufiq M. Isa 1) dan Taufik Fuadi Abidin 2).,

“

Mengukur tingkat kesamaan

paragraf menggunakan vector space mod

el untuk mendeteksi plagiarisme”

Seminar Nasiaonal dan ExpoTeknik Elektro, 1) jurusan matematika.

FMIPA, Universitas Syiah Kuala, 2) Jurusan informatika, FMIPA,

Universitas Syiah Kuala, 2013.

[3]

R. S. Pressman, Software Engineering: A Practitioner’s

Approach.

[4] Raymond J. Mooney. CS, 391L: Machine Learning Text Categorization.

University of Texas at Austin, 2006.

[5]

P. P. Widodo dan Heriawati. “Menggunakan

(UML)”. Bandung Informatika, 2011.

[6] Wahana Komputer, Shortcourse Series: Microsoft Visual C# 2010. Andi,

2011

[7] Deny Ocr.(2014, Aug.10)

Pengenalan DevExpress

[online]. Available :

http://www.jagocoding.com/tutorial/600/Pengenalan_DevExpress_Window

s_Form

[8] Sholechul Aziz, Jurus Andalan Menguasai EYD (Ejaan yang

Disempurnakan). IV. Jakarta : Kunci Komunikasi, 2015.

[9]

Mohd. Ehmer Khan. “Different Approaches to White Box Testi

ng

Technique for Finding error”

, 2011.

[10] Many, I. and Maybury. 1999.

Advance in Automatic Text Summarization

.

The MIT Press: Cambrige.

[11]

Zaman B. dan E Winarko. 2011. Analisis Fitur Kalimat untuk Peringkas

Teks otomatis pada Bahasa Indonesia.

Indonesian Journal of Computing

(8)

1

BAB 1

PENDAHULUAN

1.1

Latar Belakang Masalah

Abstrak adalah sebuah ringkasan dari keseluruhan dokumen penelitian

agar pembaca tahu maksud dari penelitian tersebut. Abstrak digunakan sebagai

jembatan untuk memahami uraian yang akan disajikan dalam suatu karangan

biasanya laporan atau artikel ilmiah terutama untuk memahami ide-ide

permasalahannya. Dari abstrak, pembaca dapat mengetahui jalan pikiran penulis

laporan/artikel ilmiah tersebut dan mengetahui gambaran umum tulisan secara

lengkap. Untuk itulah pembuat abstrak harus dapat mewakili isi karangan ilmiah

secara keseluruhan, mulai dari latar belakang, analisis/analisa, dan hasil

penelitian/kesimpulan. [1]

Dalam membentuk paragraf abstrak pada sebuah dokumen jurnal dari

setiap sub bab tentunya membutuhkan pencarian kalimat yang singkat dan jelas.

Di

dalam

dunia

akademik,

tulisan

pendek

ini

digunakan

oleh

institusi/lembaga/organisasi pendidikan sebagai informasi awal atas sebuah

penelitian ketika dimasukkan dalam jurnal, konferensi, lokakarya, atau yang

sejenisnya. Pencarian kalimat pada setiap sub bab dalam dokumen jurnal yang

banyak akan menyulitkan penulis laporan/artikel ilmiah dalam membentuk

abstrak dengan keterbatasan pembentukan abstrak harus singkat, bagian harus

seimbang dan menghindari kalimat yang panjang. Pembuatan abstrak dapat

dilakukan secara otomatis dengan memanfaatkan metode

Term Frequency

–

Inverse Document Frequency (TF-IDF)

.

Untuk dapat membentuk kalimat abstrak secara otomatis maka akan

diterapkan metode

Term Frequency

–

,

karena TF-IDF merupakan pembobotan yang mengukur seberapa penting sebuah

kata dalam dokumen bila dilihat secara global pada seluruh dokumen.[5] Pada

pembuatan abstrak penelitian akan mencari sub judul yang dibutuhkan yaitu pada

bagian pendahuluan atau latar belakang, analisis atau analisa data dan kesimpulan.

(9)

bagian kalimat yang berada dalam sub judul yang dibutuhkan

.

Dalam mengukur

sebuah kalimat dari kemiripan setiap sub bab pada sebuah dokumen akan

menggunakan teknik

text mining

.

Dari permasalahan diatas, maka penelitian ini akan menerapkan metode

Term Frequency

–

pada pembentukan

sebuah paragraf abstrak secara otomatis.

1.2

Rumusan Masalah

Berdasarkan latar belakang yang sudah dijelaskan diatas, maka rumusan

dalam masalah ini adalah

bagaimana membentuk kalimat abstrak secara otomatis

berdasarkan keseluruhan dokumen jurnal penelitian dengan menggunakan

metode

Term Frequency

–

yang nantinya

akan menghasilkan sebuah kalimat abstrak bahasa indonesia

.

1.3

Maksud dan Tujuan

1.3.1 Maksud

Maksud dari pada penelitian tugas akhir ini adalah membuat sistem

pembentukan abstrak secara otomatis pada keseluruhan dokumen jurnal penelitian

dengan menggunakan metode

Term Frequency

–

Inverse Document Frequency

(TF-IDF)

.

1.3.2

Tujuan

Adapun tujuan dari penelitian tugas akhir ini adalah melakukan

pembuatan kalimat abstrak yang baik secara otomatis untuk melengkapi suatu

tulisan ilmiah dengan singkat dan jelas, sehingga membantu melengkapi

laporan/artikel ilmiah dalam pembentukan kalimat abstrak secara cepat dan

akurat.

1.4

Batasan Masalah

Batasan masalah yang akan diterapkan dalam pembentukan abstrak

berdasarkan keseluruhan dokumen

yaitu:

(10)

3

2.

Dokumen yang digunakan pada penelitian ini adalah dokumen teks yang

berbahasa indonesia berformat

Microsoft Word

(*.doc).

3.

Bahasa dokumen yang digunakan yaitu bahasa indonesia baku.

4.

Dokumen yang diuji berupa jurnal dengan format umum untuk jurnal

ilmiah.

5.

Pembagian kalimat dan pengambilan teks hanya pada bagian sub bab

Pendahuluan atau Latar Belakang, Analisis atau Analisa Data, dan

Kesimpulan.

1.5

Metodologi Penelitian

Metodologi penelitian yang digunakan adalah metode deskriptif.

Metodologi deskriptif merupakan metode yang bertujuan untuk mendapatkan

gambaran yang jelas mengenai hal-hal yang diperlukan. Metode penelitian

meliputi metode pengumpulan data dan metode pembangunan perangkat lunak.

Pada gambar 1.1 berikut ini merupakan gambaran penelitian yang dilakukan.

(11)

1.5.1

Metode Pengumpulan Data

Metode pengumpulan data yang akan digunakan adalah Studi literatur

pengumpulan data dengan cara literatur, jurnal,

paper

, dan bacaan

–

bacaan yang

berkaitan dengan judul.

1.5.2

Metode Pembangunan Perangkat Lunak

Dalam membangun aplikasi yang akan dikembangkan ini menggunakan

paradigma model prototype, yang meliputi beberapa proses diantaranya :

1.

Pengumpulan kebutuhan : pengumpulan data dengan cara mengumpulan

literature, jurnal, paper dan bacaan-bacaan yang ada kaitannya dengan

judul penelitian.

2.

Perancangan : perancangan dilakukan cepat dan rancangan mewakili

semua aspek software yang diketahui, dan rancangan ini menjadi dasar

pembuatan prototype.

3.

Evaluasi Prototype : pengujian terhadap software yang dibuat dan

digunakan untuk memperjelas kebutuhan software.

(12)

5

1.6

Sistematika Penulisan

Sistematika penulisan penelitian ini disusun untuk memberikan gambaran

umum tentang penelitian yang dijalankan. Sistematika penulisan dalam penelitian

ini adalah sebagai berikut :

BAB 1 PENDAHULUAN

Bab ini membahas tentang latar belakang masalah, perumusan masalah yang

terjadi, menentukan maksud dan tujuan penelitian, batasan masalah,

metodologi penelitian yang digunakan dan sistematika penulisan.

BAB 2 LANDASAN TEORI

Pada bab ini membahas berbagai konsep dasar dan teori-teori dalam

pembuatan abstrak dan membahas mengenai metode

Term Frequency

–

serta cara penerapannya

.

BAB 3 ANALISIS DAN KEBUTUHAN

Pada bab ini membahas tentang menganalisis masalah dari penelitian serta

pemecahan masalah yang akan dilakukan dan perancangan penggunaan

metode dalam melakukan pembuatan abstrak.

BAB 4 IMPLEMENTASI DAN PENGUJIAN SISTEM

Pada bab ini berisi tentang hasil evaluasi sistem dan pengujian untuk

hasil pembentukan kalimat abstrak secara otomatis yang telah

menggunakan metode

Term Frequency

–

(TF-IDF)

.

sehingga dapat ditarik suatu kesimpulan.

BAB 5 KESIMPULAN DAN SARAN

Pada bab ini membahas tentang kesimpulan dan saran yang sudah diperoleh

dari hasil penelitian yang telah dilakukan dan masukan-masukan yang dapat

digunakan untuk perbaikan hasil dari penelitian atau untuk mengembangkan

(13)

(14)

7

BAB 2

LANDASAN TEORI

2.1

Ringkasan

Ringkasan adalah suatu cara yang efektif untuk menyajikan suatu karangan

yang panjang dalam bentuk singkat. Oleh karena itu membuat ringkasan atas

sebuah karangan yang panjang dapat diumpamakan sebagai memangkas sebatang

pohon sehingga tinggal batang, cabang-cabang dan ranting-ranting yang

terpenting beserta daun-daun yang diperlukan, sehingga tampak bahwa esensi

pohon masing dipertahankan. Dalam ringkasan keindahan gaya bahasa, ilustrasi,

serta penjelasan-penjelasan yang terperinci dihilangkan, sedangkan sari

kerangaknya dibiarkan tanap hiasan. Walaupun bentuknya ringkas, namun tetap

mempertahankan pikiran pengarang dan pendekatan yang asli [11].

Dalam meringkas sebaiknya menggunakan kalimat tunggal daripada kalimat

majemuk. Kalimat majemuk menunjukan bahwa ada dua gagasan atau lebih yang

bersifat paralel. Bila memungkinkan ringkaslah kalimat menjadi frasa, selanjutnya

frasa menjadi kata. Begitu pula rangkaian gagasan yang penjang hendaknya

diganti dengan suatu gagasan sentral saja. Pada umumnya suatu ringkasan

ditentukan panjang ringkasan akhirnya, ada yang meringkas seperdua total kata,

sepertiga total kata, hingga sepersepuluh total kata. Untuk artikel yang memiliki

jumlah kata yang sangat banyak tentu saja hasil ringkasan sepersepuluh menjadi

pilihan yang tepat. Sedangkan untuk artikel yang jumlah katanya tidak terlalu

banyak maka hasil ringkasan sebanyak seperdua total kata menjadi pilihan yang

tepat sehingga hasil ringkasan nantinya masih dapat dibaca dengan struktur hasil

ringkasan yang baik.

2.2

Teks

Teks dapat diartikan kumpulan karakter yang membentuk kata yang disusun

dan memiliki suatu makna. Teks dapat berupa angka, frasa, kalimat, atau

paragraph. Dalam peringkasan teks, teks yang diinginkan dapat berbentuk

(15)

akan diproses untuk digali informasinya akan dimanfaatkan untuk menghasilkan

teks yang lebih ringan.

2.3

Abstrak

Abstrak merupakan sebuah ringkasan isi dari sebuah karya tulis ilmiah yang

ditujukan untuk membantu seorang pembaca agar dapat dengan mudah dan cepat

untuk melihat tujuan dari penulisannya. Di dalam dunia akademik, tulisan pendek

ini digunakan oleh institusi/lembaga/organisasi pendidikan sebagai informasi awal

atas sebuah penelitian ketika dimasukkan dalam jurnal, konferensi, lokakarya,

atau yang sejenisnya. Dalam dunia maya (internet), sebuah abstrak digunakan

sebagai gambaran singkat atas sebuah karya tulis ilmiah/penelitian untuk dibaca,

sebagaimana halnya sebuah “display” model pak

aian dipajang untuk dilihat atau

diuji pakai sebelum dibeli. Selanjutnya, bagian lengkap sebuah penelitian dijual

kepada mereka yang berminat untuk mendapatkannya.

Untuk membuat abstrak, hal-hal yang perlu diperhatikan adalah sebagai

berikut:

1.

Struktur paragraf

Sebuah abstrak ditulis dalam satu paragraf yang menerangkan keseluruhan

isi tulisan secara singkat dan jelas. Penulisannya tidak melakukan

indentasi pada kalimat pertama paragraf.

Single space

adalah pilihan yang

dimiliki oleh penulis untuk menyusun kalimat dalam paragrafnya. Lebih

dalam, kadang seorang pembimbing Skripsi/Tesis/Disertasi mengatur

hingga pada penggunaan jenis huruf dan ukuran tertentu.

2.

Jumlah kata

Idealnya sebuah paragraf terdiri dari 150 sampai dengan 200 kata. Namun,

pertimbangan jumlah kata yang paling tepat dalam penulisan Skripsi,

Tesis, ataupun disertasi biasanya bergantung pada pertimbangan

pandangan pembimbing (supervisor) yang mendampingi seorang

mahasiswa dalam penulisannya. Seorang supervisor harusnya tidak

mempertimbangkan jumlah kata sebagai acuan utama penulisan paragraf,

(16)

9

3.

Isi paragraf

Pertama, identifikasi fokus penelitian dijelaskan secara singkat agar

pembaca memahami apa yang diamati oleh seorang peneliti di dalam

penelitiannya. Kedua, penulis perlu menggambarkan secara jelas desain

penelitian yang dilakukan dalam proses pencarian jawaban atau solusi atas

persoalan yang diangkat di dalam penelitiannya. Desain langkah

penyelesaian masalah ini oleh mahasiswa lazim dikenal dengan istilah

Metode Penelitian. Ketiga, selanjutnya penulis akan menjelaskan hasil

temuannya kepada pembaca. Beberapa peneliti menganggap hasil temuan

yang diungkap tidak perlu mengungkap pembahasan yang dilakukan karena

hal itu justru akan membuat pengulangan isi tulisan. Jelas maksudnya

karena bagian pembahasan temuan penelitian juga diurai di dalam bagian

kesimpulan. Keempat, perlunya bagian kesimpulan di dalam sebuah tulisan

juga terlihat di dalam sebuah abstrak yang tetap mendapatkan perhatian

penting sebagai bagian akhir dari paragraf. Pada bagian ini kadangkala

sejumlah peneliti menyisipkan rekomendasi penelitian namun tanpa

pembahasan atau uraian yang panjang. Lebih lanjut, tidaklah lazim sebuah

abstrak diisi oleh nama si penulis serta para pembimbing tulisannya, apalagi

hal itu ditulis dalam huruf cetak tebal

2.4

Tahapan

Text Mining

Pada tahap

text mining

ini terdapat lima langkah yaitu:

a.

Case Folding,

yaitu mengubah semua teks ke dalam huruf kecil.

b.

Filtering,

menghapus karakter yang tidak dipakai. Adapun karakter yang

akan dihilangkan yaitu : '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', ',', '"', '-', '/', '{',

'}', '+', '_', '!', '@', '#', '$', '%', '^', '&', '*', '(', ')', '?', '<', '>', '[', ']', '|', '~', '`', ';',

':', '='

dan “’s” untuk dokumen berbahasa Inggris akan dihapus kecuali

tanda titik.

(17)

d.

Synonim Checking,

yaitu mengganti kata yang ada yang memiliki arti yang

sama. Penggantian kata yang dilakukan berdasarkan

database

yang dibuat

oleh penulis.

e.

Stopwords,

yaitu Pada proses

stowords removal

ini proses yang dikerjakan

yaitu menghapus kata yang kurang relevan atau kata yang tidak memiliki

arti yang begitu penting dan berkaitan yang ada pada kalimat di dokumen

dengan mencocokan

list

kata stopword yang pada

database

yang akan

diuji.

Database

yang digunakan baik untuk Bahasa Indonesia maupun

maupun Bahasa Inggris diambil dari sebuah situs yg menyediakan

berbagain jenis

list stopword

untuk berbagai bahasa.

Pada umumnya tahap

preprocessing

terdapat 5 langkah yaitu

Case

Folding, Filtering, Tokenizing, Stemming,

dan

Stopwords.

Ada satu langkah yang

tidak penulis gunakan dalam pembuatan aplikasi peringkasan dokumen esktraktif

ini yaitu proses

stemming. Stemming

yaitu proses menghilangkan imbuhan dari

sebuah kata dan mengubahnya menjadi kata dasar. Tujuan dari penghilangan

proses

Stemming

ini yaitu karena penulis memiliki pendapat bahwa dalam sebuah

peringkasan dokumen ekstraktif imbuhan yang terdapat pada sebuah kata

memiliki arti yang berbeda. Adapun contoh kalimat yaitu : “Bapak

membuatkan

sebuah rumah untuk istrinya”, “Bapak

dibuatkan

secangkir kopi oleh ibu”,

“Bapak selalu

berbuat

baik

kepad

a tetangga”. Kata “buat” pada kalimat pertama

dan kalimat ketiga memiliki arti bapak melakukan sebuah kegiatan tapi pada

kalimat dua kata”buat” memiliki arti bapak mendapatkan sebuah perlakuan.

Apabila proses

stemming

tetap dilakukan maka tidak akan didapatkan perbedaan

antara satu kata dengan yang lainnya.

Pada tahap filtering penulis menambahkan karakter “ ’s ” yang akan

digunakan untuk menghapus tanda baca bagi dokumen yang menggunakan bahasa

(18)

11

2.5

Term Frequency

–

Metode

Term Frequency-Inverse Document Frequency

(TF-IDF) adalah

cara pemberian bobot hubungan suatu kata (term) terhadap dokumen. Untuk

dokumen tunggal tiap kalimat dianggap sebagai dokumen. Metode ini

menggabungkan dua konsep untuk perhitungan bobot, yaitu

Term Frequency

(TF)

merupakan frekuensi kemunculan kata (t) pada kalimat (s).

Document frequency

(DF) adalah banyaknya kalimat dimana suatu kata (t) muncul. Frekuensi

kemunculan kata di dalam dokumen yang diberikan menunjukkan seberapa

penting kata itu di dalam dokumen tersebut. [5]

Frekuensi kalimat yang mengandung kata tersebut menunjukkan seberapa

umum kata yang ada pada dokumen uji tersebut. Bobot kata semakin besar jika

sering muncul dalam suatu kalimat dan semakin kecil jika muncul dalam banyak

kalimat. Pada Metode ini pembobotan kata dalam sebuah dokumen dilakukan

dengan mengalikan nilai TF dan IDF. Pembobotan diperoleh berdasarkan jumlah

kemunculan term dalam kalimat (TF) dan jumlah kemunculan term pada seluruh

kalimat dalam dokumen (IDF). Bobot suatu istilah semakin besar jika istilah

tersebut sering muncul dalam suatu dokumen dan semakin kecil jika istilah

tersebut muncul dalam banyak dokumen. Nilai IDF sebuah term dihitung

menggunakan persamaan (1) di bawah ini :

IDF

=

log

(

)

(1)

keterangan :

N = Jumlah keseluruhan kalimat pada dokumen

(19)

Menghitung bobot (W) masing-masing kalimat dengan persamaan (2) di bawah

ini:

W

d.t

= TF

d.t

* IDF

t

(2)

dengan :

d

= kalimat ke-d

t

= kata (

term

) ke-t

TF =

Term Frequency

W

=

bobot kalimat ke-d terhadap kata (

term

) ke-t

IDF=

Kemudian baru melakukan proses pengurutan (sorting) nilai kumulatif dari

W untuk setiap kalimat. Tiga kalimat dengan nilai W terbesar dijadikan sebagai

hasil dari ringkasan atau sebagai output dari peringkasan teks otomatis. [5]

2.7

Model Analisis Dan Perancangan

Model analisis dan perancangan yang digunakan untuk membangun aplikasi

ini adalah sebagai berikut:

2.7.1

(UML)

(UML) merupakan bahasa spesifikasi standar

untuk mendokumentasikan, menspesifikasikan, dan membangun sistem perangkat

lunak. UML tidak berdasarkan pada bahasa pemrograman tertentu. Standar

spesifikasi UML dijadikan standar

defacto

oleh OMG (

Object Management

Group

) pada tahun 1997. UML yang berorientasikan obyek mempunyai beberapa

notasi standar. Spesifikasi ini menjadi populer dan standar karena sebelum adanya

UML, telah ada berbagai macam spesifikasi yang berbeda. Hal ini menyulitkan

komunikasi antar pengembang perangkat lunak. Untuk itu beberapa pengembang

spesifikasi yang sangat berpengaruh berkumpul untuk membuat standar baru.

UML dirintis oleh Grady Booch, James Rumbaugh pada tahun 1994 dan

(20)

13

Menurut perintisnya, UML di definisikan sebagai bahasa visual untuk

menjelaskan, memberikan spesifikasi, merancang, membuat model, dan

mendokumentasikan aspek-aspek dari sebuah sistem. Karena tergolong bahasa

visual, UML lebih mendepankan penggunaan diagram untuk menggambarkan

aspek dari sistem yang sedang dimodelkan. Memahami UML itu sebagai bahasa

visual itu penting, karena penekanan tersebut membedakannya dengan bahasa

pemrograman yang lebih dekat ke mesin. Bahasa visual lebih dekat ke mental

model pikiran kita, sehingga pemodelan menggunakan bahasa visual bisa lebih

mudah dan lebih cepat dipahami dibandingkan apabila dituliskan dalam sebuah

bahasa pemrograman.

Seperti yang telah dipaparkan di atas, UML yang merupakan turunan dan

beberapa metode mempunyai kumpulan diagram

grafts

sebagai kombinasi dari

konsep pemodelan data (

Entity Relationship Diagram

), pemodelan bisnis (

work

flow

), pemodelan obyek, dan pemodelan komponen. Diagram

grafts

tersebut

merupakan tampiian dari beberapa level abstraksi yang dapat digunakan secara

bersama oleh semua proses pada seluruh

lifecycle

pengembangan perangkat lunak

serta pada implementasi kebeberapa teknologi yang berbeda. UML memiliki

berbagai jenis diagram, diantarnya adalah:

2.7.2

Use case Diagram

Use case

diagram berisi mengenai interaksi antara sekelompok proses

dengan sekelompok

actor

, menggambarkan fungsionalitas dari sebuah sistem

yang dibangun dan bagaimana sistem berinteraksi dengan dunia luar[6].

Use case

diagram

dapat digunakan selama proses analisis untuk menangkap kebutuhan

sistem dan untuk memahami bagaimana sistem seharusnya bekerja.

Use Case

diagram terdiri dari beberapa elemen pemodelan utama, yaitu

Actor, Use Case, Association, Dependency,

dan

Generalization.

a.

Actor

Pada dasarnya

actor

bukanlah bagian dari

use

case

diagram, namun untuk

dapat terciptanya suatu

use

case

diagram diperlukan beberapa

actor

.

Actor

tersebut mempresentasikan seseorang atau sesuatu (seperti perangkat, sistem lain)

(21)

tidak memiliki kontrol atas

use

case

.

Actor

digambarkan dengan stick man. Pada

gambar 2.1 menunjukan Simbol

Actor

pada

Use

Case

Diagram.

Gambar 2.1 Simbol

Actor

pada

Use

Case

diagram

b.

Use

Case

Use case

adalah gambaran fungsionalitas dari suatu sistem, sehingga

customer atau pengguna sistem paham dan mengerti mengenai kegunaan sistem

yang akan dibangun. Pada gambar 2.2 merupakan Simbol

Use Case

pada

Use

Case Diagram.

Gambar 2.2. Simbol

Use Case

c.

Association

Associaton

menghubungkan

link

antar

element,

dan

bukan

menggambarkan aliran data / informasi pada sistem.

Association

digunakan untuk

menggambarkan bagaimana

actor

terlibat dalam

use case.

Ada 4 jenis relasi yang

bisa timbul pada

use case

diagram, yaitu

Association

antara actor dan

use

case

,

Association

antara

use case

, Gene

ralization/Inheritance antara use

case, Generalization/Inheritance

antara

actors.

(22)

15

Dependency adalah sebuah

element

bergantung dalam beberapa cara ke

element

lainnya.

e.

Generalization

disebut juga

inheritance

(pewarisan), sebuah elemen dapat

merupakan spesialisasi dari elemen lainnya.

2.7.3

Activity Diagram

Activity

diagram

menggambarkan berbagai alir aktifitas dalam sistem yang

sedang diarancang, bagaimana masing-masing alir berawal,

decision

yang

mungkin terjadi, dan bagaimana mereka berakhir[6].

Activity

diagram

juga dapat

menggambarkan proses paralel yang mungkin terjadi pada beberapa eksekusi.

Activity

diagram

merupakan

state

diagram khusus, di mana sebagian besar

state

adalah

Action

dan sebagian besar transisi di-

trigger

oleh selesainya

state

sebelumnya (

internal processing

). Oleh karena itu

activity

diagram

tidak

menggambarkan

behavior

internal sebuah sistem.

Terdapat berbagai simbol di dalam

Activity

Diagram, akan dijelaskan pada

tabel 2.1

Tabel 2.1 Simbol

Activity

Diagram

Simbol

Nama

Keterangan

Actifity

Memperlihatkan bagaimana

masing-masing

kelas

antarmuka

saling

berinteraksi satu sama lain

Action

State

dari sistem yang mencerminkan

eksekusi dari suatu aksi

Initial Node

Bagaimana

objek

dibentuk

atau

diawali.

Actifity Final

Node

Bagaimana

objek

dibentuk

dan

dihancurkan

Fork Node

Satu aliran yang pada tahap tertentu

(23)

2.7.4

Sequence Diagram

Sequence diagram

menggambarkan interaksi antar objek di dalam dan di

sekitar (termasuk pengguna,

display

, dan sebagainya) berupa

message

yang

disusun dalam suatu urutan waktu[6].

Secara khusus, diagram ini berasosiasi dengan

use case

.

Sequence

diagram

menggambarkan

behavior

internal sebuah sistem. Dan lebih menekankan pada

penyampaian

message

dengan parameter waktu.

Pada Tabel 2.2 menjelaskan tentang simbol yang terdapat pada

Sequence

Diagram.

Tabel 2.2 Simbol

Sequence

Diagram

Simbol

Nama

Keterangan

Actor

Orang, proses, atau sistem lain yang

berinteraksi dengan sistem informasi

dan mendapat manfaat dari sistem

dengan mengirimkan atau menerima

pesan.

LifeLine

Objek

entity

, antarmuka yang saling

berinteraksi.

Message

Spesifikasi dari komunikasi antar

objek

yang

memuat

informasi-informasi tentang aktifitas yang

terjadi

Message

Spesifikasi dari komunikasi antar

objek

yang

memuat

informasi-informasi tentang aktifitas yang

terjadi

2.7.5

Class Diagram

(24)

17

dari sebuah sistem[6].

Class

diagram digunakan untuk menampilkan beberapa

kelas serta paket-paket yang ada dalam sistem/perangkat lunak yang sedang kita

gunakan.

Class

diagram memberi kita gambaran (diagram statis) tentang

sistem/perangkat lunak dan relas-relasi yang ada didalamnya. Sebuah

class

digambarkan seperti sebuah bujur sangkar dengan tiga bagian ruangan yaitu

bagian atas adalah bagian nama dari

class

, bagian tengah mendefinisikan

property

/

atribut

class

, bagian akhir mendefinisikan

method-method

dari sebuah

class

.

Class

sebaiknya diberi nama menggunakan kata benda sesuai dengan domain /

bagian / kelompoknya. Tabel 2.3 menjelaskan tentang

symbol relationship

pada

class

diagram:

Tabel 2.3

Symbol Relationship

Class

Diagram

Nama

Simbol

Keterangan

Asosiasi /

Association

Merupakan sebuah

relationship

paling

umum yang menghubungkan antara 2

class

.

Garis ini bisa melambangkan tipe-tipe

relationship

dan juga dapat menampilkan

hukum-hukum multiplisitas pada sebuah

relationship

.(Contoh:

One-to-one,

one-to-many, many-to-many

).

Asosiasi berarah /

Directed

Association

Relasi antar kelas dengan makna kelas yang

satu digunakan oleh kelas yang lain,

asosiasi biasanya juga disertai dengan

multiplisitas

Generalisasi

Relasi

antar

kelas

dengan

makna

generalisasi

–

spesialisasi (umum khusus)

Kebergantungan /

Dependency

Umumnya

penggunaan

dependency

digunakan untuk menunjukkan operasi pada

(25)

lain.

Agregasi /

Agregation

Relasi antar kelas dengan makna semua

–

bagian (

whole

part

)

2.8

Teknik Evaluasi Sistem dan Pengujian

Adapun Teknik yang digunakan untuk mengevaluasi hasil suatu

ringkasan teks merupakan topik yang cukup suilit, baik evaluasi terhadap

ringkasan yang dihasilkan dari mesin peringkas otomatis ataupun ringkasan yang

dihasilkan secara manual yang dibuat manusia, dikarenakan tidak terdapat

definisi ringkasan ideal. Menurut Zaman B. dan E Winarko [12] metode untuk

melakukan evaluasi terhadap hasil dari ringkasan secara umum dibagi 2, yaitu:

1.

Ekstrinsik

Metode evaluasi ekstrinsik adalah menghitung efektivitas dan

akseptabilitas dari hasil ringkasan untuk tugas-tugas tertentu, misalnya

assessment

terhadap hasil ringkasan.

2.

Intrinsik

Metode evaluasi intrinsik adalah evaluasi yang dilakukan oleh sistem

peringkas itu sendiri, misalnya menggunakan

F-Measures

. Evaluasi ini

difokuskan pada tingkat koheren dan informatif dari hasil ringkasan.

Dalam penelitian ini, metode evaluasi yang digunakan adalah metode

intrinsik penghitungan

F-Measure

berdasarkan perhitungan

Precision

dan

Recall

yang menurut Zaman B. dan E Winarko [12] merupakan standar evaluasi dalam

penghitungan

information retrieval

. evaluasi perhitungan

information retrieval

dengan menggunakan

Precision

dan

Recall

juga dapat digunakan dalam

evaluasi perhitungan peringkas teks otomatis.

(4)

(26)

19

Kombinasi antara nilai

recall

dan

precision menghasilkan nilai

f-measure.

(6)

Dalam metode intrinsik

, precision

dan

recall

digunakan untuk mengukur

kualitas ringkasan otomatis dengan cara membandingkan ringkasan otomatis

dengan ringkasan manual (buatan manusia). Kemudian hasil akhir akan didapatkan

dengan cara penggabungan nilai

recall

(4) dan

precision

(5) yang disebut dengan

nilai

F-measures

(5). Masalah dalam metode ini adalah dalam menentukan

kalimat relevan karena pasti terdapat perbedaan pendapat antar subyek pembuat

ringkasan dalam memilih kalimat. Misal subyek A menganggap kalimat

x

sebagai

kalimat utama tetapi bisa saja subyek B berpendapat sebaliknya bahwa kalimat

x

kurang begitu penting. Untuk mengatasi hal ini digunakan beberapa metode

seperti suara terbanyak (

majority opinion

), gabungan (

union

), atau irisan

(

intersection

)[12].

2.9

Perangkat Lunak Pendukung

Pada pembangunan aplikasi pencarian paragraf kata atau kalimat pada

dokumen menggunakan

Term Frequency-Inverse Document Frequency

(TF-IDF)

dibutuhkan perangkat lunak pendukung, diantaranya adalah:

2.9.1

Bahasa Program C#

Sebuah

bahasa

pemrograman

yang

berorientasi

objek

yang

dikempbangkan oleh Microsoft sebagai bagian dari inisiatif kerangka .NET

Framework. Bahasa pemrograman ini dibuat berbasiskan bahasa C++ yang telah

dipengaruhi oleh aspek-aspek ataupun fitur bahasa yang terdapat pada

bahasa-bahasa pemrograman lainnya seperti Java, Delphi, Visual Basic dll dengan

beberapa penyederhanaan. Menurut standar ECMA-334 C# Language

Specification, nama C# terdiri atas sebuah huruf latin C (U+0043) yang diikuti

(27)

digunakan pada C# tidak sama dengan tanda kres yang ada dalam seni musik

#(U+266F). Tanda pagar # (U+0023) tersebut digunakan karena karakter kres

dalam seni musik tidak terdapat didalam keyboard standar.

C# kadang-kadang dapat disebutkan sebagai bahasa pemrograman yang

paling mencerminkan dasar dari CLR dimana semua program-program .NET

berjalan, dan bahasa ini sangat bergantung pada kerangka tersebut sebab ia secara

spesifik di desain untuk mengambil manfaat dari fitur-fitur yang tersedia pada

CLR. [7]

2.9.2

Microsoft Visual Studio

Microsoft visual stuido merupakan sebuah perangkat lunak lengkap (suite)

yang dapat digunakan untuk melakukan pengembangan aplikasi, baik itu aplikasi

bisnis, aplikasi personal ataupun komponen aplikiasnya yang masuk ke dalam

bentuk aplikasi console, Windows dan Web. Visual studio mencakup kompiler,

SDK, Integrated Development Environment (IDE) dan dokumentsi (umumnya

berupa MSDN Library). Kompiler yang dimasukan ke dalam paket visual studio

antara lain Visual C++, Visual C#, Visual Basic, Visual Basic .NET, Visual

InterDev, Visual J++, Visual J#, Visual FoxPro dan Visual SourceSafe.

Microsoft visual studio dapat digunakan untuk mengembangkan aplikasi

dalam native code (dalam bentuk bahasa mesin yang berjalan diatas Windows)

ataupun managed code (dalam bentuk Microsoft Intermediate Language diatas

.NET Framework). Selain itu, visual studio juga dapat digunakan untuk

mengembangkan aplikasi Silverlight, aplikasi Windows Mobile (yang berjalan

diatas .NET Compact Framework). Berikut adalah tampilan halaman awal dari

(28)

21

Gambar 2.3 Halaman Utama Microsoft Visual Studio

Halaman awal tersebut merupakan tampilan utama untuk membuat suatu

project baru, mmembuka project yang akan dilanjutkan pengerjaannya dan untuk

membaca tutorial tentang bagaimana penggunaan aplikasi, cara untuk membuat

aplikasi, produk terupdate yang dibuat oleh Microsoft Visual Studio dan

pembelajaran coding.

(29)

Pada Gambar 2.4 tampilan over view yang memperlihatkan tampilan

antarmuka dari Microsof Visual Studio saat akan membuat seuah project, berikut

adalah penjelasan sederhana tentang detail dari tampilan over view Microsoft

Visual Studio :

1.

File Menu dan Toolbars Menu

Pada Gambar 2.4 nomor 1 dapat dilihat bagian ini terdiri dari

fungsi-fungsi untuk melakukan aksi save, new project, add class,

mendebug/execute program, search dan membuka project lain yang

disimpan pada sistem directory.

2.

Toolbox Bar

Pada toolbox bar terdapat semua object yang dibutuhkan oleh

pengguna yang tinggal dilakukan dengan proses drag and drop.

3.

Layout View

Layout view yaitu sebuah tempat atau wadah yang akan

menampung object-object dari toolbox bar.

4.

Solutions Explorer Bar

Pada solution explorer bar terdapat program yang akan dibuat

pengguna dan pada solution explorer juga bisa digunakan untuk

menambahkan library-library.

5.

Properties Bar

Properties bar yaitu detail dari toolbox bar yang digunakan untuk

mengedit object dari mulai penamaan object hingga warna object yang

dipakai.

6.

Error List Bar

Pada error list bar terdapat pemberitahuan jika ada source code

(30)

23

2.9.3

DevExpress

adalah

supplier

terkemuka kontrol ASP.Net yang

addins

digunakan dalam situs ASP.NET dan digunakan untuk menambah fitur,

meringankan tugas dan menghemat waktu pemakai dalam membuat suatu

program.

DevExpress

menawarkan pula seperangkat komponen presentasi dan

pelaporan serta menambahkan beberapa fungsi, karena itulah setiap situs

web

yang menggunakan ASP.Net banyak menggunakan aplikasi ini karena

kemudahannya untuk memperindah tampilan tanpa memasukkan

coding

yang

(31)

(32)

95

BAB 5

KESIMPULAN DAN SARAN

5.1

Kesimpulan

Berdasarkan hasil yang didapatkan dalam penelitian dan penyusunan

skripsi ini maka dapat disimpulkan bahwa pembentukan kalimat abstrak secara

otomatis menggunakan metode

Term Frequency

–

(TF-IDF)

mampu membentuk paragraf abstrak pada sebuah dokumen jurnal

secara otomatis. Kesimpulan yang diperoleh dari hasil uji menyatakan bahwa

hasil pembentukan abstrak secara manual dengan sistem menghasilkan persentase

kalimat yang sama tidak terlalu jauh. Dimana jarak antara hasil manual dengan

sistem rata-rata hanya berbeda 2 sampai 4 kalimat saja. Akurasi dengan persentase

100% didapat oleh jurnal ke 7 dan 9 sedangkan akurasi dengan pesentase terendah

60% didapat oleh jurnal ke 1.

5.2

Saran

Berdasarkan hasil dari penelitian yang telah dilakukan, sistem

pembentukan Abstrak masih perlu dikembangkan lagi untuk meningkatkan

keakuratan dari sistem pembentukan abstrak ini. Penyempurnaan aplikasi masih

(33)

(34)

BIODATA PENULIS (RIWAYAT HIDUP)

DATA PRIBADI

Nama

Arie Prima Anggara

Jenis Kelamin

Laki-laki

Golongan Darah

A

Tempat & Tanggal Lahir

Bandung 02 Mei 1993

Alamat

Jl. Galunggung dlm 3 No.38 RT 01 / RW 03

Kecematan Lengkong Kelurahan Lingkar

Selatan, Bandung.

No. Telp

088214903833

Email

[email protected]

PENDIDIKAN FORMAL

1998 - 2004

SD Negeri Babakan Priangan II Bandung

2004 - 2007

SMP Pasundan 1 Bandung

2007

–

2010

SMA Pasundan 1 Bandung

2010 - 2015

Program Studi Teknik Informatika

Fakultas Teknik dan Ilmu Komputer

Universitas Komputer Indonesia

Bandung

PENGALAMAN ORGANISASI

2011 - 2015

Anggota UKM Sadaya Unikom Bandung

(35)

(36)

(37)

TERM FREQUENCY

–

INVERSE DOCUMENT FREQUENCY (TF-IDF)

Arie Prima Anggara1

1_{Teknik Informatika – Universitas Komputer Indonesia}

Jl. Dipatiukur 112-114 Bandung Email : [email protected]

ABSTRAK

Abstrak adalah sebuah ringkasan dari keseluruhan dokumen penelitian agar pembaca tahu maksud dari penelitian tersebut. Dari abstrak, pembaca dapat mengetahui jalan pikiran penulis laporan/artikel ilmiah tersebut dan mengetahui gambaran umum tulisan secara lengkap. Dalam membentuk paragraf abstrak pada sebuah dokumen jurnal dari setiap sub bab tentunya membutuhkan pencarian kalimat yang singkat dan jelas. Pencarian kalimat pada setiap sub bab dalam dokumen jurnal yang banyak akan membantu penulis laporan/artikel ilmiah dalam membentuk abstrak dengan keterbatasan pembentukan abstrak harus singkat, bagian harus seimbang dan menghindari kalimat yang panjang.

Dalam penelitian ini dibangun sistem pembentukan abstrak secara otomatis dengan menerapkan metode Term Frequency – Inverse Document Frequency. Metode Term Frequency – Inverse Document Frequency (TF-IDF) akan mencari kalimat pada sub judul pendahuluan, analisis, dan kesimpulan sehingga akan terbentuklah kalimat abstrak secara otomatis dengan mengutamakan isi kalimat yang berada pada sub judul tersebut. Analisis sistem pembentukan abstrak otomatis yang dibangun memiliki 3 tahapan yaitu input jurnal, praproses, pembentukan abstrak. Input jurnal yang dipilih berupa jurnal berformat doc. Praproses yang dilakukan dalam tahap ini adalah pemecahan kalimat, case folding, filtering, tokenizing, synonim checking, dan stopword. Tahap selajutnya melakukan perhitungan menggunakan tf-idf dan tahap terakhir menentukan hasil abstrak dengan metode cosine similarity.

Berdasarkan hasil pengujian, maka dilakukan tahap pengujian terhadap sistem dan secara manual. Maka diperoleh jarak antara hasil manual dengan sistem rata-rata hanya berbeda 2 sampai 4 kalimat saja. Akurasi dengan persentase 100% didapat oleh jurnal ke 7 dan 9 sedangkan akurasi dengan pesentase terendah 60% didapat oleh jurnal ke 1.

Kata Kunci: Term Frequency – Inverse Document

Frequency (TF-IDF), Kecerdasan Buatan, Pembentukan Abstrak Otomatis.

1. PENDAHULUAN

Abstrak adalah sebuah ringkasan dari keseluruhan dokumen penelitian agar pembaca tahu maksud dari penelitian tersebut. Abstrak digunakan sebagai jembatan untuk memahami uraian yang akan disajikan dalam suatu karangan biasanya laporan atau artikel ilmiah terutama untuk memahami ide-ide permasalahannya. Dari abstrak, pembaca dapat mengetahui jalan pikiran penulis laporan/artikel ilmiah tersebut dan mengetahui gambaran umum tulisan secara lengkap. Untuk itulah pembuat abstrak harus dapat mewakili isi karangan ilmiah secara keseluruhan, mulai dari latar belakang, analisis/analisa, dan hasil penelitian/kesimpulan. [1]

Dalam membentuk paragraf abstrak pada sebuah dokumen jurnal dari setiap sub bab tentunya membutuhkan pencarian kalimat yang singkat dan jelas. Di dalam dunia akademik, tulisan pendek ini digunakan oleh institusi/lembaga/organisasi pendidikan sebagai informasi awal atas sebuah penelitian ketika dimasukkan dalam jurnal, konferensi, lokakarya, atau yang sejenisnya. Pencarian kalimat pada setiap sub bab dalam dokumen jurnal yang banyak akan menyulitkan penulis laporan/artikel ilmiah dalam membentuk abstrak dengan keterbatasan pembentukan abstrak harus singkat, bagian harus seimbang dan menghindari kalimat yang panjang. Pembuatan abstrak dapat dilakukan secara otomatis dengan memanfaatkan metode Term Frequency – Inverse Document Frequency (TF-IDF).

(38)

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)

Edisi.. Volume.. Bulan 20.. ISSN :2089-9033

mengukur kemiripan antara dua kalimat atau lebih pada bagian kalimat yang berada dalam sub judul yang dibutuhkan. Dalam mengukur sebuah kalimat dari kemiripan setiap sub bab pada sebuah dokumen akan menggunakan teknik text mining.

Dari permasalahan diatas, maka penelitian ini akan menerapkan metode Term Frequency – Inverse Document Frequency (TF-IDF) pada pembentukan sebuah paragraf abstrak secara otomatis.

1.1 Maksud dan Tujuan

Maksud dari pada penelitian tugas akhir ini adalah membuat sistem pembentukan abstrak secara otomatis pada keseluruhan dokumen jurnal penelitian dengan menggunakan metode Term Frequency – Inverse Document Frequency (TF-IDF). Adapun tujuan dari penelitian tugas akhir ini adalah melakukan pembuatan kalimat abstrak yang baik secara otomatis untuk melengkapi suatu tulisan ilmiah dengan singkat dan jelas, sehingga membantu melengkapi laporan/artikel ilmiah dalam pembentukan kalimat abstrak secara cepat dan akurat.

1.2Ringkasan

Ringkasan adalah suatu cara yang efektif untuk menyajikan suatu karangan yang panjang dalam bentuk singkat. Oleh karena itu membuat ringkasan atas sebuah karangan yang panjang dapat diumpamakan sebagai memangkas sebatang pohon sehingga tinggal batang, cabang-cabang dan ranting-ranting yang terpenting beserta daun-daun yang diperlukan, sehingga tampak bahwa esensi pohon masing dipertahankan. Dalam ringkasan keindahan gaya bahasa, ilustrasi, serta penjelasan-penjelasan yang terperinci dihilangkan, sedangkan sari kerangaknya dibiarkan tanap hiasan. Walaupun bentuknya ringkas, namun tetap mempertahankan pikiran pengarang dan pendekatan yang asli [11].

Dalam meringkas sebaiknya menggunakan kalimat tunggal daripada kalimat majemuk. Kalimat majemuk menunjukan bahwa ada dua gagasan atau lebih yang bersifat paralel. Bila memungkinkan ringkaslah kalimat menjadi frasa, selanjutnya frasa menjadi kata. Begitu pula rangkaian gagasan yang penjang hendaknya diganti dengan suatu gagasan sentral saja. Pada umumnya suatu ringkasan ditentukan panjang ringkasan akhirnya, ada yang meringkas seperdua total kata, sepertiga total kata, hingga sepersepuluh total kata. Untuk artikel yang memiliki jumlah kata yang sangat banyak tentu saja hasil ringkasan sepersepuluh menjadi pilihan yang tepat. Sedangkan untuk artikel yang jumlah katanya tidak terlalu banyak maka hasil ringkasan sebanyak seperdua total kata menjadi pilihan yang tepat sehingga hasil ringkasan nantinya masih dapat dibaca dengan struktur hasil ringkasan yang baik.

1.3Abstrak

Abstrak merupakan sebuah ringkasan isi dari sebuah karya tulis ilmiah yang ditujukan untuk membantu seorang pembaca agar dapat dengan mudah dan cepat untuk melihat tujuan dari penulisannya. Di dalam dunia akademik, tulisan

pendek ini digunakan oleh

institusi/lembaga/organisasi pendidikan sebagai informasi awal atas sebuah penelitian ketika dimasukkan dalam jurnal, konferensi, lokakarya, atau yang sejenisnya. Dalam dunia maya (internet), sebuah abstrak digunakan sebagai gambaran singkat atas sebuah karya tulis ilmiah/penelitian untuk dibaca, sebagaimana halnya sebuah “display” model pakaian dipajang untuk dilihat atau diuji pakai sebelum dibeli. Selanjutnya, bagian lengkap sebuah penelitian dijual kepada mereka yang berminat untuk mendapatkannya.

Untuk membuat abstrak, hal-hal yang perlu diperhatikan adalah sebagai berikut:

1. Struktur paragraf

Sebuah abstrak ditulis dalam satu paragraf yang menerangkan keseluruhan isi tulisan secara singkat dan jelas. Penulisannya tidak melakukan indentasi pada kalimat pertama paragraf. Single space adalah pilihan yang dimiliki oleh penulis untuk menyusun kalimat dalam paragrafnya. Lebih dalam, kadang seorang pembimbing Skripsi/Tesis/Disertasi mengatur hingga pada penggunaan jenis huruf dan ukuran tertentu.

2. Jumlah kata

Idealnya sebuah paragraf terdiri dari 150 sampai dengan 200 kata. Namun, pertimbangan jumlah kata yang paling tepat dalam penulisan Skripsi, Tesis, ataupun disertasi biasanya bergantung pada pertimbangan pandangan pembimbing (supervisor) yang mendampingi seorang mahasiswa dalam penulisannya. Seorang supervisor harusnya tidak mempertimbangkan jumlah kata sebagai acuan utama penulisan paragraf, karena bagian utama justru isi (content) paragraf. 3. Isi paragraf

(39)

menganggap hasil temuan yang diungkap tidak perlu mengungkap pembahasan yang dilakukan karena hal itu justru akan membuat pengulangan isi tulisan. Jelas maksudnya karena bagian pembahasan temuan penelitian juga diurai di dalam bagian kesimpulan. Keempat, perlunya bagian kesimpulan di dalam sebuah tulisan juga terlihat di dalam sebuah abstrak yang tetap mendapatkan perhatian penting sebagai bagian akhir dari paragraf. Pada bagian ini kadangkala sejumlah peneliti menyisipkan rekomendasi penelitian namun tanpa pembahasan atau uraian yang panjang. Lebih lanjut, tidaklah lazim sebuah abstrak diisi oleh nama si penulis serta para pembimbing tulisannya, apalagi hal itu ditulis dalam huruf cetak tebal.

1.4 Tahapan Text Mining

Pada tahap text mining ini terdapat lima langkah yaitu:

a. Case Folding, yaitu mengubah semua teks ke dalam huruf kecil.

b. Filtering, menghapus karakter yang tidak dipakai. Adapun karakter yang akan dihilangkan yaitu : '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', ',', '"', '-', '/', '{', '}', '+', '_', '!', '@', '#', '$', '%', '^', '&', '*', '(', ')', '?', '<', '>', '[', ']', '|', '~', '`', ';', ':', '=' dan “’s” untuk dokumen berbahasa Inggris akan dihapus kecuali tanda titik.

c. Tokenizing, yaitu memecah kalimat-kalimat yang ada kedalam kata.

d. Synonim Checking, yaitu mengganti kata yang ada yang memiliki arti yang sama. Penggantian kata yang dilakukan berdasarkan database yang dibuat oleh penulis.

e. Stopwords, yaitu Pada proses stowords removal ini proses yang dikerjakan yaitu menghapus kata yang kurang relevan atau kata yang tidak memiliki arti yang begitu penting dan berkaitan yang ada pada kalimat di dokumen dengan mencocokan

list kata stopword yang pada database yang akan diuji. Database yang digunakan baik untuk Bahasa Indonesia maupun maupun Bahasa Inggris diambil dari sebuah situs yg menyediakan berbagain jenis list stopword

untuk berbagai bahasa.

Pada umumnya tahap preprocessing

terdapat 5 langkah yaitu Case Folding, Filtering, Tokenizing, Stemming, dan Stopwords. Ada satu langkah yang tidak penulis gunakan dalam pembuatan aplikasi peringkasan dokumen esktraktif ini yaitu proses stemming. Stemming yaitu proses menghilangkan imbuhan dari sebuah kata dan mengubahnya menjadi kata dasar. Tujuan dari

peringkasan dokumen ekstraktif imbuhan yang terdapat pada sebuah kata memiliki arti yang berbeda. Adapun contoh kalimat yaitu : “Bapak

membuatkan sebuah rumah untuk istrinya”, “Bapak dibuatkan secangkir kopi oleh ibu”, “Bapak selalu berbuat baik kepada tetangga”. Kata “buat” pada kalimat pertama dan kalimat ketiga memiliki arti bapak melakukan sebuah kegiatan tapi pada kalimat dua kata”buat” memiliki arti bapak mendapatkan sebuah perlakuan. Apabila proses stemming tetap dilakukan maka tidak akan didapatkan perbedaan antara satu kata dengan yang lainnya.

Pada tahap filtering penulis menambahkan karakter “ ’s ” yang akan digunakan untuk menghapus tanda baca bagi dokumen yang menggunakan bahasa Inggris. Adapun contoh kalimatnya yaitu : “that is President’s car” berubah menjadi “that is President car”.

1.5 Term Frequency – Inverse Document Frequency (TF-IDF)

Metode Term Frequency-Inverse Document Frequency (TF-IDF) adalah cara pemberian bobot hubungan suatu kata (term) terhadap dokumen. Untuk dokumen tunggal tiap kalimat dianggap sebagai dokumen. Metode ini menggabungkan dua konsep untuk perhitungan bobot, yaitu Term Frequency (TF) merupakan frekuensi kemunculan kata (t) pada kalimat (s). Document frequency (DF) adalah banyaknya kalimat dimana suatu kata (t) muncul. Frekuensi kemunculan kata di dalam dokumen yang diberikan menunjukkan seberapa penting kata itu di dalam dokumen tersebut. [5]

Frekuensi kalimat yang mengandung kata tersebut menunjukkan seberapa umum kata yang ada pada dokumen uji tersebut. Bobot kata semakin besar jika sering muncul dalam suatu kalimat dan semakin kecil jika muncul dalam banyak kalimat. Pada Metode ini pembobotan kata dalam sebuah dokumen dilakukan dengan mengalikan nilai TF dan IDF. Pembobotan diperoleh berdasarkan jumlah kemunculan term dalam kalimat (TF) dan jumlah kemunculan term pada seluruh kalimat dalam dokumen (IDF). Bobot suatu istilah semakin besar jika istilah tersebut sering muncul dalam suatu dokumen dan semakin kecil jika istilah tersebut muncul dalam banyak dokumen. Nilai IDF sebuah term dihitung menggunakan persamaan (1) di bawah ini :

IDF = log(

) (1)

keterangan :

N = Jumlah keseluruhan kalimat pada dokumen

(40)

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)

Edisi.. Volume.. Bulan 20.. ISSN :2089-9033

Menghitung bobot (W) masing-masing kalimat dengan persamaan (2) di bawah ini:

Wd.t = TFd.t * IDFt (2)

dengan :

d = kalimat ke-d

t = kata (term) ke-t TF = Term Frequency

W= bobot kalimat ke-d terhadap kata (term) ke-t

IDF= Inverse Document Frequency

Kemudian baru melakukan proses pengurutan (sorting) nilai kumulatif dari W untuk setiap kalimat. Tiga kalimat dengan nilai W terbesar dijadikan sebagai hasil dari ringkasan atau sebagai output dari peringkasan teks otomatis. [5]

1.6 Pengujian Akurasi

Dalam penelitian ini, metode evaluasi yang digunakan adalah metode intrinsik penghitungan F-Measure berdasarkan perhitungan Precision dan

Recall yang menurut Zaman B. dan E Winarko [12] merupakan standar evaluasi dalam penghitungan

information retrieval. evaluasi perhitungan

information retrieval dengan menggunakan

Precision dan Recall juga dapat digunakan dalam evaluasi perhitungan peringkas teks otomatis.

(4)

dimana, recall = tingkat keberhasilan

Precision adalah tingkat ketepatan hasil ringkasan. Perhitungan precision dapat dilihat pada persamaan berikut:

(5)

dimana, precision = tingkat ketepatan

F-measure adalah gabungan antara recall dan

precision. Perhitungan f-measure dapat dilihat pada persamaan berikut:

(6)

2. ISI PENELITIAN 2.1 Analisis Masalah

Dalam membentuk paragraf abstrak pada sebuah dokumen jurnal dari setiap sub bab tentunya membutuhkan pencarian kalimat yang singkat dan jelas, pencarian kalimat pada setiap sub bab dalam dokumen jurnal yang banyak akan menyulitkan penulis dalam membentuk abstrak dengan keterbatasan pembentukan abstrak harus singkat, bagian harus seimbang dan menghindari kalimat yang panjang.

Dari permasalahan diatas, dibutuhkan metode

Term Frequency – Inverse Document Frequency (TF-IDF) yang akan mengukur kemiripan antara dua kalimat atau lebih pada bagian kalimat yang berada dalam sub judul yang dibutuhkan.

2.2 Analisis Masukan

Data masukan yang digunakan berupa file

jurnal dengan format *.doc. Dokumen tersebut dimasukan secara utuh kedalam aplikasi, yang kemudian oleh aplikasi akan dilakukan penguraian isi dari dokumen tersebut berupa beberapa kalimat yang mengacu pada aturan tertentu, seperti pengambilan kalimat hanya pada bagian pendahuluan, analisis, dan kesimpulan.

2.3 Analisis Preprocessing Data

Tahap analisis prepocessing ini digunakan untuk menganalisa data apa saja yang sebenarnya dibutuhkan dalam proses Term Frequency – Inverse Document Frequency (TF-IDF). Adapun tahapan dari analisis prepocessing data dalam penelitian ini adalah sebagai berikut :

1. Add File Data

Pertama-tama pilih dokumen terlebih dahulu.

File dokumen yang di pilih harus berupa file

berekstensi *.doc. 2. Ekstraksi Data

Setelah file jurnal yang dimaksudkan didapat, kemudian lakukan proses ekstraksi text. Pada proses ini dilakukan pengambilan text dari jurnal dengan bantuan library di .net yaitu

Microsoft.Office.Interop.Word.

3. Pengambilan Teks

Tahap pengambilan kalimat merupakan tahapan penggambilan teks yang dibutuhkan dari keseluruhan text yang ada pada jurnal tersebut. Teks yang dibutuhkan adalah teks pada bagian Pendahuluan atau Latar Belakang, Analisis atau Analisa Data dan Kesimpulan. Adapun alur proses yang dilakukan untuk mendapatkan teks yang dibutuhkan dapat dilihat pada gambar di bawah ini :

Gambar 1. Alur Seleksi Kalimat

a. Pencarian Sub judul :

Mencari judul yang dibutuhkan yaitu : pendahuluan, analisis dan kesimpulan. b. Pengambilan teks :

Pengambilan teks yang indeksnya berada setelah judul yaitu pendahuluan atau latar

(41)

c. Indexing kalimat :

Setelah didapatkan teks diatas, dilakukan pemisahan tiap-tiap kalimat yang dibatasi oleh tanda titik pada tiap-tiap teks. 4. Case Folding

Pada tahapan ini, akan dilakukan

pengecekan terhadap huruf-huruf kapital yang berada di tiap-tiap kalimat. Jika ditemukan huruf kapital tersebut, maka akan dilakukan

[image:41.595.65.275.83.637.2]

lower, yaitu mengubah menjadi huruf kecil.

Tabel 1. Casefolding

deskripsi kalimat

kalimat 1 di era otonomi daerah saat ini, sistem pemerintahan daerah sudah berbeda dibandingkan dengan sistem pemerintah diera orde baru.

Kalimat 2 kalau diera orde baru, organisasi pemerintah dan sistem informasinya ditentukan oleh pemerintah pusat, di era otonomi daerah ini pembentukan instansi pemerintah daerah termasuk sistem informasinya ditentukan oleh pemerintah daerah setempat

Kalimat 3 oleh karena itu sistem informasi pada setiap daerah bisa berbeda sesuai dengan perkembangan yang terjadi / kebutuhan di daerah masing-masing

Kalimat 4 pada awal otonomi daerah, pemerintah di daerah bisa membentuk dinas, badan dan lembaga tehnis sesuai dengan kebutuhan daerah setempat

Kalimat 5 adanya ketentuan ini membuat berbagai daerah membentuk dinas secara berlebihan untuk menampung sebanyak mungkin pejabat struktural

Kalimat 6 ketentuan mengenai pembentukan dinas dan lembaga tehnis tersebut kemudian disusul peraturan baru yang memberikan batasan jumlah dinas yang boleh dibentuk di pemerintah daerah.

Kalimat 7 bahkan penanganan informasi di suatu daerah cukup hanya dimasukkan dalam suatu seksi/bagian dari dinas dan setiap daeah menggunakan istilah yang berbeda seperti : hubungan masyarakat (humas) informasi komunikasi (infokom), badaninformasi komunikasi telematika (bikt).

… …

Kalimat 21

3.kegiatan humas yang banyak berhubungan dengan unit kerja di pemda yang memiliki tingkat eselon yang lebih tinggi bisa menjadi hambatan bagi humas meski gengsi posisi humas cukup tinggi

5. Filtering

Menghapus karakter khusus yang tidak dipakai. Dalam pengujian ini karakter seluruh tanda baca seperti tanda seru, tanda tanya, tanda kutip, dan lain sebagainya akan dihapus kecuali kecuali tanda titik. Langkah yang dilakukan yaitu menghilangkan beberapa karakter yang tidak diperlukan selama proses perangkuman. Adapun karakter yang akan dihilangkan yaitu : '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', ',', '"', '-', '/', '{', '}', '+', '_', '!', '@', '#', '$', '%', '^', '&',

[image:41.595.305.521.179.740.2]

Penghilangan karakter seperti angka akan dilakukan oleh sistem, karena sistem tidak dapat mengenali keterangan dari angka yang ada pada dokumen

Tabel 2. Filtering

deskripsi kalimat

kalimat 1 di era otonomi daerah saat ini, sistem pemerintahan daerah sudah berbeda dibandingkan dengan sistem pemerintah diera orde baru.

Kalimat 2 kalau diera orde baru, organisasi pemerintah dan sistem informasinya ditentukan oleh pemerintah pusat, di era otonomi daerah ini pembentukan instansi pemerintah daerah termasuk sistem informasinya ditentukan oleh pemerintah daerah setempat

Kalimat 3 oleh karena itu sistem informasi pada setiap daerah bisa berbeda sesuai dengan perkembangan yang terjadi / kebutuhan di daerah masing-masing

Kalimat 4 pada awal