IMPLEMENTASI ALGORITMA K-MEANS UNTUK CLUSTERING DATA SKRIPSI SKRIPSI SALSABILA SYUKRI SANI

(1)

IMPLEMENTASI ALGORITMA K-MEANS UNTUK CLUSTERING DATA SKRIPSI

SKRIPSI

SALSABILA SYUKRI SANI 141402146

PROGRAM STUDI S1 TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA

MEDAN 2021

Universitas Sumatera Utara

(2)

IMPLEMENTASI ALGORITMA K-MEANS UNTUK CLUSTERING DATA SKRIPSI

SKRIPSI

Diajukan sebagai salah satu persyaratan dalam menyelesaikan studi untuk memperoleh gelar Sarjana Komputer (S.Kom)

dalam bidang Studi Teknologi Informasi

SALSABILA SYUKRI SANI 141402146

PROGRAM STUDI S1 TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA

MEDAN 2021

(3)

PERNYATAAN ORISINALITAS

IMPLEMENTASI ALGORITMA K-MEANS UNTUK CLUSTERING DATA SKRIPSI

SKRIPSI

Saya dengan ini menyatakan dan mengakui bahwa skripsi ini merupakan hasil karya saya sendiri, kecuali adanya beberapa kutipan dan ringkasan yang masing- masing telah disebutkan sumbernya.

Medan, Oktober 2021

Salsabila Syukri Sani 141402146

(4)

i UCAPAN PENGHARGAAN

Pujian serta rasa syukur penulis ucapkan atas kehadirat Allah SWT yang selalu melimpahkan rahmat beserta karunia-Nya hingga saat ini penulis dapat menyelesaikan penyusunan skripsi ini dengan judul “Implementasi Algoritma K-Means untuk Clustering Data Skripsi”, yang merupakan salah satu persyaratan dalam meraih gelar Sarjana Komputer (S.Kom), pada Program Studi S1 jurusan Teknologi Informasi di Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.

Ucapan rasa syukur dan terima kasih ini juga penulis hadiahkan kepada Mama, Ir. Sukmawati Lahagu dan Ayah, Ir. Asril Sani, yang mana merupakan orangtua tercinta yang selalu memberikan dukungan yang tiada henti terutama do’a yang selalu menyertai penulis hingga penulisan ini dapat terselesaikan sesuai dengan harapan.

Tak lupa pula, penulis ucapkan rasa terima kasih untuk berbagai pihak yang telah membantu penulis dalam menyelesaikan dan memberikan motivasi pada penulisan skripsi ini, baik yang secara langsung maupun tidak langsung.

Penulis ucapkan terima kasih yang sebesar-besarnya kepada:

1. Bapak Dr. Muryanto Amin S.Sos., M.Si selaku Rektor Universitas Sumatera Utara (USU).

2. Ibu Dr. Maya Silvi Lydia M.Sc selaku Dekan Fasilkom-TI USU.

3. Ibu Sarah Purnamawati, ST., M.Sc selaku Ketua Progam Studi dan Bapak Arisandi, ST., M.Kom selaku Sekretaris Program Studi S1 Teknologi Informasi Universitas Sumatera Utara.

4. Bapak Ivan Jaya S.Si., M.Kom sebagai Dosen Pembimbing I serta Ibu Sarah Purnamawati, ST., M.Sc sebagai Dosen Pembimbing II yang bersedia meluangkan waktu, pikiran dalam memberikan bimbingan dan saran kepada penulis.

(5)

ii 5. Ibu Dr. Erna Budhiarti Nababan, M.IT selaku pembanding I dan Bapak Niskarto Zendroto, S.Kom., M.Kom selaku pembanding II yang telah memberikan kritik dan saran yang membangun dalam proses penyempurnaan skripsi ini.

6. Seluruh dosen serta staf pegawai yang berada di lingkungan Fasilkom-TI USU, yang mana telah membantu proses dalam administrasi pada masa perkuliahan.

7. Keluarga besar dari ayah dan mama khususnya om, tante, para sepupu, mauo, pak uo, etek yang selalu memberikan doa, nasehat dan semangat kepada penulis

8. Teman-teman penulis di Teknologi Informasi USU terkhususnya untuk angkatan 2014, abang-abang dan kakak-kakak senior yang juga memberikan semangat dan motivasi kepada penulis.

9. Seluruh teman penulis di Himpunan Mahasiswa Teknologi Informasi (HIMATIF)

10. Seluruh pihak yang tak dapat penulis ucapkan secara satu persatu, yang telah banyak membatu penulis sampai saat ini.

Akhir kata yang dapat penulis sampaikan adalah penulis menyadari masih terdapat banyak kesalahan serta kekurangan dalam penulisan ini. Akan tetapi, penulis berharap dengan penulisan skripsi ini agaknya bermanfaat dan dapat digunakan dengan baik dalam memperluas ilmu pengetahuan pembacanya.

Insyaallah, Allah SWT selalu melimpahkan berkah yang tiada hentinya kepada kita. Terima kasih.

Medan, Oktober 2021

Penulis

(6)

iii ABSTRAK

Banyaknya dokumen skripsi yang terus bertambah membuat pengelompokan dokumen skripsi semakin sulit di karenakan banyaknya topik yang di gunakan dalam pembuatan skripsi. Oleh karena itu, pengelompokan dokumen skripsi diperlukan untuk melihat dan menghasilkan hasil relevan yang dapat membantu untuk mengkategorikan topik skripsi yang di gunakan. Penelitian ini memiliki tujuan untuk penerapan algoritma K-Means dalam pengelompokkan dokumen skripsi sesuai dengan topik besar yang ada. Tahapan preprocessing yang dilakukan yaitu tokenization, penghilangan stopwords, filtering dan stemming.

Berikutnya, pengelompokan dokumen akan di lakukan dengan algoritma K-Means menggunakan TF-IDF untuk memperoleh jumlah bobot dari perhitungan kata yang di gunakan. Hasil dari pengelompokan dokumen meggunakan proses TD- IDF membutuhkan waktu lebih banyak di karena kan banyaknya kata yang di proses dalam waktu yang singkat. Hasil pengelompokan yang telah dilakukan membuat dokumen yang mempunyai kesamaan dalam topik skripsi berkumpul di suatu area dan topik yang berbeda akan membuat kelompok yang berbeda pula.

Kata Kunci: K-Means, Pengelompokan, TD-IDF, topik skripsi.

(7)

iv IMPLEMENTATION K-MEANS ALGORITHM TO CLUSTERING

SKTIPSI DOCUMENT ABSTRACT

The amount of thesis document which increase continously make a clustering of thesis document more difficult because it has to many topic that can be used to make a thesis. Therefore, the clustering of thesis document is needed to produce a relevant result that can be help to clustering thesis document. The purpose of the research is to imply K-Means algorithm to clustering thesis document to find a suitable main topic. In that process, there is preprocessing step which is call tokenization, the omit of stop words, filtering and stemming. Next, classification of thesis document are done with K-Means algorithm using TD-IDF to get the weight count number. The results of the clustering using TD-IDF process would spend more time because the amount of data needed to be process in short time.

The clustering results would make the thesis document which have the same topic will gather in one spot while others will make make another group by their own.

Keywords: K-Means, Clustering, TF-IDF, thesis document

(8)

v DAFTAR ISI

Halaman PERSETUJUAN

PERNYATAAN

UCAPAN PENGHARGAAN i

ABSTRAK iii

ABSTRACT iv

DAFTAR ISI v

DAFTAR TABEL vii

DAFTAR GAMBAR vii

BAB 1 PENDAHULUAN

1.1. Latar Belakang 1

1.2. Rumusan Masalah 2

1.3. Batasan Masalah 2

1.4. Tujuan Penelitian 3

1.5. Manfaat Penelitian 3

1.6. Metodologi Penelitian 3

1.7. Sistematika Penulisan 4

BAB 2 LANDASAN TEORI

2.1. Text Mining 6

2.2. Clustering 6

2.2.1.Text Clustering 8

2.3 K-Means Clustering 8

2.4 Cosine Similarity 12

2.5. Document Processing 12

2.5.1. Case Folding 12

2.5.2. Tokenizing 13

(9)

vi

2.5.3.Stopword Filtering 13

2.5.4.Stemming 14

2.6. TD-IDF 14

2.6.1. Term Frequency 14

2.6.2. Term Weighting 15

2.6.3. Inverse Document Frequency 16

2.6.4. Weight Term Document 16

2.7. Penelitian Terdahulu 16

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

3.1.Identifikasi Masalah 20

3.2.Data Penelitian 20

3.3.Analisis Sistem 21

3.3.1. Input 22

3.3.2. Proses Preprocessing 23

3.3.3. Pembobotan kata atau Term Weighting TF-IDF

25

3.3.4. Clustering K-Means 27

3.4. Proses input dan Filter Skripsi 28

3.5. Perancangan Sistem 30

BAB 4 IMPLEMENTASI DAN PENGUJIAN SISTEM

4.1.Implementasi Sistem 32

4.2. Pengujian Sistem 32

4.3. Hasil Pengujian Data Clustering 36

BAB 5 KESIMPULAN

5.1. Kesimpulan 38

5.2. Saran 38

Daftar Pustaka 40

(10)

vii DAFTAR TABEL

Halaman

Tabel 2.1. Penelitian Terdahulu 19

Tabel 3.1. Sampel Matrix Variabel Inputan Algoritma K-Means

27

Tabel 3.2.Daftar Isi Skripsi 28

DAFTAR GAMBAR

Halaman

Gambar 3.1. Arsitektur Umum 21

Gambar 3.2. Data Skripsi 22

Gambar 3.3. Contoh Ouput Vocabulary Frame 24

Gambar 3.4. Jumlah Total Stemmed 25

Gambar 3.5. Output Proses Tf-Idf 26

Gambar 3.6. Contoh Struktur Isi Skripsi 30

Gambar 3.7. Rancangan Tampilan 31

Gambar 4.1. Perubahan Nama File 33

Gambar 4.2. Tampilan Home 34

Gambar 4.3. Input File 34

Gambar 4.4. Dokumen diproses 35

Gambar 4.5. Proses telah selesai 35

Gambar 4.6. Output Cluster Dengan Total 20 File Pdf 36

Gambar 4.7. Top Cluster 37

Gambar 4.8 Grafik Hasil Cluster 20 File Pdf 37

(11)

1 BAB 1

PENDAHULUAN 1.1. Latar Belakang

Pesatnya kemajuan akan dunia teknologi dan informasi serta digital sekarang ini, banyak dipengaruhi dengan berkembangnya ketersediaan dokumen digital melalui berbagai macam sumber informasi. Perkembangan tersebut merupakan salah satu dampak yang menyebabkan berkembangnya text mining. Sebuah proses analisis untuk mengekstrak informasi dan pengetahuan dalam jumlah besar akan tetapi informasi dan pengetahuan tersebut belum terstruktur merupakan pengertian dari text mining. Agar informasi dan pengetahuan tersebut dapat terstruktur, salah satu proses yang dibutuhkan adalah document clustering.

Clustering merupakan proses analisa informasi yang mana kerap digunakan sebagai salah satu proses untuk Data Mining yang bertujuan untuk mengumpulkan informasi yang memiliki karakter yang sama pada satu kawasan yang sama dan informasi yang memiliki karakter yang berbeda ke kawasan lain. Text clustering adalah salah satu metode yang bertujuan untuk meng-cluster data yang berupa dokumen text mejadi lebih terstuktur. Untuk melakukan proses text clustering, ada banyak macam algoritma yang tersedia untuk dapat dipakai diantaranya adalah Support Vector Machine (SVM), Naive Bayes, k-Nearest Neighbor (KNN), Decision Tree, dan K-Means. Di penelitian saya ini, saya akan menggunakan algoritma K- Means.

Sampai sekarang ini, sudah ada beberapa penelitian yang telah dilakukan oleh peneliti-peneliti sebelumnya mengenai text clustering menggunakan metode yang sama. Oyelade, et al. (2010) dengan judul Application of K-Means Clustering algorithm for prediction of students’ Academic Perfomance didapat kesimpulan yaitu k-means algorithm dapat menjadi benchmark yang baik untuk memonitor progres dari kinerja akademik untuk siswa yang berada pada tingkat akhir dengan tujuan untuk membuat rencana yang menghasilkan keputusan yang efektif bagi siswa.

Penelitian selanjutnya dilakukan oleh Unnati & Chaita (2016) yaitu Implementing & Improvisation of K-means Clustering Algorithm dengan kesimpulan yaitu k-means algoritma dapat di tingkatkan kecepatan clustering dan akurasi serta mereduksi computional complexity of the k-means.

(12)

2 Penelitian berikutnya dilakukan oleh Ansari, et al. (2018) dengan judul Using K-Means Clustering to Cluster Province in Indonesia, dengan tujuan untuk mengelompokkan Provinsi yang ada di Indonesia berdasarkan banyaknya penduduk, tingkat partisipati sekolah, sumber daya manusia, dan tingkat pengangguran dengan K-Means Clustering. Hasil yang diperoleh dari penelitian tersebut adalah menampakkan 5 cluter bersar di setiap masing-masing pusat yang berada di Sumatera Selatan, Lampung, DKI Jakarta, Jawa Tengah, dan Kalimantan Barat.

Pada penelitian kali ini, penulis mencoba melakukan penelitian untuk meng- cluster data skripsi dengan menggunakan Algoritma K-Means dan dapat menghasilkan hasil berguna untuk mempermudah mahasiswa menentukan penelitian mereka.

Dengan menggunakan latar belakang yang telah penulis jabarkan sebelumnya, maka penulis mengajukan penelitian dengan judul “IMPLEMENTASI ALGORITMA K-MEANS UNTUK CLUSTERING DATA SKRIPSI”.

1.2. Rumusan Masalah

Banyaknya data skripi yang ada membuat para mahasiswa kesulitan dalam mencari atau mendapatkan tema untuk melakukan penelitian. Untuk memudahkan hal tersebut maka harus ada sebuah program yang dapat membantu para mahasiswa untuk mencari dan mendapatkan tema dengan mudah. Untuk mencapai hal tersebut, diperlukan adanya sistem untukdapat mengkluster data skripsi yang ada.

1.3. Batasan Masalah

Beberapa batasan permasalahan yang akan dibahas dan terdapat pada penelitian ini adalah sebagai berikut ini:

1. Data skripsi untuk clustering hanya merupakan data skripsi mahasiwa Program Studi Teknologi Informasi di Universitas Sumatera Utara.

2. Data skripi yang digunakan merupakan data skripsi dari tahun 2009 sampai tahun dengan tahun 2014.

3. Data skripsi akan di kluster menjadi 3 kluster yang mana nama kluster didapatkan dari topik besar di Teknologi Informasi

(13)

3 1.4. Tujuan Penelitian

Pada penelitian ini, penulis memliki tujuan untuk mengklaster data skripsi Program Studi Teknologi Informasi di Sumatera Utara dengan mengimplementasikan Algoritma K-Means.

1.5. Manfaat Penelitian

Penulis berharap penelitian yang dilakukan ini bermanfaat sebagai:

1. Fakultas Teknologi Informasi, yang merupakan salah satu acuan pengembangan dalam clustering data skripsi mahasiswa

2. Mahasiswa, sebagai bahan referensi pembelajaran dan tercipatanya roadmap penelitian mahasiswa.

1.6. Metodologi Penelitian

Ada tahap-tahap pengerjaan yang pada dasarnya harus dikerjakan pada penelitian ini yaitu sebagai berikut:

1. Studi Literatur

Tahap pertama ini, yang harus dikerjakan penulis yaitu penulis melakukan pengumpulan serta menggali informasi melalui buku, skripsi, jurnal dan berbagai sumber referensi lainnya yang berkaitan dengan penelitian tersebut seperti text mining, document clustering, dan metode Algoritma K-Means.

2. Analisis Permasalahan

Pada tahapan kedua, hal yang akan dilakukan adalah menganalisa setiap data serta informasi yang telah didapatkan melalui berbagai sumber terkait akan penelitian untuk mendapatkan pemahaman mengenai proses pengolahan data yang akan digunakan, yaitu ImplementasiAlgoritma K- Means untuk Clustering Data Skripsi.

3. Perancangan

Tahapan selanjutnya, hal yang dikejakan yaitu perancangan untuk arsitektur, mengumpulkan data, analisis data serta rancangan antar muka.

Pada dasarnya proses untuk perancangan ini dikerjakan setelah melakukan hasil analisis studi literatur yang telah diperoleh untuk mendapatkan informasi yang sesuai dengan kebutuhan.

(14)

4 4. Implementasi

Tahapan ke empat yang merupakan tahapan implementasi adalah tahap dimana dilakukannya implementasi ke dalam kode berdasarkan dengan hasil analisa dan konsep perancangan yang sebelumnya telah di lakukan.

5. Pengujian

Tahap selanjutnya merupakan tahap pengujian akan hasil yang diperoleh melalui implemetasi metode Algoritma K-Means untuk Data Skripsi.

6. Dokumentasi dan Penyusunan Laporan

Tahapan terakhir yang akan dikerjakan merupakan dokumentasi dan penyusunan laporan hasil evaluasi dan analisis serta implementasi metode Algoritma K-Means untuk Data Skripsi.

1.7. Sistematika Penulisan

Pada penulisannya, skripsi ini memiliki sistematika penulisan yang terdiri dari lima bagian penulisan yang terdiri dari:

Bab 1: Pendahuluan

Pada bab pertama ini, hal yang menjadi pembahasan merupakan latar belakang dari dilakukannya penelitian yang dilaksanakan, rumusan permasalahan dari penelitian, tujuan adanya penelitian, batasan permasalahan yang akan dibahas pada penelitian, manfaat diadakannya penelitian, metodologi yang akan digunakan pada penelitian, serta sistematika penulisan.

Bab 2: Landasan Teori

Bab kedua ini akan mengulas informasi berkaitan dengan bermacam teori yang dibutuhkan sebagai pemahaman dari pembahasan masalah pada penelitian ini. Berbagai teori yang berkaitan dengan text minig, document clustering dan algoritma k-means serta penelitian terdahulu yang berkaitan dengan hal yang akan dibahas.

(15)

5 Bab 3: Analisis dan Perancangan

Bab ketiga pada skripsi ini akan mengulas tentang arsitektur umum, langkah- langkah pre-processing yang dilakukan, analisa peta terapan metode Algoritma K-Means untuk Clustering Data Skripsi.

Bab 4: Implementasi dan Pengujian

Bab ini erat kaitannya dengan bab 3 karena akan membahas tentang implementasi akan hasil rancangan yang sebelumnya telah digambarkan pada bab sebelumnya. Lain dari pada itu, hasil yang diperoleh melalui uji coba terhadap implementasi yang telah dikerjakan juga akan dijelaskan pada bab ini.

Bab 5: Kesimpulan dan Saran

Bab terakhir ini merupakan ikhtisar yang bermuatan rangkuman perancangan yang telah dijabarkan pada bab 3 dan hasil akhir dari penelitian yang telah dilakukan pada bab 4. Tidak hanya berisikan rangkuman penelitian, tak lupa pula saran yang bermanfaat bagi pengembangan peneliti berikutnya.

(16)

6 BAB 2

LANDASAN TEORI

Bab berikut ini, hal yang menjadi pembahasan yaitu berhubungan dengan teori-teori penunjang serta penelitian terdahulu yang erat kaitannyaakan penerapan metode AlgoritmaK-Means untuk Clustering Data Skripsi.

2.1. Text Mining

Dalam penyaringan informasi yang belum diketahui, diperlukan adanya sistem yang dapat memproses informasi dengan cepat dan akurat. Salah satu proses yang dapat digunakan adalah text mining. Berikut beberapa pendapat mengenai text mining, yaitu: Text Mining telah menjadi bidang penelitian yang sangat menarik dikarenakan dapat menemukan informasi berharga dari teks yang tidak terstruktur (Shilpha et al., 2014).

Text mining adalah proses ekstraksi pengetahuan atau informasi yang menarik maupun tidak menarik dari data teks yang tidak terstruktur (Vijayarani et al., 2016).

Dari kedua pendapat tersebut menjelaskan peran penting penggunaan text mining dalam penelitian untuk mengelompokkan suatu informasi dari data teks. Text Mining adalah proses analisis untuk mengorganisir berbagai kata yang tidak terstruktur dalam suatu wilayah menjadi terstruktur dengan cara mengekstrak bentuk informasi dan juga pengetahuan belum terstruktur yang terdapat dari berbagaibanyak data yang diperlukan. Oleh karena itu, text mining banyak digunakan di dalam suatu penelitian yang mana dapat mempermudah terorganisir banyaknya sebuah data menjadi data yang relevan. Masukkan untuk text mining dapat berupa dokumen word, PDF, kutipan text, email, dll.

2.2. Clustering

Clustering adalah suatu proses partisi sekumpulan objek yang menjadi beberapa kelas dari satu set yang menggunakan klasifikasi tanpa pengawasan yang mana bisa dilaksanakan dengan cara mengaplikasikan beberapa macam persamaan serta prosedur tentang jarak algortima.(Venkateswarlu & Raju., 2013)

Pendapat yang dikemukakan oleh Venkateswarlu tersebut, erat kaitannya dengan penyataan yang dikemukakan oleh Hermawati, yaitu: “Suatu klaster didapatkan dengan membagi set data ke dalam kelompok-kelompok yang berbeda

(17)

7 yang digambarkan dengan sebuah titik. Titik-titik tersebut memiliki suatu unsure yang menyimpan informasi yang ada pada data, semakin mirip unsure yang dimiliki oleh suatu titik, maka titik tersebut akan semakin mendekat dengan titik yang memiliki unsure yang sama. Begitu pula sebaliknya, semakin berbeda unsure yang dimiliki dari suatu titik, semakin menjauh titik tersebut dengan titik yang lain. Dengan begitu, dapat terlihat dengan jelas, titik-titik mana saja yang memiliki unsure yang kemiripannya paling mendekati dengan yang dicari dan titik-titik mana saja yang memeliki unsure yang paling jauh dari pencarian yang dilakukan.” (Hermawati,.

2013).

Clusturing memudahkan kita dalam mengelompokkan data yang ada.

Berdasarkan informasi yang terdapat dalam data, informasi tersebut dikelompokkan dengan tingkat similaritas untuk disatukan dalam klaster-klaster tertentu. Pada akhirnya, titik-titik data dalam klaster akan berkumpul dalam suatu klaster yang memiliki tingkat similaritas informasi yang tinggi sampai terendah.

Analisis klaster adalah suatu teknik multivariat yang bertujuan untuk membuat pengelompokkan beberapa objek dengan berdasarkan karakteristik yang dimiliki dari data. Analisis klaster mengklasifikan setiap objek yang memiliki suatu kesamaan akan ditempatkan dalam satu klaster yang sama.Analisis klaster memiliki fokus untuk membandingkan objek berdasarkan set variabel. Set variable cluster adalah set variabel yang mempresentasikan karakterisktik yang ada pada objek-objek yang dipakai.

Dalam clustering, terdapat set cluster. Set cluster tersebut diperoleh dari analisis cluster. Set cluster dari hasil analisis cluster yang dilakukan, disebut juga dengan pengelompokan. Metode yang berbeda pada pengelompokan, dapat memiliki hasil clustering yang berbeda walau terdapat pada set data yang sama. Pembagian yang dikerjakan adalah pengunaan algoritma clustering. Hasil dari clustering yang dilakukan tersebut berfungsi untuk menunjukkan penemuan kelompok yang sebelumnya tidak diketahui ada pada data. (Han et al,. 2011).

Pengertian tentang clustering juga dikemukan oleh Kotu dan Deshpande (2015), “Metode clustering memiliki pengertian sebagai suatu proses untuk ditemukannya suatu kelompok dalam sebuah data. Pengelompokkan yang dilakukan disebut sebagai clustering, sedangkan hasil dari pengelompokkan itu sendiri disebut sebagai cluster. Clustering dilakukan untuk memudahkan pencarian informasi dalam

(18)

8 kelompok-kelompok data. Dengan banyaknya informasi yang tersedia pada saat ini, penemuan informasi yang relevan menjadi semakin sulit dilakukan, dengan adanya clustering diharapkan dapat mempermudah identifikasi informasi dalam suatu kelompok data.”

Pengertian-pengertian yang telah dikemukakan oleh beberapa ahlinya tentang clustering, dapat ditarik sebuah kesimpulan bahwa clustering merupakan metode pengelompokan data berdasarkan informasi yang dikumpulkan membentuk suatu cluster yang digambarkan oleh titik-titik yang akan berkumpul semakin dekat apabila memiliki spesifikasi informasi yang sama dan titik tersebut akan semakin menjauh apabila spesifikasi informasi tersebut tidak memiliki kesamaan informasi.

2.2.1. Text Clustering

Text clustering adalah pengaplikasian dari cluster analisis yang berdasarkan dokumen text. Text clustering menggunakan machine learning dan natural languange processing (NLP) untuk mengartikan dan mengkategorikan data teks yang tidak tersetruktur. Text clustering akan bekerja secara otomatis dengan sistem yang dibuat yang didalam nya terdapat algoritma untuk memastikan kata yang terdapat pada dokumen dapat diekstrak informasinya.

Beragam teks pada dokumen yang tesedia, akan di kelompokkan berdasarkan setiap karakteristik yang ada pada teks. Hal ini dilakukan untuk meng-cluster dokumen menjadi beberapa cluster yang berisi informasi sehingga dapat dengan mudah untuk penemuan informasi yang di inginkan.

2.3 K-Means Clustering

Satu dari berbagai macam prosedur yang dipergunakan dalam clustering adalah K-Means. Pada definisinya, K-Means merupakan suatu prosedur masukan non- hierarchical clustering yang berfungsi untuk pengelompokkan data menjadi beberapa cluster. Cara pengelompokan data didasarkan pada tingkat keistimewaan yang dimiliki, sehingga data yang memiliki tingkat keistimewaan yang setara akan berkelompok kedalam sebuah cluster, begitu pula sebaliknya yang memiliki tingkat keistimewaan yang berbeda akan berkelompok dalam cluster yang lainnya. Dalam pengambilan keputusan bagi pengguna kebijakan, sangat dibutuhkan informasi yang

(19)

9 berkelompok atau ter-cluster sehingga didapatkan infomasi yang sesuai dengan kebutuhan.

Algoritma K-Means merupakan model pemusatan dalam mengelompokkan data. Model pemusatanmerupakan model yang menggunakan suatu pusat data untuk membuat cluster. Pusat datamerupakan titik sentraldalam suatu cluster yang memiliki nilai. Pusat tersebutdipergunakan sebagai penghitung jarak objek data terhadap pusat data. Apabila salah satu dari objek suatu data yang terdapat pada cluster mempunyai jarak paling pendek dari pusat data, artinya objek data tersebut adalah objek data yang memiliki tingkat informasi yang paling relevan dari yang dicari oleh pngambil keputusan. Dalam meminimalkan kesalahan ganda pada permasalahan suatu pengelompokkan, Algorithma K-Means dijadikan sebagai salah satu algoritma pembelajaran sederhana. (Singla and Karambir,. 2012).

Hermawati,. 2013 memberikan pendapatnya, yaitu Algorithma K-Means adalah salah satu algoritma yang mendasarkan pada pendekatan partitional clustering.

Hal ini memiliki pengertian bahwa setiap cluster yang terbentuk dikaitkan kepada satu buah centroid (titik tengah/titik pusat). Pada prakteknya, jumlah klaster “K”

ditentukan oleh beberapa faktor dengan menggunakan algoritma yang sangat sederhana. Hal tersebut dilakukan sebagai berikut ini::

a. Dengan memilih titik “K” sebagai titik pusat pertama b. Lalu pengulangan kembali

c. Setelahnya membentuk cluster “K” dengan meletakkan setiap titik yang paling dekat

d. Lalu perulangan kembali perhitungan titik pusat pada setiap cluster e. Lakukan sampai titik tengah tersebut tidak bergerak berubah

Clustering K-Means adalah salah satu proses pengelompokan dengan berbasiskan pada prototype. Algorithma K-Means merupakan algoritma untuk meng- klaster yang paling sederhana dan umum dipergunakan dalam mencapai pengelompokkan data. Pada dasarnya algorithma ini membagi kumpulan data yang ada ke dalam cluster k. Prototype itu sendiri memiliki pengertian sebagai pusat massa atau lebih tepatnya adalah pusat cluster. Jumlah klaster (k) yang diperlukan untuk pengelompokkan kumpulan data yang ada ditentukan oleh pengguna itu sendiri.

(Kotu & Deshpande,.2015).

(20)

10 Kotu and Deshpande juga menerangkan bahwa pada titik pusat data pada clustering tidak harus berarti titik real dari kumpulan data. Tetapi titik ini juga bias di ibaratkan dengan titik imajinasi, dimana titik tersebut berfungsi sebagai perwakilan dari cirri khas setiap data yang telah dikumpulkan. Hal ini erat kaitannya dengan tujuan dasar dari clustering. Karena pada dasarnya clustering k-means memiliki tujuan sebagai penemu dari titik pusat yang akan membentuk menjadi sebuh klaster.

Algoritma K-Means dirangkai dengan pemikiran yang cukup sederhana.

Berawal dengan ditetapkannya dengan beberapa cluster yang akan dibentuk. Setelah itu, memilih objek mana saja yang terdapat di dalam cluster untuk dipergunakan sebagai titik pusat (centroid point) cluster. Agar tetap terjadi kestabilan dalam prosesnya, algoritma dengan menggunakan proses k-means, akan melakukan langkah yang berulang. Langkah-langkah tersebut terdiri dari:

1. Penentuan koordinat titik tengah yang akan dicapai pada setiap klaster 2. Penentuan jarak untuk setiap objek terhadap koordinat titik pusat

3. Pengelompokan beberapa objek pada data dengan didasarkan melalui jarak minimum.

Seperti pada pernyataan sebelumnya tentang algoritma K-Means dalam clustering, (Singla & Karambir,. 2012) juga menjabarkan tentang algoritma K-Means dalam clustering. Mereka mengidentifikasi bahwa analisa pada clustering didasarkan pada suatu tingkat kemiripan. Tingkat kemiripan yang dimaksud dalam hal ini adalah seberapa mirip atau paling tidak seberapa banyak satu data memiliki informasi yang sama dengan data yang lainnya. Dengan adanya kesamaan informasi yang terdapat dalam data akan mengakibatkan terjadinya kegiatan saling tarik menarik informasi.

Semakin mirip informasi yang dimiliki dalam data, akan semakin dekat letaknya dengan titik pusat data yang memiliki informasi yang sama. Hal ini juga akan mengurangi akan fungsi kesalahan ganda yang terdapat dalam pencarian.

Dari berbagai penjelasan sebelumnya, dapat dipahami bahwa k-means adalah salah satu cara untuk memproses data dengan sifat non-hirarki. Hal ini juga ditunjukkan dengan cara dimana algoritma ini berusaha untuk membagi kumpulan data yang tersedia menjadi satu atau beberapa klaster.

(21)

11 Tentu saja hal yang dilakukan pertama sekali adalah identifikasi data yang akan di klaster, misalnya:

Xij (i=1,...,n; j=1,...,m)

Note: “n” merupakan pusat setiap cluster yang ditetapkan secara bebas Ckj (k=1,...,k; j=1,...,m).

Hitungan akhirnya adalah selisih yang ada di antara setiap data dengan setiap pusat klaster (Mikael., 2017).

(Han & Kamber., 2006) menyatakan bahwaalgoritma k-means beroperasi berdasarkan data yang telah dibagi di masing-masing cluster yang telah ditentukan sebelumnya dan hitungan jarak yang dilakukan bedasarkan pada tingkat kesamaan yang dimiliki oleh setiap data. Berbagai tahap algoritma dasar k-means adalah sebagai berikut:

1. Penentuan jumlah k sebagai cluster yang akan dibentuk.

2. Penentuan untuk pusat clusterdengan cara acak sebanyak k.

3. Penentuan jarak pada tiap data terhadap titik pusat pada cluster(centroid), 4. Pengelompokkan semua data yang akan dinilai berdasarkan tingkat

kedekatannya terhadap centroid(jarak terkecil).

5. Penentuan untuk pusat cluster baru dengan cara memperbaharui nilai titik pusat dari rata-rata cluster yang bersangkutan dengan menggunakan persamaan sebagai berikut:

𝑦_𝑗(𝑡 + 1) = 1

𝑁_𝑠𝑗∑ 𝑗𝜖𝑠𝑗 𝑥_𝑗

...(2.1) 6. Mengulangi langkah ke 3 hingga ke 5 sampai didapatkannya anggota yang

ada pada setiap cluster tidakakan berubah.

7. Jika langkah ke 6 sudah terpenuhi, maka nilai pusat cluster pada perulangan terakhir akan digunakan sebagai parameter untuk dokumen yang telah ditentukan.

(22)

12 2.4 Cosine Similarity

Cosine Similarity adalah fungsi perhitungan yang digunakan untuk menghitung besarnya derajat kemiripan diantara dua vektor. Dengan menggunakan cosine similarity, akan didapatkan nilai dari data antara vector yang satu dan vector lainnya. Nilai tersebut nantinya akan menunjukkan seberapa dekat suatu titik dengan titik pusat yang telah ditentukan.

(Hamzah et al., 2008) berpendapat bahwa hasil output yang didapatkan dengan menghitung jarak paling baik dapat dilakukan dengan menggunakan cosine similarity dengan menggunakan persamaan:

𝑐𝑜𝑠𝑆𝑖𝑚(𝑑_𝑗, 𝑞) =

→ → 𝑑_𝑗. 𝑞

|→ 𝑑_𝑗| . |→

𝑞 |

= ∑^𝑖_𝑖=1(𝑊_𝑖𝑗. 𝑊_𝑖𝑞)

√∑𝑡 𝑊_𝑖𝑗2.∑^𝑡_𝑖=1𝑊_𝑖𝑞2 𝑖=1

...(2.2) Dengan menggunakan cara perhitungan yang diatas, jumlah selisih atau jarak yang terdapat pada setiap titik data akan lebih akurat. Sehingga dengan menggunakan hasil dari perhitungan tersebut, dapat ditentukan seberapa dekat suatu data dengan informasi yang di inginkan oleh pencari informasi. Hal ini tentu saja dapat memudahkan pencari informasi dalam mendapatkan data yang akurat dan relevan sebagai hasilnya.

2.5 Document Processing

Dalam memproses kumpulan data yang ada, tentu saja terdapat beberapa hal yang perlu dilakukan sebelumnya. Dokumen yang terkumpul akan diproses terlebih dahulu. Proses yang akan dilalui oleh sebuah data akan terbagi menjadi beberapa bagian. Bagian-bagian proses data tersebut adalah case folding, tokenizing, stopword filtering dan juga stemming.

2.5.1. Case Folding

Case folding merupakan suatu proses untuk mengkonversikan seluruh huruf yang terdapat pada dokumen dari huruf “a,,, sampai dengan ,,,z” menjadi huruf kecil.

Penggunaan huruf yang tidak konsisten pada dokumen sering kali terjadi. Adanya penggunaan huruf kapital juga dapat kita lihat pada berbagai dokumen. Oleh sebab itu, proses case folding ini sangat dibutuhkan. Sehingga semua huruf kapital yang

(23)

13 terdapat dalam dokumen akan diubah menjadi huruf kecil dan konsistensi penulisan akan terjadi.

Ada kalanya, penerapan huruf kapital dan huruf kecil tidak digunakan dengan konsisten. Hal ini akan mempengaruhi proses dalam clustering dokumen. Mengubah seluruh huruf kapital pada dokumen menjadi huruf kecil, adalah suatu hal yang seharusnya dilakukan dalam proses clustering document.

2.5.2. Tokenizing

Selain mengubah huruf kapital menjadi huruf kecil, proses penting selanjutnya adalah tokenizing.Pada tokenizing tanda baca seperti petik tunggal (‘), titik (.), semicolon (;), titik dua (:) adalah karakter yang penting yang dapat digunakan untuk memisahkan kalimatyang akan di baca oleh program. Sehinga program tidak salah dalam membaca dan mengartikan informasi.

Tanda baca memiliki fungsi yang sangat penting dalam memberikan informasi pada data. Program akan membaca informasi dengan benar apabila, dokumen tersebut memuat tanda baca yang benar pula. Maka dari itu, penggunaan tanda baca merupakan salah satu hal penting yang harus diperhatikan.

2.5.3. Stopword Filtering

Proses berikutnya dalam document processing adalah stopword filtering.

Pengguna algoritma akan menentukan kata-kata yang akan dimasukkan pada stop word list. Pengertian stop word list adalah daftar kata yang harus dihilangkan.

Pemahaman mudahnya adalah setiap kata yang terdapat pada stop word list akan dihilangkan. Dari kumulan data yang ada, apabila data tersebut memuat salah satu kata yang terdapat pada stop word list, maka kata terebut akan dihilangkan secara otomatis. Dan apabila data tersebut tidak mengadung kata yang terdapat pada stop word list, maka data tersebut akan tetap melanjutkan proses yang ada. Hal ini digunakan untuk menyaring kata yang diperlukan.

Penyaringan kata pada data dilakukan untuk mendapatkan informasi yang tepat. Adanya kata-kata yang kurang efisien peggunaanya, dapat dimasukkan dalam stop word list sehingga tersaring dan tidak dimunculkan pada pencarian informasi.

Program akan membaca setiap kata yang ada dalam dokumen dan memproses kata tersebut.

(24)

14 2.5.4. Stemming

Tahapan selanjutnya adalah stemming. Proses stemming memiliki tujuan menangkap kata dasar yang dimiliki oleh kata kerja yang telah mendapatkan imbuhan kata atau keterangan lainnya pada kata dasarnya. Terdapat banyak kata dasar yang telah ditambahkan dengan imbuhan untuk memperjelas suatu kata. Contohnya:

memprogram memiliki kata dasar program. Untuk menentukan kata dasar pada suatu data dilakukanlah proses stemming. Porter Stemming for Bahasa Indonesia merupakan algoritma stemming yang digunakan pada praproses.

Pada implementasinya, hasil stemming ini dilakukan pengecekkan pada daftar kata dasar yang ada. Proses ini sangat diperlukan karena banyaknya kata yang telah mendapatkan imbuhan yang terdapat suatu data. Sedangkan untuk mencapai nilai dari informasi suatu titik pada suatu cluster, dibutuhkan kata-kata yang memiliki unsur kesamaan.

2.6 TF-IDF

TF-IDF merupakan singkatan dari Term Frequency (TF) dan Inverse Document Frequency (IDF). TD-IDF merupakan sebuah metode penilaian yang mengaitkan antara term frequency dan inverse document frequency. Pada prosesnya setiap elemen dokumen yang telah di ekstrak akan diwaliki oleh sebuah vektor.

Vektor tersebut akan diberikan nilai pada setiap pemberhentian sesuai dengan perhitungan pada TF-IDF.

Langkah pada penilaian TF-IDF diawali dengan penemuan nomor kata yang diketahui sebagai bobot atau frequency term pada tiap dokumen setelah dilakukan pengalian oleh inverse document frequency. Berikut adalah pengertian dari term frequency, term weighting, inverse document frequency dan TF-IDF.

2.6.1 Term Frequency

Term Frequency (TF) didefinisikan sebagai tingkat seringnya satu kata (term) mucul pada sebuah dokumen yang bersangkutan. Semakin sering kata tersebut muncul, maka nilai yang dimiliki kata itu akan semakin besar. Begitu pula sebaliknya, kata yang jarang digunakan akan memiliki nilai yang lebih kecil. Dengan kata lain, term frequency diperlukan untuk menghitung nilai pada kata yang ada di dalam sebuah dokumen.

(25)

15 Contoh dari term frequency adalah sebagai berikut. Dalam sebuah dokumen terdapat kata “cluster”. Jumlah muculnya kata cluster pada dokumen tersebut akan dihitung. Dokumen A terdapat 20 kali pengulangan kata “cluster”, dokumen B terdapat 30 kali pengulangan kata “cluster”, begitu pula seterusnya.

Dalam term frequency terdapat beberapa persamaan yang dapat digunakan untuk menghitung nilai dari pada. Persamaan itu terbagi menjadi:

a. TF biner (binary TF) merupakan persamaan yang memiliki nilai 1 dan 0.

Nilai 1 diberikan pada dokumen yang memiliki kata yang di tentukan, dan nilai 0 untuk dokumen yang idak memiliki kata yang ditentukan.

b. TF murni (raw TF) merupakan persamaan yang nilainya ditentukan dari seberapa sering kata yang ditentukan muncul dalam suatu dokumen.

Apabila kata yang ditentukan muncul sebanyak 10 kali, maka nilai dokumen itu adalah 10.

c. TF logaritmik merupakan persamaan dengan rumus:

{𝑇𝐹 = {1 + 𝑙𝑜𝑔₁₀ .

(𝑓_𝑡,𝑑)

0 ,,𝑓_𝑡,𝑑 > 0 𝑓_𝑡,𝑑 = 0}

...(2.3) Note: ft,d merupakan frekuensi term (t) pada dokumen (d)

d. TF normalisasi merupakan persamaan dengan rumus:

𝑇𝐹 = 0.5 + 0.5 𝑥 [ 𝑓_𝑡,𝑑

𝑚𝑎𝑥{𝑓_𝑡^′_,𝑑:𝑡^′_{,𝑑 𝜖 𝑑}}]

...(2.4) 2.6.2. Term Weighting

Term Weighting yaitu menghitung nilai dari setiap term yang telah disimpan.

Setelah setiap kata dalam suatu dokumen memiliki nilai, nilai tersebut akan dijumlahkan dengan menggunakan persamaan. Hal ini dilakukan untuk mendapatkan nilai pada semua kata dengan akurat. Persamaannya adalah sebagai berikut ini:

𝑤_𝑖𝑗 = 𝑡𝑓_𝑖𝑗𝑥𝑖𝑑𝑓_𝑗 𝑤_𝑖𝑗 = 𝑡𝑓_𝑖𝑗𝑥 𝑙𝑜𝑔( 𝐷

𝑑𝑓_𝑗)

...(2.5)

(26)

16 2.6.3. Inverse Document Frequency

Inverse Document Frequency (IDF) merupakan dokumen yang mengandung term atau token atau kata t. Untuk mendapatkan nilai IDF dapat digunakan persamaan.

𝑖𝑑𝑓_𝑗 = 𝑙𝑜𝑔 𝑑 𝑑𝑓_𝑗

...(2.6)

Note: D merupakan jumlah semua dokumen, dfj merupakan jumlah dokumen yang mengandung term.

2.6.4. Weight Term Document (TF-IDF)

Weight Term Document (TF-IDF) dari suatu term atau token atau kata yang merupakan hasil perkaliaan antara tf weight dengan idf.

Ada beberapa contoh yang dapat kita temukan untuk memahami hasil persamaan TF-IDF. Hasil akhir dari persamaan ini adalah adanya nilai yang terbentuk dari sebuah vector diantara dokumen dan kata yang telah ditentukan.

2.7 Penelitian Terdahulu

Pada dasarnya, penelitian tentang K-Means Clustering bukanlah suatu hal yang baru. Sampai saat ini, sudah terdapat banyak penelitian terdahulu mengenai K-Means Clustering untuk dokumen teks, salah satunya adalah PurnamaNingsih et al (2014) yang melakukan penelitian tentang pemanfaatan metode k-means clustering dalam penentuan penjurusan siswa SMA. Pada penelitiannya, rincian data dan hasil adalah sebagai berikut:

 Total data yang digunakan adalah 255 data sampel siswa yang terdiri dari jurusan IPA dan IPS.

 Hasil dengan pengujian terbaik pada praprocessing clustering K-Means IPA sebesar akurasi 0.905882, sedangkan pengujian terbaik pada praprocessing clustering K-Means IPS sebesar akurasi 0.905882.

(27)

17

 Hasil perbandingan clustering terbaik pada prapocessing clustering K-Means IPA dan IPS menunjukkan bahwa tidak ada siswa yang diterima di dua jurusan IPA/IPS atau siswa ditolak di keduanya.

Penelitian lain yang dilakukan oleh Oyelade et al (2010) adalah tentang pengaplikasian algorithma k-means clustering untuk memprediksi prestasi akademik mahasiswa. Penilitian ini bertujuan untuk menjadi tolak ukur perkembangan kinerja mahasiswa di institusi yang lebih tinggi. AlgorithmaK-Means dengan Euclidean distance diaplikasikan pada penelitian ini. Hal ini bertujuan untuk meningkatkan limitasi yang ada pada model.

Ada pula penelitian dari Rosmini et al (2018) tentang implementasi metode k- means dalam pemetaan kelompok mahasiswa melalui data aktivitas kuliah. Data yang digunakan pada penelitian ini terbagi menjadi:

 Sampel yang digunakan bejumlah 20 data mahasiswa

 Kriteria yang digunakan sebagai parameter atau tolak ukur pengelompokan, yaitu:

 IPK

 Prestasi

 Organisasi Kampus

 Tanggungan biaya kuliah

 Pekerjaan

 Status

Penelitian ini memiliki hasil diperolehnya 2 (dua) cluster, yaitu cluster A dengan prediksi mahasiswa lulus tepat waktu dan cluster B dengan mahasiswa yang tidak lulus tepat waktu.

Penelitian lainnya dilakukan oleh Agustina et al. Penelitian ini membahas tentang clustering kualitas beras berdasarkan ciri fisik menggunakan metode k-means.

Tujuan dari penelitian ini adalah untuk membuat sistem penunjang keputusan dalam menentukan klasifikasi mutu beras. Tidak seperti penelitian yang dilakukan oleh Rosmini et al yang menghasilkan 2 cluster, pada penelitian ini dihasilkan 3 (tiga) pusat cluster akhir, yaitu:

 Pusat pada cluster 1 berjumlah 5,89333;2,05

(28)

18

Dari ketiga cluster tersebut, dihasilkan validasi sebesar 92,82% yang menunjukan bahwa program ini dapat dijadikan acuan dalam klasterisasi kualitas beras.

Contoh penelitian lain juga dilakukan oleh Robani & Widodo (2016) yang melakukan penelitian tentang algorithma k-means clustering untuk pengelompokkan ayat Al-Quran pada terjemahan Bahasa Indonesia yang bertujuan untuk menghasilkan sistem informasi.Penelitian ini menggunakan indeks pada siluet Surah Al-Fatihah yang meghasilkan nilai positif sebesar 0.336 yang berarti bahwa data dalam kelompok yang tepat, sedangkan frekuensi kata kunci versus jumlah data menghasilkan persentase 53%, yang berarti kata kunci mewakili setengah dari data di cluster.

Kesimpulan yang dapat diambil dari hasil penelitian ini adalah bahwa hasil uji siluet berbanding lurus dengan jumlah data cluster dan berbanding terbalik dengan dimensi data.

Dengan adanya beberapa contoh penelitian yang telah dilakukan oleh para ahli tersebut, dapat dilihat bahwa clustering data sangat bermanfaat dalam hal mengumpulkan informasi. Dengan menggunakan clustering data terutama menggunakan algoritma k-means, pengelompokkan data dapat dilakukan dengan mudah dan terperinci. Dalam mendapatkan data yang akurat, clustering mengumpulkan semua data yang ada dan dikelompokkan menjadi beberapa kelompok kecil dengan meletakkan sebuah titik tengah sebagai penanda informasi.

Data-data yang terkumpul dari dalam satu cluster, memiliki informasi yang relatif sama. Dengan diletakkan satu buah titik tengah yang memuat informasi yang dibutuhkan, data yang memiliki informasi yang sama dengan titik tengah tersebut akan mengikuti. Dan dapat disimpulkan bahwa data yang terdapat dalam cluster tersebut, memiliki informasi yang di inginkan oleh pencari dan pastinya data tersebut akan lebih relevan dibandingkan dengan data yang dicari secara acak.

Beberapa penelitian yang telah dijabarkan tersebut akan lebih dipahami apabila dimasukkan dalam suatu table. Pemahaman akan penelitian sebelumnya, sangat diperlukan untuk dapat membuat sebuah sistem dengan memakai meode yang

(29)

19 sama. Pemahaman akan penelitian yang telah dilakukan sebelumnya akan membantu dalam perancangan arsitektur pemrograman yang tepat.

Rangkuman dari penelitian terdahulu yang dijelaskan di atas dapat dilihat pada tabel 2.1 berikut:

Tabel 2.1Penelitian Terdahulu K-Means

4 Robani Algoritma K-means 2016 K-means 53%

dan Untuk

Widodo Pengelompokan Ayat Al-Qur’an

No Peneliti Judul Penelitian Tahun Metode Akurasi

1 Oyelade Pengaplikasian 2010 K-Means Berfungsi

et al. Algorima K-means Euclidean Distance Dengan

Clustering untuk Baik

Memprediksi Sebagai

Prestasi Akademik tolak ukur

2 Rosmini Implementasi metode 2018 K-means et al. K-meansdalam

Pemetaan Kelompok Mahasiswa

3 Agustina Clustering kualitas K-means 92,82%

et al. Beras berdasarkan Ciri fisik

Menggunakan

(30)

20 BAB 3

ANALISIS DAN PERANCANGAN SISTEM 3.1. Identifikasi Masalah

Pada saat ini banyak peneliti telah memperkenalkan beragam metode untuk mengembangkan proses klasifikasi yang terdapat pada dokumen. Sebagian peneliti meneliti tentang proses klasifikasi yang tepat untuk digunakan dalam proses prediksi penentuan kelompok.

Pengembangan-pengembangan yang dilakukan oleh peneliti sebelumnya sangat bermanfaat dalam proses kalsifikasi data. Untuk mendapatkan informasi yang relevan dan akurat sekarang ini, sangatlah sulit dilakukan. Dengan adanya berbagai macam data yang memuat berbagai macam informasi yang tersebar, sulit bagi pencari informasi mendapatkan informasi yang di inginkan.

Proses klasifikasi data yang dilakukan oleh beberapa peneliti, membantu pencarian informasi dengan cara yang efektif. Dengan mengelompokkan seluruh data yang ada, maka proses dalam mendapatkan informasi pun akan menjadi lebih mudah.

Semua yang terdapat pada laporan ini adalah bagaimana memprediksi dan menganalisis penentuan kelompok yang tepat agar dapat mengorganisir data skripsi yang ada dengan hasil analisis yang akurat dan tepat.

3.2 Data Penelitian

Pada suatu penelitian, data merupakan salah satu hal yang paling penting.

Dalam hal ini, data yang digunakan diperoleh dari Fakultas Infomasi Teknologi yang menyimpan beragam data skripsi dalam format Pdf. Data tersebut di beri nama dengan angka integer, contoh: 1.pdf, 2.pdf, 3.pdf, dan seterusnya. Data penelitian yang digunakan menggunakan pengkodean karakter UTF-8.

Pemberian nama tersebut dibuat agar mempersingkat nama file dan memudahkan program dalam proses pemanggilan file. Algoritma pemanggilan hanya berupa looping saja dengan dibatasi seberapa banyak total file yang terdapat didalam folder.

(31)

21 3.3 Analisis Sistem

Metode yang diajukan pada penelitian ini dapat dilihat pada gambar 3.1 yang menunjukan arsitektur umum dan rangkaian langkah yang dilakukan untuk mengkluster data skripsi. Rangkaian langkah ang dimaksud adalah sebagai berikut : data skripsi pdf yang diperoleh dari Fakultas Teknologi Informasi yang disimpan di satu folder; lalu pdf akan melewati tahapan pre-processing seperti case folding, tokinizing, filtering, dan stemming. Semua tahapan pre-processing untuk memperoleh teks yang bisa diberi bobot; Setelah melewati pre-processing, teks akan diberikan pemboboton kata dengan menggunakan TD-IDF; Setelah itu dilakukan proses clusteringyang akan dijalakan secara otomatis dengan menggunakan metode algortima K-Means.

Gambar 3.1 Arsitektur Umum

(32)

22 Pada tabel diatas, dapat dilihat proses yang dilalui oleh sebuah data. Data tersebut akan di input dan akan menghasilkan sebuah folder. Folder yang memuat data tersebut akan melalui proses tahap selanjutnya yaitu document processing.

Document processing itu sendiri sudah dijelaskan pada bab sebelumnya. Setelah melalui tahap document processing, tahap berikutnya tentu saja tahap TF-IDF. Hasil dari penilainya yang dilakukan akan menghasilakn sebuah cluster. Dan hasil akhir dari data yang telah diproses tersubut adalah skripsi yang telah terstruktur. Untuk lebih jelasnya, akan diuraikan dengan cara berikut ini.

3.3.1. Input

Proses untuk memasukkan file kedalam program pemroses agar dapat diklasifikasi dengan cara menamai file tersebut dengan angka integer seperti yang telah di jelaskan sebelumnya, kemudian mengumpulkan file tersebut kedalam satu folder. Program python memanggil data tersebut melalui pemanggilan folder.

Sehinggajika ada penambahan file yang ingin di kluster pengguna hanya memasukkan

file melalui folder tersebut.

Gambar 3.2 Data Skripsi

(33)

23 Proses selanjutnya adalah proses input data yaitu proses memasukkan isi skripsi kedalam struktur data dalam bahasa pemograman python. Proses ini dimulai dari memilah lebar skripsi, mengambil lembar yang penting dan membuang yang tidak penting.

3.3.2. Proses Preprocessing

Ketika file skripsi di panggil dan akan dimasukkan kedalam proses pembobotan langkah sebelumnya adalah memeriksa isi dokumen tersebut dan melakukan pengecekan terhadap kata-kata yang ada pada setiap file agar file dapat diklasifikasi berdasarkan kontennya. Proses ini disebut pre-processing.

Proses Preprosessing dalam penelitian ini terbagi menjadi empat proses, antara lain sebagai berikut:

a. Case Folding

Terkadang konten yang terdapat pada skripsi mengandung kata-kata salah penulisan huruf sehingga harus dilakukan standarisasi terhadap teks yang ada.

Contohnya jika terdapat kesalahan pengetikan huruf kapital Biometrik, Sidik Jari yang seharusnya biometrik, sidik jari, perlu dilakukan standar apakah akan disimpan dengan huruf kecil atau huruf besar. Disamping itu proses ini hanya menerima huruf a sampai dengan z yang di terima. Karakter selain huruf akan dihilangkan dan dianggap pemisah.

Hasil Tahapan Case Folding kata kunci : biometrik, sidik jari

b. Tokenizing

Disamping itu konten skripsi juga berisi kata sambung dan kata-kata lain yang tidak sesuai dengan kata kunci yang sesuai dengan tema skripsi dan judul. Maka dari itu sebelum proses selanjutnya dilakukan, aplikasi akan memisah kalimat menjadi potongan-potongan kata tanda spasi, petik tunggal (‘), titik (.), semicolon (;), titik dua (:) adalah karakter yang penting yang dapat digunakan untuk memisahkan kalimat.

Proses ini disebut dengan tokenizing.

(34)

24 Hasil Tahapan Tokenizing

kata kunci :

biometrik, sidik jari

Output hasil dari proses ini adalah sebagai berikut:

there are 49849 items in vocab_frame words

identifikasi identifikasi dan dan klasifikasi klasifikasi sidik sidik jari jari

Gambar 3.3 Contoh ouput vocabulary frame c. Filtering

Pada proses ini pengambilan kata-kata penting dilakukan. Kata-kata tersebut dihasilkan dari proses tokenizing yang telah dilakukan sebelumnya. Dalam proses ini dilakukan algoritma stop list yaitu membuang kata-kata yang kurang penting dan wordlist menyimpan kata-kata yang penting. Kata-kata sambung dalam bahasa Indonesia seperti dari, yang, ke, di adalah contoh kata-kata yang biasa ditemukan setiap dokumen skripsi. Kata-kata tersebut harus dihilangkan karena dapat menambah ukuran index matrik dan memperlambat proses klusterisasi.

d. Stemming

Setelah proses filtering dilakukan, proses Stemming dilaksanakan guna memperkecil ukuran index matrik dan mempercepat proses. Proses yang terjadi dalam stemming ialah memetakan kata-kata yang mirip atau hampir mirip berdasarkan kata dasar yang sama, seperti, : digunakan, menggunakan, memiliki kata dasar yang sama yaitu guna. Dengan menghapus akhiran dan imbuhan maka akan menemukan kata yang sama dan hasilnya akan memiliki kata yang sama. Sehingga dimungkinkan dapat menghemat index matrik.

(35)

25 Output dari proses stemmer ini adalah sebagai berikut:

Gambar 3.4 Jumlah Total Stemmed

Jumlah kata yang diproses dengan proses stemming terdapat 110.012 kata dari 11 skripsi yang diproses.

3.3.3. Pembobotan kata atau Term weighting TF-IDF

Pada pencarian dokumen yang berbeda pembobotan term harus diperhatikan agar dapat mengetahui isi dari dokumen tersebut. Term dalam hal ini dimaksudkan adalah berupa kata, frase atau hasil indexing lainnya dalam satu dokumen. Dalam proses ini setiap disebut diberikan indikator atau term weight.

Pada proses ini ada yang disebut dengan Term Frequency (TF) adalah berapa banyak kemunculan sebuah dokumen yang dimaksud. Semakin besar bobotnya maka semakin besar juga memberikan nilai yang sesuai sehingga juga semakin besar jumlah kemunculan suatu term (TF Tinggi) dalam dokumen.

Sedangkan proses lain yaitu IDF atau Inverse Document Frequency adalah bagaimana sebuah perhitungan tentang bagaimana term tersebut di distribusikan secara luas pada koleksi dokumen yang bersangkutan. Proses ini menunjukkan tentang ketersediaan term terhadap dalam sebuah dokumen. Nilai IDF akan semakin besar jika dokumen yang mengandung term semakin sedikit.

Proses TF atau Term Frequency dilakukan untuk memperoleh jumlah bobot dari perhitungan jumlah kata yang digunakan. Jika suatu kata atau term terdapat dalam suatu dokumen sebanyak 11 kali maka akan diperoleh bobot.

𝑤𝑒𝑖𝑔ℎ𝑡 = 1 + 𝑙𝑜𝑔(11) = 2,0413

...(3.1)

(36)

26 Tetapi jika term tidak ada pada dokumen tersebut maka bobotnya adalah nol (0). Kemudian untuk IDF atau Inverse Document Frequency. Metode IDF adalah sebuah metode dengan perhitungan dari bagaimana term tersebut didistribusikan secara luas pada koleksi dokumen skripsi yang di teliti. Dalam hal ini semakin sedikit frekuensi kata yang muncul dalam file pdf skripsi maka akan semakin besar nilai tersebut.

Output dari program ini antara lain:

Gambar 3.5 Output proses TF-IDF

Nilai yang terdapat dibagian kiri dengan nilai (0,1052) dapat dijelaskan bahwa 0 adalah index file pertama dilihat pada gambar 4.5, sedangkan 1052 adalah nomor index arraynya yang merujuk pada sebuah kata. Untuk bagian sebelah kanan 0.08705831763659258 adalah bobot yang diperoleh dari proses TF-IDF. Dari 11 skripsi jumlah term yang dihitung ada 2917 term. Dengan bobot tersebut nilai digunakan untuk proses berikutnya

(37)

27 3.3.4. Clustering K-Means

Proses ini dilakukan agar dapat mengkluster dokumen berdasarkan kesamaan konten yang terdapat didalam dokumen skripsi. Proses klusterisasi dengan menggunakan algoritma K-Means memiliki input berupa data float yang dihasilkan oleh proses IDF, jumlah kluster yang diinginkan, nilai titik pusat kluster awal yang diukur secara sembarang, sementara pembobotan awal menggunakan hasil perhitungan Term Frequency.

Proses perhitungan K-Means dalam skripsi ini diperoleh dari hasil proses TF-IDF seperti yang telah dijelaskan sebelumnya. Setiap kata yang terdapat pada setiap skripsi diperoleh index nya dan bobotnya, sehingga setiap kata tersebut memiliki bobot yang berbeda pada setiap dokumen skripsi.

Tabel 3.1 Sampel matrix variabel inputan algoritma Kmean

No

Index

1052 1328 1222 . . 2723

0 0.087058 0.172425 0.697259 . . …

. . . . . . …

10 . . . . . 0.00546

Sampel matrik variabel inputan yang dimasukkan pada algoritma kmean yang terdapat pada tabel 4.1 diperoleh dari output proses yang terdapat pada gambar 4.6.

Kolom No adalah nomor index file yang mewakili 0.pdf, 1.pdf, 2.pdf, dan seterusnya.

Index yang dimaksud disini adalah sebuah kata yang ditandai oleh index.

1. Proses pembuatan Model

Hasil dari proses klustering adalah berupa data hasil proses IDF yang memiliki kedekatan terhadap titik pusat akhir sehingga bisa di sebut dalam hal ini sebagai bagian dari pada kluster. Pencarian nilai kesamaan dengan titik pusat inilah yang menjadi dasar bahwa data yang dimaksud adalah bagian dari kluster.

(38)

28 2. Pengujian data.

Setelah pusat kluster ditemukan dan kemudian menjadi dasar utama mencari tingkat kesamaan maka proses pengujian data dilakukan.

Proses ini dilakukan dengan tahapan hampir sama dengan proses pembuatan model dari input data, preprosesing hingga proses pembobotan kata atau Term weighting TF-IDF. Namun proses klustering tidak dilakukan. Jika nilai IDF sudah ditemukan maka langsung menggunakan algoritma untuk mencari nilai kesamaannya saja dengan nilai titik pusat.

3.4 Proses Input dan Filter Skripsi

Dari pengamatan pada bagian input skripsi pada sub sebelumnya, maka proses yang paling mempengaruhi kecepatan proses sistem bahkan juga dapat mempengaruhi hasil klaster skripsi adalah mengambil bagian konten skripsi dan membuang konten skripsi yang tidak berhubungan dengan judul skripsi.

Ada beberapa hal yang tentunya tidak berhubungan dengan judul skripsi.

Konten yang tidak berhubungan dengan konten skripsi adalah suatu hal yang harus dihapuskan. Hal ini juga telah disebutkan pada bab sebelumnya. Hal ini juga sangat mempengaruhi hasil klaster data yang dilakukan.

Hal dasar yang perlu diperhatikan dalam proses input dan filter data skripsi adalah mengetahui kata apa saja yang diperlukan untuk dapat menyaring informasi sehingga hasil penyaringan kata yang dilakukan tepat seperti yang diharapkan.

Penghapusan beberapa konten yang dilakukan juga merupakan salah satu proses dalam penyaringan kata untuk mendapatkan informasi yang akurat dan relavan.

Penahanan akan kata yang digunakan dalam penyaringan kata dimaksudkan unuk mendapatkan kata yang tepat dalam proses klasifikasi.

Penginputan data dan filterisasi yang dilakukan pada sebuah data merupakan hal yang penting dalam proses klasifikasi data. Adapun tabel yang terdapat dari konten skripsi antara lain.

Tabel 3.2 Daftar Isi Skripsi

No Daftar Isi Bagian Penting Status Keterangan

1 Cover Judul ambil Mengambil judul

skripsi

2 Persetujuan Judul buang sama dengan

cover

(39)

29

3 Pernyataan Judul buang sama dengan

cover 4 Ucapan Terima

Kasih

tidak ada buang

5 Abstrak isi abstrak, kata kunci ambil Kata kunci berisi ringkasan

pembahasan dari awal hingga akhir laporan.

6 Abstract isi abstrak, keywords buang sama dengan abstrak hanya saja berupa bahasa inggris.

7 Daftar Isi Judul Bab dan Sub Bab buang Ada pada bab dan sub bab

8 Daftar Tabel Nama table buang sama dengan yang ada di bab

9 Daftar gambar Nama gambar buang sama dengan yang ada di bab

10 Bab 1 Judul Bab, Sub Bab, paragraf, nama tabel, nama gambar

ambil

15 Daftar Pustaka Nama judul buku, jurnal, prosiding

buang Citasi hanya mengambil bagian isinya

Setelah proses filter lebar skripsi dilakukan langkah selanjutnya adalah memasukkan bagian lembar yang diambil dengan cara mendeteksi nomor lembar.

Struktur skripsi Universitas Sumatera Utara pada bagian pertama tentu berisi cover skripsi, bagian halaman kedua adalah cover dalam skripsi. Pada bagian cover kalimat pertama berisi judul skripsi yang harus di masukkan kedalam struktur data sementara

(40)

30 cover dalam juga serupa maka itu diabaikan. Untuk pendeteksian setiap lebar skripsi pada bagian selain cover di deteksi oleh judul lembar dan nomor lembar.

Gambar 3.6 Contoh Struktur Isi Skripsi

Pencarian lembar yang akan di ekstraksi isinya seperti Abstrak dan Bab di peroleh dengan cara menuliskan kata kunci pengambilan lembar. Contoh nya setiap lebar abstrak bahasa Indonesia di beri judul ABSTRAK dan pada skripsi mahasiswa USU umumnya berada pada lembar ke 6 atau 7. Paragraf atau kalimat setelah kata ABSTRAK merupakan isi abstrak yang harus di ambil. Selain itu hal yang perlu di ambil selain isi abstrak adalahkata kunci. Tiga kata kunci yang terdapat pada abstrak tersebut merupakan isi tema skripsi. Untuk data bab diambil dan dimasukkan kedalam struktur data didalam array.

3.5 Perancangan Sistem

Pada tahap perancangan sistem akan dilakukan perancangan dari sistem Berdasarkan arsitektur umum yang telah diuraikan pada sub bab arsitektur umum, maka pembuatan diagram kerja digunakan untuk memudahkan dalam memahami langkah-langkah kerja yang harus dilakukan. Antara lain sebagai berikut:

(41)

31 1. Pengumpulan Data

Pada tahapan ini dikumpulkan bahan penelitian yang berupa file data skripsi yang berbentuk pdf yang berasal dari skripsiFakultas Teknologi Informasi yang dikumpulkan mejadi satu di dalam folder.

2. Rancangan Tampilan

Pada rancangan halaman tampilan ini pengguna dapat mengupload berkas pdf yang akan di Clustering. Rancangan tampilan dapat dilihat pada gambar 3.7.

Gambar 3.7 Rancangan Tampilan Keterangan :

1 : Header Tampilan

2 : File Pdf yang akan di Upload 3 : Button untuk memulai Clustering 4 : Hasil Upload file Pdf

1

2

3

4

(42)

32 BAB 4

IMPLEMENTASI DAN PENGUJIAN SISTEM

Pada bab ini akan dijelaskan tentang proses pengimplementasian metode pada sistem sesuai peranacangan sistem yang telah dilakukan di bab 3 serta pengujian sistem yang telah dibangun.

4.1 Implementasi Sistem

Pada tahap ini, metode pegimplementasian ke dalam sistem dengan menggunakan pemrograman Python sesuai perancangan yang di lakukan.

Spesifikasi perangkat keras dan lunak yang digunakan untuk membangun sistem ini adalah sebagai berikut :

1. Intel(R) Core(TM) i3-3217U CPU @ 1.80Ghz 2. Kapasitas hardisk 500GB

3. Memori RAM yang digunakan 10,0 GB

4. Sistem operasi yang digunakan adalah Microsoft Windows 10 Home 5. Python 3.7.7

6. Notebook++

7. Jupyter Python Notebook

4.2 Pengujian Sistem

Pengujian sistem dilakukan untuk memeriksa kinerja sistem yang diimplentasikan . Tujuan utama dari pengujian sistem adalah untuk memastikan bahwa sistem telah berfungsi dengan baik sesuai yang di harapkan.

a. Perubahan Nama File

Proses persiapan sebelum file pdf digunakan sebagai data training maka dilakukan pengujian terhadap file pdf tersebut. Dari pengujian beberapa file pdf dengan cara mengambil isi teks dari file tersebut ternyata terdapat file pdf yang tidak bisa diproses untuk di ekstraksi. Ini berkaitan dengan pengkodean katakter yang berbeda selain UTF-8. Dengan demikian file yang tidak bisa diproses dihapus dan di gantikan dengan file lain.