Clustering Artikel Web Kesehatan Dengan Algoritma Self Organizing Maps

(1)

SKRIPSI

INDRA CHARISMA

121402088

PROGRAM STUDI S1 TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

MEDAN

(2)

CLUSTERING ARTIKEL WEB KESEHATAN DENGAN

ALGORITMA SELF ORGANIZING MAPS

SKRIPSI

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah

Sarjana Teknologi Informasi

INDRA CHARISMA

121402088

PROGRAM STUDI S1 TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

MEDAN

(3)

PERSETUJUAN

Judul : CLUSTERING ARTIKEL WEB KESEHATAN

DENGAN ALGORITMA SELF ORGANIZING MAPS

Kategori : SKRIPSI

Nama : INDRA CHARISMA

Nomor Induk Mahasiswa : 121402088

Program Studi : S1 TEKNOLOGI INFORMASI

Departemen : TEKNOLOGI INFORMASI

Fakultas : FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI

INFORMASI

Komisi Pembimbing :

Pembimbing 2 Pembimbing 1

Amalia, ST., M.T Dani Gunawan, ST., M.T

NIP. 19791221 201404 2 001 NIP. 19820915 201212 1 002

Diketahui/disetujui oleh

Program Studi S1 Teknologi Informasi

Ketua,

Muhammad Anggia Muchtar, ST., MM.IT

(4)

ii

PERNYATAAN

CLUSTERING ARTIKEL WEB KESEHATAN DENGAN

ALGORITMA SELF ORGANIZING MAPS

SKRIPSI

Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa

kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

Medan, 27 Agustus 2016

Indra Charisma

(5)

UCAPAN TERIMA KASIH

Puji dan syukur penulis sampaikan ke hadirat Allah SWT yang telah memberikan

rahmat serta restu-Nya sehingga penulis dapat menyelesaikan skripsi ini sebagai syarat

untuk memperoleh gelar Sarjana.

Pertama, penulis ingin mengucapkan terima kasih kepada Bapak Dani Gunawan,

ST., M.T selaku pembimbing pertama dan Ibu Amalia, ST., M.T selaku pembimbing

kedua yang telah meluangkan waktu serta tenaganya untuk membimbing penulis dalam

penelitian serta penulisan skripsi ini. Tanpa inspirasi serta motivasi yang diberikan dari

kedua pembimbing, tentunya penulis tidak akan dapat menyelesaikan skripsi ini.

Penulis juga mengucapkan terima kasih kepada Bapak Prof. Dr. Opim Salim Sitompul,

M.Sc sebagai dosen pembanding pertama dan Ibu Dr. Elviawaty Muisa Zamzami, ST.,

M.T, M.M, sebagai dosen pembanding kedua yang telah memberikan masukan serta

kritik yang bermanfaat dalam dalam penulisan skripsi ini. Ucapan terima kasih juga

ditujukan kepada semua dosen serta pegawai di lingkungan Fakultas Ilmu Komputer

dan Teknologi Informasi yang telah membantu serta membimbing penulis selama

proses perkuliahan.

Penulis tentunya tidak lupa berterima kasih kepada kedua orang tua penulis, yaitu

Bapak Tiharman dan Ibu Elmida, S.Pd.I yang telah membesarkan penulis dengan sabar

dan penuh kasih sayang, serta doa dan dukungan berupa moral maupun materiil yang

selalu menyertai selama ini. Penulis juga berterima kasih kepada seluruh anggota

keluarga penulis yang namanya tidak dapat disebutkan satu persatu.

Terima kasih juga penulis ucapkan kepada teman-teman yang telah memberikan

dukungan dan bantuan selama masa perkuliahan ini, khususnya Yana Trisha Andini

Harahap, Atras Najwan, Maliki Khoirul, Daniel Bonoffi, Imam Muttaqin, M. Wardana,

Reza Ramadiansyah, Joko Kurnianto, Reza Taqyuddin serta seluruh teman-teman

mahasiswa Teknologi Informasi lainnya yang namanya tidak dapat disebutkan satu

(6)

iv

ABSTRAK

Web harvesting dari sebuah mesin web crawler untuk artikel kesehatan berbahasa

Indonesia dapat menjadi sumber informasi kesehatan yang cost-effective di Indonesia.

Agar dapat dimanfaatkan secara optimal seperti untuk machine learning, maka

beberapa tahapan harus dilakukan seperti text pre-processing dan clustering

berdasarkan topiknya. Pada penelitian ini metode yang digunakan terbagi menjadi

empat tahapan. Tahapan pertama yaitu text pre-processing yang terdiri dari tokenizing,

case-folding, filtering, phrase detection, dan stemming. Tahapan kedua yaitu pembobotan kata dari setiap artikel yang ada dengan menggunakan metode TFIDF.

Tahapan ketiga yaitu ekstraksi kata kunci dari setiap artikel. Tahapan terakhir yaitu

proses clustering dengan algoritma Self Organizing Maps yang dibagi menjadi dua

proses. Proses pertama dari clustering adalah memisahkan artikel kesehatan ke dalam

dua korpus yaitu artikel kesehatan yang berhubungan dengan anak dan artikel kesehatan

umum. Proses kedua clustering yaitu mengelompokkan artikel kesehatan pada setiap

korpus tersebut berdasarkan topiknya. Pada penelitian ini jumlah artikel yang di-cluster

adalah sebanyak 533 artikel. Hasil dari penelitian ini adalah dua korpus baru yang berisi

cluster-cluster sesuai dengan topik pada setiap korpus. Kemudian artikel-artikel yang

memiliki kesamaan term akan berada pada cluster yang sama.

Kata kunci: Text mining, Clustering, TFIDF, Self Organizing Maps, Multiword

(7)

HEALTH WEB ARTICLE CLUSTERING WITH SELF ORGANIZING MAPS

ALGORITHM

ABSTRACT

Web harvesting from a web crawler machine for Indonesian health article can be a

cost-effective health information source in Indonesia. In order to be optimally used for such

machine learning, then some processes like text pre-processing and clustering have to

be done. The method used in this research divided into four steps. First step is text

pre-processing that consist of tokenizing, case folding, filtering, phrase detection, and

stemming. Second step is term weighting for all terms in all articles in corpus using

TFIDF method. Third step is keyphrase extraction from each article. The last step is

clustering with self organizing map algorithm, this step divided by two processes. The

first process of this clustering was to seperate the articles into health article related to

children corpus and general health article corpus. The second process of this clustering

was to categorize article each of corpuses based on its topic. In this reseach, the number

of articles are clustered is 533 articles. The results of this study are two new corpuses

containing clusters according to the topics in each corpus. Then the articles that have

similar terms will be on the same cluster

Keywords: Text mining, Clustering, TFIDF, Self Organizing Maps, Multiword

(8)

vi

DAFTAR ISI

Hal.

PERSETUJUAN i

PERNYATAAN ii

UCAPAN TERIMA KASIH iii

ABSTRAK iv

ABSTRACT v

DAFTAR ISI vi

DAFTAR TABEL viii

DAFTAR GAMBAR ix

BAB 1 PENDAHULUAN 1

1.1. Latar Belakang 1

1.2. Rumusan Masalah 2

1.3. Tujuan Penelitian 3

1.4. Batasan Masalah 3

1.6. Metodologi Penelitian 3

1.7. Sistematika Penulisan 4

BAB 2 LANDASAN TEORI 6

2.1. Text Mining 6

2.2. Text Pre-Processing 6

2.2.1. Tokenizing 6

2.2.2. Case-folding 7

2.2.3. Filtering 7

2.2.4. Phrase Detection 8

2.2.5. Stemming 9

(9)

2.6. Self Organizing Maps (SOM) 14

2.7. Penelitian Terdahulu 16

BAB 3 ANALISIS DAN PERANCANGAN SISTEM 19

3.1. Data Acquisition (Pengumpulan data) 19

3.2. Analisis Sistem 20

3.2.1. Text Pre-Processing 21

3.2.2. Term Weighting 24

3.2.3. Keyphrase Extraction 27

3.2.4. Clustering dengan Algoritma Self Organizing Maps 27

3.3 Perancangan Sistem 32

3.3.1. Perancangan sistem bagian belakang (back-end) 32

3.3.2. Perancangan sistem bagian depan (front-end) 32

BAB 4 IMPLEMENTASI DAN PENGUJIAN 34

4.1. Spesifikasi Perangkat Keras dan Perangkat Lunak 34

4.2. Hasil Text Pre-Processing 34

4.3. Keyphrase Extraction 37

4.4. Clustering dengan SOM 38

4.5. Implementasi Sistem Bagian Depan 46

BAB 5 KESIMPULAN DAN SARAN 47

5.1. Kesimpulan 47

5.2. Saran 47

(10)

viii

DAFTAR TABEL

Tabel 2.1. Tabel Kombinasi Awalan dan Akhiran yang Tidak Diijinkan 10

Tabel 2.2. Tabel Aturan Peluruhan Kata Dasar (Nazief & Adriani, 1996) 10

Tabel 2.3. Penelitian Terdahulu 17

Tabel 3.1. Detail Artikel yang Didapatkan dari Hasil Web Crawler 19

Tabel 3.2. Contoh Artikel Untuk Perhitungan TF-IDF 24

Tabel 3.3. Hasil dari Penghitungan TF 25

Tabel 3.4. Contoh Penghitungan DF 26

Tabel 3.5. Contoh Penghitungan IDF 26

Tabel 3.6. Contoh Penghitungan TF-IDF pada Setiap Artikel 27

Tabel 3.7. Contoh Perhitungan Nilai Vektor Untuk Setiap Artikel 28

Tabel 4.1. Contoh Hasil Dari Keyphrase Extraction 37

Tabel 4.2. Contoh Artikel Hasil dari Proses Awal Clustering 39

Tabel 4.3. Term Parameter pada Proses Akhir Clustering 40

Tabel 4.4. Hasil Percobaan pada Proses Akhir Clustering 41

Tabel 4.5. Contoh Artikel Hasil dari Clustering pada Korpus C0 42

(11)

DAFTAR GAMBAR

Gambar 2.1. Proses Tokenizing 7

Gambar 2.2. Proses Case Folding 7

Gambar 2.3. Proses Filtering Stop-Word 8

Gambar 2.4. Proses Phrase Detection 8

Gambar 2.5. Proses Stemming 9

Gambar 3.1. Arsitektur Umum 20

Gambar 3.2. Flowchart Proses Phrase Detection 22

Gambar 3.3. Flowchart Metode Multiwords Expression Candidate 23

Gambar 3.4. Rancangan Sistem Bagian Depan Sistem 33

Gambar 4.1. Artikel yang Belum Dilakukan Text Pre-Processing 35

Gambar 4.2. Hasil Proses Tokenizing dan Case-Folding 36

Gambar 4.3. Hasil Proses Filtering 37

Gambar 4.4. Artikel Hasil Text Pre-Processing 37

Gambar 4.5. Grafik Hasil Pemisahan Artikel pada Proses Awal Clustering 39

Gambar 4.6. Grafik Hasil Clustering pada Korpus C0 41

Gambar 4.7. Grafik Hasil Clustering pada Korpus C1 42