Optimasi Pusat Cluster Awal K-Means dengan Algoritma Genetika Pada Pengelompokan Dokumen Chapter III V

(1)

3.1 Proses Penelitian

Dalam melakukan penelitian diperlukan suatu cara atau metode untuk menjadikan proses penelitian tersebut lebih terstruktur agar lebih mudah dipahami. Oleh sebab itu pada bab ini akan dibahas bagaimana tahapan-tahapan pada penelitian, teknik pengumpulan data, tahapan preprocessing, tahapan pembentukan kromosom dokumen, tahapan proses clustering dan tahapan proses optimasi dengan melibatkan algoritma genetika untuk menentukan pusat cluster awal k-means clustering yang menjadi pokok permasalahan pada penelitian ini.

Pengelompokan dokumen teks pada penelitian ini dilakukan untuk menganalisis bagaimana suatu algoritma pengelompokan yaitu k-means clustering pada penentuan pusat cluster awalnya akan dioptimasi menggunakan algoritma genetika. Pada proses optimasi dengan algoritma genetika maka setiap dokumen akan direpresentasikan sebagai bentuk kromosom. Bentuk kromosom selanjutnya akan dikenai operator genetika yaitu selection, crossover dan mutation. Tahapan-tahapan proses yang dilakukan untuk menggambarkan proses pengelompokan dokumen tersebut dimulai dengan memasukkan kumpulan dokumen,pre-processing, clustering dan output hasil pengelompokan. Sebagaimana dapat dilihat pada gambar 3.1 berikut ini.

(2)

3.2 Tahapan Penelitian

Dalam penelitian ini dilakukan beberapa tahapan sebagai berikut : 1. Studi Literatur dan Bimbingan

Pada tahap ini dilakukan pengumpulan berbagai penelitian sebelumnya yang diambil dari jurnal, pustaka, prosiding dan sumber lain yang relevan. Dengan permasalahan mengenai algoritma k-means dan algoritma genetika dalam hal kaitannya dengan tujuan permasalahan penelitian ini. Kemudian mempelajarinya dan juga melakukan konsultasi dengan dosen pembimbing.

2. Pengumpulan Data

Data yang dikumpulkan pada penelitian ini bersumber dari beberapa media berita online. Kemudian menyimpannya ke dalam dokumen teks masing-masing berita tersebut untuk dilakukan pengujian pengelompokan.

3. Preproses Data

Pada tahap ini data berupa dokumen sebelum diproses dengan algoritma yang digunakan penelitian ini maka dilakukan preproses terlebih dahulu yaitu melakukan text mining pada dokumen sehingga menghasilkan ekstraksi pola dokumen yang dibutuhkan pada proses algoritma selanjutnya.

4. Penerapan Model Algoritma

Setelah dilakukan preproses maka tahapan selanjutnya yaitu menerapkan pola-pola dari dokumen tersebut pada algoritma genetika terlebih dahulu untuk mengoptimasi pusat cluster awal dari kumpulan dokumen dan selanjutnya mengelompokkannya dengan menggunakan algoritma k-means clustering berdasarkan pusat cluster awal yang telah dioptimasi sebelumnya.

5. Analisis Model Algoritma

(3)

6. Pengujian

Pengujian dilakukan menggunakan aplikasi yang dibangun dengan bahasa pemrograman visual c# berbasis net framework. Data masukan yang diproses untuk menguji algoritma pada penelitian ini berupa kumpulan dokumen teks. Kemudian data keluaran yang dihasilkan yaitu pengelompokan dokumen.

7. Hasil dan Kesimpulan

Mulai dari tahap studi literatur dan bimbingan sampai pada tahapan pengujian. semua hal yang berkaitan dengan penelitian didokumentasikan menjadi sebuah laporan berupa hasil penelitian, mulai dari teori pendukung, permbuatan aplikasi, pengujian dan hasil pengujian serta saran yang dapat dilakukan pada penelitian selanjutnya.

3.3 Jenis dan Sumber Data

Jenis data yang digunakan pada penelitian ini adalah konten berita yang bersumber dari beberapa mediaonline dengan berbagai tema berita. Berikut merupakan rincian dari sumber data yang diambil dari penelitian ini.

Tabel 3.1 Tabel Sumber Berita Online

No. Konten Berita Sumber Berita

1

Memiliki tremor esensial bisa sangat mengganggu aktivitas sehari-hari mengingat makan, minum, menulis dan kebanyakan tugas dilakukan menggunakan tangan. Ada obat, tetapi tidak bekerja secara konsisten. Operasi adalah pilihannya. Seperti pengobatan yang disebut stimulasiotak dalam, dokter akan menanamkan perangkat di otak Anda untuk membantu mengontrol tremor.

http://health.liputan6.com/

2

Penyakit parkinson memang belum bisa disembuhkan secara total, namun menurut dr Made Agus M. Inggas, SpBS, gejalanya dapat

(4)

diatasi dengan pemberian obat levodopa atau golongan obat parkinson lainnya, berolahraga, dan fisioterapi. Sayangnya, setelah pemberian obat jangka panjang, tak jarang pengaruh obat pada tubuh pasien juga dapat menjadi kurang efektif dan memiliki efek samping.

3

Pasarsaham Amerika Serikat (AS) ditutup melemah, terpukul oleh saham sektor energi seiring harga minyak mentah yang mengalami penurunan. Investor pun masih menanti kejelasan lebih lanjut tentang kebijakkan ekonomi Presiden Donald Trump.

http://economy.okezone.com/

4

Kurs dolar AS sedikit menguat terhadap sebagian besar mata uang utama lainnya pada Senin (Selasa pagi WIB), di tengah kekhawatiran atas ketidakpastian politik di Eropa menjelang pemilihan umum. Para analis mengatakan investor sebagian besar fokus pada situasi politik di Prancis. Pemimpin partai Front Nasional Marine Le Pen yang meluncurkan kampanye presidennya akhir-akhir ini mengecam globalisasi dan berjanji menghapus Prancis dari zona euro.

http://economy.okezone.com/

5

Sebagai tindak lanjut pemberlakuan Undang-Undang Undang-Undang-Undang-Undang Nomor 11 Tahun 2008 tentang Informasi dan Transaksi Elektronik (UU ITE) yang diberlakukan hari ini, Kementerian Komunikasi dan Informatika (Kominfo) akan segera menerapkan sebuah sistem yang dapat menghilangkan konten negatif di dunia maya dengan filtering atau penapisan.

http://techno.okezone.com/

6

Media sosial masih menjadi alat paling efektif untuk menyebarkan hoax. Hal tersebut diakibatkan oleh rendahnya literasi informasi dan media, terlebih media sosial.Berdasarkan

(5)

Informatika (Kominfo) himpun, Google dan YouTube juga turut mendapatkan laporan sebanyak 1.204 sepanjang 2016 hingga 2017.

7

Regulasi yang mengatur pemain Over The Top (OTT) dipastikan rilis pada tahun ini. Menteri Komunikasi dan Informatika (Menkominfo) Rudiantara memastikan rilisnya peraturan menteri terkait bisnis OTT pada tahun ini. Rudiantara mengatakan, ada tiga aspek yang perlu diperhatikan. Aspek tersebut antara lain customer service, consumer data protection dan level playing field

http://techno.okezone.com/

3.4 Penentuan Tema Dokumen Berita

Penentuan tema dokumen berita dilakukan berdasarkan sumber berita dan kata yang sering muncul pada tema dokumen tersebut. Sehingga user secara manual dapat menentukan tema yang layak pada dokumen tersebut. Sebagai contoh berikut merupakan cara untuk menentukan tema dokumen berita :

Memilikitremoresensial bisa sangat mengganggu aktivitas sehari-hari mengingat makan, minum, menulis dan kebanyakan tugas dilakukan menggunakantangan. Ada obat, tetapi tidak bekerja secara konsisten.

Operasi adalah pilihannya. Seperti pengobatan yang disebut

stimulasiotak dalam, dokter akan menanamkan perangkat di otak

Anda untuk membantu mengontroltremor.

Pada contoh konten berita diatas berdasarkan kata-kata yang bercetak tebal dapat disimpulkan secara manual oleh user bahwa konten berita tersebut termasuk sebagai konten berita yang bertema kesehatan.

(6)

Tabel 3.2 Tabel Daftar Konten Berita

Dokumen Konten Berita Tema

Dok 1

Memiliki tremor esensial bisa sangat mengganggu

aktivitas sehari-hari mengingat makan, minum, menulis dan kebanyakan tugas dilakukan menggunakan tangan. Ada obat, tetapi tidak bekerja secara konsisten. Operasi

adalah pilihannya. Seperti pengobatan yang disebut

stimulasiotakdalam,dokterakan menanamkan perangkat di otak Anda untuk membantu mengontrol tremor.

Kesehatan

Dok 2

Penyakit parkinson memang belum bisa disembuhkan

secara total, namun menurut dr Made Agus M. Inggas, SpBS, gejalanya dapat diatasi dengan pemberian obat

levodopa atau golongan obat parkinson lainnya,

berolahraga, dan fisioterapi. Sayangnya, setelah pemberian obat jangka panjang, tak jarang pengaruh obat padatubuh pasienjuga dapat menjadi kurang efektif dan memiliki efek samping.

Kesehatan

Dok 3

Pasar saham Amerika Serikat (AS) ditutup melemah, terpukul oleh saham sektor energi seiring harga minyak mentah yang mengalami penurunan. Investor pun masih menanti kejelasan lebih lanjut tentang kebijakkan

ekonomiPresiden Donald Trump.

Ekonomi

Dok 4

Kurs dolar AS sedikit menguat terhadap sebagian besar

mata uangutama lainnya pada Senin (Selasa pagi WIB), di tengah kekhawatiran atas ketidakpastian politik di Eropa menjelang pemilihan umum. Para analis mengatakan investor sebagian besar fokus pada situasi politik di Prancis. Pemimpin partai Front Nasional Marine Le Pen yang meluncurkan kampanye presidennya akhir-akhir ini mengecam globalisasi dan berjanji menghapus Prancis darizona euro.

Ekonomi

Dok 5

Sebagai tindak lanjut pemberlakuan Undang-Undang Undang-Undang Nomor 11 Tahun 2008 tentang

Informasi dan Transaksi Elektronik (UU ITE) yang diberlakukan hari ini, Kementerian Komunikasi dan

Informatika (Kominfo) akan segera menerapkan sebuah sistem yang dapat menghilangkankontennegatif didunia

(7)

Dokumen Konten Berita Tema

Dok 6

Media sosial masih menjadi alat paling efektif untuk menyebarkan hoax. Hal tersebut diakibatkan oleh rendahnya literasi informasi dan media, terlebih media sosial.Berdasarkan data yang Kementerian Komunikasi dan Informatika (Kominfo) himpun, Google dan YouTube juga turut mendapatkan laporan sebanyak 1.204 sepanjang 2016 hingga 2017.

Teknologi

Dok 7

Regulasi yang mengatur pemain Over The Top (OTT) dipastikan rilis pada tahun ini. Menteri Komunikasi dan

Informatika (Menkominfo) Rudiantara memastikan rilisnya peraturan menteri terkait bisnis OTT pada tahun ini. Rudiantara mengatakan, ada tiga aspek yang perlu diperhatikan. Aspek tersebut antara lain customer service, consumerdata protectiondan level playing field

Teknologi

3.5 Teknik Pengumpulan Data

Pengumpulan data dilakukan dengan menyimpan isi dari masing-masing konten berita yang dipilih sebelumnya ke dalam file teks yang berekstensi.txt. Kemudian file teks tersebut ditempatkan pada satu folder yang selanjutnya kumpulan file teks tersebut menjadi sumber kumpulan dokumen yang akan diproses untuk dikelompokkan.

3.6 PreprocessingDokumen

(8)

Gambar 3.2Flowchart PreProcessingDokumen

Dari Gambar 3.2 dimulai dengan memasukkan dokumen selanjutnya tokenizing yaitu menghilangkan karakter selain huruf pada teks dokumen, filtering yaitu mengambil kata-kata penting pada teks dokumen danstemming yaitu mengambil kata dasar dari teks dokumen. Kemudian mengindeksnya menjadi informasi yang berisi kata dan jumlah frekuensi.

3.8.1 Tokenizing

Pada tokenizing setiap kata pada masing-masing dokumen akan dihilangkan karakter selain huruf untuk memudahkan dalam proses pengindeksian kata-kata pada dokumen tersebut. Sebagai contoh berikut merupakan hasil tokenizing pada dokumen Dok1 :

Sebelum Tokenizing

(9)

secara konsisten. Operasi adalah pilihannya. Seperti pengobatan yang disebut stimulasi otak dalam, dokter akan menanamkan perangkat di otak Anda untuk membantu mengontrol tremor.

Sesudah Tokenizing

Memiliki tremor esensial bisa sangat mengganggu aktvitas sehari hari mengingat makan minum menulis dan kebanyakan tugas dilakukan menggunakan tangan Ada obat tetapi tidak bekerja secara konsisten Operasi adalah pilihannya Seperti pengobatan yang disebut stimulasi otak dalam dokter akan menanamkan perangkat di otak Anda untuk membantu mengontrol tremor

Pada hasil tokenizing di atas dapat dilihat beberapa tanda baca seperti tanda koma, titik dan tanda sambung kata telah dihilangkan pada hasil tokenizing tersebut.

3.8.2 Filtering

Setelah melewati proses tokenizing maka selanjutnya dilakukan proses filtering untuk mengambil kata-kata penting dari hasil tokenizing pada sebelumnya. Pada filtering tersebut setiap kata akan dicek dengan tabel stoplist dan apabila kata tersebut terdapat pada tabel stoplist maka kata tersebut dihapus. Berikut merupakan contoh dari hasil filtering pada dokumen Dok1 :

Sebelum Filtering

(10)

Sesudah Filtering

memiliki tremor esensial mengganggu aktvitas sehari makan minum menulis kebanyakan tugas tangan obat konsisten operasi pilihannya pengobatan stimulasi otak dokter menanamkan perangkat otak membantu mengontrol tremor

Pada hasil filtering di atas dapat dilihat beberapa kata dihilangkan dikarenakan kata tersebut terdapat pada tabel stoplist yang digunakan. Seperti contoh di atas kata yang dihilangkan yaitu bisa, ada, akan, untuk, dilakukan, anda, tetapi, tidak, secara, sangat, dan, adalah, disebut, yang, dalam . Tujuan dihilangkan kata-kata tersebut adalah untuk menyeleksi kata-kata yang memiliki makna dan mewakili ciri khas suatu tema dokumen.

3.8.3 Stemming

Langkah terkahir pada preprocessing ialah melakukan stemming yaitu mengambil kata dasar dari setiap kata pada dokumen dari hasil filtering dan juga mengembalikan kata dasar dari kata tersebut. Berikut merupakan contoh hasil stemming pada dokumen Dok1 :

Sebelum Stemming

memiliki tremor esensial mengganggu aktvitas sehari makan minum menulis kebanyakan tugas tangan obat konsisten operasi pilihannya pengobatan stimulasi otak dokter menanamkan perangkat otak membantu mengontrol tremor

Sesudah Stemming

(11)

Pada hasil stemming di atas dapat dilihat setiap kata pada hasil filtering sebelumnya akan dicari kata dasarnya untuk menghindari duplikat kata yang memiliki arti kata dasar yang sama. Seperti contoh di atas kata memiliki menjadi bentuk dasarnya milik .

3.7 Pembentukan Kromosom Dokumen

Pembentukan kromosom merupakan langkah awal dari terwujudnya proses pada algoritma genetika. Hal tersebut dikarenakan kromosom sebagai representasi penyelesaian dari masalah. Pada penelitian ini kromosom akan dibentuk dengan menggunakan kode biner yang merepresentasikan solusi dari pusatcluster awal pada k-means clustering.

(12)

Gambar 3.3 Proses Pembentukan Kromosom Dokumen

Pada gambar 3.3 dapat dilihat panjang kromosom ditentukan dari jumlah indeks kata dan untuk jumlah kromosom berdasarkan banyaknya total dokumen. Kemudian untuk mengisi nilai biner dari masing-masing gen pada kromosom tersebut ditentukan dari ada tidaknya kata pada dokumen dengan indeks kata.

3.8 Optimasi Pusat Cluster Awal dengan Algoritma Genetika

(13)

Dengan algoritma genetika proses tersebut dapat digambarkan seperti pada Gambar 3.4 berikut ini.

Gambar 3.4 Proses Optimasi PusatClusterAwal

Dalam melakukan pemilihan k dokumen dengan algoritma genetika tersebut setiap dokumen yang berkompetisi akan melalui beberapa tahapan pada algoritma genetika. Tahapan-tahapannya berdasarkan gambar 3.4 adalah sebagai berikut :

1. Tahapan pertama yaitu mendefinisikan indeks kata keseluruhan pada dokumen dan membentuknya menjadi kromosom sebagai solusi dari dokumen yang akan terpilih.

(14)

3. Tahapan ketiga yaitu mengevaluasi nilai fitness pada setiap kromosom yang ada dalam populasi. Pada tahapan ini juga akan disimpan data populasi yang memiliki kromosom denganfitnessterbaik untuk dibawa pada proses selanjutnya.

4. Tahapan keempat yaitu membuat populasi baru. Membuat populasi baru dilakukan dengan mengulang proses seleksi, mutasi dan crossover sampai generasi maksimum tercapai. Pada akhir proses akan ditampilkan hasil k dokumen dari populasi dengan kromosomfitnessterbaik.

3.9 Pengelompokan Dokumen dengan K-Means

Algoritma k-means clustering merupakan algoritma pengelompokan iteratif yang mengelompokan data berdasarkan kedekatan jarak. Pada proses pengelompokan dokumen dengan algoritma k-means clustering akan melalui beberapa tahapan-tahapan untuk mencapai hasil pengelompokan yang maksimal. Sejumlah dokumen yang akan dikelompokan sebelumnya telah melewati rangkaian proses pada algoritma genetika untuk menentukan sejumlah k dokumen yang akan dijadikan sebagai pusat clusterawal pada k-means tersebut.

(15)

Gambar 3.5 Proses Pengelompokan Dokumen dengan K-Means

Pada Gambar 3.5 diatas dapat dilihat rangkaian proses dari pengelompokan dokumen dengan algoritma genetika. Tahap pertama yaitu memilih sumber dokumen yang dikelompokkan kemudian melakukanpreprocessingdokumen. Setelah didapat indeks kata dan menentukan jumlah k kelompok maka selanjutnya membentuk kromosom berdasarkan indeks kata dan melakukan proses algoritma genetika untuk mendapatkan pusat cluster awal. Kemudian proses selanjutnya yaitu melakukan langkah iteratif dengan mengelompokkan dokumen berdasarkan kemiripan dengan pusat cluster yang akan dibentuk berdasarkan hasil dari proses sebelumnya. Hal tersebut terus dilakukan sampai posisi dokumen tidak berpindah lagi yang artinya proses pengelompokan telah selesai dilakukan.

3.10 Tahapan Iterasi Pengelompokan K-Means

(16)

mendapatkan posisi cluster akan digabungkan berdasarkan posisi clusternya dan menjadikannya sebagai pusat cluster kembali.

Berikut merupakan tahapan-tahapan iterasi algoritma pengelompokan K-Means dalam pengelompokan dokumen :

1. Menentukan jumlah K cluster

Jumlah K cluster ditentukan berdasarkan pengetahuan user tentang jumlah kelompok dokumen yang berbeda pada sekumpulan dokumen tersebut.

2. Penentuan pusat cluster awal

Pusat cluster awal dapat ditentukan secara random ataupun dengan algoritma genetika yang pada penelitian ini akan dilihat perbedaannya. Jumlah pusat cluster awal disesuaikan jumlah K cluster yang sebelumnya sudah ditentukan terlebih dahulu.

3. Hitung kemiripan dokumen terhadap pusat cluster awal

Pada tahap ini masing-masing dokumen pada sekumpulan dokumen akan dinilai kemiripannya dengan pusat cluster awal. Metode yang digunakan untuk menghitung keimiripan dokumen tersebut ialah cosine similarity seperti yang sudah dijelaskan pada sub bab sebelumnya.

4. Penentuan kelompok dokumen

Menentukan kelompok dokumen berdasarkan nilai maksimum kemiripan yang diperoleh dari perhitungan ke masing-masing pusat cluster awal.

5. Menentukan pusat cluster baru

Setelah pada tahapan sebelumnya diperoleh hasil pengelompokan sementara dari nilai maksimum kemiripan, maka pada tahap ini pusat cluster baru yang terbentuk adalah kumpulan dari masing-masing cluster yang terbentuk.

6. Hitung kemiripan dokumen terhadap pusat cluster baru

(17)

7. Cek perubahan posisi cluster

(18)

4.1 Pembahasan

Pada bab ini akan membahas bagaimana melakukan pengujian dan hasil dari

pengelompokan dokumen tersebut. Pengelompokan dokumen yang akan diuji berupa

konten berita yang bertujuan untuk mengelompokkan dokumen yang memiliki konten

berita yang berbeda namun berada pada satu tempat yang sama, sehingga dengan

dilakukannya pengelompokan ( ) dapat memisahkan konten yang berbeda-beda tersebut berdasarkan karakteristik kata/tema konten beritanya masing-masing.

Dengan dapat dilakukannya proses pengelompokan dokumen tersebut oleh komputer

diharapkan dapat memudahkan kita dalam keperluan berbagai halnya seperti analisis

dokumen forensik.

Memodelkan algoritma genetika untuk dapat melakukan optimasi dokumen

sebagai pusat cluster awal tentu memiliki beberapa aturan yang disesuaikan dengan

masalah tersebut. Pada penelitian ini representasi kromosom yang digunakan adalah

representasi kode biner yaitu menggunakan nilai 1 dan 0 sebagai penyusun

kromosom yang dibuat seperti yang telah dijelaskan pada bab sebelumnya. Kemudian

untuk menghitung nilai dengan membandingkan keterhubungan setiap kromosom yang satu dengan yang lainnya pada pencocokan nilai biner yang ada pada

kromosom kemudian menghitung nilai rata-ratanya sebagai nilai fitness. Semakin

jauh perbedaan pencocokan kode biner setiap kromosom, maka kromosom tersebut

layak dijadikan sebagai solusi pada penentuan pusat cluster awal.

4.2 Pemilihan Dokumen

Pada pembahasan ini pengelompokan dokumen akan dilakukan dengan mengambil

sebanyak 7 konten berita. Masing-masing berita akan dikelompokkan berdasarkan isi

(19)

Dokumen yang berisi konten berita pada tabel 3.2 pada bab sebelumnya akan

melewati serangkaian proses pada untuk diekstraksi yaitu

(membuang karakter selain huruf), (menyaring kata-kata penting) dan (mengambil kata dasar). Sehingga hasil dari rangkaian proses tersebut dapat dilihat pada tabel 4.1 sebagai berikut.

Tabel 4.1 Hasil Ekstraksi Dokumen Konten Berita

(20)

Setelah diekstraksi maka selanjutnya setiap kata pada dokumen akan diindeks

untuk mendapatkan indeks kata sebagai representasi pada kromosom untuk tahap

selanjutnya. Berikut merupakan hasil indeks kata dari seluruh dokumen :

*+,- * ./ 0* 1 * .1/ 2/ 1*- * 3* 4/ * 3* 1 * 456/ .* * 7* 3/- *- *- 8 5. * 1, 6 0* 71, 0/ 9* . 0/- 7/-:;7- , 456 :,-1;45 6 <*-* 6 <* 1* < ;.1 56 < ;3* 6 < ;7* 3< <6 <, 7/* 5=5. 5=5. 1/= 5.;7;4/ 53 5.1 6;7/ . 57 56+/ 56;8* 5-57- /* 3 5, 6; =/ 53< =/ 3 156/ 7+ =/- /;156*8/ = ;.,- =6;71 +* 7++, + 5<, 7+ + 59 * 3* + 3;0* 3/ -*- / +;3;7+ +;;+ 3 5 >*8,- >* 6+* >* 1/ >/ 3* 7+ >/48, 7 >;*? / 7=;64*-/ / 7=;64* 1/.*/7++*-/72 5-1;6/ 6/7+/159 *.* 6 1*9 * 7+ .*9 * 79/ 9* 6* 7+9 53* 7+.*/1 .* 48* 7@ 5 .5:* 4 .51/<* .8*- 1/* 7 .>* A* 1/ 6 .;4/ 7=; .;4, 7/ .*- / .;7- /- 1 57 .;71 57 .;71 6;3 .,* 1 ., 6- 3*8;6 3 5 3 54*> 35253 352;< ;8* 3/ 1 56*- / 3, 7:, 6 4*<5 4*/ 7 4* .* 7 4* 6/ 754*@*4 5</*457 .;4/ 7=;4571*>4 57156/4 /3/.4/7, 44/7@* .7*-/;7* 375+* 1/= 7;4;6 ;0* 1 ;3*>6*+* ;8 56*- / ;1* . ;1 1 ;256 8*+/ 8* 6 ./ 7-;7 8* 6 1*/ 8*- * 6 8*- / 57 8 54 0563* .,* 7 857 8 57+ * 6,> 8 56* 7+ .* 1 8 51* 8/3/> 8/ 48/7 8 3*@/ 7+ 8;3/ 1/ . 8 6* 7:/ -8 65- /<578 6;15:1/;76* 0,65+, 3*- /657<*>6/ 3/-6,</* 71* 6*- *>* 4- *./ 1-* 48/ 7+- *@* 7+ - 50* 6 -5.1;6 -53*-* -54 0,> -57/ 7 -56/ .* 1 - 56 2/:5 -/ -154 - /1,*- / -;- /* 3 - 8 0- - 1/4, 3*-/ 1*>, 7 1* 7* 4 1* 7+* 71*8/- 1 57+*>156*8 1/7<* .1;8 1;1* 3 16* 7-* .- / 16 54;6 16, 48 1, 0,> 1,+*-1, 3/-1, 6, 71,1,8,*7+, 4, 4, 7<* 7+, 1* 4*,,A/ 0@;, 1, 05B;7*

Daftar indeks kata diatas ditentukan dengan mengambil setiap kata dari

masing-masing dokumen kemudian memunculkannya ke daftar indeks kata sebanyak

1 kali. Setiap terdapat kata yang sama di dokumen lain maka kata tetap hanya

dimunculkan sekali saja.

4.3 Representasi Kromosom Dokumen

Pada representasi kromosom dokumen, setiap dokumen akan dijadikan sebagai bentuk

kromosom dengan menggunakan representasi kode biner. Setiap kromosom dari

dokumen tersebut juga dibentuk dari indeks kata yang didapat dari hasil preprocessing

dokumen.

Panjang kromsom dokumen ditentukan dari panjang dari indeks kata. Kemudian

penentuan kode biner 1 dan 0 pada kromsom ditentukan dengan ada tidaknya kata

dari indeks kata dengan kata pada dokumen. Sebagai contoh dapat dilhat sebagai

(21)

Dok1

Hasil pada kode biner diatas diperoleh berdasarkan daftar indeks kata dengan

dokumen. Misalkan pada kode biner urutan ketiga berisi angka biner 1 yang pada

indeks kata merupakan kata M FG DTD GM K dan pada dokumen Dok1 terdapat kata tersebut di urutan ke 5. Untuk lebih lengkapnya berikut pada tabel 4.2 merupakan

hasil dari pembentukan kromosom dengan representasi kode biner.

Tabel 4.2 Representasi Kromosom Dokumen Kode Biner

(22)

Dokumen Kromosom Dokumen

Evaluasi fitness memiliki peranan penting dalam menentukan kualitas suatu

kromosom yang juga merupakan solusi pada algoritma genetika. Nilai fitness tertinggi

pada suatu generasi akan memiliki peluang lebih besar untuk terpilih kembali pada

generasi selanjutnya.

Proses perhitungan fitness dapat disesuaikan dengan masalah yang akan

diselesaikan. Pada penelitian ini akan dicari nilai fitness dari setiap kromosom yang

merupakan representasi kode biner dari setiap dokumen. Proses evaluasi dilakukan

untuk mendapatkan nilai fitness terbaik sebagai solusi cluster awal k-means pada

pengelompokan dokumen.

Pada proses pengelompokan, hal yang paling mendasar dalam menentukan pusat

cluster awal adalah nilai atau ciri dari masing-masing cluster tersebut harus memiliki

perbedaan yang memisahkan antara satu cluster dengan lainnya. Semakin tinggi

perbedaan yang dibentuk maka akan semakin baik pula dalam penentuan hasil cluster.

Oleh karena itu pada evaluasi fitness untuk pengelompokan dokumen ini dalam

menghitung fitness adalah menjumlahkan setiap perbedaan kode biner yang ada antara

(23)

Perhitungan fitness dilakukan dengan membandingkan perbedaan setiap

kromosom satu dengan yang lainnya kemudian menghitung nilai rata-ratanya sebagai

nilai fitness kromosom. Misalkan untuk menghitung nilai fitness pada Dok1 maka

kromosom Dok1 akan dibandingkan dengan kromosom Dok2 , Dok3 , Dok4 ,

Dok5 , Dok6 dan Dok7 kemudian menghitung rata-rata dari setiap fitness

tersebut. Sebagai contoh untuk menghitung fitness kromosom Dok1 dapat dilihat

sebagai berikut :

Jika nilai indeks kode biner tidak sama antara keduanya maka nilai bertambah 1

dan jika sama maka dilewatkan. Seperti pada kode biner diatas urutan biner pertama

kromosom Dok1 = 0 dan pada Dok2 = 1 maka nilai bertambah 1. Selanjutnya

untuk urutan biner kedua pada kromosom Dok1 = 0 sedangkan pada kromosom

Dok2 = 0 maka akan dilewatkan, seterusnya dengan cara yang sama kemudian

dijumlahkan. Berikut pada tabel 4.3 dapat dilihat hasil dari perhitungan nilai fitness

(24)

(25)

Dokumen Kromosom Dokumen Jumlah

Maka nilai fitness untuk kromosom Dok1 yaitu sebagai berikut :

Fitness = (20 + 19 + 29 + 18 + 22 + 24) / 6 = 22

Pada kromosom lainnya juga dikenai proses perhitungan fitness yang sama,

(26)

4.5 Proses Seleksi Pemilihan Kromosom

Dalam algoritma genetika terdapat proses yang mirip dengan proses seleksi alam yang

terjadi pada setiap generasi. Proses seleksi akan dipilih kromosom dengan fitness

terbaik untuk dapat dilanjutkan pada generasi berikutnya.

Dalam penelitian ini karena setiap penentuan nilai fitness kromosom sangat

dipengaruhi dengan kromosom yang lainnya maka untuk menyeleksi kromosom yang

terpilih adalah dengan membuang satu kromosom dengan nilai fitness terburuk pada

setiap generasi dan melanjutkan kromosom terbaik lainnya ke generasi

berikutnya.Berikut merupakan proses penyeleksian kromosom :

Fitness Dok1 22

Fitness Dok2 25

Fitness Dok3 23.83

Fitness Dok4 32.16

Fitness Dok5 21.33

Fitness Dok6 24

Fitness Dok7 26.33

Nilai fitness yang akan tereliminasi untuk dilanjutkan pada generasi berikutnya

adalah fitness pada Dok5 yang memiliki nilai fitness terendah yaitu 21.33 sedangkan 6

kromosom yang lainnya akan ikut pada generasi berikutnya. Untuk kromosom yang

sudah tereliminasi akan digantikan dengan UV VWXYZ [\ yang dihasilkan pada proses

]Y UW WU^_Y.

4.6 Crossover Kromosom

Pada penelitian ini jumlah parents yang akan dikenai operator penyilangan tidak

ditentukan berdasarkan probabilitas crossover melainkan terjadi hanya pada 2

kromosom sebagai parents dan menghasilkan 1 anak kromosom. Hal tersebut

dilakukan karena apabila proses crossover banyak terjadi terhadap kromosom atau

(27)

crossover dilakukan untuk mendapatkan `aab cd efg yang menggantikan kromosom yang telah dieleminasi pada proses seleksi sebelumnya. Berikut merupakan proses

crossover dengan induk dari kromosom Dok3 dan Dok6 untuk menggantikan

kromosom Dok1 yang sudah tereliminasi dengan posisi titik potong berada pada ghf ke 30 dari kromosom induk :

Makaijj klmn opyang dihasilkan adalah :

qj j klmn op= 0 0 0 1 0 1 0 1 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0

qj j klm n op tersebut akan menggantikan kromosom Dok5 yang telah tereliminasi pada seleksi dan dengan kromsom yang lainnya yang terpilih dari proses seleksi akan dikenai pada

operator genetika selanjutnya.

4.7 Mutasi Kromosom

Pada penelitian ini proses mutasi dilakukan dengan probabilitas sebanyak 10 % yang

(28)

0 1 0 1 0 1 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0 1

Jumlah tersebut dapat berubah-ubah sesuai dengan bilangan random t yang dibangkitkan dan probabilitas yang ditentukan. Untuk setiap kromosom jumlah mutasi

tidak terbatas dan bia terjadi lebih banyak daripada kromosom yang lain.

4.8 Penentuan Akhir Proses Genetika

Pada penelitian ini penentuan akhir untuk berhentinya proses genetika adalah banyak

generasi yang ditetapkan. Setiap hasil terbaik dari generasi akan disimpan untuk

diambil sebagai solusi pada penentuan pusat cluster awal. Jumlah solusi terbaik yang

diambil untuk pusat cluster awal berdasarkan dengan jumlah u yang ditentukan. Berikut pada tabel 4.6 dapat dilihat hasil kromosom terbaik pada generasi ke 98 dari

100 generasi yang diproses dengan jumlahuyaitu 3 cluster awal.

Tabel 4.6 Hasil Akhir Proses GA Cluster Awal

Cluster Kromosom Decode Kromosom Fitness bisnis consumer customer data donald efek efektif ekonomi eropa esensial euro gejala globalisasi google hapus hati himpun informatika investor ite jakarta kait lapor le lemah level literasi main marine media menkominfo milik nasional negatif obat operasi ott over partai pasar pen pengaruh perangkat playing presiden rudiantara sayang sebar service situasi spbs tengah terap transaksi tremor tutup uang umum undang utama uu youtube zona

(29)

Cluster Kromosom Decode Kromosom Fitness

agus aktivitas alat analis aspek atur bijak data dokter dolar donald dunia efek ekonomi energi eropa euro field fisioterapi front globalisasi harga hati hilang hoax informatika inggas janji jarang jelang kait kampanye kecam ketidakpastian khawatir kominfo komunikasi konsisten kontrol lapor le levodopa luncur main marine maya nasional nomor olahraga pagi partai pemberlakuan perangkat peta pimpin presiden rabu rudiantara saham sayang amerika analis atur bantu customer data dokter donald dunia efek efektif elektronik esensial euro fisioterapi fokus front ganggu gedung gejala golong google hapus harga hati hilang himpun hoax inggas iring jakarta janji jarang kait kecam ketidakpastian komunikasi konten kontrol lapor luncur made main maya menkominfo menteri minum minyak nasional negatif olahraga operasi otak ott parkinson partai pasar pasien pemberlakuan pilih politik presiden rabu regulasi rendah rilis rudiantara saham sakit samping sayang sektor sembuh senin situasi tahun tanam tapis total transaksi tremor tubuh tulis turun umum undang uu wib youtube zona

(30)

4.9.1 Menghitung Kemiripan Dokumen

Pada proses perhitungan kemiripan dokumen akan dilakukan dengan menggunakan

fungsi vwx yz{ x y| y} ~ y. Berikut merupakan tahap-tahapan dalam menghitung kemiripan dokumen Dok1 dengan pusat cluster awal sebanyak 3 cluster :

1) Daftar dokumen dan} x{ awal

Dokumen Dok1 akan dihitung kemiripannya dengan cluster 1, cluster 2 dan

cluster 3 dengan data yang telah diproses seperti pada tabel 4.7 sebagai berikut :

(31)

Dokumen Teks ¤quency) dan bobot kata (weigth document term) sehingga dapat dilakukan perhitungan kemiripan dengan cosine similarity berdasarkan hasil tersebut. Seperti

pada tabel 4.8 dapat dilihat perhitungan nilai idf (inverse document frequency) dan

nilai bobot kata(weigth document term).

(32)

(33)

Kata tf DF IDF wdt=tf.idf

ketidakpastian 0 0 1 1 2 0.301 0 0 0.301 0.301

khawatir 0 0 1 0 1 0.602 0 0 0.602 0

kominfo 0 0 1 0 1 0.602 0 0 0.602 0

komunikasi 0 0 1 1 2 0.301 0 0 0.301 0.301

levodopa 0 0 1 0 1 0.602 0 0 0.602 0

(34)

(35)

Keterangan :

tf =§ ¨© ª«©¨quency(frekuensi kata) D1 = dokumen Dok1

C1, C2, C3 = cluster dokumen hasil pusat cluster awal

DF =document frequency(jumlah kata dari setiap kata pada dokumen).

IDF =inverse document frequency

Wdt =weight document term( bobot kata pada dokumen).

3) Cosine Similarity

Berdasarkan nilai bobot pada tabel 4.8 maka untuk mencari nilai variabel pada

cosine similaritydapat dilihat pada tabel 4.9 dibawah ini :

Tabel 4.9 Perhitungan Nilai Variabel Pada Rumus Cosine Similarity

Kata (term)

C1 C2 C3 D1 C1 C2 C3

milik 0.091 0 0 0.091 0.091 0 0

tremor 0 0 0 0 0 0 0

esensial 0.016 0 0.016 0.016 0.016 0 0.016

ganggu 0 0 0.091 0.091 0 0 0.091

aktivitas 0 0.016 0.016 0.016 0 0.016 0.016

makan 0 0 0 0.362 0 0 0

konsisten 0 0.091 0 0.091 0 0.091 0

operasi 0.016 0 0.016 0.016 0.016 0 0.016

pilih 0 0 0.091 0.091 0 0 0.091

stimulasi 0 0.091 0 0.091 0 0.091 0

otak 0 0 0.091 0.091 0 0 0.091

dokter 0 0.016 0.016 0.016 0 0.016 0.016

tanam 0 0.016 0.016 0.016 0 0.016 0.016

perangkat 0.016 0.016 0 0.016 0.016 0.016 0

bantu 0 0 0.091 0.091 0 0 0.091

kontrol 0 0.016 0.016 0.016 0 0.016 0.016

agus 0 0 0 0.016 0.016 0.016 0.016

alami 0 0 0 0.091 0.091 0 0.091

(36)

Kata (term)

customer 0 0 0 0.091 0.091 0 0.091

data 0 0 0 0.016 0.016 0.016 0.016

donald 0 0 0 0.016 0.016 0.016 0.016

efek 0 0 0 0.016 0.016 0.016 0.016

globalisasi 0 0 0 0.091 0.091 0.091 0

google 0 0 0 0.091 0.091 0 0.091

hapus 0 0 0 0.091 0.091 0 0.091

hati 0 0 0 0.016 0.016 0.016 0.016

himpun 0 0 0 0.091 0.091 0 0.091

informatika 0 0 0 0.091 0.091 0.091 0

investor 0 0 0 0.362 0.362 0 0

ite 0 0 0 0.362 0.362 0 0

jakarta 0 0 0 0.091 0.091 0 0.091

kait 0 0 0 0.016 0.016 0.016 0.016

lapor 0 0 0 0.016 0.016 0.016 0.016

Le 0 0 0 0.091 0.091 0.091 0

menkominfo 0 0 0 0.091 0.091 0 0.091

nasional 0 0 0 0.016 0.016 0.016 0.016

negatif 0 0 0 0.091 0.091 0 0.091

ott 0 0 0 0.091 0.091 0 0.091

over 0 0 0 0.362 0.362 0 0

partai 0 0 0 0.016 0.016 0.016 0.016

pasar 0 0 0 0.091 0.091 0 0.091

pen 0 0 0 0.362 0.362 0 0

(37)

Kata (term)

C1 C2 C3 D1 C1 C2 C3

presiden 0 0 0 0.016 0.016 0.016 0.016

rudiantara 0 0 0 0.016 0.016 0.016 0.016

sayang 0 0 0 0.016 0.016 0.016 0.016

sebar 0 0 0 0.362 0.362 0 0

transaksi 0 0 0 0.091 0.091 0 0.091

tutup 0 0 0 0.091 0.091 0.091 0

uang 0 0 0 0.362 0.362 0 0

umum 0 0 0 0.016 0.016 0.016 0.016

undang 0 0 0 0.016 0.016 0.016 0.016

utama 0 0 0 0.362 0.362 0 0

fisioterapi 0 0 0 0.091 0 0.091 0.091

front 0 0 0 0.091 0 0.091 0.091

ketidakpastian 0 0 0 0.091 0 0.091 0.091

khawatir 0 0 0 0.362 0 0.362 0

kominfo 0 0 0 0.362 0 0.362 0

komunikasi 0 0 0 0.091 0 0.091 0.091

(38)

Kata (term)

C1 C2 C3 D1 C1 C2 C3

luncur 0 0 0 0.091 0 0.091 0.091

maya 0 0 0 0.091 0 0.091 0.091

nomor 0 0 0 0.362 0 0.362 0

olahraga 0 0 0 0.091 0 0.091 0.091

pagi 0 0 0 0.362 0 0.362 0

pemberlakuan 0 0 0 0.091 0 0.091 0.091

(39)

Keterangan :

= A¬®¯°¬±²®B (perkalian vektor A dengan vektor B) =³°´A (panjang vektor A )

=³°´B (panjang vektor B)

Selanjutnya menghitung kemiripan dokumen uji dengan dokumen sampel sebagai

berikut :

1. Cos(D1, C1)= 0.228/(27.651*9.465)= 0.00846 = (0.00871/1)*100 = 0.0871 %

2. Cos(D1, C2)= 0.259/(27.651*9.405)= 0.000997=(0.000997/1)*100 = 0.0997%

3. Cos(D1, C3)= 0.637/(27.651*12.955)=0.00177= (0.00177 /1)*100= 0.1779 %

Berdasarkan hasil perhitungan dengan fungsi cosine similarity tersebut dapat

diketahui bahwa nilai kemiripan dokumen yang tertinggi yaitu Dok1 (D1) dengan

dokumen cluster C3, sehingga dokumen Dok1 tersebut untuk iterasi pertama

terkelompok pada cluster C3. Berikut ini merupakan contoh hasil akhir dari

perhitungan kemiripan dari setiap dokumen ke masing-masing cluster :

Tabel 4.10 Hasil Pengelompokan Akhir K-Means Clustering

Dokumen Kemiripan Nilai

Maksimum

Anggota Cluster

C1 C2 C3

Dok1 3.975 % 44.352 % 3.115 % 44.352 % C2

Dok2 3.771 % 62.341 % 4.440 % 62.341 % C2

Dok3 59.387 % 8.096 % 2.414 % 59.387 % C1

Dok4 62.168 % 6.937 % 4.421 % 62.168 % C1

Dok5 9.579 % 5.213 % 41.550 % 41.550 % C3

Dok6 2.410 % 59.752 % 1.014 % 59.752 % C2

Dok7 5.346 % 6.0438 % 51.618 % 51.618 % C3

Pada tabel 4.10 dapat dilihat setiap dokumen dikelompokkan berdasarkan

kemiripannya terhadap 3 cluster yang sebelumnya telah dibentuk oleh algoritma

genetika. Penentuan 3 cluster tersebut berdasarkan pada jumlah jenis dokumen yang

(40)

4.9 Pengujian dan Hasil

Dalam melakukan pengujian pada pengelompokan dokumen akan membedakan hasil

pengelompokan dengan data pusat cluster awal secara random dengan pusat cluster

awal yang didapat dengan algoritma genetika.

4.10.1 Pengujian Pusat Cluster Awal Random

Pada pengujian ini dilakukan dengan mengambil pusat cluster awal dari dokumen

yang ada secara random. Pengujian dilakukan sebanyak 5 kali percobaan. Berikut

merupakan hasil pengujian :

Tabel 4.11 Hasil Pengujian Pusat Cluster Awal Random

Pengujian Dokumen Nilai Anggota

Cluster

1

Dok1 44.28 % C3

Dok2 48.27 % C2

Dok3 42.46 % C3

Dok4 55.39 % C2

Dok5 43.57 % C2

Dok6 100 % C1

Dok7 55.11 % C3

2

Dok1 35.73 % C2

Dok2 55.25 % C3

Dok3 34.97 % C2

Dok4 48.80 % C2

Dok5 39.86 % C2

Dok6 100 % C1

Dok7 63.49 % C3

3

Dok1 41.56 % C1

Dok2 44.93 % C2

(41)

Pengujian Dokumen Nilai Anggota Cluster

Dok4 57.80 % C2

Dok5 42.17 % C2

Dok6 41.55 % C2

Dok7 49.63 % C2

4

Dok1 49.25 % C3

Dok2 40.28 % C2

Dok3 32.81 % C2

Dok4 45.51 % C2

Dok5 46.27 % C3

Dok6 44.09 % C3

Dok7 43.01 % C2

5

Dok1 61.92 % C1

Dok2 39.90 % C2

Dok3 59.38 % C2

Dok4 45.30 % C2

Dok5 37.00 % C2

Dok6 36.58 % C2

Dok7 41.96 % C2

4.10.2 Pengujian Pusat Cluster Awal dengan GA

Pada pengujian ini menggunakan data pusat cluster awal yang diperoleh

menggunakan algoritma genetika. Pengujian dilakukan sebanyak 5 kali percobaan.

Berikut merupakan hasil pengujian :

Tabel 4.12 Hasil Pengujian Pusat Cluster Awal dengan GA

Pengujian Dokumen Nilai Anggota

Cluster

1 Dok1 51.92 % C3

(42)

(43)

Pengujian Dokumen Nilai Anggota Cluster

Dok4 57.13 % C2

Dok5 100 % C3

Dok6 37.66 % C2

Dok7 48.42 % C2

Berdasarkan hasil pengujian dapat diketahui bahwa pengelompokan dokumen

dengan menggunakan pusat cluster awal secara random banyak menghasilkan

pengelompokan yang tidak sesuai. Sedangkan dengan pusat cluster awal

menggunakan algoritma genetika hasil pengelompokan lebih banyak menghasilkan

pengelompokan yang sesuai. Berikut merupakan tingkat keberhasilan dari hasil

pengujian pengelompokan tersebut :

Tabel 4.13 Tingkat Keberhasilan Pengelompokan Dokumen

No. Penentuan Pusat Cluster Awal Perhitungan Tingkat

Keberhasilan

1 µ¶·¸¹ º 100% =

4

15 100% 26.66 %

2 »¼ ½¹¾¿ Àº¶Á Â·ÂÀ¿Ã¶ 100% = 7

15 100% 46.66 %

4.10.3 Pengujian Aplikasi

Aplikasi digunakan untuk menguji bagaimana algoritma yang diterapkan dapat

bekerja untuk menyelesaikan permasalahan dalam penelitian ini. Berikut merupakan

(44)

1) Menentukan folder sumber dokumen yang akan di clustering.

Gambar 4.1 Menentukan sumber dokumen

(45)

3) Proses penentuan pusat cluster awal

Gambar 4.3 Proses penentuan pusat cluster awal

4) Memasukkan data hasil pusat cluster awal untuk clustering

(46)

5) Melakukan proses clustering

(47)