Kesabaran merupakan nilai hidup yang dijunjung tinggi bangsa Indonesia.Menurut
Subandi (2001), kesabaran merupakan ajaran yang dijunjung oleh kelima agama yang besar di
Indonesia (Islam, Kristen, Katholik, Hindu, dan Budha). Lebih lanjut disebutkan oleh Subandi
bahwa dalam Al Qur’an terdapat 44 ayat yang mengunakan kata
sabar dan 14 ayat yang
menggunakan kata kesabaran. Penelusuran dalam Alkitab (Bible) Bahasa Indonesia menunjukan
70 ayat yang menggunakan kata sabar, kesabaran, dan kata lain dengan tema sabar. Subandi
(2001) juga menyebutkan bahwa kesabaran merupakan bentuk pengendalian diri yang sangat
penting dalam agama Bidha dan agama Hindu.
Penelitian untuk mengidentifikasi makna kata sabar telah dilakukan oleh Dr. Benedictus
Bherman Dwijatmoko, M.A. yang menghasilkan klasifikasi atau pengelompokan makna kata
sabar kedalam 6 kategori atau kelompok, yaitu giliran, kondisi, komunikasi, sifat, pekerjaan, dan
urutan tindakan.
Dalam skripsi ini identifikasi makna kata sabar dilakukan dengan menggunkan algoritma
K-Means Clustering, yang hasilnya dibandingkan dengan hasil penelitian terdahulu oleh ahli
untuk mendapatkan akurasi dari algoritma K-Means Clustering dalam mengkelompokan makna
kata sabar. Dalam pengujian sistem menggunakan K-Means mendapat hasil paling tinggi yaitu
98.14814815%, dengan data yang digunakan sebanyak 108.
ABSTRACT
Patience is a ‘value of life’ which is upheld by Indonesian. According to Subandi (2011),
patience is a teachings upheld by five major religions in Indonesia (Moeslem, Christianity,
Catholic, Hinduism, and Buddhism). Furthermore, Subandi said there is 44 verses in Al-Quran
using the word patience and 14 verses using the word patirnce. In the holy bible, there is 70
verses using the word patience, patient, etc. Subandi also said that patience is an important
‘self-control’ in hinduism and buddhism.
A research tu find the true meaning of patience has been done by Dr. Benedictus
Bherman Dwijatmoko, M.A resulting in patience classification in 6 categories, they are turn
(giliran), situation (keadaan), communication (komunikasi), character (sifat), working
(pekerjaan), and action sequence (urutan tindakan).
i
IDENTIFIKASI MAKNA KATA SABAR DALAM ARTIKEL
BERBAHASA INDONESIA DENGAN ALGORITMA K-MEANS
CLUSTERING
SKRIPSI
Diajukan Untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana Komputer
Program Studi Teknik Informatika
Oleh :
Anjar Nugraha Jati
125314062
PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
ii
THE MEANING OF THE
“SABAR”
(PATIENCE) WORDS
IDENTIFICATION IN INDONESIA TEXT ARTICLE USING K-MEANS
CLUSTERING ALGORITHM
A Thesis Presented as Partial Fulfillment of the Requirements
To Obtain the Sarjana Komputer Degree
in Informatics Engineering Study Program
By :
Anjar Nugraha Jati
125314062
INFORMATICS ENGINEERING STUDY PROGRAM
DEPARTMENT OF INFORMATICS ENGINEERING
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
vi
HALAMAN PERSEMBAHAN
Karya ini penulis persembahkan kepada :
Tuhan Yesus dan Bunda Maria,
Keluarga,
Sahabat,
Teman-teman Teknik Informatika,
vii
ABSTRAK
Kesabaran merupakan nilai hidup yang dijunjung tinggi bangsa
Indonesia.Menurut Subandi (2001), kesabaran merupakan ajaran yang dijunjung
oleh kelima agama yang besar di Indonesia (Islam, Kristen, Katholik, Hindu, dan
Budha). Lebih lanjut disebutkan oleh Subandi bahwa dalam Al Qur‟an terdapat 44
ayat yang mengunakan kata sabar dan 14 ayat yang menggunakan kata
kesabaran. Penelusuran dalam Alkitab (Bible) Bahasa Indonesia menunjukan 70
ayat yang menggunakan kata sabar, kesabaran, dan kata lain dengan tema sabar.
Subandi (2001) juga menyebutkan bahwa kesabaran merupakan bentuk
pengendalian diri yang sangat penting dalam agama Bidha dan agama Hindu.
Penelitian untuk mengidentifikasi makna kata sabar telah dilakukan oleh
Dr. Benedictus Bherman Dwijatmoko, M.A. yang menghasilkan klasifikasi atau
pengelompokan makna kata sabar kedalam 6 kategori atau kelompok, yaitu
giliran, kondisi, komunikasi, sifat, pekerjaan, dan urutan tindakan.
Dalam skripsi ini identifikasi makna kata sabar dilakukan dengan
menggunkan algoritma K-Means Clustering, yang hasilnya dibandingkan dengan
hasil penelitian terdahulu oleh ahli untuk mendapatkan akurasi dari algoritma
K-Means Clustering dalam mengkelompokan makna kata sabar. Dalam pengujian
sistem menggunakan K-Means mendapat hasil paling tinggi yaitu 98.14814815%,
dengan data yang digunakan sebanyak 108.
viii
ABSTRACT
Patience is a „value of life‟ which is upheld by Indonesian. According to
Subandi (2011), patience is a teachings upheld by five major religions in
Indonesia (Moeslem, Christianity, Catholic, Hinduism, and Buddhism).
Furthermore, Subandi said there is 44 verses in Al-Quran using the word patience
and 14 verses using the word patirnce. In the holy bible, there is 70 verses using
the word patience, patient, etc. Subandi also said that patience is an important
„self
-
control‟ in hinduism and buddhism.
A research tu find the true meaning of patience has been done by Dr.
Benedictus Bherman Dwijatmoko, M.A resulting in patience classification in 6
categories, they are turn (giliran), situation (keadaan), communication
(komunikasi), character (sifat), working (pekerjaan), and action sequence (urutan
tindakan).
ix
x
KATA PENGANTAR
Puji syukur kepada Tuhan Yesus Kristus, atas segala berkat, bimbingan
dan karunia sehingga penulis dapat menyelesaikan Tugas Akhir sebagai salah satu
syarat akademik jurusan teknik informatika Universitas Sanata Dharma
Yogyakarta.
Penelitian ini dapat berjalan baik dari awal hingga akhir karena adanya
bimbingan, doa, ukungan semangat dan motivasi yang diberikan oleh banyak
pihak. Untuk itu, penulis ingin mengucapkan terimakasih kepada :
1.
Tuhan Yesus Kristus yang telah memberkati, membimbing dan
memberikan kekuatan di kehidupan ini setiap hari dalam suka maupun
duka.
2.
Bunda Maria yang selalu mendengarkan keluh kesah penulis dalam
menjalani kehidupan.
3.
Keluarga, Bapak Heri Santosa Francisco, Ibu Bibiana Titis Budi Asri,
Agustina Ratna Utami, dan Tulus Sigit Nugraha yang telah mendoakan,
mendukung dan memberi semangat kepada penulis selama proses
perkuliahan dan penyelesaian skripsi.
4.
Sri Hartati Wijono, S.Si., M.Kom. selaku dosen pembimbing tugas akhir,
atas bimbingan, waktu, dan saran yang telah diberikan kepada penulis.
5.
Dr.Benedictus Bherman Dwijatmoko, M.A. selaku dosen pembimbing
tugas akhir, atas bimbingan, waktu, dan saran yang telah diberikan kepada
penulis.
6.
Dr.C.Kuntoro Adi, S.J., M.A., M.Sc. selaku dosen pembimbing akademik,
atas bimbingan, motivasi, kritik, dan saran yang telah diberikan kepada
penulis.
xi
8.
Albertus Agung Hadhiatma, S.T., M.T. selaku dosen penguji, atas
bimbingan, kritik, dan saran yang telah diberikan kepada penulis.
9.
Dr. Anastasia Rita Widiarti selaku ketua program studi Teknik
Informatika, atas bimbingan, kritik, dan saran yang telah diberikan kepada
penulis.
10.
Sudi Mungkasi, Ph.D. selaku dekan Fakultas Sains dan Teknologi, atas
bimbingan, kritik dan saran yang telah diberikan kepada penulis.
11.
Teman-teman “Ikatan Teknik Informatika Liberal” yang selalu memberi
semangat dan hiburan selama proses kuliah di Universitas Sanata Dharma.
12.
Teman-teman UKF “FST Basketball” yang selalu memberi semangat dan
hiburan selama proses kuliah di Universitas Sanata Dharma.
13.
Cindya, Eric, Giri, Jona, Wiga, Gala, Tito, Dona, Cici, Jono, Dingo,
Loona, Choco, Misti atas doa, dukungan, bantuan dan hiburan selama
penulis berproses dalam penyelesaian tugas akhir.
14.
OMK St Alloysius Gonzaga Ngijoreja, yang telah menjadi sahabat dan
memberikan pelajaran berharga dalam memahami hidup dan memuji
memuliakan Tuhan Yesus Kristus.
15.
Semua pihak yang tidak dapat disebutkan satu per satu yang telah
membantu penulis dalam pengerjaan tugas akhir ini.
xii
DAFTAR ISI
HALAMAN PERSETUJUAN ... iii
HALAMAN PENGESAHAN SKRIPSI ... iv
PERNYATAAN KEASLIAN KARYA ... v
HALAMAN PERSEMBAHAN ... vi
ABSTRAK ... vii
ABSTRACT ...viii
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS ... ix
KATA PENGANTAR ... x
DAFTAR ISI ...xii
1.1 LATAR BELAKANG ... 1
1.2 RUMUSAN MASALAH ... 2
1.3 TUJUAN ... 2
1.4 BATASAN MASALAH ... 3
1.5 METODOLOGI PENELITIAN ... 3
1.6 SISTEMATIKA PENULISAN ... 3
BAB II ... 5
2.1. Ideologi Kesabaran Dalam Karya Sastra ... 5
2.2.Text Mining ... 10
2.3.Text Preprocessing ... 11
2.3.1.Tokenizing ... 11
2.3.2.Stopword Removal/Filtering ... 12
2.3.3.Stemming ... 12
2.3.4.Pembobotan tf-idf ... 16
2.4.Clustering ... 17
2.5.K-Means ... 18
2.6.Variance Initialitation ... 21
2.7.Euclidian Distance ... 22
BAB III ... 23
3.1.Data ... 23
xiii
3.3.Preprocessing ... 29
3.3.1.Tokenizing ... 29
3.3.2.Stopword ... 33
3.3.3.Stemming ... 36
3.3.4.Pembobotan ... 39
3.5.K-means ... 48
3.4.Spesifikasi Perangkat Keras dan Perangkat Lunak ... 49
BAB IV ... 50
4.1.Implemenasi ... 50
4.1.1.Pengolahan Data ... 50
4.1.2.Preprocessing ... 54
BAB V ... 63
5.1.Kesimpulan ... 63
5.2.Saran ... 63
xiv
DAFTAR GAMBAR
Gambar 2. 1 Gambar Flowchart Arus Proses K-Means Clustering ... 20
Gambar 3. 1 Gambar proses sistem ... 26
Gambar 4. 1 Gambar Folder Kelompok Dokumen ... 50
Gambar 4. 2 Gambar Data Dokumen Bermakna Keadaan ... 51
Gambar 4. 3 Gambar Data Dokumen Bermakna Komunikasi ... 52
Gambar 4. 4 Gambar Data Dokumen Bermakna Pekerjaan ... 52
Gambar 4. 5 Gambar Data Dokumen Bermakna Sifat ... 52
Gambar 4. 6 Gambar Data Dokumen Bermakna Urutan Tindakan ... 53
Gambar 4. 7 Gambar Data Dokumen Bermakna Urutan Giliran ... 54
Gambar 4. 8 Gambar Hasil Cluster Sistem 1 ...
59xv
DAFTAR TABEL
Tabel 2. 1 Tabel Imbuhan Awalan dan Akhiran ... 15
Tabel 2. 2 Tabel Cara menentukan tipe awalan untuk kata yang diawali dengan
"te" ... 15
Tabel 2. 3 Tabel Jenis awalan berdasarkan tipe awalanya ... 16
Tabel 3. 1 Tabel Data Paragraf Mengandung Kata Sabar Dengan Makna Keadaan
... 23
Tabel 3. 2 Tabel Data Paragraf Mengandung Kata Sabar Dengan Makna
Komunikasi ... 24
Tabel 3. 3 Tabel Data Paragraf Mengandung Kata Sabar Dengan Makna
Pekerjaan ... 24
Tabel 3. 4 Tabel Data Paragraf Mengandung Kata Sabar Dengan Makna Sifat ... 25
Tabel 3. 5 Tabel Data Paragraf Mengandung Kata Sabar Dengan Makna Urutan
Tindakan ... 25
Tabel 3. 6 Tabel Data Paragraf Mengandung Kata Sabar Dengan Makna Urutan
Giliran ... 26
Tabel 3. 7 Tabel Tokenizing data dengan paragraph yang mengandung kata sabar
dengan makna keadaan ... 30
Tabel 3. 8 Tabel Tokenizing data dengan paragraph yang mengandung kata sabar
dengan makna komunikasi ... 30
Tabel 3. 9 Tabel Tokenizing data dengan paragraph yang mengandung kata sabar
dengan makna pekerjaan ... 31
Tabel 3. 10 Tabel Tokenizing data dengan paragraph yang mengandung kata sabar
dengan makna sifat ... 31
Tabel 3. 11 Tabel Tokenizing data dengan paragraph yang mengandung kata sabar
dengan makna urutan tindakan... 32
Tabel 3. 12 Tabel Tokenizing data dengan paragraph yang mengandung kata sabar
dengan makna urutan giliran ... 32
Tabel 3. 13 Tabel Document Frequency ... 43
Tabel 3. 14 Tabel idf ... 44
Tabel 3. 15 Tabel W dengan makna Keasaan ... 45
Tabel 3. 16 Tabel W dengan makna Komunikasi ... 45
Tabel 3. 17 Tabel W dengan makna pekerjaan ... 46
Tabel 3. 18 Tabel W dengan Makna Sifat... 46
Tabel 3. 19 Tabel W dengan makna urutan tindakan ... 47
1
BAB I
PENDAHULUAN
1.1
LATAR BELAKANG
Informasi merupakan hal yang penting bagi setiap orang.Informasi
dibutuhkan sebagai penunjang untuk pengetahuan sampai pengambilan
keputusan. Kemajuan teknologi, sangat berpengaruh dengan pertambahan
informasi yang tersedia dan kecepatan pemerolehan informasi.Salah satu bentuk
informasi adalah informasi yang berbentuk teks. Dalam skripsi ini akan dibahas
bagaimana mengolah suatu dokumen, untuk memperoleh informasi termasuk
kedalam kategori apakah dokumen tersebut. Dokumen yang digunakan adalah
dokumen suatu karya sastra.
Karya sastra merupakan suatu tulisan atau karya tulis yang mengandung
nilai-nilai tertentu.Karya sastra yang berupa tulisan tentunya terdiri dari
sekumpulan kata-kata. Dan dalam sebuah karya satra ada banyak kata yang selalu
diulang. Dalam suatu kalimat dalam karya sastra terdapat kata yang memiliki
makna yang berbeda-beda meskipun kata tersebut sama. Untuk itu kata-kata
tersebut biasanya dikelompokan berdasarkan maknanya.Kata dalam suatu karya
perlu dikelompokan sesuai dengan makna masing-masing kata yang terdapat
dalam kalimat.
Dari masalah tersebut akan dibangun suatu sistem yang mampu menghitung
dan mengelompokan kata sesuai maknanya. Data kata tertentu dalam sebuah
artikel atau sejenisnya diolah terlebih dahulu. Pengolahan kata atau pengolahan
teks disebut juga text mining. Setelah proses pengolahan kata selanjutnya data
kata tersebut dikelompokan atau clustering menggunakan algoritma k-means.
Maka masalah yang pokok yang ingin dijawab pada penelitian ini adalah
seberpa tepat pengelompokan kata berdasarkan makna dengan menggunakan
metode K-Means Clustering. Metode K-Means Clustering ini memiliki kelebihan
yaitu tepat dalam mengelompokkan kata dibandingkan dengan pengelompokan
secara manual. Pemilihan metode K-means Clustering diharapkan tepat dalam
mengelompokan kata sesuai maknanya, karena sesuai dari keunggulan yang
dimiliki k-means dibandingkan dengan metode lain (Baswade, 2013) yaitu:
1.
Relatif efisien dengan O (knt) dimana k-jumlah cluster, n-jumlah objek,
t-jumlah iterasi.
2.
Mudah untuk dijalankan.
3.
Waktu yang dibutuhkan untuk menjalakan pembelajaran ini relatif cepat.
4.
Mudah untuk diadaptasi.
1.2
RUMUSAN MASALAH
Berdasarkan latar belakang yang ada dapat dirumuskan masalah yaitu :
Sejauh mana ketepatan metode K-Means Clustering dalam
pengelompokan paragraf yang mengandung kata sabar dalam suatu karya
sastra sesuai dengan maknanya.
1.3
TUJUAN
1.
Mengimplementasikan
metode
K-Means
Clustering
dalam
mengidentifikasi makna kata sabar pada karya sastra.
1.4
BATASAN MASALAH
1.
Pengelompokan menggunakan informasi teks dengan ekstensi .txt
2.
Memanfaatkan metode K-Means Clustering sebagai acuan kinerja sistem.
3.
Pengelompokan ini dibagi menjadi 6 yaitu: sifat, komunikasi, keadaan,
urutan tindakan, pekerjaan, urutan giliran.
1.5
METODOLOGI PENELITIAN
Metodologi yang digunakan dalam penelitian ini adalah studi kasus
dengan langkah-langkah sebagai berikut:
1.
Studi Pustaka
Memberikan pengetahuan tentang hal-hal berkaitan dengan
pengelompokan dokumen.Mempelajari dan memahami buku referensi
yang berkaitan tentang konsep algoritma K-Means.Clustering
2.
Pengambilan data
Data yang digunakan dari kutipan paragraph dalam karya sastra
yang mengandung kata sabar.
3.
Perancangan Sistem
Pada tahap ini dilakukan perancangan sistem yang akan dibuat.
4.
Implementasi
Pada tahap ini dilakukan pembuatan aplikasi yang digunakan untuk
mempermudah pengelompokan kata berdasarkan maknanyanya.
5.
Pengujian dan Analisa Hasil
Tujuan pada tahap ini adalah untuk mengetahui tingkat keakuratan
algoritma K-Means dalam mengelompokan kata sabar sesaui maknanya
dan menganalisa hasil.
1.6
SISTEMATIKA PENULISAN
BAB I PENDAHULUAN
Menjelaskan tentang latar belakang penulisan, perumusan masalah,
tujuan penelitian, pembatasan masalah, metode penulisan, dan sistematika
penulisan.
BAB II LANDASAN TEORI
Membahas tentang landasan teori yang dipergunakan dalam
penulisan tugas akhir ini.
BAB IIIMETODOLOGI PENELITIAN
Menguraikan dan membahas gambaran dan perancangan tentang
sistem yang dibuat, yang meliputi analisa sistem dan perancangan sistem.
BAB IV IMPLEMENTASI DAN ANALISA HASIL
Bab ini berisi implementasi dari perancangan yang telah dibuat
sebelumnya serta analisa dari hasil program yang telah dibuat.
BAB V PENUTUP
5
BAB II
LANDASAN TEORI
Bab ini membahas tentang teori-teori dan uraian yang berkaitan
dengan identifikasi karya sastra menggunakan K-Means Clustering.
Berikut adalah teori-teori yang akan dibahas:
2.1.
Ideologi Kesabaran Dalam Karya Sastra
Kesabaran merupakan ideologi yang penting dalam budaya
Indonesia.Dalam karya sastra Indonesia, ideologi kesabaran dapat muncul
secara tersurat dengan penggunaan adjektiva sabar, nomina kesabaran dan
penyabar, dan verba bersabar serta menyabarkan. Dari penelitian korpus
yang dilakukan dengan memakai data yang tersedia dalam www.corci.org,
ditemukan 6 (enam) konsep kesabaran, yaitu penerimaan kondisi yang
harus dihadapi, penantian giliran, penerimaan urutan kegiatan, kesedian
menunggu dalam pembicaraan, sifat sabar, dan ketekunan dalam
melakukan pekerjaan. Keenam konsep kesabaran itu diperlukan untuk
menjaga keseimbangan diri, menjaga hubungan yang harmonis, dan
mencapai hasil yang ingin dicapai.
Kalimat dengan tema sabar menunjukan 6 (enam) makna.Keenam
makna itu adalah penerimaan keadaan, penantian giliran, penerimaan
urutan tindakan, kesediaan menunggu dalam pembicaraan, sifat, dan
ketekunan dalam pekerjaan.
Masing-masing makna kesabaran muncul pada konteks yang
berbeda-beda, yaitu:
a.
Penerimaan Keadaan
jelek. Pelaku atau pembicara karena keadaan itu tidak dapat diubah lagi dan
harus diterima saja atau ditolak.
Contoh:
1.
Pun ketika ingin membentuk sebuah kalimat, bingung aku
menentukan tense-nya. Bahasa Inggrisku tak maju-
maju” “Begini,”
kata Lintang sabar menghadapi ketololanku.ketika itu ia sedang
memaku sandal cunghai-nya yang menganga seperti buaya lapar.
(SJ-6015).
2.
“… Kamu harus mau menuntun gua, Roy!” Dengan sabar dan telaten,
Roy menuntun sobatnya. Kadangkala kalau Toni kecapekan dan
merasa sakit pada lututnya akibat bergesekan dengan kaki palsunya.
Roy tidak bosan-bosan memompa semangatnya. (SJ-6057).
Pada contoh data diatas penerimaan keadaan dilakukan oleh Lintang
dan Roy mempunyai latar belakang yang sama. Pembicara dan Lintang
pada data (1) Toni dan Roy merupakan sahabat.Sebagai sahabat mereka
menerima keadaan sahabat mereka, dan sabar menghadapi keadaan yang
tidak mungkin diubah pada sahabat mereka.
b.
Penantian Giliran
Kesabaran juga muncul pada penantian dari tindakan orang lain.
Pelaku atau pembicara perlu sabar untuk menunggu orang lain selesai
melakukan tindakannya atau menunggu gilirannya.
Contoh:
1.
Penumpang berebut turun. Wajah gadis itu Nampak sabar sekali
menunggu luangnya jalan, Joki memberinya kesempatan untuk lewat.
(SJ-5997).
2.
Rupanya laki-laki itu sudah menggenggam satu-satunya payung di
tangannya. Ia tak sabar menunggu istrinya bepikir.”Jangan, Pak. Aku
saja.” (SJ-6023).
mungkin langsung berebut turun. Pada data (2) suami itu sudah tidak
sabar menunggu istrinya berpikir. Ia langsung mengambil payung, dan
siap pergi.Dengan ketidak-sabaran itu.Ia menunjukan kekuasaannya atas
istrinya. Kekuasaan itu juga diakui oleh istrinya,”Jangan Pak. Aku saja
(y
ang pergi).”
c.
Penerimaan Urutan Tindakan
Penerimaan urutan tindakan juga merupakan kesabaran.Pelaku atau
pembicara perlu melakukan tindakan sesuai dengan urutannya.Bila
seseorang melakukan tindakan yang tidak sesuai dengan urut-urutannya
menunjukan ketidak-sabaran orang itu.
Contoh :
1.
Kami, delapan ekor sapi, yang akan tampil pada plot kedua,
gemetar menunggu aba-aba dari Mahar untuk menerjang arena.
Kami tak sabar dan rasanya kaki sudah gatal ingin
mendemonstrasikan kehebatan mamalia menari. Kami adalah
remaja-remaja kelenihan energy dan lapar akan perhatian.
(SJ-6011)
2.
Tak satu baju pun yang tertinggal di almari. Seolah-olah Haji
Sudung akan kembali lagi ke rumah itu. Malam itu, sambil
mendekap buntalan tasnya. Haji Sudung tak sabar untuk segera
tertidur. Ia ingin berlari memburu pagi. (SJ-6040)
Karapan atau pacuan kuda mempunyai urut-urutan sendiri.Peserta
karapan harus mengikuti urut-urutan yang ditentukan sebelum mereka
akhirnya dapat berpacu di arena.Sapi-sapi pada data (1) menunjukkan
ketidak-sabarannya untuk mengikuti urutan itu.Demikian juga Haji
Sulung. Ia harus mengemasi barang-barangnya sebelum ia tidur dan
kemudian pergi pada keesokan harinya. Ia ingin segera tidur dan pergi
keesokan harinya.
yang besar. Sapi-sapi itu merupakan "remaja yang kelebihan energi," dan
Haji Sulung "ingin berlari memburu pagi." Kiranya kekuatan fisik dapat
merupakan sebab ketidak-sabaran.
d.
Kesediaan Menunggu dalam Pembicaraan
Kata sabar juga mempunyai arti kesediaan menunggu dalam
pembicaraan. Peserta pembicaraan perlu menunggu sampai orang yang
berbicara selesai berbicara sebelum ia memulai bicara. Menyela
pembicaraan merupakan perilaku tidak sabar.
Contoh:
1.
Cun An tercenung sebentar, kelihatannya menyerap omongan
penyamun ini untuk disari-sarikan, tapi setelah itu dengan tak
sabar berkata,"Sudah saya bilang jangan bertele-tele. Katakan
saja tawaranmu itu." (SJ-6066)
2.
Mamak berhenti sejenak. Kalan semakin tidak sabar. Sebatang
rokok keretek yang ia selai tak cukup mampu untuk
menghilangkan gundahnya. ”Maksud Mamak?
Cun An menunjukkan ketidak-sabarannya dengan memotong pembicaraan
penyamun itu, dan Kalan dengan memotong pembicaraan Mamak.Latar belakang
ketidak-sabaran Cun An dan Kalan berbeda. Kalimat
“
Sudah saya bilang jangan
bertele-tele. Katakan saja tawaran itu
”
menunjukkan bahwa Cun An mempunyai
kekuatan yang lebih besar daripada penyamun itu. Cun An tidak takut pada
penyamun itu. Berbeda dengan Cun An, Kalan merasa tidak nyaman untuk
melakukan tindakan yang dapat diartikan tidak sabar.Ia merasa terpaksa harus
memotong pembicaraan mamaknya, orang yang harus dihormatinya.Sebatang
rokok keretek yang ia selai tak cukup mampu untuk menghilangkan gundahnya.
e.
Sifat Sabar
Sifat sabar merupakan sifat baik yang dipunyai oleh orang yang
diidamkan. Sifat itu sejajar dengan sifat-sifat baik yang lain seperti
bijaksana, baik, tabah, dan setia.
1.
Perempuan memang bukan persoalan baginya. Hanya masalahnya
sampai sekarang dia baru bisa memahami seorang perempuan saja,
mamanya, wanita yang sabar, setia, bijaksana, dan penuh kasih
sayang.
2.
”Kata orangtua saya, sebagai istri saya mesti menghormati suami,
saya tidak boleh membantah kata suami. Hanya orang yang baik
dan sabar yang akan bisa masuk surga.”
Data (1) membicarakan mama pelaku yang mempunyai sifat sabar,
dan data (2) menunjukkan pembicara sendiri yang mempunyai sifat
sabar.Sifat sabar pada data (1) disertai dengan sifat yang baik lainnya yaitu
setia, bijaksana, dan penuh kasih sayang, dan pada data (2) sifat itu disertai
dengan sifat baik.
Pengakuan pelaku bahwa ibu pelaku itu mempunyai sifat sabar yang
belum ia jumpai pada wanita lain pada data (1) dan pengakuan pembicara
bahwa sifat sabarnya ia kembangkan karena kata orangtuanya
menunjukkan peran orang tua dalam penanaman sifat sabar. Mereka
melihat sosok orang tua sebagai orang yang dapat mereka tauladani dalam
kesabaran.
Akan tetapi perilaku sabar pada data (2) menunjukkan jalan
pemikiran yang berbeda.Kesabaran pada wanita itu merupakan kesabaran
yang dipaksakan.Seorang istri tidak boleh membantah kata suaminya
apapun yang dikatakan suaminya. Bila ia melanggar aturan itu, ia diancam
untuk tidak dapat masuk surga.
f.
Ketekunan dalam Pekerjaan
Contoh:
1.
"Bagaimana aku bisa sabar, kalau harus membuang tenaga, waktu,
dan pikiran cuma untuk beberapa ratus Indian rupee!"
2.
Uang itu ditolak Emak. Tetapi, setelah dibujuk berulang-ulang oleh
Si Pelukis dengan sabar dan manis, akhirnya uang yang cukup
banyak itu diterima Emak.
Pembicara pada data (1) tidak sabar atau tabah menghadapi keadaan
yang sulit.Ia tidak mau membuang tenaga, waktu, dan pikirannya karena
uang yang diterimanya sangat sedikitnya.Sebaliknya, Si Pelukis dengan
gigih atau tekun terus membujuk ibu pembicara sehingga wanita itu mau
menerima uang yang ingin diberikannya.
Latar belakangnya munculnya kesabaran atau ketidak-sabaran pada
(1) dan (2) berbeda. Pembicara pada (1) tidak sabar atas perilaku pemilik
pekerjaan atau orang yang memberinya pekerjaan. Ia merasa diperlakukan
tidak sebanding antara tenaga, waktu, dan pikiran yang dikeluarkannya
dengan uang yang diterimanya.Pemilik uang, modal, atau pekerjaan dapat
memperlakukan orang yang dipekerjakannya dengan tidak sepantasnya.
Pada data (2) faktor kedudukan dan usia Emak menuntut pelukis itu untuk
bertindak gigih untuk meyakinkan wanita itu agar mau menerima uang.
(B.B.Dwijatmoko,2016)
2.2.Text Mining
Text mining didefinisikan sebagai proses pengetahuan intensif yang
melibatkan interaksi pengguna dengan sekumpulan dokumen dari waktu
ke waktu menggunakan berbagai macam analisis. Sejalan dengan data
mining, text mining berusaha mengekstrak informasi yang berguna dari
sumber data melalui identifikasi dan eksplorasi pattern (Putri, 2013).
Text mining mencoba untuk mengekstrak informasi yang berguna dari
tidak ditemukan dalam bentuk database record, tetapi dalam data teks
yang tidak terstruktur (Sujana, 2013).
2.3.Text Preprocessing
Tahap text preprocessing merupakan tahap awal dari text mining.Text
preprocessing merupakan proses menggali, mengolah dan mengatur
informasi dengan cara menganalisis hubungannya dengan aturan-aturan
yang ada di data tekstual semi terstruktur atau tidak terstruktur (Luhulima,
Marji, dan Muflikhah, 2013).
Untuk lebih efektif dalam proses text preprocessing, dilakukan
langkah transformasi data ke dalam suatu format yang memudahkan untuk
kebutuhan pemakai. Proses ini disebut text preprocessing. Setelah dalam
bentuk yang lebih terstruktur dengan adanya proses diatas, data dijadikan
sumber data yang dapat diolah lebih lanjut. Tahapan text preprocessing,
diantaranya: Tokenizing, Stopword removal, Stemming dan pembobotan.
2.3.1.Tokenizing
Tahap Tokenizing merupakan tahap permotongan atau pemenggalan
kata dalam suatu dokumen menjadi potongan-potongan kata yang berdiri
sendiri. Pada tahap ini juga akan menhilangkan karakter selain huruf
seperti angka, tanda baca atau karakter yang melekat pada kata tersebut
dan mengubah huruf ke huruf kecil (Manning, 2008).
Contoh proses Tokenizing:
Kalimat asal:
Kunanti dengan penuh Kesabaran.
Hasil dari Text Preprocessing:
kunanti penuh
2.3.2.Stopword Removal/Filtering
Tahap filtering adalah tahap mengambil kata-kata penting dari
hasil tokenizing.Menggunakan algoritma stoplist yaitu menghilangkan
kata yang kurang penting atau wordlist yaitu menyimpan kata penting.
Contoh stopword yaitu: yang, juga, dari, dia, kami, kamu, aku, saya, ini,
itu, atau, dan, tersebut, pada, dengan, adalah, yaitu, ke, tak, tidak, di,
pada, jika, maka, ada, pun, lain, saja, hanya, namun, seperti, kemudian,
dan lain-lain.
Contoh proses stopword:
Hasil dari text tokenizing:
kunanti penuh
dengan kesabaran
Hasil dari stopword:
nanti penuh
dengan kesabaran
2.3.3.Stemming
Algoritma stemming yang digunakan dalam penelitian ini adalah
Stemming Sastrawi. Sastrawi stemmer merupakan sebuah library
stemmer sederhana yang didesain untuk dapat digunakan secara mudah.
Sastrawi stemmer menerapkan algoritma yang berbasis Nazief dan
Adriani, kemudian ditingkatkan oleh algoritma CS (Confix Stripping),
kemudian ditingkatkan lagi oleh algoritma ECS (Enhanced Confix
Strippin), lalu ditingkatkan lagi oleh Modified ECS.
Dengan menggunakan algoritma-algoritma tersebut, banyak
persoalan stemming berhasil diatasi:
1.
Mencegah overstemming dengan kamus kata dasar.
2.
Mencegah understemming dengan aturan-aturan tambahan
3.
Kata bentuk jamak berhasil distem. Contoh : buku-buku
menjadi buku. (Sastrawi)
Algoritma yang dibuat oleh Bobby Nazief dan Mirna Adriani ini
memiliki tahap-tahap sebagai berikut:
1.Cari kata yang akan distem dalam kamus. Jika ditemukan maka
diasumsikan bahwa kata tesebut adalah root word. Maka algoritma
berhenti.
2.
Inflection Suffixes (“
-
lah”, “
-
kah”, “
-
ku”, “
-
mu”, atau “
-
nya”) dibuang.
Jika berupa particles (“
-
lah”, “
-
kah”, “
-
tah” atau “
-
pun”) maka langkah
ini diulangi lagi untuk menghapus Possesive Pronouns (“
-
ku”, “
-
mu”,
atau “
-
nya”), jika ada.
3.
Hapus Derivation Suffixes (“
-
i”, “
-
an” atau “
-
kan”). Jika kata ditemukan
di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a
b. Akhiran ya
ng dihapus (“
-
i”, “
-
an” atau “
-
kan”) dikembalikan,
lanjut ke langkah 4.
4.Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus
maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b.
a.
Periksa tabel kombinasi awalan-akhiran yang tidak
diijinkan. Jika ditemukan maka algoritma berhenti, jika
tidak pergi ke langkah 4b.
b. For i = 1 to 3, tentukan tipe awalan kemudian hapus
awalan. Jika root word belum juga ditemukan lakukan
langkah 5, jika sudah maka algoritma berhenti. Catatan:
jika awalan kedua sama dengan awalan pertama algoritma
berhenti.
5.Melakukan Recoding.
6.Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata
awal diasumsikan sebagai root word. Proses selesai.
Tipe awalan ditentukan melalui langkah-langkah berikut:
1.
Jika awalannya adalah: “di
-
”, “ke
-
”, atau “se
-
” maka tipe awalannya
secara berturut-
turut adalah “di
-
”, “ke
-
”, atau “se
-
”.
2.
Jika awalannya adalah “te
-
”, “me
-
”, “be
-
”, atau “pe
-
” maka
dibutuhkan sebuah proses tambahan untuk menentukan tipe
awalannya.
3.
Jik
a dua karakter pertama bukan “di
-
”, “ke
-
”, “se
-
”, “te
-
”, “be
-
”,
“me
-
”, atau “pe
-
” maka berhenti.
Tabel 2. 1 Tabel Imbuhan Awalan dan Akhiran
Awalan
Akhiran yang tidak diijinkan
be-
-i
di-
-an
ke-
-i, -kan
me-
-an
[image:32.595.85.520.134.751.2]se-
-i, -kan
Tabel 2. 2 Tabel Cara menentukan tipe awalan untuk kata yang diawali dengan "te"
Following Characters
Tipe
Awalan
Set 1
Set 2
Set 3
Set 4
“-r-“
“-r-“
-
-
none
“-r-“
Vowel
-
-
Ter-luluh
“
-r-
“
Not(vowel
or “
-r-
“)
“
-er-
“
vowel
Ter
“
-r-
“
Not(vowel
or “
-r-
“)
“
-er-
“
Not vowel
ter-
“
-r-
“
Not(vowel
or “
-r-
“)
not “
-er-
“
-
Ter
Not(vowel
or “
-r-
“)
“
-er-
“
Vowel
-
none
or “
-r-
“)
Tabel 2. 3 Tabel Jenis awalan berdasarkan tipe awalanya
Tipe Awalan
Awalan yang harus dihapus
di-
di-
ke-
ke-
se-
se-
te-
te-
ter-
ter-
ter-luluh
Ter
2.3.4.Pembobotan tf-idf
Pembobotan dilakukan untuk mendapatkan nilai dari kata (term)
yang telah diekstrak.Metode pembobotan yang digunakan yaitu
pembobotan tf-idf. Pada tahap ini, setiap dokumen diwujudkan sebagai
sebuah vector dengan elemen sebanyak kata (term) yang didapat dari tahap
ekstraksi dokumen. Vector tersebut beranggotakan bobot dari setiap term
yang didapat dengan perhitungan bobot tf-idf.
Formula yang digunakan untuk menghitung bobot (w)
masing-masing dokumen terhadap kata kunci adalah:
Dimana:
t = kata ke-t dari kata kunci
W = bobot dokumen ke-d terhadap kata ke-t
Setelah bobot (w) masing-masing dokumen diketahui, maka
dilakukan proses sorting/pengurutan dimana semakin besar nilai w,
semakin besar tingkat similaritas dokumen tersebut terhadap kata yang
dicari, demikian sebaliknya.
Idf =
Dimana:
N = jumlah dokumen
dfj = jumlah dokumen j yang mengandung kata
Metode ini berguna untuk mencari representasi nilai dari tiap-tiap
dokumen dari kumpulan data training. Representasi nilai akan dibentuk
menjadi vector antara dokumen dengan kata (document with terms).
Kesamaan antara dokumen dengan cluster ditentukan oleh sebuah
prototype cluster yang disebut juga dengan cluster centroid (Putri, 2013).
2.4.Clustering
Tujuan dari clustering adalah menemukan cluster berkualitas dalam
waktu yang tepat.Cluster dalam data mining berguna untuk menemukan
pola distribusi di dalam sebuah data set yang berguna untuk proses analisa
data. Kesamaan obyek biasanya diperoleh dari kedekatan nilai-nilai atribut
yang menjelaskan obyek-obyek data, sedangkan obyek-obyek data
biasanya direpresentasikan sebagai sebuah titik dalam ruang multidimensi.
Dengan menggunakan clustering, dapat diidentifikasikan daerah yang
padat, antara pola-pola distribusi secara keseluruhan dan keterkaitan yang
menarik antara atribut-atribut data. Dalam data mining usaha difokuskan
pada metode-metode penemuan cluster pada basis data berukuran besar
secara efektif dan efisien.
2.5.K-Means
K-means merupakan algoritma pengelompokan iterative yang
melakukan partisi set data ke dalam sejumlah K cluster yang sudah
diterapkan. Algoritma K-Means sedehana untuk diimplementasikan dan
dijalankan, relative cepat, mudah beradaptasi dan umum penggunaannya
dalam praktek. Secara historis, K-Means menjadi salah satu algoritma
yang paling dalam bidang data mining (Eko Prasetyo, 2014).
mengakibatkan hasil cluster yang berbeda, bahkan pada set data X yang
sama. Innisialisai yang tidak baik akan mendapatkan hasil cluster yang
tidak baik juga. Penyelesaian masalah local optima dapat diselesaikan
dengan menjalankan algoritma beberapa kali dengan inisial centroid yang
berbeda kemudian memilih hasil yang terbaik.
Langkah -langkah dari Algoritma K-means (Handoyo, Rumani, dan
Nasution, 2014):
1.
Menentukan nilai k sebagai jumlah cluster yang ingin dibentuk
2.
Menentukan centroid (titik pusat cluster) awal menggunakan
variance initialitation.
3.
Hitung jarak setiap data ke masing-masing centroid
menggunakan rumus korelasi antar dua objek (Euclidean
Distance).
4.
Mengelompokan berdasarkan jarak minimum antara data
dengan centroidnya.
5.
Menentukan centroid yang baru dengan cara menghitung nilai
rata-rata dari data yang ada pada centroid yang sama.
Gambar 2. 1 Gambar Flowchart Arus Proses K-Means Clustering
2.6.Variance Initialitation
Variance initialitation adalah salah satu algoritma yang digunakan
Untuk menentukan centroid awal pada proses clustering. Berikut
langkah-langkah variance initialitation( Al-Daoud, 2007):
1.
Hitung nilai variance data setiap dimensi (kolom data).
2.
Temukan kolom dengan nilai variance terbesar, kemudian sort data.
3.
Bagi keseluruhan data menjadi K bagian, K adalah jumalh cluster.
4.
Temukan median (nilai tengah) pada setiap bagian.
5.
Gunakan vector data median setiap bagian sebagai centroid awal
cluster.
Variance Initialitation merupakan salah satu teknik analisis
multivariate yang berfungsi untuk membedakan rerata lebih dari dua
kelompok data dengan cara membandingkan variansinya. Analisis varian
termasuk dalam kategori statistic parametric( Ghozali, 2009). Berikut
rumus yang digunakan untuk menghitung variansi.
Pada persamaan
= varian
= nilai x ke-i
= rata-rata
n = ukuran sampel
Untuk menghitung standar deviasi (simpangan baku) maka
digunakan rumus standar deviasi seperti yang terdapat pada persamaan
berikut.
Pada persamaan
s = Standar deviasi (simpangan baku)
= varian
2.7.Euclidian Distance
Untuk menghitung jarak antara objekdengan centroid penulis
menggunakan Euclidian Distance.
; i = 1,2,3,…,
= objek x ke-i
= daya y ke-i
n = banyaknya objek
Kemudian untuk menghitung centroid cluster ke-i berikutnya
digunakan
rumus
sebagai
berikut:
23
BAB III
METODOLOGI PENELITIAN
3.1.Data
Data yang akan digunakan diambil dari web corci.org yang berjumlah
108 karya satra.Dalam setiap dokumen mengandung kata sabar yang akan
dikelompokan sesaui dengan maknanya. Data kemudian diubah ke dokumen
berbentuk dokumen berektensi .txt. Data yang dipilih berasal dari enam kelompok
yaitu keadaan, komunikasi, pekerjaan, sifat, urutan tindakan,urutan giliran.
Berikut adalah contoh paragraph dalam suatu karya sastra yang
mengandung kata sabar dengan makna keadaan.
Meski ia tahu ibunya sayang kepadanya, tetapi kalau marah tetap saja
mengerikan. Biasanya, ia suka pura-pura tertidur kalau sedang dimarahi, menutupi
telinganya dengan bantal agar tak mendengar suara ibunya yang terus-menerus
berbicara, dan biasanya pula sang ibu akan menunggu, sampai kapan Manisha
bisa sabar untuk pura-pura tertidur, terkadang ia bisa benar-benar tertidur pada
akhirnya, terkadang pula tetap tak bisa tidur, hanya bisa menunggu emosi ibunya
reda, dan akhirnya, mereka akan saling menunggu, siapa yang paling sabar di
antara keduanya. Sudah ratusan kali Manisha dimarahi ibunya, entah karena
kesalahan fatal semacam menumpahkan gula dari stoples, atau membiarkan air
keran kamar mandi terbuka yang menyebabkan airnya meluber, sampai beragam
alasan yang menurutnya mengada-ada. Lama kelamaan, Manisha bisa
[image:40.595.89.541.205.680.2]dikriminalisasi oleh ibunya sendiri.
Selanjutnya adalah contoh paragraph dalam suatu karya sastra yang
mengandung kata sabar dengan makna komunikasi.
Ibu seperti menghindar, memalingkan muka menyembunyikan wajahnya, sambil
jawabnya: “Nanti juga kalau saatnya pulang, pasti pulang.” “Apa nggak kena
penyakit karena candik ala, Bu?” tanyaku tak
sabar.Ibu diam saja.Memang,
kadang-kadang setengahnya aku kurang percaya dengan hal-hal aneh demikian,
tapi kadang kala pula hati dibuat ciut dengan kejadian seperti yang pernah kami
alami tahun lalu.
Kemudian contoh paragraph karya sastra yang mengandung kata sabar
dengan makna pekerjaan.
[image:41.595.86.534.168.633.2]" begitu Iwin menulis. Tampaknya dia sudah tidak sabar, karena selama ini
perutnya cuma diisi cairan infus dan baru-baru ini sudah diperbolehkan menyedot
susu murni. "Seminggu lagi." Si suster tersenyum kecil sambil menyodorkan
segelas susu murni. Iwin menyedotnya hati-hati.Roy memperhatikannya dengan
teliti.Tampaknya Iwin sudah mendingan, batinnya.
Tabel 3. 2 Tabel Data Paragraf Mengandung Kata Sabar Dengan Makna Komunikasi
Contoh paragraph karya sastra yang mengandung kata sabar dengan makna sifat.
Suatu malam, Ibnu Zaidun menghadiri undangan Wilada yang cukup meriah,
penuh hiburan dan nyanyian. Bertambahlah perasaan cinta dalam dirinya sehingga
ia ungkapkan dalam sebuah syair yang mendalam: Engkau di antara makhluk
yang besok menjadi pujaanku Engkau adalah waktu yang menjadi curahanku Aku
tidak mengajukan suatu keinginan diri Kecuali dengan menyebutku dengan
menenteram-kanku Janjimu akan kesabaran atasmu adalah kesabaranku di
tengah dahagaku pada air yang jernih Aku memiliki cita-cita, seandainya
pemfitnah itu merintangi Akan kubuktikan hasil dengan buah keberhasilan Benar,
hidup bagi kedua matanya adalah firdaus yang menerangi kegelapan. Bagi kedua
telinganya hidup juga ibarat langgam merdu, bagaikan burung-burung yang
beterbangan dengan riang gembira dari dahan ke dahan, dan dari pohon ke pohon.
Contoh paragraph karya sastra yang mengandung kata sabar dengan makna urutan
tindakan.
Dalam terpaan cahaya kuning, wajah-wajah kurus semakin mempertegas
cekungan mata bagai mayat hidup. Dadaku berdebar-debar, tak sabar untuk bisa
cepat-cepat bertemu ayah, yang mungkin ada di sana. Beberapa meter sebelum
mencapai tempat mereka, seorang petugas mengusirku, dan menyuruhku mancing
agak jauh dari situ. Kutaruh sepeda di pinggir jalan, kemudian duduk
[image:42.595.90.538.125.625.2]mencangkung di atas batu padas di pinggir rawa.
Tabel 3. 4 Tabel Data Paragraf Mengandung Kata Sabar Dengan Makna Sifat
Contoh paragraph karya sastra yang mengandung kata sabar dengan makna urutan
giliran.
Anak-anak kecil itu tertawa-tawa senang jika mengetahui kata-kata Indonesia
yang mirip dengan bahasa daerah mereka.Semakin anak-anak kecil itu gembira,
semakin tak sabar Murtini menunggu di dapur.Jangan-jangan dia tidak mencuci
hari ini, keluhnya dalam hati.Bayang-bayang pohon di tanah tinggal sepanjang
sepertiga panjang benda aslinya.Akhirnya anak-anak kecil itu bubar setelah Tody
menyuruhnya bubaran.
3.2.Deskripsi Sistem
Secara umum, sistem yang akan dibangun dalam penelitian ini adalah
sebuah sistem dengan fungsi utama untuk melakukan pengelompokan dokumen
kalimat yang mengandung kata Sabar yang diambil dari website corci.org.
Proses pengelompokan yang digunakan pada sistem ini adalah metode k-means
clustering. Praktiknya dokumen-dokumen yang akan dikelompokan dijadikan
sebagai arsip digital dengan ekstensi .txt. File text inilah yang nantinya akan
diproses oleh sistem melalui proses tokenizing, stopword, stemming, indexing,
pembobotan, clustering, dan evaluasi.
[image:43.595.85.530.184.667.2]Gambar 3. 1 Gambar proses sistem
Pada gambar 3.1.proses clustering dimulai dari input data yang
berupa kalimat-kalimat karya sastra, kemudian dilanjutkan dengan text
operation, pada tahap awal dilakukan tokenizing, yaitu proses pemisahan
data dan menghilangkan karakter yang bukan huruf seperti tanda baca atau
angka, langkah selanjutnya adalah stopword, stopword digunakan untuk
mengambil kata-kata yang dianggap penting dari tahap tokenizing,
membuang kata yang kurang penting. Tahap selanjutnya adalah stemming,
stemming digunakan untuk menghilangkan kata-kata yang berimbuhan, dan
pembobotan untuk proses member index atau frekuensi yang terdapat pada
kata hasil dari proses dari stemming.
Tahapan k-means, menentukan nilai awal centroid, setelah itu
dicari kedekatan antara centroid yang telah didapat dengan data
menggunakan kedekatan euclidean distance. Selanjutnya untuk output
terdiri dari hasil cluster, dimana terdapat pembagian data dalam empat
cluster berdasrkan centroid terdekat.
Tahap Preprocessing
Pada tahap preprocessing, sistem melakukan tahap tokenizing,
stopword, dan stemming.
Langkah-langkah tokenizing:
1.
Baca tiap file txt sebagai satu data dokumen.
2.
Ambil tiap token pada kalimat tweet dengan menggunakan spasi
sebagai pemisah antara satu token dengan token lain.
3.
Simpan setiap data dokumen yang telah di token.
Langkah-langkah stemming:
1.
Baca tiap token dan cocokan dengan kata pada daftar kamus
stemming/kata dasar.
3.
Jika token tidak cocok dengan kata pada daftar kamus kata dasar,
hapus akhiran dan awalan pada token.
4.
Cocokan hasil langkah 3 dengan kata pada daftar kamus kata dasar,
jika cocok, anggap token sebelum dikenakan langkah 3 sebagai root
word.
Tahap Pembobotan
Pada
tahap
pembobotan
ini,
sistem
yang
akan
dibangun
merepresentasikan data text sebagai vector dengan nilai bobot
masing-masing term. Perhitungan bobot term menggunakan metode pembobotan
tf-idf.
Langkah-langkah pembobotan tf-idf:
1.
hitung nilai tf pada masing-masing kata
2.
hitung nilai idf pada masing-masing kata
3.
hitung bobot kata dengan mengalikan nilai tf dan idf
Tahap Clustering
Tahap clustering sistem akan mengelompokan data berupa paragraf yang
mengandung kata sabar ke dalam 6 cluster, yaitu keadaan, komunikasi, sifat,
urutan giliran, urutan tindakan, pekerjaan. Setiap data akan dikelompokan
berdasarkan kedekatan dengan centroid. Kedekatan antara data dengan
centroid dihitung menggunakan metode euclidian distance.
Untuk menentukan titik pusat centroid awal digunakan metode variance
initialization. Penggunaan metode tersebut diharapkan mendapatkan titik
centroid awal yang baik sehingga pengelompokan data-nya pun
mendapatkan hasil yang baik.
2.
Temukan kolom dengan nilai variance terbesar, kemudian sort
data.
3.
Bagi keseluruhan data menjadi K bagian, K adalah jumalh cluster.
4.
Temukan median (nilai tengah) pada setiap bagian.
5.
Gunakan vector data median setiap bagian sebagai centroid awal
cluster.
Langkah-langkah K-means Clustering:
1.
Menentukan nilai k sebagai jumlah cluster yang ingin dibentuk
2.
Menentukan centroid (titik pusat cluster) awal menggunakan
variance initialitation.
3.
Hitung jarak setiap data ke masing-masing centroid
menggunakan rumus korelasi antar dua objek (euclidean
distance).
4.
Mengelompokan berdasarkan jarak minimum antara data
dengan centroidnya.
5.
Menentukan centroid yang baru dengan cara menghitung nilai
rata-rata dari data yang ada pada centroid yang sama.
6.
kemudian kembali ke langkah 3, jika posisi centroid baru
dengan centroid lama, tidak sama.
3.3.Preprocessing
Sebelum masuk pada tahap clutering data terlebih dahulu masuk ke
dalam tahap preprocessing. Tahap ini meliputi tahap tokenizing, stopword,
dan stemming:
3.3.1.Tokenizing
Tokenizing data dengan paragraph yang mengandung kata sabar dengan
makna keadaan:
Tokenizing data dengan paragraph yang mengandung kata sabar dengan
makna komunikasi:
Manisha bisa sabar untuk pura-pura tertidur, terkadang ia bisa benar-benar
tertidur pada akhirnya, terkadang pula tetap tak bisa tidur
Manisha pura-pura bisa akhirnya tak
Bisa tertidur benar-benar terkadang bisa
Sabar terkadang tertidur pula tidur
untuk ia pada tetap
Ayah akan menco a e ari ara ter aik u tuk e yelesaika asalah i i.” ”Ke apa tidak e yuruh para pre itu elepaska ayahku?” ta ya Artika tak sa ar. Mata ya sudah e gkak da ia asih terus e a gis. ”Te a g, Nak.
Ayah cara masalah menyuruh melepaskan tak bengkak
akan terbaik ini para ayahku sabar
mencoba untuk Kenapa pre Tanya Matanya
[image:47.595.86.541.187.625.2]mencari menyelesaikan tidak itu Artika sudah Tabel 3. 7 Tabel Tokenizing data dengan paragraph yang mengandung kata sabar dengan makna keadaan
Tokenizing data dengan paragraph yang mengandung kata sabar dengan makna
pekerjaan:
Tokenizing data dengan paragraph yang mengandung kata sabar dengan
makna sifat:
Sabar Roy!" "Bagaimana aku bisa sabar, kalau harus membuang tenaga, waktu, dan pikiran cuma untuk beberapa ratus Indian rupee!" makinya. Chi Wan memang cuma menukar dua ratus dolar saja.
Sabar sabar waktu beberapa Chi Wan ratus
Roy kalau dan ratus memang dolar
Bagaimana harus pikiran Indian Cuma saja
aku membuang Cuma rupee menukar
bisa tenaga untuk makinya dua
” ”Kata ora gtua saya, se agai istri saya esti e ghor ati sua i, saya tidak boleh membantah kata suami. Hanya orang yang baik dan sabar yang akan bisa
asuk surga.” ”Kalau ora gtua ka u asih hidup, dia tidak aka rela ka u disiksa begini?!
Kata menghormati suami yang
Orangtua suami Hanya akan
Saya saya orang bisa
Sebagai tidak yang masuk
Istri boleh baik surga
Saya membantah dan
Mesti kata sabar
[image:48.595.85.532.183.751.2]Tabel 3. 9 Tabel Tokenizing data dengan paragraph yang mengandung kata sabar dengan makna pekerjaan
Tokenizing data dengan paragraph yang mengandung kata sabar dengan
makna urutan tindakan:
Tokenizing data dengan paragraph yang mengandung kata sabar dengan
makna urutan giliran:
Tak la a lagi. Aku aka ke ali e ulis.” ”Aku tak sa ar u tuk e a a ya. ”Bisikku, saat dua pasa g kaki e yusuri koridor ya g su yi.
Tak kembali untuk pasang sunyi
Lama menulis membacanya kaki
Lagi Aku Bisikku menyusuri
Aku tak saat koridor
Akan sabar dua yang
Penumpang berebut turun.Wajah gadis itu nampak sabar sekali menunggu luangnya jalan.Joki memberinya kesempatan untuk lewat.
Penumpang gadis Nampak menunggu Joki untuk
Berebut Wajah sabar luangnya memberinya lewat.
Turun itu sekali jalan kesempatan
[image:49.595.85.533.209.633.2]Tabel 3. 11 Tabel Tokenizing data dengan paragraph yang mengandung kata sabar dengan makna urutan tindakan
3.3.2.Stopword
Tahap stopword adalah tahap mengambil kata-kata penting dari hasil
tokenizing.Menggunakan algoritma stoplist yaitu menghilangkan kata yang
kurang penting atau wordlist yaitu menyimpan kata penting. Contoh
stopword
yaitu “ada”,”kita”, dan lain
-lain.
Stopword data dengan paragraph yang mengandung kata sabar dengan
makna keadaan:
Stopword data dengan paragraph yang mengandung kata sabar dengan makna
komunikasi:
Manisha pura-purabisaakhirnyatak
bisatertidurbenar-benarterkadangbisa
sabarterkadangtertidurpulatidur
untuk iapadatetap
Sabar benar-benar terkadang
Pura-pura tertidur
Tertidur
Terkadang akhirnya tidur
Ayah cara masalah menyuruh melepaskan tak bengkak
akan terbaik ini para ayahku sabar
mencoba untuk Kenapa pre Tanya Matanya
mencari menyelesaikan tidak itu Artika sudah
Akan cara menyuruh matanya
Mencoba menyelesaikan melepaskan bengkak
Stopword data dengan paragraph yang mengandung kata sabar dengan
makna pekerjaan:
Stopword data dengan paragraph yang mengandung kata sabar dengan makna
sifat:
Sabar sabar waktu beberapa Chi Wan ratus
Roy kalau dan ratus memang dolar
Bagaimana harus pikiran Indian Cuma saja
aku membuang Cuma rupee menukar
bisa tenaga untuk makinya dua
Sabar waktu makinya
Sabar pikiran menukar
Membuang ratus ratus
Tenaga rupee dolar
Kata menghormati suami yang
Orangtua suami Hanya akan
Saya saya orang bisa
Sebagai tidak yang masuk
Istri boleh baik surga
Saya membantah dan
Mesti kata sabar
Istri sabar
Suami surga
Membantah
Stopword data dengan paragraph yang mengandung kata sabar
dengan makna urutan tindakan:
Stopword data dengan paragraph yang mengandung kata sabar
dengan makna urutan giliran:
Penumpang gadis Nampak menunggu Joki untuk
Berebut Wajah sabar luangnya memberinya lewat.
Turun itu sekali jalan kesempatan
Penumpang wajah menunggu memberinya
Berebut Nampak luangnya kesempatan
Turun sabar jalan lewat
Tak kembali untuk pasang sunyi
Lama menulis membacanya kaki
Lagi Aku Bisikku menyusuri
Aku tak saat koridor
Akan sabar dua yang
Menulis bisikku menyusuri
Sabar pasang koridor
3.3.3.Stemming
Pada tahap ini hasil kata yang sudah tereduksi dari proses stopword
dilakukan penghapusan kata menjadi kata dasar yang kemudian akan
dicocokan ke kamus untuk menghasilkan kata unik.
Stemming data dengan paragraph yang mengandung kata sabar
dengan makna keadaan:
Stemming data dengan paragraph yang mengandung kata sabar
dengan makna komunikasi:
Sabar benar-benar terkadang
Pura-pura tertidur
Tertidur
Terkadang akhirnya tidur
Sabar benar tidur
Pura tidur
Tidur akhir
Kadang kadang
cara menyuruh matanya
Mencoba menyelesaikan melepaskan bengkak
Mencari masalah sabar
Coba masalah mata
Cari suruh bengkak
Cara lepas
Stemming data dengan paragraph yang mengandung kata sabar
dengan makna pekerjaan:
Stemming data dengan paragraph yang mengandung kata sabar
dengan makna sifat:
Sabar waktu makinya
Sabar pikiran menukar
Membuang ratus ratus
Tenaga rupee dolar
Sabar waktu maki
Sabar piker tukar
Buang ratus ratus
Tenaga rupee dolar
Istri sabar
Suami surga
Membantah
suami
Istri sabar
Suami surga
Bantah
Stemming data dengan paragraph yang mengandung kata sabar
dengan makna urutan tindakan:
Stemming data dengan paragraph yang mengandung kata sabar
dengan makna urutan giliran:
Menulis bisikku menyusuri
Sabar pasang koridor
Membacanya kaki sunyi
Tulis bisik susur
Sabar pasang koridor
Baca kaki sunyi
Penumpang wajah menunggu memberinya
Berebut Nampak luangnya kesempatan
Turun sabar jalan lewat
Tumpang wajah tunggu beri
Rebut Nampak luang kesempatan
3.3.4.Pembobotan
Pada tahap ini setiap kata unik diberi bobot kata dengan
menggunakan rumus weighing (tf.idf).
Term frequency (tf) data dengan paragraph yang mengandung kata
sabar dengan makna keadaan:
Term frequency (tf) data dengan paragraph yang mengandung kata
sabar dengan makna komunikasi:
Sabar benar tidur
Pura tidur
Tidur akhir
Kadang kadang
tf
sabar=1
pura=1
tidur=3
kadang=2
akhir=1
Coba masalah mata
Cari suruh bengkak
Cara lepas
Selesai sabar
tf
coba=1
cari=1
cara=1
selesai=1
masalah=1
suruh=1
lepas=1
sabar=1
mata=1
Term frequency (tf) data dengan paragraph yang mengandung kata
sabar dengan makna pekerjaan:
Term frequency (tf) data dengan paragraph yang mengandung kata
sabar dengan makna sifat:
Sabar waktu maki
Sabar pikir tukar
Buang ratus ratus
Tenaga rupee dolar
tf
sabar=2
buang=1
tenaga=1
waktu=1
piker=1
ratus=2
rupee=1
maki=1
tukar=1
dolar=1
Istri sabar
Suami surga
Bantah
suami
tf
istri=1
suami=2
bantah=1
sabar=1
Term frequency (tf) data dengan paragraph yang mengandung kata
sabar dengan makna urutan tindakan:
Tulis bisik susur
Sabar pasang koridor
Baca kaki sunyi
tf
tulis=1
sabar=1
baca=1
bisik=1
pasang=1
kaki=1
susur=1
koridor=1
Term frequency (tf) data dengan paragraph yang mengandung kata
sabar dengan makna urutan giliran:
Tumpang wajah tunggu beri
Rebut Nampak luang kesempatan
Turun sabar jalan lewat
tf
tumpang=1
rebut=1
turun=1
wajah=1
Nampak=1
Sabar=1
Tunggu=1
Luang=1
Jalan=1
Beri=1
Kesempatan=1
Hitung document frequency(df)
Tabel 3. 13 Tabel Document Frequency
Id
Kata
df
25
Nampak
1
26
pasang
1
27
Piker
1
28
Pura
1
29
ratus
2
30
Rebut
1
31
rupee
1
32
Sabar
7
33
Selesai
1
34
Suami
2
35
sunyi
1
36
surga
1
37
suruh
1
38
susur
1
39
Tenaga
1
40
Tidur
3
41
tukar
1
42
Tulis
1
43
Tumpang
1
44
tunggu
1
45
Turun
1
46
wajah
1
47
waktu
1
Id
Kata
Df
1
Akhir
1
2
Baca
1
3
Bantah
1
4
Benar
1
5
Bengkak
1
6
Beri
1
7
Bisik
1
8
Buang
1
9
Cara
1
10
Cari
1
11
Coba
1
12
Dolar
1
13
Istri
1
14
Jalan
1
15
Kadang
2
16
Kaki
1
17
kesempatan
1
18
Koridor
1
19
Lepas
1
20
Lewat
1
21
Luang
1
22
Maki
1
23
Masalah
1
Hitung inverse document frequency (idf)
Tabel 3. 14 Tabel idf
Id
Kata
Df
Idf
1
Akhir
1
0.778151
2
Baca
1
0.778151
3
Bantah
1
0.778151
4
Benar
1
0.778151
5
Bengkak
1
0.778151
6
Beri
1
0.778151
7
Bisik
1
0.778151
8
Buang
1
0.778151
9
Cara
1
0.778151
10
Cari
1
0.778151
11
Coba
1
0.778151
12
Dolar
1
0.778151
13
Istri
1
0.778151
14
Jalan
1
0.778151
15
Kadang
2
0.477121
16
Kaki
1
0.778151
17
Kesempatan
1
0.778151
18
Koridor
1
0.778151
19
Lepas
1
0.778151
20
Lewat
1
0.778151
21
Luang
1
0.778151
22
Maki
1
0.778151
23
Masalah
1
0.778151
24
Mata
1
0.778151
Id
Kata
Df
idf
25
Nampak
1
0.778151
26
pasang
1
0.778151
27
pikir
1
0.778151
28
Pura
1
0.778151
29
ratus
2
0.477121
30
Rebut
1
0.778151
31
rupee
1
0.778151
32
Sabar
7
-0.06695
33
Selesai
1
0.778151
34
Suami
2
0.477121
35
sunyi
1
0.778151
36
surga
1
0.778151
37
suruh
1
0.778151
38
susur
1
0.778151
39
Tenaga
1
0.778151
40
Tidur
3
0.30103
41
tukar
1
0.778151
42
Tulis
1
0.778151
43
Tumpang
1
0.778151
44
tunggu
1
0.778151
45
Turun
1
0.778151
46
wajah
1
0.778151
Idf = log(6/1)=0.778151
Idf = log(6/3)= 0.30103
Idf = log(6/2)=0.477121
Idf = log(6/7)= -0.06695
Hitung weight (w)
Weight (w) data dengan paragraph yang mengandung kata sabar dengan
[image:62.595.89.507.207.750.2]makna keadaan:
Tabel 3. 15 Tabel W dengan makna Keasaan
Weight (w) data dengan paragraph yang mengandung kata sabar dengan
makna komunikasi:
Tabel 3. 16 Tabel W dengan makna Komunikasi
Id
Kata
Tf
Idf
W
1
Coba
1
0.778151 0.778151
2
Cari
1
0.778151 0.778151
3
Cara
1
0.778151 0.778151
4
Selesai
1
0.778151 0.778151
5
Masalah
1
0.778151 0.778151
6
Suruh
1
0.778151 0.778151
7
Lepas
1
0.778151 0.778151
8
Sabar
1
-0.06695 -0.06695
9
Mata
1
0.778151 0.778151
10
Bengkak
1
0.778151 0.778151
Id
Kata
Tf
Idf
W
1
Sabar
1
-0.06695 -0.06695
2