Efektivitas Algoritma Similaritas Semantik Berbasis Jejaring Kata Untuk Mengukur Kemiripan Kalimat Bahasa Indonesia

(1)

LAPORAN TAHUNAN

PENELITIAN FUNDAMENTAL

EFEKTIVITASTALGORITMATSIMILARITASTSEMANTIK

BERBASISTJEJARINGTKATATUNTUKTMENGUKURTKEMIRIPAN

KALIMATTBAHASATINDONESIA

Tahun ke-1 dari rencana 2 tahun

Husni Thamrin, MT, Ph.D (0618077001) Dra. Atiqa Sabardila, M.Hum (0621066401)

(2)

(3)

RINGKASAN

Algoritma similaritas semantik adalah urutan langkah untuk menghitung kemiripan kalimat atas dasar makna/konsep kata yang menyusun kalimat. Algoritma similaritas banyak diterapkan misalnya untuk software deteksi plagiasi, pengelompokan dokumen, dan software penerjemah. Penerapan algoritma similaritas semantik pada teks bahasa Indonesia belum banyak menunjukkan hasil antara lain karena belum adanya jejaring kata bahasa Indonesia. Penelitian ini mengupayakan penyusunan jejaring kata bahasa Indonesia dan melakukan studi “Efektivitas Algoritma Similaritas Semantik Berbasis Jejaring Kata dalam Mengukur Kemiripan Kalimat Bahasa Indonesia.”

Tujuan dari program penelitian ini pada tahun pertama ada dua. Pertama adalah membuat sistem basis data kamus bahasa Indonesia yang menyediakan informasi tentang kata termasuk dalam konteks jejaring kata melalui web service. Kedua adalah membuat aplikasi yang menerapkan algoritma similaritas semantik berbasis jejaring kata atau kamus untuk mengukur similaritas kata, frase atau kalimat dalam sebuah kalimat bahasa Indonesia.

Penelitian pada tahun pertama menghasilkan kamus online bahasa Indonesia yang dapat memberi informasi tentang kata, definisi kata, dan sinonim. Kamus online semacam ini sudah tersedia. Kamus yang dihasilkan dalam penelitian ini memberikan informasi tambahan yang tidak ada pada kamus lain yaitu informasi tentang hiponim dan meronim. Informasi tentang sinonim dan hiponim merupakan dasar pembentukan jejaring kata. Pengetahuan tentang kata, sinonim dan hiponim digunakan dalam penelitian ini sebagai ukuran keterkaitan antar kata. Keterkaitan antar kata digunakan dalam algoritma similaritas untuk mengukur kemiripan antar kalimat. Penggunaan pengetahuan tentang sinonim dan hiponim terbukti meningkatkan skor kemiripan antara kalimat yang mengandung kata berbeda namun mempunyai keterkaitan sebagai sinonim atau hiponim.

Pengujian algoritma dilakukan lebih lanjut dengan menerapkan algoritman pada proses pengelompokan teks (text clustering). Objek pengelompokan teks diambil dari ratusan kalimat pendek yang diperoleh dari analisis SWOT (strength weakness opportunity threat) sebuah lembaga. Pengujian menunjukkan bahwa klustering berdasarkan kemiripan kalimat yang memanfaatkan pengetahuan sinonim dan hiponim tidak lebih baik dibanding klustering dengan perhitungan kemiripan kosinus biasa.

Kesimpulan penelitian ini adalah bahwa skor kemiripan kalimat dapat diperbaiki jika algoritma memperhatikan keterkaitan makna antar kata. Pemanfaatan algoritma dalam proses klustering tidak memperbaiki hasil pengelompokan kalimat. Tahap berikutnya yang perlu dilakukan adalah membuat kumpulan dokumen (korpus) sebagai alat uji standar dari observasi tentang similaritas, menguji algoritma pada proses klasifikasi dokumen, dan menguji proses klustering pada dokumen dengan jumlah kata yang bervariasi.

(4)

PRAKATA

Puji Syukur kami panjatkan kehadirat Allah Subhanahu wa Ta'ala dengan

selesainya penelitian tahun pertama hibah fundamental berjudul: “EFEKTIVITAS

ALGORITMA T SIMILARITAS T SEMANTIK T BERBASIS T JEJARING T KATA UNTUKTMENGUKURTKEMIRIPANTKALIMATTBAHASATINDONESIA.”

Hingga tahap ini proses penelitian tidak akan berlangsung lancar tanpa bantuan

berbagai pihak. Oleh karena itu penulis hendak mengucapkan terima kasih yang besar

kepada:

1. Saudara Fauzan Natsir yang banyak membantu dalam proses penghimpunan data

kamus dan entri data kamus hiponim dan meronim.

2. Bapak Dr. Nurgiyatna, M.Sc yang mengijinkan penulis menggunakan

kalimat-kalimat dalam analisis SWOT di lembaga yang dipimpinnya sebagai bahan

analisis similaritas.

3. Tim pengembang website kateglo.com yang menjadikan data kamus besar bahasa

Indonesia tersedia secara online sehingga dapat digunakan dalam penelitian terkait

kata-kata bahasa Indonesia.

4. Direktorat Jenderal Pendidikan Tinggi, Kemdiknas yang melalui Lembaga

Penelitian dan Pengabdian kepada Masyarakat (LPPM) Universitas

Muhammadiyah Surakarta yang telah menyediakan dana dalam skema penelitian

hibah fundamental sehingga penelitian ini dapat berjalan.

Kami telah berusaha melaksanakan kegiatan penelitian ini sebaik mungkin, namun

kami menyadari bahwa tidak ada yang sempurna dari hasil karya manusia. Kritik dan

saran sangat kami butuhkan untuk kebaikan dan penyempurnaan pelaksanaan penelitian

ini selanjutnya.

Surakarta, 6 Nopember 2014

(5)

DAFTARTISI

5.3. Implementasi Jejaring Kata dalam Program Komputer...19

5.4. Data pengujian...23

5.5. Kinerja algoritma berbasis elemen jejaring kata...24

BAB 6. RENCANA TAHAPAN BERIKUTNYA...27

BAB 7. KESIMPULAN DAN SARAN...28

7.1. Kesimpulan...28

7.2. Saran...28

(6)

DAFTARTGAMBAR

Gambar 1. Peta jalan penelitian yang mengawali penelitian yang sedang diusulkan...7

Gambar 2. Rangkaian Kegiatan Penelitian "Efektivitas Algoritma Similaritas Semantik

Berbasis Jejaring Kata untuk Mengukur Kemiripan Kalimat Bahasa Indonesia". 12

Gambar 3. Tampilan kamus online untuk kata "rumah". Pada kamus terdapat informasi

tentang hiponim dan meronim dari kata yang dicari...17

Gambar 4. Data dalam format JSON yang menyajikan informasi tentang kata “bunga”

sebagaimana ditampilkan melalui sebuah web browser...18

(7)

DAFTARTLAMPIRAN

Lampiran 1. Instrumen penelitian...32

Lampiran 2. Personalia Tenaga Peneliti...32

Lampiran 3. Publikasi...32

Lampiran 4. Kluster dengan similaritas kosinus murni...45

Lampiran 5. Kluster dengan metode similaritas kosinus yang dimodifikasi...50

(8)

BAB 1. PENDAHULUAN

Similaritas antara dua teks atau kalimat merupakan angka yang menggambarkan kedekatan makna antara kedua teks atau kalimat. Perhitungan similaritas digunakan

dalam berbagai keperluan, misalnya untuk melakukan pencarian informasi di internet, pencarian dokumen di harddisk, klasifikasi dokumen dalam arsip, deteksi plagiasi, dan kegiatan menganalisis informasi di dunia maya (data analysis) (Islam dan Inkpen, 2008).

Penerapan algoritma similaritas paling banyak terjadi pada proses pencarian informasi. Algoritma similaritas digunakan untuk mengukur kemiripan makna kata atau frase yang dicari dengan teks yang ada dalam halaman yang ditelusuri. Pencarian informasi tidak cukup dilakukan dengan membandingkan kata atau frase yang dicari dengan kata atau frase yang ada dalam dokumen. Pencarian yang efektif memerlukan analisis mengenai makna kata dan frase yang diinginkan oleh user dan penentuan tema dokumen yang ditelusuri. Efektifitas pencarian dapat diperbaiki pula dengan memanfaatkan fitur-fitur yang ada dalam sebuah dokumen, semisal hyperlink pada pencarian di sebuah halaman web. Ochoa (2012) menyatakan bahwa analisis backlink (banyaknya link ke sebuah website) yang dipadukan dengan skor similaritas akan menghasilkan daftar hasil pencarian yang mempunyai kemungkinan tinggi mengandung informasi yang diinginkan oleh pengguna.

Penerapan algoritma similaritas dapat membantu proses klasifikasi dengan menentukan tag atau kata kunci yang paling tepat untuk sebuah dokumen. Pengklasifikasian kumpulan dokumen diperlukan pada sebuah perpustakaan digital untuk mengelompokkan dokumen dengan subjek yang sama (Boyack, dkk., 2011; Sun dkk., 2010). Algoritma similaritas juga diterapkan dalam proses deteksi plagiasi, yaitu dengan

membandingkan dua dokumen atau lebih dan menentukan tingkat kemiripan dari paragraf-paragraf yang ada dalam dokumen (Malcolm dan Lane, 2008). Adapun dalam kegiatan analisis data, algoritma similaritas digunakan untuk mendefinisikan kata yang dicermati beserta kata sejenis untuk dihitung frekuensi kemunculannya dalam berita di dunia maya atau dalam obrolan di situs media sosial.

Similaritas dua buah kalimat dapat ditentukan dengan algoritma similaritas semantik, yaitu algoritma yang memperhatikan makna kata yang menyusun kalimat.

(9)

Penentuan similaritas secara semantik lebih akurat daripada perhitungan similaritas berdasarkan pencocokan kata (Mihalcea, Corley & Strapparava, 2006). Namun, penerapan algoritma similaritas semantik untuk teks bahasa Indonesia belum banyak dilakukan karena berbagai kendala di antaranya karena jejaring kata bahasa Indonesia belum tersedia baik secara gratis maupun komersial. Kendala lain adalah belum adanya kumpulan dokumen (atau korpus) berbahasa Indonesia yang diterima sebagai standar untuk melakukan pengujian algoritma similaritas (Asian, Williams & Tahaghoghi, 2005) sehingga penelitian tentang algoritma similaritas menjadi sangat minim.

Uraian beberapa paragraf di atas menunjukkan perlunya upaya observasi terhadap algoritma similaritas semantik pada kalimat bahasa Indonesia untuk dapat digunakan dalam berbagai aplikasi. Oleh karena itu, perlu diupayakan penyusunan basis data pengetahuan (knowledge) dalam konteks jejaring kata bahasa Indonesia kemudian mencari algoritma similaritas semantik yang terbaik. Perlu juga dibuat korpus standar berbahasa Indonesia yang sebagai alat uji dalam observasi algoritma similaritas. Yang menjadi pertanyaan kemudian adalah sejauh mana ’Efektivitas Algoritma Similaritas Semantik Berbasis Jejaring Kata untuk Mengukur Kemiripan Kalimat Bahasa Indonesia?’ Pertanyaan inilah yang akan dibahas dalam penelitian ini.

(10)

BABT2.TTINJAUANTPUSTAKA

2.1.TPenelitianTyangTMendahului

Penulis mencermati berbagai penelitian terkait dengan analisis similaritas, seperti

diurai pada beberapa paragraf berikut.

Bao, et al. (2007) membandingkan berbagai algoritma analisis similaritas. Dalam

penelitian tersebut, dicermati sistem Ferret yang menggunakan similaritas leksikal (kata

per kata), kemudian dicermati pula metode yang menggunakan similaritas semantik

(berdasarkan makna kata dalam kalimat). Teks yang diteliti berasal dari kalimat-kalimat

bahasa Inggris yang terdapat dalam majalah Financial Times. Hasil penelitian tersebut

menunjukkan bahwa similaritas semantik menggunakan sinonim lebih penting dibanding

frase atau deretan kata ketika mencari teks yang mirip. Frase kata benda memberi

kontribusi penting dalam identifikasi similaritas teks, namun kontribusinya tidak lebih

besar dibanding sinonim.

Winarsono, et al. (2009) meneliti penerapan metode syntactic-semantic similarity

(SynSemSim) untuk mencermati kemiripan kalimat singkat. Metode tersebut mencermati

struktur kalimat (sintaksis) dan makna kata dalam kalimat (semantik). Para peneliti ini

menyimpulkan bahwa metode SynSemSim dapat dengan baik digunakan pada struktur

kalimat yang mirip, namun kurang baik digunakan pada struktur kalimat majemuk atau

kalimat yang mengandung banyak stop word (kata tambahan seperti “it is”, “yet”).

Sayangnya, para peneliti dari Indonesia ini menggunakan WordNet, yaitu jejaring kata

bahasa Inggris, dalam penelitiannya sehingga belum dapat digunakan pada kalimat

berbahasa Indonesia.

Sun, et al. (2010) melakukan pengamatan terkait similaritas teks pada kumpulan

artikel biomedis. Para peneliti memeriksa lebih dari 70 ribu dokumen. Tiap dokumen

dicermati kemudian dibuat himpunan data untuk full text, subjudul, dan paragraf. Tiap

himpunan diperiksa dan dihitung similaritasnya. Para peneliti ini mendapat kesimpulan

bahwa similaritas abstrak yang tinggi mencerminkan similaritas full text yang tinggi.

Similaritas abstrak dan similaritas full text mempunyai korelasi moderat. Di antara subbab

dalam sebuah tulisan, subbab “Metode Penelitian” mempunyai tingkat pengulangan yang

paling tinggi. Namun, dalam pemeriksaan manual terhadap artikel dan duplikatnya,

(11)

subbab “Hasil Penelitian” merupakan bagian yang sering berulang. Pengulangan subbab

“Pendahuluan” dan “Metodologi” lebih sering dilakukan oleh penulis yang sama. Tingkat

similaritas lebih tinggi didapat pada perbandingan antara dua paper yang di-review, dan

similaritas jauh lebih rendah terdapat pada perbandingan antara satu paper yang di-review

dan paper yang tidak di-review. Para peneliti ini menyimpulkan bahwa penentuan

similaritas abstrak cukup efektif untuk mencari duplikasi sitasi, sedangkan analisis full

text diperlukan untuk menemukan semua kemungkinan duplikasi sitasi.

Boyack, et al. (2011) meneliti penerapan algoritma similaritas pada proses

pengelompokan dokumen. Sembilan metode diteliti untuk melihat keakuratannya dalam

mengelompokkan dua juta artikel biomedis. Pengelompokan artikel bermanfaat antara

lain untuk manajemen koleksi, mempermudah penelusuran berkas, dan menganalisis data.

Para peneliti ini mencermati artikel pada MEDLINE yang di-submit pada kurun 2004 –

2008. Boyack dkk. menggunakan metode statistik dan algoritma semantik dalam

penelitiannya. Contoh metode yang digunakan adalah frekuensi kemunculan kata

(statistik) dan LSA (latent semantic analysis). Sumber data yang digunakan adalah

katagori subjek, kata-kata pada judul, dan abstrak. Disimpulkan bahwa metode related

article yang ada pada PubMed menghasilkan pengelompokan (kluster) yang paling

terkonsentrasi di antara kesembilan metode yang diamati.

Thamrin dan Wantoro (2012) meneliti penerapan jarak Levenshtein sebagai

landasan dalam menilai kemiripan jawaban siswa dengan kunci jawaban. Tingkat

kemiripan dihitung berbanding terbalik (resiprokal) terhadap jarak Levenshtein. Tingkat

kemiripan hasil perhitungan kemudian dibandingkan dengan cara guru sekolah dasar dan

menengah menilai jawaban siswa. Kedua peneliti memodifikasi perangkat lunak Moodle

dan membuat tipe soal baru. Dengan tipe soal baru tersebut, jawaban soal pendek dapat

diberi skor secara fleksibel secara otomatis oleh komputer. Terdapat kesamaan dalam pola

pemberian skor oleh guru maupun oleh komputer. Namun, kecenderungan penilaian oleh

guru dan komputer akan mempunyai perbedaan signifikan jika jawaban yang diberikan

siswa membentuk kata yang dikenal dalam kamus. Kedua peneliti menyarankan

penggunaan algoritma similaritas semantik untuk meningkatkan akurasi penentuan skor

secara otomatis.

(12)

2.2.TPetaTJalanTPenelitian

Gambar 1 pada halaman 7 memperlihatkan peta jalan penelitian yang

menggambarkan penelitian terdahulu yang telah dilakukan baik oleh pengusul maupun

oleh peneliti lain. Penelitian terdahulu dapat dikategorikan dalam empat objek penelitian,

yaitu:

1. Pengembangan algoritma umum,

2. Pengembangan algoritma untuk penerapan spesifik,

3. Kajian penerapan algoritma, dan

4. Kajian penerapan pada bahasa Indonesia.

Pengembangan algoritma umum dilakukan dalam berbagai bentuk. Cai dkk.

(2004) dan Islam & Inkpen (2008) meneliti algoritma similaritas berdasarkan data dalam

korpus. Sedangkan Dao (2002) dan Liu & Liang (2013) mencermati algoritma berbasis

jejaring kata. Serrano dkk. (2009) membuat model teks sedangkan Sandhya dkk. (2011)

meneliti tentang algoritma stemming untuk mendapatkan makna kata secara lebih akurat.

Selain itu, Islam dkk. (2012) mengembangkan metode N-Gram termasuk yang berasal

dari mesin pencari Google.

Berbagai penelitian telah dilakukan untuk mengembangkan algoritma untuk

penerapan spesifik. Pengembangan metode untuk mengukur kemiripan kalimat pendek

dilakukan oleh Metzler dkk. (2007), O'shea dkk. (2008) dan Mihalcea dkk. (2006).

Pengembangan metode untuk mengukur kemiripan kode program komputer dilakukan

oleh Noh dkk. (2006). Kemiripan kalimat ringkasan diteliti oleh Sun dkk. (2010) dan

Castillo & Cardenas (2010). Sedangkan upaya menemukan sinonim secara otomatis

diteliti oleh Mendes dkk. (2012).

Kajian penerapan algoritma untuk kebutuhan nyata dilakukan oleh banyak orang.

Malcolm & Lane (2008) dan Malakasiotis (2009) mencoba mengerapkan algoritma

similaritas untuk mendeteksi plagiasi. Wenqian dkk. (2009) mencoba membuat mesin

peringkas otomatis. Islam & Inkpen (2009) meneliti lebih lanjut mesin pengkoreksi

otomatis sedangkan Mohler & Mihalcea (2009) mencoba menerapkan algoritma

(13)

similaritas untuk memberi skor otomatis pada sistem evaluasi belajar. Boyack dkk. (2011)

telah pula berupaya menerapkan pada proses pengelompokan dokumen atau artikel.

Kebanyakan penelitian dilakukan terhadap dokumen dan teks berbahasa Inggris.

Kajian penerapan algoritma similaritas pada bahasa Indonesia belum banyak dilakukan.

Talla (2003) dan Adriani dkk. (2007) telah berupaya mengembangkan algoritma

stemming untuk memisahkan kata dasar dari imbuhannya. Sementara itu, Hamzah dkk.

(2008), Asy'arie & Pribadi (2009) dan Hamzah (2009) telah berupaya menerapkan

algoritma untuk pengelompokan dokumen berbahasa Indonesia. Penerapan untuk deteksi

plagiasi telah pula dicoba oleh Hamzah (2011). Belum lama ini, Thamrin & Wantoro

(2012) berupaya menerapkan pada proses skoring otomatis. Ketiadaan jejaring kata

menjadi salah satu kendala dalam upaya menerapkan pengukuran similaritas untuk

mengukur kemiripan teks bahasa Indonesia. Oleh karena itu dalam penelitian ini akan

diupayakan konstruksi jejaring kata sekaligus dilakukan pengujian Efektivitas Algoritma

Similaritas Semantik Berbasis Jejaring Kata dalam Mengukur Kemiripan Kalimat

Bahasa Indonesia.

(14)

Gambar 1. Peta jalan penelitian yang mengawali penelitian yang sedang diusulkan

(15)

DAFTARTPUSTAKA

Adriani, M., Asian, J., Nazief, B., Tahaghoghi, S. M. M., & Williams, H. E., 2007. “Stemming Indonesian: A confix-stripping approach,” ACM Transactions on Asian Language Information Processing (TALIP), vol. 6, no. 4, hal. 1-33.

Asian, J., Williams, H. E., Tahaghoghi, S. M. M., 2005, “Stemming Indonesian,” 28th Australian Computer Science Conference (ACS2005).

Asy'arie, A. D., & Pribadi, A. W., 2009.. “Automatic news articles classification in indonesian language by using naive bayes classifier method.” dalam Proceedings of the 11th International Conference on Information Integration and Web-based Applications & Services, hal. 658-662. ACM.

Bao, J.P., Lyon, C., Lane, P.C.R., Ji, W., Malcolm, J.A., 2007. “Comparing Different Text Similarity Methods,” UH Computer Science Technical Report, vol. 461 , University of Hertfordshire, dilihat 5 Januari 2012, <http://hdl.handle.net/2299/1772>.

Banerjee, S., 2002. “Adapting the Lesk Algorithm for Word Sense Disambiguation to Wordnet,” Master Research Thesis, University of Minesota.

Boyack, K., Newman, D., Duhon, R.J., Klavans, R., Patek, M., Biberstine, J.R., Shijvenaars, B., Skupin, A., Ma, N., Borner, K., 2011. “Clustering More than Two Million Biomedical Publications: Comparing the Accuracies of Nine Text-Based Similarity Approaches,” PLoS ONE 6(3): e18029, dilihat 5 Januari 2012, <doi:10.1371/journal.pone.0018029>.

Cai, Z., McNamara, D.S., Louwerse, M., Hu, X., Rowe, M., Graesser, A.C., 2004. “NLS: A Non-Latent Similarity Algorithm,” Proc. 26th Ann. Meeting of the Cognitive Science Soc.(CogSci’04), hal. 180-185.

Castillo, J. J., & Cardenas, M. E., 2010. “Using sentence semantic similarity based on WordNet in recognizing textual entailment,” dalam Advances in Artificial Intelligence–IBERAMIA 2010, hal. 366-375, Springer Berlin Heidelberg.

Hamzah, A., 2009. “Temu Kembali Informasi Berbasis Kluster untuk Sistem Temu Kembali Informasi Teks Bahasa Indonesia ,” Jurnal Teknologi, vol.2, no.1, hal. 1-7.

Hamzah, A., 2011. “Aplikasi N-Gram Untuk Deteksi Plagiat Pada Dokumen Teks ,”

Islam, A. dan Inkpen, D., 2008. “Semantic Text Similarity Using Corpus-Based Word Similarity and String Similarity,” ACM Trans. Knowl. Discov. Data, vol. 2, No. 2, Artikel 10.

Islam, A., dan Inkpen, D., 2009. “Real-word spelling correction using Google Web IT

(16)

grams,” dalam Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 3, vol. 3 hal. 1241-1249. Association for Computational Linguistics.

Islam, A., Milios, E., Keselj, V., 2012. “Text Similarity using Google Tri-Grams,” dalam 25th Canadian Conference on Advances in Artificial Intelligence, Mei 28-30, hal. 312-317.

Leacock, C. dan Chodorow, M., 1998. “Combining Local Context and WordNet Sense Similiarity for Word Sense Disambiguation,” dalam WordNet, An Electronic Lexical Database, The MIT Press.

Lesk, M.E., 1986. “Automatic Sense Disambiguation Using Machine Readable Dictionaries: How to tell a Pine Cone from an Ice Cream Cone,” dalam Proceedings of the SIGDOC Conference 1986, Toronto, Juni.

Liu, H., Wang, P. Fei, 2013. “Assessing Sentence Similarity Using WordNet based Word Similarity,” Journal of Software, Vol. 8, No. 6, hal. 1451-1458.

Malakasiotis, P., 2009. “Paraphrase recognition using machine learning to combine similarity measures,” dalam Proceedings of the ACL-IJCNLP 2009 Student Research Workshop, hal. 27-35. Association for Computational Linguistics.

Malcolm, J.A., Lane, P.C.R., 2008. “Efficient Search for Plagiarism on the Web ,” Kuwait, vol. 2008, pp. 206-211.

Mendes, S., Necsulescu, S., Bel, N., 2012. “Synonym extraction using a language graph model ” dalam Semantic Relations-II. Enhancing Resources and Applications.

Metzler, D., Dumais, S., & Meek, C., 2007. “Similarity measures for short segments of text,” dalam Advances in Information Retrieval, hal. 16-27, Springer Berlin Heidelberg.

Milhalcea, R., Corley, C., Strapparava, C., 2006. 'Corpus-based and Knowledge-based Measures of Text Semantic Similarity,” dalam Proceedings of the 21st national conference on Artificial intelligence, vol. 1, hal. 775-780.

Mohler, M., & Mihalcea, R., 2009. “Text-to-text semantic similarity for automatic short answer grading,” dalam Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics, hal. 567-575. Association for Computational Linguistics.

Mudjiono, Atika W., (2013). “Nick D'Aloisio, Remaja 17 Tahun Pencipta Aplikasi Rp 290 Miliar”, Kompas, 3 April, h. 16.

Noh, S. Y., Kim, S., & Jung, C., 2006. “A lightweight program similarity detection model using xml and levenshtein distance,” FECS, hal. 3-9.

O’Shea, J., Bandar, Z., Crockett, K., & McLean, D., 2008. “A comparative study of two short text semantic similarity measures” dalam Agent and Multi-Agent Systems: Technologies and Applications, hal. 172-181. Springer Berlin Heidelberg.

Ochoa, E.D., 2012. An Analysis of the Application of Selected Search Engine

(17)

Optimization (SEO) Techniques and Their Effectiveness on Google’s Search Ranking Algorithm , Thesis, California State University, Northbridge.

Purwanto, D., 2012. “Bikin Apps, Remaja 16 Tahun Raih Investasi Rp 2,2 Miliar”, Kompas, dilihat 7 April 2013, <http://tekno.kompas.com>.

Pusat Bahasa, 2009. Tesaurus Alfabetis Bahasa Indonesia, Bandung: Mizan.

Sandhya, N., Lalitha, Y. S., Sowmya, V., Anuradha, K., & Govardhan, A., 2011. “Analysis of Stemming Algorithm for Text Clustering,” International Journal of Computer Science, no. 8.

Serrano, M. Á., Flammini, A., & Menczer, F. 2009. “Modeling statistical properties of written text,” PloS one, vol. 4. no. 4, e5372.

Sun, Z., Errami, M., Long, T., Renard, C., Choradia, N., Renard, C., Choradia, N., Garner, H., 2010. “Systematic Characterizations of Text Similarity in Full Text Biomedical Publications,” PloS ONE 5(9): e12704, dilihat 5 Januari 2012, <doi:10.1371/journal.pone.0012704>.

Tala, F., 2003. A study of stemming effects on information retrieval in Bahasa Indonesia.

Thamrin, H. dan Wantoro, J., 2012. “Pengembangan Modul Penilaian Otomatis terhadap Jawaban Soal Pendek Terbuka dalam Sistem E-Learning,” dalam Prosiding SNFT Umsida 2012, hal. B31-B38.

Thamrin, H. dan Wantoro, J., 2014. “An Attempt to Create an Automatic Scoring Tool of Short Text Answer in Bahasa Indonesia,” dalam Proceeding of International Conference on Electrical Engineering, Computer Science and Informatics (EECSI 2014), Yogyakarta, pp. 96-98.

Wenqian, J. I., Zhoujun, L. I., Wenhan, C. H. A. O., Xiaoming, C. H. E. N., 2009.”A New Method for Calculating Similarity between Sentences and Application on Automatic Abstracting,” Intelligent Information Management, vol. 1, no.1, hal. 36-42.

Winarsono, D., Siahaan D.D., Yuhana, U., 2009. “Sistem Penilaian Otomatis Kemiripan Kalimat Menggunakan Syntactic-Semantic Similarity pada Sistem E-Learning,” Kursor, vol. 5, no. 2, hal. 75-82.

Wu, Z. dan Palmer, M., 1994. “Verb Semantics and Lexical Selection.” dalam Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics, Las Cruces, New Mexico.

Yazdani, M., dan Popescu-Belis, A., 2012. “Computing text semantic relatedness using the contents and links of a hypertext encyclopedia,” Artificial Intelligence.