LAPORAN TAHUNAN
PENELITIAN FUNDAMENTAL
EFEKTIVITASTALGORITMATSIMILARITASTSEMANTIK
BERBASISTJEJARINGTKATATUNTUKTMENGUKURTKEMIRIPAN
KALIMATTBAHASATINDONESIA
Tahun ke-1 dari rencana 2 tahun
Husni Thamrin, MT, Ph.D (0618077001) Dra. Atiqa Sabardila, M.Hum (0621066401)
RINGKASAN
Algoritma similaritas semantik adalah urutan langkah untuk menghitung kemiripan kalimat atas dasar makna/konsep kata yang menyusun kalimat. Algoritma similaritas banyak diterapkan misalnya untuk software deteksi plagiasi, pengelompokan dokumen, dan software penerjemah. Penerapan algoritma similaritas semantik pada teks bahasa Indonesia belum banyak menunjukkan hasil antara lain karena belum adanya jejaring kata bahasa Indonesia. Penelitian ini mengupayakan penyusunan jejaring kata bahasa Indonesia dan melakukan studi “Efektivitas Algoritma Similaritas Semantik Berbasis Jejaring Kata dalam Mengukur Kemiripan Kalimat Bahasa Indonesia.”
Tujuan dari program penelitian ini pada tahun pertama ada dua. Pertama adalah membuat sistem basis data kamus bahasa Indonesia yang menyediakan informasi tentang kata termasuk dalam konteks jejaring kata melalui web service. Kedua adalah membuat aplikasi yang menerapkan algoritma similaritas semantik berbasis jejaring kata atau kamus untuk mengukur similaritas kata, frase atau kalimat dalam sebuah kalimat bahasa Indonesia.
Penelitian pada tahun pertama menghasilkan kamus online bahasa Indonesia yang dapat memberi informasi tentang kata, definisi kata, dan sinonim. Kamus online semacam ini sudah tersedia. Kamus yang dihasilkan dalam penelitian ini memberikan informasi tambahan yang tidak ada pada kamus lain yaitu informasi tentang hiponim dan meronim. Informasi tentang sinonim dan hiponim merupakan dasar pembentukan jejaring kata. Pengetahuan tentang kata, sinonim dan hiponim digunakan dalam penelitian ini sebagai ukuran keterkaitan antar kata. Keterkaitan antar kata digunakan dalam algoritma similaritas untuk mengukur kemiripan antar kalimat. Penggunaan pengetahuan tentang sinonim dan hiponim terbukti meningkatkan skor kemiripan antara kalimat yang mengandung kata berbeda namun mempunyai keterkaitan sebagai sinonim atau hiponim.
Pengujian algoritma dilakukan lebih lanjut dengan menerapkan algoritman pada proses pengelompokan teks (text clustering). Objek pengelompokan teks diambil dari ratusan kalimat pendek yang diperoleh dari analisis SWOT (strength weakness opportunity threat) sebuah lembaga. Pengujian menunjukkan bahwa klustering berdasarkan kemiripan kalimat yang memanfaatkan pengetahuan sinonim dan hiponim tidak lebih baik dibanding klustering dengan perhitungan kemiripan kosinus biasa.
Kesimpulan penelitian ini adalah bahwa skor kemiripan kalimat dapat diperbaiki jika algoritma memperhatikan keterkaitan makna antar kata. Pemanfaatan algoritma dalam proses klustering tidak memperbaiki hasil pengelompokan kalimat. Tahap berikutnya yang perlu dilakukan adalah membuat kumpulan dokumen (korpus) sebagai alat uji standar dari observasi tentang similaritas, menguji algoritma pada proses klasifikasi dokumen, dan menguji proses klustering pada dokumen dengan jumlah kata yang bervariasi.
PRAKATA
Puji Syukur kami panjatkan kehadirat Allah Subhanahu wa Ta'ala dengan
selesainya penelitian tahun pertama hibah fundamental berjudul: “EFEKTIVITAS
ALGORITMA T SIMILARITAS T SEMANTIK T BERBASIS T JEJARING T KATA UNTUKTMENGUKURTKEMIRIPANTKALIMATTBAHASATINDONESIA.”
Hingga tahap ini proses penelitian tidak akan berlangsung lancar tanpa bantuan
berbagai pihak. Oleh karena itu penulis hendak mengucapkan terima kasih yang besar
kepada:
1. Saudara Fauzan Natsir yang banyak membantu dalam proses penghimpunan data
kamus dan entri data kamus hiponim dan meronim.
2. Bapak Dr. Nurgiyatna, M.Sc yang mengijinkan penulis menggunakan
kalimat-kalimat dalam analisis SWOT di lembaga yang dipimpinnya sebagai bahan
analisis similaritas.
3. Tim pengembang website kateglo.com yang menjadikan data kamus besar bahasa
Indonesia tersedia secara online sehingga dapat digunakan dalam penelitian terkait
kata-kata bahasa Indonesia.
4. Direktorat Jenderal Pendidikan Tinggi, Kemdiknas yang melalui Lembaga
Penelitian dan Pengabdian kepada Masyarakat (LPPM) Universitas
Muhammadiyah Surakarta yang telah menyediakan dana dalam skema penelitian
hibah fundamental sehingga penelitian ini dapat berjalan.
Kami telah berusaha melaksanakan kegiatan penelitian ini sebaik mungkin, namun
kami menyadari bahwa tidak ada yang sempurna dari hasil karya manusia. Kritik dan
saran sangat kami butuhkan untuk kebaikan dan penyempurnaan pelaksanaan penelitian
ini selanjutnya.
Surakarta, 6 Nopember 2014
DAFTARTISI
5.3. Implementasi Jejaring Kata dalam Program Komputer...19
5.4. Data pengujian...23
5.5. Kinerja algoritma berbasis elemen jejaring kata...24
BAB 6. RENCANA TAHAPAN BERIKUTNYA...27
BAB 7. KESIMPULAN DAN SARAN...28
7.1. Kesimpulan...28
7.2. Saran...28
DAFTARTGAMBAR
Gambar 1. Peta jalan penelitian yang mengawali penelitian yang sedang diusulkan...7
Gambar 2. Rangkaian Kegiatan Penelitian "Efektivitas Algoritma Similaritas Semantik
Berbasis Jejaring Kata untuk Mengukur Kemiripan Kalimat Bahasa Indonesia". 12
Gambar 3. Tampilan kamus online untuk kata "rumah". Pada kamus terdapat informasi
tentang hiponim dan meronim dari kata yang dicari...17
Gambar 4. Data dalam format JSON yang menyajikan informasi tentang kata “bunga”
sebagaimana ditampilkan melalui sebuah web browser...18
DAFTARTLAMPIRAN
Lampiran 1. Instrumen penelitian...32
Lampiran 2. Personalia Tenaga Peneliti...32
Lampiran 3. Publikasi...32
Lampiran 4. Kluster dengan similaritas kosinus murni...45
Lampiran 5. Kluster dengan metode similaritas kosinus yang dimodifikasi...50
BAB 1. PENDAHULUAN
Similaritas antara dua teks atau kalimat merupakan angka yang menggambarkan kedekatan makna antara kedua teks atau kalimat. Perhitungan similaritas digunakan
dalam berbagai keperluan, misalnya untuk melakukan pencarian informasi di internet, pencarian dokumen di harddisk, klasifikasi dokumen dalam arsip, deteksi plagiasi, dan kegiatan menganalisis informasi di dunia maya (data analysis) (Islam dan Inkpen, 2008).
Penerapan algoritma similaritas paling banyak terjadi pada proses pencarian informasi. Algoritma similaritas digunakan untuk mengukur kemiripan makna kata atau frase yang dicari dengan teks yang ada dalam halaman yang ditelusuri. Pencarian informasi tidak cukup dilakukan dengan membandingkan kata atau frase yang dicari dengan kata atau frase yang ada dalam dokumen. Pencarian yang efektif memerlukan analisis mengenai makna kata dan frase yang diinginkan oleh user dan penentuan tema dokumen yang ditelusuri. Efektifitas pencarian dapat diperbaiki pula dengan memanfaatkan fitur-fitur yang ada dalam sebuah dokumen, semisal hyperlink pada pencarian di sebuah halaman web. Ochoa (2012) menyatakan bahwa analisis backlink (banyaknya link ke sebuah website) yang dipadukan dengan skor similaritas akan menghasilkan daftar hasil pencarian yang mempunyai kemungkinan tinggi mengandung informasi yang diinginkan oleh pengguna.
Penerapan algoritma similaritas dapat membantu proses klasifikasi dengan menentukan tag atau kata kunci yang paling tepat untuk sebuah dokumen. Pengklasifikasian kumpulan dokumen diperlukan pada sebuah perpustakaan digital untuk mengelompokkan dokumen dengan subjek yang sama (Boyack, dkk., 2011; Sun dkk., 2010). Algoritma similaritas juga diterapkan dalam proses deteksi plagiasi, yaitu dengan
membandingkan dua dokumen atau lebih dan menentukan tingkat kemiripan dari paragraf-paragraf yang ada dalam dokumen (Malcolm dan Lane, 2008). Adapun dalam kegiatan analisis data, algoritma similaritas digunakan untuk mendefinisikan kata yang dicermati beserta kata sejenis untuk dihitung frekuensi kemunculannya dalam berita di dunia maya atau dalam obrolan di situs media sosial.
Similaritas dua buah kalimat dapat ditentukan dengan algoritma similaritas semantik, yaitu algoritma yang memperhatikan makna kata yang menyusun kalimat.
Penentuan similaritas secara semantik lebih akurat daripada perhitungan similaritas berdasarkan pencocokan kata (Mihalcea, Corley & Strapparava, 2006). Namun, penerapan algoritma similaritas semantik untuk teks bahasa Indonesia belum banyak dilakukan karena berbagai kendala di antaranya karena jejaring kata bahasa Indonesia belum tersedia baik secara gratis maupun komersial. Kendala lain adalah belum adanya kumpulan dokumen (atau korpus) berbahasa Indonesia yang diterima sebagai standar untuk melakukan pengujian algoritma similaritas (Asian, Williams & Tahaghoghi, 2005) sehingga penelitian tentang algoritma similaritas menjadi sangat minim.
Uraian beberapa paragraf di atas menunjukkan perlunya upaya observasi terhadap algoritma similaritas semantik pada kalimat bahasa Indonesia untuk dapat digunakan dalam berbagai aplikasi. Oleh karena itu, perlu diupayakan penyusunan basis data pengetahuan (knowledge) dalam konteks jejaring kata bahasa Indonesia kemudian mencari algoritma similaritas semantik yang terbaik. Perlu juga dibuat korpus standar berbahasa Indonesia yang sebagai alat uji dalam observasi algoritma similaritas. Yang menjadi pertanyaan kemudian adalah sejauh mana ’Efektivitas Algoritma Similaritas Semantik Berbasis Jejaring Kata untuk Mengukur Kemiripan Kalimat Bahasa Indonesia?’ Pertanyaan inilah yang akan dibahas dalam penelitian ini.
BABT2.TTINJAUANTPUSTAKA
2.1.TPenelitianTyangTMendahului
Penulis mencermati berbagai penelitian terkait dengan analisis similaritas, seperti
diurai pada beberapa paragraf berikut.
Bao, et al. (2007) membandingkan berbagai algoritma analisis similaritas. Dalam
penelitian tersebut, dicermati sistem Ferret yang menggunakan similaritas leksikal (kata
per kata), kemudian dicermati pula metode yang menggunakan similaritas semantik
(berdasarkan makna kata dalam kalimat). Teks yang diteliti berasal dari kalimat-kalimat
bahasa Inggris yang terdapat dalam majalah Financial Times. Hasil penelitian tersebut
menunjukkan bahwa similaritas semantik menggunakan sinonim lebih penting dibanding
frase atau deretan kata ketika mencari teks yang mirip. Frase kata benda memberi
kontribusi penting dalam identifikasi similaritas teks, namun kontribusinya tidak lebih
besar dibanding sinonim.
Winarsono, et al. (2009) meneliti penerapan metode syntactic-semantic similarity
(SynSemSim) untuk mencermati kemiripan kalimat singkat. Metode tersebut mencermati
struktur kalimat (sintaksis) dan makna kata dalam kalimat (semantik). Para peneliti ini
menyimpulkan bahwa metode SynSemSim dapat dengan baik digunakan pada struktur
kalimat yang mirip, namun kurang baik digunakan pada struktur kalimat majemuk atau
kalimat yang mengandung banyak stop word (kata tambahan seperti “it is”, “yet”).
Sayangnya, para peneliti dari Indonesia ini menggunakan WordNet, yaitu jejaring kata
bahasa Inggris, dalam penelitiannya sehingga belum dapat digunakan pada kalimat
berbahasa Indonesia.
Sun, et al. (2010) melakukan pengamatan terkait similaritas teks pada kumpulan
artikel biomedis. Para peneliti memeriksa lebih dari 70 ribu dokumen. Tiap dokumen
dicermati kemudian dibuat himpunan data untuk full text, subjudul, dan paragraf. Tiap
himpunan diperiksa dan dihitung similaritasnya. Para peneliti ini mendapat kesimpulan
bahwa similaritas abstrak yang tinggi mencerminkan similaritas full text yang tinggi.
Similaritas abstrak dan similaritas full text mempunyai korelasi moderat. Di antara subbab
dalam sebuah tulisan, subbab “Metode Penelitian” mempunyai tingkat pengulangan yang
paling tinggi. Namun, dalam pemeriksaan manual terhadap artikel dan duplikatnya,
subbab “Hasil Penelitian” merupakan bagian yang sering berulang. Pengulangan subbab
“Pendahuluan” dan “Metodologi” lebih sering dilakukan oleh penulis yang sama. Tingkat
similaritas lebih tinggi didapat pada perbandingan antara dua paper yang di-review, dan
similaritas jauh lebih rendah terdapat pada perbandingan antara satu paper yang di-review
dan paper yang tidak di-review. Para peneliti ini menyimpulkan bahwa penentuan
similaritas abstrak cukup efektif untuk mencari duplikasi sitasi, sedangkan analisis full
text diperlukan untuk menemukan semua kemungkinan duplikasi sitasi.
Boyack, et al. (2011) meneliti penerapan algoritma similaritas pada proses
pengelompokan dokumen. Sembilan metode diteliti untuk melihat keakuratannya dalam
mengelompokkan dua juta artikel biomedis. Pengelompokan artikel bermanfaat antara
lain untuk manajemen koleksi, mempermudah penelusuran berkas, dan menganalisis data.
Para peneliti ini mencermati artikel pada MEDLINE yang di-submit pada kurun 2004 –
2008. Boyack dkk. menggunakan metode statistik dan algoritma semantik dalam
penelitiannya. Contoh metode yang digunakan adalah frekuensi kemunculan kata
(statistik) dan LSA (latent semantic analysis). Sumber data yang digunakan adalah
katagori subjek, kata-kata pada judul, dan abstrak. Disimpulkan bahwa metode related
article yang ada pada PubMed menghasilkan pengelompokan (kluster) yang paling
terkonsentrasi di antara kesembilan metode yang diamati.
Thamrin dan Wantoro (2012) meneliti penerapan jarak Levenshtein sebagai
landasan dalam menilai kemiripan jawaban siswa dengan kunci jawaban. Tingkat
kemiripan dihitung berbanding terbalik (resiprokal) terhadap jarak Levenshtein. Tingkat
kemiripan hasil perhitungan kemudian dibandingkan dengan cara guru sekolah dasar dan
menengah menilai jawaban siswa. Kedua peneliti memodifikasi perangkat lunak Moodle
dan membuat tipe soal baru. Dengan tipe soal baru tersebut, jawaban soal pendek dapat
diberi skor secara fleksibel secara otomatis oleh komputer. Terdapat kesamaan dalam pola
pemberian skor oleh guru maupun oleh komputer. Namun, kecenderungan penilaian oleh
guru dan komputer akan mempunyai perbedaan signifikan jika jawaban yang diberikan
siswa membentuk kata yang dikenal dalam kamus. Kedua peneliti menyarankan
penggunaan algoritma similaritas semantik untuk meningkatkan akurasi penentuan skor
secara otomatis.
2.2.TPetaTJalanTPenelitian
Gambar 1 pada halaman 7 memperlihatkan peta jalan penelitian yang
menggambarkan penelitian terdahulu yang telah dilakukan baik oleh pengusul maupun
oleh peneliti lain. Penelitian terdahulu dapat dikategorikan dalam empat objek penelitian,
yaitu:
1. Pengembangan algoritma umum,
2. Pengembangan algoritma untuk penerapan spesifik,
3. Kajian penerapan algoritma, dan
4. Kajian penerapan pada bahasa Indonesia.
Pengembangan algoritma umum dilakukan dalam berbagai bentuk. Cai dkk.
(2004) dan Islam & Inkpen (2008) meneliti algoritma similaritas berdasarkan data dalam
korpus. Sedangkan Dao (2002) dan Liu & Liang (2013) mencermati algoritma berbasis
jejaring kata. Serrano dkk. (2009) membuat model teks sedangkan Sandhya dkk. (2011)
meneliti tentang algoritma stemming untuk mendapatkan makna kata secara lebih akurat.
Selain itu, Islam dkk. (2012) mengembangkan metode N-Gram termasuk yang berasal
dari mesin pencari Google.
Berbagai penelitian telah dilakukan untuk mengembangkan algoritma untuk
penerapan spesifik. Pengembangan metode untuk mengukur kemiripan kalimat pendek
dilakukan oleh Metzler dkk. (2007), O'shea dkk. (2008) dan Mihalcea dkk. (2006).
Pengembangan metode untuk mengukur kemiripan kode program komputer dilakukan
oleh Noh dkk. (2006). Kemiripan kalimat ringkasan diteliti oleh Sun dkk. (2010) dan
Castillo & Cardenas (2010). Sedangkan upaya menemukan sinonim secara otomatis
diteliti oleh Mendes dkk. (2012).
Kajian penerapan algoritma untuk kebutuhan nyata dilakukan oleh banyak orang.
Malcolm & Lane (2008) dan Malakasiotis (2009) mencoba mengerapkan algoritma
similaritas untuk mendeteksi plagiasi. Wenqian dkk. (2009) mencoba membuat mesin
peringkas otomatis. Islam & Inkpen (2009) meneliti lebih lanjut mesin pengkoreksi
otomatis sedangkan Mohler & Mihalcea (2009) mencoba menerapkan algoritma
similaritas untuk memberi skor otomatis pada sistem evaluasi belajar. Boyack dkk. (2011)
telah pula berupaya menerapkan pada proses pengelompokan dokumen atau artikel.
Kebanyakan penelitian dilakukan terhadap dokumen dan teks berbahasa Inggris.
Kajian penerapan algoritma similaritas pada bahasa Indonesia belum banyak dilakukan.
Talla (2003) dan Adriani dkk. (2007) telah berupaya mengembangkan algoritma
stemming untuk memisahkan kata dasar dari imbuhannya. Sementara itu, Hamzah dkk.
(2008), Asy'arie & Pribadi (2009) dan Hamzah (2009) telah berupaya menerapkan
algoritma untuk pengelompokan dokumen berbahasa Indonesia. Penerapan untuk deteksi
plagiasi telah pula dicoba oleh Hamzah (2011). Belum lama ini, Thamrin & Wantoro
(2012) berupaya menerapkan pada proses skoring otomatis. Ketiadaan jejaring kata
menjadi salah satu kendala dalam upaya menerapkan pengukuran similaritas untuk
mengukur kemiripan teks bahasa Indonesia. Oleh karena itu dalam penelitian ini akan
diupayakan konstruksi jejaring kata sekaligus dilakukan pengujian Efektivitas Algoritma
Similaritas Semantik Berbasis Jejaring Kata dalam Mengukur Kemiripan Kalimat
Bahasa Indonesia.
Gambar 1. Peta jalan penelitian yang mengawali penelitian yang sedang diusulkan
DAFTARTPUSTAKA
Adriani, M., Asian, J., Nazief, B., Tahaghoghi, S. M. M., & Williams, H. E., 2007. “Stemming Indonesian: A confix-stripping approach,” ACM Transactions on Asian Language Information Processing (TALIP), vol. 6, no. 4, hal. 1-33.
Asian, J., Williams, H. E., Tahaghoghi, S. M. M., 2005, “Stemming Indonesian,” 28th Australian Computer Science Conference (ACS2005).
Asy'arie, A. D., & Pribadi, A. W., 2009.. “Automatic news articles classification in indonesian language by using naive bayes classifier method.” dalam Proceedings of the 11th International Conference on Information Integration and Web-based Applications & Services, hal. 658-662. ACM.
Bao, J.P., Lyon, C., Lane, P.C.R., Ji, W., Malcolm, J.A., 2007. “Comparing Different Text Similarity Methods,” UH Computer Science Technical Report, vol. 461 , University of Hertfordshire, dilihat 5 Januari 2012, <http://hdl.handle.net/2299/1772>.
Banerjee, S., 2002. “Adapting the Lesk Algorithm for Word Sense Disambiguation to Wordnet,” Master Research Thesis, University of Minesota.
Boyack, K., Newman, D., Duhon, R.J., Klavans, R., Patek, M., Biberstine, J.R., Shijvenaars, B., Skupin, A., Ma, N., Borner, K., 2011. “Clustering More than Two Million Biomedical Publications: Comparing the Accuracies of Nine Text-Based Similarity Approaches,” PLoS ONE 6(3): e18029, dilihat 5 Januari 2012, <doi:10.1371/journal.pone.0018029>.
Cai, Z., McNamara, D.S., Louwerse, M., Hu, X., Rowe, M., Graesser, A.C., 2004. “NLS: A Non-Latent Similarity Algorithm,” Proc. 26th Ann. Meeting of the Cognitive Science Soc.(CogSci’04), hal. 180-185.
Castillo, J. J., & Cardenas, M. E., 2010. “Using sentence semantic similarity based on WordNet in recognizing textual entailment,” dalam Advances in Artificial Intelligence–IBERAMIA 2010, hal. 366-375, Springer Berlin Heidelberg.
Hamzah, A., 2009. “Temu Kembali Informasi Berbasis Kluster untuk Sistem Temu Kembali Informasi Teks Bahasa Indonesia ,” Jurnal Teknologi, vol.2, no.1, hal. 1-7.
Hamzah, A., 2011. “Aplikasi N-Gram Untuk Deteksi Plagiat Pada Dokumen Teks ,”
Islam, A. dan Inkpen, D., 2008. “Semantic Text Similarity Using Corpus-Based Word Similarity and String Similarity,” ACM Trans. Knowl. Discov. Data, vol. 2, No. 2, Artikel 10.
Islam, A., dan Inkpen, D., 2009. “Real-word spelling correction using Google Web IT
grams,” dalam Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 3, vol. 3 hal. 1241-1249. Association for Computational Linguistics.
Islam, A., Milios, E., Keselj, V., 2012. “Text Similarity using Google Tri-Grams,” dalam 25th Canadian Conference on Advances in Artificial Intelligence, Mei 28-30, hal. 312-317.
Leacock, C. dan Chodorow, M., 1998. “Combining Local Context and WordNet Sense Similiarity for Word Sense Disambiguation,” dalam WordNet, An Electronic Lexical Database, The MIT Press.
Lesk, M.E., 1986. “Automatic Sense Disambiguation Using Machine Readable Dictionaries: How to tell a Pine Cone from an Ice Cream Cone,” dalam Proceedings of the SIGDOC Conference 1986, Toronto, Juni.
Liu, H., Wang, P. Fei, 2013. “Assessing Sentence Similarity Using WordNet based Word Similarity,” Journal of Software, Vol. 8, No. 6, hal. 1451-1458.
Malakasiotis, P., 2009. “Paraphrase recognition using machine learning to combine similarity measures,” dalam Proceedings of the ACL-IJCNLP 2009 Student Research Workshop, hal. 27-35. Association for Computational Linguistics.
Malcolm, J.A., Lane, P.C.R., 2008. “Efficient Search for Plagiarism on the Web ,” Kuwait, vol. 2008, pp. 206-211.
Mendes, S., Necsulescu, S., Bel, N., 2012. “Synonym extraction using a language graph model ” dalam Semantic Relations-II. Enhancing Resources and Applications.
Metzler, D., Dumais, S., & Meek, C., 2007. “Similarity measures for short segments of text,” dalam Advances in Information Retrieval, hal. 16-27, Springer Berlin Heidelberg.
Milhalcea, R., Corley, C., Strapparava, C., 2006. 'Corpus-based and Knowledge-based Measures of Text Semantic Similarity,” dalam Proceedings of the 21st national conference on Artificial intelligence, vol. 1, hal. 775-780.
Mohler, M., & Mihalcea, R., 2009. “Text-to-text semantic similarity for automatic short answer grading,” dalam Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics, hal. 567-575. Association for Computational Linguistics.
Mudjiono, Atika W., (2013). “Nick D'Aloisio, Remaja 17 Tahun Pencipta Aplikasi Rp 290 Miliar”, Kompas, 3 April, h. 16.
Noh, S. Y., Kim, S., & Jung, C., 2006. “A lightweight program similarity detection model using xml and levenshtein distance,” FECS, hal. 3-9.
O’Shea, J., Bandar, Z., Crockett, K., & McLean, D., 2008. “A comparative study of two short text semantic similarity measures” dalam Agent and Multi-Agent Systems: Technologies and Applications, hal. 172-181. Springer Berlin Heidelberg.
Ochoa, E.D., 2012. An Analysis of the Application of Selected Search Engine
Optimization (SEO) Techniques and Their Effectiveness on Google’s Search Ranking Algorithm , Thesis, California State University, Northbridge.
Purwanto, D., 2012. “Bikin Apps, Remaja 16 Tahun Raih Investasi Rp 2,2 Miliar”, Kompas, dilihat 7 April 2013, <http://tekno.kompas.com>.
Pusat Bahasa, 2009. Tesaurus Alfabetis Bahasa Indonesia, Bandung: Mizan.
Sandhya, N., Lalitha, Y. S., Sowmya, V., Anuradha, K., & Govardhan, A., 2011. “Analysis of Stemming Algorithm for Text Clustering,” International Journal of Computer Science, no. 8.
Serrano, M. Á., Flammini, A., & Menczer, F. 2009. “Modeling statistical properties of written text,” PloS one, vol. 4. no. 4, e5372.
Sun, Z., Errami, M., Long, T., Renard, C., Choradia, N., Renard, C., Choradia, N., Garner, H., 2010. “Systematic Characterizations of Text Similarity in Full Text Biomedical Publications,” PloS ONE 5(9): e12704, dilihat 5 Januari 2012, <doi:10.1371/journal.pone.0012704>.
Tala, F., 2003. A study of stemming effects on information retrieval in Bahasa Indonesia.
Thamrin, H. dan Wantoro, J., 2012. “Pengembangan Modul Penilaian Otomatis terhadap Jawaban Soal Pendek Terbuka dalam Sistem E-Learning,” dalam Prosiding SNFT Umsida 2012, hal. B31-B38.
Thamrin, H. dan Wantoro, J., 2014. “An Attempt to Create an Automatic Scoring Tool of Short Text Answer in Bahasa Indonesia,” dalam Proceeding of International Conference on Electrical Engineering, Computer Science and Informatics (EECSI 2014), Yogyakarta, pp. 96-98.
Wenqian, J. I., Zhoujun, L. I., Wenhan, C. H. A. O., Xiaoming, C. H. E. N., 2009.”A New Method for Calculating Similarity between Sentences and Application on Automatic Abstracting,” Intelligent Information Management, vol. 1, no.1, hal. 36-42.
Winarsono, D., Siahaan D.D., Yuhana, U., 2009. “Sistem Penilaian Otomatis Kemiripan Kalimat Menggunakan Syntactic-Semantic Similarity pada Sistem E-Learning,” Kursor, vol. 5, no. 2, hal. 75-82.
Wu, Z. dan Palmer, M., 1994. “Verb Semantics and Lexical Selection.” dalam Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics, Las Cruces, New Mexico.
Yazdani, M., dan Popescu-Belis, A., 2012. “Computing text semantic relatedness using the contents and links of a hypertext encyclopedia,” Artificial Intelligence.