Prihantoro
III. PeMBAhAsAn
3.2 Tipe 2: Korpus Prosesor dengan Fungsi statistik, Deskriptif dan nlP Terbatas Program tipe ke dua, adalah program-program yang sudah memiliki fungsi-fungsi
NLP namun masih perlu dikembangkan lebih lanjut. Salah satu contohnya adalah AntConc3. AntConc adalah salah satu program yang ditulis oleh Dr. Lawrence Anthony.
Menurut penulis, inilah program yang user-interfacenya sangat baik, dan mudah untuk dipelajari. AntConc banyak digunakan dalam pengolahan korpus mentah baik oleh para pemula maupun tingkat mahir.
Di dalam link yang bisa didownload terpisah, AntConc menyediakan lemma list, modul lematisasi (mirip dengan stemming, atau lebih tepatnya lemmatizing dalam istilah komputasi) untuk bahasa inggris yang struktur datanya sangat sederhana. Modul ini digunakan untuk mengidentifikasi bentuk infleksi dan derivasi dari satu lema dan menghitung frekwensinya, atau bentuk kontraksi. Lemma List pada AntConc berisi daftar lema dan daftar word form dengan notasi sebagai berikut: lema -> wordr form1, word form2, word form3. Tujuan dari lemma list ini sendiri adalah menunjukan varian word form yang terdeteksi dalam teks yang kita analisis. Anda bisa mendownload lemma list di sini (http://www.laurenceanthony.net/software/antconc/). Jika dibuka, file berformat .txt tersebut akan nampak seperti ini:
3 http://www.laurenceanthony.net/software/antconc/
abandon -> abandons,abandoning,abandoned abase -> abases,abasing,abased
abate -> abates,abating,abated abbess -> abbesses
abbey -> abbeys
Untuk menggunakan lemma list ini, klik tool preferences > wordlist. Pada lemma list, telusuri file lemma list sesuai dengan folder dimana anda menyimpan file tersebut.
Lalu klik Load. Pada word list range, pilih use all words. Pada pilihan add words from file, klik open lalu telusuri file lemma list yang sama pada folder tersebut. Jika semua sudah selesai, klik apply. Setelah itu, klik start pada kotak penelusuran.
gambar 2. Daftar Lema dan Wordform pada AntConc
Kita lihat kolom word telah berubah menjadi lemma. Sedangkan kolom lemma word forms yang tadinya kosong telah terisi sebagian. Kenapa cuma sebagian? Mari kita telusuri cara berpikir komputer. Pertama, komputer mendeteksi token yang ada dalam teks. Ke dua, komputer akan memeriksa, apakah ada dari beberapa token yang merupakan word form dari satu lema yang sama. Apabila ada, maka hasilnya akan ditampilkan.
Contoh pertama, komputer mendeteksi token a sebanyak 14 dan token an sebanyak 10.
Setelah berkonsultasi dengan lemma list, ia mengetahui bahwa dua token tersebut berasal dari satu lema, a (a -> an). Sehingga ditampilkanlah a pada kolom lemma, serta a 14 an 10 pada lemma word form(s). Contoh ke dua, komputer menemukan token-token berikut am 1 are 3 be 23 been 7 is 7 was 4. Setelah berkonsultasi dengan lemma list, ia menemukan bahwa ke enam token tersebut berasal dari satu lema be (be -> am,ar e,is,was,were,being,been,’m,m). Perhatikan bahwa dalam lemma list ada 9 jenis word form. Namun karena yang terdeteksi di teks hanya enam, maka enam token itulah yang ditampilkan.Dengan meniru format modul lemma list untuk bahasa Inggris, kita bisa membuat lemma list yang sama untuk bahasa Indonesia. Berikut contoh struktur data lemma list untuk bahasa Indonesia
[daftar lemma list untuk bahasa Indonesia
[masih belum lengkap, bisa dikembangkan lebih jauh [entry line sbb
[lemma_->_word_form1,word_form2,word_form3 makan -> makan,memakan,dimakan,termakan jalan -> jalan,berjalan,menjalani,dijalani,jalankan juang -> berjuang
Selain, AntConc, Dr. Anthony juga membuat beberapa program terpisah seperti AntTag, yang berfungAntTag, yang berfungsi melakukan anotasi. Ini agak berbeda dengan Xaira dan Wordsmith yang menggabungkan fungsi anotasi dalam satu program.
Karena menggunakan tagger CLAW BNC, AntTag hanya bisa menganotasi teks berbahasa Inggris. Teks harus diupload dan dianalisis oleh AntTag terlebih dahulu, lalu dicopy-paste sebagai file txt, dan diupload ke AntConc untuk dianalisis. Setelah ditag dan diupload, user bisa melakukan peneluran berbasiskan tag yang ada. Bisa juga user mengupload korpus yang sudah bertag, misalnya korpus UI-1M dari Pan Localization Project berikut:
gambar 3. Penelsuran Tag Korpus UI-1M menggunakan AntConc
Selain AntTag ada juga AntWordProfiler, program statistik yang mirip seperti program Range yang dibuat oleh Prof. Paul Nation, yang berfungsi mengukur derajat eksistensi sekelompok kata dalam satu teks. Permasalahannya adalah, struktur data lexical resource yang digunakan pada AntWordProfiler berbeda dengan lemma list pada AntConc, sehingga data harus ditulis ulang dengan format yang berbeda.
Kemudian ada WordSmith4 dan Xaira5. WordSmith dan Xaira memiliki beberapa fungsi statistik seperti T-Score, Mutual Information, atau loglikelyhood yang lebih advance dari AntConc. Serupa dengan AntConc, text harus diPOStag dulu dengan program lain (atau manual, tapi tidak disarankan), sebelum diproses lebih jauh. Namun menurut hemat penulis, AntConc jauh lebih mudah digunakan dibanding Xaira dan Wordsmith.
Geuljabi, adalah sebuah program analis korpus buatan National Korean Institute of Korean Language (Badan Bahasanya Korea). Tidak seperti AntConc, Xaira atau Wordsmith, Geuljabi memiliki beberapa keistimewaan. Pertama, Geuljabi memiliki Lexical Resource (LR) tersendiri yang sudah built-in. User tidak harus berpindah ke program lain (apalagi menganotasi secara manual) untuk melakukan tagging pada korpus.
Kedua, tagging pada korpus sampai ke level morfologis.
gambar 4. Penelurusan Classifier Menggunakan Gelujabi
4 http://www.lexically.net/wordsmith/version5/index.html
5 http://xaira.sourceforge.net/
Namun, Geuljabi memiliki beberapa kelemahan yang cukup mendasar. Penulis hanya berhasil menggunakan Geuljabi di OS berbahasa Korea (Korean Windows). Kemudian, teks yang dianalisis tidak bisa terlalu banyak; karena akan menimbulkan crash pada system.
Dalam konteks kebutuhan bahasa Indonesia atau daerah, tentu saja Geuljabi terbatas seperti tipe 1, karena LR yang ada tidak bisa digunakan untuk bahasa Indonesia. Meski demikian, bagi peneliti bahasa Korea, Geuljabi adalah program yang sangat baik dan cukup nyaman digunakan oleh para linguis Korea karena user interface yang sederhana dan mudah dipahami (oleh orang yang paham bahasa Korea tentunya).