9
BAB II
LANDASAN TEORI
2.1Struktur Baku Kalimat Bahasa Indonesia
Landasan teori yang dikemukakan tentang struktur baku kalimat Bahasa Indonesia pada bab ini mengacu pada [10]. Kalimat umumnya berwujud rentetan kata yang disusun sesuai dengan kaidah yang berlaku. Tiap kata dalam kalimat mempunyai tiga klasifikasi yaitu (1) kategori sintaksis, (2) fungsi sintaksis, (3) peran semantisnya.
Tabel 2. 1 Contoh Hubungan Bentuk, Kategori, Fungsi dan Peran Unsur Kalimat
2.1.1 Bagian-bagian Kalimat
Dilihat dari segi bentuknya, kalimat dapat dirumuskan sebagai konstruksi sintaksis terbesar yang terdiri atas dua kata atau lebih. Antara “kalimat” dan “kata” terdapat dua satuan sintaksis antara, yaitu “klausa” dan “frasa”. Klausa merupakan satuan sintaksis yang terdiri atas dua kata, atau lebih, yang mengandung unsur predikasi. Sedangkan frasa adalah satuan sintaksis yang terdiri atas dua kata atau lebih yang tidak mengandung unsur predikasi.
2.1.2 Struktur Kalimat Dasar
Yang dimaksud dengan kalimat dasar adalah kalimat yang (i) terdiri atas satu klausa, (ii) unsur-unsurnya lengkap, (iii) susunan unsur-unsurnya menurut urutan yang paling umum, dan (iv) tidak mengandung pertanyaan atau pengingkaran [11]. Dengan kata lain, kalimat dasar di sini identik dengan kalimat tunggal deklaratif afirmatif yang urutan unsur-unsurnya paling lazim.
Bentuk Ibu saya tidak membeli baju baru untuk kami minggu lalu
Kata N Pron Adv V N Adj Prep N N V
Frasa FN FV FN Fprep FN
Fungsi subjek Predikat Objek pelengkap Keterangan
10
Berdasarkan ciri-ciri yang dimilikinya, kalimat dasar dapat dibedakan ke dalam enam tipe [11].
Tabel 2. 2 Pola Kalimat Dasar
Pada struktur kalimat dasar, di antara kalimat dan kata, biasanya ada satuan-antara yang berupa kelompok kata. Kelompok kata yang menjadi salah satu unsur pembentuk kalimat ini dikenal dengan sebutan frasa. Dalam bahasa Indonesia dikenal lima buah frasa yang lazim menjadi unsur pembentuk kalimat. Kelima buah frasa ini, antara lain yaitu : frasa verbal, frasa nominal, frasa, pronominal, frasa adjektival, dan frasa numeralia.
2.1.3 Fungsi Sintaksis Unsur-unsur Kalimat
Terdapat lima fungsi sintaktis yang digunakan untuk membangun sebuah kalimat, yaitu subjek, predikat, objek, pelengkap dan keterangan. Suatu pernyataan merupakan suatu kalimat jika di dalam pernyataan tersebut sekurang-kurangnya terdapat subjek dan predikat, baik disertai objek, pelengkap, atau keterangan maupun tidak.
2.2Makna
Pada bab ini teori mengenai penjelasan makna mengacu pada [10]. Dalam [10] makna diartikan sebagai arti, maksud pembicara atau penulis, pengertian yang diberikan kepada suatu bentuk kebahasaan.
Tipe Fungsi
S P O Pel Ket
1. S-P Saya dosen
2. S-P-O Rani Mendapat Uang
3. S-P-Pel Pancasila adalah
dasar negara kita
4. S-P-Ket itu terjadi tadi pagi
5. S-P-O-Pel Dia mengirimi kami uang
6. S-P-O-Ket Beliau memberi kami
rasa aman
11 2.2.1 Pendekatan Makna
Makna dapat dibicarakan dari dua pendekatan, yakni pendekatan analitik atau referensial dan pendekatan operasional. Pendekatan analitik ingin mencari makna dengan cara menguraikannya atas segmen-segmen utama, sedangkan pendekatan operasional ingin mempelajari kata dalam penggunaannya. Pendekatan operasional lebih menekankan, bagaimana kata dioperasikan di dalam tindak fonasi sehari-hari.
Di depan telah dikatakan bahwa pendekatan analitik ingin menguraikan makna dengan jalan segmentasi. Misalkan contoh kata istri. Dilihat dari pendekatan analitik, kata istri dapat diuraikan menjadi: perempuan, telah bersuami, kemungkinan telah beranak, manusia, ramah-tamah, berambut panjang, berfungsi sebagai pendamping suami. Jika kata istri dilihat dari segi pendekatan operasional, akan terlihat dari kemungkinan-kemungkinan pemunculannya dalam kalimat-kalimat, misalnya sebagai berikut: Si Dula mempunyai istri; Istri si Ali telah meninggal; Banyak istri yang bekerja di kantor. Tetapi tidak mungkin orang mengatakan: Istri si Ali berkaki tiga; Istri tidak pernah melahirkan. Pendekatan operasional menggunakan tes subtitusi untuk menentukan tepat tidaknya makna sebuah kata.
2.2.2 Ambiguitas
Keragu-raguan tentang makna kata atau makna kalimat dalam linguistik disebut ambiguitas. Ambiguitas timbul dalam berbagai variasi ujaran atau bahasa tertulis.
2.2.3 Homonim
Homonim adalah kata yang sama ejaan atau lafalnya, tetapi mengungkapkan makna yang berbeda-beda karena berasal dari sumber yang berlainan. Bergantung kepada keidentikan dalam ejaan atau lafalnya, suatu homonim disebut homograf atau homofon.
2.2.4 Homograf
Homograf adalah bentuk istilah yang sama ejaannya, tetapi maknanya berbeda. Contohnya kata “bisa” yang dapat bermakna “dapat” atau bermakna “racun binatang”.
12 2.3Natural Language Processing
Natural Language Processing (NLP) adalah penerapan ilmu komputer, khususnya linguistik komputasional (computational linguistics), untuk mengkaji interaksi antara komputer dengan bahasa (alami) manusia. NLP berupaya memecahkan masalah untuk memahami bahasa alami manusia, dengan segala aturan gramatika dan semantiknya, dan mengubah bahasa tersebut menjadi representasi formal yang dapat diproses oleh computer [12]. Dalam penerapannya, tujuan NLP untuk memahami bahasa manusia ini memiliki banyak tantangan, yang antara lain adalah sebagai berikut:
1. Penandaan kelas kata (part-of-speech tagging). Sulit untuk menandai kelas kata (kata benda, kata kerja, kata sifat, dsb.) suatu kata dalam teks karena pengelasan kata sangat bergantung kepada konteks penggunaannya.
2. Segmentasi teks (text segmentation). Penentuan segmentasi sulit dilakukan pada bahasa tulis yang tidak memiliki pembatas kata spesifik (misal: bahasa Mandarin, Jepang, dan Thailand) serta pada bahasa lisan yang kadang membaurkan bunyi antarkata.
3. Disambiguasi makna kata (word sense disambiguation). Banyak kata memiliki lebih dari satu makna, baik dalam bentuk homonim (makna berbeda dan tidak terkait, contohnya “bisa” dalam makna “dapat” dan “racun”) maupun polisemi (makna berbeda, namun terkait, mis. “ragu” dalam makna “bimbang” dan “sangsi”). Pembedaan makna hanya dapat dilakukan dengan melihat konteks penggunaan.
4. Ambiguitas sintaksis (syntactic ambiguity). Suatu bahasa memiliki berbagai kemungkinan struktur kalimat. Pemilihan struktur yang paling tepat biasanya membutuhkan gabungan informasi semantic dan kontekstual.
5. Masukan yang tak sempurna atau tak teratur (imperfect or irregular input). Aksen dalam bahasa lisan serta kesalahan ejaan dan gramatikal dalam bahasa tulis menyulitkan pemrosesan bahasa
13
alami.
6. Pertuturan (speech act). Struktur kalimat saja kadang tidak dapat dengan tepat menggambarkan maksud penutur atau penulis. Kadang gaya bahasa dan konteks menentukan maksud yang diinginkan. Di luar dari kesulitan-kesulitan tersebut, NLP telah berhasil diterapkan untuk berbagai tugas yang semula hanya dapat dilakukan oleh manusia. Beberapa bidang populer dalam penerapan NLP adalah sebagai berikut:
1. Pemerolehan informasi (information retrieval). Pencarian dokumen yang relevan, pencarian informasi spesifik di dalam dokumen, serta pembuatan metadata.
2. Penjawaban pertanyaan (question answering). Secara otomatis menjawab pertanyaan yang diajukan dengan bahasa alami dengan jawaban dalam bahasa alami pula.
3. Perangkuman otomatis (automatic summarization). Pembuatan versi singkat berisi butir-butir penting dari suatu dokumen dengan menggunakan program komputer.
4. Penerjemahan mesin (machine translation). Penerjemahan otomatis dari suatu bahasa alami ke bahasa lain.
5. Pengenalan wicara (speech recognition). Pengubahan bahasa lisan menjadi masukan yang dikenali oleh mesin, misalnya pada pendiktean bahasa lisan kepada komputer untuk menghasilkan bahasa tulis atau pelaksanaan suatu perintah oleh komputer berdasarkan bahasa lisan dari manusia.
6. Sintesis wicara (speech synthesis). Pengubahan bahasa tulis menjadi bahasa lisan, kebalikan dari pengenalan wicara.
7. Pengenalan karakter optis (optical character recognition). Pengubahan tulisan tangan atau teks tercetak (biasanya melalui pemindai) menjadi dokumen yang dapat dikenali oleh mesin.
14
8. Analisis sentimen (Sentiment Analysis). Ekstraksi informasi dari sumber data teks untuk mendeteksi pandangan positif atau negatif terhadap suatu objek. Biasanya diterapkan untuk mengidentifikasi tren opini publik terhadap suatu produk atau perusahaan.
2.4Text Mining
Text Mining adalah proses ekstraksi pola (informasi dan pengetahuan yang berguna) dari sejumlah besar sumber data tak terstruktur. Penambangan teks memiliki tujuan dan menggunakan proses yang sama dengan penambangan data, namun memiliki masukan yang berbeda. Masukan untuk penambangan teks adalah data yang tidak (atau kurang) terstruktur, seperti dokumen Word, PDF, kutipan teks, dll., sedangkan masukan untuk penambangan data adalah data yang terstruktur [13]. Penambangan teks dapat dianggap sebagai proses dua tahap yang diawali dengan penerapan struktur terhadap sumber data teks dan dilanjutkan dengan ekstraksi informasi dan pengetahuan yang relevan dari data teks terstruktur ini dengan menggunakan teknik dan alat yang sama dengan penambangan data.
Area penerapan penambangan teks yang paling populer adalah:
1. Ekstraksi informasi (information extraction): Identifikasi frasa kunci dan keterkaitan di dalam teks dengan melihat urutan tertentu melalui pencocokan pola.
2. Pelacakan topik (topic tracking): Penentuan dokumen lain yang menarik seorang pengguna berdasarkan profil dan dokumen yang dilihat pengguna tersebut.
3. Perangkuman (summarization): Pembuatan rangkuman dokumen untuk mengefisienkan proses membaca.
4. Kategorisasi (categorization): Penentuan tema utama suatu teks dan pengelompokan teks berdasarkan tema tersebut ke dalam kategori yang telah ditentukan.
5. Penggugusan (clustering): Pengelompokan dokumen yang serupa tanpa penentuan kategori sebelumnya (berbeda dengan kategorisasi
15
di atas).
6. Penautan konsep (concept linking): Penautan dokumen terkait dengan identifikasi konsep yang dimiliki bersama sehingga membantu pengguna untuk menemukan informasi yang mungkin tidak akan ditemukan dengan hanya menggunakan metode pencarian tradisional.
7. Penjawaban pertanyaan (question answering): Pemberian jawaban terbaik terhadap suatu pertanyaan dengan pencocokan pola berdasarkan pengetahuan.
2.5Word Sense Disambiguation
Word Sense Disambiguation atau Disambiguasi Makna Kata merupakan salah satu topik dari NLP (Natural Language Processing). Secara harfiah Word Sense Disambiguation (WSD) merupakan salah satu topik yang penting dalam Natural Language Processing (NLP), di mana bertujuan untuk menentukan makna suatu kata. WSD banyak digunakan pada aplikasi seperti mesin penterjemah, pengektraks informasi/berita, mesin tanya jawab, perangkuman opini. Berkaitan dengan makna dari suatu kata, apabila kita mempelajari salah satu bahasa, maka akan kita temukan bahwa sebuah kata dapat mempunyai banyak makna seperti contoh dalam bahasa inggris, kata call dapat berarti command to come, dapat juga berarti a telephone connection, bahkan dalam online wordnet 3.0 ditemukan ±30 arti call, di sinilah peranan WSD untuk memilih dari 30 arti call, tentunya setelah kata tersebut dimasukkan dalam kalimat.
2.6Text Preprocessing
Struktur data yang baik dapat memudahkan proses komputerisasi secara otomatis. Pada Text Mining, informasi yang akan digali berisi informasi-informasi yang strukturnya sembarang. Oleh karena itu, diperlukan proses pengubahan bentuk menjadi data yang terstruktur sesuai kebutuhannya untuk proses dalam data mining, yang biasanya akan menjadi nilai-nilai numerik. Proses ini sering disebut Text Preprocessing [13]. Setelah data menjadi data
16
terstruktur dan berupa nilai numerik maka data dapat dijadikan sebagai sumber data yang dapat diolah lebih lanjut. Berberapa proses yang dilakukan adalah sebagai berikut :
1. Case folding
Case folding adalah mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf „a‟ sampai dengan „z‟ yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter.
2. Tokenizing
Tahap Tokenizing adalah tahap pemotongan string input
berdasarkan tiap kata yang menyusunnya.
3. Stemming
Tahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering. Pada tahap ini dilakukan proses pengembalian berbagai bentukan kata ke dalam suatu representasi yang sama.
2.7Algoritma Lesk
Pada referensi [6] disebutkan bahwa algoritma Lesk merupakan implementasi dari pendekatan unsupervised yang digunakan untuk menghilangkan ambiguitas makna kata. Algoritma ini berdasarkan intuisi bahwa kata yang bermakna ambigu yang terdapat bersamaan dalam kalimat, digunakan untuk merujuk topik yang sama dan makna yang berhubungan dengan topik tersebut didefinisikan di dalam kamus dengan menggunakan kata yang sama.
Algoritma Lesk memiliki fungsi relatedness (keterhubungan) akan mengembalikan jumlah kata yang tumpang tindih antara definisi dari dua kata yang diinput. Berikut ini adalah pseudo code algoritma Lesk :
for every word w[i] in the phrase let BEST_SCORE = 0
17 let BEST_SENSE = null
for every sense sense[j] of w[i] let SCORE = 0
for every other word w[k] in the phrase, k != i for every sense sense[l] of w[k]
SCORE = SCORE + number of words that occur in the gloss of both sense[j] and sense[l] end for end for if SCORE > BEST_SCORE BEST_SCORE = SCORE BEST_SENSE = w[i] end if end for if BEST_SCORE > 0 output BEST_SENSE else
output "Could not disambiguate w[i]" end if
end for
Di bawah ini adalah contoh penerapan algoritma Lesk terhadap ungkapan pine cone , dengan menggunakan Oxford Advance Learner’s Dictionary, ditemukan kata pine mempunyai dua makna yaitu:
makna 1 : kind of evergreen tree with needle- shaped leaves
makna 2 : waste away through sorrow or illness Sedangkan kata cone mempunyai tiga makna, yaitu: makna 1 : solid body which narrow to a point
makna 2 : something of this shape wheter solid or hollow
makna 3 : fruit of certain evergreen tree
Setiap makna dari pine dibandingkan dengan setiap makna dari cone, kemudian didapat bahwa evergreen tree muncul di dalam salah satu makna dari kata pine dan cone. Karena kemunculannya hanya untuk kata evergreen tree, maka berdasarkan algoritma Lesk, evergreen tree akan mendapat skor 1. Jadi, evergreen tree dianggap menjadi makna yang tepat jika kata pine dan cone digabung menjadi pine cone.
18 2.8Algoritma Simplified Lesk
Sesuai dengan [8], algoritma lesk mengalami modifikasi dan dinamakan dengan algoritma simplified lesk. Definisi dari algoritma ini adalah menghitung nilai overlap antara definisi makna kata dengan konteks kalimat sebelumnya. Berikut merupakan tahapan dari algoritma simplified lesk :
a. Retrieve from MRD all sense defintions of the word tobe disambiguated b. Determine the overlap between each sense definition and the current
context
c. Choose the sense the leads to highest overlap
Sebagai contoh implementasi dari algoritma simplified lesk : Untuk menjelaskan kata buku dalam kalimat :
“tebu itu mempunyai buku yang sangat keras”
Makna 1 : lembar kertas yang berjilid, berisi tulisan atau kosong, kitab
Makna 2 : bagian yang keras tempat pertemuan dua ruas(jari, buluh, tebu)
Ditemukan kata tree dalam makna 1 yang tumpeng tindih dengan kalimat (konteks sebelumnya). Sehingga perhitungan untuk overlap pada tiap makna kata adalah :
Pine#1 ∩ Sentence = 0
Pine#2 ∩ Sentence = 2
Dari perhitungan diatas dapat ditarik kesimpulan, bahwa makna 1 mendapatkan skor 0 dan skor makna ke 2 adalah 2 sehingga makna kata buku yang sesuai dalam kalimat diatas adalah makna 2.
2.9KBBI
Kamus Besar Bahasa Indonesia (KBBI) merupakan kamus Bahasa Indonesia yang disusun oleh Pusat Bahasa, Kementrian Pendidikan Nasional dan diterbitkan oleh Balai Pustaka. Kamus ini dipercaya sebagai rujukan utama untuk mengetahui arti dari suatu kata dalam Bahasa Indonesia, dan menjadi acuan tertinggi Bahasa Indonesia yang baku.