BAB 2
TINJAUAN PUSTAKA
Ontologi populasi teks berkaitan dengan populasi ontologi dengan basis dokumen teks, yang menentukan instansi hubungan sebagai konsep, dengan penentuan instansi hubungan adalah sesuatu yang sulit dan secara praktis memerlukan pemahaman terhadap bahasa alamiah. Oleh karena itu, dalam ruang tinjauan pustaka ini akan diulas beberapa hal yang berkaitan dengan penurunan populasi ontologi dalam teks.
2.1 Ontologi
Ontologi pada dasarnya adalah untuk mencari makna eksistensi dan struktur umum yang terdapat pada eksistensi, struktur yang kemudaian dinamakan sebagai kategori dan susunan eksistensi. Pada awalnya, ontologi seperti pencarian Aristoteles yang menunjukan bahwa pertanyaan mengenai makna eksistensi sesuatu membawa kepada penghargaan terhadap keajaiban eksistensi manusia sedangkan studi mengenai kategori membawa pada sebab pertama, asal usul dari segala sesuatu (Hu dan Zhang, 2010). Tidak berlebihan bila dikatakan bahwa motivasi yang sesungguhnya dalam studi mengenal ontologi berkaitan dengan adalah putusan berdasarkan alasan atau gugahan terhadap agama, disamping putusan atas pengetahuan dan emosi etis. Dalam hal ini, gaya pemikiran melibatkan popularitas aliran pemikiran, sebagaimana ontologi tidak saja mempengaruhi metodologi penelitian tetapi juga berkaitan dengan pemaknaan: Ontologi adalah platform semantik, tanpa ontologi pemaknaan tidak akan ada. Setiap aliran pemikiran, seperti pemetaan ontologi, evolusi ontologi, ontologi taksonomi, atau ontologi populasi telah mempengaruhi banyak area ilmiah sebagaimana akuisisi pengetahuan dari populasi teks (Cimiano, 2006).
Ontologi menyiapkan pemahaman terhadap bagian-bagian domain pembicaraan untuk mendukung komunikasi antara manusia dan komputer. Secara khusus segala sesuatu yang dapat diwakili oleh bahasa sehingga dapat diolah oleh mesin dan kemudian menjadi bentuk formal yang secara eksplisit menawarkan
pemaknaan konsep dalam domain dan hubungan, dan dianggap sebagai faktor penting dalam keberhasilan banyak aplikasi berbasis pengetahuan (Nasution, 2010). Ontologi dianggap sebagai tulang punggung banyak aplikasi saat ini, seperti sistem berbasis pengetahuan, sistem manajemen pengetahuan, dan aplikasi web semantik. Salah satu tugas penting dalam pengembangan sistem tersebut adalah akuisisi pengetahuan. Pendekatan konvensional untuk akuisisi pengetahuan terutama dari wawancara pakar domain, kemudian pemodelan dan transformasi pengetahuan yang diperoleh dalam beberapa bentuk teknik representasi pengetahuan.
Namun, sejumlah besar pengetahuan saat ini tertanam dalam berbagai dokumen, banyak di antaranya tersimpan dalam repositori atau Web, terutama literatur akademik dan memiliki potensi untuk dieksploitasi demi konstruksi pengetahuan. Masalah utama yang melekat adalah bahwa pengetahuan seperti ini sangat tidak terstruktur dan sulit untuk berubah menjadi model yang bermakna. Sistem presentasi pengetahuan berkaitan dengan logika deskripsi yang terdiri dari TBox (Terminology Box) dan ABox (Assertion Box) seperti berikut (Lutz dan Miličić, 2007).
2.1.1 TBox dan ABox
Meskipun sejumlah pendekatan otomatis dalam memperoleh pengetahuan tersebut telah diusulkan (Gartner, 2008.), tetapi sedikit di antaranya yang berhasil sebab pendekatan tersebut hanya diuji pada domain umum sedangkan domain seperti penyakit dan tumbuhan belum dieksplorasi. Sementara pendekatan otomatis tampaknya menawarkan solusi yang menjanjikan, manusia tetap berperan dalam memvalidasi kebenaran pengetahuan yang diperoleh, khususnya dalam domain ilmiah (Nasraoui dan Goswami, 2006).
Nalar manusia terus diperlukan untuk membangun TBox ontologi, yaitu sehimpunan tuntutan aksioma yang mendefinsikan atribut konsep dan jenjang konsep dan atribut. Ini melibatkan pengetahuan umum dan merupakan dasar inferensi (kesimpulan). Sedangkan ABox adalah sehimpunan tuntutan instansi yang
logis deskripsi. Oleh karena itu, ontologi dapat dideklarasikan dengan TBox dan ABox (Ibrahim et al., 2010).
Penelitian ini, diusulkan seperangkat aturan untuk mengisi penyakit tanaman ontologi domain dari teks yang tidak terstruktur. TBox ontologi untuk domain ini dibangun dari serangkaian pertanyaan dari ahli domain serta analisis dari literatur terkemuka. Pendekatan yang diusulkan didasarkan pada pencocokan pola dan Named Entity Recognition (NER), hubungan semantik di identifikasi dengan analisis utama yang terlibat memiliki aturan dan mengidentifikasi entitas hubungan selanjutnya menegaskan sebagai contoh konsep ontologi Tbox (Lutz, 2004).
2.2 Sistem Pendukung Keputusan
Pendekatan umum yang digunakan untuk populasi ontologi didasarkan kepada konsep instansi. Setiap instansi secara literal diwakili oleh teks, yaitu satu atau lebih kata atau dikenali dengan istilah tk = {wi|i = 1,....,k}, w adalah kata. Instansi dapat berupa objek
dan atribut yang melekat padanya, contohnya Fakultas Ilmu Komputer dan Teknologi Informasi (Fasilkom-TI) sebagai objek mempunyai atribut Universitas Sumatera Utara atau Medan sebagai atribut yang mengungkapkan jati diri dari Fasilkom-TI. Misalkan terdapat instansi (entitas atau atribut) yang diberikan secara literal, semua pemaknaan objek didasarkan atas kata yang diwakil oleh objek itu secara harfiah. Vokabulari berkaitan dengan pengindeksan yang diberi pengenal 1,...,L, wl = 1 jika l dalam L dan
wl = 0 dalam hal lain. Jadi tk adalah istilah dengan ukuran |tk| = k, l lebih kecil atau
sama dengan k, untuk mana l bilangan parameter yang mewakili kata.
Apabila untuk sebarang istilah tx diperoleh satu singleton (Nasution, 2012a)
dari okkurensi sebagai |s| dan doubleton (Nasution, 2012b) untuk dua istilah tx dan ty
atau tx ∩ ty dari kookurensi diperoleh similaritas antara dua istilah sebagai berikut
(Nasution, 2012c)
sim(tx,ty) = (tx,ty,tx ∩ ty) di dalam [0,1]
2.3 Pemaknaan Teks
Pemaknaan teks adalah cabang baru dalam bidang penambangan data. Pertama beberapa istilah dinyatakan dari teks dengan teknik tertentu dan mengubah data teks menjadi data terstruktur yang dpat menguraikan isi dari teks tersebut. Teks secara umum memiliki wacana yang mengandung arti sesuai dengan bentuknya dan susunannya, apakah dalam kalimat atau hubungan yang diuraikan dalam konsep tertentu atau dalam hitungan statistik. Teknik penambangan data melibatkan klasifikasi, penggugusan, analisis hubungan dan seterusnya merupakan bagian model dari pemaknaan teks. Konsepsi baru mungkin ditemukan berkaitan dengan hubungan yang relevan dalam struktur dimaksudkan.
2.3.1 Korpus
Populasi teks untuk domain tertentu dapat dikumpulkan dalam korpus. Korpus adalah kumpulan dokumen dalam domain tertentu, dokumen mengandungi sejumlah kata. Jadi, dalam korpus ditemukan kumpulan tema, masalah, pengarang, atau bentuk yang sama, karena dokumen berasal dari domain yang sama. Dengan demikian, korpus memiliki ruang vektor teks dengan mana setiap kata dapat diberi bobot. Pembobotan kata dapat diberikan melalui probabilitas kata pada setiap dokumen dibandingkan probabilitas kata dalam korpus, atau melibatkan perhitungan frekuensi kata dalam dokumen dan dalam korpus sehingga dimungkinkan ruang vektor diwakili oleh TF.IDF (Nasution dan Noah, 2010; Nasution dan Noah, 2011a).
Selain itu, melalui susunan kata dalam satu kalimat dimungkinkan untuk membentuk satu pola hubungan kata yang mewakili objek tertentu, dan akan dipetakan melalui TBox dan Abox. Pemetaan ini untuk menentukan aturan-aturan yang berlaku apabila kata tertentu muncul dalam populasi teks akan diikuti oleh kata lain sesuai dengan prediksi aturan yang telah dipolakan. Dalam korpus ditentukan aturan-aturan hubungan kata ini berdasarkan ontologi, dan kemudian akan diuji ke dalam sekumpulan dokumen yang lain.
2.3.2 Sampel dan Populasi teks
Korpus adalah sampel teks, sebagai penentu pola hubungan kata secara tekstual. Oleh karena itu, korpus dibangun dalam satu domain, dan melibatkan bentuk baku dalam plain text, sehingga dimungkinkan untuk membangun model data yang sesuai dengan metode yang akan diterapkan (Cimiano et al., 2007). Walau bagaimanapun, populasi teks terbesar adalah Web. Kumpulan dokumen yang terus menerus berkembang dan mewakili secara semantik milliu sosial dan kecenderungannya. Web adalah kumpulan dokumen yang pernah ada dalam sejarah. Web mewakili seluruh pengetahuan manusia saat ini, informasi yang terkandung di dalamnya begitu berharga, dan siapa saja yang mampu mengambil kesempatan dalam hal ini, memiliki peluang lebih baik. Akan tetapi, untuk mengakses informasi demikian diperlukan alat seperti mesin cari dan berbagai metode untuk mendapatkan informasi atau pemaknaan dalam pengetahuan tertentu.
Populasi teks terbesar ini seperti Web, akan digunakan sebagai bahan bandingan terhadap beberapa aturan yang diturunkan dari populasi teks, dan diuji dan dinilai berdasarkan sistem temu kembali informasi (information retrieval) (Alfred et al. 2010).
2.4 Text Mining
Text mining adalah menarik sebuah ekstraksi didalam penemuan, pengetahuan dari yang ada di dalam teks bebas atau tidak terstruktur. Text mining mencakup segala sesuatu dari pengambilan informasi (yaitu: dokumen atau pengambilan situs web) untuk klasifikasi teks dan clustering, untuk entitas, relasi dan kegiatan ekstraksi. Hal demikian dapat menempatkan kira-kira sebagai penggalian sebuah dokumen yang biasanya memanfaatkan konsep seperti kata-kata yang tidak mengandung text mining yaitu: ”dan”, ”pada”, ”di”, ”dengan”, dan lain-lain. (Kao, A. dan Stephen R. Poteet. 2007).
dan data survey (Croft et al., 2010). Misalkan, terdapat sekumpulan butir data A sebagai percobaan dan sekumpulan butir data B sebagai survei dengan ukuran masing-masing adalah |A| dan |B|. Andaikan melalui perhitungan diperoleh |A∩B| untuk menyatakan hal-hal yang sama, maka penilaian berdasarkan recall dinyatakan dengan
rec = |A∩B|/|A| (2.1)
sedangkan presisi dapat dinyatakan sebagai
pre = |A∩B|/|B| (2. 2)
dengan ketentuan bahwa |A∩B|≤|A| dan |A∩B|≤|B|. Sebaliknya, dengan kondisi yang berbeda bahwa |A B|≥|A| dan |A B|≥|A|, recall dan presisi merupakan perbandingan antara nilai-nilai perhitungan antara ketiganya.