BAB II LANDASAN TEORI

(1)

7

BAB II

LANDASAN TEORI

2.1 Studi Literatur

Penelitian yang berkaitan dengan klasifikasi kalimat tanya berdasarkan Taksonomi Bloom telah dilakukan oleh Selvia Ferdiana Kusuma dengan menggunakan algoritma J48 menghasilkan tingkat akurasi sebesar 83.11 %. Dataset yang digunakan pada penelitian tersebut sebanyak 900 data dengan jumlah kelas 6, sehingga setiap kelas memiliki 150 dataset [7]. Selain itu Selvia juga melakukan perbandingan dengan 3 algoritma klasifikasi yaitu SVM, KNN, dan J48 namun algoritma klasifikasi yang memiliki tingkat akurasi paling tinggi adalah algoritma J48. Hasil dari masing-masing algoritma ditunjukkan seperti Tabel 2.1.

Tabel 2.1 Hasil Penelitian Selvia Ferdiana Kusuma

Metode Akurasi

SVM 82.00%

KNN 82.78%

J48 83.11%

2.2 Text Mining

Seperti hal nya data mining, text mining adalah proses penemuan akan informasi atau trend baru yang sebelumnya tidak terungkap dengan memproses dan menganalisa data dalam jumlah besar. Dalam menganalisa sebagian atau keseluruhan unstructured text, text mining mencoba untuk mengasosiasikan satu bagian text dengan yang lainnya berdasarkan aturan-aturan tertentu. Hasil yang di harapkan adalah informasi baru yang tidak terungkap jelas sebelumnya [8].

Menurut [9], Saat ini text mining telah mendapat perhatian dalam berbagai bidang, antara lain:

1) Aplikasi keamanan

Banyak paket perangkat lunak text mining dipasarkan terhadap aplikasi keamanan, khususnya analisis plain text seperti berita internet.

2) Aplikasi biomedis

Berbagai aplikasi text mining dalam literatur biomedis telah disusun. Salah satu contohnya adalah PubGene yang mengkombinasikan text mining biomedis

(2)

8

dengan visualisasi jaringan sebagai sebuah layanan Internet. 3) Perangkat Lunak dan Aplikasi

Departemen riset dan pengembangan perusahaan besar, termasuk IBM dan Microsoft, sedang meneliti teknik text mining dan mengembangkan program untuk lebih mengotomatisasi proses pertambangan dan analisis. Perangkat lunak

text mining juga sedang diteliti oleh perusahaan yang berbeda yang bekerja di

bidang pencarian dan pengindeksan secara umum sebagai cara untuk meningkatkan performansinya.

4) Aplikasi Media Online

Text mining sedang digunakan oleh perusahaan media besar, seperti

perusahaan Tribune, untuk menghilangkan ambigu informasi dan untuk memberikan pembaca dengan pengalaman pencarian yang lebih baik, yang meningkatkan loyalitas pada site dan pendapatan. Selain itu, editor diuntungkan dengan mampu berbagi, mengasosiasi dan properti paket berita, secara signifikan meningkatkan peluang untuk menuangkan konten.

5) Aplikasi Pemasaran

Text Mining juga mulai digunakan dalam pemasaran, lebih spesifik dalam

analisis manajemen hubungan pelanggan. 6) Aplikasi Akademik

Masalah text mining penting bagi penerbit yang memiliki database besar untuk mendapatkan informasi yang memerlukan pengindeksan untuk pencarian. Hal ini terutama berlaku dalam ilmu sains, di mana informasi yang sangat spesifik sering terkandung dalam teks tertulis.

2.3 Preprocessing Data

Sebelum diolah lebih lanjut data teks terlebih dahulu dilakukan proses

preprocessing. Teknik preprocessing adalah langkah awal sebelum melakukan

klasifikasi. Tujuan dari preprocessing adalah merepresentasikan sebuah kalimat ataupun sebuah dokumen menjadi sebuah vektor fitur dengan cara memecah teks menjadi satuan kata [10]. Berikut tahapan dalam pemilihan fitur, antara lain:

(3)

9 2.3.1 Case Folding

Case folding merupakan tahap penyamaan case dalam sebuah dokumen

atau teks agar memudahkan dalam pencarian [11]. Tahap Case folding dapat dilihat pada Gambar 2.2.

Gambar 2.1 Tahap Case folding 2.3.2 Remove Number & Punctuation

Remove Number & Punctuation merupakan proses menghilangkan

karakter berupa nomor, tanda baca, dan spasi. Jika data mengandung karakter nomor, tanda baca, dan spasi, maka karakter tersebut akan dihapus. Tahap Remove

Number & Punctuation dapat dilihat pada Gambar 2.2.

Gambar 2.2 Tahap Remove Number & Punctuation 2.3.3 Tokenisasi

Tokenisasi adalah tahap memisahkan deretan kata yang ada pada kalimat menjadi token atau potongan kata tunggal (termmed word), selain itu tokenisasi juga membuang beberapa karakter yang dianggap sebagai tanda baca. Tahap Tokenisasi dapat dilihat pada Gambar 2.3.

Sebutkan nama-nama provinsi yang ada di

Indonesia?

sebutkan nama-nama provinsi yang ada di

indonesia? Hasil Case Folding

sebutkan nama-nama provinsi yang ada di

indonesia?

sebutkan namanama provinsi yang ada di

indonesia

Hasil Remove Number &

Punctuation

Inputan kalimat tanya

(4)

10

Gambar 2.3 Tahap Tokenisasi 2.4 Klasifikasi

Klasifikasi merupakan proses pembangunan suatu model yang mengklasifikasikan suatu objek berdasarkan atribut-atributnya. Kelas label sudah tersedia dari data sebelumnya sehingga terfokus untuk bagaimana mempelajari data yang ada agar klasifikator bisa mengklasifikasikan secara otomatis [12].

Klasifikasi terdiri atas dua model, yaitu [13] :

 Pemodelan deskriptif, yaitu model klasfikasi yang dapat bertindak sebagai suatu alat yang bersifat menjelaskan untuk membedakan antara objek dengan kelas yang berbeda dari satu set data.

 Pemodelan prediktif, yaitu model klasifikasi yang dapat digunakan sebagai prediktor label kelas yang belum diketahui recordnya.

2.5 Taksonomi Bloom

Taksonomi Bloom adalah struktur hierarki yang digunakan untuk mengidentifikasikan skills seseorang mulai dari tingkat yang rendah hingga yang tinggi [14]. Tentunya untuk mencapai tujuan yang lebih tinggi, level yang rendah harus terpenuhi terlebih dahulu. Dalam kerangka konsep ini, tujuan pendidikan oleh Bloom dibagi menjadi 3 domain/ranah kemampuan intelektual (intellectual

behaviours) yaitu kognitif, afektif dan psikomotorik [15].

Ranah kognitif mengurutkan keahlian berpikir sesuai dengan tujuan yang diharapkan. Proses berpikir menggambarkan tahap berpikir yang harus dikuasai oleh siswa agar mampu mengaplikasikan teori kedalam perbuatan. Ranah kognitif

sebutkan namanama provinsi yang ada di

indonesia sebutkan namanama provinsi yang ada di indonesia Hasil Tokenisasi Hasil Remove Number &

(5)

11

ini terdiri dari atas enam level, yaitu: (1) pengetahuan, (2) pemahaman, (3) penerapan, (4) analisa, (5) sintesa, dan (6) evaluasi. Secara lebih jelas, penjelasan tentang pembaharuan aspek pada ranah kognitif dijelaskan pada Tabel 2.2 [16].

Tabel 2.2 Aspek Kognitif Taksonomi Bloom

No Kategori Penjelasan Kata Kunci

1 Mengingat Kemampuan

menyebutkan kembali informasi/ pengetahuan yang tersimpan dalam ingatan. Contoh: Menyebutkan arti taksonomi Mengutip, menyebutkan, menjelaskan, menggambar, membilang, mengidentifikasi, mendaftar, menunjukkan, memberi label, memberi indeks, memasangkan, menamai, menandai,

membaca, menghafal, meniru, mencatat, mengulang, mereproduksi, meninjau, memilih, menyatakan, mempelajari, mentabulasi, mengkode, menelusuri, menulis 2 Memahami Kemampuan memahami instruksi dan menegaskan pengertian/ makna ide atau konsep yang telah diajarkan baik dalam bentuk lisan, tertulis, maupun

grafik/diagram. Contoh: Merangkum materi yang telah diajarkan dengan kata-kata sendiri. Memperkirakan, menjelaskan, mengkategorikan, mencirikan, merinci, mengasosiasikan, membandingkan, menghitung, mengkontraskan, mengubah, mempertahankan, menguraikan, menjalin, membedakan, mendiskusikan, menggali, mencontohkan, menerangkan, mengemukakan, mempolakan, memperluas, menyimpulkan, meramalkan, merangkum, menjabarkan 3 Menerapkan Kemampuan

melakukan sesuatu dan mengaplikasikan konsep dalam situasi tertentu. Contoh: Melakukan proses pembayaran gaji sesuai dengan sistem berlaku

Mengurutkan, melaksanakan, melakukan, melatih, membangun, membiasakan, memecahkan, memodifikasi, mempersoalkan, memproduksi, memproses, mencegah, menentukan, menerapkan, mengadaptasi, mengaitkan, mengemukakan, menggali, menggambarkan, menggunakan, menghitung,

(6)

12 mengkalkulasi, mengklasifikasikan, mengoperasikan, mengurutkan, menilai, mensimulasikan, mentabulasi, menugaskan, menyelidiki, menyesuaikan, menyusun, meramalkan 4 Menganalisis Kemampuan memisahkan konsep kedalam beberapa komponen dan menghubungkan satu sama lain untuk memperoleh pemahaman atas konsep tersebut secara utuh. Contoh:

Menganalisa penyebab meningkatnya harga pokok penjualan dalam laporan keuangan dengan memisahkan komponen-komponennya. Melatih, memaksimalkan, membagankan, memecahkan, memerinci, memerintahkan, memilih, mencerahkan, mendeteksi, mendiagnosis, mendiagramkan, menegaskan, menelaah, menemukan, mengaitkan, menganalisis, mengaudit, mengedit, mengkorelasikan, menguji, mengukur, menjelajah, menominasikan, mentransfer, menyeleksi, menyimpulkan, merasionalkan 5 Mengevaluasi Kemampuan menetapkan derajat sesuatu berdasarkan norma, kriteria atau patokan tertentu. Contoh:

Membandingkan hasil ujian siswa dengan kunci jawaban Membandingkan, membuktikan, memerinci, memilih, memisahkan, memperjelas,mempertahankan, memprediksi, memproyeksi, memutuskan, memvalidasi, menafsirkan, mendukung, mengarahkan, mengetes, mengkritik, mengukur, menilai, menimbang, menugaskan, menyimpulkan, merangkum 6 Membuat Kemampuan memadukan unsur-unsur menjadi sesuatu bentuk baru yang utuh dan koheren, atau membuat sesuatu yang orisinil. Contoh: Membuat kurikulum Memadukan, membangun, membatas, membentuk, membuat, memfasilitasi, memperjelas, memproduksi, menampilkan, menanggulangi, menciptakan, mendikte, mengabtraksi, menganimasi, mengarang, mengatur,

(7)

13 dengan

mengintegrasikan pendapat dan materi dari beberapa sumber.

menggabungkan, menggeneralisasi, menghubungkan, mengkategorikan, mengkode, mengkombinasikan, mengkreasikan, mengoreksi, mengumpulkan, meningkatkan, menyusun, merancang, merangkum, merekonstruksi, merencanakan, mereparasi, merumuskan, menyiapkan

2.6 Support Vector Machine

Support Vector Machine (SVM) adalah sistem pembelajaran yang

pengklasifikasiannya menggunakan ruang hipotesis berupa fungsi-fungsi linear dalam sebuah ruang fitur (feature space) berdimensi tinggi, dilatih dengan algoritma pembelajaran yang didasarkan pada teori optimasi dengan mengimplementasikan learning bias yang berasal dari teori pembelajaran statistik [17]. Salah satu yang menjadi kelebihan SVM adalah tidak semua data latih akan dipandang untuk dilibatkan dalam setiap iterasi pelatihannya. Data-data yang berkontribusi tersebut disebut Support Vector [18].

2.6.1 Konsep SVM

Dalam Konsep SVM berusaha menemukan fungsi pemisah (hyperplane) terbaik diantara fungsi yang tidak terbatas jumlahnya. Hyperplane pemisah terbaik antara kedua kelas dapat ditemukan dengan mengukur margin hyperplane tersebut dan mencari titik maksimalnya. Adapun data yang berada pada bidang pembatas disebut support vector [19]. Pada dasarnya, konsep dasar dari algoritma SVM yaitu: 𝑚𝑖𝑛1 2|𝑤| 2 (2.1) s.t y_i(x_i. 𝑤 + 𝑏) − 1 ≥ 0

(8)

14 Keterangan:

xi adalah dataset

y_i adalah output dari data xi , dan

w, b adalah parameter yang dicari nilainya. 2.6.2 SVM Linear

Linearly separable data merupakan data yang dapat dipisahkan secara

linier. Pada gambar dapat dilihat sebagai alternatif bidang pemisah yang dapat memisahkan semua dataset sesuai dengan kelasnya. Namun, bidang pemisah terbaik tidak hanya dapat memisahkan data tetapi juga memiliki margin paling besar [20].

Gambar 2.4 Margin Hyperplane

Adapun data yang berada pada bidang pembatas ini disebut support

vector. Dalam contoh di atas, dua kelas dapat dipisahkan oleh sepasang bidang

pembatas yang sejajar. Bidang pembatas pertama membatasi kelas pertama sedangkan bidang pembatas kedua membatasi kelas kedua, sehingga diperoleh

𝑥_𝑖. 𝑤 + 𝑏 ≥ +1 𝑓𝑜𝑟 𝑦_𝑖 = +1

(2.2) 𝑥_𝑖. 𝑤 + 𝑏 ≤ −1 𝑓𝑜𝑟 𝑦_𝑖 = −1

w adalah normal bidang dan b adalah posisi bidang relatif terhadap pusat koordinat.

2.6.3 Multi Class SVM

Ada dua pilihan untuk mengimplementasikan multi class SVM yaitu dengan menggabungkan beberapa SVM biner atau menggabungkan semua data

(9)

15

yang terdiri dari beberapa kelas ke dalam sebuah bentuk permasalahan optimasi. Pada SVM terdapat metode untuk mengklasifikasikan data yang memiliki lebih dari dua kelas, salah satunya adalah metode one-against-all. Dengan menggunakan metode one-against-all, dibangun k buah model SVM biner (k adalah jumlah kelas). Setiap model klasifikasi ke-i dilatih dengan menggunakan keseluruhan data, untuk mencari solusi permasalahan (2.16). Jika hasil dari klasifikasi data baru tersebut menyatakan bahwa data tersebut bukan kelas i maka data baru tersebut di masukkan ke dalam fungsi hasil pelatihan berikutnya, sampai hasil dari klasifikasi menyatakan bahwa data baru tersebut adalah kelas i.

min1 2 (𝑤 𝑖₎𝑇_𝑤𝑖 _{+ 𝐶 ∑ 𝜉} 𝑡𝑖 𝑡 𝑠. 𝑡 (𝑤𝑖)𝑇 ∅(𝑥_𝑡) + 𝑏𝑖 _{≥ 1 − 𝜉} 𝑡𝑖 → 𝑦𝑡= 𝑖, (2.16) (𝑤𝑖)𝑇 ∅(𝑥𝑡) + 𝑏𝑖 ≥ −1 + 𝜉𝑡𝑖 → 𝑦𝑡≠ 𝑖, 𝜉_𝑡𝑖 ≥ 0 2.7 Karakteristik SVM

Karakteristik SVM dapat diringkas menjadi seperti berikut [21]:

1. SVM menyimpan sebagian kecil data latih untuk digunakan kembali pada saat prediksi, sebagian data yang masih disimpan merupakan support vector. 2. SVM membutuhkan komputasi pelatihan dan prediksi yang rumit karena data yang digunakan dalam proses pelatihan dan prediksi lebih besar dibandingkan dimensi sesungguhnya.

3. Untuk set data berjumlah besar SVM membutuhkan memori yang sangat besar untuk alokasi matriks kernel yang digunakan.

4. Penggunaan matriks kernel mempunyai keuntungan lain, yaitu kinerja set data dengan dimensi besar tetapi jumlah datanya sedikit akan lebih cepat karena ukuran data pada dimensi baru berkurang banyak.

2.8 Ekstraksi Fitur

Fitur adalah sebuah karakteristik pembeda yang dapat digunakan untuk mengklasifikasikan suatu soal [22]. Pada penelitian ini mengunakan 2 jenis fitur untuk proses pengklasifikasian yaitu, fitur sintaktik dan Bag-of-Words (BoW).

(10)

16 2.8.1 Fitur Sintaktik

Fitur sintaktik adalah fitur dari sebuah soal yang diekstrak berdasarkan susunan kata pada soal tersebut [22]. Berikut merupakan contoh ekstraksi fitur sintaktik yang ditunjukkan pada Tabel 2.3. Contoh soal yang yang akan diekstraksi fitur adalah

Tabel 2.3 Ekstraksi Fitur Sintaktik

tulislah faktor penghambat yang dihadapi untuk melaksanakan berbagai aktivitas ekonomi yang dominan berkembang di daerah tempat tinggalmu

Hasil Ekstraksi Kata WH Kata Kerja Kata Perbandingan Kata Definisi Kata Kausalitas Kata Penyebutan Kata

Preposisi Kata Penjelas Kata Pilihan Kata Tujuan

0 1 0 0 0 0 1 0 0 0

Kata

Cara Waktu Kata Tambahan Kata Mengingat Kata Memahami Kata Menerapkan Kata Menganalisis Kata Mengevaluasi Kata Kata Membuat

0 0 1 1 1 1 0 0 0

2.8.2 Fitur Bag-of-Words (BoW)

Semua dokumen dapat dipresentasikan secara sederhana menggunakan

Bag-of-words (BoW). BoW adalah sebuah model yang merepresentasikan objek secara global

misalnya kalimat teks atau dokumen sebagai bag (multiset) kata tanpa memperdulikan tata bahasa bahkan urutan kata untuk menjaga keanekaragamannya [23]. Dengan kata lain, BoW merupakan kumpulan kata-kata unik dalam teks dokumen untuk membentuk urutan yang berbeda kemudian dihitung frekuensi kemunculannya. Contoh sederhana pembentukan Bag-of-Words untuk teks dokumen sebagai berikut:

Tabel 2.4 Ekstraksi Fitur Bag-of-Words

tulislah faktor penghambat yang dihadapi untuk melaksanakan berbagai aktivitas ekonomi yang dominan berkembang di daerah tempat tinggalmu

Hasil Ekstraksi

tulislah faktor Penghambat Yang dihadapi untuk melaksanakan berbagai

1 1 1 2 1 1 1 1

aktivitas ekonomi Dominan berkembang Di daerah tempat tinggalmu

1 1 1 1 1 1 1 1

2.9 Metode Pengujian

Dalam melakukan pengujian pada sebuah sistem klasifikasi diperlukan metode pendukung pengujian untuk melakukan klasifikasi pada set data yang bertujuan agar kinerja dari sistem klasifikasi menghasilkan akurasi yang tepat. Umumnya, pengukuran

(11)

17

kinerja klasifikasi dilakukan menggunakan confusion matrix.

Confusion matrix adalah alat pengukuran yang dapat digunakan untuk

menghitung jumlah data uji yang benar diklasifikasikan dan jumlah data uji yang salah diklasifikasikan. Tabel confusion matrix ditunjukkan pada tabel berikut ini [24]:

Tabel 2.5 Confusion Matrix

Aktual Prediksi

Positif Negatif

Positif TP FN

Negatif FP TN

Keterangan dari tabel confusion matrix sebagai berikut:

 TP (True Positive) merupakan banyaknya jumlah data yang kelas aktualnya adalah kelas positif dengan kelas prediksinya merupakan kelas positif.

 FN (False Negative) merupakan banyaknya jumlah data yang kelas aktualnya adalah kelas positif dengan kelas prediksinya merupakan kelas negatif.

 FP (False Positive) merupakan banyaknya jumlah data yang kelas aktualnya adalah kelas negatif dengan kelas prediksinya merupakan kelas positif.

 TN (True Negative) merupakan banyaknya jumlah data yang kelas aktualnya adalah kelas negatif dengan kelas prediksinya merupakan kelas negatif. 2.9.1 Akurasi

Nilai akurasi adalah proporsi jumlah prediksi data yang benar diklasifikasikan dari kesulurah dataset [7].

Akurasi = TP + TN (2.7)

TP + TN + FP + FN 2.9.2 Presisi

Presisi adalah tingkat ketepatan hasil klasifikasi terhadap suatu kejadian.

Presisi = TP (2.8) TP + FP

2.9.3 Recall

(12)

18

kejadian dari seluruh kejadian yang seharusnya dikenali.

Recall = TP (2.9)