Rapid Miner - Tinjauan Pustaka

BAB 2.1 LANDASAN TEORI

2.1. Tinjauan Pustaka

2.1.3. Rapid Miner

RapidMiner merupakan perangakat lunak yang bersifat terbuka (open source). RapidMiner adalahsebuah solusi untuk melakukan analisis terhadap data mining, text mining dan analisis prediksi. RapidMiner menggunakan berbagai teknik deskriptif dan prediksi dalam memberikan wawasan kepada pengguna sehingga dapat membuat keputusan yang paling baik.RapidMiner memiliki kurang lebih 500 operator data mining, termasuk operator untuk input, output, data preprocessing dan visualisasi. RapidMiner merupakansoftware yang berdiri sendiri untuk analisis data dan sebagai mesin data mining yang dapat diintegrasikan pada produknya sendiri. RapidMiner ditulis dengan munggunakan bahasa java sehingga dapat bekerja disemua sistem operasi ( Aprilla, C et al. 2013).

RapidMiner menyediakan GUI (Graphic User Interface) untuk merancang sebuah pipeline analitis.GUI ini akan menghasilkan file XML )Extensible Markup Language) yang mendefenisikan proses analitis keingginan pengguna untuk diterpkan ke data. File inikemudian dibaca oleh RapidMiner untuk menjalankan analis secara otomatis.

2.1.4. Pemilihan Fitur (Feature Selection)

Dalam penerapan text mining terhadap sekumpulan dokumen, kita mengenal istilah feature selection. Menurut Kristiyanti dan Wahyudi (2017, p.2) Seleksi Fitur adalah proses optimasi mengurangi jumlah data yang begitu besar untuk dikelompokan ke dalam beberapa bagian yang lebih kecil agar dapat meningkatkan klasifikasi akurasi secara signifikan, cepat dan efektif. Tahapan ini merupakan tahapan penting dalam text mining. Salah satu fungsi penting yang disediakan oleh proses ini adalah untuk dapat memilih term atau kata apa saja yang dapat disajikan sebagai wakil penting untuk kumpulan dokumen yang akan kita analisis.

Program Studi Ilmu Komputer STMIK Nusa Mandiri

2.1.5. Algoritma Klasifikasi (Classification Algorithm)

Klasifikasi merupakan salah satu peran utama dari text mining. Klasifikasi termasuk ke dalam supervised learning karena dalam proses klasifikasi terdapat proses pembelajaran dengan data lampau. Proses ini digunakan algoritma untuk mengenali pola dari data yang nantinya dapat diterapkan kepada data baru yang belum diketahui kelompoknya.

2.1.5.1. Naive Bayes

Menurut Chandra (2016, p. 13) Naive bayes classifier merupakan sebuah metode klasifikasi yang berakar pada teorema bayes. Metode pengklasifikasian dengan menggunakan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan inggris Thomas Bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya sehingga dikenal sebagai Teorema Bayes. Ciri utama dari naive bayes classifier ini adalah asumsi yang sangat kuat (naif) akan independensi dari masing-masing kondisi atau kejadian.

Misalnya, suatu objek dapat diklasifikasikan berdasarkan atributnya seperti bentuk, warna, dan berat. Klasifikasi yang masuk akal untuk sebuah benda yang bulat, kuning, dan kurang dari 60 gram beratnya mungkin bola tenis. Bahkan jika fitur-fitur ini bergantung satu sama lain atau pada keberadaan fitur-fitur lainnya, pengelompokan Naïve Bayes yang menganggap semua properti ini berkontribusi secara independen terhadap probabilitas bahwa objek tersebut adalah bola tenis.

Variabel input umumnya kategoris, tetapi variasi dari algoritma dapat menerima continuous variables. Ada juga cara untuk mengubah continuous variables menjadi categorical variable. Proses ini sering disebut sebagai diskretisasi continuous variables.

Dengan dua penyederhanaan, teorema Bayes dapat diperluas menjadi Naïve Bayes Classifier Penyederhanaan pertama adalah menggunakan asumsi

Program Studi Ilmu Komputer STMIK Nusa Mandiri

independensi bersyarat. Artinya, setiap atribut secara kondisional independen dari setiap atribut lain yang diberi label kelas ci.

Membangun Naïve Bayes Classifier membutuhkan pengetahuan statistik tertentu, semua dihitung dari set pelatihan. Persyaratan pertama adalah untuk mengumpulkan probabilitas dari semua label kelas. Hal kedua yang perlu diketahui oleh Naïve Bayes Classifier adalah probabilitas kondisional masing-masing atribut aj diberikan setiap label kelas.

2.5.1.2. Support Vector Machine

SVM merupakan metode supervised learning yang menganalisa data dan mengenali pola-pola yang digunakan untuk klasifikasi (Basari, 2013). Support Vector Machine (SVM) adalah kasus khusus dari keluarga algoritma yang disebut sebagai regularized metode klasifikasi linier dan metode yang kuat untuk meminimalisasi resiko (Weist, dkk. 2010). SVM memiliki kelebihan yaitu mampu mengidentifikasi hyperplane terpisah yang memaksimalkan margin antara dua kelas yang berbeda (Dehkharghani, 2014). Namun, Support Vector Machine memiliki kekurangan terhadap masalah pemilihan parameter atau fitur yang sesuai (Basari, 2013) . Pemilihan fitur sekaligus penyetingan parameter di SVM secara signifikan mempengaruhi hasil akurasi klasifikasi. Dalam masalah aplikasi tertentu, tidak semua fitur ini sama pentingnya. Kinerja yang lebih baik dapat dicapai dengan membuang beberapa fitur. Dengan demikian, dapat dihilangkannya data yang noise, data yang tidak relevan dan berlebihan.

SVM pada awalnya digunakan untuk klasifikasi data numerik, tetapi ternyata SVM juga sangat efektif dan cepat untuk menyelesaikan masalah masalah data teks. Data teks cocok untuk dilakukan klasifikasi dengan algoritma SVM karena sifat dasar teks yang cenderung mempunyai dimensi yang tinggi, dimana terdapat beberapa fitur yang tidak relevan, tetapi akan cenderung berkolerasi satu sama lain dan umumnya akan disusun dalam kategori yang terpisah secara linear.

Program Studi Ilmu Komputer STMIK Nusa Mandiri

SVM memiliki kelebihan yaitu mampu mengidentifikasi hyperplane terpisah yang memaksimalkan margin antara dua kelas yang berbeda. Namun SVM memiliki kekurangan terhadap masalah pemilihan parameteratau fitur yang sesuai (Basari et al. 2013). Pemilihan fitur sekaligus penyetinganparameter di SVM secara signifikan mempengaruhi hasil akurasi klasifikasi.

Gambar 2.1. SVM berusaha menemukan hyperplane terbaik yang memisahkan kedua class -1 dan +1

Konsep SVM dapat dijelaskan secara sederhana sebagai usaha mencari hyperplane terbaik yang berfungsi sebagai pemisah dua buah class pada input space. Gambar II.1 diatas memperlihatkan beberapa pattern yang merupakan anggota dari dua buah class : +1 dan -1. Pattern yang tergabung pada class -1 disimbolkan dengan warna merah (kotak), sedangkan pattern pada class +1, disimbolkan dengan warna kuning (lingkaran).

Problem klasifikasi dapat diterjemahkan dengan usaha menemukan garis (hyperplane) yang memisahkan antara kedua kelompok tersebut. Berbagai alternatif garis pemisah (discrimination boundaries) ditunjukkan pada gambar 2.1.

Hyperplane pemisah terbaik antara kedua class dapat ditemukan dengan mengukur margin hyperplane tersebut. Dan mencari titik maksimalnya. Margin adalah jarak antara hyperplane tersebut dengan pattern terdekat dari masingmasing class. Pattern yang paling dekat ini disebut sebagai support vector. Garis solid pada gambar sebelah kanan menunjukkan hyperplane yang terbaik, yaitu yang terletak tepat pada tengah-tengah kedua class, sedangkan titik merah dan kuning yang berada dalam lingkaran hitam adalah support vector. Usaha untuk

Program Studi Ilmu Komputer STMIK Nusa Mandiri

mencari lokasi hyperplane ini merupakan inti dari proses pembelajaran pada SVM.

Tujuan dari SVM adalah untuk memisahkan data kelas dengan cara maksimal margin hyperplane. Dengan demikian, SVM menjamin untuk memaksimalkan jarak antara data yang paling dekat dengan hyperplane. Jika input data dapat dipisahkan secara linear, pemisahan hyperplane dapat diberikan dalam persamaan:

f(X) = w^Tx + b (3) (2.1)

dimana w adalah n-dimensi bobot vektor dan b adalah pengali skalar atau nilai bias. Persamaan ini menemukan maksimum margin untuk memisahkan kelas dari kelas positif dari kelas negatif. Fungsi keputusan ditunjukkan dalam persamaan.

Contoh untuk data linear terpisah ditunjukkan pada Gambar 2.4:

yi (w x1 + b ) ≥ 1 i = 1... k (2.2)

Metode Support Vector Machine memiliki beberapa keuntungan yaitu : 1. Generalisasi

Generalisasi didefinisikan sebagai kemampuan suatu metode untuk mengklasifikasi suatu pattern atau pola, yang tidak termasuk data yang digunakan dalam fase pembelajaran metode itu.

2. Curse of dimensionaly

Curse of dimensionaly didefinisikan sebagai masalah yang dihadapi suatu metode pattern recognation dalam mengestimasikan parameter dikarenakan jumlah sampel data yang relatif lebihs edikit dibandingkan dengan dimensional ruang vektor tersebut.

3. Feasibility

Support Vector Machine dapat diimplementasikan relatif lebih mudah, karena proses penentuan Support Vector Machine dapat dirumuskan dalam Quadratic Programing (QP) problem.

Program Studi Ilmu Komputer STMIK Nusa Mandiri

Dalam dokumen ANALISIS SENTIMEN REVIEW (Halaman 22-27)