BAB 1. PENDAHULUAN
1.4. Ruang Lingkup Penelitian
Ruang lingkup masalah dalam penelitian ini di batasi pada proses analisa sentimen untuk mengklasifikasi review pengguna aplikasi Tik-tok pada google play. Review pada aplikasi yang akan di klasifikasikan adalah teks berbahasa
Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri
indonesia (meliputi bahasa formal dan non formal). Sedangkan Metode yang di gunakan untuk analisis review menggunakan algoritma K-Nearest Neighbor, Support Vector Machine,dan NaΓ―ve Bayes dengan menggunakan model partitioning dan Cross Validation sehingga mampu mengetahui algoritma manakah yang memiliki tingkat akurasi paling tinggi beserta hasil analisisnya berdasarkan hasil perhitungan dari ketiga algortima.
1.5. Sistematika Penulisan
Sistematika penelitian ini terdiri dari 5 (lima) bab, dimana tiap bab sendiri terdiri dari beberapa sub bab sebagai berikut:
BAB 1 PENDAHULUAN
Pada Bab ini membahas tentang Latar Belakang Penulisan, Identifikasi Masalah, Tujuan Penelitian, Ruang Lingkup Penelitian, Hipotesis dan Sistematika Penulisan.
BAB 2 LANDASAN/KERANGKA PEMIKIRAN
Pada bab ini dibahas teori yang melandasi penelitian, dalam bab ini juga diuraikan Tinjauan Pustaka, Tinjauan Studi dan Obyek Penelitian dari penelitian.
BAB 3 METODOLOGI PENELITIAN
Pada bab ini membahas metodologi penelitian. Berisi tentang pembahasan pengumpulan data yang di gunakan dalam penelitian. Pada bab ini juga di bahas mengenai pengolahan data review aplikasi dengan menggunakan metode data mining.
BAB 4 HASIL PENELITIAN DAN PEMBAHASAN
Pada bab ini menampilkan hasil dari pembahasan yang penulis lakukan, membahas metode, mengukur hasil akurasi dengan algoritma klasifikasi.
Hasil dari penerapan metode KNN, NB dan SVM pada dataset yang di ambil dari review aplikasi Tik tok.
BAB 5 PENUTUP
Pada bab ini membahas kesimpulan dari penelitian, dan saran untuk penelitian selanjutnya.
5 BAB II
LANDASAN TEORI
2.1. Tinjauan Pustaka
Tinjauan pustaka dilakukan dengan menggunakan referensi dari buku-buku ataupun artikel yang penulis dapatkan melalui media internet sebagai acuan penulisan ini, berikut adalah pengertian-pengertian mengenai penulisan yang akan dibahas.
2.1.1. Analisis Sentimen
Analisis sentimen adalah proses mendeteksi polaritas teks secara kontekstual yang memiliki makna positif, negatif atau natural yang merupakan pendapat dari sikap orang yang bersangkutan [5]
Analisis sentimen atau opinion mining merupakan proses memahami, mengekstrak dan mengolah data tekstual secara otomatis untuk mendapatkan informasi sentimen yang terkandung dalam suatu kalimat opini. Analisis sentimen dilakukan untuk melihat pendapat atau kecenderungan opini terhadap sebuah masalah atau objek oleh seseorang, apakah cenderung berpandangan atau beropini negatif atau positif. Salah satu contoh penggunaan analisis sentimen dalam dunia nyata adalah identifikasi kecenderungan pasar dan opini pasar terhadap suatu objek barang. Besarnya pengaruh dan manfaat dari analisis sentimen menyebabkan penelitian dan aplikasi berbasis analisis sentimen berkembang pesat. Bahkan di Amerika terdapat sekitar 20-30 perusahaan yang memfokuskan pada layanan analisis sentimen [6].
Sentimen analisis juga dapat menyatakan perasaan emosional sedih, gembira, atau marah. D. Osimo, and F. Mureddu (2010) mengungkapkan dalam [6] bahwa sentimen analisis memiliki banyak aplikasi domain termasuk akuntansi, hukum, penelitian, hiburan, pendidikan, teknologi, politik, dan pemasaran.
Menurut [7] Analisis Sentimen dapat dianggap sebagai proses klasifikasi yang memiliki 3 tingkat klasifikasi utama adalah tingkat dokumen, pada tingkat kalimat dan pada tingkat aspek.
Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri
2.1.2. Aplikasi Tik-tok
Tik-Tok merupakan aplikasi yang dapat digunakan untuk membuat video yang hanya berdurasi kurang lebih 30 detik dengan memberikan special effects yang unik dan menarik serta memiliki dukungan musik yang banyak sehingga penggunanya dapat melakukan performa dengan beragam gaya ataupun tarian, dan masih banyak lagi sehingga mendorong kreativitas penggunanya menjadi content creatore [3]. Kelebihan Aplikasi Tik-tok dengan aplikasi pembuatan vidioa lainnya adalah sebagai berikut:
1. Perlu akun untuk melihat vidio di aplikasi Tik-tok
Tidak perlu memiliki akun sendiri untuk bisa melihat video-vdeo yang ada di tik-tok.
2. Menyajikan Vidio Pendek 15 detik
Durasi vidio di tik-tok berdurasi 15 detik saja, sehingga orang lebih tertarik untuk menggunakan karna hemat kuota. Vidio singkat juga tidak akan membuat orang bosan.
3. Filter yang dimiliki aplikasi beragam
Fitur yang ada di tik-tok beragam dan berbeda dengan aplikasi serupa lainnya sehingga banyak dinikmati oleh semua kalangan.
4. Memiliki Challenge
Challenge yang ada di tik-tok sangat beragam contohnya yang viral
#TaktahuMalu, #FilterSwipe dll.
5. Bisa menggunakan background musik pilihan
Pada aplikasi TikTok sendrii pengguna bisa menambahkan musik latar untuk membuat video yang dibuat lebih hidup. Pilihan musik latar yang ditawarkan pun bisa dibilang cukup banyak dan up to date.
6. Tidak ada iklan pada aplikasi Tik-tok
Aplikasi ini tidak memiliki iklan. Dengan tidak adanya iklan, maka pengalaman pengguna menggunakan aplikasi tentu akan semakin puas.
Kelemahan dari aplikasi Tik-Tok adalah Sistem keamanan aplikasi tersebut dapat di bobol, serta informasi pribadi pengguna bisa diubah hacker. Tik-Tok merupakan salah satu platform media sosial yang populer. Berikut ini adalah tampilan apliaksi tik-tok yang ada di google Playstore.
Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri
Gambar 2.1. Tampilan Aplikasi Tik-Tok
Sumber:https://play.google.com/store/apps/details?id=com.ss.android.ugc.trill&hl
=in
2.1.3. Text Mining
Text mining umumnya mencakup kategorisasi informasi atau teks, mengelompokkan teks, ekstraksi entitas atau konsep, pengembangan dan perumusan taksonomi umum. Text mining berkenaan dengan informasi terstruktur atau tekstual ekstraksi informasi yang bermakna dan pengetahuan dari jumlah besar teks [8].
Text mining juga dikenal dengan text data mining atau pencarian pengetahuan di basis data tekstual adalah proses yang semi otomatis melakukan ekstraksi dari pola data. Tipe pekerjaan text mining meliputi kategorisasi, text clustering, ekstraksi konsep/entitas, analisis sentimen, document summarization, dan entity-relation modeling (yaitu, hubungan pembelajaran antara entitas).
Sumber data yang digunakan pada text mining adalah kumpulan teks yang memiliki format yang tidak terstruktur atau minimal semi terstruktur. Text mining dapat di artikan sebagai penemuan informasi baru yang belum di ketahui sebelumnya oleh komputer, dan secara otomatis mengekstrak informasi dari beberapa sumber yang berbeda [9].
Text mining adalah salah satu bidang khusus dari data mining. Hanya saja, yang membedakannya adalah pada sumber datanya, dimana text mining bersumber dari kumpulan dokumen atau teks. Pada proses klasifikasi ini,
Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri
dokumen akan dikelompokkan ke dalam kategori yang sesuai berdasarkan pola yang dibuatpada proses training.
Ada empat tahap proses pokok dalam text mining, yaitu pemrosesan awal terhadap teks (text preprocessing), transformasi teks (text transformation), pemilihan fitur (feature selection), dan penemuan pola (pattern discovery) sebagai berikut:
1. Text Preprocessing
Tahap ini melakukan analisis semantik (kebenaran arti) dan sintaktik (kebenaran susunan) terhadap teks. Tujuan dari pemrosesan awal adalah untuk mempersiapkan teks menjadi data yang akan mengalami pengolahan lebih lanjut.
Teknik yang biasa dilakukan dalam penelitian di Indonesia pada tahap preprocessing antara lain :
a. Annotation removal, bertujuan untuk menghapus dan menghilangkan karakter yang dianggap tidak perlu dan tidak penting.
b. Regex filter, digunakan untuk mencocokan string teks, seperti karakter tertentu, kata-kata, atau pola karakter dan mengelompokkannya.
c. Remove emoticon,digunakan untuk mengkonversi bahkan menghilangkan simbol emoticon.
d. Indonesian Stemming, digunakan untuk mencari kata dasar dari kata-kata berbahaa Indonesia.
e. Transformation Not, prosesnya tidak menghapus kata melainkan mengambil untuk menilai bahwa kalimat yang diproses mengandung kalimat negatif. Selanjutnya akan ditambahkan ke sebuah variabel yang sudah ditentukan untuk dihitung. Misalnya kasus sentimen analisis yang membutuhkan penilaian pada kalimat positif dan negatif.
f. Stopword Removal, biasanya digunakan untuk menghilangkan kalimat tidak penting seperti kata penghubung.
g. Punctuation,bertujuan menghapus semua karakter non alphabet misalnya simbol, spasi dan lain-lain.
h. N-chars filter,berfungsi untuk menetapkan batasan minimal karakter yang dimiliki oleh sebuah kata.
Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri
2. Text Transformation
Transformasi teks atau pembentukan atribut mengacu pada proses untuk mendapatkan representasi dokumen yang diharapkan. Pendekatan representasi dokumen yang lazim digunakan oleh model βbag of wordsβ dan model ruang vector (vector space model).Transformasi teks sekaligus juga melakukan pengubahan kata-kata ke bentuk dasarnya dan pengurangan dimensi kata di dalam dokumen. Tindakan ini diwujudkan dengan menerapkan stemming dan menghapus stop words.
3. Feature Selection
Pemilihan fitur (kata) merupakan tahap lanjut dari pengurangan dimensi pada proses transformasi teks. Walaupun tahap sebelumnya sudah melakukan penghapusan kata-kata yang tidak deskriptif (stopwords), namun tidak semua kata-kata di dalam dokumen memiliki arti penting. Oleh karena itu, untuk mengurangi dimensi, pemilihan hanya dilakukan terhadap kata-kata yang relevan yang benar-benar merepresentasikan isi dari suatu dokumen.Ide dasar dari pemilihan fitur adalah menghapus kata-kata yang kemunculannya di suatu dokumen terlalu sedikit atau terlalu banyak. Algoritma yang digunakan pada text mining, biasanya tidak hanya melakukan perhitungan pada dokumen saja, tetapi juga pada feature . Empat macam feature yang sering digunakan:
a. Character, merupakan komponan individual, bisa huruf, angka, karakterspesial dan spasi, merupakan block pembangun pada level paling tinggi pembentuk semantik feature, seperti kata, term dan concept.
b. Words.
c. Terms merupakan single word dan multiword phrase yang terpilih secara langsung dari corpus. Representasi term-based dari dokumen tersusun dari subset term dalam dokumen.
d. Concept, merupakan feature yang di-generate dari sebuah dokumen secara manual, rule-based, atau metodologi lain.
e. Pattern Discovery
Pattern discovery merupakan tahap penting untuk menemukan pola atau pengetahuan (knowledge) dari keseluruhan teks.
Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri
4. Ekstraksi Dokumen
Ekstrasksi Dokumen ini bertujuan untuk menentukan fitur-fitur yang mewakili setiap kata untuk setiap fitur yang ada pada dokumen. Sebelum menentukan fitur-fitur yang mewakili, diperlukan tahap preprocessing yang dilakukan secara umum dalam teks mining pada dokumen, yaitu case folding, tokenizing, filtering, stemming, tagging dan analyzingantara lain [10]:
a. Transform Case / Case Folding
Pada tahap ini di lakukan penyeragaman jenis huruf pada dokumen atau mengubah semua huruf menjadi huruf kecil, pada tahap ini juga di lakukan pembersihan atau penghapusan pada semua dokumen yang berisi angka, url (http;//), username (@), hastag (#), delimiter seperti koma (,), dan titik (.) serta tanda baca lainya.
b. Tokenizing
Pada tahap ini dilakukan pemenggalan kata menjadi kalimat atau proses memecahkan dokumen menjadi kata perkata.
c. Filtering
Pada tahap ini berfungsi untuk membuang kata-kata yang di anggap tidak penting dan berfungsi untuk mereduksi dimensi data sehingga tidak terlalu besar.
d. Stopword Removal
Proses menghilangkan kata yang tidak mendiskripsikan sesuatu yang tidak perlu digunakan.
e. Stemming
Pada tahap terakhir prepocessingini dilakukan proses pengambilan kata dasar dengan membuang imbuan kata.Kata imbuhan yang dihilangkan terdiri dari awalan (prefix),akhiran (suffix), sisipan (infix), dan gabungan awalan-akhiran (confix).
Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri
2.1.4. Data Mining
Data mining adalah proses mencari informasi atau pola yang menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu[11].
Pengelompokan dalam data mining terbagi menjadi empat kategori yaitu metode asosiasi, metode clustering, metode klasifikasi, metode prediksi, dan metode estimasi [12].
Data Miningmerupakanpenerapan metode statistik dan logika untuk mengolah dataset yang sangat besar [10]. Pada tahun 1980 bidang data mining mulai ada dan terus berkembang berkembang pada tahun 1990 hingga saat ini.
Pada tahun 1999 beberapa perusahaan besar seperti perusahaan otomotif Daimler-Benz, penyedia asuransi OHRA, produsen perangkat keras dan perangkat lunak NCR Corp dan statistik pembuat software SPSS, Inc mulai bekerja sama membuat suatu standarisasi pendekatan untuk data mining. Standarisasi yang dibentuk dari hasil kerjasama adalah pendekatan untuk data mining dengan nama CRISP-DM, the CRoss-Industry Standard Process for Data Mining. Adapun tahapan dalam CRISP-DM terdapat pada Gambar 2.2.
Sumber:[10]
Gambar 2.2. CRISP-DM Conceptual Model
Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri
Terdapat 6 langkah dalam standarisasi pendekatan CRISP-DM untuk melakukan pengolahan data yaitu:
1. Business Understanding
Pada tahapan ini peneliti menterjemahkan tujuan dari penelitian yang akan dilakukan. Perspektif dari bisnis juga harus benar-benar dipahami. Tahapan ini juga akan mengungkap faktor penting dari tahapan awal yang akan mempengaruhi hasil proyek. Tahapan ini dapat dilakukan dengan mengumpulkan data awal dan hasil dengan kegiatan untuk memperoleh data yang terintegrasi, melakukan identifikasi terhadap masalah kualitas data, dan menemukan wawasan pertama untuk subset menarik yang terkait dengan pembentukan hipotesis.
2. Data Understanding
Tahapan ini dapat terselesaikan dengan mengumpulkan data. Ketika terdapat data yang diperoleh lebih dari satu dataset, maka diperlukan proses integrasi.
Analisis perlu dikembangkan terhadap penyelidikan data untuk mengenal lebih lanjut mengenai data dan pencarian pengetahuan di awal.
3. Data Preparation
Tahapan persiapan data mencakup koleksi data, penilaian, konsolidasi dan pembersihan, pilihan data, dan transformasi. Pembangunan dataset akhir dari data mentah awal juga dilakukan dalam tahapan ini. Peneliti juga dapat melakukan perubahan pada variabel ketika diperlukan. Persiapan data awal dilakukan hingga siap untuk menerapkan permodelan.
4. Modeling
Model dalam data mining adalah representasi terkomputerisasi dari pengamatan dunia nyata. Model merupakan aplikasi algoritma untuk mencari, mengidentifikasi, dan menampilkan pola atau pesan dalam data. Ada dua jenis dasar atau jenis model dalam penggalian data yaitu mereka yang mengklasifikasikan dan mereka yang memprediksi.
5. Evaluation
Tahapan ini melakukan evaluasi terhadap satu atau lebih model yang digunakan dalam fase permodelan. Evaluasi juga dapat dilakukan untuk menerapkan apakah suatu model sudah sesuai dengan tujuan pada fase awal.
Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri
Selain itu, evaluasi juga digunakan untuk menentukan permasalahan penting dari bisnis atau penelitian yang tidak dapat ditangani dengan baik.
Pengambilan keputusan yang terkait dengan penggunaan hasil dari data mining juga dapat diputuskan setelah melihat hasil dari evaluasi.
6. Deployment
Tahap ini menjadi tahap akhir dalam CRISP-DM untuk menentukan manfaat dari hasil data. Pada tahap ini dapat diambil hasil evaluasi dan menyimpulkan strategi terbaik agar penelitian dapat diimplementasikan. Dokumentasi prosedur penelitian juga dapat dilakukan untuk penggunaan model selanjutnya.
2.1.5. Klasifikasi
Klasifikasi merupakan suatu proses yang bertujuan untuk menentukan suatu obyek kedalam suatu kelas atau kategori yang sudah ditentukan sebelumnya.
Menurut klasifikasi adalah proses dari pembangunan terhadap suatu model yang mengklasifikan suatu objek sesuai dengan atribut-atributnya. Klasifikasi data ataupun dokumen juga dapat dimulai dari membangun aturan klasifikasi tertentu yang menggunakan data training yang sering disebut sebagai tahapan pembelajaran dan pengujian digunakan sebagai data testing [13].
Klasifikasi adalah salah satu pembelajaran yang paling umum di data mining. Klasifikasi didefinisikan sebagai bentuk analisis data untuk mengekstrak model yang akan digunakan untuk memprediksi label kelas. Kelas dalam klasifikasi merupakan atribut dalam satu set data yang paling unik yang merupakan variabel bebas dalam statistik[12].
Klasifikasi data terdiri dari dua proses yaitu tahap pembelajaran dan tahap pengklasifikasian. Tahap pembelajaran merupakan tahapan dalam pembentukan model klasifikasi, sedangkan tahap pengklasifikasian merupakan tahapan penggunaan model klasifikasi untuk memprediksi label kelas dari suatu data.
Contoh sederhana dari teknik data mining klasifikasi adalah pengklasifikasian hewan berdasarkan atribut jumlah kaki, habitat dan organ pernafasannya akan diklasifikasikan ke dalam dua label kelas yaitu unggas dan ikan. Label kelas unggas adalah data yang memiliki jumlah kaki dua, habitatnya di darat, dan organ pernafasannya menggunakan paru-paru, sedangkan label kelas ikan adalah data
Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri
yang memiliki jumlah kaki nol (tidak memiliki kaki), habitat di air, dan organ pernafasannya menggunakan insang. Banyak algoritma yang dapat digunakan dalam pengklasifikasian data, namun dalam penelitian ini hanya akan membandingkan dua algoritma saja, yakni Naive Bayes dan SupportVector Machine. Berikut ini algoritma klasifikasi yang akan digunakan dalam penelitian ini antara lain:
2.1.5.1.Support Vector Mechine
Support Vector Machine (SVM) adalah metode yang digunakan untuk menganalisa data dan mengenali pola yang bisa digunakan utnuk pengklasifikasian. Berbagai penelitian menggunakan algoritma SVM juga terkait dengan keunggulan yang dimiliki. SVM mempunyai kelebihan dibandingkan dengan algoritma lain yaitu proses training dapat dilakukan sekali saja sehingga tidak mengalami overfitting dan mendapatkan solusi optimal [14].
Teknik SVM termasuk dalam pembelajaran mesin yang sangat populer untuk klasifikasi dan analisis regresi, yang telah diterapkan di berbagai bidang seperti kategorisasi teks dan pengenalan pola [15] SVM membuat hyperplane untuk memaksimalkan margin antara kelas yang berbeda dan masalah optimisasi.
dapat diungkapkan sebagai berikut:
{
Maximize 2
||w||
subject to π¦π(w. π₯π β b) β₯ 1 for any π β {1,2, β¦ . . , n}
Dimana {(x1,y1),...,(xn,yn)}, xi Rn, yi {-1,1} berdiri untuk data set dari n data instances dengan penjelasan kelas yang sesuai.
SVM pertama kali diperkanalkan pada tahun 1992 oleh Vapnik sebagai rangkaian dari beberapa konsep β konsep unggulan dalam bidang pattern recognition dan SVM secara umum memiliki karakteristik, Kelebihan dan Kekurangan sebagai berikut [16]:
1. Karakteristik SVM
a. Secara prinsip SVM adalah linear classifier.
Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri
b. Pattern recognition pada SVM dilakukan dengan mentransformasikan data pada input space ke ruang yang memiliki dimensi yang lebih tinggi. Proses tersebut juga yang membedakan SVM dari solusi pattern recognition pada umumnya.
c. Menerapkan strategi Structural Risk Minimization (SRM).
d. Prinsip kerja SVM pada dasarnya hanya mampu menangani klasifikasi dua kelas.
2. Kelebihan SVM
a. Generalisasi Generalisasi didefinisikan sebagai kemampuan suatu metode untuk mengklasifikasikan suatu pattern, yang tidak termasuk data yang dipakai dalam fase pembelajaran metode tersebut.
b. Curse of Dimensionality Curse of Dimensionality didefinisikan sebagai masalah yang dihadapi suatu metode pattern recognition dalam mengestimasikan parameter misal jumlah hidden neuron pada neural network, stopping criteria dalam proses pembelajaran, dsb dikarenakan jumlah sampel data yang relatif sedikit dibandingkan dimensional ruang vektor data tersebut. Semakin tinggi dimensi dari ruang vector informasi yang diolah, membawa konsekuensi dibutuhkannya jumlah data dalam proses pembelajaran.
c. Easibility SVM dapat diimplementasikan realtif mudah, karena proses penentuan support vector dapat dirumuskan dalam QP problem Quadratic Progamming.
3. Kekurangan SVM
a. Sulit dipakai dalam problem berskala besar. Skala besar dalam hal ini dimaksudkan dengan jumlah sample yang diolah.
b. SVM secara teorik dikembangkan untuk problem klasifikasi dengan dua class atau lebih.
2.1.5.2.Naive Bayes
Algoritma NB merupakan algoritma klasifikasi berdasarkan probabilitas dalam statistik yang dikemukakan oleh Thomas Bayes yang memprediksi peluang di masa depan berdasarkan peluang di masa sebelumnya (teorema
Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri
Bayes). Metode ini kemudian dikombinasikan dengan βnaiveβ dimana kondisi antar atribut saling bebas tidak berhubungan satusama lain [17].
Metode yang digunakan adalah metode NB yang mempunyai tahapan-tahapan antara lain: proses pembersihan data (Data Cleaning), integrasi data (Data Integration), seleksi data (Data Selection), transformasi data (Data Transformation), proses mining, evaluasipola (Patterin Evaluation), presentasi pengetahuan (Knowledge Presentation) [18].
Algoritma NB merupakan teknik prediksi yang berbasis probabilistik sederhana yang berdasar pada penerapan Teorema Bayes yang memiliki asumsi dengan independensi (ketidak tergantungan) yang kuat (naif) [19]. Penamaan algoritma tersebut dilakukan oleh Thomas Bayes yang mendalilkan dua jenis probabilitas, yaitu [20]:
- Probabilitas Posterior H dikondisikan pada X: [P (H / X)]; dan
- Kemungkinan Sebelumnya H terlepas dari pengamatan atau kondisi atau informasi
Dimana:
X adalah data Bukti dan H adalah hipotesis. Oleh karena itu, probabilitas yang dimiliki hipotesis H
Mengingat "bukti" atau data yang diamati X diberikan sebagai
P (X | Y) = P (Y | X) P (X ... (2.1) P(Y)
Keterangan:
Y = data dengan kelas yang belum diketahui
X = hipotesis data Y merupakan suatu kelas spesifik P (X | Y) = probabilitas hipotesis X berdasarkan kondisi Y P(X) = probabilitas hipotesis X
P(Y | X) = probabilitas Y berdasarkan kondisi pada hipotesis X P(Y) = probabilitas dari Y
Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri
Kelebihan Naive Bayes :
a. Menangani kuantitatif dan data diskrit
b. Kokoh untuk titik noise yang diisolasi, misalkan titik yang dirata β ratakan ketika mengestimasi peluang bersyarat data.
c. Hanya memerlukan sejumlah kecil data pelatihan untuk mengestimasi parameter (rata β rata dan variansi dari variabel) yang dibutuhkan untuk klasifikasi.
d. Menangani nilai yang hilang dengan mengabaikan instansi selama perhitungan estimasi peluang
e. Cepat dan efisiensi ruang Kekurangan Naive Bayes :
a. Tidak berlaku jika probabilitas kondisionalnya adalah nol, apabila nol maka probabilitas prediksi akan bernilai nol juga
b. Mengasumsikan variabel bebas 2.1.4.3 K- Nearest Neighboor
K-Nearest Neighboor (KNN) adalah metode untuk melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat atau memiliki persamaan ciri paling banyak dengan objek tersebut [21].
Prinsip kerja KNN adalah mencari jarak terdekat anatar data yang akan dievaluasi dengan K tetangga terdekatnya dalam data pelatihan. Data pelatihan diproyeksikan ke ruang berdimensi banyak, dimana masing-masing dimensi merepresentasikan fitur dari data. Ruang ini dibagi menajdi bagian-bagian berdasarkan klasifikasi data pelatihan.Langkah β langkah untuk menghitung algoritmaKNN, sebagai berikut [21]:
a. Menentukan nilai k
b. Menghitung kuadrat jarak euclid (query instance) masing β masing objek terhadap training data.
c. Mengurutkan objek β objek tersebut ke dalam kelompok yang mempunyai jarak euclid terkecil
d. Mengumpulkan label class Y (klasifikasi Nearest Neighborhood)
Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri
Kelebihan KNN memiliki beberapa kelebihan yaitu bahwa dia tangguh terhadap
Kelebihan KNN memiliki beberapa kelebihan yaitu bahwa dia tangguh terhadap