• Tidak ada hasil yang ditemukan

BAB II TINJAUAN PUSTAKA

N/A
N/A
Protected

Academic year: 2022

Membagikan "BAB II TINJAUAN PUSTAKA"

Copied!
14
0
0

Teks penuh

(1)

6

BAB II

TINJAUAN PUSTAKA

2.1 Penelitian Sebelumnya

Penelitian ini memiliki tujuan untuk melakukan identifikasi penyakit mental menggunakan metode pembobotan kata TF-IDF, algoritma KNN, dan algoritma Levenshtein Distance. Pada penelitian yang telah dilakukan sebelumnya akan membantu untuk penelitian selanjutnya agar dapat menghasilkan penelitian yang lebih baik lagi.

Pada penelitian pertama oleh Rizki Tri Wahyuni, Dkk (2017) melakukan penelitian bagaimana cara mencari klasifikasi dokumen skripsi dengan metode Cosine similarity dan Levenshtein distance. Kelemahannya penelitian ini yaitu masih dibutuhkannya penggunakan term yang unik, karena masih banyak kata yang sama dengan kata kunci sehingga sistem memilih nilai tertinggi dari cosine similarity. Kesimpulannya hasil rata-rata presentasi kelayakan sebesar 88,3% dan ketepatan klasifikasi mencapai 98%.

Pada penelitian kedua oleh Ana Maryam Puspitasari, dkk (2018) melakukan penelitian bagaimana cara mengklasifikasi penyakit gigi dan mulut menggunakan metode SVM. Kelemahan penelitian ini yaitu dataset masih terbatas dan setiap kelas hanya memiliki 30 data, sehingga perlu ditambahkan lagi datasetnya supaya akurasi semakin tinggi. Kesimpulannya memiliki hasil akurasi rata-rata sebesar 94,442%.

Pada penelitian ketiga oleh Tia Imadasari,dkk (2019) melakukan penelitian terkait algoritma Naive Bayes dalam mengklasifikasi lokasi pembangunan sumber air. Kelemahan penelitian ini yaitu data lokasi pembangunan yang masih terbatas hanya ada 19 lokasi dan masih menggunakan perhitungan manual. Kesimpulannya dari penelitian ini menghasilkan akurasi sebesar 78,95%.

Pada penelitian keempat oleh Pasaribu (2020) melakukan penelitian dengan menggunakan metode Levenshtein Distance untuk mendeteksi berita hoax berbasis PHP. Kelemahan pada penelitian ini yaitu sistem yang digunakan tidak

(2)

jelas, karena tidak dijelaskan alurnya seperti apa dan hasil outputnya seperti apa.

Kesimpulannya menghasilkan hasil batas 0,1 pada 40 dokumen yang sudah terklasifikasi sebagai data uji memiliki nilai Precision, Recall dan Accuracy yang tinggi, yaitu Precision1, Recall 0,71 dan Accuracy 80%.

Pada penelitian kelima oleh Yoga Religia, dkk (2021) melakukan penelitian tentang analisis perbandingan algoritma optimasi pada random forest ntuk mengklasifikasikan data bank marketing. Kelemahan pada penelitian ini yaitu optimasi tidak berhasil dilakukan dikarenakan data terlalu imbalance.

Kesimpulannya penelitian ini menghasilkan hasil akurasi klasifikasi 88,30%.

Pada penelitian keenam oleh Oddy Virgantara Putra, dkk (2021) melakukan penelitian terkait klasifikasi intonasi bahasa jawa khas ponorogo menggunakan algoritma multilayer perceptron neural network. Kelemahan penelitian ini yaitu tidak dapat mendeteksi suara secara realtime. Kesimpulannya yaitu penelitian ini menghasilkan akurasi hingga 0.8125 atau 81,25%.

Pada penelitian terakhir yang ditulis oleh Heru Parmono Hadi,dkk (2022) membahas tentang ekstraksi fitur warna dan glcm menggunakan Algoritma KNN untuk kematangan buah rambutan. Kelemahanan pada penelitian ini yaitu kurang banyaknya varian rambutan yang diteliti. Kesimpulan hasil dari penelitian ini yaitu memiliki nilai akurasi yang tinggi 98,75%.

Pada Tabel 2.1 merupakan rangkuman mengenai penelitian sebelumnya yang akan dijadikan sebagai acuan dalam penelitian yang penulis lakukan:

Tabel 2.1 Data Penelitian Sebelumnya N

o

Judul Jurnal

Masalah Metode Penulis Perbedaan Hasil

1. Penerapan Algoritma Cosine Similarity dan

Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi

Mencari klasifikasi dokumen skripsi

Cosine Similarity dan TF- IDF

Rizki Tri Wahyuni, Dkk (2017)

Perbedaanny a pada penelitian ini metode yang digunakan bukan dengan diklasifikasik an dan dicari jarak

terdekatnya dengan Cosine Similarity.

Berhasil membuat aplikasi Persentase rata-rata hasil ketepatan klasifikasi yang dilakukan oleh sistem adalah sebesar 98%.

(3)

8 N

o

Judul Jurnal

Masalah Metode Penulis Perbedaan Hasil

2. Klasifikasi Penyakit Gigi Dan Mulut Menggunak an Metode Support Vector Machine

Kurangnya tim ahli gigi yang dapat

memeriksa secara 24 jam

Support Vector Machine

Ana Maryam Puspitasari,d kk (2018)

Perbedaanya penelitian ini menggunaka n penyakit gigi sebagai objeknya

Hasil klasifikasi mempunyai rata – rata nilai akurasi sebesar 94.442%.

3. Algoritma Naive Bayes Dalam Klasifikasi Lokasi Pembangun an Sumber Air

Memprediksi kelayakan lokasi

pembangunan sumber air bersih di PDAM Tirta Lihou

Naive Bayes

Tia

Imadasari, dkk (2019)

Perbedaanny a pada penelitian ini menggunaka n teknik probabilitas dari beberapa lokasi.

Diperoleh hasil klasifikasi dari 19 alternatif yang digunakan, dimana terdapat 8 kelas Layak dan 11 Tidak Layak dengan total Accuracy yang diperoleh sebesar 78,95%.

4. Perancanga n Sistem Pendeteksi Berita Hoax Menggunak an

Algoritma Levenshtein Distance Berbasis Php

Banyaknya berita hoax yang tersebar di kalangan masyarakat

Levenshte in

Distance

Nurhayati Aprilianda Pasaribu (2020)

Perbedaanny a dalam menggunaka n objek penelitian dan platform yang

digunakan.

Hasil batas 0,1 dan memiliki nilai akurasi 80%.

5. Analisis Perbandinga n Algoritma Optimasi pada Random Forest untuk Klasifikasi Data Bank Marketing

Mengurangi resiko peminjaman dengan menjaga tidak terjadi kredit bermasalah

Random Forest

Yoga Religia, dkk (2021)

Penelitian ini melakukan perbandingan algoritma optimasi pada random forest

Menghasilk an performa optimal dari klasifikasi data bank marketing sebesar 88,30%.

(4)

N o

Judul Jurnal

Masalah Metode Penulis Perbedaan Hasil

6. Klasifikasi Intonasi Bahasa Jawa Khas Ponorogo Menggunak an

Algoritma Multilayer Perceptron Neural Network

Pengembanga n Automatic Speech Recognition dalam bahasa Jawa

Ponoragan

Perceptro n

Oddy Virgantara Putra, dkk (2021)

Perbedaanny a penelitian ini

melakukan klasifikasi suara pada intonasi bahasa jawa

Menghasilk an hasil akurasi hingga 0.8125 atau 81,25%

7. Ekstraksi Fitur Warna Dan Glcm Pada Algoritma Knn Untuk Klasifikasi Kematanga n Rambutan

Rendahnya pengetahuan dikalangan masyarakat terkait kematangan buah rambutan sehingga menyamaratak an mutu buah sehingga petani banyak mengalami kerugian.

Algoritma KNN

Heru Parmono Hadi, dkk (2022)

Pada

penelitian ini menggunaka n ekstraksi fitur warna RGB,

ekstraksi fitur tekstur GLCM

Algoritma levenshtein distance dapat diterapkan dengan baik dengan akurasi 98,75%

Dari semua penelitian yang telah diuraikan diatas, metode TF-IDF, Algoritma KNN dan Leveshtein distance masih relevan untuk digunakan. Pada penelitian ini juga akan dilakukan perbandingan 5 algoritma yaitu Random Forest, SVM, Naive Bayes, KNN dan Peceptron. Pada penelitian diatas menunjukan akurasi dari 5 algoritma tersebut tinggi sehingga perlu dilakukannya perbandingan untuk mengetahui algoritma mana yang memiliki akurasi tertinggi pada penelitian ini. Penelitian ini juga akan dibangun berbasiskan sistem website yang menggunakan micro-framework Flask yang disebutkan pada penelitian B.A.

Fundrika[4]. Beberapa topik yang membahas klasifikasi penyakit juga masih banyak diteliti karena di Indonesia masih membutuhkan sistem yang dapat mendiagnosa gejala awal penyakit tanpa harus datang ke dokter sehingga masyarakat lalu dapat mengetahui prediksi awal gejala penyakit dan dapat ditindaklanjuti kepada ahli[1].

(5)

10

2.2 Dasar Teori 2.2.1 Penyakit Mental

Menurut Undang-Undang Nomor 18 Tahun 2014, Kesehatan mental adalah kondisi dimana seorang individu dapat berkembang secara fisik, mental, spiritual, dan sosial sehingga individu tersebut menyadari kemampuan sendiri, dapat mengatasi tekanan, dapat bekerja secara produktif, dan mampu memberikan kontribusi untuk komunitasnya. Kesehatan mental dapat merujuk pada bagaimana individu mampu menyesuaikan diri serta berinteraksi dengan baik dengan lingkungan sekitarnya[2]. Sedangkan Gangguan mental sendiri merupakan manifestasi dari bentuk penyimpangan perilaku akibat adanya distorsi emosi, sehingga ditemukannya ketidakwajaran dalam tingkah laku, hal ini terjadi karena menurunnya semua fungsi kejiwaan[3]. Penyebab gangguan mental dibedakan menjadi beberapa faktor yaitu[9] :

1. Faktor Biologis/Jasmaniah a. Keturunan

Keturunan temasuk penyebab seseorang terkena gangguan mental, misal keluarga dari orang tersebut memiliki penyakit mental sehingga menurunkan kepada anaknya atau turunannya secara genetik.

b. Jasmaniah

Beberapa peneliti berpendapat bahwa fisik dari seseorang berhubungan dengan gangguan jiwa tertentu. Contohnya orang yang bertubuh gemuk cenderung menderita psikosa manik depresif, dan yang bertubuh kurus biasanya menderita skizofrenia.

c. Tempramen

Seseorang yang terlalu peka dan tingkat emosinya tinggi biasanya mempunyai masalah dan ketegangan yang memiliki kecenderungan mengalami gangguan mental atau jiwa.

(6)

d. Penyakit atau cedera

Seseorang yang memiliki penyakit-penyakit tertentu seperti misalnya cacat pada tubuh akan merasa sedih dan rendah diri, sehingga hal tersebut bisa menyebabkan gangguan jiwa atau mental.

2. Faktor Psikologis

Faktor Psikologis biasanya berasal dari diri sendiri atau lingkungan keluarga. Contohnya mengalami kegagalan akan sesuatu, sikap orang tua yang acuh tak acuh, kaku dan keras juga dapat menimbulkan rasa cemas dan tekanan sehingga seseorang tersebut akan memiliki sifat menolak dan menentang terhadap lingkungan.

3. Faktor Sosio-Kultural

Kebiasaan, kebudayaan atau aturan-aturan dimasyarakat yang berlaku dapat memperngaruhi mental seseorang. Contohnya: cara membesarkan anak, masalah golongan minoritas, kebudayaan dan pergaulan dengan lingkungan sekitar, perbedaan sistem nilai moral dan etika, dan lain-lain.

Macam-macam penyakit mental jenis psikis yaitu:

1. Skizofrenia

Skizofrenia adalah gangguan jiwa berat yang ditandai dengan gangguan penilaian realita seperti waham dan halusinasi. Penderita ini hanya ada 1% didunia[10]. Gangguan ini biasanya diderita oleh kalangan masyarakat yang memiliki ekonomi rendah[11]. Gejala penyakit skizofrenia yaitu: mengalami gelisah, halusinasi, delusi, dan memiliki sikap apatis[10].

2. Anxiety

Gangguan anxiety atau gangguan kecemasan merupakan kekhawatiran berlebih terhadap peristiwa atau kejadian sesuatu hampir sepanjang hari sedikitnya selama 6 bulan. Gejala penyakit anxiety yaitu: cemas, gelisah, depresi dan mudah marah[10].

(7)

12 3. Bipolar manik

Gangguan bipolar manik merupakan gangguan perubahan mood yang signifikan. Pada fase manik ini pengidap akan merasa sangat bersemangat dan penuh energi. Gangguan ini biasanya berlangsung pada waktu 2 minggu sampai 4/5 bulan. Gejalanya seperti: mudah marah, banyak bicara, sangat bersemangat, optimistik[10].

4. Bipolar depresi

Gangguan bipolar depresi merupakan gangguan perubahan mood yang signifikan. Pada fase depresi ini biasanya pengidap akan merasa sangat down, sehingga tidak melakukan aktivitas seperti biasanya. Gangguan ini biasanya berlangsung cenderung lama sekitar 6 bulan sampai 1 tahun. Gejalanya seperti: murung, pesimistik, mudah lelah, melukai diri sendiri[10].

5. OCD (Obsesif Kompulsif)

Gangguan OCD merupakan salah satu gangguan mental yang sering mengikis sumber energi penderitanya setiap hari karena dipenuhi dengan pikiran-pikiran yang terus menerus untuk melakukan sesuatu secara berulang tanpa ia kehendaki. Gejalanya seperti: melakukan aktivitas berulang, perfeksionis, punya pikiran sendiri dan cemas[11].

2.2.2 Machine Learning

Machine Learning dapat didefinisikan sebagai sebuah tipe kecerdasan buatan yang menyediakan komputer dengan kemampuan untuk belajar dari data, tanpa secara eksplisit harus mengikuti instruksi yang terprogram[12]. Data sangat berkaitan dengan machine learning, karena jika tidak ada data machine learning tidak dapat berkerja. Sehingga data menjadi hal yang pertama kali disiapkan ketika ingin membuat sebuah machine learning[13]. Data dibagi menjadi 2 kelompok yaitu data training dan data testing. Machine learning memiliki beberapa jenis teknik yaitu[14]:

1. Supervised Learning yaitu teknik melatih model pada data input dan output sehingga dapat memprediksi keluarannya. Bertujuan untuk melakukan klasifikasi dan serta terdapat label.

(8)

2. Regresi yaitu teknik yang dapat melakukan bilangan kontinu.

3. Semi-supervised Learning yaitu teknik ini hampir sama dengan Supervised Learning, perbedaannya terletak pada pelabelan data yang bisa menggunakan label ataupun tidak.

4. Unsupervised Learning yaitu teknik untuk mencari sifat-sifat pada data dan tidak harus menggunakan label.

2.2.3 Text Processing

Text Processing merupakan tindakan menghilangkan karakter-karakter tertentu yang terkandung dalam dokumen, seperti koma, tanda petik, mengubah huruf kapital menjadi huruf kecil, dan lain-lain. Berikut beberapa tahapan-tahapan Text Processing [15]:

a. Tokenizing

Tahap Tokenizing adalah proses penguraian deskripsi yang semula berupa kalimat-kalimat menjadi kata-kata dan menghilangkan delimiter- delimiter seperti tanda titik (.), koma (,), spasi dan karakter angka yang ada pada kata Stemming.

b. Filtering

Tahap Filtering adalah tahap penyaringan kata yang didapatkan dari Tokenizing yang dianggap tidak penting dan tidak memiliki makna.

c. Stemming

Tahap Stemming adalah tahap mengembalikan kata-kata yang diperoleh dari Filtering, kemudian dihilangkan kata imbuhan awal dan imbuhan akhirnya.

2.2.4 Term Frequency Inverse Document Frequency (TF-IDF)

Metode TF-IDF merupakan metode untuk menghitung bobot setiap kata yang paling umum digunakan pada information retrieval[16]. Metode ini menggabungkan 2 konsep untuk perhitungan pembobotan yaitu frekuensi kemunculan sebuah kata didalam sebuah dokumen dan inverse frekuensi sebuah dokumen yang mengandung kata tersebut[15].

1. Perhitungan Term Frequency (TF) menggunakan Persamaan 1 [16]:

𝑡𝑓 = 𝑇𝑘𝑎𝑡𝑎 𝑇𝑡𝑜𝑡𝑎𝑙

(9)

14 Dimana:

𝑡𝑓 = Term Frequency

𝑇𝑘𝑎𝑡𝑎 = Term/Fitur yang ada pada dokumen 𝑇𝑡𝑜𝑡𝑎𝑙 = Jumlah keseluruhan termdalam dokumen

2. Perhitungan Inverse Document Frequency (IDF) menggunakan Persamaan 2 [14] :

𝑖𝑑𝑓𝑖 = 𝑙𝑜𝑔 𝑁 𝑑𝑓𝑖

Dimana:

𝑖𝑑𝑓𝑖 = Inverse Document Frequency

N = jumlah dokumen yang terambil oleh sistem

𝑑𝑓𝑖 = banyaknya dokumen dalam koleksi dimana term muncul didalamnya / kata yang dicari.

3. Perhitungan Term Frequency Inverse Document Frequency (TF-IDF) menggunakan Persamaan 3[17]:

𝑇𝐹 − 𝐼𝐷𝐹 = 𝑡𝑓𝑖𝑗. 𝑖𝑑𝑓𝑖 Dimana :

TF-IDF= bobot dokumen

𝑡𝑓𝑖𝑗 = banyaknya kemunculan term 𝑖𝑑𝑓𝑖 = Inverse Document Frequency

2.2.5 Algoritma KNN (K-Nearest Neighbor)

Algoritma KNN adalah sebuah algoritma untuk mengklasifikasi objek berdasarkan data latih yang mempunyai jarak paling dekat dengan objek tersebut.

Algoritma KNN termasuk algoritma supervised learning[18]. Algoritma ini menggunakan nilai K untuk melihat banyaknya data yang paling dekat pada identifikasi suatu data yang diuji[19]. Langkah-langkah untuk menghitung KNN antara lain:

1. Menentukan parameter K

2. Mencari jarak euclidean data baru dengan data training

3. Mengurutkan jarak terdekat berdasarkan jarak minimum nilai K.

4. Menentukan kategori dari tetangga 5. Penentuan data yang dicari

(10)

Perhitungan jarak suatu data dengan suatu kelas dapat menggunakan persamaan euclidean yang ditunjukan pada Persamaan 4 berikut[19]:

𝒓 = √(𝑿𝟎− 𝑿𝟎)𝟐+ (𝑿𝟏− 𝑿𝟏)𝟐+ ⋯ Dimana :

X0 = X data training X0’ = X data yang dicari X1 = Y data training X1’= Y data yang dicari

2.2.6 Algoritma Random Forest

Algoritma Random Forest merupakan Algoritma gabungan dari beberapa desicion tree yang menggunakan pemisahan biner rekursif untuk mencapai node akhir dalam struktur pohon berdasarkan pada pohon klasifikasi dan regresi[20].

Berikut merupakan metodologi cara kerja algoritma Random Forest pada Gambar 2.1:

Gambar 2.1 Cara Kerja Random Forest

2.2.7 Algoritma SVM (Support Vector Machine)

Algoritma SVM merupakan algoritma yang bertujuan untuk menemukan batas pemisah optimal yang disebut dengan hyperplane dan menggunakan nilai max margin[21]. Metode SVM dibagi menjadi 2, yaitu SVM Linier dan SVM Non-Linier. Dimana SVM Linier ialah data yang dipisahkan secara linier, yaitu memisahkan kedua class berdasarkan hyperplane dengan soft margin. Sedangkan SVM Non-Linier menerapkan fungsi kernel trick terhadap ruang yang berdimensi tinggi[22].

(11)

16 2.2.8 Algoritma Naive Bayes

Algoritma Naive Bayes merupakan klasifikasi yang menggunakan probabilitas sederhana untuk menetapkan setiap objek kelas dengan independensi yang kuat diantar variabel[21]. Teorema bayes memiliki bentuk umum sebagai berikut pada Persamaan 5:

𝑃(𝐻|𝑋) = 𝑃(𝑋|𝐻)𝑃(𝐻) 𝑃(𝑋) Dimana :

X = Data dengan class yang belum diketahui

H = Hipotesis data X merupakan suatu class spesifik

P(H|X) = Probabilitas hipotesis H berdasarkan kondisi x (posteriori prob.) P(H) = Probabilitas hipotesis H (prior prob.)

P(X|H) = Probabilitas X berdasarkan kondisi tersebut P(X) = Probabilitas dari X

2.2.9 Algoritma Perceptron

Algoritma Perceptron merupakan salah satu algoritma jaringan syaraf tiruan yang sederhana, biasa digunakan untuk mengklasifikasikan suatu pola tertentu yang sering dikenal dengan pola pemisahan secara linier[23]. Tahapan yang akan dilakukan dalam melakukan algoritma Perceptron[24]:

1. Tahap Initilization,memberikan nilai awal terhadap variabel-variabel yang diperlukan seperti nilai input (x), nilai bobot (w), nilai output (y),learning rate (α), treshold (ө), dan data yang lain nya.

2. Tahap Aktivation, yaitu untuk menghitung nilai actual output 3. Tahap Weight training, yaitu proses perubahan nilai bobot dan bias 4. Tahap Iteration, adalah tahap akhir utuk pengujian

2.2.10 Algoritma Levenshtein Distance

Algoritma Levenshtein Distance merupakan metrik string untuk mengukur perbedaan antara dua urutan. Pada algortima ini semakin kecil nilai skor yang dimiliki maka akan semakin tinggi nilai kemiripan yang dimiliki[25].

Kata distance sendiri bermaksud jumlah modifikasi yang dibutuhkan untuk mengubah suatu bentuk string ke bentuk string lain, sebagai contohnya misal string kata “baru” dan “batu” memiliki distance 1 karena hanya perlu dilakukan

(12)

satu operasi saja untuk mengubah string ke string lain. Nilai distance antara dua string tersebut juga ditentukan oleh jumlah minimum dari operasi-operasi perubahan yang diperlukan untuk melakukan perubahan dari string satu ke string lainnya. Dalam kasus dua string di atas, string “baru” dapat menjadi “batu” hanya dengan melakukan satu subtitusi karakter “r” menjadi “t” [26].

Operasi-operasi utama dalam algorima ini ada 3 yaitu sebagai berikut[27]:

1. Penyisipan atau insertion: menambahkan suatu karakter ke dalam string. Contohnya string “bapa” menjadi “bapak”.

2. Penghapusan atau deletion: menghilangkan suatu karakter suatu string. Contohnya dari string “kasur” menjadi “kasu”.

3. Penukaran atau subtition: operasi menukar sebuah karakter dengan karakter lain. Contohnya dari string “baru” menjadi “batu”.

Contoh pengukuran dengan Levenshtein Distance dapat dilihat pada tabel 2.2.

Misal ada buah kata X=baru dan Y=batu

Tabel 2.2 Contoh Levenshtein Distance

B A R U

0 1 2 3 4

B 1 0 1 2 3

A 2 1 0 1 2

T 3 2 1 1 2

U 4 3 2 2 1

Berdasarkan tabel diatas maka dapat dilihat nilai distancenya adalah 1 yang terletak pada tabel sebelah kanan paling bawah. Lalu dilakukan pengukuran nilai similarity dengan persamaan 6 berikut[26]:

𝑆𝑖𝑚 = 1 − ( 𝐷𝑖𝑠 𝑀𝑎𝑥 𝐿𝑒𝑛𝑔𝑡ℎ)

Keterangan:

Sim = nilai kemiripan Dis = jarak levenshtein

Max length = nilai string terpanjang

(13)

18 Jika nilai similarity nya adalah 1, maka kedua string yang dibandingkan itu sama. Di lain hal jika nilai similarity nya 0 maka kedua string yang dibandingkan itu tidak sama.

2.2.11 Confusion Matrix

Confusion matrix adalah tools visualisasi yang biasa digunakan dalam mengevaluasi performa suatu model klasifikasi pada supervised learning.

Confusion Matrix berisikan informasi aktual dan prediksi pada sistem klasifikasi.

Berikut merupakan tabel confusion matrix.

Tabel 2.3 Confusion Matrix Actual Class

Positif Negatif

Predicted Class

Positif True Positive False Positif Negatif False Negative True Negative

True Positive (TP) dan True Negative (TN) menandakan jumlah kelas positif dan jumlah kelas negatif yang dikategorikan secara benar, sedangkan False Positive (FP) dan False Negative (FN) menandakan jumlah kelas positif dan jumlah kelas negatif yang tidak dikategorikan secara benar[27]. Berdasarkan confusion matrix tersebut dapat ditetapkan tolak ukur performa seperti Accuracy, Precision, Recall, Specificity, FMeasure, G-Mean dan yang lainnya[27].

2.2.12 Flask

Flask merupakan salah satu micro-framework yang digunakan untuk pengembangan website dari bahasa python yang memiliki desain sederhana dan sangat fleksibel[28]. Struktur direktori dari aplikasi flask juga dapat diatur sendiri sesuai kebutuhan. Dengan memadukan keunggulan python dan flask, proses pengembangan web dapat dilakukan secara mudah dan cepat[29].

2.2.13 Bahasa Pemrograman

Pada penelitian ini sistem yang dibuat akan berbasis website. Website sendiri merupakan kumpulan dari halaman web yang saling terhubung dan berkas- berkasnya saling berkaitan[30]. Pada pembuatan website sendiri penelitian ini

(14)

menggunakan bahasa pemrograman HTML(Hyper Text Markup Language) untuk tampilannya, dan menggunakan bahasa pemrograman python untuk machine learningnya.

Python merupakan bahasa pemrograman yang saat ini mulai banyak digunakan untuk mengembangkan aplikasi di berbagai bidang: seperti matematika, sains, teknologi, dan sebagainya[29]. Python juga termasuk bahasa pemrograman yang open source aktif yang dikembangkan oleh para pengembang karena mudah untuk dipelajari[31].

Software yang digunakan pada penelitian ini yaitu menggunakan Visual Studio Code, Google colabs dan Anaconda. Pemrograman penelitian ini termasuk pada penelitian yang terstruktur, karena pada penyelesainnya memerlukan langkah-langkah yang berurutan dan akan melakukan perintah yang berulang.

Referensi

Dokumen terkait

Algoritma pembobotan TF-IDF dan vector space model ( cosine similarity ) digunakan untuk menunjukkan kemiripan antar dokumen yang merupakan representasi dari kalimat komplain

Variasi metode KNN ini melakukan penentuan kelas dari data objek baru tidak dengan cara melakukan voting mayoritas kelas pada K tetangga terdekat, melainkan

Pembobotan tf-idf melibatkan penghitungan nilai idf yang merupakan ukuran kepentingan suatu kata, sedangkan setiap kata yang terpilih dari proses pemilihan fitur

Berdasarkan pada hasil penelitian menerapkan Query Expansion pada sistem temu kembali informasi berbahasa indonesia dengan metode pembobotan tf-idf dan algoritma Cosine

Dalam metode TF-IDF, bobot Wi adalah nilai dari TF(t, d) dikalikan dengan nilai dari IDF(t). Bobot suatu kemunculan kata semakin besar jika kata tersebut sering muncul dalam

Koefisien pembobotan yang optimal dalam deteksi emosi pada tweet berbahasa Indonesia tentang pembelajaran jarak jauh menggunakan metode KNN dengan pembobotan kata

Hasil dari penelitian ini menunjukkan bahwa penggabungan algoritma text processing, TF-IDF, KNN dan formula haversine dapat digunakan untuk menemukan penjual

Dalam teori informasi, levenshtein distance dua string adalah jumlah minimal operasi yang dibutuhkan untuk mengubah suatu string ke string yang lain, di