Nama : Ricky Johannes Silalahi NIM : 223303030367
Mata Kuliah : Pengenalan Pola
Review Jurnal
Penulis : Nugroho Dwi S.
Tahun : 2015
Judul Jurnal : Penerapan Algoritma Support Vector Machine untuk Prediksi Harga Emas Nama Jurnal : Jurnal Nasional Algoritma SVM
Sumber :
https://media.neliti.com/media/publications/137259-ID-penerapan-algoritma-support-vector- machi.pdf
Tujuan Penelitian :
Tujuan dari penelitian ini adalah menerapkan algoritma
support vector machine untuk mencari tingkat akurasi tertinggi dengan membandingkan variabel open, highdan low dengan menambahkan variabel factory news untuk prediksi penutupan harga emas.
Metode Penelitian : Metode yang diusulkan pada penelitian ini yaitu menggunakan algoritma support vector machine.
Simpulan :
Setelah Penelitian yang dilakukan dengan jumlah input data harga emas menunjukkan bahwa penggunaan algoritma
support vector machine dengan pemaksimalannilai parameter untuk prediksi penutupan harga emas dapat menghasilkan nilai yang cukup baik. Dari pengujian data testing sebanyak 10%, menunjukan dataset dengan variabel
open, high, lowdan close menggunakan algoritma SVM dengan memaksimalkan parameter kernel type dan C (cost) menghasilkan RMSE sebesar 4,695, dataset dengan variabel open, high, low,
close dan factory news menggunakan algoritma SVM dengan memaksimalkan parameterkernel type dan C (cost) menghasilkan RMSE sebesar 4,620. Sehingga dapat disimpulkan dari 2 dataset yang berbeda variabel ini dataset dengan penambahan variabel factory news memiliki nilai RMSE lebih baik. Dengan demikian dari hasil pengujian model diatas dapat disimpulkan bahwa variabel B
(open, high, low, close dan factory news)lebih akurat dan memiliki nilai RMSE terendah.
Saran : Dari hasil pengujian yang telah dilakukan dan hasil kesimpulan yang diberikan maka
ada saran atau usul yang di berikan antara lain:
1. Dalam Penelitian ini dilakukan menggunakan algoritma support vector machine. Mencoba
Nama : Ricky Johannes Silalahi NIM : 223303030367
Mata Kuliah : Pengenalan Pola
Review Jurnal
Penulis : Yahya, Winda Puspita Hidayanti Tahun : 2020
Judul Jurnal :
Penerapan Algoritma K-Nearest Neighbor Untuk Klasifikasi Efektivitas Penjualan Vape (Rokok Elektrik) pada “Lombok Vape On”
Nama Jurnal : Jurnal Nasional Algoritma KNN
Link Jurnal : file:///C:/Users/user/Downloads/2279-7516-2-PB.pdf
Tujuan Penelitian :
Penelitian ini bertujuan untuk memprediksi seberapa tingkat akurasi pengunduran diri mahasiswa STIKOM UYELINDO Kupang.
Metode Penelitian :
Untuk memperoleh data yang digunakan dalam penelitian ini, ada beberapa metode yang digunakan antara lain :
1. Observasi 2. Wawancara 3. Studi Pustaka
Hasil :1. Cros validation
Pengujian ini menggunakan 281 data, pengujian ini juga dilakukan untuk mengetahui pengaruh nilai k terhadap tingkat akurasi data, semakin tinggi jumlah k yang digunakan maka akan semakin bagus hasil dari pengujian. Nilai k yang terbaik pada algoritma ini tergantung pada jenis data yang digunakan. Nikai k yang bagus dapat dipilih dengan optimasi parameter, contohnya dengan menggunakan cross validation. Dalam kasus khusus, klasifikasi K-Nearest Neighbor dapat diprediksi berdasarkan training data yang paling dekat (dengan kata lain k=1).
Nilali k (ketetanggaan paling dekat) yang digunakan dalam penelitian ini adalah 1, 2, 3, 4, 5,
6, 7, 8, 9, 10 dengan cross validation 10. Algoritma K-Nearest Neighbor akan melakukan
training terhadap data yang telah dipisahkan oleh Cross Validation menjadi dua tempat yaitu
satu tempat untuk data training dan satu tempat untuk data testing. Training terdiri dari metode
KNearest Neighbor yang digunakan dan testing terdiri dari apply model dan performance.
target dan false negatif (FN) sebanyak 21 record diklasifikasikan sebagai class yang mencapai target namun pada kenyataannya adalah berada pada class yang tidak mencapai target.
Berikutnya 122 record false positif (TN) diklasifikasikan sebagai class yang tidak mencapai target, dan 17 record false positif (FP) diklasifikasikan sebagai class yang tidak mencapai target namun ternyata diklasifikasikan sebagai class yang mencapai target. Berdasarkan Tabel 8 menunjukkan bahwa tingkat akurasi menggunakan algoritma KNearest Neighbor dengan K- Fold Validation 6 adalah sebesar 86.48%, dan dapat dihitung untuk mencari nilai accuracy, sensitivity, specificity, Ppv dan Npv pada persamaan di bawah ini.
3. Kurva ROC
Grafik ROC dengan nilai AUC (Area Under Curve) dengan hasil accuracy dengan K- Fold Validation 6 sebesar 86.48% dengan nilai akurasi Excellent Classification.
Simpulan :
Berdasarkan hasil penelitian yang dilakukan, dapat disimpulkan bahwa data
penjualan yang telah diolah dengan menerapkan teknik data mining menggunakan algoritma
K-Neraest Neighbor. Dari data penjualan dapat diketahui bahwa rata-rata jumlah satu jenis
barang penjualan 10 pcs dapat disebut sebagai kategori mampu mencapai target dan apabila
kurang dari 10 pcs yang terjual maka akan disebut dengan kategori tidak mampu mencapai
target. Dari kategori tersebut dapat diketahui hasil pengolahan jumlah barang yang paling
banyak terjual oleh toko bisnis Lombok Vape On. Pengujian ini dilakukan dengan cara
menghitung sesuai dengan langkah-langkah algoritma K-NN (K-Nearest Neighbor) untuk
menghasilkan model sehingga masuk dalam kategori excellent classification, pengolahan
dilakukan dengan menggunakan 9 Validation, dari pengolahan tersebut terdapat K-Fold
Validation 6 menjadi percobaan yang memiliki akurasi tertinggi. Dari percobaan yang telah
dilakukan dapat diketahui hasil nilai K-Fold Validation 6 dengan hasil akurasi diperoleh
sebesar 86.48% dan AUC sebesar 0.874. Oleh karena itu metode algoritma K-Nearest Neighbor
merupakan salah satu algoritma klasifikasi yang baik digunakan dan mampu
mengklasifikasikan jumlah barang yang dapat terjual paling banyak. Adapaun jenis barang
yang dikategorikan terjual paling banyak oleh toko bisnis tersebut yaitu jenis barang Aegis
boost, One fire, Coil gear 300mah, Voopoo vinci coil, Smok rpm coil 0 3. Sehingga dalam
menganalisa data metode ini cukup akurat untuk menganalisis data penjualan yang
dikategorikan jenis barang paling dominan.
Penerapan Algoritma Support Vector Machine untuk Prediksi Harga Emas
Nugroho Dwi S.
Badan Pengembangan Teknologi Informasi dan Komunikasi,Universitas PGRI Semarang Gedung U Lantai 3, Kampus 1 Jl. Sidodadi Timur 24, Semarang
Email : [email protected]
Abstract – Gold is one part of the assets that are important. Many investment analysis about the risk of having said that investment is small gold. The high price of gold was influenced by numerous factors such as the condition of the economy rate of inflation supply and demand and still more. Because it is the prediction of the price of gold so beneficial for investors to see how the prospect of investment in future. In this research will be the prediction of the closure of the price of gold using a method of algorithms support vector machine to compare a variable ( open , the high , low and close with variable B ( open, the high, low, a close and factory news ) in stepped up its performance to maximize the parameters. From the results of the testing by measuring a method of support machine vector using RMSE, known that the variable A produce of RMSE obtained 4,695 and variable B , the value of RMSE is 4,620.
By looking at the value of accuracy and RMSE which has been obtained , hence variable B (open, high, low, close and factory news ) can increase prediction.
Abstrak – Emas merupakan salah satu bentuk aset yang penting. Banyak analisis tentang investasi menyatakan bahwa investasi yang memiliki resiko kecil adalah emas. Tinggi rendahnya harga emas dipengaruhi oleh banyak faktor seperti kondisi perekonomian, laju inflasi, penawaran dan permintaan serta masih banyak lagi. Karena itu perlu prediksi harga emas sehingga bermanfaat bagi investor untuk dapat melihat bagaimana prospek investasi di masa datang. Dalam penelitian ini akan dilakukan prediksi penutupan harga emas menggunakan metode algoritma Support Vector Machine untuk membandingakan variabel A (open, high, low dan close) dengan variabel B (open, high, low, close dan factory news) yang di tingkatkan kinerjanya dengan memaksimalkan paramter. Dari hasil pengujian dengan mengukur metode Support Vector Machine menggunakan RMSE, diketahui bahwa variabel A menghasilkan nilai RMSE 4,695 dan variabel B nilai RMSE adalah 4,620. Dengan hasil tersebut RMSE yang telah didapat, maka variabel B (open, high, low, close dan factory news) dapat meningkatkan hasil prediksi.
Kata Kunci: Support vector machine, Harga emas, Prediksi
PENDAHULUAN
Investasi merupakan suatu bentuk penundaan konsumsi dari masa sekarang untuk masa yang akan datang, yang didalamnya terkandung risiko ketidakpastian.
Untuk itu dibutuhkan suatu kompensasi atas penundaan tersebut yang dikenal dengan istilah keuntungan dari investasi atau gain[1].
Emas menjadi salah satu investasi pilihan.
Sebagai logam mulia, emas memiliki nilai
tersendiri. Bahkan, emas menjadi alat tukar resmi sebelum ditemukan uang. Investasi emas dapat dilakukan dengan berbagai bentuk. Misalnya, investasi emas batangan, investasi emas simpanan, reksa dana emas, saham pertambangan emas, emas berjangka, perhiasan, dan koin emas. Emas banyak dipilih oleh para investor karena nilainya yang cenderung stabil. Emas merupakan salah satu bentuk aset yang penting [2].
Harga dan produksi emas berbeda dengan kebanyakan komoditas lainnya. Pada krisis finansial tahun 2008, harga emas naik sebesar 6% meskipun harga mineral dan komoditas lain menurun sebesar 40% [3].
Ada manfaat yang signifikan dalam investasi emas yang membantu memenuhi tujuan investor. Misalnya ketika investor berinvestasi emas, mereka berinvestasi dalam 11able berwujud, bila dibandingkan dengan investasi di saham. Gambar 1 menunjukkan harga emas menunjukan kenaikan selama 14 tahun terakhir. Dalam gambar tersebut juga menunjukan bahwa tidak ada penurunan harga emas yang signifikan [4].
Gambar 1 Harga emas dari bulan Juli sampai November 2011
Banyak analisis tentang investasi menyatakan bahwa investasi yang memiliki resiko kecil adalah emas, seperti dikatakan oleh Harvey [5], Michis [6]. Di seluruh dunia ada perbedaan besar antara nilai mata uang (inflasi) diantaranya India, Indonesia,
Afrika Selatan, Brasil, Turki dan Rusia semua mengalami inflasi antara 6 dan 10 persen, sedangkan di China sekitar 3,2 persen, Amerika Serikat pada sekitar 1,6 persen dan Eropa sekitar 1,1 persen. Di banyak pasar 11able11 berkembang, di mana suku bunga di bawah tingkat inflasi, tidak ada alat untuk menabung yang terlindungi nilainya terhadap inflasi 11able11le11e itu Emas digunakan sebagai sarana untuk melakukannya [7].
Di Indonesia investasi emas Loco London merupakan salah satu komoditi dari PT Bursa Berjangka Jakarta (BBJ/JFX).
Dalam penelitian yang dilakukan Panggabean [16] Trading Emas online adalah salah satu bisnis yang memberikan keuntungan tinggi tetapi memiliki risiko tinggi. Trading emas online merupakan pembelian kontrak emas online lewat broker yang emas fisiknya disimpan oleh Bullion Association di London. Ketika berinvestasi di bursa berjangka berupa emas, yang harus diperhatikan secara hati-hati adalah pergerakan harga emas di pasar fisik. Tinggi rendahnya harga emas dipengaruhi oleh banyak faktor seperti kondisi perekonomian, laju inflasi, penawaran dan permintaan serta masih banyak lagi. Dimungkinkan adanya perubahan faktor-faktor di atas menyebabkan harga dapat naik atau turun. Karena itu perlu prediksi harga emas sehingga bermanfaat bagi investor untuk dapat melihat bagaimana prospek investasi di masa datang. [8]
Prediksi harga merupakan salah satu masalah penting, memprediksi harga bisa bervariasi tergantung pada waktu dan informasi dari masa lalu.
Metode prediksi sudah banyak di teliti, seperti penggunaan metode Support Vector Machine (SVM), Linier Regresi, Neural Network (NN) [9]. Algoritma Neural Network mempunyai potensi untuk menangani kompleksitas dan masalah
perhitungan secara 12able12le yang lebih baik 12able12le12e teknik tradisional.
Walaupun bagitu menggunakan algoritma ini memiliki kelemahan seperti kurang mampu operasi 12able12l dengan presisi tinggi, membutuhkan waktu yang lama untuk jumlah data besar [10].
[11]Support vector machines (SVM) di perkenalkan pertama kali oleh Vapnik pada tahun 1992 sebagai konsep unggulan dalam bidang pattern recognition, algoritma ini dapat memilih model otomatis dan tidak memiliki masalah overfittin. Penelitian lain dilakukan oleh Kyoung-jae [12] metode SVM sangat baik untuk prediksi karena metode ini dapat meminimalkan kesalaha klasifikasi dan penyimpangan data pada data training.
Berdasarkan atas penelitian diatas, peneliti akan memilih metode Support vector machines dalam prediksi harga emas. Dalam penelitian ini akan dilakukan penerapan algoritma Support vector machines (SVM) untuk mencari akurasi terbaik dengan membandingkan variable.
TINJAUANPUSTAKA Penelitian Terkait
Penelitian tentang prediksi menggunakan metode Support vector machines (SVM) cukup banyak. Berikut ini beberapa penelitian terkait tentang prediksi menggunakan metode SVM yaitu sebagai berikut:
Penelitian dilakukan oleh Y.Radhika and M.Shashi tahun 2009 dalam mem- prediksi atmosfer dengan membandingkan penggunaan metode Multi layer perceptron (MLP) dan metode Support Vector Machine (SVM). Hasil dari penelitian tersebut menujukan bahwa metode Support vector machines (SVM) lebih baik menghasilkan MSE antara 7,07 sampai 7,56 yang berdasarkan golongan [10].
Penelitian lain yang dilakukan oleh Ding-Zhou Cao, Su-Lin Pang dan Yuan-Huai Bai dalam memprediksi exchange rate menggunakan dengan data sebanyak 517 data dan 4 atribut menggunakan metode Support vector machines (SVM). Hasil dari penelitian tersebut metode Support vector machines (SVM) menghasilkan nilai yang baik yaitu MSE sebesar 0,00300396 [11].
Penelitian lain yang dilakukan Kyoung-jae Kim memprediksi keuangan berdasarkan rentet waktu dengan mem- bandingkan penggunaan metode Support vector machines (SVM) dan neural network (ANN). Penelitian ini membandingkan tiga metode yaitu SVM, back-propagation (BP) dan case-based reasoning (CBR). Hasilnya SVM lebih tinggi akurasi dalam memprediksi dibandingkan dengan BP sebesar 6.2309 % dan juga lebih lebih baik performanya di banding CBR sebesar 5 % [12].
Penelitian lain yang dilakukan Taufik Hidayatulloh mengenai komparasi penerapan metode support vector machine (SVM) dan multilayer perceptron (MLP) dalam prediksi indeks saham 12able12 perbankan. Dari peramalan harga saham dengan input 6 lag, diperoleh hasil bahwa model dengan metode SVM lebih unggul dibandingkan peramalan dengan metode MLP. Hasil pengujian dengan data validasi menunjukkan nilai Error (RMSE) pada model dengan algoritma SVM lebih rendah dari model MLP dengan nilai 327,34 [8].
Landasan Teori
1. Investasi Trading Emas Online
Investasi Emas terdiri atas 3 jenis, yaitu : Investasi emas dalam bentuk fisik, investasi emas dalam bentuk perhiasan dan investasi emas dalam bentuk satuan trading. Trading emas online merupakan pembelian kontrak
emas online lewat broker yang emas fisiknya disimpan oleh Bullion Association di London. Investasi trading emas online bersifat lebih aktif dari investasi emas fisik.
Ciri-ciri investasi trading emas online yaitu :
a. Menggunakan one price system (pada saat yang sama harga jual- harga beli)
b. Satuan Harga dalam dollar Amerika (US $)
c. Satuan Bobot TO (Troy Ounce) d. Minimal transaksi 1 lot (100 TO)
sama dengan 3, 1 kg
Broker adalah orang yang berfungsi sebagai perantara antara investor sebagai pelaku pasar dengan pasar komoditi. Broker meneruskan orderan (pesanan) ke clearing house untuk diperdagangkan di pasar komoditi.
Sedangkan clearing house adalah lembaga yang merupakan salah satu sarana dalam future market yang berfungsi memperlancar terjadinya transaksi antara pelaku pasar di future market [13].
Berdasarkan dataset trading emas online dari PT. Rifan Financindo Berjangka terdapat 4 atribut yang terdiri dari open, high, low dan factory news sedangkan sebagai labelnya adalah close. Semua atribut tersebut selain label merupakan hal-hal yang mempengaruhi penutupan harga emas atau close.
a. Open
Merupakan transaksi pertama harga emas pada hari itu. Transaksi sendiri adalah proses jual beli yang terjadi, contoh pada 1 Januari 2015 harga ditransaksikan pertamakali 1674,95 TO/ US $ jadi inilah yang disebut harga open. Harga open sendiri tidak
pasti sama dengan haraga close atau penutupan pada hari yang lalu.
b. High
Harga tertinggi emas yang dicapai pada hari itu. Ketika perdagangan masih berlangsung, haraga high adalah harga tertinggi pada saat itu.
c. Low
Harga terendah emas yang dicapai pada hari itu. Ketika perdagangan masih berlangsung, harga low adalah harga terendah pada saat itu.
d. Close
Close juga sering disebut last merupakan transaksi terakhir emas pada hari itu. Ketika perdagangan masih berlangsung, harga close adalah haraga terakhir pada saat itu.
e. Factory News
Faktor yang paling mempengaruhi dalam pergerakan harga emas Loco Gold London yaitu berita (News).
Berita berita yang mempengaruhinya dibagi menjadi 3 jenis berita, yaitu berita yang berdampak tinggi (high impact), berita yang berdampak sedang( medium impact) dan berita yang dampaknya kecil (Low impact).
Untuk mengetahui berita-berita apa saja yang sedang terjadi dapat kita lihat dari kalender ekonomi.
2. Mekanisme Perdagangan
Secara umum mekanisme perdagangan dibagi menjadi 2 (dua) bagian yaitu multilateral dan bilateral.
Multilateral adalah suatu mekanisme transaksi (jual/beli) antara banyak pihak dengan tawar-menawar secara terbuka di bursa. Sedangkan bilateral adalah transaksi yang hanya dilakukan oleh satu pihak dengan satu pihak yang biasanya terjadi di luar bursa atau dikenal dengan over-the-counter (OTC).
Mekanisme multilateral diterapkan di dalam perdagangan berjangka bertujuan untuk proses pembentukan harga (price discovery), aktivitas lindung nilai (hedging), serta manfaat
ekonomi lainnya. Sementara mekanisme di luar bursa atau dikenal dengan istilah Sistem Perdagangan Alternatif (SPA) diselenggarakan hanya untuk tujuan spekulasi.
Rumus Perhitungan Profit
Keterangan :
1. Selisih jual – beli adalah selisih poin yang diperoleh dari harga jual dikurangi harga beli.
2. Contract size (nilai kontrak) sebesar 100 Troyounce untuk emas Loco Gold London 3. N Lot, n adalah banyaknya Lot yang ditransaksikan
4. Commission Fee( biaya komisi) sebesar $10 per lot per traansaksi.
5. VAT (Value Added Tax/ pajak pertambahan nilai) sebesar $1
6. Apabila penyelesaian transaksi dilakukan lebih dari satu hari (Overnight) maka setiap lot transaksi akan dikenakan biaya inap (Roll Over Fee/Storage).
3. Support Vector Machine (SVM)
Support Vector Machine (SVM) dikembangkan oleh Boser, Guyon, Vapnik, dan pertama kali dipresentasikan pada tahun 1992 di Annual Workshop on Computational Learning Theory. Konsep dasar SVM sebenarnya merupakan kombinasi harmonis dari teori-teori komputasi yang telah ada puluhan tahun sebelumnya, seperti margin hyperplane (Duda & Hart tahun 1973, Cover tahun 1965, Vapnik 1964), kernel diperkenalkan oleh Aronszajn tahun 1950, dan demikian juga dengan konsep-konsep pendukung yang lain.
Gambar 1 SVM berusaha menemukan hyperplane terbaik
Konsep SVM dapat dijelaskan secara sederhana sebagai usaha mencari hyperplane terbaik yang berfungsi sebagai pemisah dua buah class pada input space. Gambar 2 memperlihatkan beberapa pattern yang merupakan anggota dari dua buah class : +1 dan –1.
Pattern yang tergabung pada class –1 disimbolkan dengan warna merah (kotak), sedangkan pattern pada class +1, disimbolkan dengan warna kuning(lingkaran). Problem klasifikasi dapat diterjemahkan dengan usaha menemukan garis (hyperplane) yang memisahkan antara kedua kelompok tersebut. Berbagai alternatif garis pemisah (discrimination boundaries) ditunjukkan pada gambar 2.
Data yang tersedia dinotasikan sebagai 𝑥 ∈ ℜ𝑖 d sedangkan label masing-masing dinotasikan 𝑦𝑖 ∈ {−1, +1}untuk i =1,2,....,l , yang mana l adalah banyaknya data. Diasumsikan kedua class –1 dan +1 dapat terpisah Profit/Loss = [(Selisih jual-beli)X Contract size X n Lot]- [(Commision Fee + VAT) X n Lot]
secara sempurna oleh hyperplane berdimensi d , yang didefinisikan
𝑤.
𝑥 + 𝑏 = 0 (1) 𝑤 = Bidang normal
𝑏 = Posisi bidang relatif terhadap pusat koordinat
Pattern 𝑥 𝑖yang termasuk class –1 (sampel negatif) dapat dirumuskan sebagai pattern yang memenuhi pertidaksamaan
𝑤.
𝑥 + 𝑏 ≤ 1 (2) Sedang 𝑥 𝑖yang termasuk class + 1 (sampel positif)
𝑤 𝑥 . + 𝑏 ≥ 1 (3)
Margin terbesar dapat ditemukan dengan memaksimalkan nilai jarak antara hyperplane dan titik terdekatnya, yaitu 1\ 𝑤 . Hal ini dapat dirumuskan sebagai Quadratic Programming (QP) problem, yaitu mencari titik minimal persamaan (4), dengan memperhatikan constraint persamaan (5).
𝑚𝑖𝑛𝑤 𝜏 (𝑤) = 1
2 𝑤 2 (4) 𝑦𝑖 𝑥𝑖.𝑤 + 𝑏 −1≥0,∀𝑖
Masalah ini dapat dipecahkan dengan berbagai teknik komputasi, di antaranya Lagrange Multiplier.
𝐿 𝑤 ,𝑏,∝
=1 2 𝑤 2
− ∝𝑖
𝑙 𝑖=1
(𝑦𝑖 𝑥𝑖.𝑤 + 𝑏 −1 )
(𝑖 = 1,2,…,𝑙) (6)
∝𝑖 adalah Lagrange multipliers, yang bernilai nol atau positif (∝𝑖≥0).
Nilai optimal dari persamaan (6) dapat dihitung dengan meminimalkan L terhadap 𝑤 dan , dan memaksimalkan L terhadap ∝𝑖. Dengan memperhatikan sifat bahwa pada titik optimal gradient L
=0, persamaan (6) dapat dimodifikasi sebagai maksimalisasi problem yang hanya mengandung saja ∝𝑖, sebagaimana persamaan (7) di bawah.
Maximize:
∝𝑖
𝑙𝑖=1 −12 𝑙𝑖,𝑗=1∝𝑖∝𝑗 𝑦𝑖𝑦𝑗𝑥 𝑖.𝑥 𝑗 (7)
Subject to:
∝𝑖≥0 𝑖= 1,2,…,𝑙 𝑙𝑖=1∝𝑖𝑦𝑖 = 0 (8)
Dari hasil dari perhitungan ini diperoleh ∝𝑖yang kebanyakan bernilai positif. Data yang berkorelasi dengan
∝𝑖yang positif inilah yang disebut sebagai support vector [15].
Kerangka Pemikiran
Gambar 2 Kerangka Pemikiran
METODEPENELITIAN Pengumpulan Data
Pengumpulan data peneliti mengambil data dari PT. Rifan Financindo Berjangka yang bergerak di bidang Investasi Trading Emas. Dataset yang digunakan merupakan data rentet waktu atau time series. Dataset tersebut adalah penggabungan antara dataset yang didapat dari perusahaan pialang tersebut. Untuk atribut factory news yang didapat dari kalender ekonomi dan forex factory. Didapat sebanyak 450 data set dengan 4 atribut data dan 1 label. Data yang akan diolah yaitu mulai dari bulan Januari 2013 sampai dengan bulan September 2014.
Data harga emas ini akan diolah menggunakan algoritma SVM dengan menambahkan parameter sehingga mendapatkan hasil yang terbaik dalam prediksi harga emas.
Pengolahan Data Awal
Data yang diperoleh dari PT. Rifan Financindo Berjangka akan di preprocessing terlebih dahulu supaya data berkualitas dengan cara manual.
Teknik dalam preprocessing [14] yaitu : a. Data cleaning bekerja membersihkan
nilai kosong, tidak konsisten atau tupel kosong (missing value dan noisy).
b. Data integration menyatukan tempat penyimpanan (arsip) yang berbeda dalam satu arsip.
c. Data reduction jumlah atribut yang digunakan untuk data training terlalu besar sehingga ada beberapa atribut yang tidak diperlukan dihapus.
Metode yang Diusulkan
Metode yang diusulkan pada penelitian ini yaitu menggunakan algoritma support vector machine terlihat pada gambar dibawah ini :
Gambar 2 Metode yang diusulkan
Pada gambar 7 dapat dijelaskan bahwa dataset varibel A merupakan dataset yang terdiri dari atribut open, high, dan low dengan label close, sedangkan dataset varibel B dataset yang terdiri dari atribut open, high, low dan factory news dengan label close.
Kedua dataset dengan varibel beda tersebut di proses dengan model algoritma Support Vector Machine dengan 10-foldcross validation sehingga didapat 2 hasil, proses selanjutnya memabandingkan dua hasil tersebut mana yang terbaik.
Eksperimen dan Pengujian Metode
Pada tahap ini dilakukan eksperimen dan pengujian model yaitu menghitung dan mendapatkan rule-rule pada model algoritma yang diusulkan dengan menggunakan contoh kasus. Pada tahap ini digunakan parameter algoritma Support Vector Machine yang dapat menambah akuarasi hasil. Parameter yang di gunakan adalah C (cost) dan Kernel.
Pada proses selanjutnya mencari nilai yang terbaik dari parameter tersebut. Tahap berikutnya membandingkan variabel mana yang nilai tertinggi untuk mendapatkan hasil prediksi terbaik.
Evaluasi dan Validasi Hasil
Evaluasi dan validasi hasil yang dimaksud dalam penelitian ini adalah proses
menghitung nilai akurasi dalam Root Mean Square Error pada data untuk proses training dan data untuk proses testing dengan menggunakan dataset emas yang membandingakan antara variabel open, high dan low dengan menambahkan variabel factory news menggunakan SVMsehingga hasil akhir dapat dipilih akurasi paling tinggi.
HASILPENELITIANDAN PEMBAHASAN
Hasil
Tujuan dari penelitian ini adalah menerapkan algoritma support vector machineuntuk mencari tingkat akurasi tertinggi dengan membandingkan variabel open, high dan low dengan menambahkan variabel factory news untuk prediksi penutupan harga emas. Diharapkan dengan penelitian ini penambahan variabel factory news dapat meningkatkan akurasi dalam memprediksi harga emas.
Pembahasan
Awal pengolahan data dibagi menjadi dua untuk pengujian yaitu dataset dengan Variabel A (open, high, low, close) dan Variabel B (open, high, low, close, factory news), setiap variabel ini di bagi lagi untuk data testing dan data training.
Pengolahan data pada penelitian ini menggunakan Algoritma SVM dengan menggunakan penghitungan data sebagai berikut : Penghitungan data menggunakan tools rapidminer, yang terlebih dahulu menentukan data inputan sebagai data training dan data testing dalam memproses data tersebut. Penelitian ini menggunakan 10% dari dataset yaitu sebanyak 45 data untuk pengujian atau testing. Untuk data sisanya sebanyak 90% atau 405 data akan digunakan untuk membangun model.
Pada pengujian pertama peneliti menguji dataset variabel A dan Variabel B
dengan parameter kernel type dot. Berikut ini pengujian parmeter tersebut:
Tabel 1 Pengujian varibel dengan kernel type dot
Variabel A Variabel B C
(cost) RMSE C
(cost) RMSE 0.1 28.248 +/- 0.000 0.1 15.868 +/- 0.000 0.2 6.372 +/- 0.000 0.2 6.386 +/- 0.000 0.3 5.346 +/- 0.000 0.3 5.406 +/- 0.000 0.4 5.138 +/- 0.000 0.4 5.183 +/- 0.000 0.5 5.008 +/- 0.000 0.5 4.930 +/- 0.000 0.6 4.910 +/- 0.000 0.6 4.867 +/- 0.000 0.7 4.866 +/- 0.000 0.7 4.807 +/- 0.000 0.8 4.834 +/- 0.000 0.8 4.681 +/- 0.000 0.9 4.733 +/- 0.000 0.9 4.651 +/- 0.000 1 4.695 +/- 0.000 1.0 4.620 +/- 0.000
Tabel 1 menunjukan pengujian dengan paremeter kernel type dot dan nilai C (cost) dari 0,1 sampai dengan 1,0. Pengujian ini menghasilkan nilai root mean squared error (RMSE) terbaik sebesar 4,620 dengan nilai C (cost) 1,0 untuk variabel B.
Analisis Evaluasi dan Validasi Model Dari hasil pengujian diatas, evaluasi menggunakan RMSEmaupun Akurasi predikasi terbukti bahwa hasil pengujian untuk dataset dengan variabel A (open, high, low dan close)sebesar RMSE 4, 695 untuk dataset dengan variabel B (open, high, low, close dan factory news) dengan RMSE 4,620.
Tabel 22 Pengujian variabel A dan variabel B RMSE
Variabel A 4, 695 Variabel B 4,620 Selisih 0,075
SIMPULANDANSARAN Kesimpulan
Setelah Penelitian yang dilakukan dengan jumlah input data harga emas menunjukkan bahwa penggunaan algoritma support vector machine dengan pemaksimalan nilai parameter untuk prediksi penutupan harga emas dapat menghasilkan nilai yang cukup baik. Dari pengujian data testing sebanyak 10%, menunjukan dataset dengan variabel open, high, low dan close menggunakan algoritma SVM dengan memaksimalkan parameter kernel type dan C (cost) menghasilkan RMSE sebesar 4,695, dataset dengan variabel open, high, low, close dan factory news menggunakan algoritma SVM dengan memaksimalkan parameter kernel type dan C (cost) menghasilkan RMSE sebesar 4,620.
Sehingga dapat disimpulkan dari 2 dataset yang berbeda variabel ini dataset dengan penambahan variabel factory news memiliki nilai RMSE lebih baik.
Dengan demikian dari hasil pengujian model diatas dapat disimpulkan bahwa variabel B (open, high, low, close dan factory news)lebih akurat dan memiliki nilai RMSE terendah.
Saran
Dari hasil pengujian yang telah dilakukan dan hasil kesimpulan yang diberikan maka ada saran atau usul yang di berikan antara lain:
1. Dalam Penelitian ini dilakukan menggunakan algoritma support vector machine. Mencoba algoritma lain yang menghasilkan tingkat akurasi tinggi.
2. Hasil penelitian ini diharapkan bisa digunakan sebagai acuan pada tradinggoldonline dan meningkatkan akurasi dalam prediksi penutupan harga emas.
DAFTARPUSTAKA
[1] Gunawan, A. I., Gusti, N., Wirawati, P., & Gold, B. (2013). Perbandingan berinvestasi antara logam mulia emas dengan saham perusahaan pertambangan emas. Universitas Stuttgart, 2, 406-420.
[2] Anh Le&Haoxiang Zhu, " Risk Premia in Gold Lease Rates," UNC Kenan- Flagler Research Paper No. 2013-16 , October 21, 2013.
[3] Shahriar Shafiee & Erkan Topal, “An overview of global gold market and gold price forecasting,” Resources Policy 35 (2010) 178–189, 2010 Elsevier.
[4] Mulyadi, M. S., & Anwar, Y. (2012).
Gold versus stock investment : An econometric analysis. International Journal, 1(1), 1-7.
[5] Harvey, C. R. (2013). The Truth about Gold : Why It Should ( or Should Not ) Be Part of Your Asset Allocation Strategy. International Business, (March), 9-17.
[6] Michis, A. (2014). Investing in Gold : Individual Asset Risk in the Long Run Working Paper 2014-02.
Reproduction, (June).
[7] Summary, E. (2014). ScotiaMocatta Precious Metals 2014 Forecast.
Forecast.
[8] Hidayatulloh, T. (2014). Kajian Komparasi Penerapan Algoritma Support Vector Machine ( SVM ) Dan Multilayer Perceptron ( MLP ) Dalam Prediksi Indeks Saham Sektor Perbankan : Studi Kasus Saham LQ45 IDX Bank BCA. Prosiding SNIT.
[9] Oded Maimon and Lior Rokach, Data Mining and Knowledge Discovery Handbook; Second Edition. New York : Springer , 2010.
[10] Radhika, Y., & Shashi, M. (2009).
Atmospheric Temperature Prediction using Support Vector Machines.
International Journal, 1(1), 55-58. doi:
10.7763/IJCTE.2009.V1.9.
[11] Cao, D., Pang, S., & Bai, Y. (2005).
Forecasting exchange rate using support vector machines. Machine Learning, 18-21.
[12] Kim, K. (2003). Financial time series forecasting using support vector machines. Neurocomputing, 55, 307–
319. doi:10.1016/S0925-
2312(03)00372-2
[13] Panggabean, V., Nababan, E., & Bu, F.
(2013). Analisis Fundamental Dan Analisis Teknikal Pada Investasi Trading Emas Online Dengan Value At Risk, 1(4), 369-382.
[14] Han and Kamber, Data Mining Concepts and technique. San Francisco: Diane Cerra, 2006.
[15] Bodie, Z, kane, A., & Marcus, A.J.
(2009). Investments. Eight Edition.
New York: Mc. Graw Hill
[16] Panggabean, V., Nababan, E., & Bu, F. (2013). Analisis Fundamental Dan Analisis Teknikal Pada Investasi Trading Emas Online Dengan Value At Risk, Vol. 1 No. 4, 369-382. Saintia Matematika.
Infotek : Jurnal Informatika dan Teknologi Vol. 3 No. 2, Juli 2020, hal. 104-114
Penerapan Algoritma K-Nearest Neighbor Untuk Klasifikasi Efektivitas Penjualan Vape (Rokok Elektrik) pada “Lombok Vape On”
Yahya1*, Winda Puspita Hidayanti2
1,2Program Studi Sistem Informasi, Universitas Hamzanwadi
Abstrak
Perusahaan yang dibangun dengan tujuan untuk menghasilkan barang atau jasa yang ditujukan untuk memenuhi kebutuhan konsumen juga untuk memperoleh keuntungan bagi perusahaan tersebut. Perusahaan sudah tentu memiliki tujuan yang sama yaitu mencapai target yang sudah direncanakan dan mampu menghasilkan pemasukan yang selalu meningkat disetiap tahunnya. Dan salah satu kegiatan usaha yang harus dilakukan agar perusahaan tetap berjalan dan berkembang adalah penjualan. Keputusan yang diambil pemegang tanggung jawab perusahaan akan mempengaruhi perusahaan dimasa depan. Salah satu keputusan yang harus ditentukan yaitu produk yang akan diproduksi dan dijual untuk periode selanjutnya. Dilihat dari era globalisasi saat ini bahwa usaha yang dapat mengikuti zaman yaitu produk rokok elektrik (Vape). Produk tersebut benar-benar diminati oleh kalangan anak muda hususnya para pria. Salah satu instansi yang mengambil keputusan untuk menggeluti bisnis tersebut yaitu Lombok Vape On. “Lombok Vape On” memiliki konsumen yang cukup banyak sehingga pendapatan yang didapat tentu banyak, akan tetapi pendapatannya tidak menentu dan tidak dapat diprediksi dengan baik setiap bulannya. Tujuan dari penelitian ini untuk mengklasifikasikan hasil penjualan dari Lombok Vape on untuk mengetahui efektifitas penjualan perbulannya agar toko tersebut dapat mengetahui pasang surut pemasukan yang didapat. Apabila instansi tersebut mengetahui tingkat penjualannya maka instansi tersebut dengan mudah mengubah strategi penjualan agar stabil dan meningkat. Untuk itu peneliti menerapkan metode K- Nearest Neighbor untuk mengklasifikasin masalah tersebut,dan diharapkan metode ini mampu mengatasi masalah pada “Lombok Vape On”.
Kata Kunci : K-NN, Vape, Lombok Vape On
Abstract
Companies that are built with the aim of producing goods or services that are intended to meet the needs of consumers as well as to obtain profits for the company. The company certainly has the same goal which is to achieve the planned target and be able to generate revenue that is always increasing every year. And one of the business activities that must be done so that the company continues to run and develop is sales. The decision taken by the holder of corporate responsibility will affect the company in the future. One of the decisions that must be determined is the product to be produced and sold for the next period. Judging from the current era of globalization, businesses that can keep up with the times are electric cigarette products (vape). These products are really in demand by young people especially men. One of the agencies that made the decision to run the business was Lombok Vape On. Lombok Vape On has quite a lot of consumers so that the income earned is certainly a lot, but the income is uncertain and cannot be well predicted every month. The purpose of this study is to classify the sales results from Lombok Vape on to determine the effectiveness of monthly sales so that the store can know the ups and downs of income obtained. If the agency knows the level of sales, the agency can easily change the sales strategy to be stable and increase. For this reason researchers applied the K-Nearest Neighbor method to classify the problem, and it is hoped that this method is able to overcome the problem in Lombok Vape On.
Keywords: K-NN, Vape, Lombok Vape On
1. Pendahuluan
Penjualan merupakan salah satu unsur penting dalam suatu bisnis di bidang pemasaran, setiap bisnis memiliki tujuan yang umum disetiap langkah dan prosesnya, tujuan yang dimaksud mampu mencapai target yang sudah direncanakan dan mampu menghasilkan pemasukan yang selalu meningkat disetiap tahunnya, selain itu bisnis yang baik memiliki tujuan jangka panjang supaya masa yang akan datang dapat mengalami perubahan ke arah yang lebih baik. Kegiatan perusahaan yang bisa menghasilkan keuntungan adalah penjualan, dan penjualan merupakan salah satu faktor terpenting dalam bisnis. Dengan adanya perkembangan yang semakin pesat di era globalisasi ini, pebisnis berlomba-lomba untuk mendapatkan banyak keuntungan dengan berbagai macam kegiatan penjualan dimana semakin banyak barang yang terjual maka semakin banyak pula keuntungan yang dicapai.
Salah satu bisnis yang fenomena dikalangan masyarakat saat ini yaitu bisnis Vape (Rokok Elektrik) dimana belakangan ini kita tahu bahwa rokok elektrik sudah mulai diminati oleh masyarakat banyak terutama pada perkembangan gaya hidup dikalangan pria, namun selain pria, saat ini wanita remaja juga menjadi salah satu peminat dari rokok elektrik tersebut. Salah satu toko di Nusa Tenggara Barat yang memilih untuk mendirikan bisnis rokok elektrik yaitu “Lombok Vape on”, toko tersebut menghasilkan penjualan yang cukup besar setiap tahun, tetapi hasil penjualan yang
dihasilkan tidak stabil dan tidak mampu diprediksi kenaikan dan penurunan penjualannya.
Dari penelitian yang dilakukan, berusaha untuk mengklasifikasikan hasil penjualan dari “Lombok Vape On” untuk mengetahui efektifitas penjualan. Data yang digunakan adalah data hasil penjualan tahun 2019 dan mengklasifikasikan hasil penjualan pada
“Lombok Vape On” berdasarkan jumlah item atau jenis barang yang mampu terjual.
Dengan melakukan klasifikasi pada toko tersebut dapat mengetahui pasang surut pemasukan yang didapat dari toko “Lombok Vape On”. Untuk mengetahui efektifitas dari toko tersebut, dilakuakn dengan menggunakan salah satu metode dalam data mining yang merupakan proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, machine leraning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database yang besar, sedangkan metode yang digunakan yaitu metode K-Nearest Neighbor.
Kelebihan menggunakan metode K-Nearest
Neighbor diperkirakan dapat memberikan hasil
prosentase yang cukup bagus sehingga
prosentase yang dihasilkan mampu membuat
toko “Lombok Vape On” mengetahui pasang
surut dari hasil penjualan. Apabila toko
mengetahui peningkatan atau penurunan dari
hasil penjualannya maka toko dapat segera
mengambil tindakan untuk mengubah dan
meningkatkan strategi yang jauh lebih baik lagi.
Infotek : Jurnal Informatika dan Teknologi Vol. 3 No. 2, Juli 2020, hal. 104-114
Berdasarkan uraian di atas, maka penelitian yang dilakukan adalah Penerapan Algoritma K- Nearest Neighbor Untuk Klasifikasi Efektivitas Penjualan Vape (Rokok Elektrik) Pada “Lombok Vape On”.
2. Tinjauan Pustaka 2.1. Penelitian terkait
Dalam penulisan skripsi ini, penulis terinspirasi menggunakan referensi dari penelitian-penelitian sebelumnya yang berkaitan dengan pembahasan skripsi yang dibuat. Penelitian ini terkait penggunaan data mining dengan menggunakan algoritma K-Nearest Neighbor.
Berikut ini penelitian terdahulu yang berkaitan dengan proposal skripsi antara lain:
- Penelitian yang dilakukan (Resti Hutami, 2016), algoritma ini digunakan untuk melakukan prediksi data penjualan furniture pada CV. Octo Agung Jepara. Hasil penelitian menunjukan metode yang diusulkan berhasil diimplementasikan untuk menyelesaikan kasus prediksi penjualan dengan tingkat error sebesar 6 persen dan akurasi 94 persen
[1].
- Penelitian yang dilakukan oleh Nobertus Krisandi. Dkk dengan judul “Algoritma K- Nearest Neighbor dalam Klasifikasi Data Hasil Produksi Kelapa Sawit pada PT.
Minamas Kecamatan Parindu”. Data yang digunakan adalah data hasil produksi kelapa sawit (Tonase) dari 50 kelompok tani pada periode Juli-Desember 2011 pada PT.
Minasa Kabupaten Sanggau. Nilai k yang
digunakan adalah k=1, k=3, k=5 dan k=7.
Hasil penelitian menunjukkan bahwa, hasil produksi yang dominan adalah dengan nilai k=7 sebesar yang memiliki nilai accuracy sebesar 34%. Hal tersebut juga mengindikasikan bahwa K-Nearest Neighbor (KNN) dipengaruhi oleh jumlah klastering data
[2].
- Penelitian yang dilakukan oleh Ricky Imanuel Ndaumanu, Kusrini, M. Rudyanto Arief yang berjudul Analisis Prediksi Tingkat Pengunduran Diri Mahasiswa Dengan Metode K-Nearest Neighbor. Pada penelitian ini, dikemukakan bahwa dari jumlah pendaftaran mahasiswa baru ini, banyak juga mahasiswa yang mengundurkan diri setiap tahunnya yang disebabkan berbagai masalah. Oleh karena adanya mahasiswa yang mengundurkan diri, penulis melakukan analisis pengunduran diri mahasiswa menggunakan algoritma K-Nearest Neighbor. Penelitian ini bertujuan untuk memprediksi seberapa tingkat akurasi pengunduran diri mahasiswa STIKOM UYELINDO Kupang
.[3].2.2. Landasan Teori
1. Pengertian Data Mining
Data mining merupakan disiplin ilmu yang
mempelajari metode untuk mengekstrak
pengetahuan atau menemukan pola dari suatu
data. Data mining adalah suatu metode
pengolahan data untuk menemukan pola yang
tersembunyi dari data tersebut. Hasil dari
pengolahan data dengan metode data mining ini dapat digunakan untuk mengambil keputusan di masa depan. Salah satu teknik yang dibuat dalam data mining adalah bagaimana menelusuri data yang ada untuk membangun sebuah model, kemudian menggunakan model tersebut agar dapat mengenali pola data yang lain yang tidak berada dalam basis data yang tersimpan.
Kebutuhan untuk prediksi juga dapat memanfaatkan teknik ini. Dalam data mining, pengelompokan data juga bisa dilakukan.
Tujuannya adalah agar kita dapat mengetahui pola universal data-data yang ada
[1].
2. Pengertian Penerapan
Menurut Kamus Besar Bahasa Indonesia (KBBI), pengertian penerapan adalah perbuatan menerapkan, sedangkan menurut beberapa ahli, penerapan adalah suatu perbuatan mempraktekkan suatu teori, metode, dan hal lain untuk mencapai tujuan tertentu dan untuk suatu kepentingan yang diinginkan oleh suatu kelompok atau golongan yang telah terencana dan tersusun sebelumnya.
3. Tahapan Data Mining
Menurut Fayyad, 1996 dalam jurnal Yuli Sudriani yang berjudul “Tren Analisa Data Berskala Besar Terkait Penelitian Ekologi” menyatakan tahapan yang dilakukan pada proses data mining diawali dari seleksi data dari data sumber ke data target, tahap preprocessing untuk memperbaiki kualitas data, transformasi, data mining serta tahap interpretasi dan evaluasi yang menghasilkan
output berupa pengetahuan baru yang diharapkan memberikan kontribusi yang lebih baik secara detail dijelaskan sebagai berikut :
Gambar 1. Tahapan data mining a.
Data Selection
Pemilihan (seleksi) data dari sekumpulan data operasional. Data hasil seleksi akan digunakan untuk proses data mining, dan disimpan dalam suatu berkas dan terpisah dari basis data operasional.
b.
Cleaning Data
Proses cleaning dilakukan dengan menghilangkan noise, membuang duplikasi data, memeriksa data yang tidak konsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi).
c.
Transformasi Data
Tahap ini merupakan proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining.
d.
Data mining
Data mining merupakan proses mencari pola atau informasi yang sangat menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu.
e.
Interpretation/Evalution
Tahap ini mencakup pemeriksaan apakah
pola atau informasi yang ditemukan
Infotek : Jurnal Informatika dan Teknologi Vol. 3 No. 2, Juli 2020, hal. 104-114
bertentangan dengan fakta atau hipotesis yang ada sebelumnya.
4. Klasifikasi
Klasifikasi adalah satu bentuk analisis data yang menghasilkan model untuk mendeskripsikan kelas data yang penting.
Klasifikasi memprediksi kategori ke dalam label class. Klasifikasi merupakan proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau class data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui
[2].
Algoritma klasifikasi yang banyak digunakan secara luas, yaitu Decision/Classification Trees, Bayesian Classifiers/Naïve Bayes Classifiers, Neural Networks, Analisa Statistik, Algoritma Genetika, Rough Sets, K-Nearest Neighbor, Metode Rule Based, Memory Based Reasoning, dan Support Vector Machines (SVM). Proses klasifikasi didasarkan pada empat komponen (Gorunescu, 2011)
[3]:
a.
Kelas
Variabel dependen yang berupa kategorikal yang merepresentasikan label yang terdapat pada objek. Contohnya: resiko penyakit jantung, resiko kredit, customer loyalty, jenis gempa. J Piksel 1(1) : 65 -76 (2013).
b.
Predictor Variabel independen
Predictor Variabel independenyang direpresentasikan oleh karakteristik (atribut) data. Contohnya: merokok, minum alkohol, tekanan darah, tabungan, aset, gaji.
c.
Training Datasets
Training dataset satu set data yang berisi nilai dari kedua komponen di atas yang digunakan untuk menentukan kelas yang cocok berdasarkan predictor.
d.
Testing dataset
Testing dataset berisi data baru yang akan diklasifikasikan oleh model yang telah dibuat dan akurasi klasifikasi dievaluasi.
5. Algoritma K-NN (K-Nearest Neighbor) K-Nearest Neighbor (K-NN) adalah suatu metode yang menggunakan algoritma supervised dimana hasil dari sampel uji yang baru diklasifikasikan berdasarkan mayoritas dari kategori pada K-NN.
Tujuan dari algoritma ini adalah mengklasifikasi objek baru berdasakan atribut dan sampel latih.
Pengklasifikasian tidak mengguna kan model apapun untuk dicocokkan dan hanya berdasarkan pada memori. Diberikan titik uji, akan ditemukan sejumlah K objek (titik training) yang paling dekat dengan titik uji. Klasifikasi menggunakan voting terbanyak di antara klasifikasi dari K objek. Algoritma K-NN menggunakan klasifikasi ketetanggaan sebagai nilai prediksi dari sampel uji yang baru. Dekat atau jauhnya tetangga biasanya dihitung berdasarkan jarak Eucledian
[4].
Langkah-langkah untuk menghitung algoritma K- Nearest Neighbor:
- Menentukan parameter K (Jumlah tetangga
paling dekat).
- Menghitung kuadrat jarak Euclid (queri instance) masing-masing objek terhadap data sampel yang diberikan.
- Kemudian mengurutkan objek-objek tersebut ke dalam kelompok yang mempunyai jarak Euclid terkecil.
- Mengumpulkan kategori Y (Klasifikasi Nearest Neighbor)
Ada banyak cara untuk mengukur jarak kedekatan antara data baru dengan data lama (data training), diantaranya euclidean distance dan manhattan distance (city block distance), yang paling sering digunakan adalah euclidean distance (Bramer,2007), yaitu
[5]:
√( ) ( ) ( )
Dimana a = a1,a2,..., an, dan b = b1, b2, ..., bn mewakili n nilai atribut dari dua record. Untuk atribut dengan nilai kategori, pengukuran dengan euclidean distance tidak cocok. Sebagai penggantinya, digunakan fungsi sebagai berikut (Larose, 2006):different(ai,bi) ={0jika ai=bi1 selainnya. Dimana ai dan bi adalah nilai kategori.
Jika nilai atribut antara dua record yang dibandingkan sama maka nilai jaraknya 0, artinya mirip, sebaliknya, jika berbeda maka nilai kedekatannya 1, artinya tidak mirip sama sekali.
Misalkan atribut warna dengan nilai merah dan merah, maka nilai kedekatannya 0, jika merah dan biru maka nilai kedekatannya 1.
Untuk menghitung kemiripan kasus, digunakan rumus (Kusrini, 2009):
( ) ∑ ( )
Keterangan : P= Kasus baru
q = Kasus yang ada dalam penyimpanan n = Jumlah atribut dalam tiap kasus
i = Atribut individu antara 1 sampai dengan n f = Fungsi similarity atribut i antara kasus p dan kasus q
w= Bobot yang diberikan pada atribut ke-i
.6. Definisi Dataset
Untuk istilah mainframe IBM untuk suatu file, lihat Kumpulan data (mainframe IBM). Untuk perangkat antarmuka telekomunikasi, lihat Modem. Kumpulan data (atau dataset) adalah kumpulan data. Dalam kasus data tabular, satu set data sesuai dengan satu atau lebih tabel database, di mana setiap kolom tabel mewakili variabel tertentu, dan setiap baris sesuai dengan catatan tertentu dari set data yang dimaksud.
Kumpulan data mencantumkan nilai untuk setiap variabel, seperti tinggi dan berat objek, untuk setiap anggota kumpulan data. Setiap nilai dikenal sebagai datum. Kumpulan data juga dapat terdiri dari kumpulan dokumen atau file.
7. RapidMiner
RapidMiner merupakan perangkat lunak yang
dibuat oleh Dr. Markus Hofmann dari Institute of
Technologi Blanchardstown dan Ralf Klinkenberg
dari rapid-i.com dengan tampilan GUI (Graphical
User Interface) sehingga memudahkan
pengguna dalam menggunakan perangkat lunak
ini. Perangkat lunak ini bersifat open source dan
dibuat dengan menggunakan program Java di
Infotek : Jurnal Informatika dan Teknologi Vol. 3 No. 2, Juli 2020, hal. 104-114
bawah lisensi GNU PublicLicence dan RapidMiner dapat dijalankan di sistem operasi manapun. Dengan menggunakan RapidMiner, tidak dibutuhkan kemampuan koding khusus, karena semua fasilits sudah disediakan.
RapidMiner dikhususkan untuk penggunaan data mining. Model yang disediakan juga cukup banyak dan lengkap, seperti Model Bayesian, Modelling, Tree Induction, Neural Network dan lain-lain. Banyak metode yang disediakan oleh RapidMiner mulai dari klasifikasi, klustering, asosiassi dan lain-lain.
3. Metode Penelitian
3.1. Teknik Pengumpulan Data
Untuk memperoleh data yang digunakan dalam penelitian ini, ada beberapa metode yang digunakan antara lain :
- Observasi
Teknik observasi yang dilakukan adalah mengumpulkan data dengan melakukan obsevasi atau pengamatan langsung ke Lombok Vape On untuk melakukan penelitian dan mencari informasi-informasi yang dibutuhkan dalam menyelesaikan penelitian ini.
- Interview (Wawancara)
Melakukan komunikasi langsung dengan teknik tanya jawab atau wawancara dengan pemilik toko Lombok Vape On.
- Studi pustaka
Suatu metode pengumpulan data dengan cara membaca dan mempelajari buku-buku yang berhubungan dengan penelitian ini,
serta referensi yang terkait dengan topik yang akan dibahas dalam penyusunan skripsi ini, serta mengunjungi (Browsing) situs-situs internet yang berhubungan dengan skripsi.
3.2. Teknik Pemrosesan Data
1. Eksperimen Algoritma K-Nearest Neighbor Data berikut adalah datasets penjualan pada
“Lombok Vape On”. Dimana terdapat 9 record untuk data training yaitu no 1-9 dan 1 data testing yaitu no 10.
Tabel 1. Data Seleksi
Langkah-langkah dari algoritma K-Nearest Neighbor :
- Penentuan parameter k=5 (jumlah tetangga paling dekat). Disini dalam penentuan parameter k=5
- Menghitung Eucliden distance)
Tabel 2. Hasil Euclidean distance- Mengurutkan objek-objek tersebut kedalam kelompok yang mempunyai jarak Euclidian terkecil. Untuk mengurutkannya kita hanya perlu membuat urutan dari data yang mempunyai jarak terkecil ke data terbesar.
Tabel 3 Urutan Jarak Euclidian terkecil
- Mengumpulkan kategori Y (Klasifikasi Nearest Neighbor). Pada tahap ini hanya mengambil data sesuai dengan jumlah k yang kita tentukan adalah k=5. Jadi, kita memilih 5 data yang memiliki Euclid terkecil, dan hasilnya sebagai berikut :
Tabel 4. Urutan kategori Y
- Dengan menggunakan kategori mayoritas, maka didapat hasil klasifikasi dan pengolahan seperti tabel di bawah:
Tabel 5. Urutan kategori mayoritas
Data yang memiliki Euclid terkecil adalah data ke 2, 6, 4, 9, 8 dari data yang sudah diuji tersebut terdapat semua data mencapai target. Sehingga mayoritas data mampu mencapai target. Jadi hasil klasifikasi dan pengolahan untuk kawat koil dalah penyandang mencapai target.
2. Pengujian Algoritma
Diperlukan beberapa tahapan untuk mengolah data yaitu:
a. Untuk menganalisa, dibutuhkan data training yang akan diolah dan dimasukkan kedalam Rapidminer dan menggunakan berbagai macam format seperti csv, xls, mdb, dan lain-lain. Adapun format data yang digunkan oleh penulis yaitu xls.
b. Buka aplikasi rapidminer, kemudian akan tampil halaman awal, selanjutnya kelik File dan pilih New Proses.
Gambar 2. Tampilan kerja Rapidminer
c. Memasukkan data yang akan diolah dan
sesuikan format data yang dimiliki oleh
peneliti, dan disini peneliti menggunakan
format xls kemudian kelik pada pencarian
atau [filter] di Rapidminer seperti pada
gambar di bawah ini, Kemudian pilih Import
Wizard.
Infotek : Jurnal Informatika dan Teknologi Vol. 3 No. 2, Juli 2020, hal. 104-114
Gambar 3. Pemilihan format data
d. Tampilan data untuk import wizard diperlukan 5 langkah dalam tahapan ini, langkah ke-1 tentukan nama file yang berisi data training yang akan dimasukkan dan selanjutnya klik next pada gambar di bawah ini.
Gambar 4. Pemilihan Data
e. Tampilan data untuk menentukan tempat data tersimpan, selanjutnya klik next pada gambar di bawah ini:
Gambar 5 Tampilan sheet data
f. Tampilan untuk melihat data yang kosong, atau data yang tidak dapat diolah.
Selanjutnya klik next pada gambar di bawah ini:
Gambar 6. Tampilan pengecekan data
g. Tahapan ini dilakukan untuk menentukan
label pada data, dan apabila ada atribut yang tidak diperlukan, hilangkan centang paling atas sesuaikan urutan dari atribut yang tidak diperlukan tersebut. Kemudian pilih finish untuk masuk ke tahap selanjutnya, seperti gambar di bawah ini:
Gambar 7. Pemilihan tabel atribut dan label
h. Tahapan ini dilakukan untuk menambahkan
model algoritma yang dibutuhkan, pilih Tab Operator- Modelling-Classification and Regression-Lazy Modelling- k-NN. Apabila sudah terpilih algortima terebut selanjutnya Geser k-NN ke arah Main Process dan hubungkan seperti gambar di bawah ini :
Gambar 8. Relasi data training dengan model
i. Tampilan untuk melihat hasil dari
pengolahan menggunakan algoritma K-
Nearest Neighbor, pilih menu Process-Run
maka akan tampil hasil seperti berikut ini :
Gambar 9. Relasi data training dengan model
4. Hasil dan Pembahasan
1. Cros validation
Pengujian ini menggunakan 281 data, pengujian ini juga dilakukan untuk mengetahui pengaruh nilai k terhadap tingkat akurasi data, semakin tinggi jumlah k yang digunakan maka akan semakin bagus hasil dari pengujian. Nilai k yang terbaik pada algoritma ini tergantung pada jenis data yang digunakan. Nikai k yang bagus dapat dipilih dengan optimasi parameter, contohnya dengan menggunakan cross validation. Dalam kasus khusus, klasifikasi K-Nearest Neighbor dapat diprediksi berdasarkan training data yang paling dekat (dengan kata lain k=1). Nilali k (ketetanggaan paling dekat) yang digunakan dalam penelitian ini adalah 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 dengan cross validation 10.
Algoritma K-Nearest Neighbor akan melakukan training terhadap data yang telah dipisahkan oleh Cross Validation menjadi dua tempat yaitu satu tempat untuk data training dan satu tempat untuk data testing. Training terdiri dari metode K- Nearest Neighbor yang digunakan dan testing terdiri dari apply model dan performance.
2. Confusion Matrix
Jumlah true positif (TP) adalah 121 record diklasifikasikan sebagai class yang mencapai target dan false negatif (FN) sebanyak 21 record diklasifikasikan sebagai class yang mencapai target namun pada kenyataannya adalah berada pada class yang tidak mencapai target.
Berikutnya 122 record false positif (TN) diklasifikasikan sebagai class yang tidak mencapai target, dan 17 record false positif (FP) diklasifikasikan sebagai class yang tidak mencapai target namun ternyata diklasifikasikan sebagai class yang mencapai target.
Berdasarkan Tabel 8 menunjukkan bahwa tingkat akurasi menggunakan algoritma K- Nearest Neighbor dengan K-Fold Validation 6 adalah sebesar 86.48%, dan dapat dihitung untuk mencari nilai accuracy, sensitivity, specificity, Ppv dan Npv pada persamaan di bawah ini.
3. Kurva ROC
Gambar di atas adalah grafik ROC dengan nilai AUC (Area Under Curve) dengan hasil accuracy dengan K-Fold Validation 6 sebesar 86.48%
dengan nilai akurasi Excellent Classification.
5. Kesimpulan
Berdasarkan hasil penelitian yang dilakukan,
dapat disimpulkan bahwa data penjualan yang
Infotek : Jurnal Informatika dan Teknologi Vol. 3 No. 2, Juli 2020, hal. 104-114
telah diolah dengan menerapkan teknik data mining menggunakan algoritma K-Neraest Neighbor. Dari data penjualan dapat diketahui bahwa rata-rata jumlah satu jenis barang penjualan 10 pcs dapat disebut sebagai kategori mampu mencapai target dan apabila kurang dari 10 pcs yang terjual maka akan disebut dengan kategori tidak mampu mencapai target. Dari kategori tersebut dapat diketahui hasil pengolahan jumlah barang yang paling banyak terjual oleh toko bisnis Lombok Vape On.
Pengujian ini dilakukan dengan cara menghitung sesuai dengan langkah-langkah algoritma K-NN (K-Nearest Neighbor) untuk menghasilkan model sehingga masuk dalam kategori excellent classification, pengolahan dilakukan dengan menggunakan 9 Validation, dari pengolahan tersebut terdapat K-Fold Validation 6 menjadi percobaan yang memiliki akurasi tertinggi. Dari percobaan yang telah dilakukan dapat diketahui hasil nilai K-Fold Validation 6 dengan hasil akurasi diperoleh sebesar 86.48% dan AUC sebesar 0.874. Oleh karena itu metode algoritma K-Nearest Neighbor merupakan salah satu algoritma klasifikasi yang baik digunakan dan mampu mengklasifikasikan jumlah barang yang dapat terjual paling banyak. Adapaun jenis barang yang dikategorikan terjual paling banyak oleh toko bisnis tersebut yaitu jenis barang Aegis boost, One fire, Coil gear 300mah, Voopoo vinci coil, Smok rpm coil 0 3. Sehingga dalam menganalisa data metode ini cukup akurat untuk menganalisis data penjualan yang dikategorikan jenis barang paling dominan.
6. Daftar Pustaka
[1] R. A. Pangestu, S. Rudiarto, and D.
Fitrianah, “Aplikasi Web Berbasis Algoritma K-Nearest Neighbour Untuk Menentukan Klasifikasi Barang Studi Kasus : Perum Peruri,” vol. 2, no. 1, 2018.
[2] B. Sawit, S. Bss, and M. Metode, “Data Mining Untuk Memprediksi Hasil Produksi Buah Sawit Pada Pt Bumi Sawit Sukses (Bss) Menggunakan Metode K-Nearest Neighbor”, pp. 198–207, 2019.
[3] H. B. Suhartini1, “Klasifikasi Algoritma K- Nearest Neighbor Berbasis Particle Swarm Optimization Untuk Kelayakan Bantuan Rehabilitasi Rumah Tidak Layak Huni Pada Desa Lenek Duren Kecamatan Aikmel Kabupaten Lombok Timur Suhartini1,Hariman,” vol. 2, no. 2, pp. 79–
85, 2019.
[4] Yahya, “Prediksi Jumlah Penggunaan BBM Perbulan Menggunakan Algoritma Decition Tree(C4.5),” vol. 1, no. 1, pp.
56–63, 2018.
[5] M. Rivki and A. M. Bachtiar,
“Implementasi Algoritma K-Nearest Neighbor Dalam Pengklasifikasian Follower Twitter Yang Menggunakan Bahasa Indonesia,” J. Sist. Inf., vol. 13, no. 1, p. 31, 2017.
[6] Y. A. Setianto, K. Kusrini, and H. Henderi,
“Penerapan Algoritma K-Nearest Neighbour Dalam Menentukan Pembinaan Koperasi Kabupaten Kotawaringin Timur,” Creat. Inf. Technol.
J., vol. 5, no. 3, p. 232, 2019.
[7] U. B. Rahayu, U. Islam, N. Sunan, and G.
Djati, “Penerapan Algoritma K-Nearest Neighbor Dan Algoritma Simple Multi Attribute Rating Technique Untuk Menentukan Strategi Penjualan Pada Pt . Inti ( Persero ),” 2016.
[8] B. SAWIT, S. BSS, AND M. METODE,
“Data Mining Untuk Memprediksi Hasil
Produksi Buah Sawit Pada Pt Bumi Sawit
Sukses (Bss) Menggunakan Metode K-
Nearest Neighbor,” PP. 198–207, 2019.