• Tidak ada hasil yang ditemukan

Jurnal Media Informatika Budidarma

N/A
N/A
Protected

Academic year: 2023

Membagikan "Jurnal Media Informatika Budidarma"

Copied!
6
0
0

Teks penuh

(1)

Klasifikasi Keatraktifan e-Commerce Indonesia Menggunakan Algoritma Regresi Logistik

Agus Riyanto1,*, Richky Faizal Amir2

1 Ilmu Komputer, Software Engineer, STMIK Nusa Mandiri, Jakarta, Indonesia

1 Teknologi Informasi, Sistem Informasi, Universitas Bina Sarana Informatika, Jakarta, Indonesia Email: 1,*[email protected], 2[email protected]

Email Penulis Korespondensi: [email protected]

Abstrak−Pesatnya Perkembangan internet memberi pengaruh yang signifikan dalam berbagai aspek kehidupan, data mining merupakan pencarian proses nilai tambah salah satu dari rangkaian knowledge discovery in databases (KDD). Pemanfaatan data mining dilihat dari dua aspek, yaitu komersil dan keilmuan. Pengumpulan dataset pengujian dilakukan dengan melakukan observasi terhadap obyek penelitian pada situs analisis yang menyediakan informasi vital dan data perkiraan web e-commerce lokal. Penelitian dilakukan dengan eksplorasi dan eksperimen, metode penelitian standar digunakan pada pengujian yaitu cross industry standart process for data mining (CRISP-DM) yaitu terdiri dari 6 fase dengan framework Weka 3-8-3. Algoritma regresi logistik merupakan suatu metode analisis data yang merumuskan antara variabel respon dengan satu atau lebih variabel prediktor. Hasil pengujian nilai keatraktifan e-commerce pada confusion matrix, 5 dikategorikan memiliki probabilitas yang tinggi tujuan investasi dan profilenya, 1 dikategorikan memiliki prospek probabilitas investasi dengan profile baik, 2 dikategorikan mempunyai probabilitas investasi baik dengan profile yang menjanjikan dan 1 dengan probabilitas investasi menjanjikan dan profile kurang baik serta 31 secara probabilitas dan profile kurang baik. Sementara hasil untuk kelas Asal confusion matrix adalah 31 di identifikasi dari lokal Indonesia dengan kebingungan 5, 4 dari Global dengan ketidakpastian 0.

Kata Kunci: e-Commerce, Regresi Logistik, Weka, Variabel Respon atau Predictor

Abstract−The rapid development of the internet gives a significant influence in various aspects of life, data mining is the search for value-added processes one of a series of knowledge discovery in databases (KDD). Utilization of data mining can be seen from two aspects, namely commercial and scientific. The collection of test datasets is done by observing the research object on the analysis site that provides vital information and forecast data for the local e-commerce web. The study was conducted by exploration and experimentation, the standard research method used in testing is the cross industry standard process for data mining (CRISP-DM) which consists of 6 phases with the Weka framework 3-8-3. Logistic regression algorithm is a method of data analysis that formulates the response variable with one or more predictor variables. The results of testing the value of e-commerce attractiveness in the confusion matrix, 5 are categorized as having high probability of investment objectives and profiles, 1 are categorized as having good investment probability prospects, 2 are categorized as having good investment probabilities with promising profiles and 1 with promising investment probabilities and profiles not good and 31 i n terms of probability and profile is not good. While the results for the Origin class confusion matrix are 31 identified from local Indonesia with confusion 5, 4 from Global with uncertainty 0.

Keywords: e-Commerce, Logistics Regression, Weka, Response Variable or Predictor Variable.

1. PENDAHULUAN

Pesat pengaruh global termasuk dalam dunia bisnis tidak luput dari internet yang terus berkembang, pemanfaatan informasi dengan akses internet, menjadikan sarana transaksi kegiatan perdagangan dengan istilah e-commerce [1]. Jumlah pengguna internet yang tiap tahun meningkat di Indonesia berpengaruh baik akan perkembangan Industri e-commerce lokal. Sampai tahun 2014 pengguna internet di Indonesia tercatat mencapai 82 juta. menurut catatan riset asosiasi e-commerce Indonesia, dari Kemenkominfo “Indonesia merupakan urutan ke-8 pengguna internet terbesar di dunia”.

Usaha mikro, kecil dan menengah (UMKM) mempunyai prospek produktifitas dan berdaya saing melalui adaptasi information, communication and technology (ICT) termasuk mengadopsi e-commerce. Pemerintah sebagai salah satu stakeholder, adaptasi e-commerce harus memahami kondisi riil di lapangan [2]. Berdasarkan hal tersebut, identifikasi dan tujuan penelitian ini bagaimana menganalisa dan mengklasifikasikan daya tarik keatraktifan (interest) nilai pasar dari e-commerce lokal terhadap pasar global dengan berbagai pengaruh perilaku penggunaan internet.

2. METODE PENELITIAN

2.1 Kerangka Kerja Model

Tahapan penelitian yang menggambarkan urutan logis untuk mendapatkan hasil penelitian sesuai dengan harapan dan gambaran sistem. Dalam hal untuk menghasilkan output, secara umum pada gambar 1 menjelaskan desain rancangan kerangka kerja model (sistem) yang diusulkan.

(2)

Gambar 1. Desain rancangan kerangka kerja model sistem yang diusulkan 2.2 Datasetpenelitian

Jumlah data yang diperoleh dari pengumpulan data yaitu sebanyak ±1200 record, persiapan juga dilakukan mengkonversi nilai-nilai redundan atau nilai yang terlalu beragam kedalam kelompok yang lebih kecil untuk mempermudah pembentukan model. Dari kumpulan set data tersebut akan melewati beberapa tahap persiapan awal data (preparation data). Pada tahapan preprocessing set data dilakukan cleaning data, nilai-nilai yang error (noisy) dihilangkan seperti nilai atribut yang kurang atau nilai yang tidak tersedia sehingga terjadi duplikasi nilai set data. Kualitas set data yang terbentuk merepresentasikan konsistensi, kelengkapan dan keakuratan set data dalam model pembelajaran algoritma.

Gambar 2. Dataset yang didapat dari web analitic quartal 1 2019 dalam bentuk format csv/ecxel

(3)

2.3. AlgoritmaRegresi logistik

Regresi logistik adalah salah satu analisa multi variabel, untuk memprediksi variabel terkait atas variabel bebas.

Model algoritma ini alternatif uji jika asumsi distribusi variabel multi normal pada variabel bebasnya tidak terpenuhi ketika analisa pemisahan dilakukan. Asumsi ini tidak terpenuhi karena variabel bebas terdiri antara campuran variabel kategori (non metric) dan kontinyunitas (metric). Misalkan, probabilitas bahwa orang yang menderita paru-paru pada waktu tertentu terprediksikan adanya dari informasi usia, kebiasaan merokok, jenis kelamin dan lainnya [3].

2.3 Kerangka Penelitian

Tahap pertama dalam penelitian yang dilakukan adalah pengumpulan data. Untuk keperluan tersebut dilakukan observasi terhadap obyek penelitian (e-commerce lokal) dengan penelusuran online pada media situs-situs web analisis e-commerce yang menyediakan informasi vital dan data perkiraan situs web e-commerce, dengan menggunakan metode matematika dan statistik memperkirakan nilai situs web, pendapatan iklan menurut pasar, kategori dan traffic pengunjung serta view pages. Penelusuran literatur untuk menggali sejarah, kedudukan kantor organisasi dan ada tidaknya investasi korporasi grup bisnis Internasional. Situs penyedia analisis yang dikunjungi yaitu statshow.com dan similarweb.com.

Dalam penulisan penelitian ini menggunakan pendekatan top and down, pendekatan ini dimulai dengan mendefiniskan sasaran yang kemudian dilakukan analisis kebutuhan informasi ke pemrosesan dan pembuatan dataset beserta labelnya. Pengumpulan data input dari tahapan ini adalah perumusan masalah dalam menentukan indikator apa saja yang dapat dikategorikan sebagai situs web e-commerce lokal Indonesia kedalam dataset.

Metode penelitian dilakukan dengan menggunakan cara eksplorasi dan eksperimen. Pada ekperimen ini peneliti menggunakan metode penelitian standar yang digunakan pada data mining yaitu cross industry standart process for data mining (CRISP-DM) yaitu terdiri dari 6 fase dengan langkah-langkahnya adalah business-understanding, data-uderstanding, data-preparation, modelling, evaluation dan deployment [4].

Evaluasi dilakukan untuk menguji metode model algoritma mana yang diusulkan mendapatkan hasil yang lebih baik. Pengukuran kinerja model dilakukan dengan menggunakan confusion matrix. Kinerja yang diukur akurasi secara umum juga under area roc curve (auc), hasil confusion matrix didapatkan menggunakan proses validasi 10-fold cross validation [5].

2.4 Penelitian Terkait

a. Ketepatan Klasifikasi Metode Regresi Logistik dan CHAID dengan Pembobotan Sampel

Kesimpulan penelitian ini didapatkan akurasi sampel klasifikasi angkatan kerja kabupaten Temanggung sebesar 96,4 % dengan metode regresi logistik [6].

b. Analisis Pengaruh Lokasi Dan Karakteristik Konsumen Dalam Memilih Minimarket Dengan Metode Regresi Logistik Dan Cart

Penelitian yang dilakukan tentang perilaku memilih minimarket terhadap pengaruh lokasi dan karakter konsumen didapatkan akurasi sebesar 88 % dengan metode regresi logistik [7].

Gambar 3. 10-fold cross validation performance k-fold

3. HASIL DAN PEMBAHASAN

Persiapan dan pemahaman terhadap obyek penelitian dengan menggali informasi, mencari pola, aturan pola antara hubungan kombinasi item dalam suatu rentang waktu, pengelompokan obyek, memperkirakan ciri dan pemetaan obyek dalam nilai prediksi yang terbaik membantu pada saat proses pengolahan data yang akan dilakukan, pengujian dataset dari algoritma yang digunakan dan untuk mencari performa dari metode klasifikasi. Di pengolahan data, merupakan tahap proses integrasi dan transformasi data yang bertujuan untuk mendapatkan data yang siap digunakan untuk penelitian dalam format xls/csv diolah dan disimpan dalam format arff. Implementasi

(4)

dari model sistem ke dalam suatu aplikasi machine learning. Tahapan ini sebagai media representatif dari metode yang diusulkan. Perangkat lunak pemrograman yang digunakan untuk penelitian ini adalah WEKA versi 3.8.

Gambar 4. Transformasi data dalam format arff

Gambar 5. Preprocessing dataset

Pengujian validasi dataset menggunakan 10-fold cross validation dengan algoritma Regresi Logistik. Variabel (fitur) yang digunakan dalam data ini mencakup: nama, umur, dar (daily average reviews), rangking ios, rangking android, rangking web e-commerce global, rangking web e-commerce Indonesia, website rangking, mv (monthly visitors), follower twitter, follower instagram, follower facebook, jumlah karyawan, direct link visitor, referrals visitors, mesin pencarian visitors, iklan media social lainnya, mailist visitors, display iklan dan asal e-commerce.

Dengan target pengujian dataset terhadap kelas variabel nilai indeks dan asal e-commerce. Hasil pengujian dataset untuk kelas Ninves_N (indeks investasi) e-commerce lokal Indonesia sebagai berikut;

(5)

Gambar 6. Pengujian dataset dengan regresi logistik untuk kelas ninvest_n Tabel 1. Tabel hasil pengujian dataset dengan regresi logistik untuk kelas ninvest_n

Regresi Logistik

Precision Recall F-Measure ROC Area

0,907 0,900 0,903 0,963

Confusion Matrix

a b c obyek

5 1 0 a = ok

2 0 0 b = prospek

0 1 31 c = kurang

Hasil dari pengujian untuk kelas Ninvest_N dataset pada gambar 6. Dan tabel 1. didapatkan hasil nilai keatraktifan e-commerce pada Confusion Matrix adalah 5 dikategorikan ok/baik memiliki probabilitas yang tinggi tujuan investasi dan profilenya, 1 dikategorikan memiliki prospek probabilitas investasi dengan profile yang baik, 2 dikategorikan mempunyai probabilitas investasi baik dengan profile yang menjanjikan (prospek) dan 1 dengan probabilitas investasi menjanjikan (prospek) dan profile yang kurang baik serta 31 yang kurang baik secara probabilitas dan profile kurang baik.

Gambar 7. Pengujian dataset dengan regresi logistik untuk kelas asal

(6)

Tabel 2. Tabel hasil pengujian dataset dengan regresi logistik untuk kelas asal Regresi Logistik

Precision Recall F - Measure ROC Area

0,797 0,775 0,786 0,743

Confusion Matrix

a b

31 5 a = IDN

4 0 b = Global

pada gambar 7. dan tabel 2. hasil pengujian untuk kelas Asal sebagai berikut ini, asal e-commerce pada Confusion Matrix adalah 31 di identifikasi dari Indonesia dengan ketidakpastian/kebingungan 5, 4 teridentifikasi dari Global dan 0 diidentifikasi dari lokal.

Gambar 3. Tabel perbandingan hasil penelitian terkait Model

Algoritma

Hasil Perhitungan Akurasi (%)

Obyek penelitian peneliti

Regresi Logistik

62,86 klasifikasi status gizi balita.

Palupi Purnama Sari, Made Susilawati dan I Gusti Ayu Made Srinadi (Universitas Udayana) Regresi

Logistik

88 klasifikasi

kecenderungan konsumen mini-market

Rokhana Dwi Bekti, Noviana Pratiwi, Maria Titah Jatipaningrum dan Dina Auliana (Institut Sains & Teknologi AKPRIND Yogyakarta) Regresi

Logistik

90.7 dan 79.7 Prediksi keatraktifan e- commerce Indonesia pada tujuan investasi dan profilenya serta asal

Agus Riyanto (STMIK Nusa Mandiri, Jakarta)

Hasil perbandingan dengan penelitian terkait menunjukan dari masing-masing kinerja model klasifikasi terhadap obyek penelitiannya terangkum dijelaskan pada Tabel 3.

4. KESIMPULAN

Pengujian dataset menggunakan algoritma regresi logistik terhadap beberapa variabel e-commerce lokal memiliki korelasi yang kuat dalam hubungan multi variabel fitur pada satu rentang waktu, pengelompokan obyek, memperkirakan ciri dan pemetaan obyek terhadap klasifikasi keatraktifannya, sebagai berikut;

a. Pengujian terhadap kelas Ninvest_N (nilai investasi) didapatkan Precision 0.907, Recall 0.900, F-Measure 0.903 dengan kurva ROC 0.963.

b. Pengujian kelas Asal hasilnya Precision 0.797, Recall 0.775, F-Measure 0.786 dengan kurva ROC 0.743.

c. Kedua poin diatas menggambarkan bahwa e-commerce asal Indonesia mempunyai nilai investasi yang baik terhadap pasar e-commerce lokal dan global.

REFERENCES

[1] W. Febriantoro, “Kajian Dan Strategi Pendukung Perkembangan E-Commerce Bagi Umkm Di Indonesia,” J. MANAJERIAL, vol. 17, no. 2, p. 184, 2018.

[2] M. Pradana, “Klasifikasi Bisnis E-Commerce Di Indonesia,” Modus, vol. 27, no. 2, p. 163, 2016.

[3] S. Dewi, “Pada Prediksi Keberhasilan Pemasaran Produk Layanan Perbankan,” Techno Nusa Mandiri, vol. XIII, no. 1, pp. 60–66, 2016.

[4] J. Eska, “Penerapan Data Mining Untuk Prekdiksi Penjualan Wallpaper Menggunakan Algoritma C4.5 STMIK Royal Ksiaran,”

JURTEKSI (Jurnal Teknol. dan Sist. Informasi), vol. 2, pp. 9–13, 2016.

[5] M. E. Lasulika, “Prediksi Harga Komoditi Jagung Menggunakan K-Nn Dan Particle Swarm Optimazation Sebagai Fitur Seleksi,” Ilk.

J. Ilm., vol. 9, no. 3, p. 233, 2017.

[6] P. Juwita and P. Hendikawati, “Ketepatan Klasifikasi Metode Regresi Logistik dan CHAID dengan Pembobotan Sampel,” Prism. Pros.

Semin. Nas. Mat., vol. 1, no. 3, pp. 684–695, 2018.

[7] R. D. Bekti, N. Pratiwi, M. T. Jatipaningrum, and D. Auliana, “Analisis Pengaruh Lokasi Dan Karakteristik Konsumen Dalam Memilih Minimarket Dengan Metode Regresi Logistik Dan Cart,” Media Stat., vol. 10, no. 2, p. 119, 2017.

Referensi

Dokumen terkait

Roman Kusumohardono ABSTRACT MINIMIZATION OF LEAD TIME FOR SAND TRAP USING VALUE STREAM MAPPING: A CASE STUDY AT PT.. HALLIBURTON INDONESIA By Roman Kusumohardono

"It is widely distributed in the south-eastern region of central South America comprising south-eastern Bolivia, Paraguay, southern Brazil, Uruguay, and southern and central Argentina"