KESIMPULAN - ALGORITMA K-NEAREST NEIGHBOUR UNTUK KLASIFIKASI HARGA HANDPHONE SKRIPSI

Bab ini berisi kesimpulan dari penelitian dan juga saran yang diberikan pada sistem yang sudah dibuat.

BAB II

LANDASAN TEORI

Bab 2 ini akan menjelaskan landasan teori mengenai klasifikasi dan proses yang digunakan dalam pengklasifikasian yang akan penulis gunakan dalam melakukan penelitian.

2.1 Data Mining

Dengan cara pandang yang berbeda-beda mengenai pengetahuan membuat para ahli memberikan definisi berbeda mengenai Data Mining. Sebagian ahli mengatakan bahwa Data Mining adalah langkah analisis terhadap proses penemuan ilmu pengetahuan di dalam basis data atau knowledge discovery in database yang disingkat KDD (Fayyad et al. 1996).

Pengetahuan bisa berupa pola data atau relasi antar data yang valid (yang tidak diketahui sebelumnya).

Data mining merupakan gabungan sejumlah disiplin ilmu komputer (ACM 2006), (Clifton 2010), yang didefinisikan sebagai proses penemuan pola-pola baru dari kumpulan-kumpulan data sangat besar, meliputi metode-metode yan merupakan irisan dari Artificial Intelligence, Machine Learning Statistics, dan Database System (ACM 2006)

Data Mining ditujukan untuk mengekstrak (mengambil intisari) pengetahuan dari sekumpulan data sehingga didapatkan struktur yang dapat dimengerti manusia (ACM 2006) serta meliputi basis data dan managemen data, prapemrosesan data, pertimbangan model dan inferensi, ukuran ketertarikan, pertimbangan kompleksitas, pascapemrosesan terhadap struktur yang ditemukan, visualisasi, dan online updating (ACM 2006).

Gambar 2.1 Proses KDD

Menurut Fayyad dkk (2009) secara garis besar proses KDD (Knowledge Discovery and Data) dijelaskan sebagai berikut :

a. Seleksi

Pemilihan atau seleksi data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi akan digunakan untuk proses data mining.

b. Pre-processing/ Cleaning

Proses cleaning yaitu menghilangkan duplikasi data, memeriksa sata yang tidak konsisten, dan memperbaiki kesalahan data (tipografi).

c. Transformasi

Proses tranformasi data adalah pengumpulan (aggregation) yaitu mengaplikasikan , kesimpulan pada data, generalisasi (generalization) yaitu mengganti data primitif/data level rendah menjadi data level tinggi, normalisasi (normalizatiton) dan kontruksi atribut yaitu mngkontruksi dan menambahkan atribut baru untuk membantu proses penambangan.

d. Penambangan data

Tahap ini menimplemetasikan algoritma penambangan data yang digunakan untuk mengubah data yang telah disiapkan untuk menghasilkan hasil yang diinginkan.

e. Interpretasi/evaluasi

Pada tahap ini, hasil dari proses penambangan data dipresentasikan kepada user untuk menjelaskan luaran sistem.

2.2 Fungsi Data Mining

Data mining dibagi menjadi dua kategori utama (Hand dan Kamber 2006) yaitu : 1. Prediktif

Untuk memprediksi nilai dari atribut tertentu berdasarkan pada nilai atribut-atribut lain.

Atribut yang diprediksi umumnya dikenal sebagai target atau variable tak bebas, sedangkan atribut-atribut yang digunkana untuk membuat prediksi dikenal sebagai variable bebas.

2. Deskriptif

Untuk menurunkan pola-pola (korelasi, trend, cluster, teritori, dan anomali) yang meringkas hubungan yang pokok dalam data. Sering merupakan penyelidikan dan seringkali memerlukan teknik post-processing untuk validasi dan penjelasan hasil.

Berdasarkan fungsionalitasnya, tugas-tugas data mining bisa dikelompokkan kedalam enam kelompok berikut (Fayyad et al. 1996)

a. Klasifikasi(classification)

Menggeneralisasi struktur yang diketahui untuk diaplikasikan pada data. Misalkan, klasifikasi penyakit kedalam sejumlah jenis, klasifikasi email ke dalam spam atau bukan.

b. Klasterisasi(clustering)

Mengelompokkan data yang tidak diketahui label kelasnya ke dalam kelompok tertentu sesuai dengan ukuran kemiripannya.

c. Regresi(regression)

Menemukan suatu fungsi yang memodelkan data dengan galat(kesalahan prediksi) seminimal mungkin.

d. Deteksi anomaly(anomaly detection)

Mengidentifikasi data yang tidak umum, bisa berupa outlier(pencilan), perubahan atau deviasi yang mungkin sangat penting dan perlu investigasi lebih lanjut.

e. Pembelajaran aturan asosiasi(association rule learning) Mencari relasi antar variabel

f. Perangkuman (summarization)

Menyediakan representasi data yang lebih sederhana, meliputi visualisasi dan pembuatan laporan.

2.3 Teknik Pembelajaran Data Mining

Di dalam data mining sendiri dalam metode pembelajaran tekniknya yaitu (Retno 2002) : a) Supervised Learning

Adalah teknik yang paling banyak digunakan. Teknik ini sama dengan “programming by example”. Teknik ini melibatkan fase pelatihan dimana data pelatihan history yang karakter-karakternya dipetakan ke hasil-hasil yang telah diketahui diolah dalam algoritma data mining. Proses ini melatih algoritma untuk mengenali variabel-variabel dan nilai-nilai kunci yang nantinya akan digunakan sebagai dasar dalam membuat perkiraan-perkiraan ketika diberikan data baru.

Contohnya : Decision Tree Learning (DTL), Bayesian Learning (BL), Artificial Neural Network (ANN), Suport Vector Machine (SVM), Nearest Neighbour Rule (NNR), Long Short-Term Memory (LSTM).(Dr Suryanto 2019)

b) Unsupervised Learning

Teknik ini tidak melibatkan fase pelatihan seperti yang terdapat pada supervised learning.

Teknik ini bergantung pada penggunaan algoritma yang mendeteksi semua pola, seperti associations dan sequence yang muncul dari kriteria penting yang spesifik dalam data masukan. Pendekatan ini mengarah pada pembuatan banyak aturan (rules) yang mengkarakterisasikan penemuan associations, clusters, dan segments, aturan-aturan ini kemudian dianalisis untuk menemukan hal-hal yang penting.

Contoh : centroid-based clustering, hierarchical clustering, density-based clustering, grid-based clustering, self-organizing map.(Dr Suryanto 2019)

c) Reinforcement Learning

Teknik pembelajaran ini jarang digunakan dibandingkan dengan deua teknik lainnya, namun memiliki penerapan-penerapan yang terus dioptimalkan dari waktu ke waktu dan memiliki control adaptif. Teknik ini sangat menyerupai kehidupan nyata yaitu seperti “on-job-training”, dimana seorang pekerja diberikan sekumpulan tugas yang membutuhkan keputusan-keputusan. Pada beberapa titik waktu kelak diberikan penilaian atas performance pekerjaan tersebut kemudian pekerja diminta mengevaluasi keputusan-keputusan yang telah dibuatnya sehubungan dengan hasil performance pekerja tersebut.

Sangat tepat digunakan untuk menyelesaikan masalah-masalah yang sulit yang bergantung pada waktu.

Contoh : Q-learning, SARSA, Deep Reinforcement Learning (DRL) .(Dr Suryanto 2019)

2.4 Klasifikasi

Klasifikasi dapat didefinisikan secara detail sebagai suatu pekerjaan yang melakukan pelatihan/pembelajaran terhadap fungsi target f yang memetakan setiap vector (set fitur) x ke dalam satu dari sejumlah label kelas y yang tersedia. Pekerjaan pelatihan tersebut akan menghasilkan suatu model yang kemudian disimpan sebagai memori (Prasetyo, 2013).

Dapat juga diartikan sebagai suatu kumpulan data uji digunakaan untuk menentukan keakuratan suatu model. Umumnya, data set yang diberikan dibagi ke dalam sekumpulan data latih dan data uji, dimana data latih digunakan untuk membentuk model dan data uji digunakan untuk menguji.

Gambar 2.2 Proses klasifikasi

Proses klasifikasi didasarkan pada empat komponen (Gorunescu, 2011) : 1. Kelas

Variabel terikat yang berupa kategorikal yang mempresentasikan label yang terdapat pada objek. Contohnya : resiko penyakit jantung, resiko kredit.

2. Predictor

Variabel bebas yang direpresentasikan oleh karekteristik data. Contohnya: merokok, tabungan 3. Training dataset

Satu set data yang berisi nilai dari kedua komponen di atas yang digunakan untuk menentukan kelas yang cocok berdasarkan predictor

4. Testing dataset

Berisi data yang akan diklasifikasikan oleh model yang telah dibuat dan akurasi klasifikasi dievaluasi.

2.5 Information Gain 2.5.1 Entropy

Secara istilah, entropy adalah keberbedaan atau keberagaman. Dalam data mining entropy didefinisikan sebagai suatu parameter untuk mengukur heterogenitas (keberagaman) dalam suatu himpunan data. Semakin heterogen suatu himpunan data, semakin besar pula nilai entropy-nya. Secara matematis, entropy dirumuskan sebagai (Dr. Suryanto 2019) :

Entropy(S) ≡ ∑ −^𝑐_𝑖 pi log₂𝑝i , ---(2.1)

c : jumlah niai yang terdapat pada atribut target (jumlah kelas)

pi : menyatakan porsi atau rasio antara jumlah sample di kelasi I dengan jumlah semua sampel pada himpunan data.

2.5.2 Information Gain

Secara istilah, Information Gain adalah perolehan informasi. Dalam data mining information gain didefinisikan sebagai ukuran efektivitas suatu atribut dalam mengkalsifikasikan data.

Secara matematis, information gain dari suatu atribut A, dituliskan sebagai (Dr. Suryanto 2019):

Gain(S, A) ≡ Entropy(S) - ∑ ^|𝑆𝑣|

𝑣∈𝑉𝑎𝑙𝑢𝑒𝑠(𝐴) |𝑆| Entropy(Sv) ---(2.2) Di mana :

A : atribut

V : menyatakan suatu nilai yang mungkin untuk atribut A Values(A) : himpunan nilai-nilai yang mungkin untuk atribut A

|Sv| : jumlah sampel untuk nilai v

|S| : Jumlah seluruh sampel data

Entropy(Sv) : entropy unutk sampel-sampel yang memiliki nilai v

Berdasarakan formula di atas, himpunan data yang memiliki dua kelas dengan jumlah sampel di kelas pertama sama persis dengan jumlah sampel di kelas kedua akan memiliki entropy yang maksimum (yaitu sama dengan 1). Artinya , himpunan data tersebut memiliki keberagaman maksimum. Sebaliknya, himpunan data yang memiliki dua kelas dengan jumlah sampel pada salah satu kelas adalah 0 akan memiliki entropy yang minimum (yaitu sama dengan 0). Artinya, himpunan data tersebut memiliki keberagaaman minimum (Dr. Suryanto 2019).

Information gain akan mengalami masalah untuk atribut yang memiliki nilai sangat bervariasi.

Untuk mengatasi masalah tersebut, dapat menggunkan ukuran lain yang disebut Gain Ratio, yang dihitung berdasarkan Split Information yang dirumuskan sebagai (Mitchell 1997) : SplitInformation ≡ ∑^𝑐_{𝑖 =1}−^|𝑆𝑖|

|𝑆| log2

|𝑆𝑖|

|𝑆| --- (2.3)

S : himpunan sampel data

S1-Sc : sub himpunan sampel data yang terbagi berdasarkan jumlah variasi nilai pada atribut A.

Selanjutnya Gain Ratio di rumuskan dengan Information Gain dibagi dengan Split Information sebagai (Mitcell 1997)

GainRatio(S, A) ≡ ^{𝐺𝑎𝑖𝑛(𝑆,𝐴)}

𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛(𝑆,𝐴) ---(2.4)

2.6 Normalisasi Data

Nilai-nilai atribut data yang berbeda-beda rentangannya seringkali perlu dinormalisasikan atau distandarisasikan agar proses Data Mining tidak bias. Biasanya normalisasi data dilakukan ke dalam rentang yang kecil, seperti [0,1] atau [-1,1], sehingga semua atribut akan memiliki bobot yang sama. Teknik normalisasi sangat penting dalam data mining, khususnya klasifikasi dan klasterisasi.(Dr Suryanto, 2019)

2.6.1 Normalisasi Min-Max

Metode ini menggunakan nilai minimum dan maksimum untuk melakukan konveksi data secara linier. Misalkan A adalah atribut bertipe numerik, minA adalah minimum dari atribut A, maksA adalah maksimum dalam atribut A. Suatu nilai xi dapat dinormalisasikan menjadi nilai baru 𝑥_𝑖¹ yang berasa dalam rentang [minbaruA, maksbaruA] dengan formula :

𝑥_𝑖¹ = ^{𝑥𝑖−𝑚𝑖𝑛𝐴}

𝑚𝑎𝑘𝑠𝐴−𝑚𝑖𝑛𝐴 (minbaruA - maksbaruA) + minbaruA --- (2.5)

Metode ini banyak digunakan secara praktis. Namun, ,metode ini memiliki kelemahan pada dua kondisi, yaitu : jika terdapat nilai pencilan yang mendominasi dan menjadi minA dan maksA (yang jauh lebih besar atau jauh lebih kecil dibandingin nilai-nilai lainnya) atau jika suatu saat ada nilai-nilai atribut yang lebih besar daripada maksA atau lebih kecil daripada minA maka nilai-nilai tersebut akan berada di luar rentang [minbaruA. maksbaruA].(Dr Suryanto 2019)

2.6.2 Normalisasi Z-score

Metode yang disebut juga dengan zero-mean ini menormalisasi suatu nilai xi pada atribut A menjadi nilai baru 𝑥_𝑖¹ berdasarkan nilai rata-rata 𝐴̅ dan 𝜎 A menggunakan formula :

𝑥_𝑖¹ = ^{𝑥𝑖−𝐴̅}

𝜎 A --- (2.6)

Dengan manfaat nilai rata-rata dan deviasi standar (𝜎), metode ini lebih stabil terhadap nilai-nilai pencilan maupun adanya nilai-nilai-nilai-nilai baru yang lebih besar daripada maksa atau lebih kecil daripada mina. (Dr. Suryanto 2019)

2.7 K-Nearest Neighbour

K-Nearest Neighbor (KNN) sangat sederhana dan mudah diimplementasikan hanya dengan mengelompokkan suatu data baru berdasarkan jarak data baru itu ke beberapa data/tetangga (neighbor) terdekat.dalam hal ini jumlah data/tetangga terdekat di tentukan oleh user yang dinyatakan dengan k. Setiap data testing dihitung jaraknya yang paling dekat ke data testing.(Santosa, 2007)

Secara ringkas langkah-langkah k-nearest neighbour dapat diuraikan sebagai berikut (Santoso, 2007)

1. Mulai input data training, label data training , k, data testing 2. Hitung jarak dari semua data testing ke setiap data training

3. Lalu tentukan berapa nilai k dari data training yang jaraknya paling dekat dengan data testing.

4. Periksa label dari data yang diperoleh dengan nilai jarak terdekat berdasakan nilai k yang telah ditentukan

5. Tentukan label yang frekuensinya paling banyak dari data yang dipeoleh sejumlah nilai k

6. Masukkan data testing ke kelas dengan frekuensi paling banyak.

7. Lalu proses klasifikasi akan berakhir.

Gambar 2.3 KNN dengan nilai K tetangga (a) 1-NN; (b) 3-NN;(c) 5-NN;(d) 7-NN Terdapat sejumlah formula untuk mengukur jarak antar dua objek data yang memiliki atribut numerik, yaitu Euclidean distance dan Manhattan distance (Dr. Suryanto 2019)

Euclidean distance adalah formula pengukuran jarak yang paling popular. Formula yang biasa disebut dengan jarak garis lurus ini menggunakan rumus :

d(i, j) =

√(xi1− 𝑥𝑗1)²+ (𝑥𝑖2 − 𝑥𝑗2)²+ ⋯ + (𝑥𝑖𝑝 − 𝑥𝑗𝑝)² ---(2.7)

Dimana i dan j adalah dua objek data yang memiliki p atribut bernilai numerik, yang dinyatakan sebagai i = (xi1,xi2,…,xip) dan j = (xj1,xj2,…,xjp)

Manhattan Distance atau city block adalah ukuran jarak yang mengadaptasi jarak antara dua lokasi dalam sebuah kota, misalnya 3 blok ke kanan dan 4 blok ke bawah sehingga jarak totalnya adalah 7 blok. Ukuran jarak ini menggunakan rumus

d(i,j) = |x

-x

|+|x

-x

|+…+|x

-x

|

---(2.8)

Di mana |xi1-xj1| menyatakan selisih absolut antara nilai atribut ke-1 pada objek i dan nilai atribut ke-1 pada objek j. misalnya, jika xi1=2 dan xj1 = 5, maka |xi1-xj1| = |2-5| = 3

Kelemahan algoritma ini adalah pengaturan parameter k untuk mengklasifikasikan kelas yang berjumlah genap. Dengan menggunakan k yang genap, dua atau empat, mungkin saja jumlah pola terdekat kelas sama sehingga knn kesulitan melakukan klasifikasi (tidak ada cara lain memilih salah satu kelas secara acak). (Dr. Suryanto 2019)

Parameter k ini berfungsi untuk mengatur tingkat generalisasi terhadap data-data yang akan datang (di luar data latih). Dengan para meter k yang kecil knn akan memiliki tingkat generalisasi data yang tinggi. Sebaliknya dengan parameter k yang besar, knn akan memiliki tingkat generalisasi data yang rendah dan mungkin menjadi overfit, hanya mampu mengklasifikasi data-data latih saja namun gagal mengklasifikasian data-data baru yang akan datang. (Dr. Suryanto 2019)

2.8 Evaluasi dan Validasi

Dalam evaluasi dan validasi penulis menggunakan k –fold cross validation dan akurasi nya menggunakan metode confusion matriks

2.8.1 K-Fold Cross Validation

Metode K-Fold Cross Validation mempartisi himpunan data D secara acak menjadi k fold (subhimpunan) yang saling bebas: f1, f2, f3, …, fk, sehingga masing masing fold berisi 1/k bagian data. Selanjutnya anda dapat membangun k himpunan data: D1, D2, D3, … Dk yang masing-masing berisi (k-1) fold untuk data latih, dan 1 fold untuk data uji. Di ilustrasikan pada gambar :

Gambar 2.4 Cross validation dengan 5-Fold Cross Validation

Dengan ini jumlah kemunculan setiap sampel dalam data latih pasti sama dan setiap sampel pasti muncul satu dan hanya satu kali (tidak kurang dan tidak lebih) dalam data uji (Dr.

Suryanto 2019).

Bentuk umum pendekatan ini memecah set data mejadi k bagian set data dengan ukuran yang sama. Setiap kali berjalan, satu pecahan berperan sebagai set data uji sedangkan pecahan lainnya menjadi set data latih. Prosedur tersebut dilakukan sebanyak k kali sehingga setiap data berkesempatan menjadi data uji tepat satu kali dan menjadi data latih sebanyak k-1 kali (Eko Prasetyo 2014).

2.8.2 Confusion Matrix

Confusion matrix merupakan table yang mencatat hasil kerja klasifikasi.

Tabel 2.1 Matriks confusion untuk klasifikasi 2 kelas

f

ij Kelas hasil prediksi(j)

Kelas = 1 Kelas = 0

Kelas asli (i)

Kelas = 1 f11 f10

Kelas = 0 f01 f00

Contoh confusion matrix yang melakukan klasifikasi masalah biner untuk dua kelas., misalnya kelas 0 dan 1. Setiap sel fij dalam matriks menyatakan jumlah data dari kelas i yang prediksinya masuk ke kelas j. Misalnya sel f11 adalah jumlah data dalam kelas 1 yang secara benar dipetakan ke kelas 1, dan f10 adalah data dalam kelas 1 yang dipetakan secara salah ke kelas 0.

Berdasarkan isi matriks confusion, maka dapat diketahui jumlah data dari masing-masing kelas yang di prediksi secara benar yaitu (f11+f00) dan data yang diklasifikasikan secara salah yaitu(f10+f01).

Kuantitas matriks confusion dapat diringkat menjadi dua nilai yaitu akurasi dan laju error.

Dengan mengetahui jumlah data yang diklasifikasikan secara benar maka dapat diketahui akurasi hasil prediksi dan dengan mengetahui jumlah data yang diklasifikasikan secara salah maka diketahui laju error dari prediksi yang dilakukan. Dua kuantitas ini digunakan sebagai matriks kinerja klasifikasi.(Eka Pasetyo, 2014)

Formula untuk menghitung akurasi adalah sebagai berikut : Akurasi= Jumlah data yang diprediksi secara benar

Jumlah prediksi yang dilakukan * 100% ---(2.9) Akurasi = ^{𝑓11+𝑓00}

𝑓11+𝑓10+𝑓01+𝑓00 *100%

Formula untuk menghitung lanju error (kesalahan prediksi) sebagai berikut : Laju error = Jumlah data yang diprediksi secara salah

Jumlah preddiksi yang di lakukan * 100% ---(2.10) Laju error = ^{𝑓10+𝑓01}

𝑓11+𝑓10+𝑓01+𝑓00 * 100%

BAB III

METODOLOGI PENELITIAN

Bab 3 ini berisikan metodologi yang akan digunakan penulis dalam penelitian ini. Pada bagian ini akan menjelaskan proses sistem, sumber data, user interface, peralatan penelitian yang digunakan dan uji akurasi data.

3.1 Sumber Data

Data yang digunakan pada penelitian ini adalah data yang diambil dari web www.kaggle.com (https://www.kaggle.com/iabhishekofficial/mobile-price-classification/version/1) Data yang telah didapatkan berisi data dari penjualan handphone yang di dapat dari berbagai perusahaan.

Nantinya fitur atau atribut ini akan menentukan apakah termasuk dalam handphone dengan harga murah atau mahal. Dari data ini terdapat data testing sebanyak 1000 data yang memiliki 21 atribut dan data training sebanyak 2000 data yang memiliki 20 atribut. Perbedaan data testing dan training terletak pada di data testing tidak ada atribut price range sebagai data label sedangkan di data training ada dan juga aribut id tidak ada di data testing namun di data training tidak ada. Fitur- fitur dan penjelasannya dapat dilihat pada table 3.1

Table 3.1 Atribut harga handphone No Nama Atribut Keterangan

1 ID Nomor

2 Baterry_Power Kapasitas baterai(mAh)

3 Blue Sudah memiliki bluethoot atau tidak

4 Clock_Speed Kecepatan mikroprosesor untuk menjalankan nstruksi(GHz)

5 Dual_Sim Memiliki dua sim atau tidak

6 Fc Ukuran kamera depan(MP)

7 Four_G Sudah memiliki jaringan 4G apa tidak 8 Int_Memory Kapasitas memory internal (GB)

9 M_Dep Ketebalan Handphone(cm)

10 Mobile_wt Berat Handphone(gram)

11 N_Cores Jumlah inti presesor(MB)

12 PC Ukuran kamera utama(MG)

13 Px_height Tinggi resolusi pixel(px) 14 Px_widht Lebar resolusi pixel(px)

15 RAM Random Acces Memory dalam(MB)

16 Sc_H Tinggi layar handphone (cm)

17 Sc_W Lebar layar Handphone (cm)

18 Talk_Time Lamanya waktu bicara untuk menggambarkan durasi penggunaan konstan yang di dukung oleh baterai tunggal yang terisi penuh satuan dalam secon(s)

19 Three_G Sudah 3G atau belum

20 Touch_Screen Sudah layar sentuh atau belum

21 Wifi Sudah ada wifi atau belum

Dalam data ini terdapat 4 kelas label yang akan dikategorikan dapat dilihat sebagai berikut :

Gambar 3.1 Kelas label

Berikut ini contoh 21 atribut data testing yang di dapat dari website www.kaggle.com Tabel 3.2 21 atribut Data Testing

id battery_power blue clock_speed dual_sim fc four_g int_memory m_dep mobile_wt

1 1043 1 1.8 1 14 0 5 0.1 193

2 841 1 0.5 1 4 1 61 0.8 191

3 1807 1 2.8 0 1 0 27 0.9 186

4 1546 0 0.5 1 18 1 25 0.5 96

n_cores pc px_height px_width ram sc_h sc_w talk_time three_g touch_screen wifi

3 16 226 1412 3476 12 7 2 0 1 0

Berikut ini contoh 20 atribut data training beserta label yang di dapat dari website www.kaggle.com

Tabel 3.3 20 atribut Data Training

battery_power blue clock_speed dual_sim fc four_g int_memory m_dep mobile_wt n_cores

842 0 2.2 0 1 0 7 0.6 188 2

pc px_height px_width ram sc_h sc_w talk_time three_g touch_screen wifi price_range

3.1.1 Data yang digunakan

Dalam penelitian ini data yang digunakan hanyalah data yang atributnya telah diseleksi terlebih dahulu menggunakan aplikasi WEKA dengan algoritma info gain dalam menyeleksi data sehingga dari 20 atribut yang digunakan hanya 4 atribut yaitu (Batrerry power, Px height, Px weight dan Ram) yang memiliki bobot tertinggi. Sehingga penulis menggunakan ke 4 atribut tersebut untuk penelitian.

Tabel 3.4 4 atribut yang sudah diseleksi battery_power px_height px_width ram

842 20 756 2549

3.2 Spesifikasi Alat

Perangkat keras yang digunakan dalam penelitian ini adalah laptop LENOVO ThinkPad X230i, dengan spesifikasi sebagai berikut ;

CPU : Intel core i3-3120M, 2.50GHz

RAM : 4GB

HDD : 298GB

Perangkat lunak yang digunakan dalam penelitian ini adalah aplikasi WEKA versi 3.8.5, Matlab versi 2016B dan Windows 10 pro 64-bit

3.3 Tahap Penelitian 3.3.1 Studi kasus

Handphone salah satu alat komunikasi yang tak dapat dipisahkan oleh masyarakat. Dalam kasus ini ketika seorang ingin mendirikan perusahaan handphone sendiri, maka hal yang harus ada sebagai tolak ukur adalah penentuan harga handphone yang akan dijual. Dalam menentukan handphone tersebut termasuk dalam kategori mahal atau murah adalah dilihat dari fitur yang dimiliki dan seberapa jauh hubungan fitur ini dalam menentukan harga handphone.

3.3.2 Penelitian Pustaka

Dalam melakukan penelitian ini penulis mencari dan mengumpulkan data literature yang berkaitan dengan teori-teori yang akan peneliti gunakan dalam meneliti. Literatu ini nantinya digunakan sebagai pendukung dalam proses penelitian ini. Literature yang penulis gunakan berasal dari buku, jurnal ilmiah dan karya ilmiah.

3.4 Skenario Sistem

Proses sistem pada penelitian ini akan diawali dengan data yang akan digunakan, dimana data yang digunakan pada penelitian ini berasal dari website Kaggle yang di ambil pada bulan September 2019. Data tersebut berisi data spesifikasi yang terdapat dalam sebuah Handphone yang berjumlah 2 file csv, file pertama adalah file testing dan file kedua adalah file training.

Di dalam file testing terdapat 21 atribut yaitu (ID, Battery Power, Blue, Clock Speed, Dual sim, fc, Four G, Int Memory, M deep, Mobile wt, N cores, Pc, Px Height, Px Width, Ram, Sc h, Sc w, Talk Time, Three G, Touch Screen dan Wifi) dan di dalam file training terdapat 20 atribut yaitu (Battery Power, Blue, Clock Speed, Dual sim, fc, Four G, Int Memory, M deep, Mobile wt, N cores, Pc, Px Height, Px Width, Ram, Sc h, Sc w, Talk Time, Three G, Touch Screen dan Wifi) dan kelas label nya bernama Price range. Dari semua atribut data termasuk atribut berjenis numerik.

Sebelum proses berlanjut data akan di ubah menjadi bentuk excel dengan format .xls, selanjutnya data mentah ini akan dilakukan tahap preprocessing. Data yang diperoleh akan dilakukan seleksi atribut menggunakan aplikasi WEKA dengan menggunakan algoritma info gain untuk mendapatkan atribut terbaik dari 20 atribut yang akan diuji. Dari hasil seleksi diperoleh sebanyak 4 atribut terbaik yaitu (Battery Power, Px Height, Px Width dan Ram).

Dimana data yang digunakan adalah data yang memiliki bobot paling tinggi dari atribut yang lain yang telah diseleksi menggunakan system. Lalu data yang telah dipilih atributnya akan diproses ke tahap selanjutnya yaitu proses normalisasi data. Metode yang digunakan pada penelitian ini adalah metode tanpa normalisasi, Min-Max dan Z-score.

Setelah tahap pre-processing tahap selanjutnya adalah klasifikasi menggunakan metode K-Nearest Neighbour. Adapun algoritma dari K-K-Nearest Neighbour adalah :

1. Mulai input data training, label data training , k, data testing 2. Hitung jarak dari semua data testing ke setiap data training

3. Lalu tentukan berapa nilai k dari data training yang jaraknya paling dekat dengan data testing.

4. Periksa label dari data yang diperoleh dengan nilai jarak terdekat berdasakan nilai k yang

Dalam dokumen ALGORITMA K-NEAREST NEIGHBOUR UNTUK KLASIFIKASI HARGA HANDPHONE SKRIPSI (Halaman 21-66)