Pengaruh Metode Pengukuran Jarak pada Algoritma k-NN untuk Klasifikasi Kebakaran Hutan dan Lahan

(1)

Pengaruh Metode Pengukuran Jarak pada Algoritma k-NN untuk Klasifikasi Kebakaran Hutan dan Lahan

Ichwanul Muslim Karo Karo^1,*, Ananda Khosuri²,Juan Steiven Imanuel Septory², Dimas Pebrian Supandi²

1 Fakultas Informatika, Universitas Telkom, Bandung, Indonesia

2 Fakultas Informatika, Universitas Surya, Tangerang, Indonesia

Email: ^1,*[email protected], ²[email protected],³[email protected],

4[email protected]

Email Penulis Korespondensi: [email protected]

Abstrak−Kebakaran hutan dan lahan merupakan salah satu masalah serius dan berulang terjadi di Indonesia. Intensitas tingginya kebakaran hutan disebabkan oleh persebaran titik panas di wilayah rawan kebakaran. Salah satu upaya pencegahan dan meminimalkan risiko kebakaran hutan adalah dengan cara mengidentifikasi jenis titik panas dengan menggunakan pendekatan klasifikasi. Salah satu algoritma klasifikasi terpopuler adalah k Nearest Neighbor (k-NN). Algoritma tersebut menggunakan pendekatan perhitungan jarak dalam mengklasifikasikan objek. Tujuan penelitian ini adalah mengklasifikasikan tipe titik panas yang tersebar di Indonesia menggunakan algoritma k-NN serta menganalisis pengaruh metode perhitungan jarak pada algoritma k-NN. Jenis metode pengukuran jarak yang dianalisis meliputi Euclidean, Canberra, Chebyshev, dan Manhattan Adapun dataset yang digunakan adalah sebaran titik panas di Indonesia yang diperoleh dari Global Forest Watch (GFW).

Penelitian merancang dataset dengan dua kondisi, melalui tahap pre-processing dan tidak. Secara umum, akurasi model dari kombinasi k-NN dengan ragam metode pengukuran jarak diatas 90%. Tahap pre-processing mampu meningkatkan performansi model 1-8 kali lipat. Kombinasi k-NN dengan Manhattan merupakan pilihan terbaik untuk mengidentifikasi jenis titik api dengan akurasi 92,6%.

Kata Kunci: K-NN; Euclidean; Canberra; Chebyshev; Manhattan

Abstract−Forest and land fires are a serious and recurring problem in Indonesia. The high intensity of forest fires is caused by the distribution of hotspots in fire-prone areas. One of the efforts to prevent and minimize the risk of forest fires is to identify the types of hotspots using a classification approach. One of the most popular classification algorithms is k Nearest Neighbor (k-NN). The algorithm uses a distance calculation approach in classifying objects. The purpose of this study is to classify the types of hotspots scattered in Indonesia using the k-NN algorithm and to analyze the effect of the distance calculation method on the k-NN algorithm. The types of distance measurement methods analyzed include Euclidean, Canberra, Chebyshev, and Manhattan. The dataset used is the distribution of hotspots in Indonesia obtained from Global Forest Watch (GFW). The study designed a dataset with two conditions, through the pre-processing stage and not. In general, the model accuracy of the k-NN combination with various distance measurement methods is above 90%. The pre-processing stage can increase the model's performance 1-8 times. The combination of k-NN with Manhattan is the best choice to identify the types of hotspots with an accuracy of 92.6%.

Keywords: k-NN; Euclidean; Canberra; Chebyshev; Manhattan

1. PENDAHULUAN

Kebakaran hutan dan lahan merupakan salah satu masalah serius dan berulang terjadi di Indonesia. Kebakaran hutan terjadi hampir di seluruh wilayah Indonesia, dan intensitas akan meningkat saat musim kemarau [1]. Dampak dan Luasnya wilayah kebakaran hutan dan lahan di pengaruhi oleh banyaknya titik panas yang menyebar didaerah tersebut [2]. Menurut data Kementerian Lingkungan Hidup dan Kehutanan, luas kebakaran hutan dan lahan di Indonesia mencapai 328.722 hektar. Adapun wilayah terluas mencakup Kalimantan Tengah seluas 44.769 hektar, Kalimantan Barat 25.900 hektar, Kalimantan Selatan 19.490 hektar, Sumatera Selatan 11.826 hektar, Jambi 11.022 hektar dan Riau 49.266 hektar [2] . Berdasarkan akumulasi data tersebut, jumlah kebakaran terparah terjadi di pulau Sumatera.

Salah satu upaya pencegahan dan meminimalkan risiko kebakaran hutan adalah dengan cara mengidentifikasi jenis titik panas di lahan [3, 4]. Salah satu pendekatan yang umum dilakukan untuk mengklasifikasikan data adalah dengan menggunakan pendekatan penambangan data (data mining). Penambangan data adalah suatu proses penambangan informasi penting dari suatu data yang tidak dapat dilakukan oleh metode tradisional [5]. Salah satu fungsi penambangan data yang dapat digunakan untuk mengidentifikasi jenis titik panas adalah klasifikasi [1, 6]

Satu dari sepuluh algoritma klasifikasi terpopuler adalah k-nearest neighbor (k-NN) [6, 7]. Ide algoritma k- NN adalah menggunakan fungsi jarak dalam menghitung kemiripan antar data sedemikian hingga dikelompokkan berdasarkan kemiripan antar data. Fungsi jarak Euclidean merupakan fungsi jarak fundamental dalam pengembangan algoritma ini. Walaupun demikian, bukan berarti fungsi jarak Euclidean fungsi jarak terbaik pada k-NN untuk mengklasifikasikan sebuah permasalahan[7]. Sehingga kita perlu menginvestigasi fungsi jarak terbaik untuk setiap kasus klasifikasi kebakaran hutan dan lahan demi memperolah hasi terbaik.

Penelitian[7] menginvestigasi fungsi jarak terbaik pada k-NN untuk mengklasifikasikan penerima Kartu Indonesia Pintar. Alhasil, kombinasi fungsi jarak Mahalanobis dan k-NN menghasilkan performance terbaik untuk dimensi data yang besar sedangkan untuk dimensi data yang lebih kecil, kombinasi fungsi Manhattan dan k-NN

(2)

menghasilkan performansi terbaik. Penelitian serupa dilakukan oleh [8], mereka mengevaluasi performansi k-NN dengan beberapa fungsi jarak, Chebyshev, Euclidean, dan Manhattan. Experimen percobaan dilakukan untuk mengklasifikasikan sebuah data set yang terdiri dari 41 attribut dan 2 kelas, dengan type data numerik. Proses normalisasi data dilakukan untuk menstandarkan data set. Fungsi jarak Manhattan lebih unggul dibandingkan dengan 2 metode jarak lainnya dengan akurasi 97.8 persen dan tingkat spesifikasi 96.57%.

Penelitian ini menyajikan analisis tiga aspek, pengklasifikasian jenis titik kebakaran hutan dan lahan dengan algoritma k-NN, menganalisis pengaruh metode pengukuran jarak pada algoritma k-NN serta menganalisis pengaruh pre-processing data terhadap performansi model klasifikasi. Adapun data set diperoleh dari Global Forest Watch (GFW). Sedangkan metode pengukuran jarak yang dianalisis adalah Euclidean, Canberra, Chebyshev dan Manhattan.

2. METODOLOGI PENELITIAN

2.1 Tahapan Penelitian

Secara umum, penelitian ini dibagi menjadi dua scope, studi literatur dan membangun model. Studi literatur bertujuan memperkuat permasalahan serta sebagai landasan teori penelitian. Adapun cakupan studi literatur adalah jurnal, artikel dan buku yang memuat tentang penerapan algoritma k-NN, pengaruh metode jarak pada k-NN serta model klasifikasi kebakaran hutan dan lahan.

Gambar 1 menyajikan alur proses pembangunan model klasifikasi jenis titik api. Proses membangun model diawali dengan mengumpulkan dataset dari situs web Global Forest Watch (GFW). Terdapat dua perlakuan terhadap dataset, dataset melalui proses pre-processing dan tidak. Proses selanjutnya adalah pemodelan dengan algoritma k-NN. Tahapan terakhir adalah mengevaluasi performansi dari setiap model klasifikasi.

Gambar 1. Alur Proses Pembangunan Model Klasifikasi 2.1.1 Dataset

Penelitian ini menggunakan data set kebakaran hutan dan lahan yang ada di Indonesia. Data set berasal dari pencatatan kebakaran hutan dan lahan oleh Global Forest Watch (GFW) dari tahun 2018 hingga 2019. Data set ini juga sudah pernah digunakan pada penelitian sebelumnya [3]. Data set terdiri dari 185288 raw data dengan 4 jenis titik api (Tabel 1), dimana setiap raw data mewakili satu titik api serta 12 atribut (Tabel 2).

Tabel 1. Jumlah data setiap kelas Jenis titik api Jumlah Kebakaran vegetasi 171.056 Vulkano aktif 3.900

Lain lain 5.287

Titik panas di lepas pantai 5.045 Tabel 2. Variabel data set

Variabel Deskripsi

latitude Titik koordinat garis lintang longitude Titik koordinat garis bujur

(3)

Variabel Deskripsi bright_ti4 Temperatur kecerahan i-4 dalam

kelvin

scan Ukuran scan dalam pixel track Ukuran track dalam pixel acq_date Tanggal akuisisi dari VIIRS acq_time Waktu perolehan data dalam UTC satellite

Data diperoleh dari satelit apa N = Suomi NPP

I = NOAA-20

confidence Nilai ini berdasarkan proses deteksi version Versi

bright_ti5 Temperatur kecerahan i-5 frp Radiatif titik panas

type

Tipe kebakaran (label klasifikasi) 0 = Kebakaran vegetasi

1 = Vulkano aktif 2 = Lain-lain

3 = Titik panas di lepas pantai

Proses membangun dan mengevaluasi model menggunakan data latih dan data uji. Komposisi data latih dan dat uji adalah 80:20 dari keseluruhan data set. Komposisi data set ini berlaku untuk seluruh experiment.

2.1.2 Pre-processing Dataset

Pre-processing merupakan salah satu bagian terpenting dalam penambangan data. Pre-processing mampu meningkatkan kualitas model menjadi lebih baik [8–10]. Penelitian ini menerapkan beberapa Euclid pre- processing data diantaranya adalah seleksi fitur (feature selection). Pada penelitian ini dilakukan dua kali seleksi fitur. Proses seleksi fitur yang pertama menggunakan feature importance. Hasilnya adalah atribut tanggal kebakaran, waktu kebakaran dan confidence tidak diikutsertakan. Hasil seleksi fitur yang pertama telah diimplementasikan untuk mengklasifikasikan jenis titik api kebakaran hutan dan lahan juga [3]. Hasil seleksi fitur diseleksi berdasarkan nilai weight by information gain dengan menggunakan tools rapidminer.

Tabel 3. Nilai weight by information gain Variabel Weight

bright_ti4 1 bright_ti5 0.721 latitude 0.584

frp 0.543

longitude 0.356

track 0.037

scan 0.013

satellite 0 instrument 0

version 0

Tabel 3 menyajikan nilai weight by information gain atribut hasil feature importance. Hasilnya, terdapat tiga variabel yang bernilai 0, satellite, instrument dan version. Artinya, variable tersebut tidak memiliki nilai bobot informasi. Sehingga ketiga variabel tersebut tidak digunakan dalam proses pembangunan model klasifikasi. Tabel 4 menyajikan variabel yang akan digunakan pada proses pemodelan.

Tabel 4. Variabel Dataset Setelah Seleksi Fitur

Variabel Deskripsi

latitude Titik koordinat garis lintang longitude Titik koordinat garis bujur bright_ti4 Temperatur kecerahan i-4 dalam

kelvin

bright_ti5 Temperatur kecerahan i-5 scan Ukuran scan dalam pixel track Ukuran track dalam pixel frp Radiatif titik panas

type Tipe kebakaran (label klasifikasi) 0 = Kebakaran vegetasi

(4)

1 = Vulkano aktif 2 = Lain-lain

3 = Titik panas di lepas pantai 2.1.3 Algoritma k-Nearest Neighbor

Algoritma k-Nearest Neighbor merupakan satu dari sepuluh algoritma klasifikasi terpopuler[6, 9] . Cara kerja k- NN adalah dengan mencari sekelompok k objek terdekat dari data latih dan mengelompokan data tersebut kedalam kelompok objek dengan tingkat kemiripan tertinggi [7, 11]. Proses identifikasi kemiripan berdasarkan hasil perhitungan jarak terkecil antar objek. Gambar 2. merupakan algoritma fundamental k-NN [7] dan biasanya untuk menghitung jarak dua object dengan metode Euclidean. Namun ada banyak penelitian yang mencari alternatif fungsi perhitungan jarak lain untuk memperoleh hasil yang lebih optimal. Pada penelitian ini akan dibandingkan beberapa metode pengukuran jarak lainnya seperti Canberra, Chebyshev, dan Manhattan.

Gambar 2. Algoritma fundamental k-NN[7]

2.1.4 Metode Pengukuran Jarak

Terdapat empat metode pengukuran jarak yang akan diuji pada penelitian ini, yaitu Euclidean, Canberra, Chebyshev, dan Manhattan.

a. Euclidean

Euclidean Distance merupakan metode pengukuran jarak antara dua objek terpopuler. Metode ini cocok digunakan pada objek yang memiliki nilai atribut Euclidean [12, 13]. Selain itu metode ini juga merupakan fungsi jarak dari algoritma dasar k-NN. Euclidean Distance dapat dihitung menggunakan persamaan (1). 𝑑_𝑖𝑗 adalah jarak antar objek 𝑖 ke 𝑗, 𝑥 adalah variabel yang merepresentasikan sebuah objek.

𝑑_𝑖𝑗= √∑^𝑛_𝑘=1(𝑥_𝑖𝑗− 𝑥_𝑗𝑘)² (1)

b. Canberra

Metode pengukuran jarak Canberra pertama kali diperkenalkan oleh Godfrey N. Lance dan William T.

Williams pada tahun 1966. Metode ini umumnya diimplementasikan untuk mengukur jarak dari kedua titik yang berada pada ruang vector [14]. Camberra dapat dihitung menggunakan persamaan (2).

𝑑_𝑖𝑗= √∑ ^|𝑥^𝑖𝑗^−𝑥^𝑗𝑘^|

|𝑥_𝑖𝑘|−|𝑥_𝑗𝑘|

𝑛𝑘=1 (2)

c. Chebyshev

Chebychev merupakan metode yang mengukur jarak berdasarkan nilai mutlak atau absolut dari selisih pasangan kordinat sebuah titik [15]. Jarak dua buah objek berdasarkan Chebyshev dapat dihitung menggunakan persamaan (3).

𝑑(𝑥, 𝑦) = 𝑚𝑎𝑥_𝑖=1^𝑛 |𝑥_𝑖− 𝑦_𝑖| (3) d. Manhattan

Alternatif dari Euclidean, Manhattan atau disebut juga dengan city block, merupakan jarak geometri dari dua buah objek. Dalam banyak kasus, hasil perhitungan Manhattan lebih baik dibandingkan dengan Euclidean [7].

Pengukuran jarak dengan Manhattan dapat menggunakan persamaan (4).

𝑑(𝑥, 𝑦) = ∑^𝑚_𝑖=1|𝑥_𝑖− 𝑦_𝑖| (4)

Jika angka hasil dari rumus tersebut besar, maka tingkat kemiripan antara kedua objek akan semakin kecil dan sebaliknya, jika angka hasil rumus tersebut kecil, maka tingkat kemiripan antara kedua objek akan semakin besar. Objek yang dimaksud adalah data latih dan data uji yang akan dihitung tingkat kemiripannya [16].

2.1.5 Evaluasi

Untuk mengevaluasi metode pengukuran jarak, masing masing metode diimplemntasikan pada algoritma k-NN untuk mengklasifikasikan jenis titik api. Adapun metode evaluasi menggunakan confusion matrik (Tabel 3), dimana dari matrix tersebut di hitung akurasi precision, recall dan F-1 dari setiap model yang dihasilkan [17].

(5)

Tabel 1 Confusion matrix Prediksi

Positive Negative

Aktual Positive True positive (TP) False negative (FN) Negative False positive (FP) True Negative (TN)

a. Precision adalah tingkat ketepatan antara informasi yang diminta oleh pengguna dengan jawaban yang diberikan oleh sistem. Precision dapat dihitung menggunakan persamaan (5).

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = ^𝑇𝑃

𝑇𝑃+𝐹𝑃 (5)

b. Recall merupakan tingkat keberhasilan sistem dalam menemukan kembali sebuah informasi. Recall dapat dihitung menggunakan persamaan (6).

𝑅𝑒𝑐𝑎𝑙𝑙 = ^𝑇𝑃

𝑇𝑃+𝐹𝑁 (6)

c. F-1 score merupakan perbandingan rata-rata presesi dan recall yang dibobotkan. Persamaan (7) digunakan untuk memperoleh F-1

𝐹1 = 2 .𝑅𝑒𝑐𝑎𝑙𝑙.𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛

𝑅𝑒𝑐𝑎𝑙𝑙 + 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 (7)

3. HASIL DAN PEMBAHASAN

Terdapat empat experiment yakni implementasi dengan kombinasi k-NN dengan Euclidean, k-NN dengan Canberra, k-NN dengan Chebyshev dan experiment k-NN dengan Manhattan. Setiap experiment memiliki dua kali scenario. Scenario pertama mengimplementasikan algoritma pada data set yang tidak melalui tahapan pre- processinng. Secnario dua menggunakan data set yang telah melalui tahapan pre-processing. Setiap model yang dihasilakn dievaluasi menggunakan akurasi Precision, recall dan F-1.

3.1 k-NN dengan Euclidean

Experimen pertama merupakan implementasi algoritma k-NN dengan metode pengukuran jarak Euclidean.

Dengan kata lain penelitian ini merupakan klasifikasi type kebakaran hutan dan lahan dengan menggunakan algoritma dasar k-NN. Tabel 4 menyajikan hasil Euclidean. Model klasifikasi dari data set tanpa pre-processing hanya mampu mengindentifikasi jenis api 0 (kebakaran vegetasi), sedangkan jenis api lainnya tidak mampu diprediksi oleh model. Jumlah titik api berjenis 0 sebanyak 92,32% dari keseluruhan data set, artinya model ini overfitting terhadap jenis kebakaran vegetasi. Setelah melalui tahap pre-processing, jenis titik api lainnya mulai dapat diidentifikasi oleh model.

Tabel 2. Hasil klasifikasi k-NN dengan 1178uclidean

Kelas

Precision Recall F-1

Tanpa pre-processing

Pre-processing Tanpa pre-processing

Pre-processing

0 90,89 93.69 99.99 69.77 95.23 95.25

1 0 47.85 0 49.8 0 48.81

2 0 53.69 0 42.75 0 47.6

3 0 30.56 0 8.01 0 12.7

Secara umum performansi model pasca pre-processing menjadi lebih baik. Gambar 3 menyajikan informasi perubahan performansi. Kenaikan performansi model berkisar 0,7-2 kali lipat. Jika dilihat lebih dalam, hanya recall jenis api 0 yang menurun dibandingkan dengan sebelumnya (Tabel 4). Nilai tersebut mengindikasikan sistem rendah dalam mengindentifikasi jenis api 0. Namun demikian, lebih baik system memprediksi bahwa titik api tersebut bahaya namun faktanya tidak, dari pada memprediksi titik api tersebut aman namun faktanya berbahaya. Kekurangan recall tertutupi oleh nilai precision dan F-1.

Gambar 3 Perfomansi model k-NN dengan Euclidean

90,88

22,7225 25 23,8075

90,88

56,4475

42,5825

51,09

0 10 20 30 40 50 60 70 80 90 100

Akurasi Precision Recal l F-1

Persentase

Ta npa pre -process ing pre-proces sing

(6)

Data set penelitian ini mengalami ketidakseimbangan kelas. Dataset kelas kebakaran vegetasi dominan atas kelas titik api lainnya. Experimen ini memiliki akurasi 90,88%. Sekilas terlihat baik model yang dihasilkan.

Namun demikian, analisis lebih lanjut memperlihatka bahwa model hanya mampu menebak kelas 0 (92,32% dari keseluruhan dataset), dengan kata lain, setiap data uji di prediksi sebagai jenis kebakaran vegetasi. Ini mengkonfirmasi kelemahan metrik akurasi dalam mengevaluasi model, bahwa metrik akurasi lemah dalam mengevaluasi ketidakseimbangan data [13].

3.2 k-NN dengan Canberra

Experiment penelitian kedua menggunakan kombinasi k-NN dengan Canberra untuk mengklasifikasikan type titik api. Metode pengukuran jarak Canberra menggantikan fungsi metode Euclidean pada k-NN. Tabel 5 menyajikan hasil experiment keseluruhan. Model yang dihasilkan dari dataset tanpa pre-processing hanya mampu mengidentifikasi kelas 1 (vulkano aktif), sedangkan titik api lainnya tidak. Walupun demikian, performansinya tidak begitu baik. Model yang dihasilkan dari dataset setelah pre-processing mengalami peningkatan performansi.

Seluruh nilai metrik evaluasi (akurasi, precision, recall dan F-1) meningkat signifikan (1-8 kali lipat) setelah melalui tahapan pre-processing (Gambar 4). Experimen ini juga mengkonfirmasi kelemahan metrik akurasi dalam mengevaluasi model prediksi.

Tabel 3. Hasil klasifikasi k-NN dengan Canberra

Kelas

Pre-processing

0 0 93.91 0 97.79 0 95.82

1 26,5 58.81 100 49.29 41,9 53.64

2 0 71.16 0 49.65 0 58.5

3 0 23.31 0 6.72 0 10.44

Gambar 4. Performansi k-NN dengan Canberra 3.3 k-NN dengan Chebyshev

Experiment penelitian ketiga menggunakan kombinasi k-NN dengan Canberra untuk mengklasifikasikan type titik api. Fungsi metode pengukuran jarak Chebyshev sama dengan experiment kedua, yakni menggantikan fungsi metode Euclidean pada k-NN. Tabel 6 menyajikan hasil klasifikasi jenis titik api menggunakan kombinasi k-NN dengan Chebyshev. Model yang dihasilkan dari dataset tanpa pre-processing hanya bekerja dalam mengidentifikasi titik api beripe 0 (kebakaran vegetasi) dan 1(vulkano aktif). Walaupun demikian performansinya belum menunjukan kekokohan sistem. Hal tersebut ditunjukan nilai precision, recall atau F-1 dari keduanya yang bernilai 0. Dengan kata lain, model yang dihasilkan meragukan dalam mengidentifikasi jenis api 0 maupun 1.

Tabel 4. Hasil klasifikasi k-NN dengan Chebyshev

Kelas

Pre-processing

0 90.89 93.46 0 96.7 95.23 95.26

1 0 45.57 100 46.13 0 45.85

2 0 50.5 0 38.95 0 43.98

3 0 29.5 0 7.69 0 12.2

26,5

6,625

25

10,475 91,96

61,7975

50,8625 54,6

0 10 20 30 40 50 60 70 80 90 100

Akurasi Precision Recal l F-1

Persentase

Tanpa pre-processing pre-processing

(7)

Kekokohan model klasifikasi terlihat setelah melalui tahapan pre-processing. Secara umum model klasifikasi yang dihasilkan lebih stabil dari model sebelumnya. Nilai precision, recall dan F-1 model pasca tahap pre-processing juga meningkat signifikan dibandingkan dengan sebelumya (Gambar 5). Kekokohan terlihat jelas Ketika model mengidentifikasi jenis kebakaran vegetasi. Serupa dengan dua experiment sebelumnya, experimen ini juga mengkonfirmasi kelemahan metrik akurasi dalam mengevaluasi model prediksi.

Gambar 5 Performansi k-NN dengan Chebyshev 3.4 k-NN dengan Manhattan

Kombinasi k-NN dengan Manhattan merupakan experimen terakhir dalam serangkaian penelitian. Fungsi metode pengukuran jarak Manhattan juga menggantikan metode Euclidean pada algoritma k-NN. Tabel 7 menyajikan hasil klasifikasi menggunakan dataset yang melalui tahapan pre-processing maupun tidak. Pola keberhasilan model ini mirip dengan experiment pertama, dimana model klasifikasi dari dataset tanpa preprocessing hanya mampu mengidentifkasi jenis kebakaran vegetasi, sedangkan gagal untuk yang lainnya. Adapun angka keberhasilannya sangat memuaskan.

Tabel 5 Hasil klasifikasi k-NN dengan Manhattan

Kelas

Pre-processing

0 90.89 94.14 100 97.1 95.23 95.6

1 0 53.9 0 57.03 0 55.43

2 0 60.77 0 50.43 0 55.12

3 0 32.92 0 8.5 0 13.52

Model yang dihasilkan pasca pre-processing bekerja pada semua jenis titik api. Performansi model yang dihasilkan pun lebih baik. Bahkan nilai precision, recall dan F-1 model pasca tahap pre-processing meningkat signifikan dibandingkan dengan sebelumya (Gambar 6). Serupa dengan dua experiment sebelumnya, experiment ini juga mengkonfirmasi kelemahan metrik akurasi dalam mengevaluasi model prediksi.

Gambar 6 Performansi k-NN dengan Manhattan

(8)

3.5 Perbandingan Antar Metode Pengukuran Jarak

Bagian ini membahas perbandingan performansi setiap metode pengukuran jarak. Gambar 7 menyajikan perbandingan performansi dari keempat metode pengukuran jarak setelah melalui tahap pre-processing. Ada beberapa hal yang menarik untuk diulas. Pertama, nilai metrik evaluasi akurasi dari setiap experimen jauh lebih tinggi dibandingkan dengan nilai precision, recall maupun F-1. Dengan ketidakseimbangan kelas pada dataset, maka proses pembelajaran mesin berubah menjadi memilih berdasarkan probabilitas tertinggi. Artinya proses identifikasi jenis titik api berdasarkan probabilitas tipe titik api. Tentu, hal tersebut bukan bagian dari tujuan penelitian ini, melainkan sebuah temuan yang mengkonfirmasi Kembali bahwa metrik evaluasi akurasi lemah terhadap ketidakseimbangan data. Kedua, metode pengukuran jarak Manhattan merupakan pilihan terbaik dalam mengindentifikasi jenis titik api menggunakan algoritma k-NN. Ketiga, tahap pre-processing dalam membangun model klasfikasi membawa dampak signifikan. Sehingga proses pemodelan tanpa melalui tahap pre-processing bukan menjadi rekomendasi. Jika variabel data hanya dua atau tiga layaknya sebuah titik, maka kombinasi k-NN dengan metode Chebyshev layak untuk diperhitungkan dalam mensolusikan model klasifiksi. Sedangkan jika variabel data besar dan skalabilitas yang beragam maka metode pengukuran jarak Canberra lebih tepat.

Gambar 7 Perbandingan performansi metode jarak

4. KESIMPULAN

Penelitian ini telah mengimplementasikan algoritma k-NN untuk mengidentifikasi type api dari kebakaran hutan dan lahan. Pada tahap pengimplementasian, terdapat empat jenis metode pengukuran jarak yang dianalsis pada algoritma k-NN, yakni Euclidean, Canberra, Chebyshev dan Manhattan. Setiap metode pengukuran jarak akan diujikan secara independent terhadap dua kondisi dataset, melaui tahap pre-processing dan tidak. Tahap pre- processing dataset membawa dampak signifikan dalam meningkatkan performansi model klasifikasi. Metode pengukuran jarak Manhattan pada k-NN menghasilkan performansi terbaik dalam mengidentifikasi type kebakaran hutan dan lahan dengan akurasi 92,6 %. Selain itu, ketidakseimbangan data menjadi tantangan penelitian selanjutnya dalam menghasilkan model yang lebih baik.

REFERENCES

[1] F. Fitriyani and R. Sanjaya, “KOMPARASI ALGORITMA LR, K-NN DAN SVM UNTUK ESTIMASI AREA KEBAKARAN HUTAN,” Infotronik : Jurnal Teknologi Informasi dan Elektronika, vol. 3, no. 2, 2018, doi:

10.32897/infotronik.2018.3.2.109.

[2] R. Agung et al., Status Hutan dan Kehutanan Indonesia. 2018.

[3] I. M. K. Karo, “Implementasi Metode XGBoost dan Feature Importance untuk Klasifikasi pada Kebakaran Hutan dan Lahan,” Journal of Software Engineering, Information and Communication Technology, vol. 1, no. 1, pp. 10–16, 2020.

[4] T. A. Pratiwi, M. Irsyad, R. Kurniawan, S. Agustian, and B. S. Negara, “Klasifikasi Kebakaran Hutan Dan Lahan Menggunakan Algoritma Naïve Bayes Di Kabupaten Pelalawan,” CESS (Journal of Computer Engineering, System and Science), vol. 6, no. 1, 2021, doi: 10.24114/cess.v6i1.22555.

[5] M. Mohanapriya and J. Lekha, “Comparative study between decision tree and knn of data mining classification technique,” in Journal of Physics: Conference Series, 2018, vol. 1142, no. 1. doi: 10.1088/1742-6596/1142/1/012011.

[6] Saruni Dwiasnati and Yudo Devianto, “Classification of forest fire areas using machine learning algorithm,” World Journal of Advanced Engineering Technology and Sciences, vol. 3, no. 1, 2021, doi: 10.30574/wjaets.2021.3.1.0048.

[7] I. M. K. Karo, A. Khosuri, and R. Setiawan, “Effects of Distance Measurement Methods in K-Nearest Neighbor Algorithm to Select Indonesia Smart Card Recipient,” 2021. doi: 10.1109/ICoDSA53588.2021.9617476.

[8] A. Pandey and A. Jain, “Comparative Analysis of KNN Algorithm using Various Normalization Techniques,”

International Journal of Computer Network and Information Security, vol. 9, no. 11, pp. 36–42, Nov. 2017, doi:

10.5815/ijcnis.2017.11.04.

(9)

[9] H. A. Abu Alfeilat et al., “Effects of Distance Measure Choice on K-Nearest Neighbor Classifier Performance: A Review,” Big Data, vol. 7, no. 4. 2019. doi: 10.1089/big.2018.0175.

[10] I. Kadek Ananda Prana Widya and W. Astuti, “Identifikasi Teks Gereflekter pada Buku Anak dengan Algoritma k- Nearest Neighbor,” in e-Proceeding of Engineering : Vol.7, No.1 April 2020, 2020, pp. 2419–2429.

[11] I. M. K. Karo, A. Tsany, R. Dzaky, and M. A. Saputra, “Comparative Analysis of K-Nearest Neighbor and Modified K-Nearest Neighbor Algorithm for Financial Well-Being Data Classification,” Indonesia Journal on Computing (Indo- JC), vol. 6, no. 3, pp. 26–34, 2021, doi: 10.34818/indojc.2021.6.3.593.

[12] S. Mulyati, S. M. Husein, and R. Ramdhan, “RANCANG BANGUN APLIKASI DATA MINING PREDIKSI KELULUSAN UJIAN NASIONAL MENGGUNAKAN ALGORITMA (KNN) K-NEAREST NEIGHBOR DENGAN METODE EUCLIDEAN DISTANCE PADA SMPN 2 PAGEDANGAN,” JIKA (Jurnal Informatika), vol.

4, no. 1, 2020, doi: 10.31000/jika.v4i1.2288.

[13] I. M. K. Karo, R. Ramdhani, A. W. Ramadhelza, and B. Z. Aufa, “A Hybrid Classification Based on Machine Learning Classifiers to Predict Smart Indonesia Program,” 2020. doi: 10.1109/ICVEE50212.2020.9243195.

[14] O. Rodrigues, “Combining Minkowski and Cheyshev: New distance proposal and survey of distance metrics using k- nearest neighbours classifier,” Pattern Recognition Letters, vol. 110, 2018, doi: 10.1016/j.patrec.2018.03.021.

[15] S. Gultom, S. Sriadhi, M. Martiano, and J. Simarmata, “Comparison analysis of K-Means and K-Medoid with Ecluidience Distance Algorithm, Chanberra Distance, and Chebyshev Distance for Big Data Clustering,” in IOP Conference Series: Materials Science and Engineering, 2018, vol. 420, no. 1. doi: 10.1088/1757-899X/420/1/012092.

[16] M. Nishom, “Perbandingan Akurasi Euclidean Distance, Minkowski Distance, dan Manhattan Distance pada Algoritma K-Means Clustering berbasis Chi-Square,” Jurnal Informatika: Jurnal Pengembangan IT, vol. 4, no. 1, 2019, doi:

10.30591/jpit.v4i1.1253.

[17] I. M. K. Karo, M. Y. Fajari, N. U. Fadhilah, and W. Y. Wardani, “Benchmarking Naïve Bayes and ID3 Algorithm for Prediction Student Scholarship,” IOP Conference Series: Materials Science and Engineering, vol. 1232, no. 1, p.

012002, Mar. 2022, doi: 10.1088/1757-899X/1232/1/012002.