Implementasi Metode Modified K-Nearest Neighbor (MK-NN) untuk Diagnosis Penyakit Tanaman Kentang

(1)

Fakultas Ilmu Komputer

Universitas Brawijaya

3217

Implementasi Metode Modified K-Nearest Neighbor (MK-NN) untuk Diagnosis Penyakit Tanaman Kentang

Muhammad Regian Siregar¹, Nurul Hidayat², Ratih Kartika Dewi³ Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya

Email: ¹[email protected], ²[email protected], ³[email protected]

Abstrak

Modified K-Nearest Neighbour (MK-NN) telah banyak digunakan untuk melakukan klasifikasi berbagai macam objek. Dalam melakukan klasifikasi, MK-NN menghitung jarak k tetangga terdekatnya pada data latih. Perbedaan K-Nearest Neighbour (K-NN) dengan M-KNN terdapat pada proses perhitungan validitas seluruh data latih dan weight voting. Tahapan perhitungan algoritme MK-NN yaitu menghitung jarak antar data latih, menghitung nilai validitas data latih, menghitung jarak antara data latih dengan data uji, dan menghitung weight voting. Hasil weight voting terbesar diambil sejumlah k yang digunakan. Dari hasil weight voting yang diambil, kelas dari nilai weight voting terbesar merupakan kelas penyakit dari data uji. Data tanaman kentang (Solanum tuberosum L) yang digunakan sebanyak 115 data latih dan data uji dengan 7 jenis penyakit dan 23 gejala penyakit. Akurasi sistem ini bergantung pada nilai k dan total data latih yang digunakan. Semakin besar nilai k maka semakin akurasi semakin kecil karena nilai validitas yang didapatkan semakin kecil. Semakin banyak data latih yang digunakan maka akurasi semakin tinggi karena selisih nilai Euclidian antar kelas semakin besar. Akurasi sistem terbaik didapatkan dari nilai k=4 dan total data latih sebanyak 45 yaitu 97.142857%.

Kata kunci: Modified K-Nearest Neigbour, klasifikasi, kentang, weight voting, validasi.

Abstract

Modified K-Nearest Neighbor (MK-NN) has been widely used to classify various types of objects. In carrying out the classification, MK-NN calculates the distance k closest neighbors in the training data.

The difference between K-Nearest Neighbor (K-NN) and M-KNN is found in the process of calculating the validity of all training data and weight voting. The MK-NN algorithm calculation stage is calculating the distance between training data, calculating the value of the training data validity, calculating the distance between the training data and test data, and calculating weight voting. The biggest weight voting results taken are the number of K used. From the weighted voting results, the class of the largest weight voting value is the disease class from the test data. Potato plant data (Solanum tuberosum L) were used as many as 115 training data and test data with 7 types of diseases and 23 disease symptoms.

The accuracy of this system depends on the k value and the total training data used. Big value of K make small the accuracy because the validity value obtained is smaller. The more training data used, the higher the accuracy because the difference between Euclidian grades between classes is greater. The best system accuracy is obtained from the value of k = 4 and total training data of 45 is 97.142857%.

Keywords Modified K-Nearest Neigbour, classification, potato, weight voting, validation.

1. PENDAHULUAN

Tanaman kentang (Sollanium tuberosum) merupakan tanaman sayur yang mendapat prioritas dalam pengembangan karena memiliki daya saing yang kuat dibandingkan sayuran lainnya. Namun patogen Phytopthora infestans menyebabkan berbagai penyakit pada tanaman kentang yang menyebabkan penurunan produksi

kentang. Diantaranya hawar daun yang menimbulkan kerugian yang berkisar antara 10- 100% (Sinaga et al, 1997), penyakit lodoh yang menyebabkan penurunan produksi kentang hingga 90% (Cholili, 1991), dan penyakit busuk daun/batang (late blight) (Djafaruddin, 2000).

Keterlambatan diagnosis dan penanganan penyakit tersebut menyebabkan kegagalan panen kentang sehingga dibutuhkan suatu

(2)

metode yang bisa melakukan deteksi penyakit kentang sejak dini.

Metode klasifikasi untuk deteksi dini penyakit tanaman kentang sangat cocok untuk digunakan dalam membantu menekan penanganan gagal panen. Modified K-Nearest Neighbour dapat melakukan klasifikasi, diantaranya klasifikasi penykait demam dengan rata-rata akurasi 96,35% (Wafiyah et al, 2017) diagnose penyakit tanaman jagung dengan akurasi 98,89% (Adhina, 2017), dan penelitian klasifikasi penyakit kucing yang mendapat akurasi rata-rata 99,8% (Putri, 2016). Oleh karena itu penelitian ini menggunakan metode klasifiksi dengan metode Modified K-Nearest Neighbour untuk deteksi dini penyakit tanaman kentang.

klasifikasi yang terdiri dari dua Langkah yaitu pelatihan (learning) dan klasifikasi (classification) (Han, 2012). Proses klasifikasi ditunjukkan pada gambar 1.

Gambar 1. Proses Klasifikasi Sumber: Tan et al, 2006

2. MODIFIED K-NEAREST NEIGHBOUR (MK-NN)

Algoritma MK-NN adalah pengembangan dari algoritma K-NN yang merupakan metode sederhana untuk menentukan klasifikasi berdasarkan jarak k tetangga terdekat ke data latih. Tahapan pengelompokkan dengan algoritma MK-NN sebagai berikut.

- Cari nilai k paling dekat .

- hiitung jarak antar data latih memakai persamaan Euclidean distance yang ditampilkan pada persamaan 1.

𝑑_(𝑥,𝑦)= √∑^𝑛_𝑖=1(𝑥_𝑖− 𝑦_𝑖)²

⁽¹⁾ Keterangan:

d = jarak

i = variabel data xi = sampel data yi = data uji n = dimensi data

- Menghitung validitas data latih.

Perhitungan validitas setiap data latih dilakukan berdasarkan pada setiap tetangga ter dekat. Nilai validity data latih digunakan untuk mencari total titik dengan label yang sebanding

untuk data tersebut. Validity data latih didefinisikan pada persamaan 2.

𝑉𝑎𝑙𝑖𝑑𝑖𝑡𝑎𝑠(𝑥) ¹

𝑘∑^𝑘_𝑖=1𝑆(𝑙𝑎𝑏𝑒𝑙(𝑥), 𝑙𝑎𝑏𝑒𝑙𝑁𝑖(𝑥)) (2) Keterangan:

k = jumlah titik paling dekat label(x) = kelas x

label Ni(x) = label kelas titik paling dekat dengan x

Similarity antar titik x dengan data ke-i dari tentangga terdekat menggunakan fungsi S pada persamaan 3. Fungsi S tersebut didefinisikan dengan persamaan 3.

𝑆(𝑎, 𝑏) = {1 𝑎 = 𝑏

0 𝑎 ≠ 𝑏

⁽³⁾ Keterangan:

a = kelas a pada data latih b = kelas selain a pada data latih

a dan b adalah label kelas dari suatu data latih. Jika label kelas a dan b sama, maka S bernilai 1. Jika label kelas a dan b tidak sama, maka S bernilai 0.

- Menghitung jarak antara data uji data latih menggunakan rumus jarak Euclidean seperti pada persamaan (1).

- Weight voting

Salah satu ragam metode K-NN, weighted K-NN, menggunakan k tetangga terdekat, terlepas dari apapun kelasnya, namun kemudian menggunakan weight voting dari setiap sampel ketimbang voting mayoritas. Setiap sampel k diberikan bobot voting yang setara dengan beberapa fungsi menurun dari jaraknya yang berasal dari sampel yang tidak diketahui. Bobot setiap tetangga dihitung dengan persamaan 4.

𝑊_(𝑖)= ¹

𝑑+ 𝛼

(4)

Keterangan:

W(i) = bobot setiap tetangga

d = jarak Euclidean data uji dengan data latih

α = smoothing regulator, bernilai 0,5 Voting pembobotan ini kemudian dijumlahkan untuk setiap kelas di mana kelas dengan total vote tertinggi dipilih. Kemudian validitas data latih dikalikan dengan bobot tersebut berdasarkan pada jarak Euclidean. Dari sini kemudian didapatkan persamaan 5 yaitu persamaan untuk melakukan weight voting pada MK-NN.

𝑊_(𝑖)= 𝑉𝑎𝑙𝑖𝑑𝑖𝑡𝑎𝑠(𝑖) × ¹

𝑑+0.5

(5)

Keterangan:

W(i) = weight voting Validitas(i) = nilai validitas

(3)

Fakultas Ilmu Komputer, Universitas Brawijaya

d = distance

Weight voting memberikan pengaruh yang signifikan ke sampel yang mempunyai validity value yang tinggi dimana paling dekat dengan sampel uji. Perkalian validity dengan perhitungan bobot seperti pada persamaan (2-5) dapat mengatasi data pencilan. Oleh karena itu, MK-NN adalah cara yang lebih baik dari metode K-NN biasa yang hanya berdasarkan pada jarak (Parvin, 2010).

- Penentuan kelas dari data uji.

Kelas dari data uji ditentukan dengan pengambilan nilai weight voting paling besar sebanyak nilai k yang telah ditentukan. Dari nilai-nilai weight voting yang diambil, kelas data dari nilai yang paling besar merupakan kelas data uji.

4. METODE PENELITIAN 4.1 Data

Data yang dipakai berasal dari hasil wawancara dari pakar Dinas Pertanian Kabupaten Malang. Data yang didapatkan tersebut berupa 23 jenis gejala penyakit pada tanaman kentang serta 7 jenis penyakit. Total data yang didapatkan sebanyak 115 data.

4.2 Implementasi Modified K-Nearest Neighbour

Tahap pertama yang harus dilakukan dalam diagnosa penyakit tanaman kentang adalah inisialisasi data latih dan data uji serta inisialisasi nilai k, dalam hal ini nilai k=3. Tabel 1 menunjukkan 10 data latih dan tabel 2 menunjukkan 1 data uji.

Tabel 1. Data Latih

Tabel 2. Data Uji

Tahap kedua yaitu menghitung jarak Euclidian antar data latih. Hasil perhitungan ditampilkan dalam tabel 3 di bawah ini.

Tabel 3. Hasil perhitungan Euclidian

Tahap ketiga yaitu melakukan sorting nilai euclidian dari nilai yang terkecil ke terbesar untuk menghitung validitas. Tabel 4 di bawah ini menunjukkan nilai euclidian data latih yang telah diurutkan.

Tabel 4. Euclidian yang telah disorting

Tahap keempat yaitu menentukan Euclidian data latih sebanyak k yang ditunjukkan pada tabel 5 di bawah ini.

Penyakit G1 G2 G3 G4 G5 G6 G7 G8 G9 G10

K1 0 0 2.5 4.5 7 8.5 3 3.5 0 0

K1 0 0 3.5 4.5 7 7.5 4 3.5 0 0

K2 4.5 5 0 5 6 0 8.5 5 4 0

K2 0 2 2.5 5 5 8 5 3.5 3.5 4.5

K3 0 3.5 0 4.5 6.5 7 0 3.5 4 4.5

K3 2.5 0 8 4.5 0 3.5 2 3 0 4.5

K4 8 7.5 4.5 3 4 4.5 4 4.5 3.5 4.5 K4 8.5 8 2.5 2 3 4 4.5 3.5 4.5 4 K5 2.5 2 3.5 4.5 2 3 4 7.5 8 8.5 K5 3.5 3 3.5 3 4.5 5 4.5 7.5 8 8.5

G1 G2 G3 G4 G5 G6 G7 G8 G9 G10 0 0 0 4 3 7.5 8 5.5 3 0

1 2 3 4 5 6 7 8 9 10

1 0 1.73 13.17 6.71 8.14 11.49 13.64 14.74 14.82 14.05

2 1.73 0 12.39 6.56 8.79 10.77 13.23 14.43 14.41 13.73

3 13.17 12.39 0 11.64 12.91 14.97 10.39 9.99 12.86 12.61

4 6.71 6.56 11.64 0 6.10 10.37 10.84 11.78 9.73 8.94

5 8.14 8.79 12.91 6.10 0 12.54 11.5 12.12 11 10.16

6 11.49 10.77 14.97 10.37 12.54 0 11.68 13.14 11.52 12.71 7 13.64 13.23 10.39 10.84 11.5 11.68 0 3.04 10.74 9.35 8 14.74 14.43 9.99 11.78 12.12 13.14 3.04 0 11.40 10.19

9 14.82 14.41 12.86 9.73 11 11.52 10.74 11.40 0 3.84

10 14.05 13.73 12.61 8.94 10.16 12.71 9.35 10.19 3.84 0

1 2 3 4 5 6 7 8 9 10

1 0 0 0 0 0 0 0 0 0 0

2 1.73 1.73 9.99 6.10 6.10 10.37 3.04 3.04 3.84 3.84

3 6.71 6.56 10.39 6.56 8.14 10.77 9.35 9.99 9.73 8.94

4 8.14 8.79 11.64 6.71 8.79 11.49 10.39 10.19 10.74 9.35

5 11.49 10.77 12.39 8.94 10.16 11.52 10.74 11.402 11 10.161

6 13.17 12.39 12.61 9.73 11 11.68 10.84 11.779 11.40 10.186

7 13.64 13.23 12.86 10.37 11.5 12.54 11.5 12.124 11.522 12.61

8 14.05 13.73 12.91 10.84 12.124 12.71 11.68 13.14 12.86 12.71

9 14.74 14.41 13.17 11.64 12.54 13.14 13.23 14.43 14.41 13.73

10 14.82 14.43 14.97 11.78 12.91 14.97 13.64 14.74 14.82 14.05

(4)

Tabel 5. Euclidian sebanyak k

Tahap keenam yaitu menghitung validitas data latih yang ditunjukkan pada tabel 6 di bawah ini.

Tabel 6. Validitas data latih Data

Latih

Nilai Kesamaan Jumlah Validitas

1 2 3

1 1 0 0 1 0.333333

2 1 0 0 1 0.333333

3 0 0 1 1 0.333333

4 0 0 0 0 0

5 0 0 0 0 0

6 0 0 0 0 0

7 1 0 0 1 0.333333

8 1 0 0 1 0.333333

9 1 0 0 1 0.333333

10 1 0 0 1 0.333333

Tahap ketujuh yaitu menghitung jarak antara data latih dengan data uji yang ditunjukkan pada tabel 7 di bawah ini.

Tabel 7. Euclidian antara data latih dan data uji

Data latih ke Jarak

1 7.842194

2 7.582875

3 10.63015

4 7

5 10.68878

6 12.92285

7 13.74773

8 13.90144

9 12.69843

10 12.51

Tahap selanjutnya yaitu menghitung weight voting dengan smoothing regulator bernilai 0.5.

hasil perhitungan weight voting ditunjukkan pada tabel 8.

Tabel 8. Weight voting

Data latih ke Jarak Validitas Weigthed 1 7.842194 0.333333 0.039958

2 7.582875 0.333333 0.041239 3 10.63015 0.333333 0.029949

4 7 0 0

5 10.68878 0 0

6 12.92285 0 0

7 13.74773 0.333333 0.023396 8 13.90144 0.333333 0.023146 9 12.69843 0.333333 0.025256 10 12.51 0.333333 0.025621

Tahap terakhir yaitu mengurutkan hasil weight voting dari yang terbesar kemudian nilai yang terbesar yang akan keluar sebagai output.

Hasil pengurutan weight voting ditunjukkan tabel 9.

Tabel 9. Weight voting yang sudah di sorting

Weighted 0.041239 0.039958 0.029949 0.025621 0.025256 0.023396 0.023146

0 0 0

5. HASIL DAN PEMBAHASAN

Uji jumlah k dan uji pengaruh jumlah data latih merupakan pengujian yang dilakukan dalam penelitin ini. Pada pengujian pengaruh jumlah nilai k terhadap akurasi, nilai k yang digunakan adalah 4,7 10, 13, dan 17. Pada pengujian jumlah data latih, data yang digunakan yaitu 7, 6, 25, 34, dan 45.

Pada pengujian pengaruh nilai k terhadap akurasi, dengan nilai k 4, 7, 10, 13, dan 17 mendapatkan akurasi berturut turut 97,142857%, 85,714286%, 40%, 40%, dan 40%.

Sedangkan pada pengujian pengaruh jumlah data latih terhadap akurasi, data latih yang digunakan yaitu 7, 6, 25, 34, dan 45 hasil akurasi yang didapatkan berturut-turut yaitu 14.285714%, 27.142857%, 55.714286%, 85.714286%, dan 97.142857%.

6. KESIMPULAN DAN SARAN

Data dengan jumlah 115 dengan 23 jenis

K=3 1 2 3 4 5 6 7 8 9 10

1.73 1.73 9.99 6.10 6.10 10.37 3.04 3.04 3.84 3.84

6.71 6.56 10.39 6.56 8.14 10.77 9.35 9.99 9.73 8.94 8.14 8.79 11.64 6.71 8.79 11.49 10.39 10.19 10.74 9.35

(5)

Fakultas Ilmu Komputer, Universitas Brawijaya

gejala dan 7 jenis penyakit ini telah diimplementasikan dengan metode Modified K- Nearest Neighbour dan dilakukan dua jenis pengujian. Dari hasil pengujian diketahui bahwa MK-NN dapat diimplementasikan sebagai metode untuk deteksi dini penyakit tanaman kentang dengan mengetahui jenis penyakit berdasarkan kelasnya. Tingkat akurasi tertinggi didapatkan dari jumlah data latih sebanyak 45 dan nilai k=4 yaitu 97,142857%. Semakin tinggi nilai k maka nilai akurasinya semakin rendah karena jumlah tetangga semakin banyak dan nilai validitasnya semakin kecil. Jumlah data latih juga berpengaruh, karena semakin kecil jumlah data latih maka semakin rendah pula akurasinya karena selisih antara kelas satu dengan kelas lainnya semakin kecil sehingga nilai eucledian hampir sama yang menyebabkan salah diagnosa.

7. DAFTAR PUSTAKA

Djafaruddin, 2000. Dasar-dasar pengendalian penyakit tanaman. Bumi Aksara. Jakarta.

Putri, M., Santoso, E. & M., 2017. Diagnosis Penyakit Kulit Pada Kucing Menggunakan Metode Modified K- Nearest Neighbor. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, Volume 1, pp. 1797-1803.

Wafiyah, F., Hidayat, N. & Perdana, R., 2017.

Implementasi Algoritma Modified K- Nearest Neighbor (MKNN) untuk Klasifikasi Penyakit Demam. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, Volume 1, pp. 1210- 1219.

Sinaga, A., Budiman, Susi M, Sukmaya, Djoko S et al, 1997.Potato Cultivation In Indonesia. Assessment Institute for Agriculture Technology.

Cholil, A dan Latief Abadi. 1991.

Penyakitpenyakit penting tanaman pangan. Pendidikan Program Diploma Satu Pengendalian Hama Terpadu.

Fakultas Pertanian Universitas Brawijaya Malang.

Han, J., Kamber, M., Pei, J., 2012, Data Mining:

Concepts and Techniques Third Edition.

Morgan Kaufmann Publisher. United States of America.

Burton, W. G., 1989.The Potato 3rd. Longman Scientific and Technical.John Wiley and

Sons, New York

Suhardi, 1983. Dinamika Populasi Penyakit Busuk Daun pada Tanaman Kentang di Kebun Percobaan Segunung. Bull.

Penelitian Hortikultura. 10 (1): 36-34.

Suhardi, 2009. Ekobiologi Patogen: Perspektif dan Penerapannya dalam Pengendalian Penyakit. Pengembangan Inovasi Pertanian 2(2): 111-130, Balai Penelitian Tanaman Hias. Cianjur-Jawa Barat.

Sulaeman. H., 1988.Uji Adaptasi dan Resistensi Varietas Kentang Impor terhadap Phytopthora infestans. Buletin Penelitian Hortikultura.XVII (2):61-63

Suryati, Dotti. 2011. Penuntun praktikum Genetika Dasar. Bengkulu: Lab.

Agronomi Universitas

Bengkulu.Wardiyati, T. 2010.Deskripsi klon UB. Universitas Brawijaya. Malang.

Tidak diplubikasikan.

Rukmana, Rachmad. 1997. Kentang: Budidaya dan Pasca Panen. Yogyakarta: Kanisius.

Katayama, Katsumi, dan Teramoto, Takeshi.

1997. Seed Potato Production and Control of Insect Pest and Diseases in Indonesia, dalam Agrochemicals Japan Journal.

Japan-Plant Protection.

Aini, S. H. A., Sari, Y. A. and Arwan, A. (2018)

‘Seleksi Fitur Information Gain untuk Klasifikasi Penyakit Jantung Menggunakan Kombinasi Metode KNearest Neighbor dan Naïve Bayes’, Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, 2(9), pp.

2546–2554.

Khotimah, H., 2015, Penentuan Status Gizi Balita menggunakan Metode Modified K- Nearest Neighbor (MK-NN) (Studi Kasus: Kecamatan Kertosono), FILKOM Universitas Brawijaya, Malang.

Anon., 2013. international potato center.

[Online]

Available at: https://cipotato.org [Accessed monday may 2020].

Putri, M., Santoso, E. & M., 2017. Diagnosis Penyakit Kulit Pada Kucing Menggunakan Metode Modified K- Nearest Neighbor. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, Volume 1, pp. 1797-1803.