• Tidak ada hasil yang ditemukan

dengan

x = x1,x2, … , xm menyatakan data uji, y = y1,y2, … , ym menyatakan data latih dan xi-yi = selisih data uji dengan data latih.

Penelitian ini, terdapat dua jenis data yang digunakan, yaitu data numerik dan data nominal. Data nominal atau sering disebut juga data kategori yaitu data yang diperoleh melalui pengelompokan objek berdasarkan kategori tertentu. Walaupun data nominal dapat dinyatakan dalam bentuk angka, namun angka tersebut tidak memiliki urutan atau makna matematis sehingga tidak dapat dibandingkan (Dharma, 2008).

Untuk data nominal atau yang disebut kategori, penggunaan jarak Euclidean tidak tepat, sebaliknya dapat didefinisikan dengan sebuah fungsi yang digunakan untuk membandingkan nilai data uji dan data latih. Untuk menghitung jarak nominal menggunakan rumus sebagai berikut (Larose 2005).

{

Yang berarti bahwa jika data latih sama dengan data uji maka jaraknya 0, selainnya jaraknya 1.

Untuk menggabungkan kedua jarak semua variabel, dilakukan aggregate ketidaksamaan berat rata-rata dari jarak masing-masing fitur dengan menggunakan rumus sebagai berikut (Teknomo, 2006).

,

dengan k merupakan variabel fitur, ij selisih data latih dan data uji, Sijk merupakan kesamaan dan ketidaksamaan antara objek dimana Wijk

bernilai 1 untuk nilai numerik dan 0.5 untuk nilai nominal. Nilai pembobotan ini diberikan agar jarak fitur nominal tidak terlalu mendominasi hasil perhitungan.

METODOLOGI PENELITIAN

Kerangka Penelitian

Penelitian ini memunyai beberapa tahapan untuk mengetahui tingkat akurasi yang diperoleh menggunakan algoritme k-Nearest Neighbour dalam pengidentifikasian daun Shorea. Tahapan proses tersebut akan disajikan pada Gambar 7. Mulai Identifikasi Masalah Praproses Data Pengadaan Data Penentuan Data Latih dan

Data Uji Hasil Prediksi Model Pengenalan Daun Shorea KNN Data Latih Data Uji Selesai Klasifikasi

Gambar 7 Diagram alur pembuatan sistem. Identifikasi Masalah

Tahap identifikasi permasalahan yang meliputi tahap pemilihan masalah, identifikasi, tujuan, dan sumber pengetahuan. Masalah yang ada saat ini pihak rimbawan atau pekerja di hutan masih mengalami kesulitan dalam mengidentifikasi daun Shorea. Kesalahan dalam mengidentifikasi ini dapat menyebabkan kesalahan pemilihan kayu yang tidak tepat.

Salah satu solusi dari permasalahan tersebut adalah dibuatnya suatu sistem mengenai identifikasi daun Shorea yang dibentuk dari

5 akuisisi pengetahuan pakar dan pustaka yang

mendukung. Pengadaan Data

Daun Shorea yang digunakan didapatkan dari Kebun Raya Bogor. Penelitian ini menggunakan beberapa atribut yang mencirikan bentuk morfologi daun Shorea. Data yang digunakan merupakan data dari perhitungan manual beberapa jenis daun Shorea.

Data dalam penelitian ini memunyai beberapa fitur, yaitu:

1 Panjang daun, yaitu panjang daun diukur dari pangkal daun hingga ujung daun. 2 Lebar daun, yaitu lebar daun diukur

berdasarkan permukaan daun paling lebar.

Gambar 8 Lebar dan panjang daun 3 Bentuk tulang daun, yaitu susunan tulang

cabang pada daun. Bentuk tulang daun dapat dibedakan menjadi :

a Menempel : ujung tulang cabang bagian dalam sebelah kanan bertemu dengan ujung tulang cabang bagian dalam sebelah kiri.

b Tidak menempel : ujung tulang cabang bagian dalam sebelah kanan tidak bertemu dengan ujung tulang cabang bagian dalam sebelah kiri.

4 Permukaan daun, yaitu keadaan permukaan daun bagian atas dan bawah, seperti : a Atas bawah halus

b Atas halus bawah kasar c Atas bawah kasar d Atas kasar bawah halus

5 Ujung daun, yaitu bentuk ujung daun. Beberapa bentuk ujung daun di antaranya: a Runcing, jika kedua tepi daun di kanan

kiri ibu tulang sedikit demi sedikit menuju ke atas dan pertemuannya pada puncak daun melancip.

b Meruncing, seperti pada ujung yang runcing, tetapi titik pertemuan kedua tepi daunnya jauh lebih tinggi dari dugaan, hingga ujung daun nampak sempit panjang dan runcing.

c Tumpul, tepi daun yang semula masih agak jauh dari ibu tulang membentuk sudut yang tumpul.

d Membulat, seperti pada ujung yang tumpul, tetapi tidak terbentuk sudut sama sekali, hingga ujung daun merupakan semacam suatu busur.

Gambar 9 Ujung daun

6 Pangkal daun, yaitu bentuk pangkal daun. Beberapa bentuk pangkal daun di antaranya:

a Runcing b Meruncing c Tumpul d Membulat

Gambar 10 Pangkal daun.

7 Keliling daun, yaitu keliling tepi daun yang diukur dengan menggunakan benang.

8 Luas daun, yaitu luas permukaan daun yang diukur pada buku berpetak yang memunyai luas ½ cm2 perkotak dengan menjumlahkan kotak yang terisi penuh di dalam gambar Ujung tulang cabang bagian dalam sebelah kiri Ujung tulang cabang bagian dalam sebelah kanan Lebar Daun Panjang Keliling daun

6 daun kemudian dibagi empat. Contoh

pengukuran luas :

9 Sudut antar tulang daun, yaitu sudut antara

ibu tulang daun dengan tulang cabang daun sebelah kanan atau kiri yang diukur menggunakan busur.

10 Jumlah tulang daun, yaitu jumlah tulang cabang daun sebelah kanan dan tulang cabang daun sebelah kiri.

Praproses Data

Tahapan yang dilakukan dalam praproses di antaranya pengolahan data dengan fitur nominal menggunakan nominal distance seperti bentuk ujung daun, permukaan daun, bentuk tulang daun dan bentuk pangkal daun. Praproses data juga dilakukan pada tahap awal normalisasi data numerik agar didapatkan range antara nol hingga satu. Hal ini dilakukan untuk menghindari perbedaan range yang terlalu besar antar fitur.

Penentuan Data Latih dan Data Uji

Pada penelitian ini pembagian data latih dan data uji akan dilakukan dengan menggunakan teknik k-fold cross validation dengan nilai k = 5.

Klasifikasi

Teknik klasifikasi yang akan digunakan menggunakan k–Nearest Neighbour. Teknik k– Nearest Neighbour mencari jarak terdekat antara data yang akan dievaluasi dengan k

tetangga (neighbour) terdekatnya dalam data pelatihan.

Model Daun Shorea

Tahapan ini merupakan tahapan yang paling penting karena pada tahap ini teknik klasifikasi diaplikasikan terhadap data yang sudah diperoleh. Teknik klasifikasi yang digunakan menggunakan k–Nearest Neighbour. Langkah-langkah pada metode tersebut yaitu:

 Hitung jarak Euclidean: pada tahap ini setiap data uji akan dihitung jaraknya ke setiap data latih untuk mengetahui ukuran kedekatan atau ukuran kesamaan antara data uji dengan data latih.

 Hitung jarak nominal: pada tahap ini dilakukan proses pengubahan beberapa fitur yang bersifat nominal dilambangkan dengan nilai numerik sehingga mempermudah perbandingan data uji terhadap data latih.

Aggregate (menggabungkan) data: pada tahap ini data pengolahan nominal dan pengolahan menggunakan Euclidean digabungkan.

 Penentuan nilai k: pada k–Nearest Neighbour penentuan nilai k yang tepat sangat penting untuk menunjukkan jumlah tetangga terdekat. Setelah didapatkan hasil identifikasi, selanjutnya dilakukan evaluasi klasifikasi yang dihasilkan metode k-Nearest Neighbour. Hasil Prediksi

Pada tahap akhir ini diharapkan data testing yang dimasukan akan terklasifikasi pada kelas yang benar.

Lingkungan Pengembangan

Perangkat lunak yang digunakan dalam penelitian yaitu :

Windows XP Home Edition Service Pack 3

XAMPP Version 1.7.1

Notepad v5.1.1

Microsoft Office Excel 2007

Perangkat keras yang digunakan dalam penelitian yaitu :

Processor Intel Atom 1.66 GHz

 RAM 1.00 GB

Harddisk kapasitas 150 GB Gambar 11 Sudut daun

7 HASIL DAN PEMBAHASAN

Praproses

Data yang digunakan pada penelitian ini merupakan data hasil perhitungan manual fitur-fitur morfologi daun Shorea yang diambil dari beberapa koleksi di Kebun Raya Bogor. Berikut disajikan contoh data hasil perhitungan manual dan fitur-fitur yang diperlihatkan pada Tabel 2. Tabel 2 Data daun

Jenis Daun Shorea multiflora

Panjang 9.1 cm

Lebar 5.7 cm

Bentuk tulang daun tidak menempel tidak menonjol

Permukaan Daun atas bawah halus

Ujung Daun meruncing

Pangkal Daun tumpul

Keliling 22 cm

Luas 61.5 cm2

Sudut 60°

Jumlah tulang daun 14 buah

Proses pengambilan data ini dilakukan selama satu bulan. Data yang didapat sebanyak 50 data dari perhitungan manual berdasarkan fitur-fitur yang telah ditetapkan sesuai dengan morfologi daun. Data yang digunakan sebanyak 50 data meliputi 10 data Shorea multiflora, 10 data Shorea palembanica, 10 data Shorea balangeran, 10 data Shorea assamica, dan 10 data Shorea lepida.

Berdasarkan fitur-fitur yang digunakan terdapat 4 fitur yang bersifat nominal, yaitu fitur bentuk tulang daun, permukaan daun, ujung daun, dan pangkal daun. Fitur-fitur ini memiliki selang nilai yang berbeda. Pada Tabel 3 disajikan selang nilai yang terdapat di setiap fitur.

Tabel 3 Selang nilai fitur daun No Nama Fitur

1 Bentuk Tulang Daun

a. tidak menempel tidak menonjol b. menempel, tidak menonjol

c. tidak menempel, bagian bawah menonjol

2 Permukaan Daun a. atas bawah halus b. atas halus bawah kasar

No Nama Fitur 3 Ujung Daun a. tumpul b. runcing c. meruncing 4 Pangkal Daun a. membulat b. tumpul c. runcing

Dari 50 data Shorea, fitur-fitur yang bernilai nominal dilambangkan dengan angka untuk memudahkan perhitungan algoritme. Pada Tabel 4 disajikan konversi fitur-fitur nominal.

Tabel 4 Konversi fitur-fitur nominal No Nama Fitur

Nilai Konversi

1 Bentuk Tulang Daun -

a. tidak menempel, tidak menonjol 1 b. menempel, tidak menonjol 2

c. tidak menempel, bagian bawah menonjol

3

2 Permukaan Daun -

a. atas bawah halus 1

b. atas halus bawah kasar 2

3 Ujung Daun - a. tumpul 1 b. runcing 2 c. meruncing 3 4 Pangkal Daun - a. membulat 1 b. tumpul 2 c. runcing 3

Setelah nilai nominal dikonversi maka nilai nominal itu diolah menggunkan nominal distance. Dalam pengolahan fitur atribut yang bernilai numerik menggunakan jarak Euclidean. Dikarenakan adanya perbedaan range antara fitur atribut maka perlu dilakukan normalisasi. Normalisasi yang dilakukan bergantung jenis datanya. Untuk mendapatkan range antara 0 – 1 menggunakan normalisasi min-max normalization. Normalisasi dilakukan sebelum melakukan pengolahan data. Hal ini bertujuan untuk menyamakan range antara fitur. Nilai maksimum dan minimum menggunakan nilai maksimum dan minimum tiap subset. Misal pada fitur panjang daun, nilai maksimum subset satu 108.16, dan nilai minimum subset satu 0.

8 Contoh normalisasi untuk record pertama

berdasarkan rumus normalisasi adalah:

Percobaan pertama (tanpa normalisasi)

Dari banyaknya data yang diperoleh sebanyak 50 record, dibagi menjadi 5 subset yang setiap subset berisi 2 record dari setiap jenis daun.

Percobaan pertama menggunakan 40 record sebagai data latih yang berisi subset 1, 2, 3, dan 4. Subset 5 yang berisi 10 record dijadikan data uji. Percobaan terus dilakukan hingga setiap subset pernah menjadi data uji. Susunan data latih dan data uji pada percobaan disajikan pada Tabel 5.

Tabel 5 Susunan data latih dan data Uji Iterasi Pelatihan Pengujian Iterasi pertama S2,S3,S4,S5 S1 Iterasi kedua S1,S3,S4,S5 S2 Iterasi ketiga S1,S2,S4,S5 S3 Iterasi keempat S1,S2,S3,S5 S4 Iterasi kelima S1,S2,S3,S4 S5

Data tersebut kemudian diterapkan dalam metode k-Nearest Neighbour melalui tahap-tahap berikut ini:

1 Setiap record data uji dihitung jaraknya ke setiap record data latih untuk mengetahui kedekatan antara data uji dengan data latih. Untuk data bertipe numerik, selisih antara data uji dengan data latih adalah pengurangan nilai data uji dengan nilai data latih. Untuk data bertipe nominal, data diolah menggunakan nominal distance. Bila data uji sama dengan data latih maka bernilai nol dan bila data uji berbeda dengan data latih maka bernilai 1.

2 Digabungkan hasil perhitungan yang menggunakan jarak Euclidean dan nominal distance dengan menggunakan rumus aggregate. Memberikan bobot 1 pada hasil perhitungan Euclidean dan bobot 0.5 pada hasil perhitungan nominal. Pemberian bobot 0.5 pada perhitungan nominal agar tidak mendominasi hasil perhitungan. 3 Penentuan nilai k tetangga terdekat pada

percobaan pertama dilakukan dengan

mencoba nilai k mulai dari 2 sampai 9 dalam metode k-Nearest Neighbour. Akurasi klasifikasi untuk nilai k=2 sampai k=9 diperlihatkan pada Gambar 12.

Gambar 12 Akurasi klasifikasi percobaan pertama.

Berdasarkan gambar tersebut (Gambar 12) akurasi terbesar yang diperoleh adalah 84% dengan nilai k=4 dan k=5. Untuk mengetahui record yang salah diklasifikasikan digunakan confusion matrix yang diperlihatkan pada Tabel 6.

Tabel 6 Confusion matrix percobaan pertama Kelas hasil prediksi Kelas aktual kelas 1 kelas 2 kelas 3 kelas 4 kelas 5 kelas 1 10 0 0 0 0 kelas 2 0 8 0 0 2 kelas 3 1 2 7 0 0 kelas 4 1 1 1 7 0 kelas 5 0 0 0 0 10

Berdasarkan tabel tersebut (Tabel 6) kelas 1 (Shorea multiflora) yang tepat diklasifikasikan sebagai kelas 1 sebanyak 10 record, dan tidak ada kelas 1 yang salah diklasifikasi sebagai kelas 2, kelas 3, kelas 4 dan kelas 5. Kelas 2 (Shorea palembanica) yang tepat diklasifikasi sebagai kelas 2 sebanyak 8 record, kelas 2 yang salah diklasifikasi sebagai kelas 5 sebanyak 2 record. Kelas 3 (Shorea balangeran) yang tepat diklasifikasi sebagai kelas 3 sebanyak 7 record, kelas 3 yang salah diklasifikasi sebagai kelas 1 sebanyak 1 record dan kelas 3 yang salah diklasifikasi sebagai kelas 2 sebanyak 2 record. Kelas 4 (Shorea lepida) yang tepat diklasifikasi sebagai kelas 4 sebanyak 7 record, kelas 4 yang salah dikalsifikasi sebagai kelas 1 sebanyak 1 record, kelas 4 yang salah diidentifikasi sebagai kelas 2 sebanyak 1 record, dan kelas 4 yang

9 salah diidentifikasi sebagai kelas 3 sebanyak 1

record. Kelas 5 (Shorea Assamica) yang tepat diklasifikasi sebagai kelas 5 sebanyak 10 record, dan tidak ada kelas 1 yang salah diklasifikasi sebagai kelas 2, kelas 3, kelas 4 dan kelas 1. Berdasarkan rumus confusion matrix, besarnya akurasi adalah:

Hasil akurasi setiap iterasi dapat dilihat pada Gambar 13.

Gambar 13 Hasil iterasi tanpa normalisasi. Berdasarkan percobaan pertama dapat disimpulkan iterasi ketiga dan keempat memiliki hasil akurasi paling kecil pada setiap nilai k nya. Kesalahan identifikasi terdapat ketika Shorea palembanica teridentifikasi sebagai Shorea assamica pada iterasi ketiga dan Shorea lepida sebagai Shorea palembanica pada iterasi keempat. Hal ini terjadi karena dipengaruhi kemiripan luas dan panjang data uji terhadap data latih.

Hasil jarak kedekatan diperlihatkan pada Tabel 7 dengan menggunakn iterasi ketiga sebagai contoh.

Tabel 7 Perhitungan jarak tanpa normalisasi

Jarak Kelas Urutan

12.46 Shorea assamica 2 13.68 Shorea assamica 3 12.32 Shorea assamica 1 14.75 Shorea assamica 5 14.52 Shorea assamica 4 19.59 Shorea assamica 8 24.13 Shorea palembanica 9 17.90 Shorea assamica 6 18.12 Shorea assamica 7 Pada perhitungan di atas dapat disimpulkan bahwa Shorea palembanica diidentifikasi sebagai Shorea assamica. Dari percobaan

pertama dapat disimpulkan nilai k terbaik adalah 3 dengan akurasi tertinggi 84%.

Percobaan kedua (dengan normalisasi) Percobaan kedua menggunakan 40 record sebagai data latih yang berisi subset 1, 2, 3, dan 4. Subset 5 yang berisi 10 record dijadikan data uji. Percobaan terus dilakukan hingga setiap subset pernah menjadi data uji. Susunan data latih dan data uji pada percobaan disajikan pada Tabel 5.

Data tersebut kemudian diterapkan dalam metode k-Nearest Neighbour melalui tahap-tahap berikut ini:

1 Normalisasi dilakukan pada setiap fitur hingga didapatkan range antara 0 sampai 1 pada seluruh data. Hal ini dilakukan untuk mengcegah data uji yang nilainya lebih besar dari data latih. Setelah didapatkan hasil normalisasi, lakukan langkah satu seperti percobaan pertama.

2 Digabungkan hasil perhitungan yang menggunakan euclid dan nominal dengan menggunakan rumus aggregate. Memberikan bobot 1 pada hasil perhitungan Euclidean dan bobot 0.5 pada hasil perhitungan nominal. Pemberian bobot 0.5 pada perhitungan nominal agar tidak mendominasi hasil perhitungan. 3 Penentuan nilai k tetangga terdekat pada

percobaan kedua dilakukan dengan mencoba nilai k mulai dari 2 sampai 9 dalam metode k-Nearest Neighbour. Akurasi klasifikasi untuk nilai k=2 sampai k=9 diperlihatkan Gambar 14.

Gambar 14 Akurasi klasifikasi percobaan kedua Berdasarkan gambar tersebut (Gambar 14) akurasi terbesar yang diperoleh adalah 100%. Hal ini disebabkan karena penggunaan

0% 20% 40% 60% 80% 100% 2 3 4 5 6 7 8 9 Iterasi1 Iterasi2 Iterasi3 Iterasi4 Iterasi5

Nilai K

10 normalisasi yang menyamakan range setiap

fitur.

Hasil jarak kedekatan diperlihatkan pada Tabel 8 dengan menggunakan iterasi ketiga sebagai contoh.

Tabel 8 Hasil perhitungan dengan normalisasi

Jarak Kelas Urutan

0.49 Shorea palembanica 2 0.58 Shorea palembanica 3 1.23 Shorea lepida 9 0.62 Shorea palembanica 5 0.69 Shorea palembanica 8 0.58 Shorea palembanica 4 0.67 Shorea palembanica 7 0.63 Shorea palembanica 6 0.39 Shorea palembanica 1 Berdasarkan percobaan kedua dihasilkan akurasi 100% pada setiap nilai k. Hal ini dikarenakan perbedaan bentuk morfologi daun yang memang berbeda dan fitur-fiturnya memang mewakili morfologi daun.

Perbandingan akurasi sebelum dan sesudah normalisasi diperlihatkan pada Gambar 15.

Gambar 15 Perbandingan akurasi. Pada Gambar 16 dapat dilihat bahwa setelah data dinormalisasi memberikan pengaruh yang cukup besar hingga mencapai akurasi 100%.

Dokumen terkait