• Tidak ada hasil yang ditemukan

Prediksi Spesies Burung Menggunakan Random Forest

N/A
N/A
Protected

Academic year: 2023

Membagikan "Prediksi Spesies Burung Menggunakan Random Forest"

Copied!
5
0
0

Teks penuh

(1)

Anisha Dwi Nur Fadlilah ,Yulia Wahyuningsih,Yosef Alfredo Khawarga*

Teknik, Ilmu Informatika, Universitas Katolik Darma Cendika, Surabaya, Indonesia Email: 1[email protected],2[email protected], 3[email protected]

Abstrak−Randomforest adalah sebuah algoritma supervised learning yang menggunakan metode pembelajaran ensemble untuk klasifikasi dan regresi. Random forest merupakan sebuah pemodelan dengan menggunakan teknik mengantongi dan bukan teknik meningkatkan. pohon-pohon di random forest berjalan secara paralel. Hal Ini beroperasi dengan membangun banyak pohon keputusan pada saat pelatihan dan keluaran kelas yang merupakan modus dari kelas (klasifikasi) atau prediksi rata-rata (regresi) dari setiap pohon. Pada jurnal ini kami akan menjelaskan mengenai bagaimana membuat sebuah prediksi mengenai spesies burung menggunakan data performa dari spesies burung yang ada prediksi ini kami buat menggunakan metode Random forest dan juga menggunakan confusion matrix.Hal pertama yang harus dilakukan yaitu mempunyai dataset dari jenis – jenis burung ,untuk datasetnya nanti akan kami sertakan pada hasil dan juga pembahasan .Hasil dari penelitian ini menunjukan bahwa penggunaan metode random forest cukup baik untuk memprediksi spesies burung dengan outputnya 45% untuk random forest, 26% untuk Decision Tree, dan 48% untuk SVM, berdasarkan ciri – ciri dan karakteristik masing- masing burung.

Kata Kunci: Random Forest, confusion matrix, pohon keputusan,SVM.

Abstract−Randomforest is a supervised learning algorithm that uses ensemble learning methods for classification and regression.

Random forest is a modeling using pocketing technique and not increasing technique. trees in random forests run in parallel. It operates by constructing multiple decision trees at the time of training and class output which is the mode of class (classification) or mean prediction (regression) of each tree. In this journal we will explain how to make a prediction about bird species using performance data from bird species for which we make predictions using the Random forest method and also using a confusion matrix. The first thing to do is to have a dataset of bird species. For the dataset, we will include it in the results and discussion. The results of this study show that the use of the random forest is good enough to predict bird species with output 45% for random forest, 26% for Decision Tree, and 48% for SVM, based on the characteristics and characteristics of each bird.

Keywords: Random Forest, confusion matrix, decision tree,SVM.

1. PENDAHULUAN

Random forest atau yang biasa kita sebut dengan hutan acak adalah suatu algoritma yang digunakan pada klasifikasi data dalam jumlah yang besar. Klasifikasi random forest dilakukan melalui penggabungan pohon dengan melakukan training pada sampel data yang dimiliki. Penggunaan Random Forest ini umumnya digunakan pada riset pengambil keputusan adalah sebuah diagram alir yang berbentuk seperti pohon yang memiliki sebuah root node yang digunakan untuk mengumpulkan data. Random Forest mengurangi varians dari sejumlah besar model "kompleks" dengan bias rendah. Pohon yang mendasarinya adalah model paralel independen. Random Forest mengurangi varians dari sejumlah besar model "kompleks" dengan bias rendah. Pohon yang mendasarinya adalah model paralel independen. [1].

Gambar 1. Contoh klasifikasi dengan random forest

Dalam ekosistem alam tentu kita melihat adanya berbagai macam binatang salah satunya burung. Burung termasuk binatang unggas yang dapat bertelur, burung juga memiliki berbagai macam spesies. Spesies burung ini lah yang akan kami riset sebagai bahan pertimbangan apakah spesies burung ini sama dengan satu sama yang lain, dan apa perbedaan spesies satu dengan spesies yang lain. Riset ini tentu memerlukan data dari berbagai spesies burung, dan riset yang akan kami uji ini menggunakan metode random forest sebagai metode pengujinya.

Pengklasifikasian spesies burung pada penelitian ini tidak selesai hanya dengan Teknik random forest karena ada beberapa dari spesies burung yang ciri -cirinya sangat sama dan sulit dibedakan dengan Teknik random forest oleh karena akan dilanjutkan dengan menggunakan confusion matrix atau matrik konfusi. Matriks Confusion adalah matriks N x N yang digunakan untuk mengevaluasi kinerja model klasifikasi, di mana N adalah jumlah kelas target. Matriks tersebut membandingkan nilai target aktual dengan yang diprediksi oleh model pembelajaran mesin. Ini memberi kita pandangan holistik tentang seberapa baik kinerja model klasifikasi kita dan jenis kesalahan apa yang dibuatnya. Untuk masalah klasifikasi biner, kita akan memiliki matriks 2 x 2 seperti yang ditunjukkan di bawah ini dengan 4 nilai yaitu true positive (TP), False Positif (FP), true Negatif (TN), false negative (FN)[2].

(2)

Gambar 2. Confusion matrix.

Keterangan:

a. Variabel target memiliki dua nilai: Positif atau Negatif b. Kolom mewakili nilai aktual dari variabel target c. Baris mewakili nilai prediksi dari variabel target

Decision tree atau pohon keputusan adalah alat pendukung dengan struktur seperti pohon yang memodelkan kemungkinan hasil, biaya sumber daya, utilitas, dan kemungkinan konsekuensi. Disebut decision tree atau pohon keputusan karena pilihannya bercabang, membentuk struktur yang terlihat seperti pohon.Pohon keputusan menyediakan cara untuk menyajikan algoritma dengan pernyataan kontrol bersyarat. Mereka termasuk cabang yang mewakili langkah-langkah pengambilan keputusan yang dapat mengarah pada hasil yang menguntungkan. Diagram alir struktur mencakup node internal yang mewakili tes atau atribut pada setiap tahap. Setiap cabang mewakili hasil untuk atribut, sedangkan jalur dari daun ke akar mewakili aturan untuk klasifikasi.Decision tree merupakan salah satu bentuk algoritma pembelajaran terbaik berdasarkan berbagai metode pembelajaran.Mereka meningkatkan model prediktif dengan akurasi, memudahkan dalam interpretasi, dan akurasi. Alat ini juga efektif dalam menyesuaikan hubungan non- linier karena mampu memecahkan tantangan penyesuaian data, seperti regresi dan klasifikasi.Pohon keputusan bekerja paling baik ketika Anda mengikuti aturan diagram alur dasar:

1. Persegi panjang atau bujur sangkar: Gambar awal dari tempat Anda menulis pertanyaan.

2. Garis: Mewakili cabang-cabang pohon. Ini semua adalah kemungkinan tindakan.

3. Lingkaran: Menandakan hasil yang tidak pasti bahwa Anda akan membutuhkan cabang tambahan untuk diklarifikasi.

4. Segitiga: Berikan jawaban yang jelas dan final. Mereka juga disebut “daun.”[3].

Gambar 3. Pohon keputusan

Dalam kasus klasifikasi ataupun prediksi suatu topic juga dilakukan oleh beberapa peneliti lain yang membawanya dengan judul berbeda akan tetapi menggunakan algoritma yang sama yaitu algoritma random forest seperti penelitian yang dilakukan oleh Nur Fajri Azhar dkk dengan judul Memprediksi Waktu Memperbaiki Bug dari Laporan Bug Menggunakan Klasifikasi Random Forest[4].Dan penelitian selanjutnya juga dilakukan oleh Aji Prima Jaya dkk dengan judul Random Forest Algorithm for Prediction of Precipitation[5]. Penelitian selanjutnya dilakukan oleh Yoga Religia dkk dengan judul Analisis Perbandingan Algoritma Optimasi pada Random Forest untuk Klasifikasi Data Bank Marketing[6]. Penelitian selanjutnya juga dilakukan oleh Meiriyama dkk dengan judul Penerapan Algoritma Random Forest Untuk Klasifikasi Jenis Daun Herbal[7].Penelitian lain juga dilakukan oleh Saadah dkk tentang Prediksi Harga Bitcoin Menggunakan Metode Random Forest[8].Penelitian selanjutnya dilakukan oleh Siska Davella dkk tentang Implementasi Random Forest Untuk Klasifikasi Motif Songket Palembang Berdasarkan Sifat[9]. Dan penelitian lainnya juga dilakukan oleh Dewi dkk tentang Penerapan Metode Random Forest Dalam Driver Analysis[10].Penelitian selanjutnya juga dilakukan oleh Muhammad Rafii Amiarrahman dkk tentang Analisis dan Implementasi Algoritma Klasifikasi Random Forest Dalam Pengenalan Bahasa Isyarat Indonesia (BISINDO) [11].Penelitian terakhir dilakukan oleh Umi Khultsum dkk tentang Penerapan Algoritma Random Forest dengan Kombinasi Ekstraksi Fitur Untuk Klasifikasi Penyakit Daun Tomat[12].Berdasarkan hasil kesimpulan dari beberapa peneliti diatas algoritma random forest cukup baik dan mampu menghasilkan error yang relatif rendah, performa yang baik dalam klasifikasi, dapat mengatasi data pelatihan dalam jumlah besar secara efisien, serta metode yang efektif untuk mengestimasi missing data.

2. METODOLOGI PENELITIAN

(3)

Gambar 4. Flowchart metode penelitian.

2.1 Pengumpulan Data

Data dari penelitian ini diambil di http://www.vision.caltech.edu/visipedia/CUB-200-2011.html. File yang digunakan pada penelitian ini yaitu File Classes.txt, file Image_class_labels.txt yang menghubungkan ID kelas dengan ID gambar dan file attributes.txt memberikan nama setiap atribut.

2.2 Pengolahan Data

Pada tahap pengolahan data dilakukan pemilihan file dari sebuah dataset yang sudah disediakan .Dimana beberapa file yang tidak digunakan dihapus dan hanya memerlukan File attributes.txt untuk memberikan nama setiap atribut dan image_attributes_labels.txt,setelah itu dapat mengupload file tersebut ke google collab dan langsung mengeksekusi source yang sudah disediakan.

2.3 Implementasi Random Forest

Random Forest (RF) adalah algoritma yang menggunakan metode pemisahan biner rekursif untuk mencapai node akhir dalam struktur pohon berdasarkan pada pohon klasifikasi dan regresi. RF menghasilkan banyak pohon independen dengan subset yang dipilih secara acak melalui bootstrap dari sampel pelatihan dan dari variabel input di setiap node.Random Forest melakukan klasifikasi dengan cara mengadopsi pendekatan ansambel dari berbagai pohon melalui kemunculan mayoritas untuk mencapai keputusan akhir . Set data pelatihan pada algoritma RF diformulasikan sebagai S = {(xi, yj), i = 1, 2, …, N; j = 1, 2, …, M}, dimana x adalah sampel dan y adalah variabel fitur S. N adalah jumlah sampel pelatihan, dan ada variabel fitur M di setiap sampel.

2.4 Hasil Analisa

Hasil Analisa ini nantinya akan digunakan untuk memberikan suatu kesimpulan pada hasil akhir setelah uji coba melakukan prediksi spesies burung.

3. HASIL DAN PEMBAHASAN

Untuk memprediksi spesies burung dengan random forest ini kita menggunakan dataset yang berisi sekitar 12.000 foto burung dari 200 spesies berbeda.

3.1 Pengumpulan Data

Pada penelitian ini dataset yang diambil yaitu File Classes.txt menunjukkan ID kelas dengan nama spesies burung. File Image.txt menunjukkan ID gambar dan nama file. Spesies untuk setiap foto diberikan di File Image_class_labels.txt yang menghubungkan ID kelas dengan ID gambar. File attributes.txt memberikan nama setiap atribut dan file image.txt seperti yang ditunjukan pada tabel 1 dan gambar 5.

Tabel 1. Contoh dataset spesies burung Class

ids/name(classes.txt) Image.txt

Attributes ids/name(attributes

.txt)

Image ids/class ids(image_class_label

s.txt) 1.001.Black_footed_Alb

atross

Black_Footed_Albatross_0001_796 111.jpg

1.has_bill_shape:

curved

1 1 2. 002.Laysan_Albatross Laysan_Albatross_0001_545.jpg 2.has_bill_shape:

dagger

2 1 3. 003. Sooty_Albatross Sooty_Albatross_0001_1071.jpg 3.has_bill_shape:

hooked

3 1

4. 004

Groove_billed_Ani

Groove_Billed_Ani_0002_1670.jpg 4.has_bill_shape:

needle

4 1 5.005.Crested_Auklaet Crested_Auklet_0001_794941.jpg 5.has_bill_shape:

spatulate

5 1

Dibwah ini merupakan gambar dari spesies burung, dapat dilihat pada gambar 5 dibawah ini:

(4)

Gambar 5. Spesies burung 3.2 Pengolahan Data

Setelah File dikumpulkan dilakukan ujicoba untuk pemilihan file apa saja yang dibutuhkan dalam klasifikasi spesies burung menggunakan random forest, dan yang paling penting untuk prediksi burung menggunakan 2 file yaitu file attributes.txt untuk memberikan nama setiap atribut dan file image_attributes_labels.txt dimana gambar spesies burung yang sudah dikumpulkan diberi label seperti yang ditunjukkan pada tabel 2 dan gambar 6.

Tabel 2. Contoh Dataset file attributes.txt dan image_attributes_labels.txt Attributes ids/name(attributes.txt) Image ids/class ids(image_class_labels.txt)

1.has_bill_shape: curved 1 1

2.has_bill_shape: dagger 2 1

3.has_bill_shape: hooked 3 1

4.has_bill_shape: needle 4 1

5.has_bill_shape: spatulate 5 1

Berikut ini merupakan contoh spesies burung yang diberi label, dapat dilihat pada gambar 6 dibawah ini:

Gambar 6. Contoh spesies burung yang diberi label 3.3 Implementasi Random Forest

3.3.1 Prediksi Spesies Burung Dengan Random Forest Menggunakan Python

Prediksi burung dengan random forest menggunakan atribut dari lima baris pertama dari set pelatihan, yang akan memprediksi spesies 53, 161, 187, 148, dan 40. Setelah pengujian, kami mendapatkan akurasi 44%:

3.3.2 Membuat Confusion Matrix Untuk Data

Jadi selanjutnya yaitu membuat matrik konfusi untuk melihat burung mana yang dibingungkan oleh kumpulan data.

Kita akan membutuhkan nama sebenarnya dari burung pada matriks sehingga kita mengetahui spesies yang sedang bingung satu sama lain. Karena nama burung diurutkan, kuadrat kebingungannya lebih kecil. Hasil akurasi berdasarkan output adalah 27%, lebih rendah dari akurasi 44% sebelumnya. Oleh karena itu, pohon keputusan lebih buruk. Jika kita menggunakan Support Vector Machine (SVM), yang merupakan neural pendekatan jaringan, outputnya adalah 27%.

(5)

Gambar 7. Visualisasi grafik nilai akurasi

Berdasarkan hasil visualisasi grafik diatas dapat dilihat bahwa peningkatan jumlah pohon menghasilkan hasil yang lebih baik. Juga, meningkat jumlah fitur menghasilkan hasil yang lebih baik jika Anda dapat melihat lebih banyak fitur, tetapi pada akhirnya memiliki hasil sekitar 20 hingga 30 fitur dan memiliki sekitar 75 hingga 100 pohon, itu sekitar sebagus mendapatkan akurasi 45%.

4. KESIMPULAN

Berdasarkan hasil uji coba prediksi spesies burung dengan Random Forest diatas dapat disimpulkan bahwa bahwa penggunaan metode random forest dan cukup baik untuk memprediksi spesies burung dengan Outputnya 45% untuk hutan acak, 26% untuk pohon keputusan, dan 48% untuk SVM berdasarkan ciri – ciri dan karakteristik masing- masing burung. Dengan menggunakan confusion matrix data spesies burung yang sebelumnya menjadi kebingungan pada teknik random forest dikarenakan terdapat beberapa spesies burung yang sulit dibedakan dapat terselesaikan dengan hasil akurasi hampir mendekati benar Serta mampu menghasilkan error yang relatif rendah, performa yang baik dalam klasifikasi, dapat mengatasi data pelatihan dalam jumlah besar secara efisien, serta metode yang efektif untuk memprediksi spesies burung.

REFERENCES

[1] A. Yanuar, “Random Forest – Universitas Gadjah Mada Menara Ilmu Machine Learning,” Universitas Gajah Mada. 2018.

[Online]. Available: https://machinelearning.mipa.ugm.ac.id/2018/07/28/random-forest/

[2] Aniruddha Bhandari, “Confusion Matrix for Machine Learning,” Analytics Vidhya. 2020. [Online]. Available:

https://www.analyticsvidhya.com/blog/2020/04/confusion-matrix-machine-learning/

[3] Gie, “Decision Tree: Pengertian, Cara Buat, Kelebihan dan Kekurangannya.” 2021. [Online]. Available:

https://accurate.id/marketing-manajemen/decision-tree/#3_Berfungsi_sebagai_alat_pendukung_di_beberapa_bidang [4] N. F. Azhar and S. Rochimah, “Memprediksi Waktu Memperbaiki Bug dari Laporan Bug Menggunakan Klasifikasi Random

Forest,” J. Sist. dan Inform., vol. 11, no. 1, pp. 156–164, 2016.

[5] A. Primajaya and B. N. Sari, “Random Forest Algorithm for Prediction of Precipitation,” Indones. J. Artif. Intell. Data Min., vol. 1, no. 1, p. 27, 2018, doi: 10.24014/ijaidm.v1i1.4903.

[6] R. Sistem, “JURNAL RESTI Analisis Perbandingan Algoritma Optimasi pada Random Forest untuk,” vol. 1, no. 10, pp.

187–192, 2021.

[7] M. Informatika and U. M. Data, “Penerapan Algoritma Random Forest Untuk Klasifikasi Jenis Daun Herbal,” vol. 3, no. 1, pp. 131–138, 2022.

[8] S. Saadah and H. Salsabila, “Prediksi Harga Bitcoin Menggunakan Metode Random Forest,” J. Komput. Terap., vol. 7, no.

1, pp. 24–32, 2021.

[9] S. Devella, Y. Yohannes, and F. N. Rahmawati, “Implementasi Random Forest Untuk Klasifikasi Motif Songket Palembang Berdasarkan SIFT,” JATISI (Jurnal Tek. Inform. dan Sist. Informasi), vol. 7, no. 2, pp. 310–320, 2020, doi:

10.35957/jatisi.v7i2.289.

[10] N. K. Dewi, S. Y. Mulyadi, and U. D. Syafitri, “Penerapan Metode Random Forest Dalam Driver Analysis,” Forum Stat.

Dan Komputasi, vol. 16, no. 1, pp. 35–43, 2012, [Online]. Available:

http://journal.ipb.ac.id/index.php/statistika/article/view/5443

[11] M. R. Amiarrahman and T. Handhika, “Analisis dan Implementasi Algoritma Klasifikasi Random Forest Dalam Pengenalan Bahasa Isyarat Indonesia (BISINDO),” Semin. Nas. Inov. Teknol., pp. 83–88, 2018.

[12] U. Khultsum and A. Subekti, “Penerapan Algoritma Random Forest dengan Kombinasi Ekstraksi Fitur Untuk Klasifikasi Penyakit Daun Tomat,” J. Media Inform. Budidarma, vol. 5, no. 1, p. 186, 2021, doi: 10.30865/mib.v5i1.2624.

Referensi

Dokumen terkait

Walaupun jumlah spesies yang ditemukan di hutan lebat lebih sedikit dibandingkan di hutan jarang, burung yang berada dihutan lebat merupakan spesies-spesies yang dilindungi dan

Selanjutnya dilakukan transformasi data menggunakan LabelEncoder, pengisian nilai null menggunakan fungsi IterativeImputer dengan model DecisionTreeRegressor, data scaling

Penelitian ini mengikuti teknik ensemble adaboost dan bagging menggunakan pohon keputusan J48 (c4.5) sebagai learning base beserta teknik data mining J48 mandiri

(1996) menjelaskan bahwa ada dua kelompok burung air yang dijumpai pada habitat mangrove, yaitu burung air penetap dan burung air pengembara yang datang untuk

Keanekaragaman terjadi dalam hal jumlah individu, spesies, dan family pada lokasi yang berbeda, terkait dengan habitat dan populasi burung, dan utamanya terkait dengan ketersediaan

Pengukuran Performansi Dataset Acak Skenario Perbandingan Data MAPE Akurasi Pengujian Pertama 70:30 1.50% 98.50% Pengujian Kedua 50:50 1.76% 98.22% Pengujian Ketiga

Hasil ini menunjukkan bahwa teknik machine learning seperti Random Forest dapat digunakan sebagai metode yang efektif dalam prediksi stroke berdasarkan data klinis dan faktor risiko..