• Tidak ada hasil yang ditemukan

PENERAPAN ALGORITMA C4.5 UNTUK KLASIFIKA

N/A
N/A
Protected

Academic year: 2018

Membagikan "PENERAPAN ALGORITMA C4.5 UNTUK KLASIFIKA"

Copied!
10
0
0

Teks penuh

(1)

PE NE R A PA N A L G O R I T M A C 4.5 UNT UK K L A S I F I K A S I T I NG K A T K E G A NA S A N H A M A PA D A T A NA M A N PA D I

(S tudi K asus : D inas Per tanian K abupaten K er inci)

Sular no

1)

, Putr i A nggr aini2

2) 1

Sistem Informasi, Universitas D harma A ndalas, J l. Sawahan No.103, Padang email: soelarno@ unidha.ac.id

2

Sistem Informasi, Universitas D harma A ndalas, J l. Sawahan No.103, Padang email: putri_ anggraini@ unidha.ac.id

S ubmitted: 02-11-201W, R eviewed: 29-11- 201W, A ccepted 29-11-201W

http://doi.org/10.22216/jsi.v3i2.2WW9

A bstract

Rice crop is a food plant susceptible to pests. The introduction of pests that attack is a very important first step

to support the success in control efforts. Pests of rice plants can be an obstacle for farmers to be able to

increase production. because the pest can damage the rice plants to make crop failures. With the holding of

classification on rice pests using C 4.5 algorithm is expected farmers can immediately know the type of rice

pest and the level of ferocity. So it is expected to be able to handle the air properly, in order to avoid damage

and crop failure.

K eywords:Pests, Rice C rops, Algorithms C 4.5, C lassification

A bstrak

Tanaman padi merupakan tanaman pangan yang rentan terserang hama. Pengenalan terhadap jenis hama

yang menyerang merupakan langkah awal yang sangat penting untuk menunjang keberhasilan dalam usaha

pengendaliannya. Hama tanaman padi tersebut dapat menjadi kendala bagi petani untuk bisa meningkatkan

produksi. karena hama tersebut dapat merusak tanaman padi hingga membuat gagal panen. Dengan

diadakannya klasifikasi pada hama padi menggunakan algoritma C 4.5 diharapkan para petani dapat segera

mengetahui jenis hama padi dan tingkat keganasannya. Sehingga diharapkan mampu menangani hawa secara

tepat, agar tidak terjadi kerusakan dan gagal panen.

K eywords: Hama, T anaman Padi, Algoritma C 4.5,K lasifikasi

PE ND A H UL UA N

D ata mining adalah kegiatan meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar. K eluaran dari data mining ini bisa dipakai untuk memperbaiki pengambilan keputusan di masa depan ( L iliana S wastina, 2013). Untuk menerapkan konsep data mining banyak cara yang dapat digunakan diantaranya adalah menggunakan konsep beberapa algoritma yang ada pada data mining. A lgoritma C 4.5 adalah salah satu metode untuk

(2)

pekerjaan dan mengakomidasi setiap bentuk kebutuhannya.

B erdasarkan hal diatas, maka penulis sangat tertarik untuk menentukan tingkat

keganasan hama pada tanaman padi

menggunakan bahasa sehari-hari yang nantinya dalam pengambilan keputusan akan lebih mudah dipahami guna menjadikan sebagai pembelajaran untuk kedepannya dalam menghasilkan padi yang bermutu. Penulis mencoba untuk memberikan informasi dalam menentukan tingkat keganasan hama pada tanaman padi di D inas Pertanian K abupaten K erinci. S elama ini informasi yang diberikan dalam tingkat keganasan hama pada tanaman padi hanya bisa dilihat berdasarkan penurunan produksi hasil panen padi dan gagal panen, yang menunjukkan kualitas padi tidak bermutu.

K nowledge D iscovery in D atabases (K D D ) K nowledge D iscovery in D atabase (K DD ) adalah kegiatan yang meliputi pengumpulan, pemakaian data, historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar ( B enni R S iburian, 2014). K nowledge D iscovery in D atabase (K DD ) didefenisikan sebagai ekstraksi informasi potensial, implisit dan tidak dikenal dari sekumpulan data. Proses K nowlegde D iscovery in D atabase melibatkan hasil proses data mining (proses pengekstrak kecenderungan suatu pola data), kemudian mengubah hasilnya secara akurat menjadi informasi yang mudah dipahami (T ampubolon, S aragih, R eza, 2013). F ayyad (1996) dan D unham (2003) menggunakan istilah K nowledge D iscovery in D atabases (K D D ) untuk menunjuk pada keseluruhan proses pencarian pengetahuan dalam kumpulan data jumlah besar. Mereka menggolongkan data mining sebagai salah satu langkah dalam proses K D D dikarenakan oleh penerapannya terhadap suatu algoritma spesifik dalam mencari pola-pola (model) dalam data (A zhari dan A nshori, 2009).

A lgor itma C 4.5

A lgoritma C 4.5 adalah salah satu metode untuk membuat decision tree berdasarkan training data yang telah disediakan. B eberapa pengembangan yang dilakukan pada C 45 adalah sebagai antara lain bisa mengatasi missing value, bisa mengatasi data kontinu, dan pruning (A limancon S ijabat, 2015). A lgoritma C 4.5 diperkenalkan oleh J . R oss Quinlan yang merupakan pengembangan dari algoritma ID 3, algoritma tersebut digunakan untuk membentuk pohon keputusan. Pohon keputusan dianggap sebagai salah satu pendekatan yang paling populer, dalam klasifikasi pohon keputusan terdiri dari sebuah node yang membentuk akar, node akar tidak memiliki inputan (A ri Puspita dan Mochamad W ahyudi, 2015). T iga prinsip kerja algoritma C 4.5 pada tahap belajar dari data adalah :

1. Pembuatan pohon keputusan.

Obyektif dari algoritma pohon keputusan adalah mengkonstruksi struktur data pohon (dinamakan pohon keputusan) yang dapat digunakan untuk memprediksi kelas dari sebuah kasus atau rekord baru yang belum memiliki kelas. C 4.5 mengkonstruksi pohon keputusan dengan strategi divide dan conquer. Pada awalnya, hanya dibuat

node akar dengan menerapkan

algoritma divide dan conquer. A lgoritma ini memilih pemecahan kasus-kasus yang terbaik dengan menghitung dan membandingkan gain ratio, kemudian pada node-node yang terbentuk di level berikutnya, algoritma divide dan conquer akan diterapkan lagi. D emikian seterusnya sampai terbentuk daun-daun. A lgoritma C 4.5 dapat menghasilkan pohon keputusan, dengan simbol kotak menyatakan simpul dan elips menyatakan daun. 2. Pemangkasan pohon keputusan dan

evaluasi (opsional).

(3)

“dibaca”, C 4.5 dapat menyederhanakan pohon dengan melakukan pemangkasan berdasarkan nilai tingkat kepercayaan (confidence level). S elain untuk

pengurangan ukuran pohon,

pemangkasan juga bertujuan untuk mengurangi tingkat kesalahan prediksi pada kasus (record) baru.

3. Pembuatan aturan-aturan dari pohon keputusan (opsional).

A turan-aturan dalam bentuk if-then diturunkan dari pohon keputusan dengan melakukan penelusuran dari akar sampai ke daun. S etiap node dan syarat pencabangannya akan diberikan di if, sedangkan nilai pada daun akan menjadi ditulis di then. S etelah semua aturan dibuat, maka aturan akan disederhanakan (digabung atau diperumum).

S ecara garis beras langkah-langkah yang dilakukan oleh algoritma C 4.5 dalam membentuk pohon keputusan adalah sebagai berikut (R ina D ewi Indah sari dan Y uwono S indunata, 2014):

a. Pada saat awal pembentukan pohon akan di mulai dengan membuat suatu node yang melambangkan training sample.

b. J ika sampel-sampel tersebut memiliki kelas yang sama, maka node tersebut dijadikan leaf node dengan label kelas tersebut.

c. J ika sampel-sampel tersebut tidak memiliki kelas yang sama maka algoritma ini akan mencari gain ratio tertinggi dari atribut yang tersedia, sebagai cara untuk memilih atribut yang paling berpengaruh paada training sample yang tersedia. Nantinya atribut ini akan dijadikan atribut “penguji” atau “keputusan” pada node tersebut. Hal yang perlu diperhatikan adalah ketika atribut tersebut bernilai continu, maka atribut tersebut harus di diskritkan terlebih dahulu.

d. C abang untuk setiap node akan dibentuk berdasarkan nilai-nilai yang diketahui dari atribut pengujian.

e. A lgoritma ini akan terus melakukan proses yang sama rekursif untuk membentuk suatu pohon keputusan untuk setiap sample di setiap bagiannya.

f. Proses rekursif ini akan berhenti, ketika salah satu dari kondisi di bawah telah terpenuhi K ondisi-kondisinya adalah:

1) S emua sample yang diberikan pada node adalah berasal dari satu kelas yang sama.

2) T idak ada atribut lainnya yang dapat digunakan untuk mempartisi sample lebih lanjut.

3) T idak ada sample yang memenuhi test-attribute. D alam hal ini, sebuah daun dibuat dan dilabeli dengan kelas yang memiliki sample terbanyak (majority voting).

Untuk memilih atribut sebagai akar, didasarkan pada nilai Gain tertinggi dari atribut-atribut yang ada. Untuk menghitung Gain digunakan rumus seperti tertera dalam persamaan berikut (S arah F aradillah, 2013) :

,

| | ||

∗ ……….1

K eterangan :

S : Himpunan K asus A : A tribut

n : J umlah partisi atribut A |S i| : J umlah kasus pada partisi ke i |S | : J umlah kasus dalam S

(4)

| |

||

∗ …………..…….2 D i mana :

S : himpunan kasus A : fitur

n : jumlah partisi S

pi : proporsi dari S i terhadap S

M E T O D E PE NE L I T I A N

Untuk mencapai keakuratan dan

ketelitian data serta informasi dalam penelitian ini, maka pengumpulan data di lakukan

dengan 3 cara :

1. Penelitian lapangan (F ield Research) Penelitian ini dilakukan untuk mendapatkan data secara langsung dari D inas Pertanian K abupaten K erinci dengan melakukan Observasi dan wawancara langsung ke instansi serta pada pihak – pihak yang terkait sehingga data yang dimuat dalam laporan ini nyata kebenarannya.

2. Penelitian Perpustakaan (L ibrary Research)

Penelitian ini dilakukan dengan membaca buku – buku literature, yang di jadikan sebagai bahan.

3. Penelitian L aboratorium (L aboratory Research)

Penelitian yang didukung perangkat komputer sebagai alat bantu dalam percobaan penyelesaian masalah. D ata yang akan digunakan dalam penyusunan sistem informasi berbasis komputer harus diolah dengan program aplikasi yang sesuai dengan kebutuhan pemakai, oleh sebab itu penerapan sistem informasi berbasiskan komputer dapat dilakukan dengan menggunakan komputer yang dibutuhkan.

4. Merancang Program aplikasi untuk membantu mengolah data yang di dapat pada saat melakukan penelitian.

5. A dapun spesifikasi hardware dan software yang di gunakan sebagai berikut :

1. Hardware (perangkat keras)

Merupakan komponen secara fisik yang dapat dilihat dan disentuh.

S pesifikasi Hardware yang dibutuhkan adalah :

1. Processor intel core i3 2. F lash D isk 4 G B

3. Printer cannon PIX MA iP 1980 4. Memory 2 G B D D R 3 dan 320 G B

HD D

5. Mouse : Optic L exron 6. Monitor

W. L aptop

2. Software (perangkat lunak) 1. S istem Operasi W indows W

2. Microsoft Office 200W dan microsoft visio

3. W eka

4. S erta Software pendukung lainnya.

H A S I L D A N PE M B A H A SA N

Pemilihan V ar iabel

D ata hama tanaman padi pada D inas Pertanian K abupaten K erinci tahun ajaran 2015 memiliki format seperti berikut :

1. No

2. Nama Hama 3. C iri - ciri 4. K eganasan 5. K eterangan

D ari data-data tersebut, yang diambil sebagai variabel keputusannya adalah nilai keganasan ganas, dan tidak ganas. S edangkan yang diambil sebagai variabel penentu dalam pembentukan pohon keputusan adalah jumlah populasi, cara berkembang biak, perjalanan dan tingkat kerusakan.

(5)

b o padi S etelah Pemilihan V ar iabel S etelah data dalam format di atas, kemudian dilakukan pra-proses dengan mengelompokkan data-data tersebut ke dalam kelas (K ) dengan S turges (R iduwan, 2003) dengan menggunakan R umus :

J umlah K elas (K ) = 1 K 3.3 log n dikelompokkan berdasarkan atribut sebagai berikut.

J umlah Populasi K lasifikasi

0 – 50 1

B erkembang B iak K lasifikasi

Melahirkan A

B ertelur B

T abel 3 K lasifik asi Per k embang B iak aan

(6)

T abel 4 M asa B er k embang B iak

T ingkat K erusakan K lasifikasi

0,00 – 4 1 pra-proses tampak seperti tabel 6.

(7)

pada tabel 4.1 jumlah populasi hama adalah “10”, setelah diklasifikasi menjadi “1”, B erkembang B iak adalah “Melahirkan”, maka setelah klasifikasi menjadi “A ”, Masa berkembang biak adalah “25” berubah menjadi “2, tingkat kerusakan adalah “35” berubah menjadi “6” dan seterusnya.

Pohon K eputusan

D ari format data akhir keganasan hama tanaman padi maka akan dilakukan klasifikasi data algoritma C 4.5 dengan membuat pohon keputusan. S eperti yang telah dijelaskan sebelumnya, algoritma C 4.5 untuk membangun pohon keputusan adalah sebagai berikut :

1. Pilih atribut sebagai akar.

2. B uat cabang untuk tiap-tiap nilai. 3. B agi kasus dalam cabang.

4. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama.

D alam kasus yang tertera pada tabel 4.5 di atas, akan dibuat pohon keputusan untuk menentukan klasifikasi keganasan hama tanaman padi ( ganas dan tidak ganas) dengan melihat jumlah populasi, berkembang biak, masa berkembang biak dan tingkat kerusakan.

Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk menghitung gain digunakan rumus (2.1), sedangkan untuk menghitung nilai entropy dapat dilihat pada rumus (2.2).

D engan menggunakan dua persamaan di atas maka akan didapatkan entropy dan gain yang digunakan sebagai akar dalam membuat pohon keputusan.

- Menghitung jumlah kasus, jumlah kasus untuk keputusan “Ganas”, jumlah kasus untuk keputusan “T idak Ganas”, dan kasus yang dibagi berdasarkan atribut jumlah populasi, berkembang biak, masa berkembang biak dan tingkat kerusakan. S etelah itu, lakukan perhitungan gain untuk setiap atribut.

b o d e

Wumla h Yasus (S )

Danas (S 1)

Tidak Danas (S 2)

9ntro py

Dai n

1 . 2 . 1

Wumlah t opulasi

1 2 1 1 1

2 3 1 2 0,918348

3 3 2 1 0,918348

a asa . e rke m b ang . iak

0,31 150 375

1 3 0 3 0

2 5 3 2 0,970

9508

3 0 0 0

4 0 0 0

5 0 0 0

6 0 0 0

. e rke m b ang . iak

0,036085875

. 8 3 5

T abel W H asil Perhitungan Node terak hir

D ari hasil tabel 8 dapat diketahui bahwa atribut gain tertinggi adalah Masa B erkembang B iak, yaitu sebesar 0,311503W5, berarti Masa B erkembang B iak dapat menjadi node akar selanjutnya. A da dua nilai atribut dari Masa B erkembang B iak yaitu “1” dan “2”. D ari nilai atribut tersebut, nilai “2” sudah Ganas, sehingga tidak perlu dilakukan perhitungan. Pohon keputusan yang terbentuk pada saat ini adalah seperti terlihat pada gambar 5.

G ambar 1 Pohon K eputusan H asil Per hitungan Node terak hir

(8)

aturan atau rule yang terbentuk adalah sebagai berikut :

1. J ika T ingkat K erusakan <= 5, maka T ingkat K eganasan = T idak Ganas

2. J ika T ingkat K erusakan > 5 dan J umlah Populasi > 3, Maka T ingkat K eganasan = Ganas

3. J ika T ingkat K erusakan > 5 dan J umlah Populasi <= 3 dan Masa B erkembang B iak > 1, Maka T ingkat K eganasan = G anas 4. J ika T ingkat K erusakan > 5 dan J umlah

Populasi <= 3 dan Masa B erkembang B iak <= 1, Maka T ingkat K eganasan = T idak Ganas

B erdasarkan dari rule/knowledge yang dihasilkan terdapat beberapa rule yang cukup sesuai dengan kejadian yang terjadi didalam menentukan T ingkat K eganasan hama tanaman padi, dimana rata-rata hama tanaman padi yang memiliki tingkat kerusakan tinggi dan jumlah populasinya yang tinggi dapat dikategorikan hama tanaman padi yang ganas.

I mplementasi

Pengujian terhadap hasil analisa, sangat penting untuk dilakukan untuk memastikan apakah hasil analisa tersebut sesuai. Hasil pengolahan data yang dikerjakan secara manual pada B A B IV dapat diuji kebenarannya menggunakan salah satu software datamining WE K A.

G ambar 2 R ek ap D ata H ama T anaman Padi D alam F ile M icr osoft E xcel 200W

(hama.xls)

(9)

G ambar 4 H asil V isualisasi T ree

D imana rule yang dihasilkan pada gambar 5.10 adalah :

- J ika K erusakan <= 5, maka T ingkat K eganasan = T idak Ganas

- J ika K erusakan > 5 dan Populasi > 3, Maka T ingkat K eganasan = Ganas - J ika K erusakan > 5 dan Populasi <= 3 dan Masa B erkembang B iak > 1, Maka T ingkat K eganasan = Ganas - J ika K erusakan > 5 dan Populasi <=

3 dan Masa B erkembang B iak <= 1, Maka T ingkat K eganasan = T idak Ganas

S etelah dilakukan pengujian pada software WE K A 3.6 untuk memprediksi tingkat keganasan hama tanaman padi seperti yang sudah dijelaskan di atas ternyata hasil rule yang dihasilkan pada WE K A pada gambar 5.10 hampir sama dengan rule yang dihasilkan pada

proses manual penemuan knowledge

menggunakan pohon keputusan.

S I M PUL A N

D ari uraian pada bab-bab yang sudah dibahas sebelumnya dapat ditarik kesimpulan :

1. Metode pohon keputusan yang diproses dengan W eka lebih efektif dan fleksibel

jika digunakan pada proses

pengklasifikasian keganasan hama tanaman padi.

2. Pemilihan variabel ( atribut kondisi dan atribut keputusan) yang akan digunakan

dalam memprediksi juga sangat

mempengaruhi rule atau knowledge yang dihasilkan.

3. S istem yang dibangun dapat membantu dalam pengklasifikasian tingkat keganasan hama tanaman padi yang umumnya masih dilakukan secara manual.

4. A lgoritma C 4.5 dengan metode pohon keputusan dapat memberikan informasi eksekutif dan sistem digunakan untuk menggambarkan proses yang terkait dengan pengklasifikasian keganasan hama tanaman padi.

5. S istem pengklasifikasian tingkat keganasan

hama tanaman padi menggunakan

algoritma C 4.5 dapat digunakan dalam pengambilan

keputusan untuk mencari alternatif yang baik.

.

D A F T A R PUST A K A

L iliana S wastina, (2013), Penerapan A lgoritma C 4.5 Untuk Penentuan J urusan

Mahasiswa, J urnal GE MA

A K T UA L IT A , V ol. 2 No. 1, J uni 2013.

S arah F aradillah, (2013, Implementasi D ata Mining Untuk Pengenalan K arakteristik

T ransaksi C ustomer D engan

Menggunakan A lgoritma C 4.5, Pelita Informatika B udi D arma, V olume : V , Nomor: 3, D esember 2013

R ina D ewi Indah sari, (2014), Penerapan D ata Mininguntuk A nalisa Pola Perilaku

Nasabah D alam Pengkreditan

(10)

B enni R S iburian, (2013) , aplikasi data mining untuk menampilkan tingkat kelulusan mahasiswa dengan algoritma apriori, Pelita Informatika B udi D arma,, V ol. V II, No. 2, A gustus 2014.

K ennedi T ampubolon, Hoga S aragih, & B obby R eza, (2013), Implementasi D ata Mining A lgoritma A priori Pada S istem Persediaan A lat-A lat K esehatan, Majalah Ilmiah Informasi dan T eknologi Ilmiah ( INT I), V ol. I, No. 1, Oktober 2013.

A zhari & A nshori, (2009), pendekatan aturan asosiasi untuk analisis pergerakan saham, S eminar Nasional Informatika 2009 (semnasIF 2009).

A limancon S ijabat, (2015), Penerapan D ata Mining Untuk Pengolahan D ata S iswa

D engan Menggunakan Metode

D ecision T ree (S tudi K asus : Y ayasan Perguruan K risten A ndreas), Majalah Ilmiah Informasi dan T eknologi Ilmiah ( INT I) V olume : V , Nomor : 3 , Pebruari 2015

Gambar

Tabel 1 F ormat Data Hama Tanaman padi  Setelah Pemilihan V ariabel Setelah data dalam format di atas,
Tabel 4  Masa Berkembang Biak
Tabel W Hasil Perhitungan Node terakhir Dari hasil tabel 8 dapat diketahui bahwa
Gambar 2 Rekap Data Hama Tanaman Padi Dalam File Microsoft Excel 200W

Referensi

Dokumen terkait

Tidak ada pengaruh kultur lingkungan kerja pada dimensi individualism dan collectivism terhadap hubungan antara jiwa kewirausahaan dengan efektivitas mengelola usaha

Penelitian ini menggunakan model DEA CCR primal input-oriented, dimana model ini bertujuan untuk mengurangi jumlah input yang digunakan agar dapat mendapatkan hasil output

Bilas lambung mungkin diperintahkan selama periode perdarahan akut, tetapi ini merupakan modalitas pengobatan kontroversial. Beberapa dokter yakin bahwa tindakan

Setelah dihitung dengan integer programming didapatkan solusi bahwa jenang yang dimasak dalam satu periode memasak untuk menghasilkan yang paling optimal

Dari hasil pengujian di atas dapat dinyatakan, bahwa semakin jauh target api yang akan dideteksi, maka persentase keberhasilannya semakin menurun, baik menggunakan

Kemudian nomor Rekam Medis diinput menggunakan sistem yang ada di RSIA &amp; KLINIK PERMATA CIBUBUR berdasarkan In – out yang artinya Rekam Medis dalam posisi in adalah Rekam

Penentuan wilayah wajah berdasarkan warna kulit dan dengan menggunakan metode template matching dapat menentukan wilayah wajah manusia pada citra berwarna dengan

MEMFASILITASI TUMBUHNYA LAPANGAN PEKERJAAN BARU MELALUI PROGRAM KHUSUS BAGI WARGA MASYARAKAT NDUGA YANG SUDAH BERHASIL MENYELESAIKAN PENDIDIKAN TINGKAT MENENGAH MAUPUN TINGKAT