Implementasi Algoritma C4.5 Dalam Pembuatan Aplikasi Untuk Menganalisis Kemungkinan Pengunduran Diri Calon Mahasiswa Baru

(1)

IMPLEMENTASI ALGORITMA C4.5 DALAM PEMBUATAN

APLIKASI UNTUK MENGANALISIS KEMUNGKINAN

PENGUNDURAN DIRI CALON MAHASISWA BARU

SKRIPSI

Diajukan untuk Menempuh Ujian Akhir Sarjana Program Strata Satu Jurusan Teknik Informatika

Fakultas Teknik dan Ilmu Komputer Universitas Komputer Indonesia

RANGGA GELAR GUNTARA

10107372

JURUSAN TEKNIK INFORMATIKA

FAKULTAS TEKNIK DAN ILMU KOMPUTER

UNIVERSITAS KOMPUTER INDONESIA

BANDUNG

(2)

i

ABSTRAK

IMPLEMENTASI ALGORITMA C4.5 DALAM PEMBUATAN

APLIKASI UNTUK MENGANALISIS KEMUNGKINAN

PENGUNDURAN DIRI CALON MAHASISWA BARU

Oleh

RANGGA GELAR GUNTARA 10107372

Pada Universitas Komputer Indonesia (UNIKOM) Bandung, seringkali terjadi permasalahan mengenai calon mahasiswa baru yang telah berhasil lulus ujian saringan masuk UNIKOM, mengundurkan diri dengan cara tidak melakukan registrasi ulang. Jika kemungkinan pengunduran diri calon mahasiswa baru tersebut dapat di ketahui lebih dini, mungkin tim manajemen UNIKOM dapat melakukan tindakan-tindakan yang diperlukan untuk mempertahankan calon-calon mahasiswa tersebut agar melakukan registrasi ulang.

Aplikasi untuk menganalisis kemungkinan pengunduran diri calon mahasiswa baru telah berhasil dibangun. Analisis dilakukan dengan memanfaatkan teori penalaran berbasis kasus, yaitu membandingkan kasus calon mahasiswa baru dengan kasus-kasus yang pernah terjadi di tahun-tahun sebelumnya.

Teknik penalaran kasus yang digunakan adalah dengan membangun sebuah pohon keputusan. Pohon keputusan dibuat unuk menghasilkan daftar aturan klasifikasi. Algoritma yang digunakan untuk membentuk pohon keputusan tersebut adalah dengan mengimplementasikan Algoritma C4.5. Algoritma C4.5 merupakan pengembangan dari Algoritma ID3.

(3)

ii

OF PROSPECTIVE NEW STUDENTS

By

RANGGA GELAR GUNTARA 10107372

In UNIKOM Bandung, it often happen that a student candidate who has

been succeed in the admission test, cancel his/her application by disregarding the

next phase of admission process (re-registration). If the withdrawal possibility

arised can be detected early, then it is expected that the UNIKOM executive can

make any attempt to keep the candidate proceeds through the admission process

and subsequently, minimizes the rate of admission cancellation.

An application to detect the possibility of application withdrawal has been

built. The detection is based on the cases occurred in the past. The cases are

searched and compared with the current case.

In order to make the cases searching technically easier, an indexing is

conducted in the form of a decision tree, and it is used to build the rule bases. The

tree is built with C4.5 algorithm that is improvement from the predecessor ID3

algorithm.

(4)

iii

Dengan memanjatkan puji syukur kehadirat Allah SWT, atas rahmat dan karunianya penulis dapat menyelesaikan Tugas Akhir, yang merupakan syarat untuk menyelesaikan program studi Strata-1 Jurusan Teknik Informatika Fakultas Teknik dan Ilmu Komputer pada Universitas Komputer Indonesia dengan judul

“Implementasi Algoritma C4.5 Dalam Pembuatan Aplikasi Untuk

Menganalisis Kemungkinan Pengunduran Diri Calon Mahasiswa Baru”. Selama pelaksanaan dan penyusunan laporan Tugas Akhir ini banyak menemui hambatan dan kesulitan. Namun berkat dorongan, bantuan dan bimbingan baik secara moril ataupun materil dari berbagai pihak hingga dapat mengatasinya. Untuk itu penulis ingin mengucapkan terima kasih kepada :

1. Allah SWT yang telah melimpahkan rahmat dan karunia-Nya.

2. Kedua orang tua, keluarga serta sahabat yang telah memberikan dukungan moril maupun materil yang tak terhingga selama ini.

3. Bapak Dr. Arry Akhmad Arman, selaku Dekan Fakultas Teknik dan Ilmu Komputer Universitas Komputer Indonesia.

4. Ibu Mira Kania Sabariah, S.T., M.T. sebagai Ketua Jurusan Program Studi Teknik Informatika Universitas Komputer Indonesia.

5. Ibu Tati Hariyati S.T., M.T., Selaku Sekretaris Jurusan teknik Informatika di Universitas Komputer Indonesia.

(5)

iv

Indonesia yang telah membantu dan memberikan pengarahan.

9. Teman-teman kelas IF-9 angkatan 2007 yang selalu menemani penulis serta memberi dukungan dan semangat.

10.Semua pihak yang telah ikut membantu dalam penulisan laporan ini baik secara langsung maupun tidak langsung.

Semoga kebaikan yang telah diberikan kepada penulis mendapatkan berkat yang melimpah dari Allah SWT.

Penulis menyadari bahwa dalam penulisan Tugas Akhir ini masih memiliki banyak kekurangan baik dari segi materi maupun penyusunannya, mengingat terbatasnya pengetahuan dan kemampuan penulis. Untuk itu, dengan kerendahan hati penulis memohon maaf dan penulis sangat mengharapkan segala saran kritikan yang sekiranya dapat membantu penulis agar dalam penulisan selanjutnya bisa lebih baik

Wassalamu’allaikum. Wr. Wb.

Bandung, Juli 2011

(6)

1

1.1 Latar Belakang Masalah

Kehadiran data mining dilatarbelakangi dengan masalah data explosion

yang dialami akhir-akhir ini, dimana banyak perusahaan telah mengumpulkan data sekian tahun lamanya (data pembelian, data penjualan, data nasabah, data transaksi, data mahasiswa dan lain-lain). Masalah itu pula yang terjadi pada Universitas Komputer Indonesia (UNIKOM) sebagai perusahaan dalam bidang jasa pendidikan, sebagian data yang tersimpan selama ini hanya sebagai dokumentasi contohnya data calon mahasiswa baru. Pertanyaannya sekarang, apakah data tersebut akan dibiarkan menggunung, tidak berguna lalu dibuang, ataukah dapat me-“nambang”-nya untuk mencari „emas‟ dan „berlian‟ yaitu informasi yang berguna untuk perusahaan tersebut.

Pertumbuhan yang pesat dari akumulasi data itu ternyata menciptakan kondisi yang sering disebut sebagai “Rich of Data but Poor of Information”

karena data yang terkumpul itu tidak dapat digunakan untuk pengambilan keputusan. Kumpulan data itu dibiarkan begitu saja seakan-akan menjadi sebuah

“kuburan data (data tombs)”.

(7)

calon mahasiswa. Namun, ternyata jumlah keseluruhan mahasiswa baru UNIKOM untuk tahun ajaran 2010/2011 adalah sebanyak 3341, itu berarti ada sekitar 472 calon mahasiswa mengundurkan diri dengan cara tidak melakukan registrasi. 12,5 % calon mahasiswa yang mungkin potensial, tidak mampu dipertahankan oleh UNIKOM Bandung. Bayangkan bila dalam waktu 4 tahun jika jumlah calon mahasiswa baru yang mengundurkan diri rata-rata sebanyak 12,5 %, maka hampir 50% calon mahasiswa tidak dapat dipertahankan UNIKOM. Jumlah yang sangat besar mengingat persaingan di dunia pendidikan saat ini yang semakin meningkat.

Berdasarkan hal tersebut, maka jika kemungkinan pengunduran diri seorang calon mahasiswa baru dapat diketahui lebih dini mungkin pihak manajemen UNIKOM dapat melakukan tindakan-tindakan yang diperlukan untuk mempertahankan calon-calon mahasiswa tersebut. Namun, permasalahannya hingga saat ini, UNIKOM belum memiliki standar baku yang dapat dijadikan sebagai alat untuk menganalisis kemungkinan pengunduran diri calon mahasiswa baru tersebut.

(8)

penunjang keputusan berbasis komputer yang mengimplementasikan algoritma klasifikasi data mining. Dengan ketersediaan data calon mahasiswa baru yang melimpah, data mining dapat menggali informasi yang terkubur dari kumpulan data calon mahasiswa baru tersebut. Aplikasi ini dapat digunakan untuk menganalisis kemungkinan pengunduran diri calon mahasiswa baru berdasarkan data yang telah terkumpul sebelumnya.

(9)

1.2 Rumusan Masalah

Adapun masalah yang ingin diselesaikan dalam penelitian ini adalah bagaimana cara membuat aplikasi untuk membantu manajemen UNIKOM dalam melakukan analisis kemungkinan pengunduran diri seorang calon mahasiswa dengan didasarkan pada kasus-kasus yang sudah ada. Dalam penelitian ini model pohon keputusan yang akan digunakan untuk mendeteksi kemungkinan pengunduran diri seorang calon mahasiswa adalah dengan menerapkan algoritma C4.5.

1.3 Maksud dan Tujuan Penelitian

Maksud dari Penelitian ini adalah untuk mengimplementasikan algoritma pembentukan pohon keputusan C4.5 dalam sebuah aplikasi yang dapat mendeteksi kemungkinan pengunduran diri seorang calon mahasiswa di UNIKOM Bandung.

Sedangkan tujuan dari penelitian adalah:

1. Dengan adanya aplikasi ini diharapkan kemungkinan seorang calon mahasiswa akan mengundurkan diri dari UNIKOM dapat diketahui secara dini 2. Untuk membantu pihak manajemen unikom dalam melakukan proses

penjaringan calon mahasiswa baru.

3. Untuk membentuk klasifikasi data calon mahasiswa baru yang melakukan registrasi atau tidak registrasi.

(10)

1.4 Batasan Masalah

Pada tugas akhir ini, permasalahan dibatasi pada :

1. Pembentukan pohon keputusan dengan menggunakan algoritma C4.5.

2. Proses yang dilibatkan dalam aplikasi yang dibangun adalah berupa proses

data mining.

3. Aplikasi dibangun menggunakan Borland Delphi 7.

4. Keluaran yang dihasilkan aplikasi ini berupa informasi pengklasifikasian data calon mahasiswa baru dengan variabel tujuan melakukan registrasi dan tidak registrasi berdasarkan atribut-atribut dalam data mahasiswa baru berupa pohon keputusan yang dibentuk menggunakan algoritma C4.5.

5. Penyajian laporan daftar aturan yang terbentuk berdasarkan tree yang telah dibentuk disimpan ke dalam format Excel.

6. Pencocokkan kasus baru dengan kasus lama dilakukan secara manual oleh Analis.

7. Klasifikasi yang dihasilkan berdasarkan pohon keputusan adalah mengelompokkan data calon mahasiswa baru berdasarkan variabel tujuan yang terdiri dari registrasi, tidak registrasi, dan tidak terklasifikasi.

8. Data yang digunakan merupakan data sampel yang diambil secara acak dari tabel CalonMhsBaru. Tujuannya untuk membandingkan hasil pengklasifikasian yang dihitung secara manual dan secara otomatis oleh aplikasi yang dibangun.

(11)

preprocessing yang hanya menyertakan informasi-informasi yang dibutuhkan saja dengan membuang informasi yang tidak dibutuhkan.

10.Analisis pemodelan yang digunakan adalah berdasarkan aliran data terstruktur. Alat yang digunakan dalam menggambarkan model fungsional dan aliran informasi yaitu menggunakan Diagram Konteks dan Data Flow Diagram (DFD).

1.5 Metodologi Penelitian

Metodologi yang digunakan dalam penulisan tugas akhir ini adalah sebagai berikut :

1. Tahap pengumpulan data

Metode pengumpulan data yang digunakan dalam penelitian ini adalah sebagai berikut :

a. Studi Pustaka

Pengumpulan data dengan cara mengumpulkan literatur, jurnal, paper dan bacaan-bacaan yang ada kaitannya dengan judul penelitian.

b. Observasi

Teknik pengumpulan data dengan mengadakan penelitian dan peninjauan langsung terhadap permasalahan yang diambil.

c. Wawancara

(12)

2. Tahap pembuatan perangkat lunak.

Teknik analisis data dalam pembuatan perangkat lunak menggunakan paradigma perangkat lunak secara waterfall, yang meliputi beberapa proses diantaranya:

a. System Engineering

Merupakan bagian terbesar dalam pengerjaan suatu proyek, dimulai dengan mencari dan menetapkan berbagai kebutuhan dari semua elemen yang diperlukan oleh suatu sistem.

b. Analysis

Merupakan tahap menganalisis hal-hal yang diperlukan dalam pelaksanaan proyek pembuatan perangkat lunak.

c. Design

Tahap penerjemahan dari data yang dianalisis kedalam bentuk yang mudah dimengerti oleh user.

d. Coding

Tahap penerjemahan data atau pemecahan masalah yang telah dirancang kedalam bahasa pemrograman tertentu.

e. Testing

(13)

f. Maintenance

Tahap akhir dimana suatu perangkat lunak yang sudah selesai dapat mengalami perubahan–perubahan, penambahan, atau perbaikan sesuai dengan permintaan user.

Gambar I.1 Metode Waterfall

1.6 Sistematika Penulisan

Adapun sistematika penulisan tugas akhir ini adalah sebagai berikut :

BAB I PENDAHULUAN

Bab ini menguraikan tentang latar belakang permasalahan, rumusan masalah, maksud dan tujuan, batasan masalah, metodologi penelitian, sistematika penulisan.

BAB II TINJAUAN PUSTAKA

(14)

BAB III ANALISIS DAN PERANCANGAN

Menganalisis masalah yang dihadapi dalam membuat aplikasi dan tentang perancangan dalam pembuatan sistem.

BAB IV IMPLEMENTASI DAN PENGUJIAN SISTEM

Berisi tahapan-tahapan yang dilakukan untuk menerapkan sistem yang telah dirancang.

BAB V KESIMPULAN DAN SARAN

(15)

1

2.1 Tinjauan Tempat Penelitian

Pada subbab ini akan membahas mengenai tempat penelitian tugas akhir ini.

2.1.1 Sejarah Perusahaan

Universitas Komputer Indonesia (UNIKOM) secara resmi berdiri pada hari Selasa, tanggal 8 Agustus 2000 berdasarkan Surat Keputusan Menteri Pendidikan Nasional nomor 126/D/0/2000.

Awalnya dimulai pada bulan Juli tahun 1994 ketika didirikan Lembaga Pendidikan Komputer Indonesia Jerman, disingkat LPKIG, bertempat di jalan Dipati Ukur 102 Bandung . Dengan 1 ruang kelas berkapasitas 50 orang dan 1 laboratorium komputer dengan 25 unit komputer, Lembaga ini membuka program pendidikan 1 tahun dengan 5 program studi yaitu Ahli Komputer Aplikasi Bisnis, Ahli Komputer Keuangan & Perbankan, Ahli Komputer Akuntansi & Perpajakan, Ahli Komputer Manajemen & Pemasaran dan Sekretaris Eksekutif. Jumlah peserta pendidikan pada tahun pertama ini sebanyak 233 siswa.

(16)

ditambah menjadi 2 buah dan laboratorium komputer menjadi 2 buah dengan jumlah siswa sebanyak 457 orang.

Pada tahun ketiga, 1996, dilakukan penambahan gedung kuliah baru bertempat di jalan Dipati Ukur 116 (gedung FISIP sekarang), sekaligus pemindahan pusat administrasi dan perkantoran. Digedung baru ini dilakukan penambahan 1(satu) Lab. Komputer, 5(lima) Ruang Kuliah, Ruang Dosen dan Ruang Kemahasiswaan. Jumlah siswa dari tahun 1996 hingga tahun 1998 bertambah dari 632 orang menjadi 1184 orang.

Pada tahun kelima, 1998, dimulai pembangunan Kampus baru (Gedung Rektorat /Kampus-1 sekarang) berlantai 6(enam) di jalan Dipati Ukur 114. Pembangunan Kampus baru ini dapat diselesaikan pada bulan Agustus 1999, sehingga pada awal perkuliahan bulan September 1999 telah dapat digunakan. Mencermati dinamika peserta didik dan pengembangan Institusi kedepan, pada tanggal 24 Desember 1998 dibentuklah Yayasan Science dan Teknologi dan dilanjutkan dengan pengajuan pendirian STIMIK IGI dan STIE IGI ke DIKTI.

Pada bulan Juli 1999 STIE IGI diresmikan dengan keluarnya SK Mendiknas no. 119/D/O/1999 dengan 5 program studi : Akuntansi S1, Manajemen S1, Manajemen Pemasaran D3, Keuangan Perbankan D3 serta Akuntansi D3.

(17)

Agar Sistem Pendidikan lebih Efisien, Efektif, Produktif dengan Struktur Organisasi yang lebih baik, enam bulan kemudian dilakukan usulan ke DIKTI untuk melakukan Merger kedua Sekolah Tinggi diatas menjadi Universitas.

Pada hari Selasa, tgl. 8 Agustus 2000 keluarlah SK MENDIKNAS no. 126/D/O/2000 atas Universitas Komputer Indonesia yang disingkat dengan nama UNIKOM. Pada SK tersebut sekaligus diijinkan dibukanya 11 program studi baru : Teknik Komputer S1, Manajemen Informatika S1, Teknik Industri S1, Teknik Arsitektur S1, Perencanaan Wilayah dan Kota S1, Ilmu Hukum S1, Ilmu Komunikasi S1, Ilmu Pemerintahan S1, Desain Interior D3, Desain Komunikasi Visual S1 dan Desain Komunikasi Visual D3.

Sejak berdirinya pada tahun 2000, setiap tahunnya UNIKOM menerima ± 2.000 mahasiswa baru. Terakhir pada tahun 2009 yang lalu diterima sebanyak 3.108 mahasiswa baru. Hingga tahun akademik 2009/2010 terdapat 6 Fakultas dan 23 Program Studi di UNIKOM dengan jumlah mahasiswa sebanyak 15.000 orang yang berasal dari berbagai pelosok tanah air dan dari luar negeri yang sedang menempuh pendidikan di UNIKOM.

2.1.2 Visi, Misi dan Target Perusahaan

2.1.2.1 Visi

(18)

2.1.2.2 Misi

Menyelenggarakan Pendidikan tinggi kearah masyarakat Industri maju dengan sistem pendidikan yang kondusif, tenaga pengajar berkualitas dan program-program studi berbasis pada teknologi informasi & komputer dengan mengoptimalkan sumber daya yang ada, kualitas dan manajemen mutu berdasarkan prinsip Quality Is Our Tradition.

2.1.2.3 Target

Menghasilkan Ilmuwan dan berpikiran tinggi maju dibidangnya masing-masing, mahir menggunakan teknologi informasi & komputer dalam bekerja serta beriman dan bertakwa kepada Tuhan Yang Maha Esa.

2.1.3 Logo Perusahaan

Berikut ini adalah logo dari Universitas Komputer Indonesia.

Gambar II.1 Logo Unikom

Penjelasan logo :

1. Bingkai Segi Lima, Melambangkan UNIKOM berlandaskan falsafah negara yakni Pancasila dan Undang-Undang Dasar 1945.

(19)

3. Bulatan Dalam Berwarna Biru, Melambangkan UNIKOM bertujuan menghasilkan ilmuwan unggul dan berpikiran maju yang Bertaqwa kepada Tuhan Yang Maha Esa.

4. Komputer, Melambangkan ciri utama UNIKOM yang memberikan pendidikan Teknologi Informasi dan Komputasi pada seluruh Jurusan yang ada dilingkungan Universitas Komputer Indonesia, menjadi Universitas Terdepan dibidang Teknologi Informasi dan Komputer serta sebagai Universitas komputer pertama di Indonesia.

5. Stasiun Relay, Melambangkan UNIKOM menyelenggarakan Pendidikan Tinggi kearah masyarakat industri maju dengan sistem pendidikan yang kondusif dan tenaga pengajar berkualitas untuk menghasilkan lulusan-lulusan terbaik.

6. Satelit, Melambangkan UNIKOM berwawasan Global dan menjadi pusat unggulan dibidang IPTEK & seni yang mendukung Pembangunan Nasional serta berorientasi pada kepentingan masyarakat, bangsa dan negara.

7. Cakrawala, Melambangkan indahnya menggapai Cita-cita dan mengejar ilmu setinggi Langit.

(20)

2.1.4 Struktur Organisasi Perusahaan

Berikut ini adalah bagan organisasi Universitas Komputer Indonesia :

(21)

2.2 Landasan Teori

2.2.1 Data

Menurut Abdul Kadir (2003: 29), data adalah deskripsi tentang benda, kejadian, aktivitas, dan transaksi, yang tidak mempunyai makna atau tidak berpengaruh secara langsung kepada pemakai. Data merupakan bentuk jamak dari

datum, berasal dari bahasa Latin yang berbarti “sesuatau yang diberikan”. Dalam penggunaan sehari-hari, data berarti suatu pernyataan yang diterima secara apa adanya. Pernyataan ini adalah suatu variabel yang bentuknya dapat berupa angka, kata-kata, atau citra. Dalam keilmuan (ilmiah), fakta dikumpulkan untuk menjadi data. Data kemudian diolah sehingga dapat diutarakan secara jelas dan tepat sehingga dapat dimengerti oleh orang lain yang tak langsung mengalaminya sendiri, hal ini dinamakan deskripsi. Pemilahan banyak data sesuai dengan persamaan atau perbedaan yang dikandungnya dinamakan klasifikasi. Secara konseptual, data adalah deskripsi tentang benda, kejadian, aktivitas, dan transaksi, yang tidak mempunyai makna atau tidak berpengaruh secara langsung kepada pemakai. Data dapat berupa nilai yang terformat, teks, citra, audio, dan video.

2.2.2 Informasi

(22)

2.2.3 Pengertian Data mining

Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database. Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi bermanfaat dan pengetahuan yang terakit dari berbagai database besar. (Turban, dkk. 2005).

Menurut Gartner Group data mining adalah suatu proses menemukan hubungan yang berarti, pola, dan kecenderungan dengan memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan dengan menggunakan teknik pengenalan pola seperti teknik statistik dan matematika (Larose, 2005).

Selain definisi di atas beberapa definisi juga diberikan seperti tertera di bawah ini.

“Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara

manual.” (Pramudiono, 2006)

“Data mining adalah analisis otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya.” (Pramudiono, 2006)

“Data mining merupakan analisis dari peninjauan kumpulan data untuk menemukan hubungan yang tidak diduga dan meringkas data dengan cara yang berbeda dengan sebelumnya, yang dapat dipahami dan bermanfaaat bagi pemilik

(23)

“Data mining merupakan bidang dari beberapa bidang keilmuan yang menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik, database, dan visualisasi untuk penanganan permasalahan pengambilan informasi dari

database yang besar.” (Larose, 2005)

Kemajuan luar biasa yang terus berlanjut dalam bidang data mining

didorong oleh beberapa faktor, antara lain (Larose, 2005): 1. Pertumbuhan yang cepat dalam kumpulan data.

2. Penyimpanan data dalam data warehouse, sehingga seluruh perusahaan memiliki akses ke dalam database yang andal.

3. Adanya peningkatan akses data melalui navigasi web dan intranet.

4. Tekanan kompetisi bisnis untuk meningkatkan penguasaan pasar dalam globalisasi ekonomi.

5. Perkembangan teknologi perangkat lunak untuk data mining (ketersediaan teknologi).

6. Perkembangan yang hebat dalam kemampuan komputasi dan pengembangan kapasitas pengembangan media penyimpanan.

Dari definisi – definisi yang telah disampaikan, hal penting yang terkait dengan data mining adalah:

1. Data mining merupakan suatu proses otomatis terhadap data yang sudah ada. 2. Data yang akan diproses berupa data yang sangat besar.

(24)

Hubungan yang dicari dalam data mining dapat berupa hubungan antara dua atau lebih dalam satu dimensi. Misalnya dalam dimensi produk kita dapat melihat keterkaitan pembelian suatu produk dengan produk yang lain. Selain itu, hubungan juga dapat melihat antara dua atau lebih atribut dan dua atau lebih objek (Ponniah, 2001)

Sementara itu, penemuan pola merupakan keluaran lain dari data mining. Misalkan sebuah perusahaan yang akan meningkatkan fasilitas kartu kredit dari pelanggan, maka perusahaan akan mencari pola dari pelanggan-pelanggan yang ada untuk mengetahui pelanggan yang potensial dan pelanggan yang tidak potensial.

Beberapa definisi awal dari data mining menydrtakan focus pada proses otomatisasi. Berry dan Linoff dalam buku Data mining Technique for Marketing, Sales, and Customers Support mendefinisikan data mining sebagai suatu proses eksplorasi dan analisis secara otomatis maupun semiotomatis terhadap data dalam jumlah besar dengan tujuan menemukan pola atau aturan yang berarti. (Larose, 2005).

Tiga tahun kemudian, dalam buku Mastering Data mining mereka memberikan definisi ulang terhadap pengertian data mining dan memberikan definisi ulang terhadap pengertian data mining dan memberikan pernyataan

bahwa jika ada yang kami sesalkan adalah frase “secara otomatis maupun

(25)

pemahaman yang salah bahwa data mining merupakan produk yang dapat dibeli dibandingkan keilmuan yang harus dikuasai (Larose, 2005).

Pernyataan tersebut menegaskan bahwa dalam data mining otomatisasi tidak menggantikan campur tangan manusia. Manusia harus ikut aktif dalam setiap fase dalam proses data mining. Kehebatan kemampuan algoritma data mining yang terdapat dalam perangkat lunak analisis yang terdapat saat ini memungkinkan terjadinya kesalahan penggunaan yang berakibat fatal. Pengguna mungkin menerapkan analisis yang tidak tepat terhadap kumpulan data dengan menggunakan pendekatan yang berbeda. Oleh karenanya, dibutuhkan pemahaman tentang statistic dan struktur model matematika yang mendasari kerja perangkat lunak (Larose, 2005).

2.2.4 Bidang Ilmu Data mining

Data mining bukanlah ilmu yang sama sekali baru. Salah satu kesulitan untuk mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek dan teknik dari bidang-bidang ilmu yang sudah mapan terlebih dahulu.

(26)

1. Data Selection

Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining disimpan dalam suatu berkas, terpisah dari basis data operasional.

2. Pre-processing/Cleaning

Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). Juga dilakukan proses enrichment, yaitu proses “memperkaya” data yang sudah ada

dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.

3. Transformation

Coding adalah proses transformasi pada tahap yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data.

4. Data mining

(27)

algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.

5. Interpretation/Evaluation

Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut Interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditentukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya.

2.2.5 Cross-Industry Standard Process for Data Mining (CRISP-DM)

Cross-Industry Standard Process for Data mining (CRISP-DM) yang dikembangkan tahun 1996 oleh analis dari beberapa industri seperti DaimlerChrysler, SPSS dan NCR. CRISP DM menyediakan standar proses data mining sebagai strategi pemecahan masalah secara umum dari bisnis atau unit penelitian.

Dalam CRISP-DM, sebuah proyek data mining memiliki siklus hidup yang terbagi dalam enam fase. Keseluruhan fase berurutan yang ada tersebut bersifat adaptif. Fase berikutnya dalam urutan bergantung kepada keluaran dari fase sebelumnya. Hubungan penting antarfase digambarkan dengan panah. Sebagai contoh, jika proses berada pada fase modelling. Berdasar pada perilaku dan karakteristik model, proses mungkin harus kembali kepada fase data preparation untuk perbaikan lebih lanjut terhadap data atau berpindah maju kepada fase

(28)

Enam fase CRISP-DM (Larose, 2005): 1. Fase Pemahaman Bisnis

a. Penentuan tujuan proyek dan kebutuhan detail dalam lingkup bisnis atau unit penelitian secara keseluruhan.

b. Menerjemahkan tujuan dan batasan menjadi formula dari permasalahan

data mining.

c. Menyiapkan strategi awal untuk mencapai tujuan. 2. Fase Pemahaman Data

a. Mengumpulkan data.

b. Menggunakan analisis penyelidikan data untuk mengenali lebih lanjut data dan pencarian pengetahuan awal.

c. Mengevaluasi kualitas data.

d. Jika diinginkan, pilih sebagian kecil group data yang mungkin mengandung pola dari permasalahan.

3. Fase Pengolahan Data

a. Siapkan dari data awal, kumpulan data yang akan digunakan untuk keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat yang perlu dilaksanakan secara intensif.

b. Pilih kasus dan variabel yang ingin dianalisis dan yang sesuai analisis yang akan dilakukan.

(29)

4. Fase Pemodelan

a. Pilih dan aplikasikan teknik pemodelan yang sesuai. b. Kalibrasi aturan model untuk mengoptimalkan hasil.

c. Perlu diperhatikan bahwa beberapa teknik mungkin untuk digunakan pada permasalahan data mining yang sama.

d. Jika diperlukan, proses dapat kembali ke fase pengolahan data untuk menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi kebutuhan teknik data mining tertentu.

5. Fase Evaluasi

a. Mengevaluasi satu atau lebih model yang digunakan dalam fase pemodelan untuk mendapatkan kualitas dan efektivitas sebelum disebarkan untuk digunakan.

b. Menetapkan apakah terdapat model yang memenuhi tujuan pada fase awal. c. Menentukan apakah terdapat permasalahan penting dari bisnis atau

penelitian yang tidak tertangani dengan baik.

d. Mengambil keputusan berkaitan dengan penggunaan hasil dari data mining.

6. Fase Penyebaran

a. Menggunakan model yang dihasilkan. Terbentuknya model tidak menandakan telah terselesaikannya proyek.

b. Contoh sederhana penyebaran: Pembuatan laporan.

(30)

Pengelompokkan Data mining

Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu (Larose, 2005):

Deskripsi

Terkadang peneliti dan analis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. Estimasi

Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih ke arah numerik daripada ke arah kategori. Model dibangun menggunakan

record lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai variabel prediksi.

Prediksi

Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang. Beberapa metode dan teknik yang digunakan dalam klasifikasi dan estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi.

Klasifikasi

(31)

Pengklusteran

Pengklusteran merupakan pengelompokkan record, pengamatan, atau memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan.

Kluster adalah kumpulan record yang memiliki kemiripan satu dengan yang lainnya dan memiliki ketidakmiripan dengan record-record dalam cluster lain. Asosiasi

Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja.

Pohon Keputusan

Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan aturan. Aturan dapat dengan mudah dipahami dengan bahasa alami. Dan mereka juga dapat diekspresikan dalam bentuk bahasa basis data seperti Structured Query Language untuk mencari

record pada kategori tertentu.

Pohon keputusan juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target.

(32)

Sebuah pohon keputusan adalah sebuah struktur yang dapat digunakan untuk membagi kumpulan data yang besar menjadi himpunan-himpunan record

yang lebih kecil dengan menerapkan serangkaian aturan keputusan. Dengan masing-masing rangkaian pembagian, anggota himpunan hasil menjadi mirip satu dengan yang lain (Berry & Linoff, 2004).

Sebuah model pohon keputusan terdiri dari sekumpulan aturan untuk membagi sejumlah populasi yang heterogen menjadi lebih kecil, lebih homogeny

dengan memperhatikan pada variabel tujuannya.

Sebuah pohon keputusan mungkin dibangun dengan seksama secara manual atau dapat tumbuh secara otomatis dengan menerapkan salah satu atau beberapa algoritma pohon keputusan untuk memodelkan himpunan data yang belum terklasifikasi.

Variabel tujuan biasanya dikelompokkan dengan pasti dan model pohon keputusan lebih mengarah pada perhitungan probabilitas dari tiap-tiap record terhadap kategori-kategori tersebut atau untuk mengklasifikasi record dengan mengelompokkannya dalam satu kelas.

Pohon keputusan juga dapat digunakan untuk mengestimasi nilai dari variabel continue meskipun ada beberapa teknik yang lebih sesuai untuk kasus ini. Banyak algoritma yang dapat dipakai dalam pembentukan pohon keputusan, antara lain ID3, CART, dan C4.5 (Larose, 2005). Algoritma C4.5 merupakan pengembangan dari algoritma ID3 (Larose, 2005).

(33)

sebagai kriteria dalam pembentukan pohon. Salah satu atribut merupakan atribut yang menyatakan data solusi per item data yang disebut target atribut. Atribut memiliki nilai-nilai yang dinamakan dengan instance.

Proses pada pohon keputusan adalah mengubah bentuk data (table) menjadi model pohon, mengubah model pohon menjadi rule, dan menyederhanakan rule

(Basuki & Syarif, 2003).

Algoritma C4.5

Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut:

Pilih atribut sebagai akar.

Buat cabang untuk tiap-tiap nilai. Bagi kasus dalam cabang.

Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama.

Untuk memilih atribut sebagai akar, didasarkan pada nilai Gain tertinggi dari atribut-atribut yang ada. Untuk menghitung Gain digunakan rumus seperti tertera dalam persamaan 1 berikut.

Gain(S, A) = Entropy(S) - * Entropy(Si) (1)

Keterangan:

S : himpunan kasus A : atribut

(34)

|Si| : jumlah kasus pada partisi ke-i |S| : jumlah kasus dalam S

Sementara itu, penghitungan nilai entropi dapat dilihat pada persamaan berikut.

Entropy(S) = (2)

Keterangan

S : himpunan kasus A : fitur

n : jumlah partisi S

pi : proporsi dari Si terhadap S

Basis Data (Database)

Basis data (Database) adalah sekumpulan informasi bermanfaat yang diorganisasikan kedalam tata cara yang khusus.[6]

Database adalah kumplan data yang saling berkaitan, berhubungan yang disimpan secara bersama-sama sedemikian rupa tanpa pengulangan yang tidak perlu, untuk memenuhi berbagai kebutuhan. Data-data ini harus mengandung semua informasi untuk mendukung semua kebutuhan sistem. Proses dasar yang dimiliki oleh database ada empat, yaitu:

1. Pembuatan data-data baru (create database)

2. Penambahan data (insert)

3. Mengubah data (update)

(35)

Database merupakan salah satu komponen yang penting dalam sistem informasi, karena merupakan basis dalam menyediakan informasi pada para pengguna. Basis data (database) menjadi penting karena munculnya beberapa masalah bila tidak menggunakan data yang terpusat, seperti adanya duplikasi data, hubungan antar data tidak jelas, organisasi data dan update menjadi rumit. Jadi tujuan dari pengaturan data dengan menggunakan basis data adalah :

a. Menyediakan penyimpanan data untuk dapat digunakan oleh organisasi saat sekarang dan masa yang akan datang.

b. Cara pemasukan data sehingga memudahkan tugas operator dan menyangkut pula waktu yang diperlukan oleh pemakai untuk mendapatkan data serta hak-hak yang dimiliki terhadap data yang ditangani.

c. Pengendalian data untuk setiap siklus agar data selalu up-to-date dan dapat mencerminakan perubahan spesifik yang terjadi di setiap sistem.

d. Pengamanan data terhadap kemungkinan penambahan, modifikasi, pencurian dan gangguan-gangguan lain.

Dalam basis data sistem informasi digambarkan dalam model entity relationship (E-R). Bahasa yang digunakan dalam basis data (database) yaitu : a. DDL (Data Definition Language)

Merupakan bahasa definisi data yang digunakan untuk membuat dan mengelola objek database seperti database, tabel dan view

b. DML (Data Manipulation Language)

(36)

c. DCL (Data Control Language)

Merupakan bahasa yang digunakan untuk mengendalikan pengaksesan data. Penyusunan basis data meliputi proses memasukkan data kedalam media penyimpanan data, dan diatur dengan menggunakan perangkat Sistem Manajemen Basis Data (Database Management Sistem / DBMS).

Database Management System (DBMS)

“Managemen Sistem Basis Data (Database Management System / DBMS) adalah perangkat lunak yang di desain untuk membantu dalam hal pemeliharaan

dan utilitas kumpulan data dalam jumlah besar”.

Sistem Manajemen Basis data (Database Management System) merupakan sistem pengoperasian dan sejumlah data pada komputer. Dengan sistem ini dapat merubah data, memperbaiki data yang salah dan menghapus data yang tidak dapat dipakai. Sistem manajemen database merupakan suatu perluasan software sebelumnya mengenai software pada generasi komputer yang pertama. Dalam hal ini data dan informasi merupakan kesatuan yang saling berhubungan dan berkerja sama yang terdiri dari: peralatan, tenaga pelaksana dan prosedur data. Sehingga pengolahan data ini membentuk sistem pengolahan data. Peralatan dalam hal ini berupa perangakat keras (hardware) yang digunakan, dan prosedur data yaitu berupa perangakat lunak (software) yang digunakan dan dipakai untuk mengalokasikan dalam pembuatan sistem informasi pengolahan database.

Manipulasi basis data meliputi pembuatan pernyataan (query) untuk mendapatkan informasi tertentu, melakukan pembaharuan atau penggantian

(37)

untuk menyediakan tinjauan abstrak dari data bagi user. Jadi sistem menyembunyikan informasi mengenai bagaimana data disimpan dan dirawat, tetapi data tetap dapat diambil dengan efisien. Pertimbangan efisiensi yang digunakan adalah bagaimana merancang struktur data yang kompleks, tetapi tetap dapat digunakan oleh pengguna yang masih awam, tanpa mengetahui kompleksitas stuktur data. Sistem manajemen database atau Database Management System (DBMS) adalah merupakan suatu sistem software yang memungkinkan seorang user dapat mendefinisikan, membuat, dan memelihara serta menyediakan akses terkontrol terhadap data. Database sendiri adalah sekumpulan data yang berhubungan dengan secara logika dan memiliki beberapa arti yang saling berpautan. DBMS yang utuh biasanya terdiri dari :

a. Database administrator adalah orang atau group yang bertanggungjawab mengimplementasikan sistem database di dalam suatu organisasi.

b. Enduser adalah orang yang berada di depan workstation dan berinteraksi secara langsung dengan sistem.

c. Programmer aplikasi, orang yang berinteraksi dengan database melalui cara yang berbeda.

DFD (Data Flow Diagram)

(38)

DFD sering digunakan untuk menggambarkan suatu sistem yang telah ada atau sistem baru yang akan dikembangkan secara logika tanpa mempertimbangkan lingkungan fisik dimana data tersebut mengalir atau dimana data tersebut akan disimpan.

DFD merupakan alat yang digunakan pada metodologi pengembangan sistem yang terstruktur. Kelebihan utama pendekatan aliran data, yaitu :

a. Kebebasan dari menjalankan implementasi teknis sistem.

b. Pemahaman lebih jauh mengenai keterkaitan satu sama lain dalam sistem dan subsistem.

c. Mengkomunikasikan pengetahuan sistem yang ada dengan pengguna melalui diagram aliran data.

d. Menganalisis sistem yang diajukan untuk menentukan apakah datadata dan proses yang diperlukan sudah ditetapkan.

Disamping itu terdapat kelebihan tambahan, yaitu :

1. Dapat digunakan sebagai latihan yang bermanfaat bagi penganalisis, sehingga bisa memahami dengan lebih baik keterkaitan satu sama lain dalam sistem dan subsistem.

2. Membedakan sistem dari lingkungannya dengan menempatkan batas-batasnya.

3. Dapat digunakan sebagai suatu perangkat untuk berinteraksi dengan pengguna.

(39)

DFD terdiri dari context diagram dan diagram rinci (DFD Levelled).

Context diagram berfungsi memetakan model lingkungan (menggambarkan hubungan antara entitas luar, masukan dan keluaran sistem), yang direpresentasikan dengan lingkaran tunggal yang mewakili keseluruhan sistem.

DFD levelled menggambarkan sistem sebagai jaringan kerja antara fungsi yang berhubungan satu sama lain denganaliran dan penyimpanan data, model ini hanya memodelkan sistem darisudut pandang fungsi.

Dalam DFD levelled akan terjadi penurunan level dimana dalam penurunan level yang lebih rendah harus mampu merepresentasikan proses tersebut ke dalam spesifikasi proses yang jelas. Jadi dalam DFD levelled bisa dimulai dari DFD level 0 kemudian turun ke DFD level 1 dan seterusnya. Setiap penurunan hanya dilakukan bila perlu. Aliran data yang masuk dan keluar pada suatu proses di level x harus berhubungan dengan aliran data yang masuk dan keluar pada level x+1 yang mendefinisikan proses pada level x tersebut. Proses yang tidak dapat diturunkan/dirinci lagi dikatakan primitif secara fungsional dan disebut sebagai proses primitif.

Kamus Data (Data Dictionary)

(40)

Kamus data mendefinisikan elemen data dengan fungsi sebagai berikut : 1. Menjelaskan arti aliran data dan penyimpanan dalam DFD

2. Mendeskripsikan komposisi paket data yang bergerak melalui aliran misalnya alamat diuraikan menjadi kota, negara dan kode pos

3. Mendeskripsikan komposisi penyimpanan data

4. Menspesifikasikan nilai dan satuan yang relevan bagi penyimpanan dan aliran data.

5. Mendeskripsikan hubungan detail antar penyimpanan yang akan menjadi titik perhatian dalam Diagram Keterhubungan Entitas (E-R).

Delphi

Delphi adalah suatu program berbasis bahasa Pascal yang berjalan dalam lingkungan Windows. Delphi telah memanfaatkan suatu teknik pemrograman yang disebut RAD yang telah membuat pemrograman menjadi lebih mudah. Delphi adalah suatu bahasa pemrograman yang telah memanfaatkan metode pemrograman Object Oriented Programming (OOP). Secara ringkas, object

adalah suatu komponen yang mempunyai bentuk fisik dan biasanya dapat dilihat (visual). Object biasanya dipakai untuk melakukan tugas tertentu dan mempunyai batasan-batasan tertentu. Sedangkan bahasa pemrograman secara singkat dapat disebut sebagai sekumpulan teks yang mempunyai arti tertentu dan disusun dengan aturan tertentu serta untuk menjalankan tugas tertentu.

(41)

(42)

38

BAB III

ANALISIS DAN PERANCANGAN

3.1 Analisis Sistem

Analisis sistem dapat didefinisikan sebagai penguraian dari suatu sistem informasi yang utuh ke dalam bagian-bagian komponennya dengan maksud untuk mengidentifikasikan dan mengevaluasi permasalahan-permasalahan, kesempatan-kesempatan, hambatan-hambatan yang terjadi dan kebutuhan-kebutuhan yang diharapkan sehingga dapat diusulkan perbaikan-perbaikannya.

3.1.1 Analisis Masalah

Pada tahun ajaran 2010/2011 jumlah calon mahasiswa baru UNIKOM yang dinyatakan lulus ujian saringan masuk adalah sebanyak 3813 calon mahasiswa. Namun, ternyata jumlah keseluruhan mahasiswa baru UNIKOM untuk tahun ajaran 2010/2011 adalah sebanyak 3341, itu berarti ada sekitar 472 calon mahasiswa mengundurkan diri dengan cara tidak melakukan registrasi. 12,5 % calon mahasiswa yang mungkin potensial, tidak mampu dipertahankan oleh UNIKOM Bandung.

(43)

hingga saat ini, UNIKOM belum memiliki standar baku yang dapat dijadikan sebagai alat untuk menganalisis kemungkinan pengunduran diri calon mahasiswa baru tersebut.

Kebijakan selama ini yang dilakukan oleh tim Manajemen Unikom untuk mengantisipasi pengunduran diri calon mahasiswa barunya adalah dengan cara menunggu calon mahasiswa melakukan registrasi hingga beberapa hari sebelum waktu registrasi ulang berakhir. Jika dalam waktu H-2 sebelum waktu registrasi berakhir calon mahasiswa tersebut belum melakukan registrasi, maka pihak manajemen akan mengirim surat pemberitahuan. Hal ini terasa kurang efektif karena harus menunggu dalam waktu yang lama untuk memastikan mahasiswa mana yang kemungkinan mengundurkan diri.

(44)

menganalisis kemungkinan pengunduran diri calon mahasiswa baru berdasarkan data yang telah terkumpul sebelumnya.

3.1.2 Analisis Data

Data yang akan digunakan dalam membentuk pohon keputusan untuk menganalisis kemungkinan pengunduran diri calon mahasiswa baru Universitas Komputer Indonesia (UNIKOM) adalah data calon mahasiswa baru Tahun Ajaran 2010/2011 yang tersimpan pada tabel CalonMhsBaru. Data calon mahasiswa baru tersebut selanjutnya akan dilakukan pra-proses untuk menghasilkan data kasus yang siap untuk dibentuk menjadi sebuah pohon keputusan.

Data calon mahasiswa baru Universitas Komputer Indonesia tahun ajaran 2010/2011 dengan nama tabel MhsBaru memiliki format asli seperti tampak pada Tabel 3.1 berikut ini.

Tabel III.1 Format Asli Data CalonMhsBaru

(45)

AGAMA NIM JURUSAN PROG_STUDI DISPENSASI THN_AKADEMIK NO_IDENTITAS NAMA_PROP NAMA_KAB REGISTRASI

Data yang tidak lengkap dan inkonsisten umumnya terjadi hampir pada setiap database, data yang tidak lengkap dapat disebabkan oleh berbagai macam sebab, seperti atribut dengan data yang salah atau dengan data yang kosong. Demikian pula dengan data calon mahasiswa baru Unikom, ada sebagian atribut yang tidak terlalu diperlukan sehingga proses Data Preprocessing perlu dilakukan sehingga database sesuai dengan ketentuan yang diperlukan oleh sistem.

Data preprocessing merupakan hal yang penting dalam proses data mining, hal-hal yang termasuk di dalamnya adalah:

a. Data Selection

Sebelum masuk ke proses Data Preprocessing, yang harus dilakukan lebih awal adalah pemilihan data (data selection). Data calon mahasiswa baru tersebut nantinya akan menjadi Data Kasus dalam proses operasional data mining. Dari data yang ada, kolom yang diambil sebagai atribut/variabel keputusan adalah kolom Registrasi, sedangkan kolom yang diambil sebagai variabel penentu dalam pembentukan pohon keputusan adalah kolom:

(46)

4. PROG_STUDI 5. NILAI_TEST 6. JURUSAN

Pemilihan variabel-variabel tersebut dengan pertimbangan bahwa jumlah nilai variabelnya tidak banyak sehingga diharapkan calon mahasiswa yang masuk dalam satu klasifikasi nilai variabel tersebut cukup banyak.

Berdasarkan variabel-variabel yang sudah terpilih, format data menjadi seperti tampak pada Tabel 3.2.

Tabel III.2 Format sampel data setelah pemilihan variabel

NILAI_UAN GELOMBANG CATATAN NILAI_TEST JURUSAN PROG_STUDI REGISTRASI

50,2 1 Test C MI Diploma-3 Registrasi

51.6 1 Test C MI Starata-1 Registrasi

43,7 2 Test C IF Starata-1 Tidak Registrasi

48,4 1 Test C IF Starata-1 Registrasi

b. Data Preprocessing/Data Cleaning

Data cleaning diterapkan untuk menambahkan isi atribut yang hilang atau kosong, dan merubah data yang tidak konsisten.

(47)

Tabel III.3 Contoh atribut yang tidak memiliki nilai

2 2 PMDK

Teknik Informatika

S1 Registrasi

Proses data cleaning yang dilakukan adalah dengan mengisi nilai dari atribut NILAI_TEST yang kosong dengan nilai T (Tidak ada nilai). Nilai T diberikan bagi calon mahasiswa baru yang tidak mengikuti ujian saringan masuk di UNIKOM yang melalui jalur PMDK.

Tabel III.4 Data atribut NILAI_TEST setelah di cleaning

2 2 PMDK T

Teknik Informatika

S1 Registrasi

c. Data Transformation

Dalam proses ini, data ditransformasikan ke dalam bentuk yang sesuai untuk proses data mining.

1. Mengelompokkan nilai nilai_uan

Pengelompokkan nilai nilai_uan dilakukan dengan memasukkan nilai_uan

calon mahasiswa dalam range seperti tampak pada Tabel 3.5 berikut ini.

Tabel III.5 Pengelompokkan nilai_uan

NILAI_UAN Klasifikasi 30 – 45 1

(48)

2. Menerjemahkan nilai jurusan

Penerjemahan nilai jurusan dilakukan denga mengganti nilai jurusan dengan nilai seperti Tampak pada Tabel 3.6.

Tabel III.6 Penerjemahan Jurusan

JURUSAN Nilai Baru

MI Manajemen Informatika IF Teknik Informatika

3. Menerjemahkan nilai PROG_STUDI

Penerjemahan nilai PROG_STUDI dilakukan dengan mengganti nilai PROG_STUDI dengan nilai seperti Tampak pada Tabel 3.7.

Tabel III.7 Penerjemahan Prog_Studi

PROG_STUDI Nilai Baru Diploma-3 D3

Strata-1 S1

d. Data Reduction

Reduksi data dilakukan dengan menghilangkan atribut-atribut yang tidak diperlukan sehingga ukuran dari database menjadi kecil dan hanya menyertakan atribut-atribut yang diperlukan dalam proses data mining. Hal ini dikarenakan proses data mining akan lebih efisien terhadap data yang lebih kecil.

Format tabel yang diambil dari tabel CalonMhsBaru setelah dilakukan Data Reduction adalah sebagai berikut:

(49)

3.1.3 Analisis Algoritma C4.5

Dari proses Data Preprocessing yang telah dilakukan maka dihasilkan tabel yang siap untuk proses klasifikasi, seperti pada Tabel 3.8 dibawah ini.

Tabel III.8 Tabel Kasus

(50)

2 1 Test B Teknik Informatika S1 Tidak Registrasi 2 2 Test C Teknik Informatika S1 Tidak Registrasi

1 1 Test B Teknik Komputer S1 Registrasi

1 1 Test C Teknik Informatika S1 Registrasi

1 1 Test D Teknik Informatika S1 Tidak Registrasi 1 2 Test C Manajemen Informatika S1 Registrasi 2 2 Test D Teknik Informatika S1 Tidak Registrasi

Tabel KASUS adalah kumpulan data yang akan diproses untuk membentuk sebuah pohon keputusan. Data diatas merupakan 35 data sampel yang diambil secara acak dari tabel MhsBaru. Atribut tujuannya yaitu REGISTRASI, dimana memiliki dua nilai atribut yang berbeda yaitu Registrasi dan Tidak Registrasi.

Dari Data KASUS diatas akan dibuat pohon keputusan untuk menganalisis kemungkinan pengunduran diri calon mahasiswa baru berdasarkan nilai atribut tujuannya dengan melihat nilai atribut lainnya yaitu:

1. NILAI_UAN 2. GELOMBANG 3. CATATAN 4. NILAI_TEST 5. JURUSAN 6. PROG_STUDI

Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut:

1. Pilih atribut sebagai akar.

(51)

3. Bagi kasus dalam cabang.

4. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama.

Untuk memilih atribut sebagai akar, didasarkan pada nilai Gain tertinggi dari atribut-atribut yang ada. Untuk menghitung Gain digunakan rumus seperti tertera dalam persamaan 1 berikut.

Gain(S, A) = Entropy(S) - * Entropy(Si) (1)

Keterangan:

S : himpunan kasus A : atribut

n : jumlah partisi atribut A |Si| : jumlah kasus pada partisi ke-i |S| : jumlah kasus dalam S

Sementara itu, penghitungan nilai entropi dapat dilihat pada persamaan berikut.

Entropy(S) = (2)

Keterangan

S : himpunan kasus A : fitur

n : jumlah partisi S

(52)

Berikut ini adalah penjelasan lebih terperinci mengenai tiap-tiap langkah dalam pembentukan pohon keputusan tabel KASUS diatas dengan menggunakan algoritma C4.5.

a. Menghitung jumlah kasus, jumlah kasus untuk keputusan Registrasi, jumlah kasus untuk keputusan Tidak Registrasi, dan Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut NILAI_UAN, GELOMBANG,

CATATAN, NILAI_TEST, JURUSAN dan PROG_STUDI. Proses

perhitungan untuk mendapatkan nilai Entropy dan Gain setiap atribut adalah sebagai berikut.

Entropy(Total) = (- )) + (- = 0.9710

a. Atribut NILAI_UAN

Entropy(1)= (- )) + (- = 0.8655

Entropy(2)= (- )) + (- = 0.9910

b. Atribut GELOMBANG

Entropy(1)= (- )) + (- = 0. 8819

Entropy(2)= (- )) + (- = 0.9965

c. Atribut CATATAN

Entropy(Test)= (- )) + (- = 0.9964

Entropy(PMDK)= (- )) + (- = 0.5914

d. Atribut NILAI_TEST

(53)

Entrop(C)= (- )) + (- = 0.8631

Entropy(D)= (- )) + (- = 0.7219

Entropy(T)= (- )) + (- = 0.5914

e. Atribut JURUSAN

Entropy(TEKNIK INFORMATIKA)= (- )) + (- =

0.9965

Entropy(MANAJEMEN INFORMATIKA)= (- )) + (- =

0.9182

Entropy(TEKNIK KOMPUTER)= (- )) + (- =

0.9450

f. Atribut PROG_STUDI

Entropy(S1)= (- )) + (- = 0.9480

Entropy(D3)= (- )) + (- = 0.9789

Menghitung nilai Gain dengan menggunakan persamaan 1.

1. Atribut NILAI_UAN

Gain(Total, NILAI_UAN) = Entropy(Total) –

Gain(Total, NILAI_UAN)

= 0.9710 – (( * 0.9910 = 0.9710 – (0.4204 + 0.5096) = 0.041

(54)

Gain(Total, GELOMBANG) = Entropy(Total) –

= 0.9710 – (( * 0.9965 = 0.9710 – (0.5039 + 0.4271) = 0.04

3. Atribut CATATAN

Gain(Total, CATATAN) = Entropy(Total) –

= 0.9710 – (( * 0.5914 = 0.9710 – (0.7971 + 0.1183) = 0.056

4. Atribut NILAI_TEST

Gain(Total, NILAI_TEST) = Entropy(Total) –

= 0.9710 – (( * 0.8631 =

0.9710 – (0.2549 + 0.3452 + 0.1031 + 0.1183) = 0.1495

5. Atribut JURUSAN

Gain(Total, JURUSAN) = Entropy(Total) –

= 0.9710 – (( * 0.9182 = 0.9710 – (0.4271

+ 0.2361 + 0.2970) = 0.0108

6. Atribut PROG_STUDI

(55)

= 0.9710 – (( * 0.9789 = 0.9710 – (0.7703 + 0.1398) = 0.061

Hasil Perhitungan nilai Entropy dan nilai Gain setiap Atribut ditunjukkan oleh Tabel 3.9 berikut ini.

Tabel III.9 Perhitungan Node 1

Node Jml

tertinggi adalah NILAI_TEST, yaitu sebesar 0.1495. Dengan demikian

(56)

NILAI_TEST, yaitu B, C, D, dan T. Dari keempat nilai atribut tersebut masih perlu dilakukan perhitungan lagi.

Dari hasil perhitungan node 1 dapat digambarkan pohon keputusan sementaranya tampak seperti pada Gambar 3.1 berikut ini.

1 NILAI_TEST

1.1 ?

1.2 ?

1.3 ?

1.4 ?

B C D T

Gambar III.1 Pohon Keputusan Hasil Perhitungan Node 1

b. Menghitung jumlah kasus, jumlah kasus untuk keputusan Registrasi, jumlah kasus untuk keputusan Tidak Registrasi, dan Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut NILAI_UAN, GELOMBANG,

CATATAN, JURUSAN dan PROG_STUDI. Pada pohon keputusan node 1

diatas diasumsikan yang akan menjadi node akar adalah atribut NILAI_TEST

dengan nilai atribut B.

Entropy(NILAI_TEST-B) = (- )) + (- = 0.9910 1. Atribut NILAI_UAN

(57)

Entropy(2)= (- )) + (- = 0.9182 2. Atribut GELOMBANG

Entropy(1)= (- )) + (- = 0.9710

Entropy(2)= (- )) + (- =0

3. Atribut CATATAN

Entropy(Test)= (- )) + (- = 0.9910 Entropy(PMDK)= 0

4. Atribut JURUSAN

Entropy(TEKNIK INFORMATIKA)= 0

Entropy(MANAJEMEN INFORMATIKA)= (- )) + (-= 1

Entropy(TEKNIK KOMPUTER)= (- )) + (- = 1

5. Atribut PROG_STUDI

Entropy(S1)= (- )) + (- = 0.9853

Entropy(D3)= 0 Perhitungan Gain.

1. Atribut NILAI_UAN

(58)

2. Atribut GELOMBANG

= 0.9910 – (( * 1 = 0.9910 – (0.5394 + 0.4444) = 0.0072 3. Atribut CATATAN

= 0.9910 – (( * 0 = 0.9910 – (0.9910 + 0) = 0 4. Atribut JURUSAN

= 0.9910 – (( * 1 = 0.9910 – (0 + 0.4444 + 0.4444) = 0.1022

5. Atribut PROG_STUDI

Gain(Total, PROG_STUDI) = Entropy(Total) –

= 0.9910 – (( * 0 = 0.9910 – (0.7663 + 0) = 0.2247

(59)

Tabel III.10 Perhitungan Node 1.1

tertinggi adalah PROG_STUDI, yaitu sebesar 0.2247. Dengan demikian

PROG_STUDI dapat menjadi node akar. Ada dua nilai atribut dari

PROG_STUDI, yaitu S1 dan D3. Dari kedua nilai atribut tersebut masih perlu dilakukan perhitungan lagi.

(60)

1

NILAI_TEST

1.1

PROG_STUDI

1.2

?

1.3

?

1.4

?

B C D T

Tidak Registrasi

1.1.2

?

D3 S1

Gambar III.2 Pohon Keputusan Hasil Perhitungan Node 1.1

c. Menghitung jumlah kasus, jumlah kasus untuk keputusan Registrasi, jumlah kasus untuk keputusan Tidak Registrasi, dan Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut NILAI_UAN, GELOMBANG,

CATATAN, dan JURUSAN.

Entropy(NILAI_TEST-B dan PROG_STUDI-S1) = (- )) + = 0.9853

Entropy(1)= (- )) + (- = 0

Entropy(2)= (- )) + (- = 0.9710

2. Atribut GELOMBANG

(61)

Entropy(2)= (- )) + (- = 0 3. Atribut CATATAN

Entropy(Test)= (- )) + (- = 0.9853 Entropy(PMDK)= 0

4. Atribut JURUSAN

Entropy(TEKNIK INFORMATIKA)= 0 Entropy(MANAJEMEN INFORMATIKA)= 0

Entropy(TEKNIK KOMPUTER)= (- )) + (- = 1

Perhitungan Gain

= 0.9853 – (( * 0.9710 = 0.9853 – (0 + 0.6936) = 0.2917 2. Atribut GELOMBANG

= 0.9853 – (( * 1 = 0.9853 – ( + 0.5714) = 0.0204 3. Atribut CATATAN

(62)

4. Atribut JURUSAN

= 0.9853 – (( * 0 = 0.9853 – (0 + 0 + 0.5714) = 0.4139 Hasil Perhitungan nilai Entropy dan nilai Gain setiap Atribut ditunjukkan oleh Tabel 3.11 berikut ini.

Tabel III.11 Hasil Perhitungan Node 1.1.2

Node Jml

tertinggi adalah JURUSAN, yaitu sebesar 0.4139. Dengan demikian JURUSAN

dapat menjadi node akar. Ada tiga nilai atribut dari JURUSAN, yaitu TEKNIK

(63)

KOMPUTER. Dari ketiga nilai atribut tersebut masih perlu dilakukan perhitungan lagi.

Dari hasil perhitungan node 1.1.2 dapat digambarkan pohon keputusan sementaranya tampak seperti pada Gambar 3.3 berikut ini.

1

Gambar III.3 Pohon Keputusan Hasil Perhitungan Node 1.1.2

d. Menghitung jumlah kasus, jumlah kasus untuk keputusan Registrasi, jumlah kasus untuk keputusan Tidak Registrasi, dan Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut NILAI_UAN, GELOMBANG,

(64)

Entropy(NILAI_TEST-B dan PROG_STUDI-S1 dan JURUSAN-Teknik

Komputer) = (- )) + (- = 1

Entropy(1)= (- )) + (- = 0

Entropy(2)= (- )) + (- = 0.9182 2. Atribut GELOMBANG

Entropy(1)= (- )) + (- = 0

Entropy(2)= (- )) + (- = 0.9182 3. Atribut CATATAN

Entropy(Test)= (- )) + (- = 1

Entropy(PMDK)= 0 Perhitungan Gain

= 1 – (( * 0.9182 = 1 – (0 + 0.6886) = 0.3114 2. Atribut GELOMBANG

(65)

3. Atribut CATATAN

= 1 – (( * 0 = 1 – (1 + 0) = 0

Hasil Perhitungan nilai Entropy dan nilai Gain setiap Atribut ditunjukkan oleh Tabel 3.12 berikut ini.

Tabel III.12 Hasil Perhitungan Node 1.1.2

Node Jml

kasus (S)

Tidak Registrasi (Si)

Registrasi (Si) Entropy Gain

1.1.2.3 NILAI_TEST-B dan PROG_STUDI-S1 dan JURUSAN Teknik Komputer

4 2 2 1

NILAI_UAN 0.3114

1 1 0 1 0

2 3 2 1

GELOMBANG 0.3114

1 1 0 1 0

2 3 2 1

CATATAN 0

TEST 4 2 2 1

(66)

1

(67)

Dengan memperhatikan pohon keputusan pada gambar 3.4, diketahui bahwa semua kasus sudah masuk dalam kelas. Dengan demikian, pohon keputusan pada Gambar 3.4 merupakan pohon keputusan terakhir yang dibentuk untuk atribut NILAI_TEST dengan nilai atribut B.

3.1.3.1Daftar Aturan

Berdasarkan pohon keputusan pada gambar 3.4, maka langkah terakhir dalam menganalisis adalah menyajikan daftar aturan yang terbentuk berdasarkan pohon keputusan.

(68)

Berikut ini merupakan daftar aturan selengkapnya yang terbentuk berdasarkan pohon keputusan menggunakan Algoritma C4.5.

1 JIKA NILAI_TEST = B DAN PROG_STUDI = D3 MAKA Tidak Registrasi 2 JIKA NILAI_TEST = B

DAN PROG_STUDI = S1

DAN JURUSAN = Manajemen Informatika MAKA Registrasi

3 JIKA NILAI_TEST = B DAN PROG_STUDI = S1

DAN JURUSAN = Teknik Informatika MAKA Tidak Registrasi

DAN JURUSAN = Teknik Komputer DAN NILAI_UAN = 1

MAKA Registrasi 5 JIKA NILAI_TEST = B

DAN PROG_STUDI = S1

DAN JURUSAN = Manajemen Informatika DAN NILAI_UAN = 1

MAKA Tidak Registrasi 7 JIKA NILAI_TEST = C DAN GELOMBANG = 1

DAN JURUSAN = Manajemen Informatika DAN NILAI_UAN = 2

MAKA Registrasi 8 JIKA NILAI_TEST = C

DAN GELOMBANG = 1

(69)

MAKA Registrasi

9 JIKA NILAI_TEST = C DAN GELOMBANG = 1

DAN JURUSAN = Teknik Komputer MAKA Registrasi

DAN JURUSAN = Teknik Informatika MAKA Tidak Registrasi

DAN JURUSAN = Teknik Komputer DAN PROG_STUDI = D3

MAKA Tidak Registrasi 13 JIKA NILAI_TEST = C DAN GELOMBANG = 2

DAN JURUSAN = Teknik Komputer DAN PROG_STUDI = S1

(70)

17 JIKA NILAI_TEST = T

18 JIKA NILAI_TEST = T

DAN JURUSAN = Teknik Informatika DAN NILAI_UAN = 1

MAKA Registrasi 19 JIKA NILAI_TEST = T

DAN JURUSAN = Teknik Informatika DAN NILAI_UAN =2

DAN GELOMBANG = 2 DAN PROG_STUDI = S1 DAN CATATAN = PMDK MAKA tidak terklasifikasi 20 JIKA NILAI_TEST = T

DAN JURUSAN = Teknik Komputer MAKA Registrasi

3.1.3.2Kategori Aturan

Dari aturan-aturan yang terbentuk diatas, ada dua kategori aturan, yaitu aturan yang menghasilkan klasifikasi tertentu (registrasi dan tidak registrasi) dan aturan yang kesimpulannya adalah tidak terklasifikasi. Contoh aturan kategori kedua adalah aturan 5 berikut.

DAN GELOMBANG = 2 DAN CATATAN = Test MAKA tidak terklasifikasi

(71)

suatu cabang, tetapi kasus belum bisa mengelompokkan dalam satu klasifikasi yaitu Registrasi atau Tidak Registrasi.

3.1.4 Analisis Kebutuhan Non Fungsioanl

Analisis non fungsional adalah sebuah langkah dimana seorang pembangun perangkat lunak menganalisis sumber daya yang akan menggunakan perangkat lunak yang dibangun.

Analisis non fungsional tidak hanya menganalisis siapa saja yang akan menggunakan aplikasi tetapi juga menganalisis perangkat keras dan perangkat lunak yang dimiliki oleh pengguna, sehingga dapat ditentukan kompabilitas aplikasi yang dibangun terhadap sumber daya yang ada. Setelah melakukan analisis non fungsional, maka dilanjutkan ke langkah berikutnya yaitu menentukan kebutuhan non fungsional sistem yang akan dibangun untuk disesuaikan dengan fakta yang ada.

Apabila terjadi ketidakcocokan antara fakta dan kebutuhan maka perlu adanya penyesuaian fakta terhadap kebutuhan yang ada. Apabila kebutuhan tidak dipenuhi maka sistem yang dibangun tidak akan berjalan baik sesuai yang diharapkan.

Analisis non fungsional dan kebutuhan non fungsional yang dilakukan dibagi dalam tiga tahap, yaitu:

1. Analisis Kebutuhan Pengguna (User)

(72)

3.1.4.1Analisis Kebutuhan Pengguna (User)

Seorang analis yang berada di lingkaran tim manajemen Unikom adalah orang yang biasa menganalisis data-data mahasiswa, salah satunya data calon mahasiswa yang tersimpan pada database perusahaan. Hal tersebut berhubungan dengan aplikasi yang akan dibangun, bahwa pengguna (user) aplikasi data mining

menggunakan Algoritma C4.5 ini adalah Seorang Analis dalam tim manajemen Unikom, dimana keterlibatannya dalam menggunakan aplikasi ini harus mengacu pada spesifikasi pengguna sebagai berikut:

1. Terbiasa menggunakan aplikasi yang ada di system operasi Windows. 2. Memiliki pengetahuan mengenai databases.

3. Mengetahui atribut yang dianggap kuat untuk dilibatkan dalam proses data mining.

Spesifikasi pengguna aplikasi dapat pula dijelaskan pada Tabel 3.11 berikut ini.

Tabel III.13 Spesifikasi pengguna aplikasi

Pengguna Hak Akses Pendidikan Tingkat Keterampilan

Pengalaman Analis Melakukan

analisis data

Minimal Strata - 1

Bisa mengikuti

petunjuk yang ada di

sistem

Pelatihan pengguna