BAHAN DAN METODE

    



 ( | , ( )) ) ( max arg 1 p j ^j ⁱ ^j i i a b a b P a P 

Algoritma TAN adalah sebagai berikut: 1. Diawali dengan proses klasifikasi simple

naive Bayesian dengan menggunakan seluruh peubah penjelas.

( P0= p adalah banyaknya peubah penjelas mula-mula dan P1 = 0 adalah banyaknya peubah penjelas yang memiliki parents selain peubah kelas ; i = 1).

2. Hitung akurasi dugaan klasifikasi yang dihasilkan, notasikan sebagai C0.

3. Tentukan semua struktur TAN (terdiri dari p peubah penjelas) yang mungkin terbentuk jika banyaknya peubah penjelas yang memiliki parents selain peubah kelas adalah P1+1.

4. Lakukan proses klasifikasi simple naive Bayesian untuk setiap struktur TAN yang telah terbentuk pada langkah ketiga serta hitung akurasi dugaan klasifikasinya. 5. Tentukan struktur TAN yang menghasilkan

tingkat akurasi dugaan terbesar. Notasikan tingkat akurasi dugaan klasifikasi terbesar tersebut sebagai Ci.

6. Bandingkan Cidengan C0 :

Jika Ci ≤ C0, proses penentuan struktur TAN berhenti/selesai.

Jika Ci> C0, kembali ke langkah tiga untuk melakukan proses penentuan struktur TAN baru (melanjutkan dari struktur TAN yang diperoleh pada langkah lima) dengan menetapkan C0 = Ci ; P1 = P1+1 ; i = i +1. 7. Proses penentuan struktur TAN berhenti

jika banyaknya peubah penjelas maksimum yang bisa memiliki parents sudah terpenuhi.

Bahan

Bahan penelitian yang digunakan adalah data nilai 353 mahasiswa Departemen Statistika IPB angkatan 1998-2004, yang meliputi nilai mutu Ujian Komprehensif dan

Bp A B2 B1 Bp B1 B2 A

PENDAHULUAN

Latar Belakang

Ujian Komprehensif merupakan salah satu mata kuliah wajib bagi mahasiswa tingkat akhir Departemen Statistika Institut Pertanian Bogor. Kegagalan mahasiswa dalam menghadapi Ujian Komprehensif dapat menghambat proses kelulusan mahasiswa, sehingga mahasiswa yang bersangkutan akan membutuhkan waktu yang lebih lama untuk menyelesaikan studinya di Departemen Statistika. Oleh karena itu, Departemen Statistika IPB perlu mengetahui potensi kelulusan mahasiswa agar dapat melakukan tindakan-tindakan yang dapat meminimalisasi kegagalan mahasiswa dalam Ujian Komprehensif.

Salah satu cara yang dapat ditempuh untuk mengetahui potensi kelulusan mahasiswa adalah dengan melakukan proses klasifikasi nilai mutu Ujian Komprehensif mahasiswa. Melalui pengklasifikasian ini, nilai mutu Ujian Komprehensif yang akan diperoleh mahasiswa menjadi dapat diprediksi. Simple naive Bayesian merupakan salah satu algoritma pengklasifikasian objek yang berdasarkan pada penerapan Teorema Bayes dengan menggunakan asumsi bahwa peubah-peubah penjelas yang digunakan sebagai dasar pengklasifikasian bersifat saling bebas.

Pada penerapannya, asumsi kebebasan antar-peubah penjelas ini sering tidak terpenuhi, sehingga berkembanglah suatu metode pengklasifikasian semi naive Bayesian yang dibangun untuk mengurangi pengaruh ketakbebasan antar peubah penjelas, yang diharapkan dapat meningkatkan akurasi dugaan (ketepatan klasifikasi) dari simple naive Bayesian classifier.

Tujuan

Tujuan yang ingin dicapai dalam penelitian ini antara lain :

1. Memperkenalkan metode Semi Naive Bayesian sebagai salah satu metode pengklasifikasian objek.

2. Membandingkan metode Simple Naive Bayesian dan Semi Naive Bayesian (deleting attributes, joining attributes, dan tree augmented naive Bayesian) dalam kemampuan mengklasifikasikan nilai mutu Ujian Komprehensif mahasiswa Departemen Statistika IPB.

TINJAUAN PUSTAKA

Ujian Komprehensif

Ujian Komprehensif merupakan ujian yang diadakan secara tertulis untuk mengukur pemahaman mahasiswa mengenai keterkaitan antar berbagai mata kuliah pokok bidang statistika yang mencakup Metode Statistika I dan II, Teori Statistika I dan II, Perancangan Percobaan, serta Metode Penarikan Contoh (Dit. AJMP-IPB, 2004).

Simple Naive Bayesian (SNB)

Simple naive Bayesian classifier merupakan salah satu metode pengklasifikasi berpeluang sederhana yang berdasarkan pada penerapan Teorema Bayes dengan asumsi antar peubah penjelas saling bebas (Wikipedia, 2008).

Kaidah Peluang Bayes

Teorema Bayes yang dibangun oleh Thomas Bayes, seorang matematikawan dan teologiawan Inggris abad 18, dipublikasikan untuk pertama kalinya pada tahun 1763.

Dalil Bayes menyatakan bahwa jika U suatu ruang contoh dan {A1, ..., An} merupakan sekatan U dengan P(Ai)≠ 0, i = 1,..., n; Ai∩Aj = Ø untuk i≠j, danB suatu kejadian pada U dengan P(B) ≠ 0, maka secara matematis, kaidah peluang Bayes dapat dituliskan sebagai berikut:      n i ⁱ ⁱ i i i i A B P A P A P A B P B P B A P B A P 1 ) | ( ) ( ) ( ) | ( ) ( ) ( ) | (

(Nasoetion & Rambe, 1984).

Pada penelitian ini, kejadian Ai merupakan kejadian seorang mahasiswa Statistika IPB masuk dalam kelas ke-i (kejadian mahasiswa Statistika IPB mendapatkan nilai mutu Ujian Komprehensif A, B, C, atau D), sedangkan B adalah karakteristik mahasiswa tersebut, yang dalam penelitian ini merupakan karakteristik multi-variables. Misalnya, kejadian B adalah kejadian seorang mahasiswa Statistika IPB mendapatkan nilai mutu Metode Statistika I = A, nilai mutu Metode Statistika II = A, nilai mutu Teori Statistika I = A, dan seterusnya.

Jika nilai P(Ai | B) dapat diperoleh untuk semua i = 1, 2, …, n, maka mahasiswa tersebut akan dikategorikan masuk kelas ke-k (1 ≤ k ≤ n) jika peluang masuk kelas ke-k adalah yang paling besar, atau

Hal tersebut dapat terjadi karena memaksimumkan P(Ai|B) sama dengan memaksimumkan P(B|Ai) P(Ai).

Nilai P(Ai) dapat diduga menggunakan peluang priornya, yaitu frekuensi relatifnya. Dalam penelitian ini, P(Ai) adalah proporsi mahasiswa Departemen Statistika IPB pada setiap kategori nilai mutu Ujian Komprehensif. Sedangkan P(B|Ai) dapat diketahui dengan mencari frekuensi relatif kejadian B dengan syarat Ai (Sartono, 2007).

Asumsi naive

Telah disebutkan bahwa B adalah kejadian multi peubah. Kalau diandaikan B terdiri atas p buah peubah yaitu B1, B2, …, Bp maka

P(B | Ai) = P(B1, B2, …, Bp | Ai). Pada tahap inilah asumsi yang naif digunakan, yaitu antar kejadian atau peubah Bi memiliki sifat saling bebas. Asumsi ini berimplikasi pada hasil bahwa

P(B | Ai) = P(B1, B2, …, Bp | Ai)

= P(B1 | Ai) P(B2 | Ai) … P(Bp | Ai) (Sartono, 2007).

Pada kasus seluruh Bi diskret dan memiliki mi buah macam nilai, mendapatkan P(B1 | Ai) dapat dilakukan dengan cara mengisolasi data yang memiliki kelas Ai. Kemudian

) ( ) ( ) | ( i i i i i i A n A b n A b B P   

P(Bi=bi | Ai = ai) dapat bernilai 0, sehingga peluang objek yang memliki peubah Bi=bi masuk ke kelas ai akan selalu bernilai 0. Hal ini akan berakibat kurang baik pada hasil klasifikasi. Akan lebih baik jika P(Bi=bi | Ai = ai) ini diberi nilai yang sangat kecil.

Laplace adjusment: Teknik untuk menghindari nilai peluang sebesar 0 atau 1, sering disarankan menggunakan nilai termuluskan i i i i i i i m A n A b n A b B P      ) ( 1 ) ( ) | (

Semi Naive Bayesian

Metode Semi Naive Bayesian secara garis besar dapat dibagi dalam dua kelompok. Kelompok pertama membangun simple naive Bayesian dengan menggunakan sekumpulan peubah penjelas baru yang dapat dihasilkan dari proses deleting attributes dan joining attributes. Kelompok kedua membangun simple naive Bayesian dengan membuat struktur garis penghubung secara jelas di antara peubah-peubah penjelas yang menunjukkan hubungan ketidakbebasan

(saling mempengaruhi) antar peubah penjelas (Zheng & Webb, 2005).

Pada penelitian ini, metode semi naive Bayesian yang digunakan adalah deleting attributes, joining attributes, dan tree augmented naive Bayesian.

Deleting Attributes

Zheng & Webb (2005) menjelaskan bahwa ada dua pendekatan yang dapat digunakan dalam deleting attributes, yaitu Backwards Sequential Elimination (BSE) dan Forward Sequential Selection (FSS).

Baik BSE maupun FSS memiliki tujuan yang sama, yaitu memilih/menentukan himpunan bagian dari peubah penjelas yang dapat menyebabkan terjadinya peningkatan akurasi terbesar dari simple naive Bayesian.

BSE diawali dengan menggunakan keseluruhan set peubah penjelas, kemudian dilakukan proses eliminasi peubah, yang proses pengeliminasian peubah tersebut dapat menyebabkan terjadinya peningkatan akurasi terbesar. Sedangkan FSS menggunakan cara yang berlawanan dengan BSE, yaitu diawali dengan set peubah penjelas yang kosong, kemudian dilakukan proses penambahan peubah yang dapat menyebabkan terjadinya peningkatan akurasi paling besar. Baik proses eliminasi maupun penambahan peubah terus dilakukan hingga tidak ada lagi peningkatan akurasi yang dapat terjadi.

Himpunan bagian dari peubah-peubah yang terpilih diasumsikan saling bebas dan dinotasikan sebagai Atts = {Bg1, ..., Bgh}. Kaidah klasifikasi pada BSE dan FSS dilakukan dengan memilih

     



 h g g j ^j ⁱ i i a a b P a P 1 ) | ( ) ( max arg

Algoritma BSE adalah sebagai berikut:

1. Diawali dengan proses klasifikasi simple naive Bayesian dengan menggunakan seluruh peubah penjelas.

( P0 = p adalah banyaknya peubah penjelas mula-mula ; P = P0 ; n = p-1; i = 1).

2. Hitung akurasi dugaan klasifikasi yang dihasilkan, notasikan sebagai C0.

3. Tentukan kombinasi n peubah penjelas yang mungkin terbentuk dari p peubah penjelas yang tersedia dengan cara mengeliminasi sebuah peubah penjelas. 4. Lakukan proses klasifikasi simple naive

Bayesian untuk setiap kombinasi peubah penjelas yang telah terbentuk pada langkah

ketiga serta hitung akurasi dugaan klasifikasinya.

5. Tentukan kombinasi peubah penjelas yang menghasilkan tingkat akurasi dugaan terbesar. Notasikan tingkat akurasi dugaan klasifikasi terbesar tersebut sebagai Ci. 6. Bandingkan Cidengan C0:

Jika Ci ≤ C0, proses eliminasi peubah berhenti/selesai.

Jika Ci> C0, kembali ke langkah tiga untuk melanjutkan proses eliminasi peubah dari n peubah penjelas yang diperoleh pada langkah lima dengan menetapkan C0 = Ci ; n = n-1; P = P-1; i = i +1.

7. Proses eliminasi peubah penjelas berhenti jika semua peubah penjelas sudah keluar/ sudah dieliminasi.

Algoritma FSS adalah sebagai berikut:

1. Diawali dengan set peubah penjelas kosong.

(P0 = 0 adalah banyaknya peubah penjelas mula-mula; n = P0+2; i = 1 ).

2. Tambahkan satu peubah penjelas dan lakukan proses klasifikasi simple naive Bayesian dengan menggunakan satu peubah penjelas untuk setiap peubah penjelas yang tersedia.

3. Tentukan peubah penjelas yang menghasilkan tingkat akurasi dugaan terbesar. Notasikan tingkat akurasi dugaan terbesar tersebut sebagai C0.

4. Tambahkan kembali satu peubah penjelas sebagai dasar klasifikasi, lalu tentukan kombinasi n peubah penjelas yang mungkin terbentuk dari p peubah penjelas yang tersedia. Kombinasi harus mengandung peubah penjelas yang diperoleh pada langkah tiga.

5. Lakukan kembali proses klasifikasi simple naive Bayesian untuk setiap kombinasi peubah penjelas yang telah terbentuk pada langkah empat serta hitung akurasi dugaan klasifikasinya.

6. Tentukan kombinasi peubah penjelas pada langkah empat yang menghasilkan tingkat akurasi dugaan terbesar. Notasikan tingkat akurasi dugaan terbesar tersebut sebagai Ci. 7. Bandingkan Cidengan C0 :

Jika Ci ≤ C0, proses penambahan peubah berhenti/selesai.

Jika Ci > C0, kembali ke langkah empat untuk melanjutkan proses penambahan peubah dari n peubah penjelas yang diperoleh pada langkah enam dengan menetapkan C0 = Ci ; n = n+1; i = i+1.

8. Proses penambahan peubah penjelas berhenti jika semua peubah penjelas yang tersedia sudah masuk/sudah ditambahkan.

Backward Sequential Elimination and Joining (BSEJ)

Menciptakan susunan peubah penjelas baru dengan cara menggabungkan beberapa peubah penjelas yang tidak saling bebas merupakan pendekatan lain untuk memenuhi asumsi kebebasan antar peubah penjelas.

Pada dasarnya, BSEJ memiliki tahapan yang mirip dengan BSE, yaitu mengeliminasi peubah penjelas secara bertahap, dimana proses pengeliminasian peubah penjelas tersebut dapat menyebabkan terjadinya peningkatan akurasi prediksi klasifikasi paling besar. Adapun yang membedakannya dengan BSE adalah pada proses eliminasi peubah penjelas. Pada BSEJ, eliminasi peubah tidak hanya dilakukan dengan menghilangkan peubah penjelas, melainkan juga dengan menggabungkan beberapa peubah penjelas menjadi satu peubah penjelas yang baru. Proses penggabungan/penghapusan peubah ini berhenti jika sudah tidak terjadi lagi peningkatan akurasi.

Hasil dari penggabungan peubah yang baru dinotasikan sebagai JoinAtts = {Joing1, ..., Joingh}. Sedangkan peubah awal yang belum digabung atau dieliminasi dinotasikan sebagai {Bl1, . . . ., Blq}. Klasifikasi pada BSEJ dilakukan dengan memilih             q l l r ^r ⁱ h g g j ^j ⁱ i i a a b P a join P a P 1 1 ) | ( ) | ( ) ( max arg

(Zheng & Webb, 2005).

Algoritma BSEJ adalah sebagai berikut: 1. Diawali dengan proses klasifikasi simple

naive Bayesian dengan menggunakan seluruh peubah penjelas.

( P0 = p adalah banyaknya peubah penjelas mula-mula ; P = P0 ; n = p-1; i = 1).

2. Hitung akurasi dugaan klasifikasi yang dihasilkan, notasikan sebagai C0.

3. Tentukan susunan/kombinasi n peubah penjelas dari p peubah penjelas yang tersedia dengan cara mengeliminasi sebuah peubah penjelas atau menggabungkan dua/ lebih peubah penjelas menjadi sebuah peubah penjelas baru.

4. Lakukan proses klasifikasi simple naive Bayesian untuk setiap kombinasi peubah penjelas yang telah terbentuk pada langkah ketiga serta hitung akurasi dugaan klasifikasinya.

5. Tentukan kombinasi peubah penjelas yang menghasilkan tingkat akurasi dugaan terbesar. Notasikan tingkat akurasi dugaan klasifikasi terbesar tersebut sebagai Ci. 6. Bandingkan Cidengan C0 :

Jika Ci ≤ C0, proses eliminasi maupun penggabungan peubah berhenti/selesai. Jika Ci > C0, kembali ke langkah tiga untuk melanjutkan proses eliminasi maupun penggabungan peubah dari n peubah penjelas yang diperoleh pada langkah lima dengan menetapkan C0 = Ci ;n = n-1 ; P = P-1 ; i = i +1.

7. Proses eliminasi atau penggabungan peubah penjelas berhenti jika semua peubah penjelas sudah keluar/sudah dieliminasi.

Tree Augmented Naive Bayesian (TAN)

Berbeda dengan BSE, FSS, dan BSEJ, yang membangun simple naive Bayesian dengan menggunakan kumpulan peubah baru hasil dari proses deleting atau joining, TAN merupakan suatu teknik pendekatan untuk mengatasi keterbatasan simple naive Bayesian dengan cara mengubah struktur simple naive Bayesian untuk menggambarkan secara jelas dari adanya ketidakbebasan (saling mempengaruhi) antar peubah penjelas (Zheng & Webb, 2005).

Model TAN merupakan bagian dari keluarga Bayesian networks yang memiliki syarat bahwa peubah kelas tidak memiliki parents dan setiap peubah penjelas memiliki parents yang terdiri dari peubah kelas dan paling banyak satu peubah penjelas lainnya (Cerquides & Mantaras, 2003).

Simple naive Bayesian merupakan bentuk yang paling sederhana dari Bayesian network.

Gambar 1: Struktur simple naive Bayesian

Gambar 2 : Struktur augmented naive Bayes

Gambar 1 merupakan struktur Bayesian Networks dari simple naive Bayesian. Dari Gambar 1 terlihat bahwa antar peubah penjelas tidak terdapat hubungan saling mempengaruhi.

Sedangkan dari Gambar 2 dapat dilihat bahwa setiap peubah penjelas dipengaruhi oleh paling banyak satu selain dari peubah kelas. Parents dari setiap peubah penjelas Bi dinotasikan sebagai π(Bi). Klasifikasi pada TAN dilakukan dengan memilih

     



 ( | , ( )) ) ( max arg 1 p j ^j ⁱ ^j i i a b a b P a P 

Algoritma TAN adalah sebagai berikut: 1. Diawali dengan proses klasifikasi simple

naive Bayesian dengan menggunakan seluruh peubah penjelas.

( P0= p adalah banyaknya peubah penjelas mula-mula dan P1 = 0 adalah banyaknya peubah penjelas yang memiliki parents selain peubah kelas ; i = 1).

2. Hitung akurasi dugaan klasifikasi yang dihasilkan, notasikan sebagai C0.

3. Tentukan semua struktur TAN (terdiri dari p peubah penjelas) yang mungkin terbentuk jika banyaknya peubah penjelas yang memiliki parents selain peubah kelas adalah P1+1.

tingkat akurasi dugaan terbesar. Notasikan tingkat akurasi dugaan klasifikasi terbesar tersebut sebagai Ci.

6. Bandingkan Cidengan C0 :

Jika Ci ≤ C0, proses penentuan struktur TAN berhenti/selesai.

jika banyaknya peubah penjelas maksimum yang bisa memiliki parents sudah terpenuhi.

BAHAN DAN METODE

Bahan

Bahan penelitian yang digunakan adalah data nilai 353 mahasiswa Departemen Statistika IPB angkatan 1998-2004, yang meliputi nilai mutu Ujian Komprehensif dan

Bp A B2 B1 Bp B1 B2 A

nilai mutu beberapa mata kuliah pokok bidang Statistika, yaitu Metode Statistika I, Metode Statistika II, Teori Statistika I, Teori Statistika II, Perancangan Percobaan, dan Metode Penarikan Contoh.

Metode

Dalam penelitian ini, selain menggunakan simple naive Bayesian, juga akan dicobakan metode semi naive Bayesian menggunakan algoritma (BSE, FSS, BSEJ, dan TAN) dan indeks asosiasi. Langkah-langkah metode penelitian adalah sebagai berikut :

1. Melakukan proses cleaning data untuk menyamakan kode-kode mata kuliah yang digunakan.

2. Membagi data ke dalam dua bagian. Dari total data nilai 353 mahasiswa, sebanyak 282 data (80%) dijadikan data in-sample untuk membangun model dan sisanya sebanyak 71 data (20%) dijadikan data out-sample untuk validasi.

3. Membuat model klasifikasi Simple Naive Bayesian dan menghitung akurasi dugaan klasifikasi in-sample dan out-sample. 4. Membuat model klasifikasi Semi Naive

Bayesian dengan menggunakan algoritma BSE, FSS, BSEJ, dan TAN.

5. Membuat model klasifikasi Semi Naive Bayesian dengan menggunakan indeks asosiasi.

6. Menghitung tingkat kesalahan klasifikasi dengan mempertimbangkan jenis kesalahan yang terjadi. Jenis kesalahan prediksi yang jauh dari aktual diberi bobot/koefisien pengali yang lebih besar. Selain itu, dihitung juga korelasi antara prediksi dengan aktual untuk setiap metode klasifikasi semi naive Bayesian dan SNB. 7. Membandingkan akurasi dugaan klasifikasi

Semi Naive Bayesian, baik yang menggunakan algoritma maupun indeks asosiasi, terhadap akurasi dugaan klasifikasi simple naive Bayesian.

Perangkat lunak yang digunakan dalam penelitian ini adalah Microsoft Excel, SPSS 13.0 for Windows, dan MINITAB 14.

Dalam dokumen Pengklasifikasian Nilai Mutu Ujian Komprehensif Mahasiswa Departemen Statistika IPB menggunakan Semi Naive Bayesian Classifier (Halaman 35-40)