i
PENCARIAN POLA KLASIFIKASI KARYA PENGEMBANGAN
PROFESI GURU BERDASARKAN DATA SERTIFIKASI GURU
DENGAN ALGORITMA
REDUCT BASED DECISION TREE (RDT)
Skripsi
Diajukan untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana Komputer
Program Studi Teknik Informatika
Oleh :
Ana Suryaningsih
NIM : 07 5314 088
PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
ii
FINDING PATTERN CLASSIFICATION
OF TEACHER PROFESSIONAL DEVELOPMENT WORK
BASED ON THE TEACHER CERTIFICATION DATA
USING REDUCT BASED DECISION TREE (RDT) ALGORITHM
A Thesis
Presented as Partial Fullfillment of the Requirements
To Obtain the
Sarjana Komputer
Degree
In Study Program of Informatics Engineering
By :
Ana Suryaningsih
Student Number : 07 5314 088
INFORMATICS ENGINEERING STUDY PROGRAM
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
v
HALAMAN PERSEMBAHAN
Dengan mengucap syukur Alhamdulilah, kupersembahkan karya kecilku ini
untuk :
Kedua orang tua, seluruh keluarga besar, dan para
sahabat….
vii
ABSTRAK
Salah satu faktor yang menentukan kualitas pendidikan adalah faktor
pendidik atau guru. Dalam meningkatkan kualitas pendidik, pemerintah Indonesia
telah mengadakan program sertifikasi guru. Sertifikasi guru berkaitan erat dengan
penyusunan portofolio. Pada saat ini seorang guru dituntut untuk mengembangkan
profesinya. Dengan mengembangkan profesi maka seorang guru semakin
profesional dalam mengajar. Salah satu komponen portofolio yang dapat
menunjukkan adanya upaya pengembangan profesi guru adalah komponen karya
pengembangan profesi. Untuk mengenali profil kualitas guru berdasarkan karya
pengembangan profesinya, perlu dilakukan kajian terhadap pola klasifikasi karya
pengembangan profesi guru berdasarkan data sertifikasi guru, yang terdiri dari
komponen portofolio dan data pribadi guru. Kajian tersebut dapat dilakukan
dengan menerapkan teknik penambangan data (
data mining
).
Tujuan penelitian ini adalah melakukan pencarian pola klasifikasi karya
pengembangan profesi guru berdasarkan data sertifikasi guru dengan menerapkan
algoritma
Reduct Based Decision Tree (RDT)
. Data yang digunakan dalam
penelitian adalah data sertifikasi guru di rayon 38 tahun 2010 sebanyak 2230
record
. Penelitian ini menghasilkan 835 pola klasifikasi sehingga dapat dilihat
profil guru peserta sertifikasi. Dari pola yang dihasilkan ternyata guru dengan usia
yang relatif muda cenderung menunjukkan karya pengembangan profesi yang
lebih baik dibandingkan guru dengan usia yang relatif tua dan dengan pengalaman
mengajar yang cukup lama.
Sistem yang dibangun telah diuji dengan
menggunakan teknik 5-
fold cross validation
dan menghasilkan akurasi sebesar 58,
34 %.
viii
ABSTRACT
One factor which determines the quality of education is teacher or
educator. In order to increase the quality of teacher, the Indonesian government
has held a program named teacher certification. The teacher certification
program is closely related to portfolio compiling. Nowadays, a teacher is
required to develop his/her profession. By developing his/her profession, a
teacher will be more professional in teaching. One of the portfolio components
which can show the effort to develop teacher profession is professional
development work component. To identify the teacher’s quality profile based on
the professional development work, there is a need to study the classification
patterns of teacher professional development work based on the teacher
certification data which consists of components of teacher portfolios and personal
data. The study can be done by applying data mining technique.
The purpose of this study is finding the pattern of teacher development
work classification based on teacher certification data by applying the Reduct
Based Decision Tree (RDT) algorithm. The data used in this study are the teacher
certification data in rayon 38 in the year 2010, which consists of 2230 record.
This study results 835 classification pattern so the profile of teacher certification
participants can be identified. From the pattern resulted, teachers with a
relatively young age tend to show the better professional development work than
teachers with a relatively older age and with a quite long teaching experience.
The system has been tested by using 5-fold cross validation and produces an
accuracy of 58, 34%.
x
KATA PENGANTAR
Puji dan syukur kehadirat Tuhan Yang Maha Esa, karena pada akhirnya
penulis dapat menyelesaikan penelitian tugas akhir ini yang berjudul “Pencarian
Pola Klasifikasi Karya Pengembangan Profesi Guru Berdasarkan Data Sertifikasi
Guru dengan Algoritma
Reduct Based Decision Tree
(RDT)
”.
Penelitian ini tidak akan selesai dengan baik tanpa adanya dukungan,
semangat, dan motivasi yang telah diberikan oleh banyak pihak. Untuk itu,
penulis ingin mengucapkan terima kasih kepada:
1.
Ibu Ridowati Gunawan, S.Kom., M.T. selaku ketua program studi Teknik
Informatika.
2.
Ibu P.H. Prima Rosa, S.Si., M.Sc. selaku dosen pembimbing atas
kesabaran, waktu, dan kebaikan yang telah diberikan.
3.
Ibu Sri Hartati Wijono, S.Si., M.Kom. selaku dosen penguji atas kritik dan
saran yang telah diberikan.
4.
Pihak sekretariat dan laboran Fakultas Sains dan Teknologi yang turut
membantu penulis dalam menyelesaikan tugas akhir ini.
5.
Kedua orang tua, bapak Maripin (almarhum) dan ibu Sumijah atas kasih
sayang, semangat, dan dukungan yang tak henti-hentinya diberikan kepada
penulis.
6.
Semua saudara, Wahyu Budiyati, SE., Aris Yulianto, Andri Priyanto, Agus
Santoso, Anton Nugroho dan Ari Nurcahyo, atas dukungan, perhatian, dan
doa sehingga penulis dapat menyelesaikan tugas akhir ini.
7.
Keluarga besar Panudiana Kuhn atas kesempatan dan dukungannya dalam
menuntut ilmu.
8.
Teman-teman kost Dinda, Christin, Raras, Grace, Eva serta lainnya yang
senantiasa selalu menemani dan memberikan dukungan serta menjadi
motivasi bagi penulis dalam menyelesaikan tugas akhir ini.
9.
Teman-teman kuliah, Andrias Pratiwi, A.M Sarwinda, Margaretha
xi
Yosephin Seviana, S.Kom., Th.E. Wahyuning Pratiwi, A.Tendy, Hariyo
Koco, Ignatius Wijaya Kusuma, serta teman-teman TI 2007 lainnya atas
segala kebersamaan dan dukungan yang selalu diberikan kepada penulis.
10. Pihak-pihak lain yang turut membantu penulis dalam menyelesaikan tugas
akhir ini, yang tidak dapat disebutkan satu per satu.
Penelitian tugas akhir ini masih memiliki banyak kekurangan. Untuk itu,
penulis sangat membutuhkan saran dan kritik untuk perbaikan di masa yang akan
datang. Semoga penelitian tugas akhir ini dapat membawa manfaat bagi semua
pihak.
Yogyakarta, 20 Juni 2012
xii
DAFTAR ISI
HALAMAN JUDUL ... i
HALAMAN JUDUL (INGGRIS) ... ii
HALAMAN PERSETUJUAN ... iii
HALAMAN PENGESAHAN ... iv
HALAMAN PERSEMBAHAN ... v
PERNYATAAN KEASLIAN KARYA ... vi
ABSTRAK ... vii
ABSTRACT
... viii
LEMBAR PERSETUJUAN PUBLIKASI ... ix
KATA PENGANTAR ... x
DAFTAR ISI ... xii
DAFTAR TABEL ... xv
DAFTAR GAMBAR ...xvi
BAB I PENDAHULUAN... 1
1.1 Latar Belakang Masalah ... 1
1.2 Rumusan Masalah ... 3
1.3 Tujuan Penelitian ... 3
1.4 Batasan Masalah ... 3
1.5 Metodologi Penelitian ... 3
1.6 Sistematika Penulisan ... 5
BAB II TINJAUAN PUSTAKA ... 6
2.1 Penambangan Data
(Data Mining)
... 6
2.2 Himpunan Kasar
(Rough Sets)
... 8
2.2.1 Pendahuluan ... 8
2.2.2 Ruang Hampiran dan Himpunan Kasar ... 9
2.2.3 Discernibility Matrix... 12
2.3 Pohon Keputusan
(Decision Tree)
... 13
2.3.1 Pengertian Pohon Keputusan
(Decision Tree)
... 13
xiii
2.3.3 Kekurangan Pohon Keputusan
(Decision Tree)
... 15
2.4 Algoritma C4.5 ... 15
2.5 Algoritma
Reduct Based Decision Tree (RDT)
... 18
2.5.1 Algoritma
RDT
... 18
2.5.2 Contoh Kasus dengan Menggunakan Algoritma
Reduct Based Decision Tree
(RDT)
... 20
2.6
k-fold Cross Validation
... 24
BAB III ANALISIS DAN DESAIN ... 25
3.1 Identifikasi Sistem ... 25
3.2 Analisis Sistem ... 25
3.2.1 Analisis Data Awal ... 25
3.2.2 Pemrosesan Awal ... 31
3.3 Analisis Kebutuhan Sistem ... 36
3.3.1 Diagram
Use Case
... 36
3.3.2 Narasi
Use Case
... 37
3.4 Perancangan Umum Sistem ... 44
3.4.1 Masukan Sistem ... 44
3.4.2 Proses Sistem ... 48
3.4.3 Keluaran Sistem ... 51
3.4.4 Diagram Aktivitas ... 51
3.4.4.1 Diagram Aktivitas Input Data Sertifikasi Guru ... 51
3.4.4.2 Diagram Aktivitas Transformasi Data ... 52
3.4.4.3 Diagram Aktivitas
Reduct
Atribut ... 52
3.4.4.4 Diagram Aktivitas Bentuk Pohon Keputusan... 53
3.4.4.5 Diagram Aktivitas Simpan Pola ... 53
3.4.5 Diagram Kelas Analisis ... 54
3.4.6 Diagram Sekuensial ... 54
3.4.6.1 Diagram Sekuensial Input Data Sertifikasi Guru ... 54
3.4.6.2 Diagram Sekuensial Transformasi Data ... 55
3.4.6.3 Diagram Sekuensial
Reduct
Atribut ... 55
3.4.6.4 Diagram Sekuensial Bentuk Pohon Keputusan ... 55
xiv
3.4.7 Diagram Kelas Desain ... 56
3.4.7.1
Use Case
Input Data Sertifikasi Guru ... 56
3.4.7.2
Use Case
Transformasi Data ... 57
3.4.7.3
Use Case Reduct
Atribut ... 58
3.4.7.4
Use Case
Bentuk Pohon Keputusan ... 59
3.4.7.5
Use Case
Simpan Pola ... 60
3.4.8 Algoritma
Method-Method
Penting dalam Setiap Kelas ... 60
3.4.9 Perancangan Struktur Data ... 71
3.4.10 Perancangan Basis Data ... 73
3.4.11 Perancangan Antarmuka ... 74
3.4.11.1 Halaman Utama ... 74
3.4.11.2 Halaman
Preprocessing
... 74
3.4.11.3 Halaman
Reduct
Atribut ... 75
3.4.11.4 Halaman Lihat Pohon Keputusan ... 75
BAB IV IMPLEMENTASI SISTEM ... 76
4.1 Spesifikasi Perangkat Lunak dan Perangkat Keras ... 76
4.2 Uji Validasi Sistem ... 76
4.3 Implementasi
Use Case
... 77
4.4 Implemantasi Diagram Kelas ... 83
BAB V ANALISIS SISTEM... 137
5.1 Evaluasi Pola Karya Pengembangan Profesi ... 137
5.2 Pengukuran Kinerja Sistem ... 141
5.3 Kelebihan Sistem ... 142
5.4 Kekurangan Sistem ... 142
BAB VI PENUTUP ... 143
5.1 KESIMPULAN ... 143
5.2 SARAN ... 143
DAFTAR PUSTAKA ... 144
xv
DAFTAR TABEL
Tabel 2.1 Contoh
Database
... 12
Tabel 2.2
Discernibility matrix
untuk data pada Tabel 2.1 ... 12
Tabel 2.3 Matriks Boolean untuk data pada Tabel 2.1 ... 13
Tabel 2.4 Contoh Data Sertifikasi Guru ... 21
Tabel 2.5 Matriks Boolean (1)... 22
Tabel 2.6 Matriks Boolean (2)... 23
Tabel 3.1 Daftar Atribut Data Nilai Portofolio ... 26
Tabel 3.2 Daftar Atribut Data Pribadi Guru ... 27
Tabel 3.3 Kode Interval Nilai n1, n2, n4, n5, n6, n7, n8, n9, n10 ... 33
Tabel 3.4 Transformasi Atribut Pengalaman Mengajar (n3) ... 34
Tabel 3.5
Interval
Usia ... 34
Tabel 3.6 Kode Golongan ... 35
Tabel 3.7 Narasi
Use Case
... 37
Tabel 3.8 Deskripsi Masukan Untuk Data Pelatihan ... 44
Tabel 3.9 Deskripsi Masukan Untuk Data Uji ... 45
Tabel 3.10 Pembagian Data untuk Setiap
Fold
... 47
Tabel 3.11 Kerangan
Array
dan
ArrayList
... 71
Tabel 3.12 Keterangan Setiap Atribut dalam
Vector
... 72
Tabel 5.1 Daftar Pola dengan Jumlah Frekuensi >= 10 Kejadian ... 138
xvi
DAFTAR GAMBAR
Gambar 2.1 Proses Penambangan Data... 7
Gambar 2.2 Himpunan kasar
A
dengan hampiran bawah
K
(
A
)
dan hampiran atas
)
(
A
K
dalam ruang hampiran
K
(
X
,
R
)
... 10
Gambar 2.3 Gambaran Pohon Keputusan ... 14
Gambar 2.4 Algoritma C4.5 ... 16
Gambar 3.1 Diagram
Use Case
... 36
Gambar 3.2
Flowchart
Proses Sistem ... 50
Gambar 3.3 Diagram Konteks ... 50
Gambar 3.4 Diagram Aktivitas Input Data Sertifikasi Guru ... 51
Gambar 3.5 Diagram Aktivitas Transformasi Data ... 52
Gambar 3.6 Diagram Aktivitas
Reduct
Atribut ... 52
Gambar 3.7 Diagram Aktivitas Bentuk Pohon Keputusan ... 53
Gambar 3.8 Diagram Aktivitas Simpan Pola ... 53
Gambar 3.9 Diagram Kelas Analisis ... 54
Gambar 3.10 Diagram Sekuensial Input Data Sertifikasi Guru ... 54
Gambar 3.11 Diagram Sekuensial Transformasi Data ... 55
Gambar 3.12 Diagram Sekuensial
Reduct
Atribut ... 55
Gambar 3.13 Diagram Sekuensial Bentuk Pohon Keputusan ... 55
Gambar 3.14 Diagram Sekuensial Simpan Pola ... 56
Gambar 3.15 Diagram Kelas
Use Case
Input Data Sertifikasi Guru ... 56
Gambar 3.16 Diagram Kelas
Use Case
Transformasi Data ... 57
Gambar 3.17 Diagram Kelas
Use Case Reduct
Atribut ... 58
Gambar 3.18 Diagram Kelas
Use Case
Bentuk Pohon Keputusan ... 59
Gambar 3.19 Diagram Kelas
Use Case
Simpan Pola ... 60
Gambar 3.20
ER
Diagram ... 73
Gambar 3.21 Halaman Utama ... 74
Gambar 3.22 Halaman
Preprocessing
... 74
Gambar 3.23 Halaman
Reduct
Atribut ... 75
Gambar 3.24 Halaman Lihat Pohon Keputusan... 75
xvii
Gambar 4.2 Halaman
Preprocessing
... 78
Gambar 4.3 Halaman
FileChooser
... 79
Gambar 4.4 Pemberitahuan
File
Berhasil Ditampilkan ... 79
Gambar 4.5 Pemberitahuan Belum Memilih
File
... 80
Gambar 4.6 Pemberitahuan Data Berhasil Ditransformasi ... 80
Gambar 4.7 Pemberitahuan Data Berhasil
Direduct
... 80
Gambar 4.8 Halaman
Reduct
Atribut ... 81
Gambar 4.9 Pemberitahuan Pohon Sudah Terbentuk ... 81
Gambar 4.10 Halaman Lihat Pohon ... 82
1
BAB I
PENDAHULUAN
1.1 Latar Belakang Masalah
Pendidikan merupakan salah satu aspek yang penting dalam meningkatkan
kesejahteraan masyarakat. Pendidikan yang berkualitas ditentukan oleh beberapa
faktor. Salah satu faktor yang menentukan kualitas pendidikan adalah faktor
pendidik atau guru. Hal ini dikarenakan guru mempunyai kontribusi dan pengaruh
yang sangat besar bagi ketercapaian mutu pendidikan.
Dalam meningkatkan kualitas pendidik, pemerintah telah mengadakan
program sertifikasi guru. Sertifikasi guru adalah proses perolehan sertifikat
pendidik bagi guru. Sertifikasi guru ini bertujuan untuk menentukan kelayakan
guru dalam melaksanakan tugas sebagai agen pembelajaran dan mewujudkan
tujuan pendidikan nasional, peningkatan proses dan mutu hasil pendidikan serta
peningkatan profesionalitas guru [1].
Sertifikasi guru berkaitan erat dengan penyusunan portofolio. Portofolio
adalah bukti fisik (dokumen) yang menggambarkan pengalaman berkarya/prestasi
yang dicapai selama menjalankan tugas profesi sebagai guru dalam interval waktu
tertentu. Fungsi portofolio dalam sertifikasi guru adalah untuk menilai kompetensi
guru sebagai pendidik dan agen pembelajaran [2].
guru yang terdiri dari nama, tempat dan tanggal lahir, jenis kelamin, golongan,
dan lain-lain.
Pada saat ini seorang guru dituntut untuk mengembangkan profesinya.
Dengan mengembangkan profesi maka seorang guru semakin profesional dalam
mengajar. Selain itu guru juga diharapkan menghasilkan karya, sebagai contoh
adalah penelitian-penelitian di bidang pendidikan. Semakin guru mengembangkan
profesinya maka semakin berkualitas pula guru tersebut. Salah satu komponen
portofolio yang dapat menunjukkan adanya upaya pengembangan profesi guru
adalah komponen karya pengembangan profesi. Untuk mengenali profil kualitas
guru berdasarkan karya pengembangan profesinya, perlu dilakukan kajian
terhadap pola klasifikasi karya pengembangan profesi guru berdasarkan data
sertifikasi guru, yang terdiri dari komponen portofolio dan data pribadi guru yang
berupa status pns, usia, jenis kelamin, agama, golongan dan asal kecamatan guru
mengajar. Kajian tersebut dapat dilakukan dengan menerapkan teknik
penambangan data (
data mining
).
Penambangan data adalah suatu proses ekstraksi pengetahuan dari
sejumlah besar data [3]. Terdapat beberapa algoritma dalam penambangan data
(
data mining
), salah satunya adalah algoritma
Reduct Based Decision Tree
(
RDT
).
Data sertifikasi guru yang berupa data nilai portofolio dan data pribadi guru akan
diolah dengan teknik klasifikasi menggunakan algoritma
Reduct Based Decision
Tree
(
RDT
). Algoritma
RDT
ini mengkombinasikan teori himpunan kasar dan
algoritma pohon keputusan [4]. Dengan menggunakan algoritma
RDT
diharapkan
1.2 Rumusan Masalah
Berdasarkan latar belakang masalah di atas, maka rumusan masalah yang
muncul dalam penelitian ini adalah bagaimana mengidentifikasi pola klasifikasi
karya pengembangan profesi guru berdasarkan data sertifikasi guru dengan
menerapkan algoritma
Reduct Based Decision Tree (RDT)
.
1.3 Tujuan Penelitian
Tujuan dari penelitian ini adalah melakukan pencarian pola klasifikasi
karya pengembangan profesi guru berdasarkan data sertifikasi guru dengan
menerapkan algoritma
Reduct Based Decision Tree (RDT)
.
1.4 Batasan Masalah
Dalam penelitian ini ada beberapa batasan masalah yaitu
1.
Penelitian ini menerapkan algoritma
Reduct Based Decision Tree
(
RDT
).
2.
Penelitian ini menerapkan algoritma C4.5 dalam pembentukan pohon
keputusan.
3.
Penelitian ini tidak menerapkan teknik
pruning
dalam pembentukan pohon
keputusan.
4.
Data yang digunakan dalam penelitian ini adalah data sertifikasi guru di
rayon 38 tahun 2010.
1.5 Metodologi Penelitian
Metodologi yang digunakan dalam penelitian ini adalah
1.
Studi Pustaka
referensi dan acuan dalam penyelesaian masalah. Dalam penelitian ini,
pustaka yang dipelajari adalah yang berhubungan dengan penambangan
data.
2.
Knowledge discovery in database
(
KDD
) yang terdiri dari [3]:
1.
Pembersihan Data (
Data Cleaning
)
Pembersihan data merupakan proses menghilangkan
noise
dan data
yang tidak konsisten atau data yang tidak relevan.
2.
Integrasi Data (
Data Integration
)
Integrasi data merupakan proses penggabungan data dari berbagai
sumber.
3.
Seleksi Data (
Data Selection
)
Seleksi data merupakan proses menyeleksi data dimana data yang
relevan diambil dari
database.
4.
Transformasi Data (
Data Transformation
)
Data diubah atau digabung ke dalam format yang sesuai untuk
diproses dalam penambangan data.
5.
Penambangan Data (
Data
Mining)
Penambangan data merupakan suatu proses utama saat metode
diterapkan untuk menemukan pengetahuan berharga dan
tersembunyi dari data. Dalam penelitian ini algoritma yang
digunakan adalah
Reduct Based Decision Tree
(
RDT
).
6.
Evaluasi Pola (
Pattern Evaluation
)
Untuk mengidentifikasi pola-pola menarik yang dalam arti tertentu
menyatakan basis pengetahuan.
7.
Presentasi Pengetahuan (
Knowledge Presentation
)
1.6 Sistematika Penulisan
Sistematika penulisan tugas akhir ini adalah sebagai berikut :
BAB I
: PENDAHULUAN
Bab ini berisi latar belakang masalah, rumusan masalah, tujuan
penelitian, batasan masalah, metodologi penelitian, dan
sistematika penulisan.
BAB II
: TINJAUAN PUSTAKA
Bab ini berisi dasar-dasar teori yang digunakan dalam penyusunan
tugas akhir.
BAB III
: ANALISIS DAN DESAIN
Bab ini berisi tentang analisis serta perancangan aplikasi
penambangan data.
BAB IV
: IMPLEMENTASI SISTEM
Bab ini berisi implementasi penerapan teknik penambangan data
dalam aplikasi.
BAB V
:
ANALISIS SISTEM
Bab ini berisi analisis hasil program yang telah didapat secara
keseluruhan
.
BAB VI
: PENUTUP
Bab ini berisi tentang kesimpulan dari hasil pembuatan aplikasi
penambangan data dan saran-saran yang ditujukan kepada semua
6
BAB II
TINJAUAN PUSTAKA
2.1 Penambangan Data
(Data Mining)
Penambangan data adalah suatu proses ekstraksi pengetahuan dari
sejumlah besar data [3]. Secara fungsional, penambangan data adalah proses dari
pengumpulan informasi penting dari sejumlah data yang besar yang tersimpan di
basis data, gudang data, atau tempat penyimpanan informasi lainnya.
Secara sederhana, penambangan data adalah langkah-langkah dalam
mendapatkan atau menemukan pengetahuan. Penemuan pengetahuan ini
merupakan sebuah proses seperti ditunjukkan pada gambar 2.1 dan terdiri dari
urutan-urutan sebagai berikut [3] :
1.
Pembersihan Data
(Data Cleaning)
Pembersihan data merupakan proses untuk menghilangkan
noise
dan
data yang tidak konsisten atau data yang tidak relevan.
2.
Integrasi Data
(Data Integration)
Integrasi data merupakan proses penggabungan data dari berbagai
sumber.
3.
Seleksi Data
(Data Selection)
Seleksi data merupakan proses menyeleksi data dimana data yang
relevan diambil dari
database.
4.
Transformasi Data
(Data Transformation)
Data diubah atau digabung ke dalam format yang sesuai untuk diproses
dalam penambangan data.
5.
Penambangan Data
(Data Mining)
6.
Evaluasi Pola
(Pattern Evaluation)
Untuk mengidentifikasi pola-pola menarik yang dalam arti tertetu
menyatakan basis pengetahuan.
7.
Presentasi Pengetahuan
(Knowledge Presentation)
Merupakan visualisasi dan penyajian pengetahuan mengenai metode
yang digunakan untuk memperoleh pengetahuan yang diperoleh
pengguna.
2.2 Himpunan Kasar
(Rough Sets)
2.2.1 Pendahuluan
Himpunan kasar (
rough sets
) pertama kali diperkenalkan oleh Zdzislaw
Pawlak dari
Warsaw University of Technology
di Polandia pada tahun 1982
sebagai suatu metode matematis untuk mendeskripsikan himpunan tidak tegas,
dalam arti bahwa elemen-elemen tertentu dalam semestanya tidak dapat
ditentukan secara tegas apakah merupakan anggota himpunan itu atau tidak
karena elemen-elemen itu tidak dapat dibedakan satu sama lain akibat
keterbatasan atau ketidaklengkapan pengetahuan atau informasi yang tersedia
mengenai elemen-elemen itu [5].
Pada awalnya himpunan kasar dikembangkan untuk menangani
ketidakpastian dan ketidaktegasan dalam bidang analisis data. Dasar
pengembangan teori himpunan kasar adalah asumsi bahwa setiap elemen dalam
semesta wacananya terkait dengan informasi mengenai elemen itu, dan bahwa
elemen-elemen dengan informasi yang sama adalah elemen-elemen yang
takterbedakan. Pada dasarnya pendekatan terhadap himpunan kasar adalah suatu
hampiran terhadap himpunan taktegas itu dengan menggunakan sepasang
himpunan tegas yang dikonstruksikan berdasarkan suatu partisi pada semesta
himpunan itu. Sebagai partisi biasanya diambil partisi yang terimbas oleh relasi
ekivalensi “takterbedakan” antara elemen
-elemen dalam semesta itu. Dengan
demikian kelas-kelas ekivalensi dalam partisi itu memuat elemen-elemen semesta
yang takterbedakan satu sama lain. Relasi ekivalensi adalah model matematik
paling sederhana yang dapat dipergunakan untuk merepresentasikan keadaan di
mana elemen-elemen tertentu dalam suatu semesta tidak dapat dibedakan satu
2.2.2 Ruang Hampiran dan Himpunan Kasar
hampiran, masing-masing kelas ekivalensi dalam
X/R
disebut himpunan elementer
atau atom dalam
K
, dan elemen-elemen dalam suatu himpunan elementer disebut
elemen-elemen yang takterbedakan dalam K. Dalam setiap ruang hampiran K,
himpunan kosong juga dianggap sebagai himpunan elementer. Setiap gabungan
berhingga banyak himpunan elementer dalam
K
disebut himpunan tersusun dalam
K
.
yaitu gabungan semua himpunan elementer yang termuat dalam
A
. Sedangkan
hampiran atas dari A
dalam
K
, dengan lambang
K
(
A
),
adalah
Hampiran bawah dari
A
menyajikan himpunan elemen-elemen semesta yang pasti
merupakan anggota himpunan
A
, sedangkan hampiran atas dari
A
menyajikan
himpunan elemen-elemen semesta yang mungkin merupakan anggota himpunan
A
. Perhatikan bahwa
K
(
A
)
A
K
(
A
).
Elemen-elemen semesta yang tidak
berada dalam hampiran atas dari A adalah elemen-elemen yang pasti tidak
merupakan anggota
A
.
…(2.1)
Selisih hampiran atas dan hampiran bawah dari himpunan
A
dalam
K
,
yaitu
B
K(
A
)
K
(
A
)
K
(
A
),
disebut daerah batas dari himpunan
A
dalam
K
. Jika
,
)
(
A
B
Kyaitu
K
(
A
)
K
(
A
)
A
, maka
A
merupakan gabungan himpunan
elementer dalam
K
dan disebut himpunan yang dapat dideskripsikan secara tepat
dalam K (atau himpunan tegas dalam
K
). Jika
B
K(
A
)
,
maka
A
tidak dapat
dideskripsikan secara tepat dalam
K
dan disebut himpunan kasar dalam
K
. Dengan
perkataan lain, himpunan kasar adalah himpunan bagian dari semesta yang
mempunyai daerah batas yang takkosong.
Suatu ilustrasi himpunan kasar
A
dengan hampiran bawah dan hampiran
atasnya dalam suatu ruang hampiran
K
(
X
,
R
)
disajikan dalam Gambar 2.2.
Gambar 2.2
Himpunan kasar
A
dengan hampiran bawah
K
(
A
)
dan
hampiran atas
K
(
A
)
dalam ruang hampiran
K
(
X
,
R
)
[6]
Kualitas hampiran dalam suatu ruang hampiran dinyatakan dengan suatu
ukuran ketepatan. Bila
K
(
X
,
R
)
adalah suatu ruang hampiran dan
A
suatu
himpunan bagian dari
X
, maka banyaknya atom dalam
K
(
A
)
dan
K
(
A
),
yang
disajikan dengan
(
A
)
dan
(
A
),
berturut-turut disebut ukuran dalam dan ukuran
luar dari
A
dalam
K
. Jika
(
A
)
(
A
),
maka
A
dikatakan terukur dalam
K
.
Ketepatan hampiran
dari
A
dalam
K
didefinisikan sebagai bilangan real
)
(
)
(
)
(
A
A
A
K
A
) (A K
) (A K
X/R ) (A BK K = (X,R)
di mana
(
A
)
0
.
Jelas bahwa
0
K(
A
)
1
dan
K(
A
)
1
jika
A
terukur dalam
K
.
Jika
K
(
X
,
R
)
adalah suatu ruang hampiran dan
A
dan
B
adalah
himpunan bagian dari
X
, maka beberapa sifat penting dari hampiran bawah dan
hampiran atas adalah sebagai berikut:
(1)
K
(
)
K
(
)
(2)
K
(
X
)
K
(
X
)
X
(3)
K
(
A
)
A
K
(
A
)
(4)
K
(
A
B
)
K
(
A
)
K
(
B
)
(5)
K
(
A
B
)
K
(
A
)
K
(
B
)
(6)
K
(
A
B
)
K
(
A
)
K
(
B
)
(7)
K
(
A
B
)
K
(
A
)
K
(
B
)
(8)
K
(
A
)
(
K
(
A
)
)
(9)
K
(
A
)
(
K
(
A
)
)
(10)
K
(
K
(
A
))
K
(
K
(
A
))
K
(
A
)
(11)
K
(
K
(
A
))
K
(
K
(
A
))
K
(
A
)
(12)
A
B
(
K
(
A
)
K
(
B
)
K
(
A
)
K
(
B
)
).
Suatu ruang hampiran mendefinisikan dengan tunggal suatu ruang
topologi. Jika kelas semua himpunan tersusun dalam ruang hampiran
K
(
X
,
R
)
2.2.3
Discernibility Matrix
.
Discernibility matrix
merupakan sekumpulan matrik yang berbeda antara
objek
(i)
dengan objek
(j).
Contoh 2.1 :
Discernibility matrix
yang sesuai dengan contoh
database
ditunjukkan
pada Tabel 2.1 dengan U = {X
1, X
2, …, X
7}, C = {a, b, c, d}, D = {E}. M
(X1,X3)=
{b, c, d}. X1 dan X3 mempunyai nilai keputusan yang berbeda, perbedaannya
pada atribut b, c dan d.
Tabel 2.1
Contoh
Database
ID
a
b
c
d
E
X
11
0
2
1
1
X
21
0
2
0
1
X
31
2
0
0
2
X
41
2
2
1
0
X
52
1
0
0
2
X
62
1
1
0
2
X
72
1
2
1
1
Discernibility matrix
untuk data pada Tabel 2.1 ditunjukkan pada Tabel 2.2 di
bawah ini :
Tabel 2. 2
Discernibility matrix
untuk data pada Tabel 2.1
X
1X
2X
3X
4X
5X
6X
2-
X
3b, c, d
b, c
X
4b
b, d
c, d
X
5a, b, c, d
a, b, c
-
a, b, c, d
X
6a, b, c, d
a, b, c
-
a, b, c, d
-
X
7-
-
a, b, c, d
a, b
c, d
c, d
Matriks Boolean (MB) untuk data pada Tabel 2.1 ditunjukkan pada Tabel 2.3 di
bawah ini :
Tabel 2.3
Matriks Boolean untuk data pada Tabel 2.1
a
b
c
d
X
1X
30
1
1
1
X
1X
40
1
0
0
X
1X
51
1
1
1
X
1X
61
1
1
1
X
2X
30
1
1
0
X
2X
40
1
0
1
X
2X
51
1
1
0
X
2X
61
1
1
0
X
3X
40
0
1
1
X
3X
71
1
1
1
X
4X
51
1
1
1
X
4X
61
1
1
1
X
4X
71
1
0
0
X
5X
70
0
1
1
X
6X
70
0
1
1
2.3 Pohon Keputusan
(Decision Tree)
2.3.1 Pengertian Pohon Keputusan
(Decision Tree)
Salah satu metode penambangan data
yang umum digunakan adalah pohon
keputusan
(decision tree)
[3]. Metode pohon keputusan
mengubah fakta yang
sangat besar menjadi pohon keputusan yang merepresentasikan aturan. Pohon
keputusan
juga berguna untuk mengeksplorasi data, menemukan hubungan
tersembunyi antara sejumlah calon variabel
input
dengan sebuah variabel target.
Konsep pohon keputusan
adalah suatu struktur
flowchart
yang menyerupai pohon
cabang merepresentasikan hasil tes, dan simpul daun merepresentasikan kelas atau
distribusi kelas. Alur pada pohon keputusan
ditelusuri dari simpul akar ke simpul
daun yang merepresentasikan prediksi kelas untuk contoh tersebut
.
Pohon
keputusan
mudah untuk dikonversi ke aturan klasifikasi. Gambar 2.3 di bawah ini
akan menjelaskan bentuk dari pohon keputusan.
Gambar 2.3
Gambaran Pohon Keputusan
Pohon keputusan
sesuai digunakan untuk kasus-kasus dimana
output
-nya
bernilai diskrit. Walaupun banyak variasi model pohon keputusan
dengan tingkat
kemampuan dan syarat yang berbeda, pada umumnya beberapa ciri kasus berikut
cocok untuk diterapkan dengan pohon keputusan [7]:
1.
Data /
example
dinyatakan dengan pasangan atribut dan nilainya.
2.
Label /
output
data biasanya bernilai diskrit.
3.
Data mempunyai
missing value
.
2.3.2 Kelebihan Pohon Keputusan
(Decision Tree)
Kelebihan dari metode pohon keputusan adalah [8]:
1.
Daerah pengambilan keputusan yang sebelumnya kompleks dan sangat
global, dapat diubah menjadi lebih simpel dan spesifik.
3.
Fleksibel untuk memilih fitur dari node internal yang berbeda, fitur yang
terpilih akan membedakan suatu kriteria dibandingkan kriteria yang lain
dalam node yang sama. Kefleksibelan metode pohon keputusan ini
meningkatkan kualitas keputusan yang dihasilkan jika dibandingkan ketika
menggunakan metode penghitungan satu tahap yang lebih konvensional
4.
Dalam analisis multivariat, dengan kriteria dan kelas yang jumlahnya
sangat banyak, seorang penguji biasanya perlu untuk mengestimasikan
baik itu distribusi dimensi tinggi ataupun parameter tertentu dari distribusi
kelas tersebut. Metode pohon keputusan dapat menghindari munculnya
permasalahan ini dengan menggunakan kriteria yang jumlahnya lebih
sedikit pada setiap node internal tanpa banyak mengurangi kualitas
keputusan yang dihasilkan.
2.3.3
Kekurangan Pohon Keputusan
(Decision Tree)
Kekurangan dari metode pohon keputusan adalah [8]:
1.
Terjadi
overlap
terutama ketika kelas-kelas dan kriteria yang digunakan
jumlahnya sangat banyak. Hal tersebut juga dapat menyebabkan
meningkatnya waktu pengambilan keputusan dan jumlah memori yang
diperlukan.
2.
Pengakumulasian jumlah eror dari setiap tingkat dalam sebuah pohon
keputusan yang besar.
3.
Kesulitan dalam mendesain pohon keputusan yang optimal.
4.
Hasil kualitas keputusan yang didapatkan dari metode pohon keputusan
sangat tergantung pada bagaimana pohon tersebut didesain.
2.4 Algoritma C4.5
C4.5 merupakan pengembangan dari ID3. Sedangkan pada perangkat lunak
open
source
WEKA mempunyai versi sendiri yang dikenal sebagai J48.
Gambar 2.4
Algoritma C4.5 [8]
Pohon dibangun dengan cara membagi data secara rekursif hingga tiap
bagian terdiri dari data yang berasal dari kelas yang sama. Bentuk pemecahan
(
split)
yang digunakan untuk membagi data tergantung dari jenis atribut yang
digunakan dalam
split
. Algoritma C4.5 dapat menangani data numerik (kontinyu)
dan diskret.
Split
untuk atribut numerik yaitu mengurutkan contoh berdasarkan
atribut kontiyu A, kemudian membentuk minimum permulaan
(threshold
) M dari
contoh-contoh yang ada dari kelas mayoritas pada setiap partisi yang
bersebelahan, lalu menggabungkan partisi-partisi yang bersebelahan tersebut
dengan kelas mayoritas yang sama.
Split
untuk atribut diskret
A
mempunyai
bentuk
value (A)
ε
X
,
dimana
X
⊂
domain(A)
.
kumpulan objek. Cara menghitungnya dilakukan dengan menggunakan konsep
entropi.
S
: ruang (data) sampel yang digunakan untuk pelatihan
p
+: jumlah yang bersolusi positif (mendukung pada data sampel untuk kriteria
tertentu)
p
-: jumlah yang bersolusi negatif (tidak mendukung pada data sampel untuk
kriteria tertentu).
Catatan :
1.
Entropi(
S
) = 0, jika semua contoh pada S berada dalam kelas yang
sama.
2.
Entropi(S) = 1, jika jumlah contoh positif dan negatif dalam S
adalah sama.
3.
0 < Entropi(S) < 1, jika jumlah contoh positif dan negatif dalam S
tidak sama.
Entropi
split
yang membagi
S
dengan
n
record menjadi
himpunan-himpunan
S
1dengan
n
1baris dan
S
2dengan
n
2baris adalah :
…(2.5)
Kemudian menghitung perolehan informasi dari output data atau variabel
dependent
y
yang dikelompokkan berdasarkan atribut A, dinotasikan dengan
gain
(
y
,A). Perolehan informasi
, gain
(
y
,A), dari atribut A relatif terhadap output data
y
adalah:
…
(2.6)
Nilai (A) adalah semua nilai yang mungkin dari atribut A, dan
y
c adalah
subset dari y dimana A mempunyai nilai c.
Term
pertama dalam persamaan di atas
𝐺𝑎𝑖𝑛 𝑦
,
𝐴
=
𝑒𝑛𝑡𝑟𝑜𝑝𝑖 𝑦 −
𝑦
𝑐𝑦
𝑐=𝑛𝑖𝑙𝑎𝑖(𝐴)𝑒𝑛𝑡𝑟𝑜𝑝𝑖 𝑦
𝑐+
𝑛2
𝑛 𝐸
(
𝑆2
)
𝐸 𝑆
=
−𝑝+𝑙𝑜𝑔2𝑝+
−
𝑝
−𝑙𝑜𝑔2𝑝
−…(2.
4)
𝐸
(
𝑆1
,
𝑆2
) =
𝑛1
𝑛 𝐸
𝑆1
+
𝑛2
adalah entropi
total
y
dan
term
kedua adalah entropi sesudah dilakukan pemisahan
data berdasarkan atribut A.
Untuk menghitung rasio perolehan perlu diketahui suatu
term
baru yang
disebut pemisahan informasi
(Split Info
). Pemisahan informasi dihitung dengan
cara :
…
(2.7)
bahwa
S1
sampai
Sc
adalah
c
subset yang dihasilkan dari pemecahan
S
dengan
menggunakan atribut A yang mempunyai sebanyak
c
nilai. Selanjutnya rasio
perolehan (
gain ratio
) dihitung dengan cara :
…
(2.8)
2.5 Algoritma
Reduct Based Decision Tree (RDT)
Algoritma
RDT
terdiri dari dua langkah penting yaitu
Reduct Computation
dan pembuatan pohon keputusan
(decision tree).
RDT
mengkombinasikan teori
himpunan kasar
(Rough Set)
dan induksi algoritma pohon keputusan, yang
meningkatkan efisiensi dan sederhana.
Datasets
dapat diskret ataupun kontinyu.
2.5.1 Algoritma
RDT
Di dalam
Reduct Computation Algorithm (RCA)
, tabel keputusan
diberikan sebagai
input
dan atribut utama (
predominant attributes
)
yang disebut
reduct
diperoleh sebagai
output
. Jika datanya besar, digunakan fragmentasi
vertikal. Atribut keputusan ditambahkan ke tiap fragmen dan
RCA
dipergunakan.
Atribut utama
(predominant attributes)
untuk semua fragmen diperoleh dan
dikelompokkan bersama dengan informasi fragmen dan atribut keputusan.
Selanjutnya
RCA
digunakan lagi. Himpunan baru dari atribut disebut
composite
reduct
[4].
𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜 𝑆
,
𝐴
=
−
𝑆
𝑡𝑆
𝑐𝑡=1