Deteksi outlier untuk nilai ujian Sekolah Menengah Atas (Sma) menggunakan Algoritma Influenced Outlierness (INFLO).

(1)

Pada era globalisasi saat ini, pertumbuhan data yang sangat banyak seringkali terlalu

luas dan tidak menghasilkan suatu informasi yang jelas, apalagi pengetahuan. Penambangan

data akan mengubah data yang sangat tidak informatif tersebut menjadi sebuah informasi yang

berguna ataupun dapat pula menjadi suatu pengetahuan. Dalam penambangan data, ada suatu

teknik untuk mencari data yang tidak konsisten ataupun data yang berbeda dari data yang

lainnya, biasa dikenal dengan deteksi outlier. Teknik ini dapat digunakan untuk menganalisis

berbagai bidang, salah satunya adalah bidang pendidikan.

Maka dari itu, penelitian ini melakukan deteksi outlier dengan menggunakan algoritma

Influenced Outlierness (INFLO). Algoritma ini dikemukakan oleh Jin et.al. pada tahun 2006,

mengusulkan deteksi outlier berdasarkan influence space. Data yang digunakan adalah nilai

ujian SMA dari Provinsi DIY tahun 2011 – 2014.

Penelitian ini menghasilkan sistem alat bantu deteksi menggunakan algoritma INFLO.

Pengujiannya ada 5 metode. Hasil yang didapat dari seluruh pengujian adalah sistem ini dapat

digunakan untuk mendeteksi outlier data nilai ujian SMA tersebut.

(2)

In the current era of globalization, the growth of data very much often too broad and

did not produce a clear information, let alone knowledge. Data mining will change very

uninformative data into a useful information or can also be a knowledge. In data mining, there

is a technique to look for inconsistent data or data that is different from other data, commonly

known as outlier detection. This technique can be used to analyze a wide range of fields, one

of which is education.

Therefore, this study did outlier detection algorithms using Influenced Outlierness

(INFLO). This algorithm proposed by Jin et al in 2006, the outlier detection based influence

space. The data used is the high school test scores of DIY Province in 2011-2014.

This research resulted in the detection system uses an algorithm tools INFLO. There

are 5 methods of testing. The results of all testing is these systems can be used to detect a data

outlier high school test scores.

(3)

HALAMAN JUDUL

DETEKSI OUTLIER UNTUK NILAI UJIAN

SEKOLAH MENENGAH ATAS (SMA) MENGGUNAKAN ALGORITMA

INFLUENCED OUTLIERNESS (INFLO)

SKRIPSI

Diajukan untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Komputer

Program Studi Teknik Informatika

Oleh :

Maria Renia Octaviani

115314010

PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA YOGYAKARTA

(4)

ii

HALAMAN JUDUL (BAHASA INGGRIS)

OUTLIER DETECTION FOR THE HIGH SCHOOL EXAM USING INFLUENCED OUTLIERNESS (INFLO) ALGORITHM

A Final Project

Presented as Partial Fullfillment of the Requirements

To Obtain the Sarjana Komputer Degree

In Informatics Engineering Study Program

By :

115314010

INFORMATICS ENGINEERING STUDY PROGRAM DEPARTMENT OF INFORMATICS ENGINEERING

FACULTY OF SCIENCE AND TECHNOLOGY SANATA DHARMA UNIVERSITY

(5)

iii

HALAMAN PERSETUJUAN

SKRIPSI

Oleh :

115314010

Telah Disetujui Oleh :

Dosen Pembimbing

(6)

iv

HALAMAN PENGESAHAN SKRIPSI

Yang dipersiapkan dan disusun oleh :

115314010

Telah dipertahankan di depan Panitia Penguji

Pada tanggal …… ……… 2015

Dan dinyatakan memenuhi syarat

Susunan Panitia Penguji

Tanda Tangan

Ketua : P.H. Prima Rosa, S.Si., M.Sc. ………

Sekretaris : Sri Hartati Wijono, S.Si., M.Kom. ………

Anggota : Ridowati Gunawan, S.Kom., M.T. ………

Yogyakarta, …… ……… 2015 Fakultas Sains dan Teknologi

Universitas Sanata Dharma

Dekan,

(7)

v

HALAMAN PERSEMBAHAN

“Karena Tuhanlah yang memberikan hikmat,

dari mulut-Nya datang pengetahuan dan

kepandaian”

( Amsal 2 : 6 )

Karya ini kupersembahkan kepada :

Tuhan Yesus Kristus

Bunda Maria

Keluarga

(8)

vi

HALAMAN PERNYATAAN

PERNYATAAN KEASLIAN KARYA

Saya menyatakan dengan sesungguhnya bahwa skripsi yang saya tulis ini tidak

memuat karya atau bagian karya orang lain, kecuali yang telah saya sebutkan dalam

kutipan daftar pustaka, sebagaimana layaknya karya ilmiah.

Yogyakarta, … ……… 2015

Penulis,

(9)

vii ABSTRAK

Pada era globalisasi saat ini, pertumbuhan data yang sangat banyak

seringkali terlalu luas dan tidak menghasilkan suatu informasi yang jelas, apalagi

pengetahuan. Penambangan data akan mengubah data yang sangat tidak informatif

tersebut menjadi sebuah informasi yang berguna ataupun dapat pula menjadi suatu

pengetahuan. Dalam penambangan data, ada suatu teknik untuk mencari data yang

tidak konsisten ataupun data yang berbeda dari data yang lainnya, biasa dikenal

dengan deteksi outlier. Teknik ini dapat digunakan untuk menganalisis berbagai

bidang, salah satunya adalah bidang pendidikan.

Maka dari itu, penelitian ini melakukan deteksi outlier dengan

menggunakan algoritma Influenced Outlierness (INFLO). Algoritma ini

dikemukakan oleh Jin et.al. pada tahun 2006, mengusulkan deteksi outlier

berdasarkan influence space. Data yang digunakan adalah nilai ujian SMA dari

Provinsi DIY tahun 2011 – 2014.

Penelitian ini menghasilkan sistem alat bantu deteksi menggunakan

algoritma INFLO. Pengujiannya ada 5 metode. Hasil yang didapat dari seluruh

pengujian adalah sistem ini dapat digunakan untuk mendeteksi outlier data nilai

ujian SMA tersebut.

(10)

viii ABSTRACT

In the current era of globalization, the growth of data very much often too

broad and did not produce a clear information, let alone knowledge. Data mining

will change very uninformative data into a useful information or can also be a

knowledge. In data mining, there is a technique to look for inconsistent data or data

that is different from other data, commonly known as outlier detection. This

technique can be used to analyze a wide range of fields, one of which is education.

Therefore, this study did outlier detection algorithms using Influenced

Outlierness (INFLO). This algorithm proposed by Jin et al in 2006, the outlier

detection based influence space. The data used is the high school test scores of DIY

Province in 2011-2014.

This research resulted in the detection system uses an algorithm tools

INFLO. There are 5 methods of testing. The results of all testing is these systems

can be used to detect a data outlier high school test scores.

(11)

ix

HALAMAN PERSETUJUAN PUBLIKASI KARYA ILMIAH

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPERLUAN KEPENTINGAN AKADEMIS

Yang bertanda tangan di bawah ini, saya mahasiswi Universitas Sanata Dharma :

Nama : Maria Renia Octaviani

Nomor Mahasiswa : 115314010

Demi pengembangan ilmu pengetahuan, saya memberikan kepada Perpustakaan

Universitas Sanata Dharma karya ilmiah saya yang berjudul :

Beserta perangkat yang diperlukan (bila ada). Dengan demikian saya memberikan

kepada Perpustakaan Universitas Sanata Dharma hak untuk menyimpan,

mengalihkan dalam bentuk media lain, mengelolanya di internet atau media lain

untuk kepentingan akademis tanpa perlu meminta ijin dari saya maupun

memberikan royalti kepada saya selama tetap mencantumkan nama saya sebagai

penulis.

Demikian pernyataan ini saya buat dengan sebenarnya

Dibuat di Yogyakarta

Pada tanggal … ……… 2015 Yang menyatakan,

(12)

x

KATA PENGANTAR

Puji dan syukur kepada Tuhan Yang Maha Esa, karena pada akhirnya

penulis dapat menyelesaikan penelitian tugas akhir ini yang berjudul “Deteksi Outlier Untuk Nilai Ujian Sekolah Menengah Atas (SMA) Menggunakan Algoritma Influenced Outlierness (INFLO)”.

Dalam menyelesaikan seluruh penyusunan tugas akhir ini, penulis tak lepas

dari doa, bantuan, dukungan, dan motivasi dari banyak pihak. Oleh karena itu,

penulis ingin mengucapkan banyak terima kasih kepada :

1. Ibu Paulina Heruningsih Prima Rosa, S.Si., M.Sc. selaku Dekan Fakultas Sains

dan Teknologi dan juga selaku Dosen Penguji.

2. Ibu Ridowati Gunawan, S.Kom., M.T. selaku Ketua Program Studi Teknik

Informatika dan juga selaku Dosen Pembimbing Skripsi yang telah memberikan

waktu, bimbingan, dan motivasi kepada penulis.

3. Ibu Sri Hartati Wijono, S.Si., M.Kom. selaku Dosen Penguji.

4. Bapak Henricus Agung Hernawan, S.T., M.Kom. selaku Dosen Pembimbing

Akademik.

5. Seluruh dosen, sekretariat, laboran, dan perpustakaan yang telah membimbing

dan membantu selama proses perkuliahan di Universitas Sanata Dharma.

6. Bapak Bambang Kuncoro dari Seksi Data dan Teknologi Informasi Dinas

Pendidikan, Pemuda, dan Olah Raga Provinsi DIY yang telah bersedia

memberikan data penelitian.

(13)

xi

8. Nenek Soejani tercinta yang telah mendoakan, mendukung, memotivasi penulis

dari awal bersekolah hingga dapat menyelesaikan tugas akhir ini.

9. Andreas Widiyatmoko yang selalu mendoakan, dan ada dalam suka duka.

10.Erlita Octaviani dan Daniel Tomi Raharjo yang telah memberikan banyak

bantuan dalam memberikan pandangan dan refrensi kepada penulis saat

penyusunan tugas akhir ini.

11.Teman-teman TI 2011 terutama Winda, Elsa, Orin, Danik, Ronald, Arie, Pandu

W., Benny, Ega yang sudah menemani dan mendukung selama ini.

12.Mbak Ari selaku kakak dari seluruh anak Kost Wisma Dara dan teman-teman

kost (Nova, Yolanda, Nona, Claudia, Cik Angel, Elsa, Winda, Merna, Ratna,

dan semuanya) yang sudah menjadi teman kost terbaik.

13.Semua pihak yang sudah mendukung secara langsung ataupun tidak langsung,

mohon maaf saya tidak dapat menyebutkan satu per satu.

Penulis berharap penelitian ini dapat menjadi pengetahuan baru yang

berguna bagi para pembaca. Penelitian ini tidak luput dari kekurangan, oleh karena

itu, penulis mengharapkan saran dan kritik untuk perbaikan hingga akhirnya

penelitian ini menjadi lebih baik.

Yogyakarta, … ……… 2015

Penulis,

(14)

xii DAFTAR ISI

Halaman

HALAMAN JUDUL ... i

HALAMAN JUDUL (BAHASA INGGRIS) ... ii

HALAMAN PERSETUJUAN ... iii

HALAMAN PENGESAHAN ... iv

HALAMAN PERSEMBAHAN ... v

HALAMAN PERNYATAAN ... vi

ABSTRAK ... vii

ABSTRACT ... viii

HALAMAN PERSETUJUAN PUBLIKASI KARYA ILMIAH ... ix

KATA PENGANTAR ... x

DAFTAR ISI ... xii

DAFTAR GAMBAR ... xviii

DAFTAR TABEL ... xxi

DAFTAR RUMUS ... xxiii

DAFTAR LAMPIRAN ... xxiv

BAB I PENDAHULUAN ... 1

1.1. Latar Belakang ... 1

1.2. Rumusan Masalah... 5

1.3. Batasan Masalah ... 5

(15)

xiii

1.5. Manfaat Penelitian ... 6

1.6. Metodologi Penelitian... 6

1.7. Sistematika Penulisan ... 9

BAB II LANDASAN TEORI ... 11

2.1. PENAMBANGAN DATA ... 11

2.1.1. Pengertian Penambangan Data ... 11

2.1.2. Asal Usul Penambangan Data ... 11

2.1.3. Fungsi dalam Penambangan Data ... 12

2.1.4. Knowledge Discovery in Databases (KDD) ... 14

2.2. DETEKSI OUTLIER ... 16

2.2.1. Pengertian Outlier... 16

2.2.2. Macam Pendekatan Outlier ... 16

2.3. INFLUENCED OUTLIERNESS (INFLO)... 18

2.3.1. Deteksi Outlier dengan Algoritma INFLO ... 18

2.3.2. Contoh Deteksi Outlier dengan Algoritma INFLO ... 22

BAB III METODOLOGI PENELITIAN ... 27

3.1. SUMBER DATA ... 27

3.2. PENGOLAHAN DATA ... 28

3.2.1. Data Cleaning... 28

3.2.2. Data Integration ... 28

3.2.3. Data Selection... 28

3.2.4. Data Transformation ... 29

(16)

xiv

3.2.6. Pattern Evaluation ... 41

3.2.7. Knowledge Presentation ... 42

BAB IV ANALISIS DAN PERANCANGAN SISTEM ... 43

4.1. IDENTIFIKASI SISTEM ... 43

4.1.1. Diagram Use Case ... 44

4.1.2. Narasi Use Case ... 45

4.2. PERANCANGAN SISTEM SECARA UMUM ... 45

4.2.1. Input Sistem ... 45

4.2.2. Proses Sistem ... 46

4.2.3. Output Sistem ... 47

4.3. PERANCANGAN SISTEM ... 48

4.3.1. Diagram Aktivitas... 48

4.3.2. Diagram Kelas Analisis ... 48

4.3.3. Diagram Sequence ... 50

4.3.4. Diagram Kelas Desain ... 50

4.3.5. Rincian Algoritma per Method ... 51

4.3.5.1. Kelas KontrolKoneksiDatabase ... 51

4.3.5.2. Kelas KontrolKoneksiTable ... 53

4.3.5.3. Kelas KontrolSeleksiAtributTableModel ... 54

4.3.5.4. Kelas Kontrol_INFLOTableModel ... 55

4.3.5.5. Kelas Kontrol_INFLO ... 55

4.4. PERANCANGAN STRUKTUR DATA ... 67

(17)

xv

4.4.2. Matriks Dua Dimensi... 69

4.5. PERANCANGAN ANTARMUKA ... 70

4.5.1. Perancangan Halaman Awal ... 70

4.5.2. Perancangan Halaman Preprocess ... 71

4.5.3. Perancangan Halaman Pilih Database ... 72

4.5.4. Perancangan Halaman Pilih Table ... 73

4.5.5. Perancangan Halaman Deteksi Outlier ... 74

4.5.6. Perancangan Halaman Bantuan ... 75

4.5.7. Perancangan Halaman Tentang ... 76

BAB V IMPLEMENTASI PENAMBANGAN DATA ... 77

5.1. IMPLEMENTASI ANTARMUKA ... 77

5.1.1. Implementasi Halaman Awal ... 77

5.1.2. Implementasi Halaman Preprocess ... 78

5.1.2.1. Preprocess ‘Pilih File’ ... 79

5.1.2.2. Preprocess ‘Pilih Database’ ... 81

5.1.2.3. Seleksi Atribut pada Halaman Preprocess ... 84

5.1.3. Implementasi Halaman Deteksi Outlier ... 88

5.1.4. Implementasi Halaman Bantuan ... 93

5.1.5. Implementasi Halaman Tentang ... 94

5.1.6. Implementasi Keluar dari Sistem ... 95

5.2. IMPLEMENTASI KELAS... 95

5.2.1. Implementasi Kelas Model ... 96

(18)

xvi

5.2.3. Implementasi Kelas View ... 96

5.3. IMPLEMENTASI STRUKTUR DATA ... 97

5.3.1. Implementasi Kelas Vertex ... 97

5.3.2. Implementasi Kelas Graph ... 99

BAB VI PENGUJIAN DAN ANALISIS HASIL PENGUJIAN ... 101

6.1. RENCANA PENGUJIAN ... 101

6.1.1. Hasil Pengujian Black Box ... 105

6.1.1.1. Pengujian Memasukkan Data ... 105

6.1.1.2. Pengujian Koneksi ke Database ... 106

6.1.1.3. Pengujian Seleksi Atribut ... 109

6.1.1.4. Pengujian Deteksi Outlier ... 110

6.1.1.5. Pengujian Penyimpanan Hasil ... 112

6.1.2. Kesimpulan Hasil Pengujian Black Box ... 113

6.1.3. Hasil Pengujian Efek Perubahan Atribut ... 114

6.1.3.1. Pengujian Data Nilai Akhir (NA) IPA Tahun 2014 ... 114

6.1.3.2. Pengujian Data Nilai Sekolah (NS) IPA Tahun 2014 ... 115

6.1.3.3. Pengujian Data Nilai Ujian Nasional (UN) IPA Tahun 2014 ... 116

6.1.4. Kesimpulan Hasil Pengujian Efek Perubahan Atribut .. 117

(19)

xvii

6.1.6. Kesimpulan Hasil Pengujian Perbandingan Perhitungan

Manual dan Hasil Deteksi Sistem ... 119

6.1.7. Hasil Pengujian Akurasi ... 119

6.1.8. Kesimpulan Hasil Pengujian Akurasi ... 130

6.1.9. Hasil Pengujian Waktu Kinerja Sistem ... 131

6.1.10. Kesimpulan Hasil Pengujian Waktu Kinerja Sistem ... 132

6.2. KELEBIHAN DAN KEKURANGAN SISTEM ... 133

6.2.1. Kelebihan Sistem ... 133

6.2.2. Kekurangan Sistem ... 134

BAB VII PENUTUP ... 135

7.1. KESIMPULAN ... 135

7.2. SARAN ... 136

DAFTAR PUSTAKA ... 137

(20)

xviii

DAFTAR GAMBAR

Halaman

Gambar 2.1 Asal Usul Penambangan Data ... 12

Gambar 2.2 Proses Knowledge Discovery in Databases ... 14

Gambar 4.1 Graf... 67

Gambar 4.2 Graf Tidak Berarah... 68

Gambar 4.3 Rancangan Graf ... 68

Gambar 4.4 Perancangan Halaman Awal ... 70

Gambar 4.5 Perancangan Halaman Preprocess ... 71

Gambar 4.6 Perancangan Halaman Pilih Database ... 72

Gambar 4.7 Perancangan Halaman Pilih Table ... 73

Gambar 4.8 Perancangan Halaman Deteksi Outlier ... 74

Gambar 4.9 Perancangan Halaman Bantuan ... 75

Gambar 4.10 Perancangan Halaman Tentang ... 76

Gambar 5.1 Implementasi Halaman Awal ... 77

Gambar 5.2 Implementasi Halaman Preprocess ... 78

Gambar 5.3 Implementasi Kotak Dialog Pilih File yang Salah ... 79

Gambar 5.4 Implementasi Pesan Salah Memilih File ... 80

Gambar 5.5 Implementasi Kotak Dialog Pilih File yang Benar ... 80

Gambar 5.6 Proses Setelah Memasukkan Data dari Pilih File... 81

Gambar 5.7 Implementasi Halaman Pilih Database ... 81

(21)

xix

Gambar 5.9 Pesan Koneksi Database Berhasil ... 83

Gambar 5.10 Implementasi Halaman Pilih Table ... 83

Gambar 5.11 Proses Setelah Memasukkan Data dari Pilih File... 84

Gambar 5.12 Data dari Masukkan File ataupun Database ... 84

Gambar 5.13 Informasi Data yang Dimasukkan ... 84

Gambar 5.14 Seleksi Atribut ... 85

Gambar 5.15 Tandai Semua Atribut ... 85

Gambar 5.16 Batal Seleksi Atribut ... 86

Gambar 5.17 Hapus Tanda Beberapa Atribut ... 86

Gambar 5.18 Hasil Seleksi Atribut ... 87

Gambar 5.19 Implementasi Halaman Deteksi Outlier ... 88

Gambar 5.20 Isian Nilai 'k' yang Benar ... 88

Gambar 5.21 Pesan Isian Nilai 'k' yang Salah ... 89

Gambar 5.22 Hasil Proses Deteksi Outlier ... 89

Gambar 5.23 Rincian Hasil Deteksi Outlier ... 90

Gambar 5.24 Informasi Hasil Outlier... 90

Gambar 5.25 Isian Batasan Outlier yang Benar ... 90

Gambar 5.26 Pesan Isian Batasan Outlier yang Salah ... 91

Gambar 5.27 Hasil Deteksi Outlier dengan Batasan ... 91

Gambar 5.28 Cara Penyimpanan Hasil Deteksi ... 91

Gambar 5.29 Kotak Dialog Penyimpanan ... 92

Gambar 5.30 Pesan Penyimpanan Berhasil ... 92

(22)

xx

Gambar 5.32 Implementasi Halaman Bantuan ... 93

Gambar 5.33 Cara Melihat Informasi Sistem ... 94

Gambar 5.34 Implementasi Halaman Tentang... 94

Gambar 5.35 Cara Keluar dari Sistem ... 95

Gambar 5.36 Kotak Dialog Konfirmasi Keluar ... 95

Gambar 6.1 Grafik Pengujian Data Nilai Akhir (NA) IPA Tahun 2014 ... 114

Gambar 6.2 Grafik Pengujian Data Nilai Sekolah (NS) IPA Tahun 2014... 115

Gambar 6.3 Grafik Pengujian Data Nilai Ujian Nasional (UN) IPA Tahun 2014

... 116

(23)

xxi

DAFTAR TABEL

Halaman

Table 3.1 Tabel Atribut Data ... 27

Table 3.2 Tabel Seleksi Atribut ... 29

Table 3.3 Tabel Data Terseleksi... 30

Table 3.4 Tabel Jarak Antar Obyek ... 31

Table 3.5 Tabel NN dengan Jarak Antar Obyeknya ... 33

Table 3.6 Tabel K-Distance ... 35

Table 3.7 Tabel NN ... 36

Table 3.8 Table RNN ... 36

Table 3.9 Tabel IS ... 37

Table 3.10 Tabel Density ... 38

Table 3.11 Tabel Rata-rata Density Tiap Obyek ... 39

Table 4.1 Tabel Kelas Analisis ... 48

Table 4.2 Contoh Matriks Dua Dimensi (Awal Pembuatan Graf) ... 69

Table 4.3 Contoh Matriks Dua Dimensi (Setelah Terbentuk Edge) ... 70

Table 5.1 Tabel Implementasi Kelas Model ... 96

Table 5.2 Tabel Implementasi Kelas Controller ... 96

Table 5.3 Tabel Implementasi Kelas View ... 96

Table 6.1 Tabel Rencana Pengujian Black Box ... 102

Table 6.2 Tabel Pengujian Memasukkan Data ... 105

(24)

xxii

Table 6.4 Tabel Pengujian Seleksi Atribut ... 109

Table 6.5 Tabel Pengujian Deteksi Outlier ... 110

Table 6.6 Tabel Pengujian Penyimpanan Hasil ... 112

Table 6.7 Tabel Pengujian Data Nilai Akhir (NA) IPA Tahun 2014... 114

Table 6.8 Tabel Pengujian Data Nilai Sekolah (NS) IPA Tahun 2014 ... 115

Table 6.9 Tabel Pengujian Data Nilai Ujian Nasional (UN) IPA Tahun 2014 ... 116

Table 6.10 Tabel Data untuk Perbandingan Perhitungan Manual dan Sistem .... 117

Table 6.11 Tabel Hasil Perhitungan Manual... 118

Table 6.12 Tabel Hasil Perhitungan Sistem ... 119

Table 6.13. Tabel Confusion Matrix Data Nilai UN IPA Tahun 2014 ... 120

Table 6.15. Tabel Rincian Hasil Perbandingan Deteksi Sistem dan Pengguna Data

Nilai UN IPA Tahun 2014 ... 121

Table 6.14. Tabel Confusion Matrix Data Nilai UN IPS Tahun 2014 ... 125

Table 6.16. Tabel Rincian Hasil Perbandingan Deteksi Sistem dan Pengguna Data

Nilai UN IPS Tahun 2014 ... 126

(25)

xxiii

DAFTAR RUMUS

Halaman

Rumus 2.1. Rumus Menghitung Jarak Euclidean…………..……….... 19

Rumus 2.2. Rumus Menghitung K-Distance dan Mencari Nearest Neighbors

(NN)………. 19

Rumus 2.3. Rumus Menghitung Influence Space(IS)……...…………. 20

Rumus 2.4. Rumus Menghitung Reverse Nearest Neighbors (RNN)…. 20

Rumus 2.5. Rumus Menghitung Local Density………..…………. 21

Rumus 2.6. Rumus Menghitung Influenced Outlierness (INFLO)

Simple………...…………... 21

Rumus 2.7. Rumus Menghitung Average Density……...………. 21

Rumus 2.8. Rumus Menghitung Influenced Outlierness (INFLO) Complete

(26)

xxiv

DAFTAR LAMPIRAN

Halaman

LAMPIRAN 1 : DIAGRAM USE CASE 140

LAMPIRAN 2 : DESKRIPSI USE CASE 141

LAMPIRAN 3 : NARASI USE CASE 142

LAMPIRAN 4 : PROSES UMUM SISTEM 146

LAMPIRAN 5 : DIAGRAM AKTIVITAS 147

LAMPIRAN 6 : DIAGRAM KELAS ANALISIS 151

LAMPIRAN 7 : DIAGRAM SEQUENCE 152

LAMPIRAN 8 : DIAGRAM KELAS DESAIN 156

LAMPIRAN 9 : DIAGRAM KELAS 157

LAMPIRAN 10 : LISTING PROGRAM 163

LAMPIRAN 11 : HASIL DETEKSI OUTLIER DARI SISTEM 294

LAMPIRAN 12 : DIAGRAM (BOX AND WHISKER PLOTS) 344

LAMPIRAN 13 : SURAT IJIN SURVEY TUGAS AKHIR 346

(27)

1

1. BAB I PENDAHULUAN

1.1. Latar Belakang

Pada era globalisasi saat ini, pertumbuhan data sudah semakin pesat.

Data muncul dari segala jenis bidang. Namun, data yang sangat banyak

tersebut seringkali terlalu luas dan tidak menghasilkan suatu informasi yang

jelas, apalagi pengetahuan. Semakin bertambah banyaknya jumlah data,

maka terlalu banyak ruang untuk data yang sebenarnya tidak terpakai dalam

analisis tertentu. Untuk itu, dibutuhkan sebuah alat untuk menambang suatu

kumpulan data yang sangat banyak tersebut sehingga menjadi sebuah

informasi yang berguna. Suatu alat penambangan data akan mengubah data

yang sangat banyak dan tidak informatif tersebut menjadi sebuah informasi

yang berguna ataupun dapat menjadi suatu pengetahuan. Dapat disimpulkan

bahwa penambangan data merupakan serangkaian proses untuk menggali

data menjadi output yang tidak hanya sekedar informasi, tetapi juga sebuah

pengetahuan yang tersembunyi untuk membantu pengambilan suatu

keputusan (Han & Kamber, 2006).

Penambangan data sendiri sebenarnya memiliki teknik yang disebut

dengan Knowledge Discovery in Database (KDD). KDD sendiri masih

memiliki beberapa proses di dalamnya, yaitu data cleaning, data

integration, data selection, data transformation, data mining, pattern

(28)

Dalam penambangan data, sudah banyak teknik ataupun metode

yang sering digunakan. Salah satunya adalah teknik untuk mencari data

yang tidak konsisten ataupun data yang berbeda dari data yang lainnya.

Teknik ini biasa disebut dengan deteksi anomali data atau outlier detection

(Han & Kamber, 2006). Outlier sendiri merupakan sebuah observasi yang

menyimpang begitu banyak dari pengamatan lain untuk membangkitkan

kecurigaan bahwa objek tersebut dihasilkan oleh mekanisme yang berbeda

(Hawkins, 1980).

Banyak algoritma penambangan data yang mencoba untuk

meminimalkan pengaruh outlier. Masalah deteksi outlier dapat dilihat

sebagai dua submasalah. Pertama, menentukan data yang dapat dianggap

tidak konsisten dalam satu set data yang diberikan. Lalu yang kedua

menemukan metode yang efisien untuk menemukan data yang outlier

(berbeda dengan data yang lain). Dengan demikian, deteksi outlier

merupakan salah satu tugas penambangan data yang menarik (Han &

Kamber, 2006).

Menurut Kriegel et al. (2010), deteksi outlier memiliki 6 macam

pendekatan, yaitu statistical test, depth-based approaches, deviation-based

approaches, distance-based approaches, density-based approaches, dan

high-dimentional approache. Algoritma klasterisasi sendiri sementara

membuang outlier sebagai suatu noise, namun dapat dimodifikasi untuk

menyertakan deteksi outlier sebagai hasil dari eksekusi mereka. Secara

(29)

pendekatan ini memang benar-benar outlier. Namun dari sekian banyak

algoritma outlier yang ada, tidak semuanya dapat cocok untuk digunakan

dalam menganalisis outlier. Data yang memiliki dimensi tinggi merupakan

salah satu hambatan dari algoritma outlier yang ada. Salah satu algoritma

baru yang biasa digunakan untuk mendeteksi outlier adalah algoritma yang

bernama Influenced Outlierness (INFLO) yang dikemukakan oleh Jin et al

pada tahun 2006. Algoritma INFLO ini juga merupakan salah satu algoritma

deteksi outlier dengan pendekatan berbasis density-based yang

menggunakan Symmetric Neighborhood Relationship.

Teknik deteksi outlier ini dapat digunakan untuk menganalisis

berbagai bidang, salah satunya adalah bidang pendidikan. Salah satu isu

tentang pendidikan di Indonesia adalah mengenai Ujian Nasional (UN).

Penyelenggara UN adalah Badan Standar Nasional Pendidikan (BNSP)

yang bekerja sama dengan Kementerian Pendidikan dan Kebudayaan,

Kementerian Agama, Kementerian Dalam Negeri, Kepolisian Republik

Indonesia, Perguruan Tinggi Negeri, dan Pemerintah Daerah, yang dalam

pelaksanaannya terdiri atas Penyelenggara UN Tingkat Pusat,

Penyelenggara UN Tingkat Provinsi, Penyelenggara UN Tingkat

Kabupaten / Kota, dan Penyelenggara UN Tingkat Sekolah / Madrasah.

Menurut Prosedur Operasi Standart Ujian Nasional Tahun 2014 (POS UN

2014), kelulusan peserta didik dari UN ditentukan dari Nilai Akhir (NA)

yang merupakan gabungan nilai Ujian Nasional (UN) dengan Nilai Sekolah

(30)

juga merupakan gabungan nilai US dengan nilai rata – rata raport semester

3, 4, dan 5 (untuk tingkat Sekolah Menengah Atas) dengan bobot 60% nilai

US dan 40% nilai rata – rata raport.

Sekolah Menengah Atas (SMA) merupakan salah satu tingkatan

sekolah yang menarik dan memiliki beberapa hal untuk dianalisa. Hal ini

karena SMA merupakan jenjang sekolah terakhir sebelum menuju ke

tingkat yang lebih tinggi (Perguruan Tinggi). SMA sendiri memiliki

beberapa jurusan, seperti Ilmu Pengetahuan Alam (IPA), Ilmu Pengetahuan

Sosial (IPS), Bahasa, dan Agama.

Maka dari itu, penelitian ini akan melakukan deteksi outlier pada

nilai ujian SMA dari salah satu provinsi di Indonesia, yaitu Provinsi Daerah

Istimewa Yogyakarta (DIY). Pemilihan provinsi-provinsi tersebut dengan

alasan, yaitu berdasarkan provinsi letak Universitas Sanata Dharma

Yogyakatya (DIY). Nilai ujian yang diteliti adalah nilai ujian nasional, nilai

ujian sekolah, dan nilai akhir SMA dari jurusan IPA dan IPS karena

mayoritas SMA di Indonesia adalah jurusan IPA dan IPS. Nilai yang

dipergunakan adalah nilai ujian tahun 2011-2014.

Penelitian ini diharapkan dapat menghasilkan suatu informasi atau

bahkan pengetahuan baru dari kejadian langka dari data nilai ujian SMA

yang ada. Hasil yang didapatkan nantinya akan menampilkan sekolah mana

dari provinsi tertentu yang outlier atau berbeda dari sekolah – sekolah

lainnya yang ada dalam provinsi tersebut. Selain itu juga dapat terlihat

(31)

nilai NA. Selain itu, nantinya diharapkan dari hasil outlier yang didapatkan,

akan dapat menganalisa lebih lanjut pemasalahan UN yang terjadi di

Indonesia.

1.2. Rumusan Masalah

Rumusan masalah pada penelitian ini adalah sebagai berikut :

1. Bagaimana mendeteksi outlier data rata-rata nilai ujian nasional, nilai

ujian sekolah, dan nilai akhir dari Sekolah Menengah Atas (SMA) yang

ada di Provinsi Daerah Istimewa Yogyakarta (DIY) dengan

menggunakan algoritma Influenced Outlierness (INFLO)?

2. Apakah algoritma Influenced Outlierness (INFLO) dapat mendeteksi

outlier data rata – rata nilai ujian nasional, nilai ujian sekolah, dan nilai

akhir dari Sekolah Menengah Atas (SMA) yang ada di Provinsi Daerah

Istimewa Yogyakarta (DIY)?

1.3. Batasan Masalah

Batasan masalah pada penelitian ini adalah sebagai berikut :

1. Algoritma deteksi outlier yang digunakan adalah Influenced Outlierness

(INFLO).

2. Data yang digunakan adalah data nilai ujian nasional, nilai ujian

sekolah, dan nilai akhir untuk tahun ajaran 2011-2014.

3. Sekolah yang diteliti adalah Sekolah Menengah Atas (SMA) jurusan

(32)

1.4. Tujuan Penelitian

Tujuan dari penelitian ini adalah sebagai berikut :

1. Mendeteksi outlier data rata – rata nilai ujian nasional, nilai ujian

sekolah, dan nilai akhir dari Sekolah Menengah Atas (SMA) yang ada

di Provinsi Daerah Istimewa Yogyakarta (DIY) dengan menggunakan

algoritma Influenced Outlierness (INFLO).

2. Menganalisa kemampuan algoritma Influenced Outlierness (INFLO)

dalam mendeteksi outlier dari data rata – rata nilai ujian nasional, nilai

ujian sekolah, dan nilai akhir dari Sekolah Menengah Atas (SMA) yang

ada di Provinsi Daerah Istimewa Yogyakarta (DIY).

1.5. Manfaat Penelitian

Manfaat dari penelitian ini adalah sebagai berikut :

1. Memberikan pengetahuan baru mengenai cara mendeteksi outlier

dengan menggunakan algoritma Influenced Outlierness (INFLO).

2. Memberikan informasi mengenai anomali data yang ada dalam nilai –

nilai ujian Sekolah Menengah Atas (SMA).

1.6. Metodologi Penelitian

Metodologi penelitian yang digunakan dalam menyelesaikan tugas akhir ini

adalah sebagai berikut :

(33)

Metodologi pertama yang digunakan adalah studi pustaka.

Tahap ini merupakan proses mengumpulkan informasi berupa algoritma

yang digunakan untuk mendeteksi outlier dari berbagai macam referensi

yang tersedia (buku, karya ilmiah, ataupun artikel lainnya yang banyak

terdapat pada internet). Selanjutnya adalah mempelajari dan

menganalisa dari informasi yang didapat sehingga menentukan untuk

memilih algoritma Influenced Outlierness untuk penelitian deteksi

outlier pada nilai ujian siswa Sekolah Menengah Atas.

2. Metode Knowledge Discovery in Database (KDD)

Metodologi kedua ini adalah teknik penambangan data yang

dituliskan oleh Jiawei Han, Micheline Kamber, dan Jian Pei pada

bukunya Data Mining : Concepts and Techniques. Teknik KDD

mencakup beberapa proses, yaitu :

a. Data Cleaning

Tahap ini merupakan proses dimana data yang tidak

dibutuhkan / pengganggu (noise) dan data yang tidak

konsisten akan dihapus.

b. Data Integration

Tahap ini merupakan proses dimana

bermacam-macam data dari berbagai sumber akan digabungkan

menjadi satu kesatuan.

(34)

Tahap ini merupakan proses dimana untuk

melakukan analisis, data relevan akan diperoleh dari

database.

d. Data Transformation

Tahap ini merupakan proses dimana data diubah

(transformasi) atau digabungkan sehingga menjadi tepat

untuk ditambang dengan misalnya melakukan operasi

penjumlahan atau penggabungan.

e. Data Mining

Tahap ini merupakan proses pokok dimana metode

cerdas dilaksanakan untuk menggali pola dari data.

f. Pattern Evaluation

Tahap ini merupakan proses indentifikasi pola yang

sungguh menarik menampilkan basis pengetahuan dalam

suatu ukuran ketertarikan.

g. Knowledge Presentation

Tahap ini merupakan proses dimana teknik

menampilkan suatu gambaran dan pengetahuan digunakan

untuk menampilkan hasil tambang dari pengetahuan kepada

pengguna.

3. Analisis dan Evaluasi

Metode ketiga ini adalah melakukan analisis dalam menentukan

(35)

Outlierness (INFLO) dari data-data yang dipergunakan. Data yang

terdeteksi sebagai outlier adalah yang memiliki hasil INFLO menjauhi

angka “1”.

Setelah itu akan dilakukan evaluasi dari hasil analisa yang

didapat, yaitu informasi baru mengenai hasil sekolah-sekolah yang

terdeteksi sebagai outlier dari provinsi tertentu. Hasil evaluasi dapat

dijadikan permulaan untuk perbaikan dari sekolah yang terdeteksi

outlier tersebut.

1.7. Sistematika Penulisan

Sistematika penulisan tugas akhir ini adalah sebagai berikut :

a. BAB I : PENDAHULUAN

Bab pertama ini berisi latar belakang penelitian, rumusan masalah,

tujuan penelitian, batasan masalah, metodologi yang digunakan dalam

penelitian, dan sistematika penulisan tugas akhir.

b. BAB II : LANDASAN TEORI

Bab kedua ini berisi dasar-dasar teori penambangan data yang

digunakan dalam penelitian tugas akhir ini.

c. BAB III : METODOLOGI PENELITIAN

Bab ketiga ini berisi metodologi dari penelitian tugas akhir ini.

d. BAB IV : ANALISIS DAN PERANCANGAN SISTEM

Bab keempat ini berisi analisa dan perancangan dari sistem yang

(36)

e. BAB V : IMPLEMENTASI PENAMBANGAN DATA

Bab kelima ini berisi implementasi sistem yang dibangun.

f. BAB VI : PENGUJIAN DAN ANALISIS HASIL PENGUJIAN

Bab keenam ini berisi pengujian dan analisis hasil pengujian dari sistem

yang dibangun.

g. BAB VII : PENUTUP

Bab terakhir ini berisi kesimpulan dan saran dari sistem ini yang berguna

(37)

11

2. BAB II

LANDASAN TEORI

2.1. PENAMBANGAN DATA

2.1.1. Pengertian Penambangan Data

Menurut Tan et.al (2006), penambangan data adalah

teknologi yang memadukan metode analisis data tradisional dengan

algoritma yang canggih untuk memproses volume data yang besar.

Dalam bukunya disebutkan bahwa penambangan data adalah proses

menemukan informasi yang berguna dari repositori data yang besar

secara otomatis.

Namun tidak semua tugas menemukan informasi dapat

dicari menggunakan penambangan data. Meski tugas-tugas seperti

yang penting dan mungkin melibatkan pengguanaan algoritma yang

canggih dan struktur data, tetap harus mengandalkan teknik ilmu

komputer tradisional dan fitur yang jelas dari data. Hal ini perlu

dalam membuat struktur indeks untuk secara efisien mengatur dan

mengambil informasi. Meskipun demikian, teknik penambangan

data telah digunakan untuk meningkatkan sistem pencarian

informasi.

2.1.2. Asal Usul Penambangan Data

Menurut Tan et al. (2004), penambangan data menarik ide

(38)

basis data. Teknik tradisional mungkin tidak cocok karena data yang

sangat besar, data yang berdimensi tinggi, dan sifat heterogen, sifat

data yang didistribusikan. Hal ini dapat digambarkan seperti gambar

berikut ini :

Gambar 2.1 Asal Usul Penambangan Data

2.1.3. Fungsi dalam Penambangan Data

Menurut Han et al. (2012), penambangan data memiliki

beberapa fungsi yang menerapkan metode yang dapat dikategorikan

menjadi 2 bagian besar, yaitu metode deskriptif dan metode

prediktif. Metode deskriptif bertugas mengkarakterisasikan suatu

sifat dari data target. Sedangkan metode prediktif bertugas membuat

suatu prediksi masa depan yang dicari melalui data saat ini.

Fungsi yang terdapat dalam penambangan data ada 4, yaitu :

a. Asosiasi

Asosiasi dalam penambangan data merupakan aturan dalam

satu set transaksi yang akan memprediksi terjadinya item

berdasarkan item lainnya dalam transaksi tersebut. (Tan et al.

(39)

b. Klasifikasi

Menurut Tan et al. (2004), dalam koleksi catatan (training

set), setiap record berisi satu set atribut dimana salah satu atribut

adalah suatu kelas. Saat ingin menentukan klasifikasi training

set tersebut, dapat dengan mencari model untuk masing-masing

atribut kelas sebagai fungsi dari nilai-nilai atribut yang lainnya.

Tujuannya agar record yang sebelumnya tak terlihat dapat

ditujukan dalam kelas tersebut seakurat mungkin. Satu set tes

digunakan untuk menentukan akurasi dari suatu model.

Biasanya, kumpulan data yang diberikan dibagi menjadi training

set dan set test. Training set digunakan untuk membangun model

dan set test digunakan untuk memvalidasinya.

c. Klastering

Klastering merupakan fungsi untuk menemukan suatu kelompok

obyek sehingga obyek - obyek dalam kelompok akan mirip (atau

terkait) satu sama lain dan berbeda dari (atau tidak terkait

dengan) obyek - obyek di kelompok lainnya. (Tan et al. 2004)

d. Analisis Outlier

Menurut Tan et al. (2004), outlier merupakan himpunan titik

data yang jauh berbeda dari sisa data. Ada jauh lebih banyak

pengamatan "normal" dibandingkan pengamatan "normal"

(40)

adalah metode yang digunakan tanpa pengawasan, dan seperti

layaknya “mencari jarum dalam tumpukan jerami”.

2.1.4. Knowledge Discovery in Databases (KDD)

Penambangan data tidak dapat terpisahkan dari proses

knowledge discovery in databases atau biasa disebut dengan KDD.

Proses KDD merupakan sebuah proses mengubah data mentah

menjadi suatu informasi yang berguna. KDD sendiri masih memiliki

beberapa proses di dalamnya, yaitu data cleaning, data integration,

data selection, data transformation, data mining, pattern

evaluation, dan knowledge presentation (Han & Kamber, 2006).

(41)

1. Data Cleaning

Tahap ini merupakan proses dimana data yang tidak

dibutuhkan / pengganggu (noise) dan data yang tidak

konsisten akan dihapus.

2. Data Integration

Tahap ini merupakan proses dimana bermacam-macam

data dari berbagai sumber akan digabungkan menjadi

satu kesatuan.

3. Data Selection

Tahap ini merupakan proses dimana untuk melakukan

analisis, data relevan akan diperoleh dari database.

4. Data Transformation

Tahap ini merupakan proses dimana data diubah

(transformasi) atau digabungkan sehingga menjadi tepat

untuk ditambang dengan misalnya melakukan operasi

penjumlahan atau penggabungan.

5. Data Mining

Tahap ini merupakan proses pokok dimana metode

cerdas dilaksanakan untuk menggali pola dari data.

6. Pattern Evaluation

Tahap ini merupakan proses indentifikasi pola yang

sungguh menarik menampilkan basis pengetahuan dalam

(42)

7. Knowledge Presentation

Tahap ini merupakan proses dimana teknik menampilkan

suatu gambaran dan pengetahuan digunakan untuk

menampilkan hasil tambang dari pengetahuan kepada

pengguna.

2.2. DETEKSI OUTLIER

2.2.1. Pengertian Outlier

Outlier memiliki beberapa pengertian dari beberapa sumber.

Menurut Hawkins (1980), outlier adalah sebuah pengamatan yang

menyimpang begitu banyak dari pengamatan lain untuk

membangkitkan kecurigaan bahwa itu dihasilkan oleh mekanisme

yang berbeda. Menurut Barnet & Lewis (1994), outlier adalah

observasi (atau bagian dari pengamatan) yang tampaknya tidak

konsisten dengan sisa set data. Menurut Moore & McCabe (1999),

outlier adalah pengamatan yang terletak di luar pola keseluruhan

distribusi. Menururt Chen, Tan & Fu (2003), outlier adalah catatan

data yang tidak mengikuti derai dalam aplikasi.

2.2.2. Macam Pendekatan Outlier

Menurut Kriegel et. al. (2010), outlier memiliki beberapa

pendekatan, yaitu Model-based Approaches, Proximity-based

(43)

Pendekatan model-based memiliki beberapa metode, yaitu

statistical test; depth-based approaches yang memiliki contoh

algoritma ISODEPTH (Ruts & Rousseeuw, 1996) dan FDC

(Johnson et al., 1998); dan yang terakhir adalah deviation-based

approaches.

Pendekatan proximity-based juga memiliki beberapa

metode, yaitu Distance-based Approaches yang memiliki contoh

algoritma DB-outliers (Knorr & Ng, 1997), index-based (Knorr &

Ng, 1998), nested-loop based (Knorr & Ng, 1998), dan grid-based

(Knorr & Ng, 1998); Density-based Approaches memiliki contoh

algoritma local outlier factor / LOF (Breunig et al., 1999), (Breunig

et al., 2000), influenced outlierness / INFLO (Jin et al., 2006), dan

local outlier correlation integral / LOCI (Papadimitriou et al.,

2003).

Pendekatan terakhir adalah high-dimensional Approaches

yang memiliki contoh algoritma angle-based Outlier Degree /

ABOD (Kriegel et al., 2008), grid-based subspace outlier detection

(Aggrawal & Yu, 2000), dan subspace outlier degree / SOD

(44)

2.3. INFLUENCED OUTLIERNESS (INFLO)

2.3.1. Deteksi Outlier dengan Algoritma INFLO

Deteksi outlier seringkali lebih menarik daripada deteksi

yang pada umumnya. Hal ini karena outlier mengandung informasi

yang berguna dengan mendasari perilaku abnormal atau berbeda

dari data ataupun informasi lainnya. Pada penelitian ini akan

mendeteksi outlier dengan menggunakan algoritma Influence

Outlierness atau biasa disebut dengan INFLO. Teori ini

dikemukakan oleh Jin et.al. pada tahun 2006.

Algoritma ini mengusulkan deteksi outlier berdasarkan

relasi dari lingkungan simetris karena mengingat sebuah obyek

dalam memperkirakan distribusi kepadatan tetangganya dipengaruhi

oleh suatu tetangga atau dapat disebut dengan nearest neighbors

(NN) dan tetangga sebaliknya atau juga dapat disebut dengan

reverse nearest neighbors (RNN). Hubungan simetris antara NN

dan RNN akan membuat pengukuran outlierness menjadi lebih kuat.

Mendeteksi sebuah obyek apakah merupakan suatu outlier

atau hanya anggota suatu cluster, dilihat dari hasil Influenced

Outlierness (INFLO). Semakin tinggi INFLO, maka kemungkinan

besarnya obyek tersebut adalah outlier. Namun jika INFLO semakin

rendah, maka kemungkinan obyek tersebut hanya merupakan

(45)

1. Menghitung Jarak Menggunakan Euclidean Distance

Tahap ini adalah menghitung jarak (distance) dari suatu obyek p

dan q di suatu database D. Rumus menghitung jarak d(p, q)

dapat dirumuskan sebagai berikut :

,

= √∑

_� _�

−

_�

... (2.1)

Keterangan :

d = jarak antar obyek

pi= obyek “p” ke - i

qi= obyek “q” ke - i

2. Menghitung K-Distance dan Mencari Nearest Neighbors (NN)

Tahap ini adalah mencari tetangga terdekat dari obyek p

sekaligus mencari k-distance yang dinotasikan sebagai d(p,q)

yaitu jarak terbesar dari jarak antara obyek p dengan k tetangga

terdekatnya dalam suatu database D, dengan ketentuan sebagai

berikut :

a. Setidaknya obyek k dalam ′∈ � menyatakan bahwa

, ′ _≤ _, _.

b. Setiap obyek (k – 1) dalam ′∈ � menyatakan bahwa

, ′ _≤ _, _.

c. K-NN dari obyek p adalah sebuah kumpulan obyek X dalam

database D dimana , � ≤ �_�� , atau dapat

(46)

� = {� ∈ � \ { } | , � ≤ � � } ... (2.2)

Keterangan :

NN = tetangga terdekat

k-dist = nilai k-distance dari suatu obyek

3. Mencari Influence Space (IS)

Tahap ini adalah mencari hubungan tetangga simetris dari suatu

obyek. IS merupakan gabungan dari NN (Nearest Neighbors)

dan RNN (Reverse Nearest Neighbors) yang dapat dirumuskan

sebagai berikut :

�

=

�

∪

� ... (2.3)

RNN merupakan inverse dari tetangga suatu obyek yang dapat

juga dicari dengan rumus sebagai berikut :

�

= { | ∈ �, ∈

�

}

... (2.4)

Keterangan :

NN = tetangga terdekat

RNN = reverse dari tetangga terdekat

IS = gabungan NN dan RNN

4. Menghitung Local Density

Tahap ini adalah mencari inverse dari k-distance obyek p, yang

(47)

�

=

_�

� ... (2.5)

Keterangan :

k-dist = nilai k-distance dari suatu obyek

den = nilai density dari suatu obyek

5. Menghitung Influenced Outlierness (INFLO)

Tahap ini adalah menghitung INFLO dari suatu obyek, yang

dapat dirumuskan sebagai berikut :

� ��

�

=

��_�� ... (2.6)

dimana

�

_��

(�

_�

) =

∑ ∈ � � �

| � � | ... (2.7)

Jadi dari rumus 2.6 dan 2.7 jika digabungkan menjadi :

� ��

�

=

∑ _{∈ � �} �

| � � |

� ………. (2.8)

Keterangan :

IS = influence space (jumlah obyek gabungan NN dan RNN)

den = nilai density dari suatu obyek

den-avg = rata-rata nilai density obyek IS dari suatu obyek

(48)

6. Memberikan Kesimpulan

Jika hasil INFLO dari suatu obyek jauh melebihi 1, maka obyek

tersebut termasuk outlier. Namun jika hasil INFLO dari suatu

obyek mendekati 1, maka obyek tersebut hanya merupakan

anggota suatu cluster.

2.3.2. Contoh Deteksi Outlier dengan Algoritma INFLO

Contoh mendeteksi outlier menggunakan algoritma

Influenced Outlierness (INFLO) dalam sebuah himpunan D yang

memiliki 5 obyek, yaitu p1, p2, p3, p4, dan p5. Dari keempat obyek

tersebut ditentukan nilai k (jumlah tetangga) adalah 2.

1. Nilai masing-masing obyek

p1 9,5

p2 8,85 p3 9,35 p4 8,45 p5 7,95

2. Jarak antar obyek

p1 p2 p3 p4 p5

p1 0 8,05823 11,6939 14,9646 17,3998 p2 8,05823 0 8,03197 11,6929 14,9277 p3 11,6939 8,03197 0 8,01639 11,6861 p4 14,9646 11,6929 8,01639 0 7,96571 p5 17,3998 14,9277 11,6861 7,96571 0

(49)

p1 p2 p3 p4 p5 p1 0 p1 8,05823 p1 11,6939 p1 14,9646 p1 17,3998 p2 8,05823 p2 0 p2 8,03197 p2 11,6929 p2 14,9277 p3 11,6939 p3 8,03197 p3 0 p3 8,01639 p3 11,6861 p4 14,9646 p4 11,6929 p4 8,01639 p4 0 p4 7,96571 p5 17,3998 p5 14,9277 p5 11,6861 p5 7,96571 p5 0

Setelah diurutkan :

p1 p2 p3 p4 p5

p1 0 p2 0 p3 0 p4 0 p5 0

p2 8,05823 p3 8,03197 p4 8,01639 p5 7,96571 p4 7,96571 p3 11,6939 p1 8,05823 p2 8,03197 p3 8,01639 p3 11,6861 p4 14,9646 p4 11,6929 p5 11,6861 p2 11,6929 p2 14,9277 p5 17,3998 p5 14,9277 p1 11,6939 p1 14,9646 p1 17,3998

3. Mencari _�

p1 p2 p3 p4 p5

p1 0 p2 0 p3 0 p4 0 p5 0

p2 8,05823 p3 8,03197 p4 8,01639 p5 7,96571 p4 7,96571 p3 11,6939 p1 8,05823 p2 8,03197 p3 8,01639 p3 11,6861 p4 14,9646 p4 11,6929 p5 11,6861 p2 11,6929 p2 14,9277 p5 17,3998 p5 14,9277 p1 11,6939 p1 14,9646 p1 17,3998

� = 2 tetangga terdekat dari masing-masing obyek.

� = {p2, p3}

� = {p3, p1}

� = {p4, p2}

� = {p5, p3}

� = {p4, p3}

(50)

Sebelum mencari � _� , karena � _� = _� ∪ _� ,

terlebih dahulu mencari _� , seperti berikut :

p1 p2 p3 p4 p5

p1 0 p2 0 p3 0 p4 0 p5 0

p2 8,05823 p3 8,03197 p4 8,01639 p5 7,96571 p4 7,96571 p3 11,6939 p1 8,05823 p2 8,03197 p3 8,01639 p3 11,6861 p4 14,9646 p4 11,6929 p5 11,6861 p2 11,6929 p2 14,9277 p5 17,3998 p5 14,9277 p1 11,6939 p1 14,9646 p1 17,3998

� = {p2}

� = {p3, p1}

� = {p4, p2}

� = {p5, p3}

� = {p4}

Lalu hasil Influence Space (IS) menjadi seperti berikut :

p1 p2 p3 p4 p5

p1 0 p2 0 p3 0 p4 0 p5 0

p2 8,05823 p3 8,03197 p4 8,01639 p5 7,96571 p4 7,96571 p3 11,6939 p1 8,05823 p2 8,03197 p3 8,01639 p3 11,6861 p4 14,9646 p4 11,6929 p5 11,6861 p2 11,6929 p2 14,9277 p5 17,3998 p5 14,9277 p1 11,6939 p1 14,9646 p1 17,3998

5. Menghitung k-distance

�� = nilai terbesar (maksimal) dari tetangga terdekat dari

(51)

�� = 11,6939

�� = 8,05823

�� = 8,03197

�� = 8,01639

�� = 11,6861

6. Menghitung Local Density

� = 1 / 11,6939 = 0,08551

� = 1 / 8,05823 = 0,1241

� = 1 / 8,03197 = 0,1245

� = 1 / 8,01639 = 0,12474

� = 1 / 11,6861 = 0,08557

7. Menghitung Influenced Outlierness (INFLO)

� �� =

, + ,

, = 1,45355

� �� =

, + ,

, = 0,84618

� �� =

, + ,

, = 0,99934

� �� =

, + ,

, = 0,84202

� �� =

, + ,

(52)

8. Memberikan Kesimpulan

Hasil INFLO dari masing-masing obyek, terlihat bahwa hasil INFLO

tersebesar adalah milik obyek p1 dan p5 dengan hasilnya

masing-masing 1,45355 dan 1,45636. Maka dari itu, obyek p1 dan p5 yang terdeteksi sebagai outlier. Obyek p1 terdeteksi karena nilainya adalah

9,5 yang dimana nilai tersebut adalah nilai tertinggi dari semua obyek,

sedangkan obyek p5 terdeteksi karena nilainya adalah 7,95 yang dimana

(53)

27

3. BAB III

METODOLOGI PENELITIAN

3.1. SUMBER DATA

Data yang digunakan untuk penelitian berupa file yang memiliki

ekstensi .xls yang diperoleh dari 2 sumber. Sumber yang pertama adalah

Seksi Data dan Teknologi Informasi Dinas Pendidikan, Pemuda, dan Olah

Raga (DIKPORA) Provinsi Daerah Istimewa Yogyakarta (DIY). Lalu

sumber yang kedua adalah dari website e-Reporting Ujian Nasional milik

Pusat Penilaian Pendidikan

http://118.98.234.22/sekretariat/hasilun/index.php/hasilun.

Data sumber merupakan data nilai Ujian Nasional (UN), Nilai

Sekolah (NS), dan Nilai Akhir (NA) dari tahun 2011 – 2014. Pada penelitian

ini hanya untuk SMA jurusan Ilmu Pengetahuan Alam (IPA) dan Ilmu

Pengetahuan Sosial (IPS).

Table 3.1 Tabel Atribut Data

Nama Atribut Keterangan

RANKING Urutan Ranking

NAMA_SEKOLAH Nama Sekolah

JENIS_SEKOLAH Jenis Sekolah (SMA / MA) STATUS_SEKOLAH Status Sekolah (Swasta / Negeri)

Jumlah

PESERTA Jumlah Peserta

L Jumlah Peserta yang Lulus

(54)

3.2. PENGOLAHAN DATA 3.2.1. Data Cleaning

Tahap pertama adalah membersihkan data dari noise seperti

data yang tidak terisi ataupun data yang tidak konsisten. Data yang

ada tidak memiliki noise sehingga tahap ini tidak dilakukan.

3.2.2. Data Integration

Tahap selanjutnya adalah melakukan penggabungan data

dari berbagai macam sumber. Data yang ada juga sudah terdapat

dalam 1 file sehingga tahap ini juga tidak dilakukan.

3.2.3. Data Selection

Tahap selanjutnya adalah seleksi data dari atribut yang tidak

terpakai. Proses seleksi ini dilakukan dengan memilih atribut yang

relevan untuk digunakan dalam penelitian, dan menghapus atribut Mata

Ujian

BIN Nilai Bahasa Indonesia

BING Nilai Bahasa Inggris

MTK Nilai Matematika

FSK / EKO

Nilai Fisika / Nilai Ekonomi KMA /

SOS

Nilai Kimia / Nilai Sosiologi BIO /

GEO

Nilai Biologi / Nilai Geografi

TOTAL Total Nilai

(55)

yang tidak relevan. Atribut yang dapat dilanjutkan untuk penelitian

adalah :

Table 3.2 Tabel Seleksi Atribut

Nama Atribut Keterangan

RANKING Ranking se-DIY

KODE_SEKOLAH Kode Sekolah

BIN Nilai Bahasa Indonesia

BING Nilai Bahasa Inggris

MTK Nilai Matematika

FSK / EKO

Nilai Fisika / Nilai Ekonomi KMA /

SOS

Nilai Kimia / Nilai Sosiologi BIO /

GEO

Nilai Biologi / Nilai Geografi

3.2.4. Data Transformation

Tahap selanjutnya adalah proses transformasi data dengan

melakukan normalisasi perbedaan range. Proses normalisasi

dilakukan dengan menggunakan rumus min-max normalization

seperti berikut :

′

₌

�− � �

��− � �

(�

��

− �

� �

) + �

� �…(3.1)

Keterangan :

v = nilai sebelum ternormalisasi

v’ = nilai setelah ternormalisasi

minA = nilai minimal dari atribut A

(56)

� � � = nilai minimal terbaru dari atribut A

� �� = nilai minimal terbaru dari atribut A

Pada penelitian ini, atribut yang digunakan sudah memiliki

data yang memiliki range yang sama, yaitu 0 – 10, sehingga tahap

ini tidak dilakukan. Berikut adalah data nilai Ujian Nasional

Kabupaten Gunung Kidul tahun 2014 :

Table 3.3 Tabel Data Terseleksi

RK KODE

(57)

3.2.5. Data Mining

Tahap selanjutnya adalah melakukan penambangan data yang

juga terdiri dari beberapa tahapan. Pada proses saat ini digunakan

aplikasi Microsoft Excel.

1. Menghitung Jarak Menggunakan Euclidean Distance

Tahap ini adalah menghitung jarak (distance) dari suatu obyek p

dan q di suatu database D. Rumus menghitung jarak d(p, q)

dirumuskan seperti pada Rumus 2.1, yaitu :

,

= √∑

_� _�

−

_� ... (2.1)

Berikut adalah contoh perhitungan jarak antar obyek BIN,

BING, MTK, FSK, KMA, BIO :

Table 3.4 Tabel Jarak Antar Obyek

3 19 52 59 61 64

3 0 2.230560468 4.923819656 5.772139984 5.990417348 5.931053869

19 2.230560468 0 2.886381818 3.825441151 3.990501222 3.893558783

52 4.923819656 2.886381818 0 1.295685147 1.415521105 1.034021276

59 5.772139984 3.825441151 1.295685147 0 0.59186147 0.860116271

61 5.990417348 3.990501222 1.415521105 0.59186147 0 0.809382481

64 5.931053869 3.893558783 1.034021276 0.860116271 0.809382481 0

73 6.653593014 4.633670252 1.819093181 1.16965807 0.948683298 0.860639297

74 6.598371011 4.471923523 1.806682042 1.497297566 1.243462907 1.056267012

78 6.673424908 4.645277171 1.922082204 1.38477435 1.015824788 1.061602562

86 7.202645347 5.081761506 2.333302381 2.141191257 1.896786757 1.480844354

88 7.227959601 5.117069474 2.374699981 2.270682717 1.99155718 1.570222914

89 7.478322004 5.501772442 2.664939024 2.048780125 1.972916623 1.745307996

97 7.728745047 5.707512593 2.849122672 2.29658442 2.172464039 1.869197689

(58)

104 8.08233877 6.074635792 3.208644574 2.507468843 2.286853734 2.199136194

125 9.21180764 7.193622175 4.326176141 3.676492894 3.496355245 3.330555509

130 9.261414579 7.196596418 4.357751714 3.710606419 3.560210668 3.37372198

139 10.29342994 8.263237864 5.429742167 4.937296831 4.783764208 4.488685776

73 74 78 86 88 89

3 6.653593014 6.598371011 6.673424908 7.202645347 7.227959601 7.478322004

19 4.633670252 4.471923523 4.645277171 5.081761506 5.117069474 5.501772442

52 1.819093181 1.806682042 1.922082204 2.333302381 2.374699981 2.664939024

59 1.16965807 1.497297566 1.38477435 2.141191257 2.270682717 2.048780125

61 0.948683298 1.243462907 1.015824788 1.896786757 1.99155718 1.972916623

64 0.860639297 1.056267012 1.061602562 1.480844354 1.570222914 1.745307996

73 0 0.834026378 0.865621164 1.230772115 1.282770439 1.067426812

74 0.834026378 0 1.078007421 1.09945441 1.071587607 1.471393897

78 0.865621164 1.078007421 0 1.469387628 1.40648498 1.558043645

86 1.230772115 1.09945441 1.469387628 0 0.503487835 1.427094951

88 1.282770439 1.071587607 1.40648498 0.503487835 0 1.374881813

89 1.067426812 1.471393897 1.558043645 1.427094951 1.374881813 0

97 1.369890507 1.73781472 1.723571873 1.068456831 1.282692481 0.999699955

103 1.493619764 1.810938983 1.842118346 1.281288414 1.427795504 0.88391176

104 1.476787053 1.881249585 1.684280262 1.506817839 1.510099334 0.9226592

125 2.673854895 2.973835907 2.911940933 2.289432244 2.358686075 1.946458322

130 2.74457647 2.856588875 2.88925596 2.317433926 2.321723498 1.949179314

139 3.972908255 4.114948359 4.022623522 3.342274675 3.329129015 3.180597428

97 103 104 125 130 139

3 7.728745047 7.968588332 8.08233877 9.21180764 9.261414579 10.29342994

19 5.707512593 5.940824859 6.074635792 7.193622175 7.196596418 8.263237864

52 2.849122672 3.081103698 3.208644574 4.326176141 4.357751714 5.429742167

59 2.29658442 2.437457692 2.507468843 3.676492894 3.710606419 4.937296831

61 2.172464039 2.328282629 2.286853734 3.496355245 3.560210668 4.783764208

64 1.869197689 2.08719908 2.199136194 3.330555509 3.37372198 4.488685776

73 1.369890507 1.493619764 1.476787053 2.673854895 2.74457647 3.972908255

74 1.73781472 1.810938983 1.881249585 2.973835907 2.856588875 4.114948359

78 1.723571873 1.842118346 1.684280262 2.911940933 2.88925596 4.022623522

86 1.068456831 1.281288414 1.506817839 2.289432244 2.317433926 3.342274675

88 1.282692481 1.427795504 1.510099334 2.358686075 2.321723498 3.329129015

89 0.999699955 0.88391176 0.9226592 1.946458322 1.949179314 3.180597428

97 0 0.414125585 0.839464115 1.514958745 1.722411101 2.753870004

103 0.414125585 0 0.68571131 1.319166403 1.397998569 2.576800342

(59)

125 1.514958745 1.319166403 1.289340917 0 0.917932459 1.636734554

130 1.722411101 1.397998569 1.476550033 0.917932459 0 1.509668838

139 2.753870004 2.576800342 2.647319399 1.636734554 1.509668838 0

2. Menghitung K-Distance dan Mencari Nearest Neighbors (NN)

Tahap ini adalah menentukan tetangga terdekat (NN) dengan

asumsi jumlah tetangga terdekat (k) = 7. Caranya adalah dengan

mengurutkan jarak masing-masing obyek ke obyek lainya dari

nilai terkecil ke terbesar, lalu memilih 7 jarak terdekat, yaitu

yang mengandung nilai terkecil. Selanjutnya adalah menghitung

k-distance dari masing-masing obyek tersebut dengan mencari

nilai maksimal dari keseluruhan nilai jarak obyek dengan ke-7

tetangga terdekatnya.

Berikut adalah tetangga terdekat (NN) masing-masing obyek

dengan jarak antar obyeknya :

Table 3.5 Tabel NN dengan Jarak Antar Obyeknya

3 19 52 59

3 ₀ 19 ₀ 52 ₀ 59 ₀

19 _2.230560468 3 _2.230560468 64 _1.034021276 61 _0.59186147

52 _4.923819656 52 _2.886381818 59 _1.295685147 64 _0.860116271

59 _5.772139984 59 _3.825441151 61 _1.415521105 73 _1.16965807

64 _5.931053869 64 _3.893558783 74 _1.806682042 52 _1.295685147

61 _5.990417348 61 _3.990501222 73 _1.819093181 78 _1.38477435

74 _6.598371011 74 _4.471923523 78 _1.922082204 74 _1.497297566

73 _6.653593014 73 _4.633670252 86 _2.333302381 89 _2.048780125

61 64 73 74