DETEKSI SPATIAL OUTLIER
KOTA BOGOR BERDASARKA TEMPAT PEMU GUTA SUARA
DEPARTEME ILMU KOMPUTER FAKULTAS MATEMATIKA DA
I STITUT PERTA IA BOGOR
SPATIAL OUTLIER PADA DATA HASIL PILKADA KOTA BOGOR BERDASARKA
TEMPAT PEMU GUTA SUARA
ADE TRISETYO
DEPARTEME ILMU KOMPUTER
FAKULTAS MATEMATIKA DA ILMU PE GETAHUA ALAM I STITUT PERTA IA BOGOR
BOGOR 2009
PADA DATA HASIL PILKADA
ILMU PE GETAHUA ALAM
DETEKSI SPATIAL OUTLIER PADA DATA HASIL PILKADA KOTA BOGOR BERDASARKA
TEMPAT PEMU GUTA SUARA
ADE TRISETYO
Skripsi
sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada
Departemen Ilmu Komputer
DEPARTEME ILMU KOMPUTER
FAKULTAS MATEMATIKA DA ILMU PE GETAHUA ALAM I STITUT PERTA IA BOGOR
BOGOR
2009
ABSTRACT
ADE TRISETYO. Spatial Outlier Detection On Bogor City Regional Election Data Based On Polling Center. Under the direction of HARI AGUNG ADRIANTO.
Spatial outlier is a local instability (in values of non-spatial attributes) or a spatially referenced object whose non-spatial attributes are significantly different from the object surrounding it, even though the attributes may not significantly different from the entire population. Detecting spatial outlier is very useful in the application of geographic information system as well as in the spatial data base. This research focuses on the spatial outlier on Bogor City Regional Election Data in the 2008 election. Before starting the spatial outlier detection, the spatial outlier model was done visually by using an equal interval and natural breaks methods. This research uses the iterative ratio and iterative z-value algorithm. Both algorithms uses an iterative process. With this iterative process done by both algorithm, the falsity of a spatial outlier detection can be minimized. One example algorithm that potentially make a false detection is Moran scatterplot. For each iteration, there will be one detected spatial outlier. To determine a spatial outlier, a comparison function is used. On iterative ratio algorithm, a comparison function used is ratio function. On iterative z-value algorithm, a comparison function used is the gap function which is later normalized. A polling center’s data is said to be a spatial outlier if its value out of a comparison function exceeds the threshold. Threshold used in this research is 3, it means that number of spatial outlier detected is 2% - 5% from total data. Based on the research done, the result being detected as the spatial outlier use in iterative ratio and iterative z-value algorithm owns the difference in the detection amount. Iterative ratio and iterative z-value algorithm can also reduce a false detection which is done by Moran scatterplot.
Keywords : spatial outlier, iterative z-value algorithm, iterative ratio algorithm.
i Judul : Deteksi Spatial Outlier pada Data Pilkada Kota Bogor Berdasarkan Tempat Pemungutan
Suara Nama : Ade Trisetyo NRP : G64051366
Menyetujui:
Pembimbing,
Hari Agung Adrianto S.Kom, M.Si.
NIP 197609172005011001
Mengetahui :
Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Dr. drh. Hasim, DEA NIP 196103281986011002
Tanggal Lulus:
KATA PE GA TAR
Puji Syukur penulis panjatkan kepada Allah SWT atas segala rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan tugas akhir sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer di FMIPA, IPB.
Terima kasih penulis ucapkan kepada semua pihak yang telah membantu penyelesaian tugas akhir ini, antara lain kepada Bapak M. Syamsul Maarif dan Ibu Eka Budi Rahayu selaku kedua orang tua penulis, dan kepada Fauzia Agustina Maarif dan Imam Fitrianto selaku kakak penulis yang selalu memberikan motivasi, semangat, moril, materil, serta kasih sayang yang telah diberikan. Ucapan terima kasih dan penghargaan yang setinggi-tingginya kepada Bapak Hari Agung, S.Kom, M.Si selaku pembimbing atas dukungan, bimbingan, serta perhatiannya kepada penulis selama penelitian berlangsung. Tidak lupa kepada semua dosen pengajar yang telah mendidik, membina, serta mengajar penulis selama menjadi mahasiswi Departemen Ilmu Komputer. Ucapan terima kasih juga penulis ucapkan kepada Lena, Mirna, Medria, Ijun, Indra, Huda, Dony, Ovie, Nila, dan seluruh rekan Ilkomerz 42 atas kebersamaan serta pengalaman yang tak terlupakan.
Penulis menyadari bahwa pelaksanaan penelitian ini masih jauh dari kesempurnaan, namun besar harapan penulis bahwa apa yang telah dikerjakan dapat memberikan manfaat bagi seluruh pihak.
Bogor, Juni 2009
Ade Trisetyo
iii RIWAYAT HIDUP
Penulis dilahirkan di Bogor pada tanggal 10 September 1987 sebagai anak ke tiga dari Bapak M.
Syamsul Maarif dan Ibu Eka Budi Rahayu. Pada tahun 2002 penulis menempuh pendidikan di SMA Negeri 5 Bogor hingga tahun 2005. Pada tahun yang sama penulis diterima sebagai mahasiswi Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Penulis tercatat sebagai finalis dalam Pagelaran Mahasiswa Teknologi Informasi Komunikasi (GEMASTIK) tahun 2008 di bidang Data Mining. Pada tanggal 7 Juli 2008 penulis melaksanakan Praktik Kerja Lapangan di Direktorat Jenderal Kelautan Pesisir dan Pulau-pulau Kecil Departemen Kelautan Perikanan sampai dengan tanggal 25 Agustus 2008.
DAFTAR ISI
Halaman
DAFTAR TABEL ... v
DAFTAR GAMBAR ... v
DAFTAR LAMPIRAN ... v
PENDAHULUAN Latar Belakang ... 1
Tujuan ... 1
Ruang Lingkup ... 1
Manfaat ... 1
TINJAUAN PUSTAKA Praproses Data ... 1
Data Mining ... 2
Spatial Data Mining ... 2
Spatial Outlier Detection ... 2
K- earest eighbor ... 3
Algoritme Iterative Ratio ... 3
Algoritme Iterative Z-value ... 4
METODE PENELITIAN Pengadaan Data ... 5
Praproses Data ... 5
Penggabungan Data ... 5
Pendugaan Spatial Outlier ... 5
Load ke Matlab ... 6
Membentuk k-NN list ... 6
Analisis Spatial Outlier ... 6
Visualisasi ... 6
HASIL DAN PEMBAHASAN Pengadaan Data ... 6
Praproses ... 6
Penggabungan Data ... 7
Pendugaan Spatial Outlier ... 7
Load ke Matlab ... 9
Membentuk K- earest eighbor List ... 9
Algoritme Iterative Ratio ... 10
Algoritme Iterative Z-value ... 11
Visualisasi ... 11
KESIMPULAN DAN SARAN Kesimpulan ... 12
Saran ... 12
DAFTAR PUSTAKA ... 12
LAMPIRAN ... 13
v DAFTAR TABEL
Halaman
1 K-NN list ... 6
2 Representasi titik spasial ... 7
3 Kandidat Pasangan Walikota dan Wakilnya ... 7
4 Pembagian kelas persentase dengan Equal Interval ... 7
5 Persentase hasil Pilkada ... 8
6 Pembagian kelas persentase dengan atural Breaks ... 8
7 Persentase hasil Pilkada ... 9
8 Matriks jarak antar titik ... 9
9 Threshold untuk setiap kandidat pada algoritme Iterative Ratio ...10
DAFTAR GAMBAR Halaman 1 Bentuk praproses data (Han dan Kamber 2006). ... 1
2 Proses knowledge discovery in databases. ... 2
3 Global outlier (G) dan spatial outlier (S) (Lu et al. 2003). ... 2
4 Struktur Moran Scatterplot. ... 3
5 Kesalahan deteksi spatial outlier pada Moran Scatterplot. ... 3
6 Kesalahan deteksi spatial outlier pada Moran Scatterplot. ... 4
7 Ilustrasi perhitungan set k(xi), g(xi), dan h(xi). ... 4
8 Tahap penelitian. ... 5
9 Global dan spatial outlier. ... 7
10 Pembagian kelas persentase untuk kandidat D dengan Equal Interval . ... 8
11 Spatial outlier dengan Equal Interval . ... 8
12 Spatial outlier dalam bentuk scatterplot. ... 8
13 Pembagian kelas persentase untuk kandidat D dengan atural Breaks. ... 8
14 Spatial outlier dengan atural Breaks . ... 9
15 Spatial outlier dalam bentuk scatterplot ... 9
16 Struktur variabel S ... 9
17 Penentuan threshold ...10
18 Visualisasi hasil deteksi spatial outlier ...11
DAFTAR LAMPIRA Halaman 1 Pembagian Kelompok dengan Equal Interval...13
2 Visualisasi Equal Interval dalam Peta ...15
3 Pembagian Kelas dengan atural Breaks ...16
4 Visualisasi atural Breaks dalam Peta ...17
5 Hasil Perhitungan k- earest eighbor List ( k(xi)) ...18
6 Hasil Perhitungan Fungsi Perbandingan h(xi) Algoritme Iterative Ratio ...21
7 Histogram nilai z dari fungsi h(xi) ...28
8 Hasil Deteksi Spatial Outlier dengan Algoritme Iterative Ratio ...29
9 Hasil Perhitungan Fungsi Normalisasi y(xi) Algoritme Iterative Z-value ...30
10 Hasil Deteksi Spatial Outlier dengan Algoritme Iterative Z-value ...35
11 Visualisasi Algoritme Iterative Ratio dan Iterative Z-value ...36
PE DAHULUA
Latar Belakang
Pemilihan Kepala Daerah dan Wakil Kepala Daerah, atau seringkali disebut Pilkada, adalah pemilihan umum untuk memilih Kepala Daerah dan Wakil Kepala Daerah secara langsung di Indonesia oleh penduduk daerah setempat yang memenuhi syarat. Pilkada dilaksanakan setiap lima tahun sekali. Pilkada Kota Bogor dilaksanakan pada tanggal 25 Oktober 2008.
Hasil Pilkada Kota Bogor merupakan akumulasi dari hasil perhitungan suara di setiap Tempat Pemungutan Suara (TPS). Data hasil pemilihan tersebut dikumpulkan oleh Komisi Pemilihan Umum Daerah Kota Bogor.
Salah satu bentuk analisis yang dapat diterapkan pada data hasil Pilkada adalah deteksi pencilan (outlier detection). Pada umumnya, TPS yang jaraknya berdekatan memiliki hasil pemenang pemungutan suara yang relatif sama. Data hasil Pilkada Kota Bogor hanya memiliki atribut non-spasial, sehingga hanya akan terdeteksi global outlier.
Jika data tersebut digabung dengan data spasial Kota Bogor, spatial outlier dapat terdeteksi.
Spatial outlier adalah objek yang tereferensi secara spasial di mana nilai atribut non-spasial secara signifikan berbeda dari objek yang tereferensi secara spasial di sekitarnya.
Proses analisis data yang besar dapat menggunakan teknik data mining. Secara khusus, jika data yang dianalisis merupakan data spasial maka teknik tersebut disebut spatial data mining. Salah satu teknik dalam spatial data mining adalah spatial outlier detection.
Dalam teknik spatial outlier detection, terdapat beberapa algoritme. Namun beberapa di antaranya memiliki kelemahan yaitu masih mengandung kesalahan dalam mendeteksi spatial outlier yang sebenarnya. Penggunaan algoritme Iterative Ratio dan Iterative Z-value dianggap dapat mengurangi kesalahan deteksi.
Penelitian ini akan mengimplementasikan kedua algoritme tersebut untuk mendeteksi spatial outlier pada data hasil Pilkada Kota Bogor.
Tujuan
Penelitian ini bertujuan untuk mendeteksi data TPS di Kecamatan Bogor Tengah Kota Bogor yang menjadi spatial outlier dengan menggunakan algoritme Iterative Ratio dan Iterative Z-value.
Ruang Lingkup
Penelitian ini menggunakan data sekunder hasil Pilkada Kota Bogor tahun 2008 yang berasal dari Komisi Pemilihan Umum Daerah (KPUD) Bogor daerah Kecamatan Bogor Tengah.
Manfaat
Penelitian ini diharapkan dapat mengungkap data pada TPS mana yang menjadi spatial outlier. Dengan demikian, hasil tersebut dapat dijadikan bahan untuk analisis lanjutan agar dapat memahami proses politik yang terjadi.
TI JAUA PUSTAKA Praproses Data
Data yang tersimpan dalam suatu basis data seringkali tidak sempurna, mengandung noise (data error), atau tidak konsisten. Oleh karena itu, perlu dilakukan praproses data agar dapat meningkatkan kualitas data yang pada akhirnya akan meningkatkan akurasi dan efisiensi data tersebut. Kualitas data akan menentukan kualitas keputusan (Han & Kamber 2006).
Tahap dari praproses dapat dilihat pada Gambar 1 yang terdiri atas :
Gambar 1 Bentuk praproses data (Han &
Kamber 2006).
1 Pembersihan data
Permasalahan data kotor dan cara membersihkannya :
• Nilai yang kosong
Untuk mengatasi nilai yang kosong (missing values) dalam data dapat dilakukan dengan penghapusan tuple, mengisi dengan konstanta global
Data cleaning
Data integration
Data transformation Data reduction
seperti ‘tidak tahu’ atau ‘ menggunakan nilai rata
atribut yang kosong, meng
nilai rata-rata dari kelas yang sama, atau mengisi dengan nilai mungkin dengan menggunakan metode regresi, induksi pohon keputusan (decision tree), dan lain sebagainya.
• Nilai mengandung noise
Data dengan nilai yang mengandung noise dapat diganti dengan nilai hasil perhitungan dengan metode
metode regresi, atau dengan cara clustering.
• Data tidak konsisten
Data tidak konsisten diperbaiki menggunakan referensi eksternal.
2 Integrasi data
Integrasi data adalah proses
data dari berbagai sumber penyimpanan data.
3 Transformasi data
Transformasi data akan mengubah data ke dalam bentuk yang sesuai untuk proses mining. Transformasi data mencakup smoothing, agregasi, generalisasi, normalisasi, atau konstruksi atribut.
4 Reduksi data
Teknik reduksi data seperti agregasi data, reduksi dimensi, kompresi data, discretization dapat digunakan untuk mereduksi representasi data dengan meminimalkan informasi yang hilang.
Data Mining
Data mining adalah sebuah proses pencarian secara otomatis informasi yang berguna dalam tempat penyimpanan data berukuran besar (Tan et al. 2005). Istilah lain yang sering digunakan diantaranya knowledge discovery (mining) in databases (KDD), knowledge extraction data/pattern analysis, data archeology, data dredging, information harvesting,
intelligence. Teknik data mining
untuk memeriksa basis data berukuran besar sebagai cara untuk menemukan pola yang baru dan berguna. Data mining
integral dari KDD. Keseluruhan proses KDD untuk konversi raw data ke dalam info yang berguna ditunjukkan dalam Gambar 2.
seperti ‘tidak tahu’ atau ‘∞’, menggunakan nilai rata-rata dari nilai mengisi dengan rata dari kelas yang sama, isi dengan nilai yang mungkin dengan menggunakan metode regresi, induksi pohon keputusan
dan lain sebagainya.
noise
Data dengan nilai yang mengandung dapat diganti dengan nilai hasil perhitungan dengan metode binning, i, atau dengan cara
Data tidak konsisten diperbaiki dengan menggunakan referensi eksternal.
proses penggabungan data dari berbagai sumber penyimpanan
Transformasi data akan mengubah data ke untuk proses data masi data mencakup , agregasi, generalisasi,
konstruksi atribut.
Teknik reduksi data seperti agregasi kubus , reduksi dimensi, kompresi data, atau dapat digunakan untuk mereduksi representasi data dengan meminimalkan informasi yang hilang.
adalah sebuah proses pencarian secara otomatis informasi yang berguna dalam nyimpanan data berukuran besar (Tan 2005). Istilah lain yang sering digunakan knowledge discovery (mining) in knowledge extraction, data archeology, data dredging, information harvesting, dan business data mining digunakan untuk memeriksa basis data berukuran besar sebagai cara untuk menemukan pola yang baru adalah bagian integral dari KDD. Keseluruhan proses KDD ke dalam informasi yang berguna ditunjukkan dalam Gambar 2.
Gambar 2 Proses knowledge discovery in databases.
Spatial Data Mining
Spatial data mining mengacu pada ekstraksi pengetahuan, hubungan spasial, atau pola menarik lainnya yang tidak secara eksplisit tersimpan pada basis data spasial (Shekhar 2003). Tantangan terbesar pada
mining adalah proses eksplorasi. Mengekstraksi pola yang menarik dan berguna dari kumpulan data spasial lebih sulit dibandingkan dengan mengekstraksi pola yang berhubungan dengan data kategorik. Hal ini disebabkan oleh kompleksitas dari tipe data spasial, hubungan spasial, dan otokorelasi spasial.
Spatial Outlier Detection
Outlier secara informal didefinisikan sebagai suatu pengamatan pada kumpulan data di mana muncul ketidakkonsistenan suatu data dengan data yang lainnya pada kumpulan data yang sama, atau yang terdeviasi terlalu banyak dari pengamatan yang lain dengan mekanisme yang berbeda (Tan et al. 2005
informal, spatial outlier merupakan objek yang tereferensi secara spasial di mana atribut non spasialnya relatif sangat berbeda dengan lingkungannya (Shekhar et al. 2003).
outlier merupakan objek yang nilainya berbeda secara signifikan dengan seluruh nilai yang ada.
Ilustrasi dari global outlier outlier terlihat pada Gambar 3. Pe
spatial outlier sangat berguna dalam aplikasi sistem informasi geografis dan basis data spasial.
Gambar 3 Global outlier (G) dan spatial outlier (S) (Lu et al. 2003).
2 knowledge discovery in
mengacu pada ekstraksi pengetahuan, hubungan spasial, atau pola menarik lainnya yang tidak secara eksplisit tersimpan pada basis data spasial (Shekhar et al.
2003). Tantangan terbesar pada spatial data adalah proses eksplorasi. Mengekstraksi yang menarik dan berguna dari kumpulan data spasial lebih sulit dibandingkan dengan mengekstraksi pola yang berhubungan dengan data kategorik. Hal ini disebabkan oleh kompleksitas dari tipe data spasial, hubungan
secara informal didefinisikan pada kumpulan data di mana muncul ketidakkonsistenan suatu data dengan data yang lainnya pada kumpulan data yang sama, atau yang terdeviasi terlalu banyak lain dengan mekanisme . 2005). Secara merupakan objek yang tereferensi secara spasial di mana atribut non- spasialnya relatif sangat berbeda dengan
2003). Global an objek yang nilainya berbeda secara signifikan dengan seluruh nilai yang ada.
dan spatial Pendeteksian sangat berguna dalam aplikasi sistem informasi geografis dan basis data
spatial outlier
Sekumpulan data spasial dapat dimodelkan sebagai kumpulan objek yang tereferensi secara spasial. Objek spasial memiliki dua kategori dimensi yang berbeda sesuai dengan atribut mana yang akan diukur. Kategori tersebut terdiri atas :
1 Atribut spasial dari objek yang tereferensi secara spasial seperti lokasi, bentuk, dan geometrik atau topologi lainnya.
2 Atribut non-spasial dari objek yang tereferensi secara spasial seperti traffic- sensor-identifiers, umur, dan pemilik.
K-earest eighbor
earest eighbor merupakan teknik klasifikasi yang berdasarkan kedekatan objek.
Kedekatan disini didefinisikan dengan ukuran jarak misalnya Euclidean. Jarak Euclidean antar dua titik, misal Titik1=(x1, y1) dan Titik2=(x2, y2) adalah (Han & Kamber 2006) :
DistTitik1,Titik2=(x1-x2)2+(y1-y2)2 K- earest eighbor (k-NN) akan mengklasifikasikan data terhadap k labeled data terdekat. Algoritme untuk k- earest eighbor adalah :
1 Menentukan nilai k.
2 Menghitung jarak antar setiap titik.
3 Mengelompokkan dengan k titik terdekat untuk setiap titik.
Algoritme Iterative Ratio
Tantangan yang perlu diperhatikan dalam pendeteksian spatial outlier adalah meminimalkan kesalahan deteksi. Kesalahan terjadi jika spatial outlier yang sebenarnya akan diabaikan, sedangkan spatial outlier yang bukan sebenarnya akan teridentifikasi atau sebaliknya. Salah satu contoh algoritme yang berpotensi melakukan kesalahan deteksi adalah Moran Scatterplot.
Moran Scatterplot merupakan plot antara nilai atribut yang telah dinormalisasi (sumbu x) dengan nilai rataan tetangga atribut yang telah dinormalisasi (sumbu y) (Luc 1995). Moran Scatterplot memiliki empat kuadran. Jika objek berada pada kuadran low outlier dan high outlier, maka objek tersebut merupakan spatial outlier. Low outlier adalah objek yang nilainya rendah diantara objek yang nilainya tinggi.
High outlier adalah objek yang nilainya tinggi diantara objek yang nilainya rendah. Jika objek berada pada kuadran cluster, maka objek tersebut bukan spatial outlier karena nilai dari
objek tersebut tidak berbeda dengan objek tetangganya. Hal ini ditunjukkan oleh Gambar 4.
Gambar 4 Struktur Moran Scatterplot.
Kesalahan deteksi spatial outlier yang dilakukan Moran Scatterplot diperlihatkan pada Gambar 5 dan 6. Pada Gambar 5(a) dan Gambar 6(a), titik dibagi menjadi tiga kelas yaitu kelas sedikit, sedang, dan banyak. Ketiga kelas ini direpresentasikan dengan warna berbeda.
Warna hijau merepresentasikan kelas sedikit, warna kuning merepresentasikan kelas sedang, dan warna merah merepresentasikan kelas banyak.
Titik dengan ID_OBJ=81 merupakan spatial outlier. Pada Gambar 5(a) terlihat bahwa kelas titik tersebut berbeda dengan kelas titik di sekitarnya di mana kelas titik di sekitarnya adalah kelas sedikit dan sedang. Dengan menggunakan Morran Scatterplot, titik tersebut tidak terdeteksi sebagai spatial outlier karena titik berada pada kuadran cluster.
(a) Spatial outlier
(b) Moran Scatterplot Gambar 5 Kesalahan deteksi spatial outlier
pada Moran Scatterplot.
Spatial Outlier dengan ID_OBJ=81
4 Moran Scatterplot juga melakukan
kesalahan dengan mendeteksi suatu titik sebagai spatial outlier, tetapi titik tersebut bukan merupakan spatial outlier. Pada Gambar 6(a), titik dengan ID_OBJ=136 bukan spatial outlier karena tetangga dari titik tersebut kelasnya sama yaitu kelas sedikit (warna hijau). Dengan Moran Scatterplot, titik tersebut dianggap sebagai spatial outlier karena berada pada kuadran high outlier.
(a) Spatial outlier
(b) Morran Scatterplot Gambar 6 Kesalahan deteksi spatial outlier
pada Moran Scatterplot.
Beberapa variabel yang digunakan dalam algoritme Iterative Ratio dan Iterative Z-value adalah:
• xi adalah titik spasial.
• k(xi) adalah k nearest neighbors terhadap titik x.
• f(x) adalah fungsi yang merepresentasikan nilai atribut dari xi.
• g(x) adalah fungsi yang memetakan X (data set spasial) ke R (bilangan real). Fungsi ini diimplementasikan dengan fungsi rataan.
• h(x) adalah fungsi yang digunakan untuk membandingkan g dan f.
Algoritme Iterative Ratio adalah sebagai berikut (Lu et al. 2003):
1 Untuk setiap titik spasial xi, dihitung k nearest neighbors set k(xi) dan fungsi neighborhood g(xi)
g(xi)1
k f(x)
xϵ k(xi)
Dihitung juga fungsi hi = h(xi) = f(xi)/g(xi).
Gambar 7 memperlihatkan ilustrasi dari perhitungan set k(xi), g(xi), dan h(xi).
Gambar 7 Ilustrasi perhitungan set k(xi), g(xi), dan h(xi).
2 Misal hq menunjukkan nilai maksimum dari h1, h2,…, hn Dengan batas θ yang telah diketahui, jika hq ≥ θ, maka xq ditentukan sebagai spatial outlier (S-outlier).
3 Nilai f(xq) diperbaharui sebagai g(xq).
Untuk setiap titik spasial xi di mana k(xi) mengandung xq, nilai g(xi) dan hi
diperbaharui.
4 Langkah 2, 3, dan 4 diulangi sampai nilai hi tidak melebihi batas θ atau sampai total jumlah S-outlier sebesar m.
Algoritme Iterative Z-value
Algoritme Iterative Z-value adalah sebagai berikut (Lu et al. 2003):
1 Untuk setiap titik spasial xi, dihitung k nearest neighbors set k(xi), fungsi neighborhood g(xi).
g(xi)1
k f(x)
xϵ k(xi)
Dihitung juga fungsi hi=h(xi) = f(xi) – g(xi).
2 Misal µ dan σ menunjukkan rataan sampel dan standar deviasi sampel dari suatu data set {h1, h2,….,hn}. Selanjutnya, dihitung nilai absolut yi untuk i = 1, 2,….,n.
yi= hi- µ σ
Misal yq adalah nilai maksimum dari y1,y2,…,yn. Dengan batas θ yang telah ID_OBJ=136
Z-Score Attribute of values
W Z-Score Attribute of values
cluster High outlier
ID_OBJ=136
cluster Low outlier
,
diketahui, jika yq ≥ θ, maka xq ditentukan S-outlier.
3 Nilai f(xq) diperbaharui sebagai g(xq).
Untuk setiap titik spasial xi di mana k(xi) mengandung xq, nilai g(xi) dan hi
diperbaharui.
4 Nilai µ dan σ dihitung kembali pada data set {h1, h2, …, hn}. Untuk i = 1,2,…,n, nilai
diperbaharui.
5 Langkah 2, 3, dan 4 diulangi sampai nilai yi
tidak melebihi batas θ atau sampai total jumlah S-outlier sebesar m.
Pada algoritme Iterative Ratio dan Iterative Z-value, jika S-outlier terdeteksi, maka koreksi akan dilakukan dengan segera. Koreksi yang dilakukan adalah dengan mengganti nilai atribut S-outlier dengan nilai rataan atribut di sekitarnya. Dengan adanya koreksi ini dapat mencegah titik normal yang berada dekat dengan spatial outlier terdeteksi sebagai spatial outlier.
METODE PE ELITIA Penelitian ini dilakukan dalam beberapa tahap seperti yang digambarkan pada Gambar 8 yaitu pengadaan data, praproses data, penggabungan data, membentuk k-NN list, analisis spatial outlier dengan algoritme Iterative Ratio dan Iterative Z-value, dan visualisasi.
Pengadaan Data
Data hasil Pilkada Kota Bogor pada tahun 2008 diperoleh dari KPUD Kota Bogor. Karena penelitian ini difokuskan pada kecamatan Bogor Tengah, maka pengadaan data dilanjutkan dengan meminta data pada Panitia Pemungutan Suara (PPS) Bogor Tengah. Data tersebut merupakan data yang memiliki atribut non- spasial. Data yang juga diperlukan adalah data spasial Kota Bogor.
Praproses Data
Praproses dilakukan untuk data hasil Pilkada dan peta. Beberapa tahapan yang dilakukan dalam tahap praproses, di antaranya:
• Pembersihan data
• Transformasi data
Praproses data dilakukan untuk meningkatkan kualitas data yang dianalisis.
Dengan peningkatan kualitas data maka kualitas hasil keputusan juga akan lebih baik.
Penggabungan Data
Proses spatial data mining memerlukan data spasial dan non-spasial. Oleh karena itu, untuk proses selanjutnya data spasial dan non-spasial digabungkan.
Gambar 8 Tahap penelitian.
Pendugaan Spatial Outlier
Pada langkah ini, akan diduga data pada TPS mana yang menjadi spatial outlier.
Pendugaan dilakukan dengan melihat pola sebaran dari kelas persentase. Ada dua metode yang digunakan yaitu Equal Interval dan atural Breaks.
Equal interval merupakan proses pembagian nilai menjadi beberapa kelas dengan interval yang sama untuk setiap kelas. atural Breaks merupakan proses pembagian nilai ke dalam beberapa kelas dengan menggunakan algoritme Jenk’s Optimization. Algoritme Jenk’s Optimization adalah sebagai berikut (Slocum 2004) :
6 1 Memilih atribut yang akan diklasifikasikan
ke dalam k kelas, misal atribut yang dipilih adalah atribut x.
2 Sekumpulan k-1 nilai dibangkitkan secara acak dalam selang [min{x}, max{x}].
Selang ini digunakan sebagai batas kelas.
3 Nilai rataan dan sum squared deviation untuk setiap kelas dihitung, kemudian dihitung pula total sum squared deviation (TSSD).
4 Masing-masing nilai dalam setiap kelas secara sistematik ditempatkan pada kelas yang berdekatan dan batas kelas ditentukan kembali. Nilai TSSD dihitung kembali.
Langkah 4 diulang sampai nilai TSSD di bawah threshold.
Load ke Matlab
Data hasil penggabungan selanjutnya diolah menggunakan Mapping Toolbox dalam MATLAB 7.0.1.
Membentuk k- list
K-NN list dibentuk untuk memudahkan proses analisis spatial outlier dengan Algoritme Iterative Ratio dan Iterative Z-value. Dalam membentuk k-NN list, terlebih dahulu ditentukan nilai k. List ini berisi k-NN dari setiap titik yang dibentuk dalam bentuk tabel.
Ilustrasi k-NN list diperlihatkan pada Tabel 1.
Tabel 1 K-NN list
TPS k=1 k=2 k=3 k=4 k=5 k=6 1 2 18 3 21 22 17
2 3 1 18 9 4 21
3 2 1 4 18 17 21
4 17 5 3 19 6 1
5 6 4 17 7 19 20
Analisis Spatial Outlier
Setelah k-NN list dibentuk, langkah selanjutnya adalah proses analisis. Pada proses analisis diperlukan parameter threshold. Proses analisis menggunakan algoritme Iterative Ratio dan Iterative Z-value.
Visualisasi
Visualisasi berguna untuk memudahkan dalam merepresentasikan hasil analisis.
Visualisasi diimplementasikan dalam bentuk peta. Jika masih berbentuk data, proses
pengambilan keputusan cukup sulit sehingga diperlukan visualisasi dari hasil analisis. Setelah proses analisis, akan didapat titik yang merupakan spatial outlier. Titik yang menjadi spatial outlier akan diberi tanda dengan warna yang berbeda dari titik yang bukan merupakan spatial outlier.
HASIL DA PEMBAHASA Pengadaan Data
Pada penelitian ini, data yang tersedia adalah sebagai berikut:
1 Data hasil Pilkada Bogor Tengah 2008 (data non spasial)
Kecamatan Bogor Tengah memiliki sebanyak 189 TPS. Pada PILKADA 2008, terdapat 5 kandidat pasangan walikota dan wakilnya.
2 Peta (data spasial)
Peta yang tersedia yaitu peta Kota Bogor 1996.
Praproses
Hasil dari praproses data adalah sebagai berikut :
1 Pembersihan data
Banyaknya TPS yang terdapat pada peta lokasi TPS berbeda dengan banyaknya TPS pada data hasil Pilkada. Jumlah TPS yang digunakan pada penelitian ini adalah jumlah TPS yang terdapat pada data hasil Pilkada, sehingga dilakukan penghapusan pada beberapa titik TPS di peta lokasi.
2 Transformasi data
Untuk kebutuhan perhitungan average- neighbor, dilakukan pengubahan format data dan konstruksi atribut. Jumlah hasil Pilkada diubah ke dalam bentuk persentase di mana jumlah pemilih kandidat dibagi dengan total jumlah pemilih di kelurahan tersebut.
Konstruksi atribut dilakukan dengan menambah atribut ID_TPS dan ID_OBJ.
ID_TPS merupakan identitas TPS setiap kelurahan yang mengandung informasi tentang kelurahan TPS dan nomor TPS.
ID_OBJ merupakan penomoran untuk seluruh TPS. Titik spasial akan direpresentasikan dengan angka mulai dari 1 sampai 189 (sesuai jumlah titik spasial).
Penomoran berdasarkan urutan kelurahan
yang dimulai dari kelurahan Babakan hingga Babakan Pasar dan dimulai dengan koordinat x dari kanan ke kiri. Representasi fungsi ini diperlihatkan oleh Tabel 2.
Tabel 2 Representasi titik spasial TPS
Kelurahan Koordinat
x
Koordinat y
700010 9271060 B14 699968 9271130 B05 699913 9271076 B15
… … …
699589 9269404 BP12 699348 9269355 BP20
Penambahan kedua atribut ini dilakukan untuk memudahkan identifikasi
outlier. Konstruksi juga dilakukan dengan memisahkan data untuk setiap
Terdapat lima kandidat yang masing masing diberi simbol A, B, C, D, dan E seperti yang terlihat pada Tabel 3.
Tabel 3 Kandidat Pasangan Walikota dan Wakilnya
Simbol Nama
A H. Syafei Bratasendjada Drs H. Akik Darul Tahkik B
Ki Gendeng Pamungkas KH. Drs Ahmad Chusairi,MM,
MA.
C Dra. Iis Supriatini, M.Pd. dan dr.H. Ahani Sp.PD D H. Dody Rosadi, M.Eng
H. Erik Irawan Suganda, MA.
E Drs. H. Diani Budiarto, M.Si.
Drh. Achmad Ru’yat, M.Si Penggabungan Data
Data spasial dan non-spasial yang telah dipraproses digabungkan. Hal yang dilakukan adalah dengan menambahkan atribut dari data non-spasial ke data spasial.
Pendugaan Spatial Outlier
Outlier dapat dideteksi secara global atau secara spasial. Secara global,
ditemukan karena hanya memerlukan informasi nilainya saja seperti yang terlihat pada Gambar 9. Outlier akan memiliki nilai yang berbeda yang dimulai dari kelurahan Babakan ingga Babakan Pasar dan dimulai dengan koordinat x dari kanan ke kiri. Representasi fungsi ini diperlihatkan oleh Tabel 2.
Representasi titik spasial TPS
Kelurahan ID_OBJ
1 2 3
…
BP12 188
BP20 189
Penambahan kedua atribut ini dilakukan untuk memudahkan identifikasi spatial . Konstruksi juga dilakukan dengan memisahkan data untuk setiap kandidat.
Terdapat lima kandidat yang masing- masing diberi simbol A, B, C, D, dan E seperti yang terlihat pada Tabel 3.
Kandidat Pasangan Walikota dan
H. Syafei Bratasendjada Drs H. Akik Darul Tahkik
Ki Gendeng Pamungkas KH. Drs Ahmad Chusairi,MM,
Dra. Iis Supriatini, M.Pd. dan dr.H. Ahani Sp.PD H. Dody Rosadi, M.Eng H. Erik Irawan Suganda, MA.
Drs. H. Diani Budiarto, M.Si.
Drh. Achmad Ru’yat, M.Si
spasial yang telah dipraproses digabungkan. Hal yang dilakukan adalah dengan menambahkan atribut dari data
dapat dideteksi secara global atau secara spasial. Secara global, outlier mudah temukan karena hanya memerlukan informasi nilainya saja seperti yang terlihat pada Gambar akan memiliki nilai yang berbeda
secara signifikan dengan seluruh nilai yang ada.
Pada spatial outlier, informasi yang diperlukan tidak hanya nilai saja, tetapi diperlukan juga atribut spasialnya.
Gambar 9 Global dan spatial outlier Langkah awal sebelum menduga
outlier adalah membagi data menjadi 3 kelas (sedikit, sedang, banyak) dengan metode Interval dan atural breaks. Setiap kelas diberi warna yang berbeda kemudian divisualisasikan.
Titik hijau, kuning, dan merah masing merepresentasikan persentase sedikit dan banyak.
Penjelasan proses pembagian data adalah sebagai berikut:
1 Equal interval
Hasil pembagian kelas untuk TPS disajikan pada Tabel
pembagian kelas dalam bentuk histogram untuk TPS D diperlihatkan pada Gambar 10, sedangkan untuk TPS yang lain dapat dilihat pada Lampiran 1. Dengan hasil visualisasi menggunakan Equal
dapat diduga TPS mana yang menjadi spatial outlier dengan melihat warna yang berbeda dari warna di sekitarnya. Contoh ini diperlihatkan pada Gambar 11 yang mengambil daerah kelurahan Babakan.
Untuk hasil visualisasi selengkapnya, dapat dilihat pada Lampiran 2. Dari Gambar 11 dapat dilihat bahwa titik merah diduga sebagai spatial outlier karena kelasnya berbeda dari daerah sekitarnya, di mana daerah sekitarnya dominan berwarna hijau (kelas sedikit).
Tabel 4 Pembagian kelas persentase dengan Equal Interval
Kandidat Kelas (dalam %)
Sedikit Sedang A 1.1 - 17.8 17.8 - 34.4 B 0 - 15.5 15.5 - 30.9
secara signifikan dengan seluruh nilai yang ada.
, informasi yang diperlukan etapi diperlukan juga
spatial outlier.
Langkah awal sebelum menduga spatial adalah membagi data menjadi 3 kelas (sedikit, sedang, banyak) dengan metode Equal . Setiap kelas diberi warna yang berbeda kemudian divisualisasikan.
, kuning, dan merah masing-masing merepresentasikan persentase sedikit, sedang, Penjelasan proses pembagian data adalah
untuk seluruh TPS disajikan pada Tabel 4. Hasil dalam bentuk histogram TPS D diperlihatkan pada Gambar sedangkan untuk TPS yang lain dapat dilihat pada Lampiran 1. Dengan hasil qual Interval, dapat diduga TPS mana yang menjadi dengan melihat warna yang berbeda dari warna di sekitarnya. Contoh ini diperlihatkan pada Gambar 11 yang mengambil daerah kelurahan Babakan.
Untuk hasil visualisasi selengkapnya, dapat piran 2. Dari Gambar 11 dapat dilihat bahwa titik merah diduga karena kelasnya berbeda dari daerah sekitarnya, di mana daerah sekitarnya dominan berwarna hijau
Pembagian kelas persentase dengan
Kelas (dalam %) Banyak 34.4 - 51.1 30.9 - 46.5
Tabel 4 Lanjutan
Kandidat Kelas (dalam %)
Sedikit Sedang
C 0 – 8 8 - 16.1
D 1.1 - 17.7 17.7 - 34.3 E 27.9 - 47.6 47.6 - 67.2
Gambar 10 Pembagian kelas persentase untuk kandidat D dengan Equal I
Gambar 11 Spatial outlier dengan Interval .
Tabel 5 menunjukkan posisi
(ID_OBJ=B02) yang ditunjukkan oleh Gambar 11 dalam tabel, atribut persentase diurutkan terlebih dahulu secara menaik. Dapat dilihat bahwa spatial outlier tidak memiliki nilai yang berbeda secara signifikan dengan keseluruhan nilai yang ada.
Tabel 5 Persentase hasil Pilkada ID_OBJ ID_TPS Persentase
44 T05
… …
78 CB03
5 B02
76 CB05
… …
sedikit sedang
banyak
ID_TPS=
Kelas (dalam %)
Banyak 16.1 - 24.2 34.3 34.4 - 50.9 67.2 67.2 - 86.9
Pembagian kelas persentase untuk Interval .
dengan Equal Tabel 5 menunjukkan posisi spatial outlier
yang ditunjukkan oleh Gambar dalam tabel, atribut persentase diurutkan terlebih dahulu secara menaik. Dapat dilihat tidak memiliki nilai yang berbeda secara signifikan dengan keseluruhan
Persentase 0.012
… 0.34 0.364 0.382
…
Spatial Outlier juga dapat dilihat dalam bentuk Scatterplot seperti yang terlihat pada Gambar 12. Sumbu x dan sumbu y merupakan koordinat x dan y TPS. Sumbu z merupakan persentasi hasil Pilkada setiap TPS.
Gambar 12 Spatial outlier dalam bentuk Scatterplot.
2 atural Breaks
Hasil yang berbeda diperoleh menggunakan atural Breaks
pembagian untuk seluruh TPS disajikan pada Tabel 6. Hasil pembagian
TPS D dalam bentuk h
diperlihatkan Gambar 13 sedangkan TPS yang lain dapat dilihat pada Lampiran 3.
Untuk menduga spatial outlier cara yang sama dengan cara pada Interval.
Tabel 6 Pembagian kelas persentase dengan atural Breaks
Kandidat Kelas (dalam %)
Sedikit Sedang A 1.1 - 9.9 9.9 – 20
B 0 - 9.6 9.6 - 26.4
C 0 - 4.2 4.2 - 7.5
D 1.1 - 11 11 - 22.2 E 27.9 - 55.2 55.2 - 68.5
Gambar 13 Pembagian kelas persentase untuk kandidat D dengan
Breaks.
ID_TPS=B02
Spatial Outlier
B02
8 juga dapat dilihat dalam seperti yang terlihat pada Gambar 12. Sumbu x dan sumbu y merupakan koordinat x dan y TPS. Sumbu z merupakan persentasi hasil Pilkada setiap TPS.
dalam bentuk
peroleh dengan atural Breaks. Hasil pembagian untuk seluruh TPS disajikan . Hasil pembagian kelas untuk TPS D dalam bentuk histogram sedangkan TPS yang lain dapat dilihat pada Lampiran 3.
spatial outlier, digunakan cara yang sama dengan cara pada Equal
Pembagian kelas persentase dengan
(dalam %) Banyak 20 - 51.1 26.4 - 46.5 7.5 - 24.2 22.2 - 50.9 68.5 68.5 - 86.9
Pembagian kelas persentase untuk kandidat D dengan atural
Dengan contoh daerah yang sama, yakni kelurahan Babakan, secara visual dapat diduga dua spatial outlier yang ditunjukkan oleh Gambar 1
hasil visualisasi TPS yang lain dapat dilihat pada Lampiran 4. Pada Gambar 14 yang dominan adalah kelas sedikit dan kelas sedang. TPS yang diduga sebagai spatial outlier juga dapat dilihat bentuk tabel seperti pada Tabel 7 dan dalam bentuk scatterplot
Gambar 15.
Gambar 14 Spatial outlier dengan Breaks .
Tabel 7 Persentase hasil Pilkada ID_OBJ ID_TPS Persentase
44 T05 0.012
… … …
6 B01 0.295
… … …
5 B02 0.364
76 CB05 0.382
… … …
Gambar 15 Spatial outlier dalam bentuk Scatterplot.
Load ke Matlab
Data yang telah dipraproses di
Matlab. Dalam Matlab, data tersebut disimpan ID_TPS=B01
B02 B01
Dengan contoh daerah yang sama, yakni kelurahan Babakan, secara visual spatial outlier seperti yang ditunjukkan oleh Gambar 14. Untuk ualisasi TPS yang lain dapat dilihat pada Lampiran 4. Pada Gambar 14, kelas yang dominan adalah kelas sedikit dan kelas sedang. TPS yang diduga sebagai juga dapat dilihat dalam bentuk tabel seperti pada Tabel 7 dan seperti pada
dengan atural Persentase hasil Pilkada
Persentase 0.012 0.295
0.364 0.382
dalam bentuk
Data yang telah dipraproses di load ke Matlab. Dalam Matlab, data tersebut disimpan
sebagai sebuah variabel (misal S) dengan tipe struct. Nomor indeks pada variabel S merepresentasikan urutan objek bersangkutan dalam shapefile. Ilustrasi struktur variabel S diperlihatkan Gambar 16.
Gambar 16 Struktur variabel Membentuk K-earest eighbor List
Implementasi dari algoritme k sebagai berikut :
1 Menentukan nilai k
Nilai k ditentukan dengan menghitung nilai rata-rata dari jumlah TPS di setiap kelurahan. Hal ini dilakukan agar pengelompokan dapat mewakili
mana proses perhitungannya tidak mempertimbangkan batas kelurahan. Nilai rata-rata yang diperoleh adalah 18,1. Nilai ini dibulatkan menjadi 19 karena umumnya ditentukan dalam jumlah ganjil untuk menghindari munculnya jumlah jarak yang sama dalam proses pengklasifikasian.
2 Menghitung jarak setiap titik TPS.
Untuk menghitung jarak, digunakan perhitungan Euclidean lalu dibentuk matriks jarak seperti yang dicontohkan pada Tabel 8.
Tabel 8 Matriks jarak antartitik
xi 1 2 3 ….
1 0 81.633 98.311 ….
2 81.63 0 77.078 ….
3 98.31 77.078 0 ….
4 241.35 244.81 167.76 ….
5 366.48 372.06 295.14 ….
…. … .... …. ….
189 1829 1880.2 1811.4 ….
3 Mengelompokkan setiap titik dengan k nilai terdekat.
Setelah mendapatkan matriks jarak, maka langkah selanjutnya adalah mengelompokkan k terdekat untuk setiap ID_TPS=B02
Spatial Outlier
B02
) dengan tipe . Nomor indeks pada variabel S merepresentasikan urutan objek bersangkutan . Ilustrasi struktur variabel S
Struktur variabel S.
List
Implementasi dari algoritme k-NN adalah
Nilai k ditentukan dengan menghitung rata dari jumlah TPS di setiap kelurahan. Hal ini dilakukan agar pengelompokan dapat mewakili data di mana proses perhitungannya tidak mempertimbangkan batas kelurahan. Nilai rata yang diperoleh adalah 18,1. Nilai karena nilai k umumnya ditentukan dalam jumlah ganjil untuk menghindari munculnya jumlah jarak dalam proses pengklasifikasian.
Menghitung jarak setiap titik TPS.
Untuk menghitung jarak, digunakan perhitungan Euclidean lalu dibentuk matriks jarak seperti yang dicontohkan
189 1829 1880.2 1811.4 1667.4 1567.3
…….
0
Mengelompokkan setiap titik dengan k Setelah mendapatkan matriks jarak, maka langkah selanjutnya adalah mengelompokkan k terdekat untuk setiap
titik. Pada langkah ini, dihasilkan k neighbor list yang disajikan pada Lampiran 5.
Algoritme Iterative Ratio
Implementasi algoritme Iterative Ratio adalah sebagai berikut :
1 Menghitung fungsi neighborhood g(x g(xi)1
k f
xϵ k(xi)
Dihitung juga fungsi hi = h(x
Langkah awal yang dilakukan adalah menghitung fungsi neighborhood fungsi rataan. Untuk membandingkan nilai atribut persentase suatu TPS dengan TPS tetangganya, dihitung fungsi perbandingan h(xi) yaitu fungsi perbandingan rasio. Hasil perhitungan akhir untuk fungsi perbandingan diperlihatkan pada Lampiran 6.
2 Proses selanjutnya adalah mencari nilai maksimum dari hasil perhitungan rasio h(xi) untuk seluruh TPS. Jika nilai rasio tersebut lebih dari θ (threshold)
ditentukan, maka TPS tersebut dianggap sebagai spatial outlier.
mempengaruhi banyaknya yang akan terdeteksi. Nilai
dengan menormalisasikan hasil dari fungsi perbandingan. Nilai ini ditampilkan ke bentuk histrogram, dari sini dapat ditentukan nilai θ di mana
dari bin yang satu ke bin yang lain histogram dapat dilihat pada Lampiran Dari seluruh histogram, jarak
bin tersebut terdapat pada nilai lebih dari 3.
Nilai lebih dari 3 memiliki makna bahwa jumlah outlier sebanyak kurang lebih 2%
5% dari data. Dengan demikian nilai 3 dijadikan sebagai threshold.
Nilai threshold sebesar 3
menjadi nilai h dengan fungsi ℎ∗!+# sehingga nilai
masing-masing kandidat berbeda.
Contohnya pada TPS dengan kandidat A, penentuan threshold diperlihatkan oleh Gambar 17. Gambar 17 memperlihatkan histogram persentase untuk kandidat A.
Daftar threshold setiap kandidat diperlihatkan oleh Tabel
pertama, spatial outlier yang terdeteksi pada TPS kandidat A adalah KK16, TPS kandidat B adalah G03, TPS kandidat C titik. Pada langkah ini, dihasilkan k-nearest yang disajikan pada Lampiran
Iterative Ratio
neighborhood g(xi).
f(x)
= h(xi) =f(xi)/g(xi).
Langkah awal yang dilakukan adalah neighborhood yaitu an. Untuk membandingkan nilai atribut persentase suatu TPS dengan TPS tetangganya, dihitung fungsi perbandingan ) yaitu fungsi perbandingan rasio. Hasil perhitungan akhir untuk fungsi perbandingan diperlihatkan pada Lampiran Proses selanjutnya adalah mencari nilai maksimum dari hasil perhitungan rasio ) untuk seluruh TPS. Jika nilai rasio (threshold) yang telah ditentukan, maka TPS tersebut dianggap . Nilai θ akan mempengaruhi banyaknya spatial outlier yang akan terdeteksi. Nilai θ ditentukan dengan menormalisasikan hasil dari fungsi perbandingan. Nilai ini ditampilkan ke bentuk histrogram, dari sini dapat di mana terdapat jarak dari bin yang satu ke bin yang lain. Seluruh histogram dapat dilihat pada Lampiran 7.
Dari seluruh histogram, jarak rata-rata antar bin tersebut terdapat pada nilai lebih dari 3.
Nilai lebih dari 3 memiliki makna bahwa ak kurang lebih 2% - 5% dari data. Dengan demikian nilai 3
.
sebesar 3 dikembalikan dengan fungsi nilai threshold masing kandidat berbeda.
Contohnya pada TPS dengan kandidat A, diperlihatkan oleh memperlihatkan histogram persentase untuk kandidat A.
setiap kandidat diperlihatkan oleh Tabel 9. Saat iterasi yang terdeteksi pada TPS kandidat A adalah KK16, TPS kandidat B adalah G03, TPS kandidat C
adalah T17, TPS kandidat D adalah PL06, dan TPS kandidat E adalah B12.
Tabel 9 Threshold untuk setiap kandidat pada algoritme Iterative Ratio
Kandidat Threshold
A 3.067
B 2.648
C 2.671
D 2.9
E 1.454
3 Langkah selanjutnya, titik TPS yang dianggap sebagai spatial outlier
nilainya dengan nilai rataan tetangga dari TPS tersebut. Dalam setiap iterasi, hanya akan terdeteksi satu spatial outlier
dilakukan agar TPS tersebut tidak terdeteksi kembali sebagai outlier iterasi selanjutnya dan mencegah titik normal yang berada dekat dengan outlier terdeteksi sebagai spatial outlier Fungsi neighborhood kemudian dihitung kembali. Langkah ini dilakukan terus sampai tidak ada nilai h(xi) yang melebihi threshold.
4 Setelah proses iterasi selesai, didapatkan hasil deteksi spatial outlier. Jumlah outlier yang terdeteksi untuk TPS kandidat A sebanyak 3, TPS kandidat B sebanyak 2,
z = 3
Gambar 17 Penentuan threshold.
10 adalah T17, TPS kandidat D adalah PL06, dan TPS kandidat E adalah B12.
untuk setiap kandidat pada Threshold
Langkah selanjutnya, titik TPS yang spatial outlier diganti nilainya dengan nilai rataan tetangga dari TPS tersebut. Dalam setiap iterasi, hanya spatial outlier. Hal ini dilakukan agar TPS tersebut tidak outlier untuk iterasi selanjutnya dan mencegah titik rmal yang berada dekat dengan spatial spatial outlier.
kemudian dihitung kembali. Langkah ini dilakukan terus ) yang melebihi Setelah proses iterasi selesai, didapatkan . Jumlah spatial yang terdeteksi untuk TPS kandidat A sebanyak 3, TPS kandidat B sebanyak 2,
ℎ ∗ ! + # h = 3.067
threshold.
TPS kandidat C sebanyak 2, TPS kandidat D sebanyak 4, dan TPS kandidat E sebanyak 3. Rincian hasil deteksi spatial outlier dapat dilihat pada Lampiran 8.
Berdasarkan hasil pendugaan spatial outlier menggunakan metode Equal Interval dan atural Breaks, titik dengan ID_OBJ=136 bukan merupakan spatial outlier. Dengan algoritme Iterative Ratio, titik dengan ID_OBJ=136 tidak terdeteksi sebagai spatial outlier, sedangkan dengan menggunakan Moran Scatterplot titik dengan ID_OBJ=136 terdeteksi sebagai spatial outlier.
Algoritme Iterative Z-value
Implementasi algoritme Iterative Z-value adalah sebagai berikut :
1 Menghitung fungsi neighborhood g(xi).
g(xi)1
k f(x)
xϵ k(xi)
Dihitung juga fungsi hi = h(xi) = f(xi) – g(xi).
Langkah awal yang dilakukan pada algoritme Iterative Z-value sama dengan algoritme ratio, yaitu dengan menentukan set NNk(xi) dan menghitung fungsi neighborhood. Untuk membandingkan atribut persentase suatu TPS dengan TPS tetangganya, dihitung dengan fungsi perbandingan selisih.
2 Nilai tersebut dinormalisasi dengan rataan dan standar deviasi. Langkah selanjutnya, seluruh nilai yang sudah dinormalisasi dicari nilai maksimumnya. Jika nilai maksimum lebih dari threshold, maka TPS tersebut dianggap sebagai spatial outlier.
Penentuan threshold sama dengan pada algoritme sebelumnya. Nilai threshold yang digunakan adalah 3. Pada iterasi pertama, spatial outlier yang terdeteksi pada TPS A adalah S05, TPS B adalah T21, TPS C adalah T17, TPS D adalah PL06, TPS E adalah S05.
3 Sama halnya dengan algoritme Iterative Ratio, jika terdeteksi suatu spatial outlier, maka fungsi neighborhood, fungsi perbandingan, dan fungsi normalisasi dihitung kembali. Jika tidak ada nilai normalisasi yang lebih dari threshold, maka iterasi selesai. Hasil akhir dari perhitungan fungsi normalisasi diperlihatkan pada Lampiran 9.
Jumlah spatial outlier yang terdeteksi untuk TPS kandidat A sebanyak 12, TPS kandidat B sebanyak 7, TPS kandidat C sebanyak 1, TPS kandidat D sebanyak 3, dan TPS kandidat E sebanyak 1. Rincian hasil deteksi spatial outlier dapat dilihat pada Lampiran 10. Berdasarkan hasil pendugaan spatial outlier menggunakan metode Equal Interval dan atural Breaks, titik dengan ID_OBJ=81 diduga sebagai spatial outlier. Dengan algoritme Iterative Z-value, titik dengan ID_OBJ=81 terdeteksi sebagai spatial outlier, sedangkan dengan menggunakan Moran Scatterplot titik dengan ID_OBJ=81 tidak terdeteksi sebagai spatial outlier.
Visualisasi
Pada kedua algoritme Iterative Ratio dan Iterative Z-value, keluaran yang dihasilkan berupa ID dari TPS yang merupakan spatial outlier dan visualisasi dalam bentuk peta.
Dengan adanya visualisasi dalam bentuk peta, lebih terlihat letak TPS yang merupakan spatial outlier. Untuk contoh hasil visualisi algoritme Iterative Ratio dan Iterative Z-value pada TPS dengan kandidat A diperlihatkan oleh Gambar 18, dan untuk kandidat yang lain dapat dilihat pada Lampiran 11. Titik yang berwarna merah merupakan TPS spatial outlier, sedangkan titik yang berwarna biru merupakan TPS biasa.
(a) Visualisasi algoritme Iterative Ratio
(b) Visualisasi algoritme Iterative Z-value Gambar 18 Visualisasi hasil deteksi
spatial outlier.
12 KESIMPULA DA SARA
Kesimpulan
Berdasarkan penelitian yang dilakukan dalam mendeteksi spatial outlier pada data hasil Pilkada Kota Bogor, dapat diambil kesimpulan yaitu hasil titik yang terdeteksi sebagai spatial outlier menggunakan algoritme Iterative Ratio dan Iterative Z-value memiliki perbedaan dalam jumlah spatial outlier yang terdeteksi. Adapun dalam hal titik yang terdeteksi, terdapat perbedaan pada kandidat E di mana algoritme Iterative Ratio tidak mendeteksi adanya spatial outlier, sedangkan algoritme Iterative Z-value mendeteksi adanya spatial outlier. Algoritme Iterative Ratio dan Iterative Z-value juga dapat mengurangi kesalahan deteksi yang dilakukan oleh Moran Scatterplot.
Saran
Berdasarkan hasil penelitian ini perlu dilakukan penelitian lebih lanjut dalam menentukan nilai k agar hasil pendeteksian lebih optimal.
DAFTAR PUSTAKA
Han J, Kamber M. 2006. Data Mining Concepts and Techniques. San Fransisco : Morgan Kaufmann Publishers. Ed ke-2.
Lu C, Chen D, Kou Y. 2003. Algorithm for Spatial Outlier Detection. Third IEEE International Conference on Data Mining.
597- 600.
Luc, A. 1995. Local Indicators of Spatial Association: LISA. Geographical Analysis.
27(2):93–115.
Shekhar S, Zhang P, Huang Y, Vatsavai R.
2003. Trend in Spatial Data Mining. Di dalam : Kargupta H, Joshi A, Sivakumar K, Yesha Y, editor. Data Mining: ext Generation Challenges and Future Directions. Cambridge : MIT Press.
Slocum T, McMaster R, Kessler F, Howard H.
2004. Thematic Cartography and Geographic Visualization. New Jersey : Prentice Hall. Ed ke-2.
Tan P, Steinbach M, Kumar V. 2005.
Introduction to Data Mining. Boston : Addison Wesley.
LAMPIRA
Lampiran 1 Pembagian kelas dengan a Kandidat A
b Kandidat B
c Kandidat C
dengan Equal Interval
d Kandidat D
e Kandidat E
14
Lampiran 2 Visualisasi Equal Interval dalam peta a Kandidat A
b Kandidat B
c Kandidat C
d Kandidat D
e Kandidat E
Lampiran 3 Pembagian kelas dengan a Kandidat A
b Kandidat B
c Kandidat C
elas dengan atural Breaks
d Kandidat D
e Kandidat E
16
Lampiran 4 Visualisasi atural Breaks dalam peta a Kandidat A
b Kandidat B
c Kandidat C
d Kandidat D
e Kandidat E
18 Lampiran 5 Hasil perhitungan k- earest eighbor List (NNk(xi))
TPS set NNk(xi)
1 2 18 3 21 22 17 4 9 19 5 24 20 23 7 10 6 11 33 40 2 3 1 18 9 4 21 17 22 19 5 10 20 24 23 11 6 7 14 13 3 2 1 4 18 17 21 9 19 22 5 20 10 6 7 23 24 8 33 11 4 17 5 3 19 6 1 2 7 20 18 22 21 8 23 33 9 10 40 24 5 6 4 17 7 19 20 3 8 33 1 2 23 18 22 21 40 10 34 41 6 5 7 4 8 17 19 20 33 3 1 23 2 34 40 22 18 10 35 21 7 20 5 6 19 33 17 4 23 40 34 41 3 36 35 8 22 1 37 18 8 6 5 49 50 4 7 10 17 51 3 16 19 48 20 46 2 1 33 52 9 2 3 1 14 10 15 11 18 13 12 4 21 17 22 5 19 16 6 24 10 9 16 3 2 15 8 4 1 5 50 14 17 6 18 13 19 11 49 51 11 12 13 14 9 15 2 1 18 3 21 44 10 22 43 4 24 27 17 26 12 13 11 14 15 9 2 1 18 3 21 10 44 22 43 4 27 24 17 26 13 12 11 14 15 9 2 1 18 3 10 21 44 22 4 43 17 24 16 27 14 13 15 12 11 9 10 2 1 3 18 21 16 4 22 17 44 5 19 24 15 14 13 9 12 11 10 2 16 3 1 18 4 21 17 5 22 8 50 19 16 10 50 55 54 51 8 49 15 56 9 52 57 53 58 3 4 14 48 2 17 19 4 5 20 3 7 1 22 6 18 2 23 21 33 40 24 41 8 9 18 1 21 22 2 3 17 24 19 4 9 23 20 5 44 7 40 11 33 6 19 20 17 7 23 4 5 33 22 40 3 1 6 21 18 41 24 2 36 34 20 19 33 7 23 17 40 5 4 41 22 6 36 34 21 37 24 3 35 18 21 22 18 1 24 2 3 17 23 19 4 20 44 40 42 9 5 41 7 43 22 21 18 24 23 1 19 17 3 20 2 4 40 42 41 33 7 5 44 36 23 40 41 20 19 22 24 33 36 17 42 21 37 7 18 34 39 4 1 35 24 22 21 23 42 18 40 41 19 44 1 20 17 39 27 43 36 3 2 33 25 28 26 27 43 29 44 30 31 32 24 42 21 22 18 39 23 1 11 41 26 27 25 43 28 29 44 30 31 32 24 42 21 22 18 39 23 1 41 11 27 26 43 25 44 28 29 30 31 32 24 42 21 22 18 23 39 1 41 40 28 25 29 26 27 43 30 31 44 32 42 24 21 22 39 18 23 41 1 40 29 28 30 25 26 31 27 43 32 44 42 24 39 21 22 23 18 41 40 1 30 31 29 32 28 25 26 27 43 44 42 24 39 22 21 23 41 40 18 37 31 30 32 29 28 25 26 27 43 44 42 39 24 22 41 21 23 40 37 36 32 31 30 29 28 26 25 27 42 43 39 44 24 41 23 22 40 37 21 38 33 20 34 40 7 36 19 23 41 35 37 17 5 6 38 4 22 24 39 42 34 35 36 33 37 40 41 38 20 7 23 19 45 39 6 17 5 42 22 24 35 34 36 37 38 33 41 40 45 20 23 7 39 19 42 6 17 5 24 22 36 37 41 40 34 38 35 33 23 39 20 42 19 7 45 24 22 17 5 21 37 36 38 41 40 35 34 39 33 23 42 45 20 19 7 24 22 17 21 5 38 37 36 35 41 39 34 45 40 33 42 23 20 19 24 7 22 17 21 5 39 42 37 41 38 36 40 23 24 35 34 45 33 32 20 22 19 31 21 30 40 41 36 23 37 33 20 34 35 19 38 42 39 24 7 22 17 21 5 4 41 40 36 37 23 33 38 39 34 42 35 20 24 19 22 7 17 21 45 5 42 39 24 41 23 40 37 36 22 38 21 32 27 20 31 33 44 19 30 43 43 27 26 44 25 28 29 30 31 24 32 21 42 22 18 1 23 11 39 2 44 43 27 26 25 28 29 24 21 22 30 18 31 42 32 1 23 2 11 3 45 38 37 35 36 34 39 41 40 33 175 178 42 183 174 176 188 23 179 20
Lampiran 5 Lanjutan
TPS set NNk(xi)
46 48 47 49 52 63 53 51 64 62 50 8 65 61 67 56 55 6 66 137 47 48 46 63 52 53 64 49 62 51 65 50 67 56 61 55 66 8 75 57 48 47 46 52 49 63 53 51 64 50 62 65 67 8 56 55 54 66 61 57 49 50 48 51 52 46 47 8 53 63 64 55 16 56 6 67 54 65 10 62 50 51 49 16 52 55 8 48 53 54 47 56 63 46 10 64 67 57 6 5 51 50 49 52 53 55 48 63 56 47 64 54 16 46 67 57 8 65 58 62 52 53 63 48 47 51 64 49 46 50 67 65 56 62 55 57 54 66 75 58 53 52 63 64 51 47 67 48 65 56 49 55 50 46 62 57 66 75 54 58 54 55 56 58 57 59 51 16 67 50 68 53 52 64 49 63 65 73 75 74 55 54 56 57 51 58 50 16 53 67 52 59 64 49 63 68 48 65 47 73 56 57 55 58 67 54 53 51 64 52 65 68 63 59 75 73 50 74 66 48 57 58 56 67 54 68 55 59 73 74 75 53 65 64 66 69 72 51 52 70 58 57 68 56 59 54 55 67 73 69 74 75 70 72 53 66 65 64 51 60 59 58 68 57 54 60 69 56 55 70 73 67 72 74 75 66 51 16 53 71 60 59 69 68 58 70 87 89 57 72 90 86 73 54 71 74 91 85 56 88 61 136 62 133 80 137 98 134 79 124 135 99 139 47 140 63 125 65 46 64 62 65 64 63 61 47 80 53 66 52 78 79 48 46 67 75 77 95 74 76 63 53 52 64 47 48 65 62 46 67 51 49 56 66 50 75 55 57 78 61 64 63 53 65 67 52 62 47 66 48 75 56 51 57 46 74 78 49 73 55 65 64 66 67 75 63 53 62 78 74 52 77 73 56 47 57 76 48 72 80 66 75 65 74 77 78 73 76 67 64 72 62 71 79 95 53 70 63 57 80 67 65 64 56 75 57 53 66 73 74 63 52 58 55 51 54 77 68 72 78 68 69 58 59 57 70 73 72 74 60 56 67 75 54 71 66 55 76 90 65 69 70 68 72 73 71 90 60 74 59 58 57 76 91 75 89 66 67 77 56 70 72 69 71 73 74 90 68 76 75 91 77 66 94 58 57 92 78 67 89 71 72 76 70 90 94 74 73 77 91 92 93 69 75 78 66 96 68 95 89 72 70 73 74 71 76 75 69 77 90 66 68 94 78 91 67 57 58 65 92 73 74 72 75 66 70 76 77 71 67 68 69 57 78 65 58 56 94 90 64 74 73 75 72 66 76 77 70 71 78 67 65 68 69 57 94 58 64 56 90 75 66 74 73 77 65 76 78 67 72 64 71 70 57 56 53 68 62 95 94 76 77 71 74 72 78 73 75 94 66 70 95 93 96 90 79 65 67 92 69 77 78 76 66 75 74 95 73 94 72 71 79 96 65 93 80 70 67 97 64 78 77 66 76 95 79 75 96 74 80 65 94 73 72 71 97 62 93 67 64 79 80 95 96 78 97 77 98 66 76 62 107 94 75 93 61 65 106 99 105 80 79 95 78 97 96 98 62 61 77 107 99 66 105 106 65 75 76 133 136 81 82 83 84 85 86 87 88 89 91 90 60 92 69 70 71 72 68 94 93 82 83 81 84 85 86 87 88 89 91 60 90 69 92 70 71 68 72 59 94 83 82 84 81 85 87 86 88 89 60 91 90 69 92 70 68 71 72 59 73 84 85 82 83 86 87 81 88 89 60 91 90 69 92 70 71 68 72 59 94 85 86 84 87 82 83 81 88 89 91 90 60 69 92 70 71 72 68 94 59 86 85 87 84 88 82 89 83 81 91 90 60 69 92 70 71 72 68 94 59 87 86 85 84 83 82 89 88 81 60 91 90 69 70 92 68 71 72 59 73 88 89 86 85 87 91 84 90 82 92 81 83 69 70 71 60 72 94 93 76 89 88 91 86 90 85 87 92 84 69 70 71 82 60 72 83 81 94 68 76