TI JAUA PUSTAKA Praproses Data - Spatial Outlier Detection On Bogor City Regional Election Data

Data yang tersimpan dalam suatu basis data seringkali tidak sempurna, mengandung noise (data error), atau tidak konsisten. Oleh karena itu, perlu dilakukan praproses data agar dapat meningkatkan kualitas data yang pada akhirnya akan meningkatkan akurasi dan efisiensi data tersebut. Kualitas data akan menentukan kualitas keputusan (Han & Kamber 2006). Tahap dari praproses dapat dilihat pada Gambar 1 yang terdiri atas :

Gambar 1 Bentuk praproses data (Han & Kamber 2006).

1 Pembersihan data

Permasalahan data kotor dan cara membersihkannya :

Nilai yang kosong

Untuk mengatasi nilai yang kosong (missing values) dalam data dapat dilakukan dengan penghapusan tuple, mengisi dengan konstanta global

Data cleaning

Data integration

Data transformation Data reduction

1 PE DAHULUA

Latar Belakang

Pemilihan Kepala Daerah dan Wakil Kepala Daerah, atau seringkali disebut Pilkada, adalah pemilihan umum untuk memilih Kepala Daerah dan Wakil Kepala Daerah secara langsung di Indonesia oleh penduduk daerah setempat yang memenuhi syarat. Pilkada dilaksanakan setiap lima tahun sekali. Pilkada Kota Bogor dilaksanakan pada tanggal 25 Oktober 2008.

Hasil Pilkada Kota Bogor merupakan akumulasi dari hasil perhitungan suara di setiap Tempat Pemungutan Suara (TPS). Data hasil pemilihan tersebut dikumpulkan oleh Komisi Pemilihan Umum Daerah Kota Bogor.

Salah satu bentuk analisis yang dapat diterapkan pada data hasil Pilkada adalah deteksi pencilan (outlier detection). Pada umumnya, TPS yang jaraknya berdekatan memiliki hasil pemenang pemungutan suara yang relatif sama. Data hasil Pilkada Kota Bogor hanya memiliki atribut non'spasial, sehingga hanya akan terdeteksi global outlier. Jika data tersebut digabung dengan data spasial Kota Bogor, spatial outlier dapat terdeteksi. Spatial outlier adalah objek yang tereferensi secara spasial di mana nilai atribut non'spasial secara signifikan berbeda dari objek yang tereferensi secara spasial di sekitarnya.

Proses analisis data yang besar dapat menggunakan teknik data mining. Secara khusus, jika data yang dianalisis merupakan data spasial maka teknik tersebut disebut spatial data mining. Salah satu teknik dalam spatial data mining adalah spatial outlier detection. Dalam teknik spatial outlier detection, terdapat beberapa algoritme. Namun beberapa di antaranya memiliki kelemahan yaitu masih mengandung kesalahan dalam mendeteksi spatial outlier yang sebenarnya. Penggunaan algoritme Iterative Ratio dan Iterative Z value dianggap dapat mengurangi kesalahan deteksi. Penelitian ini akan mengimplementasikan kedua algoritme tersebut untuk mendeteksi spatial outlier pada data hasil Pilkada Kota Bogor. Tujuan

Penelitian ini bertujuan untuk mendeteksi data TPS di Kecamatan Bogor Tengah Kota Bogor yang menjadi spatial outlier dengan menggunakan algoritme Iterative Ratio dan Iterative Z value.

Ruang Lingkup

Penelitian ini menggunakan data sekunder hasil Pilkada Kota Bogor tahun 2008 yang berasal dari Komisi Pemilihan Umum Daerah (KPUD) Bogor daerah Kecamatan Bogor Tengah.

Manfaat

Penelitian ini diharapkan dapat mengungkap data pada TPS mana yang menjadi spatial outlier. Dengan demikian, hasil tersebut dapat dijadikan bahan untuk analisis lanjutan agar dapat memahami proses politik yang terjadi.

TI JAUA PUSTAKA Praproses Data

Gambar 1 Bentuk praproses data (Han & Kamber 2006).

1 Pembersihan data

Permasalahan data kotor dan cara membersihkannya :

Nilai yang kosong

Untuk mengatasi nilai yang kosong (missing values) dalam data dapat dilakukan dengan penghapusan tuple, mengisi dengan konstanta global

Data cleaning

Data integration

Data transformation Data reduction

seperti ‘tidak tahu’ menggunakan nilai rata atribut yang kosong, me nilai rata'rata dari kelas atau mengisi dengan mungkin dengan menggu regresi, induksi pohon (decision tree), dan lain s Nilai mengandung noise Data dengan nilai yang noise dapat diganti deng perhitungan dengan me metode regresi, atau clustering.

Data tidak konsisten Data tidak konsisten dipe menggunakan referensi e 2 Integrasi data

Integrasi data adalah proses data dari berbagai sumber data.

3 Transformasi data

Transformasi data akan meng dalam bentuk yang sesuai untu mining. Transformasi data smoothing, agregasi, normalisasi, atau konstruksi atri 4 Reduksi data

Teknik reduksi data seperti a data, reduksi dimensi, kompre discretization dapat digun mereduksi representasi d meminimalkan informasi yang Data Mining

Data mining adalah sebuah pros secara otomatis informasi yang b tempat penyimpanan data berukur et al. 2005). Istilah lain yang seri diantaranya knowledge discovery databases (KDD), knowledge data/pattern analysis, data arc dredging, information harvesting, intelligence. Teknik data minin untuk memeriksa basis data beru sebagai cara untuk menemukan p dan berguna. Data mining integral dari KDD. Keseluruhan untuk konversi raw data ke dal yang berguna ditunjukkan dalam G

tahu’ atau ‘∞’, i rata'rata dari nilai mengisi dengan ri kelas yang sama, engan nilai yang enggunakan metode pohon keputusan n lain sebagainya.

oise

yang mengandung i dengan nilai hasil n metode binning, atau dengan cara

n diperbaiki dengan rensi eksternal.

oses penggabungan mber penyimpanan

mengubah data ke untuk proses data data mencakup i, generalisasi, ksi atribut.

erti agregasi kubus kompresi data, atau digunakan untuk si data dengan i yang hilang.

ah proses pencarian ang berguna dalam berukuran besar (Tan ng sering digunakan overy (mining) in edge extraction, archeology, data ting, dan business ining digunakan ta berukuran besar kan pola yang baru adalah bagian uruhan proses KDD ke dalam informasi dalam Gambar 2.

Gambar 2 Proses knowledge disc databases. Spatial Data Mining

Spatial data mining mengacu pad pengetahuan, hubungan spasial, menarik lainnya yang tidak secar tersimpan pada basis data spasial (She 2003). Tantangan terbesar pada mining adalah proses eksplorasi. Me pola yang menarik dan berguna dari data spasial lebih sulit dibandingk mengekstraksi pola yang berhubunga data kategorik. Hal ini disebabk kompleksitas dari tipe data spasial, spasial, dan otokorelasi spasial. Spatial Outlier Detection

Outlier secara informal di sebagai suatu pengamatan pada kum di mana muncul ketidakkonsistenan dengan data yang lainnya pada kum yang sama, atau yang terdeviasi terl dari pengamatan yang lain dengan yang berbeda (Tan et al. 2005 informal, spatial outlier merupakan tereferensi secara spasial di mana a spasialnya relatif sangat berbeda lingkungannya (Shekhar et al. 200 outlier merupakan objek yang nilain secara signifikan dengan seluruh nilai

Ilustrasi dari global outlier outlier terlihat pada Gambar 3. Pe spatial outlier sangat berguna dala sistem informasi geografis dan spasial.

Gambar 3 Global outlier (G) dan spat (S) (Lu et al. 2003).

2 discovery in

cu pada ekstraksi asial, atau pola secara eksplisit ial (Shekhar et al. ada spatial data si. Mengekstraksi guna dari kumpulan ndingkan dengan hubungan dengan disebabkan oleh pasial, hubungan l didefinisikan a kumpulan data stenan suatu data da kumpulan data si terlalu banyak ngan mekanisme 2005). Secara akan objek yang ana atribut non' berbeda dengan

2003). Global ng nilainya berbeda h nilai yang ada.

dan spatial Pendeteksian a dalam aplikasi dan basis data

3 Sekumpulan data spasial dapat dimodelkan

sebagai kumpulan objek yang tereferensi secara spasial. Objek spasial memiliki dua kategori dimensi yang berbeda sesuai dengan atribut mana yang akan diukur. Kategori tersebut terdiri atas :

1 Atribut spasial dari objek yang tereferensi secara spasial seperti lokasi, bentuk, dan geometrik atau topologi lainnya.

2 Atribut non'spasial dari objek yang tereferensi secara spasial seperti traffic sensor identifiers, umur, dan pemilik.

K/ earest eighbor

earest eighbor merupakan teknik klasifikasi yang berdasarkan kedekatan objek. Kedekatan disini didefinisikan dengan ukuran jarak misalnya Euclidean. Jarak Euclidean antar dua titik, misal Titik1=(x1, y1) dan Titik2=(x2,

y2) adalah (Han & Kamber 2006) :

Dist Titik1,Titik2 = (x1'x2) 2

+(y₁'y₂)2 K earest eighbor (k'NN) akan mengklasifikasikan data terhadap k labeled data terdekat. Algoritme untuk k earest eighbor adalah :

1 Menentukan nilai k.

2 Menghitung jarak antar setiap titik. 3 Mengelompokkan dengan k titik terdekat

untuk setiap titik. Algoritme Iterative Ratio

Tantangan yang perlu diperhatikan dalam pendeteksian spatial outlier adalah meminimalkan kesalahan deteksi. Kesalahan terjadi jika spatial outlier yang sebenarnya akan diabaikan, sedangkan spatial outlier yang bukan sebenarnya akan teridentifikasi atau sebaliknya. Salah satu contoh algoritme yang berpotensi melakukan kesalahan deteksi adalah Moran Scatterplot.

Moran Scatterplot merupakan plot antara nilai atribut yang telah dinormalisasi (sumbu x) dengan nilai rataan tetangga atribut yang telah dinormalisasi (sumbu y) (Luc 1995). Moran Scatterplot memiliki empat kuadran. Jika objek berada pada kuadran low outlier dan high outlier, maka objek tersebut merupakan spatial outlier. Low outlier adalah objek yang nilainya rendah diantara objek yang nilainya tinggi. High outlier adalah objek yang nilainya tinggi diantara objek yang nilainya rendah. Jika objek berada pada kuadran cluster, maka objek tersebut bukan spatial outlier karena nilai dari

objek tersebut tidak berbeda dengan objek tetangganya. Hal ini ditunjukkan oleh Gambar 4.

Gambar 4 Struktur Moran Scatterplot. Kesalahan deteksi spatial outlier yang dilakukan Moran Scatterplot diperlihatkan pada Gambar 5 dan 6. Pada Gambar 5(a) dan Gambar 6(a), titik dibagi menjadi tiga kelas yaitu kelas sedikit, sedang, dan banyak. Ketiga kelas ini direpresentasikan dengan warna berbeda. Warna hijau merepresentasikan kelas sedikit, warna kuning merepresentasikan kelas sedang, dan warna merah merepresentasikan kelas banyak.

Titik dengan ID_OBJ=81 merupakan spatial outlier. Pada Gambar 5(a) terlihat bahwa kelas titik tersebut berbeda dengan kelas titik di sekitarnya di mana kelas titik di sekitarnya adalah kelas sedikit dan sedang. Dengan menggunakan Morran Scatterplot, titik tersebut tidak terdeteksi sebagai spatial outlier karena titik berada pada kuadran cluster.

(a) Spatial outlier

(b) Moran Scatterplot Gambar 5 Kesalahan deteksi spatial outlier

pada Moran Scatterplot.

Spatial Outlier dengan ID_OBJ=81

4 Moran Scatterplot juga melakukan

kesalahan dengan mendeteksi suatu titik sebagai spatial outlier, tetapi titik tersebut bukan merupakan spatial outlier. Pada Gambar 6(a), titik dengan ID_OBJ=136 bukan spatial outlier karena tetangga dari titik tersebut kelasnya sama yaitu kelas sedikit (warna hijau). Dengan Moran Scatterplot, titik tersebut dianggap sebagai spatial outlier karena berada pada kuadran high outlier.

(a) Spatial outlier

(b) Morran Scatterplot Gambar 6 Kesalahan deteksi spatial outlier

pada Moran Scatterplot.

Beberapa variabel yang digunakan dalam algoritme Iterative Ratio dan Iterative Z value adalah:

xi adalah titik spasial.

k(xi) adalah k nearest neighbors terhadap titik x.

f(x) adalah fungsi yang merepresentasikan nilai atribut dari xi.

g(x) adalah fungsi yang memetakan X (data set spasial) ke R (bilangan real). Fungsi ini diimplementasikan dengan fungsi rataan. h(x) adalah fungsi yang digunakan untuk membandingkan g dan f.

Algoritme Iterative Ratio adalah sebagai berikut (Lu et al. 2003):

1 Untuk setiap titik spasial xi, dihitung k nearest neighbors set k(xi) dan fungsi neighborhood g(xi)

g(x_i) 1

k xϵ k(xi)f(x)

Dihitung juga fungsi hi = h(xi) = f(xi)/g(xi). Gambar 7 memperlihatkan ilustrasi dari perhitungan set k(xi), g(xi), dan h(xi).

Gambar 7 Ilustrasi perhitungan set k(xi), g(xi), dan h(xi).

2 Misal hq menunjukkan nilai maksimum

dari h1, h2,…, hn Dengan batas θ yang telah diketahui, jika hq ≥ θ, maka xq ditentukan sebagai spatial outlier (S outlier).

3 Nilai f(xq) diperbaharui sebagai g(xq). Untuk setiap titik spasial xi di mana k(xi) mengandung xq, nilai g(xi) dan hi diperbaharui.

4 Langkah 2, 3, dan 4 diulangi sampai nilai hi tidak melebihi batas θ atau sampai total jumlah S outlier sebesar m.

Algoritme Iterative Z value

Algoritme Iterative Z value adalah sebagai berikut (Lu et al. 2003):

1 Untuk setiap titik spasial xi, dihitung k nearest neighbors set k(xi), fungsi neighborhood g(xi).

g(x_i) 1

k xϵ k(xi)f(x)

Dihitung juga fungsi hi=h(xi) = f(xi) – g(xi). 2 Misal µ dan σ menunjukkan rataan sampel

dan standar deviasi sampel dari suatu data set {h1, h2,….,hn}. Selanjutnya, dihitung nilai absolut yi untuk i = 1, 2,….,n.

y_i= hi µ σ

Misal yq adalah nilai maksimum dari y1,y2,…,yn. Dengan batas θ yang telah ID_OBJ=136

Z/Score Attribute of values

W Z/ Sc o re A tt ri b u te o f va lue s

cluster Highoutlier

ID_OBJ=136

cluster Lowoutlier

5 diketahui, jika yq ≥ θ, maka xq ditentukan

S outlier.

3 Nilai f(xq) diperbaharui sebagai g(xq). Untuk setiap titik spasial xi di mana k(xi) mengandung xq, nilai g(xi) dan hi

diperbaharui.

4 Nilai µ dan σ dihitung kembali pada data set {h1, h2, …, hn}. Untuk i = 1,2,…,n, nilai

diperbaharui.

5 Langkah 2, 3, dan 4 diulangi sampai nilai yi tidak melebihi batas θ atau sampai total jumlah S outlier sebesar m.

Pada algoritme Iterative Ratio dan Iterative Z value, jika S outlier terdeteksi, maka koreksi akan dilakukan dengan segera. Koreksi yang dilakukan adalah dengan mengganti nilai atribut S outlier dengan nilai rataan atribut di sekitarnya. Dengan adanya koreksi ini dapat mencegah titik normal yang berada dekat dengan spatial outlier terdeteksi sebagai spatial outlier.

METODE PE ELITIA

Dalam dokumen Spatial Outlier Detection On Bogor City Regional Election Data Based On Polling Center. (Halaman 73-78)