KLASTERISASI DATA MICROARRAY MENGGUNAKAN METODE CLIQUE PARTITIONING
Lisa Marianah1, Fhira Nhita2, Adiwijaya3
1,2,3ProdiS1 Ilmu Komputasi, Fakultas Informatika, Universitas Telkom 1
lisamarianah@gmail.com, 2fhiranhita@telkomuniversity.ac.id, 3adiwijaya@telkomuniversity.ac.id Abstrak
Microarray merupakan salah satu teknologi bioinformatika yang dapat mengetahui profil ekspresi gen secara paralel dalam jumlah dimensi yang besar. Microarray digunakan untuk membantu peneliti dalam melakukan diagnosis terhadap penyakit. Pada analisis penelitian, data Microarray yang memiliki jumlah dimensi yang besar akan sangat sulit untuk diteliti. Oleh karena itu dibutuhkan klasterisasi untuk memperoleh klaster sehingga dihasilkan informasi dari data tersebut.
Metode yang digunakan adalah clique partition yang didasari oleh prosedur branch and bound dan DFS untuk menelusuri setiap titik dalam graf.Proses menemukan klaster diawali dengan mentransformasikan data Microarray ke dalam graf yang dibentuk menjadi matriks adjacency. Dalam penelitian Penelitian ini, penentuan korelasi ditentukan berdasarkan nilai threshold. Mencari klaster menggunakan clique partition berarti mencari maximal clique. Hasil yang diperoleh menunjukkan perubahan threshold mempengaruhi jumlah klaster yang diperoleh. Analisis hasil klaster untuk data Microarray yang digunakan menunjukkan bahwa pemilihan threshold yang lebih kecil memberikan nilai error SSE yang lebih kecil.
Kata kunci: clique partition, klastering, Microarray, PCA, threshold 1. Pendahuluan
Microarray terdiri dari rangkaian representatif ekspresi gen manusia yang dianalisis dalam reaksi tunggal. Analisis Microarray hingga saat ini digunakan untuk melakukan diagnosis penyakit, misalnya kanker. Masalah yang dihadapi ketika menganalisis data Microarray adalah jumlah dimensi yang sangat besar dan kompleks. Permasalahan ini dikenal dengan istilah Curse of Dimensionality. Oleh karena itu dibutuhkan analisis klasterisasi untuk memperoleh klaster sehingga dihasilkan informasi baru yang cepat dan efektif dari data Microarray tersebut.Metode yang digunakan adalah clique partition yang merupakan teknik partisi dalam graf dengan prosedur branch and bound untuk menelusuri setiap titik dalam graf yang dibentuk. Sedangkan untuk data
preprocessing digunakan algoritma Principal Component Analysis (PCA). 2. Data mining
2.1. Klasterisasi Data Microarray
Analisis klaster data Microarray melibatkan dua buah faktor yaitu ukuran jarak dan algoritma klaster. Ukuran jarak ini akan menghitung kedekatan antar titik sampel untuk memutuskan apakah titik-titik sampel tersebut berada dalam klaster yang sama atau berbeda. Ukuran jarak paling umum adalah Euclidean Distance. Standardized Euclidean Distance
merupakan ukuran jarak Euclidean Distance yang telah distandarisasi. Nilai standarisasi = (nilai asli – mean) / standar deviasi
atau, 2 2 1 1 ( , y) (x ) n SE i i i i d x y s
(2.1) Ket:d = jarak StandardizedEuclidean Distance x, y = record/sampel data
s = standar deviasi
n = jumlah dimensi 2.2. PCA
PCA adalah teknik statistik yang digunakan untuk mereduksi dimensi data yang saling berkorelasi menjadi data berdimensi rendah yang tidak saling berkorelasi. Pada PCA, informasi dari seluruh data disimpan dalam PC (principal component). PC merupakan kombinasi linier yang memaksimumkan variansi dari dimensi asli. PC yang memiliki variansi tertinggi diletakkan dalam PC ke-1. Umumnya PC ke-1 menyimpan informasi terbesar dari data. Karena variansi yang diurutkan menurun, beberapa PC dapat dihilangkan untuk mereduksi dimensi sebuah data.
Teknik statistik [5] yang digunakan pada PCA yaitu kovarian dan perhitungan nilai dan vektor eigen. Proses PCA berhenti ketika vektor eigen telah diperoleh dan pada saat tersebut jumlah komponen yang ingin tetap disimpan ditentukan berdasarkan kriteria [4] yang dipilih. Pada penelitian digunakan kriteria Kaiser Guttman, dimana kriteria ini mempertahankan PC dengan nilai eigen yang lebih besar atau sama dengan satu.
2.3. Validasi Klasterisasi
Untuk mengetahui seberapa baik hasil klaster yang diperoleh, diperlukan evaluasi terhadap hasil klaster tersebut. Permasalahan klaster termasuk dalam unsupervised learning karena data tidak memiliki label sebelumnya, sehingga ukuran evaluasi yang dapat digunakan salah satunya adalah SSE [6]. Hasil klaster dikatakan baik jika nilai SSE yang diperoleh adalah minimum atau sama dengan nol.
2 ( , ) i i x C ClusterSSE dist c x
(2.2) Ket: Ci = klaster ke-ici = centroid klaster ke-i 2
( , )
idist c x
= jarak antara titik data x dan centroid klaster i3. Partisi Graf
2.1 Clique Partition
Clique merupakan teknik partisi dalam graf yang didasari oleh prosedur branch and bound. Clique diartikan sebagai subgraf lengkap dari sebuah graf tidak langsung yang terdiri dari pasangan titik (vertex) yang dihubungkan oleh sebuah sisi.
Maximal clique adalah subgraf lengkap yang bukan merupakan himpunan bagian dari subgraf lain yang termasuk clique. Sedangkan maximum clique adalah maximal clique yang memiliki size atau jumlah titik paling besar dibanding maximal clique lainnya.
2.2 Algoritma Clique
Bron-Kerbosch [1] merupakan salah satu algoritma clique yang digunakan untuk menemukan maximal clique dalam suatu graf tak langsung.
MaxClique(R,P,X) if P dan X empty then report R as maximal clique endif
choose pivot vertex u in PUX as vertex with highest number of neighbors in P for each vertex v in P\N(u) do
MaxClique(RUv, P ∩ N(v), X ∩ N(v))
PP\v XXUv
endfor
Langkah-langkah algoritma clique dapat dituliskan sebagai berikut: 1. Algoritma dimulai dengan menyalin semua titik di V ke dalam P.
2. Pilih salah satu titik v dari P dan tambahkan titik tersebut ke dalam R. Himpunan P dan X yang sebelumnya berisi titik-titik v kemudian diperbarui atau digenerate dengan mengambil irisan antara titik-titik v dalam P dengan titik-titik yang bertetangga dengan titik v yang sedang dipilih. 3. Jika maximal clique ditemukan, pindakan titik v ke dalam X dan generate titik baru dari P dan X sampai kosong.
4. Jika maximal clique belum ditemukan, ulangi langkah dengan menggenerate P dan X yang baru.
5. Jika P dan X yang baru kosong maka R adalah himpunan clique. 4. Rancangan Sistem
Sistem bertujuan melakukan klasterisasi data Microarray menggunakan clique partition. Input adalah data Microarray dan nilai threshold, sedangkan output adalah klaster yang pada analisis clique direpresentasikan oleh maximal clique. Awalnya data Microarray ditranformasikan ke dalam matriks adjacency. Titik dalam graf menyatakan record/sampel data, sedangkan sisi menyatakan hubungan atau korelasi antar sampel. Dalam matriks adjacency, sampel yang dinyatakan memiliki korelasi ditandai dengan nilai 1 dan sebaliknya. Perhitungan korelasi ini ditentukan oleh nilai
threshold, yang dalam hal ini jika nilai korelasi lebih besar atau sama dengan nilai threshold maka korelasi bernilai 1 dan sebaliknya.
5. Hasil pengujian
Pengujian sistem dilakukan pada dataset Microarray kanker prostat. Dataset terbagi menjadi data
training dan testing, dimana untuk sampel training berjumlah 102 dan untuk sampel testing
berjumlah 34. Jumlah dimensi sebanyak 12600 untuk masing-masing dataset. Analisis PCA
Pengujian pertama diawali dengan mereduksi dimensi dengan analisis PCA. Penentuan jumlah PC pada penelitian menggunakan aturan Kaiser Guttman yaitu mempertahankan PC yang memiliki nilai eigen lebih besar atau sama dengan satu. Setelah direduksi, dimensi data yang awalnya 12600 menjadi 101 dimensi.
Analisis Clique
Data baru yang dibentuk dari proses PCA merupakan data asli dengan dimensi yang lebih kecil yaitu 101 dimensi. Selanjutnya dihitung nilai korelasi untuk mengukur kedekatan antar titik (sampel). Perhitungan korelasi pada penelitian menggunakan ukuran jarak StandardizedEuclidean Distance. Selain itu ditambahkan nilai threshold yang diinput oleh user secara manual. Hasil akhir dari perhitungan korelasi adalah matriks adjacency yang dijadikan sebagai input untuk mencari klaster.
Implementasi algoritma cliqueuntuk kasus data Microarray kanker prostat diberikan dibawah ini. Berikut adalah hasil perbandingan jumlah klaster yang diperoleh terhadap 10 buah nilai threshold.
Tabel 1. Hasil klasterisasi
Threshold Jumlah Klaster 0.01 2 0.05 2 0.1 5 0.5 207 0.6 105 0.7 101 0.8 101 0.9 101 0.99 101 1 102
Gamba 1. Hasil klasterisasi
Dari gambar 1 diatas dapat dilihat bahwa semakin besar nilai threshold, maka semakin banyak jumlah klaster yang diperoleh. Namun untuk banyak klaster hal ini sangat tidak efektif, karena hanya terdapat satu buah titik sampel dalam satu klaster.
Selanjutnya dilakukan perhitungan SSE untuk mengevaluasi hasil klaster yang dibentuk. Pada data
training diberikan nilai SSE dalam berbagai nilai threshold sebagai berikut: Tabel 2. Evaluasi hasil Clustering
Threshold Jumlah Klaster SSE 0.01 2 1.9803 0.05 2 1.9803 0.1 5 17.29 0.5 207 477.882 0.6 105 152.5 0.7 101 114.568 0.8 101 105.833 0.9 101 100.98 0.99 101 100.98 1 102 101
Nilai SSE terkecil terletak pada threshold 0.01 dan 0.05 dengan nilai sebesar 1.9803. Dalam klasterisasi, semakin kecil nilai SSE maka semakin baik hasil klaster tersebut.
6. Kesimpulan dan Saran
Berdasarkan penelitian yang dilakukan, maka dapat diperoleh kesimpulan sebagai berikut:
Proses menemukan klaster pada data Microarray menggunakan clique partition dilakukan dengan mentransformasikan data ke dalam graf. Dari graf kemudian dibentuk matriks adjacency yang menyatakan hubungan titik dengan titik lain dalam data Microarray. Klaster yang direpresentasikan oleh jumlah maximal clique yang dihasilkan dalam analisis clique partition.
Dari hasil pencarian klaster dengan metode clique dapat dilihat bahwa perubahan nilai threshold
mempengaruhi hasil jumlah klaster yang diperoleh. Selain itu, untuk threshold yang lebih kecil memiliki nilai SSE yang lebih sedikit dibandingkan dengan threshold yang lebih besar.
Adapun saran mengenai kasus pada penelitian ini yaitu dibutuhkan penanganan lebih lanjut mengenai hasil klaster data Microarray yang overlap.
Daftar Pustaka:
[1] Kerbosch, Bron. 1971. Finding All Cliques of an Undirected Graph. Technological University Eindhoven, The Netherlands.
[2]Kochenberger Gary, Glover Fred, Alidaee Bahram, Wang Haibo. 2005. Clustering of Microarray Data via Clique Partitioning. 10:77-92.
[3] Korol, Abraham, Prof. Microarray Cluster Analysis and Applications. Institute of Evolution, University of Haifa. 0 100 200 300 0.01 0.1 0.6 0.8 0.99
Jumlah Klaster
Jumlah Klaster[4] Nhita, Fhira. 2007. Analisis PCA untuk Data Berdimensi Tinggi. Sarjana Teknik, STT Telkom. [5] Smith, Lindsay. 2002. A Tutorial on Principal Component Analysis.
[6] Tan, Pang-Ning, Michael Steinbach, Vipin Kumar. 2006. Introduction to Data mining. Michigan State University and University of Minnesota. Addison-Wesley.
[7] Tomita, Seki. 2003. An Efficient Branch-and-Bound Algorithm for Finding a Maximum Clique. Japan, Springer-Verlag Berlin Heidelberg.
[8] Wood, David. 1997. An Algorithm for Finding a Maximum Clique in a Graph. Australia, Operation Research Letters 21 (1997) 211-217