Ekstraksi Fitur 15 - Content Based Image Retrieval (CBIR)

Bab II Landasan Teori

2.2 Content Based Image Retrieval (CBIR)

2.2.1 Ekstraksi Fitur 15

Ekstraksi fitur (konten) adalah dasar dari retrieval citra berbasis konten. Secara umum ada dua fitur citra yaitu visual dan semantic (tekstual). Fitur visual adalah fitur yang terdapat dalam citra itu sendiri. Fitur visual dibagi menjadi dua yaitu general dan domain spesifik. General visual content termasuk warna, bentuk, tekstur dan relasi spasial. Domain spesific content contohnya seperti fitur untuk wajah manusia, sidik

jari . Semantic content adalah penambahan deskripsi secara tekstual berdasarkan ekstraksi fitur citra. Ekstraksi fitur citra yang dapat dilakukan untuk citra digital adalah mengubah citra input a[m,n] menjadi sebuah citra output b[m,n](Rui & Huang, 1999).

2.2.1.1 Colour Histogram

Colour Histogram (Histogram Warna) adalah grafik yag menunjukkan frekuensi kemunculan setiap nilai gradiasi warna. Bila digambarkan pada koordinat kartesian maka sumbu X (absis) menunjukkan tingkat warna dan sumbu Y (ordinat) menunjukkan frekuensi kemunculan. Histogram warna(Colour Histogram) merupakan fitur warna yang paling banyak digunakan. Histogram warna sangat efektif mengkarakterisasikan distribusi global dari warna dalam sebuah citra digital(Sutoyo, 2009).

Fitur warna yang diekstraksi dengan menggunakan Colour histogram dimungkinkan dalam pengambilan gambar yang telah ditransformasi menjadi ukuran yang berbeda, namun memiliki kelemahan karena dapat menampilkan hasil gambar yang tidak relevan. Color histogram tersebut didefinisikan sebagai berikut:

HR,G,B[r,g,b]=N.Prob {R=r,G=g,B=b}...(3)

Masing-masing komponen RGB memiliki jangkauan nilai 0-255. Histogram dapat disederhanakan agar proses perhitungan lebih cepat dengan kuantisasi nilai masing-masing komponen. Masing-masing komponen dapat dikuantisasi menjadi beberapa bin. Bin adalah rentang nilai masing-masing komponen. Persamaan untuk mengkuantisasi histogram adalah sebagai berikut :

Nilai terkuantisasi = 𝑁𝑖𝑙𝑎𝑖 𝑙𝑒𝑣𝑒𝑙 𝑘𝑜𝑚𝑝𝑜𝑛𝑒𝑛 𝑅𝐺𝐵 𝑥 𝐽𝑢𝑚𝑙𝑎 𝑕 𝐵𝑖𝑛

𝐽𝑢𝑚 𝑙𝑎𝑕 𝑙𝑒𝑣𝑒𝑙 𝐾𝑜𝑚𝑝𝑜𝑛𝑒𝑛 𝑅𝐺𝐵

...(4)

Jumlah piksel citra sangat beraga, maka histogram perlu dinormalisasi.

Normalisasi dilakukan dengan cara membagi jumlah piksel untuk masing-masing

piksel untuk masing-masing level dengan jumlah total piksel dalam citra sehingga didapatkan nilai minimum 0 dan maksimum 1 untuk tiap level warna.

2.2.1.2 Grey Level Co-Occurrence Matrices

Tekstur adalah fitur ekstraksi yang banyak digunakan tetapi tidak memiliki definisi yang tepat karena variabilitas nya luas. Tekstur merupakan keterangan tingkat rendah yang sangat baik untuk aplikasi pencarian dan pengambilan gambar. MPEG-7 sedang mempertimbangkan tiga deskriptor tekstur saat ini. Yang pertama disebuat sebagai texture browsing descriptors dan atribut ciri persepsi seperti arah, keteraturan, dan kekerasan dari tekstur. Yang kedua homogeneous texture descriptor (HTD).

Memberikan karakteristik kuantitatif daerah tekstur homogen untuk pengambilan kesamaan. Berdasarkan komputasi statik spasial frekuansi tekstur lokal. Yang terakhir edge histogram descriptors berguna ketika wilayah yang mendasari tidak homogen dalam sifat tekstur(Manjunath & Vinod, 2001).

Dalam analisis tekstur secara statistik, fitur ciri dikomputasi dari distribusi statistik kombinasi yang diobservasi dari intensitas pada posisi tertentu relatif terhadap satu sama lain dalam citra. Berdasarkan pada jumlah intensitas piksel dalam masing-masing kombinasi, statistik diklasifikasikan menjadi first-order, second-order, dan order statistik yang lebih tinggi.

Metode Grey Level Co-Occurrence Matrices (GLCM) adalah sebuah cara untuk mengekstraksi fitur tekstur statistik second-order. Pendekatan yang telah digunakan dalam sejumlah aplikasi, tekstur order ketiga dan yang lebih tinggi yang memperhitungkan hubungan antara tiga atau lebih piksel. Hal ini memungkinkan secara teori tetapi tidak umum diimplementasikan karena kalkulasi waktu dan kesulitan interpretasi.

Co-Occurrence didefinisikan sebagai distribusi gabungan dari level keabuan dua piksel yang terpisah jarak dan arah tertentu (∆x, ∆y)(referensi ke-5 identifikasi citra massa kistik). Sebuah GLCM adalah sebuah matriks dimana jumlah baris dan kolom sama dengan jumlah level keabuan, G, dalam citra. Elemen matriks P(i, j | ∆x,

∆y) adalah frekuensi relatif dengan dua piksel yang dipisahkan oleh jarak pixel (∆x,

∆y), terjadi di dalam ketetanggaan tertentu, yang satu dengan intensitas „i‟ dan yang lainnya dengan intensitas „j‟. Elemen matriks P(i, j | d, Ɵ) berisi nilai probabilitas statistik order kedua untuk perubahan antara level keabuan „i‟ dan „j‟ pada sebuah jarak perpindahan tertentu d dan pada sudut tertentu (Ɵ). Penggunaan jumlah yang besar tingkat intensitas G mengakibatkan besarnya penyimpanan data sementara, misalnya matriks G x G untuk tiap kombinasi dari (∆x, ∆y) atau (d, Ɵ). Karena besarnya dimensi, GLCM sangat sensitif terhadap ukuran sampel tekstur pada bagian yang diperiksa. Oleh karena itu, jumlah level keabuan sering direduksi(Mohanaiah, Sathyanarayana, & Gurukumar, 2013).

Langkah-langkah membuat GLCM simetris ternormalisasi adalah sebagai berikut:

1. Membuat framework matriks

2. Menentukan hubungan spasial antara piksel referensi dengan piksel tetangga, berupa sudut θ dan jarak d

3. Menghitung jumlah co-occurrence dan mengisikannya pada framework

4. Menjumlahkan matriks co-occurrence dengan transposnya untuk menjadikannya simetris

5. Normalisasi matriks untuk mengubahnya ke bentuk probabilitas.

Berikut ini adalah contoh matriks piksel dari sebuah citra dengan level keabuan adalah 4.

0 0 1 1 0 0 1 1 0 2 2 2 2 2 3 3

Untuk citra dengan tingkat keabuan 4 maka disiapkan matriks framework berukuran 4 x 4 sesuai dengan tingkat keabuan citra. Berikut ini adalah matriks framework yang disiapkan.

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Selanjutnya hubungan spasial untuk Ɵ = 0ô dan d=1 pada matriks citra dapat diisi ke dalam matriks framework tersebut untuk membentuk matriks co-occurrence dari matriks citra asal. Indeks baris ke-0 dan indeks kolom ke-0 menunjukkan jumlah kemunculan dua piksel dengan masing-masing memiliki nilai level keabuan 0 pada jarak d = 1 dan Ɵ = 0ô. Indeks kolom ke-0 dan indeks kolom ke-1 menunjukkan kemunculan dua piksel yang memiliki nilai keabuan masing-masing 0 dan 1 yang saling bertetangga pada jarak d=1 dan Ɵ = 0ô. Berikut adalah matriks co-occurrence yang merupakan matriks framework yang telah diisi.

2 2 1 0 0 2 0 0 0 0 3 1 0 0 0 1

Selanjutnya matriks co-occurrence tersebut dijumlahkan dengan matriks transpose dari matriks tersebut untuk membuatnya menjadi simetris terhadap diagonal matriks tersebut.

2 2 1 0 0 2 0 0 0 0 3 1 0 0 0 1

2 0 0 0 2 2 0 0 1 0 3 0 0 0 1 1

4 2 1 0 2 4 0 0 1 0 6 1 0 0 1 1

Selanjutnya dilakukan normalisasi terhadap matriks co-occurence simetris tersebut. Nilai hasil penjumlahan seluruh elemen matriks diperlukan dalam normalisasi matriks. Selanjutnya normalisasi dilakukan dengan membagi seluruh elemen matriks co-occurence dengan nilai hasil penjumlahan seluruh elemen matriks.

𝑃_𝑖,𝑗

3𝑖,𝑗 =0 = 4 + 2 + 1 + 0 + 2 + 4 + 0 + 0 + 1 + 0 + 6 + 1 + 0 + 0 + 1 + 1 = 23

1 23 𝑥

4 2 1 0 2 4 0 0 1 0 6 1 0 0 1 1

0.174 0.086 0.083 0

0.086 0.174 0 0

0.043 0 0.260 0.043

0 0 0.043 0.043

Setelah mendapatkan co-occurrence matrices ternormalisasi tersebut, maka ciri statistik orde dua dapat yang merepresntasikan citra yang diamati dapat dihitung.

Dalam tugas akhir ini digunakan 6 ciri statistik orde dua yaitu :

1. Energy

Parameter ini disebut juga dengan Angular Second Moment dan Uniformity.

Energy mengukur keseragaman tekstur yaitu perulangan pasangan piksel;

ketika potongan citra dianggap homogen (hanya ada level keabuan yang mirip) atau ketika terjadi keseragaman secara tekstur(pemindahan vektor selalu mengarah pada pasangan(i, j) level keabuan yang sama) , hanya sedikit (kemungkinan hanya satu) elemen GLCM yang akan lebih besar dari 0 dan mendekati 1, ketika banyak elemen yang mendekati 0. Pada kasus tersebut energy mencapai nilai yang mendekati maksimum, yaitu 1. Oleh karena itu, nilai energy yang tinggi terjadi ketika distribusi level keabuan pada citra bernilai konstan(Baraldi, 1995).

Energy =

^𝑁−1_{𝑖,𝑗 =0}

𝑃

_𝑖,𝑗²...(5)

Keterangan :

P : Elemen matriks GLCM N : Jumlah indeks matriks i : Indeks baris matriks j : Indeks kolom matriks

Parameter ini mengukur ketidakteraturan sebuah citra. Ketika sebuah citra tidak bertekstur seragam, banyak elemen GLCM mempunyai nilai yang sangat kecil yang mengakibatkan nilai entropy sangat besar. Dari sudut pandang konseptual, entropy sangat berhubungan secara terbalik dengan energy. Secara teori, hasil yang mirip diharapkan untuk pengelompokan energy dan entropy.

Sebuah keuntungan dengan menggunakan energy dibandingkan entropy terletak pada fakta bahwa energy mempunyai rentang yang ternormalisasi(Baraldi, 1995).

Entropy = ^𝑁−1_{𝑖,𝑗 =0}

𝑃

_𝑖,𝑗

− ln 𝑃

_𝑖,𝑗 ...(6)

Keterangan :

P : Elemen matriks GLCM N : Jumlah indeks matriks i : Indeks baris matriks j : Indeks kolom matriks

3. Contrast

Frekuensi spasial adalah perbedaan antara nilai tertinggi dan terendah dari sebuah kumpulan piksel yang berdekatan. Definisi ini juga berlaku untuk ekspresi contrast dalam GLCM, khususnya ketika modul vektor perpindahan sama dengan satu. Hal ini menunjukkan bahwa sebuah citra yang mempunyai nilai kontras yang rendah tidak selalu ditandai dengan distribusi level keabuan yang kecil, dengan kata lain tidak selalu disertai dengan sebuah nilai variansi yang rendah, tapi citra yang bernilai kontas rendah pasti mencirikan frekuensi spasial yang rendah. Kesimpulannya adalah contrast GLCM cenderung terhubung dengan frekuensi spasial sedangkan modul vektor perpindahan cenderung satu. Sebuah citra yang memiliki kontrast rendah menunjukkan susunan konsentrasi GLCM di sekitar diagonal utama dan akibatnya adalah nilai kontras yang rendah(Baraldi, 1995).

Contrast = ^𝑁−1_{𝑖,𝑗 =0}

𝑃

_𝑖,𝑗

𝑖 − 𝑗

²...(7)

Keterangan :

P : Elemen matriks GLCM N : Jumlah indeks matriks i : Indeks baris matriks j : Indeks kolom matriks

4. Variance

Variance (Variansi) dalam GLCM adalah pengukuran terhadap keheterogenan dan sangat berkaitan dengan variabel statistik order pertama seperti standar deviasi. Khususnya, ketika sebuah daerah citra berbentuk persegi diinvestigasi teksturnya, variansi statistik order pertama sama dengan variansi GLCM jika perpindahan vektor GLCM adalah satu dan jika sudut yang digunakan dalam investigasi tersebut adalah 0^o atau 90^o. Variansi meningkat ketika nilai level keabuan berbeda dari rata-ratanya. Variansi tidak bergantung pada parameter kontras GLCM, khususnya ketika modul vektor perpindahan cenderung satu, karena sebuah daerah dapat mempunyai frekuensi spasial yang rendah dan nilai kontras yang rendah sementara variansi dapat memiliki nilai yang rendah maupun nilai yang tinggi(Baraldi, 1995).

𝜎

=

^𝑁−1_{𝑖,𝑗 =0}

𝑃

_𝑖,𝑗

𝑖 − 𝜇

²...(8)

Keterangan : σ² : Variansi

P : Elemen matriks GLCM N : Jumlah indeks matriks i : Indeks baris matriks

j : Indeks kolom matriks

5. Correlation

GLCM correlation diekspresikan oleh koefisien korelasi antara dua variabel acak i dan j, dimana i mewakili hasil yang mungkin dalam pengukuran level keabuan untuk elemen pertama dari vektor perpindahan, sementara j diasosiasikan dengan level keabuan dalam elemen kedua dari vektor perpindahan. Korelasi adalah sebuah pengukuran saling ketergantungan level keabuan secara linear dalam sebuah citra, secara khususnya arah investigasi sama dengan vektor perpindahan. Nilai korelasi yang tinggi (mendekati satu) menunjukkan sebuah hubungan linear antara level keabuan dari pasangan piksel. Sehingga, GLCM correlation tidak berkorelasi dengan GLCM energy dan entropy untuk pasangan piksel berulang, karena korelasi yang tinggi dapat diukur baik dalam keadaan energy yang rendah maupun tinggi. CLCM correlation juga tidak berkorelasi dengan kontras GLCM, karena prediktabilitas yang tinggi dari level keabuan dalam satu piksel dari piksel kedua dalam pasangan piksel sangat tidak bergantung kepada kontras(Baraldi, 1995).

Correlation =

𝑃

_𝑖,𝑗 ^{𝑖− 𝜇}^𝑖^{𝑗 − 𝜇}^𝑗

𝜎_𝑖² 𝜎_𝑗²

𝑁−1𝑖,𝑗 =0 ...(9)

Keterangan : σi2

: Nilai variance berdasarkan piksel referensi σi2

: Nilai variance berdasarkan piksel tetangga μi : Nilai mean berdasarkan piksel referensi μj : Nilai mean berdasarkan piksel tetangga P : Elemen matriks GLCM

N : Jumlah indeks matriks i : Indeks baris matriks j : Indeks kolom matriks

6. Inverse Difference Moment

Inverse Difference Moment biasa disebut juga dengan homogeneity yang mana mengukur kehomogenan sebuah citra, yang mengasumsikan semakin besar nilai untuk perbedaan level keabuan yang lebih kecil dalam elemen berpasangan. Berkaitan dengan hal tersebut, parameter ini lebih sensitif terhadap kehadiran elemen yang berada dekat diagonal dalam GLCM. GLCM contrast dan GLCM inverse difference moment berhubungan secara terbalik(Baraldi, 1995).

Inverse Difference Moment

=

^𝑁−1_{𝑖,𝑗 =0}_{1+ 𝑖−𝑗}^𝑃^𝑖,𝑗 ₂...(10)

Keterangan :

P : Elemen matriks GLCM N : Jumlah indeks matriks i : Indeks baris matriks j : Indeks kolom matriks

2.3 Metode Pengukuran Kemiripan (Similiarity Meassure)

Dalam proses CBIR terdapat sub proses matching (pencocokan) dan pengukuran kemiripan (similarity measure) merupakan salah satu proses penting yang harus diperhatikan. Pengukuran derajat kesamaan atau kecocokan pada dua atau lebih citra.

hal itu dilakukan dengan menghitung kemiripan (similarity) untuk mencari nilai-nilai kemiripan dari suatu citra dengan citra lainnya berdasarkan distance (jarak) vektor.

Distance (jarak) digunakan untuk menentukan kesamaan (similarity degree) atau ketidaksamaan (disimilarity degree) dua vektor fitur. Tingkat kesamaan berupa suatu nilai (score) dan berdasarkan nilai tersebut dua vektor fitur akan dikatakan mirip atau tidak. Semakin besar nilai distance (mendekati satu), maka kedua citra tersebut

semakin berbeda, sebaliknya semakin kecil nilai distance (mendekati nol), maka semakin mirip kedua citra tersebut(Putra, 2009).

Adapun beberapa metode yang dapat digunakan untuk mengukur tingkat kemiripan dua buah vektor fitur yaitu:

1. Euclidian Distance

Metrika yang paling sering digunakan untuk menghitung kesamaan dua vektor euclidean distance menghitung akar dari kuadrat perbedaan dua vektor (root of square differences between two vectors). Semakin kecil nilai jarak euclidian maka semakin mirip dua vektor tersebut dan sebaliknya semakin besar nilai jarak euclidian maka semakin tidak mirip kedua vektor tersebut(Zhang, 2002).

Adapun persamaan eucledian distance sebagai berikut:

d(A, B) =

^𝑛_{𝑗 =1}

𝐻

_𝑗^𝐴

− 𝐻

_𝑗^𝐵 ²...(11)

Keterangan : A : Vektor A B : Vektor B

d(A,B) : Jarak Euclidian antara vektor A dan vektor B n : Jumlah elemen vektor

j : Indeks elemen vektor H : Elemen vektor

2. City Block Distance

City block distance biasanya disebut sebagai manhattan distance /boxcar distance/absolute value distance. City block distance menghitung nilai mutlak perbedaan dari 2 vektor(Putra, 2009). Adapun persamaan city block distance sebagai berikut

Dt (X2,X1) = || X2 – X1|| = ^𝑃_𝑓=1|𝑋_2𝑓 − 𝑋_1𝑓|...(12)

Dt : Jarak City Block X2 : Vektor kedua X1 : Vektor Pertama f : Indeks elemen vektor p : Jumlah elemen vektor

3. Chebyshe Distance

Chebyshev distance disebut juga maximum value distance yang mengukur jarak berdasarkan nilai mutlak atau sebuah magnitudo absolut perbedaan 2 vektor. Dari masing – masing nilai perbedaan akan dipilih nilai paling besar untuk dijadikan chebyshev distance)(Putra, 2009). Adapun persamaan chebyshev distance sebagai :

di,j = max (|𝑋_𝑖𝑘 − 𝑋_𝑗𝑘|)...(13)

Keterangan :

d_i,j : Jarak Chebyshe X_i :Vektor pertama X_j : Vektor kedua k : Indeks Matriks

4. Minkowski Distance

Minkowski distance dengan ordo λ ini menggeneralisasikan beberapa metrika sebelumnya, dimana λ=1 dinyatakan sebagai city block distance, λ=2 dinyatakan dengan euclidean distance dan λ=∞ (tak terhingga) dinyatakan dengan Chebyshev distance)(Putra, 2009). Adapun persamaan minkowski distance sebagai berikut :

d_p (Q, T) =

^𝑁−1_𝑖=0

𝑄

_𝑖

− 𝑇

_𝑖 ^λ ¹^λ...(14)

Keterangan :

Dp : Jarak Minkowski Q : Vektor Q

T : Vektor T

N : Jumlah elemen vektor i : Indeks elemen vektor

5. Canberra Distance

Dalam canberra distance, untuk setiap nilai dari 2 vektor yang akan dicocokan, canberra distance membagi absolute selisih 2 nilai dengan jumlah dari absolute 2 nilai tersebut. Hasil dari setiap dua nilai dicocokkan lalu dijumlahkan untuk mendapatkan canberra distance. Jika kedua koordinat nol – nol kita memberikan definisi dengan 0/0 = 0. Canbera distance ini sangat peka terhadap sedikit perubahan dengan kedua koordinat mendekati nol)(Jurman, 2009). Adapun persamaan canberra distance sebagai berikut :

d_i,j= ^|𝑋^𝑖𝑘^{− 𝑋}^𝑗𝑘^| 𝑋_𝑖𝑘|+|𝑋_𝑗𝑘

𝑛𝑘=1 ...(15)

Keterangan :

di,j : Jarak Canberra X_i : Vektor i

X_j : Vektor j k : Indeks vektor

n : Jumlah elemen vektor

6. Bray Curtis Distance

Bray curtis distance sering disebut juga dengan sorensen distance. Metode normalisasi ini biasanya banyak digunakan dalam ilmu tumbuh-tumbuhan, ekologi dan ilmu lingkungan. The bray curtis distance mempunyai properti jika nilai yang dibandingkan positif dan nilai-nilainya akan berada diantara 0 dan 1. Bray curtis distance dirumuskan dengan jumlah dari absolute pengurangan dibagi jumlah 2 nilai yang dibandingkan. Zero bray curtis

distance menandakan kesamaan. Jika kedua objek sama nilainya nol akan menyebabkan pembagian dengan nol maka untuk kasus ini perlu didefinisikan sebelumnya)(Putra, 2009). Adapun persamaan Bray Curtis distance sebagai berikut :

d

_i,j

=

^|𝑋^𝑖𝑘^−𝑋^𝑗𝑘^|

𝑛𝑘=1

𝑋_𝑖𝑘+𝑋_𝑗𝑘

𝑛𝑘=1

...(16) Keterangan :

d_i,j : Jarak Bray Curtis X_i : Vektor i

X_j : Vektor j k : Indeks vektor

n : Jumlah elemen vektor

7. Correlation Coefficient

Correlation coefficient adalah standarisasi angular separation dengan pengurangan nilai koordinat dengan nilai mean. Nilainya di antara -1 dan +1.

Correlation coefficient juga lebih menghitung nilai kesamaan dibandingkan ketidaksamaan. Jadi semakin tinggi nilainya menunjukkan 2 vektor semakin mirip(Putra, 2009). Adapaun persamaan correlation coefficient sebagai :

r = ^𝑋^𝑖^{− 𝑋 𝑌}^𝑖^{− 𝑌}

𝑛𝑖=1

^𝑛_𝑖=1 𝑋_𝑖− 𝑋 ² ^𝑛_𝑖=1 𝑌_𝑖−𝑌 ²

...(17)

Keterangan :

r : Correlation Coefficient n : Jumlah elemen vektor X : Elemen vektor X Y : Elemen vektor Y

𝑋 : Nilai rata-rata elemen vektor X 𝑌 : Nilai rata-rata elemen vektor Y i : Indeks elemen vektor

8. Hamming Distance untuk nilai biner

Urutan biner 0 dan 1 dinamakan word dalam teori coding. Jika dua word memiliki sama panjang, kita dapat menghitung jumlah dimana posisi word berbeda. Jumlah digit yang berlainan disebut hamming distance(Putra, 2009).

Adapun persamaan hamming distance sebagai berikut :

di,j = q + r ...(18)

Dalam dokumen SKRIPSI ANGGA ERIANSYAH S (Halaman 27-41)