ISSN: 1942-9703 / © 2010 IIJ
Abstrak—Penelitian ini mengusung suatu metode pada CBIR untuk citra mammogram. Informasi yang bisa didapatkan dari mammogram menjadi descriptor dari sistem ini.
Bentuk dan tekstur adalah beberapa informasi yang bisa digunakan. Hasil ekstraksi fitur bentuk pada mammogram dapat dilihat secara visual, karena ekstraksi fitur ini berdasarkan pada bentuk mammogram itu sendiri. Sedangkan untuk mendapatkan fitur tekstur dari mammogram, diperlukan pembentukan matrik gray level co-occurrence. Dari matrik tersebut dilakukan proses ekstraksi 14 fitur tekstur haralick. Karena menggunakan dua jenis fitur (fitur bentuk dan fitur tekstur), maka untuk melakukan penggabungan fitur-fitur tersebut dalam proses pencarian citra, terlebih dahulu dilakukan proses normalisasi pada hasil perhitungan jarak untuk tiap-tiap fitur. Nilai hasil normalisasi tersebut berkisar 0-1. Bobot penentuan hasil pencarian untuk setiap fitur dihitung dengan hasil normalisasi tersebut.
Sistem ini akan menampilkan citra hasil pencarian berdasarkan urutan nilai jarak terkecil dengan citra query. Hasil uji coba yang dilakukan menunjukkan sistem ini mampu melakukan proses pencarian mamogram berdasarkan isi dengan nilai presisi sebesar 48%. Untuk proses kedepannya diharapkan adanya penelitian lebih lanjut lagi untuk memperbaiki citra hasil pencarian.
Kata kunci: CBIR, mammogram, haralick, fitur tekstur, fitur bentuk.
I. PENDAHULUAN
Kanker payudara adalah salah satu jenis kanker yang paling banyak menyerang kaum wanita. Menurut WHO 8-9% wanita akan mengalami kanker payudara. Pada tahun 2000 yang lalu WHO memperkirakan 1,2 juta wanita terdiagnosis kanker payudara dan lebih dari 700.000 meninggal dunia. Di Indonesia, pada tahun 2005 kanker payudara menduduki peringkat kedua setelah kanker leher rahim diantara kanker yang menyerang wanita Indonesia[1].
Kanker ini sering menyebabkan kematian jika penanganannya terlambat. Oleh karena itu, deteksi dini penyakit kanker payudara sangat diperlukan.
Di bidang medis, Content Based Image Retrieval (CBIR) digunakan untuk membantu ahli radiologi dalam mendapatkan citra yang mempunyai kemiripan isi. Metode CBIR biasanya dikembangkan berdasarkan fitur khusus pada citra, sehingga metode tersebut tidak mudah untuk diterapkan diberbagai jenis citra medis.
Banyaknya citra medis yang dihasilkan dari rumah sakit menciptakan kebutuhan untuk mengembangkan alat baru untuk mengambil informasi visual tersebut. Tugas dari
Anugrah Nahari mahasiswa Teknik Informatika Institut Teknologi Sepuluh Nopember Surabaya, (e-mail: [email protected]).
Content-Based Image Retrieval (CBIR) di bidang medis adalah untuk membantu ahli radiologi untuk mengambil citra dengan kemiripan isi, metode-metode CBIR biasanya dikembangkan untuk fitur citra secara spesifik, sehingga metode yang digunakan tidak selalu cocok jika diterapkan dengan citra medis jenis yang berbeda.
Kemajuan teknologi di bidang digital imaging membuat Content-Based Image Retrieval (CBIR) menjadi salah satu bidang penelitian yang membantu dalam proses pengolahan digital mammogram dalam mendiagnosa kanker payudara. Dalam beberapa tahun terakhir ini, Beberapa teknik penelitian tentang CBIR pada mammogram telah diterbitkan [2]. Hanife et all [11] menggunakan metode CBIR pada tanaman, fitur yang digunakan adalah fitur tekstur, bentuk dan warna. Chia-Hung Wei et all [12]
menggunakan CBIR pada mammogram dengan menggunakan fitur tekstur. Osadebey et all [6]
menggunakan fitur bentuk, tekstur dan informasi spatial.
Pemilihan fitur yang efektif sangat membantu dalam proses CBIR pada citra medis. Banyak penelitian yang difokuskan dalam mengidentifikasi dan mengekstrak fitur yang bertujuan untuk mendapatkan fitur dari suatu citra. Diantaranya adalah metode wavelet [3] dan filter Gabor [4]. Salah satu metode untuk mendapatkan tekstur fitur yaitu dengan menggunakan fitur tekstur Haralick [5].
Selain itu fitur tekstur, fitur yang digunakan adalah fitur bentuk[6].
Penggunaan fitur visual tersebut diharapkan dapat menemukan tanda ciri baik tekstur dan bentuk dari citra medis yang relevan dengan permasalahan diagnosis.
CBIR pada mammogram ini diharapkan bisa membatu memberikan masukan kepada dokter dalam melakukan diagnosa dengan bantuan citra hasil retrieve. Sehingga bisa meningkatkan diagnosa dokter tersebut.
Untuk menampilkan mammogram hasil dari pencarian, sebuah citra query harus melalui tiga tahap pada sistem CBIR ini. Tahap-tahap yang harus dilakukan adalah pengolahan citra, ekstraksi fitur dan perhitungan kemiripan berdasarkan fitur yang didapatkan dari citra query tersebut.
Pada tahap pengolahan citra terdapat proses segmentasi pada citra yang bertujuan untuk menghilangkan artifact/noise pada citra query. Hasil dari tahap ini dilanjutkan ke tahap ekstraksi fitur dengan tujuan untuk mendapatkan nilai fitur. Setelah nilai dari fitur tersebut didapatkan maka dilakukan proses pencarian kemiripan dengan citra yang sudah disimpan pada database.
Content Based Image Retrieval (CBIR) menjadi salah satu penelitian dengan masa depan yang cerah pada bidang computer vision dan banyak perkembangan telah dilakukan dalam beberapa tahun belakang ini. CBIR
Implementasi Temu Kembali Citra
Mammogram Dengan Teknik Ekstraksi Fitur Tekstur Dan Fitur Bentuk (Juli 2010)
Anugrah Nahari, Non Member, IEEE
mempunyai potensi yang kuat dalam diagnosa, penelitian dan pendidikan. Tujuan dari pembuatan perangkat lunak ini adalah memberikan kontribusi dalam pendekatan Content Based Image Retrieval pada citra medis, dalam kasus kali ini adalah mammogram.
Mammografi adalah hasil pemeriksaan radiologis khusus menggunakan sinar X dosis rendah untuk mengidentifikasi adanya kanker pada jaringan payudara, bahkan sebelum adanya perubahan yang terlihat pada payudara atau benjolan yang dirasakan pasien. Mammografi dianggap sebagai cara yang paling efektif untuk mengidentifikasi dan mendeteksi adanya kanker pada payudara, hal ini disebabkan tingkat akurasi yang mencapai hampir 80%-90% dari semua kasus kanker payudara.
Mammografi tidak mencegah atau bahkan mengobati, namun dapat mengurangi resiko terjadinya kematian dengan mengidentifikasi keberadaan tumor pada jaringan payudara dalam tingkat yang masih dapat ditangani dengan lebih mudah.
Mammogram merupakan citra hasil dari mammografi [7]. Mammogram dengan kualitas tinggi sangat efektif untuk mendeteksi kanker payudara secara dini. Semakin bertambah tua seseorang, resiko untuk terkena kanker semakin tinggi. Oleh karena itu, orang yang berumur diatas 40 tahun membutuhkan mammografi secara rutin setiap satu atau dua tahun sekali. Standardisasi mammografi dikenal dengan nama MQSA (Mammografi Quality Standards Act).
II. SISTEM TEMU KEMBALI CITRA MAMMOGRAM
Ada dua cara yang dapat dilakukan dalam pengambilan kembali suatu citra atau image retrieval [9]
1. Context-based adalah pengambilan data dengan merujuk pada kandungan semantik berkaitan dengan citra, biasanya berhubungan dengan deskripsi citra misalnya keyword dari citra.
2. Content-based adalah pengambilan data dengan merujuk pada fitur citra seperti warna, tekstur, bentuk, atau kombinasi atau yang biasa disebut dengan Content Based Image Retrieval (CBIR).
Pada perkembangannya teknik context based menjadi tidak praktis dikarenakan adanya ukuran basis data yang besar dan penilaian subjektif dalam mengartikan citra dengan teks. Untuk menghindari teknik ini, maka digunakan pendekatan lain dalam image retrieval yaitu content based.
CBIR adalah salah satu metodologi untuk pemanggilan kembali data citra berdasarkan isi sebuah citra. Teknik CBIR yang banyak digunakan adalah teknik warna, teknik tekstur, dan teknik bentuk. Pada sistem CBIR, content visual dari citra akan diekstraksi dan diuraikan menggunakan metode pengekstrakan ciri. Untuk mendapatkan kembali suatu citra, user memasukkan citra query. Kemudian sistem akan mengekstrak citra tersebut sehingga menghasilkan fitur ciri citra. Fitur ciri citra query dan citra dalam database akan dicari similaritasnya. Citra yang memiliki nilai kemiripan yang paling tinggi akan muncul diurutan teratas. Pada hakikatnya CBIR mencari citra berdasarkan informasi yang ada pada citra itu sendiri. Pemakaian CBIR dapat digunakan untuk image searching, video content, image registration, dan lain – lain.
Pemakaian CBIR kali ini akan diterapkan pada citra medis yaitu mammogram. Sistem ini terdiri dari tiga tahap untuk menghasilkan citra hasil retrieve. Tahap-tahap tersebut yaitu pengolahan citra digital, ekstraksi fitur dan pencarian kemiripan berdasarkan fitur seperti pada gambar 1[8].
A. Pra-pemrosesan
Kadang-kadang suatu citra mammogram mengalami degradasi karena adanya kesalahan atau gangguan pada saat pengambilan atau karena telah dikompresi kebentuk lain.
Oleh karena itu, diperlukan suatu perbaikan agar citra sesuai dengan kebutuhan aplikasi. Perbaikan citra merupakan salah satu langkah untuk memperjelas fitur-fitur dalam citra tersebut seperti tepi, batas untuk menghilangkan noise serta objek-objek yang tidak dibutuhkan pada citra. Hal ini dilakukan untuk mendapatkan nilai fitur tanpa adanya noise.
Gambar 1 Sistem Temu Kembali Citra Mammogram
Fitur Bentuk Fitur Tekstur
Preprocessing Ekstraksi Fitur
Citra query Pencarian Kemiripan
(Euclidean Distance)
Citra hasil retrieve
B. Otsu threshold
Fungsi dari proses segmentasi adalah memisahkan antara foreground dan background. Setiap citra mammogram mempunyai tingkat derajat keabuan yang berbeda, jika menggunakan nilai threshold yang tetap pada semua citra, maka bisa saja hasil threshold kurang bagus karena ada beberapa daerah yang terpotong. Untuk mengatasi permasalahan ini maka metode yang digunakan dalam proses thresholding ini adalah Otsu Thresholding.
Karena nilai threshold yang dihasilkan tergantung dari tingkat keabuan citra tersebut. Selain itu banyak penelitian yang menggunakan metode otsu ini [10].
Otsu Thresholding bertujuan sama dengan thresholding yang lainnya yaitu memisahkan background dan foreground dengan mendapatkan nilai variance dari setiap tingkat keabuan. Nilai threshold untuk memisahkan antara background dan foreground adalah tingkat keabuan yang mempunyai nilai variance terbesar.
Dengan menggunakan diskriminan analisis, Otsu mendefinisikan between-class variance dari threshold sebagai berikut
(1) Untuk bi-level thresholding, Otsu memilih optimal t* dengan memilih σB
2 yang maximal.
Hasil dari segmentasi citra berupa citra binary dimana 0 mewakili background dan 1 mewakili foreground. Pada gambar 2 adalah hasil dari Otsu Threshold, citra awal adalah citra mammogram dan sebelahnya adalah citra hasil Otsu pada citra tersebut.
C. Penghapusan film artifact
Citra hasil mammografi sering mengandung artifact yang berasal dari label untuk identifikasi (penanda) atau untuk alat pengganjal yang umumnya mereka berada pada daerah background. Artifact-artifact tersebut tidak transparan terhadap radiasi . Keberadaan artifact ini sangat mengganggu proses sehingga harus dihilangkan. Salah satu proses yang terganggu oleh keberadaan film artifact adalah proses segmentasi. Contoh dari keberadaan artifact pada mammogram ditunjukkan pada Gambar 3.
Untuk menghilangkan film artifact menggunakan algoritma connected component labeling. Connected component labeling and analysis adalah sebuah algoritma pengelompokan yang relatif sederhana dan telah digunakan selama bertahun-tahun untuk mengisolasi, mengukur, dan mengidentifikasi potensi daerah obyek dalam citra. Metode ini banyak digunakan dalam aplikasi industri dan biomedis dimana citra sering terdiri dari obyek dengan latar belakang kontras. Citra tersebut mungkin menyimpan data yang menghasilkan bentuk informasi yang berguna. Operasi pelabelan memberikan nama atau nomor yang unik ke semua piksel yang bernilai 1 yang termasuk piksel yang
terhubung pada citra. Sebagai hasil dari pelabelan adalah komponen yang individu dapat diekstraksi dari citra.
Connected component labeling bekerja dengan memindai citra, piksel demi piksel (dari atas ke bawah dan dari kiri ke kanan) untuk mengidentifikasi daerah piksel yang terhubung, yaitu daerah piksel berdekatan yang sama mempunyai nilai V (untuk citra biner V={1}. Namun pada citra grayscale nilai V berada pada rentang nilai tertentu, misal V={ 51, 52, 53, ..., 77, 78, 79, 80}).
Connected component labeling bekerja pada citra biner atau grayscale dan ukuran ketetanggaan yang berbeda (4 atau 8). Namun untuk kali ini akan diterapkan pada citra biner dengan delapan ketetanggaan. Connected component labeling operator memindai citra dengan bergerak sepanjang baris hingga sampai titik p (p menunjukkan piksel yang akan diberi label pada setiap tahap proses pemindaian) untuk nilai V={1}. Ketika kondisi ini bernilai benar, kemudian akan mengecek delapan titik tetangga dari p (yaitu posisi atas, bawah, kiri, kanan, diagonal kiri dan kanan). Berdasarkan informasi ini, pelabelan p terjadi sebagai berikut :
Jika semua tetangga bernilai 0, berikan label baru pada p,
Jika hanya satu tetangga bernilai V={1}, label p sama dengan label tetangga,
Jika lebih dari satu tetangga memiliki V={1}, menetapkan salah satu label untuk p.
Hasil akhir dari proses ini adalah sebuah citra yang diberikan label berdasarkan hubungan antar piksel, Setelah mendapat label dari tiap daerah pada citra, maka selanjutnya adalah mencari label dengan jumlah terbanyak, kemudian label dengan nilai terbanyak, pada piksel tersebut diberikan nilai 1 sedangkan yang lain bernilai 0. Gambar 4 adalah hasil dari penghapusan label pada citra mammogram.
Proses morfologi juga digunakan pada tahap ini.
Morfologi digunakan untuk mendapatkan komponen citra seperti tepi, skeleton, dan konvex hull. Konsep yang digunakan dalam operasi morfologi merupakan konsep himpunan. Di dalam operasi morfologi dikenal istilah struktur element. Struktur elemen yang digunakan dalam
Gambar 3. Artifact pada mammogram
Gambar 4 Penghilangan label pada mammogram Gambar 2 Hasil Segmentasi Otsu
suatu operasi morfologi berbeda-beda sesuai dengan kebutuhan.
Operasi pada morfologi yang digunakan adalah erosi dan ekstraksi tepi. Misal A dan B adalah himpunan pada ruang Z2, operasi erosi A oleh struktur elemen B dilambangkan dengan
A B
yang artinya adalah:(2) Jadi erosi dari A oleh B merupakan himpunan semua titik z dimana B merupakan himpunan bagian dari A.
Pada operasi erosi, jika (B)z tidak beririsan dengan A maka bagian A yang ditumpuki B akan dihapus. Citra hasil erosi lebih kecil dari pada citra asli.
Contoh dari proses erosi ditunjukkan pada Gambar 5. Citra asli, struktur elemen, dan citra hasil operasi erosi secara berurutan ditunjukkan pada Gambar 5(a, b, c).
Selain erosi, operasi morfologi yang digunakan adalah ekstraksi tepi. Tepi dari suatu citra A, dapat dilambangkan dengan (A) yang diperoleh dari pengurangan A dengan erosi A oleh B seperti persamaan 15.
(3) dimana B merupakan struktur elemen. Gambar 6 menunjukkan ilustrasi mekanisme ekstraksi tepi menggunakan operasi morfologi.
Operasi ini digunakan untuk mencari fitur bentuk dari citra mammogram.
D. Ekstraksi Fitur
Ada beberapa fitur yang bisa diambil dari sebuah citra yaitu fitur warna, bentuk dan tekstur. Penelitian dalam menggunakan ketiga fitur ini telah berkembang dalam beberapa tahun belakangan ini[11]. Pada perangkat lunak ini jenis fitur yang digunakan adalah fitur bentuk dan fitur tekstur. Fitur warna tidak digunakan pada sistem ini dikarenakan citra mammogram hanya memiliki tipe warna 8
bit. Hal ini berbeda dengan citra lain yang memiliki komposisi warna RGB (Red, Green, Blue).
Fitur yang pertama adalah fitur bentuk. Bentuk dari suatu obyek adalah karakter konfigurasi permukaan yang diwakili oleh garis dan kontur. Hal ini penting dalam CBIR karena berhubungan dengan Region of interest (ROI) pada citra. Pada pengolahan citra, bentuk adalah citra biner yang terdiri dari dari kontur atau garis obyek, diperoleh setelah proses segmentasi.
Fitur bentuk dikategorikan tergantung dari teknik yang digunakan. Kategori tersebut adalah berdasarkan batas (boundary-based) dan berdasarkan daerah (region-based).
Teknik berdasarkan batas (boundary-based) menggambarkan bentuk daerah dengan menggunakan karakteristik eksternal, contohnya adalah piksel sepanjang batas obyek. Teknik berdasarkan daerah (region-based) menggambarkan bentuk wilayah dengan menggunakan karakteristik internal, contohnya adalah piksel yang berada dalam suatu wilayah.
Fitur bentuk yang digunakan adalah:
1. Wilayah (Area)
Area adalah jumlah piksel dalam wilayah digambarkan oleh bentuk (foreground).
2. Lingkar (Perimeter)
Perimeter adalah jumlah dari piksel yang berada pada batas dari bentuk. Perimeter didapatkan dari hasil ekstraksi tepi.
3. Kekompakan (Compactness)
(4) 4. Euler number
Euler number atau faktor E adalah perbedaan antara jumlah dari connected component C dan jumlah lubang H pada citra.
(5) Fitur yang kedua adalah fitur tekstur. Fitur ini dihitung dari dengan statistical texture analysis. Diketahui tekstur adalah salah satu hal penting yang paling menentukan dalam mendefinisikan karakteristik pada citra.
Salah satu teknik statistik yang terkenal untuk ekstraksi fitur adalah matrix gray level co-occurrence.
Ide dasarnya adalah melakukan pemindaian untuk mencari jejak derajat keabuan setiap dua buah piksel yang dipisahkan dengan jarak d dan sudut θ yang tetap. Biasanya yang digunakan 4 sudut yaitu (0o, 45o, 90o, dan 135o ).
Gambar 5 Proses erosi
Gambar 6 Proses ekstraksi tepi
A B
AΘB β(A)
Gambar 7 Matrik GLCM
7 2 0 0 0 0 0 0 0 8 0 0 0 0 1 0 0 0
135° 90° 45°
x 0°
Jika derajat keabuan dari citra tersebut antara 1 – 256 maka akan ada matrix berukuran 256 × 256 untuk menyimpan informasi derajat keabuan dengan tetangganya.
Dalam perumusan matrix co-occurrence pada jarak d dan sudut θ adalah
(6)
dimana : I = image,
m = gray level dari piksel (x,y) R = nilai normalisasi,
M,N = level gray tone.
Matrix gray level co-occurrence adalah matrix dua dimensi dari joint probabilities Pr(i,j) diantara pasangan piksel, yang dipisahkan dengan jarak d pada arah yang diberikan r. Haralick mendefinisikan 14 tekstur fitur yang didapatkan dari co-occurrence matrix. Berbagai macam ukuran tekstur dapat diekstraksi dari matrix kedalam sebuah vektor fitur, seperti : Inverse Difference Moment,
Energy(Angular second moment), contrast, Correlation, Variance, Inverse variance difference moment, Sum difference average, Sum variance, Sum entropy, Entropy, Differance variance, Difference entropy, Information Measurement I dan Information measurement II dan Maximum probability .
E. Similarity measure
Tahap terakhir dalam sistem ini dalam pencarian kemiripan antara citra query dengan fitur dari citra-citra yang sudah disimpan pada database. Similarity measure antara citra query and setiap citra di database untuk setiap fitur tekstur dan bentuk dihitung dengan menggunakan
Euclidean Distance. Berikut ini adalah perhitungan dengan Euclidean Distance untuk mencari jarak antara fitur citra query dengan fitur citra pada database.
(7) Dimana:
D : Euclidean Distance.
J : database fitur dari citra Q : fitur dari citra query K = 1,2,3….P
P = jumlah citra pada database i = 1,2
i = 1, index untuk tekstur i = 1, index untuk bentuk
Hasil perhitungan Euclidean distance antara citra query dengan citra di database untuk setiap fitur dilakukan normalisasi. Jadi hasil perhitungan tersebut akan bernilai antar 0 dan 1. Proses normalisasi ini nanti digunakan untuk menampilkan citra hasil retrieve berdasarkan bobot tiap fitur. Bobot tiap fitur bernilai antar 0-1. Perhitungan untuk mendapatkan hasil retrieve berdasarkan bobot yang diberikan adalah sebagai berikut:
(8) Dimana :
R = nilai hasil pembobotan wt = bobot untuk fitur tekstur Dt = hasil Euclidean pada fitur tekstur ws = bobot untuk fitur bentuk Dt = hasil Euclidean pada fitur bentuk
Untuk menampilkan hasil retrieve, maka akan diurutkan berdasarkan nilai R yang terkecil.
(a) (b) (a) (b)
(a) Area pada citra (b) Area pada mammogram (a) Perimeter pada citra. (b) Perimeter pada mammogram
Euler Number pada citra Gambar 8 Fitur bentuk pada citra dan mammogram
F. Seleksi Fitur Untuk Sistem Temu Kembali Citra Setelah mendapatkan fitur tekstur dan fitur bentuk dari hasil ekstraksi fitur, maka dilakukan proses untuk memilih fitur yang paling diskriminan, a statistic multivariate t-test digunakan untuk menilai perbedaan yang signifikan antara mean dari A dan B, yang independen antara yang satu dengan yang lain. Yaitu tindakan individu dalam himpunan A yang sama sekali tidak terkait dengan salah satu tindakan individu dalam mengatur B. Nilai t-test diperoleh sebagai berikut:
= ∑( − ) (9)
= ∑( − ) (10)
=( ) ( ) (11)
= + (12)
= (13)
Dimana Ai dan Bi pada formula (42) dan (43) adalah elemen ke i dari A dan B, dan dan adalah mean dari A dan B. dan adalah jumlah dari kuadrat dari deviasi dari A dan B. V adalah variance. σ adalah standar deviasi. t adalah nilai dari t-test. Degree of freedom (d.f.) adalah ( + 1) + ( + 1). Pada kasus ini 4 citra normal (A) dan 20 citra abnormal (B) maka degree of freedom adalah 22. Berdasarkan tabel Critical Value of t, nilai t dari degree of freedom adalah 0.05. Ketika nilai t pad percobaan ini lebih besar dari 0.05, itu berarti bahwa ada jarak perbedaan jarak mean yang signifikan antara mammogram normal dan abnormal pada nilai fitur tersebut. G. Evaluasi Performa Relevance judgment merupakan bagian utama dalam evaluasi performa. Kriteria relevan dijelaskan pada tabel 1 yang dikembangkan dan digunakan pada kasus ini. Sebagai contoh anggap citra query adalah kelas calcification, citra hasil kembalian akan bernilai 0.5 jika termasuk dari salah satu kelas abnormal berikut: ill-defined masses, circumscribed masses, speculated masses, architectural distortion, dan asymmetry. Presisi dan recall adalah ukuran dasar yang digunakan dalam keefektifan evaluasi dari sistem temu kembali. Presisi adalah jumlah rasio dari hasil kembalian Recall adalah jumlah rasio hasil kembalian yang relevan dibanding jumlah total data yang relevan di database. = (15) Dimana Rn adalah jumlah hasil kembalian yang relevan, dan Tn adalah total jumlah citra relevan di database.
H. Parameter Hasil Pencarian
Untuk menentukan parameter hasil pencarian hal yang harus dilakukan adalah sebagai berikut:
1. Lakukan uji coba pencarian terhadap data pembelajaran.
2. Hitung presisi untuk setiap jenis pencarian (berdasarkan fitur tekstur, fitur bentuk dan kedua fitur tersebut).
3. Cari rata-rata dari nilai presisi tersebut (PR).
4. Hitung jarak rata-rata dari hasil pencarian yang mempunyai nilai presisi lebih besar atau sama dengan PR.
5. Maka akan didapatkan nilai ambang untuk ketiga jenis pencarian tersebut.
Setelah nilai ambang ditemukan, maka untuk menampilkan hasil pencarian tergantung pada nilai ambang tersebut. Jika nilai jarak hasil pencarian kurang dari nilai ambang tersebut, maka data hasil pencarian tersebut tidak akan ditampilkan. Jadi bisa saja pada saat melakukan pencarian tidak menampilkan hasil pencarian.
I. Tampilan Antarmuka
Antarmuka aplikasi dibutuhkan dengan tujuan untuk mempermudah pengguna dalam pengoperasian perangkat lunak. Tampilan antarmuka hanya terdiri dari satu form seperti ditunjukkan oleh gambar 9 dan mempunyai dua fungsi utama yaitu preprocessing dan pencarian yang ditampilkan dalam dua panel yang berbeda.
Pada panel preprocessing terdapat dua tab menu yang bisa dipilih, yaitu tab “collections” dan “insert data“.
Tab “collections” digunakan untuk menampilkan koleksi data yang ada pada database. Tab kedua adalah “insert data”. Tab ini berfungsi untuk memasukkan data ke database.
Perangkat lunak ini akan menampilkan citra hasil pencarian di database yang memiliki kemiripan fitur dengan citra masukan. Pada panel pencarian terdapat dua panel dan dua menu tab. Panel ini mempunyai fungi yang berbeda- beda.
Panel yang pertama adalah panel untuk memilih citra yang akan dijadikan citra query. Pada panel ini terdapat pilihan bobot untuk tiap fitur yang akan dimasukkan.
kelas citra query
Setelah pengguna menekan tombol “search”, hasil pencarian akan ditampilkan di tab “result”. Pada tab ini terdapat sepuluh panel citra yang akan menampilkan citra hasil pencarian sepuluh citra dalam satu halaman. Pada setiap panel citra akan ditampilkan nomor urut berdasarkan jarak terdekat dengan citra masukan dan data kelas tiap-tiap citra. Di sebelah kanan terdapat tabel yang akan menampilkan hasil dari pencarian. Untuk melihat hasil pencarian secara detil, pengguna dapat memilih data hasil pencarian dengan cara mengklik data pada tabel hasil pencarian. Kemudian akan terbuka tab “result detail”. Pada tab ini akan ditampilkan fitur apa yang dipilih pengguna baik pada citra masukan maupun citra di database. Selain itu juga akan ditampilkan gambar citra tersebut, jarak fitur antara kedua citra tersebut, data kelas dan severity.
III. UJICOBA
Data pembelajaran dan testing yang digunakan dari database MIAS (Mammographic Citra Analysis Society).
Citra pada data base ini telah dipilih secara teliti dari United Kingdom National Breast Screening Programme. Ukuran 1024x1024 dengan kasus normal, mass, dan microcalcification. Hal ini mengindikasikan adanya perbedaan pengelompokan ketidaknormalan seperti calcification, well defined circumscribed masses, speculated masses, ill defined masses, architectural distortion, asymetry dan normal.
Data pembelajaran dan data yang akan di-retrieve menggunakan data yang sama. Dalam uji coba ini data pembelajaran menggunakan dipilih dengan menyesuaikan jumlah rata-rata tiap kelas pada mammogram. Data untuk pembelajaran dan uji coba dijelaskan pada tabel 2.
perbandingan antara data untuk pembelajaran dan uji coba adalah 80% dan 20%.
A. Uji Coba Penghilangan Label/Artifact Pada Citra Pada Subbab ini dilakukan uji coba terhadap penghapusan film artifact. Film artifact pada mammogram bisa berupa penanda, pengganjal, atau penanda dan pengganjal. Masing-masing bentuk dari film artifact ditunjukkan pada Gambar 3. Uji coba dilakukan terhadap citra mammogram yang dipilih secara acak, yang berasal dari database MIAS.
Pada Gambar 10 ditunjukkan contoh hasil ujicoba penghapusan film artifact pada citra mammogram. Contoh penghapusan film artifact berupa penanda, pengganjal, serta penanda dan pengganjal ditunjukkan pada citra mdb002.pgm Contoh penghapusan film artifact berupa penanda yang tidak sempurna terjadi pada mdb267.pgm.
Tampak tulisan angka masih menempel pada daerah mammogram. Hal ini karena, antara penanda dan breast mammogram masih ada garis yang menghubungkan. Jadi
Nama citra Kondisi input Kondisi hasil mdb002.pgm
Nama citra Kondisi input Kondisi hasil mdb267.pgm
Gambar 10 Hasil uji penghapusan film artifact Gambar 9. Antarmuka sistem.
dapat disimpulkan bahwa penghapusan film artifact berhasil jika film artifact merupakan region sendiri dan tidak terhubung dengan breast. Selain itu luas dari film artifact itu tidak boleh melebihi luas dari breast pada mammogram.
Uji coba ini menggunakan citra uji coba yang telah dipersiapkan. Data kelas hasil retrieve ada tujuh yaitu calcification, well defined circumscribed masses, speculated masses, ill defined masses, architectural distortion, asymetry dan normal. Jumlah data uji coba adalah 24 data.
B. Uji t-test
Pada tabel 3 adalah hasil t-test pada fitur tekstur. Dari hasil tersebut dapat dilihat bahwa perbedaan nilai mean dari Correlation, Variance, Sum_Var, Sum_Entro, Entropy, Inf_Meas_1 dan Inf_Meas_2 dari citra normal dan abnormal sangat signifikan(t>0.5). Maka tujuh fitur tersebut dipilih untuk sebagai pembentuk descriptor.
Pada tabel 4 adalah hasil t-test pada fitur bentuk. Dari hasil tersebut dapat dilihat bahwa perbedaan nilai mean dari Euler Number dari citra normal dan abnormal sangat signifikan(t>0.5). Maka hanya Euler Number yang dipilih menjadi deskriptor.
C. Uji Coba Pencarian Citra Query
Uji coba ini menggunakan citra uji coba yang telah dipersiapkan. Data kelas hasil retrieve ada tujuh yaitu calcification, well defined circumscribed masses, speculated masses, ill defined masses, architectural distortion, asymetry dan normal. Jumlah data uji coba adalah 62 data.
Hasil presisi akan dihitung berdasarkan hasil munculnya citra yang mempunyai kelas yang sama dengan citra uji coba. Setiap citra uji coba dilakukan tiga kali pengujian untuk menghasilkan citra hasil retrieve. Pengujian pertama yaitu dengan memilih fitur tekstur, pengujian ke dua dengan menggunakan fitur bentuk, sedangkan yang terakhir adalah dengan gabungan antara fitur tekstur dan fitur bentuk dengan bobot masing-masing fitur yang berbeda.
Presisi dapat digunakan untuk menjelaskan akurasi sistem CBIR dalam mencari citra yang relevan dalam pencarian citra query. Tabel 5 menunjukkan tingkat presisi dalam pencarian dengan menggunakan tiga jenis pencarian adalah 44.44%, 45.93% dan 48.08%. Pencarian dengan jenis pencarian ketiga mempunyai tingkat presisi paling tinggi.
Recall digunakan untuk mengukur seberapa baik sistem CBIR mencari semua citra yang relevan dalam pencarian citra query. Tabel 6 nilai dari recall proses pencarian citra query. Secara teori bahwa jika nilai presisi tinggi, maka nilai recall rendah. Hubungan ini menjelaskan mengapa nilai recall berikut sangat rendah.
Hasil uji coba menunjukkan bahwa pencarian jenis ketiga (C) mempunyai performa paling baik dalam hal presisi dan recall dibanding dengan yang lain.
IV. SIMPULAN DAN SARAN
Berdasarkan aplikasi yang telah dibuat beserta uji coba yang telah dilakukan, maka dapat ditarik kesimpulan sebagai berikut.
Asymmetry 15 16 3
Tabel 3 Hasil t-test pada fitur tekstur
Fitur Normal Abnormal
mean variance mean variance t
ASM 15.6802 23.9733 16.7413 22.2618 0.4125
Contrast 192.1230 3128.9668 207.8238 2174.5673 0.2326 Correlation -0.0448 0.0006 -0.0438 0.0005 0.8730 Variance 425880.1675 53771243428 451580.126 1.56879E+11 0.8022
ID_Mon 4.6981 0.1300 4.7824 0.1513 0.4221
Sum_Aver 689088.3725 783450227.6 680620.4353 1445719288 0.3981 Sum_Var 1.17398E+15 2.98534E+28 1.14773E+15 3.64016E+28 0.6090 Sum_Entro -3923.6594 178057.5315 -3904.8296 221695.2990 0.8816
Entropy 7.3273 18.8717 6.6540 20.9305 0.5866
Diff_Vari 68349694163 1.01117E+21 75212089289 8.58454E+20 0.3969 Diff_Entro -5.3853 2.1346 -5.6973 2.1448 0.4347 Inf_Meas_1 -1.9930 380.4344 -3.7660 378.5195 0.7382
Inf_Meas_2 0.9995 0.0000 0.9960 0.0006 0.5597
Max_Prob 5.9922 0.0000 5.9922 0.0000 0.0000
Tabel 4 Hasil t-test pada fitur bentuk
Fitur Normal Abnormal
mean variance mean variance t
Area 361881.4375 11547527728.5292 339994.8636 13112447750.6938 0.4796 Perimeter 4457 644622.6667 4728.8409 1750189.5836 0.4291
Compact 56.8088 304.7057 65.1644 953.6613 0.2965
Euler Number -55.4375 581.1958 -62.0455 2866.2048 0.6299
ISSN: 1942-9703 / © 2010 IIJ Pengaruh adanya garis tipis yang menghubungkan antara
payudara dan film artifact bisa mengakibatkan film artifact tersebut tidak bisa dihilangkan. Selain itu ukuran film artifact yang lebih besar dari ukuran payudara menyebabkan kesalahan dalam menghapus film artifact tersebut. Karena yang terhapus adalah bagian payudara tersebut.
Berdasarkan hasil dari t-test, fitur yang berpengaruh pada fitur tekstur adalah Correlation, Variance, Sum_Var, Sum_Entro, Entropy, Inf_Meas_1 dan Inf_Meas_2.
Sedangkan pada fitur bentuk adalah Euler Number.
Penggunaan fitur bentuk kurang berpengaruh pada hasil pencarian, hal ini dikarenakan deteksi kanker payudara ditetapkan pada bagian dalam payudara, bukan pada bentuk luar payudara tersebut. Dengan menggunakan tiga jenis pencarian (fitur tekstur, fitur bentuk dan gabungan antara fitur tektur dan bentuk) hasil yang menunjukkan performa yang baik adalah adalah gabungan antar fitur tekstur dan fitur bentuk dengan tingkat presisi sebesar 48 % dan recall 3.98%.
Saran yang hendak disampaikan terkait dengan pengerjaan Tugas Akhir ini adalah hendaknya dapat dilakukan adalah tidak melakukan proses pencarian dengan citra mammogram secara utuh, melainkan memilih daerah yang ingin dicari, baik itu sebagai data masukan maupun data uji coba.
REFERENSI
[1] Badan Koordinasi Dan Kerjasama Nasional, Kanker Payudara, dilihat 14 Juli 2010, dari
www.hompedin.org/download/kankerpayudara.pdf.
[2] Choraś, Ryszard S. Shape and Texture Feature Extraction for Retrieval Mammogram in Databases.
Springer Berlin / Heidelberg, 2008.
[3] Ortega, M., Rui, Y. Chakrabarti, K. Supporting ranked Boolean similarity queries in MARS. IEEE Trans Knowledge Data Eng, 1998, 10, 905-925.
[4] Ma, W.; Manjunath, B. Texture features and learning similarity. In Proc IEEE Conference on Computer Vision and Pattern Recognition, San Francisco, CA, 1996, 425-430.
[5] Haralick, R. M., Shanmugam, K., & Dinstein, I. In Textural features for image classification. IEEE Transactions on SMC. New Jersey: Piscataway.
1973, 610–621.
[6] Osadebey , Michael Eziashi., Integrated Content- Based Image Retrieval Using Texture, Shape And Spatial Information, 2006.
[7] Department Of Health and Human Services-USA.
Mammografi Today. dari mambrochure.pdf.
[8] Zheng, Bin, Computer-Aided Diagnosis in Mammography Using Content-Based Image Retrieval Approaches - Current Status and Future Perspectives, Imaging Research Center, Department of Radiology, University of Pittsburgh, 2009
[9] Perpustakaan Teknologi Telkom,
http://www.ittelkom.ac.id/library/, diakses 14 juli 2010.
[10] M. Wirth, D. Nikitenko, J.Lyon. Segmentation of the Breast Region in Mammogram using a Rule-Based Fizzy Reasoning Algorthm. International Journal on Graphics Vision and Image Processing, 5, 2005.
[11] Kebapci, Hanife., Yanikoglu, Berrin. Unal, Gozde., Plant Image Retrieval Using Color, Shape, and Texture Features, The Computer Journal, 2009.
[12] Chia-Hung Wei, Chang-Tsun Li, Roland Wilson,., A General Framework for Content-Based Medical Image Retrieval with its Application to Mammograms, Department of Computer Science University of Warwick, 2005.
Tabel 5 Hasil Tingkat Presisi Pencarian Citra Query
NORM CIRC MISC ASYM ARCH SPIC CALC
A 13.49% 31.94% 59.77% 48.33% 57.50% 54.46% 56.16%
B 10.00% 61.25% 50.00% 48.89% 47.04% 61.11% 49.03%
C 25.83% 32.29% 50.00% 60.00% 35.71% 55.83% 79.17%
(Catatan : A = Fitur Tekstur; B = Fitur Bentuk; C = Fitur Tekstur dan Fitur Bentuk; NORM = Normal; CIRC = Circumscribed masses ;MISC = Other, ill-defined masses;ASYM = Asymmetry;ARCH = Architectural distortion;SPIC
= Spiculated masses;CALC = Calcification).
Tabel 6 Hasil Tingkat Presisi Pencarian Citra Query
NORM CIRC MISC ASYM ARCH SPIC CALC
A 6.25% 4.55% 9.47% 6.82% 9.09% 7.95% 6.53%
B 6.25% 5.68% 8.33% 6.82% 6.82% 7.95% 5.68%
C 6.25% 4.55% 3.03% 5.30% 5.68% 5.30% 3.98%