PENDETEKSIAN PARASIT MALARIA DALAM SEL DARAH MANUSIA MENGGUNAKAN METODE CONVOLUTIONAL NEURAL NETWORK. Skripsi

(1)

PENDETEKSIAN PARASIT MALARIA DALAM SEL DARAH

MANUSIA MENGGUNAKAN METODE CONVOLUTIONAL

NEURAL NETWORK

Skripsi

Oleh:

RAIS AMIN

NIM: 1113091000070

PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH

JAKARTA

(2)

i UIN Syarif Hidayatullah Jakarta

PENDETEKSIAN PARASIT MALARIA DALAM SEL DARAH

MANUSIA MENGGUNAKAN METODE CONVOLUTIONAL

NEURAL NETWORK

Skripsi

Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer

Oleh :

RAIS AMIN

NIM : 1113091000070

PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH

JAKARTA

(3)

(4)

iii UIN Syarif Hidayatullah Jakarta

LEMBAR PERSETUJUAN

PENDETEKSIAN PARASIT MALARIA DALAM SEL DARAH MANUSIA MENGGUNAKAN METODE CONVOLUTIONAL NEURAL NETWORK

Skripsi

Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer (S.Kom)

Oleh :

Rais Amin - 1113091000070

Menyetujui, Pembimbing I

Dr. Imam Marzuki Shofi, M.T

NIP. 197202052008011010

Pembimbing II

Drs. M. Tabah Rosyadi, M.A.

NIP. 196207141989031004

Mengetahui,

Ketua Prodi Teknik Informatika

Dr. Imam Marzuki Shofi, M.T

(5)

(6)

v UIN Syarif Hidayatullah Jakarta

PERNYATAAN PERSETUJUAN PUBLIKASI SKRIPSI

Sebagai civitas akademik UIN Syarif Hidayatullah Jakarta, saya yang bertanda tangan dibawah ini:

Nama : Rais Amin NIM : 111309100070 Program Studi : Teknik Informatika Fakultas : Sains dan Teknologi Jenis Karya : Skripsi

Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Islam Negeri Syarif Hidatullah Jakarta Hak Bebas Royalti Noneksklusif (Non-exclusive Royalty Free Right) atas karya ilmiah saya yang berjudul:

PENDETEKSIAN PARASIT MALARIA DALAM SEL DARAH MANUSIA MENGGUNAKAN METODE CONVOLUTIONAL NEURAL NETWORK

Beserta perangkat yang ada (jika diperlukan). Dengan hak Bebas Royalti Noneksklusif ini Universitas Islam Negeri Syarif Hidayatullah Jakarta berhak menyimpan, mengalihmedia/formatkan, merawat, dan mempubikasikan tugas akhir saya selama tetap mencantumkan nama saya sebagai penulis/pencipta dan sebagai pemilik Hak Cipta. Demikian pernyataan ini saya buat dengan sebenarnya.

Dibuat di: Jakarta Pada Tangal: 10 Agustus 2020

Yang menyatakan

(7)

KATA PENGANTAR

Assalamu’alaikum Wr. Wb.

Puji syukur senantiasa penulis panjatkan atas kehadirat Allah SWT yang telah melimpahkan karunia, nikmat dan anugerah-Nya sehingga penulis dapat menyelesaikan penelitian sampai akhir proses penulisan skripsi ini. Tak lupa shalawat serta salam senantiasa dihaturkan kepada junjungan kita baginda Nabi Muhammad SAW beserta keluarga dan para sahabatnya. Penyusunan skripsi ini adalah salah satu syarat untuk memperoleh gelar Sarjana Komputer (S.Kom) pada program studi Teknik Informatika, Fakultas Sains dan Teknologi, Universitas Islam Negeri Syarif Hidayatullah Jakarta.

Dalam proses penulisan skripsi ini, tidak terlepas dari bimbingan, bantuan, dukungan, saran, dan motivasi yang penulis terima dari berbagai pihak. Oleh karena itu, penulis ingin mengucapkan terima kasih banyak kepada :

1. Ibu Prof. Dr. Lily Surraya Eka Putri, M.Env.Stud., selaku Dekan Fakultas Sains dan Teknologi.

2. Bapak Dr. Imam Marzuki Shofi, M.T, selaku ketua Program Studi Teknik Informatika, serta Bapak selaku sekretaris Program Studi Teknik Informatika. 3. Bapak Dr. Imam Marzuki Shofi M.T, selaku Dosen Pembimbing I dan Bapak

Drs. M. Tabah Rosyadi, M.A., selaku Dosen Pembimbing II yang telah memberikan bimbingan, motivasi, dan arahan kepada penulis sehingga skripsi ini bisa selesai dengan baik.

4. Seluruh Dosen, Staf Karyawan Fakultas Sains dan Teknologi, khususnya Program Studi Teknik Informatika yang telah memberikan bantuan dan kerjasama dari awal perkuliahan.

6. Orang tua penulis, yaitu Ibu Yurnensi yang telah mencurahkan kasih sayang, do’a, dan dukungan penuh kepada penulis dalam mengerjakan skripsi.

(8)

vii UIN Syarif Hidayatullah Jakarta

7. Teman-teman TI C 2013. Terima kasih atas perhatian dan dukungan serta masukan yang membangun demi terselesaikannya skripsi ini. Semoga kita bisa lebih baik lagi dan sukses di masa yang akan datang.

8. Seluruh teman-teman TI UIN angkatan 2013 yang tidak bisa disebutkan satu persatu yang senantiasa mendukung dan memberikan semangat kepada penulis dalam menyelesaikan skripsi ini. Semoga kita bisa sukses di masa mendatang. 9. Seluruh pihak yang tidak dapat disebutkan satu-persatu yang secara langsung

maupun tidak langsung membantu penulis dalam menyelesaikan skripsi ini. Akhir kata, penulis berharap semoga skripsi ini bermanfaat serta menambah wawasan dan pengetahuan bagi pembaca. Penulis menyadari bahwa skripsi ini masih jauh dari sempurna, untuk itu kritik dan saran yang bersifat membangun sangat diharapkan dengan mengirimkan melalui email

Jakarta, 10 Agustus 2020 Rais Amin

(9)

Nama : Rais Amin

Program Studi : Teknik Informatika

Judul : Pendeteksian Parasit Malaria Dalam Sel Darah Manusia Menggunakan Metode Convolutional Neural Network

ABSTRAK

Malaria adalah penyakit dalam darah yang disebabkan oleh parasit Plasmodium yang ditularkan oleh gigitan nyamuk Anopheles betina. Ahli mikroskopis biasanya memeriksa sel darah untuk mendiagnosis penyakit malaria ini. Namun, akurasi mereka tergantung pada kualitas alat dan keahlian dalam mengklasifikasikan dan menghitung sel parasit dan yang tidak terinfeksi. Pemeriksaan semacam itu akan sangat sulit dalam proses diagnosis skala besar dan menghasilkan kualitas yang buruk. Beberapa dataset malaria telah dikembangkan, diantaranya adalah dataset yang dikembangkan oleh LHNVBC yang berisikan 27.558 data gambar sel. Proses pengolahan data science adalah salah satu proses yang dapat menggambarkan protokol analitik prediktif yang umum untuk diinterogasikan pada dataset biomedis dan kesehatan yang besar dan kompleks. Dalam penelitian ini dataset malaria akan di proses melalui pengolahan data science dengan menggunakan model Convolutional Neural Network yang menggunakan arsitektur ResNet dengan pembelajaran Deep Learning dimana sistem akan melalui pelatihan dan kemudian dapat mengenali parasit malaria dalam sel darah manusia. Hasil akurasi menjadi tolak ukur seberapa akurat pembelajaran yang diterima untuk mengenali data gambar sel yang menjadi input pada sistem sebanyak 96,23 % dan 97% setelah diuji coba pada data testing.

Kata Kunci : Malaria, Data Science, Deep Learning, Convolutional Neural Network Daftar Pustaka : 45 (Tahun 2015 – 2020)

Jumlah Halaman : VI BAB + xiv Halaman + 80 Halaman + 27 Gambar + 5 Tabel

(10)

ix UIN Syarif Hidayatullah Jakarta

DAFTAR ISI

PERNYATAAN ORISINALITAS ... ii

LEMBAR PERSETUJUAN ... iii

PENGESAHAN UJIAN ... iv

PERNYATAAN PERSETUJUAN PUBLIKASI SKRIPSI ... v

KATA PENGANTAR ... vi

ABSTRAK ... viii

DAFTAR ISI ... ix

DAFTAR GAMBAR ... xiii

DAFTAR TABEL ... xiv

BAB I PENDAHULUAN ... 1 1.1 Latar Belakang ... 1 1.2 Rumusan Masalah ... 6 1.3 Batasan Masalah ... 6 1.4 Tujuan Penelitian ... 6 1.5 Manfaat Penelitian ... 6 1.6 Sistematika Penulisan ... 7

BAB II LANDASAN TEORI ... 9

2.1 Malaria ... 9

2.2 Data Science ... 11

2.3 Klasifikasi Gambar ... 11

(11)

2.5 Machine Learning ... 14

2.6 Deep Learning ... 15

2.7 Jaringan Syaraf Tiruan / Artificial Neural Network (ANN) ... 16

2.8 Convolutional Neural Network (CNN) ... 17

2.8.1 Arsitektur Jaringan CNN... 19

2.8.2 Fungsi Aktivasi ... 22

2.8.3 Learning Rate ... 23

2.8.4 Data Augmentation/ Data Augmentasi ... 24

2.9 Precision dan Recall ... 26

2.10 Epoch ... 26 2.11 ResNet ... 26 2.12 Python ... 31 2.13 Keras ... 32 2.14 Tensorflow ... 32 2.15 Open CV ... 33 2.16 OSEMN Framework ... 33

2.17 Studi Literatur Sejenis ... 35

BAB III METODOLOGI PENELITIAN ... 39

(12)

xi UIN Syarif Hidayatullah Jakarta 3.1.1 Studi pustaka ... 39 3.2 OSEMN Framework ... 39 3.2.1 Obtain(Pengumpulan data) ... 39 3.2.2 Scrub(Data Preparation) ... 40 3.2.3 Explore(Eksplorasi data) ... 40 3.2.4 Modelling(Perancangan Model) ... 40 3.2.5 iNterpreting(Mengintrepretasikan hasil) ... 40 3.3 Kerangka Berpikir ... 41 BAB IV IMPLEMENTASI ... 42 4.1 Obtain(Pengumpulan data) ... 42 4.2 Scrub(Data Preparation) ... 42 4.3 Explore(Eksplorasi data) ... 45 4.4 Modelling(Perancangan Model) ... 46 4.5 iNterpreting(Mengintrepretasikan hasil) ... 50

BAB V HASIL DAN PEMBAHASAN ... 53

5.1 Pembagian training, test dan validation dataset ... 53

5.2 Arsitektur Jaringan ... 54

5.2.1 Proses Convolution Layer ... 65

(13)

5.2.3 Proses Fully Connected ... 66 5.3 Akurasi ... 66 5.4 Prediksi ... 68 BAB VI PENUTUP ... 73 6.1 Kesimpulan ... 73 6.2 Saran ... 73 DAFTAR PUSTAKA ... 75

(14)

xiii UIN Syarif Hidayatullah Jakarta

DAFTAR GAMBAR

Gambar 2.1 Diagram Kecerdasan Buatan ... 13

Gambar 2.2 Perbandingan Pemrograman Tradisional dengan Machine Learning ... 14

Gambar 2.3 Contoh Jaringan Convolutional Neural Network (CNN) ... 19

Gambar 2.4 Ilustrasi Arsitektur CNN ... 20

Gambar 2.5 Feature Map ... 21

Gambar 2.6 Plot learning rate terhadap loss ... 23

Gambar 2.7 Augmentasi dengan perputaran gambar maksimal 90 ° ... 24

Gambar 2.8 Blok Residual ... 27

Gambar 2.9 Contoh arsitektur keseluruhan dari ResNet ... 28

Gambar 2.10 Ilustrasi operasi max pooling dan average pooling pada CNN ... 30

Gambar 2.11 Hasil Penelitian Literatur 1 ... 35

Gambar 2.12 Hasil Penelitian Literatur 4 ... 36

Gambar 3.1 Kerangka Berpikir Penelitian ... 41

Gambar 4.1 tree susunan folder project ... 43

Gambar 4.2 Konfigurasi pembagian dataset ... 43

Gambar 4.3 Source code pembagian dataset... 45

Gambar 4.4 Source Code Data augmentation ... 46

Gambar 4.5 Arsitektur model ResNet ... 48

Gambar 4.6 Source code pelatihan model ... 49

Gambar 4.7 Source code pengujian akurasi prediksi ... 50

Gambar 4.8 Source code untuk menampilkan visualisasi hasil prediksi gambar sel .. 51

Gambar 5.1 Dataset Malaria ... 53

Gambar 5.2 Model yang terbentuk dari hasil training ... 64

Gambar 5.3 Uji Akurasi Model ... 67

Gambar 5.4 Grafik model loss dan accuracy ... 68

Gambar 5.5 Hasil uji akurasi pada data testing ... 69

(15)

DAFTAR TABEL

Tabel 2.1 Perbandingan ANN, CNN dan RNN ... 24

Tabel 2.2 Perbandingan Penelitian sejenis ... 36

Tabel 5.1 Sebaran data hasil pembagian dataset ... 54

(16)

1

BAB I PENDAHULUAN

1.1 Latar Belakang

Penyakit Malaria masih merupakan masalah kesehatan masyarakat yang menyebabkan kematian terutama pada kelompok resiko tinggi yaitu bayi, anak balita, ibu hamil, selain itu malaria secara langsung menyebabkan anemia dan dapat menurunkan produktivitas kerja.

Pada tahun 2018, diperkirakan 228 juta kasus malaria terjadi di seluruh dunia dengan jumlah total kematian 405 ribu. Sebagian besar kasus malaria pada tahun 2018 berada di Wilayah Afrika (213 juta atau 93%), diikuti oleh Wilayah Asia Tenggara dengan 3,4% dari kasus dan Wilayah Mediterania Timur dengan 2,1%.(WHO, 2019)

Penemuan kasus malaria dilakukan berdasarkan gejala klinis, melalui pemeriksaan sediaan darah yang dilakukan dengan konfirmasi laboratorium menggunakan mikroskop maupun Rapid Diagnostik Test (RDT).(WHO, 2019)

Tingkat akurasi pemeriksaan sediaan darah sangat tergantung kepada keahlian manusia dan dapat dipengaruhi oleh variabilitas antar pengamat dan terbatasnya sumber daya daerah dalam pemeriksaan skala besar pada wilayah dimana malaria endemik. Teknik alternatif seperti Polymerase Chain Reaction (PCR) dan Rapid Diagnostic Test (RDT) telah digunakan, namun analisis PCR terbatas dalam kinerjanya dan RDT kurang efektif dalam hal biaya pada pemeriksaan skala besar di wilayah dimana malaria endemik.(Rajaraman et al., 2018)

Beberapa dataset malaria telah dikembangkan guna membantu dalam hal pemeriksaan dan diagnosis penyakit malaria. Penelitian ini meggunakan dataset (Lhncbc.Nlm.Nih.Gov) yang berisikan repositori sel tersegmentasi dari aktivitas penelitian Malaria Screener. Dataset ini dikembangkan oleh para peneliti di Lister Hill

(17)

National Center for Biomedical Communications (LHNVBC), yang tergabung dalam bagian National Library of Medicine (NLM). Dataset ini diambil menggunakan aplikasi seluler yang telah dikembangkan yang berjalan pada smartphone Android yang terpasang pada mikroskop cahaya konvensional. Sel darah yang diwarnai cairan Giemsa dari 150 pasien yang terinfeksi parasit dan sel darah dai 50 pasien sehat dikumpulkan dan difoto di Rumah Sakit Chittagong Medical College, bangladesh. Kamera yang terpasang pada smartphone memperoleh gambar slide untuk setiap bidang pandang mikroskopis. Gambar-gambar tersebut dianotasikan secara manual oleh pembaca slide yang ahli di Mahidol-Oxford Tropical Medicine Research Unit di Bangkok, Thailand. Peneliti NLM menerapkan algoritma berbasis level-set untuk mendeteksi dan mensegmentasi sel darah merah. Dataset ini dibuat untuk mengurangi beban para mikroskopis di daerah yang sumber dayanya terbatas dan juga untuk meningkatkan akurasi diagnostik malaria. Dataset berisi total 27.558 gambar sel dengan jumlah data yang sama pada sel yang terkena parasit (Parasitized) dan sel yang tidak terinfeksi (Uninfected). (Https://Lhncbc.Nlm.Nih.Gov/Publication/Pub9932, n.d. diakses 18 juli 2020)

Jumlah, kompleksitas, dan kecepatan agregasi biomedis dan data layanan kesehatan akan meningkat dengan cepat selama beberapa dekade berikutnya. Kemungkinan akan berlipat ganda setiap 1-2 tahun. Ini didorong oleh langkah besar dalam teknologi digital dan komunikasi, perangkat IoT, dan layanan Cloud, serta kemajuan algoritmik, komputasi, dan perangkat keras yang cepat. Permintaan publik yang semakin meningkat untuk deteksi waktu-nyata, interpretasi yang tepat, dan sistem diagnosis yang dapat diandalkan manusia dalam hal kesehatan dan penyakit juga mempercepat tren itu. Proses pengolahan data science adalah salah satu proses yang dapat menggambarkan protokol analitik prediktif yang umum untuk diinterogasikan pada dataset biomedis dan kesehatan yang besar dan kompleks. Prosesnya dimulai dengan mengidentifikasi masalah, diikuti dengan menentukan sumber data dan meta-data, pembersihan, penyelarasan komponent meta-data, preprocessing meta-data, inferensi ilmiah

(18)

3

UIN Syarif Hidayatullah Jakarta

berbasis model, dan diakhiri dengan prediksi, validasi dan penyebaran data, perangkat lunak, protokol dan temuan penelitian (Dinov, 2018). Dari uraian tersebut, proses pengolahan data science dapat menjadi jawaban untuk dapat membuat sistem diagnosis otomatis dari dataset biomedis dan kesehatan, termasuk penyakit malaria.

Sistem diagnosis otomatis bertujuan untuk melakukan tugas pemeriksaan sediaan darah ini tanpa campur tangan manusia dan untuk menyediakan alat yang obyektif, dapat diandalkan, dan efisien untuk melakukannya. Sistem diagnosis otomatis dapat dirancang dengan memahami keahlian diagnostik dan merepresentasikannya dengan algoritma pemrosesan gambar, analisis, dan pengenalan pola khusus yang disesuaikan. Meskipun ini bukan topik penelitian yang populer, sejumlah studi visi terlihat secara langsung membahas diagnosis otomatis malaria. Meskipun sangat khusus, jika angka kematian dianggap hasil, maka studi ini dapat dianggap penting seperti beberapa aplikasi visi komputer populer lainnya. Studi ini memberikan tinjauan tentang studi visi komputer diagnosis malaria dan bermaksud untuk mengisi celah pada tugas pemeriksaan sediaan darah ini.

Sistem diagnosis otomatis ini dapat dirancang menggunakan proses penerapan metode Machine Learning (ML), representasi fitur yang akurat merupakan inti dari kesuksesan untuk mencapai hasil yang diinginkan. Mayoritas sistem diagnosis otomatis berbasis analisis gambar menggunakan ML dengan representasi hand-engineered features dalam pengambilan keputusan(Poostchi et al., 2018). Namun proses ini menuntut keahlian khusus dalam menganalisis variabilitas ukuran, latar belakang, sudut, dan Region Of Interest (ROI) pada gambar. Untuk mengatasi tantangan dalam perancangan hand-engineered features yang menangkap variasi dalam data dasar, digunakanlah model Deep Learning (DL) yang dikenal sebagai hierarchical learning yang dapat digunakan dalam mencapai kesuksesan yang signifikan(Lecun et al., 2015).

(19)

Model DL menggunakan lapisan unit kaskade non-linier untuk menemukan reprentasi fitur hirarki pada data mentah. Fitur dengan tingkat yang lebih tinggi diabstraksikan dari tingkat yang lebih rendah untuk membantu dalam proses pembelaaran yang kompleks, fungsi pengambilan keputusan non-linier, yang dihasilkan dalam ekstraksi dan klarifikasi end-to-end (Schmidhuber, 2015). Tidak seperti algoritma berbasil kernel seperti Support Vector Machine (SVM) pada model ML, model DL menunjukkan peningkatan kinerja dengan peningkatan ukuran data dan sumber daya komputasi, dan membuatnya memiliki skala yang lebih tinggi. (Srivasta et al., 2014)

Pada sebuah gambar, sumber informasi yang penting terletak pada korelasi lokal spasial diantara piksel/voxel yang berdekatan. Covolutional Neural Networks (CNN) yang merupakan sebuah kelas pada mode DL, dirancang untuk mengeksploitasi iniformasi ini melalui mekanisme local receptive fields, shared weights dan pooling (Hinton dkk, 2015). Dalam representasi dan pengembangan performa CNN beberapa model seperti AlexNet, VGGNet, GoogleNet, Resnet dan DenseNet, model-model ini telah mencapai peningkatan yang sangat signifikan dengan menggunakan lebih sedikit parameter dan perhitungan. Kinerja CNN yang menanjikan disertai dengan ketersidiaan jumlah data yang dianotasi yang sangat besar. Dengan kelangkaan data anotasi pencitraan medis, digunakanlah metode Transfer Learning yang dimana model pra-latih DL disesuaikan baik pada data yang mendasarinya atau digunakan sebagai ekstraktor fitur untuk membantu dalam tugas-tugas pengenalan visual. Model-model ini mentransfer pengetahuan mereka saat mempelaari fitur-fitur umum dari dataset skala besar untuk tugas yang mendasarinya(Razavian et al., 2014). Dan diakui bahwa CNN yang dilatih pada dataset skala besar dapat berfungsi sebagai ekstraktor fitur untuk berbaai tugas computer vision dalam membantun peningkatan kinerja, dibandingkan metode lain. (Bousetouane & Morris, 2015)

Saat ini, banyak penelitian yang telah menerapkan DL dan memperoleh hasil yan menjanjikan dalam berbagai tugas analisis dan pemahaman gambar medis. Pada

(20)

5

Evaluations of deep convolutional neural networks for automatic identification of malaria infected cells(Dong et al., 2017) dan Visualizing abnormalities in chest radiographs through salient network activations in Deep Learning (Sivaramakrishnan et al., 2017) membuktikan bahwa CNN memliki lebih sedikit parameter hasil, lebih sedikit model kompleksitas dan waktu komputasi. Dan juga membuktikan bahwa CNN memiliki akurasi yang tinggi dan juga dapat mengekstraksi banyak lapisan fiur input data secara otomatis.

Pada penelitian (Sivaramakrishnan et al., 2017) dalam membandingkan arsitektur CNN yaitu AlexNet, VGG-16, ResNet, Xception dan Densenet, penilitian ini mengamati dari studi validasi silang bahwa ResNet mengungguli arsitektur CNN yang lainnya dalam semua metrik kinerja untuk tugas mengklasifikasikan. Dan arsitektur ResNet memperoleh tingkat akurasi sebesar 95,59 dan mengungguli arsitektur yan lainnya.

Dalam penulisan ini, penulis akan menggunakan model DL berbasis pre-tained CNN dengan arsitektur ResNet sebagai fitur ekstraktor dalam mengklasifikasi parasitized dan uninfected cells untuk membantu dalam peningkatan sistem diagnosis penyakit malaria.

(21)

1.2 Rumusan Masalah

Berdasarkan latar belakang tersebut, penulis merumuskan masalah sebagai berikut :

“Bagaimana cara pengolahan Data Science dalam menghasilkan tingkat akurasi yang baik pada pendeteksian parasit penyebab malaria menggunakan metode Convolutional Neural Network?”

1.3 Batasan Masalah

Adapun batasan masalah pada penulisan ini adalah:

1. Pendeteksian dilakukan pada gambar sel darah manusia.

2. Analisis dan perancangan sistem aplikasi menggunakan bahasa pemrograman python.

3. Dalam melakukan pengolahan data science, penulis menggunakan OSEMN Framework.

4. Dalam melakukan pemodelan pada pengolahan data science, penulis menggunakan metode Convolurional Neural Network dengan arsitektur ResNet.

5. Dataset berdasarkan studi literatur (Lhncbc.Nlm.Nih.Gov).

1.4 Tujuan Penelitian

Proses pengolahan Data Science dalam menghasilkan tingkat akurasi yang baik pada pendeteksi parasit malaria dalam sel darah manusia menggunakan metode Convolotuional Neural Network.

1.5 Manfaat Penelitian

Manfaat dari penulisan ini antara lain: Bagi pengguna

(22)

7

2. Memudahkan untuk mendapatkan informasi tentang parasit penyebab malaria guna untuk memahami dan mendeteksi penyakit malaria.

Bagi penulis

1. Mendapatkan ilmu pengetahuan mengenai penyakit malaria.

2. Mendapatkan pemahaman tentang data science, image processing dan metode Convolutional Neural Network.

1.6 Sistematika Penulisan

Untuk memudahkan dalam penulisan skripsi, penulis menyusunnya ke dalam enam bab. Setiap bab-nya terdiri dari beberapa sub bab tersendiri. Bab tersebut secara keseluruhan saling berkaitan satu sama lain, dimana diawali dengan bab pendahuluan dan diakhiri bab penutup yang berisi kesimpulan dan saran. Secara singkat akan diuraikan sebagai berikut:

BAB I PENDAHULUAN

Dalam bab ini akan dibahas mengenai latar belakang, batasan masalah, tujuan, dan manfaat serta sistematika penulisan.

BAB II LANDASAN TEORI

Dalam bab ini akan dibahas mengenai berbagai teori yang mendasari analisis permasalahan dan berhubungan dengan topik yang dibahas.

BAB III METODOLOGI PENELITIAN

Bab ini membahas mengenai metode penelitian yang akan digunakan dalam pengolahan data science pada Pendeteksi Parasit Malaria

(23)

Pada bab ini membahas mengenai hasil dari analisis, perancangan, implementasi dan pengujian sesuai dengan metode yang dilakukan pada sistem yang dibuat serta hasil dari pengujian.

BAB V HASIL DAN PEMBAHASAN

Bab ini membahas mengenai hasil dan pembahasan tentang pengolahan data science pada sistem pendeteksi parasit malaria menggunakan metode Convolutional Neural Network.

BAB VI PENUTUP

Bab ini berisi tentang kesimpulan dari penelitian yang telah dilakukan dan saran yang diusulkan untuk pengembangan lebih lanjut agar tercapai hasil yang lebih baik.

(24)

9

BAB II

LANDASAN TEORI 2.1 Malaria

Malaria adalah suatu penyakit yang disebabkan oleh parasit yang termasuk dalam anggota spesies dari genus Plasmodium. Plasmodium falciparum, Plasmodium vivax, Plasmodium ovale dan Plasmodium malariae hampir disemua kasus terjadi pada manusia. Malaria ditransmisikan dari manusia ke manusia oleh nyamuk Anopheles betina kemudian berkembang dan bereplikasi didalam eritrosit inang vertebrata. (Millar & Cox-Singh, 2015)

Malaria adalah penyakit menular yang disebabkan plasmodium, yaitu makhluk hidup bersel satu yang termasuk ke dalam kelompok protozoa. Malaria ditularkan melalui gigitan nyamuk Anopheles betina yang mengandung Plasmodium di dalamnya. Plasmodium yang terbawa melalui gigitan nyamuk akan hidup dan berkembang biak dalam sel darah merah manusia. Penyakit ini menyerang semua kelompok umur baik laki-laki maupun perempuan. Orang yang terkena malaria akan memiliki gejala: demam, menggigil, berkeringat, sakit kepala, mual atau muntah. (PUSDATINKemenkesRI, 2016)

Sampai saat ini menurut (Center for Disease Control and Prevention, 2018) dikenal 5 jenis spesies plasmodium penyebab malaria pada manusia, yaitu:

1. Plasmodium falciparum, adalah parasit malaria yang ditemukan di daerah tropis dan subtropis di dunia. Diperkirakan setiap tahunnya ada 1 juta orang yang terbunuh akibat parasit ini, terutama di Afrika. Plasmodium falciparum adalah penyebab malaria tropika yang sering menyebabkan malaria yang berat, karena memiliki kemampuan melipat ganda secara cepat dalam darah sehingga dapat menyebabkan anemia. Selain itu Plasmodium falciparum dapat menyumbat pembuluh darah kecil. Ketika ini terjadi di otak akanmenyebabkan malaria serebral dengankomplikasiyang dapat berakibat fatal (kematian).

(25)

2. Plasmodium vivax, adalah parasit malaria penyebab malaria tertiana yang kebanyakan ditemukan di Asia, Amerika Latin, dan beberapa bagian di Afrika. Karena padatnya penduduk terutama di Asia menyebabkan Plasmodium vivax merupakan parasit malaria yang paling umum ditemukan pada manusia. Plasmodium vivax memiliki tahapan dormansi dalam hati (hypnozoites) yang dapat aktif dan menyerang darah(relapse) dalam beberapa bulan atau tahun setelah gigitan nyamuk yang terinfeksi.

3. Plasmodium malariae, adalah penyebab malaria quartana yang ditemukan di seluruh dunia. Plasmodium malariae adalah satu-satunya spesies parasit malaria pada manusia yang memiliki siklus quartan (siklus tiga hari), sedangkan tiga spesies lainnya memiliki siklus tertiana (siklus dua hari). Infeksi Plasmodium malariae mampu bertahan dalam waktu yang lama jika tidak diobati. Dalam beberapa kasus, infeksi kronis dapat berlangsung seumur hidup. Pada beberapa pasien kronis yang terinfeksi.

4. Plasmodium ovale dapat menyebabkan komplikasi yang serius seperti sindrom nefrotik. Plasmodium ovale, adalah parasit malaria yang menyebabkan malaria ovale tetapi jenis ini jarang dijumpai. Plasmodium ovale banyak ditemukandi Afrika (terutama Afrika Barat) dan pulau-pulau di Pasifik Barat. Plasmodium ovale secara biologis danmorfologis sangat mirip dengan Plasmodium vivax. Plasmodium ovale dapat menginfeksi individu yang negatif untuk golongan darah duffy (salah satu penggolongan darah selain ABO dan Rh) sedangkan Plasmodium vivax tidak. Golongan darah duffy banyak ditemukan pada penduduk Sub-Sahara Afrika. Hal ini menjelaskan prevalensi infeksi Plasmodium ovale banyak terjadi di sebagian besar Afrika.

5. Plasmodium knowlesi merupakan parasit malaria baru yang bisa menginfeksi manusia. Plasmodium knowlesi ditemukandi seluruh Asia Tenggara sebagai pathogen alami dari kera ekor panjang dan babi. Baru-baru ini Plasmodium knowlesi terbukti menjadi penyebab signifikan malaria zoonosis, terutama di

(26)

11

Malaysia. Plasmodium knowlesi memiliki siklus replikasi 24 jam dan begitu cepat dapat berkembang menjadi infeksi yang parah.

2.2 Data Science

Data science adalah sebuah bidang baru yang muncul dan menjadi ilmu yang sangat transdisipliner, yang menjembatani antara bidang teoritis, komputasi, eksperimental, dan biososial. Data science juga berurusan dengan sejumlah besar data yang kompleks, tidak selaras, dan dinamis yang berasal dari berbagai sumber. Data Science bertujuan untuk mengembangkan algoritma, metode, alat, dan layanan yang mampu mengolah dataset dan menghasilkan sistem penunjang keputusan semi-otomatis. (Dinov, 2018)

Data Science adalah interdisipliner ilmu yang inheren dengan pendekatan sains. Teknik eksperimental baru telah merevolusi biologi selama bertahun - tahun dari sekuensing DNA dan mikroarray di masa lalu ke CRISPR dan cryo-EM baru-baru ini. Data Science berbeda karena itu bukan merupakan teknik tunggal, melainkan kerangka kerja untuk menyelesaikan seluruh jajaran masalah. Potensi Data Science untuk menjawab pertanyaan dalam berbagai disiplin ilmu yang berbeda sangat menggairahkan banyak peneliti. (Ezer & Whitaker, 2019)

2.3 Klasifikasi Gambar

Klasifikasi gambar atau citra adalah sebuah pekerjaan untuk memasukkan citra dan menempatkan ke dalam suatu kategori. Ini merupakan salah satu dari permasalahan yang ada pada Computer Vision yang dapat disederhanakan dan memiliki berbagai macam aplikasinya. Salah satu aplikasi dalam klasifikasi citra adalah pengklasifikasian nama tempat pada suatu citra.

Setiap citra yang di input pada training set data diberikan label atau penamaan. Saat klasifikasi, label atau penamaan tersebut akan menjadi perbandingan dengan hasil hipotesis yang diberikan oleh model pembelajaran dan akan menghasilkan nilai error. Klasifikasi yang terawasi ini bisa sangat efektif dan akurat dalam mengklasifikasikan

(27)

citra tempat maupun objek lainnya. Banyak metode dan algoritma yang dapat mendukung proses klasifikasi yang terawasi terutama dengan teknik Deep Learning (Putri, 2018)

2.4 Artificial Intellegence (AI)

Kecerdasan Buatan atau Artificial Intelligence (AI) adalah teknik yang digunakan untuk meniru kecerdasan yang dimiliki oleh makhluk hidup maupun benda mati untuk menyelesaikan sebuah persoalan. Untuk melakukan hal ini, setidaknya ada tiga metode yang dikembangkan.

• Fuzzy Logic(FL).

Teknik ini digunakan oleh mesin untuk mengadaptasi bagaimana makhluk hidup menyesuaikan kondisi dengan memberikan keputusan yang tidak kaku 0 atau 1. Sehingga dimunculkan sistem logika fuzzy yang tidak kaku. Penerapan logika fuzzy ini salah satunya adalah untuk sistem pengereman kereta api di Jepang.

• Evolutionary Computing(EC).

Pendekatan ini menggunakan skema evolusi yang menggunakan jumlah individu yang banyak dan memberikan sebuah ujian untuk menyeleksi individu terbaik untuk membangkitkan generasi selanjutnya. Seleksi tersebut digunakan untuk mencari solusi dari suatu permasalahan. Contoh dari pendekatan ini adalah Algoritma Genetika yang menggunakan ide mutasi dan kawin silang, Particle Swarm Optimization (PSO) yang meniru kumpulan binatang seperti burung dan ikan dalam mencari mangsa, Simulated Annealing yang menirukan bagaimana logam ditempa, dan masih banyak lagi.

• Machine Learning (ML)

Machine Learning atau pembelajaran mesin merupakan teknik yang paling populer karena banyak digunakan untuk menggantikan atau menirukan perilaku manusia untuk menyelesaikan masalah. Sesuai namanya ML mencoba menirukan

(28)

13

bagaimana proses manusia atau makhluk cerdas belajar dan mengeneralisasi (Ahmad, 2017)

Skema utama dari AI bisa dilihat pada gambar berikut:

Sumber (Ahmad, 2017)

Berdasarkan diagram pada gambar 2.1. dapat dijelaskan bahwa AI dibagi menjadi beberapa macam algortima seperti Machine Learning, Fuzzy Logic, Evolutionary Computation, dan lain-lain. Fuzzy Logic adalah suatu cabang ilmu Artificial Intellegence, yaitu suatu pengetahuan yang membuat komputer dapat meniru kecerdasan manusia sehingga diharapkan komputer dapat melakukan hal- hal yang apabila dikerjakan manusia memerlukan kecerdasan. Evolutionary Computation adalah algoritma untuk optimisasi global yang terinspirasi oleh evolusi biologis, dan subbidang kecerdasan buatan dan komputasi lunak mempelajari algoritma ini. Dalam istilah teknis, mereka adalah keluarga pemecah masalah trial and error berbasis populasi dengan karakter optimisasi metaheuristik atau stokastik.

(29)

Didalam ANN terdapat Deep Learning yang mana mesin dilatih lebih mendalam. Deep Learning adalah salah satu cabang Machine Learning (ML) yang menggunakan Deep Neural Network untuk menyelesaikan permasalahan pada domain ML.

2.5 Machine Learning

Machine Learning adalah serangkaian teknik yang dapat membantu dalam menangani dan memprediksi data yang sangat besar dengan cara merepresentasikan data-data tersebut dengan algoritma pembelajaran. Machine Learning dapat membuat komputer memprogram diri mereka sendiri. Jika pemrograman adalah pekerjaan untuk membuat otomatis, maka Machine Learning mengotomatisasi proses otomatis. Berikut gambaran umum Machine Learning dibandingkan dengan pemrograman secara tradisional.

Gambar 2.2 Perbandingan Pemrograman Tradisional dengan Machine Learning Dari gambar diatas dapat dilihat bahwa pemrograman secara tradisional data dan programan dijalankan di komputer untuk menghasilkan output. Sedangkan pada Machine Learning data dan output dijalankan di komputer untuk membuat sebuah program.

Ada banyak algoritma Machine Learning yang dikembangkan setiap tahunnya. Setiap algoritma pembelajaran mesin memiliki tiga komponen penting antara lain:

(30)

15

UIN Syarif Hidayatullah Jakarta a. Representasi: bagaimana merepresentasikan pengetahuan.

Contohnya termasuk Decision tree, Neural Network, Support Vector Machine dan lain-lain.

b. Evaluasi: cara mengevaluasi prediksi dan hipotesis. Contohnya

meliputi Mean Squared Error, Cost function dan lain-lain.

c. Optimasi: cara program dari model dihasilkan dan proses

pencarian parameter terbaik. Misalnya Convex Optimization dan Gradient Descent.

Selain dari algoritma pembelajaran ada empat jenis cara pembelajaran pada Machine Learning, yakni:

a. Supervised Learning: Data pembelajaran mencangkup keluaran

yang yang sudah ditentukan.

b. Unsupervised Learning: Data pembelajaran tidak mencangkup

keluaran yang ditentukan.

c. Semi-supervised Learning: Data pembelajaran mencangkup

beberapa keluaran yang ditentukan.

d. Reinforcement Learning: Pemberian hadiah dari setiap serangkaian

tindakanyang dilakukan.

2.6 Deep Learning

Deep Learning merupakan salah satu bidang dari Machine Learning yang memanfaatkan jaringan syaraf tiruan untuk implementasi permasalahan dengan dataset yang besar. Teknik Deep Learning memberikan arsitektur yang sangat kuat untuk Supervised Learning. Dengan menambahkan lebih banyak lapisan maka model pembelajaran tersebut bisa mewakili data citra berlabel dengan lebih baik.

(31)

Pada Machine Learning terdapat teknik untuk menggunakan ekstrak fitur dari data pelatihan dan algoritma pembelajaran khusus mengklasifikasi citra maupun untuk mengenali suara. Namun, metode ini masih memiliki beberapa kekurangan baik dalam hal kecepatan dan akurasi. Aplikasi konsep jaringan syaraf tiruan yang dalam (banyak lapisan) dapat ditangguhkan pada algoritma Machine Learning yang sudah ada sehingga komputer sekarng bisa belajar dengan kecepatan, akurasi, dan skala yang besar. Prinsip ini terus berkembangkan hingga Deep Learning semakin sering digunakan pada komunitas riset dan industri untuk membantu memecahkan banyak masalah data besar seperti Computer vision, Speech recognition, dan Natural Language Processing.

Feature Engineering adalah salah satu fitur dari Deep Learning untuk mengekstrak pola yang berguna dari data akan memudahkan model untuk membedakan kelas. Feature Engineering juga merupakan teknik yang paling penting untuk mencapai hasil yang baik pada tugas prekdiksi. Namun, sulit untuk dipelajari dan dikuasai karena kumpulan data dan jenis data yang berbeda memerlukan pedekatan teknik yang berbeda juga. Algoritma yang digunakan pada Feature Engineering dapat menemukan pola umum yang penting untuk membedakan antara kelas.

Ekstraksi fitur otomatis merupakan keunggulan deep learning dibanding dengan algoritma machine learning terdahulu . ekstrasi fitur mengutamakan pemberian label pada dataset yang ada dalam proses jaringan.

Secara historis, pelatihan machine learning menghabiskan berbulan-bulan, bertahun-tahun, bahkan puluhan tahun dalam pembuatan set fitur lengkap untuk klasifikasi data secara manual. Deep learning merupakan algoritma paling akurat sejauh ini (Patterson & Gibson, 2017)

2.7 Jaringan Syaraf Tiruan / Artificial Neural Network (ANN)

Jaringan Syaraf Tiruan / Artificial Neural Network (ANN) merupakan metode yang biasanya digunakan dalam peramalan maupun pengenalan pola. Pada peramalan

(32)

17

jaringan syaraf tiruan biasa digunakan sebagai peramalan nilai tukar mata uang asing, peramalan harga saham, peramalan cuaca dan lain sebagainya, sedangkan untuk pengenalan pola biasanya jaringan syaraf tiruan digunakan untuk pengenalan pola huruf, pola tanda tangan hingga pola suara serta wajah (Kartika et al., 2016)

Berdasarkan (Nurhikmat, 2018), ANN merupakan sistem adatif yang dapat mengubah strukturnya untuk memecahkan suatu masalah berdasarkan informasi internal maupun eksternal. Menurut Pham dalam jurnal Hermantoro (Pham, 1994) mengatakan bahwa ANN bersifat fleksibel terhadap inputan data dan menghasilkan output respon konsisten. ANN telah banyak digunakan dalam area yang luas. Menurut Kumar & Haynes (Kumar, 2003) dalam jurnal Ulil Hamida (Hamida, 2014) menjelaskan, penerapan ANN dapat mengidentifikasi beberapa aplikasi yaitu:

• Estimasi/prediksi (aproksimasi fungsi, peramalah)

• Pengenalan Pola (klasifikasi, diagnosis, dan analisis diskriminan) • Klustering (pengelompokan tanpa adanya pengetahuan sebelumnya)

2.8 Convolutional Neural Network (CNN)

Convolutional Neural Network (CNN) adalah arsitektur deep learning yang terkenal yang terinspirasi oleh mekanisme persepsi visual makhluk hidup di alam. Pada tahun 1959, Hubel & Wiesel menemukan bahwa sel-sel pada hewan visual cortex bertanggung jawab untuk mendeteksi cahaya pada bidang reseptif. Terinspirasi oleh penemuan ini, Kunihiko Fukushima menguslkan teori neocognitron pada tahun 1980, yang dainggap sebagai pendahulu CNN. Pada tahun 1990, LeCun dkk. menerbitkan jurnal yang membentuk kerangka kerja modern dari CNN, dan kemudian memperbaikinya lagi pada tahun 1998. Mereka mengembangkan jaringan saraf tiruan multi-layer yang disebut LeNet-5 yang dapat mengklasifikasikan digit tulisan tangan. Dimulai pada tahun 1990 sebuah studi paralel oleh Zhang dkk. menggunakan Shift-Invariant Artificial Neural Network (SIANN) untuk mengenali karakter dari sebuah

(33)

gambar. Namun, karena kurangnya data training yang besar dan daya komputasi pada waktu itu, jaringan mereka tidak dapat bekerja dengan baik pada masalah yang lebih kompleks, mis., klasifikasi gambar dan video skala besar.

Sejak 2006, banyak metode telah dikembangkan untuk mengatasi kesulitan yang dihadapi dalam pelatihan mendalam pada CNN. Paling menonjol pada tahun 2012, Krizhevsky dkk. Mengusulkan arsitektur CNN klasik dan menunjukkan perbaikan yang signifikan dari metode sebelumnya pada pengklasifikasian gambar. Keseluruhan arsitektur dari metode mereka dikenal dengan sebutan AlexNet, mirip dengan LeNet-5 tetapi dengan struktur yang lebih dalam. Dengan keberhasilan AlexNet, banyak karya telah diusulkan untuk meningkatkan kinerja CNN. (J Gu et al, 2015)

CNN temasuk kedalam kategori metode neural network. CNN tidak hanya dapat mempelajari representasi fitur gambar secara otomatis, tetapi CNN juga mengungguli banyak teknik buatan konvensional lainnya. (Sang et al., 2017)

Model neural network memiliki representasi data hirarkis dan bergantung pada perhitungan layer yang memiliki implementasi berurutan, output layer sebelumnya akan menjadi input layer berikutnya. Setiap layer memberikan satu level representasi. Dan, ada satu set bobot yang mengukur parameter layer. Dan juga, unit input terhubung ke unit output melalui bobot di samping sekelompok bias. Bobot dalam CNN, dibagikan secara lokal, yang berarti bahwa setiap lokasi input memiliki bobot yang sama. Bentuk filter berdasarkan bobot yang dikaitkan dengan output yang sama. (Romero et al, 2016)

(34)

19

Gambar 2.3 Contoh Jaringan Convolutional Neural Network (CNN)

Sumber: cs23ln.github.io

Pada gambar diatas menunjukkan setiap lapisan input yang dimasukkan memiliki volume yang berbeda dan mewakili dengan kedalaman, tinggi dan lebar. Setiap besaran yang didapatkan tergantung dari hasil filtrasi dari lapisan sebelumnya dan juga banyak filter yang digunakan. Model jaringan seperti ini sudah terbukti sangat ampuh dalam menangani permasalahan klasifikasi citra.

2.8.1 Arsitektur Jaringan CNN

Pada neural network, neuron dikumpulkan dalam lapisan-lapisan (layers) yan disebut denan lapisan neuron (neuron layers). Neuron-neuron pada satu lapisan dihubungkan dengan lapisan sebelumnya dan sesudahnya, kecuali pada lapisan input dan output. Lapisan diantara lapisan biasa disebut dengan lapisan tersembunyi atau hidden layer. Perambatan juga bisa dilakukan pada arah sebaliknya tergantungg pada algoritma pembelajaran yang dipakai.

Faktor terpenting dalam menentukan sifat suatu neuron adalah pola bobot (weights) dan fungsi aktivitas dari neuron tersebut. Pada setiap lapisan yang sama, neuron-neuron memiliki fungsi aktivitas yang sama.

Arsitektur neural network biasa dibagi berdasarkan jumlah lapisannya menjadi:

1. Jaringan dengan lapisan tunggal (Single layer network).

Jaringan dengan lapisan tunggal adalah sebuah jaringan dengan semua input terhubung langsung pada output tanpa melewati lapisan tersembunyi.

(35)

2. Jaringan dengan banyak lapisan (multi-layer networks)

Jaringan dengan lapis banyak memiliki satu atau lebih lapisan tersembunyi di antara lapisan input dan output.

Convolutional Neural Network (CNN) merupakan multi-layer networks yang terdiri dari alternating layer yang secara local terhubung pada convolutional layer dimana setiap layer memiliki jumlah filter yang sama. Downsampling layer dan fully connected layer berfungsi sebagai classifier.(Al-Waisy et al., 2017)

Gambar 2.4 Ilustrasi Arsitektur CNN

Sumber: (Al-Waisy et al., 2017)

Arsitektur CNN memiliki tiga konsep yang membuatnya efektif: local receptive fields, weights sharing, dan downsampling operations. Local receptive fields berisikan setiap neuron yang menerima input berupa porsi kecil dari layer sebelumnya dan juga memiliki ukuran yang sama dari convolution filter. Local receptive fields digunakan pada convolutional dan downsampling layer. Weight sharing diterapkan pada convolutional layer untuk mengontrol kapasitas dan mengurangi kompleksitas model. Terakhir, nonlinear downsampling yang digunakan pada downsampling layer berfungsi untuk mengurangi ukuran spasial gambar serta mengurangi jumlah parameter bebas dari model. Konsep-konsep ini membantu CNN menjadi kuat dan efektif dalam tugas-tugas pengenalan gambar.(Al-Waisy et al., 2017)

(36)

21

1. Convolutional layer

Bobot pada layer ini terbuat dari satu set learnable filters yang diproduksi secara acak dan dipelajari melalui algoritma back-propagation. Feature map adalah hasil dari setiap filter yang terhubung melalui sebuah gambar. Feature map juga memiliki jumlah yang sama dari filter yang diterapkan pada layer tersebut. (Al-Waisy et al., 2017)

Gambar 2.5 Feature Map

Sumber oreilly.com

Seperti yang telah diilustrasikan pada Gambar 2.2, convolutional layer yang pertama berisikan 6 filter yang menghasilkan 6 feature map yang disusun bersama. Setiap feature map mewakili fitur spesifik dari gambar, misalnya represented points atau represented vertical edges seperti yang diilustrasikan pada Gambar 2.3. Operasi convolution dirumuskan sebagai berikut.

𝑥_𝑗𝑙 = 𝑓 (∑_𝑖∈𝑀_𝑗𝑥_𝑗𝑙−1∗ 𝑘_𝑖𝑗𝑙 + 𝑏_𝑗𝑙) (1)

l = layer pada CNN

(37)

f = fungsi aktivasi

𝑀_𝑗 = selection of input maps 𝑘_𝑖𝑗 = filter

𝑏_𝑗 = feature map bias

2. Pooling layer

Layer ini mengimplementasikan operasi downsampling untuk mengurangi ukuran spasial dari convolutional layer. Pertama, ukuran pooling mask dan jenis operasi pooling harus ditentukan dan setelah itu dapatditerapkan pada pooling layer.

Operasi pooling diimplementasikan pada nilai-nilai piksel yang ditangkap oleh pooling mask, lalu dikalikan dengan trainable coefficient, setelah itu ditambahkan ke trainable bias. Operasi pooling dirumuskan sebagai berikut.

𝑥_𝑗𝑙 = 𝑓(𝐵_𝑗𝑙𝑝𝑜𝑜𝑙(𝑥_𝑗𝑙−𝑖) + 𝑏_𝑗𝑙) (2) 3. Full Connected layers

Layer ini digunakan untuk mengekstrak feature pada layer sebelumnya untuk selanjutnya dilakunnya tugas klasifikasi. Hasil dari convolutional atau pooling layer terakhir akan diberikan ke fully connected layers seperti dalam jaringan sraf asli.

2.8.2 Fungsi Aktivasi

Fungsi aktivasi adalah fungsi non linear yang memungkinkan sebuah neural network untuk dapat mentransformasikan data input menjadi dimensi yang lebih tinggi sehingga dapat dilakukan hyperlane sederhana yang memungkinkannya dilakukan klasifikasi.(Eka Putra, 2016)

Setiap fungsi aktivasi mengambil sebuah nilai dan melakukan operasi matematika. Pada arsitektur CNN, fungsi aktivasi terletak pada perhitungan

(38)

23

−

akhir output feature map atau sesudah proses operasi convolution atau pooling untuk menghasilkan suatu pola fitur.(Zufar & Setiyono, 2016)

Beberapa macam fungsi aktivasi yang sering digunakan dalam penelitian CNN antara lain fungsi sigmoid, tanh, Rectified Liniear Unit (ReLU), Leaky ReLU (LReLU), SGD dan SoftMax.

2.8.3 Learning Rate

Learning rate adalah salah satu hyper parameter yang sangat mempengaruhi performa suatu model CNN. Dalam melakukan pencarian learning rate yang tepat, digunakan suatu metode yang bernama cyclical learning rates (Smith, 2017), dalam metode ini, akan dilakukan beberapa epochs training, dengan learning rate yang dimulai dari nilai yang kecil, dan setiap iterasi akan diperbesar learning rate-nya, setiap iterasi akan dilihat loss yang didapat, dan jika loss yang didapat meningkat cukup drastis maka proses pencarian akan diberhentikan. Berdasarkan data loss yang didapat, maka dipilih learning rate sesaat sebelum loss memiliki nilai terendah.

Gambar 2.6 Plot learning rate terhadap loss

Dapat dilihat pada Gambar 3 bahwa pada saat learning rate berada pada titik 1e 02 titik ini memiliki nilai loss terkecil kedua, maka titik ini cocok untuk dipilih untuk menjadi learning rate. (Smith, 2017)

(39)

2.8.4 Data Augmentation/ Data Augmentasi

Augmentasi data adalah suatu proses dalam pengolahan data gambar, augmentasi merupakan proses mengubah atau memodifikasi gambar sedemikian rupa sehingga komputer akan mendeteksi bahwa gambar yang diubah adalah gambar yang berbeda, namun manusia masih dapat mengetahui bahwa gambar yang diubah tersebut adalah gambar yang sama (Perez & Wang, 2017). Augmentasi dapat meningkatkan akurasi dari model CNN yang dilatih karena dengan augmentasi model mendapatkan data-data tambahan yang dapat berguna untuk membuat model yang dapat melakukan generalisasi dengan lebih baik. Salah satu jenis augmentasi yang umum dilakukan adalah dengan melakukan perputaran gambar dengan besar tertentu, contoh dari penggunaan augmentasi ini dapat dilihat pada Gambar 2.7

Dalam pembelajaran Deep Learning terdapat beberapa metode yaitu Artificial Neural Network (ANN), Recurrent Neural Network (RNN) dan Convolutional Neural Network (CNN). Berikut perbedaan antara beberapa metode tersebut:

Tabel 2.1 Perbandingan ANN, CNN dan RNN

Perbedaan ANN CNN RNN

Tipe data Tabular Data, Text data

Image Data Sequence Data Gambar 2.7 Augmentasi dengan perputaran

(40)

25

Parameter Sharing No Yes Yes

Fixed Length input Yes Yes No

Recurrent Connections No No Yes Vanishing dan Exploding Gradient

Yes Yes Yes

Spatial Relationship

No Yes No

Performa ANN dianggap

kurang powerful dibandingkan CNN dan RNN. CNN dianggap lebih powerful dibandingkan ANN dan RNN. RNN mencakup lebih sedikit kompabilitas fitur dibandingkan dengan CNN. Pengaplikasian Facial Recognition

dan Computer Vision Facial Recognition, Image Classification dan Natural Language Processing. Text-to-Speech Conversion.

Keuntungan Memiliki Fault Tolerance, kemampuan untuk bekerja denan pengetahuan yang tidak lengkap. Memiliki akurasi yan tinggi dalam pengenalan

gambar dan weight sharing

Mampu mengingat setiap informasi, time series prediction.

(41)

Kekurangan Bergantung kepada perangkat keras yang digunakan, perilaku jaringan tidak dapat dijelaskan. Membutuhkan data pelatihan yang besar. Gradient vanishing dan exploding gradient.

2.9 Precision dan Recall

Precision adalah tingkat ketepatan antara informasi yang diminta oleh pengguna dengan jawaban yang diberikan oleh sistem. Sedangkan recall adalah tingkat keberhasilan sistem dalam menemukan kembali sebuah informasi. Gunanya fungsi ini agar akurasi model tidak serta merta dipercaya namun cukup dapat dipertanggungjawabkan kebenarannya karena melihat akurasi model dari sisi lain.

2.10 Epoch

Epoch adalah ketika seluruh dataset sudah melalui proses training pada Neural Netwok sampai dikembalikan ke awal untuk sekali putaran, karena satu Epoch terlalu besar untuk dimasukkan (feeding) kedalam komputer maka dari itu kita perlu membaginya kedalam satuan kecil (batches). Didalam epoch inilah tiap bobot/ weight ditambahkan.

2.11 ResNet

Residual neural network atau yang biasa disebut sebagai Resnet adalah salah satu jenis arsitektur yang cukup populer, arsitektur ini dibuat oleh (He et al., 2015). Arsitektur ini cukup revolusioner pada saat itu karena arsitektur ini menjadi state of the art pada saat itu tidak hanya dalam klasifikasi, namun dalam semua kategori termasuk object detection, dan semantic segmentation. Arsitektur CNN yang memiliki kedalaman tinggi adalah salah satu hal penting dalam membangun model CNN yang memiliki performa yang baik, namun model CNN yang memiliki kedalaman yang

(42)

27

tinggi juga memiliki masalah, yaitu vanishing gradient problem, yaitu suatu keadaan dimana hasil gradien yang dipelajari oleh model, tidak dapat mencapai layer pertama karena mengalami perkalian berkali-kali sehingga layer pertama tidak menerima gradien apa-apa, atau secara singkatnya, hal ini menyebabkan suatu CNN tidak dapat belajar dari error yang telah dikalkulasi. Resnet memiliki berbagai macam jenis arsitektur, mulai dari 18, 34, 50, 101, sampai 152 layer (He et al., 2015). Pada penelitian ini digunakan arsitektur Resnet34, yaitu arsitektur resnet yang memiliki 34 layer, arsitektur ini dipilih karena arsitektur ini memiliki performa yang baik pada kompetisi ILSVRC (He et al., 2015) dan karena keterbatasan hardware peneliti, maka arsitektur yang dipilih hanya memiliki 34 layer. Dari dataset keseluruhan, akan digunakan data training untuk melatih model CNN yang dibuat, dan data validasi untuk mengukur performa model yang dibuat. Performa dari sistem yang dibangun akan diukur dengan menggunakan metrik evaluasi akurasi, training loss, validation loss dan melihat matriks kekeliruan. Metrik ini digunakan juga pada berbagai penelitian yang dilakukan dengan CNN. (Krizhevsky et al., 2017)

Hal yang diusung oleh (He et al., 2015). pada saat itu adalah dengan menggunakan sesuatu yang bernama residual block, blok ini adalah blok yang ada pada tiap lapis arsitektur CNN Resnet dan menjadi fundamental dari arsitektur tersebut, gambaran dari blok ini dapat dilihat pada Gambar 2.8

Gambar 2.8 Blok Residual Sumber: (He et al., 2015)

(43)

Blok ini menambahkan suatu jalan pintas yang berfungsi sebagai fungsi identitas, yang secara tidak langsung akan melewati proses training untuk satu layer atau lebih, sehingga membuat sesuatu yang bernama residual block.

Gambar 2.9 Contoh arsitektur keseluruhan dari ResNet Sumber: (He et al., 2015)

(44)

29

Penggunaan residual block dapat terlihat pada Gambar 2.9, dimana arsitektur VGGnet berada pada paling kiri, arsitektur yang tanpa menggunakan residual block terdapat pada bagian tengah, dan arsitektur yang menggunakan residual block terdapat pada bagian paling kanan. Dapat dilihat bahwa dengan melewati beberapa layer, arsitektur ini dapat mengatasi permasalah vanishing gradient problem karena gradien dapat sampai kepada layer pertama tanpa harus melewati jumlah perkalian yang sama dibandingkan dengan arsitektur yang sama tanpa menggunakan residual block.

S(i, j) = (I ∗K)(i, j) = ∑∑I(i + m, j + n)K(m, n) (3) Pada baris pertama, hasil konvolusi akan membentuk filter sebanyak 64 buah, operasi konvolusi dapat dilihat pada rumus (3) dimana setiap elemen yang pada matriks I dan K mengalami perkalian matriks sehingga menghasilkan filter S. Pada tahap ini model belum memasuki modul residual. Setelah tahap ini selesai, gambar akan memasuki pooling layer, pooling layer adalah layer yang bertugas untuk mengurangi resolusi dari suatu gambar yang telah diproses, pooling layer berfungsi untuk mengurangi noise yang ada dalam gambar tersebut, terdapat dua jenis pooling yang ada, yaitu max pooling dan average pooling, ilustrasi dari operasi ini dapat dilihat pada Gambar 2.10, average pooling lebih umum digunakan pada berbagai macam arsitektur CNN. (Krizhevsky et al., 2017)

(45)

Lalu tiga modul residual ditumpuk diatas masing-masing layer, dan setiap layer akan mempelajari 128 filter untuk setiap proses konvolusi. Dimensi spasial dari gambar akan berkurang, lalu akan ditumpuk kembali 4 buah modul residual, yang dimana setiap modul akan mempelajari 256 filter. Tahap terakhir, kita akan mengurasi dimensi spasialnya kembali dan masuk kepada tahap menumpuk 6 buah modul residual, dimana setiap layer akan mempelajari 512 filter. Hasil dari setiap filter ini akan melewati average pooling dan masuk ke dalam jaringan fully connected dengan fungsi aktivasi softmax untuk diketahui hasil klasifikasi.

softmax(x)i = exp(xi)∑n j=1 exp(x j) (4)

Softmax adalah suatu fungsi yang biasanya digunakan untuk menghitung probabilitas yang umum digunakan untuk melakukan klasifikasi multi kelas, nilai softmax berada pada range 0 - 1 dan memiliki jumlah 1 jika seluruh elemennya dijumlahkan (Goodfellow, 2016). Fungsi ini biasanya digunakan di ujung layer dari fully connected layer yang digunakan pada CNN untuk menghasilkan nilai probabilitas suatu objek terhadap kelas yang ada. Rumus softmax dapat dilihat pada

Gambar 2.10 Ilustrasi operasi max pooling dan average pooling pada CNN

(46)

31

(4), dimana kita akan menghitung nilai eksponen dari xi terhadap jumlah dari seluruh nilai eksponen yang ada.

Untuk suatu model dapat memperbaiki dari kesalahan yang dibuat pada saat training, digunakan fungsi cross entropy loss (5), dimana fungsi ini akan menghitung kelas aktual ti berbanding dengan si yang akan menghitung jumlah log negatif dari hasil perkalian nilai prediksi dikali kelas asli lalu dibagi dengan jumlah kelas.

CE = − ∑tilog(si) (5)

2.12 Python

Python merupakan salah satu contoh bahasa tingkat tinggi. Contoh lain bahasa tingkat tinggi adalah Pascal, C++, Pert, Java, dan sebagainya. Sedangkan bahasa tingkat rendah merupakan bahasa mesin atau bahasa assembly. Secara sederhana, sebuah komputer hanya dapat mengeksekusi program yang ditulis dalam bentuk bahasa mesin. Oleh karena itu, jika suatu program ditulis dalam bentuk bahasa tingkat tinggi, maka program tersebut harus diproses dulu sebelum bisa dijalankan dalam komputer. Hal ini merupakan salah satu kekurangan bahasa tingkat tinggi yang memerlukan waktu untuk memproses suatu program sebelum program tersebut dijalankan. Akan tetapi, bahasa tingkat tinggi mempunyai banyak sekali keuntungan. Bahasa tingkat tinggi mudah dipelajari, mudah ditulis, mudah dibaca, dan tentu saja mudah dicari kesalahannya. Bahasa tingkat tinggi juga mudah diubah portabel untuk disesuaikan dengan mesin yang menjalankannya. Hal ini berbeda dengan bahasa mesin yang hanya

(47)

dapat digunakan untuk mesin tersebut. Dengan berbagai kelebihan ini, maka banyak aplikasi ditulis menggunakan bahasa tingkat tinggi. Proses mengubah dad bentuk bahasa tingkat tinggi ke tingkat rendah datam bahasa pemrograman ada dua tipe, yakni interpreter dan compiler. (Utami, 2004)

2.13 Keras

Keras merupakan framework yang dibuat untuk mempermudah pembelajaran terhadap komputer. Keras juga merupakan sebuah perangkat lunak yang berjalan diatas platform Python untuk mendukung proses komputasi cerdas diantaranya adalah jaringan Konvolusi. Keras diciptakan oleh Franchois Chollet. (Ilmiah et al., 2018)

Keras adalah API neural network berlevel tinggi yang ditulis dengan bahasa pemrograman Python. Keras dapat berjalan diatas Tensorflow, CNTK, atau Theano sebagai backend. Keras dapat digunakan dalam penelitian deep learning yang memerlukan pembuatan prototipe yang mudah dan cepat dan user friendly. Selain itu Keras juga mendukung komputasi pada Convolutional Neural Network dan Reccurent Neural Network ataupun kombinasi dari keduanya. Keras dapat berjalan dengan baik pada CPU maupun GPU. Keras kompatibel dengan Python versi 2.7 sampai versi 3.8 (Keras.io.).

2.14 Tensorflow

TensorFlow adalah perpustaka perangkat lunak, yang dikembangkan oleh Tim Google Brain dalam organisasi penelitian Mesin Cerdas Google, untuk tujuan melakukan pembelajaran mesin dan penelitian jaringan syaraf dalam. TensorFlow kemudian menggabungkan aljabar komputasi teknik pengoptimalan kompilasi, mempermudah penghitungan banyak ekspresi matematis dimana masalahnya adalah waktu yang dibutuhkan untuk melakukan perhitungan.

(48)

33

1. Mendefinisikan, mengoptimalkan, dan menghitung secara efisien ekspresi matematis yang melibatkan array multi dimensi (tensors).

2. Pemrograman pendukung jaringan syaraf dalam dan teknik pembelajaran mesin.

3. Penggunaan GPU yang transparan, mengotomatisasi manajemen dan optimalisasi memori yang sama dan data yang digunakan. Tensorflow bisa menulis kode yang sama dan menjalankannya baik di CPU atau GPU. Lebih khusus lagi, TensorFlow akan mengetahui bagian perhitungan mana yang harus dipindahkan ke GPU.

4. Skalabilitas komputasi yang tinggi di seluruh mesin dan kumpulan data yang besar.

2.15 Open CV

OpenCV adalah sebuah library (perpustakaan) yang digunakan untuk mengolah gambar dan video hingga kita mampu meng-ekstrak informasi didalamnya. OpenCV dapat berjalan di berbagai bahasa pemograman, seperti C, C++, Java, Python, dan juga support diberbagai platform seperti Windows, Linux, Mac OS, iOS dan Android. Salah satu contoh sederhana dalam penggunaan OpenCV adalah bagaimana kita dengan mudah bisa mendeteksi wajah dalam sebuah gambar.

2.16 OSEMN Framework

OSEMN Framework adalah model penelitan yang terstandarisasi dan diterima secara luas dalam bidang data science. OSEMN dapat memecahkan masalah data science dalam skala besar. (Byrne et al., 2017)

OSEMN memiliki langkah-langkah yang mudah dipahami dan konsisten secara logis dari alur kerja pemrosesan data, diperkaya dengan instruksi tambahan, catatan dan dokumen sampel, memastikan kinerja kegiatan dan pencapaian hasil yang sama dari aktifitas dan pengguna yang berbeda. (Dineva & Atanasova, 2018)

(49)

Menurut (Kumari et al., 2020)terdapat 5 tahapan pada OSEMN yang juga sesuai dengan namanya:

1. O(Obtain)/ Pengumpulan data

Mengumpulkan data dari sumber yang relevan. Pada tahap ini kita harus mengetahui data apa saja yang diperlukan, darimana sumbernya, bagaimana mengumpulkannya, dan bagaimana menyiapkan datanya agar memenuhi hasil yang diinginkan.

2. S(Scrub)/ Data Preparation

Pada tahap ini, data yang sudah dikumpulkan akan di bersihkan dan di filter menjadi format yang dapat dimengerti mesin. Biasanya tahap ini meliputi: - Handling missing data

- Correcting invalid values - Removing duplicates

- Structuring the data to be fed in algorithm - Feature engineering

3. E(Explore)/ Ekplorasi data

Pada tahap ini, data akan di eksplorasi dan menentukan karateristik dari data tersebut. Kemudian data akan di ekstrak atribut dan variabel ujinya yang kemudian akan dimasukkan ke tahap pemodelan.

4. M(Model)/Tahap Pemodelan

Pada tahap ini, data yang sudah di ekstrak akan masuk ke tahap pemodelan. Pemodelan dibuat untuk menghasilkan parameter dan fitur data yang akan digunakan pada tahap prediksi sebagai output.

5. N(iNterpreting)/Menginterpretasikan hasil

Tahap ini adalah tahap mengintrepretasikan hasil prediksi dan memberikan hasil sedemikian rupa berupa presentasi data.

(50)

35

UIN Syarif Hidayatullah Jakarta 2.17 Studi Literatur Sejenis

Studi literatur di ambil dari beberapa skripsi dan jurnal yang berhubungan dengan penelitian. Setiap literatur akan dibahas satu persatu secara singkat tentang judul, tools dan hasil dari setiap penelitian.

• Pada penelitian yang berjudul “Comparison of Convolutional Neural Network Architectures for Classification of Tomato Plant Diseases” tahun 2020, yang ditulis oleh Valeria Maeda-Gutierrez dkk bertujuan untuk membandingkan arsitektur CNN dalam klasifikasi Plant Diseases. Penelitian ini membandingkan dan menguji arsitektur AlexNet, GoogleNet, Inception V3, dan ResNet. Dan menghasilkan tingkat akurasi seperti gambar dibawah:

Gambar 2.11 Hasil Penelitian Literatur 1

Penelitian ini menyimpulkan bahwa penggunaan arsitektur ResNet memiliki tingkat akurasi yang sangat bagus dalam klasifikasi Tomato Plant Diseases.

• Pada penelitian yang berjudul “Klasifikasi Citra Multi-Kelas Menggunakan Convolutional Neural Network” tahun 2019, yang ditulis oleh Kamal Hasan Mahmud, Adiwijaya dan Said Alfaraby bertujuan untuk mengetahui strategi pembelajaran CNN yang memiliki performa terbaik dengan berbagai skenario dalam klasifikasi citra dengan 100 kelas. Penelitian ini menyimpulkan bahwa arsitektur ResNet memiliki nilai akurasi terbaik dari yang lainnya dengan nilai akurasi 75,82%.

(51)

• Pada penelitian yang berjudul “Malaria Parasite Detection from Peripheral Blood Smear Images Using Deep Belief Networks” tahun 2017, yang ditulis oleh Dhanya Bibin, Madhu S. Nair dan P. Punitha bertujuan untuk mengidentifikasi parasit malaria dalam sel darah manusia menggunakan Deep Belief Networks (DBN). Penelitian ini menggunakan model DBN dengan arsitektur 484-600-600-600-2. Penelitian ini menghasilkan nilai akurasi 96,35%.

• Pada penelitian yang berjudul “Analysing TB Severity Levels With An Enhanced Deep Residual Learning – Depth-Resnet” tahun 2018, yang ditulis oleh Xiaohong Gao, Carl James-Reynolds, Ed Currie bertujuan untuk menganalisis TB Severity Levels menggunakan arsitektur ResNet. Penelitian ini menggunakan dataset dengan 5 kategori. Data di pre-proses menjadi 128x128 piksel. Penelitian ini menghasilkan nilai akurasi seperti gambar dibawah:

Gambar 2.12 Hasil Penelitian Literatur 4

• Pada penelitian yang berjudul “Data Science in biomedicine” tahun 2019, yang ditulis oleh Yovaninna Alarcon-Soto dkk bertujuan untuk menunjukkan tugas Data Science dalam pengolahan data Biomedicine. Pada penelitian ini menunjukkan bahwa Data Science dapat digunakan dalam pengolahan data biologikal dan penelitian medis lainnya.

Tabel 2.2 Perbandingan Penelitian sejenis

No. Penulis Judul Data

Science

CNN Transfer Learning

(52)

37

1 (Maeda-Gutiérrez et al., 2020) Comparison of Convolutional Neural Network Architectures for Classification of Tomato Plant Diseases





2 (Kamal Hasan et al., 2019) Klasifikasi Citra Multi-Kelas Menggunakan Convolutional Neural Network



3 (Bibin et al., 2017) Malaria Parasite Detection from Peripheral Blood Smear Images Using Deep Belief

Networks



4 (Gao et al., 2018) Analysing TB Severity Levels With An Enhanced Deep Residual Learning – Depth-Resnet





5 (Alarcón-Soto et al., 2019) Data Science in biomedicine





(53)

6 (Rais Amin, 2020) Penerapan Metode Convolutional Neural Network Pada Pendeteksi Parasit Malaria Dalam Sel Darah

Manusia



(54)

39

BAB III

METODOLOGI PENELITIAN

Pada proses perancangan sistem, dibuatlah kerangka kerja dalam bentuk skema. Metodologi penelitian dijadikan panduan untuk menentukan tahap-tahap yang harus dilakukan. Tahap-tahap tersebut meliputi:

3.1 Metode Pengumpulan Data 3.1.1 Studi pustaka

Salah satu metode pengumpulan data yang penulis lakukan pada pembuatan sistem ini adalah studi pustaka. Studi pustaka dilakukan dengan cara membaca, mengutip, mengolah informasi yang berkaitan dengan pembuatan sistem, serta membuat catatan yang bersumber pada bahan-bahan pustaka yang mendukung dan berkaitan dengan pembuatan sistem ini. Sumber-sumber yang penulis kumpulkan dan pelajari berupa data dan informasi definisi yang terdapat pada beberapa jurnal dan buku yang terkait dengan penelitian dan pembuatan sistem ini serta dari beberapa situs online yang terpercaya. Sumber-sumber tersebut diperlukan penulis untuk membantu penyelesaian pada bab pendahuluan, landasan teori dan metode penelitian.

3.2 OSEMN Framework

Dalam penelitian ini, penulis menggunakan OSEMN Framework dalam pegolahan Data Science. Berikut ini merupakan langkah-langkah pada OSEMN Framework:

3.2.1 Obtain(Pengumpulan data)

Pada tahap ini, penulis melakukan pengumpulan data masukan yang dibutuhkan untuk membuat model sistem ini. Data yang dikumpulkan berupa gambar parasitized dan Uninfected berdasarkan kelas yang penulis batasi pada penelitian ini. Data tersebut