BAB II TINJAUAN PUSTAKA

(1)

16

BAB II

TINJAUAN PUSTAKA

2.1. Penelitian Terdahulu

Pembuatan model machine learning untuk memprediksi penyakit jantung bukan merupakan hal baru. Beberapa penelitian terdahulu telah dilakukan menggunakan dataset penyakit jantung yang sama (dataset Cleveland). Hal ini dilakukan untuk terus menemukan algoritma apa yang paling baik dalam mengklasifikasikan pasien. Maka pada bab ini akan dijelaskan beberapa penelitian terkait.

Sebuah studi mengenai pencarian algoritma terbaik berjudul An Effective Classifier for Predicting Churn in Telecommunication pernah dilakukan.

Hasilnya menunjukan bahwa XGBoost Classifier memiliki hasil paling baik dibandingkan dengan model yang lainnya. Selain itu, pada penelitian ini juga dilakukan analisis SHAP untuk mengetahui bagaimana model bekerja sehingga menghasilkan suatu prediksi tertentu, dalam kasus ini hasil yang didapatkan adalah faktor apa yang menyebabkan pelanggan cenderung churned yang di mana jawabannya adalah mereka yang memiliki monthly charges yang tinggi.

Kekurangannya adalah model yang dicoba dalam penelitian ini hanyalah KNN, Random Forest dan XGBoost. Selain itu studi kasus yang digunakan juga merupakan data Telcom Churn[7].

Sebuah eksplorasi sejenis juga sebelumnya dilakukan dalam mencari informasi mengenai depresi dengan faktor lama waktu menggunakan smartphone. Penelitian ini berjudul Predicting Depression from Smartphone Behavioral Markers Using Machine Learning Methods, Hyperparameter Optimization, and Feature Importance Analysis: An Exploratory Study. SHAP juga digunakan dalam penelitian ini untuk mencari tambahan insight, meski demikian studi kasus yang digunakan adalah penggunaan smartphone[8]. Hasil dari penelitian ini adalah ditemukan bahwa ada hubungan antara intensitas penggunaan smartphone dengan tingkat depresi seseorang.

Penelitian serupa dengan kasus medis juga pernah dilakukan, meskipun bukan dengan dataset Heart Disease. Penelitian ini berjudul “Giving more

(2)

17

insight for automatic risk prediction during pregnancy with interpretable machine learning”. Penelitian ini merupakan penelitian paling mirip dengan yang akan dilakukan pada studi ini karena menggunakan SHAP dan LIME[9].

Adapun kekurangannya terletak pada dataset yang digunakan, dataset yang digunakan adalah dataset kehamilan, untuk yang lainnya, tujuan dan penelitian ini sama dengan penelitian yang diajukan. Di bawah ini merupakan hasil dari analisa SHAP dan LIME dari penelitian tersebut.

Gambar 1. Hasil analisa SHAP dengan dataset kehamilan dengan algoritma Random Forest.

Gambar 2. Hasil analisa LIME dengan dataset kehamilan dengan algoritma Random Forest.

(3)

18

Penelitian dengan dataset yang sama (Heart Disease) sudah pernah beberapa kali dilakukan. Salah satunya adalah penelitian yang berjudul Effective Heart Disease Prediction Using Hybrid Machine Learning Techniques. Kekurangan dari penelitian ini adalah penelitian ini hanya fokus pada bagaimana menghasilkan prediksi yang baik. Tidak ada metode lebih lanjut yang dilakukan untuk menemukan interpretasi dari model[3].

Meskipun demikian, penelitian tersebut bukan merupakan satu-satunya studi yang menggunakan dataset Heart Disease. Penelitian lainnya adalah studi yang berjudul Heart Disease Prediction Using Data Mining Techniques. Dari penelitian ini didapatkan bahwa Random Forest merupakan algoritma paling baik untuk memprediksi penyakit jantung. Hasil dari model tersebut menghasilkan 81% presisi. Dalam penelitian ini, kekurangannya terletak pada tidak adanya hal lebih lanjut yang membahas bagaimana cara kerja model.

Selain itu, penelitian mengenai prediksi penyakit jantung juga dilakukan pada studi lain, dikombinasikan dengan metode seleksi fitur Chi Square.

Dengan menggunakan algoritma yang sama yaitu Random Forest, model ini bisa menghasilkan akurasi mencapai 83%. Penelitian ini berjudul “Intelligent heart disease prediction system using random forest and evolutionary approach”[5].

Dari beberapa penelitian yang sudah dilakukan tersebut, belum ada yang secara khusus membahas bagaimana model prediksi penyakit jantung bekerja.

Pada penelitian ini, hal itu akan dilakukan menggunakan SHAP dan LIME.

Tujuan utamanya adalah menghasilkan model yang bisa diinterpretasikan sehingga kemudian bisa dijelaskan faktor apa yang mempengaruhi model dan bagaimana cara kerjanya. Algoritma yang digunakan salah satunya adalah algoritma Random Forest, hal ini didasarkan pada penelitian sebelumnya bahwa algoritma ini menunjukan hasil yang terbaik di mana akurasi yang dihasilkan bisa mencapai 83%.

2.2. Penyakit Jantung

Penyakit jantung merupakan salah satu penyakit serius yang masuk ke dalam 5 penyebab kematian di tahun 2016[10]. Penyakit jantung berada di

(4)

19

urutan pertama, kemudian diurutan berikutnya adalah Stroke, TBC, Diabetes Melitus, dan kecelakaan tak disengaja. Setidaknya, ada 122 dari 100 ribu orang yang meninggal karena penyakit jantung. Diagnosa lebih dini dan pencegahan yang tepat dengan mengetahui penyebab utama dapat merupakan hal yang penting untuk bisa mencapai kondisi normal atau sehat kembali.

Setidaknya ada 7 jenis penyakit jantung yang sering dijumpai jika dikategorikan berdasarkan penyebabnya. Penyakit jantung jenis pertama yaitu penyakit jantung koroner (PJK) yang merupakn 80% penyebab kematian[11].

Jenis penyakit jantung berikutnya adalah penyakit jantung akibat hipertensi (9

%), penyakit jantung rernatik (2-3%), penyakit jantung kongenital (2%), endokarditis bakterialis (1-2%), penyakit jantung sifilitik (1%), Cor Pulmonale (1%), dan jenis yang lainnya (5%).

Diagnosa penyakit jantung biasanya dilakukan dengan memperhatikan faktor risiko dan berbagai macam gejala lainnya, salah satunya adalah nyeri dalam dada/tertekan/sesak hingga sampai ke lengan kiri[12]. Berdasarkan penelitian, penyakit jantung tidak memandang usia dan gender, namun data yang ditemukan perempuan cenderung lebih banyak yang mengidap penyakit jantung dibandingkan dengan laki-laki. Dari segi usia, penyakit jantung terbanyak jatuh di usia 25-34 tahun, kemudian disusul dengan 15-24 tahun.

Dalam penelitian ini, beberapa faktor tersebut menjadi variabel yang ada di dalam dataset. Banyaknya faktor yang menyebabkan penyakit jantung memungkinkan setiap pasiennya terkena dengan alasan yang berbeda. Oleh karena itu penting untuk mengetahui yang mana penyebabnya sehingga bisa melakukan tindakan berikutnya dengan tepat.

2.3. Data Preprocessing

Sebelum melakukan proses evaluasi, beberapa tahapan data preprocessing dilakukan untuk memastikan data yang dipakai sudah bersih dan tidak ada data yang hilang. Beberapa yang perlu dilakukan adalah memastikan bahwa semua fitur sudah dalam bentuk encoding atau angka yang bisa diolah. Pada dataset ini, semua fitur sudah bisa digunakan karena semua nilai dari fiturnya sudah dalam bentuk angka yang merepresentasikan nilainya. Selain itu, pengecekan data yang

(5)

20

hilang juga perlu dilakukan agar memastikan bahwa tidak ada informasi yang hilang dalam dataset, pada dataset ini juga tidak ada dataset yang hilang sehingga bisa lanjut ke proses selanjutnya.

a. Normalisasi

Salah satu proses masih ada yang perlu dilakukan yaitu normalisasi.

Normalisasi perlu dilakukan untuk memastikan bahwa tidak ada perbedaan skala yang begitu jauh antara satu variabel dengan variabel yang lainnya. Pada penelitian ini, proses normalisasi dilakukan menggunakan metode Standard Scaler. Adapun metode tersebut dapat diekspresikan dengan menggunakan persamaan di bawah ini.

𝑥^′= 𝑥 − 𝜇

𝑠 (1)

Di mana 𝑥′ merupakan nilai standarisasi yang dicari, 𝑥 merupakan data asli dari dataset, 𝜇 merupakan rata-rata nilai dari dataset yang ada, dan 𝑠 merupakan nilai standar deviasi dari dataset.

b. Splitting data.

Tahapan preprocessing berikutnya adalah splitting data atau pembagian dataset menjadi dua bagian yaitu data latih dan data uji. Hal ini perlu dilakukan agar evaluasi model bisa dilakukan dengan baik. Data latih merupakan data yang akan digunakan untuk model belajar dan mengenali pola yang ada, sedangkan data uji digunakan untuk menguji seberapa baik model memprediksi data yang belum pernah dilihat.

2.4. Modelling

Setelah melalui tahapan preprocessing, langkah selanjutnya adalah menyiapkan model yang akan digunakan untuk dianalisa cara kerjanya menggunakan SHAP dan LIME. Dalam proses ini akan dibuat beberapa model pembelajaran mesin berbeda, model terbaik kemudian akan digunakan pada proses selanjutnya. Pemilihan beberapa metode ini didasarkan pada representasi cara kerja tiap metode yang berbeda-beda.

a. Support Vector Machine

Metode pertama yang akan digunakan dalam melakukan klasifikasi adalah Support Vector Machine (SVM). SVM merupakan salah satu

(6)

21

metode terbaik dalam pembelajaran mesin. SVM pertama kali diperkenalkan oleh Vapnik sebagai metode pembelajaran mesin berbasis kernel untuk masalah klasifikasi dan regresi[13]. Karena keunggulannya dalam teori pondasi dan kapasitas generalisasi, SVM terbukti digunakan dalam banyak penelitian dalam beberapa tahun terakhir.

Gambar 3. SVM memisahkan dua kelas menggunakan beberapa hyperplane.

Dalam SVM, fungsi pemisah ditentukan langsung dari data latih dengan menggunakan metode SVM sebagaimana mungkin sehingga jarak atau margin antara garis keputusan dimaksimalkan. Gambar 3.

menunjukan bagaimana SVM memisahkan data dengan menggunakan vektor. Salah satu kelebihan dari SVM adalah metode ini mengambil beberapa subset data untuk dijadikan vektor ketika proses pembelajaran yang kemudian menjadi vektor pendukung yang atau margin untuk garis keputusan.

b. Random Forest

Random Forsest merupakan salah satu metode pembelajaran mesin yang paling terkenal. Pertama kali dikenalkan oleh Breiman pada 2001[14]. Secara umum Random Forest merupakan koleksi dari klasifikasi menggunakan metode Decision Tree. Decision Tree sendiri

(7)

22

merupakan sebuah metode sederhana yang menggunakan metode pemisahan biner pada variabel untuk menentukan prediksi.

Gambar 4. Ilustrasi struktur Random Forest.

Metode Decision Tree merupakan salah satu metode pembelajaran mesin yang paling tua. Model berbasis pohon lebih intuitif dibandingkan dengan metode yang lain karena bisa lebih mudah dipahami jika dibandingkan dengan yang berbasis vektor. Pada metode Random Forest, beberapa pohon klasifikasi atau regresi akan dibangun menggunakan subset dataset yang diambil secara acak untuk menentukan prediksinya. Random Forest kemudian akan mengambil hasil yang paling banyak atau rata-rata dari beberapa model yang telah digunakan untuk memprediksi.

c. XGBoost]

XGBoost merupakan kependekan dari Extreme Gradient Boosting.

Secara umum, XGBoost merupakan implementasi dari gradient boosting dalam Decision Tree yang didesain khusus untuk kecepatan dan performa. Merupakan salah satu metode supervised learning yang menggabungkan beberapa model pohon. Untuk memberikan tambahan generalisasi model pembelajaran mesin, metode ini membangun beberapa model Decision tree dan mengambil rata-rata dari hasil prediksi sebagai hasil prediksi akhir[15].

Pohon pada XGBoost dibuat satu-persatu di mana setiap error pada pohonnya bisa diminimalkan dan fokus pada pengembangan akurasi

(8)

23

prediksi pada pohon berikutnya[7]. XGBoost memperbaiki satu masalah besar pada proses pembelajaran mesin yang berbasis pohon yaitu bagaimana menemukan cara terbaik untuk memisahkan data (binary split), untuk mengatasi ini XGBoost menggunakan Greedy Algorithm. Di bawah ini merupakan langkah-langkah cara kerja Greedy Algorithm.

Gambar 5. Algoritma Greedy.

d. k-Nearest Neighbor

k-NN atau k-Nearest Neighbor merupakan algoritma pembelajaran mesin yang populer dan banyak digunakan. k-NN berbeda dengan ketiga metode yang dipilih sebelumnya, metode ini merupakan metode pembelajaran mesin berbasis jarak, atau instance-based learning. k- NN mengklasifikasikan prediksi berdasarkan kesamaan ukuran pada tiap-tiap kasus. Kesamaan ini diukur berdasarkan jarak antar data poin.

Terdapat beberapa cara untuk pengukuran jarak, salah satunya adalah pengukuran jarak Euclidean, yang bisa digambarkan dengan persamaan di bawah ini[7].

𝐷 = √∑(𝑥𝑖 − 𝑦𝑖)²

𝑘

𝑖=1

(2)

Di mana D merupakan fungsi jarak dan 𝑥 dan 𝑦 merupakan variabel yang mempengaruhi prediksi data poin. Pada variabel kategori, pengukuran jarak bisa juga dilakukan menggunakan pengukuran jarak Hamming, di mana jika ada suatu nilai yang sama, maka jarak antara

(9)

24

kedua data poin tersebut adalah 0, dan juga sebaliknya, jika berbeda, maka jarak antara kedua data poin tersebut adalah 1.

2.5. Evaluasi

Sebelum melakukan interpretasi model, beberapa model yang sudah dibuat akan dilakukan proses evaluasi terlebih dahulu. Evaluasi dilakukan dengan tujuan untuk mengetahui model mana yang bekerja paling baik dan kemudian akan diinterpretasikan ke tahap berikutnya. Beberapa metrik yang akan digunakan adalah akurasi, presisi, recall, dan f1-score. Keempat metode ini semuanya berdasarkan pada beberapa label prediksi yaitu nilai True Positive (TP) yang merupakan prediksi positif yang benar positif, True Negative (TN) yang merupakan prediksi negatif pada kelas negatif, False Positive (FP) yang merupakan prediksi positif pada kelas negatif, dan False Negative (FN) yang merupakan predisi negatif pada kelas positif[16]. Di bawah ini merupakan penjelasan lebih detail terhadap masing-masing metrik yang akan digunakan beserta rumus perhitungannya.

a. Akurasi

Metrik paling umum digunakan pertama adalah akurasi. Secara umum akurasi merupakan metrik yang mengukur perbandingan prediksi benar terhadap seluruh prediksi yang dibuat. Akurasi dapat dirumuskan dengan persamaan di bawah ini.

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝑃 + 𝑇𝑁

𝑇𝑃 + 𝐹𝑃 + 𝑇𝑁 + 𝐹𝑁 (3) b. Presisi

Presisi digunakan untuk mengukur perbandingan prediksi positif yang benar dengan semua prediksi positif. Presisi dapat dirumuskan dengan persamaan di bawah ini.

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑃

𝑇𝑃 + 𝐹𝑃 (4) c. Recall

Kebalikan dari presisi, recall digunakan untuk mengukur perbandingan prediksi positif yang benar positif dari semua jumlah data pada kelas positif. Recall dapat dirumuskan dengan persamaan di bawah ini.

(10)

25 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃

𝑇𝑃 + 𝑇𝑁 (5)

d. F1-Score

Nilai f-measure memberikan gambaran rata-rata dari kedua metrik baik presisi dan recall. F-measure dapat dirumuskan dengan persamaan di bawah ini.

𝐹₁ = 2 × 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑅𝑒𝑐𝑎𝑙𝑙

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙 (6)

2.6. Shapley Additive Explanation (SHAP)

Dalam bidang interpretable machine learning, sebuah model diharapkan bisa menyajikan penjelasan tentang model prediksi yang dihasilkan. Dalam kasus prediksi penyakit jantung, tujuan yang ingin dicapai adalah seorang pasien bisa mengetahui bagaimana pasien tersebut bisa diprediksi positif penyakit jantung atau tidak. Untuk mencapai tujuan itu, salah satu cara yang bisa digunakan adalah dengan mencari tahu fitur atau variabel apa yang paling mempengaruhi prediksi[9].

Salah satu metode yang tepat untuk melakukan hal tersebut adalah dengan menggunakan SHAP. Secara garis besar, SHAP bekerja dengan cara memberikan setiap fitur atau variabel suatu nilai penting untuk prediksi tertentu[17]. Tujuannya adalah untuk mencari tau seberapa besar pengaruh tiap-tiap variabel, atau seberapa besar kontribusi tiap-tiap variabel terhadap perbedaan suatu prediksi dengan rata-rata prediksi keseluruhan. Formula dari SHAP dapat didefinisikan dengan fungsi di bawah ini.

∅_𝑗(𝑝) = ∑ |S|!(𝑝 −|𝑆|− 1)!

𝑝! (𝑣𝑎𝑙(𝑆 ∪{𝑥_𝑗})− 𝑣𝑎𝑙(𝑆))

𝑆⊆{𝑥₁,…,𝑥_𝑝}\𝑥_𝑗

(7)

Di mana S merupakan subset dari sebuah fitur dari model yang ada, kemudian 𝑥 merupakan vektor dari nilai fitur dari data yang akan diinterpretasikan. Ilustrasi mengenai nilai SHAP dapat dilihat pada Gambar 3.

di bawah ini. Bisa dilihat bahwa panah berwarna biru menandakan beberapa fitur dengan pengaruh positif pada prediksi, sedangkan panah berwarna merah

(11)

26

menunjukan efek negatif pada nilai prediksi. Sementara itu, panjang dari panah mengindikasikan bobot dari tiap fiturnya, semakin panjang panah maka semakin besar bobot yang dimiliki oleh setiap fitur.

Gambar 6. Nilai SHAP.

2.7. Local Interpretable Model-Agnostic Explanation

Metode lain yang biasa digunakan dalam interpretable machine learning adalah Local Interpretable Model-Agnostic Explanation atau LIME. Seperti dengan SHAP, LIME juga digunakan untuk mencari tahu mengapa sebuah model machine learning membuat suatu prediksi tertentu. LIME bekerja dengan mengobservasi model yang ada terhadap data yang disediakan[9]. Jika ditinjau dari namanya, Local Interpretable memiliki arti bahwa LIME bekerja secara lokal pada prediksi tiap model, tidak secara keseluruhan atau secara global seperti SHAP, Model-Agnostic berarti LIME bisa gunakan untuk segala jenis model klasifikasi, tidak bergantung pada jenis model.

LIME bekerja dengan cara membuat data buatan dengan model yang ada.

Kemudian dari dataset yang sudah dibuat, LIME kemudian menentukan bobot dari tiap-tiap data point untuk dihitung di proses selanjutnya, yaitu proses regresi untuk menentukan besar kecil pengaruh variabel[18]. Hasil dari model inilah yang menjadi aproksimasi prediksi dari model yang dibuat secara lokal atau tiap- tiap data point. LIME dapat dideskripsikan melalui persamaan di bawah ini.

𝑒𝑥𝑝𝑙𝑎𝑛𝑎𝑡𝑖𝑜𝑛 (𝑥) = 𝑎𝑟𝑔 min

g ϵ G 𝐿(𝑓, 𝑔, 𝜋_𝜋) + Ω (g) (8) Pada persamaan (8), model eksplanasi bertujuan untuk meminimumkan nilai loss 𝐿 yang merepresentasikan kedekatan penjelasan dengan prediksi dari model 𝑓 yang asli, dengan tetap memperhatikan kompleksitas model Ω (g) pada nilai yang rendah. Maka dari itu, 𝐺 membuktikan daftar penjelasan yang mungkin dari hasil generasi model dan 𝜋_𝜋 mendefinisikan seberapa besar nilai data point di sekitar 𝑥.

(12)

27

Gambar 7. Ilustrasi LIME.

Gambar 4. menunjukan ilustrasi bagaimana LIME bekerja. Model yang kompleks direpresentasikan dengan warna merah muda dan biru yang tidak bisa diaproksimasi dengan baik dengan menggunakan linear model. LIME akan melakukan proses sampling terhadap data yang ada, membuat prediksi dari sampel yang diambil, kemudian memberikan bobot berdasarkan jarak tiap data point dengan data point yang dimaksud (semakin dekat semakin penting, dalam gambar direpresentasikan dengan ukuran). Garis putus-putus pada gambar merupakan penjelasan yang bisa diambil, secara lokal pada data point yang dimaksud saja.