PENDEKATAN ANALISIS KOMPONEN UTAMA TERHADAP FAKTOR-FAKTOR YANG MEMPENGARUHI JENIS HEPATITIS PENDERITA
M.Fahur Arkana1),Wardatull Jannah2),Sajiril Hoiri3),Elvida Anisa Fitri4)
1) 2) 3) 4) Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Sriwijaya,
Abstrak
Principal Component Analysis (PCA) atau analisis komponen utama merupakan suatu teknik statistik untuk mengubah dari sebagian besar variabel asli yang digunakan dan saling berkorelasi satu dengan yang lainnya, menjadi satu set variabel baru yang lebih kecil dan saling bebas (tidak berkorelasi lagi). Penelitian ini bertujuan untuk mengetahui faktor-faktor yang mempengaruhi jenis-jenis penyakit hepatitis dengan mernggunakan analisis komponen utama. Hepatitis adalah peradangan pada hati atau liver. Kondisi ini bisa disebabkan oleh berbagai hal, mulai dari infeksi virus, kebiasaan mengonsumsi alkohol, penggunaan obat-obatan tertentu, penyakit autoimun, dan infeksi cacing hati. Gejala umum yang muncul pada penderita hepatitis adalah Mual dan muntah, Demam, Mudah Lelah, Feses berwarna pucat, Urine berwarna gelap, Nyeri perut, Nyeri sendi, Kehilangan nafsu makan, Penyakit kuning dan Penurunan berat badan.. Jika disebabkan oleh infeksi virus, hepatitis bisa menular ke orang lain. Hepatitis terdiri dari banyak jenis seperti, Hepatitis A, Hepatitis B, Hepatitis C, dan Hepatitis D.
Kata Kunci : Analisis Komponen Utama, Hepatitis,faktor
Abstract
Principal Component Analysis (PCA) is a statistical technique for changing from most of the original variables that are used and correlated with one another, into a set of new variables that are smaller and independent of each other (no longer correlated). This study aims to determine the factors that influence the types of hepatitis by using principal component analysis. Hepatitis is inflammation of the liver or liver. This condition can be caused by many things, ranging from viral infections, alcohol consumption habits, use of certain drugs, autoimmune diseases, and liver worm infections. Common symptoms that appear in people with hepatitis are nausea and vomiting, fever, fatigue, pale stools, dark urine, abdominal pain, joint pain, loss of appetite, jaundice and weight loss. If caused by a viral infection, hepatitis can be transmitted to other people. Hepatitis consists of many types such as, Hepatitis A, Hepatitis B, Hepatitis C, and Hepatitis .
Keywords : Principal Component Analysis,Hepatitis, factor.
1. PENDAHULUAN
Seiring dengan pesatnya perkembangan teknologi, pemanfaatan sistem infromasi berbasis komputer telah meluas di berbagai bidang tak terkecuali di bidang medis atau kesehatan. Industri kesehatan sejauh ini mampu menghasilkan sejumlah besar data yang akan terus meningkat. Peningkatan volume data ini membutuhkan cara otomatis agar data tersebut dapat diekstraksi saat diperlukan (Milovic & Milovic, 2012: 69). Banyaknya data rekam medis pasien dapat diolah dengan memanfaatkan teknik data mining. Data mining merupakan solusi yang mampu menemukan kandungan informasi yang tersembunyi berupa pola dan aturan dari sekumpulan data yang besar agar mudah dipahami (Handarko
& Alamsyah, 2015: 158). Data mining berkaitan dengan bidang ilmu lain serperti sistem basis data, data warehousing, statistik, machine learning, pengambilan informasi, dan komputasi canggih. Selain itu, data mining dapat diterapkan pada disiplin ilmu seperti jaringan syaraf tiruan, pengenalan pola, analisis spasial data, basis data gambar dan pemrosesan sinyal (Sugiharti et al., 2017: 903).
Data mining telah digunakan secara luas dalam bidang bioinformatika untuk menganalisa data biomedis (Hussien et al., 2018: 1). Analisis tersebut banyak dilakukan untuk memprediksi atau mendiagnosa suatu penyakit, salah satunya adalah penyakit hepatitis. Besarnya jumlah data pasien hepatitis dapat digunakan para peneliti untuk mengekstraksi informasi yang berguna dengan memanfaatkan teknik 2 data mining seperti teknik klasifikasi. Klasifikasi merupakan teknik yang dapat digunakan untuk memprediksi data atau menggambarkan kelas data. Algoritma klasifikasi data mining tersebut dapat dimanfaatkan dan membantu ahli medis dalam mendiagnosa suatu penyakit (Mirqotussa’adah et al., 2017: 136).
Klasifikasi adalah proses menemukan model atau fungsi yang menggambarkan dan membedakan kelas atau konsep data (Han et al., 2012: 18). Klasifikasi diaplikasikan pada banyak hal seperti deteksi penipuan, target pemasaran, prediksi kinerja, manufaktur, diagnosis medis dan sebagainya. Terdapat banyak algoritma yang dapat dipakai untuk klasifikasi salah satunya adalah Support Vector Machine (SVM).
Penyakit hepatitis sendiri adalah penyakit peradangan pada hati (liver) yang dapat disebabkan oleh faktor genetik, infeksi virus, alkohol, dan obat-obatan. Berdasarkan laporan global World Health Organization (WHO), kematian yang disebabkan oleh virus hepatitis meningkat pada tahun 2017, setiap tahunnya terdapat 1,75 juta orang baru yang terinfeksi virus hepatitis khususnya hepatitis C. Menentukan diagnosa hepatitis bagi dokter termasuk tugas yang sulit (Polat & Güneş, 2006: 889), karena banyak faktor harus dipertimbangkan dalam prosedur diagnosis penyakit (Nilashi et al., 2019: 13). Seorang dokter umumnya menentukan keputusan dengan mengevaluasi hasil tes seorang pasien atau merujuk pada keputusan sebelumnya yang ditentukan pada pasien lain dengan kondisi yang sama (Çalişir & Dogantekin, 2011: 10705). Maka dari itu penelitian ini
bertujuan untuk memprediksi keputusan diagnosis hepatitis dengan menerapkan teknik klasifikasi menggunakan algoritma SVM. Pengembangan sistem diagnosis hepatitis yang akurat dapat membantu dalam mendeteksi hepatitis dan membantu pengambilan keputusan bagi dokter.
Data yang digunakan dalam project ini yaitu data dari ibu dosen pengampu mata kuliah Komputasi Statistika. yang mengandung beberapa variabel pada penyakit hepatitis, berikut beberapa variabel yang ada dalam project ini yaitu variabel Y ialah jenis penyakit hepatitis yang diderita, variabel X1 ialah usia penderita hepatitis, X2 ialah jenis kelamin penderita hepatitis, X3 ialah indeks masa tubuh penderita hepatitis, X4 ialah penderita mengalami demam atau tidak, X5 penderita mengalami mual atau tidak, X6 penderita mengalami sakit kepala atau tidak, X7 penderitra mengalami disre atau tidak, X8 penderita mengalami kelelahan dan sakit tulang umum atau tidak, X9 penderita mengalami sakit kuning atau tidak, X10 pendeirta mengalami nyeri epigastrium atau tidak, X11 total sel darah putih penderita hepatitis, X12 total sel darah merah penderita hepatitis, X13 total enzim yang berperan dalam metabolisme asam amino penderita hepatitis, X14 total enzim yang mengubah protein menjadi energi untuk digunakan oleh sel-sel hati.
Data diatas menggunakan atribut yang besar atau banyak, Algoritma SVM membutuhkan waktu komputasi yang lama dan membutuhkan memori yang besar, jika data yang diproses memiliki dimensi yang tinggi atau memiliki atribut yang banyak (Kotu & Deshpande, 2015: 147). Oleh karena itu, metode Principal Component Analysis (PCA) dipilih untuk mengesktraksi fitur-fitur yang penting dan mereduksi jumlah fitur.
Banyak algoritma data mining yang bekerja dengan baik apabila dimensi (jumlah atribut/fitur pada data) lebih rendah. Konsep PCA adalah mengurangi dimensi dataset, dengan mempertahankan sebanyak mungkin variabilitas yaitu informasi statistik sebanyak mungkin (Jolliffe & Cadima, 2016: 1).
2. METODE PENELITIAN
Metode analisis data yang digunakan dalam penelitian adalah analisis kuantitatif dan kualitatif. Metode analisis yang digunakan untuk menjawab tujuan penelitian adalah analisis faktor dengan menggunakan metode Analisis Komponen Utama (AKU).
2.1 Analisis Komponen Utama
Analisis komponen utama merupakan teknik statistik yang dapat digunakan untuk menjelaskan struktur ragam-peragam dari sekumpulan variabel melalui beberapa variabel baru dimana variabel baru ini saling bebas, dan merupakan kombinasi linier dari variabel asalnya. Variabel baru tersebut dinamakan komponen utama (principal component). Secara umum tujuan dari analisis komponen utama adalah mereduksi dimensi data yang besar dan saling
berkorelasi menjadi dimensi data yang kecil dan tidak saling berkorelasi ( jolliffe 2002 ), hal ini dilakukan untuk kebutuhan interpretasi.
Fm = ℓm1 X1 + ℓm2 X2+ ..ℓmpXp Jika ditulis dalam bentuk matrik menjadi :
F = ℓ’X Keterangan :
F = Faktor Principal Components P = Banyaknya variabel yang diteliti ℓ = Bobot dari kombinasi linier (Loading)
2.2 Variabel Penelitian
Pada model analisis komponen utama , dapat dikatakan bahwa faktor m diwakili oleh variabel X1 dengan bobot kontribusi ℓm1 dan variabel X2 dengan bobot kontribusi ℓm2 dan seterusnya. Semakin besar bobot variabel pada faktor tersebut, maka semakin dekat pengaruh variabel tersebut terhadap faktor yang terbentuk, begitu pula sebaliknya
Y Baseline Histological Staging
X1 Age
X2 Gender
X3 BMI
X4 Fever
X5 Nausea/Vomting
X6 Headache
X7 Diarrhea
X8 Fatigue & generalized bone ache
X9 Jaundice
X10 Epigastric
X11 WBC
X12 RBC
X13 HGB
X14 Plat
X15 AST1
X16 ALT 1
X17 ALT 4
X18 ALT 12
X19 ALT 24
X20 ALT 36
X21 ALT 48
X22 ALT after 24 w
X23 RNA base
X24 RNA 4
X25 RNA 12
X26 RNA EOT
X27 RNA EF
X28 Baseline histological Grading 3. HASIL DAN PEMBAHASAN
3.1 HASIL
Cara melakukan analisis AKU adalah dari menu utama SPSS pilih analyze lalu pilih dimention reduction kemudian pilih factor seperti tampilan dibawah
Selanjutnya setelah itu pilih kotak variabel lalu masukkan semua ke kotak variabel
Setelah itu pilih descriptive kemudian centang semuanya lalu pilih continu
Setelah itu klik extraction lalu klik seperti gambar dibawah
Setelah itu lanjut ke rotation lalu klik seperti gambar dibawah
Deskriptif statistic
Karena nilai KMO nya masih dibawah 0.50 berarti data tidak dapat dilakukan analisis faktor. Oleh karena itu kita harus melihat anti-image matrix untuk menentukan variabel mana saja yang harus dibuang agar dapat melakukan analisis faktor.
Hasil anti-image matrix correlation diatas menunjukkan bahwa variabel basteline histogical grading memiliki nilai korelasi terkecil yaitu 0,244. Untuk itu variabel BSG kita keluarkan dari analisis dan hanya akan melakukan analisis faktor dengan variabel selain BSG.
Ternyata setelah dilakukan analisis ulang, nilai KMO nya masih dibawah 0,50 dan belum memenuhi syarat untuk melakukan analisis faktor, jadi untuk itu kita melihat kembali hasil anti-image matrix correlation
Dari hasil anti image matrix correlation diatas menunjukkan bahwa variabel gender memiliki nilai korelasi yang terkecil yaitu sebesar 0.295. Oleh karena variabel gender memiliki nilai korelasi terkecil maka akan kita melakukan analisis faktor kembali tanpa menggunakan variabel gender.
Setelah dilakukan kembali analisis faktor ternyata nilai KMO nya masih dibawah 0,50, artinya kita masih belum bisa melakukan analisis faktor. Jadi kita perlu mengecek kembali hasil anti image matrix correlation untuk melihat variabel mana yang memiliki nilai korelasi yang terendah dan akan membuang variabel tersebut.
Dilihat dari hasil anti image matrix correlation diatas menunjukkan bahwa variabel age merupakan variabel yang memiliki nilai korelasi terkecil yaitu 0,395.
Selanjutnya kita akan melakukan analisis faktor kembali tanpa menggunakan variabel age.
Setelah dilakukan analisis faktor diperoleh hasil KMO sebesar 0,507 artinya nilai tersebut sudah memenuhi syarat yaitu diatas 0,50. Jadi dapat disimpulkan bahwa analisis faktor dapat dilanjutkan.
Dari 10 faktor ektrasi kumulatif mencerminkan 61,032% total variance. Variabel yang variancenya telah menangkap solusi 10 faktor adalah variabel ALT 36 dengan nilai coomunality sebesar 0,722 dan variabel yang paling kecil menangkap adalah variabel RBC dengan nilai communality sebesar 0,415.
Tabel diatas merupakan tabel yang berisi kolom initial yang menggambarkan nilai diagonal matriks korelasi ketuka menggunakan Principal Component Analysis. Semua nilai initial adalah 1. Dari 25 variabel yang dianalisis pada variabel diatas
Lampiran keseluruhan hasil output 3.2 Pembahasan
Banyaknya komponen utama yang terbentuk sama dengan banyaknya variabel asli. Pereduksian (penyederhanaan) dimensi dilakukan dengan kriteria persentase keragaman data yang diterangkan oleh beberapa komponen utama pertama. Apabila beberapa komponen utama pertama telah menerangkan lebih dari 75% keragaman data asli, maka analisis cukup dilakukan sampai dengan komponen utama tersebut. akan tetapi apabila bila komponen utama diturunkan dari populasi multivariat normal dengan random vektor X = (X1, X2,… , Xp) dan vektor rata-rata μ = (μ1, μ2, … , μp) dan matriks kovarians Σ dengan akar ciri (eigenvalue) yaitu λ1 ≥ λ2 ≥ ⋯ ≥ λp ≥ 0 didapat kombinasi linier komponen utama yaitu sebagai berikut :
Maka Var (Yi ) = ei'Σei dan Cov(Yi,Yk ) = ei'Σei dimana i,k = 1, 2, ... , p. Syarat untuk membentuk komponen utama yang merupakan kombinasi linear dari variabel X agar mempunyai varian maksimum adalah dengan memilih vektor ciri (eigen vector) yaitu e = (e1, e2, …, ep) sedemikian hingga Var(Yi) = ei'Σei maksimum dan ei'ei = 1.
Dimana:
1. Komponen utama pertama adalah kombinasi linear e1'X yang memaksimumkan Var(e1'X) dengan syarat e1'e1 = 1.
2. Komponen utama kedua adalah kombinasi linear e2'X yang memaksimumkan Var(e2'X) dengan syarat e2'e2 = 1.
3. Komponen utama ke-i adalah kombinasi linear ei'X yang memaksimumkan Var(ei'X) dengan syarat ei'ek = 1 dan Cov(ei'ek)=0 untuk k < 1. Antar komponen utama tersebut tidak berkorelasi dan mempunyai variasi yang sama dengan akar ciri dari Σ. Akar ciri dari matriks ragam peragam Σ merupakan varian dari komponen utama Y, sehingga matriks ragam peragam dari Y adalah:
Total keragaman variabel asal akan sama dengan total keragaman yang diterangkan oleh komponen utama yaitu:
Penyusutan dimensi dari variabel asal dilakukan dengan mengambil sejumlah kecil komponen yang mampu menerangkan bagian terbesar keragaman data. Apabila komponen utama yang diambil sebanyak q komponen, dimana q < p, maka proporsi dari keragaman total yang bisa diterangkan oleh komponen utama ke-i adalah:
Penurunan komponen utama dari matriks korelasi dilakukan apabila data sudah terlebih dahulu ditransformasikan ke dalam bentuk baku Z. Transformasi ini dilakukan terhadap data yang satuan pengamatannya tidak sama. Bila variabel yang diamati ukurannya pada skala dengan perbedaan yang sangat lebar atau satuan ukurannya tidak sama, maka variabel tersebut perlu dibakukan (standardized). Variabel baku (Z) didapat dari transformasi terhadap variabel asal dalam matriks berikut:
V1/2 adalah matriks simpangan baku dengan unsur diagonal utama adalah (αii)1/2 sedangkan unsur lainnya adalah nol. Nilai harapan E(Z) = 0 dan keragamannya adalah
Dengan demikian komponen utama dari Z dapat ditentukan dari vektor ciri yang didapat melalui matriks korelasi variabel asal ρ. Untuk mencari akar ciri dan menentukan vektor pembobotnya sama seperti pada matriks Σ. Sementara trace matriks korelasi ρ akan sama dengan jumlah p variabel yang dipakai. Pemilihan komponen utama yang digunakan didasarkan pada nilai akar cirinya, yaitu komponen utama akan digunakan jika akar cirinya lebih besar dari satu.
4. KESIMPULAN
Pemilihan komponen utama yang digunakan didasarkan pada nilai akar cirinya, yaitu komponen utama akan digunakan jika akar cirinya lebih besar dari satu. Dan pada data,dari 10 faktor ektrasi kumulatif mencerminkan 61,032% total variance. Variabel yang variancenya telah menangkap solusi 10 faktor adalah variabel ALT 36 dengan nilai coomunality sebesar 0,722 dan variabel yang paling kecil menangkap adalah variabel RBC dengan nilai communality sebesar 0,415.
DAFTAR PUSTAKA
Jollife, I. T. (1986). Principal Componen Analysis. New York: Springer-Verlag.
Mariana. (2013). Analisis Komponen Utama. JURNAL MATEMATIKA DAN PEMBELAJARANNYA, 99-114.
Nurjannah, E., Effendi, I., & Yanfika, H. (2013). ANALISIS KOMPONEN UTAMA FAKTOR- FAKTOR YANG MEMPENGARUHI KEPUTUSAN PETANI MENGGUNAKAN BENIH PADI INHIBRIDADI KABUPATEN LAMPUNG TENGAH. JURNAL ILMU ILMU AGRIBISNIS, 156-161.
Priyanto. (2007). Penerapan Analisis Diskriminan dalam Pembedaan. JMHT, 156-157.
Nurlinda. (2019, july 21). ANALISIS KOMPONEN UTAMA (Principal component analysis) TUGAS MATA KULIAH PENDAMPING DISERTASI ANALISIS MULTIVARIATE.
Retrieved from Academia:
http://www.academia.edu/43862625/ANALISIS_KOMPONEN_UTAMA_Principal_co mponent_analysis
Triyana Fadila. (2020). PREDIKSI PENYAKIT HEPATITIS MENGGUNAKAN METODE PRINCIPAL COMPONENT ANALYSIS DAN SUPPORT VECTOR MACHINE (PCA-SVM). Skripsi. Semarang:
Universitas Negeri Semarang.