Perbandingan Metode Klasifikasi Regresi Logistik Dan Jaringan Saraf Tiruan Pada Kasus Pengklasifikasian Data Demografi

(1)

PERBANDINGAN METODE KLASIFIKASI REGRESI LOGISTIK

DAN JARINGAN SARAF TIRUAN PADA KASUS

PENGKLASIFIKASIAN DATA DEMOGRAFI

SKRIPSI

SITI HARDIANTI

070803022

DEPARTEMEN MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SUMATERA UTARA

(2)

PERBANDINGAN METODE KLASIFIKASI REGRESI LOGISTIK DAN JARINGAN SARAF TIRUAN PADA KASUS PENGKLASIFIKASIAN

DATA DEMOGRAFI

SKRIPSI

Diajukan untuk melengkapi tugas dan memenuhi syarat mencapai gelar Sarjana Sains

SITI HARDIANTI 070803022

DEPARTEMEN MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA

(3)

PERSETUJUAN

Judul : PERBANDINGAN METODE KLASIFIKASI

REGRESI LOGISTIK DAN JARINGAN SARAF TIRUAN PADA KASUS PENGKLASIFIKASIAN DATA DEMOGRAFI

Kategori : SKRIPSI

Nama : SITI HARDIANTI

Nomor Induk Mahasiswa : 070803022

Program Studi : SARJANA (S1) MATEMATIKA

Departemen : MATEMATIKA

Fakultas : MATEMATIKA DAN ILMU PENGETAHUAN

ALAM (FMIPA) UNIVERSITAS SUMATERA UTARA

Diluluskan di Medan, Juni 2011

Komisi Pembimbing :

Pembimbing 2 Pembimbing 1

Dra. Elly Rosmaini, M.Si Dr. Sutarman, M. Sc

NIP. 19600520198503 2 002 NIP. 19631026199103 1 001

Diketahui/Disetujui oleh

Departemen Matematika FMIPA USU Ketua,

Prof. Dr. Tulus, M.Si

(4)

PERNYATAAN

PERBANDINGAN METODE KLASIFIKASI REGRESI LOGISTIK DAN JARINGAN SARAF TIRUAN PADA KASUS PENGKLASIFIKASIAN

DATA DEMOGRAFI

SKRIPSI

Saya mengakui bahwa skripsi ini adalah hasil kerja saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing disebutkan sumbernya

Medan, Juni 2011

(5)

PENGHARGAAN

Puji dan syukur penulis panjatkan kepada Tuhan Yang Maha Esa yang telah memberikan rahmat dan hidayah-Nya sehingga skripsi ini dapat diselesaikan dalam waktu telah ditetapkan.

Ucapan terima kasih penulis sampaikan kepada Bapak Dr. Sutarman, M.Sc selaku Dekan FMIPA USU sekaligus pembimbing dan Ibu Dra. Elly Rosmaini, M. Si selaku pembimbing yang telah memberikan panduan dan penuh kepercayaan kepada penulis untuk menyempurnakan skripsi ini.

Penulis juga mengucapkan terima kasih kepada Bapak Prof. Dr. Tulus, M.Si, selaku ketua Departemen Matematika Ibu Dra. Mardiningsih, M.Si selaku sekretasis Departemen Matematika, Bapak Drs. Suyanto, M.Kom dan Bapak Syahriol Sitorus, S.Si, M.IT selaku penguji skripsi, dan staf pengajar Matematika di FMIPA USU, beserta pegawai Administrasi.

Penulis juga mengucapkan terima kasih kepada kedua orang tua yang tercinta Ibunda Suparmi dan Ayahanda Suwondo yang telah memberikan dorongan dan semua bantuan yang diperlukan. Adik penulis yang penulis sayangi Raji Mahadi Sudarjat dan Ridho Dharma Satria terima kasih atas dorongan dan bantuan yang diberikan. Dan penulis mengucapkan terima kasih kepada Ibu Nasrah. Akhirnya penulis juga mengucapkan terima kasih kepada Siti F. Sihotang, Rina Yanti Lubis, Yazeni Diana Putri, Novita Sari, Evi Mulyanti, Annida Wijaya Yusuf, Harizahayu, Hikmah dan teman-teman lain yang tidak dapat disebutkan satu persatu atas bantuannya dalam menyelesaikan skripsi ini.

Semoga segala bentuk bantuan yang telah diberikan mendapat balasan yang jauh lebih baik dari Tuhan Yang Maha Esa.

Sebagai seorang mahasiswa, penulis menyadari bahwa masih banyak kekurangan di dalam menyelesaikan skripsi ini. Untuk itu, kritik dan saran yang membangun sangat diharapkan demi perbaikan tulisan ini.

Medan, Juni 2011 Penulis

(6)

ABSTRAK

(7)

COMPARISON OF CLASSIFICATION METHODS LOGISTIC REGRESSION AND ARTIFICIAL NEURAL NETWORK IN CASE CLASSIFICATION OF DATA DEMOGRAPHY

ABSTRACT

(8)

DAFTAR ISI

Daftar Gambar viii

Bab 1 Pendahuluan

1.1. Latar Belakang 1

1.2. Perumusan Masalah 4

1.3. Pembatasan Masalah 5

1.4. Tujuan Penelitian 5

1.5. Metodologi Penelitian 5

1.6. Tinjauan Pustaka 6

1.6.1. Regresi logistik 6

1.6.2. Jaringan Saraf Tiruan 7

Bab 2 Landasan Teori

2.7. Aturan Pembelajaran Jaringan Saraf Tiruan 19

2.8. Jaringan Saraf Back Propagation 20

2.9. Prosedur Klasifikasi 21

2.10. Demografi 22

Bab 3 Pembahasan

3.1. Evaluasi Fungsi Klasifikasi Regresi Logistik 23 3.2. Analisis Data Dengan Regresi Logistik 23

3.3. Klasifikasi Dengan Regresi Logistik 24

3.4. Algoritma Pelatihan Jaringan Saraf Tiruan Back Propagation 28

3.5. Klasifikasi Jaringan Saraf Tiruan 28

3.6. Perbandingan Klasifikasi Regresi Logistik Dan Jaringan Saraf

Tiruan 35

Bab 4 Penutup

4.1. Kesimpulan 37

(9)

Daftar Pustaka 38

Lampiran A 40

(10)

DAFTAR TABEL

Halaman

Tabel 1: Klasifikasi Actual dan Predicted Group 2

Tabel 2: Data Demografi Indonesia Pada Data Proyeksi Penduduk

Indonesia Tahun 2000-2010 (x 1000) 25

Tabel 3: Data Demografi Indonesia Pada Data Proyeksi Penduduk

Indonesia Tahun 2000-2010 (Setelah Diberi Pengkodean) 26

Tabel 4: Tabel Uji Chi Square 27

Tabel 5: Tabel Klasifikasi 27

Tabel 6: Tabel Informasi Jaringan Saraf Tiruan 32

Tabel 7: Bobot Lapisan Input Ke Lapisan Tersembunyi 33 Tabel 8: Tabel Kesalahan klasifikasi Jaringan Saraf Tiruan 34 Tabel 9: Tabel Nilai Misclassified Pada Regresi Logistik Dan

(11)

DAFTAR GAMBAR

Halaman

Gambar 1.1 : Arsitektur Jaringan Saraf Tiruan Dengan Satu Jaringan Lapis

Tunggal 8

Gambar 1.2 : Arsitektur Jaringan Saraf Tiruan Dengan Jaringan Multilapis 9 Gambar 1.3 : Arsitektur Jaringan Saraf Tiruan Dengan Jaringan Kompetitif 9

Gambar 2.1 : Struktur Neuron Jaringan Saraf 18

(12)

ABSTRAK

(13)

COMPARISON OF CLASSIFICATION METHODS LOGISTIC REGRESSION AND ARTIFICIAL NEURAL NETWORK IN CASE CLASSIFICATION OF DATA DEMOGRAPHY

ABSTRACT

(14)

BAB 1

PENDAHULUAN

1.1. Latar Belakang

Pengklasifikasian merupakan salah satu metode statistika untuk mengelompok atau menglasifikasi suatu data yang disusun secara sistematis. Masalah klasifikasi sering dijumpai dalam kehidupan sehari-hari. Baik itu pengklasifikasian data pada bidang akademik, sosial, pemerintahan, maupun pada bidang lainnya. Masalah klasifikasi ini muncul ketika terdapat sejumlah ukuran yang terdiri dari satu atau beberapa kategori yang tidak dapat diidentifikasikan secara langsung tetapi harus menggunakan suatu ukuran.

Dalam banyak kasus pengklasifikasian dapat diasumsikan sebagai banyaknya kategori atau populasi dari suatu individu yang ada dan setiap populasi dikarakteristikkan dengan ukuran distribusi probabilitasnya (Anderson,1984). Sebagai contoh yakni: pengklasifikasian siswa yang akan mengikuti ujian masuk di suatu universitas. pengklasifikasian didasarkan atas jurusan yang akan dipilih. Dalam hal ini yang menjadi ukuran ialah jurusan yang dipilih. Pengklasifikasian yang ada terdiri dari tiga klasifikasi yakni IPA, IPS, dan IPC yang memilih IPA dan IPS. Bisa saja siswa tersebut masuk ke dalam kelompok IPA, IPS, ataupun IPC.

(15)

dengan analisis diskriminan, regresi logistik merupakan metode klasifikasi yang cukup baik, setidaknya pada saat ada variabel independen berskala kuantitatif maupun kualitatif ataupun keduanya (Kurt et al, 2006).

Dalam penelitian ini yang akan dibahas ialah metode klasifikasi regresi logistik dan jaringan saraf tiruan (Artificial Neural Network). Regresi logistik adalah salah satu pendekatan model matematis yang digunakan untuk menganalisis hubungan antara satu atau beberapa variabel independen yang bersifat kontinu maupun biner dengan satu variabel dependen yang bersifat dikotomus (biner). Misalkan variabel dependen adalah Y dan variabel independen adalah X. Dalam hal ini regresi logistik tidak memodelkan secara langsung variabel dependen Y dengan variabel independen

X, melainkan melalui transformasi variabel dependen ke variabel logit yang merupakan natural log dari odds rasio.

Satu hal penting untuk menghasilkan prosedur klasifikasi ialah dengan menghitung tingkat error atau probabilitas misklasifikasi. Salah satu ukuran yang dapat digunakan adalah APER. Ukuran ini disebut dengan apparent error rate

(APER) yang didefenisikan sebagai fraksi observasi dalam sampel yang salah diklasifikasikan pada fungsi klasifikasi (Johnson et al,2007). APER digunakan dalam perhitungan ini karena mudah untuk dihitung, dan untuk sampel yang lebih sedikit APER dapat dipergunakan. Disamping itu hasil pengukuran dengan APER tidak bergantung pada distribusi populasi dan dapat dihitung untuk setiap prosedur klasifikasi. Perhitungan APER dapat dilakukan dengan terlebih dahulu membuat tabel klasifikasi, observasi dari dan observasi dari .

Tabel 1: Klasifikasi Actual dan Predicted Group Predicted group

Actual Group

Dari tabel diperoleh:

(16)

Dengan:

n1A : Jumlah pengamatan dari π1tepat diklasifikasikan sebagai π1.

n1B : Jumlah pengamatan dari π1 salah diklasifikasikan sebagai π2.

n2B : Jumlah pengamatan dari π2 salah diklasifikasikan sebagai π1.

n2A : Jumlah pengamatan dari π2 tepat diklasifikasikan sebagai π2.

Dalam evaluasi fungsi klasifikasi, khususnya pada regresi logistik ialah dengan terlebih dahulu membuat tabulasi antara actual group dan predicted group yang diperoleh dari fungsi logistik. Kemudian dihitung proporsi pengamatan yang salah diklasifikasikan. Diharapkan proporsi pengamatan misklasifikasi tersebut bisa minimum.

Selain regresi logistik, klasifikasi juga dapat dilakukan menggunakan jaringan saraf tiruan (artificial neural network). Jaringan saraf tiruan merupakan suatu sistem pemrosesan data yang memiliki karakteristik mirip dengan jaringan biologis, baik cara kerjanya maupun susunannya juga meniru jaringan saraf biologis.

(17)

Masalah yang umum dijumpai pada sistem klasifikasi pola adalah cara menemukan data ciri yang tepat bisa membedakan satu objek dengan objek lainnya. Cara membedakan atau dikenal dengan metode klasifikasi pola juga harus dipertimbangkan. Algoritma artificial neural network banyak digunakan untuk mengatasi masalah-masalah penyimpangan dan pemanggilan data, klasifikasi dan identifikasi pola, pemetaan pola input dan output, pengelompokan pola, hingga pada pencarian nilai-nilai optimasi.

Dalam hal melakukan perbandingan metode yang dinyatakan terbaik ialah metode yang memiliki tingkat error lebih kecil. Error dapat diketahui dari hasil akhir perhitungan masing-masing metode klasifikasi.

Untuk lebih jelasnya bagaimana regresi logistik dan jaringan saraf tiruan bekerja dan metode klasifikasi yang manakah lebih baik dalam proses pengklasifikasian maka penulis mengambil contoh pada data demografi. Data demografi yang diambil merupakan data tentang kependudukan Indonesia pada 30 provinsi yang diambil secara garis besarnya saja atau secara umum.

1.2. Perumusan Masalah

(18)

1.3. Pembatasan Masalah

Ruang lingkup penelitian ini dibatasi pada data demografi jumlah penduduk 30 provinsi di Indonesia secara umum yang diklasifikasikan dengan menggunakan metode klasifikasi regresi logistik dan jaringan saraf tiruan (artificial neural network).

1.4. Tujuan Penelitian

Tujuan penelitian ini ialah untuk membandingkan hasil metode klasifikasi regresi logistik dengan jaringan saraf tiruan (artificial neural network) pada data demografi kemudian memilih metode klasifikasi yang manakah lebih baik dalam pengklasifikasian.

1.5. Metodologi Penelitian

Dalam penelitian ini penulis melakukan studi literatur dan mencari bahan dari internet yang membahas mengenai regresi logistik dan artificial neural network (jaringan saraf tiruan). Kemudian mengambil sampel data demografi di 30 provinsi di Indonesia dari internet. Adapun langkah-langkahnya adalah sebagai berikut:

a. Menguraikan penyelesaian pengklasifikasian dengan menggunakan metode klasifikasi regresi logistik dan artificial neural network (jaringan saraf tiruan). b. Melakukan pengklasifikasian data demografi dengan bantuan komputer

spss17

c. Membandingkan kedua metode klasifikasi regresi logistik dan artificial neural network (jaringan saraf tiruan).

(19)

1.6. Tinjauan Pustaka

Berikut diberikan tinjauan pustaka tentang pengklasifikasian dengan metode regresi logistik dan neural artificial network (jaringan saraf tiruan). Untuk itu dalam hal pengklasifikasian di ambil sampel data demografi jumlah penduduk Indonesia dari 30 provinsi secara umum.

1.6.1. Regresi Logistik

Regresi logistik merupakan salah satu metode klasifikasi yang sering digunakan. Regresi logistik biner digunakan saat variabel dependen merupakan variabel dikotomus. Regresi logistik multinomial digunakan pada saat variabel dependen adalah variabel kategorik dengan lebih dari 2 kategori. Secara umum model regresi logistik multivariate adalah:

(Hosmer et al, 1989)

dimana merupakan nilai probabilitas sehingga , yang berarti bahwa regresi logistik menggambarkan suatu probabilitas. Dengan mentransformasikan pada persamaan di atas dengan transformasi logit , dimana:

maka diperoleh bentuk logit:

(20)

Pada dasarnya metode maximum likelihood memberikan nilai estimasi dengan memaximumkan fungsi likelihoodnya.

Dalam melakukan evaluasi fungsi klasifikasi dilakukan dengan membagi data menjadi 2 bagian. Bagian pertama akan dipergunakan sebagai training set, yang diperlukan untuk membentuk model klasifikasi regresi logistik. Berikutnya, bagian kedua akan dipergunakan sebagai validasi set, yang berfungsi sebagai cross-validasi fungsi klasifikasi regresi logistik.

Dalam melakukan pengklasifikasian diharapkan untuk meminimalkan kesalahan klasifikasi atau meminimalkan rata-rata efek buruk dari kesalahan klasifikasi.

1.6.2. Jaringan Saraf Tiruan

Jaringan saraf tiruan merupakan model tiruan bagaimana makhluk hidup memahami dan mengenali informasi disekitarnya (eka et al, 2006). Secara sederhana, jaringan saraf tiruan adalah sebuah alat pemodelan tiruan dapat digunakan untuk memodelkan hubungan yang kompleks antara input dan output untuk menemukan pola-pola pada data (Wikipedia, 2010).

Jaringan saraf tiruan ini disusun oleh elemen-elemen pemroses yang berada pada lapisan-lapisan yang berhubungan dan diberi bobot. Dengan serangkaian inputan diluar sistem yang diberikan kepadanya jaringan ini dapat memodifikasi bobot yang akan dihasilkannya, sehingga akan menghasilkan output yang konsisten sesuai dengan input yang diberikan kepadanya.

Ada pun langkah-langkah klasifikasi data pada jaringan saraf tiruan diantaranya ialah :

(21)

b. Penggunaan model untuk mengklasifikasikan data baru. Dalam hal ini, sebuah record “diumpankan” ke model, dan model akan memberikan jawaban “kelas” hasil perhitungannya.

Jaringan Saraf Tiruan dibagi ke dalam 3 macam arsitektur, yaitu: a. Jaringan Lapis Tunggal

Jaringan yang memiliki arsitektur jenis ini hanya memiliki satu buah lapisan bobot koneksi. Jaringan lapisan tunggal terdiri dari unit-unit input yang menerima sinyal dari dunia luar, dan unit-unit output dimana kita bisa membaca respons dari jaringan saraf tiruan tersebut.

Lapisan input w2m

w1m w21 wn1 wnm

w11 bobot

Lapisan output

Gambar 1.1: Arsitektur Jaringan Saraf Tiruan Dengan Satu Jaringan Lapis Tunggal

b. Jaringan Multilapis

(22)

Lapisan input

Gambar 1.2: Arsitektur Jaringan Saraf Tiruan Dengan Jaringan Multilapis

c. Jaringan Kompetitif

Pada jaringan ini sekumpulan neuron bersaing untuk mendapatkan hak menjadi aktif.

Gambar 1.3: Arsitektur Jaringan Saraf Tiruan Dengan Jaringan Kompetitif

Y1 _Y_n

A1

Ai A

(23)

(24)

BAB 2

LANDASAN TEORI

2.1. Regresi Logistik Biner

Regresi logistik biner merupakan salah satu pendekatan model matematis yang digunakan untuk menganalisis hubungan beberapa faktor dengan sebuah variabel yang bersifat dikotomus (biner). Pada regresi logistik jika variabel responnya terdiri dari dua kategori misalnya Y = 1 menyatakan hasil yang diperoleh “sukses” dan Y = 0 menyatakan hasil yang diperoleh “gagal” maka regresi logistik tersebut menggunakan regresi logistik biner. Menurut Agresti variabel y yang demikian lebih tepat dikatakan sebagai variabel indikator dan memenuhi distribusi Bernoulli. Fungsi distribusi peluang untuk y dengan parameter πi adalah

dengan . Dari fungsi distribusi tersebut diperoleh rata-rata :

Misalkan probabilitas ini dinotasikan sebagai yang bergantung dengan variabel

penjelas dengan dan , sehingga diperoleh

(25)

Secara umum model probabilitas regresi logistik dengan melibatkan beberapa variabel prediktor dapat diformulasikan sebagai berikut:

Dimana merupakan penjumlahan dari . Fungsi merupakan fungsi non linear sehingga perlu dilakukan transformasi logit untuk memperoleh fungsi yang linier agar dapat dilihat hubungan antara variabel respon dengan variabel prediktornya . Bentuk logit dari dinyatakan sebagai , yaitu:

Persamaan (1) dan persamaan (2) disubtitusikan sehingga diperoleh:

Untuk memperoleh estimasi dari parameter regresi logistik dapat dilakukan dengan dua cara yakni dengan cara Maximum Likelihood Estimation (MLE) dan iterasi Newton Raphson.

a. Maximum Likelihood Estimation (MLE)

Metode MLE digunakan untuk mengestimasi parameter-parameter dalam regresi logistik dan pada dasarnya metode maksimum likelihood memberikan nilai estimasi β dengan memaksimumkan fungsi likelihoodnya. (Hosmer dan Lemeshow, 1989). Secara matematis fungsi likelihood dapat dinyatakan:

(26)

dan logaritma likelihoodnya dinyatakan sebagai:

Untuk memperoleh nilai β maka dengan memaksimumkan nilai dan mendiferensialkan terhadap dan menyamakannya dengan nol. Persamaan ini dapat ditulis dalam bentuk sebagai berikut:

dan persamaan likelihood:

b. Metode Newton Rhapson

Metode Newton Rhapson merupakan metode untuk menyelesaikan persamaan nonlinear seperti menyelesaikan persamaan likelihood dalam model regresi logistik (Agresti, A. 1990). Metode newton rhapson memerlukan taksiran awal untuk nilai fungsi maksimumnya, yang mana fungsi tersebut merupakan taksiran yang menggunakan pendekatan polinomial berderajat dua. Dalam hal ini untuk menentukan

nilai dari β yang merupakan fungsi maksimum dari . Andaikan:

, dan andaikan H dinotasikan sebagai matriks yang mempunyai

anggota . Andaikan dan merupakan bentuk evaluasi dari ,

taksiran ke t pada . Pada langkah t dalam proses iterasi (t = 0, 1, 2, ...), ialah

pendekatan yang merupakan bentuk orde kedua dari ekspansi deret Taylor,

(27)

dengan mengasumsikan sebagai matriks nonsingular.

2.2. Fungsi Klasifikasi Regresi Logistik

Dalam regresi logistik penglasifikasian dilakukan dengan menghitung “error rates”

atau probabilitas kesalahan klasifikasi (Johnson et al, 2007). Misalkan dan merupakan fungsi kepadatan peluang dengan p x 1 variabel acak X. Dan misalkan Ω ialah ruang sampel yang merupakan semua observasi x yang mungkin. Andaikan R1 merupakan nilai x sebagai objek klasifikasi dan sebagai

objek klasifikasi . Jika setiap objek disimbolkan dengan 1 atau hanya 1 dari 2 populasi maka himpunan dan merupakan mutually exclusive dan exhaustive. Sehingga probabbilitas kondisional ialah

Sama halnya dengan

Andaikan merupakan probabilitas dari dan merupakan probabilitas dari . Total probabilitas misklasifikasi (TPM) ialah:

Dalam hal ini untuk menentukan kesalahan klasifikasi dapat digunakan prosedur klasifikasi optimal yang disebut optimum error rate (OER) yaitu:

Dimana dan ,

(28)

Dalam hal lain OER dapat dihitung jika fungsi densitas populasi diketahui. Namun , dalam kasus lain populasi parameter harus di estimasikan terlebih dahulu sehingga evaluasi error ratenya menjadi tidak seimbang. Untuk itu sampel fungsi klasifikasinya dapat dihitung dengan menghitung actual error rate (AER).

AER akan mengindikasikan bagaimana fungsi klasifikasi yang akan diperlihatkan pada sampel berikutnya seperti OER namun tidak dapat menghitung secara umum karena tergantung pada fungsi densitas yang tidak diketahui yaitu dan . Sehingga untuk mempermudah perhitungan dalam proses klasifikasi dan tidak bergantung pada distribusi populasi dengan menghitung error rate atau probabilitas kesalahan klasifikasi pada APER (apperent error rate) yang merupakan fraksi observasi dalam sampel yang salah diklasifikasikan atau misclassified pada fungsi klasifikasi (Johson et al, 2007). Perhitungan APER terlebih dahulu dibuat matriks konfusinya yang diperlihatkan dalam tabel 1 sebelumnya. Sehingga diperoleh:

2.3. Model Logit

Pada umumnya variabel respon data kategorik hanya mempunyai 2 kategorik yaitu sukses dan gagal, ya atau tidak, hidup atau mati dan sebagainya. Hasil observasi untuk setiap objek diklasifikasikan sebagai sukses dan gagal. Untuk sukses dinyatakan dengan 1, gagal dinyatakan dengan 0. Seperti halnya distribusi Bernaulli/Binomial untuk variabel random dengan probabilitas sukses dan gagal

(29)

Distribusi ini termasuk dalam exponensial sejati dengan parameter sejatinya ialah

dan

Dalam regresi logistik untuk variable biner model natural odds rasio disebut logit sehingga

Fungsi logit merupakan fungsi probabilitas , jika diasumsikan ke dalam variabel predictor variable Z maka

Dengan kata lain log odds merupakan variabel prediktor linear. Jika dimasukkan bentuk logit atau log odds ke dalam probabilitas diperoleh:

Sehingga dapat ditentukan:

2.4. Distribusi Binomial

(30)

tersebut bersifat bebas dan peluang keberhasilan setiap ulangan tetap sama,yaitu sebasar 0,5 ( Cyber-learn, 2011).

Secara umum bentuk distribusi binomial yaitu

Dengan probabilitas sukses p (atau probabilitas gagal q=1-p).

2.5. Deret Taylor

Deret taylor dapat memberikan nilai hampiran bagi suatu fungsi pada suatu titik, berdasarkan nilai fungsi dan turunannya pada titik yang lain.(Kholijah, S. 2008). Andaikan suatu fungsi dan turunannya, yaitu

kontinu dalam selang , dan , maka untuk nilai x disekitar , dapat diekspansikan (diperluas) ke dalam deret Taylor sebagai:

Aproksimasi orde nol pada deret taylor merupakan suku pertama dari deret taylor tersebut. Bila dalam deret taylor terdapat penambahan suku maka akan berkembang menjadi aproksimasi orde 2 dan seterusnya. Misalkan merupakan suku tambahan dalam deret taylor setelah bentuk ke n dalam deret dan , maka diperoleh deret taylor secara umum:

Dengan

2.6. Konsep Dasar Jaringan Saraf Tiruan

(31)

Jaringan saraf ini diimplementasikan dengan menggunakan program komputer yang mampu menyelesaikan sejumlah proses perhitungan selama proses pembelajaran. Ada beberapa tipe jaringan saraf yang sebagian besar memiliki komponen-komponen yang sama. Sama halnya otak manusia, jaringan saraf juga terdiri dari beberapa neuron dan memiliki hubungan antara neuron-neuron tersebut. Neuron-neuron tersebut akan menstranformasikan informasi yang diterima melalui sambungan keluarnya menuju ke neuron yang lain. Pada jaringan saraf, hubungan ini dikenal dengan nama bobot. Informasi tersebut disimpan pada suatu nilai tertentu pada bobot tersebut. Gambar 2.1 berikut menunjukkan struktur neuron pada jaringan saraf tiruan:

Bobot

Gambar 2.1: Struktur Neuron Jaringan Saraf. (Kusumadewi, 2004)

(32)

Adapun lapisan-lapisan penyusun jaringan saraf tiruan dapat dibagi menjadi tiga, yaitu:

1. Lapisan Input

Node-node di dalam lapisan input disebut unit-unit input. Unit-unit input menerima input dari dunia luar. Input yang dimasukkan merupakan penggambaran dari suatu masalah.

2. Lapisan Tersembunyi

Node-node di dalam lapisan tersembunyi disebut unit-unit tersembunyi. Output dari lapisan ini tidak secara langsung dapat diamati.

3. Lapisan Output

Node-node pada lapisan output disebut unit-unit output. Keluaran atau output dari lapisan ini merupakan output jaringan saraf tiruan terhadap suatu permasalahan.

2.7. Aturan Pembelajaran Jaringan Saraf Tiruan

Aturan kerja atau aturan pembelajaran jaringan saraf tiruan secara umum terdiri dari 4 tipe dasar (Diyah, 2006), yaitu:

1. Aturan Pengoreksian Error (Error Correcting)

Prinsip dasar dari aturan pembelajaran pengoreksian error ialah memodifikasi bobot-bobot koneksi dengan menggunakan sinyal kesalahan (output target– output aktual) untuk mengurangi besarnya kesalahan secara bertahap.

2. Aturan Pembelajaran Boltzmann

(33)

neuron yang visible, sedangkan neuron-neuron yang tidak berinteraksi dengan lingkungan disebut neuron tersembunyi (hidden neurons).

3. Aturan Hebbian

Pada aturan hebbian kekuatan koneksi antara 2 buah neuron akan meningkat jika kedua neuron memilik tingkah laku yang sama (keduanya memiliki aktivasi positif atau keduanya memiliki aktivasi negatif).

4. Aturan Pembelajaran Kompetitif (competitive Learning)

Unit-unit output pada aturan pembelajaran kompetitif ini harus saling bersaing untuk beraktivasi. Jadi hanya satu unit output yang aktif pada satu waktu. Bobot-bobotnya diatur setelah satu node pemenang terpilih.

Adapun hal yang ingin dicapai dalam pembelajaran jaringan saraf tiruan ialah untuk mencapai keseimbangan antara kemampuan memorisasi dan generalisasi. Yang dimaksud dengan kemampuan memorisasi ialah kemampuan jaringan saraf tiruan untuk memanggil kembali secara sempurna sebuah pola yang telah dipelajari. Kemampuan generalisasi ialah kemampuan jaringan saraf tiruan untuk menghasilkan respons yang bisa diterima terhadap pola-pola input yang serupa (tidak identik) dengan pola-pola yang sebelumnya telah dipelajari. Hal ini sangat bermanfaat bila pada suatu saat ke dalam jaringan saraf tiruan itu diinputkan informasi baru yang belum pernah dipelajari, maka jaringan saraf tiruan itu masih akan tetap dapat memberikan tanggapan yang baik, memberikan keluaran yang paling mendekati.

2.8. Jaringan Saraf Back Propagation

(34)

2.9. Prosedur Klasifikasi

Untuk dapat menyatakan metode klasifikasi yang terbaik dari perbandingan metode klasifikasi regresi logistik dan jaringan saraf tiruan yaitu dengan menghitung

misclassified pada kedua metode tersebut. Atau dengan kata lain misclassified

digunakan sebagai indikator dalam melakukan proses klasifikasi. Prosesdur pengklasifikasian dapat dilihat pada Gambar 2.2 berikut:

Bandingkan

terkecil

Gambar 2.2: Diagram Proses Pengklasifikasian Data Demografi yang

telah di olah

Data training Data testing

Regresi Logistik Jaringan Saraf Tiruan

Misclassified _{Misclassified}

(35)

Dalam melakukan klasifikasi, digunakan data training yang berfungsi untuk membentuk model, baik untuk regesi logistik maupun pada jariangan saraf tiruan. Sedangkan data testing digunakan untuk menguji ketepatan klasifikasi dari model yang telah terbentuk. Misclassified kedua model nantinya akan dibandingkan. Pemilihan data training dan data testing di pilih secara acak.

2.9. Demografi

Berdasarkan Multilingual Demographic Dictionary (IUSSP, 1982) defenisi demografi ialah: Demography is the scientific study of human populations in primarily with the respect to their structure (composition) and their development (change).

Menurut Donald J. Bogue mengatakan bahwa demografi ialah ilmu yang mempelajari secara statistik dan matematik tentang besar, komposisi, dan distribusi penduduk dan perubahan-perubahannya sepanjang masa melalui bekerjanya lima komponen demografi yaitu kelahiran (fertilitas), kematian (mortalitas), perkawinan, migrasi, dan mobilitas sosial.

(36)

BAB 3

PEMBAHASAN

3.1. Evaluasi Fungsi Klasifikasi Regresi Logistik

Hal penting dalam melakukan evaluasi fungsi klasifikasi untuk mengetahui seberapa tepat klasifikasi yang dilakukan yaitu dengan menggunakan APER (Apparent Error Rate) sebagaimana telah di jelaskan pada Bab 2. Sebelum menggunakan APER hal pertama yang dilkukan ialah dengan membuat tabel klasifikasinya terlebih dahulu (lihat Tabel 1). Dalam melakukan klasifikasi dengan regresi logistic terlebih dahulu dibuat tabulasi antara actual group dan predicted group yang diperoleh dari fungsi logistik (persamaan 2).

Selanjutnya dihitung proporsi pengamatan yang salah diklasifikasikan. Diharapkan proporsi pengamatan yang salah diklasifikasikan tersebut bias sekecil mungkin. Dalam regresi logistik tidak memilih asumsi normalitas atas variabel bebas yang digunakan dalam model variable bebas tersebut dapat berupa variabel kontinu, diskrit, dan dikotomus (Kuncoro, 2000).

3.2. Analisis Data Dengan Regresi Logistik

(37)

Tahap kedua ialah menguji apakah asumsi multivariate normal dan homogenitas varian terpenuhi oleh data pada masing-masing kelompok respon. Asumsi multivariate normal diuji dengan Chi Square plot, sedangkan asumsi homogenitas varians diuji dengan Box’s. Tahap ketiga ialah dengan membentuk model klasifikasi dengan regresi logistik menggunakan data pada training set. Model klasifikasi yang telah diperoleh ini selanjutnya divalidasi dengan data pada validasi set, akan diketahui besarnya APER atau tingkat ketepatan klasifikasi (Wibowo, 2002). Proporsi kesalahan (misclassified) atau ketepatan klasifikasi ini yang akan digunakan sebagai pembanding antara regresi logistik dan jaringan saraf tiruan.

3.3. Klasifikasi Dengan Regresi Logistik

Pengklasifikasian yang dilakukan yaitu dengan menggunakan data demografi penduduk Indonesia pada 30 provinsi yang diambil dari tahun 2000 sampai tahun 2010. Dengan variabel responnya ialah persentasi laju pertumbuhan penduduk. variabel ini dikode 0 jika persentasi perubahannya di bawah persentasi seluruh laju pertumbuhan penduduk di Indonesia dan dikode 1 jika persentasi laju pertumbuhan penduduk setiap provinsi di atas persentasi laju pertumbuhan penduduk seluruh Indonesia.

Variabel prediktornya ialah komposisi umur (dependency ratio), fertilitas, mortalitas, dan migrasi penduduk di masing-masing provinsi.. Untuk dependency ratio

akan dikode 0 jika di bawah rata-rata tingkat dependency ratio penduduk Indonesia dan akan dikode 1 jika berada di atas rata-rata tingkat dependency ratio penduduk Indonesia. Berdasarkan hasil pengujian asumsi, untuk nilai data ini yang skala datanya campuran, asumsi kesamaan matrik kovarian dapat terpenuhi, sedangkan asumsi multivariate normal tidak terpenuhi karena menghsilkan kesimpulan yang berbeda.

(38)

(39)

Proses Klasifikasi:

1. Tahap pertama ialah melakukan pengkodean pada data demografi di atas, perubahan yang terjadi dapat dilihat pada Tabel 3 berikut ini:

Tabel 3: Data Demografi Indonesia Pada Data Proyeksi Penduduk Indonesia Tahun 2000-2010 (Setelah Diberi Pengkodean).

No Provinsi Laju

Setelah dilakukan pengkodean data diolah dengan menggunakan spss 17.

(40)

multivariate normal diuji dengan Chi Square plot, sedangkan asumsi homogenitas varians diuji dengan Box’s.

Tabel 4: Tabel Uji Chi Square

Dari Chi Square pada derajat kebebasan 5% dengan nilai 11,135 artinya model dengan hanya intercept, berbeda secara statistik dibandingkan dengan model yang memasukkan semua variabel. Hal ini dapat dilihat dari taraf signifikannya yakni 0,025 < 0,05.

3. Tahap 3 yaitu dengan menggunakan spss 17 dapat diperoleh tabel klasifikasi actual group dan predicted group dari Tabel 3 di atas, antara lain:

Tabel 5: Tabel Klasifikasi Predicted group

Actual Group

Sehingga proporsi pengamatan yang salah diklasifikasikan dapat diperoleh dengan menghitung APER, yakni:

Model Fitting Information

Model

Fitting

Criteria Likelihood Ratio Tests

-2 Log

Likelihood

Chi-Square df Sig.

Intercept Only 38.191

(41)

3.4. Algoritma Pelatihan Jaringan Saraf Tiruan Back Propagation

Algoritma pelatihan jaringan saraf tiruan back propagation pada dasarnya terbagi menjadi 2 langkah yaitu langkah maju (feed forward) dan propagasi balik. Pada langkah maju, perhitungan bobot-bobot neuron hanya didasarkan pada vektor masukan, Sedangkan pada propagasi balik, bobot-bobot diperhalus dengan memperhitungkan nilai target atau keluaran.

Dalam melakukan klasifikasi hal yang dilakukan ialah dengan mencari nilai MSE (Mean Square Error). Nilai mean square error (MSE) pada satu siklus pelatihan (langkah 2 – 10, dimana seluruh record dipresentasikan satu kali) ialah nilai kesalahan (error = nilai keluaran – nilai masukan) rata-rata dari seluruh record yang dipresentasikan ke jaringan saraf tiruan dan dirumuskan sebagai:

Semakin kecil MSE, jaringan saraf tiruan semakin kecil kesalahannya dalam memprediksikelas dari record yang baru. Maka, pelatihan jaringan saraf tiruan ditujukan untuk memperkecil MSE dari satu siklus ke siklus berikutnya sampai selisih nilai MSE dari satu siklus ini dengan siklus sebelumnya lebih kecil atau sama dengan batas minimal yang diberikan (Dhaneswara et al, 2004).

3.5. Klasifikasi Jaringan Saraf Tiruan

Setelah dilakukan klasifikasi dengan regresi logistik maka akan dilakukan klasifikasi dengan menggunakan jaringan saraf tiruan. Pada tahap awal yaitu dengan melakukan pelatihan pada jaringan saraf back propagation. Pelatihan ini dilakukan dengan penggunaan momentum pada perhitungan perubahan bobot-bobot, yang bertujuan untuk melancarkan pelatihan dan mencegah agar bobot tidak “berhenti “ di sebuah nilai yang belum optimal. Perubahan bobot pada Algoritma 1 diubah menjadi:

(42)

Namun terkadang dalam melakukan pelatihan muncul masalah dalam sistem yang terlalu berlebihan hal ini dikarenakan kapasitas jaringan melebihi parameter bebas yang diperlukan secara signifikan. Untuk menghindari masalah ini hal yang dilakukan ialah dengan menggunakan cross validasi untuk meminimalkan kesalahan dan menggunakan beberapa bentuk regularisasi yang merupakan konsep yang muncul secara alami dalam probabilitas Bayesian, dimana regularisasi tersebut dapat dilakukan dengan memilih model sederhana yang lebih utama, tetapi dalam statistik tujuannya untuk meminimalkan resiko empiris dan resiko struktural yang sesuai dengan kesalahan selama training set dan kesalahan prediksi pada data yang tak terlihat karena overfitting (Wikipedia, 2011).

Setelah pelatihan selesai diakukan, maka model jaringan saraf tiruan akan digunakan untuk menglasifikasikan record baru. Klasifikasi ini cukup dilakukan dengan langkah feed forward dan hasilnya berupa kelas yang diprediksi jaringan saraf tiruan untuk rekord yang baru ini. Langkah-langkah dalam melakukan klasifikasi jaringan saraf tiruan dilakukan dengan (Dhaneswara et al, 2004):

Algoritma :

1. Menginisialisasi bobot awal dengan nilai acak yang sangat kecil, hitung mean square error (MSE) dan MSE inisialisasi.

2. Selama MSE , dengan lakukan: 3. Untuk setiap rekord pada set data pelatihan lakukan:

Feedforward:

4. Setiap unit masukan menerima vektor masukan dan mengirimkan vektor ini ke seluruh unit pada lapis diatasnya (hidden layer).

5. Setiap unit hidden menjumlahkan bobot dari vektor

masukan:

hitung keluaran fungsi aktivasi: kirimkan vektor ini ke

(43)

6. Setiap unit keluaran menjumlahkan vektor masukan:

hitung keluaran dari fungsi aktivasi:

Propagasi balik dari error:

7. Setiap unit keluaran menerima vektor hasil yang diinginkan untuk data masukan tersebut, hitung error-nya

Hitung nilai koreksi bobotnya dengan sebagai learning ratenya:

, hitung nilai koreksi biasnya: kirimkan ke unit

pada lapis dibawahnya.

8. Setiap unit hidden menjumlahkan delta masukannya (dari

unit-unit pada lapis diatasnya):

Kalikan dengan turunan dari fungsi aktivasinya untuk menghitung errornya: hitung nilai koreksi bobotnya:

.

Perbaharui bobot dan bias:

9. Setiap unit keluaran memperbaharui bias dan bobotnya .

Setiap unit tersembunyi memperbaharui bias dan

bobotnya .

. MSElama=MSE.

Hitung

(44)

Keterangan notasi untuk algoritma 1:

x = vektor masukan = (x1, …, xi, …, xn),

t = vektor keluaran= (t1, …, tk, …, tm)

δk = nilai koreksi bobot error untuk wjk yang disebabkan oleh error pada unit

keluaranYk .

δj = nilai koreksi bobot error untuk yang disebabkan oleh informasi propagasi

balik dari error pada lapis keluaran ke unit tersembunyi Zj . α = konstanta laju pembelajaran (learning rate).

Xi = unit masukan i.

v0j = bias pada unit tersembunyi j.

Zj = unit tersembunyi j.

w0k = bias pada unit keluaran k.

Yk = unit keluaran k.

Fungsi aktivasi yang dapat digunakan pada propagasi balik ialah:

Binary sigmoid: mempunyai rentang diantara 0 dan 1, fungsi identitas

merupakan fungsi aktivasi untuk semua unit input, fungsi sigmoid

(45)

Analisis dan arsitektur pada jaringan saraf tiruan dalam hal pengklasifikasian data demografi ialah dengan menggunakan jaringan saraf tiruan jumlah hidden layer yang digunakan 1 dengan 5 unit hidden layer, dengan learning rate 0,4. Dan fungsi aktivasi yang digunakan ialah fungsi aktivasi binary sigmoid. Untuk lebih jelasnya dapat di lihat pada tabel di bawah ini (Lampiran B):

Tabel 6: Tabel Informasi Jaringan Saraf Tiruan

Network Information

Hidden Layer(s) Number of Hidden Layers 1

Number of Units in Hidden

Layer 1a

5

Activation Function Hyperbolic tangent

Output Layer Dependent Variables 1 LPP

Number of Units 1

Rescaling Method for Scale Dependents Normalized

Activation Function Sigmoid

Error Function Sum of Squares

(46)

(47)

Sehingga diperoleh hasil penglasifikasian data demografi Indonesia dengan menggunakan jaringan saraf tiruan yang diproses dengan menggunakan spss 17 dapat dilihat pada tabel di bawah ini (Lampiran B):

Tabel 8:

Dari tabel terlihat bahwa berdasarkan data training kesalahan klasifikasi pada jaringan saraf tiruan ialah sebesar 0,936. Hal ini terlihat pada nilai sum of square error.. Sedangkan pada data Testing kesalahan klasifikasi ialah sebesar 0,081 atau dengan kata lain tingkat errornya sebesar 8,1 %.

Model Summary

Training Sum of Squares Error

.936

Relative Error .478

Stopping Rule Used 1 consecutive step(s) with no decrease in errora Training Time 0:00:00.016

Testing Sum of Squares

Error

.081

Relative Error .215

Dependent Variable: LPP

(48)

Gambar 3.1 : Arsitektur Jaringan Saraf Dengan 1 Hidden Layer

3.6. Perbandingan Klasifikasi Regresi Logistik Dan Jaringan Saraf Tiruan

(49)

Tabel 9: Nilai Misclassified Pada Regresi Logistik Dan Jaringan Saraf Tiruan Misclassified Regresi Logistik Jaringan Saraf Tiruan

Data Training 0,3 0,936

Data Testing 0,1 0,081

Dari hasil perhitungan dapat diperoleh bahwa misclassified pada regresi logistik yaitu dapat dilihat pada data training sebesar 0,3 yang diperoleh dari tabel klasifikasi antara predicted dan actual group. Sedangkan pada jaringan saraf tiruan diperoleh misclassifiednya sebesar 0,936. Sehingga jika dilihat dari data trainingnya regresi logistik lebih baik dibandingkan jaringan saraf tiruan dalam hal pengklasifikasian data demografi. Namun, jika dilihat dari data testing diperoleh hasil bahwa jaringan saraf memiliki misclassified yang lebih kecil dibandingkan regresi logistik yakni pada regresi sebesar 0,1 dan pada jaringan saraf sebesar 0,081. Sehingga jaringan saraf merupakan metode klasifikasi yang lebih baik dalam hal pengklasifikasian data demografi.

(50)

BAB 4

PENUTUP

4.1. Kesimpulan

Kesimpulan yang diperoleh dari hasil perbandingan metode klasifikasi antara regresi logistik dan jaringan saraf tiruan ialah jaringan saraf tiruan merupakan metode klasifikasi yang lebih baik dibandingkan regresi logistik dalam hal menglasifikasikan data demografi. Hal ini dapat dilihat dari misclassified pada data testing antara regresi logistik dan jaringan saraf tiruan. Nilai dari data testing kedua metode klasifikasi tersebut yakni: regresi logistik 0,1 dan jaringan saraf tiruan 0,081.

4.2. Saran

1. Pada penglasifikasian data demografi Indonesia menggunakan sampel data yang sedikit karena diambil data secara keseluruhan pada masing-masing provinsi. Untuk mengetahui hasil klasifikasi yang lebih jelas dapat digunakan data dengan jumlah yang lebih besar.

(51)

DAFTAR PUSTAKA

Anderson, T. W. 1984. An Introduction to Multivariate Statistical Analysis. New York: John Wiley & Sons, Inc.

Daneswara, G., dan Moertini, S. V. 2004. Jaringan Saraf Tiruan Propagasi Balik Untuk Klasifikasi Data. Integral. 9(3): hal. 117-131.

Hosmer, D. W., dan Lemeshow, S. 1989. Applied Logistic Regression. New York: John Wiley.

Johnson, R. A., dan Wichern, D. W. 2007. Applied Multivariate Statistical Analysis.

6th edition. United Stated of America: Pearson Education International

Kuncoro, M. 2000. Regresi Logistik dan Diskriminan. Yogyakarta: UGM.

Kurt, I., Ture, M., dan Kurum, A. T. 2006. Comparing Performances of Logistic Regression Classification and Regression Tree, and Neural Network for Predicting Coronary Artery Disease, Expert Systems with Applications. 34(1): hal.366-374.

Kholija, S. 2008. Perbandingan Metode Gauss Newton Dan Metode Stepest Descent Dalam Penaksiran Parameter RegresiNonlinier. Medan: USU.

Manel, S., Dias, J. M., dan Ormerod, S. J. 1999. Comparing Discriminant Analysis, Neural Networks And Logistic Regression For Predicting Species Distributions: A Case Study With A Himalayan River Bird. Ecological Modelling. 120 (2-3): hal.337-347.

Mantra, I., B. 2003. Demografi Umum.Yogyakarta: Pustaka Belajar Offset. Yogyakarta: UGM.

Puspitaningrum, Diyah. 2006. Pengantar Jaringan Saraf Tiruan. Yogyakarta: Andi.

Wibowo, W. 2002. Perbandingan hasil klasifikasi analisis diskriminan dan regresi logistik pada pengklasifikasian data respon biner. Kappa: 3(1): hal. 36-45.

Negnevitsky dan Michael (dalam Pujiati, S. A). 2002. Artificial Intelligence: A Guide To Intelligent System. Boston: PWS-KENT.

2010.

(52)

(53)

LAMPIRAN A

Out Put Klasifikasi Regresi Logistik Dengan Menggunakan Spss 17

Case Processing Summary

a. The dependent variable has only one value observed in 30 (100.0%) subpopulations.

Model Fitting Information

Model

Model Fitting

(54)

Iteration History

Intercept DR fertilisasi mortalitas migrasi 0 0 38.191 -.693147 .000000 .000000 .000000 .000000 a. The parameter estimates converge. Last absolute change in -2 Log Likelihood is .000, and last maximum absolute change in parameters is 7.58323E-008.

(55)

Classification

Observed

Predicted

.00 1.00

Percent Correct

.00 7 3 70.0%

1.00 0 20 100.0%

Overall Percentage

(56)

LAMPIRAN B

Out Put Klasifikasi Jaringan Saraf Tiruan Dengan Menggunakan Spss 17