BAB 2
TINJAUAN PUSTAKA
Pada Bab ini akan dipaparkan beberapa teori tentang analisis diskriminan dari berbagai sumber seperti: buku, jurnal dan prosiding. Analisis diskriminan adalah salah satu metode dependensi dari analisis multivariat. Berikut beberapa definisi dan penelitian terdahulu dari berbagai bidang dengan menggunakan analisis diskriminan.
2.1. Analisis Multivariat
Menurut Johnson dan Wichern (2007) Analisis statistika multivariat merupakan analisis statistika yang digunakanpada data yang memiliki lebih dari dua variabel secara bersamaan, denganmenggunakan teknik analisis multivariat maka dapat menganalisis pengaruh beberapavariabel terhadap variabel-variabel lainnya dalam waktu yang bersamaan. Teknikanalisis multivariat berdasarkan karakteristiknya dapat dibagi menjadi dua yaituteknik dependensi dan teknik interdependensi. Teknik dependensi merupakan teknikyang digunakan untuk melihat pengaruh atau memprediksi variabel dependenberdasarkan beberapa variabel independen yang mempengaruhi. Analisis multivariat yang termasuk teknik dependensi yaitu analisis regresi berganda, analisisdiskriminan, analisis konjoin, manova, mancova, anova, ancova, dan korelasikanonik. Teknik interdependensi merupakan teknik yang digunakan untukmengelompokkan atau mereduksi beberapa variabel menjadi variabel baru yang lebihsedikit, tetapi tidak mengurangi informasi yang terkandung dalam variabel asli.Analisis multivariat yang termasuk teknik interdependensi adalah analisis klaster,penskalaan multidimensi, analisis kanonikal, dan analisis faktor.Analisis multivariat menuntut uji asumsi, data yang akan dianalisis harus berasal dari populasi yang berdistribusi normal multivariat dan matrik varians kovarians antar populasi adalah sama.Menurut Johnson dan Wichern (2007) untuk menguji distribusi normal multivariat adalah dengan
mencari nilai jarak Mahalanobis dengan Khi-kuadrat 𝜒𝜒2𝑝𝑝 �(𝑖𝑖 − 0,5)/𝑛𝑛�. Jarak Mahalanobis merupakan jarak statistik yang memperhitungkan korelasi atau kovarians antar variabel. Dengan rumus sebagai berikut:
𝐷𝐷𝑖𝑖2 = (𝑥𝑥𝑖𝑖− 𝑥𝑥̅)𝑠𝑠−1(𝑥𝑥𝑖𝑖− 𝑥𝑥̅) (2.1) dimana;
𝑖𝑖 = 1,2,…,𝑛𝑛
𝑥𝑥1, 𝑥𝑥2, 𝑥𝑥3, … , 𝑥𝑥𝑛𝑛 = vektor pengamatan 𝑠𝑠−1 = inverse matriks varians kovarians
Kriteria pemenuhan asumsi dilakukan secara visual yaitu jika plot membentuk garis lurus berarti data dapat didekati dengan sebaran normal.Statistika ujidiperlukan untuk menguji homogenitas matriks varians kovarians dengan hipotesis H0: ∑1 = ∑2 = ⋯ = ∑g = ∑0 dan H1: ada paling sedikit satu diantara sepasang ∑𝑙𝑙 yang tidak sama. Jika dari masing-masing populasi diambil sampel acak berukuran n yang saling bebas maka penduga tak bias untuk ∑𝑙𝑙 adalah matriks 𝑆𝑆𝑙𝑙 sedangkan untuk ∑0 penduga tak biasnya adalah S. dengan rumus sebagai berikut: 𝑆𝑆 =𝑁𝑁1∑ (𝑛𝑛𝑔𝑔𝑙𝑙=1 𝑙𝑙− 1)𝑆𝑆𝑙𝑙 (2.2) 𝑀𝑀 = ∑ (𝑛𝑛𝑔𝑔𝑙𝑙=1 𝑙𝑙− 1) ln|𝑆𝑆|− ∑ (𝑛𝑛𝑔𝑔𝑙𝑙=1 𝑙𝑙− 1) ln|𝑆𝑆𝑙𝑙| (2.3) 𝐶𝐶−1 = 1 − 2𝑝𝑝2+3𝑝𝑝−1 6(𝑝𝑝+1)(𝑔𝑔−1)�∑ 1 (𝑛𝑛𝑙𝑙−1)− 1 ∑𝑔𝑔𝑙𝑙=1(𝑛𝑛𝑙𝑙−1) 𝑔𝑔 𝑙𝑙=1 � (2.4)
Daerah penolakan untuk hipotesis nol dapat dihampiri dengan menggunakan sebaran Khi kuadrat yaitu:𝑀𝑀𝐶𝐶−1 > 𝑥𝑥𝛼𝛼,𝑑𝑑𝑑𝑑2 .Dengan bantuan program SPSS, uji homogenitas matriks varians-kovarians dapat dilakukan dengan Uji Bo x’s M. Jik a nilai sig. > α, mak a H0 diterima sehingga dapat disimpulkan matriks varians-kovarians dari l-populasi adalah sama atau homogen.
Analisis diskriminan pertama kali dikembangkan oleh Ronald A. Fisher pada tahun 1936 sebagai suatu teknik statistika yang diterapkan dalam bidang taksonomi.Analisis diskriminan adalah salah satu teknik yang digunakan untuk menjelaskan atau memprediksi variabel terikat berdasarkan dua atau lebih variabel bebas dengan mengklasifikasikan objek beberapa kelompok. Dengan tujuan untuk mengetahui apakah ada perbedaan yang jelas antar kelompok pada variabel dependen. Jika ada, variabel independen mana pada fungsi diskriminan yang membuat perbedaan tersebut. Pengelompokkan analisis diskriminan ini terjadi karena ada pengaruh satu atau lebih variabel lain yang merupakan variabel independen. Analisis diskriminan sangat berguna di antaranya untuk menjelaskan segmen pelanggan, mengidentifikasi karakteristik kritis yang mampu membedakan keduanya dan penggolongan calon pelanggan ke dalam segmen yang sesuai. Meskipun penggunaan paling umum analisisdiskriminan adalah untuk mengklasifikasikan orang atau objek menjadi berbagai kelompok, analisis diskriminan dapat juga dipergunakan untuk menganalisis kelompok-kelompok yang diketahui untuk menentukan pengaruh relatif dari faktor-faktor tertentu sehingga dapat digunakan untuk memutuskan pengelompokkan (Rully dan Poppy, 2014).
Menurut Johnson dan Wichern (2007) tujuan dari analisis diskriminan adalah untuk menggambarkan ciri-ciri suatu pengamatan dari bermacam-macam populasi yang diketahui, baik secara grafis maupun aljabar dengan membentuk fungsi diskriminan. dengan kata lain, analisis diskriminan digunakan untuk mengklasifikasikan individu ke dalam salah satu dari dua kelompok atau lebih. Analisis diskriminan bermanfaat pada situasi di mana sampel total dapat dibagi menjadi grup-grup berdasarkan karateristik variabel yang diketahui dari beberapa kasus. Tujuan utama dari analisis multipel diskriminan adalah untuk mengetahui perbedaan antar grup
.
Model analisis diskriminan berkenaan dengan kombinasi linier disebut juga fungsi diskriminan. Dengan fungsi diskriminan sebagai berikut:𝑍𝑍 = 𝑎𝑎1𝑋𝑋1 + 𝑎𝑎2𝑋𝑋2 + … + 𝑎𝑎𝑝𝑝𝑋𝑋𝑝𝑝 (2.5) keterangan:
𝑍𝑍= nilai (skor) diskriminan
p = 1, 2, 3,..,n
𝑎𝑎𝑝𝑝 = koefisien atau timbangan diskriminan dari variabel ke-p 𝑋𝑋𝑝𝑝 = variabel independen ke-p
Menurut Supranto (2010) analisis diskriminan merupakan teknik menganalisis data, kalau variabel tak bebas (disebut criterion) merupakan kategori (non-metrik, nominal atau ordinal, bersifat kualitatif) sedangkan variabel bebas sebagai prediktor merupakan metrik (interval atau rasio, bersifat kuantitatif). Teknik analisis diskriminan dibedakan menjadi dua yaitu analisis diskriminan dua kelompok/kategori, kalau variabel tak bebas Y dikelompokkan menjadi dua. Diperlukan satu fungsi diskriminan. Kalau variabel tak bebas dikelompokkan menjadi lebih dari dua kelompok disebut analisis diskriminan berganda (multiple
discriminant analysis) diperlukan fungsi diskriminan sebanyak (k - 1) kalau
memang ada k kategori.
Analisis diskriminan banyak digunakan di berbagai bidang, terutama di bidangpendidikan, kesehatan, ekonomi, sosial dan lain-lain. Berikut ada beberapa penelitian dengan menggunakan analisis diskriminan. Pada bidang pendidikan, penelitian dilakukan oleh Yuli (2012) dan mengemukakan bahwa dari hasil penelitiannya tentang analisis diskriminan diketahui bahwa faktor-faktor yang menjadi pertimbangan mahasiswa dalam memilih Prodi Matematika FMIPA dan FKIP yaitu faktor kapasitas prodi dan motivasi dunia kerja yang signifikan dapat membedakan pemilihan Prodi Matematika. Dari fungsi diskriminan ini, selanjutnya dilakukan pengklasifikasian dengan mengacu pada konsep jarak bahwa pengklasifikasian suatu objek dipilih dari jarak objek pengamatan terhadap vektor rataanya yang terdekat atau terkecil pada masing-masing Prodi Matematika atau dengan mencari nilai pemisah. Dan hasil pengklasifikasian tersebut, data yang telah terklasifikasikan dengan benar sebesar 64,15% dari 85 data yang diolah telah dimasukkan pada kelompok yang sesuai dengan data semula.
Marino (2014) mengemukakan bahwa penelitian yang dilakukan dalam membandingkan analisis diskriminan linier, diskriminan linier robust dan regresi
logistik biner untuk mengelompokkan siswa SMA Negeri 1 Bangorejo ke dalam kelompok IPA/IPS. Dari hasil simulasi ditunjukkan bahwa regresi logistik biner mempunyai ketepatan klasifikasi yang paling baik sebesar 85,714%. Penelitian ini menggunakan beberapa jenis analisis diskriminan dengan membandingkan hasil terbaik dari beberapa analisis yang dilakukan.
Penelitian yang telah dilakukan oleh Dewi dan Kania (2009) bahwa hasil-hasil penelitian tentang Linear Discriminant Analysis (LDA) maupun Quadratic
Discriminant Analysis (QDA) kebanyakan menggunakan metode Apparent Error Rate (APER) dalam mengevaluasi aturan pengelompokkan dalam analisis
diskriminan. Oleh karena itu, pada penelitian ini diterapkan suatu metode yang disebut Prosedur Lanchenbruch, untuk mengatasi hal tersebut. Pada prosedur ini sampel dibagi menjadi dua bagian yaitu training sample dan validating
sample.Prosedur Lachenbruch ini diterapkan pada data dua spesies lalat pengigit
(biting fly) dengan genus Leptoconos, yang sama secara morfologi dan selama beberapa tahun kedua spesies ini dianggap sama. Hasil analisis QDA terhadap data ini menunjukkan bahwa kedua spesies ternyata berbeda. Setelah diterapkan prosedur Lachenbruch pada data biting fly, diperoleh hasil dengan nilai APER lebih tinggi dari nilai AER.
Pada bidang komputasi penelitian dilakukan oleh Dian (2014) yang menyimpulkan bahwa permasalahan yang diangkat dalam penelitiannya adalah adanya metode klasifikasi selain metode analisis diskriminan. Penelitian ini bertujuan untuk membandingkan hasil klasifikasi antara analisis diskriminan yang merupakan metode statistika dan metode jaringan syaraf tiruan menggunakan metode Learning Vector Quantization. Klasifikasi dengan metode analisis diskriminan menggunakan fungsi diskriminan dan skor diskriminan. Sedangkan klasifikasi dengan metode Learning Vector Quantization menggunakan arsitektur jaringan optimal dengan menentukan MSE terkecil dari arsitektur jaringan yang dibentuk tanpa ada asumsi yang harus dipenuhi. Secara keseluruhan dapat disimpulkan bahwa kedua metode sama baiknya untuk klasifikasi sesuai uji t. Metode Learning Vector Quantizationbisa digunakan sebagai alternatif untuk
klasifikasi apabila syarat kesamaan vektor rata-rata pada analisis diskriminan tidak terpenuhi.
Sistem sensor robot selalu didukung oleh sistem komputer yang dikenal “visi komputer”. Konsep penting dalam visi komputer adalah klasifikasi objek. Dalam kajian ini, dua buah algoritma untuk klasifikasi objek akan dibandingkan yaitu metode pohon keputusan biner dan metode yang formal dengan deskiptor yang bervariasi tinggi. Dalam penelitian ini digunakan metode analisis diskriminan sebagai alternatif untuk klasifikasi objek. Metode ini dijalankan dengan fungsi diskriminan fisher untuk memisahkan objek. Dalam penelitian ini ditunjukkan bahwa analisis diskriminan dapat mengklasifikasikan objek dengan lebih baik dari pada metode pohon keputusan biner. Kelebihan ini ditunjukkan terutama pada objek yang mengalami noise (Amir, 2002).
2.3. Eigenvalue dan Eigenvector
Matriks indentitas adalah matriks diagonal di mana nilai elemen diagonal utamanya masing-masing adalah satu sedangkan nilai elemen off-diagonalnya adalah sama dengan nol. Matriks indentitas memiliki sifat seperti angka satu. Artinya, jika matriks identitas dengan matriks lain (asal dimensinya terpenuhi) maka hasil kalinya akan tetap sama dengan nilai semua matriks tersebut. Contoh matriks indentitas:
𝐼𝐼 = �1 00 1� 𝐼𝐼 = �1 0 00 1 0 0 0 1�
Jika A adalah matriks m x m, maka setiap skalar λ memenuhi persamaansebagai berikut:
Ax = 𝜆𝜆x (2.6)
Untuk m×1 vektor x ≠ 0, disebut eigenvalue dari A. Vektor x disebut eigenvektor dari A yang berhubungan dengan eigenvalue 𝜆𝜆. Persamaan (2.11) dapat juga ditulis sebagai berikut:
Persamaan (2.12) disebut juga sistem persamaan linier homogen.Setiap nilai eigenvalue 𝜆𝜆 harus memenuhi persamaan determinan yang dikenal sebagai persamaan karakteristik A sebagai berikut:
|𝐴𝐴 − 𝜆𝜆𝐼𝐼|= 0 (2.8)
Dengan contoh sebagai berikut: 𝐴𝐴 = �3 24 1�, maka 𝐴𝐴 − 𝜆𝜆𝐼𝐼 = �3 2
4 1� − 𝜆𝜆 �1 00 1� = �3 − 𝜆𝜆4 1 − 𝜆𝜆�2 |𝐴𝐴 − 𝜆𝜆𝐼𝐼| = (3 − 𝜆𝜆 )(1 − 𝜆𝜆) − 2(4) = 𝜆𝜆2− 4𝜆𝜆 − 5
Akar persamaan tersebut adalah 𝜆𝜆 = 5 dan 𝜆𝜆 = −1. Untuk mendapatkan
eigenvector X terkait dengan 𝜆𝜆 = 5, mensubstitusikan nilai eigenvalue tersebut
pada persamaan berikut ini:
(𝐴𝐴 − 𝜆𝜆𝐼𝐼)𝑋𝑋 = 0 atau ��3 24 1� − 5 �1 00 1�� �𝑥𝑥1𝑥𝑥
2� = �00� Atau �−2 2
4 −4� �𝑥𝑥1𝑥𝑥2� = �00� → −2𝑥𝑥1+ 2𝑥𝑥2 = 0 4𝑥𝑥1− 4𝑥𝑥2 = 0
Dari persamaan baris pertama diatas telah diketahui bahwa 𝑥𝑥1 = 𝑥𝑥2, maka
eigenvector yang terkait dengan 𝜆𝜆 = 5 adalah
𝑋𝑋 = �𝑥𝑥𝑥𝑥1 2� = �
𝑥𝑥1
𝑥𝑥2� = 𝑥𝑥2 �11� dengan nilai 𝑥𝑥2 bersifat arbitrer (atau matriks 𝑥𝑥2 sama dengan matriks 𝑥𝑥1)
Ada beberapa sifat istimewa eigenvalue dan eigenvector antara lain:
1. Jumlah eigenvalue sama dengan trace matriks yang bersangkutan. Dari contoh di atas jumlah eigenvalue adalah 5 -1 = 4 sama dengan trace matriks A = 3 + 1 = 4
2. Suatu matriks ataupun transposenya memiliki eigenvalue yang sama. Artinya baik untuk matriks A di atas ataupun AT memiliki eigenvalue 5 dan -1. Maka AT = 4
3. Hasil kali eigenvalue-eigenvalue suatu matriks sama dengan determinan matriks tersebut. Hasil kali eigenvalue matriks A sama dengan 5(-1) = -5 Determinan A = 3(1) – 2(4) = -5
2.4. Matriks VariansKovarians
Beberapa analisis statistika multivariat seperti aanalisis diskriminan dan
MANOVA membutuhkan syarat matriks varians-kovarians yang homogen. Untuk
menguji syarat ini dapat dipergunakan statistik uji Box-M. Hipotesis dan statistik uji Box-M adalah (Rencher, 1995) :
Ho : Σ1 =Σ2 =...=Σk H1 : ∃Σi ≠Σjuntuk i≠ j Statistik uji − − − =
∑
∑
= = k i k ii i pool i i hitung c v v 1 1 1 2 ln 2 1 ln 2 1 ) 1 ( 2 S S χ (2.9) dimana,∑
∑
= = = k i i k i i i pool v v 1 1 S S (2.10) − + − + − =∑
∑
= = ) 1 )( 1 ( 6 1 3 2 1 1 2 1 1 1 k p p p v v c k i k i i i 1 − = i i n v (2.11)Terima hipotesis nol yang berarti matriks varians-kovarians bersifat homogen jika 2 1 ( ) 1 ( 2 1 2 + − ≤ p p k hitung χ χ
2.5. Uji Signifikansi Dengan Wilk’s Lambda
Dengan menggunakan rumus Wilk’sLambda (Λ) sebagai berikut (Gudono, 2015): Λ = SS𝑊𝑊
SS𝑇𝑇 (2.12)
𝑆𝑆𝑆𝑆𝑊𝑊 = ∑2𝑔𝑔=1∑ (𝑋𝑋𝑛𝑛𝑖𝑖=1 𝑖𝑖.𝑔𝑔 − 𝑋𝑋���)𝑔𝑔 2 (2.13) 𝑆𝑆𝑆𝑆𝑇𝑇 = ∑ (𝑋𝑋𝑁𝑁𝑖𝑖=1 𝑖𝑖 − 𝑋𝑋�)2 (2.14) keterangan:
𝑆𝑆𝑆𝑆𝑇𝑇 = nilai varians dari matriks 𝑆𝑆𝑆𝑆𝐶𝐶𝑆𝑆𝑇𝑇 𝑔𝑔 = referensi grup
𝑛𝑛 = jumlah sampel dalam suatu grup 𝑁𝑁 = jumlah semua sampel
𝑋𝑋� = rata-rata X pada sebuah grup
𝑋𝑋� = rata-rata keseluruhan sampel (grand-mean)
Dalam pengujian statistik semakin kecil skor tes Wilk’s Λ, maka semakin besar probabilitas hipotesis nol akan ditolak. Skor Wilk’s Λ dapat dikonversi menjadi nilai F agar dapat ditafsirkan signifikansi statistiknya dengan lebih mudah menggunakan rumus (Gudono, 2015):
𝐹𝐹 = �1− ΛΛ � �𝑛𝑛1+𝑛𝑛2− 𝑝𝑝−1
𝑝𝑝 � (2.15)
keterangan:
𝑝𝑝 = jumlah variabel yang sedang diuji Λ = nilai Wilk’s Lambda
2.6. Uji Klasifikasi Fungsi Diskriminan
Kriteria perbandingan teknik klasifikasi didasarkan pada kesalahan klasifikasinya yang dikenal dengan Apparent Error Rate (APER) merupakan nilai dari besar kecilnya jumlah observasi yang salah dalam pengklasifikasian berdasarkan suatu fungsi klasifikasi (Johnson dan Wichern, 2007).Adapun APER dihitung dengan terlebih dahulu membuat tabel klasifikasi sebagai berikut:
Klasifikasi actual dan predicted group
Actual group Predicted group
𝜋𝜋0 𝜋𝜋1
𝜋𝜋0 𝑛𝑛00 𝑛𝑛01 = 𝑛𝑛0 − 𝑛𝑛00
𝜋𝜋1 𝑛𝑛10 = 𝑛𝑛1− 𝑛𝑛11 𝑛𝑛11
Sumber: Johnson and Wichern (2007)
𝐴𝐴𝑆𝑆𝐴𝐴𝐴𝐴 = 𝑛𝑛01+ 𝑛𝑛10
𝑛𝑛0+ 𝑛𝑛1 (2.16)
Sedangkan ketepatan prediksi pengelompokkan secara tepat dapat menggunakan rumus hit ratio.
𝐻𝐻𝑖𝑖𝐻𝐻 𝑟𝑟𝑎𝑎𝐻𝐻𝑖𝑖𝑟𝑟 = 𝑛𝑛00+ 𝑛𝑛11