BAB 2
TINJAUAN PUSTAKA
Pada Bab ini akan dipaparkan beberapa teori tentang analisis diskriminan dari berbagai sumber seperti: buku, jurnal dan prosiding. Analisis diskriminan adalah salah satu metode dependensi dari analisis multivariat. Berikut beberapa definisi dan penelitian terdahulu dari berbagai bidang dengan menggunakan analisis diskriminan.
2.1. Analisis Multivariat
mencari nilai jarak Mahalanobis dengan Khi-kuadrat �2��(� −0,5)/��. Jarak Mahalanobis merupakan jarak statistik yang memperhitungkan korelasi atau kovarians antar variabel. Dengan rumus sebagai berikut:
��2 = (��− �̅)�−1(��− �̅) (2.1)
dimana; � = 1,2,…,�
�1,�2,�3, … ,�� = vektor pengamatan
�−1 = inverse matriks varians kovarians
Kriteria pemenuhan asumsi dilakukan secara visual yaitu jika plot membentuk garis lurus berarti data dapat didekati dengan sebaran normal.Statistika ujidiperlukan untuk menguji homogenitas matriks varians kovarians dengan hipotesis H0:∑1 =∑2 = ⋯= ∑g = ∑0 dan H1: ada paling sedikit satu diantara
sepasang ∑� yang tidak sama. Jika dari masing-masing populasi diambil sampel acak berukuran n yang saling bebas maka penduga tak bias untuk ∑� adalah matriks �� sedangkan untuk ∑0 penduga tak biasnya adalah S. dengan rumus sebagai berikut:
�= 1
�∑ (��−1)�� �
�=1 (2.2)
�=∑��=1(��−1) ln|�|− ∑��=1(��−1) ln|��| (2.3)
�−1= 1− 2�2+3�−1 6(�+1)(�−1)�∑
1 (��−1)−
1 ∑��=1(��−1) �
�=1 � (2.4)
Daerah penolakan untuk hipotesis nol dapat dihampiri dengan menggunakan sebaran Khi kuadrat yaitu:��−1 >��2,��.Dengan bantuan program SPSS, uji homogenitas matriks varians-kovarians dapat dilakukan dengan Uji
Bo x’s M. Jik a nilai sig. > α, mak a H0 diterima sehingga dapat disimpulkan matriks varians-kovarians dari l-populasi adalah sama atau homogen.
Analisis diskriminan pertama kali dikembangkan oleh Ronald A. Fisher pada tahun 1936 sebagai suatu teknik statistika yang diterapkan dalam bidang taksonomi.Analisis diskriminan adalah salah satu teknik yang digunakan untuk menjelaskan atau memprediksi variabel terikat berdasarkan dua atau lebih variabel bebas dengan mengklasifikasikan objek beberapa kelompok. Dengan tujuan untuk mengetahui apakah ada perbedaan yang jelas antar kelompok pada variabel dependen. Jika ada, variabel independen mana pada fungsi diskriminan yang membuat perbedaan tersebut. Pengelompokkan analisis diskriminan ini terjadi karena ada pengaruh satu atau lebih variabel lain yang merupakan variabel independen. Analisis diskriminan sangat berguna di antaranya untuk menjelaskan segmen pelanggan, mengidentifikasi karakteristik kritis yang mampu membedakan keduanya dan penggolongan calon pelanggan ke dalam segmen yang sesuai. Meskipun penggunaan paling umum analisisdiskriminan adalah untuk mengklasifikasikan orang atau objek menjadi berbagai kelompok, analisis diskriminan dapat juga dipergunakan untuk menganalisis kelompok-kelompok yang diketahui untuk menentukan pengaruh relatif dari faktor-faktor tertentu sehingga dapat digunakan untuk memutuskan pengelompokkan (Rully dan Poppy, 2014).
Menurut Johnson dan Wichern (2007) tujuan dari analisis diskriminan adalah untuk menggambarkan ciri-ciri suatu pengamatan dari bermacam-macam populasi yang diketahui, baik secara grafis maupun aljabar dengan membentuk fungsi diskriminan. dengan kata lain, analisis diskriminan digunakan untuk mengklasifikasikan individu ke dalam salah satu dari dua kelompok atau lebi
menjadi grup-grup berdasarkan karateristik variabel yang diketahui dari beberapa
kasus. Tujuan utama dari
perbedaan antar grup. Model analisis diskriminan berkenaan dengan kombinasi linier disebut juga fungsi diskriminan. Dengan fungsi diskriminan sebagai berikut:
� = �1�1 + �2�2 + … + ���� (2.5)
�= nilai (skor) diskriminan
p = 1, 2, 3,..,n
�� = koefisien atau timbangan diskriminan dari variabel ke-p
�� = variabel independen ke-p
Menurut Supranto (2010) analisis diskriminan merupakan teknik menganalisis data, kalau variabel tak bebas (disebut criterion) merupakan kategori (non-metrik, nominal atau ordinal, bersifat kualitatif) sedangkan variabel bebas sebagai prediktor merupakan metrik (interval atau rasio, bersifat kuantitatif). Teknik analisis diskriminan dibedakan menjadi dua yaitu analisis diskriminan dua kelompok/kategori, kalau variabel tak bebas Y dikelompokkan menjadi dua. Diperlukan satu fungsi diskriminan. Kalau variabel tak bebas dikelompokkan menjadi lebih dari dua kelompok disebut analisis diskriminan berganda (multiple
discriminant analysis) diperlukan fungsi diskriminan sebanyak (k - 1) kalau
memang ada k kategori.
Analisis diskriminan banyak digunakan di berbagai bidang, terutama di bidangpendidikan, kesehatan, ekonomi, sosial dan lain-lain. Berikut ada beberapa penelitian dengan menggunakan analisis diskriminan. Pada bidang pendidikan, penelitian dilakukan oleh Yuli (2012) dan mengemukakan bahwa dari hasil penelitiannya tentang analisis diskriminan diketahui bahwa faktor-faktor yang menjadi pertimbangan mahasiswa dalam memilih Prodi Matematika FMIPA dan FKIP yaitu faktor kapasitas prodi dan motivasi dunia kerja yang signifikan dapat membedakan pemilihan Prodi Matematika. Dari fungsi diskriminan ini, selanjutnya dilakukan pengklasifikasian dengan mengacu pada konsep jarak bahwa pengklasifikasian suatu objek dipilih dari jarak objek pengamatan terhadap vektor rataanya yang terdekat atau terkecil pada masing-masing Prodi Matematika atau dengan mencari nilai pemisah. Dan hasil pengklasifikasian tersebut, data yang telah terklasifikasikan dengan benar sebesar 64,15% dari 85 data yang diolah telah dimasukkan pada kelompok yang sesuai dengan data semula.
logistik biner untuk mengelompokkan siswa SMA Negeri 1 Bangorejo ke dalam kelompok IPA/IPS. Dari hasil simulasi ditunjukkan bahwa regresi logistik biner mempunyai ketepatan klasifikasi yang paling baik sebesar 85,714%. Penelitian ini menggunakan beberapa jenis analisis diskriminan dengan membandingkan hasil terbaik dari beberapa analisis yang dilakukan.
Penelitian yang telah dilakukan oleh Dewi dan Kania (2009) bahwa hasil-hasil penelitian tentang Linear Discriminant Analysis (LDA) maupun Quadratic
Discriminant Analysis (QDA) kebanyakan menggunakan metode Apparent Error
Rate (APER) dalam mengevaluasi aturan pengelompokkan dalam analisis
diskriminan. Oleh karena itu, pada penelitian ini diterapkan suatu metode yang disebut Prosedur Lanchenbruch, untuk mengatasi hal tersebut. Pada prosedur ini sampel dibagi menjadi dua bagian yaitu training sample dan validating
sample.Prosedur Lachenbruch ini diterapkan pada data dua spesies lalat pengigit
(biting fly) dengan genus Leptoconos, yang sama secara morfologi dan selama beberapa tahun kedua spesies ini dianggap sama. Hasil analisis QDA terhadap data ini menunjukkan bahwa kedua spesies ternyata berbeda. Setelah diterapkan prosedur Lachenbruch pada data biting fly, diperoleh hasil dengan nilai APER lebih tinggi dari nilai AER.
klasifikasi apabila syarat kesamaan vektor rata-rata pada analisis diskriminan tidak terpenuhi.
Sistem sensor robot selalu didukung oleh sistem komputer yang dikenal “visi komputer”. Konsep penting dalam visi komputer adalah klasifikasi objek. Dalam kajian ini, dua buah algoritma untuk klasifikasi objek akan dibandingkan yaitu metode pohon keputusan biner dan metode yang formal dengan deskiptor yang bervariasi tinggi. Dalam penelitian ini digunakan metode analisis diskriminan sebagai alternatif untuk klasifikasi objek. Metode ini dijalankan dengan fungsi diskriminan fisher untuk memisahkan objek. Dalam penelitian ini ditunjukkan bahwa analisis diskriminan dapat mengklasifikasikan objek dengan lebih baik dari pada metode pohon keputusan biner. Kelebihan ini ditunjukkan terutama pada objek yang mengalami noise (Amir, 2002).
2.3. Eigenvalue dan Eigenvector
Matriks indentitas adalah matriks diagonal di mana nilai elemen diagonal utamanya masing-masing adalah satu sedangkan nilai elemen off-diagonalnya adalah sama dengan nol. Matriks indentitas memiliki sifat seperti angka satu. Artinya, jika matriks identitas dengan matriks lain (asal dimensinya terpenuhi) maka hasil kalinya akan tetap sama dengan nilai semua matriks tersebut. Contoh matriks indentitas:
�= �1 0
0 1� � = �
1 0 0
0 1 0
0 0 1
�
Jika A adalah matriks m x m, maka setiap skalar λ memenuhi persamaansebagai berikut:
Ax = �x (2.6)
Untuk m×1 vektor x ≠ 0, disebut eigenvalue dari A. Vektor x disebut eigenvektor dari A yang berhubungan dengan eigenvalue �. Persamaan (2.11) dapat juga ditulis sebagai berikut:
Persamaan (2.12) disebut juga sistem persamaan linier homogen.Setiap nilai eigenvalue � harus memenuhi persamaan determinan yang dikenal sebagai persamaan karakteristik A sebagai berikut:
|� − ��|= 0 (2.8)
Dengan contoh sebagai berikut: � = �3 2
eigenvector X terkait dengan �= 5, mensubstitusikan nilai eigenvalue tersebut
pada persamaan berikut ini:
(� − ��)�= 0 atau ��3 2
Dari persamaan baris pertama diatas telah diketahui bahwa �1 =�2, maka
eigenvector yang terkait dengan � = 5 adalah
�= ���1
Ada beberapa sifat istimewa eigenvalue dan eigenvector antara lain:
1. Jumlah eigenvalue sama dengan trace matriks yang bersangkutan. Dari contoh di atas jumlah eigenvalue adalah 5 -1 = 4 sama dengan trace matriks A = 3 + 1 = 4
2. Suatu matriks ataupun transposenya memiliki eigenvalue yang sama. Artinya baik untuk matriks A di atas ataupun AT memiliki eigenvalue 5 dan -1. Maka AT = 4
2.4. Matriks VariansKovarians
Beberapa analisis statistika multivariat seperti aanalisis diskriminan dan
MANOVA membutuhkan syarat matriks varians-kovarians yang homogen. Untuk
menguji syarat ini dapat dipergunakan statistik uji Box-M. Hipotesis dan statistik uji Box-M adalah (Rencher, 1995) :
Ho : Σ1 =Σ2 =...=Σk
Terima hipotesis nol yang berarti matriks varians-kovarians bersifat homogen jika
2
2.5. Uji Signifikansi Dengan Wilk’s Lambda
��� = nilai varians dari matriks �����
� = referensi grup
� = jumlah sampel dalam suatu grup � = jumlah semua sampel
�� = rata-rata X pada sebuah grup
�� = rata-rata keseluruhan sampel (grand-mean)
Dalam pengujian statistik semakin kecil skor tes Wilk’s Λ, maka semakin besar probabilitas hipotesis nol akan ditolak. Skor Wilk’s Λ dapat dikonversi menjadi nilai F agar dapat ditafsirkan signifikansi statistiknya dengan lebih mudah menggunakan rumus (Gudono, 2015):
� = �1− Λ
Λ � �
�1+�2− �−1
� � (2.15)
keterangan:
�= jumlah variabel yang sedang diuji Λ= nilai Wilk’s Lambda
2.6. Uji Klasifikasi Fungsi Diskriminan
Kriteria perbandingan teknik klasifikasi didasarkan pada kesalahan klasifikasinya yang dikenal dengan Apparent Error Rate (APER) merupakan nilai dari besar kecilnya jumlah observasi yang salah dalam pengklasifikasian berdasarkan suatu fungsi klasifikasi (Johnson dan Wichern, 2007).Adapun APER dihitung dengan terlebih dahulu membuat tabel klasifikasi sebagai berikut:
Klasifikasi actual dan predicted group
Actual group Predicted group
�0 �1
�0 �00 �01 = �0 − �00
�1 �10 = �1− �11 �11
Sumber: Johnson and Wichern (2007)
���� = ��01+ �10 0+ �1
(2.16)
Sedangkan ketepatan prediksi pengelompokkan secara tepat dapat menggunakan rumus hit ratio.
�������� = �00+ �11