4 BAB II
LANDASAN TEORI
Pada bab ini akan dibahas tentang pengujian hipotesis, metode klasifikasi berstruktur pohon, metode-metode statistika yang menjadi dasar pada metode
QUEST, dan algoritme QUEST.
2.1 Uji Hipotesis
Ilmu statistika adalah ilmu yang mempelajari prosedur-prosedur yang digunakan dalam pengumpulan data, penyajian, analisis dan penafsiran data. secara umum, ilmu statistika dapat dikelompokkan menjadi dua kelompok, yaitu statistika deskriptif dan statistik inferensia. Statistika deskriptif merupakan metode-metode yang berkaitan dengan pengumpulan dan penyajian data sehingga memberikan informasi yang berguna, sedangkan statistika inferensia merupakan semua metode yang berhubungan dengan analisis sebagian data sehingga sampai pada penarikan kesimpulan mengenai keseluruhan data.
Statistika inferensia dapat dilakukan dengan beberapa metode. Salah satunya adalah dengan pengujian hipotesis. Pengujian hipotesis adalah metode perumusan sejumlah kaidah yang akan menghasilkan suatu kesimpulan untuk menerima atau menolak suatu pernyataan tertentu. Langkah-langkah pengujian hipotesis dapat dibuat seperti berikut
1. Rumuskan hipotesis
Hipotesis adalah pernyataan awal yang akan diuji dalam suatu pengujian hipotesis. Hipotesis awal (𝐻0) adalah hipotesis yang dirumuskan dengan harapan
akan ditolak. Hipotesis alternatif (𝐻1) adalah hipotesis yang dirumuskan dengan harapan akan diterima.
2. Tetapkan taraf nyata pengujian (∝)
∝ merupakan galat pengujian dengan kesalahan jenis 𝐼, yaitu kesalahan karena menolak hipotesis awal yang benar.
5
3. Pilih statistik yang sesuai
Statistik uji adalah nilai yang diambil dari data dan digunakan sebagai dasar menerima atau menolak hipotesis awal.
4. Tentukan titik kritis
Titik kritis adalah suatu nilai yang menjadi batas untuk menerima atau menolak hipotesis awal.
5. Tentukan nilai statistik uji
Nilai statistik uji diambil berdasarkan data. 6. Kesimpulan
Jika statistik uji berada pada daerah kritis maka hipotesis awal ditolak. Jika statistik uji berada pada daerah penerimaan maka hipotesis awal diterima. Penarikan kesimpulan juga dapat dilakukan dengan membandingkan nilai ∝ dengan nilai p, yaitu jika p < ∝ maka hipotesis awal ditolak dan jika p > ∝ maka hipotesis awal diterima.
2.2 Metode Klasifikasi Berstruktur Pohon
Dalam statistika, terdapat berbagai metode yang dapat digunakan dalam menarik kesimpulan mengenai hubungan antara suatu variabel respon dengan beberapa variabel bebas. Jika variabel respon berupa data kuantitatif maka analisis mengenai hubungan variabel bebas dan respon biasanya dilakukan melalui analisis regresi biasa. Namun, bila variabel respon merupakan data kualitatif maka analisis mengenai hubungan variabel bebas dan respon salah satunya dapat dilakukan melalui teknik klasifikasi.
Metode klasifikasi berstruktur pohon merupakan metode statistika yang digunakan untuk memperkirakan keanggotaan amatan atau objek dalam kelas-kelas variabel respon kategorik, yang keanggotaannya diduga berdasarkan pengukuran terhadap satu variabel bebas atau lebih. Metode ini menghasilkan sebuah pohon klasifikasi (classification tree) yang dibentuk melalui penyekatan dan secara berulang (rekursif) terhadap suatu himpunan data, dimana pengelompokan dan nilai-nilai variabel bebas setiap amatan pada data sampel
6
sudah diketahui. Setiap himpunan data dinyatakan sebagai simpul dalam pohon yang terbentuk. Contoh Pohon klasifikasi QUEST terdapat pada Gambar 1.
Gambar 2.1. Ilustrasi pohon klasifikasi menggunakan QUEST
Gambar 1 menunjukkan ilustrasi pohon klasifikasi dengan QUEST. Misalnya, pada node 1 variabel 𝑋 < 𝑎, maka respon termasuk kelas P (atau jika 𝑋 ≥ 𝑎), dan jika pada node 2 variabel 𝑌 ≤ 𝑏 maka respon termasuk kelas Q; jika 𝑌 > 𝑏, maka respon termasuk kelas R.
Proses penyekatan terhadap simpul dilakukan secara berulang sampai ditemukan salah satu dari tiga hal berikut
a. respon di semua simpul sudah homogen nilainya, b. tidak ada lagi variabel bebas yang bisa digunakan,
c. jumlah objek di dalam simpul sudah terlalu sedikit untuk menghasilkan pemisahan yang tepat.
Dalam pembentukan pohon klasifikasi, proses penyekatan terhadap suatu simpul dapat bersifat biner atau non biner. Pada penyekatan biner, setiap simpul hanya boleh disekat menjadi dua simpul baru, sedangkan pada penyekatan non biner setiap simpul dapat menghasilkan lebih dari dua simpul baru.
Pohon yang dibentuk dari proses penyekatan tersebut dapat berukuran sangat besar. Bila pohon berukuran besar, biasanya penduga respon cenderung lebih tepat, tapi sulit diinterpretasikan. Bila pohon kecil, pohon mudah diinterpretasi namun penduga respon cenderung tidak tepat. Pohon terbaik yaitu pohon yang memiliki keseimbangan antara ukuran pohon dan ketepatan penduga respon (Faridhan, 2003).
1: 𝑋 < 𝑎
2: 𝑌 ≤ 𝑏 𝑃
7
2.3 Metode QUEST
QUEST merupakan salah satu metode yang digunakan untuk membentuk
pohon klasifikasi. QUEST merupakan algoritme pemisah yang menghasilkan pohon biner yang digunakan untuk klasifikasi. Algoritme pembentukan pohon klasifikasi ini merupakan modifikasi dari analisis diskriminan kuadratik.
Pada algoritme ini, proses penyekatan dapat dilakukan pada variabel tunggal (univariat). Pemilihan variabel penyekat pada QUEST menerapkan uji kebebasan chi-kuadrat untuk variabel kategorik dan uji F untuk variabel numerik. Suatu variabel dipilih sebagai variabel penyekat jika menghasilkan kelompok dengan tingkat kehomogenan variabel respon yang paling besar. Penentuan variabel penyekat pada pohon klasifikasi ini dilakukan dengan menerapkan analisis diskriminan kuadratik. Pemilihan variabel dan penentuan variabel penyekat dilakukan secara terpisah. Komponen dasar QUEST adalah beberapa variabel bebas yang merupakan variabel kategorik atau numerik dan variabel respon yang merupakan variabel kategorik (Hothorn, 2006).
2.3.1 Uji chi-kuadrat untuk kebebasan
Apabila antara dua variabel tidak ada hubungan, maka dapat dikatakan bahwa keduanya saling bebas. Meskipun nilai salah satu variabel untuk suatu objek diketahui, ini tidak akan membantu dalam menentukan nilai variabel yang lain untuk objek yang sama (Lestari, 2005).
Uji Chi-kuadrat untuk memeriksa kebebasan digunakan untuk memutuskan apakah dua variabel kategorik dalam suatu kelompok saling bebas. Uji ini memiliki asumsi-asumsi,
a. Data terdiri dari sebuah sampel acak sederhana berukuran 𝑛 dari suatu populasi yang diminati.
b. Hasil pengamatan dalam sampel dapat diklasifikasi secara silang
(cross-clasified) menurut variabel-variabel yang diamati.
Pengklasifikasian silang dari data dengan variabel kategorik biasanya disajikan dalam tabel kontingensi dua arah atau lebih. Bila terdapat dua variabel kategorik, data disajikan dalam tabel kontingensi dua arah seperti pada Tabel 2.1.
8
Tabel 2.1 Tabel Kontingensi Dua Arah
Tabel disusun dari 𝑟 baris dan 𝑐 kolom dengan 𝑟 dan 𝑐 masing-masing adalah banyaknya kategori dari variabel kategorik pertama dan kedua. Isi sel pada baris-𝑖 (𝑖 = 1,2, … , 𝑟) dan kolom ke-𝑗 (𝑗 = 1,2, … , 𝑐) adalah banyaknya pengamatan yang berasal dari kategori-𝑖 variabel pertama dan kategori-𝑗 variabel kedua, bisa dinotasikan dengan 𝑛𝑖𝑗. Isi sel ini disebut juga frekuensi sel teramati yang biasa ditulis dengan notasi 𝑂𝑖𝑗, sehingga 𝑂𝑖𝑗 = 𝑛𝑖𝑗. Jumlah frekuensi teramati pada
kategori ke-𝑖 variabel pertama, ditulis dengan notasi 𝑛𝑖., sedangkan jumlah frekuensi teramati pada kategori ke-𝑗 variabel kedua, ditulis dengan notasi 𝑛.𝑗 (Praptono, 1986).
Hipotesis awal (𝐻0) yang digunakan dalam uji ini adalah kedua variabel saling bebas. Hipotesis alternatif (𝐻1) pada uji ini adalah kedua variabel tidak
saling bebas. Uji chi-kuadrat ini dilakukan dengan membandingkan frekuensi teramati dengan frekuensi yang diharapkan jika (𝐻0) benar.
Dalam menentukan frekuensi yang diharapkan pada suatu sel digunakan hukum peluang mengenai kebebasan dua kejadian seperti dinyatakan dalam Teorema 2.1.
Teorema 𝟐. 𝟏. (Walpole, 1992) Bila dua kejadian 𝐴 dan 𝐵 bebas, maka 𝑃(𝐴 ∩
𝐵) = 𝑃(𝐴)𝑃(𝐵). Jika 𝐴𝑖 adalah kejadian objek berasal dari kategori ke-𝑖 variabel pertama dan 𝐵𝑗 adalah kejadian objek berasal dari kategori ke-𝑗 variabel kedua, maka peluang kejadian 𝐴𝑖 dan 𝐵𝑗 terjadi bersama adalah
Kategori variabel pertama
Kategori variabel kedua
1 2 … 𝑐 Jumlah 1 𝑛11 𝑛12 … 𝑛1𝑐 𝑛1. 2 𝑛21 𝑛22 … 𝑛2𝑐 𝑛2. ⋮ ⋮ ⋮ ⋮ ⋮ 𝑟 𝑛𝑟1 𝑛𝑟2 … 𝑛𝑟𝑐 𝑛𝑟. Jumlah 𝑛.1 𝑛.2 𝑛.𝑐 𝑛
9
𝑃(𝐴𝑖 ∩ 𝐵𝑗) = ( 𝐸𝑖𝑗
𝑛), dengan 𝐸𝑖𝑗 adalah frekuensi yang diharapkan dan n adalah banyaknya data.
Jika 𝐴𝑖 dan 𝐵𝑗 saling bebas, maka
𝑃(𝐴𝑖 ∩ 𝐵𝑗) = 𝑃(𝐴𝑖)𝑃(𝐵𝑗) = ( 𝑛𝑖. 𝑛) ( 𝑛.𝑗 𝑛) (1) Dengan demikian, (𝑛𝑖. 𝑛) ( 𝑛.𝑗 𝑛) = 𝐸𝑖𝑗 𝑛, sehingga 𝐸𝑖𝑗 = 𝑛 (𝑛𝑖. 𝑛) ( 𝑛.𝑗 𝑛) = ( 𝑛𝑖.𝑛.𝑗 𝑛 ) (2)
Dari ferkuensi sel yang teramati (𝑂𝑖𝑗) dan frekuensi sel yang diharapkan (𝐸𝑖𝑗) tersebut dapat dihitung suatu statistik uji chi-kuadrat (𝜒2) yang
mencerminkan perbedaan antara keduanya, yang dirumuskan dengan 𝜒2 = ∑ ∑ [(𝑂𝑖𝑗−𝐸𝑖𝑗) 2 𝐸𝑖𝑗 ] 𝑐 𝑗=1 𝑟 𝑖=1 (3)
Dalam pengambilan keputusan, 𝐻0 ditolak pada taraf nyata ∝ jika nilai statistik uji 𝜒2 hasil perhitungan lebih besar dari pada nilai 𝜒2
𝛼,𝑟−1,𝑐−1, r adalah
banyaknya baris dan c adalah banyaknya kolom.
2.3.2 Uji ANAVA 𝑭
Uji ANAVA 𝐹 biasa digunakan untuk membandingkan rata-rata dari dua atau lebih kelompok sampel yang saling bebas. Ukuran sampel masing-masing kelompok sampel tidak harus sama, tetapi perbedaan yang besar dalam ukuran sampel dapat mempengaruhi hasil uji perbandingan rata-rata. Misalkan 𝜒𝑘𝑖 merupakan pengamatan ke-i dari kelompok ke-k, maka dapat disajikan struktur data seperti pada Tabel 2.2.
Tabel 2.2. Tabel Struktur Data ANAVA 𝐹 Kelompok
1 2 … 𝐾
𝑥11 𝑥21 𝑥𝐾1
10
𝑥1𝑛1 𝑥2𝑛2 𝑥𝐾𝑛𝐾
Jumlah 𝑋1. 𝑋2. 𝑋𝐾. 𝑋..
Rata-rata 𝑥̅1. 𝑥̅2. 𝑥̅𝐾. 𝑥̅.
Bila 𝜇𝑘 adalah rata-rata dari kelompok ke-k (𝑘 = 1, 2, … , 𝐾) maka hipotesis yang digunakan dalam uji ini
𝐻0 ∶ 𝜇1 = 𝜇2 = ⋯ = 𝜇𝐾
𝐻1 ∶ 𝑎𝑑𝑎 𝜇𝑘 ≠ 𝜇𝑘′ , 𝑘 ≠ 𝑘′(𝑘, 𝑘′= 1, 2, … , 𝐾)
Statistik uji yang digunakan adalah statistik uji F yang diperoleh pada Tabel 2.3. Tabel 2.3 Tabel ANAVA 𝐹
Sumber Variansi Jumlah Derajat Bebas
Kuadrat Tengah
𝐹 hitung
Nilai tengah kolom Sisaan 𝐽𝐾𝐾 𝐽𝐾𝑆 𝑘 − 1 𝑛 − 𝑘 𝑠12 = 𝐽𝐾𝐾 𝑘 − 1 𝑠22 = 𝐽𝐾𝑆 𝑛 − 𝑘 𝐹 = 𝑠1 2 𝑠22 Total 𝐽𝐾𝑇 𝑛 − 1 dengan 𝐽𝐾𝐾 = (∑𝑋𝑘. 2 𝑛𝑘 − 𝑋..2 𝑁 𝐾 𝑘=1 ) 𝐽𝐾𝑆 = (∑ ∑ 𝑥𝑘𝑖2 −𝑋.. 2 𝑁 𝐾 𝑘=1 𝐾 𝑘=1 ) − (∑𝑋𝑘. 2 𝑛𝑘 − 𝑋..2 𝑁 𝐾 𝑘=1 ) 𝑖 = 1, 2, … , 𝑛𝑘, 𝑘 = 1, 2, … , 𝐾. 𝑁 : jumlah seluruh data
𝐾 : jumlah kelompok
11
𝑋𝑘.: jumlah pengamatan kelompok ke-𝑘
𝑋..: jumlah pengamatan seluruh data 𝑥𝑘𝑖: pengamatan ke-𝑖 dari kelompok ke-𝑘
Dalam pengambilan keputusan, 𝐻0 ditolak pada taraf signifikan ∝ jika nilai
statistik uji 𝐹 hasil perhitungan lebih besar daripada nilai 𝐹𝛼,𝐾−1,𝑁−𝐾.
2.3.3 Uji Levene 𝑭
Uji Levene 𝐹 digunakan untuk menguji kesamaan variansi variabel dari dua kelompok atau lebih. Hipotesis yang digunakan dalam uji ini adalah
𝐻0 ∶ 𝜎12 = 𝜎22 = ⋯ = 𝜎𝑘2
𝐻1 ∶ ada 𝜎𝑘2 ≠ 𝜎𝑘2′ , 𝑘 ≠ 𝑘′(𝑘, 𝑘′= 1,2, … , 𝐾),
Untuk mendapatkan statistik uji ini, data ditransformasikan dahulu menjadi simpangan baku terhadap nilai tengah data, yaitu 𝑦𝑘𝑖 = |𝑥𝑘𝑖− 𝑥̅𝑘|,
dengan :
𝑖 = 1, 2, … , 𝑛. 𝑘 = 1, 2, … , 𝐾
𝑦𝑘𝑖 ∶ hasil transformasi data pengamatan ke-i dari kelompok ke-k
𝑥̅𝑘 : nilai tengah sampel kelompok ke-k 𝑥𝑘𝑖 : pengamatan ke-i dari kelompok ke-k.
Lakukan statistik uji ANAVA 𝐹 pada data yang telah ditransformasi untuk mendapatkan nilai statistik uji Levene 𝐹.
Dalam pengambilan keputusan, 𝐻0 ditolak pada taraf nyata 𝛼 jika nilai statistik uji Levene 𝐹 hasil perhitungan lebih besar dari pada nilai 𝐹𝛼,𝐾−1,𝑁−𝐾.
2.3.4 Analisis diskriminan kuadratik
Analisis diskriminan bertujuan untuk membentuk fungsi diskriminan yang mampu membedakan kelompok. Analisis ini dilakukan berdasarkan suatu perhitungan statistik terhadap objek-objek yang telah diketahui dengan jelas dan tepat pengelompokannya.
12
Fungsi diskriminan dapat disebut dengan fungsi pembeda. Fungsi diskriminan yang dibangun dengan asumsi bahwa kelompok-kelompok memiliki matriks variansi yang sama dinamakan fungsi diskriminan linier, sedangkan fungsi yang dibangun tanpa asumsi tersebut dinamakan fungsi diskriminan kuadratik.
Misalkan 𝑥 = (𝑥1, 𝑥2, … , 𝑥𝑝), maka dapat disajikan struktur data seperti pada Tabel 2.4.
Tabel 2.4. Tabel Struktur Data Analisis Diskriminan Kuadratik
Variabel Kelompok 1 2 … 𝐾 𝑋1 𝑥̅11 𝑥̅12 … 𝑥̅1𝐾 𝑋1 𝑥̅21 𝑥̅22 … 𝑥̅1𝐾 ⋮ ⋮ ⋮ ⋮ 𝑋1 𝑥̅𝑝1 𝑥̅𝑝2 … 𝑥̅𝑝𝐾
Misalkan 𝑓𝑘(𝑥) adalah fungsi kepekatan peluang bersama dari sampel
acak yang berasal dari kelompok ke-k (𝑘 = 1, 2, … , 𝐾). Jika sampel acak pada kelompok tersebut menyebar menurut sebaran multivariat, maka
𝑓𝑘(𝑥) = 1 (2𝜋)𝑝/2|Σ 𝑘|1/2exp *− 1 2(𝑥 − 𝜇𝑘) 𝑡𝛴 𝑘−1(𝑥 − 𝜇𝑘)+ … … (2.6.1) dengan
𝜇𝑘 adalah vektor nilai tengah kelompok ke-k Σ𝑘 adalah matriks variansi kelompok ke-k
𝑝 adalah banyaknya variabel,
Nilai diskriminan kuadratik untuk sebuah pengamatan dengan nilai 𝑥∗ =
(𝑥1∗, 𝑥2∗, … , 𝑥𝑝∗) terhadap kelompok ke-k adalah 𝑑𝑘𝑄(𝑥∗) = −1 2ln|Σ𝑘| − 1 2(𝑥 − 𝜇𝑘) 𝑡𝛴 𝑘−1(𝑥 − 𝜇𝑘) + ln𝑝𝑘… . (2.6.2) dengan
13
Apabila individu yang berasal dari kelompok k dinyatakan sebagai kelompok a, maka peluangnya dinotasikan menjadi 𝑃(𝑎|𝑘).
Kelompokkan 𝑥∗ ke-k jika nilai kuadratik
𝑑𝑘𝑄(𝑥∗) = max*𝑑 1 𝑄(𝑥∗), 𝑑 2 𝑄(𝑥∗), … , 𝑑 𝑘 𝑄(𝑥∗)+ (2.6.3).
Dalam prakteknya, 𝜇𝑘 dan Σ𝑘 tidak diketahui, tetapi data sampel yang
telah dikelompokkan secara benar tersedia untuk mengetahui taksiran 𝜇𝑘 dan Σ𝑘. Kuantitas sampel yang relevan untuk kelompok ke-k adalah
𝑥̅𝑘 : vektor nilai tengah sampel dari kelompok ke-k 𝑆𝑘 : matriks variansi sampel dari kelompok ke-k
𝑛𝑘 : ukuran sampel dari kelompok ke-k. Taksiran dari nilai diskriminan kuadratik : 𝑑𝑘𝑄(𝑥∗) = −1 2ln|𝑆𝑘| − 1 2(𝑥 ∗− 𝑥̅ 𝑘)𝑡𝑆𝑘−1(𝑥∗− 𝑥̅𝑘) + ln𝑝𝑘… … (2.6.4).
Kelompokkan 𝑥∗ ke-k jika nilai kuadratik
𝑑𝑘𝑄(𝑥∗) = max *𝑑 1 𝑄(𝑥∗), 𝑑 2 𝑄(𝑥∗), … , 𝑑 𝑘 𝑄(𝑥∗)+ (2.6.5). 2.4 Algoritme QUEST
Loh and Shih (1997) menjelaskan algoritme pembentukan pohon pada
QUEST dipisah menjadi tiga bagian, yaitu algoritme pemilihan variabel penyekat,
algoritme penentuan variabel penyekat dan algoritme transformasi variabel kategorik menjadi variabel numerik.
2.4.1 Algoritme pemilihan variabel penyekat
Dalam tulisan ini akan dibahas algoritme pemilihan variabel penyekat berupa satu variabel. Dalam menentukan variabel penyekat pada suatu simpul setiap variabel memiliki kesempatan untuk terpilih sebagai variabel penyekat, meskipun variabel tersebut telah terpilih sebagai variabel penyekat untuk simpul sebelumnya.
Berikut ini adalah langkah-langkah pemilihan variabel penyekat :
14
a. Jika 𝑋 merupakan variabel kategorik, lakukan uji 𝑋2 untuk kebebasan antara variabel 𝑋 dan variabel respon 𝑌 dan hitung nilai 𝑝 dari pengujian tersebut.
b. Jika 𝑋 merupakan variabel numerik, lakukan uji ANAVA 𝐹 dan hitung nilai 𝑝 dari pengujian tersebut.
2. Pilih variabel dengan nilai 𝑝 terkecil.
3. Bandingkan nilai 𝑝 terkecil dengan taraf 𝛼/𝑀1 , dengan memilih taraf nyata 𝛼 = 0,05 dan 𝑀1 adalah banyaknya variabel bebas.
a. Jika nilai 𝑝 kurang dari 𝛼/𝑀1, maka variabel yang bersesuaian sebagai variabel penyekat. Teruskan ke langkah (5).
b. Jika nilai 𝑝 lebih dari 𝛼/𝑀1, teruskan ke langkah (4).
4. Untuk setiap variabel 𝑋 yang numerik, maka hitung nilai 𝑝 dari uji Levene untuk menguji kehomogenan variansi.
a. Pilih variabel dengan nilai 𝑝 terkecil.
c. Bandingkan nilai 𝑝 terkecil dari uji Levene dengan taraf 𝛼.
d. Jika nilai 𝑝 kurang dari 𝛼, maka pilih variabel yang bersesuaian sebagai variabel penyekat. Teruskan ke langkah (5).
e. Jika nilai 𝑝 lebih dari 𝛼, maka variabel tersebut tidak dipilih menjadi variabel penyekat.
5. Misalkan 𝑋∗ adalah variabel penyekat yang diperoleh dari langkah (3) atau (4).
a. Jika 𝑋∗ merupakan variabel numerik, maka teruskan ke langkah (6).
b. Jika 𝑋∗ merupakan variabel kategorik, 𝑋∗ ditransformasikan ke dalam
variabel dummy, lalu proyeksikan ke dalam koordinat diskriminan terbesarnya
6. Lakukan analisis diskriminan kuadratik untuk menentukan variabel penyekat.
2.4.2 Algoritme penentuan variabel penyekat
Misalkan variabel respon memiliki dua kategori. Misalkan pula bahwa 𝑋∗
15
1. Didefinisikan 𝑥̅0 dan 𝑠02 adalah rata-rata dan variansi 𝑋∗ dari pengamatan respon 0, sedangkan 𝑥̅1 dan 𝑠12 adalah rata-rata dan variansi 𝑋∗ dari
pengamatan dengan respon 1. Misalkan 𝑃(𝑘|𝑡) = 𝑁𝑘,𝑡/𝑁𝑘 merupakan peluang dari masing-masing kategori variabel respon, dengan 𝑁𝑘,𝑡 adalah jumlah data pada simpul 𝑡 untuk respon 𝑘 dan 𝑁𝑘 adalah jumlah data pada
simpul awal untuk respon 𝑘. 2. Tentukan penyelesaian persamaan
𝑃(0|𝑡)𝑠0−1𝜑 (𝑥−𝑥̅0
𝑠0 ) = 𝑃(1|𝑡)𝑠1
−1𝜑 (𝑥−𝑥̅1 𝑠1 ) .
Penyelesaian tersebut dapat ditentukan dengan menentukan akar persamaan kuadrat 𝑎𝑥2+ 𝑏𝑥 + 𝑐 = 0, dengan 𝑎 = 𝑠02− 𝑠12 𝑏 = 2(𝑥̅0𝑠12 − 𝑥̅1𝑠02) 𝑐 = (𝑥̅1𝑠02)2− (𝑥̅0𝑠12)2+ 2𝑠02𝑠12ln { 𝑃(0|𝑡)𝑠12 𝑃(1|𝑡)𝑠02}
3. Simpul disekat pada variabel 𝑥∗ = 𝑑, di mana 𝑑 didefinisikan sebagai berikut : a. Jika 𝑥̅0 < 𝑥̅1, maka 𝑑 = 𝑥̅0 b. Jika 𝑎 = 0, maka 𝑑 = { 𝑥̅0+ 𝑥̅1 2 − (𝑥̅0− 𝑥̅1) −1𝑠 02ln { 𝑃(0|𝑡) 𝑃(1|𝑡)} , 𝑥̅0 , 𝑥̅0 = 𝑥̅1 𝑥̅0 ≠ 𝑥̅1} c. Jika 𝑎 ≠ 0, maka: i. Jika 𝑏2 − 4𝑎𝑐 < 0, maka 𝑑 =1 2(𝑥̅0+ 𝑥̅1)
ii. Jika 𝑏2 − 4𝑎𝑐 ≥ 0, maka : a. 𝑑 adalah akar dari −𝑏±√𝑏2−4𝑎𝑐
2𝑎 yang lebih mendekati nilai 𝑥̅0,
dengan syarat menghasilkan dua simpul tak kosong. b. Untuk 𝑑 yang lain, 𝑑 =1
16
2.4.3 Algoritme transformasi variabel kategorik menjadi variabel numerik
Misalkan X adalah variabel kategorik, dengan kategori 𝑏1, 𝑏2, … , 𝑏𝐿.
Transformasi 𝑋 menjadi variabel numerik 𝜉 untuk setiap kelas 𝑋 dilakukan dengan langkah-langkah sebagai berikut :
1. Transformasikan masing-masing nilai 𝑥 ke vektor dummy L dimensi 𝑣 = (𝑣1, 𝑣2, … , 𝑣𝐿),
Dengan 𝑣1 = {
1 𝑥 = 𝑏1
0 𝑥 ≠ 𝑏1, 𝑙 = 1, 2, … , 𝐿 2. Mencari nilai tengah untuk 𝑋
𝑣̅ =∑𝐿𝑙=1𝑓𝑙𝑣𝑙
𝑁𝑡 𝑣̅
(𝑘)= ∑𝐿𝑙=1𝑛𝑙𝑣𝑙 𝑁𝑘,𝑡
dengan
𝑣̅ : rata-rata untuk semua pengamatan pada simpul 𝑡
𝑣̅(𝑘) : rata-rata untuk semua pengamatan pada simpul 𝑡 untuk kelompok ke-k
𝑓𝑙 : jumlah pengamatan pada simpul 𝑡 untuk 𝑣𝑙
𝑛𝑙 : jumlah pengamatan pada simpul 𝑡 kelompok ke-k untuk 𝑣𝑙 𝑁𝑡 : jumlah pengamatan pada simpul 𝑡
𝑁𝑘,𝑡 : jumlah pengamatan pada simpul 𝑡 untuk kelompok ke-k. 3. Tentukan matriks 𝐿 × 𝐿 berikut
𝑣̅ =∑ 𝑓𝑙𝑣𝑙 𝐿 𝑙=1 𝑁𝑡 𝑣̅ (𝑘)= ∑𝐿𝑙=1𝑛𝑙𝑣𝑙 𝑁𝑘,𝑡 𝐵 = ∑ 𝑁𝑘,𝑡 𝐾 𝑘=1 (𝑣̅(𝑘)− 𝑣̅)(𝑣̅(𝑘)− 𝑣̅)′ 𝑇 = ∑ 𝑓𝑙 (𝑣𝑙− 𝐿 𝑙=1 𝑣̅)(𝑣𝑙− 𝑣̅)′
4. Lakukan SVD dari 𝑇 = 𝑄𝐷𝑄′, dengan 𝑄 adalah matriks orthogonal 𝐿 × 𝐿, 𝐷 = 𝑑𝑖𝑎𝑔(𝑑1, … , 𝑑𝐿) dengan 𝑑1 ≥ 𝑑2 ≥ ⋯ ≥ 𝑑𝐿 ≥ 0.
5. Tentukan 𝐷−
1
17 dengan 𝑑𝑖∗ = {𝑑𝑖−1/2 jika 𝑑𝑖 > 0 0 lainnya. 6. Lakukan SVD dari 𝐷− 1 2𝑄′𝐵𝑄𝐷− 1
2 , tentukan vektor eigen 𝑎 yang merupakan
vektor eigen yang sama dengan nilai eigen terbesar. 7. Tentukan koordinat diskriminan terbesar dari 𝑣, yaitu