BAB II LANDASAN TEORI. 2.1 Uji Hipotesis

(1)

4 BAB II

LANDASAN TEORI

Pada bab ini akan dibahas tentang pengujian hipotesis, metode klasifikasi berstruktur pohon, metode-metode statistika yang menjadi dasar pada metode

QUEST, dan algoritme QUEST.

2.1 Uji Hipotesis

Ilmu statistika adalah ilmu yang mempelajari prosedur-prosedur yang digunakan dalam pengumpulan data, penyajian, analisis dan penafsiran data. secara umum, ilmu statistika dapat dikelompokkan menjadi dua kelompok, yaitu statistika deskriptif dan statistik inferensia. Statistika deskriptif merupakan metode-metode yang berkaitan dengan pengumpulan dan penyajian data sehingga memberikan informasi yang berguna, sedangkan statistika inferensia merupakan semua metode yang berhubungan dengan analisis sebagian data sehingga sampai pada penarikan kesimpulan mengenai keseluruhan data.

Statistika inferensia dapat dilakukan dengan beberapa metode. Salah satunya adalah dengan pengujian hipotesis. Pengujian hipotesis adalah metode perumusan sejumlah kaidah yang akan menghasilkan suatu kesimpulan untuk menerima atau menolak suatu pernyataan tertentu. Langkah-langkah pengujian hipotesis dapat dibuat seperti berikut

1. Rumuskan hipotesis

Hipotesis adalah pernyataan awal yang akan diuji dalam suatu pengujian hipotesis. Hipotesis awal (𝐻0) adalah hipotesis yang dirumuskan dengan harapan

akan ditolak. Hipotesis alternatif (𝐻₁) adalah hipotesis yang dirumuskan dengan harapan akan diterima.

2. Tetapkan taraf nyata pengujian (∝)

∝ merupakan galat pengujian dengan kesalahan jenis 𝐼, yaitu kesalahan karena menolak hipotesis awal yang benar.

(2)

5

3. Pilih statistik yang sesuai

Statistik uji adalah nilai yang diambil dari data dan digunakan sebagai dasar menerima atau menolak hipotesis awal.

4. Tentukan titik kritis

Titik kritis adalah suatu nilai yang menjadi batas untuk menerima atau menolak hipotesis awal.

5. Tentukan nilai statistik uji

Nilai statistik uji diambil berdasarkan data. 6. Kesimpulan

Jika statistik uji berada pada daerah kritis maka hipotesis awal ditolak. Jika statistik uji berada pada daerah penerimaan maka hipotesis awal diterima. Penarikan kesimpulan juga dapat dilakukan dengan membandingkan nilai ∝ dengan nilai p, yaitu jika p < ∝ maka hipotesis awal ditolak dan jika p > ∝ maka hipotesis awal diterima.

2.2 Metode Klasifikasi Berstruktur Pohon

Dalam statistika, terdapat berbagai metode yang dapat digunakan dalam menarik kesimpulan mengenai hubungan antara suatu variabel respon dengan beberapa variabel bebas. Jika variabel respon berupa data kuantitatif maka analisis mengenai hubungan variabel bebas dan respon biasanya dilakukan melalui analisis regresi biasa. Namun, bila variabel respon merupakan data kualitatif maka analisis mengenai hubungan variabel bebas dan respon salah satunya dapat dilakukan melalui teknik klasifikasi.

Metode klasifikasi berstruktur pohon merupakan metode statistika yang digunakan untuk memperkirakan keanggotaan amatan atau objek dalam kelas-kelas variabel respon kategorik, yang keanggotaannya diduga berdasarkan pengukuran terhadap satu variabel bebas atau lebih. Metode ini menghasilkan sebuah pohon klasifikasi (classification tree) yang dibentuk melalui penyekatan dan secara berulang (rekursif) terhadap suatu himpunan data, dimana pengelompokan dan nilai-nilai variabel bebas setiap amatan pada data sampel

(3)

6

sudah diketahui. Setiap himpunan data dinyatakan sebagai simpul dalam pohon yang terbentuk. Contoh Pohon klasifikasi QUEST terdapat pada Gambar 1.

Gambar 2.1. Ilustrasi pohon klasifikasi menggunakan QUEST

Gambar 1 menunjukkan ilustrasi pohon klasifikasi dengan QUEST. Misalnya, pada node 1 variabel 𝑋 < 𝑎, maka respon termasuk kelas P (atau jika 𝑋 ≥ 𝑎), dan jika pada node 2 variabel 𝑌 ≤ 𝑏 maka respon termasuk kelas Q; jika 𝑌 > 𝑏, maka respon termasuk kelas R.

Proses penyekatan terhadap simpul dilakukan secara berulang sampai ditemukan salah satu dari tiga hal berikut

a. respon di semua simpul sudah homogen nilainya, b. tidak ada lagi variabel bebas yang bisa digunakan,

c. jumlah objek di dalam simpul sudah terlalu sedikit untuk menghasilkan pemisahan yang tepat.

Dalam pembentukan pohon klasifikasi, proses penyekatan terhadap suatu simpul dapat bersifat biner atau non biner. Pada penyekatan biner, setiap simpul hanya boleh disekat menjadi dua simpul baru, sedangkan pada penyekatan non biner setiap simpul dapat menghasilkan lebih dari dua simpul baru.

Pohon yang dibentuk dari proses penyekatan tersebut dapat berukuran sangat besar. Bila pohon berukuran besar, biasanya penduga respon cenderung lebih tepat, tapi sulit diinterpretasikan. Bila pohon kecil, pohon mudah diinterpretasi namun penduga respon cenderung tidak tepat. Pohon terbaik yaitu pohon yang memiliki keseimbangan antara ukuran pohon dan ketepatan penduga respon (Faridhan, 2003).

1: 𝑋 < 𝑎

2: 𝑌 ≤ 𝑏 𝑃

(4)

7

2.3 Metode QUEST

QUEST merupakan salah satu metode yang digunakan untuk membentuk

pohon klasifikasi. QUEST merupakan algoritme pemisah yang menghasilkan pohon biner yang digunakan untuk klasifikasi. Algoritme pembentukan pohon klasifikasi ini merupakan modifikasi dari analisis diskriminan kuadratik.

Pada algoritme ini, proses penyekatan dapat dilakukan pada variabel tunggal (univariat). Pemilihan variabel penyekat pada QUEST menerapkan uji kebebasan chi-kuadrat untuk variabel kategorik dan uji F untuk variabel numerik. Suatu variabel dipilih sebagai variabel penyekat jika menghasilkan kelompok dengan tingkat kehomogenan variabel respon yang paling besar. Penentuan variabel penyekat pada pohon klasifikasi ini dilakukan dengan menerapkan analisis diskriminan kuadratik. Pemilihan variabel dan penentuan variabel penyekat dilakukan secara terpisah. Komponen dasar QUEST adalah beberapa variabel bebas yang merupakan variabel kategorik atau numerik dan variabel respon yang merupakan variabel kategorik (Hothorn, 2006).

2.3.1 Uji chi-kuadrat untuk kebebasan

Apabila antara dua variabel tidak ada hubungan, maka dapat dikatakan bahwa keduanya saling bebas. Meskipun nilai salah satu variabel untuk suatu objek diketahui, ini tidak akan membantu dalam menentukan nilai variabel yang lain untuk objek yang sama (Lestari, 2005).

Uji Chi-kuadrat untuk memeriksa kebebasan digunakan untuk memutuskan apakah dua variabel kategorik dalam suatu kelompok saling bebas. Uji ini memiliki asumsi-asumsi,

a. Data terdiri dari sebuah sampel acak sederhana berukuran 𝑛 dari suatu populasi yang diminati.

b. Hasil pengamatan dalam sampel dapat diklasifikasi secara silang

(cross-clasified) menurut variabel-variabel yang diamati.

Pengklasifikasian silang dari data dengan variabel kategorik biasanya disajikan dalam tabel kontingensi dua arah atau lebih. Bila terdapat dua variabel kategorik, data disajikan dalam tabel kontingensi dua arah seperti pada Tabel 2.1.

(5)

8

Tabel 2.1 Tabel Kontingensi Dua Arah

Tabel disusun dari 𝑟 baris dan 𝑐 kolom dengan 𝑟 dan 𝑐 masing-masing adalah banyaknya kategori dari variabel kategorik pertama dan kedua. Isi sel pada baris-𝑖 (𝑖 = 1,2, … , 𝑟) dan kolom ke-𝑗 (𝑗 = 1,2, … , 𝑐) adalah banyaknya pengamatan yang berasal dari kategori-𝑖 variabel pertama dan kategori-𝑗 variabel kedua, bisa dinotasikan dengan 𝑛_𝑖𝑗. Isi sel ini disebut juga frekuensi sel teramati yang biasa ditulis dengan notasi 𝑂𝑖𝑗, sehingga 𝑂𝑖𝑗 = 𝑛𝑖𝑗. Jumlah frekuensi teramati pada

kategori ke-𝑖 variabel pertama, ditulis dengan notasi 𝑛_𝑖., sedangkan jumlah frekuensi teramati pada kategori ke-𝑗 variabel kedua, ditulis dengan notasi 𝑛_.𝑗 (Praptono, 1986).

Hipotesis awal (𝐻₀) yang digunakan dalam uji ini adalah kedua variabel saling bebas. Hipotesis alternatif (𝐻1) pada uji ini adalah kedua variabel tidak

saling bebas. Uji chi-kuadrat ini dilakukan dengan membandingkan frekuensi teramati dengan frekuensi yang diharapkan jika (𝐻₀) benar.

Dalam menentukan frekuensi yang diharapkan pada suatu sel digunakan hukum peluang mengenai kebebasan dua kejadian seperti dinyatakan dalam Teorema 2.1.

Teorema 𝟐. 𝟏. (Walpole, 1992) Bila dua kejadian 𝐴 dan 𝐵 bebas, maka 𝑃(𝐴 ∩

𝐵) = 𝑃(𝐴)𝑃(𝐵). Jika 𝐴𝑖 adalah kejadian objek berasal dari kategori ke-𝑖 variabel pertama dan 𝐵𝑗 adalah kejadian objek berasal dari kategori ke-𝑗 variabel kedua, maka peluang kejadian 𝐴_𝑖 dan 𝐵_𝑗 terjadi bersama adalah

Kategori variabel pertama

Kategori variabel kedua

1 2 … 𝑐 Jumlah 1 𝑛₁₁ 𝑛₁₂ … 𝑛_1𝑐 𝑛_1. 2 𝑛₂₁ 𝑛₂₂ … 𝑛_2𝑐 𝑛_2. ⋮ ⋮ ⋮ ⋮ ⋮ 𝑟 𝑛_𝑟1 𝑛_𝑟2 … 𝑛_𝑟𝑐 𝑛_𝑟. Jumlah 𝑛_.1 𝑛_.2 𝑛_.𝑐 𝑛

(6)

9

𝑃(𝐴𝑖 ∩ 𝐵𝑗) = ( 𝐸𝑖𝑗

𝑛), dengan 𝐸𝑖𝑗 adalah frekuensi yang diharapkan dan n adalah banyaknya data.

Jika 𝐴𝑖 dan 𝐵𝑗 saling bebas, maka

𝑃(𝐴_𝑖 ∩ 𝐵_𝑗) = 𝑃(𝐴_𝑖)𝑃(𝐵𝑗) = ( 𝑛𝑖. 𝑛) ( 𝑛.𝑗 𝑛) (1) Dengan demikian, (𝑛𝑖. 𝑛) ( 𝑛.𝑗 𝑛) = 𝐸𝑖𝑗 𝑛, sehingga 𝐸_𝑖𝑗 = 𝑛 (𝑛𝑖. 𝑛) ( 𝑛.𝑗 𝑛) = ( 𝑛𝑖.𝑛.𝑗 𝑛 ) (2)

Dari ferkuensi sel yang teramati (𝑂_𝑖𝑗) dan frekuensi sel yang diharapkan (𝐸_𝑖𝑗) tersebut dapat dihitung suatu statistik uji chi-kuadrat (𝜒2_{) yang}

mencerminkan perbedaan antara keduanya, yang dirumuskan dengan 𝜒2 _{= ∑} _∑ _[(𝑂𝑖𝑗−𝐸𝑖𝑗) 2 𝐸𝑖𝑗 ] 𝑐 𝑗=1 𝑟 𝑖=1 (3)

Dalam pengambilan keputusan, 𝐻₀ ditolak pada taraf nyata ∝ jika nilai statistik uji 𝜒2_{hasil perhitungan lebih besar dari pada nilai 𝜒}2

𝛼,𝑟−1,𝑐−1, r adalah

banyaknya baris dan c adalah banyaknya kolom.

2.3.2 Uji ANAVA 𝑭

Uji ANAVA 𝐹 biasa digunakan untuk membandingkan rata-rata dari dua atau lebih kelompok sampel yang saling bebas. Ukuran sampel masing-masing kelompok sampel tidak harus sama, tetapi perbedaan yang besar dalam ukuran sampel dapat mempengaruhi hasil uji perbandingan rata-rata. Misalkan 𝜒_𝑘𝑖 merupakan pengamatan ke-i dari kelompok ke-k, maka dapat disajikan struktur data seperti pada Tabel 2.2.

Tabel 2.2. Tabel Struktur Data ANAVA 𝐹 Kelompok

1 2 … 𝐾

𝑥₁₁ 𝑥₂₁ 𝑥_𝐾1

(7)

10

𝑥_1𝑛₁ 𝑥_2𝑛₂ 𝑥_𝐾𝑛_𝐾

Jumlah 𝑋1. 𝑋2. 𝑋𝐾. 𝑋..

Rata-rata 𝑥̅_1. 𝑥̅_2. 𝑥̅_𝐾. 𝑥̅_.

Bila 𝜇_𝑘 adalah rata-rata dari kelompok ke-k (𝑘 = 1, 2, … , 𝐾) maka hipotesis yang digunakan dalam uji ini

𝐻₀ ∶ 𝜇₁ = 𝜇₂ = ⋯ = 𝜇_𝐾

𝐻₁ ∶ 𝑎𝑑𝑎 𝜇_𝑘 ≠ 𝜇_𝑘′ , 𝑘 ≠ 𝑘′(𝑘, 𝑘′= 1, 2, … , 𝐾)

Statistik uji yang digunakan adalah statistik uji F yang diperoleh pada Tabel 2.3. Tabel 2.3 Tabel ANAVA 𝐹

Sumber Variansi Jumlah Derajat Bebas

Kuadrat Tengah

𝐹 hitung

Nilai tengah kolom Sisaan 𝐽𝐾𝐾 𝐽𝐾𝑆 𝑘 − 1 𝑛 − 𝑘 𝑠₁2 ₌ 𝐽𝐾𝐾 𝑘 − 1 𝑠₂2 = 𝐽𝐾𝑆 𝑛 − 𝑘 𝐹 = 𝑠1 2 𝑠₂2 Total 𝐽𝐾𝑇 𝑛 − 1 dengan 𝐽𝐾𝐾 = (∑𝑋𝑘. 2 𝑛_𝑘 − 𝑋_..2 𝑁 𝐾 𝑘=1 ) 𝐽𝐾𝑆 = (∑ ∑ 𝑥_𝑘𝑖2 −𝑋.. 2 𝑁 𝐾 𝑘=1 𝐾 𝑘=1 ) − (∑𝑋𝑘. 2 𝑛_𝑘 − 𝑋_..2 𝑁 𝐾 𝑘=1 ) 𝑖 = 1, 2, … , 𝑛_𝑘, 𝑘 = 1, 2, … , 𝐾. 𝑁 : jumlah seluruh data

𝐾 : jumlah kelompok

(8)

11

𝑋𝑘.: jumlah pengamatan kelompok ke-𝑘

𝑋_..: jumlah pengamatan seluruh data 𝑥_𝑘𝑖: pengamatan ke-𝑖 dari kelompok ke-𝑘

Dalam pengambilan keputusan, 𝐻0 ditolak pada taraf signifikan ∝ jika nilai

statistik uji 𝐹 hasil perhitungan lebih besar daripada nilai 𝐹𝛼,𝐾−1,𝑁−𝐾.

2.3.3 Uji Levene 𝑭

Uji Levene 𝐹 digunakan untuk menguji kesamaan variansi variabel dari dua kelompok atau lebih. Hipotesis yang digunakan dalam uji ini adalah

𝐻0 ∶ 𝜎12 = 𝜎22 = ⋯ = 𝜎𝑘2

𝐻₁ ∶ ada 𝜎_𝑘2 ≠ 𝜎_𝑘2′ , 𝑘 ≠ 𝑘′(𝑘, 𝑘′= 1,2, … , 𝐾),

Untuk mendapatkan statistik uji ini, data ditransformasikan dahulu menjadi simpangan baku terhadap nilai tengah data, yaitu 𝑦_𝑘𝑖 = |𝑥_𝑘𝑖− 𝑥̅_𝑘|,

dengan :

𝑖 = 1, 2, … , 𝑛. 𝑘 = 1, 2, … , 𝐾

𝑦𝑘𝑖 ∶ hasil transformasi data pengamatan ke-i dari kelompok ke-k

𝑥̅_𝑘 : nilai tengah sampel kelompok ke-k 𝑥_𝑘𝑖 : pengamatan ke-i dari kelompok ke-k.

Lakukan statistik uji ANAVA 𝐹 pada data yang telah ditransformasi untuk mendapatkan nilai statistik uji Levene 𝐹.

Dalam pengambilan keputusan, 𝐻₀ ditolak pada taraf nyata 𝛼 jika nilai statistik uji Levene 𝐹 hasil perhitungan lebih besar dari pada nilai 𝐹_{𝛼,𝐾−1,𝑁−𝐾}.

2.3.4 Analisis diskriminan kuadratik

Analisis diskriminan bertujuan untuk membentuk fungsi diskriminan yang mampu membedakan kelompok. Analisis ini dilakukan berdasarkan suatu perhitungan statistik terhadap objek-objek yang telah diketahui dengan jelas dan tepat pengelompokannya.

(9)

12

Fungsi diskriminan dapat disebut dengan fungsi pembeda. Fungsi diskriminan yang dibangun dengan asumsi bahwa kelompok-kelompok memiliki matriks variansi yang sama dinamakan fungsi diskriminan linier, sedangkan fungsi yang dibangun tanpa asumsi tersebut dinamakan fungsi diskriminan kuadratik.

Misalkan 𝑥 = (𝑥₁, 𝑥₂, … , 𝑥_𝑝), maka dapat disajikan struktur data seperti pada Tabel 2.4.

Tabel 2.4. Tabel Struktur Data Analisis Diskriminan Kuadratik

Variabel Kelompok 1 2 … 𝐾 𝑋₁ 𝑥̅₁₁ 𝑥̅₁₂ … 𝑥̅_1𝐾 𝑋₁ 𝑥̅₂₁ 𝑥̅₂₂ … 𝑥̅_1𝐾 ⋮ ⋮ ⋮ ⋮ 𝑋₁ 𝑥̅_𝑝1 𝑥̅_𝑝2 … 𝑥̅_𝑝𝐾

Misalkan 𝑓𝑘(𝑥) adalah fungsi kepekatan peluang bersama dari sampel

acak yang berasal dari kelompok ke-k (𝑘 = 1, 2, … , 𝐾). Jika sampel acak pada kelompok tersebut menyebar menurut sebaran multivariat, maka

𝑓𝑘(𝑥) = 1 (2𝜋)𝑝/2_|Σ 𝑘|1/2exp *− 1 2(𝑥 − 𝜇𝑘) 𝑡_𝛴 𝑘−1(𝑥 − 𝜇𝑘)+ … … (2.6.1) dengan

𝜇_𝑘 adalah vektor nilai tengah kelompok ke-k Σ𝑘 adalah matriks variansi kelompok ke-k

𝑝 adalah banyaknya variabel,

Nilai diskriminan kuadratik untuk sebuah pengamatan dengan nilai 𝑥∗ ₌

(𝑥₁∗, 𝑥₂∗, … , 𝑥_𝑝∗) terhadap kelompok ke-k adalah 𝑑_𝑘𝑄(𝑥∗_{) = −}1 2ln|Σ𝑘| − 1 2(𝑥 − 𝜇𝑘) 𝑡_𝛴 𝑘−1(𝑥 − 𝜇𝑘) + ln𝑝𝑘… . (2.6.2) dengan

(10)

13

Apabila individu yang berasal dari kelompok k dinyatakan sebagai kelompok a, maka peluangnya dinotasikan menjadi 𝑃(𝑎|𝑘).

Kelompokkan 𝑥∗_{ke-k jika nilai kuadratik}

𝑑_𝑘𝑄(𝑥∗_{) = max*𝑑} 1 𝑄_(𝑥∗_{), 𝑑} 2 𝑄_(𝑥∗_{), … , 𝑑} 𝑘 𝑄_(𝑥∗_{)+ (2.6.3).}

Dalam prakteknya, 𝜇𝑘 dan Σ𝑘 tidak diketahui, tetapi data sampel yang

telah dikelompokkan secara benar tersedia untuk mengetahui taksiran 𝜇_𝑘 dan Σ_𝑘. Kuantitas sampel yang relevan untuk kelompok ke-k adalah

𝑥̅_𝑘 : vektor nilai tengah sampel dari kelompok ke-k 𝑆𝑘 : matriks variansi sampel dari kelompok ke-k

𝑛_𝑘 : ukuran sampel dari kelompok ke-k. Taksiran dari nilai diskriminan kuadratik : 𝑑_𝑘𝑄(𝑥∗_{) = −}1 2ln|𝑆𝑘| − 1 2(𝑥 ∗_{− 𝑥̅} 𝑘)𝑡𝑆𝑘−1(𝑥∗− 𝑥̅𝑘) + ln𝑝𝑘… … (2.6.4).

Kelompokkan 𝑥∗_{ke-k jika nilai kuadratik}

𝑑_𝑘𝑄(𝑥∗_{) = max *𝑑} 1 𝑄_(𝑥∗_{), 𝑑} 2 𝑄_(𝑥∗_{), … , 𝑑} 𝑘 𝑄_(𝑥∗_{)+ (2.6.5).} 2.4 Algoritme QUEST

Loh and Shih (1997) menjelaskan algoritme pembentukan pohon pada

QUEST dipisah menjadi tiga bagian, yaitu algoritme pemilihan variabel penyekat,

algoritme penentuan variabel penyekat dan algoritme transformasi variabel kategorik menjadi variabel numerik.

2.4.1 Algoritme pemilihan variabel penyekat

Dalam tulisan ini akan dibahas algoritme pemilihan variabel penyekat berupa satu variabel. Dalam menentukan variabel penyekat pada suatu simpul setiap variabel memiliki kesempatan untuk terpilih sebagai variabel penyekat, meskipun variabel tersebut telah terpilih sebagai variabel penyekat untuk simpul sebelumnya.

Berikut ini adalah langkah-langkah pemilihan variabel penyekat :

(11)

14

a. Jika 𝑋 merupakan variabel kategorik, lakukan uji 𝑋2 untuk kebebasan antara variabel 𝑋 dan variabel respon 𝑌 dan hitung nilai 𝑝 dari pengujian tersebut.

b. Jika 𝑋 merupakan variabel numerik, lakukan uji ANAVA 𝐹 dan hitung nilai 𝑝 dari pengujian tersebut.

2. Pilih variabel dengan nilai 𝑝 terkecil.

3. Bandingkan nilai 𝑝 terkecil dengan taraf 𝛼/𝑀1 , dengan memilih taraf nyata 𝛼 = 0,05 dan 𝑀1 adalah banyaknya variabel bebas.

a. Jika nilai 𝑝 kurang dari 𝛼/𝑀1, maka variabel yang bersesuaian sebagai variabel penyekat. Teruskan ke langkah (5).

b. Jika nilai 𝑝 lebih dari 𝛼/𝑀1, teruskan ke langkah (4).

4. Untuk setiap variabel 𝑋 yang numerik, maka hitung nilai 𝑝 dari uji Levene untuk menguji kehomogenan variansi.

a. Pilih variabel dengan nilai 𝑝 terkecil.

c. Bandingkan nilai 𝑝 terkecil dari uji Levene dengan taraf 𝛼.

d. Jika nilai 𝑝 kurang dari 𝛼, maka pilih variabel yang bersesuaian sebagai variabel penyekat. Teruskan ke langkah (5).

e. Jika nilai 𝑝 lebih dari 𝛼, maka variabel tersebut tidak dipilih menjadi variabel penyekat.

5. Misalkan 𝑋∗_{adalah variabel penyekat yang diperoleh dari langkah (3) atau (4).}

a. Jika 𝑋∗ merupakan variabel numerik, maka teruskan ke langkah (6).

b. Jika 𝑋∗ merupakan variabel kategorik, 𝑋∗_{ditransformasikan ke dalam}

variabel dummy, lalu proyeksikan ke dalam koordinat diskriminan terbesarnya

6. Lakukan analisis diskriminan kuadratik untuk menentukan variabel penyekat.

2.4.2 Algoritme penentuan variabel penyekat

Misalkan variabel respon memiliki dua kategori. Misalkan pula bahwa 𝑋∗

(12)

15

1. Didefinisikan 𝑥̅₀ dan 𝑠₀2 adalah rata-rata dan variansi 𝑋∗ dari pengamatan respon 0, sedangkan 𝑥̅₁ dan 𝑠₁2_{adalah rata-rata dan variansi 𝑋}∗_dari

pengamatan dengan respon 1. Misalkan 𝑃(𝑘|𝑡) = 𝑁_𝑘,𝑡/𝑁_𝑘 merupakan peluang dari masing-masing kategori variabel respon, dengan 𝑁_𝑘,𝑡 adalah jumlah data pada simpul 𝑡 untuk respon 𝑘 dan 𝑁𝑘 adalah jumlah data pada

simpul awal untuk respon 𝑘. 2. Tentukan penyelesaian persamaan

𝑃(0|𝑡)𝑠₀−1_{𝜑 (}𝑥−𝑥̅0

𝑠0 ) = 𝑃(1|𝑡)𝑠1

−1_{𝜑 (}𝑥−𝑥̅1 𝑠1 ) .

Penyelesaian tersebut dapat ditentukan dengan menentukan akar persamaan kuadrat 𝑎𝑥2_{+ 𝑏𝑥 + 𝑐 = 0, dengan} 𝑎 = 𝑠₀2− 𝑠₁2 𝑏 = 2(𝑥̅₀𝑠₁2 − 𝑥̅₁𝑠₀2) 𝑐 = (𝑥̅1𝑠02)2− (𝑥̅0𝑠12)2+ 2𝑠02𝑠12ln { 𝑃(0|𝑡)𝑠₁2 𝑃(1|𝑡)𝑠₀2}

3. Simpul disekat pada variabel 𝑥∗ = 𝑑, di mana 𝑑 didefinisikan sebagai berikut : a. Jika 𝑥̅₀ < 𝑥̅₁, maka 𝑑 = 𝑥̅₀ b. Jika 𝑎 = 0, maka 𝑑 = { 𝑥̅0+ 𝑥̅1 2 − (𝑥̅0− 𝑥̅1) −1_𝑠 02ln { 𝑃(0|𝑡) 𝑃(1|𝑡)} , 𝑥̅₀ , 𝑥̅₀ = 𝑥̅₁ 𝑥̅0 ≠ 𝑥̅1} c. Jika 𝑎 ≠ 0, maka: i. Jika 𝑏2 − 4𝑎𝑐 < 0, maka 𝑑 =1 2(𝑥̅0+ 𝑥̅1)

ii. Jika 𝑏2 − 4𝑎𝑐 ≥ 0, maka : a. 𝑑 adalah akar dari −𝑏±√𝑏2−4𝑎𝑐

2𝑎 yang lebih mendekati nilai 𝑥̅0,

dengan syarat menghasilkan dua simpul tak kosong. b. Untuk 𝑑 yang lain, 𝑑 =1

(13)

16

2.4.3 Algoritme transformasi variabel kategorik menjadi variabel numerik

Misalkan X adalah variabel kategorik, dengan kategori 𝑏1, 𝑏2, … , 𝑏𝐿.

Transformasi 𝑋 menjadi variabel numerik 𝜉 untuk setiap kelas 𝑋 dilakukan dengan langkah-langkah sebagai berikut :

1. Transformasikan masing-masing nilai 𝑥 ke vektor dummy L dimensi 𝑣 = (𝑣₁, 𝑣₂, … , 𝑣_𝐿),

Dengan 𝑣1 = {

1 𝑥 = 𝑏₁

0 𝑥 ≠ 𝑏₁, 𝑙 = 1, 2, … , 𝐿 2. Mencari nilai tengah untuk 𝑋

𝑣̅ =∑𝐿𝑙=1𝑓𝑙𝑣𝑙

𝑁𝑡 𝑣̅

(𝑘)₌ ∑𝐿𝑙=1𝑛𝑙𝑣𝑙 𝑁𝑘,𝑡

dengan

𝑣̅ : rata-rata untuk semua pengamatan pada simpul 𝑡

𝑣̅(𝑘) : rata-rata untuk semua pengamatan pada simpul 𝑡 untuk kelompok ke-k

𝑓𝑙 : jumlah pengamatan pada simpul 𝑡 untuk 𝑣𝑙

𝑛_𝑙 : jumlah pengamatan pada simpul 𝑡 kelompok ke-k untuk 𝑣_𝑙 𝑁_𝑡 : jumlah pengamatan pada simpul 𝑡

𝑁_𝑘,𝑡 : jumlah pengamatan pada simpul 𝑡 untuk kelompok ke-k. 3. Tentukan matriks 𝐿 × 𝐿 berikut

𝑣̅ =∑ 𝑓𝑙𝑣𝑙 𝐿 𝑙=1 𝑁𝑡 𝑣̅ (𝑘)₌ ∑𝐿𝑙=1𝑛𝑙𝑣𝑙 𝑁𝑘,𝑡 𝐵 = ∑ 𝑁_𝑘,𝑡 𝐾 𝑘=1 (𝑣̅(𝑘)− 𝑣̅)(𝑣̅(𝑘)− 𝑣̅)′ 𝑇 = ∑ 𝑓_𝑙 (𝑣_𝑙− 𝐿 𝑙=1 𝑣̅)(𝑣_𝑙− 𝑣̅)′

4. Lakukan SVD dari 𝑇 = 𝑄𝐷𝑄′, dengan 𝑄 adalah matriks orthogonal 𝐿 × 𝐿, 𝐷 = 𝑑𝑖𝑎𝑔(𝑑1, … , 𝑑𝐿) dengan 𝑑1 ≥ 𝑑2 ≥ ⋯ ≥ 𝑑𝐿 ≥ 0.

5. Tentukan 𝐷−

1

(14)

17 dengan 𝑑_𝑖∗ _{= {}𝑑𝑖−1/2 jika 𝑑𝑖 > 0 0 lainnya. 6. Lakukan SVD dari 𝐷− 1 2𝑄′𝐵𝑄𝐷− 1

2 , tentukan vektor eigen 𝑎 yang merupakan

vektor eigen yang sama dengan nilai eigen terbesar. 7. Tentukan koordinat diskriminan terbesar dari 𝑣, yaitu