• Tidak ada hasil yang ditemukan

Metode regresi adalah salah satu analisis data yang dapat digunakan untuk memprediksi pengaruh yang timbul akibat perubahan suatu peubah terhadap peubah yang lain. Dalam kajian ilmiah analisis regresi digunakan untuk mengetahui pengaruh peubah-peubah penjelas terhadap peubah respon. Dalam teknik regresi kita mengasumsikan ada satu output (respon) dan satu atau lebih input (penjelas). Peubah outputnya biasanya bersifat numerik.

Keabsahan penggunaan analisis regresi sangat tergantung pada berbagai asumsi, kadang kala sulit untuk mendapatkan dugaan persamaan regresi yang memenuhi semua asumsi. Salah satu pendekatan yang pernah dilakukan adalah regresi dengan metode pohon biner pada penyekatan ruang peubah penjelas untuk melihat adanya perbedaan dugaan respon (Breiman et al. 1993). Tujuan lain dari persamaan regresi adalah menghasilkan regresi yang akurat dan dapat mengetahui lebih jauh mengenai struktur (yang bersifat memprediksi) dari data tersebut.

Metode Berbasis Pohon

Metode berstruktur pohon telah digunakan diberbagai riset dalam beberapa tahun terakhir terutama dibidang terapan. Salah satu riset yang menggunakan metode tersebut antara lain riset pemasaran (segmentasi pasar), kedokteran (diagnosis), ilmu komputer, botani, psikologi, dan linguistik (Faridhan 2003). Penyusunan pohon keputusan dalam ilmu sosial dimulai pada awal 1960 (AID). Leo Breiman, Jerome H. Friedman, Richard A. Olshen dan Charles J. Stone sekitar tahun 1980-an dalam buku Breiman et al.(1993) mengusulkan suatu algoritma baru untuk penyusunan pohon yaitu ClassificationandRegressionTree (CART). Penyusunan pohon dapat dilihat sebagai salah satu cara pemilihan variabel.

CART adalah salah satu metode atau algoritma dari salah satu teknik eksplorasi data yaitu teknik pohon keputusan. CART merupakan metodologi statistik nonparametrik yang dikembangkan untuk topik analisis klasifikasi, baik

4   

untuk peubah respon kategorik maupun numerik. CART menghasilkan suatu pohon klasifikasi jika peubah responnya kategorik, dan menghasilkan pohon regresi jika peubah responnya numerik kontinu.

Tujuan utama CART adalah untuk mendapatkan suatu kelompok data yang akurat sebagai penciri dari suatu pengklasifikasian. Struktur pohon pada metode ini diperoleh melalui suatu algoritma penyekatan rekursif terhadap ruang penjelas X. Metode penyekatan tersebut dimulai dengan menyekat peubah penjelas menjadi dua anak gugus yang disebut simpul (node). Selanjutnya anak gugus ini disekat lagi menjadi dua anak gugus yang baru. Penyekatan ini diulang sampai diperoleh sekatan-sekatan yang berdasarkan aturan tertentu tidak dapat disekat lebih lanjut. Sekatan akhir yang dihasilkan disebut simpul akhir (terminal node), sedangkan sekatan yang masih mungkin disekat lebih lanjut dinamakan simpul dalam (nonterminal node). Hasil dari proses penyekatan ini disajikankan dalam suatu struktur pohon seperti terlihat dalam Gambar 1 (Breiman et al. 1993).

Gambar 1 Diagram Pohon

Lewis (2000) menyebut simpul asal sebagai simpul induk (parent node); simpul induk dapat disekat menjadi simpul anak tambahan (additional children node). Struktur pohon memiliki satu simpul akar (pada Gambar 1 dinyatakan

t1 t2 t3 t7 t4 t5 t6 t8 t9 Sekat 1 Sekat 2 Sekat 3 Sekat 4

dengan t1) yang mengandung semua gugus data. Pada Gambar 1, simpul dalam dilambangkan dengan lingkaran sedangkan simpul akhir dilambangkan dengan persegi. Dugaan respon dilakukan pada semua simpul akhir (pada Gambar 1 dinyatakan dengan t4, t5, t6, t8 dan t9).

Pada Gambar 1 simpul dalam dilambangkan dengan lingkaran sedangkan simpul akhir dilambangkan dengan persegi. Diagram yang dihasilkan oleh CART ini merupakan suatu model, biasanya diinterpretasikan ke dalam suatu tabel untuk penjelasannya. Hal ini berbeda dengan regresi konvensional dimana model regresi dapat dituliskan menjadi model matematik atau persamaan regresinya.

Pohon Regresi

Pohon regresi adalah suatu teknik non-parametrik yang secara rekursif membagi kelompok-kelompok ke dalam sub-kelompok yang lebih kecil yang memaksimalkan perbedaan sesuai hasil yang diinginkan. Metode pohon regresi ini adalah gabungan dari metode gerombol (cluster) dan metode stepwise regression. Karakteristik dari pohon regresi dijabarkan sebagai berikut:

1. Ada sebanyak p peubah penjelas X1,X2,...,Xp dan ada satu peubah respon yang numerik kontinu (Y)

2. Peubah penjelas bersifat kategorik atau numerik kontinu 3. Peubah respon bersifat numerik kontinu

4. Membutuhkan jumlah sampel yang relatif besar

Proses pembentukan pohon regresi dan kriteria atau ukuran yang digunakannya memerlukan empat komponen (Breiman et al. 1993):

1. Aturan penyekatan

2. Kriteria goodness-of-split

φ( )

s,t yang merupakan alat evaluasi bagi penyekatan (split) s pada simpul t

3. Ukiuran yang digunakan untuk menentukan ukuran pohon yang layak (right sized tree)

6   

Aturan Penyekatan

Pohon regresi dibentuk dari penyekatan data pada tiap simpul ke dalam dua simpul anak. Aturannya adalah sebagai berikut:

1. Tiap penyekatan tergantung pada nilai yang hanya berasal dari satu peubah penjelas.

2. Untuk peubah numerik kontinu Xj penyekatan yang diperbolehkanadalah Xj

c untuk c ε R1, dimana c adalah nilai tengah antara dua nilai amatan peubah Xj

berurutan yang berbeda. Jadi jika Xj mempunyai n nilai yang berbeda maka akan terdapat sebanyak-banyaknya n-1 penyekatan.

3. Untuk peubah penjelas kategorik, penyekatan yang terjadi berasal dari semua kemungkinan penyekatan berdasarkan terbentuknya dua anak gugus yang saling lepas (disjoint). Jika peubah Xj merupakan peubah kategorik nominal dengan L kategori, maka akan ada 2L-1-1 penyekatan, sedangakan jika berupa peubah kategorik ordinal, maka akan ada L-1 penyekatan yang mungkin.

Aturan Growing dan Kriteria Goodness-of-Split

φ( )

s,t

Pohon regresi dibentuk dengan penyekatan yang rekursif berdasarkan kriteria tertentu. Proses penyekatan dilakukan pada tiap simpul dengan cara sebagai berikut:

1. Cari semua kemungkinan penyekatan pada tiap peubah penjelas

2. Pilih “penyekatan terbaik” dari masing-masing peubah penjelas dan pilih “penyekatan terbaik” dari “kumpulan penyekatan terbaik” tersebut. “Penyekatan terbaik” adalah penyekatan yang memaksimumkan ukuran kehomogenan di dalam masing-masing simpul anak relatif terhadap simpul induknya dan yang memaksimumkan ukuran penyekatan (separation) antara dua simpul anak tersebut.

Jumlah kuadrat sisaan (JKS) digunakan sebagai kriteria kehomogenan di dalam masing-masing simpul. Misalkan simpul t berisi anak contoh

{(

Xn,Yn

)}

, n(t) adalah banyaknya amatan dalam simpul t dan rataan respon dalam simpul t adalah

( ) ( )∑

= t x n n Y t n t Y 1 (1)

maka jumlah kuadrat sisaan di dalam simpul t adalah:

( ) [ ( )]

2

− = t x n n t Y Y t JKS (2)

Keterangan : Yn  = nilai individu peubah respon ke-n

( )

t

Y = nilai tengah peubah respon pada simpul ke-t

Misalkan ada penyekatan s yang menyekat t menjadi simpul anak kiri tL dan simpul anak kanan tR. Fungsi penyekatan yang digunakan adalah:

( )

s,t =JKS

( )

t

{

JKS

( )

tL +JKS

( )

tR

}

φ

(3)

dan penyekat terbaik s* adalah:

( )

s t

( )

s t s , max , * φ φ Ω = (4)

dengan Ω adalah gugus yang berisi semua kemungkinan penyekatan.

Pohon regresi dibentuk melalui penyekatan simpul secara rekursif yang memaksimumkan fungsi φ di atas. Penyekatan tersebut dihentikan jika banyaknya amatan dalam simpul tersebut berjumlah “tertentu” atau pada saat nilai φ lebih kecil dari suatu nilai ambang (treshold). Pemilihan aturan penghentian ini tentu saja akan berpengaruh pada ukuran pohon akhir yang terbentuk. Breiman et al. (1993) menetapkan penghentian dilakukan ketika banyaknya amatan pada simpul akhir kurang atau sama dengan 5. Penyekatan juga dapat dilakukan ketika banyaknya amatan kurang dari 25 amatan (Schmoor et al. 1993 dalam kudus 1999).

Penentuan Ukuran Pohon yang Layak

Pohon yang dibentuk dengan aturan splitting atau growing di atas berukuran sangat besar. Hal ini karena aturan penghentian (stopping rule) yang digunakan hanya berdasarkan banyaknya amatan pada simpul akhir atau besarnya peningkatan tingkat kehomogenan. Lebih banyak penyekatan yang dilakukan mengakibatkan makin kecilnya tingkat kesalahan prediksi. Hal tersebut terjadi

8   

karena simpul akhir bisa hanya berisi satu amatan. Masalahnya adalah bagaimana menentukan ukuran pohon yang layak. Pohon yang besar bisa menimbulkan dugaan adanya overfitting. Sebaliknya kasus underfitting terjadi karena tidak adanya penyekatan lebih lanjut akibat adanya tetapan ambang φ

( )

s*,t , padahal sebenarnya penyekatan yang terjadi adalah layak. Cara mengatasi masalah ini adalah mencari ukuran pohon yang layak (optimum) berdasarkan aturan Cost Complexity Minimum dan penggunaan validasi Silang lipat-10 (10-fold Cross validation).

Pencarian pohon regresi dengan ukuran yang layak dilakukan dengan (1) penentuan pohon awal yang besar, (2) secara iteratif pohon tersebut dipangkas (prunning) menjadi sekuen pohon yang makin kecil dan tersarang, (3) dipilih pohon terbaik dari sekuen ini dengan menggunakan penduga contoh uji (test sample estimate) atau penduga validasi silang (cross validation estimate).

Untuk mendapatkan test sample estimate Rts(T), amatan dibagi dua secara acak menjadi Learning sample L1 dan test sample L2. L1 digunakan untuk membentuk sekuen pohon {Tk) melalui proses pemangkasan, sedangkan L2 digunakan untuk membentuk Rts(Tk). Jika L2 berukuran n2, maka

( ) [ ( )]

( ) 2 , 2 2 ˆ 1

− = L y x n k n k ts n n x y y n T R (5)

dengan yˆk

( )

xn adalah dugaan respon dari amatan ke-n pada pohon ke-k. Pohon yang terbaik adalah Tk0, yang memenuhi kriteria:

( )

ts

( )

k k k ts T R T R 0 =min (6)

Untuk membentuk cross validation estimate RCV(T) dengan V-fold amatan induk L yang berukuran n dibagi secara acak menjadi V kelompok, yakni L1, L2,...,LV yang berukuran sama. Learning sample ke-v adalah L-v=L-LV, v=1,2,...,V yang digunakan untuk membentuk sekuen pohon {Tk} dan sekuen parameter complexity

( )

αk . Jika terdapat v sekuen {Tk} dan v sekuen

( )

αk . Kemudian gunakan amatan induk L untuk membentuk sekuen {Tk} dan

( )

αk . Definisikan

1 ' + = k k k

α α

α

. Jika v

( )

n k x

yˆ adalah dugaan respon dari amatan ke–n pada pohon yang bersesuaian dengan αk' yang dibentuk oleh Learning sample ke-v, maka

( ) [ ( )]

( )

∑ ∑

= − = V v x y L n v k n k CV v n n x y y n T R 1 , 2 ˆ 1 (7)

Pohon terbaik adalah Tk0, yang memenuhi kriteria:

( )

CV

( )

k k k CV T R T R 0 =min (8)

cross validation estimate dengan 10-fold ( validasi silang lipat 10), menghasilkan resubstitution estimate yang paling kecil (Breiman et al. 1993).

Penentuan nilai dugaan respon pada setiap simpul akhir

Nilai dugaan respon pada masing-masing kelompok pengamatan yang dihasilkan adalah rataan responnya.

Faktor Yang Mempengaruhi Prestasi Belajar

Djaali (2007) mengatakan bahwa dalam Psikologi Pendidikan, faktor–faktor yang dapat mempengaruhi prestasi belajar, yaitu:

a. Faktor dari dalam diri

Faktor dari dalam diri terdiri dari: 1. Kesehatan

Kesehatan sangat penting dalam keadaan belajar, karena apabila dalam keadaan sakit seorang siswa akan tidak bergairah untuk belajar. Selain itu, secara psikologi gangguan pikiran dan perasaan kecewa karena konplik juga dapat mengganggu proses belajar.

2. Intelegensi

Menurut Gardner dalam teori Multiple Intellegence, intelegensi memiliki tujuh dimensi yang semiotonom, yaitu linguistik, musik, matematik logis, visual spesial, kinestetik fisik, sosial interpersonal dan intrapersonal.

3. Minat dan Motivasi

Minat yang besar terhadap sesuatu terutama dalam belajar akan mengakibatkan proses belajar lebih mudah dilakukan. Motivasi merupakan dorongan agar siswa mau melakukan sesuatu. Motivasi bisa berasal dari dalam diri siswa ataupun dari luar lingkungan.

10   

4. Cara belajar

Perlu untuk diperhatikan bagaimana teknik belajar, bagaimana bentuk catatan buku, pengaturan waktu belajar, dan tempat serta fasilitas belajar. b. Faktor dari dalam Lingkungan

Faktor yang berpengaruh kepada siswa dalam hal belajar dari lingkungan yaitu:

1. Keluarga

Situasi keluarga sangat berpengaruh pada keberhasilan siswa. Pendidikan orangtua, status ekonomi, rumah, hubungan dengan ayah dan saudara, bimbingan orangtua, dukungan orangtua, yang demikian sangat mempengaruhi prestasi belajar siswa.

2. Sekolah

Tempat, gedung sekolah, kualitas guru, perangkat kelas, relasi teman sekolah, rasio jumlah murid per kelas, juga mempengaruhi anak dalam proses belajar. Hal demikian menyebabkan siswa semangat belajar apabila di lingkungan sekolah sangat menunjang dan fasilitas belajar lengkap. Apabila fasilitas kurang lengkap, akan menyebabkan siswa kurang semangat dalam belajar.

3. Masyarakat

Apabila masyarakat sekitar adalah masyarakat yang berpendidikan dan moral yang baik, terutama anak-anak mereka. Hal ini dapat sebagai pemicu siswa untuk lebih giat belajar, karena yang demikian itu bisa jadi motivasi dan gambaran dari orang-orang yang memiliki ilmu.

4. Lingkungansekitar

Bangunan rumah, suasana sekitar, keadaan lalu lintas dan iklim juga dapat mempengaruhi pencapaian tujuan belajar. Dari sekian banyak faktor yang harus diperhatikan, tentu tidak ada situasi 100% yang dapat dilakukan secara keseluruhan dan sempurna. Tetapi berusaha untuk memenuhinya sesempurna mungkin bukanlah faktor yang mustahil untuk dilakukan.

METODOLOGI

Dokumen terkait