TINJAUAN PUSTAKA. Pra-pemrosesan Koreksi Pencaran Multiplikatif. ˆβ, kemudian. dan

(1)

TINJAUAN PUSTAKA

Pra-pemrosesan Koreksi Pencaran Multiplikatif

Pra-pemrosesan yang terkait dengan pengaruh yang muncul akibat sifat fisik dan kimiawi contoh atau sering disebut sebagai pengaruh pencaran merupakan tahapan penting dalam model kalibrasi. Pra-pemrosesan tersebut bertujuan untuk menghasilkan pendugaan yang baik dan spektra yang dapat diinterpretasikan. Salah satu teknik yang sering digunakan adalah koreksi pencaran multiplikatif. Koreksi tersebut dapat mengeliminasi keragaman spektra yang disebabkan oleh keragaman pencaran contoh dan noise, sehingga keragaman yang tersisa hanyalah keragaman yang terkait dengan informasi kimia dari contoh yang dianalisis (Antti 1999). Konsekuensi dari koreksi pencaran yang dilakukan adalah meningkatkan kelinearan dan kemampuan prediksi dari suatu model (Naes

et al. 2002). Koreksi pencaran multiplikatif dilakukan dengan meregresikan

spektrum masing-masing contoh terhadap spektrum rataannya. Bentuk persamaan regresi untuk masing-masing contoh sebagai berikut:

) , 2, 1, ; , 2, 1, ( 1 0 x e i n j p xij =β i +βi j + i = K = K (1) dimana xij = spektrum contoh ke-i pada bilangan gelombang ke-j

β0i = intersep pada contoh ke-i i

1

β = kemiringan pada contoh ke-i

∑

= = n i ij j x n x 1 1 . i 0

β dan β1i pada masing-masing contoh diduga dengan metode kuadrat terkecil. Setelah diperoleh nilai βˆ0i dan βˆ1i, kemudian βˆ0i dan βˆ1i digunakan untuk mentransformasi spektrum asli dengan menggunakan persamaan berikut:

i i ij ij x x 1 0 * ( ) β β − = (2)

dimana xij = spektrum yang belum dikoreksi (spektrum asli) *

ij

(2)

Spektrum yang sudah dikoreksi dari masing-masing contoh memiliki posisi pencaran yang relatif lebih rapat daripada sebelum dikoreksi. Hal ini mengindikasikan bahwa keragaman spektrum antar contoh semakin kecil, karena keragaman yang tersisa hanyalah keragaman yang disebabkan oleh perbedaan informasi kimia yang diberikan masing-masing contoh.

Fungsi Basis B-Spline

Fungsi spline merupakan potongan polinomial yang memiliki ruas-ruas polinomial yang berbeda dan tersambung bersama pada titik-titik knot dengan syarat jaminan kekontinuan tertentu (Gunawan 2001).

Fungsi spline berderajat q didefinisikan sebagai sembarang fungsi s dengan titik-titik knot ξ1, ξ2, ..., ξm (a<ξ1<ξ2<...< ξm<b) yang disajikan dalam

bentuk: q q i j m j jq i ix x x s ₊ = =

∑

+

∑

− = ( ) ) ( 0 1 0 δ ξ δ

untuk suatu himpunan konstanta real δ00, δ01, ..., δ0q, δ1q, δ2q, ..., δmq dan fungsi

}. ) ( {0, maks ) (x−

ξ

_j + = x−

ξ

_j

Setiap fungsi spline dapat dinyatakan sebagai kombinasi linear dari basis B-spline (de Boor 1978). Basis B-spline merupakan basis alternatif bagi basis fungsi pangkat terpotong. Basis B-spline banyak memberikan keuntungan baik dari sifat-sifat B-spline itu sendiri maupun dari aspek komputasinya, sehingga lebih mudah didapatkan dan lebih bersifat atraktif.

Divided Diference dari fungsi g pada titik-titik τ_i,τ_i+1,K,τ_i+_q dinotasikan

sebagai [τi,τi+1,Kτi+q]g. Misalkan P adalah himpunan fungsi polinomial q+1

berderajat q. Jika pq+1∈P yang bersesuaian dengan g pada titik-titik _q₊₁ 1

2 1,τ , ,τq+

τ K maka pq+1 dapat dituliskan sebagai:

. ] , , )[ ( ) ( ) ( ) ( ₁ ₁ ₂ ₁ 1 x p x x x g p_q₊ = _q + −τ _K −τ_q τ τ _Kτ_q₊

Berdasarkan persamaan di atas, [τi,τi+1,Kτi+q]g didefinisikan sebagai koefisien

(3)

q i i

i τ + τ +

τ , 1,K, (de Boor 1978). Nilai Divided Diference pada beberapa titik diberikan sebagai berikut:

1. [τ1]g =g(τ1) 2.     = ≠ − − = − − = jika ), ( ' jika , ) ( ) ( ] [ ] [ ] , [ 2 1 1 2 1 1 2 1 2 1 2 1 2 2 1 τ τ τ τ τ τ τ τ τ τ τ τ τ τ τ g g g g g g 3.        ∈ = = = ≠ − − = + + + + − + + + + + + + ) ( 1 ) ( 1 1 2 1 1 dan jika , ! ) ( jika , ] , , [ ] , , [ ] , , [ q q i i i i q i q i i q i q i i i q i i i q i i i C g q g g g g τ τ τ τ τ τ τ τ τ τ τ τ τ τ τ τ τ K K K K

dengan q!=1×2×L×q dan _g(q)_{merupakan turunan ke-q dari fungsi g.}

Misalkan T ={t₀ ≤t₁ ≤_L≤t_m}adalah himpunan (m+1) knot pada selang [t0,tm], B-spline berderajat q ke-i didefinisikan dalam bentuk divided difference

dari _t _x q

+

− )

( pada barisan knot T yang diberikan oleh persamaan berikut: ℜ ∈ − − = = B x t₊ ₊ t t t₊ ₊ t x ₊ x x B q q i i i q i q i t q i, , ( ) , ( ) ( 1 )[ ,K, 1]( ) , . Dengan . jika , 0 jika , )} ( maks{0, ) (    > ≤ − = − = − + _x _t t x x t x t x t

Sebagai ilustrasi bagi B-spline, untuk i = 1 dan q = 1 maka

. ) ( ) ( ) ( ) ( ) ]( [ ) ]( [ ) ]( [ ) ]( [ ) ]( , [ ) ]( , [ ) ]( , [ ) ]( , [ ) ( , ) ]( , , )[ ( ) ( 1 2 1 2 2 3 2 3 1 2 1 2 2 3 2 3 2 1 3 2 1 3 2 1 3 2 1 3 3 2 1 1 3 1 , 1       − − − − −       − − − − =       − − − − −       − − − − = − − − =       − − − − − = ℜ ∈ − − = + + + + + + + + + + + + + t t x t x t t t x t x t t t x t t x t t t t x t t x t t x t t t x t t t t t x t t t x t t t t t x x t t t t t t x B

Fungsi basis B-spline berderajat q ke-i (Bi,q) lebih mudah dipahami dengan

menggunakan definisi secara rekursif (rekursif Cox de Boor) dengan persamaan:

) ( ) ( ) ( selainnya , 0 jika , 1 ) ( 1 , 1 1 1 1 1 , , 1 0 , x B t t x t x B t t t x x B t x t x B q i i q i q i q i i q i i q i i i i − + + + + + + − + + − − + − − =    ≤ ≤ = (3)

(4)

B-spline berderajat nol pada suatu interval yang terletak di antara dua knot merupakan konstanta, sehingga dengan menggunakan Persamaan 3 fungsi B-spline berderajat 1, 2 dan 3 dapat diperoleh dengan mudah.

Sebuah fungsi spline berderajat q dengan barisan knot T dapat dituliskan sebagai kombinasi linear B-spline:

∑

= ( )

)

(x B, , x

s βi iqt (4)

dengan βi merupakan koefisien basis B-spline.

Fungsi basis B-spline memiliki sifat-sifat sebagai berikut: 1. B_i_,_q(x) merupakan polinomial berderajat q pada x. 2. Nonnegativity, 0Bi,q(x)≥ untuk semua i, q, x.

3. Local support, B_i_,_q(x) merupakan polinomial taknol pada [ti,ti+q+1).

4. Pada setiap interval [ti,ti+1), paling banyak memiliki q+1 fungsi basis

berderajat q taknol, yaitu B_i−_q_,_q(x) ,B_i−_q+₁_,_q(x),B_i−_q+₂_,_q(x) ,_K,B_i_,_q(x). 5. Partition of unity yaitu jumlah dari semua fungsi basis tak nol pada

interval [ti,ti+1) sama dengan satu.

6. Jika jumlah total knot yang digunakan pada B-spline berderajat q sebanyak s+1 dan banyaknya fungsi basis = n+1, maka s = n+q+1.

7. Fungsi basis B_i_,_q(x) merupakan kurva komposit dari polinomial berderajat q dengan titik gabung pada knot-knot yang ada pada [ti,ti+q+1).

8. Pada knot dengan multiplisitas k, fungsi basis B_i_,_q(x) merupakan Cq-k

yang kontinu.

Gambar 1 menyajikan grafik 6 fungsi basis B-spline kubik pada domain [1,100]. Barisan knot (internal) yang digunakan adalah T = {0.01, 33.67, 67.33, 100.99} yang posisinya ditunjukkan oleh garis vertikal.

(5)

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 1 8 15 22 29 36 43 50 57 64 71 78 85 92 99 Domain B-spline N ila i B -s p lin e B1 B2 B3 B4 B5 B6

Gambar 1 Grafik 6 basis B-spline kubik pada domain [1,100].

Regresi Sinyal P-spline

RSP merupakan salah satu pendekatan nonparametrik yang melibatkan penggunaan basis B-spline dan penalti pemulus (penalti pembeda dan penalti

rigde) dalam pendugaan parameter (koefisien) regresi. Dengan memanfaatkan

informasi spasial (urutan atau indeks) dari peubah penjelas, koefisien regresi yang dihasilkan oleh RSP ada dalam ruang fungsi mulus. Hal ini dicapai dengan cara merepresentasikan koefisien regresi sebagai kombinasi linear dari basis B-spline. Dalam model RSP, indeks peubah penjelas memegang peranan yang sangat penting yaitu untuk mengevaluasi fungsi basis B-spline yang dibangun.

Model kalibrasi dapat dipandang sebagai regresi linear berganda yang dituliskan dalam bentuk:

). , 2, 1, ( 2 2 1 1 0 x x x e i n yi =α +α i +α i +L+αp pi + i = K

Nilai harapan persamaan di atas adalah:

) 1 ( ) ( ) 1 ( 0 ) 1 ( ) 1 (y_n_× = n× + n×p p× E α X α (5)

dimana X = matriks spektra peubah penjelas yang dihasilkan pada p bilangan gelombang dan antar peubah penjelas terdapat multikolinearitas. n = dimensi/jumlah contoh

(6)

α0= intersep

α = vektor koefisien regresi.

Matriks X(n×p) memiliki dimensi peubah penjelas yang sangat besar sehingga

dimensi vektor koefisien regresi (α) juga besar. Oleh karena itu, dalam proses pendugaan α perlu dilakukan pereduksian dimensi koefisien regresi dengan cara merepresentasikan α sebagai kombinsi linear dari basis B-spline (B) berdimensi sedang. Dengan demikian, α dapat dinyatakan sebagai berikut:

) 1 ( ) ( ) 1 (p× = p×m β _m_× α B (6)

dengan β = vektor koefisien basis berdimensi m, m << p.

Permasalahan mendasar dalam membangun fungsi basis B-spline adalah penentuan jumlah dan penempatan knot yaitu tempat tersambungnya potongan-potongan polinomial pada B-spline. Jumlah knot yang terlalu banyak akan menyebabkan overfitting, sebaliknya jika terlalu sedikit akan mengakibatkan

underfitting. Pengoptimalan jumlah dan penempatan knot merupakan masalah non

linear yang kompleks dan lebih mengarah pada masalah algoritma.

P-spline dapat mengatasi permasalahan di atas dengan cara menentukan terlebih dulu jumlah knot pada B-spline, dan penempatan knot dilakukan dengan konsep equally spaced knots yaitu mengatur posisi knot sedemikian rupa sehingga jarak antar knot yang satu dengan lainnya sama.

Dengan mensubstitusikan Persamaan 6 ke Persamaan 5 diperoleh:

) 1 ( ) ( ) 1 ( 0 ) 1 ( ) 1 (y_n_× = n× + n_×m _m_× E α U β (7) dengan U(n×m) =X(n×p)B(p×m)

m merupakan banyaknya B-spline yang dibangun; m << p.

Dengan menggunakan Persamaan 7, masalah yang timbul akibat dimensi peubah yang besar dalam proses pendugaan parameter dapat diatasi tanpa membuang data pada matriks X.

Persamaan 7 memberikan model regresi berganda baku berdimensi sedang yang terkendala pada suatu ruang fungsi mulus, akan tetapi masalah multikolinearitas masih ada pada kolom-kolom matriks U. Multikolinearitas pada U dapat diatasi dengan menambahkan dua penalti yaitu penalti pembeda dan

(7)

penalti ridge, karena regresi ridge merupakan salah satu solusi untuk masalah multikolinearitas. Penambahan dua penalti tersebut sekaligus dapat meningkatkan kemulusan α. Penalti pembeda diberikan oleh persamaan berikut:

∑

+ = ∆ = m d k d k P 1 2 ) ( β λ dengan d k

∆ merupakan operator pembeda ke-k berordo d. Penalti ini dapat dinyatakan dalam bentuk matriks:

β β λ T _d d T_D _D P =

dengan D = matriks (d+1) diagonal yang berukuran (m-d) x m dan dihitung d secara rekursif, dengan D1 memiliki entri di,i =−1 dan di,i+1 =1, i = 1, 2, ..., m-1

dan entri lain = 0.

Persamaan rekursif untuk D dinyatakan sebagai berikut: d

β β β β β β β d d k k D D D D D 1 1 1 1 0 } { = − = = + − ; k = 2, 3, ..., m.

Sebagai ilustrasi, matriks-matriks berikut merupakan matriks D berdimensi d rendah untuk m = 4 dan nilai d = 0, 1, 2, 3 secara berturut-turut.

m I D₀ = ;           − − − = 1 1 0 0 0 1 1 0 0 0 1 1 1 D ; _      − − = 1 2 1 0 0 1 2 1 2 D ;D₃ =

[

1 −3 3 −1

]

. Model yang akan dibangun diharapkan memiliki doubly penalized least

square (S) yang minimum.

∑

= + = + ∆ + − − = m i i m d k d k S 1 2 1 2 2 0 || ( ) . ||y α Uβ λ β κ β (8)

bentuk matriks dari persamaan di atas adalah:

. 2 * * ) 1 ( * * * * * * * * * * *_β _β _β _λ_β _β _κ_β _β + + + + − = T _m d T d T T T T T _y _y y S U U U D D I dengan _U* (1 |_U) n = , (0( ) | ) * d d m d D D = − , I* =diag(0,1m) dan ( 0| ). *T _α _βT β =

Matriks-matriks di atas menunjukkan bahwa intersep pada model tidak dimuluskan dan tidak diberikan penalti. Suku pertama pada Persamaan 8 merupakan ukuran kecocokan model terhadap data yaitu jumlah kuadrat residual

(8)

antara data dan nilai prediksi. Suku kedua dan ketiga merupakan penalti pembeda (λ ≥ 0) dan penalti ridge (κ≥ 0). λ merupakan ukuran yang mengontrol tingkat kemulusan α pada tahap lanjut yaitu menentukan mulus atau kasarnya β. Nilai λ yang sangat besar akan menghasilkan kurva β yang mendekati polinomial berderajat d-1, sebaliknya λ =0 akan menginterpolasi β untuk nilai d dan

κ

yang tetap. κ merupakan bilangan positif yang sangat kecil yang berguna untuk menstabilkan kebergantungan linear di antara B-spline sekaligus mengatasi multikolinearitas pada U(n×m).

Nilai prediksi (ŷ) dapat diperoleh dari persamaan berikut: . ˆ ˆ ; ˆ ˆ _α* _α* _β* B X = = y (9)

Derajat bebas pada pemodelan kalibrasi direduksi dari p menjadi derajat bebas efektif yang nilainya lebih kecil dari m; m << p. Oleh karana itu, model regresi yang meminimumkan Persamaan 8 memungkinkan untuk menggunakan banyaknya B-spline (m) yang lebih besar dari pada banyaknya pengamatan (n).

Pendugaan Parameter Koefisien RSP

Pendugaan parameter _β*_{, λ dan к yang meminimumkan S dilakukan}

secara serentak dan iteratif menggunakan metode Newton-Raphson. Metode tersebut memerlukan turunan parsial pertama dan turunan parsial kedua dari fungsi tujuan (S) terhadap β*, λ dan κ.

Turunan pertama fungsi S terhadap_β*_adalah:

(

)

y S T m d T d T * * * ) 1 ( * * * * * =2U U + D D + I −2U ∂ ∂ + β κ λ β

turunan pertama S terhadap λ adalah:

* * * * _β β λ d T d T S ₌ _D _D ∂ ∂

turunan pertama S terhadap

κ

adalah:

* * ) 1 ( * _β β κ = + ∂ ∂ m T S I .

(9)

Sedangkan turunan parsial kedua dari S terhadap β*, λ dan

κ

sebagai berikut:

(

*

)

) 1 ( * * * * 2 * 2 2 + + + = ∂ ∂ m d T d T S I D D U U λ κ β ; 2 0 2 = ∂ ∂ λ S ; ₂ 0 2 = ∂ ∂ κ S * * * * 2 * 2 2 β β λ λ β d T d S S ₌ _D _D ∂ ∂ ∂ = ∂ ∂ ∂ _; * * ) 1 ( * 2 * 2 2 β β κ κ β = + ∂ ∂ ∂ = ∂ ∂ ∂ m S S _I _.

Penduga parameter RSP menggunakan metode Newton-Raphson diperoleh dari persamaan berikut: ) ( ) ( 1 ) ( * ) 1 ( * r _r r r g − + −           =           H κ λ β κ λ β , r = 0, 1, 2, ..., sampai konvergen dengan κ λ β λ κ β κ λ β ∂ ∂ = ∂ ∂ = ∂ ∂ =           = g S g S g S g g g g ; * _*, , * dan . 2 2 2 * 2 2 2 2 * 2 * 2 * 2 2 * 2                     ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ = κ λ κ β κ κ λ λ β λ κ β λ β β S S S S S S S S S H

Penempatan Knot dengan Equally Spaced Knots

Fungsi basis B-spline berderajat q yang akan dibentuk memiliki domain pada interval [1, p], kemudian fungsi tersebut dievaluasi pada indeks dari peubah penjelas yaitu 1,2, sampai p. Misalkan domain B-spline terbentang pada 'm

interval yang sama panjang dan terbagi oleh _m'₊1_{knot internal (} _,

1 i

i t

t

h= + −

untuk q≤i≤m'+q−1 dan h∈ℜ), maka jumlah total knot yang dibutuhkan untuk membangun B-spline = m'+ q2 +1 dan banyaknya B-spline yang digunakan pada

(10)

persamaan regresi adalah m=m' q+ . Penempatan knot menggunakan konsep

equally spaced knot pada penelitian ini dapat dijelaskan sebagai berikut:

1. Misalkan x1 = min{indeks dari peubah penjelas} = min{1,2, ..., p} = 1 dan

= r

x maks{ indeks dari peubah penjelas } = maks {1,2, ..., p} = p.

2. Ditetapkan x_min = x₁−0.01(x_r −x₁), )x_maks = x_r +0.01(x_r −x₁ dan '

/ ) (x_maks x_min m

dx= − .

3. Menentukan barisan knot (T) secara keseluruhan yang akan digunakan pada B-spline. T =barisan (x_min − qdx:x_maks+ qdx); dengan increment sebesar dx.

Kriteria Kebaikan Model dan Validasi Model

Pemilihan model terbaik dapat dilakukan dengan memperhatikan beberapa kriteria kebaikan model pada data penyusun model dan data validasi.

a. Kriteria kebaikan model pada data penyusun model antara lain nilai S yang diformulasikan pada Persamaan 8 dan Generalized Cross Validation (GCV) diformulasikan sebagai berikut:

[

]

∑

= − − = n i c i i y tr n y n GCV 1 2 )) / ) ( ( 1 /( ) ˆ ( 1 G (10) dengan T m d T d T * * ) 1 ( * * * * *₍_U _U _D _D _I ₎ _U U G −1 + + + = λ κ .

b. Kriteria kebaikan model pada data validasi digunakan Root Mean Square

Error of Predictions (RMSEP).

2 / 1 2 ) ˆ ( 1       − =

∑

∈C i i i C y y n RMSEP (11)

dimana C merupakan kumpulan data validasi nc = banyaknya data validasi

yˆ_i = dugaan untuk data validasi y . _i

Kriteria lain yang dapat digunakan pada data penyusun model dan data validasi adalah R2 dari regresi Y dugaan (Ŷ) terhadap nilai Y sebenarnya.

Semakin kecil nilai S, GCV dan RMSEP maka semakin baik model yang diperoleh.

(11)

Derajat Bebas (Dimensi ) Efektif dari Parameter

Derajat bebas (df) efektif dari RSP merupakan banyaknya parameter RSP yang efektif. Derajat bebas efektif bisa dijadikan ukuran kemulusan koefisien RSP dan berguna untuk membandingkan hasil fitting RSP pada jumlah knot, d, λ dan κ yang berbeda-beda. Derajat bebas efektif sama dengan trace dari matriks hat (Hastie dan Tibshirani, 1990) yang diberikan oleh persamaan berikut:

] ) ( [ tr ) , , ( * ) 1 ( * * * * * * _U _U _U _D _D _I 1 U − + + + = T _d _m d T T efektif d df λ κ λ κ .(12)