Optimisasi Dengan Adanya Big Data Problem Chapter III V

(1)

3.1 Definisi SDP

Semidefinite Programming (SDP) adalah subbagian dari pembahasan konvek op-timisasi, dengan optimisasi linier selama persimpangan kerucut dari semidefinit positif matriks dengan sebuah ruang affinty (spectrahedron).

Program Semidefinit adalah bidang yang relatife baru dari optimisasi yang tumbuh untuk beberapa alasan. Banyak permasalahan dalam riset operasi dan op-timisasi kombinatorial dapat dimodelkan sebagai permasalahan semidefinit. Dalam teori control otomatis, SDP digunakan dalam konteks pertidaksamaan matriks li-nier. SDP merupakan kasus khusus dari program kerucut dan dapat efisien disele-saikan dengan metode titikinterior.

Permasalahan program linier adalah salah satu metode untuk memaksimum-kan atau meminimummemaksimum-kan fungsi tujuan dari variable real melalui polytope. Semua program linier dapat dinyatakan sebagai SDP, secara umum solusi dari SDP dari permasalahan optimisasi polinomial dapat di aprokmasi. SDP telah digunakan pada optimisasi sistem kompleks.

Didalam pemrograman semidefinit, digunakan vector bernilai real dan diper-bolehkan untuk mengambil dot product dari vector, kendala nonnegative pada variabel real di program linier diganti oleh semidefinit pada variabel matriks di SDP. Secara khusus, masalah pemrograman semidefinit umum dapat didefenisikan sebagai masalah pemrograman matematik dalam bentuk.

min

x1_,...xn∈Rn X

i,j∈[n]

Ci,j.(Xi.Xj) (3.1)

Subjek X

i,j∈[n]

Ci,j,k.(Xi_.Xj₎

(2)

matrik Mn_×n dikatakan semidefinit positif jika itu adalah gramian matrik dari beberapa vector (yaitu jika terdapat vector x1_{, . . . , x}n _seperti _mi,j ₌ _xi_.xj _(untuk

semuai, j) jika ini terjadi maka ditunjukkan sebagiM 0 . Ada beberapa defenisi yang setara lainnya menjadi semidefinit positif, misalnya matriks semidefinit positif hanya memiliki nilai eigen nonnegative dan memiliki akar kuadrat pasti positif.

dilambangkan dengan Sn _{ruang semua} _n _×_n _{matrik simetri real. Ruang ini di}

lengkapi dengan produk dalam ( dimana tr menunjukkan jejak)

hA, B_iSn =tr(A

T , B) =

n

X

i=1,j=1

Ai,j.Bi,j (3.3)

model matematikanya menjadi

min

X∈SnhC, XiSn (3.4)

Subjek _hAk, X_iSn ≤bk, k = 1, . . . , m (3.5)

X 0

dimana entri i, j di C diberikan oleh Ci,j dari bagian sebelumnya dan Ak adalah

n_×nmatriks memilikii, j entriai,j,k dari bagian sebelumnya, jika ditambah slack variabel, SDP dapat dikonversi menjadi bentuk model matematikanya menjadi

min

X∈SnhC, XiSn (3.6)

Subjek _hAk, X_iSn =bk, k = 1, . . . , m (3.7)

X 0

Contoh

(3)

F(x, y) = 2x4+ 2x3y₋x2+ 5y4

=

x2 y2 xy q

11 q12 q13

q12 q22 q23

q13 q23 q33

" x2

y2

xy

#

=q11x4+q22y4+ (q33+ 2q12)x2y2+ 2q13x3y+ 2q23xy3 = 0

Oleh karena itu, dari persamaan linier diperoleh:

q11= 2, q22= 5, q33+ 2q12=−1,2q13= 2,2q23= 0

semidefinit positif Q memenuhi persamaan linier kemudian ditemukan dengan se-midefinite programming. Solusinya diperoleh

Q= "

2 ₋3 1 −3 5 0

1 0 5

#

=LT_.L _dan _L₌ 1

√ 2

"

2 ₋3 1

0 5 0

1 0 5

#

di peroleh sum of squares (SOS)

F(x, y) = 1 2(2x

2₋₃_y2₊_xy₎2₊ 1 2(y

(4)

PEMBAHASAN DAN HASIL

4.1 Set-membership Identifiation/Estimation dan Big Data

Sistem identifikasi digunakan dalam statistik untuk membentuk model matematika sistem dinamis dari suatu data. Pembahasan terpenting yaitu pemodelan (model identifikasi) dan penanganan big data. Intinya bagaimana mendapatkan model sistem/sinyal jika dihadapkan (diperlukan) jumlah data yang sangat besar. Ke-hadiran data yang besar bukan saja mendatangkan kompleksitas komputasi tetapi juga kehadiran penambahan noise yang distribusinya penting untuk diketahui. De-ngan demikian pendekatan model dan komputasi stokastik akan mewarnai objektif model identifikasi.

Big data Problem dilakukan penanganannya dengan metodeset-membership estimationyang telah dikembangkan oleh (Schweppe, 1968).

Gambar 4.1 Pengaturan dasar error in variable (EIV) untuk sistem dinamis linier

Error in variable (EIV) adalah suatu model regresi yang menyatakan banyaknya jumlaherrorsdidalam variabel bebas. Analisis regresi adalah proses statistik untuk memperkirakan/estimasi hubungan antara variabel (sebuah variabel tergantung dan satu atau lebih variabel bebas).

(5)

yang sama, konsep dasar ini sedererhana tetapi kompleks, dari sudut pandang kompleksitas pada komputer, yang menjadi konsep utama yang akan di bahas.

Dalam sistem kontrol ada input dan ada output, anggap sistem kontrol yang di bahas yaitu sistemsingle input single output (SISO)linier time invariant (LTI) Cerone, 1993) dimana xt adalah masukan barisan noise free dan linier block di-modelkan dengan sistem waktu diskrit yang merubah xt menjadi keluaran noise free xt menurut persamaan beda/difference. Dalam sistem kontrol ada input dan ada output, anggap sistem kontrol yang di bahas yaitu sistem single input single output(SISO)linier time invariant(LTI) Cerone, 1993) dimanaxtadalah masukan barisan noise free dan linier block dimodelkan dengan sistem waktu diskrit yang merubah xt menjadi keluaran noise free wt menurut persamaan beda/difference.

A(q−1₎_wt ₌_B₍_q−1₎_xt. _(4.1)

dimana A(_·) dan B(_·) adalah polinomial didalam operator terbalik q−1 ₍_q−1_wt ₌

w(t−1)) dari bentuk

A(q−1_{) = 1 +}_a

1q−1+. . .+anaq−na (4.2)

B(q−1) = b0+b1q −₁

+. . .+bnbq−nb (4.3)

Input dan output dari barisan data dirusak oleh penambahan noise ξt dan ηt di tulis

ut=xt+ξt (4.4)

yt=wt+ηt (4.5)

dimanaξt dan ηt dianggap interval yang di berikan batasan ∆ξk dan ∆ηk di tulis

|ξt_{| ≤} ∆ξk (4.6)

(6)

Parameter vector θ tidak diketahui dan θ _∈ Rp _{untuk diidentifikasi dan} dide-fenisikan sebagai

θ= [a1 . . . ana b0 b1 . . . bnb]T (4.8)

dimanana+nb + 1 = p ketikafeasible parameter set (FPS)_Dθ adalah

Dθ ={θ ∈Rp :A(q−1)(yt−ηt) =B(q−1)(ut−ξt), |ξt| ≤∆ξk,|ηt| ≤∆ηk; t = 1, . . . , N}

(4.9)

dimanaN = panjang barisan data

Model persamaan (4.9) menggambarkan himpunan semua nilai yang mungkin dari parameter tetap yang tidak diketahui dari ukuran data, batasan nilai error dan dianggap suatu model.

Dθ ={(θ, ξ, η)∈RpxRNxRN :A(q−1)(yt−ηt) =B(q−1)(ut−ξt),

|ξt_{| ≤}∆ξk,_|ηt_{| ≤}∆ηk; t= 1, ..., N_} (4.10)

Dθ ={(θ, ξ, η)∈RpxRNxRN : na

X

i=1

ai(yt−i−ηt−i) = nb

X

j=0

bj(ut−j −ξt−j),

|ξt_{| ≤}∆ξk,_|ηt_{| ≤}∆ηk; t= 1, . . . , N_} (4.11)

dimana

ξ = [ξ1, ξ2 . . . , ξN]T ∈RNdan

η = [η1, η2, . . . , ηN]T ∈RN

Jadi model yang akan dislesaikan adalah untuk menhitung fungsi tujuan yang disebutparameter uncertainty intervals P U Ij di defenisikan sebagai berikut

P U Ij = [θj, θj] untuk j = 1, . . . , p (4.12)

dimana

θ_j = min

θ,ξ,η∈ D_θ,ξ,ηθj (4.13)

θj = max

(7)

Dari model tersebut fungsi tujuan nya adalahP U Ij dan kendalanya adalahθj dan θj Karena _Dθ,ξ,η sebuah himpunan non konvex

(yt₋ηt) +

4.2 Penanganan Big Data di Set-membership Identification dengan Taksiran Optimisasi Polinomial

Pendekatan pertama yang dilakukan, tujuan dasar yang dipaparkan oleh (Cerone et al., 2012). Berdasarkan aplikasi dari sparse Linear Matrix Inequality (LMI) relaxationyang dikemukakan (Laserre, 2006), yang menjadi pembahasannya adalah Feasible Parameter Set (FPS).

(8)

(Cerone, 2012) memaparkan sifat-sifat dalam permasalahan membentuk identi-fikasi antara lain:

Sifat 1:

1. Fungsi hanya bergantung dari variabel θj;

2. t = na+ 1, . . . , N, kendala polinomial gt _≥ 0 dan gt+N ≥ 0 didefinisikan

Dθ,ξ,η bergantung hanya dengan np+na+nb+ 2 = 2np + 1 variabel yaitu

tidak diketahui parameter θj , j = 1, . . . , np ;sampel input noise ξk, k =

t, t₋1, . . . , t₋nb dan sampel output noise ηk, k=t, t₋1, . . . , t₋na;

3. Untuk t = 1, . . . , N, kendala nya adalah gk+2N ≥ 0, gk+3N ≥ 0, gk+4N ≥ 0

dan gk+5N ≥0 mendefenisikan Dθ,ξ,η bergantung hanya dari variabel ξt atau ηt.

Sifat 2:

Jika δ _≥ 1 ,defenisikan P U Iδ j = [θ

δ j, θ

δ

j] untuk j = 1, . . . , np, interval P U Ijδ

memenuhi sifat sebagai berikut:

1. Menjaminrelaxed intervaltak tentu untuk setiapδ _≥1intervalP U Iδ

j dijamin

berisi parameter sebenarnya θj, yaitu θj _∈ P U Iδ j;

2. Meningkatkan keakuratan di dalam mengevaluasi relaxed interval tak ter-tentu untuk setiap δ _≥ 1,interval P U Iδ

j menjadi lebih sulit jika δ relaxation

orderditingkatkan, yaitu P U Iδ+1

j ⊆ P U Ijδ;

3. Kekonvergenan mempersulit di dalam interval tak tentu interval P U Iδ j

kon-vergen untuk interval sulit P U Ij sebagai LMI relaxation order akan tidak terbatas, yaitu:

lim

δ→∞θ

δ

j =θj, lim δ→∞θ

(9)

Sifat 3:

Komplek komputasi, evaluasi dari P U Iδ

j memerlukan penyelesaian SDP dimana

jumlah dari variabel optimisasi yaitu:

(N ₋na)

2np+ 1 + 2δ

2δ

−(N ₋na₋1)

2np₋1 + 2δ

2δ

dan daerah fisibel_Dδ_{dibentuk dari}_N

−namomentmatrik, setiap ukuran 2np+1+2₂_δ δ dan 2(N ₋na) + 4N matrik local, yang lain ukuran 2np_δ₋+2₁δ

.

Sifat 2 tentang hasil isi estimasi yang digunakan pada pendekatan optimisasi jarang sifat 3 menunjukkan jumlah variabel optimisasi meliputi komputasi dari relaxed estimasi yang linier dengan jumlahinput dan output N untuk pengguna computer mengestimasi juga ddalam jumlah data yang besar. Oleh karena itu penggunaan pendekatan optimisasi jarang lebih efektif di dalam penanganan big data di dalam identifikasi anggota, dimana big diartikan kira-kira seribunoiseyang merusakinput output dari data. Tidak seperti jumlah data, dalam kenyataannya signifikan lebih besar supaya jumlah data (kira-kira N = 10) dapat ditangani dengan memakai moment/ SOS relaxation tanpa memanfaatkan struktur khusus yang jarang dari masalah estimasi yang di sorot pada sifat 1.

4.3 Penanganan Big Data di Set-membership Identification dengan Re-ducing Ukuran Persoalan

Di sini Pendekatan alternative mengambil rujukan dari jurnal (Cerone, 2011), relax efektif masalah optimisasi cembung di dalam sampel input outputyang jumlahnya besar.

Menggambarkan batasan terluar _Ds

δ dari (Cerone, 1993). Himpunan Dδs diisi dari

Dδ dianggap bahwa regressor tak tentu tidak berkorelasi mempunyai bentuk

Ds

θ ={θ∈R p _{: (}_φt

−∆φt)φ_≤yt+ ∆ηt,(φt+ ∆φt)φ _≥yt₋∆ηt ; t= 1, . . . , N_}

(10)

dimana

∆φt={∆ηt−1sgn(a1)....∆ηt−nasgn(ana)

∆ξtsgn(b0)∆ξt−1sgn(b1)...∆ξt−nbsgn(bnb)}T

(4.17)

Himpunan_Ds

θ adalah sebuah pendekatan terluar dariDθ yaituDθs ⊇ Dθ Himpunan

Ds

θ didefenisikan kendala linier piecewise (tidak sebanding), walaupun umumnya

bukan cembung, itu adalah union dari 2p _{cembung himpunan}

Ds

θi, didefenisikan 2N +p kendala linier, intersection antara Dsθ dan i− th orthant dari ruang Rp_{. Andaikan relaxed parameter interval taktentu} _{P U I}s j

catatan bahwa, karenaξ danηbukan variabel optimisasi dari permasalahan diatas dan _Ds

θ adalah sebuah pendekatan terluar dari Dθ maka

θs_j _≤ θ_j untuk semua j = 1, . . . , p (4.24)

(11)

Contoh 1

Anggap sistem order 2 dengan nilai parameter sebenarnyaθT _{= [}_a

1 a2 b1 b1] =

[₋1.75 0.87 ₋1.25 1.88] batasan parameter yang akan di evaluasi untuk kum-pulan data yang akan di uji dari N panjang persebaran data yaitu untuk N = 30, N = 200 dan N = 1000. Perhitungan Numerik di lakukan pada Matlab. Sistem dijalankan dengan barisan input data random xt menggunakan distribusi uniform antara [₋1,+1]. Data input xt dan data output di rusak oleh penamba-han random noise yaitu ξt dan ηt , distribusi uniform antara [₋∆ξt,+∆ξt] dan

menggunakansparseLMI-relaxationberdasarkan EIV untukrelaxation ordeδ= 2.

Tabel 4.1 Perkiraan parameter utama (θcs j , θ

30 -1.760 -2.790 2.016 -1.773 0.218 0.870 1.544 1.328 0.889 0.222 -1.250 -2.031 1.441 -1.436 0.712 1.880 3.048 2.348 2.132 1.017 200 -1.760 -2.088 1.123 -1.741 0.150 0.870 1.020 0.566 0.860 0.149 -1.250 -1.759 1.110 -1.376 0.679 1.880 2.358 1.506 2.062 0.925 1000 -1.760 -2.011 0.965 -1.759 0.091 0.870 0.955 0.467 0.864 0.094 -1.250 -1.447 0.769 -1.316 0.462 1.880 2.369 1.326 2.106 0.515

untuk N = 30

(12)

untuk N = 200

-1.760 Perkiraan parameter utama antara -2.088 sampai -1.741

untuk N = 1000

-1.760 Perkiraan parameter utama antara -2.011 sampai -1.759

Contoh 2

Anggap system order 2 dengan nilai parameter sebenarnyaθT _{= [}_a

1 a2 b1 b1] =

[1.15 0.8 ₋2.45 2.1] batasan parameter yang akan di evaluasi untuk kumpulan data yang akan di uji dari N panjang persebaran data yaitu untuk N = 300. Per-hitungan Numerik di lakukan pada Matlab. Sistem dijalankan dengan barisan input data random xt menggunakan distribusi uniform antara [₋1,+1]. Data in-put xt dan data output di rusak oleh penambahan random noise yaitu ξt dan ηt, distribusi uniform antara [₋∆ξt,+∆ξt] dan [₋∆ηt,+∆ηt] Pemilihan batasan error

j)/2 menggunakan static pendekatan EIV, selanjutnta θc,δ_j = (θδj+θ

j)/2 dengan menggunakansparseLMI-relaxation

berdasarkan EIV untukrelaxation orde δ = 2. Tabel 4.2 Perkiraan parameter utama (θcs

j , θ c,δ

j ) dan batasan tak tentu (∆θsj,∆θδj)

terhadap banyak data N. Nilai dari θ_jc,δ dan ∆θδ

j di hitung untuk

relaxation tingkat δ= 2 untuk N=300 N Nilai sebenarnya θcs

j ∆θsj θjcδ ∆θjδ

300 1.1500 1.1583 0.1894 1.1417 0.0942 0.8000 0.8258 0.1939 0.7974 0.0872 -2.4500 -2.7386 2.3208 -1.4509 1.0545 2.1000 2.4363 2.2893 2.2048 1.0830

untuk N = 300

(13)

5.1 Kesimpulan

Sistem identifikasi digunakan dalam statistik untuk membentuk model mate-matika sistem dinamis dari ukuran data. Pembahasan terpenting yang akan di pa-parkan dalam tulisan ini yaitu pemodelan (model identifikasi) dan penanganan big data. Intinya adalah bagaimana mendapatkan model sistem/sinyal jika dihadap-kan (diperludihadap-kan) jumlah data yang sangat besar. Teknikmoment/Sum of squares relax diperlukan untuk menyelesikan model matematis yang berbentuk polinomi-al (konvek optimisasi) dengan teori Semidefinite Programming (SDP). Hasilnya dapat dilihat semakin besar N maka makin mendekati nilai interval parameter model dari nilai parameter sebenarnya. Interval batas bawah diperoleh dengan meminimumkan fungsi tujuan modelParameter Uncertainty Intervals(P U Ij) dan intervalatas dengan memaksimumkan fungsi tujuan modelParameter Uncertainty Intervals (P U Ij).

5.2 Saran