MAKALAH PENDAMPING BIDANG MATEMATIKA

(1)

Pendidikan Matematika Universitas Muhammadiyah Purworejo,

Ruang Seminar UMP, Sabtu, 28 Mei 2016

43

MAKALAH

PENDAMPING

BIDANG MATEMATIKA

(2)

44

Prosiding Seminar Nasional Matematika dan Pendidikan Matematika, _{nilai Berfikir Matematis Dalam Perannya di Era Masyarakat Ekonomi ASEAN (MEA)}Internalisasi

Nilai-PEMBENTUKAN INTERVAL KONFIDENSI KOMPONEN VARIANS

DALAM ANALISIS VARIANS (ANAVA) PADA DESAIN ACAK SEMPURNA

Budhi Handoko, Yeny Krista Franty, Sri Winarni Departemen Statistika FMIPA UNPAD Bandung

Email: [email protected] Abstrak

Dalam bidang statistika, komponen varians memegang peranan penting dalam melakukan pengujian hipotesis dan merupakan dasar untuk menentukan statistik uji F pada analisis varians (ANAVA). Secara konseptual, komponen varians juga sebagai dasar untuk menentukan Ekspektasi Rata-rata Jumlah Kuadrat (ERJK). Penelitian ini bertujuan melakukan penurunan secara matematis komponen varians dan bagaimana bentuk interval taksirannnya. Hasil penurunan secara matematis ini nantinya akan diterapkan untuk melakukan analisis suatu hasil eksperimen menggunakan desain acak sempurna. Berdasarkan hasil penurunan, diperoleh bahwa distribusi sampling yang digunakan dalam interval konfidensi komponen varians adalah Distribusi Chi-Kuadrat.

Kata Kunci : komponen varians, analisis varians, model acak, ekspektasi rata-rata jumlah kuadrat, interval konfidensi, desain eksperimen.

1. PENDAHULUAN

Eksperimen biasanya menggunakan taraf faktor yang bersifat tetap, yaitu taraf faktor ditetapkan oleh peneliti dengan mengambil beberapa taraf yang menurut peneliti sesuai dengan konsep dan mudah untuk dikerjakan. Disaat lain, penelitian memerlukan sifat taraf faktor yang acak atau disebut sebagai faktor acak, yaitu perlakuan atau taraf faktor diambil secara acak dari populasi perlakuan dan faktor yang terpilih tersebut akan digunakan dalam eksperimen.

Eksperimen faktor tunggal yang dengan faktor yang bersifat acak menggunakan model yang disebut model efek acak untuk analisis varians dan komponen varians. Komponen varians memegang peranan penting dalam melakukan pengujian hipotesis dan merupakan dasar untuk menentukan statistik uji F pada analisis varians. Secara konseptual,komponen varians juga sebagai dasar untuk menentukan Ekspektasi Rata-rata Jumlah Kuadrat (ERJK) yang nantinya juga akan menentukan rasio dari statistik uji F.

Namun demikian, perhitungan nilai komponen varians jarang sekali dilakukan demikian juga dengan interval konfidensinya. Biasanya analisis berhenti pada saat sudah diperoleh hasil pengujian menggunakan analisis varians. Oleh karena itu, pada penelitian ini akan dilakukan pengkajian mengenai penaksiran komponen varians dan pembentukan interval konvidensinya.

2. KAJIAN LITERATUR Bagian

Menurut Gazpers (1991), model linier untuk desain acak sempurna adalah sebagai berikut:

(2.1) dengan : i = 1,2,...,a

j = 1,2,...,n

Dalam model tersebut, i dan ij merupakan variabel acak. Apabila dicari nilai

ij i ij

(3)

45

variansnya dari model tersebut adalah sebagai

berikut:

(2.2) 2

t dan 2

disebut komponen varians.

Sudjana (2002) menjelaskan bahwa Jumlah Kuadrat total terdiri atas dua bagian yaitu jumlah kuadrat (JK) perlakuan dan JK kekeliruan eksperimen (error) sebagai berikut:

JK(Total) = JK(Perlakuan) + JK(Error) (2.3)

Total variabilitas pengamatan akan dipartisi kedalam sebuah komponen yang mengukur variasi antar perlakuan (JK Perlakuan) dan sebuah komponen yang mengukur variasi dalam perlakuan (JK Error). Uji hipotesis efek perlakuan menjadi tidak berarti, sehingga yang diuji adalah komponen varians 2t.

Statistik Uji :

(2.4)

3. METODE PENELITIAN

Metode yang digunakan untuk melakukan penurunan secara matematis interval konfidensi komponen varians adalah menggunakan ekspektasi rata-rata jumlah kuadrat (ERJK) sebagai berikut:

[

(

)]

E RJK Perlakuan



2 2 . .. 1 2 2 1 1 1 1 2 2 1 1 1 1 2 2 2 1 [ ( )] 1 1 [ ] 1 1 1 1 1 1 1 1 1 1 1 a i i a n a n i ij i ij i j i j a n a n i ij i ij i j i j E JK Perlakuan a y y E a n N E a n N E a n N N N a a                                _ _ _ _     _   _  _   _  _ _ _ _ _ _  _ _ _ _     _   _  _   _  _ _ _ _ _ _  _  



 



 



2 2 2 2 2 1 ( ) ( 1) 1 N n N n a a                  _    _ 

Dalam hal ini :

Sehingga Penaksir untuk Komponen Varians adalah :

Menurut Montgomery (2009) untuk ukuran sampel/replikasi yang tidak sama, n

digantikan dengan (3.1) 2 2 2 2 var( ) var( ) 0 ij i ij y                  2 0 2 1

:

0 :

0

H H  







(

)

(

)

RJK Perlakuan F RJK Error



2 1 0 1 1 1 1 a i a i i a i i i n n n a n                  



2 2 2 2

[

(

)]

ˆ

(

)

ˆ

(

)

E RJK Error n RJK Perlakuan RJK Error 









2 2 2 2 2 2 ˆ ( ) ( ) ( ) ( ) ( ) ˆ RJK Error RJK Perlakuan n RJK Perlakuan n RJK Perlakuan RJK Error n   



_



    _  

(4)

46

Prosiding Seminar Nasional Matematika dan Pendidikan Matematika, _{nilai Berfikir Matematis Dalam Perannya di Era Masyarakat Ekonomi ASEAN (MEA)}Internalisasi Nilai-Metode anava dari penaksiran komponen

varians tidak memerlukan asumsi normalitas. Karena menghasilkan taksiran komponen varians 2 dan 2t yang tak bias kuadratik terbaik, yaitu dari semua fungsi kuadratik tak bias dari pengamatan, penaksir ini memiliki varians minimum.

4. HASIL DAN PEMBAHASAN

Jika data pengamatan hasil eksperimen berdistribusi normal dan independen, maka

Sehingga :

Oleh karena itu, interval konfidensi 100(1-) untuk 2 adalah:

Penaksir titik dari adalah

Sehingga variabel acak

dan

Sehingga distribusi peluang dari adalah sebuah kombinasi linier dari dua variabel acak berdistribusi chi-kuadrat, yaitu:

dengan

dan

Bentuk tertutup (closed-form) dari distribusi kombinasi linier tersebut tidak dapat diperoleh.

Sehingga interval konfidensi eksak dari



ˆ_2 tidak dapat dibentuk.

Namun demikian interval konfidensi eksak dari rasio dari 2 2

(

)

(

)

N a N a RJK Error







2 2 1 ( / 2), 2 , ( ) ( ) 1 N a N a N a RJK Error P  _ _        _ _ _{ }     2 2 2 , 1 ( / 2),

(

)

(

)

(

)

(

)

N a N a N a RJK Error N a RJK Error 











 



_



2 



2

(

)

(

)

ˆ

RJK Perlakuan RJK Error n 







2 1 2 2

(

1)

(

)

a a RJK Error n _









2 2

(

)

(

)

N a N a RJK Error







2

ˆ

_



2 2 1 a 1 2 N a u



_



u



_ 2 2 1

(

1)

n u n a 











2 2

(

)

u n N a



 



2 2 2  



 



(5)

47

Atau bisa disederhanakan menjadi:

dengan :

dan

Sehingga interval konfidensinya diperoleh:

Interval konfidensi tersebut merupakan bentuk rasio dari varians perlakuan dan total komponen varians.

Hasil dari interval konfidensi tersebut akan diimplementasikan dalam contoh kasus eksperimen menggunakan desain acak sempurna sebagai berikut:

Suatu eksperimen dilakukan untuk menguji efek dari level tekanan silinder terhadap

kekuatan spesimen bahan. Level tekanan dipilih secara acak dan kekuatan spesimen diukur. Percobaan dilakukan pada spesimen yang sejenis. Hasil percobaan adalah sebagai berikut:

Tabel 4.1 Data Hasil Eksperimen Tekanan

Silinder Kekuatan Tekanan

10 1530 1530 1440

14 1610 1650 1500

21 1560 1730 1530

24 1500 1490 1510

Hasil analisis menggunakan software Minitab mengacu kepada metode analisis menggunakan Minitab menurut Mathews (2005) diperoleh :

Analysis of Variance Table

Df Sum Sq Mean Sq F value Pr(>F) level 3 28633 9544.4 1.8654 0.2138 Residuals 8 40933 5116.7

Gambar 4.1 Tabel Analisis Varians

Berdasarkan Tabel Anava pada Gambar 4.1 diperoleh

Varians untuk setiap pengamatan ditaksir oleh: 2 2

1

P L



 U







_



_{ }









/ 2, 1,

1 (

)

1

1 (

)

_a _{N a} RJK Perlakuan L n RJK Error F_ _ _









_





_





1 / 2, 1,

1 (

)

1

1 (

)

_a _{N a} RJK Perlakuan U n RJK Error F__ _ _









_





_





2 2 2

1

L U L U  



 





2 ( ) ( ) ˆ 9544, 4 5116, 7 3 1479, 233 RJK Perlakuan RJK Error n 



    

(6)

48

Variabilitas terbesar adalah perbedaan antar level

Selanjutnya berdasarkan hasil sebelumnya akan diperoleh nilai-nilai yang diperlukan adalah sebagai berikut: RJK(Perlakuan)=9544,4 RJK(Error) =5116,7 a=4,n=3 F0,025;3;8 =5,42 F0,975;3;8 =1/ F0,025;8;3= 0.0687 / 2, 1, 1 ( ) 1 1 ( ) _a _{N a} RJK Perlakuan L n RJK Error F_ _ _    _  _   1 9544, 4 1 1 0 3 5116, 7 5, 42      _ _ _ _     1 / 2, 1, 1 ( ) 1 1 ( ) _a _{N a} RJK Perlakuan U n RJK Error F__ _ _    _  _  

1 9544, 4

1

1 8, 72

3 5116, 7 0.0687







_

_

 

_









Sehingga interval konfidensinya

5. KESIMPULAN

Kesimpulan dari penelitian ini adalah sebagai berikut:

1. Penaksir titik komponen varians perlakuan diperoleh dengan rumusan

2. Penaksir eksak komponen varians perlakuan tidak memiliki bentuk tertutup (closed-form). Namun rasio komponen varians memiliki interval konfidensi eksak yaitu

6. REFERENSI

Gasperz, V. (1991). Metode Perancangan Percobaan. Bandung: Armico.

Mathews, P. (2005). Design of Experiments with MINITAB. Milwaukee: American Society for Quality.

Montgomery, D. (2009). Design and Analysis of Experiments 7 Edition. New Jersey: John Wiley and Sons.

Sudjana. (2002). Desain dan Analisis Eksperimen. Bandung: Tarsito.

2

ˆ

5116, 7 1479, 233

6595, 933

 

  

 







2 2 2 2 2 2

0

8.72 1 0

1 8.72

0 0,8971

   



 



 









2

(

)

(

)

ˆ

RJK Perlakuan RJK Error n 







2 2 2

1

L U L U  



 





(7)

49 OPTIMASI BIAYA DALAM PENJADWALAN

PREVENTIVE MAINTENANCE

MENGGUNAKAN ALGORITMA GENETIKA

Yeny Krista Franty1), Budhi Handoko2) ,Bernik Maskun 3) Departemen Statistika FMIPA Universitas Padjadjaran Bandung1,2,3

Email : [email protected]

Abstrak

Penjadwalan preventive maintenance atau pemeliharaan dan penggantian mesin atau komponen selalu melibatkan biaya sebagai salah satu fungsi kendalanya. Tidak hanya reliabilitas yang tinggi yang diperlukan tetapi biaya yang paling optimal juga menjadi pertimbangan yang penting bagi perusahaan. Dalam algoritma genetika, untuk menentukan penjadwalan pemeliharaan dan penggantian komponen atau mesin didasarkan pada 3 jenis fitness function. Fitness function yang pertama yaitu berdasarkan pembobotan pada fungsi reliabilitas dan biaya, fitness function yang kedua berdasarkan biaya yang telah ditetapkan perusahaan dan dipengaruhi oleh inflasi dan fitness function yang ketiga berdasarkan pada reliabilitas yang diperlukan oleh perusahaan. Dari ketiga fitness function ini akan dipilih fitness function yang paling optimal berdasarkan dari biaya yang dikeluarkan, sehingga terpilih fitness function yang kedua.

Kata Kunci: Fitness function, Fungsi Biaya, Parameter Ekonomi Teknik.

1. PENDAHULUAN

Kegiatan pemeliharaan preventif sangat penting dilakukan oleh perusahaan dalam rangka tetap mempertahankan kinerja dan masa hidup dari mesin. Kegiatan pemeliharaan preventif ini pun biasanya dilakukan perusahaan sesuai dengan kebutuhan dan karakteristik kerusakan dari mesin. Namun demikian, pemeliharaan preventif ataupun penggantian komponen menjadi suatu hal yang dipertimbangkan matang-matang oleh perusahaan terkait dengan pembiayaan yang diperlukan. Apabila pelaksanaanya tidak dijadwalkan dengan optimal, maka biaya total yang dikeluarkan akan membengkak dan mempengaruhi anggaran perusahaan tersebut.

Berbagai pendekatan statistik telah diusulkan untuk meminimumkan biaya total dalam melaksanakan penjadwalan optimum mesin. Konsep optimasi yang lazim dilakukan adalah berdasarkan fungsi tujuan yaitu

meminimukan biaya total tanpa ada fungsi kendala yang lain. Pendekatan optimasi multiobjektif telah diusulkan oleh Moghaddam (2010) yang mengusulan dua model, yaitu model optimasi yang memiliki fungsi tujuan meminimumkan biaya total dengan nilai reliabilitas yang telah ditetapkan. Model yang lain adalah optimasi yang memiliki fungsi tujuan memaksimumkan reliabilitas mesin dengan biaya/anggaran yang telah ditetapkan oleh perusahaan.

Metode optimasi yang digunakan pada pendekatan yang diusulkan oleh Moghaddam (2010) adalah menggunakan Algoritma Eksak atau yang dikenal dengan Mixed Integer Non-Linear Programing (MINLP). Algoritma Eksak sendiri memiliki tingkat kompleksitas yang sangat tinggi yang menyebabkan proses pengerjaan secara komputasi menjadi lebih lama, dan bisa jadi tidak mendapatkan solusi yang layak dan tepat.

(8)

50

Prosiding Seminar Nasional Matematika dan Pendidikan Matematika, _{nilai Berfikir Matematis Dalam Perannya di Era Masyarakat Ekonomi ASEAN (MEA)}Internalisasi Nilai-Penelitian ini akan melakukan

kajian metode optimasi alternatif yang bisa mengatasi kelemahan yang muncul pada metode eksak dengan menggunakan algoritma genetika. Algoritma genetika melakukan optimasi fungsi multiobjektif, yaitu meminimumkan biaya total dan memaksimumkan relibilitas. Dalam algoritma genetika, penjadwalan pemeliharaan dan penggantian komponen atau mesin didasarkan pada 3 jenis fitness function. Fitness function yang pertama yaitu berdasarkan pembobotan pada fungsi reliabilitas dan biaya, fitness function

yang kedua berdasarkan biaya yang telah ditetapkan perusahaan dan dipengaruhi oleh inflasi dan fitness function yang ketiga berdasarkan pada reliabilitas yang diperlukan oleh perusahaan. Sehingga tujuan dari penelitian ini adalah melakukan pemilihan terhadap ketiga fitness function sehingga penjadwalan pemeliharaan yang dibuat dapat optimal berdasarkan dari biaya yang dikeluarkan.

2. KAJIAN LITERATUR

2.1 Model Optimasi Multiobjektif Model optimasi multiobjektif merupakan optimasi yang memiliki dua fungsi tujuan yang harus dilakukan optimasi secara bersamaan yaitu meminimumkan fungsi total biaya dan memaksimumkan fungsi reliabilitas. Bentuk dari kedua fungsi objektif adalah sebagai berikut:

2.1 dengan:

2.2 Algoritma Genetik

John Holland (1975) memperkenalkan Algoritma Genetik (AG). Algoritma ini merupakan teknik pencarian menggunakan komputasi untuk mendapatkan solusi optimasi baik eksak maupun aproksimasi. Algoritma ini dikategorikan sebagai pencarian global metaheuristik.

Kelebihan AG adalah dapat secara simultan menemukan wilayah pada ruang solusi yang memungkinkan dapat menemukan solusi untuk masalah yang

(9)

51

sulit dengan ruang solusi yang

non-konveks, diskontinu, dan multimodal.

Langkah-langkah dalam melakukan analisis data adalah sebagai berikut:

1. Membentuk encoding dari solusi 2. Pemeliharaan dan Penggantan

Preventif Berperan Sebagai “kromosom”.

3. Kromosom berupa array berukuran N x T, dengan N = komponen, T = perode.

4. Array akan berisi nilai 0,1, atau 2 bergantung kepada tiga macam tindakan.

5. Menentukan fungsi kecocokan (Fitness function)

6. Melakukan prosedur mutasi, dengan langkah sebagai berikut: a. Bangkitkan bilangan acak antara

1 s.d. N x T.

b. Kemudian tandai “gen” yang berubah menjadi 1 atau 2 jika sama dengan 0, atau berubah ke 0 jika sama dengan 1 atau 2. c. Lakukan langkah yang sama pada

periode yang sama untuk komponen yang lain. 7. Mendapatkan solusi optimasi 8. Memperoleh jadwal pemeliharaan

prefentif berdasarkan ketiga fitness function.

9. Membandingkan biaya optimal yang dihasilkan pada perencanaan pemeliharaan prefentif untuk masing-masing fitness function.

4. HASIL DAN PEMBAHASAN

Penjadwalan pemeliharaan prefentif akan diaplikasikan pada data kerusakan sebuah sub mesin tertentu di sebuah perusahaan farmasi. Penjadwalan pemeliharaan prefentif menggunakan fitness function 1 yaitu pembobotan pada fungsi reliabilitas dan fungsi biaya (Franty, 2015). Ukuran populasi awal ditentukan 1000 , jumlah generasi sebanyak 450 dan waktu penjadwalan 15 bulan. Peluang seleksi 0,5,peluang crossover 0,5, dan peluang mutasi 0,5. Nilai gen dikodekan 0 (mencerminkan tanpa tindakan), 1 (tindakan perawatan), dan 2 (tindakan penggantian komponen)

Untuk menyelesaikan persamaan multiobjektif dengan menggunakan fitness function 1 dilakukan dengan pemberian bobot dengan w1 merupakan bobot pada fungsi biaya dan w2 adalah bobot untuk fungsi reliabilitas, dengan aturan nilai w1 + w2 = 1 (Cohon, 1978), sehingga ada 11 pasangan yang mungkin pada fitness function ini.

Dengan menyelesaikan langkah-langkah analisis data pada metodologi penelitian, dihasilkan penjadwalan pemeliharaan prefentif dan estimasi biaya yang diperlukan untuk melakukan penjadwalan pemeliharaan prefentif.

Menurut Moghaddam (2010), reliabilitas mesin sebaiknya lebih dari atau sama dengan 90% sehingga mesin mempunyai peluang 0.9 untuk dapat bekerja dengan baik pada suatu periode waktu tertentu, sehingga untuk sub mesin ini direkomendasikan melakukan penggantian sub mesin sebanyak 6 kali dengan penggantian dilakukan pada bulan ke-2, ke-4, ke-6, ke-8, ke-10 dan ke-12 setelah mesin mengalami kerusakan untuk terakhir kalinya. Untuk mencapai reliabilitas mesin 90% diperlukan bobot untuk fungsi biaya sebesar 0.2 dan bobot untuk fungsi reliabilitas sebesar 0.8 dan biaya yang diperlukan untuk melakukan penggantian submesin adalah sebesar Rp 41.914.000,00 (Franty, (2015))

(10)

52

Prosiding Seminar Nasional Matematika dan Pendidikan Matematika, _{nilai Berfikir Matematis Dalam Perannya di Era Masyarakat Ekonomi ASEAN (MEA)}Internalisasi Nilai-Penjadwalan pemeliharaan prefentif

menggunakan fitness function 2 yaitu berdasarkan biaya yang ditetapkan oleh perusahaan. Apabila budget yang disediakan oleh perusahaan sebesar Rp. 10 juta, maka reliabilitas mesin diperkirakan akan mencapai 83,12% dengan adanya jadwal perbaikan pada bulan ke-5 dan ke-10.Agar reliabilitas mesin mampu mencapai 90%, perusahaan harus menyediakan budget sebesar Rp 35.000.000,00, dengan adanya 2 kali perawatan dan 5 kali pergantian.

Berdasarkan fitness function 3, penjadwalan pemeliharaan prefentif dilakukan dengan batasan reliabilitas yang diperlukan oleh perusahaan. Apabila diinginkan reliabilitas yang tinggi yaitu 90% - 100%, perusahaan sebaiknya melakukan usaha penggantian komponen pada bulan ke-5 dan ke-10. Tetapi nilai reliabilitas aktual maksimum adalah 83,44% (Handoko, 2015)

Perencanaan penjadwalan pemeliharaan prefentif dengan menggunakan ketiga fitness function, menghasilkan perbedaan pada biaya yang diperlukan. Meskipun fitness function yang ketiga memerlukan biaya paling minimal tetapi reliabilitas aktualnya kurang dari 90% sehingga fitness function yang optimal adalah

fitness function kedua yang memerlukan biaya optimal yaitu Rp 35.000.000,00, dengan adanya 2 kali perawatan dan 5 kali pergantian dan reliabilitas yang maksimal yaitu 90%.

5. KESIMPULAN

Berdasarkan analisis data yang telah dilakukan, maka fitness function yang dipilih untuk melakukan perencanaan penjadwalan pemeliharaan prefentif adalah fitness function

kedua yaitu yang memerlukan biaya optimal dan reliabilitas yang maksimal yaitu 90%.

6. REFERENSI

Budai, G., Huisman, D., Dekker, R., (2006) Scheduling preventive railway maintenance activities, Journal of the Operational Research Society, v 57, n 9, September 2006, p 1035-44.

Canfield, R.V., (1986) Cost optimization of periodic preventive maintenance,IEEE Transactions on Reliability, v R-35, n 1, April 1986, p 78-81.

Duarte, J.A.C., Craveiro, J.C.T.A., Trigo, T.P., (2006) Optimization of the preventive maintenance plan of a series components system, International Journal of Pressure Vessels and Piping, v 83, n 4, April 2006, p 244-248.

Fard, N.S., Nukala, S., (2004) Preventive maintenance scheduling for repairable systems, IIE Annual Conference and Exhibition 2004, 15-19 May 2004, Houston, TX, USA, p 145-150.

Franty, Y.K., (2015). Penentuan Fitness Function Berdasarkan Pembobotan Pada Fungsi Reliabilitas dan Biaya. Prosiding Seminar Nasional Statistika V Unpad,

Oktober 2015, hlm 118-130.

Goldberg, D., (1989) Genetic Algorithms in Search, Optimization, and Machine Learning, Addison-Wesley Publishing, Reading, MA, USA

Han, B.J., Fan, X.M., Ma, D.Z., (2004) Optimization of preventive maintenance policy of manufacturing equipment based on simulation, Computer Integrated Manufacturing Systems, v 10, n 7, JUly 2004, p 853-857.

Handoko, B., (2015). Optimasi Fungsi Multiobjektif Dalam Pemeliharaan Prefentif Mesin Menggunakan Algoritma

(11)

53

Metaheuristik. Prosiding Seminar

Nasional Matematika dan Pendidikan Matematika UNY, November 2015.

Hsu, L.F., (1991) Optimal preventive maintenance policies in a serial production system, International Journal of Production Research, v 29, n 12, December 1991, p 2543-2555.

Jayabalan, V., Chaudhuri, D., (1992) Cost optimization of maintenance scheduling for a system with assured reliability,

IEEE Transactions on Reliability, v 41, n 1, March 1992, p 21-25.

Jayakumar, A, Asagarpoor, S., (2004) Maintenance optimization of equipment by linear programming, International Conference on Probabilistic Methods Applied to Power Systems, 12-16 September 2004, p 145-149.

Levitin, G., Lisnianski, A., (2000) Optimal replacement scheduling in multistate series-parallel systems, Quality and Reliability Engineering International,

v 16, n 2, March 2000, p 157-162.

Limbourg, P., Kochs, H.D., (2006) Preventive maintenance scheduling by variable dimension evolutionary algorithms, International Journal of Pressure Vessels and Piping, v 83, n 4, April 2006, p 262-269.

Moghaddam (2010), Preventive maintenance and replacement scheduling : models and algorithms. Electronic Theses and Dissertations, University of Louisville

Shirmohammadi, A.H., Zhang, Z.G., Love, E., (2007) A computational model for determining the optimal preventive maintenance policy with random

breakdowns and imperfect repairs, IEEE Transactions on Reliability, v 56, n 2, June 2007, p 332-339.

Tam, AS.B., Chan, W.M., Price, J.W.H., (2006) Optimal maintenance intervals for multi-component system, Production Planning and Control, v 17, n 8.December 2006, p 769-779.

Wang, Y., Handschin, E., (2000) A new genetic algorithm for preventive unit maintenance scheduling of power systems, International Journal of Electrical Power and Energy Systems, v 22, n 5, June 2000, p 343-348.

Westman, J.J., Hanson, F.B., Boukas, E.K., (2001) Optimal production scheduling for manufacturing systems with preventive maintenance in an uncertain environment, of American Control Conference, 25-27 June 2001, Arlington, VA, USA, p 1375-1380 vo1.2.

(12)

54 Nilai-APLIKASI REGRESI LOGISTIK DALAM MENENTUKAN PELUANG

KEMENANGAN PEMAIN DALAM SUATU

PERTANDINGAN

(Studi Kasus:

Game Age Of Empire 2

)

Gumgum Darmawan1), Bertho Tantular2) , Zulhanif3) , Budhi Handoko4) 1,2,3,4)_{Fakultas Matematika Dan Ilmu Pengetahuan Alam,UNPAD}

1)_{email: [email protected]} 2) email: [email protected] 3) email: [email protected] 4)_{email : [email protected]} Abstrak

Regresi logistik merupakan analisis regresi yang melibatkan variabel bebas (X) dan variabel tidak bebas (Y), dimana variabel tidak bebasnya mempunyai nilai integer (bilangan bulat). Variabel X sebagai prediktor bernilai numerik atau integer bisa satu atau lebih variabel bebas. Dalam penelitian ini Analisis Regresi Logistik akan digunakan untuk menentukan nilai peluang menang (kode =1) dan kalah (kode =0) dalam suatu permainan Age of Empire 2. Age of Empire merupakan suatu game

yang gagas oleh Microsoft lebih dari sepuluh tahun yang lalu, tapi mempunyai penggemar yang cukup banyak. Game ini merupakan game strategi. Setiap pertandingan terbagi menjadi dua team (team 1dan team 2), setiap team bisa 2, 3 atau maksimal 4 player. Setiap pemain mendapatkan suku (civilization) secara random dimana terdapat 18 suku yaitu : Azteks, Briton, Byzantyne,Celt, Chinesse, Frank,Goth, Japanese, Koreans, Huns, Mayans, Mongol, Persian, Saracens, Spanish, Teuton, Turky, dan Viking. Dengan menggunakan Analisis Regresi Logistik, setiap pemain dapat ditentukan peluang menang atau kalah berdasarkan suku dan banyaknya team.

Kata Kunci: Age of Empire 2, Regresi Logistik

1. PENDAHULUAN

Regresi logistik (kadang disebut model logistik atau model logit), dalam statistika digunakan untuk prediksi probabilitas kejadian suatu peristiwa dengan mencocokkan data pada fungsi logit kurva logistik. Metode ini merupakan model linier umum yang digunakan untuk regresi binomial. Seperti analisis regresi pada umumnya, metode ini menggunakan beberapa variabel prediktor, baik numerik maupun kategori. Misalnya, probabilitas bahwa orang yang menderita serangan jantung pada waktu tertentu dapat diprediksi dari informasi usia, jenis kelamin, dan indeks massa tubuh. Regresi logistik juga digunakan secara luas pada bidang kedokteran dan ilmu sosial, maupun pemasaran seperti prediksi kecenderungan pelanggan untuk membeli suatu produk atau berhenti berlangganan.

Para peneliti telah menggunakan Analisis regresi Logistik untuk suatu pertandingan atau game. Dalam suatu pertandingan hasil

(Y) dapat berupa dua kategori yaitu kalah dan menang, atau bisa juga tiga (3) kategori yaitu kalah, menang dan remis seperti dalam pertandingan catur.

Dalam penelitian ini Analisis Regresi logistik di aplikasikan untuk memprediksi peluang menang dan kalah dalam suatu permainan Age Of Empire 2. Dalam suatu pertandingan fenomena kalah dan menang dapat dibuat kode 0= kalah dan 1 =menang. Sehingga variabel respon dari pertandingan ini adalah biner (dua kategori). Variabel -variabel yang memungkinkan dalam memprediksi peluang menang dan kalah adalah Score Skill (nilai kemahiran dari seorang pemain), number of partner

(banyaknya rekan satu tim), dan civilization

(karakter/peradaban pasukan yang dimainkan).

Hubungan antar dua variabel atau lebih yang salah satu variabelnya didefinisikan sebagai variabel respon atau dependent

(13)

55

variables dari variabel lainnya dinyatakan

dalam suatu model yang disebut model regresi (Myers, 1990). Secara umum model regresi didefinisikan berdasarkan bentuk dari variabel respon. Variabel respon dapat berbentuk kontinu atau kategori. Untuk variabel respon kontinu digunakan model regresi linier sedangkan untuk variabel respon kategori digunakan Generalized Linear Models (GLM).

Secara umum GLM memiliki tiga komponen yaitu komponen acak (respon), komponen sistematik (linear predictor) dan

link function. Hubungan antara komponen acak dengan komponen sistematik dalam GLM umumnya tidak linier sehingga link function dalam hal ini berperan sebagai penghubung kedua komponen tersebut. Bentuk link function bergantung pada bentuk variabel responnya. Untuk variabel respon biner (dua kategori) link function yang dapat digunakan adalah logit, probit dan linear probability (Agresti, 2007). Dalam banyak kasus fungsi penghubung logit yang paling sering digunakan sehingga modelnya disebut model regresi logistik. Dalam penelitian ini

link function yang akan digunakan adalah

Link function logit yang didefinisikan sebagai berikut logit





      ) ( 1 ) ( log ) ( i i i x x x







0 



1x1i ...



pxpi (1) dengan



(

x

_i

)

adalah peluang sukses (Y=1). Menggunakan sifat logaritma didapatkan Fungsi Regresi Logistik secara umum sebagai berikut

)

....

exp(

1 )

...

exp(

)

(

1 1 0 1 1 0 pi p i pi p i i x x x x









x

(2)

dengan i = 1,2,…,N, dan p = banyaknya variabel prediktor.

Untuk menaksir parameter pada model Persamaan 1 dapat menggunakan metode

maximum likelihood (ML). Fungsi log-likelihood untuk Persamaan 1 adalah

)}} ( 1 log{ ) 1 ( )} ( log{ { ) ( 1 i i i n i i y y L









x   



x  (3) Dengan memaksimumkan fungsi pada Persamaan 3 akan diperoleh taksiran bagi parameter βi. Akan tetapi kalau Persamaan 3 didiferensiasikan terhadap βi tidak akan diperoleh solusi eksplisit. Pendekatan yang dapat digunakan adalah melalui metode optimasi. Sedikitnya ada dua metode optimasi yang sering digunakan untuk menaksir parameter model regresi logistik adalah metode Newton-Rhapson dan Metode Fisher Scoring. Dalam penelitian ini metode Fisher Scoring yang akan digunakan.

Metode Fisher Scoring memanfaatkan

matriks score (U) yaitu turunan pertama log-likelihood dan matriks informasi Fisher (I) yang merupakan negatif ekspektasi dari matriks turunan kedua dari log-likelihood. Penaksir bagi βi diperoleh dengan menyelesaikan persamaan

(4)

Dengan memberikan harga awal tertentu

yaitu

dan

kemudian dilakukan

proses iterasi hingga diperoleh nilai

( ) 0 ˆ m 

dan

( ) 1 ˆ m

 yang konvergen pada satu nilai

tertentu. Nilai yang konvergen itulah yang

dijadikan

sebagai

taksiran

untuk

parameter

dan

_{(Dobson, 2002).}

Pengujian keberartian parameter untuk model regresi logistik menggunakan statistik rasio kemungkinan (G2)



0 1



1 0 2 2 log 2 L L l l G         (5)

dalam hal ini G2 mengikuti distribusi chi-kuadrat dengan derajat kebebasan sebesar p. Secara parsial parameter dalam model regresi loogistik diuji menggunakan statistik Wald

) 0 ( 0

ˆ



(0) 1

ˆ



0



1 ) 1 ( ) 1 ( ) 1 ( ) 1 (m ˆm  m ˆ m  m U I I



(14)

56

Prosiding Seminar Nasional Matematika dan Pendidikan Matematika, _{nilai Berfikir Matematis Dalam Perannya di Era Masyarakat Ekonomi ASEAN (MEA)}Internalisasi Nilai-2 ) ˆ ( ˆ          i i se W



₍₆₎

dalam hal ini W mengikuti distribusi chi-kuadrat dengan derajat bebas sebesar satu (Agresti, 2007).

Untuk kecocokan model statistik yang digunakan adalah statistik dari Hosmer-Lameshow (2000). Statistik Uji Hosmer dan Lemeshow, dihitung berdasarkan taksiran probabilitas,  Cˆ









2 2 1 1 g i i i HL i i i i O N N





_

   



(7) Pada uji ini sampel dimasukkan ke sejumlah g kelompok dengan tiap-tiap kelompok memuat n/10 sampel pengamatan, dengan n adalah jumlah sampel. Jumlah kelompok sekitar 10. Idealnya, kelompok pertama memuat n₁'



n

/

10

sampel yang memiliki taksiran probabilitas sukses terkecil yang diperoleh dari model taksiran. Kelompok kedua memuat n₁'



n

/

10

sampel yang memiliki taksiran probabilitas sukses terkecil kedua, dan seterusnya, (Liu, 2007).

Statistik uji ini mengikuti distribusi

chi-kuadrat

dengan derajat kebebasan

sebesar (

g

- 2) dengan g adalah

banyaknya kelompok.

Data yang digunakan dalam penelitian ini record hasil pertandingan game Age of Empire

2. Pertandingan dilakukan secara online melalui software Hamachi. Setiap pemain yang join ke dalam game room bersifat independent

baik civilization maupun team di setting secara acak. Variabel yang dilibatkan dalam penelitian ini adalah X1 = score skill pemain, X2 = banyaknya partner, X3 = suku bangsa (game

civilization) serta variabel dependent nya adalah Y = Kalah-Menang.

Ukuran sampel sebanyak 136, yang terdiri atas permainan 4vs4, 3vs3 dan 2vs2.

Score dari skill terbagi menjadi 3 yaitu cupu, menengah dan jendral. Variabel X2 terbadi menjadi 1 teman, 2 teman dan 3 teman. X3 adalah suku bangsa (civilization) di setting

secara acak untuk semua pemain. Setiap pemain mempunya suku bangsa yang berbeda dalam satu game kode untuk suku bangsa di buat kode sebagai berikut; Azteks(1), Briton(2), Byzantyne(3),Celt(4),Chinesse(5),Frank(6),Got h(7),Japanese(8),Koreans(9),Huns(10),Mayans

(11),Mongol(12),Persian(13),Saracens(14), Spanish(15),Teuton(16), Turky(17), Viking(18).

Selain itu player yang online untuk memainkan permainan bersifat saling independent.

Sebelum dilakukan analisis, data di uji terlebih dahulu kecocokan dengan menggunakan Analisis Regresi Logistik dengan Menggunakan statistik Hosmer-Lemeshow. Data cocok menggunakan Analisis Regresi logistik jika nilai statistik Hosmer-Lemeshownya di bawah 5%. Jika ada satu atau lebih variabel yang tidak signifikan akan di drop dari persamaan, samapai terbentuk model terbaik, yaitu semua variabel sudah signifikan. 4. HASIL DAN PEMBAHASAN

Berdasarkan hasil analisis dengan menggunakan bantuan Software Minitab di peroleh sebagai berikut.

Goodness-of-Fit Tests

Method Chi-Square DF P

Pearson 63,4220 64 0,497

Deviance 80,8632 64 0,076

Hosmer-Lemeshow 5,7851 8 0,671 Predictor Coef SE Coef Z P Constant -2,90 1,34 -2,16 0,031 x1 1,25 0,35 3,53 0,000 x2 0,18 0,31 0,61 0,540 x3 0,06 0,03 1,73 0,084

Gambar 1. Goodness-of-Fit Tests Untuk Tiga Variabel Prediktor

(15)

57

Dari hasil output di atas diperoleh bahwa

nilai koefisien Hosmer-Lemeshow untuk tiga variabel bebas menunjukan bahwa data tidak memenuhi kriteria regresi logistik karena nilai p-value nya di atas 5%. Begitu juga hasil pengujian koefisien koefisien nya, tampak X2 dan X3 tidak signifikan. Karena nilai p-value dari koefisien X2 paling besar , maka variabel X2 di keluarkan dari persamaan.

Goodness-of-Fit Tests Method Chi-Square DF P Pearson 33,7972 37 0,620 Deviance 40,0035 37 0,338 Hosmer-Lemeshow 14,6237 7 0,041 Odds

Predict Coef SECoef P Ratio Constant -2,17 0,62 0,00

x1 1,22 0,35 0,000 3,39 x3 0,06 0,03 0,093 1,06

Log-Likelihood = -86,04

Test that all slopes are zero: G = 16,46, DF = 2, P-Value = 0,000

Gambar 2. Goodness-of-Fit Tests Untuk 2 Variabel Prediktor.

Dari hasil output di atas diperoleh bahwa nilai koefisien Hosmer-Lemeshow untuk dua variabel bebas menunjukan bahwa data sudah memenuhi kriteria regresi logistik karena nilai p-value nya di dibawah 5%. Begitu juga hasil pengujian koefisien koefisien nya, tampak X1 dan X3 sudah signifikan. Sehingga, proses kemenangan dan kekalahan seorang pemain di tentukan oleh dua faktor yaitu skill dan

civilization.

5. KESIMPULAN

Berdasarkan hasil analisis pada bagian 4, dapat diambil kesimpulan bahwa faktor yang paling menentukan kemenangan suatu player adalah skil dan suku (civilization) waktu bertanding, tidak ditentukan berdasarkan banyaknya partner.

6. REFERENSI

Agresti, Alan. 2007. An Introduction to Categorical Data Analysis. New Jersey: John Wiley & Sons. Inc.

Collett, D. 2003.

Modelling Binary Data,

Second Edition

. London: Chapman and

Hall.

Dobson, Annette J. 2002.

Introduction to

Statistical Modelling 2nd ed.

London:

Chapman and Hall

Hosmer, D. W., & Lemeshow, S. 2000.

Applied Logistic Regression. USA: John Wiley and Sons Inc.

Liu, Y. 2007. On Goodness-of-Fit of Logistic Regression Model. Kansas: Kansas State University.

Myers, R.H. 1990. Classical and Modern Regression With Applications. Boston: PWS-KENT Publishing Company.

Microsoft 1997. ”Age of Empire 2 The

(16)

58

Nilai-PENGGUNAAN PENALIZEDQUASILIKELIHOOD DALAM PENAKSIRAN MODEL

REGRESI POISSON MULTILEVEL

Bertho Tantular1

1_{Departemen Statistika FMIPA Universitas Padjadjaran}

[email protected]

Abstrak

Kasus TB merupakan kejadian yang jarang terjadi sehingga diasumsikan bahwa kasus TB mengikuti distribusi Poisson dan untuk memodelkannya digunakan model regresi Poisson. Kasus TB di suatu wilayah selain ditentukan oleh faktor internal juga disebabkan oleh faktor eksternal sehingga terbentuk data hierarki. Untuk memodelkan data hierarki pada kasus TB dapat menggunakan model regresi poisson multilevel. Secara umum untuk menaksir parameter pada model regresi poisson multilevel tidak dapat menggunakan metode maksimum likelihood. Pendekatan yang dapat digunakan adalah menggunakan metode penaksiran Quasi Likelihood. Metode simulasi akan digunakan untuk membandingkan metode Marginal Quasi Likelihood dan Penalized Quasi Likelihood untuk mencari metode terbaik untuk menaksir model poisson multilevel.

Kata Kunci: Model Poisson multilevel, Marginal Quasi Likelihood, Penalized Quasi Likelihood

1. PENDAHULUAN

Kasus Tuberkolosis (TB) disuatu wilayah merupakan kasus yang relatif jarang terjadi. Penelitian mengenai faktor-faktor yang memengaruhi kejadian TB di suatu wilayah dapat dianalisis menggunakan model regresi, Penyakit TB adalah penyakit infeksi menular yang disebabkan oleh kuman Mycobacterium tubercolosis. Proses penyebaran penyakit TB dapat disebabkan oleh banyak faktor, tetapi secara umum dapat dibagi menjadi dua faktor yaitu faktor rumah tangga dan faktor lingkungan. (Nelson et al. dalam Kartasasmita, 2002).

Analisis regresi untuk data kejadian TB tidak dapat dilakukan karena respon yang digunakan tidak berdistribusi normal. Respon pada data kejadian TB mengikuti distribusi Poisson. Dengan demikian untuk memodelkan data kejadian TB harus menggunakan Generalized Linear Models (GLM). Dalam GLM pembentukan model dilakukan melalui suatu fungsi yang disebut dengan link function, Metode penaksiran yang digunakan dalam GLM adalah metode

maximum likelihood yang dalam prosesnya

harus menggunakan metode iteratif Newton-Rhapson atau Fisher Scoring.

Pada data kejadian TB variabel-variabel yang diukur berasal dari tingkatan (level) yang berbeda sehingga datanya merupakan data hierarki. Untuk memodelkan data hierarki harus melalui pendekatan model multilevel. Dalam kasus kejadian TB responnya merupakan data cacahan (counting) maka model yang digunakan adalah model regresi poisson. Oleh karena datanya merupakan data hierarki maka model yang digunakan adalah model regresi poisson multilevel.

Metode penaksiran untuk model multilevel tidak bisa menggunakan metode yang biasa karena ada dua jenis parameter yang terlibat yaitu parameter tetap (fixed

parameter) dan parameter acak (random parameter). Pendekatan yang dilakukan

adalah melalui model campuran (mixed

model). Dengan demikian rumusan masalah

dari penelitian ini adalah bagaimana metode penaksiran parameter model regresi poisson

(17)

59

multilevel. Dengan tujuan memperoleh

penaksir yang tepat untuk model regresi poisson multilevel.

Pemodelan regresi pada respon kategori dapat dianalisis menggunakan GLM. Model yang terbentuk tidak dapat mendefinisikan suatu fungsi linear dari ekspektasi komponen acak (response) terhadap komponen sistematisnya (linear predictor). Misalkan

1

,...,

n

Y Y adalah variabel acak independen dengan Y_i merupakan jumlah kejadian yang mengikuti distribusi Poisson dengan fungsi massa peluang:





; 0,1, 2,... ! i y i i e P Y y y y 



   

dengan nilai



_i



0

. Ekspektasi dari Y_i dapat dirumuskan sebagai berikut:

E(Yi) = µi = ζi

Dalam model poisson, kebergantungan



_i terhadap variabel penjelasnya (Xi) dirumuskan:





xTi

i e

sehingga model dalam GLMnya menjadi:





xTi i i e Y E( ) 

Oleh karena itu fungsi penghubung (link function) harus digunakan dalam pemodelannya. Untuk respon berbentuk data cacahan, seperti pada kasus TB, fungsi penghubung yang digunakan adalah log-link. (Agresti, 2007). Model regresi seperti ini disebut model regresi poisson.





T

i i)x

log( (1)

Untuk menaksir parameter pada model regresi poisson tidak bisa menggunakan metode Ordinary Least Square (OLS) tetapi harus menggunakan metode maximum likelihood (ML). Fungsi likelihood untuk regresi poisson adalah

 

   

1

exp

!

i T T i i y x x n i i e e L y  











dan fungsi log-likelihood sebagai berikut:

 

1 1 1

ln L

iT

ln

!

n n n x T i i i i i i x y e  y



  



 









dengan nilai turunan pertama:

 

1 1

ln

T i n n x T T i i i i i L y x x e 



 





 

_{ }

_





dan nilai turunan kedua:

 

2 2 1

ln

T i n x T i i i L x x e 











_

_{  }





Melalui cara ini tidak bisa diperoleh penaksir parameter parameter yang eksplisit sehingga metode penaksirannya harus melalui proses iterasi. Metode iterasi yang digunakan umumnya, dalam hal ini metode yang digunakan adalah Fisher Scoring yang memanfaatkan turunan pertama sebagai

vector score (U(β)) dan ekspektasi turunan kedua sebagai matriks informasi (Ι(β)). (Dobson, 2002). Proses iterasi pada Fisher Scoring Method akan memenuhi persamaan:

   

 

  1

 

  1 t t t t U



 _



_{ }







(2) Proses diiterasi hingga konvergen.

Kemudian untuk pengujian keberartian model digunakan Statistik ratio likelihood (G2

(18)

60 Nilai- 

 

0 2 2 ln L G L      _ _ _   (3) 0 ˆ ˆ 0 1 1 1 1

ˆ

2

Ti iT n n n n x x T T i i i i i i i i x



y e  x



y e     







_





_







dengan L

 

 adalah fungsi likelihood pada ₀

model konstan dan L

 

 adalah fungsi likelihood pada model penuh. Kriteria uji pada LRT yaitu tolak H0 jika G2 _2_,db dan menerima untuk sebaliknya, dimana

db

adalah selisih derajat bebas pada model penuh dan model konstan. (Agresti, 2002). Untuk uji parsial digunakan statistik Wald dengan rumusan sebagai berikut

 

2 ˆ ˆ j j j W SE            (4)

Statistik Wj akan mengikuti distribusi chi-kuadrta dengan derajat kebebasan sebesar 1 (satu).

Apabila data yang digunakan merupakan data hierarki maka dalam pemodelannya harus melibatkan adanya unsur hierarki, Dalam pemodelan untuk data hierarki setiap level yang terlibat harus diakomodasi dalam model (Goldstein, 1995). Sehingga model yang digunakan adalah model regresi poisson multilevel random intercept.

   T j ij) 0 x log( j T oj Z  u0  (5)

Dalam hal ini u0j diasumsikan berdistribusi normal dengan rata-rata nol dan varians σ2

u0.

Untuk menaksir parameter pada persamaan (5) tidak bisa menggunakan

metode Fisher Scoring karena dalam setiap turunannya masih mengandung unsur parameter. Sehingga dilakukan pendekatan melalui linierisasi perluasan deret taylor yang disebut sebagai Quasi Likelihood.

Metode yang dapat digunakan adalah

Marginal Quasi-Likelihood (MQL) yang diusulkan oleh Goldstein (1995). Menurut Goldstein (1995) penaksiran koefisien dengan menggunakan MQL akan menyebabkan

underestimate terutama untuk sampel kecil. Begitu pula menurut Rodriguez dan Goldman (2001) penaksiran yang diturunkan menggunakan MQL untuk respon biner akan menyebabkan bias pada saat kuantitas klasternya cukup besar. Selain menggunakan MQL parameter-parameter tersebut juga bisa ditaksir dengan menggunakan Penalized Quasi-Likelihood (PQL) yang diusulkan oleh Hedeker (2007).

Data yang digunakan dalam penelitian ini adalah data sekunder Indonesian Family Life Survey Gelombang 4 (IFLS-4) pada tahun 2007 yang dikeluarkan oleh Rand Labor and Population. Data IFLS merupakan data yang diambil secara multistage sampling sehingga merupakan data hierarki. Secara umum ada dua level yang terlibat yaitu level individu dan data kelompok. Dibatasi untuk Provinsi Jawa Barat.

Pemodelan yang digunakan untuk data tersebut adalah model regresi poisson multilevel. Oleh karena tidak adanya informasi mengenai interaksi antara variabel pada level 1 dengan variabel pada level 2 maka model yang digunakan adalah random intercept (Persamaan 5). Menggunaakn substitusi Persamaan (5) dapat diubah menjadi

(19)

61

j

T T

ij) Z x u0

log(      (6) Penaksiran parameter untuk model pada Persamaan (6) menggunakan PQL seperti yang diusulkan oleh Hedeker (2007). Metode PQL dilakukan dengan mengubah bagian yang non-linier menjadi linier agar menghasilkan model yang linier. Bagian yang tidak linier pada Persamaan (6) adalah µij = ( ). Cara melinierisasi ( ) adalah dengan menggunakan perluasan deret Taylor. Dimisalkan , sehingga perluasan deret Taylor sampai order pertama untuk fungsi dinyatakan sebagai berikut:

Dengan mensubtistusikan dengan ,dan menyatakan suatu nilai, maka persamaan di atas menjad

( ) =

+

Penaksiran parameter untuk model regresi poisson dua level random intercept pada kasus ini menggunakan metode PQL order pertama, sehingga perluasan deret Taylor dilakukan pada nilai dan . Metode PQL dilakukan secara iterasi hingga mencapai konvergen. Linierisasi bagian yang non linier dari model pada iterasi ke-t mengikuti ketentuan metode PQL order pertama dapat dituliskan sebagai berikut:

( ) + ‟₍_H

t) + ( - ) ‟(

Pada saat tercapai konvergen bentuk persamaan sehingga diperoleh :

( ) (7)

Dengan adalah variabel respon untuk unit ke-i pada level satu dalam unit ke j pada level dua dan adalah galatnya.

Langkah selanjutnya adalah membagi ruas kiri dan ruas kanan dengan , sehingga akan terbentuk persamaan sebagai berikut

(8) Dengan adalah nilai respon yang telah ditransformasi untuk unit ke-i pada level satu dalam unit ke-j pada level dua pada saat iterasi ke-t. dan

:

Persamaan (8) merupakan persamaan yang sudah dalam bentuk linier. Parameter-parameter dalam persamaan (8) ditaksir dengan menggunakan metode Iterative Generalized Least Square (IGLS).

Metode IGLS digunakan untuk menaksir parameter tetap ( dan parameter acak ( ). Penaksir parameter tetap adalah sebagai berikut :

̂ ₍₉₎ dengan nilai V adalah matriks varians kovarians. Sedangkan penaksir parameter acak yaitu dan adalah

̂ ( ₎ ₍₁₀₎ Dengan Z adalah matriks desain parameter acak dan sedangkan dan

.

Penaksiran parameter tetap dan acak dilakukan secara iteratif hingga menghasilkan nilai parameter yang konvergen.

] ) ˆ )( ˆ [( * T Y Y Y Y vec Y   

(20)

62

Prosiding Seminar Nasional Matematika dan Pendidikan Matematika, _{nilai Berfikir Matematis Dalam Perannya di Era Masyarakat Ekonomi ASEAN (MEA)}Internalisasi Nilai-4. HASIL DAN PEMBAHASAN

Dalam bagian ini dilakukan studi simulasi untuk melihat perilaku model regresi poisson multilevel. Simulasi dilakukan dengan menggunakan parameter-parameter yang diperoleh dari penelitian sebelumnya sehingga diharapkan akan mendekati kondisi data sebenarnya. Berdasarkan penelitian sebelumnya, variabel-variabel yang digunakan dalam penelitian ini adalah variabel respon (Y) adalah banyak kasus TB dan variabel penjelas adalah status gizi (X1), Imunisasi BCG (X2), pernah kontak dengan penderita TB (X3) dan status ekonomi (X4). Semua variabel penjelas yang terlibat merupakan variabel dua kategori dengan proporsi masing-masing sebesar 0.24, 0.04, 0.47 dan 0.29. (Tantular, 2014).

Secara umum prosedur simulasi dilakukan untuk model multilevel intersep acak tanpa prediktor pada level 2. Variabel X

dibangkitkan dari berdistribusi binomial dengan ukuran 1 dan parameter proporsi masing-masing. Ditetapkan efek intersep (uj) terdiri dari 11 kelompok dengan ukuran (8, 16, 4, 5, 7, 8, 4, 4, 4, 4, 17). Efek intersep acak dibangkitkan dari distribusi normal dengan rata-rata berbeda dengan simpangan baku yang sama yaitu 0.25. Tentukan parameter koefisien intersep adalah 0 dan koefisien slope adalah 0.25. Hitung parameter Poisson sebagai

η = exp(0.25 X1 + 0.25 X2 + 0.25X3 + 0.25X4 + u) Nilai respon Y dibangkitkan dari distribusi Poisson dengan parameter η.

Dalam simulasi ini dilakukan sebanyak 1000 kali. Setiap hasil simulasi dihitung nilai taksiran parameter tetap dan galat bakunya (standard error) dari Model Regresi Poisson Multilevel kemudian dibandingkan dengan Model Regresi Poisson. Untuk semua prosedur simulasi ini digunakan paket lme4

dan glm dalam software R 3.1.

Dari simulasi yang telah dilakukan hasil-hasil yang diperoleh disajikan dalam bentuk tabel diperlihatkan perilaku dari masing-masing penaksir berikut standard error-nya. Tabel berikut adalah hasil simulasi yang telah dilakukan

Tabel 1

Hasil Simulasi untuk Model Regresi Poisson dan Model Poisson Multilevel

Paramete r Tetap Regresi Poisson Multilevel Regresi Poisson Penaksir Std. Error Penaksir Std. Err Intersep 0 0.0077 0.3695 0.8651 0.0643 β1 0.2368 0.0836 0.2204 0.0815 β2 0.2631 0.1919 0.2212 0.1857 β3 0.2682 0.0751 0.2479 0.0733 β4 0.2637 0.0793 0.2579 0.0770 Parameter Acak σu 2 1.4151 0.0897 - -

Dari Tabel 1 terlihat bahwa untuk parameter tetap penaksir intersep relatif bias untuk penaksir Regresi Poisson sedangkan penaksir Regresi Poisson Multilevel tak bias. Akan tetapi meskipun bias model Regresi Poisson lebih efisien dibanding model Regresi Poisson Multilevel. Hal ini terlihat dari standard error untuk model Regresi Poisson Multilevel lebih besar dari model Regresi Poisson. Sedangkan untuk parameter slope kedua model memperlihatkan taksiran yang tak bias dengan standard error yang relatif kecil.

(21)

63

Sementara itu untuk parameter acak

hanya dihasilkan oleh model Regresi Poisson Multilevel. Hal ini menunjukkan bahwa model Regresi Poisson Multilevel dapat memperlihatkan adanya keragaman antar kelompok yang tidak dapat diperlihatkan oleh model Regresi Poisson.

Tabel 2

Penaksir Model Regresi Poisson Multilevel untuk Berbagai Ukuran Sampel

Parameter Tetap n = 80 n = 130 n = 250 Intersep 0 -0.1080 -0.0026 0.0076 β1 0.2581 0.1893 0.2368 β2 0.2270 0.2059 0.2630 β3 0.2679 0.2459 0.2682 β4 0.2469 0.2388 0.2637 Parameter Acak σu2 1.7031 1.4191 1.4151

Dari Tabel 2 terlihat bahwa untuk ukuran sampel 80 parameter tetap penaksir intersep relatif bias. Hal yang sama juga ditunjukkan oleh penaksir parameter slope. Sementara untuk parameter acak hanya ukuran sampel 80 yang memberikan hasil yang berbeda. Secara umum dapat dikatakan bahwa dengan bertambahnya ukuran sampel penaksir yang dihasilkan akan semakin baik.

Tabel 3

Standard Error Model Regresi Multilevel untuk Berbagai Ukuran Sampel

Parameter Tetap n = 80 n = 130 n = 250 Intersep 0 0.4200 0.3811 0.3695 β1 0.1563 0.1246 0.0836 β2 0.3346 0.3551 0.1919 β3 0.1421 0.1067 0.0750 β4 0.1478 0.1127 0.0793 Parameter Acak σu2 0.2452 0.1781 0.0897

Berdasarkan Tabel 3 terlihat bahwa

standard error pada ukuran sampel 80 relatif lebih besar dibandingkan ukuran sampel yang lebih besar. Sementara untuk penaksir slope juga menunjukkan standard error yang semakin kecil seiiring bertambahnya ukuran sampel. Hal yang sama juga terjadi untuk parameter acak juga menunjukkan standard error yang semakin kecil seiiring bertambahnya ukuran sampel. Secara umum dapat dikatakan bahwa dengan bertambahnya ukuran sampel standard error yang dihasilkan akan semakin kecil.

5. KESIMPULAN

Berdasarkan hasil simulasi, untuk data kasus TB hasilnya menunjukkan bahwa model Poisson Multilevel lebih tepat digunakan dibandingkan model regresi poisson. Secara umum dari hasil tersebut dapat dikatakan bahwa model regresi Poisson

(22)

64

Prosiding Seminar Nasional Matematika dan Pendidikan Matematika, _{nilai Berfikir Matematis Dalam Perannya di Era Masyarakat Ekonomi ASEAN (MEA)}Internalisasi Nilai-Multilevel akan memberikan hasil yang baik

untuk data dengan struktur hierarki seperti data kejadian TB. Dari hasil tersebut juga dapat disimpulkan bahwa semakin bertambahnya ukuran sampel penaksir akan memberikan hasil yang tak bias dan semakin efisien.

6. REFERENSI

Agresti, Alan. 2007. An Introduction to Categorical Data Analysis, 2ndEdition. John Wiley & Sons, Inc.

Agresti, Alan. 2002.Categorical Data Analysis. 2nd edition. New York: John Wiley & Sons, Inc.

Bliese, P. 2006. Multilevel Models in R (2.2). R Development Core Team.

Dobson, Annette J. 2002. An Introduction to Generalized Linear Models 2ndedition. London. Chapman & Hall.

Goldstein, Harvey. 1995. Multilevel Statistical Model2nd ed., London, Arnold. Hedeker, Donald. 2007. Multilevel Models for Ordinal and Nominal Variables.

Handbook of Multilevel Analysi: edited by Leeuw and Meijer. New York. Springer. Hesketh, S.,Rabe. 2003. Multilevel modeling of ordered and unordered categorical Responses. London. Institute of Child Health. Hox, J.J. 2002. Multilevel Analysis: Techniques and Applications. New Jersey. Lawrence Erlbaum Associates Publishers. Jones, B.S. & Steenbergen, M.R. 1997.

Modelling Multilevel Data Structures. Paper prepared in 14th annual meeting of the political methodology society. Columbus. OH.

Kramer, M. 2005. R2 Statistics for Mixed Models. Published Paper in Biometrical Consulting Service, ARS (Beltsville, MD), USDA.

McCullagh and Nelder. 1989. Generalized Linear Models. 2ndedition. , London. Chapman & Hall.

Ringdal, K. 1992. Methods for Multilevel Analysis. Acta Sosiologica 35:235-243. Rodriguez, G., Goldman, N. 2001. Improved estimation procedures for multilevel models with binary response: a case-study, Journal Royal Statist.Soc A, 164, Part 2 pp 339-355 Snijder, Tom A. B., Bosker, Roel J. 1999.Multilevel Analysis: An introduction to basic and advance multilevel modelling. London. SAGE Publications.

Tantular, Bertho. 2014. Studi Simulasi Model Poisson Multilevel dalam Menentukan Faktor Resiko Penyebab TB. Makalah dipresentasikan pada Seminar Nasional Statistika IV Departemen Statistika FMIPA UNPAD

Tantular, Bertho. 2015. Penentuan Ukuran Sampel pada Model Poisson Multilevel. Makalah dipresentasikan pada Seminar Matematika dan Pendidikan Matematika UNY 2015.

(23)

65 KLASIFIKASI SENTIMEN TWITTER MENGGUNAKAN METODE

SUPPORT

VECTOR MACHINE

DAN

NAIVE BAYES

DENGAN PRA-PROSES FILTER

STRINGTOWORDVECTOR

Aris Tjahyanto1)

1_{Jurusan Sistem Informasi FTIF, Institut Teknologi Sepuluh Nopember} email: [email protected]

Abstrak

Pada penelitian ini digunakan data pesan yang diperoleh dari jejaring sosial twitter. Ekstraksi fitur dari pesan twitter dilakukan dengan menggunakan metode filter StringtoWordVector. Metode esktraksi fitur tersebut mengubah data string ke dalam sekumpulan atribut yang mewakili informasi kemunculan kata dari teks yang terdapat dalam sebuah string. Tokenizer yang diterapkan adalah proses sederhana dengan memperhatikan tanda-tanda baca seperti tanda baris baru, tanda tab, titik, koma, titik-koma. Sedangkan metode pengklasifikasi yang digunakan adalah Support

Vector Machine (SVM) dan Naive Bayes yang biasa digunakan dalam klasifikasi teks. Dalam penelitian ini, hasil diperoleh hasil akurasi sebesar 94.67% untuk SVM , sebesar 93.35% untuk

Naive Bayes. Dari percobaan diperoleh ROC Area sebesar 0.916 untuk SVM dan sebesar 0.945 untuk Naive Bayes..

Kata Kunci: Klasifikasi sentimen, SVM, Naive Bayes, Twitter.

1. PENDAHULUAN

Internet telah menjadi bagian sehari-hari sebagian besar masyarakat Indonesia, antara lain dibuktikan dengan bertenggernya negara ini pada peringkat ke-enam sebagai pengguna Internet terbesar di dunia. Tingginya pengguna internet berbanding lurus dengan jumlah pengguna jejaring sosial yang salah satunya adalah Twitter. Indonesia juga tercatat menempati peringkat ketiga di dunia dalam hal penggunaan jejaring media twitter [1] .

Twitter memungkinkan penggunanya untuk mengirim pesan yang diunggahnya kepada para pengikutnya. Dan panjang pesan yang diunggah dalam twitter dibatasi sebanyak 140 karakter saja. Pada sisi lain, pesan yang diunggah dalam twitter, tidak terbatas pada satu topik tertentu saja. Dengan twitter seseorang dapat menyampaikan pendapat atau uneg-unegnya tentang suatu produk [2], atau tentang layanan industri pariwisata [3].

Banyaknya informasi yang disampaikan melalui twitter, telah membuat sejumlah pihak untuk melakukan berbagai macam penelitian penggalian informasi. Salah satunya adalah penggalian informasi yang berkaitan dengan sentimen pengguna dengan cara klasifikasi sentimen.

Salah satu tantangan klasifikasi sentimen dengan memanfaatkan twitter adalah keterbatasan panjang informasi yang disampaikan. Sehingga akan memaksa seorang pengguna untuk berimprovisasi sedemikian rupa agar tetap dapat menyampaikan pendapatnya walau terbatas sebanyak 140 karakter. Dengan demikian akan cukup menyulitkan dalam melakukan penggalian sentimen dari konten twitter [4].

Klasifikasi sentimen untuk twitter berbahasa Indonesia masih menjadi topik penelitian yang jumlahnya terbatas. Pada penelitian mengenai klasifikasi sentimen berbahasa Indonesia, para peneliti menggunakan berbagai pendekatan dalam praproses klasifikasi. Praproses klasifikasi

(24)

66

Prosiding Seminar Nasional Matematika dan Pendidikan Matematika, _{nilai Berfikir Matematis Dalam Perannya di Era Masyarakat Ekonomi ASEAN (MEA)}Internalisasi Nilai-merupakan tahap penting dalam klasifikasi

yang terbagi menjadi dua yakni ekstraksi fitur dan seleksi fitur [5].

Pada penelitian ini akan terfokus pada pemakaian sejumlah metode untuk klasifikasi, yaitu menggunakan SVM dan Naive Bayes. Ekstraksi fitur menggunakan teknik sederhana yaitu teknik StringToWordVector yang mengubah data string ke dalam sekumpulan atribut yang mewakili informasi kemunculan kata dari teks yang terdapat dalam sebuah string.

Setelah melalui tahap ekstraksi fitur, selanjutnya akan dilakukan klasifikasi dengan menggunakan SVM dan Naive Bayes. Selanjutnya akan dibandingkan tingkat akurasi, recall, precision, dan kurva ROC yang dihasilkan oleh kedua pengklasifikasi.

Bagian ini berisi teori dan kajian literatur yang dijadikan sebagai penunjang konsep penelitian. Teori yang dijelaskan antara lain mengenai metode klasifikasi teks yang meliputi SVM dan Naive Bayes. Juga dijelaskan teknik pengukuran performa pengklasifikasi dengan menggunakan F-measure dan kurve ROC.

2.1. Pengklasifikasi Teks

Klasifikasi merupakan suatu pekerjaan untuk menilai objek data dan memasukkannya ke dalam suatu kelas tertentu. Terdapat dua tahap pada proses klasifikasi, yang pertama adalah pembuatan model berdasarkan data training; dan yang kedua adalah pemanfaatan model tersebut untuk melakukan prediksi/pengenalan/ klasifikasi terhadap sebuah objek data lain agar diketahui kelompok kelas mana objek data tersebut.

Klasifikasi dengan menggunakan pendekatan pembelajaran mesin dengan

metode supervised learning telah banyak digunakan dalam penelitian klasifikasi sentimen pada jejaring sosial. Beberapa jenis pengklasifikasi yang digunakan untuk klasifikasi dengan sumber data jejaring sosial antara lain K-Nearest Neighbour (KNN), Naive Bayes Classifier (NBC), Maximum Entropy (ME), dan Support Vector Machine (SVM).

2.1.1 Support Vector Machine (SVM) Support vector machine (SVM) merupakan sistem pembelajaran yang menggunakan ruang hipotesis berupa fungsi linear dalam ruang fitur dimensi tinggi. Tujuan dari SVM sendiri adalah untuk membuat sebuah batas yang disebut hyperplane terbaik yang mampu memisahkan secara homogen. Hyperlane terbaik yang memisahkan antara dua kelas dapat ditemukan dengan mengukur margin dan mencapai nilai maksimalnya. Adapun data yang berada pada bidang pembatas dikenal sebagai support vector.

Pada SVM terdapat beberapa jenis kernel yang biasa digunakan, yaitu: (a) linear, (b) polynomial, (c) RBF, dan (d) Sigmoid. Kernel yang sering digunakan untuk klasifikasi teks adalah kernel linear. Kernel linier cocok digunakan untuk klasifikasi teks karena beberapa alasan, yaitu : (a) mayoritas teks terpisah secara linier, (b) kernel linear cocok apabila terdapat banyak fitur, (c) proses kernel linier yang cepat, (d) parameter yang dioptimasi jumlahnya lebih sedikit [6].

2.1.2 Naive Bayes

Pengklasifikasi Naive Bayes adalah sebuah teknik klasifikasi yang dikembangkan berdasarkan teorema Bayes. Ciri utama dari pengklasifikasi Naive Bayes adalah adanya asumsi yang sangat kuat atau naif akan independensi dari masing-masing kondisi