PENDUGAAN PARAMETER GENERALIZED LAMBDA DISTRIBUTION (GLD) DENGAN METODE KEMUNGKINAN MAKSIMUM
MENGGUNAKAN SOFTWARE R
Oleh
Rini Wong Dani
Skripsi
Sebagai Salah Satu Syarat untuk Memperoleh Gelar SARJANA SAINS
Pada
Jurusan Matematika
Fakultas Matematika dan Ilmu Pengetahuan Alam
JURUSAN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS LAMPUNG
ABSTRACT
PARAMETER ESTIMATION OF GENERALIZED LAMBDA DISTRIBUTION (GLD) USING THE MAXIMUM LIKELIHOOD
METHOD IN SOFTWARE R
By
RINI WONG DANI
Parameter estimation is one of inferential statistics. Parameter estimation to be used to estimate of unknown population. In this study discuss about parameters estimation of Generalized Lambda Distribution (GLD). Generalized Lambda Distribution is a distribution with four parameters which is developed from a single parameter of Lambda Tukey distribution. To estimate parameters of GLD, we use Maximum Likelihood Method shows that the estimation of GLD cannot be solved analytically. To solve this problem this study itteratively utilizes Newton Rapshon Method using software R. The estimate values of parameters value of GLD’s obtained from simulation. Their biased is calculated as well of data. From the calculation proves that the large size of data then biased values tend to be smaller.
DAFTAR ISI 2.1Generalized Lambda Distribution (GLD) ... 4
2.2Fungsi Kepekatan Peluang GLD ... 5
2.3Pendugaan Parameter ... 8
2.4Metode Pendugaan Kemungkinan Maksimum (Maximum Likelihood Estimation) ... 10
IV.HASIL DAN PEMBAHASAN 4.1Pendugaan Parameter GLD dengan Menggunakan Metode Kemungkinan Maksimum ... 16
4.1.1 Pendugaan Parameter ... 17
4.1.2 Pendugaan Parameter ... 17
4.1.3 Pendugaan Parameter ... 18
4.1.4 Pendugaan Parameter ... 19
4.2Metode Newton Raphson untuk Pendugaan Parameter dan ... 21
4.2.1 Turunan Kedua Parameter dari Logaritma Natural Fungsi Kemungkinan GLD Terhadap Parameter dan ... 23
4.2.3 Turunan Kedua Parameter dari Logaritma Natural Fungsi Kemungkinan GLD Terhadap Parameter
dan ... 23 4.2.4 Turunan Kedua Parameter dari Logaritma Natural Fungsi
Kemungkinan GLD Terhadap Parameter
dan ... 25 4.3Menghitung Bias ... 27 V. KESIMPULAN
I. PENDAHULUAN
1.1Latar Belakang
Statistika merupakan salah satu cabang pengetahuan yang banyak dipelajari oleh ilmuan dari hampir semua bidang ilmu pengetahuan seperti ilmu kedokteran, teknik, manajemen, sosial, dan semua bidang yang mencakup pengetahuan manusia. Statistika adalah metode atau ilmu yang mempelajari suatu proses dalam merencanakan, mengumpulkan, menganalisis, dan mempresentasikan data. Statistika dikelompokan menjadi dua macam, yaitu statistika deskriptif dan statistika inferensia. Statistika deskriptif adalah metode-metode yang berkaitan dengan pengumpulan dan penyajian suatu gugus data sehingga memberikan informasi yang berguna, sedangkan statistika inferensia mencakup semua metode yang berhubungan dengan analisis sebagian data untuk kemudian sampai pada peramalan atau penarikan kesimpulan mengenai keseluruhan gugus data populasinya.
2 (ukuran populasinya atau parameternya). Dalam melakukan pendugaan parameter dari suatu distribusi dapat dilakukan dengan beberapa metode, salah satu diantaranya adalah Metode Kemungkinan Maksimum (Maximum Likelihood Method). Penggunaan Metode Kemungkinan Maksimum merupakan metode
yang paling efisien dan sering memberikan pendugaan yang baik, karena prinsip dari metode kemungkinan maksimum adalah memilih penduga yang nilai-nilai dari parameternya memaksimumkan fungsi kemungkinan atau memaksimumkan informasi. Dalam menduga parameter dari suatu distribusi ada penduga parameter yang tidak dapat diselesaikan secara analitik, sehingga perlu diselesaikan dengan cara numerik. Salah satu cara yang digunakan adalah dengan teknik iteratif yaitu Metode Newton Raphson. Metode Newton Raphson sering digunakan karena metode ini lebih sederhana dan mempunyai konvergensi yang cepat.
Generalized Lambda Distribution (GLD) awalnya diusulkan oleh Ramberg dan
3 1.2Batasan Masalah
Pada penelitian ini permasalahan dibatasi untuk membandingkan bias pada pendugaan parameter GLD dari masing-masing ukuran data dengan software R.
1.3Tujuan Penelitian
Tujuan dari penelitian ini adalah:
1. Menduga parameter GLD dengan menggunakan Metode Kemungkinan Maksimum
2. Membandingkan bias untuk data berukuran 20, 30, 50, dan 100 dengan masing-masing data dilakukan pengulangan sebanyak 100
1.4Manfaat Penelitian
II. LANDASAN TEORI
Dalam proses penelitian pendugaan parameter dari suatu distribusi diperlukan beberapa konsep dan teori yang mendukung dari ilmu statistika. Berikut akan dijelaskan beberapa konsep dan teori yang berkaitan dengan pendugaan parameter GLD dengan Metode Kemungkinan Maksimum menggunakan software R.
2.1 Generalized Lambda Distribution (GLD)
Keluarga distribusi Lambda Tukey didefinisikan oleh fungsi persentil yang berasal dari distribusi lambda satu parameter yang diusulkan oleh John Tukey (1960).
{
5 Generalized Lambda Distribution (GLD) dengan parameter dan , GLD ( , dengan fungsi persentilnya (invers dari fungsi distribusinya F(x)),
dengan
Parameter dan menunjukkan parameter lokasi dan parameter skala (scale parameter), serta dan menunjukkan kemiringan (skewness) dan keruncingan (kurtosis) dari GLD ( . (Karian dan Dudewicz, 2000).
Dalam menduga parameter GLD diperlukan fungsi kepekatan peluang GLD. Fungsi kepekatan peluang GLD akan dijelaskan pada Subbab 2.2.
2.2. Fungsi Kepekatan Peluang GLD
Untuk GLD ( , fungsi kepekatan peluangnya adalah
Bukti :
Jika , maka kita memiliki . Diturunkan terhadap , maka diperoleh
Atau
6 Karena bentuk dari pada fungsi peluang dari GLD sudah diketahui, maka :
Sehingga,
( )
Jadi terbukti bahwa :
(Karian dan Dudewicz, 2000).
Teorema 2.1 Peubah Acak GLD
Jika peubah acak adalah GLD , maka peubah acak merupakan GLD ,
Bukti :
Jika adalah GLD ( , maka dari Persamaan (2.1) dapat diperoleh
7 Sehingga,
Oleh karena itu yang mengakibatkan
Menghasilkan
Ini membuktikan bahwa peubah acak merupakan GLD ( . (Karian dan Dudewicz, 2000).
Teorema 2.2 Peubah Acak GLD
Jika adalah suatu peubah acak dari GLD ( , maka merupakan GLD (
Bukti :
Jika adalah GLD ( , maka
dan
8
Selain itu dimana
Ini membuktikan bahwa merupakan GLD ( . (Karian dan Dudewicz, 2000).
Statistika inferensia terdiri dari pengujian hipotesis dan pendugaan. Pada penelitian ini akan dilakukan pendugaan parameter. Pendugaan parameter dilakukan untuk menduga ukuran dari suatu populasi yang belum diketahui. Definisi pendugaan parameter akan dijelaskan pada Subbab 2.3.
2.3 Pendugaan Parameter
Dalam statistika inferensia dibutuhkan pemahaman mengenai kaidah-kaidah pengambilan kesimpulan tentang suatu parameter populasi berdasarkan karakteristik sampel. Hal ini membangun apa yang disebut dengan pendugaan titik dari suatu fungsi kepekatan peluang parameter yang tidak diketahui.
Definisi 2.1
Misal suatu peubah acak memiliki fungsi kepekatan peluang yang bergantung pada suatu parameter tak diketahui dengan sebarang nilai dalam suatu himpunan ruang parameter , maka dinotasikan dengan
9 Definisi 2.2
Misal berdistribusi bebas stokastik identik dengan fungsi kepekatan peluang . Suatu statistik yang digunakan untuk menduga disebut sebagai penduga bagi .
Berkaitan dengan pendugaan parameter akan dijelaskan beberapa sifat penduga yang baik sebagai berikut:
1. Tak Bias
Penduga dikatakan sebagai penduga tak bias bagi jika ( )
2. Varians Minimum
Misal menyatakan suatu penduga tak bias maka disebut penduga varians minimum jika
[ ]
3. Konsisten
Penduga dikatakan sebagai penduga konsisten bagi jika → untuk → yaitu bila
| |
(Hoog & Craig, 1995)
10 2.4 Metode Pendugaan Kemungkinan Maksimum (Maximum Likelihood
Estimation Method)
Definisi 2.3
Misalkan adalah sampel acak berukuran n yang saling bebas stokastik identik dari suatu distribusi yang mempunyai fungsi kepekatan peluang . Fungsi kepekatan peluang bersama dari adalah yang merupakan fungsi kemungkinan (Likelihood
Function). Untuk tetap, fungsi kemungkinan merupakan fungsi dari
dan dilambangkan dengan dan dinotasikan sebagai berikut:
̃
∏
Definisi 2.4
merupakan fungsi kepekatan peluang dari . Untuk hasil pengamatan , nilai ̂ berada dalam ( ̂ ) dimana maksimum yang disebut sebagai Maximum Likelihood
Estimation (MLE) dari . Jadi, ̂ merupakan penduga bagi . Jika ( ̂)
Maka untuk memaksimumkan dapat diperoleh dengan mencari turunan dari terhadap parameternya. Biasanya mencari turunan dari terhadap
11 ∑
Karena fungsi ln merupakan fungsi monoton naik, maka memaksimumkan setara dengan memaksimumkan . Untuk memaksimumkan
adalah dengan mencari turunan dari terhadap parameternya, dimana hasil turunannya disamadengankan nol.
(Hoog & Craig, 1995)
Dalam menduga parameter dari suatu distribusi ada penduga parameter yang tidak dapat diselesaikan secara analitik, sehingga perlu diselesaikan dengan cara numerik. Salah satu cara yang digunakan adalah dengan teknik iteratif yaitu Metode Newton Raphson. Metode Newton Raphson sering digunakan karena metode ini lebih sederhana dan mempunyai konvergensi yang cepat. Subbab 2.5 akan menjelaskan tentang definisi Metode Newton Raphson.
2.5 Metode Newton Raphson
Apabila dalam proses pendugaan parameter di dapat persamaan akhir yang non linear maka tidak mudah memperoleh pendugaan parameter tersebut, sehingga diperlukan suatu metode numerik untuk memecahkan persamaan non linear tersebut. Salah satu metode yang digunakan untuk memecahkan sistem persamaan non linear adalah Metode Newton Raphson. Metode Newton Raphson adalah metode untuk menyelesaikan persamaan non linear secara iteratif .
12 Metode ini dapat diperluas untuk menyelesaikan sistem persamaan dengan lebih dari satu parameter. Misal maka iterasinya sebagai berikut:
Vektor gradien atau vektor turunan pertama terhadap parameternya dan dilambangkan dengan yaitu :
Matriks Hessian atau matriks turunan kedua terhadap parameternya, dilambangkan dengan yaitu :
(Seber and Wild, 2003).
13 2.6 Program R
R adalah perangkat lunak bebas untuk komputasi statistik dan grafik. Merupakan proyek GNU General Public License Free Software Foundation yang mirip dengan bahasa S yang dikembangkan di Bell Laboratories oleh Jhon Chambers dan rekan. R menyediakan berbagai statistik seperti linear dan nonlinear modeling, pengujian analisis klasik, analisis time-series, klasifikasi dan lainnya.
Sebuah rangkaian perangkat lunak yang digunakan untuk manipulasi data, perhitungan, dan tampilan grafik yang mencakup antara lain sebagai berikut :
a. Penanganan data yang efektif dan penyimpanan data.
b. Rangkaian operator untuk perhitungan array dalam matriks tertentu.
c. Fasilitas grafik untuk analisis data dan menampilkan baik pada layar maupun hardcopy.
III. METODOLOGI PENELITIAN
3.1 Waktu dan Tempat Penelitian
Penelitian ini dilakukan pada semester genap tahun akademik 2012/2013 di Jurusan Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Lampung.
Metode penelitian bertujuan untuk menjelaskan langkah-langkah yang dilakukan saat penelitian. Berikut ini akan dijelaskan metode penelitian dan langkah-langkah yang dilakukan dalam menduga parameter GLD.
3.2 Metode Penelitian
Penelitian ini dilakukan untuk menduga parameter GLD yaitu dan dengan Metode Kemungkinan Maksimum menggunakan software R.
Adapun langkah-langkah yang dilakukan dalam penelitian ini adalah sebagai berikut:
1. Menduga parameter GLD dengan menggunakan Metode Kemungkinan Maksimum dengan langkah-langkah sebagai berikut:
15 b. Memaksimumkan fungsi yang diperoleh untuk mendapatkan dugaan
parameter.
c. Dugaan parameter dari Metode Kemungkinan Maksimum diperoleh dengan mencari turunan pertama dari logaritma natural fungsi kepekatan peluang terhadap parameter-parameter yang akan diduga dan menyamakannya dengan nol.
2. Menyelesaikan dugaan parameter yang tidak dapat diselesaikan secara analitik menggunakan Metode iterasi Newton Raphson.
3. Menggunakan software R untuk mendapatkan nilai dugaan parameter GLD.
V. KESIMPULAN
Dari hasil penelitian ini dapat diperoleh beberapa kesimpulan sebagai berikut: 1. Pendugaan parameter GLD dengan Metode Kemungkinan Maksimum
menghasilkan pendugaan yang tidak dapat diselesaikan secara analitik, sehingga perlu diselesaikan dengan cara numerik menggunakan Metode Newton Raphson
2. Bias untuk data berukuran 20 yang diulang sebanyak 100 adalah ̂ , ̂ , ̂ , dan ̂
3. Bias untuk data berukuran 30 yang diulang sebanyak 100 adalah ̂ , ̂ , ̂ , dan ̂
4. Bias untuk data berukuran 50 yang diulang sebanyak 100 adalah ̂ , ̂ , ̂ , dan ̂
5. Bias untuk data berukuran 100 yang diulang sebanyak 100 adalah ̂ , ̂ , ̂ , dan ̂
DAFTAR PUSTAKA
Aljazar, A.L. 2005. Generalized Lambda Distribution and Estimation Parameters. Tesis, The Islamic University of Gaza, Gaza.
Dudewicz, E.J. dan Mishra, S. N. 1988. Modern Mathematical Statistics. John Wiley & Sons, Canada.
Hogg, R.V. dan Craig, A.T. 1995. Introduction To Mathematical Statistics. Prentice-Hall, New Jersey.
Karian, Z. A. dan Dudewicz, E. J. 2000. Fitting Statistical Distribution The Generalized Lambda Distributions and Generalized Bootstrap Methods. CRC Press, Florida.
Mykytka, E. dan J. Ramberg. 1979. Fitting a distribution to data using an
alternative to moments IEEE Proceedings of the 1979 Winter. Simulation Conference, 361-374.
Seber, G.A.F dan Wild, C.J. 2003. Non linear Regression. Departement of Statistics University Auckland, New Zealand.
Ramberg J. S., Schmeiser B. W. 1974. An Approximate Method For Generating Asymmetric Random Variables. Communication of the ACM, 17, 78- 82.
77 0 2 -0.3563645 1.791002
78 0 2 -0.3495879 1.8618134
79 0 2 -0.3324947 1.8067093
80 0 1 -0.3031106 2.0571349
81 0 2 -0.3556888 1.9468968
82 0 2 -0.3607442 1.8196278
83 0 2 -0.3487118 1.6222664
84 0 1 -0.3488771 1.8335326
85 0 1 -0.3353123 1.9674967
86 0 1 -0.3553365 1.8477378
87 0 1 -0.3574629 1.805325
88 0 2 -0.3606715 1.8728748
89 0 1 -0.3394306 1.9751168
90 0 2 -0.3279881 2.027708
91 0 2 -0.3375979 1.8894268
92 0 2 -0.3624731 1.9451311
93 0 2 -0.353141 1.806371
94 0 1 -0.3532503 2.0651987
95 0 1 -0.3605927 1.9071936
96 0 1 -0.361442 2.010295
97 0 1 -0.3620971 1.954238
98 0 1 -0.3496545 2.0019522
99 0 2 -0.3473201 1.7626264
77 0 2 -0.2848009 1.3681955
78 0 2 -0.2963662 1.5708269
79 0 1 -0.3209483 1.5615577
80 0 2 -0.2942216 1.5168759
81 0 2 -0.3180849 1.5525841
82 0 1 -0.3014073 1.6102211
83 0 1 -0.294502 1.598105
84 0 2 -0.2899533 1.5355656
85 0 2 -0.3314744 1.6534347
86 0 1 -0.3539062 1.574014
87 0 1 -0.4084187 1.5815062
88 0 1 -0.40075 1.61936
89 0 2 -0.3722687 1.6657051
90 0 1 -0.406629 1.565608
91 0 1 -0.3981601 1.5246008
92 0 2 -0.411055 1.510121
93 0 1 -0.3999819 1.6334015
94 0 1 -0.3926255 1.566646
95 0 2 -0.3868069 1.5321272
96 0 1 -0.4022397 1.5995464
97 0 1 -0.4020139 1.6180442
98 0 2 -0.3604385 1.7341637
99 0 2 -0.4257455 1.5472364
77 0 2 -0.201715 1.39435
78 0 2 -0.187883 1.384025
79 0 2 -0.2004637 1.4139197
80 0 1 -0.3003636 1.4911391
81 0 1 -0.2955793 1.5058133
82 0 2 -0.3013387 1.4962862
83 0 1 -0.3079276 1.4969254
84 0 2 -0.2911909 1.4145475
85 0 2 -0.2993648 1.4729085
86 0 1 -0.3470067 1.4822976
87 0 2 -0.332927 1.457715
88 0 1 -0.3495134 1.4883374
89 0 1 -0.3495905 1.4987558
90 0 1 -0.3449831 1.4945686
91 0 2 -0.3563645 1.4519269
92 0 1 -0.3495879 1.4880069
93 0 2 -0.3398543 1.5290534
94 0 1 -0.3531639 1.5186513
95 0 1 -0.3462423 1.4992493
96 0 1 -0.3473734 1.4462889
97 0 1 -0.3510108 1.4595901
98 0 1 -0.3458 1.419842
99 0 1 -0.3438741 1.4657914
77 0 1 -0.4024474 1.2966519
78 0 1 -0.3989721 1.2397411
79 0 2 -0.3954644 1.2659896
80 0 1 -0.3996056 1.2951884
81 0 1 -0.3998716 1.297575
82 0 1 -0.4104087 1.2938531
83 0 1 -0.3959673 1.3010363
84 0 1 -0.3987204 1.2922046
85 0 1 -0.4002383 1.3017904
86 0 1 -0.4491573 1.2516942
87 0 1 -0.4530763 1.2791473
88 0 1 -0.4503222 1.299544
89 0 1 -0.4555726 1.2839006
90 0 2 -0.4473352 1.27527
91 0 2 -0.4482005 1.2820759
92 0 1 -0.4500307 1.2942729
93 0 1 -0.4481883 1.2858013
94 0 1 -0.4515911 1.2978058
95 0 1 -0.4424243 1.2918291
96 0 1 -0.4484331 1.2837034
97 0 1 -0.447633 1.264206
98 0 1 -0.4563443 1.2956256
99 0 1 -0.454123 1.294496
Program simulasi dengan software R 3.0.1
1. Membangkitkan data berukuran 20 dengan pengulangan sebanyak 100 library(gld)
#random data gld = rgl(n, lambda1=0, lambda2 = NULL, lambda3 = NULL, lambda4 = NULL, param = "rs")
ulangan<-100
x[,k]<- rgl (n, 0, 1, 0.00001, 1.25, param="rs") x_sort[,k]<-sort(x[,k])
} x x_sort
write.table(x_sort,file="D:/Bahan_Skripsi/Simulasi/Program_GLD/20data.txt")
Proses iterasi pada data berukuran 20 DATA_Y <- read.table
B<-matrix(0,n,iterasi)
lamda_duga[,j+1]<-lamda_duga[,j] – Hg }
2. Membangkitkan data berukuran 30 dengan pengulangan sebanyak 100 library(gld)
#random data gld = rgl(n, lambda1=0, lambda2 = NULL, lambda3 = NULL, lambda4 = NULL, param = "rs")
ulangan<-100
x[,k]<- rgl (n, 0, 1, 0.00001, 1.25, param="rs") x_sort[,k]<-sort(x[,k])
} x x_sort
write.table(x_sort,file="D:/Bahan_Skripsi/Simulasi/Program_GLD/30data.txt") Proses iterasi pada data berukuran 30
DATA_Y <- read.table
3. Membangkitkan data berukuran 50 dengan pengulangan sebanyak 100 library(gld)
#random data gld = rgl(n, lambda1=0, lambda2 = NULL, lambda3 = NULL, lambda4 = NULL, param = "rs")
ulangan<-100
x[,k]<- rgl (n, 0, 1, 0.00001, 1.25, param="rs") x_sort[,k]<-sort(x[,k])
} x x_sort
write.table(x_sort,file="D:/Bahan_Skripsi/Simulasi/Program_GLD/50data.txt") Proses iterasi pada data berukuran 50
DATA_Y <- read.table
4. Membangkitkan data berukuran 100 dengan pengulangan sebanyak 100 library(gld)
#random data gld = rgl(n, lambda1=0, lambda2 = NULL, lambda3 = NULL, lambda4 = NULL, param = "rs")
ulangan<-100
x[,k]<- rgl (n, 0, 1, 0.00001, 1.25, param="rs") x_sort[,k]<-sort(x[,k])
} x x_sort
write.table(x_sort,file="D:/Bahan_Skripsi/Simulasi/Program_GLD/100data.txt") Proses iterasi pada data berukuran 100
DATA_Y <- read.table