Multivariat (AMV). Dibimbing oleh AGUS M. SOLEH dan UTAMI DYAH SYAFITRI .
Pengembangan paket R untuk analisis statistika yang memiliki antarmuka user friendlytelah dilakukan sejak tahun 2009 pada Departemen Statistika Institut Pertanian Bogor. Salah satu paket R yang dikembangkan ialah Paket AMV (Analisis Multivariat), yaitu paket untuk melakukan prosedur analisis peubah ganda (Miranti 2010). Analisis peubah ganda pada AMV hanya mencakup analisis komponen utama, analisis gerombol hierarki, analisis gerombol k -means, analisis faktor, dan analisis biplot. Paket AMV masih memiliki beberapa kekurangan, untuk itu perlu dilakukan perbaikan.
Penelitian ini dilakukan untuk memperbaiki paket AMV sebelumnya dengan menambahkan beberapa analisis peubah ganda serta mengatasi batasan-batasan yang ada pada paket AMV. Hasil perbaikan paket AMV dinamakan paket AMV 2.0. Paket AMV 2.0 menambahkan fungsi analisis korelasi kanonik, analisis diskriminan, analisis diskriminan kanonik, analisis korespondensi sederhana, dan analisis korespondensi berganda serta mengatasi batasan -batasan pada sistem manajemen data yang terda pat pada AMV sebelumnya. Selain itu, AMV 2.0 menambahkan fungsi untuk membangkitkan bilangan acak, dan fungsi untuk menamp ilkan output dalam format HTML. Pengujian paket AMV 2.0 dilakukan dengan menggunakan metode blackbox yang membandingkan keluaran AMV 2.0 dengan perangkat lunak SAS, SPSS, dan Minitab . Hasil pengujian menunjukkan bahwa AMV 2.0 mampu menghasilkan output yang sesuai untuk analisis-analisis peubah ganda yang dibuat.
PENYUSUNAN PAKET R UNTUK PEN GEMBANGAN PAKET
ANALISIS MULTIVARIAT (AMV)
DEFRI RAMADHAN ISMANA
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Statistika pada
Departemen Statistika
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
Nama :
Defri Ramadhan Ismana
NIM
:
G14062952
Menyetujui,
Pembimbing I
Pembimbing II
Agus M. Soleh, S.Si, MT
Utami Dyah Syafitri, M.Si
NIP. 197503151999031004
NIP. 197709172005012001
Mengetahui,
Ketua Departemen Statistika
Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor
Dr. Ir. Hari Wijayanto
NIP. 196504211990021001
KATA PENGANTAR
Segala puji dan syukur dipanjatkan kehadirat Allah SWT atas segala rahmat dan karunia -Nya sehingga penulis dapat menyelesaikan karya ilmiah ini. Shalawat serta salam semoga sela lu tercurahkan kepada Rasulullah SAW, keluarga, sahabat dan umatnya hingga akhir zaman. Karya ilmiah ini berjudul ”Penyusunan Paket R untuk Pengembangan Paket Analisis Multivariat (AMV)”.
Banyak ilmu, pelajaran, dan masukan yang penulis dapatkan dan rasakan selama proses penyusunan karya ilmiah ini, sehingga pada kesempatan kali ini penulis ingin mengucapkan terima kasih kepada:
1. Bapak Agus M. Soleh, S.Si, MT dan Ibu Utami Dyah Syafitri, M.Si selaku dosen pembimbing.
2. Bapak Prof. Dr. Ir. Aunuddin selaku penguji luar atas semua sarannya.
3. Keluarga yang sangat penulis sayangi, terima kasih atas segala doa, dukungan, cinta , dan kasih sayang yang telah diberikan selama ini.
4. Kamelia dan M. Mufti Mubarak atas bantuan, dukungan, serta kebersamaannya.
5. Bapak Harianto Tanudjaja, Rahma Anisa, Tri Miranti, Imam Apriyanto, Dea R. Putri, Anita Kumala Sari, Tri Wahyu S., Lemma F. Boer, Tendi, Retno atas saran, bantuan, serta dukungannya.
Akhir kata, penulis meminta maaf apabila dalam proses penyusunan karya ilmiah ini terdapat kesalahan-kesalahan yang dilakukan oleh penulis . Semoga karya ilmiah ini dapat bermanfaat bagi yang memerlukannya.
Bogor, Februari 2011
Agus Sudjati dan M. Suarjethi. Pendidikan penulis berawal dari Sekolah Dasar Negeri Padasuka 2 Bandung pada tahun 1994, dan melanjutkan pendidikannya ke SLTP Negeri 16 Bandung pada tahun 2000. Pada tahun 2003 penulis melanjutkan pendidikan di SMA Negeri 1 4 Bandung, dan lulus pada tahun 2006. Pada tahun yang sama penulis diterima sebagai mahasiswa di Institut Pertanian Bogor melalui jalur Seleksi Penerimaan Mahasiswa Baru ( SPMB). Pada tahun kedua di IPB, penulis memilih program studi Statistika sebagai mayor, serta memilih Matematika Keuangan dan Aktuaria sebagai minor pada tahun berikutnya.
Selama masa perkuliahan, penulis aktif dalam kegiatan Himpunan Keprofesian Gamma Sigma Beta (GSB) sebagai Kepala Departemen Database and Computational pada tahun 2008/2009. Penulis juga aktif mengikuti kepanitiaan acara yang menjadi Program Kerja GSB, antara lain Statistika Ria, LJPS, WCS, dan SAS.
DAFTAR ISI
Halaman
DAFTAR TABEL ...viii
DAFTAR GAMBAR ...viii
DAFTAR LAMPIRAN ...viii
PENDAHULUAN... 1
Latar Belakang ... 1
Tujuan ... 1
TINJAUAN PUSTAKA ... 1
Analisis Korelasi Kanonik ... 1
Analisis Diskriminan ... 2
Analisis Diskriminan Kanonik ...3
Analisis Korespondensi ... 3
Pembangkitan Bilangan Acak ... 4
Sebaran Binomial ... 4
Sebaran Seragam ... 4
Sebaran Normal ... 4
METODOLOGI ... 4
HASIL DAN PEMBAHASAN ... 5
Kebutuhan Sistem ... 5
Analisis Perancangan Sistem ... 6
Implementasi Sistem ... 7
Menu File ...7
Menu Edit ...8
Menu Data ... 8
Menu Statistika ... 8
Menu Bantuan ... 10
Pengujian ... 10
Batasan dan Pemasangan Sistem ... 11
KESIMPULAN DAN SARAN ... 11
Kesimpulan ...11
Saran ... 12
DAFTAR PUSTAKA ... 12
2. Perbandingan output paket AMV 2.0 dengan output SAS, Minitab, dan SPSS menggunakan
metodeblackbox... 11
DAFTAR GAMBAR
Halaman 1. Tahapan pengembangan paket AMV 2.0 ... 52. Diagram aliran data level 0 ... 6
3. Diagram aliran data level 1 ... 6
DAFTAR LAMPIRAN
Halaman 1. Diagram Aliran Data Level 2 Proses Input Data (1) ... 142. Diagram Aliran Data Level 2 Proses Manajemen Data (2) ... 14
3. Diagram Aliran Data Level 2 Proses Analisis Peubah Ganda (5) ... 15
4. Diagram Aliran Data Level 3 Proses Analisis Korelasi Kanonik (5.8) ... 15
5. Diagram Aliran Data Level 3 Proses Analisis Diskriminan (5.9) ... 16
6. Diagram Aliran Data Level 3 Proses Analisis Diskriminan Kanonik (5.10) ... 16
7. Diagram Aliran Data Level 3 Proses Analisis Korespondensi Sederhana (5.11) ... 17
8. Diagram Aliran Data Level 3 Proses Analisis Korespondensi Berganda (5.12)... 17
9. Skema Menu File ... 18
10. Skema Menu Edit ... 18
11. Skema Menu Data... 18
12. Skema Menu Statistika ... 19
13. Skema Menu Bantuan ... 19
14. Lingkungan Utama Paket AMV 2.0 ... 20
15. Kotak Dialog Analisis Korelasi Kanonik ... 21
16. Kotak Dialog Analisis Diskriminan ... 22
17. Kotak Dialog Analisis Diskriminan Kanonik ... 23
18. Kotak Dialog Analisis Korespondensi Sederhana ... 24
19. Kotak Dialog Analisis Korespondensi Berganda ... 26
20. Perbandingan Output Analisis Korelasi Kanonik AMV 2.0 dengan Perangkat Lunak Lainnya ... 27
21. Perbandingan Output Analisis Diskriminan Kuadratik AMV 2.0 dengan Perangkat Lunak Lainnya ... 27
22. Perbandingan Output Analisis Diskriminan Kanonik AMV 2.0 dengan Perangkat Lunak Lainnya ... 28
23. Perbandingan Output Analisis Korespondensi Sederhana AMV 2.0 dengan Perangkat Lunak Lainnya ... 28
1
PENDAHULUAN
Latar Belakang
Statistika merupakan ilmu yang berkaitan erat dengan komputasi. Analisis statistika semakin berkembang sejalan dengan majunya dunia komputasi. Berkembangnya analisis statistika tentu saja diikuti oleh perkembangan perangkat lunak statistika. Saat ini banyak perangkat lunak statistika yang dapat digunakan dengan mudah oleh praktisi. Akan tetapi harga perangkat lunak tersebut sangat tinggi dibandingkan daya beli masyarakat Indonesia pada umumnya, sehingga menyebabkan banyaknya penggunaan perangkat lunak untuk analisis statistika yang dilakukan secara ilegal (pembajakan) di Indonesia.
Tingkat pembajakan perangkat lunak dapat dikurangi dengan memanfaatkan perangkat lunak yang dapat dipakai dan dikembangkan secara bebas (open source). Salah satu perangkat lunak statistika yang dapat dip akai dan dikembangkan secara bebas ialah R. Penggunaan R untuk analisis statistika di Indonesia masih sangat kurang karena perangkat ini tidak mudah digunakan khususnya bagi peminat statistika yang nonstatistisi dan nonprogramer. Oleh karena itu, diperlukan pembuatan paket R dengan antarmuka user friendly sehingga memudahkan pengguna nonstatistisi dan nonprogramer untuk melakukan analisis statistika.
Sejak tahun 2009, Departemen Statistika Institut Pertanian Bogor mulai mengembangkan paket R untuk analisis statistika yang memiliki tampilan antarmuka user friendly. Salah satu paket R yang dikembangkan ialah Paket AMV (Analisis Multivariat), yaitu paket untuk melakukan prosedur analisis peubah ganda. Analisis peubah ganda pada AMV hanya mencakup analisis komponen utama, analisis gerombol hierarki, analisis gerombol k -means, analisis faktor, dan analisis biplot (Miranti 2010). Selain itu, AMV juga memiliki fungsi untuk melakukan uji normal ganda. Paket AMV memiliki beberapa kekurangan, yaitu hanya satu dataset yang dapat digunakan dalam sistem. Selain itu, impor data hanya terbatas pada file Excel dengan ekstensi .csv atau .xls. Menu untuk manipulasi data pada AMV pun masih terbatas. Oleh karena itu, diperlukan penyempurnaan pada paket AMV agar semakin mempermudah pengguna.
Tujuan
Tujuan dari penelitian ini ialah menyusun paket R untuk mengembangkan paket AMV dengan menambahkan analisis korelasi kanonik, analisis diskriminan, analisis diskriminan kanonik dan analisis korespondensi yang memiliki antarmuka user friendly serta memperbaiki kekurangan yang ada pada paket AMV. Hasil dari pengembangan ini kemudian akan diberi nama paket AMV 2.0.
TINJAUAN PUSTAKA
Pengembangan paket AMV dilakukan pada lingkungan R. R adalah sebuah sistem untuk komputasi statistika dan grafik (Hornik, 2010). Desain R sangat dipengaruhi oleh bahasa S dan bahasa Scheme. R dapat dikembangkan dan distribusikan secara bebas. R terdiri dari paket-paket yang berisi fungsi-fungsi, data, dan dokumentasi dalam R. Ada dua jenis paket R yaitu paket standar yang harus ada dalam R (paket ini terpasang langsung ketika program R terpasang) dan paket tambahan yang dikembangkan oleh banyak ahli (paket ini dapat diunduh pada http://CRAN.R-project.org). Pembuatan paket R di lingkungan Windows membutuhkan perangkat lunak tambahan yaitu Rtools, LaTex, dan HTML Help Workshop. R dapat dioperasikan pada sistem operasi Un ix, Windows, dan Mac.Analisis peubah ganda yang ditambahkan pada paket AMV 2.0 antara lain analisis korelasi kanonik, analisis korespondensi, analisis diskriminan, dan analisis diskriminan kanonik.
Analisis Korelasi Kanonik
Menurut Dillon dan Goldstein (1984), analisis korelasi kanonik adalah salah satu teknik analisis statistik yang digunakan untuk melihat hubungan antara segugus peubah tidak bebas dengan segugus peubah bebas. Korelasi kanonik mirip dengan korelasi sederhana biasa. Perbedaannya, korela si kanonik menggambarkan hubungan antar peubah kanonik dan bukan peubah asli itu sendiri.
Kombinasi linear dari kedua gugus tersebut dapat dituliskan sebagai berikut :
′ ′
dimana vektor koefisien , vektor koefisien , vektor peubah bebas , dan vektor peubah tidak bebas dapat dituliskan sebagai berikut :
Pasangan dari kombinasi linier antara U danVdisebut peubah kanonik dan korelasinya disebut korelasi kanonik. Korelasi antara U danVdiperoleh dari fungsi berikut :
, ′
′ ′
merupakan matriks ragam peragam dari gugus peubah bebas, merupakan matriks ragam peragam dari gugus peubah tidak bebas, dan merupakan matriks peragam dari gugus peubah bebas dan gugus peubah tidak bebas.
Pasangan kombinasi linear UidanViyang memaksimumkanCorr(Ui, Vi)yaitu :
i= 1, 2, .... ,p, dengan asumsip≤q Nilai λ1≥ λ2≥ .... ≥ λpmerupakan akar ciri
dari matriks yang
tidak lain adalah korelasi kanonik kuadrat (ρ1
vektor ciri yang bersesuaian dengan akar ciri tersebut. Nilai λ1 ≥ λ2 ≥ .... ≥ λp juga merupakan p akar ciri terbesar dari matriks dan f1, f2,...., fp
adalah vektor ciri yang bersesuaian dengan akar ciri tersebut (Johnson dan Wichern 2002).
Untuk menguji bahwa qpeubah tak bebas berhubungan dengan p peubah bebas
dilakukan uji lambda Wilks terhadap korelasi kanonik. Hipotesis yang diuji sebagai berikut :
H0: = 0 H1: ≠ 0
Statistik uji lambda Wilks dapat dicari dengan menggunakan persamaan berikut :
∏ 1
dimana M = min (p,q). Statistik uji lambda Wilks dapat didekati dengan statistik uji F, yaitu : jumlah peubah bebas, dan q adalah jumlah peubah tidak bebas. H0 ditolak jika nilai
> , .
Analisis Diskriminan
Analisis diskriminan merupakan teknik statistik yang dapat digunakan untuk memisahkan beberapa gugus objek yang berasal dari dua atau lebih kelompok, serta mengalokasikan suatu objek baru yang belum diketahui dari kelompok mana ke dalam suatu kelompok yang telah ditentukan sebelumnya. Salah satu pendeketan analisis diskriminan adalah dengan menggunakan model peluang. Jika merupakan peluang prior dari
kelompok, dan adalah fungsi
3
Pengalokasian kelompok yang meminimumkan salah klasifikasi adalah dengan cara memilih kelompok yang mempunyai nilai maksimum , hal ini dikenal sebagai aturan Bayes.
Jika sebaran dari kelompok adalah normal ganda dengan nilai tengah dan ragam peragam , maka aturan Bayes meminimumkan
2 log 2
′ | |
2
Perbedaan antara Qc untuk dua kelompok adalah fungsi kuadrat dari , sehingga metode ini dikenal sebagai analisis diskriminan kuadratik (Venables dan Ripley 2002).
Analisis Diskriminan Kanonik Dalam SAS/STAT 9.2 User’s Guide, analisis diskriminan kanonik merupakan analisis korelasi kanonik antara peubah kuantitatif dengan peubah boneka hasil transformasi peubah kelompok. Vektor peubah tidak bebas pada analisis diskriminan kanonik adalah peubah boneka hasil transformasi peubah kelompok. Fungsi diskriminan kanonik merupakan p eubah kanonik yang merupakan kombinasi linier dari vektor peubah bebas , fungsi tersebut dapat dituliskan sebagai berikut :
i= 1, 2, .... ,p, dengan asumsip≤q Nilai λ1≥ λ2≥ .... ≥ λpmerupakan akar ciri dari matriks
yang tidak lain adalah korelasi kanonik kuadrat (ρ12, ρ22, ... , ρp2) dan e1, e2,...., ep
adalah vektor ciri yang bersesuaian dengan akar ciri tersebut. merupakan matriks ragam peragam gabungan yang dapat diperoleh dari persamaan berikut :
∑ 1
∑
dimana merupakan matriks ragam-peragam dari setiap kelompok dan adalah jumlah observasinya, dengan k=1, 2, ... g. p dan q adalah jumlah peubah bebas dan jumlah peubah tidak bebas, serta adalah jumlah kelompok .
Analisis Korespondensi
Analisis korespondensi adalah suatu metode yang menyajikan baris dan kolom dari matriks data (tabel kontingensi) sebagai titik pada ruang vektor dengan dimensi yang lebih rendah (Greenacre 1984). Konsep yang digunakan dalam analisis ini adalah penguraian nilai singular terampat (generalized singular value decomposition, GSVD). Analisis korespondensi dar i tabel kontingensi dua arah disebut analisis korespondensi sederhana.
Matriks korespondensi dapat diperoleh dengan cara membagi setiap unsur matriks N dengan total semua unsurN, dimanaNadalah tabel kontingensi dua arah tidak negatif dari dua peubah dengan masing -masing peubah mempunyai a dan b kategori. Matriks dinotasikan sebagai berikut :
1 .. dengan ..
Dari matriks korespondensi , diperoleh vektor baris dan vektor kolom :
1dan 1
dimana1adalah sebuah vektor satuan. Vektor adalah vektor yang unsur -unsurnya merupakan jumlah unsur dari vektor -vektor baris matriks dan vektor adalah vektor yang unsur-unsurnya merupakan jumlah unsur dari vektor-vektor kolom matriks .
Matriks profil baris dan kolom dinyatakan sebagai berikut :
dan dimana :
= Matriks diagonal dengan diiadalah total baris ke-i dari matriks
= Matriks diagonal dengan djjadalah total kolom ke-i dari matriks
Untuk menentukan koordinat dari profil dari baris dan kolom pada grafik dilakukan penguraian GSVD terhadap matriks , penguraian tersebut sebagai berikut :
′
adalah matriks berukuran a ×m, adalah matriks berukuran b × m dimana berlaku , m adalah rank dari matriks yang sama dengan rank dari matriks atau min(a,b)-1. adalah matriks diagonal dimana unsur -unsur diagonalnya merupakan nilai singular (λ1,..., λm) dari matriks . Matriks dan diperoleh dari penguraian nilai singular dari
/ /
. Total inersia (merepresentasikan semua informasi dalam seluruh ruang) adalah ∑ .
Koordinat utama profil baris dan kolom dinyatakan sebagai berikut :
sedangkan koordinat standar profil baris dan kolom yaitu :
dan
Analisis korespondensi untuk tabel kontingensi banyak arah disebut análisis korespondensi berganda. Pada análisis korespondensi berganda matriks N yang digunakan merupakan tabel Burt. Tabel Burt merupakan matriks . Matriks mempunyai jumlah baris yang sama dengan jumlah individu dalam sampel dan jumlah kolom yang sama dengan jumlah semua kategori yang berhubungan dengan semua peubah. Masing-masing unsur dalam satu baris matriks bernilai satu jika individu tersebut ada dalam kategori dan nol jika sebaliknya.
Pembangkitan Bilangan Acak Selain menambahkan analisis peubah ganda, AMV 2.0 juga menambahkan fungsi untuk membangkitkan bilangan acak. Bilangan acak yang dapat dibangkitkan yaitu bilangan acak yang diambil dari data yang menyebar binomial, seragam, dan normal. Sebaran Binomial
Jika dilakukan n percobaan yang saling bebas, dimana setiap hasil percobaan mempunyai peluang “sukses” sebesar p dan peluang “gagal” sebesar 1-p, maka X yang merupakan jumlah terjadinya kejadian “sukses” pada n percobaan tersebut dapat dikatakan menyebar binomial dengan parameter (n, p). Sebaran binomial dengan parameter (n, p) memiliki fungsi massa peluang :
1 ,i= 0, 1, …,n
dengan i merupakan banyaknya kejadian “sukses” (Ross 1989).Pembangkitan bilangan acak dari data yang menyebar binomial dilakukan dengan algoritma Binomial Triangle Parallelogram Exponential and Combined(BTPEC).
Sebaran Seragam
Sebaran seragam termasuk k e dalam kelompok sebaran kontinu. Menurut Ross (1989), suatu peubah acak dikatakan menyebar seragam pada interval (a,b) jika memiliki fungsi kepekatan peluang :
1
, jika 0,
Pembangkitan bilangan acak dari data yang menyebar seragam dilakukan dengan algoritmaMersenne Twister.
Sebaran Normal
Jika X merupakan peubah acak yang menyebar normal dengan parameterµ2danσ2, maka fungsi kepekatan peluangXyaitu :
√ ,∞ < < ∞
Kurva dari fungsi kepekatan peluang tersebut berbentuk lonceng yang simetrik pada µ. Dimana µ merupakan nilai tengah dari X dan σ merupakan simpangan baku dari X (Ross 1989). Pembangkitan bilangan acak dari data yang menyebar normal dilakukan dengan algoritmaInversion.
METODOLOGI
Penyusunan paket R ini mengikuti kaidah rekayasa perangkat lunak dengan model air terjun (waterfall) melalui tahapan-tahapan sebagai berikut:
1. Analisis dan Identifikasi Kebutuhan Sistem
Tahap ini bertujuan untuk memperhatikan kebutuhan pengguna meliputi batasan, tujuan, masukan, dan keluaran dari perangkat lunak. Tahapan ini dilakukan dengan menggali informasi yang dibutuhkan oleh pengguna perangkat lunak statistika yang diadopsi dari per angkat lunak yang sudah ada seperti Minitab, SPSS, dan SAS.
2. Analisis Perancangan Sistem
Tahap ini bertujuan untuk menentukan arsitektur sistem secara keseluruhan. Tahapan ini dilakukan dengan membuat diagram aliran data dan merancang antarmuka sistem.
3. Implementasi dan Pengujian Unit
Pada tahap ini rancangan sistem yang sebelumnya telah dibuat direalisasikan menjadi serangkaian perangkat lunak
dengan menggunakan bahasa
pemrograman. Pembangunan tampilan antarmuka menggunakan paket tcltk. Implementasi sistem juga diiringi dengan pengujian tiap unit sistem untuk melihat apakah tiap unit telah memenuhi spesifikasi yang telah ditentukan.
4. Integrasi dan Pengujian Sistem
5
Gambar 1 Tahapan pengembangan paket AMV 2.0. serta dilakukan pengujian terhadap
perangkat lunak tersebut. Pengujian perangkat lunak dilakukan dengan metode blackbox yaitu dengan membandingkan keluaran perangkat lunak yang dibuat dengan keluaran perangkat lunak statistika yang sudah ada sebelumnya (Minitab, SPSS, dan SAS).
5. Operasi dan Pemeliharaan
Tahapan ini mencakup koreksi terhadap kesalahan yang tidak ditemukan pada tahap sebelumnya dan perbaikan terhadap kesalahan tanpa membuat sistem baru. Selain itu, dilakukan juga dokumentasi perangkat lunak melalui pembuatan User Manual dan dokumen perangka t lunak lainnya.
Tahapan pengembangan perangkat lunak tersebut merupakan suatu siklus dengan aliran sesuai Gambar 1. Tahapan berikutnya tidak boleh dimulai sebelum tahapan sebelumnya selesai (Sommerville 2003).
HASIL DAN PEMBAHASAN
Kebutuhan SistemAnalisis peubah ganda merupakan salah satu teknik statistika yang banyak digunakan dalam berbagai bidang. Proses perhitungan pada analisis peubah ganda cukup rumit jika
dilakukan secara manual, oleh karena itu diperlukan sistem komputasi untuk mempermudahnya. AMV merupakan suatu sistem berantarmukauser friendlyyang dibuat untuk melakukan prosedur analisis peubah ganda pada lingkungan R. Adapun analisis peubah ganda yang disajikan da lam paket AMV antara lain ialah analisis komponen utama, analisis faktor, analisis biplot, analisis gerombol hierarki dan analisis gerombol k -means. Selain itu, AMV memiliki fungsi untuk melakukan uji normal ganda. Pada paket AMV 2.0 ditambahkan analisis korelasi kanonik, analisis diskriminan, analisis diskriminan kanonik, dan a nalisis korespondensi.
Selain penambahan analisis peubah ganda, pada AMV 2.0 juga ditambahkan fungsi kalkulator sebagai alat manipulasi data, fungsi membangkitkan bilangan acak (binomial, seragam, normal), dan fungsi untuk menampilkan output dalam bentuk HTML. Impor data dilengkapi dengan penambahan ekstensi file dari SPSS, Ms. Excel 2007, dan Ms. Access, serta file yang berekstensi .csv dengan pemisahnya berupa “;”. Ekspor data dilengkapi dengan penambahan ekstensi file ke SPSS dan ke file yang berekstensi .csv dengan pemisahnya berupa “;”. Keterbatasan AMV yang hanya dapat menggunakan satu dataset saja dalam Analisis
perancangan sistem
Implementasi dan Pengujian
Unit
Integrasi dan pengujian
sistem
Operasi dan pemeliharaan Analisis dan
sistem diatasi dengan m pemilihan dataset.
Analisis Perancanga Tahapan perancangan s dengan membuat diagram desain antarmuka untuk sis diidentifikasi sebelumnya. data merupakan alat perancan berorientasi pada alur data dekomposisi dapat dig penggambaran analisis ma sistem yang mudah dikom profesional sistem kepada p pembuat program.
Pada Gambar 2 dapat dili 2.0 memungkinkan pe memasukan data ke dala menerima hasil pengolahan y ke monitor atau disimpan Diagram aliran data level merupakan dekomposisi keseluruhan yang dibuat oleh AMV 2.0 hanya menjalank Data (1), proses Manajeme proses Analisis Peubah Ganda
membuat fungsi
gan Sistem sistem dilakukan
aliran data dan sistem yang telah . Diagram aliran cangan sistem yang ta dengan konsep n yang ditampilkan an ke dalam file. el 1 (Gambar 3) i sistem secara leh tujuh penelitian. nkan proses Input en Data (2), dan nda (5).
Gambar 2 Diagram aliran data
Proses Input Data dapat di lagi menjadi diagram aliran d (Lampiran 1) yang tersusun oleh Data Langsung (1.1), proses Impo proses Memuat Data yang Tersi dan proses Bangkitkan Data (1 Manajemen Data (Lampiran 2) did lagi menjadi proses Pilih Dataset proses Edit Dataset Aktif (2 Kalkulator (2.3), proses Bangkitk Acak (2.4), dan proses Pilih Pe Proses Analisis Peubah Ganda ad sudah dibuat oleh AMV Dekomposisi proses Analisis Pe
Gambar 3 Diagram aliran data level 1.
ata level 0.
7
menjadi diagram aliran level 2 (Lampiran 3) pada AMV 2.0 menambahkan proses Analisis Korelasi Kanonik (5.8), proses Analisis Diskriminan (5.9), proses Analisis Diskriminan Kanonik (5.10), proses Analisis Korespondensi Sederhana (5.11), dan proses Analisis Korespondensi berganda (5.12). Proses-proses tersebut dapat didekomposisi lagi menjadi diagram aliran data level 3 yang dapat dilihat pada Lampiran 4, 5, 6, 7 dan 8.
Implementasi Sistem
Implementasi sistem AMV 2.0 menggunakan program R dan paket tcltk untuk membuat tampilan anta rmukanya. Selain itu, implementasi sistem AMV 2.0 juga memanfaatkan paket-paket lainnya baik paket standar maupun paket tambahan yang harus diunduh terlebih dahulu. Nama-nama paket tersebut tersaji pada Tabel 1.
Tabel 1 Paket-paket yang digunakan dalam implementasi sistem AMV 2.0 No. Paket
Sama seperti AMV sebelumnya, AMV 2.0 tersusun oleh pilihan menu di bagian atas dan jendela hasil di bawah menu untuk menampilkan output. Menu AMV 2.0 terdiri dari lima menu utama yaitu Menu File, Menu Edit, Menu Data, Menu Statistika dan Menu Bantuan. Menu Edit merupakan menu baru yang tidak ada pada AMV sebelumnya. Skema menu-menu tersebut dapat dilihat pada Lampiran 9, 10, 11, 12, dan 13. Lingkungan utama paket AMV 2.0 dapat dilihat pada Lampiran 14.
Menu File
Menu File terdiri dari delapan submenu yaitu :
1. Buat Dataset Baru
Submenu ini berfungsi untuk membuat dataset ke dalam sistem secara manual. Sebelum membuat dataset, pengguna harus memberi nama untuk dataset yang akan dibuatnya tersebut.
2. Memuat Dataset
Submenu ini digunakan untuk memuat dataset yang tersimpan dalam file R dengan ekstensi .rda , .Rda , .RDA, atau .RData.
3. Simpan Dataset
Submenu ini digunakan untuk menyimpan dataset dalam file R dengan ekstensi .rda, .Rda, .RDA, atau .RData.
4. Impor Dataset
Submenu ini terdiri dari lima fungsi yait u “SPSS”, “.csv (,)”, “.csv (;)”, “Ms. Excel”, dan “Ms. Access”. Fungsi “SPSS” digunakan untuk mengimpor data dari file SPSS dengan ekstensi .sav atau .por. Fungsi “.csv (,)” digunakan untuk mengimpor data dari file dengan ekstensi .csv dimana pembatasnya berupa “,”. Fungsi “.csv (;)” digunakan untuk mengimpor data dari file dengan ekstensi .csv dimana pembatasnya berupa “;”. Fungsi “Ms. Excel” digunakan untuk mengimpor data dari file Ms. Excel dengan ekstensi .xlsx atau .xls. Fungsi “Ms. Access” digunakan untuk mengimpor data dari file Ms. Access dengan ekstensi .mdb atau .accdb.
5. Ekspor Dataset
Submenu ini terdiri dari empat fungsi yaitu “SPSS”, “.csv (,)”, “.csv (;)”, dan “Ms. Excel 2003”. Fungsi “SPSS” digunakan untuk mengekspor dataset aktif ke file SPSS dengan ekstensi .sps. Fungsi “.csv (,)” digunakan untuk mengekspor dataset aktif ke file dengan ekstensi .csv dimana pembatasnya berupa “,”. Fungsi “csv (;)” digunakan untuk mengekspor dataset aktif ke file dengan ekstensi .csv dimana pembatasnya berupa “ ;”. Fungsi “Ms. Excel 2003” digunakan untuk mengekspor dataset aktif ke file Ms. Excel 2003. 6. Simpan Hasil
Submenu ini ini digunakan untuk menyimpan hasil yang terdapat pada jendela hasil dalam bentuk teks dengan ekstensi .txt dan .doc.
7. Hasil HTML
8. Keluar
Submenu ini ini digunakan untuk keluar dari sistem AMV 2.0.
Menu Edit
Semua submenu yang ada pada menu ini hanya berfungsi untuk mengedit jendela hasil. Submenu-submenu itu antara lain :
1. Cut
Submenu ini digunakan untuk mengirimkan objek yang terpilih pada jendela hasil keclipboardsistem komputer dan menghapus objek yang terpilih tersebut pada jendela hasil.
2. Salin
Submenu ini digunakan untuk mengirimkan objek yang terpilih pada jendela hasil ke clipboard sistem komputer. Fungsi ini biasanya digunakan untuk menyalin objek yang terpilih. 3. Paste
Submenu ini digunakan untuk menampilkan objek yang ada pada clipboard sistem komputer ke jendela hasil. Fungsi ini biasanya digunakan untuk menampilkan objek yang sudah disalin sebelumnya.
4. Hapus
Submenu ini digunakan untuk menghapus objek yang terpilih pada jendela hasil. 5. Undo
Submenu ini digunakan untuk mengembalikan tampilan je ndela hasil ke tampilan sebelum tampilan terakhir. 6. Pilih Semua
Submenu ini digunakan untuk memilih semua objek yang ada pada jendela hasil. 7. Bersihkan Jendela
Submenu ini digunakan untuk menghapus semua objek yang ada pada jendela hasil.
Menu Data
Menu ini memiliki enam submenu. Sebagian besar submenu tersebut berfungsi untuk manajemen data. Submenu tersebut antara lain :
1. Pilih Dataset Aktif
Submenu ini digunakan untuk memilih satu dataset aktif. Dataset aktif adalah dataset yang siap untuk dianalisis. F ungsi ini memungkinkan sistem AMV 2.0 untuk menampung lebih dari satu dataset. 2. Lihat Dataset Aktif
Submenu ini digunakan untuk melihat dataset aktif.
3. Edit Dataset Aktif
Submenu ini digunakan untuk mengedit dataset aktif.
4. Kalkulator
Submenu ini digunakan un tuk memanipulasi dataset aktif. Operasi yang terdapat pada kalkulator yaitu operasi aritmatika, trigonometri, dan perbandingan.
5. Bangkitkan Bilangan Acak
Submenu ini terdiri dari tiga fungsi yaitu fungsi membangkitkan bilangan acak seragam, fungsi membangki tkan bilangan acak binomial, dan fungsi untuk membangkitkan bilangan acak normal. 6. Cetak Dataset
Submenu ini digunakan untuk menampilkan dataset aktif ke dalam jendela hasil.
Menu Statistika
Menu ini berisi fungsi -fungsi untuk analisis peubah ganda. Pada menu ini terdapat delapan submenu. Submenu analisis gerombol, submenu analisis komponen utama, submenu analisis faktor, submenu analisis biplot, dan submenu uji normal ganda merupakan submenu yang ada pada AMV sebelumnya, sehingga tidak akan dijelaskan pada bagian ini. Tiga submenu baru pada menu statistika antara lain submenu analisis korelasi kanonik, submenu analisis diskriminan, dan submenu analisis korespondensi. Fungsi-fungsi yang terdapat pada ketiga submenu itu antara lain :
1. Analisis Korelasi Kanonik
Fungsi ini digunakan untuk melakukan analisis korelasi kanonik. Untuk menjalankan fungsi ini pengguna harus mengisi kotak peubah respon dan kotak peubah prediktor dengan peubah -peubah yang memiliki jenis data numerik. Pada fungsi ini terdapat pilihan un tuk menampilkan skor peubah kanonik untuk setiap observasi.
9
melakukan pengujian korelasi kanonik digunakan fungsi “p.asym” yang berasal daru paket CCP. Contoh penggunaan fungsi-fungsi tersebut adalah sebagai berikut :
Fungsi ini terdapat pada submenu analisis diskriminan yang digunakan untuk melakukan analisis diskriminan linier dan kuadratik. Akan tetapi fungsi diskriminan linier yang dihasilkan sama dengan hasil analisis diskriminan kanonik, hal ini terjadi karena fungsi diskriminan yang diambil dari paket MASS menggunakan pendekatan yang sama dengan fungsi diskriminan kanonik. Oleh karena itu, fungsi diskriminan linier pada submenu analisis diskriminan untuk sementara dinonaktifkan.
Untuk menjalankan fungsi ini pengguna harus mengisi kotak kelompok dengan peubah yang berisi kelompok untuk setiap observasi dan kotak peuba h prediktor dengan peubah yang memiliki jenis data numerik. Pada fungsi ini terdapat pilihan untuk menentukan peluang prior, sama untuk semua kelompok atau sesuai dengan jumlah observasi masing-masing kelompok. Selain itu, terdapat pilihan untuk menampilkan nilai peluang posterior dan prediksi klasifikasi untuk setiap observasi. Pengguna dapat menggunakan fungsi peubah seleksi untuk membuat fungsi diskriminan disertai dengan validasinya.
Output yang dihasilkan dari fungsi antara lain informasi kelompok (jumlah observasi, proporsi jumlah observasi, dan peubah prior), nilai rataan kelompo k pada setiap peubah prediktor , tabel klasifikasi, presentase tabel klasifikasi, total klasifikasi benar, nilai peluang posterior dan prediksi klasifikasi untuk semua observasi. Jika fungsi peubah seleksi diaktifkan maka akan pada output akan ditambahkan, tabel klasifikasi hasil validasi, presentase tabel klasifikasi hasil validasi, total klasifikasi benar hasil vaildasi, nilai peluang posterior dan prediksi klasifikasi untuk semua observasi yang ada pada data validasi. Selain itu, jika fungsi peubah seleksi diaktifkan maka sistem akan menghasilkan dua dataset baru
yang berisi data pemodelan dan data validasi. Kotak dialog untuk fungsi ini dapat dilihat pada Lampiran 16. Sintaks R untuk melakukan analisis diskriminan kuadratik menggunakan fungsi “qda”, sementara itu untuk memprediksi hasil diskriminan kuadratik menggunakan fungsi “predict.qda”. Kedua fungsi tersebut berasal dari paket MASS, contoh penggunaannya adalah sebagai berikut : adk <- qda(Kelompok~Prediktor,
subset,prior)
prediksi <- predict(adk,Data)
3. Analisis Diskriminan Kanonik
Fungsi ini terdapat pada submenu analisis diskriminan yang digunakan untuk melakukan analisis diskriminan kanonik. Untuk menjalankan fungsi ini pengguna harus mengisi kotak kelompok dengan peubah yang berisi kelompok untuk setiap observasi dan peubah predi ktor dengan peubah yang memiliki jenis data numerik. Pada fungsi ini pengguna dapat memilih untuk menampilkan skor peubah kanonik dan plotnya.
Output yang dihasilkan dari fungsi ini antara lain korelasi kanonik beserta uji statistiknya, koefisien dari peu bah kanonik, koefisien baku dari peubah kanonik, struktur kanonik, dan nilai rataan kelompok pada setiap peubah kanonik. Kotak dialog untuk fungsi ini dapat dilihat pada Lampiran 17. Sintaks R untuk melakukan analisis diskriminan kanonik menggunakan fungsi “candisc” yang berasal dari paket candisc, contoh penggunaan fungsi tersebut adalah sebagai berikut :
mod <- lm(cbind(X1,X2,...,Xp) ~ Kelompok,data=Data) diskan <- candisc(mod,data=Data) Untuk membuat plot diskriminan kanonik digunakan fungsi “plot.candisc” yang berasal dari paket candis c, contoh penggunaannya adalah sebagai berikut : plot(diskan,col=cols,pch=pchs, main=judul,which=dimensi)
dengan jumlah peubah bebas. Masing -masing unsur dalam satu baris tabel peubah kategorik berisi kategori pada setiap peubah. Pada fungsi ini terdapat pilihan untuk menambahkan data suplemen, menampilkan plot korespondensi dan pilihan jumlah dimensi yang akan ditampilkan. Ada lima plot korespondensi yang dapat ditampilkan antara lain plot simetrik kolom dan simetrik baris, plot simetrik baris, plot simetrik kolom, plot asimetrik baris dan simetrik kolom, serta plot asimetrik kolom dan simetrik baris.
Output yang dihasilkan dari fungsi ini antara lain dekomposisi inersia, profil baris dan profil kolom, ringkasan statistik profil kolom dan profil baris, koordinat baris dan kolom, kontribusi inersia parsial profil baris dan profil kolom, serta plot korespondensi. Kotak dialog untuk fungsi analisis korespondensi sederhana dapat dilihat pada Lampiran 18. Sintaks R untuk melakukan analisis korespondensi sederhana menggunakan fungsi “ca” yang berasal dari paket ca. Contoh penggunaan fungsi tersebut adalah sebagai berikut :
aks <- ca(TabelKontingensi,
nd=ndim,
suprow=suplemenbaris, supcol=suplemenkolom)
Untuk menampilkan plot korespondensi sederhana digunakan fungsi “plot.ca” dari paket ca. Contoh penggunaannya dalam menampilkan kelima plot korespondensi sederhana yang telah disebutkan sebelumnya adalah sebagai berikut:
a. Plot Simetrik Baris
plot(aks,dim=dimensi, map="symmetric",
what=c("active","none"), main=judul)
b. Plot Simetrik Kolom
plot(aks,dim=dimensi, map="symmetric",
what=c("none","acti ve"), main=judul)
c. Plot Simetrik Baris dan Kolom
plot(aks,dim=dimensi, map="symmetric",
what=c("active","active"), main=judul)
d. Plot Asimetrik Baris dan Simetrik Kolom
plot(aks,dim=dimensi, map="colprincipal",
what=c("active","active"), main=judul)
e. Plot Asimetrik Kolom dan Simetrik Baris
plot(aks,dim=dimensi, map="rowprincipal",
what=c("active","active"), main=judul)
5. Analisis Korespondensi Berganda
Fungsi ini terdapat pada submenu analisis korespondensi yang digunakan untuk melakukan analisis korespondensi berganda. Data yang digunakan pada fungsi ini berupa tabel peubah kategorik. Untuk menggunakan fungsi ini pengguna harus mengisi kotak peubah terp ilih dengan peubah yang ada pada tabel indikator. Pada fungsi ini pengguna dapat memilih untuk memasukan data suplemen. Selain itu, terdapat pilihan untuk menampilkan tabel Burt dan plot kolom.
Output yang dihasilkan dari fungsi ini antara lain dekomposisi inersia, ringkasan statistik profil kolom, serta koordinat kolom, kontribusi inersia parsial profil kolom, tabel Burt dan plot kolom. Tabel Burt yang dihasilkan tidak ditampilkan pada jendela hasil, tetapi disimpan dalam dataset dengan nama “Burt”. Kotak dialog untuk fungsi ini dapat dilihat pada Lampiran 19. Sintaks R untuk melakukan analisis korespondensi berganda menggunakan fungsi“mjca” yang berasal dari paket ca. Contoh penggunaan fungsi tersebut adalah sebagai berikut :
akb <- mjca(DataPeubahKategorik, nd=ndim,
lambda=”indicator”, supcol=suplemenkolom)
Untuk menampilkan plot tabel kolom digunakanfungsi “plot.mjca”dari paket ca, berikut contoh penggunaannya :
plot(akb,dim=dimensi, what=c("none","active"), main=judul)
Menu Bantuan
Menu ini digunakan untuk memberikan informasi terhadap penggunaan AMV 2.0. Menu ini terdiri dari dua fungsi yaitu : 1. Bantuan AMV 2.0
Fungsi ini berisi tentang dokumentasi penggunaan AMV 2.0.
2. Tentang AMV 2.0
Fungsi ini berisi informasi tentang versi AMV 2.0 dan pengembang AMV 2.0.
Pengujian
11
pengujian sistem secara menyeluruh. Ada beberapa data yang digunakan dalam pengujian AMV 2.0. Data -data tersebut diambil dari data contoh yang terdapat pada program R dan paket MASS. Data Iris Fisher digunakan untuk menguji analisis korelasi kanonik, analisis diskriminan, dan analisis diskriminan kanonik. Data klasifikasi silang (tabel kontingensi) antara warna mata dengan warna rambut di Caithness Skotla ndia (data caith) digunakan untuk menguji analisis korespondensi sederhana. Data faktor ekologi dalam manajemen perkebunan (data farms) digunakan untuk menguji analisis korespondensi berganda.
Tabel 2 Perbandingan output paket AMV 2.0 dengan output SAS, Minitab, dan SPSS menggunakan metodeblackbox Fungsi di
Pengujian dilakukan dengan metode blackbox yaitu membandingkan output yang dihasilkan AMV 2.0 dengan output yang dihasilkan perangkat lunak statistika lainnya yaitu Minitab, SPSS, dan S AS. Kesimpulan dari hasil pengujian tersebut dapat dilihat pada Tabel 2. Sebagian besar analisis peubah ganda pada AMV 2.0 menghasilkan output yang melibatkan vektor ciri pada prosesnya. Nilai vektor ciri yang tidak unik memungkinkan output yang dihasilkan AMV 2.0 berbeda tanda dengan output perangkat lunak lainnya, tetapi hal ini tidak menjadi masalah karena interpretasi yang dihasilkan tetap sama. Hasil pengujian setiap analisis peubah ganda yang lebih rinci dapat dilihat pada Lampiran 20, 21, 22, 23, dan 24.
Batasan dan Pemasangan Sistem Sistem ini mempunyai batasan -batasan tertentu yaitu:
1. Paket AMV 2.0 tidak dapat melakukan analisis diskriminan linier dengan pendekatan sebaran normal ganda seperti pada SAS, SPSS, dan Minitab .
2. Ekspor dataset aktif pada paket AMV 2.0 beserta paket-paket R yang menjadi kebutuhan AMV 2.0 harus terpasang lebih dahulu. Setelah itu, pasang paket AMV 2.0 melalui menu “Packages > Install package(s) from local zipfile…”, kemudian muat AMV 2.0 dengan mengetikkan sintaks berikut pada R console:
library(AMV) AMV()
KESIMPULAN DAN SARAN
KesimpulanPenelitian ini telah berhasil menyusun paket AMV 2.0 yang merupakan pengembangan paket AMV sebelumnya. Paket AMV 2.0 mampu mengurangi keterbatasan yang terdapat pada AMV sebelumnya. Keterbatasan AMV dimana hanya satu dataset yang dapat digunakan dalam sistem berhasil diatasi, sehingga AMV 2.0 mampu menggunakan lebih dari satu dataset pada sistemnya. Fungsi impor data dilengkapi dengan penambahan ekstensi file dariSPSS, Ms. Excel 2007, dan Ms. Access, serta file yang berekstensi .csv dengan pemisahnya berupa “;”. Fungsi ekspor data dilengkapi dengan penambahan ekstensi file ke SPSS dan ke file yang berekstensi .csv dengan pemisahnya berupa “;”. Keterbatasan menu untuk manipulasi data dapat teratasi dengan adanya fungsi kalkulator.
mudah dan legal walaupun analisis yang ada masih terbatas.
Saran
Penelitian lebih lanjut diperlukan untuk mengembangkan paket ini agar tercipta suatu sistem yang dapat menyamai ataupun melebihi perangkat lunak statistika komersial yang ada. Adapun saran penulis untuk penelitian selanjutnya ialah :
1. Menambah jenis sebaran data yang dapat dibangkitkan.
2. Mengatasi batasan AMV 2.0 yang tidak dapat melakukan analisis diskriminan linier dengan pendekatan sebaran normal ganda seperti pada SAS, SPSS, dan Minitab.
3. Mengembangkan AMV 2.0 untuk analisis peubah ganda lainnya seperti penskalaan dimensi ganda dan analisis peubah ganda non parametrik.
4. Ekspor dataset aktif mencakup file Ms. Excel 2007 dan Ms. Access.
DAFTAR PUSTAKA
Dillon W & Goldstein M. 1984. Multivariate Analysis.New York: John Wiley & Sons. Greenacre MJ. 1984. Theory and Application
of Correspondence Analysis. London: Academic Press, Inc.
Hornik F. 2010. Frequently Asked Questions on R. http://www.r-project.org[10 Januari 2011].
Johnson RA & Wichern DW. 2002. Applied Multivariate Statistical Analysis Fifth Edition. New Jersey : Prentice Hall. Miranti T. 2010. Pengembangan Paket R
untuk Analisis Multivariat dengan Antar Muka User Friendly. [Skripsi]. Departemen Statistika FMIPA IPB,Bogor. Ross SM. 1989.A First Course in Probability.
New York : Macmillan Publishing Company.
SAS. 2010. SAS/STAT 9.2 User’s Guide. http://support.sas.com/documentation/cdl/e n/stsug/62259/HTML/default/ugmultcda.h tm [10 Januari 2011].
Sommerville I. 2003. Rekayasa Perangkat Lunak. Hanum Yuhliza, penerjemah; Jakarta: Erlangga. Terjemahan dari: Software Engineering,6thedition.
Lampiran 1 Diagram Aliran
Lampiran 2 Diagram Alira
iran Data Level 2 Proses Input Data (1)
Lampiran 3 Diagram Alira
Lampiran 4 Diagram Alira
liran Data Level 2 Proses Analisis Peubah Ganda (5)
liran Data Level 3 Proses Analisis Korelasi Kanonik (5.8)
15
Lampiran 5 Diagram Alira
Lampiran 6 Diagram Alira
liran Data Level 3 Proses Analisis Diskriminan (5.9)
Lampiran 7 Diagram Alira
Lampiran 8 Diagram Alira
liran Data Level 3 Proses Analisis Korespondensi Sederha
liran Data Level 3 Proses Analisis Korespondensi Bergand
17
hana (5.11)
SPSS
.csv (,)
.csv (;)
Ms. Excel
Ms. Access
SPSS
.csv (,)
.csv (;)
Ms. Excel 2003
Edit
Cut Salin Paste Hapus Undo Pilih Semua Bersihkan
Jendela
Data
Pilih Dataset Aktif
Lihat Dataset Aktif
Edit Dataset
Aktif Kalkulator
Bangkitkan Bilangan Acak
Bilangan Acak Seragam
Bilangan Acak Binomial
Bilangan Acak Normal
Statistika
Uji Normal Ganda
Analisis Komponen
Utama
Analisis Faktor Analisis Gerombol
Analisis Gerombol
Hierarki
Analisis Gerombol
K-Means
Analsis Biplot Analisis Korelasi Kanonik
Analisis Diskriminan
Analisis Diskriminan
Analisis Diskriminan
Kanonik
Analisis Korespondensi
Analisis Korespondensi
Sederhana
Analisis Korespondensi
Berganda
Bantuan
Bantuan AMV 2.0
27
Lampiran 20 Perbandingan Output Analisis Korelasi Kanonik AMV 2.0 dengan Perangkat Lunak Lainnya
Indikator AMV 2.0 SAS
Dimensi 1 2 1 2
Korelasi Kanonik 0.94 0.12 0.940969 0.123937
Koefisien Kanonik Peubah Prediktor
Petal.Length -0.85 -1.92 0.8491 -1.9187 Petal.Width 0.69 4.81 -0.6938 4.8095
Koefisien Kanonik Peubah Respon Sepal Length -1.07 0.58 1.069 0.5797 Sepal Width 0.85 2.15 -0.855 2.1462
Lampiran 21 Perbandingan Output Analisis Diskriminan Kuadratik AMV 2.0 dengan Perangkat Lunak Lainny a
a. AMV 2.0
Prediksi
Setosa Versicolor Virginica Total
Asal
Setosa 50 0 0 150
Versicolor 0 48 2 150
Virginica 0 1 49 150
Total 50 49 51 150
b. SAS dan Minitab
Prediksi
Setosa Versicolor Virginica Total
Asal
Setosa 50 0 0 150
Versicolor 0 48 2 150
Virginica 0 1 49 150
Lampiran 22 Perbandingan Output Analisis Diskriminan Kanonik AMV 2.0 dengan Perangkat Lunak Lainnya
Indikator AMV 2.0 SAS SPSS
Fungsi Diskriminan
LD1 LD2 LD1 LD2 LD1 LD2
Petal.Length 0.829 0.024 -.829 .024 -.829 .024
Petal.Width 1.534 2.165 -1.534 2.165 -1.534 2.165
Sepal Length -2.201 -0.932 2.201 -0.932 2.201 -0.932
Sepal Width -2.810 2.839 2.810 2.839 2.810 2.839
Lampiran 23 Perbandingan Output Analisis Korespondensi Sederhana AMV 2.0 dengan Perangkat Lunak Lainnya
Indikator AMV 2.0 SAS Minitab SPSS
Dimensi 1 2 1 2 1 2 1 2
Inersia
Total 0.199245 0.030087 0.1992 0.0301 0.1992 0.0301 0.199 0.03
Koordinat Baris
blue -0.400 0.165 0.400 0.165 0.400 0.165 -0.400 0.165
light -0.441 0.088 0.441 0.088 0.441 0.088 -0.441 0.088
medium 0.034 -0.245 -0.034 -0.245 -0.034 -0.245 0.034 -0.245
dark 0.703 0.134 -0.703 0.134 -0.703 0.134 0.703 0.134
Koordinat Kolom
fair -0.544 0.174 0.544 0.174 0.544 0.174 -0.544 0.174
red -0.233 0.048 0.233 0.048 0.233 0.048 -0.233 0.048
medium -0.042 -0.208 0.042 -0.208 0.042 -0.208 -0.042 -0.208
dark 0.589 0.104 -0.589 0.104 -0.589 0.104 0.589 0.104
29
Lampiran 24 Perbandingan Output Analisis Korespondensi Berganda AMV 2.0 dengan Perangkat Lunak Lainnya
Indikator AMV 2.0 SAS Minitab SPSS
Dimensi 1 2 1 2 1 2 1 2
Inersia
Total 0.649917 0.555195 0.6499 0.5552 0.6499 0.5552 0.650 0.555
Koordinat Kolom
MoisM1 -0.385 0.64 0.385 -0.64 0.385 -0.64 0.385 0.637
MoisM2 -0.416 -0.83 0.416 0.83 0.416 0.83 0.416 -0.799
MoisM4 -0.711 0.76 0.711 -0.76 0.711 -0.76 0.711 0.778
MoisM5 0.826 -0.38 -0.826 0.38 -0.826 0.38 -0.826 -0.43
ManagBF -0.466 1.12 0.466 -1.12 0.466 -1.12 0.466 1.143
ManagHF -0.222 1.04 0.222 -1.04 0.222 -1.04 0.222 1.029
ManagNM 1.336 -0.47 -1.336 0.47 -1.336 0.47 -1.336 -0.463
ManagSF -0.918 -0.96 0.918 0.96 0.918 0.96 0.918 -0.966
UseU1 0.703 0.29 -0.703 -0.29 -0.703 -0.29 -0.703 0.31
UseU2 -0.794 -0.58 0.794 0.58 0.794 0.58 0.794 -0.576
UseU3 0.286 0.52 -0.287 -0.52 -0.287 -0.52 -0.287 0.489
ManureC0 1.336 -0.47 -1.336 0.47 -1.336 0.47 -1.336 -0.463
ManureC1 -0.203 1.35 0.203 -1.35 0.203 -1.35 0.203 1.379
ManureC2 -0.840 0.71 0.840 -0.71 0.840 -0.71 0.840 0.719
ManureC3 -0.019 0.13 0.019 -0.13 0.019 -0.13 0.019 0.085
Multivariat (AMV). Dibimbing oleh AGUS M. SOLEH dan UTAMI DYAH SYAFITRI .
Pengembangan paket R untuk analisis statistika yang memiliki antarmuka user friendlytelah dilakukan sejak tahun 2009 pada Departemen Statistika Institut Pertanian Bogor. Salah satu paket R yang dikembangkan ialah Paket AMV (Analisis Multivariat), yaitu paket untuk melakukan prosedur analisis peubah ganda (Miranti 2010). Analisis peubah ganda pada AMV hanya mencakup analisis komponen utama, analisis gerombol hierarki, analisis gerombol k -means, analisis faktor, dan analisis biplot. Paket AMV masih memiliki beberapa kekurangan, untuk itu perlu dilakukan perbaikan.
Penelitian ini dilakukan untuk memperbaiki paket AMV sebelumnya dengan menambahkan beberapa analisis peubah ganda serta mengatasi batasan-batasan yang ada pada paket AMV. Hasil perbaikan paket AMV dinamakan paket AMV 2.0. Paket AMV 2.0 menambahkan fungsi analisis korelasi kanonik, analisis diskriminan, analisis diskriminan kanonik, analisis korespondensi sederhana, dan analisis korespondensi berganda serta mengatasi batasan -batasan pada sistem manajemen data yang terda pat pada AMV sebelumnya. Selain itu, AMV 2.0 menambahkan fungsi untuk membangkitkan bilangan acak, dan fungsi untuk menamp ilkan output dalam format HTML. Pengujian paket AMV 2.0 dilakukan dengan menggunakan metode blackbox yang membandingkan keluaran AMV 2.0 dengan perangkat lunak SAS, SPSS, dan Minitab . Hasil pengujian menunjukkan bahwa AMV 2.0 mampu menghasilkan output yang sesuai untuk analisis-analisis peubah ganda yang dibuat.
1
PENDAHULUAN
Latar Belakang
Statistika merupakan ilmu yang berkaitan erat dengan komputasi. Analisis statistika semakin berkembang sejalan dengan majunya dunia komputasi. Berkembangnya analisis statistika tentu saja diikuti oleh perkembangan perangkat lunak statistika. Saat ini banyak perangkat lunak statistika yang dapat digunakan dengan mudah oleh praktisi. Akan tetapi harga perangkat lunak tersebut sangat tinggi dibandingkan daya beli masyarakat Indonesia pada umumnya, sehingga menyebabkan banyaknya penggunaan perangkat lunak untuk analisis statistika yang dilakukan secara ilegal (pembajakan) di Indonesia.
Tingkat pembajakan perangkat lunak dapat dikurangi dengan memanfaatkan perangkat lunak yang dapat dipakai dan dikembangkan secara bebas (open source). Salah satu perangkat lunak statistika yang dapat dip akai dan dikembangkan secara bebas ialah R. Penggunaan R untuk analisis statistika di Indonesia masih sangat kurang karena perangkat ini tidak mudah digunakan khususnya bagi peminat statistika yang nonstatistisi dan nonprogramer. Oleh karena itu, diperlukan pembuatan paket R dengan antarmuka user friendly sehingga memudahkan pengguna nonstatistisi dan nonprogramer untuk melakukan analisis statistika.
Sejak tahun 2009, Departemen Statistika Institut Pertanian Bogor mulai mengembangkan paket R untuk analisis statistika yang memiliki tampilan antarmuka user friendly. Salah satu paket R yang dikembangkan ialah Paket AMV (Analisis Multivariat), yaitu paket untuk melakukan prosedur analisis peubah ganda. Analisis peubah ganda pada AMV hanya mencakup analisis komponen utama, analisis gerombol hierarki, analisis gerombol k -means, analisis faktor, dan analisis biplot (Miranti 2010). Selain itu, AMV juga memiliki fungsi untuk melakukan uji normal ganda. Paket AMV memiliki beberapa kekurangan, yaitu hanya satu dataset yang dapat digunakan dalam sistem. Selain itu, impor data hanya terbatas pada file Excel dengan ekstensi .csv atau .xls. Menu untuk manipulasi data pada AMV pun masih terbatas. Oleh karena itu, diperlukan penyempurnaan pada paket AMV agar semakin mempermudah pengguna.
Tujuan
Tujuan dari penelitian ini ialah menyusun paket R untuk mengembangkan paket AMV dengan menambahkan analisis korelasi kanonik, analisis diskriminan, analisis diskriminan kanonik dan analisis korespondensi yang memiliki antarmuka user friendly serta memperbaiki kekurangan yang ada pada paket AMV. Hasil dari pengembangan ini kemudian akan diberi nama paket AMV 2.0.
TINJAUAN PUSTAKA
Pengembangan paket AMV dilakukan pada lingkungan R. R adalah sebuah sistem untuk komputasi statistika dan grafik (Hornik, 2010). Desain R sangat dipengaruhi oleh bahasa S dan bahasa Scheme. R dapat dikembangkan dan distribusikan secara bebas. R terdiri dari paket-paket yang berisi fungsi-fungsi, data, dan dokumentasi dalam R. Ada dua jenis paket R yaitu paket standar yang harus ada dalam R (paket ini terpasang langsung ketika program R terpasang) dan paket tambahan yang dikembangkan oleh banyak ahli (paket ini dapat diunduh pada http://CRAN.R-project.org). Pembuatan paket R di lingkungan Windows membutuhkan perangkat lunak tambahan yaitu Rtools, LaTex, dan HTML Help Workshop. R dapat dioperasikan pada sistem operasi Un ix, Windows, dan Mac.Analisis peubah ganda yang ditambahkan pada paket AMV 2.0 antara lain analisis korelasi kanonik, analisis korespondensi, analisis diskriminan, dan analisis diskriminan kanonik.
Analisis Korelasi Kanonik
Menurut Dillon dan Goldstein (1984), analisis korelasi kanonik adalah salah satu teknik analisis statistik yang digunakan untuk melihat hubungan antara segugus peubah tidak bebas dengan segugus peubah bebas. Korelasi kanonik mirip dengan korelasi sederhana biasa. Perbedaannya, korela si kanonik menggambarkan hubungan antar peubah kanonik dan bukan peubah asli itu sendiri.
PENDAHULUAN
Latar Belakang
Statistika merupakan ilmu yang berkaitan erat dengan komputasi. Analisis statistika semakin berkembang sejalan dengan majunya dunia komputasi. Berkembangnya analisis statistika tentu saja diikuti oleh perkembangan perangkat lunak statistika. Saat ini banyak perangkat lunak statistika yang dapat digunakan dengan mudah oleh praktisi. Akan tetapi harga perangkat lunak tersebut sangat tinggi dibandingkan daya beli masyarakat Indonesia pada umumnya, sehingga menyebabkan banyaknya penggunaan perangkat lunak untuk analisis statistika yang dilakukan secara ilegal (pembajakan) di Indonesia.
Tingkat pembajakan perangkat lunak dapat dikurangi dengan memanfaatkan perangkat lunak yang dapat dipakai dan dikembangkan secara bebas (open source). Salah satu perangkat lunak statistika yang dapat dip akai dan dikembangkan secara bebas ialah R. Penggunaan R untuk analisis statistika di Indonesia masih sangat kurang karena perangkat ini tidak mudah digunakan khususnya bagi peminat statistika yang nonstatistisi dan nonprogramer. Oleh karena itu, diperlukan pembuatan paket R dengan antarmuka user friendly sehingga memudahkan pengguna nonstatistisi dan nonprogramer untuk melakukan analisis statistika.
Sejak tahun 2009, Departemen Statistika Institut Pertanian Bogor mulai mengembangkan paket R untuk analisis statistika yang memiliki tampilan antarmuka user friendly. Salah satu paket R yang dikembangkan ialah Paket AMV (Analisis Multivariat), yaitu paket untuk melakukan prosedur analisis peubah ganda. Analisis peubah ganda pada AMV hanya mencakup analisis komponen utama, analisis gerombol hierarki, analisis gerombol k -means, analisis faktor, dan analisis biplot (Miranti 2010). Selain itu, AMV juga memiliki fungsi untuk melakukan uji normal ganda. Paket AMV memiliki beberapa kekurangan, yaitu hanya satu dataset yang dapat digunakan dalam sistem. Selain itu, impor data hanya terbatas pada file Excel dengan ekstensi .csv atau .xls. Menu untuk manipulasi data pada AMV pun masih terbatas. Oleh karena itu, diperlukan penyempurnaan pada paket AMV agar semakin mempermudah pengguna.
Tujuan
Tujuan dari penelitian ini ialah menyusun paket R untuk mengembangkan paket AMV dengan menambahkan analisis korelasi kanonik, analisis diskriminan, analisis diskriminan kanonik dan analisis korespondensi yang memiliki antarmuka user friendly serta memperbaiki kekurangan yang ada pada paket AMV. Hasil dari pengembangan ini kemudian akan diberi nama paket AMV 2.0.
TINJAUAN PUSTAKA
Pengembangan paket AMV dilakukan pada lingkungan R. R adalah sebuah sistem untuk komputasi statistika dan grafik (Hornik, 2010). Desain R sangat dipengaruhi oleh bahasa S dan bahasa Scheme. R dapat dikembangkan dan distribusikan secara bebas. R terdiri dari paket-paket yang berisi fungsi-fungsi, data, dan dokumentasi dalam R. Ada dua jenis paket R yaitu paket standar yang harus ada dalam R (paket ini terpasang langsung ketika program R terpasang) dan paket tambahan yang dikembangkan oleh banyak ahli (paket ini dapat diunduh pada http://CRAN.R-project.org). Pembuatan paket R di lingkungan Windows membutuhkan perangkat lunak tambahan yaitu Rtools, LaTex, dan HTML Help Workshop. R dapat dioperasikan pada sistem operasi Un ix, Windows, dan Mac.Analisis peubah ganda yang ditambahkan pada paket AMV 2.0 antara lain analisis korelasi kanonik, analisis korespondensi, analisis diskriminan, dan analisis diskriminan kanonik.
Analisis Korelasi Kanonik
Menurut Dillon dan Goldstein (1984), analisis korelasi kanonik adalah salah satu teknik analisis statistik yang digunakan untuk melihat hubungan antara segugus peubah tidak bebas dengan segugus peubah bebas. Korelasi kanonik mirip dengan korelasi sederhana biasa. Perbedaannya, korela si kanonik menggambarkan hubungan antar peubah kanonik dan bukan peubah asli itu sendiri.
2
Kombinasi linear dari kedua gugus tersebut dapat dituliskan sebagai berikut :
′ ′
dimana vektor koefisien , vektor koefisien , vektor peubah bebas , dan vektor peubah tidak bebas dapat dituliskan sebagai berikut :
Pasangan dari kombinasi linier antara U danVdisebut peubah kanonik dan korelasinya disebut korelasi kanonik. Korelasi antara U danVdiperoleh dari fungsi berikut :
, ′
′ ′
merupakan matriks ragam peragam dari gugus peubah bebas, merupakan matriks ragam peragam dari gugus peubah tidak bebas, dan merupakan matriks peragam dari gugus peubah bebas dan gugus peubah tidak bebas.
Pasangan kombinasi linear UidanViyang memaksimumkanCorr(Ui, Vi)yaitu :
i= 1, 2, .... ,p, dengan asumsip≤q Nilai λ1≥ λ2≥ .... ≥ λpmerupakan akar ciri
dari matriks yang
tidak lain adalah korelasi kanonik kuadrat (ρ1
vektor ciri yang bersesuaian dengan akar ciri tersebut. Nilai λ1 ≥ λ2 ≥ .... ≥ λp juga merupakan p akar ciri terbesar dari matriks dan f1, f2,...., fp
adalah vektor ciri yang bersesuaian dengan akar ciri tersebut (Johnson dan Wichern 2002).
Untuk menguji bahwa qpeubah tak bebas berhubungan dengan p peubah bebas
dilakukan uji lambda Wilks terhadap korelasi kanonik. Hipotesis yang diuji sebagai berikut :
H0: = 0 H1: ≠ 0
Statistik uji lambda Wilks dapat dicari dengan menggunakan persamaan berikut :
∏ 1
dimana M = min (p,q). Statistik uji lambda Wilks dapat didekati dengan statistik uji F, yaitu : jumlah peubah bebas, dan q adalah jumlah peubah tidak bebas. H0 ditolak jika nilai
> , .
Analisis Diskriminan
Analisis diskriminan merupakan teknik statistik yang dapat digunakan untuk memisahkan beberapa gugus objek yang berasal dari dua atau lebih kelompok, serta mengalokasikan suatu objek baru yang belum diketahui dari kelompok mana ke dalam suatu kelompok yang telah ditentukan sebelumnya. Salah satu pendeketan analisis diskriminan adalah dengan menggunakan model peluang. Jika merupakan peluang prior dari
kelompok, dan adalah fungsi
Pengalokasian kelompok yang meminimumkan salah klasifikasi adalah dengan cara memilih kelompok yang mempunyai nilai maksimum , hal ini dikenal sebagai aturan Bayes.
Jika sebaran dari kelompok adalah normal ganda dengan nilai tengah dan ragam peragam , maka aturan Bayes meminimumkan
2 log 2
′ | |
2
Perbedaan antara Qc untuk dua kelompok adalah fungsi kuadrat dari , sehingga metode ini dikenal sebagai analisis diskriminan kuadratik (Venables dan Ripley 2002).
Analisis Diskriminan Kanonik Dalam SAS/STAT 9.2 User’s Guide, analisis diskriminan kanonik merupakan analisis korelasi kanonik antara peubah kuantitatif dengan peubah boneka hasil transformasi peubah kelompok. Vektor peubah tidak bebas pada analisis diskriminan kanonik adalah peubah boneka hasil transformasi peubah kelompok. Fungsi diskriminan kanonik merupakan p eubah kanonik yang merupakan kombinasi linier dari vektor peubah bebas , fungsi tersebut dapat dituliskan sebagai berikut :
i= 1, 2, .... ,p, dengan asumsip≤q Nilai λ1≥ λ2≥ .... ≥ λpmerupakan akar ciri dari matriks
yang tidak lain adalah korelasi kanonik kuadrat (ρ12, ρ22, ... , ρp2) dan e1, e2,...., ep
adalah vektor ciri yang bersesuaian dengan akar ciri tersebut. merupakan matriks ragam peragam gabungan yang dapat diperoleh dari persamaan berikut :
∑ 1
∑
dimana merupakan matriks ragam-peragam dari setiap kelompok dan adalah jumlah observasinya, dengan k=1, 2, ... g. p dan q adalah jumlah peubah bebas dan jumlah peubah tidak bebas, serta adalah jumlah kelompok .
Analisis Korespondensi
Analisis korespondensi adalah suatu metode yang menyajikan baris dan kolom dari matriks data (tabel kontingensi) sebagai titik pada ruang vektor dengan dimensi yang lebih rendah (Greenacre 1984). Konsep yang digunakan dalam analisis ini adalah penguraian nilai singular terampat (generalized singular value decomposition, GSVD). Analisis korespondensi dar i tabel kontingensi dua arah disebut analisis korespondensi sederhana.
Matriks korespondensi dapat diperoleh dengan cara membagi setiap unsur matriks N dengan total semua unsurN, dimanaNadalah tabel kontingensi dua arah tidak negatif dari dua peubah dengan masing -masing peubah mempunyai a dan b kategori. Matriks dinotasikan sebagai berikut :
1 .. dengan ..
Dari matriks korespondensi , diperoleh vektor baris dan vektor kolom :
1dan 1
dimana1adalah sebuah vektor satuan. Vektor adalah vektor yang unsur -unsurnya merupakan jumlah unsur dari vektor -vektor baris matriks dan vektor adalah vektor yang unsur-unsurnya merupakan jumlah unsur dari vektor-vektor kolom matriks .
Matriks profil baris dan kolom dinyatakan sebagai berikut :
dan dimana :
= Matriks diagonal dengan diiadalah total baris ke-i dari matriks
= Matriks diagonal dengan djjadalah total kolom ke-i dari matriks
Untuk menentukan koordinat dari profil dari baris dan kolom pada grafik dilakukan penguraian GSVD terhadap matriks , penguraian tersebut sebagai berikut :
′
adalah matriks berukuran a ×m, adalah matriks berukuran b × m dimana berlaku , m adalah rank dari matriks yang sama dengan rank dari matriks atau min(a,b)-1. adalah matriks diagonal dimana unsur -unsur diagonalnya merupakan nilai singular (λ1,..., λm) dari matriks . Matriks dan diperoleh dari penguraian nilai singular dari
/ /
. Total inersia (merepresentasikan semua informasi dalam seluruh ruang) adalah ∑ .
Koordinat utama profil baris dan kolom dinyatakan sebagai berikut :
4
sedangkan koordinat standar profil baris dan kolom yaitu :
dan
Analisis korespondensi untuk tabel kontingensi banyak arah disebut análisis korespondensi berganda. Pada análisis korespondensi berganda matriks N yang digunakan merupakan tabel Burt. Tabel Burt merupakan matriks . Matriks mempunyai jumlah baris yang sama dengan jumlah individu dalam sampel dan jumlah kolom yang sama dengan jumlah semua kategori yang berhubungan dengan semua peubah. Masing-masing unsur dalam satu baris matriks bernilai satu jika individu tersebut ada dalam kategori dan nol jika sebaliknya.
Pembangkitan Bilangan Acak Selain menambahkan analisis peubah ganda, AMV 2.0 juga menambahkan fungsi untuk membangkitkan bilangan acak. Bilangan acak yang dapat dibangkitkan yaitu bilangan acak yang diambil dari data yang menyebar binomial, seragam, dan normal. Sebaran Binomial
Jika dilakukan n percobaan yang saling bebas, dimana setiap hasil percobaan mempunyai peluang “sukses” sebesar p dan peluang “gagal” sebesar 1-p, maka X yang merupakan jumlah terjadinya kejadian “sukses” pada n percobaan tersebut dapat dikatakan menyebar binomial dengan parameter (n, p). Sebaran binomial dengan parameter (n, p) memiliki fungsi massa peluang :
1 ,i= 0, 1, …,n
dengan i merupakan banyaknya kejadian “sukses” (Ross 1989).Pembangkitan bilangan acak dari data yang menyebar binomial dilakukan dengan algoritma Binomial Triangle Parallelogram Exponential and Combined(BTPEC).
Sebaran Seragam
Sebaran seragam termasuk k e dalam kelompok sebaran kontinu. Menurut Ross (1989), suatu peubah acak dikatakan menyebar seragam pada interval (a,b) jika memiliki fungsi kepekatan peluang :
1
, jika 0,
Pembangkitan bilangan acak dari data yang menyebar seragam dilakukan dengan algoritmaMersenne Twister.
Sebaran Normal
Jika X merupakan peubah acak yang menyebar normal dengan parameterµ2danσ2, maka fungsi kepekatan peluangXyaitu :
√ ,∞ < < ∞
Kurva dari fungsi kepekatan peluang tersebut berbentuk lonceng yang simetrik pada µ. Dimana µ merupakan nilai tengah dari X dan σ merupakan simpangan baku dari X (Ross 1989). Pembangkitan bilangan acak dari data yang menyebar normal dilakukan dengan algoritmaInversion.
METODOLOGI
Penyusunan paket R ini mengikuti kaidah rekayasa perangkat lunak dengan model air terjun (waterfall) melalui tahapan-tahapan sebagai berikut:
1. Analisis dan Identifikasi Kebutuhan Sistem
Tahap ini bertujuan untuk memperhatikan kebutuhan pengguna meliputi batasan, tujuan, masukan, dan keluaran dari perangkat lunak. Tahapan ini dilakukan dengan menggali informasi yang dibutuhkan oleh pengguna perangkat lunak statistika yang diadopsi dari per angkat lunak yang sudah ada seperti Minitab, SPSS, dan SAS.
2. Analisis Perancangan Sistem
Tahap ini bertujuan untuk menentukan arsitektur sistem secara keseluruhan. Tahapan ini dilakukan dengan membuat diagram aliran data dan merancang antarmuka sistem.
3. Implementasi dan Pengujian Unit
Pada tahap ini rancangan sistem yang sebelumnya telah dibuat direalisasikan menjadi serangkaian perangkat lunak
dengan menggunakan bahasa
pemrograman. Pembangunan tampilan antarmuka menggunakan paket tcltk. Implementasi sistem juga diiringi dengan pengujian tiap unit sistem untuk melihat apakah tiap unit telah memenuhi spesifikasi yang telah ditentukan.
4. Integrasi dan Pengujian Sistem