Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 25
3
Transformasi Data Dengan RTRANSFORMASI DATA DENGAN R
3
Pada modul 3 akan dipelajari Transformasi data menggunakan R. Terdapat tiga sub bahasan dalam modul 3 ini, yaitu transformasi untuk kesimetrikan data, transformasi homogenitas rentang sebaran, serta transformasi untuk meluruskan pola garis
3.1 Transformasi Untuk Kesimetrikan Data
Data yang kita miliki, terutama data asli, seringkali tidak menunjukkan pola simetrik.
Ketidaksimetrikan data (kemiringan pola sebaran) dapat dilihat dari posisi Me di dalam kotak suatu box‐plot.
Letak Me (Median) yang lebih dekat ke qB (quartile bawah) mencirikan suatu sebaran dengan kemiringan positif (menjulur ke atas).
Letak Me yang lebih dekat ke qA mencirikan suatu sebaran dengan kemiringan negatif (menjulur ke bawah).
Panjang garis yang menjulur dari kotak, menjadi petunjuk adanya data yang agak jauh dari kumpulannya dan hal ini tidak selalu berarti pola sebaran tersebut miring.
Selama posisi Me terhadap qB maupun qA relatif seimbang, garis yang terlalu panjang hanya menunjukkan bhw. sebaran data itu memiliki ekor atau kemenjuluran yang lebih panjang dari semestinya.
Tujuan transformasi jelas, yaitu membuat sedekat mungkin dengan bentuk standar, yaitu berpuncak tunggal, simetri, mengecil dengan mulus di kedua sisinya.
Analisis Data Eksplorasi (Modul Praktikum)
Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 26
3
Transformasi Data Dengan RContoh
: Lihat data yl (Tingkat bunuh diri) yang disajikan pada Tabel 3.1. Tabel 3.1. Data Tingkat bunuh diri di berbagai Negara. Negara 25‐34 35‐44 45‐54 55‐64 65‐74 Kanada 22 27 31 34 24 Israel 9 10 10 14 27 Jepang 22 19 21 31 49 Aust 29 40 52 53 69 Prancs 16 25 36 47 56 Jerman 28 35 41 49 52 Hongar 48 65 84 81 107 Italia 7 8 11 18 27 Blanda 8 11 18 20 28 Poland 26 29 36 32 28 Spanyl 4 7 10 16 22 Swedia 28 41 46 51 35 Swiss 22 34 41 50 51 Inggrs 10 13 15 17 22 USA 20 22 28 33 37 LANGKAH DALAM R:> bunuh<- read.table("C:/R/bunuh.txt", header=TRUE) > boxplot(bunuh)
Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 27
3
Transformasi Data Dengan R > attach(bunuh) > boxplot(X25.34)Jika dilihat dari boxplot tersebut, maka dapat dilihat bahwa data menjulur ke atas, jadi transformasi yang dapat disarankan adalah:
Latihan Praktikum:
Lakukan transformasi pada data bunuh diri berbagai Negara pada usia 25‐34 tahun agar simetrik. Buat boxplotnya, apakah nilai median dan juraian boxplot telah proporsional?
3.2 Transformasi Homogenitas Rentang Sebaran
Pembandingan pusat kelompok data akan lebih efisien kalau rentang sebarannya lebih homogen. (Salah satu asumsi dalam ANAVA untuk pembandingan data adalah homogenitas varians).
Untuk menyamakan sebaran, perlu diketahui hubungan sebaran dengan pusat data.
Bila sebaran cenderung naik bersama dengan naiknya pusat, diperlukan trans. yang membuat sebaran data yang pusatnya tinggi menjadi lebih kecil, misal x1/2, log x, ‐1/x
Analisis Data Eksplorasi (Modul Praktikum)
Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 28
3
Transformasi Data Dengan RBila sebaran mengecil dengan naiknya pusat, diperlukan trans. yang membuat sebaran data yang pusatnya tinggi menjadi lebih besar, mis. X2, X3. Aturan praktis dari Tukey ialah :
; Plot pasangan (log Me, log d) pada diagram pencar
; Tarik garis lurus putus‐putus yang paling mendekati titik‐titik yang ada ; Ambil dua titik pada garis, sebaiknya berupa pasangan (log Me, log d)
dari kelompok data ; Hitung nisbah sebagai berikut: ; Nilai nisbah ini merupakan arah garis. ; Lakukan transformasi berdasarkan acuan sbb. : TRANSFORMASI YANG SESUAI DENGAN NISBAH Nisbah kira‐kira Transformasi yang dicoba ½ 1 3/2 2 x1/2 Log x ‐1/x ‐ 1/x2
; Contoh : Lihat data tentang tingkat bunuh diri (laki‐laki) dari lima kelompok umur (bunuh.txt)
Latihan Praktikum:
Buatlah program menggunakan R, untuk melakukan transformasi rentang sebaran data. Data yang digunakan adalah data tingkat bunuh diri berbagai Negara.
3.3 Transformasi Untuk Meluruskan Pola Garis
Untuk memeriksa apakah model linier (garis lurus) tepat digunakan (sebelum mencari persamaan garis taksiran), dilakukan cara sebabagai berikut :
Perhatikan scatter diagram
An
3
nindya Apriliyanti3
Transform ; Ji ; Ji ; H Gam Mesk hubu Peme ; S ; Ji d ; JiATURAN 0,9 < seder 0,5 < P, M.Si – Jurusa masi Data De ika ya, mak ika tidak, m Hal ini dapa mbar 3.1. S kipun YA ngan yang eriksan yan S = min( bBT ika N = 1 digunakan. ika N = 0 , N PENGGU N ≤ 1; Tida rhana (gari < N ≤ 0,9 ; an Statistika FMI engan R ka model li maka hubu at diperhati catter Diag < YT < YB tidak linier ng lebih bai T, bAT ), M = , berarti bBT dan b UNAAN TR ak perlu di is lurus). PA Unpad inier dapat ngan antar ikan dalam gram untuk B atau YB r. Hal ini ta ik, adalah d = maks( bBT bahwa bB bAT bertand RANSFORM igunakan tr digunakan ra X dan Y t m Gambar 3 k transform B < YT < Y ampak dari dengan men T, bAT ), N = T = bAT , m da sama, dil MASI ransformas n. tidak linier .1 berikut : masi peluru YA , masih scatter dia nghitung : = S/M maka mode lakukan tra si, tetapi gu . : san pola ga h ada kem agram, el linier ba ansformasi. unakan mo 29 aris ungkinan aik untuk . odel linier 9
Analisis Data Eksplorasi (Modul Praktikum)
Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 30
3
Transformasi Data Dengan R; Jika scatter diagram menunjukkan bahwa data memencar, yang berarti bahwa hubungan antara X dan Y renggang, maka model linier sederhana sudah cukup baik.
; Jika hubungan antara X dan Y erat atau jumlah observasi sedikit, maka gunakan transformasi.
; Sehubungan dengan makna transformasi tersebut, jika ada alasan wajar untuk melakukan transformasi (bila kelengkungan pada data memang wajar, maka gunakan transformasi. Tetapi jika yakin bahwa kelengkungan itu terjadi secara kebetulan, yaitu karena fluktuasi sampel, maka tak perlu dihiraukan. 0 < N ≤ 0,5; Gunakan transformasi untuk X atau kedua‐duanya.
PETUNJUK PEMILIHAN TRANSFORMASI Tukey (1977) memberikan petunjuk pemilihan transformasi sebagai berikut : FORMULA R Diberikan data penduduk pada Tabel 3.2: penduduk.txt Simpan dengan nama penduduk.txt. Misal simpan di C:/R/penduduk.txt Panggil di R
Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 31
3
Transformasi Data Dengan R Tabel 3.2. Ratio Penduduk tahun penduduk 1 2.44 2 3.23 3 3.69 4 4.32 5 4.83 6 5.37 7 7.21 8 8.79 9 10.38 10 11.51 11 14.01 12 18.24 Buat scatter plot >plot(penduduk~tahun, data=dataku, pch=16) Buat program sebagai berikut: > trans1<-function(x,y){ + xa<-max(x); ya<-max(y) + xb<-min(x); yb<-min(y) + xt<-median(x); yt<-median(y) + bbt<-((yt-yb)/(xt-xb)) + bat<-((ya-yt)/(xa-xt)) + s<-min(bbt,bat) + m<-max(bbt,bat)
Analisis Data Eksplorasi (Modul Praktikum)
Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 32
3
Transformasi Data Dengan R + N<-(s/m) + N + } > transform<-trans1(tahun,penduduk) > transformPeriksa nilai N, lakukan transformasi jika perlu. Mial dalam hal ini, transformasi dilakukan untuk y Æ log y, maka fungsi dalam R adalah: > logy<-log(penduduk) > logy [1] 0.891998 1.172482 1.305626 1.463255 1.574846 1.680828 1.975469 2.173615 [9] 2.339881 2.443216 2.639771 2.903617 > plot(logy~tahun) > abline(lm(logy~tahun)) Untuk mengetahui persamaan garisnya, maka diberikan formula: > fit<-lm(logy~tahun) > fit Call:
lm(formula = logy ~ tahun)
Coefficients:
(Intercept) tahun 0.7492 0.1740
Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 33
3
Transformasi Data Dengan RLatihan Mandiri Modul 3
Gunakan data yang telah anda pilih untuk mengerjakan Latihan Mandiri Modul 2. Lakukan transformasi untuk kesimetrikan data, transformasi homogenitas rentang sebaran, serta transformasi untuk meluruskan pola garis. Petunjuk: Jika tidak ada data yang mengandung ke‐asimetrisan, maka anda boleh mencari data lain.