LAPORAN TUGAS PENGANTAR BIG DATA
LIBRARY BIGLM & SPEEDGLM
DALAM R
Disusun oleh: Kelompok 10
Anggota:
1. Maulinda
10/305449/PA/13516
2. Paramitha Kurniajati
13/350039/PA/15609
3. Fariz Budi Arafat
13/350108/PA/15620
4. Ayun Prabastiningtias
14/368602/PA/16295
PROGRAM STUDI STATISTIKA
DEPARTEMEN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS GADJAH MADA
YOGYAKARTA
2017
BAB I
PENDAHULUAN
1.1. TUJUAN
1. Mengetahui hubungan pengaruh jarak tempuh (Distance) dengan waktu pesawat di udara (Airtime). Kemudian akan dibandingkan hasilnya dengan menggunakan fungsi BIGLM, LM, dan SPEEDLM.
2. Mengetahui besarnya peluang pesawat mengalami delay dari statistik data keterlambatan kedatangan (StatAD) dengan variabel keterlambatan keberangkatan (DepDelay), waktu penerbangan (AirTime), dan jarak tempuh (Distance). Kemudian akan dibandingkan hasilnya dengan fungsi BIGGLM, GLM, dan SPEEDGLM.
1.2. PRINSIP LIBRARY 1.2.1. BIGLM
Deskripsi
BIGLM berfungsi untuk membuat sebuah model linier yang hanya menggunakan memori p2 untuk variabel p. Biglm dapat diperbarui dengan lebih banyak data menggunakan update. Hal ini memungkinkan regresi linear pada sekumpulan data yang lebih besar dari pada memori.
Penggunaan Fungsi:
biglm(formula, data, weights=NULL, sandwich=FALSE)
1.2.2. Lm Deskripsi
LM dapat digunakan digunakan untuk melakukan regresi, analisis stratum tunggal varians dan analisis kovarians.
Penggunaan Fungsi
lm(formula, data, subset, weights, na.action, method = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE, singular.ok = TRUE, contrasts = NULL, offset, ...)
1.2.3. SPEEDLM Deskrisi
Fungsi kelas SPEEDLM dapat mempercepat pemasangan LMs ke kumpulan data yang besar. Kinerja tinggi dapat diperoleh terutama jika R dikaitkan dengan BLAS yang dioptimalkan, seperti ATLAS.
Penggunaan Fungsi
speedlm(formula, data, weights = NULL, offset = NULL, sparse = NULL, set.default = list(), method=c('eigen','Cholesky','qr'), model = FALSE, y = FALSE, fitted = FALSE, subset=NULL, ...)
1.2.4. BIGGLM Deskrisi
BIGGLM digunakan untuk membentuk objek model liniar umum yang hanya menggunakan memori p2 untuk variabel p.
Penggunaan Fungsi
bigglm(formula, data, family=gaussian(),...)
1.2.5. GLM Deskripsi
GLM digunakan untuk menyesuaikan model linier umum yang ditentukan dengan memberikan deskripsi simbolis prediktor linier dan deskripsi distribusi kesalahan.
Penggunaan Fungsi
glm(formula, family = gaussian, data, weights, subset, na.action, start = NULL, etastart, mustart, offset, control = list(...), model = TRUE, method = "glm.fit", x = FALSE, y = TRUE, contrasts = NULL, ...)
1.2.6. SPEEDGLM Deskripsi
SPEEDGLM sesuai dengan GLMs ke set data berukuran sedang, yaitu yang tersimpan ke memori R. Kinerja tertinggi, dalam hal waktu komputasi, diperoleh saat R dihubungkan dengan BLAS yang dioptimalkan, seperti ATLAS.
Penggunaan Fungsi
speedglm(formula,data,family=gaussian(),weights=NULL,start=NULL, etastart=NULL,mustart=NULL,offset=NULL,maxit=25,k=2,sparse=NULL, set.default=list(),trace=FALSE,method=c('eigen','Cholesky','qr'),model=FALS E, y=FALSE, fitted=FALSE,...)
BAB II
IMPLEMENTASI
Data yang digunakan dalam laporan ini adalah data penerbangan dari tahun 2008 dimana total data yaitu 7.009.728. Dari jumlah data tersebut telah diselidiki bahwa terdapat misiing value yang harus dihapus karena dapat mempengaruhi hasil analisis.
Setelah dilakukan clearing missing value diperoleh data sejumlah 6.855.029 yang dapat digunakan untuk proses analisis selanjutnya,
Seperti sudah dijelaskan di atas package yang digunakan adalah biglm dan speedlm dimana variabel yang digunakan dalam data penerbangan adalah jarak tempuh pesawat (distance) dan waktu pesawat di udara (airtime).
Ingin diketahui hubungan antara pengaruh variabel distance sebagai variabel independen dengan variabel airtime sebagai variabel dependen. Selain itu ingin mengetahui besarnya peluang pesawat mengalami keterlambatan (delay) dengan menggunakan statistik data keterlambatan kedatangan (StatAD) dengan variabel keterlambatan keberangkatan (DepDelay), waktu penerbangan (AirTime), dan jarak tempuh (distance).
Setelah mengetahui hasilnya kemudian akan saling dibandingkan dengan masing – masing fungsi yang ada yaitu fungsi biglm, glm dan speedglm. Akan dibandingkan waktu dari masing-masing perhitungan yaitu lama proses dari masing-masing fungsinya
2.1.Pre-Processing
Diperoleh jumlah data sebesar 7009728. Karena terdapat missing value, maka perlu dilakukan clearing missing value untuk melanjutkan analisis.
2.2. Fungsi BIGLM
Pada proses pengolahan data dengan menggunakan fungsi BIGLM diperlukan waktu sebesar 9,4 detik.
Syntax dan Output
Model
Airtime = 18,257 + 0,1177*Distance
2.3. Fungsi LM
Pada proses pengolahan data dengan menggunakan fungsi LM diperlukan waktu sebesar 10,3 detik.
Syntax dan Output
Model
Airtime = 18,257 + 0,1177*Distance
2.4.Fungsi SPEEDLM
Pada proses pengolahan data dengan menggunakan fungsi SPEEDLM diperlukan waktu sebesar 10,04 detik.
Syntax dan Output
Model
Airtime = 18,2570 + 0,1177*Distance
2.5. Interpretasi Model dengan Fungsi BIGLM, LM, dan SPEEDLM
Berdasarkan perhitungan di atas telah diketahui hubungan pengaruh variabel airtime (waktu tempuh pesawat) dengan variabel distance (jarak tempuh pesawat) yaitu hubungan linear dengan menggunakan fungsi yang berbeda diperoleh model persamaan yang sama yaitu:
Airtime = 18,2570 + 0,1177*Distance
Artinya setiap kenaikan satu satuan variabel distance maka mengakibatkan waktu penerbangan akan lebih lama sebesar 0,1177 menit.
2.6. Membentuk Variabel StatAD
Selanjutnya akan dibentuk variabel StatAD dimana akan dihitung besarnya peluang pesawat mengalami keterlambatan (delay) dimana variabel status arrival delay bernilai 0 dan 1. Dengan
0 = tidak mengalami delay dan 1 = mengalami delay
Nilai Status Arrival Delay ditentukan dari delay tidaknya pesawat yang didapatkan dari variabel lama waktu keterlambatan kedatangan (ArrDelay).
2.7.Fungsi BIGGLM
Dengan fungsi bigglm waktu proses yang dibutuhkan adala sebesar 5 menit 37,5 detik.
Syntax dan Output
Model ( | ) ( ) ( ) ( | ) Interpretasi
- Setiap kenaikan satu satuan variabel DepDelay maka peluang pesawat mengalami
delay akan naik.
- Setiap kenaikan satu satuan variabel AirTime maka peluang pesawat mengalami
delay akan naik.
- Setiap kenaikan satu satuan variabel Distance maka peluang pesawat mengalami
akan turun.
2.8.Fungsi SPEEDGLM
Dengan fungsi speedglm waktu proses yang dibutuhkan adalah sebesar 8 menit 6,4 detik.
Model ( | ) ( ) ( ) ( | ) Interpretasi
- Setiap kenaikan satu satuan variabel DepDelay maka peluang pesawat mengalami
delay akan naik.
- Setiap kenaikan satu satuan variabel AirTime maka peluang pesawat mengalami
delay akan naik.
- Setiap kenaikan satu satuan variabel Distance maka peluang pesawat mengalami
akan turun.
-
2.9.Fungsi GLM
Dengan fungsi glm waktu proses yang dibutuhkan adalah sebesar 14 menit 26,7 detik. Namun , fungsi glm tidak bisa menyelesaikan persamaan tersebut karena kehabisan memori seperti pada output dibawah ini:
BAB III
KESIMPULAN
1. Penggunakan library BIGLM dan SPEEDGLM dalam data penerbangan tahun 2008 dapat dilakukan. Dalam kasus ini Ingin diketahui hubungan antara pengaruh variabel distance sebagai variabel independen dengan variabel airtime sebagai variabel dependen. Selain itu ingin mengetahui besarnya peluang pesawat mengalami keterlambatan (delay) dengan menggunakan statistik data keterlambatan kedatangan (StatAD) dengan variabel keterlambatan keberangkatan (DepDelay), waktu penerbangan (AirTime), dan jarak tempuh (distance).
2. Diperoleh persamaan model yang sama antara fungsi BIGLM, LM, dan SPEEDLM yaitu :
Airtime = 18,257 + 0,1177*Distance
Ini berarti tiap kenaikan satu satuan variabel distance maka mengakibatkan waktu penerbangan akan lebih lama sebesar 0,1177 menit.
3. Dari ketiga fungsi tersebut diperoleh waktu proses berbeda yaitu : a. Fungsi BIGLM : 9,4 detik
b. Fungsi SPEEDLM : 10,04 detik
c. Fungsi LM : 10,3 detik
4. Diperoleh pula besarnya besarnya peluang pesawat mengalami keterlambatan (delay) dengan menggunakan fungsi yang berbeda diperoleh model sebagai berikut : a. Fungsi BIGGLM ( | ) ( ) ( ) ( | ) b. Fungsi SPEEDGLM ( | ) ( ) ( ) ( | )
c. Fungsi GLM
Pada fungsi ini tidak dapat diperoleh persamaan dikarenakan kehabisan memori.
5. Interpretasi dari persamaan model tersebut adalah :
 Setiap kenaikan satu satuan variabel DepDelay maka peluang pesawat mengalami delay akan naik.
 Setiap kenaikan satu satuan variabel AirTime maka peluang pesawat mengalami delay akan naik.
 Setiap kenaikan satu satuan variabel Distance maka peluang pesawat mengalami akan turun.
6. Selain persamaan model, diperoleh pula besarnya waktu proses yang diperlukan sehingga dapat dibandingkan hasilnya tiap fungsi yaitu,
a. Fungsi BIGGLM : 5 menit 37,5 detik b. Fungsi SPEEDGLM : 8 menit 6,4 detik c. Fungsi GLM : 14 menit 26,7 detik