• Tidak ada hasil yang ditemukan

Pemanfaatan Software R untuk Analisis Regresi Linier PEMANFAATAN SOFTWARE R UNTUK ANALISIS REGRESI LINEAR

N/A
N/A
Protected

Academic year: 2021

Membagikan "Pemanfaatan Software R untuk Analisis Regresi Linier PEMANFAATAN SOFTWARE R UNTUK ANALISIS REGRESI LINEAR"

Copied!
8
0
0

Teks penuh

(1)

52

PEMANFAATAN SOFTWARE R UNTUK ANALISIS REGRESI LINEAR

Anita Andriani

D3 Manajemen Informatika, Fakultas Teknologi Informasi Universitas Hasyim Asy’ari Tebuireng Jombang

Email: anita.unhasy@gmail.com

Abstrak

R adalah suatu sistem untuk analisis data yang termasuk dalam kelompok open source software atau disebut juga dengan freeware. Penggunaan software R sampai saat ini masih kalah popular bila dibandingkan dengan software – software statistika lain yang berbayar, seperti SPSS, MINITAB, SAS atau Eviews. Keterbatasan referensi dan penunjang, khusunya dalam bahasa Indonesia, adalah salah alasan pengguna statistika lebih memilih paket – paket statistika komersil daripada software R yang gratis dan memberikan hasil analisis yang tidak kalah powerful dan sistem grafik yang menarik. Diantara banyaknya teknik – teknik statistika yang dapat diselesaikan software R, salah satu yang paling diminati adalah analisis regresi linear. Pada artikel ini akan dibahas tentang pemodelan regresi linear berganda menggunakan software R sebagai salah satu alternatif software SPSS atau software berbayar lainnya. Versi R yang digunakan adalah Command Line Interface (CLI). Analisa regresi pada artikel ini meliputi pembentukan model regresi linear berganda dan analisis plot residual untuk melihat kecocokan model yang telah dibentuk.

Kata kunci: software R, analisis regresi linear, open source Abstract

R is a system used for data analysis which belongs to open source software group or known by freeware. The use of R software is less popular than other paid statistics software, such as SPSS, MINITAB, SAS or Eviews. The limitation of references, especially in bahasa, is one of the reasons why users prefer to commercial statistical packages than R which is free and provide no less robust analysis results and interesting graphics systems. One of the most desirable statisticial techniques in R is linear regression analysis. This article will discuss about multiple linear regression modeling using software R as an alternative SPSS software using R-CLI (Command Line Interface). Multiple linear regression analysis and residual plot analysis will be formed for fitting model.

Keywords: R software, linear regression analysis, open source

I. PENDAHULUAN

R adalah adalah bahasa pemrograman untuk komputasi dan pengolahan data yang bersifat open source. Versi awal R dibuat oleh Ross Ihaka dan Robert Gentleman pada tahun 1992 di Universitas Auckland, dan dari kedua nama inilah kemudian dinamakan dengan R. Saat ini R dikembangkakan oleh R Development Core Team dan tersedia secara gratis. Software R dapat dioperasikan oleh beberapa sistem operasi seperti Linux, Windows dan Mac.

Kelebihan R dibandingkan dengan software statistika lainnya adalah update software yang relatif cepat serta kualitasnya yang relatif baik karena dikembangkan langsung oleh team statistisi. Selain itu, para ahli pengguna R di seluruh dunia juga memberikan pengembangan kode, melaporkan bug dan membuat dokumentasi untuk R. Akan tetapi, fasilitas GUI (Graphical User Interface) pada R masih kurang memadai karena lebih bersifat CLI (Command Line Interface). Kemampuan R sebagian besar didapatkan dari add-on packages, yaitu kumpulan perintah yang digunakan untuk melakukan suatu analisis. Package dasar yang sudah disediakan saat

(2)

53

pertama menginstal R adalah stats, graphics, datasets, utils, dan base. Package lainnya dapat didownload secara online dengan memanfaatkan toolbar install package atau secara offline pada situs http://cran.rproject.org/.

R dikenal sebagai software statistik karena kemampuannya dalam mengolah dan menganalisis data yang cukup baik. Oleh karena itu pada tulisan ini akan dibahas pemanfaatan software R sebagai alternative SPSS atau software statistika lainnya dalam analisis model regresi linear. Analisa regresi adalah salah satu teknik statistika yang sering digunakan dalam berbagai bidang. Dengan menggunakan software R, kesesuaian model, asumsi – asumsi model serta masalah multikolinearitas dalam analisis regresi dapat dengan mudah dideteksi. Tulisan ini dibagi menjadi 3 bagian, bagian pertama membahas tentang latar belakang penulisan. Pada bagian 2 dibahas review singkat tentang software R dan regresi linear, kemudian pada bagian 3 diberikan pemodelan regresi linear menggunaan R-CLI beserta contoh studi kasusnya yang diperoleh dari hasil penelitian yang dilakukan oleh Pratomo (2015). Analisis kecocokan model hanya dibahas dengan menggunakan analisis plot residu.

II. METODE

Penelitian ini dilakukan dengan mempelajari karya – karya ilmiah yang disajikan dalam bentuk buku, jurnal, makalah, tesis, disertasi ataupun artikel yang relevan dengan topik penelitian, khususnya terkait dengan regresi linear dan pemrograman R. Berikut diberikan beberapa dasar – dasar software R dan konsep regresi linear berganda.

2.1 Dasar – Dasar Software R

Pada subbab ini akan dibahas tentang penggunaan software R dalam manajemen data menggunakan R Commander yang meliputi data entry dan import data, jenis – jenis data seperti vector,matriks dan data frame, serta plot data.

2.1.1 Input Data

Input data di R dapat dilakukan dengan dua cara: entry data (menginput data secara langsung di R) atau melakukan import data (menginput data dari sumber lain yang berasal dari luar R, semisal file SPSS, Excel, text, dll). Entry data dapat dilakukan dengan mengetik perintah langsung dari R Console:

> data1=c(1,2,3,4,5) > data1

[1] 1 2 3 4 5

Misalkan ingin diimpor data teks dengan nama data.txt dan tersimpan di drive E, maka fungsi yang digunakan yaitu read.table()

> data2=read.table("E:\\data.txt", header=T) > data2

hari pengunjung pembeli nominal 1 1 41 27 0.621050 2 2 55 33 1.368500 3 3 39 20 0.571505 4 4 48 23 0.350050 5 5 41 28 0.401100 6 6 27 19 0.273300 7 7 21 19 0.656400 8 8 28 19 1.095350 9 9 32 22 0.541250 10 10 37 25 0.480000 11 11 27 18 0.333550 12 12 30 22 0.711300 13 13 28 21 1.032590 14 14 45 31 0.686400 15 15 36 22 1.099825

(3)

54

Data pada pemrograman R dipandang sebagai suatu objek yang memiliki atribut yang sifatnya ditentukan oleh tipe data dan mode data. Beberapa tipe data yang sering digunakan adalah vector, matriks, dan data frame., sedangkan mode data yang dikenal R diantaranya adalah numeric, complex, logical dan character. Vektor secara numerik dapat diartikan sebagai deretan dari angka – angka. Fungsi c() digunakan untuk mengumpulkan koleksi data dalam sebuah vektor, ditulis sebagai berikut:

> x=c(0,7,8) > x

[1] 0 7 8

Fungsi matrix () digunakan untuk menuliskan nilai – nilai vektor dalam bentuk matriks. Misalkan ingin dibuat matriks dengan banyak baris = 2 dan kolom = 3, maka dapat dituliskan:

> m=matrix(1:6, nrow=2, ncol=3) > m

[,1] [,2] [,3] [1,] 1 3 5 [2,] 2 4 6

Penggabungan satu kolom atau satu baris baru ke dalam matriks lain dapat dilakukan dengan menggunakan perintah rbind untuk menambahkan ke baris dan cbind untuk menambahkan ke kolom.

> m2=cbind(m,c(7,8)) > m2 [,1] [,2] [,3] [,4] [1,] 1 3 5 7 [2,] 2 4 6 8 > m3=rbind(m,c(7,8,9)) > m3 [,1] [,2] [,3] [1,] 1 3 5 [2,] 2 4 6 [3,] 7 8 9

Pada vektor data digunakan dengan mode tunggal, sehingga gabungan dua data atau lebih yang berbeda mode tidak dapat dilakukan kedalam satu objek vektor. Penggabungan objek dengan mode data yang berbeda – beda dapat dilakukan dengan menggunakan tipe data data frame.

> dataframe=data.frame(nomer=1:4,nama=c('ani','ita','andri','nita'),

nilai=7:10) > dataframe

nomer nama nilai 1 1 ani 7 2 2 ita 8 3 3 andri 9

4 4 nita 10

2.1.3 Plot data

Penggambaran grafik pada R ditampilkan secara sederhana dan menarik menggunakan fungsi plot. Secara umum perintah pembuatan grafik dibagi menjadi 3 bagian, yaitu:

1. Fungsi plot utama

2. Fungsi dalam kelompok ini digunakan untuk membuat suatu plot baru pada jendela grafik. Beberapa fungsi tersebut adalah plot, qqplot, hist, image, contour, persp.

3. Fungsi plot tambahan

Fungsi pada plot tambahan digunakan untuk menambahkan informasi tambahan kedalam suatu grafik yang telah dibuat dengan fungsi plot utama, seperti menambahkan titik atau garis baru ataupun keterangan kedalam grafik. Beberapa fungsinya adalah points, lines, text, abline, legend, title.

4. Fungsi yang bersifat interaktif

Fungsi dalam kelompok ini memungkinkan pengguna untuk menambahkan atau mengambil informasi dari suatu plot yang telah ada. Beberapa fungsi tersebut adalah locator, identify.

(4)

55

> harga=c(1.3,2,1.7,1.5,1.6,1.2,1.6,1.4,1,1.1) > sales=c(10,6,5,12,10,15,5,12,17,20)

> plot(harga,sales)

Gambar 1. Plot Penjualan

Jika plot data diatas diberi fungsi tambahan lines, maka plot nya akan menjadi: > plot(harga,sales, type='l')

Gambar 2. Plot Penjualan dengan Fungsi Tambahan Lines

2.2 REGRESI LINEAR

Regresi secara umum diartikan sebagai alat statistik yang memberikan penjelasan tentang pola hubungan antara dua variabel atau lebih. Pada analisis regresi dikenal dua jenis variabel, yaitu:

I. Variabel respon atau disebut juga dengan variabel dependen, adalah variabel yang keberadaanya dipengaruhi oleh variabel lainnya dan dinotasikan dengan 𝑌.

II. Variabel prediktor atau disebut juga dengan variabel independen, adalah variabel yang tidak dipengaruhi oleh variabel lainnya dan dinotasikan dengan 𝑋.

Analisa ini akan memberikan hasil apakah antara variabel – variabel yang sedang diteliti terdapat hubungan, saling mempengaruhi dan berapa besar tingkat hubunganya.

Regresi linear berganda adalah regresi yang menjelaskan hubungan antara variabel respon dengan faktor – faktor yang mempengaruhi lebih dari satu variabel prediktor. Tujuan analisis regresi linear berganda adalah untuk mengukur intensitas hubungan antara dua variabel atau lebih dan membuat prediksi perkiraan nilai 𝑌 atas 𝑋. Secara umum regresi linear berganda untuk populasi dimodelkan sebagai berikut:

𝑌 = 𝛽0+ 𝛽1𝑋1+ 𝜀

dengan 𝛽0, 𝛽1 adalah koefisien regresi. Model tersebut dapat ditaksir berdasarkan sampel acak ukuran n sebagai berikut: 1.0 1.2 1.4 1.6 1.8 2.0 5 10 15 20 harga sa le s 1.0 1.2 1.4 1.6 1.8 2.0 5 10 15 20 harga sa le s

(5)

56

𝑌̂ = 𝑏0+ 𝑏1𝑋1 dengan:

𝑌̂ = nilai taksiran variabel 𝑌

𝑏0 = taksiran untuk parameter konstanta 𝛽0

𝑏1 = taksiran untuk parameter koefisien regresi 𝛽1, … , 𝛽𝑛

Nilai 𝑏0 dan 𝑏1 yang diperoleh dari estimasi parameter menggunakan metode least square dapat dituliskan sebagai berikut: 𝑏1= 𝑛 ∑𝑛𝑖=1𝑥𝑖𝑦𝑖− (∑𝑛𝑖=1𝑥𝑖)(∑𝑛𝑖=1𝑦𝑖) 𝑛(∑𝑛𝑖=1𝑥𝑖2) − (∑𝑛𝑖=1𝑥𝑖)2 =∑ (𝑥𝑖− 𝑥̅)(𝑦𝑖− 𝑦̅) 𝑛 𝑖=1 ∑𝑛𝑖=1(𝑥𝑖− 𝑥̅)2 𝑏0= ∑ 𝑦𝑖− 𝑏1∑𝑛 𝑥𝑖2 𝑖=1 𝑛 𝑖=1 𝑛 = 𝑦̅ − 𝑏1𝑥̅

III. HASIL DAN PEMBAHASAN

Pada bab ini akan disajikan hasil analisis data dan analisa plot residu pada studi kasus menggunakan versi R-CLI.

3.1 Analisa Data

Diberikan sebuah data sebagai berikut:

Tabel 1. Data Banyaknya Pengujung dan Pembeli serta Nominal Pembelian di Indomart Kedung Mundu Semarang

Hari Ke- Pengunjung (X1) Pembeli (X2) Nominal

Pembelian (dlm jutaan) (Y)

1 41 27 0.62105 2 55 33 1.3685 3 39 20 0.57151 4 48 23 0.35005 5 41 28 0.4011 6 27 19 0.2733 7 21 19 0.6564 8 28 19 1.09535 9 32 22 0.54125 10 37 25 0.48 . . . . . . . . . . . . . . . . 24 42 27 0.53925 25 45 34 0.481 26 35 23 0.34285 27 45 35 0.70285 28 51 31 0.76075 29 48 33 0.64903 30 40 24 1.05513

Dari data pada Tabel 1 ingin diketahui apakah nominal pembelian pada indomart Kedung Mundu Semarang dipengaruhi oleh banyaknya kedatangan pengunjung dan pembeli. Langkah pertama yang dilakukan dalam analisis regresi linear berganda dengan R adalah memanggil data yang telah disimpan di direktori computer, dengan cara:

> data=read.table("E:\\data.txt", header=T)

(6)

57

> hasilanalisis=lm(nominal~pengunjung+pembeli,data) Hasil estimasi koefisien – koefisien ini dapat dilihat dengan menuliskan > hasilanalisis

maka akan muncul keterangan sebagai berikut:

Call:

lm(formula = nominal ~ pengunjung + pembeli, data = data) Coefficients:

(Intercept) pengunjung pembeli 0.458728 0.006453 -0.003463

Dari hasil analisa diperoleh persamaan regresi linear berganda:

𝑁𝑜𝑚𝑖𝑛𝑎𝑙 = 0.458728 + 0.006453𝑝𝑒𝑛𝑔𝑢𝑛𝑗𝑢𝑛𝑔 − 0.003463𝑝𝑒𝑚𝑏𝑒𝑙𝑖 … (1)

Koefisien – koefisien regresi dan beberapa statistic lainnya dapat pula dilihat dengan menggunakan fungsi summary:

Call:

lm(formula = nominal ~ pengunjung + pembeli, data = data) Residuals:

Min 1Q Median 3Q Max -0.33877 -0.17593 -0.07371 0.07895 0.66914 Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 0.458728 0.262020 1.751 0.0913 . pengunjung 0.006453 0.010466 0.617 0.5427 pembeli -0.003463 0.016267 -0.213 0.8330 ---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.2741 on 27 degrees of freedom

Multiple R-squared: 0.02215, Adjusted R-squared: -0.05028 F-statistic: 0.3058 on 2 and 27 DF, p-value: 0.7391

Dari tampilan nilai estimasi intercept (konstanta) dan koefisien kedua variabel, dapat dilihat bahwa persamaan regresi linearnya sama seperti pada persamaan (1). Dilihat dari nilai Pr(> | t |) dari variabel pengunjung, Pr(> | t |) = 0,5427 > 0,05 artinya variabel pengunjung tidak signifikan atau tidak berpengaruh secara nyata terhadap nominal pembelian. Hal yang sama juga terjadi pada variabel pembeli dengan nilai Pr(> | t |) = 0.8330 > 0,05, variabel pembeli juga tidak terlalu berpengaruh secara nyata terhadap nominal pembelian di indomart Kedung Mundu Semarang. Akibatnya secara teori kedua variabel yang tidak signifikan ini harus dikeluarkan dari model. Akan tetapi tidak menutup kemungkinan bahwa variabel yang tidak signifikan tersebut tetap dipertahankan seperti pada kasus ini. Berdasarkan nilai R-squared sebesar 0,02215, artinya bahwa penelitian ini hanya mampu menjelaskan 2,215% keragaman nominal pembelian ditentukan oleh banyaknya pembeli dan pengunjung, selebihnya ditentukan oleh faktor lain.

3.2 Analisis Plot

Residu adalah perbedaan antara nilai data pengamatan dengan nilai estimasi data dari model. Umumnya residu ditampilkan dalam bentuk diagram atau plot, pada artikel ini akan ditampilkan plot antara residu dengan nilai estimasi dan plot probabilitas normal dari residu.

3.2.1 Plot Residu dengan Nilai Estimasi

Plot antara residu dengan nilai estimasinya dapat ditampilkan dengan perintah sebagai berikut: > residu=residuals(hasilanalisis)

> fitting=fitted(hasilanalisis)

> plot(fitting,residu, xlab="Hasil Fitting", ylab="Residu") > abline(h=0, lty=2)

(7)

58

Gambar 3. Plot Residu VS Hasil Estimasi

Pada plot antara residu dengan hasil estimasi terlihat bahwa tidak ada pola yang jelas yang dapat ditunjukkan dari plot tersebut. Sehingga disimpulkan bahwa plot residu vs hasil estimasi menunjukkan tidak ada masalah yang mendasar terhadap model.

3.2.2 Plot Probabilitas Normal Residu

Plot probabilitas normal residu dapat ditampilkan dengan perintah sebagai berikut: > qqnorm(residu, ylab="Residuals")

> qqline(residu)

Gambar 4. Plot Probabilitas Normal

Dari Gambar 4 terlihat bahwa ada beberapa sampel yang menjauhi garis linear. Meskipun plot ini interpretasinya tidak cukup jelas, masih dapat dikatakan bahwa tidak ada indikasi ketidaknormalan resiud. Terlihat dari banyaknya sampel yang berada di garis linear.

IV. KESIMPULAN DAN SARAN

Berdasarkan hasil analisa sebelumnya, maka model regresi yang dihasilkan adalah:

𝑁𝑜𝑚𝑖𝑛𝑎𝑙 = 0.458728 + 0.006453𝑝𝑒𝑛𝑔𝑢𝑛𝑗𝑢𝑛𝑔 − 0.003463𝑝𝑒𝑚𝑏𝑒𝑙𝑖

dimana kedua variabel pengunjung dan pembeli tidak berpengaruh secara signifikan secara statistik. Akan tetapi kedua variabel tetap dipertahankan karena keterbatasan variabel penelitian. Berdasarkan nilai R-squared sebesar 0,02215, kedua variabel juga hanya mampu menjelaskan 2,215% keragaman nominal pembelian. Namun jika dilihat dari plot antara residu dengan nilai estimasi dan plot probabilitas normal dari residu, model masih bisa diterima. 0.55 0.60 0.65 0.70 -0 .2 0 .2 0 .6 Hasil Fitting R e si d u -2 -1 0 1 2 -0 .2 0 .2 0 .6 Normal Q-Q Plot Theoretical Quantiles R e si d u a ls

(8)

59

V. DAFTAR PUSTAKA

Brian S. Everitt and Torsten Hothorn. 2007. A Handbook of Statistical Analyses Using R. A Chapman & Hall Book.

Paradis, Emmanuel. 2005. R for Beginners. France: Institut des Sciences de l'Evolution.

Pratomo, Dedi Suwarsito dan Erna Zuni Astuti. 2015. Analisis Regresi dan Korelasi Antara Pengunjung dan Pembeli Terhadap Nominal Pembelian di Indomaret Kedungmundu Semarang Dengan Metode Kuadrat Terkecil. E-print Jurnal Udinus.

Walpole, Myers, and Ye. 2012. Probability & Statistics for Engineers & Scientists Ninth Edition. Prentice Hall. Venables, W.N, D. M. Smith and the R Core Team. 2017. An Introduction to R, Notes on R: A Programming

Gambar

Gambar 1. Plot Penjualan
Tabel 1. Data Banyaknya Pengujung dan Pembeli serta Nominal Pembelian di Indomart Kedung Mundu  Semarang
Gambar 3. Plot Residu VS Hasil Estimasi

Referensi

Dokumen terkait