See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/369480192
Analisis Regresi dan Aplikasinya menggunakan SPSS
Preprint · March 2023
DOI: 10.13140/RG.2.2.14988.80008
CITATIONS
3
READS
10,795
2 authors:
Nusar Hajarisman Bandung Islamic University 1PUBLICATION 3CITATIONS
SEE PROFILE
Marizsa Herlina Bandung Islamic University 15PUBLICATIONS 36CITATIONS
SEE PROFILE
Buku Ajar
Analisis Regresi dan Aplikasinya menggunakan SPSS
Penyusun:
Dr. Nusar Hajarisman, M.Si.
Marizsa Herlina, S.Stat., M.Sc.
Program Studi Statistika, FMIPA
Universitas Islam Bandung
KATA PENGANTAR
Bismillaahirraahmaanirrahiim.
Assalamu ‘alaikum Wr. Wb.
Puji dan syukur penulis panjatkan ke hadirat Allah SWT, karena atas Rahmat dari-Nya penulis dapat menyelesaikan Buku Ajar yang berjudul Analisis Regresi dan Aplikasinya menggunakan SPSS yang diperuntukkan bagi khalayak umum.
Adapun tujuan pembuatan buku ajar ini adalah sebagai panduan bagi masyarakat yang ingin menggunakan analisis regresi dan memanfaatkan software SPSS. Dengan adanya buku ini diharapkan bahwa pemahaman terhadap materi dan kemampuan komputasi atau pengolahan data menggunakan alat bantu / software terutama SPSS dapat meningkat sehingga siapa saja yang membaca buku ini dapat mengolah atau menganalisis data menggunakan analisis regresi secara mandiri.
Terima kasih atas perhatian yang diberikan. Semoga buku ini dapat bermanfaat bagi siapa pun yang ingin belajar metode analisis regresi menggunakan SPSS.
Wassalaamu’Alaikum Wr.Wb.
Bandung, September 2022
Penulis
DAFTAR ISI
KATA PENGANTAR ... i
DAFTAR ISI ... ii
I. Pengenalan SPSS ... 1
II. Analisis Regresi Sederhana ... 13
III. Analisis Korelasi ... 22
IV. Analisis Regresi Multipel ... 33
V. Pemeriksaan Asumsi ... 41
VI. Pencilan dan Data Berpengaruh ... 62
VII. Pemilihan Model Terbaik ... 75
DAFTAR PUSTAKA ... 89
MODUL
Statistical Package for the Social Sciences (SPSS) adalah sebuah program yang dirancang untuk menjalankan beberapa analisis statistika. Software ini banyak digunakan di berbagai bidang.
Disini kita akan fokus menggunakan SPSS untuk melakukan analisis regresi dan kita akan menggunakan syntax untuk mendokumentasikan analisis kita dalam SPSS. Mengapa harus syntax? Karena menurut Van dan Berg (2013), 5 alasan kita sebaiknya menggunakan syntax adalah:
1. Syntax ideal untuk digunakan sebagai dokumentasi analisis.
2. Syntax bisa dikostumisasi sendiri oleh kita.
3. Syntax bisa dipakai berulang-ulang.
4. Analisis lebih cepat apabila memakai syntax (tidak usah klik sana-sini diulang- ulang).
5. Syntax punya opsi yang lebih banyak.
I. Membuka Data di SPSS
Hal yang pertama dilakukan ketika masuk ke SPSS adalah membuka data. Disini kita akan memakai dataset yang sudah disediakan di pertemuan 1 Praktikum Analisis Regresi di ekuliah.unisba.ac.id dengan langkah-langkah berikut:
1. Buka program SPSS dari shortcut desktop atau klik start lalu cari IBM SPSS.
2. Setelah itu akan muncul tampilan di bawah ini:
Ada 2 opsi yang bisa kita pilih yaitu new dataset atau open another file. New dataset untuk memunculkan cell data baru/kosong dan open another file untuk membuka data yang telah kita simpan. Sekarang kita pilih dulu new dataset karena ingin memunculkan cell data baru/kosong.
Modul
Pengenalan SPSS
3. Setelah itu akan muncul 2 window baru di SPSS yaitu window dataset (hijau atas) dan output viewer (orange bawah) seperti di bawah ini:
4. Setelah itu, Klik File > Open > Data dan akan muncul dialog box di bawah ini:
Pilih lokasi dokumen yang akan dibuka, disini kita akan memakai dataset HLTH1025_2016.sav yang sudah didownload dari ekuliah unisba.
5. Setelah HLTH1025_2016.sav dipilih lalu klik Paste untuk memunculkan
perintah syntax membuka data tersebut.
6. Lalu akan muncul window baru bernama Syntax Editor seperti di bawah ini.
Di syntax editor inilah kita akan mendokumentasikan analisis kita dalam bentuk syntax SPSS. Dalam syntax sudah muncul GET FILE =‘[file path\nama file.sav]’
yang merupakan perintah untuk membuka lokasi data yang kita pilih.
7. DATASET NAME adalah command untuk mengubah nama dataset kita, tinggal ubah DataSet2 menjadi nama dataset yang kita inginkan. Kita namakan dataset menjadi HLTH1025_2016 sehingga syntax dapat ditulis sebagai berikut:
DATASET NAME HLTH1025_2016 WINDOW=FRONT.
8. Syntax SPSS selalu diawali dengan command dan diakhiri dengan titik (.).
9. Setelah itu blok semua syntax yang ingin dijalankan dan klik tombol Run Selection (symbol play hijau).
10. Maka setelah itu akan muncul datanya seperti di bawah ini:
Di Output view akan terlihat semua syntax dan output yang kita jalankan dari hasil analisis yang kita lakukan. Sekarang data sudah berhasil dimasukkan.
II. Menentukan Working Directory
Working directory adalah tempat dimana kita menyimpan file dan output dari SPSS ini akan disimpan. Disini kita bisa tentukan lokasi proyek analisis data kita agar file-nya tidak terpencar dimana-mana. Langkahnya adalah sebagai berikut:
1. Di dalam syntax editor, tulislah syntax berikut:
cd “E:\Analisis Regresi\Data SPSS - Pertemuan 1”.
2. Setelah itu blok syntax tersebut dan klik run selection.
III. Menyimpan Dataset dan Syntax
Data harus disimpan di folder yang sama dengan proyek analisis/working directory.
Langkahnya adalah:
1. Klik File > Save as pada dataset.
2. Pilih folder working directory yang sudah kita atur sebelumnya.
3. Jika sudah masuk folder, beri nama yang sesuai, lalu klik Paste.
4. Klik Yes untuk me-replace data yang sudah ada. Lalu nanti akan keluar syntax SAVE di syntax editor:
SAVE OUTFILE=’[file path\nama file.sav]’ merupakan command untuk menyimpan dataset kita di path lokasi tersebut. nama file bisa diganti sesuka hati kalian.
5. Untuk save syntax, klik ctrl + s dan simpan di folder working directory, beri nama, lalu klik save.
IV. Meng-import Data dari Excel
1. Di dataset SPSS klik File > Open > Data.
2. Di pilihan files of type, klik panah ke bawah dan pilih Excel.
3. Lalu akan muncul file excel yang berekstensi .xlsx pilih file tersebut lalu klik paste.
4. Selanjutnya akan muncul dialog box seperti di bawah ini, kemudian di worksheet, klik panah ke bawah dan pilih sheet yang mau kalian masukkan ke dalam SPSS (disini pilih Data [A1:BG307]). Lalu klik OK.
5. Sehingga di syntax editor akan bertambah command GET DATA seperti ini:
GET DATA /TYPE=XLSX
/FILE='E:\Analisis Regresi\Data SPSS – Pertemuan 1\HLTH1025_2016.xlsx'
/SHEET=name 'Data' /CELLRANGE=full /READNAMES=on
/ASSUMEDSTRWIDTH=32767.
EXECUTE.
DATASET NAME DataSet3 WINDOW=FRONT.
6. Seperti yang telah kita lakukan selumnya, ubah DataSet3 (baris terakhir syntax) menjadi nama yang kita inginkan untuk dataset tersebut.
7. Lalu blok syntax yang ingin di-run dan klik Run Selection.
V. Memeriksa Data yang Masuk
Data yang masuk harus diperiksa tiap variabelnya apalagi jika variabel yang masuk sangat banyak, langkahnya adalah:
1. Klik Analyze > Reports > Codebook
2. Setelah muncul dialog box di bawah ini, ctrl + A / blok semua variabel dan klik tanda panah ke kanan di tengah sehingga semua variabel berpindah ke kanan.
Setelah itu klik paste.
3. Setelah itu di syntax editor akan muncul syntax di bawah ini:
DATASET ACTIVATE HLTH1025_2016.
CODEBOOK IDnumber [s] age [s] sex [n] workstat [n] increg [n] incmnth [s] incwk [s]
housing [n]
living [n] homepay [n] homecost [s] homecostwk [s] mobile [n] mobilepay [n] mobilecost [s]
mobilecostwk [s] transport [s] food [s] entertain [s] privhlth [n] fs_illness [n] fs_accident [n]
fs_death [n] fs_mtlillness [n] fs_disability [n] fs_divsep [n] fs_nogetjob [n] fs_lossofjob [n]
fs_alcdrug [n] fs_witviol [n] fs_absvcrim [n] fs_police [n] fs_gambling [n] famstress [n]
drivelic
[n] mvacc [n] mvaccinj [n] smokeyn [n] smokereg [n] smokestat [n] suffact [n] veg [s] fruit [s]
medication [n] sf1 [n] height [s] weight [s] asthma [n] cancer [n] cvcondition [n] arthritis [n]
osteop [n] diabetes [n] mtlstress [n] anxiety [n] depress [n] mtlother [n] mntlcond [n]
mntlcurr [n]
/VARINFO POSITION LABEL TYPE FORMAT MEASURE ROLE VALUELABELS MISSING ATTRIBUTES
/OPTIONS VARORDER=VARLIST SORT=ASCENDING MAXCATS=200 /STATISTICS COUNT PERCENT MEAN STDDEV QUARTILES.
4. Blok syntax tersebut lalu klik Run Selection. Lalu output viewer akan menampilkan seperti di bawah ini:
Di bagian kiri kalian bisa melihat semua variabel yang ada di dalam data, seperti IDnumber, Age, Sex, Workstat dsb dan di kanan terdapat rangkuman / summary dari data tersebut seperti mean, standar deviasi, persentil dsb dari setiap variabel.
5. Untuk melihat label/jenis data (measurement level) dari variabel kalian tinggal menulis syntax:
Display dictionary.
Lalu blok dan klik Run Selection. Lalu akan muncul semua informasi variabel seperti di bawah ini:
6. Selain di output no. 5 ini, sebenarnya kalian juga bisa langsung melihat informasi variabel di dataset SPSS. Dataset SPSS punya 2 views yaitu data view dan variable view yang letaknya di kiri bawah window dataset.
7. Informasi variabel ada di variable view yang isinya adalah nama variabel, jenis, label, dll seperti di bawah ini:
Di variable view ini kalian bisa mengubahnya secara manual, namun jika variabel sangat banyak akan sangat merepotkan, jadi gunakanlah syntax.
VI. Memberi Label pada Data
Label digunakan pada saat data yang kalian input berupa data kategorik, yang artinya data tersebut berupa data nominal / ordinal tapi kalian melambangkannya dengan angka. Misalnya seperti variabel sex (jenis kelamin) yang dilambangkan dengan 1 dan 2.
Munculkan frekuensi variabel jenis kelamin dengan cara:
1. Klik Analyze > Descriptive Statistics > Frequencies
2. Pilih variabel sex di kiri pindahkan ke kanan dengan klik tanda panah ke kanan (ada di tengah).
3. Hasilnya ada di output viewer.
Kita belum bisa membedakan mana pria dan wanita karena belum ada label di 1 dan 2 maka kita harus memberi label bahwa 1 = pria dan 2 = wanita. Jika ingin memberikan deskripsi pada variabel sex = Jenis Kelamin, maka caranya adalah menuliskan syntax:
Variable labels sex Jenis Kelamin.
Lalu, untuk memberi label pada kategori pria dan wanita, maka bisa dituliskan syntax:
Value labels sex 1 ‘pria’ 2 ‘wanita’.
Maka Ketika syntax tersebut di-run, maka output tabel diatas akan menjadi:
VII. Melakukan Sorting dan Merging Data
Sorting adalah mengurutkan dan Merging adalah menyatukan, jadi disini kita akan mengurutkan sebagai syarat dari merging data di SPSS. Kita akan merging dataset HLTH1025_2016 dengan dataset HLTH1025_2016_yr yang berisi IDnumber yang sama dengan HLTH1025_2016 namun dengan variabel baru yaitu year. Langkah yang dilakukan adalah:
1. Tulis syntax berikut untuk mengurutkan (sorting) data :
*untuk memasukkan dataset HLTH1025_2016_yr.
GET FILE='E:\Analisis Regresi\Data SPSS - Pertemuan 1\HLTH1025_2016_yr.sav'.
*untuk memberi nama dataset.
dataset name HLTH1025_2016_yr window=front.
*untuk mengaktivasi dataset yang akan digunakan untuk analisis selanjutnya.
dataset activate HLTH1025_2016.
*untuk mengurutkan IDnumber secara A=ascending dataset HLTH1025_2016.
sort cases by IDnumber(A).
dataset activate HLTH1025_2016_yr.
*untuk mengurutkan dataset HLTH1025_2016_yr.
sort cases by IDnumber(A).
Blok semua syntax dan klik Run Selection.
2. Ketika sudah diurutkan, maka yang tersisa adalah menyatukan kedua dataset tersebut, yang harus dilakukan adalah dengan mengaktivasi dataset HLTH1025_2016. Tulis syntax:
Dataset activate HLTH1025_2016.
3. Klik Data > Merge Files > Add Variables…
4. Pilih dataset HLTH1025_2016_yr dan klik Continue.
5. Akan ada dialog box baru seperti ini:
6. Centang “Match cases on key variables” dan “Cases are sorted in order of key variables in both datasets”
7. Cari dan pilih IDnumber dalam Exluded Variables di kotak kiri atas lalu pindahkan ke kotak Key variables dengan cara klik tanda panah di sebelah kotak Key variables. Lalu klik Paste.
8. Maka syntax pasti akan bertambah seperti ini:
MATCH FILES /FILE=*
/FILE='HLTH1025_2016_yr' /BY IDnumber.
EXECUTE.
9. Blok syntax diatas dan klik Run Selection.
10. Sekarang cek apakah variabel year sudah ada di variabel view:
Year sudah ada di variabel view.
LATIHAN
1. Gabungkan dataset HLTH1025_2016.sav dan HLTH1025_2016_tugas.xlsx.
2. Beri label pada variabel Kawin dan Pendidikan (lihat label di sheet metadata HLTH1025_2016_tugas.xlsx.) dan tampilkan tabel frequency-nya.
TUGAS
Kumpulkan laporan berbentuk penjelasan per syntax (contoh seperti di bab VII.1, namun dibuat dari langkah-langkah bab I-VII) dari soal LATIHAN lengkap dengan screenshot outputnya.
2
Modul
Analisis Regresi Sederhana
Suatu gugus data yang didalamnya mengandung sebuah varibel numerik, dimana penggambaran data variabel tersebut didapat dengan menggunakan statistik deskriptif dan inferensi untuk membuat perkiraan dan kesimpulan tentang variabel numerik tersebut yang diperoleh dengan menggunakan berbagai macam metode statistik induktif. Jika akan dibahas mengenai dua variabel numerik atau lebih, termasuk hubungan diantara keduanya, maka digunakan dua teknik penghitungan, yaitu Regresi dan Korelasi. Dalam analisis regresi, akan dikembangkan sebuah estimating equation (persamaan regresi) yaitu formula matematika yang mencari nilai variabel tak bebas (dependent) dari nilai variabel bebas (independent) yang diketahui. (Seber, G., 2003) Analisis regresi digunakan terutama untuk tujuan peramalan, di mana dalam model tersebut ada sebuah variabel dependent (tergantung) dan variabel independent (bebas) (Weisberg, S., 2014). Sebagai contoh ada tiga variabel, yaitu Penjualan, Biaya Promosi Penjualan dan Biaya Iklan. Dalam praktek, akan dibahas bagaimana hubungan antara Biaya Promosi Penjualan dan Biaya Iklan terhadap Penjualan. Di sini berarti ada variabel dependent yaitu Penjualan , sedangkan variabel independent-nya adalah Biaya Promosi Penjualan dan Biaya Iklan. Metode Korelasi akan membahas keeratan hubungan, dalam hal ini keeretan hubungan antara Biaya Promosi Penjualan dan Biaya Iklan terhadap Penjualan. Sedang metode Regresi akan membahas prediksi (peramalan), dalam hal ini apakah Penjualan di masa mendatang bisa diramalkan jika Biaya Promosi Penjualan dan Biaya Iklan diketahui.
Dalam praktek, regresi sering dibedakan antara regresi sederhana dan regresi berganda. Disebut regresi sederhana (Simple Regression) jika hanya ada satu variabel independent, sedangkan regresi berganda (Multiple Regression) jika ada lebih dari satu variabel independent. Karena analisis regresi sering digunakan dalam praktek, maka SPSS menyediakan menu khusus Regression yang meliputi banyak perhitungan model regresi, seperti regresi linier, curve estimation, regresi non-linier dan lainnya.
Namun disini hanya membahas model regresi yang paling popular, yaitu regresi linier.
Pengiran analisis regresi (linier) dimulai dengan regresi sederhana pada modul ini dan dilanjutkan dengan regresi berganda (multipel) pada modul selanjutnya. Beberapa pemeriksaan asumsi disarm juga akan dibahas dalam modul-modul selanjutnya.
2
Modul
Analisis Regresi
Contoh 1 :
PT CEMERLANG dalam beberapa bulan gencar mempromosikan sejumlah peralatan elektronik dengan membuka outlet-outlet di berbagai daerah. Berikut ini adalah data mengenai Penjualan dan Biaya promosi yang dikeluarkan di 15 daerah di Indonesia. Dalam hal ini Sales merupakan variabel tak bebas dan Biaya Promosi dijadikan sebagai variabel bebasnya.
Daera Sales
(Juta Rupiah)
Promosi (Juta Rupiah)
JAKARTA 205 26
TANGERANG 206 28
BEKASI 254 35
BOGOR 246 31
BANDUNG 201 21
SEMARANG 291 49
SOLO 234 30
YOGYA 209 30
SURABAYA 204 24
PURWEKERTO 216 31
MADIUN 245 32
TUBAN 286 47
MALANG 312 54
KUDUS 265 40
PEKALONGAN 322 42
Akan dilakukan analisis regresi untuk mengetahui hubungan di antara variable Penjualan dengan Biaya Promosi.
Di sini karena akan diketahui besar hubungan atau seberapa jauh Biaya Promosi berpengaruh terhadap Penjualan PT CEMERLANG, maka akan dilakukan uji regresi, dengan variabel dependent adalah Sales/Penjualan, dan variabel independent adalah Biaya Promosi. Karena hanya ada satu variabel independent, maka uji regresi tersebut dinamakan uji regresi sederhana. Langkah- langkahnya :
OLAH DATA
1. Buka lembar kerja/file regresi_sederhana sesuai kasus di atas, atau jika sudah terbuka ikuti Langkah berikutnya. Dari baris menu pilih menu Analyze, kemudian pilih submenu Regression.
2. Dari serangkaian pilihan test untuk Regresi, sesuai kasus pilih Linear…
untuk uji regresi secara linier (variabel X hasil persamaan regresi hanya ada satu).
• Dependent. Dalam hal ini variabel tergantung adalah variabel sales.
Klik variabel sales, kemudian klik tanda ► (yang sebelah atas).
Sehingga variabel sales berpindah ke Dependence.
• Independent(s). DAlam hal ini variabel bebas (predictor) adalah variabel promosi. Klik variabel promosi, kemudian klik tanda (bagian independent), maka variabel promosi akan berpindah ke bagian Independent.
• Case Labels atau keterangan pada kasus. Karena kasus didasarkan pada daerah-daerah, maka klik variabel daerah, kemudian klik tanda
► (yang terbawah). Sehingga variabel daerah berpindah ke Case Labels.
• Method atau cara memasukkan/seleksi variabel. Metode ini bermacam- macam, seperi Stepwise, Remove, Backward dan Forward (Stepwise). Untuk keseragaman pilih default yang ada, Enter, yaitu prosedur pemilihan variabel di mana semua variabel dalam blok dimasukkan dalam perhitungan ‘single step’. Alternatif adalah stepwise dimana terjadi banyak tahapan perhitungan regresi.
• Pilih tombol Options.
• Untuk Stepping Method Criteria, gunakan uji F mengambil standar angka probabilitas sebesar 5% karena itu, angka Entry .05 atau 5%
dipilih.
• Pilihan default Include constant in equation atau menyertakan konstanta tetap dipilih.
3. Pilih tombol Statistics. Pilihan ini berkenaan dengan perhitungan statistic regresi yang akan digunakan.
• Regression Coeficient atau perlakuan koefisien regresi, tetap aktifkan pilihan Estimate (default dari SPSS).
• Jika pilihan Estimate tidak diaktifkan, maka koefisien regresi tidak ditampilkan pada output SPSS.
• Klik pilihan Descriptive pada kolom sebelah kanan, serta aktifkan Model fit.
• Residuals, klik pada Casewise diagnostics dan selanjutnya pilih all cases untuk melihat pengaruh regresi terhadap semua daerah.
• Jika dipilih outliers outside dan kemudian dipilih sebanyak 1 standar deviasi sebagai contoh, maka akan ditampilkan hasil regresi pada daerah yang melebihi satu standar deviasi.
4. Klik tombol Plots atau berhubungan dengan gambar/grafik untuk regresi.
Direncanakan ada tiga plot (gambar) sehubungan dengan analisis regresi:
• Klik pilihan SDRESID dan masukan ke pilihan Y. Lalu klik sekali pada pilihan ZPRED dan masukan ke pilihan X. Setelah kedua variabel Y dan X terisi, klik tombol Next untuk melanjutkan pengisian plot kedua.
• Tampak variabel Y dan X kosong kembali. Sekarang klik pilihan ZPRED dan masukkan ke pilihan Y. Lalu klik sekali lagi pada pilihan DEPENDENT dan masukkan ke pilihan X.
• Untuk plot ketiga, pada pilihan Standardized Residual Plots, klik pada Normal Probability Plot.
5. Klik PASTE untuk mengakhiri pengisian prosedur analisis. Terlihat SPSS melakukan pekerjaan analisis dan terlihat output SPSS.
Karena output regresi cukup banyak, maka analiais dan output sebagai hasil dari analisis regresi akan dibahas bagian per bagian secara mendalam dengan penyajian ulang bagian yang akan dibahas.
Tabel pertama menunjukkan variable yang dimasukkan adalah promosi dan tidak ada variable yang dikeluarkan (removed). Hal ini disebabkan metode yang dipakai adalah single step (enter) dan bukannya stepwise.
ANALISIS
Variabel Entered/Removed
dan Model Summary
Angka R square adalah 0.839 (adalah pengkuadratan dari koefesien korelasi, atau 0.916 x 0.916 = 0.839) . R square bisa disebut koefisien determinasi, yang dalam hal ini 83.9% sales perusahaan bisa dijelaskan oleh variabel biaya promosi.
Sedangkan sisanya (100% - 83.9% = 16.1%) dijelaskan oleh variabel lain di luar model. R square berkisar pada 0 sampai 1 dengan catatan semakin kecil R square, semakin lemah hubungan kedua variabel.
Standard error of estimation adalah 17.13 atau 17.130.000,- (satuan yang dipakai adalah variabel dependent, atau dalam hal ini adalah Sales). Perhatikan analisis sebelumnya bahwa standar deviasi Sales adalah Rp. 41.110.000,- yang jauh lebih besar dari standar deviasi penduga model Sales, maka model regresi lebih bagus dalam bertindak sebagai predictor Sales daripada rata rata Sales itu sendiri.
Dari uji ANOVA atau F test, didapat F hitung adalah 67.673 dengan tingkat signifikansi 0.0000. karena probabilitas (0.0000) lebih jauh kecil dari 0.05, maka model regresi bisa dipakai untuk memprediksi Sales.
Lihat pembahasan uji ANOVA untuk melihat lebih jauh mengenai penggunaan F test. Tabel selanjutnya menggambarkan persamaan regresi :
Y = 111,523 + 3,891 X
dimana : Y = Sales dan X = Biaya Promosi
Konstanta sebesar 111.523 menyatakan bahwa jika tidak ada biaya promosi, maka Sales adalah Rp. 11.523.000,-. Sedangkan koefisien regresi sebesar 3.891 menyatakan bahwa setiap penambahan (karena tanda +) Rp. 1 biaya promosi akan meningkatkan Sales sebesar Rp. 3.891.
• Untuk regresi sederhana, angka korelasi (0.916) adalah juga angka Standardized Coefficients (beta).
• Uji t untuk menguji signifikansi konstanta dan variabel dependent (promosi).
Di sini akan diberi contoh uji koefisien regresi dari variabel Promosi.
Apapun rumusan hipotesis untuk kasus ini adalah : H0 : Koefisien regresi tidak signifikan
H1 : Koefisien regresi signifikan.
Anova dan Coefficient
Dasar pengambilan keputusan adalah berdasarkan Probabilitas atau p-value, dimana
Jika probabilitas > 0.05, maka H0 diterima.
Jika probabilitas < 0.05, maka H0 ditolak.
Keputusan : Terlihat bahwa pada kolom Sig/significance adalah 0.000, atau probabilitas jauh dibawah 0.05. Sehingga H0 ditolak, atau koefisien regresi signifikan, atau proosi benar-benar berpengaruh secara signifikan terhadap Sales.
Demikian juga untuk analisis konstanta dengan dua cara tadi dihasilkan angka konstanta yang signifikan.
Bagian Casewise Diagnostics memperlihatkan hasil prediksi dari persamaan regresi.
Sebagai contoh baris pertama untuk regresi daerah Jakarta :
• Persamaan regresi adalah : Y = 111,523 + 3,891 X
Untuk biaya promosi Jakarta, dari data awal kasus adalah Rp. 26.000.000,- , maka:
Y = 111,523 + (3,891 × 26) atau 212.689 atau Rp. 212.689.000,-
Terlihat pada kolo Preedicted Value atau nilai yag diprediksi adalah 212.689, atau sama dengan perhitungan di atas (dengan pembulatan dua angka di belakang koma).
• Kolom Residual adalah selisih antara sales yang sesungguhnya dengan Sales hasil prediksi, atau :
205 - 212.68 = -7.68 atau Rp. 7.680.000,- Casewise
Diagnostics
• Kolom Std Residual (Standardized Residual) atau residual yang dibakukan adalah hasil perhitungan :
Residual/Standard Error of Estimate Untuk daerah Jakarta : -7.68/17.13 = -0.448 Angka 17.13 dari output bagian empat (Model Summary), dan berlaku untuk semua daerah (15 buah data). Semakin kecil Residual atau Standardized Residual akan semakin baik bagi persamaan regresi dalam memprediksi data. Demikian juga untuk data lainnya, perhitungan sama dengan contoh data di atas.
Bagian yang berjudul Residual Statistics dan membuat ringkasan yang meliputi nilai minimum dan maksimum, mean dan standar deviasi dari predicted value (nilai yang diprediksi) dan statistik residu.
Setelah diuraikan bagian output angka, sekarang beralih ke bagian output berupa
Chart untuk menganalisis apakah syarat persamaan regresi dipenuhi.
Persyaratan Normalitas
Jika residual berasal dari distribusi normal, maka nilai-nilai sebaran data (lihat noktah dengan nama daerah) akan terletak di sekitar garis lurus. Terlihat bahwa sebaran data pada chart di atas bisa dikatakan tersebar di sekeliling garis lurus tersebut (tidak terpencar jauh dari garis lurus). Sehingga dapat dikatakan bahwa persyaratan normalitas bisa dipenuhi.
Residual Statistics
Gambar/ Chart
Persyaratan Kelayakan Model Regresi (Model Fit)
Chart kedua menggambarkan hubungan antara Nilai yang diprediksi dengan Standardized Delete Residual-nya, dengan tampilan pada Chart bagian kedua. Jika model regresi layak dipakai untuk diprediksi (fit), maka data akan berpencar di sekitar angka nol (0 pada sumbu Y) dan tidak membentuk suatu pola atau trend garis tertentu. Dari Chart di atas terlihat sebaran data ada di sekitar titik nol (hanya data pekalongan yang jauh di luar titik nol), serta tidak tampak adanya suatu pola tertentu pada sebaran data tersebut. Maka bisa dikatakan model regresi memenuhi syarat untuk memprediksi Sales.
Persyaratan Model Fit Tiap Data
Gambar ketiga menampakkan hubungan antara variabel Sales dengan nilai prediksinya. Jika model memenuhi syarat, maka sebaran data akan berada mulai dari kiri bawah lurus ke arah kanan atas. Terlihat sebaran data di atas memang membentuk arah seperti disyaratkan, dengan perkecualian data Pekalongan.
Karena itu, bisa dikatakan model regresi sudah layak digunakan.
LATIHAN 2
Pemerintah ingin mengetahui apakah ada pengaruh luas panen (hektar) terhadap produksi ubi jalar (kg) dengan menggunakan model regresi pada tahun yang ditentukan (kelas A: 1999, B: 2000, C: 2001, D:2002). Gunakanlah dataset “ubi jalar per provinsi” dan bantu pemerintah menjawab pertanyaan berikut ini:
a. Apakah variabel independen dan dependen dari model regresi tersebut?
b. Munculkan scatterplot dari SPSS, apakah garis regresinya linear? Apakah hubungan tersebut positif atau negatif?
c. Estimasi model regresinya dan berikan interpretasinya.
d. Berapakah R-square dari model regresi tersebut? interpretasikan.
e. Lebih baik penduga rata-rata variabel dependen atau penduga model?
f. Munculkan nilai prediksi variabel dependen dari model.
g. Jelaskan apakah model memenuhi asumsi normal?
h. Jelaskan apakah model layak digunakan dalam memprediksi variable dependen?
i. Kesimpulan: apakah pemerintah bisa menjawab tujuan mereka dengan model ini dan apakah model tersebut sudah baik? Jelaskan.
TUGAS 2
Buatlah laporan mengenai hasil latihan diatas dan dikumpulkan sebelum deadline yang ditentukan. Semakin cepat mengumpulkan, maka poin tambahan akan semakin besar.
Dalam modul ini aka dibahas mengenai korelasi atau asosiasi (hubungan) antara variabel-variabel yang diamati. Di sini akan disoroti dua aspek untuk analisis korelasi, yaitu apakah data sampel yang ada menyediakan bukti cukup bahwa ada kaitan antara variabel-variabel dalam populasi asal sampel. Dan yang kedua, jika ada hubungan, seberapa kuat hubungan antar variabel tersebut. Keeratan hubungan itu dinyatakan dengan nama koefisien korelasi (atau bisa disebut korelasi saja).
Dalam banyak buku statistik, korelasi biasanya dibahas bersama-sama dengan analisis regresi. Namun SPSS menempatkan korelasi dalam menu tersendiri, walaupun dalam pembahasan regresi, besaran korelasi tetap ditampilkan, karena itu, topik korelasi dibahas pada bab ini ‘mendahului’ pembahasan tentang analisis regresi pada bab selanjutnya. Dalam SPSS, pembahasan tentang korelasi ditempatkan pada menu Correlate, yang mempunyai submenu :
Bivariate
• Koefisien korelasi bivariate/product moment Pearson. Mengukur keeratan hubungan diantara hasil-hasil pengamatan dari populasi yang mempunyai dua variat (bivariate). Perhitungan ini mensyaratkan bahwa populasi asal sampel mempunya dua variat dan berdistribusi normal. Korelasi Pearson banyak digunakan untuk mengukur korelasi data interval atau rasio.
• Korelasi peringkat Spearman (Rank-Spearman) dan Kendall lebih mengukur keeratan hubungan antara peringkat-peringkat dibandingkan hasil pengamatan itu sendiri (seperti pada korelasi Pearson). Perhitungan korelasi ini bisa digunakan untuk menghitung koefisien korelasi pada data ordinal dan penggunaan asosiasi pada statistik nonparametrik.
Partial
Pembahasan mengenai hubungan linier antar dua variabel dengan melakukan kontrol terhadap satu atau lebih variabel tambahan (disebut variabel kontrol).
Contoh 3
Ingin diketahui apakah ada korelasi (hubungan) diantara variabel-variabel berikut:
jumlah pelanggaran lalu lintas, jumlah kendaraan roda empat (mobil), kendaraan roda dua (sepeda motor), jumlah polisi serta jumlah penduduk. Untuk itu diambil data mengenai variabel-variabel di atas pada sejumlah daerah pada waktu tertentu dengan hasil sebagai berikut :
3
Modul
Analisis Korelasi
Daerah Tilang Mobil Motor Polisi
1 20 258 589 89
2 24 265 587 52
3 25 249 698 59
4 18 125 625 57
5 15 * 712 52
6 16 124 692 48
7 * 251 681 49
8 10 * 634 29
9 12 124 697 27
10 17 159 521 59
Perhatikan ada beberapa data yang diberi tanda ‘ * ’ Hal menankan data tersebut missing atau tidak diketahu/tersedia.
Karena akan diketahui hubungan antar variabel, maka digunakan uji korelasi, baik bivariate maupun parsial.
1. Buka lembar kerja/file korela sesuai kasus diatas , atau jika sudah terbuka ikuti langkah berikut.
2. Dari baris menu pilih menu Analyze, kemudian pilih submenu Correlate.
Dari serangkaian pilihan menu Correlate, sesuai kesus pilih Bivariate....
• Variable atau variabel yang akan dikorelasikan. Karena disini akan diuji koreksi semua variabel, maka klik variabel mobil kemudian klik tanda ► (yang sebelah atas). Sehingga variabel mobil berpindah ke Variable.
Demikian untuk ketiga variabel yang lain (motor, polisi, tilang) dengan cara yang sama dimasukkan dalam kolom Variables
• Untuk kolom Correlation Coefficients atau alat hitung koefisien korelasi. Karena data pada kasus adalah kuantitatif dan berskala rasio, maka pilihan Pearson dan abaikan alat hitung yang lain.
• Untuk kolom Test of Significance, karena akan di uji dua sisi maka pilih Two-tailed.
• Untuk pilihan Flag significant corretanions atau berkenaan dengan tanda untuk tingkat signifikansi 5% dan 10% akan ditampilkan bahwa output ataukah tidak Untuk keseragaman pilihan tersebut digunakan, hingga nanti pada output * untuk 5% dan/atau ** untuk 10%. Kemudian klik tombol Options.
• Pada pilihan Statistics diabaikan saja. Pada pilihan Missing Values atau perlakuan korelasi sehubungan dengan adanya data yang tidak tersedia pada kasus. SPSS menyediakan dua alternative perlakuan:
• Exclade cases pairwise yaitu pasangan yang salah satu tidak ada datanya tidak dimasukan dalam perhitungan. Misal korelasi antara variabel tilang OLAH DATA
dengan motor, maka kasus nomor 7 yang hilang dari tilang mengakibatkan korelasi hanya untuk data 9 data (kasus nomor 7 dihilangkan) Namun untuk korelasi variabel mobil dan motor, karena ada dua data mobil yang missing, maka korelasi hanya 8 data. Dengan demikian pilihan pairwise mengakibatkan jumlah data tiap korelasi bervariasi, tergantung jumlah data yang missing (jika ada).
• Exclude cases listwise. Di sini jumlah data untuk seluruh korelasi sama, sehingga yang dibuang adalah kasus yang salah satu variabelnya terdapat missing data. Dalam kasus di atas, terlihat pada kasus nomor 5, 7, dan 8 terdapat data yang missing maka 3 kasus tersebut dikeluarkan (exclude), hingga jumlah kasus (cases) menjadi hanya 10 - 3 = 7. Untuk keseragaman, klik pilihan Exclude Cases pairwise. Default (standar) pada SPSS adalah pilihan Exclude Cases pairwise.
Untuk memberikan pemahaman yang lebih mendalam mengenai output yang diberikan oleh SPSS yang berkenaan dengan korelasi ini, maka analisis dimulai dengan pengertian angka korelasi, Signifikansi hasil korelasi, jumlah data yang berkorelasi, serta bagaimana output yang diperoleh jika data missing tidak ikut dianalisis.
Ada dua hal dalam penafsiran korelasi:
• Berkenaan dengan besaran angka. Angka korelasi berkisar pada 0 (tidak ada korelasi sama sekali) dan 1 (korelasi sempurnaa). Sebenarnya tidak ada ketentuan yang tepat mengenai apakah angka korelasi tertentu menunjukkan tingkat korelasi yang tinggi atau lemah. Namun bisa dijadikan pedoman sederhana, bahwa angla korelasi di atas 0.5 menunjukkan korelasi yang cukup kuat, sedang dibawah 0.5 korelasi lemah.
• Selain besar korelasi, tanda korelasi juga berpengaruh pada penafsiran hasil.
Tanda - (negatif) pada output menunjukkan adanya arah yang berlawanan, sedangkan tanda + (positif) menunjukkan arah yang sama.
ANALISIS
Arti Angka
Korelasi
Seperti angka pada output antara Mobil dan Motor yang memberikan angka - 0.127.
Angka tersebut menunjukkan lemahnya korelasi antara Mobil dengan Motor (di bawah 0.5), sedangkan tanda “-” menunjukkan bahwa semakin banyak Mobil akan membuat jumlah Motor makin sedikit, dan sebaliknya.
Juga sebagai contoh, angka korelasi antara Polisi dengan Tilang yang didapat 0.631. Hal ini menunjukkan adanya hubungan yang cukup erat antara jumlah Polisi dengan jumlah Tilang yang terjadi. Dan tanda “=” menunjukkan bahwa semakin banyak Polisi akan dimungkinkan semakin banyaknya jumlah Tilang. Dalam output diatas, terlihat angka korelasi 1.000. Hal ini diabaikan saja, karena itu terjadi antar variabel yang sama (seperti Mobil dengan Mobil dan lainnya) yang tentunya tidak relevan dengan kasus.
Setelah angka korelasi didapat, maka bagian kedua dan oumput SPSS adalah menguji apakah angka korelasi yang didapat benar-benar signifikan atau dapat digunakan untuk menjelaskan hubungan dua variabel. Adapun rumusan hipotesis yang dibentuk adalah:
H0: Tidak ada hubungan (korelasi) antara dua vanabel atau angka korelasi 0. H1: Ada hubungan (korelasi) antara dua variabel atau angka korelasi tidak 0.
Uji dilakukan dua sisi karena akan dicari ada atau tidak ada hubungan/korelasi, dan bukan lebih besar/kecil. Sedangkan yang menjadi dasar pengambilan keputusannya adalah:
• Berdasarkan Probabilitas,
Jika probabilitas > 0.05, maka H0 Diterima. Jika probabilitas < 0.05, maka H0 ditolak.
Keputusan: Pada bagian kedua output (kolom Sig.(2-tailed)) didapat serangkaian angka probabilitas (p-value). Terlihat bahwa hanya ada satu pasangan data yang berkorelasi secara signifikan, yaitu antara Mobil dan Tilang (probabilitas 0.015 yang lebih kecil dari 0.05). Karena itu disimpulkan bahwa di antara empat variabel yang berkorelasi secara signifikan hanya variabel Mobil dengan Tilang.
• Berdasarkan tanda * yang diberikan SPSS
Signifikan tidaknya korelasi dua variabel bisa dilihat dari adanya tanda * pada pasangan data yang dikorelasikan (lihat pilihan Flag significant correlations pada proses perhitungan korelasi di atas). Dari output bagian pertama dan kedua, terlihat hanya variabel Mobil dan Tilang bertanda *, hingga bisa disimpulkan bahwa kedua variabel tersebut yang berkorelasi secara signifikan. Perhatikan kedua cara menghasilkan kesimpulan yang sama
Signifikansi
Hasil Korelasi
Bagian ketiga mengenai jumlah data yang berkorelasi, yang terlihat bervariasi, hal ini seperti telah dijelaskan di awal, disebabkan oleh adanya missing data. Karena pada kasus ada satu data missing pada variabel Tilang dan dua pada variabel Mobil, maka korelasi dengan kedua variabel tersebut akan menghasilkan kasus yang tidak lengkap (kurang dari 10). Seperti jumlah kasus pada perhitungan Tilang dengan Motor yang hanya 9 (1 dikeluarkan karena 1 kasus missing Tilang). Namun antara Polisi dengan Motor, lengkap 10 karena kedua variabel tidak ada kasus yang missing. Demikian juga untuk jumlah data yang lainnya.
Seperti telah dijelaskan, ada dua option dalam penanganan missing value. Output di atas adalah penangan secara default SPSS, yaitu Exlude cases pairwise. Jika sekarang data dikorelasikan dengan pilihan Exclude cases listwise, maka: Prosedur analisis sama (diulang dari awal), hanya pilihan pada option diganti ke Exclude cases listwise, dimana outputnya adalah sebagai berikut:
Terlihat output yang hampir sama dengan output pertama, hanya di sini tidak ada bagian ketiga atau jumlah data, karena dalam listwise, jumlah data adalah sama dan tidak bervariasi seperti pilihan pairwise. Dalam kasus jumlah missing value ada 3 buah, maka data yang dikorelasikan berjumlah 10 – 3 = 7 buah. Hasil output dengan listanse tidak berbeda banyak dengan pairwise, juga mengenai signifikansinya, juga menghasilkan hanya satu pasangan yang berkorelasi secara signifikan. Namun masalah ini dikemukakan dengan cukup mendalam, karena pada data yang mempunyai variabel banyak ataupun jumlah kasus yang banyak, dimungkinkan terjadi perbedaan yang cukup besar antara metode pairwise dengan listwise.
Jumlah Data yang Berkorelasi
Jika Pilihan adalah Exclude
Cases Listwise
Korelasi Spearman dan Kendall
Jika uji korelasi bivariat Pearson yang telah dibahas di depan digunakan untuk mengetahui korelasi untuk data kuantitatif (skala interval atau rasio), maka korelasi rank Sperman dan Kendall bisa digunakan untuk pengukuran korelasi pada statistik non parametrik (data bisa ordinal).
Walaupun pada prinsipnya sama, namun terdapat perbedaan di antara kedua metode, yaitu jika korelasi Kendall (diberi simbol τ) merupakan suatu penduga tidak bias untuk parameter populasi, maka korelasi Spearman (diberi simbol r) tidak memberikan dugaan untuk koefisien peringkat suatu populasi.
Contoh 4
Seorang manajer personalia ingin mengetahui apakah ada hubungan antara Prestasi Kerja seseorang dengan tingkat kecerdasan (diukur dengan IQ) dan Motivasi Kerja yang bersangkutan. Untuk itu, diambil 9 orang pekerja dan seorang supervisor diminta memberi penilaian pada tiap pekerja tersebut tentang prestasi kerja dan motivasi kerjanya. Berikut ini adalah hasilnya.
Pekerja Prestasi IQ Motivasi
1 84 110 85
2 85 100 82
3 87 90 84
4 92 110 91
5 91 100 83
6 96 110 88
7 83 95 82
8 87 90 86
9 88 100 84
Prestasi Kerja dan Motivasi Kerja dinilai dalam range 0 (jelek sekali) sampai 100 (baik sekali). Sedang IQ didapat dari test kecerdasan saat pekerja melamar ke perusahaan.
Karena data pada kasus adalah data berskala pengukuran ordinal, maka untuk mengetahui hubungan antar variabel bisa diselesaikan dengan uji Spearman ataupun Kendall.
1. Buka lembar kerja/file korelasi_spearman sesuai kasus di atas, atau jika sudah terbuka ikuti langkah berikut.
2. Dari baris menu pilih menu Analyze, kemudian pilih submenu Correlate.
Dari serangkaian pilihan Correlate, sesuai kasus pilih Bivariate ...
• Variable atau variabel yang akan dikorelasikan. Karena di sini akan diuji korelasi semua variabel, maka klik variabel prestasi, kemudian klik tanda
► (yang sebelah atas). Sehingga variabel prestasi berpindah ke Variable.
Demikian juga untuk kedua variabel yang lain dengan cara yang sama dimasukkan dalam kolom Variables.
OLAH DATA
• Untuk kolom Correlation Coefisients atau alat hitung koefisien korelasi. Karena data pada kasus adalah kualitatif dan berskala ordinal, maka pilih Kendall tau_b dan Spearman.
• Untuk kolom Test of Significance, karena akan diuji dua sisi, maka pilih Two-tailed.
• Untuk pilihan Flag significant correlations atau berkenaan dengan tanda untuk tingkat signifikansi 5% dan 10% akan ditampilkan pada output ataukah tidak. Untuk keseragaman pilihan tersebut digunakan, hingga nanti pada output ada tanda * untuk 5% dan/atau tanda ** untuk 10%.
• Kemudian klik tombol Options. Pada pilihan Statistics diabaikan saja.
3. Kemudian klik OK untuk mengakhiri pengisian prosedur analisis. Terlihat SPSS melakukan pekerjaan analisis dan terlihat output SPSS.
Seperti yang dilakukan pada kasus sebelumnya, untuk memberikan pemahaman yang lebih mendalam mengenai output yang diberikan oleh SPSS yang berkenaan dengan korelasi ini, maka analisis dimulai dengan pengertian angka korelasi, Siginifikansi hasil korelasi, jumlah data yang berkorelasi, serta bagaimana output yang diperoleh jika data missing tidak ikut dianalisis.
Ada dua hal dalam penafsiran korelasi:
Berkenaan dengan besaran angka. Sama dengan korelasi Pearson, angka korelasi berkisar pada 0 (tidak ada korelasi sama sekali) dan 1 (korelasi sempurna). Sebagai pedoman sederhana, angka korelasi di atas 0.5 menunjukkan korelasi yang cukup kuat, sedang di bawah 0.5 korelasi lemah.
Selain besar korelasi, tanda korelasi juga berpengaruh pada penafsiran hasil. Tanda - (negatif) pada output menunjukkan adanya arah yang berlawanan, sedangkan tanda + (positif) menunjukkan arah yang sama.
Sebagai contoh, diambil angka pada output antara IQ dengan Prestasi yang menghasilkan angka +0.345. Angka tersebut menunjukkan lemahnya korelasi antara IQ dengan Prestasi (di bawah 0.5), sedang tanda ‘+’ menunjukkan bahwa semakin tinggi IQ seorang pekerja, akan semakin berprestasi pekerja tersebut.
Demikian sebaliknya, makin rendah IQ makin rendah pula prestasinya. Untuk signifikansinya, maka hipotesisnya dapat dirumuskan sebagai berikut:
H0: Tidak ada hubungan (korelasi) antara dua variabel atau angka korelasi 0, H1: Ada hubungan (korelasi) antara dua variabel atau angka korelasi tidak 0.
Uji dilakukan dua sisi karena akan dicari ada atau tidak ada hubungan/korelasi, dan bukan lebih besar/kecil.
ANALISIS
Arti Angka Korelasi
Koefisien Korelasi Kendalls Tau-b
Pengambilan keputusan didasarkan kepada probabilitas, yaitu:
Jika probabilitas > 0.05, maka H, diterima.
Jika probabilitas < 0.05, maka H, ditolak.
Keputusan: Pada output bagian kedua (kolom Sig. (2-tailed)) pada Kendalls Tau- b, untuk korelasi variabel IQ dengan Prestasi didapat angka probabilitasnya 0.227. Karena angka tersebut di atas 0.05, maka H0, diterima, atau sebenarnya tidak ada hubungan yang signifikan antara IQ dengan Prestasi pekerja.
Sebagai contoh, diambil angka pada output antara IQ dengan Prestasi yang menghasilkan angka +0.409. Angka tersebut juga menunjukkan kurang kuatnya korelasi antara IQ dengan Prestasi (di bawah 0.5), sedangkan tanda ‘+’
menunjukkan bahwa semakin tinggi IQ seorang pekerja, akan semakin berprestasi seorang pekerja. Demikian sebaliknya, makin rendah IQ, makin rendah pula prestasinya. Untuk signifikansinya, maka hipotesis dan dasar pengambilan keputusan sama dengan uji Pearson ataupun Kendall Tau-b.
Pada output bagian kedua (kolom Sig. (2-tailed)) pada Spearman, untuk korelasi variabel IQ dengan Prestasi didapat angka probabilitasnya 0.274. Karena angka tersebut di atas 0.05, maka H0, diterima, atau sebenarnya tidak ada hubungan yang signifikan antara IQ dengan Prestasi pekerja.
Terlihat di sini bahwa antara perhitungan Spearman dan Kendall menghasilkan angka korelasi yang tidak jauh berbeda, serta keputusan tentang signifikansi yang sama. Demikian juga dengan angka-angka output yang lain, tidak ada perbedaan besar di antara kedua metode pengukuran korelasi tersebut.
Koefisien Korelasi Spearman
Dengan demikian, dalam praktek penggunaan korelasi Kendall ataupun Spearman bisa dipilih secara bebas. Namun jika seorang peneliti ingin mengetahui perbedaan yang praktis dalam memilih dua metode di atas, bisa dilihat pedoman berikut:
Karena distribusi Kendall lebih cepat mendekati distribusi nominal dibanding distribusi Spearman, maka jika digunakan pendekatan distribusi normal, korelasi Kendall lebih bisa diandalkan hasilnya.
Seperti telah disebut di atas, karena korelasi Kendall dapat menjadi penduga parameter populasinya, sedangkan korelasi Spearman tidak, maka banyak peneliti lebih senang menggunakan korelasi Kendall. Kelebihan korelasi Spearman adalah pada kemudahan perhitungannya. Namun dengan adanya komputer dan program SPSS, maka keunggulan tersebut tidak berarti.
Korelasi Parsial
Pembahasan korelasi parsial berhubungan dengan perlunya mempertimbangkan pengaruh atau efek dari variabel lain dalam menghitung korelasi antara dua variabel. Karena itu bisa dikatakan korelasi parsial mengukur korelasi antar dua variabel dengan mengeluarkan pengaruh dari satu atau beberapa variabel (disebut variabel kontrol).
Contoh 5:
Sebagai contoh, akan diulang kasus pada pembahasan korelasi Spearman dan Kendall, yaitu antara prestasi kerja, motivasi kerja dan IQ seorang pekerja. Akan dihitung korelasi parsial antara variabel prestasi kerja dengan motivasi, dengan variabel kontrol adalah IQ.
Pengolahan data di sini akan diselesaikan untuk mengetahui korelasi parsial antara variabel prestasi kerja dan motivasi dengan variabel kontrolnya adalah IQ.
Adapun langkah-langkahnya adalah sebagai berikut:
1. Dari baris meniu pilih menu Analyze, kemudian pilih submenu Correlate.
Dari serangkaian pilihan Correlate, sesuai kasus pilih Partial …
• Variable atau variabel yang akan dikorelasikan. Karena di sini akan diuji korelasi variabel prestasi dan motivasi, maka klik variabel motivasi, kemudian klik tanda ► (yang sebelah atas). Sehingga variabel motivasi berpindah ke Variables. Demikian juga untuk prestasi.
• Untuk kolom controlling for atau variabel yang dikeluarkan dan dikontrol, karena dalam kasus adalah variabel IQ, maka klik variabel IQ, kemudian klik tanda ►(yang sebelah bawah). Sehingga variabel IQ berpindah ke kolom Controlling fot.
• Untuk kolom Test of Significance, karena akan diuji dua sisi, maka pilih Two-tailed.
OLAH DATA
• Untuk pilihan Flag significant correlations atau berkenaan dengan tanda untuk tingkat signifikansi 5% dan 10% akan ditampilkan pada output ataukah tidak. Untuk keseragaman pilihan tersebut digunakan, hingga nanti pada output ada tanda * untuk 5% dan/atau tanda ** untuk 10%.
• Kemudian klik tombol Options. Pada pilihan Statistics pilih Zero- order correlations. Sedangkan pilihan Missing Values, akan digunakan Exclude cases pairwise.
Output bagian pertama adalah zero order partial, karena belum dilakukan korelasi partial. Sedangkan output bagian kedua sudah dilakukan korelasi parsial. Di sini karena jumlah variabel kontrol adalah satu (IQ), maka disebut first-order partial.
Pada zero-order/none (tanpa ada variabel kontrol), didapat koefisien korelasi antara prestasi dengan motivasi sebesar 0.6646. sedangkan angka di antara tanda kurung di bawah besaran korelasi (7) adalah derajat kebebasan (df), yaitu n-2, atau karena jumlah data 9, maka df = 9 - 2 = 7. Sedangkan setelah variabel IQ dikeluarkan dan dilakukan korelasi, maka koefisien korelasi antara preatasi dan motivasi menjadi
0.5557 sedangkan angka diantara tanda kurung dibawah besaran korelasi (60) adalah derajat kebebasan (df), yaitu n-k-1, atau karena jumlah data 9 dan jumlah variabel (k) adalah 2, maka df = 9 -2 -1 = 6. Terlihat bahwa dengan adanya variabel kontrol, terjadi penurunan besar korelasi.
LATIHAN 3 (DIKUMPULKAN)
Data yang disajikan dalam tabel berikut ini diambil dari 17 buah rumah sakit di Amerika Serikat. Variabel-variabel yang diamati dalam kasus ini adalah variabel ANALISIS
beban pekerjaan yang dilakukan oleh rumah sakit itu, artinya faktor-faktor yang mempengaruhi seberapa banyak tenaga kerja yang diperlukan untuk mengelola suatu rumah sakit. Variabel-variabel itu adalah: Y = Jam kerja buruh per bulan, X1
= rata-rata harian panggilan pasien, X2 = penggunaan sinar-X bulanan, X3 = rata- rata tempat tidur yang terpakai per bulan, X4 = rata-rata masa inap pasien dalam hari.
No X1 X2 X3 X4 Y
1 15.57 2462 472.92 4.45 566.52
2 44.02 2048 1339.75 6.92 696.82
3 20.42 3940 620.25 4.28 1033.15
4 18.74 6505 568.33 3.90 1603.62
5 49.20 5723 1497.60 5.50 1611.37
6 44.92 11520 1365.83 4.60 1613.27
7 55.48 5779 1687.00 5.62 1854.17
8 59.28 5969 1639.92 5.15 2160.55
9 94.39 8461 2872.33 6.18 2305.58
10 128.02 20106 3655.08 6.15 3503.93
11 96.00 13313 2912.00 5.88 3571.89
12 131.42 10771 3921.00 4.88 3741.40
13 127.21 15543 3865.67 5.50 4026.52
14 252.90 36194 7684.10 7.00 10343.81
15 406.20 34703 12446.33 10.78 11732.17
16 463.70 39204 14098.40 7.05 15414.94
17 510.22 86533 15524.00 6.35 18854.45
Sumber: Myers, RH. (1990). Classical and Modern Regression with Applications.
Boston: PWS-KENT Publishing Company.
1. Hitung korelasi antara kelima variabel, baik untuk variabel bebas (X) maupun untuk variabel tak bebas (Y) di atas dengan menggunakan korelasi Pearson.
2. Hitung korelasi antara variabel-variabel bebas (X) dengan menggunakan korelasi partial, dimana variabel tak bebas (Y) dijadikan sebagai variabel kontrol.
3. Buat ranking untuk variabel-variabel dalam tabel di atas, dengan ketentuan bahwa nilai yang terbesar dijadikan sebagai ranking pertama, nilai yang terbesar kedua sebagai ranking kedua, dan seterusnya. Kemudian hitung korelasi rank Spearman dan Kendall di antara kelima variabel yang diamati.
Bandingkan hasilnya dengan yang diperoleh pada Soal 1.
Seperti telah diuraikan sebelumnya, jika pada regresi sederhana hanya ada satu variabel dependent (Y) dan satu variabel independent (X), maka pada kasus regresi berganda (multiple), terdapat satu variabel dependent dan lebih dari satu variabel independent. Dalam praktek bisnis, regresi berganda justru lebih banyak digunakan, selain karena banyaknya variabel dalam bisnis yang perlu dianalisis Bersama, juga pada banyak kasus regresi berganda lebih relevan digunakan.
Dalam banyak kasus bisnis yang menggunakan regresi berganda, pada umumnya jumlah variabel dependent berkisar dua sampai empat variabel. Walaupun secara teoritis bisa digunakan banyak variabel bebas, namun penggunaan lebih dari tujuh variabel independent dianggap akan lebih efektif.
Contoh :
PT CEMERLANG dalam beberapa bulan gencar mempromosikan sejumlah peralatan elektronik dengan mebuka outlet-outlet di berbagai daerah. Berikut ini adalah data mengenai Penjualan, Biaya Promosi dan Jumlah Outlet yang dikeluarkan di 15 daerah di Indonesia. Akan dilakukan analisis regresi untuk mengetahui hubungan di antara variabel Penjualan dengan Biaya Promosi dan Luas Outlet.
Daerah Sales
(Juta Rupiah)
Promosi (Juta Rupiah)
Outlet (m2)
JAKARTA 205 26 159
TANGERANG 206 28 164
BEKASI 254 35 198
BOGOR 246 31 184
BANDUNG 201 21 150
SEMARANG 291 49 208
SOLO 234 30 184
YOGYA 209 30 154
SURABAYA 204 24 149
PURWEKERTO 216 31 175
MADIUN 245 32 192
TUBAN 286 47 201
MALANG 312 54 248
KUDUS 265 40 166
PEKALONGAN 322 42 287
4
Modul
Analisis Regresi Multipel
Di sini karena akan diketahui besar hubungan atau seberapa jauh Biaya Promosi dan Luas Outlet yang disewa berpengaruh terhadapat Penjualan PT CEMERLANG, maka akan dilakukan uji regresi, dengan variabel dependent adalah Sales/Penjualan, dan variabel independent adalah Biaya Promosi dan Luas Outlet. Karena ada dua variabel independent, maka uji regresi tersebut dinamakan uji regresi berganda. Langkah-langkahnya:
1. Buka lembar kerja/file regresi_sederhana sesuai kasus di atas, atau jika sudah terbuka ikuti Langkah berikutnya. Dari baris menu pilih menu Analyze, kemudian pilih submenu Regression.
2. Dari serangkaian pilihan test untuk Regresi, sesuai kasus pilih Linear…
untuk uji regresi secara linier (variabel X hasil persamaan regresi hanya ada satu).
• Dependent. Dalam hal ini variabel tergantung adlaah variabel sales.
Klik variabel sales, kemudian klik tanda ►(yang sebelah atas).
Sehingga variabel sales berpindah ke Dependence.
• Independent(s). Dalam hal ini variabel bebas (predictor) adalah variabel promosi. Klik variabel promosi, kemudian klik tanda (bagian independent), maka variabel promosi akan berpindah ke bagian Independent. Demikian juga untuk variabel outlet.
• Case Labels atau keterangan pada kasus. Karena kasus didasarkan pada daerah-daerah, maka klik variabel daerah, kemudian klik tanda ► (yang terbawah). Sehingga variabel daerah berpindah ke Case Labels.
• Method atau cara memaskan/seleksi variabel. Metode ini bermacam- macam, seperi Stepwise, Remove, Backward dan Forward (Stepwise).
Untuk keseragaman pilih default yang ada, yaitu Enter, yaitu prosedur pemilihan variabel di mana semua variabel dalam blok dimasukkan dalam perhitungan ‘single step’.
3. Pilih tombol Options.
• Untuk Stepping Method Criteria, gunakan uji F mengambil standar angka probabilitas sebesar 5% karena itu, angka Entry .05 atau 5%
dipilih.
• Pilihan default Include constan tin equation atau menyertakan konstanta tetap dipilih.
4. Pilih tombol Statistics. Pilihan ini berkenaan dengan perhitungan statistic regresi yang akan digunakan. Perhatikan default yang ada di SPSS adalah Estimates dan Model fit.
• Regression Coeficient atau perlakuan koefisien regresi, pilih default atau Estimate.
• Klik pilihan Descriptive pada kolom sebelah kanan, serta aktifkan Model fit.
• Residuals dikosongkan saja. Jika dipilih outliers outside dan kemudian dipilih sebanyak 1 standar deviasi sebagai contoh, maka akan ditampilkan hasil regresi pada daerah yang melebihi satu standar deviasi.
5. Klik tombol Plots atau berhubungan dengan gambar/grafik untuk regresi.
Direncanakan semua kemungkinan plots. Untuk itu, ketik pada p ilihan produce all partial plots.
6. Klik Paste untuk mengakhiri pengisian prosedur analisis. Terlihat SPSS melakukan pekerjaan analisis dan terlihat output SPSS.
7. Pergi ke syntax, lalu blok dan run command yang sudah muncul.
Karena output regresi cukup banyak maka analisis hasil regresi akan dibahas bagian per bagian secara mendalam dengan penyajian ulang bagian yang akan dibahas.
Berikut ini adalah analisis dan output dari pemodelan regresi berganda.
• Rata-rata Sales (dengan jumlah data 15 buah ) adalah Rp.
246.400.000,- dengan standar deviasi Rp. 41.110.000,-
• Rata-rata Biaya Promosi (dengan jumlah data 15 buah) adalah Rp. 34.670.000,- dengan standar deviasi Rp. 9.680.000,-.
• Luas outlet rata rata (dengan jumlah data 15 buah) adalah 187,93 m2 dengan standar deviasi 38,09 m2.
Besar hubungan antara variabel Sales dan Promosi yang dihitung dengan koefisien korelasi adalah 0,916, sedangkan variabel Sales dengan Outlet adalah 0,901. Secara teoritis, karena korelasi antara Sales dan Promosi lebih besar, maka variabel Promosi lebih berpengaruh terhadap Sales dibandingkan variabel Outlet.
Terjadi korelasi yang cukup kuat antara variabel Promosi dengan Outlet, yaitu 0,735. Hal ini menandakan adanya multikolinieritas, atau korelasi diantara variabel bebas.
Tingkat signifikansi koefisien korelasi satu sisi dari output (diukur dari probabilitas) menghasilka angka 0,000 atau praktis 0. Karena probabilitas jauh di bawah 0,05, maka korelasi antara Sales dengan Promosi sangat nyata.
ANALISIS
Descriptive Statistics dan
Correlation
Tabel Variables Entered menunjukan bahwa tidak ada variabel yang dikeluarkan (removed), atau dengan kata lain kedua variabel bebas dimasukkan dalam perhitungan regresi.
Angka R square adalah 0,952 hal ini berarti bahwa 95.2% sales perusahaan bisa dijelaskan oleh variabel biaya promosi dan outlet yang disewa. Sedangkan sisanya (100% - 95,2% = 4,8%) dijelaskan oleh sebab sebab yang lain.
Standard error of estimation adalah 9.76 atau Rp. 9.760.000,- (satuan yang dipakai adalah variabel dependent, atau dalam hal ini adalah Sales). Perhatikan analisis sebelumnya bahwa standar deviasi Sales adalah Rp. 41.110.000,- yang jauh lebih besar dari standar error of estimate yang hanya Rp. 9.760.000,-. Karena lebih kecil dari standar deviasi Sales, maka model regresi lebih bagus dalam bertindak sebagai predictor Sales daripada rata rata Sales itu sendiri.
Dari uji ANOVA atau F test, didapat F hitung adalah 118,294 dengan tingkat signifikansi 0.0000. karena probabilitas (0.0000) lebih jauh kecil dari 0.05, maka model regresi bisa dipakai untuk memprediksi Sales. Atau bisa dikatakan, Promosi dan Luas Outlet yang disewa secara bersama-sama berpengaruh terhadap Sales.
Lihat pembahasan uji ANOVA untuk melihat lebih jauh mengenai penggunaan F test.
ANOVA dan Coefficients
Tabel di atas menggambarkan persamaan regresi : Y = 64,639 + 2,342 X1 + 0,535 X2
dimana : Y = Sales, X1 = Biaya Promosi dan X2 = Luas Outlet.
Konstanta sebesar 64,639 menyatakan bahwa jika tidak ada biaya promosi atau outlet yang disewa perusahaan, maka Sales adalah Rp. 64.639.000,-. Koefisien regresi X1 sebesar 2,342 menyatakan bahwa setiap penambahan (karena tanda +) Rp. 1,- biaya promosi akan meningkatkan Sales sebesar Rp. 2.342,-. Koefisien regresi X2 sebesar 20,535 menyatakan bahwa setiap penambahan (karena tanda +) 1 m2 luas outlet akan meningkatkan Sales sebesar Rp. 0,535,-.
Uji t untuk menguji signifikansi konstanta dan variabel dependent (promosi). Di sini akan diberi contoh uji koefisien regresi dari variabel Promosi. Apapun rumusan hipotesis untuk kasus ini adalah :
H0 : Koefisien regresi tidak signifikan H1 : Koefisien regresi signifikan.
Dasar pengambilan keputusan adalah berdasarkan Probabilitas atau p- value, dimana
• Jika probabilitas > 0.05, maka H0 diterima.
• Jika probabilitas < 0.05, maka H0 ditolak.
Keputusan : Terlihat bahwa pada kolom Sig/significance adalah 0.000, atau probabilitas jauh dibawah 0.05. Sehingga H0 ditolak, atau koefisien regresi signifikan, atau promosi benar-benar berpengaruh secara signifikan terhadap Sales. Demikian juga untuk analisis konstanta dengan dua cara tadi dihasilkan angka konstanta dan variabel outlet dengan du acara tadi dihasilkan angka konstanta dan outlet yang signifikan. Uji yang sama, jika diterapkan pada variabel Outlet, akan menghasilkan kesimpulan yang sama, yaitu variabel Outlet benar-benar
berpengaruh terhadap Sales.
Setelah diuraikan bagian output angka, sekarang beralih ke bagian output berupa Chart untuk menganalisis hubungan setiap varabel bebas dengan variabel tergantung.
Hubungan Sales dengan Promosi
Perhatikan gambar di halaman berikut ini. Terlihat bahwa sebaran data membentuk arah ke kanan atas, dan jika ditarik garis lurus akan didapat slope yang positif. Hal ini sesuai dengan koefisien regresi (yang adalah nilai slope) promosi yang positif.
Hubungan Sales dengan Outlet
Terlihat bahwa sebaran data membentuk arah ke kanan atas, dan jika ditarik garis lurus akan didapat slope yang positif. Hal ini sesuai dengan koefisien regresi (yang adalah nilai slope) Outlet yang positif.
Gambar/Chart
Latihan (Dikumpulkan)
Latihan 1
Sebuah perusahaan minuman ringan ingin memprediksi banyaknya waktu yang diperlukan untuk mengirimkan produk ke tempat pemesan berdasarkan jarak yang ditempuh oleh mobil pengangkut dari gudang sampai ke tempat tujuan.
Waktu dijadikan sebagai variabel tak bebas yang diukur dalam menit, sedangkan jarak dijadikan sebagai variabel bebas yang diukur dalam feet. Data dikumpulkan berdasarkan 25 observasi yang disajikan dalam tabel berikut:
No Waktu (Y) Jarak No Waktu (Y) Jarak
1 16.68 560 14 19.75 462
2 11.50 220 15 24.00 448
3 12.03 340 `16 29.00 776
4 14.88 80 17 15.35 200
5 13.75 150 18 19.00 132
6 18.11 330 19 9.50 36
7 8.00 110 20 35.10 770
8 17.24 210 21 17.90 140
9 79.24 1460 22 52.32 810
10 21.50 605 23 18.75 450
11 40.33 688 24 19.83 635
12 21.00 215 25 10.75 150
13 13.50 255
Sumber. Montgomery, D.C. and E.S. Peck (1992). Introduction to Linear Regression Analysis. New York: John Wiley and Sons.
1. Tentukan model regresi linear sederhana yang menyatakan hubungan antara waktu pengiriman produk dengan jarak yang ditempuh. Apakah masing- masing koefisien regresi di dalam model itu signifkan?
2. Bentuk tabel analisis varians (ANAVA) dan lakukan pengujian keberartian model regresinya. Berapa persen keragaman total dalam variabel Y yang dapat dijelaskan oleh model tersebut.
Latihan 2
Seorang peneliti dari sebuah Lembaga Penelitian akan mengevaluasi hubungan antara gaji yang diterima oleh seorang statistisi per tahun (Y, dalam ribuan dolliar) dengan indeks kualitas publikasi (X1), indeks keberhasilan dalam mendapatkan dana penelitian (X2), dan pengalaman (X3, dalam tahun). Data untuk 24 orang statistisi disajikan dalam tabel berikut ini:
No Y X1 X2 X3 No Y X1 X2 X3
1 33.2 3.5 9 6.1 13 43.3 8.0 23 7.6
2 40.3 5.3 20 6.4 14 44.1 6.5 35 7.0
3 38.7 5.1 18 7.4 15 42.8 6.6 39 5.0
4 46.8 5.8 33 6.7 `16 33.6 3.7 21 4.4
5 41.4 4.2 31 7.5 17 34.2 6.2 7 5.5
6 37.5 6.0 13 5.9 18 48.0 7.0 40 7.0
7 39.0 6.8 25 6.0 19 38.0 4.0 35 6.0
8 40.7 5.5 30 4.0 20 35.9 4.5 23 3.5
9 30.1 3.1 5 5.8 21 40.4 5.9 33 4.9
10 52.9 7.2 47 8.3 22 36.8 5.6 27 4.3
11 38.2 4.5 25 5.0 23 45.2 4.8 34 8.0
12 31.8 4.9 11 6.4 24 35.1 3.9 15 5.0
Sumber: Neter, J., W. Wasserman, and M.H. Kutner (1990). Applied Linear Statistical Model. Third Edition. Tokyo: Richard D. Irwin, Inc.
Bentuk model regresi multipel yang menyatakan hubungan antara variabel tak bebas Y dengan variabel-variabel prediktornya, X1, X2, dan X3.