• Tidak ada hasil yang ditemukan

PRAKTIKUM ANALISIS DATA EKSPLORATIF

N/A
N/A
Protected

Academic year: 2021

Membagikan "PRAKTIKUM ANALISIS DATA EKSPLORATIF"

Copied!
34
0
0

Teks penuh

(1)

LAPORAN

PRAKTIKUM ANALISIS DATA EKSPLORATIF

GEMPUR SAFAR

(10877

)

Asisten

SIGIT SAMAPTAAJI

BAGUS PRAMULYA

Dosen

Dra. SRIHARYATMI KARTIKO, M.Sc.

LABORATORIUM KOMPUTASI

MATEMATIKA DAN STATISTIKA

JURUSAN MATEMATIKA

FAKULTAS MATEMATIKA & ILMU PENGETAHUAN ALAM

UNIVERSITAS GADJAH MADA

YOGYAKARTA

(2)

ANALISIS DATA EKSPLORATIF

1. Dasar Teori

A. Bentuk Visual Data

Bentuk visual data atau basa disebut angkatan merupakan bentuk yang dikonstruksikan dari data yang merupakan visualisasi dari data tersebut, artinya dari bentuk ini dapat dilihat misalnya pengelompokkan data, pusat data, penyebaran data, sampai bentuk distribusi data.

Bentuk visual dari data dapat dilihat dari daftar tally, dan diagram batang dan daun. Kedua bentuk visualisasi data ini memiliki kelebihan dan kekurangan masing-masing.

Daftar tally secra garis besar dapat membantu dalam mengetahui pemusatan, persebaran dan bentuk distribusi data. Namun, bentuk visualisai data ini memiliki satu kekurangan, yaitu kita tidak dapat melihat nilai dari setiap observasi secara lengkap, sebab sebagian besar daftar tally disajikan dalam bentuk berkelompok (dalam bentuk interval), dan bahkan jika secara tunggal, kita hanya akan mempunyai beberapa nilai observasi yang mewakili nilai observasi yang sama.

Kelemahan daftar tally ini dapat kita tutpi dengan bentuk visualisasi lainnya, yaitu diagram batang dan daun. Selain memiliki fungsi yang sama dengan daftar tally, bentuk visualisasi ini juga memiliki beberapa kelebihan seperti dapat digunakan dalam pembuatan array data, dan membandingan 2 buah angkatan data.

Secara garis besar, bentuk-bentuk angkatan terdiri dari:

univorm Simetris Menjurai Keatas Menjurai kebawah Berpuncak Ganda

(3)

Ringkasan numerik terdiri atas dua macam, yaitu:

a. Ukuran pusat yang berfungsi menunjukan letak pusat dari data, dan;

b. Ukuran sebaran yang berfungsi menunjukan seberapa besar data menyebar.

a. Ukuran Pusat

Ukuran pemusatan data terdiri atas: • Rata-rata

Penghitungan rata-rata melibatkan seluruh observasi yang terdapat di dalam data.

x_ = n x n i i

=1 • Median

Median adalah observasi yang terletak ditengah setelah data diurutkan dari nilaiobservasi terkecil menuju terbesar atau sebaliknya. Median ini membantu mengatasi masalah harga ekstrim pada rata-rata, karena median tidak terpengaruh oleh harga ekstrim.

Bila ukuran data agak besar, penentuan median dapat mengikuti langkah-langkah berikut:

1. mengurutkan data

2. menghitung nilai n(banyak observasi)/2 3. n/2 membesar ke k (n/2 k)

(aturan tambahan, jika n/2 = m ½ dan m ¾ maka k = m+1 dan jika n/2 = m atau m 1/3 maka k = m + ½ )

4. median adalah observasi ke-k dari terkecil atau dari terbesar

• Kuartil

Kuartil adalah harga yang membagi data menjadi empat bagian yang sama yang selanjutnya disebut k1, k2 (median)dan k3.

(4)

Kuartil dapat ditentukan dengan terlebih dahulu menentukan nilai n/4  p, dan selanjutnya diperoleh:

k1 = observasi ke-p dari yang terkecil

k3 = observasi ke-p dari yang terbesar.

• Modus

Modus adalah harga yang muncul dengan frekuensi paling banyak. Suatu data bisa memiliki hanya satu modus, atau lebih dari 2 modus, bahkan tidak mempunyai modus atau dapat dikatan semua observasi adalah modus.

Oleh karena itu, nilai modus jarang digunakan dalam menentukan pemusatan data.

• Trirata

Trirata adalah suatu ukuran pusat yang tidak dipengaruhi oleh harga ekstrim. Trirata dapat dicari dengan menjumlahkan k1,

k3, dan 2 kali median dan selanjutnya di bagi 4 (empat). Atau

secara matematis : Trirata = 4 2 2 3 1 k k k + + • Rata-rata tengah

Rata-rata tengah adalah rata-rata dari observasi yang terletak di antara kuartil 1 dan kuartil 3 tidak termasuk kuartil 1 dan kuartil 3 tersebut.

b. Ukuran Sebaran

Ukuran sebaran data terdiri atas:  Range (jangkauan)

 Deviasi Kuartil  Mean Deviasi  Variansi

(5)

C. Penggunaan Ringkasan Numerik

(6)

2. Permasalahan

Adapun permasalahan yang akan dislesaikan pada laporan kali ini, yaitu:

1. Bagaimanakah cara membuat visualisasi data ?

2. Bagaimanakah cara untuk membuat ringkasan numerik ?

3. Bagaimanakah cara untuk melakukan standardisasi dan transformasi ? Dan untuk menyelesaikan ketiga permasalahan tersebut, terlebih dahulu akan diselesaikan contoh soal berikut:

a. untuk memutuskan jumlah konter servis dalam sebuah supermarket, diperlukan data lama waktu antrian. Berikut ini adalah data lama waktu antrian (dalam menit):

3.6 1.9 1.1 1.4 0.6 1.1 1.6 1.8 0.2 2.8 1.2 1.9 2.1 0.3 1.3 2.5 0.8 5.2 0.3 1.1 3.1 1.1 1.0 0.5 0.8 0.5 0.4 0.4 0.9 1.8 0.2 1.2 2.3 1.2 0.7 0.3 1.0 0.6 1.8 0.4 3.1 1.1 1.4 1.1 4.5 1.3 1.7 0.6 1.8 0.8 0.9 0.8 1.1 0.7 1.6 1.7 0.7 1.3 2.2 0.6

i. buatlah visualisasi data dan ringkasan numeriknya !

ii. berapa proporsi antrian yang kurang atau sama dengan 1 menit ?

b. Ahli lingkungan hidup melakukan survey terhadap 28 ekor lumba-lumba untuk mengetahui tingkat akumulasi zat mercury pada mamalia laut. Konsentrasi air raksa (Hg) pada hati lumba-lumba tersebut diukur dalam microgram per gram berat. Di bawah ini adalah data surveynya :

1.70 183 221 286 101 264 316 1.72 168 406 315 209 85.4 481 8.8 218 252 241 445 314 118 5.9 180 329 397 485 278 318

Dari data-data tersebut divisualisasikan dengan membuat bentuk-bentuk visulisasi data diantaranya daftar tally, diagram batang dan daun, dan rigkasan numerik.

(7)

Buatlah visualisasi data dan ringkasan numeriknya !

c. Empat mahasiswa statistika ingin membandingkan jumlah pengunjung pada 4 wartel yang ada di suatu kecamatan. Kemudian mereka melakukan pengamatan selama beberapa hari, dan didapat hasil sebagai berikut:

wartel1 wartel2 wartel3 wartel4

29 31 13 26 19 19 20 18 24 31 15 27 14 26 12 29 21 30 18 24 13 22 24 25 18 29 11 23 17 26 17 27 30 32 12 36 23 30 18 27 18 23 17 25 23 26 12 29 21 27 22 29 22 28 18 29 19 32 16 22

i. Buatlah boxplot, diagram batang dan daun, serta ringkasan numerik untuk data tersebut, lalu interprestasikan hasilnya !

ii. Lakukan standardisasi terhadap data yang ada dengan pusat mean dan sebaran standar deviasi !

iii. Untuk perbandingan, lakukan standardisasi terhadap data yang ada dengan pusat median dan sebaran range !

iv. Ulangi langkah 1 untuk data soal nomor 2 dan 3 ! v. Simpulkan hasilnya !

d. Lakukanlah transformasi data untuk variable head L, head W, Neck G, length, chest G, dan weight pada file Bears.MTW.

i. Buatlah boxplot untuk tiap-tiap variable tersebut ! ii. Hitunglah nisbah untuk setiap transformasinya !

iii. Lakukan transformaasi data hingga diperoleh data yang dapat dikatan simetris !

(8)

3. Pembahasan Permasalahan

a. Berikut ini adalah data lama waktu antrian (dalam menit):

Setelah kita menginputkan data yang akan dianalisis, selanjutnya kita akan membuat visualisasi dan ringkasan numeric dari data tersebut:

a. Visualisasi data:

Visualisasi data akan disajikan dalam bentuk daftar tally dan diagram batang dan daun.

Kedua bentuk visualisasi ini dapat kita buat secara manual maupun dengan menggunakan perangkat lunak Minitab.

Daftar tally Secara Manual

1. data akan dibuat kedalam kelas-kelas interval dengan lebar interval= { nilai tertinggi(5,2) – nilai terendah (0,2)}/ jumlah kelas yang kita inginkan (missal 8)=0,63 dibulatkan 0,6.

(9)

2. setelah diketahui lebar interval, selanjutnya data diklasifikasikan kedalam kelas masing-masing:

0,2 – 0,7 |||| |||| |||| || 17 0,8 – 1,3 |||| |||| |||| |||| | 21 1,4 – 1,9 |||| |||| || 12 2,0 – 2,5 |||| 4 2,6 – 3,1 ||| 3 3,2 – 3,7 | 1 3,8 – 4,3 4,4 – 4,9 | 1 5,0 – 5,5 | 1 Menggunakan Minitab:

3. setelah data diinputkan kedalam worksheet minitab, selanjutnya klik menu Stat  tables  tally, dan akan muncul kotak dialog berikut:

4. Kemudian masukan variabel atau kolom tempat data yang akan dibuat daftar tally-nya kedalam kolom variables dan aktirkan counts, percents, cumulative counts dan cumulative percents. Kemudian klik OK.

(10)

Dan outputnya seabagai berikut:

Diagram Batang dan daun Secara Manual: Batang Daun (satuan) (persepuluhan) 0 2 2 3 3 3 4 4 4 5 5 6 6 6 6 7 7 7 8 8 8 8 9 9 1 0 0 1 1 1 1 1 1 1 2 2 2 3 3 3 4 4 6 6 7 7 8 8 8 8 9 9 2 1 2 3 5 8 3 1 6 4 5 5 2

(11)

Menggunakan Minitab

1. Inputkan data, klik Stat  EDA  steam and leaf Muncul kotak dialog berikut:

2. Masukan variable C1, aktifkan trim outlier, dan masukan increment 0.6, dan klik OK

b. Ringkasan Numerik:

Oleh karena ringkasan numeric terdiri dari mean, median, kuartil, standar deviasi, variansi sdan sebagainya yang cukup menyita waktu jika diselesaikan dengan cara manual, maka akan diselesaikan dengan menggunakan minitab.

1. inputkan data, klik calc  row statistic (column statistic) atau jika kita ingin sekaligus menampilkan semua ringkasan numeric kita bisa klik stat  basic statistic  store (display) descriptive statistic dan muncul kotak dialog berikut:

(12)

2. masukan variable C1 dan klik OK dan muncul outputnya:

Menghitung proporsi antrian yang kurang dari atau sama dengan 1 menit.

Dengan menggunakan minitab tentu saja terlebih dahulu menginput data, kita dapat menghitung proprsi tersebut, caranya :

1. Klik calc  probability distribution  normal , dan muncul kotak dialog berikut:

(13)

2. oleh karena proporsi yang akan dihitung adalah kurang dari sama dengan 1 menit, maka aktifkan cumulative probability dan masukan nilai mean dan standar deviasi yang telah kita peroleh pada ringkasan numeric, klik OK, dan outputnya:

3. sehingga, proporsi proporsi antrian yang kurang dari atau sama dengan 1 menit adalah 0, 3560.

(14)

a. berikut ini adalah data Konsentrasi air raksa (Hg) pada hati 28 ekor lumba-lumba diukur dalam microgram per gram berat:

1. Daftar tally

setelah data diinputkan kedalam worksheet minitab, selanjutnya klik menu Stat  tables  tally, dan akan muncul kotak dialog berikut:

(15)

Kemudian masukan variabel atau kolom tempat data yang akan dibuat daftar tally-nya kedalam kolom variables dan aktirkan counts, percents, cumulative counts dan cumulative percents. Kemudian klik OK. Dan outputnya

2. Diagram Batang dan Daun

Inputkan data, klik Stat  EDA  steam and leaf Muncul kotak dialog berikut:

(16)

Masukan variable C1, aktifkan trim outlier, dan masukan increment 0.6, dan klik OK , dan outputnya sebagai berikut:

3. Ringkasan Numerik

a. inputkan data, klik calc  row statistic (column statistic) atau jika kita ingin sekaligus menampilkan semua ringkasan numeric kita bisa klik stat  basic statistic  store (display) descriptive statistic dan muncul kotak dialog berikut:

(17)

b. Berikut ini data perbandingan Jumlah Pengunjung di 4 wartel berbeda:

a. Boxplot, Diagram Batang dan Daun, Ringkasan Numerik • Boxplot

(18)

• Diagran Batang dan Daun

(19)

b. Standarisasi

• Pusat mean, sebaran standar deviasi • Pusat median , sebaran range

Output akan sekaligus ditampilkan secara bersamaan, sebagai berikut:

jumlah ByVar1 Mean1 StDev1 Median1 Range2 mean/stdv med/rang

29 1 20.7333 4.75795 21 17 1.73744 0.470588 19 1 20.7333 4.75795 21 17 -0.36430 -0.117647 24 1 20.7333 4.75795 21 17 0.68657 0.176471 14 1 20.7333 4.75795 21 17 -1.41518 -0.411765 21 1 20.7333 4.75795 21 17 0.05605 0.000000 13 1 20.7333 4.75795 21 17 -1.62535 -0.470588 18 1 20.7333 4.75795 21 17 -0.57448 -0.176471 17 1 20.7333 4.75795 21 17 -0.78465 -0.235294 30 1 20.7333 4.75795 21 17 1.94762 0.529412 23 1 20.7333 4.75795 21 17 0.47640 0.117647 18 1 20.7333 4.75795 21 17 -0.57448 -0.176471 23 1 20.7333 4.75795 21 17 0.47640 0.117647 21 1 20.7333 4.75795 21 17 0.05605 0.000000 22 1 20.7333 4.75795 21 17 0.26622 0.058824 19 1 20.7333 4.75795 21 17 -0.36430 -0.117647 31 2 27.4667 3.87052 28 13 0.91288 0.230769 19 2 27.4667 3.87052 28 13 -2.18747 -0.692308 31 2 27.4667 3.87052 28 13 0.91288 0.230769 26 2 27.4667 3.87052 28 13 -0.37893 -0.153846 30 2 27.4667 3.87052 28 13 0.65452 0.153846 22 2 27.4667 3.87052 28 13 -1.41238 -0.461538 29 2 27.4667 3.87052 28 13 0.39616 0.076923 26 2 27.4667 3.87052 28 13 -0.37893 -0.153846 32 2 27.4667 3.87052 28 13 1.17125 0.307692 30 2 27.4667 3.87052 28 13 0.65452 0.153846 23 2 27.4667 3.87052 28 13 -1.15402 -0.384615 26 2 27.4667 3.87052 28 13 -0.37893 -0.153846 27 2 27.4667 3.87052 28 13 -0.12057 -0.076923 28 2 27.4667 3.87052 28 13 0.13779 0.000000 32 2 27.4667 3.87052 28 13 1.17125 0.307692

(20)

13 3 16.3333 3.88526 17 13 -0.85794 -0.307692 20 3 16.3333 3.88526 17 13 0.94374 0.230769 15 3 16.3333 3.88526 17 13 -0.34318 -0.153846 12 3 16.3333 3.88526 17 13 -1.11533 -0.384615 18 3 16.3333 3.88526 17 13 0.42897 0.076923 24 3 16.3333 3.88526 17 13 1.97327 0.538462 11 3 16.3333 3.88526 17 13 -1.37271 -0.461538 17 3 16.3333 3.88526 17 13 0.17159 0.000000 12 3 16.3333 3.88526 17 13 -1.11533 -0.384615 18 3 16.3333 3.88526 17 13 0.42897 0.076923 17 3 16.3333 3.88526 17 13 0.17159 0.000000 12 3 16.3333 3.88526 17 13 -1.11533 -0.384615 22 3 16.3333 3.88526 17 13 1.45850 0.384615 18 3 16.3333 3.88526 17 13 0.42897 0.076923 16 3 16.3333 3.88526 17 13 -0.08579 -0.076923 26 4 26.4000 4.06729 27 18 -0.09835 -0.055556 18 4 26.4000 4.06729 27 18 -2.06526 -0.500000 27 4 26.4000 4.06729 27 18 0.14752 0.000000 29 4 26.4000 4.06729 27 18 0.63925 0.111111 24 4 26.4000 4.06729 27 18 -0.59007 -0.166667 25 4 26.4000 4.06729 27 18 -0.34421 -0.111111 23 4 26.4000 4.06729 27 18 -0.83594 -0.222222 27 4 26.4000 4.06729 27 18 0.14752 0.000000 36 4 26.4000 4.06729 27 18 2.36029 0.500000 27 4 26.4000 4.06729 27 18 0.14752 0.000000 25 4 26.4000 4.06729 27 18 -0.34421 -0.111111 29 4 26.4000 4.06729 27 18 0.63925 0.111111 29 4 26.4000 4.06729 27 18 0.63925 0.111111 29 4 26.4000 4.06729 27 18 0.63925 0.111111 22 4 26.4000 4.06729 27 18 -1.08180 -0.277778

c. Boxplot hasil standarisasi

• Pusat mean, sebaran standar deviasi

(21)

d. Analisis Data Bears

Berikut ini data Bears yang diperoleh dari Minitab:

Selanjutnya akan dibuat boxplot dari tiap-tiap variable terhadap nomor observasi

(22)

Variabel Head W

(23)

Variabel Length

(24)

 Variabel Weight

Selanjutnya akan dilakukan penghitungan nisbah untuk setiap transformasi dengan terlebih dahulu menentukan transformasi:

Penentuan Median dan IQR1 setiap variabel:

Stat  Basic Statistic  Strore Descriptive Statistics

(masukan variabel yang kaan ditransformasi, By variabel Obs. No dan pada Statistics aktifkan median dan Interquartil range (klik OK, pada Option aktifkan store a row of output for each row of output (klik OK) dan klik OK.)

(25)

Kemudian plot log median n vs log IQR n (n = 1,2,3,4,5,6 (variabel)) Stat  Regression  Fitted Line Plot

(pada response [y] : IQR dan pada response [x] : Median, dan type of

regression model : Linear, kemudian pada Option pilih transformation

dan aktifkan logten of Y, logten of X, display logscale foe Y variable,

display logscale foe X variable, (klik OK) klik OK.)

Regression Analysis: IQR1 versus Median1

The regression equation is log(IQR1) = 27.9035 - 24.6367 log(Median1) S = 0.140443 R-Sq = 49.8 % R-Sq(adj) = 49.5 % Analysis of Variance Source DF SS MS F P Regression 1 2.72200 2.72200 138.002 0.000

(26)

Error 139 2.74168 0.01972 Total 140 5.46368

Regression Analysis: IQR3 versus Median3

The regression equation is log(IQR3) = 20.7916 - 15.3559 log(Median3) S = 0.0456390 R-Sq = 78.2 % R-Sq(adj) = 78.0 % Analysis of Variance Source DF SS MS F P Regression 1 1.03621 1.03621 497.480 0.000 Error 139 0.28953 0.00208 Total 140 1.32573

Regression Analysis: IQR5 versus Median5

The regression equation is log(IQR5) = 25.7772 - 16.1040 log(Median5) S = 0.0595329 R-Sq = 79.8 % R-Sq(adj) = 79.7 % Analysis of Variance Source DF SS MS F P Regression 1 1.95033 1.95033 550.292 0.000 Error 139 0.49264 0.00354 Total 140 2.44296

Regression Analysis: IQR4 versus Median4

The regression equation is log(IQR4) = 6.29832 - 2.92332 log(Median4) S = 0.0729883 R-Sq = 3.9 % R-Sq(adj) = 3.2 % Analysis of Variance Source DF SS MS F P Regression 1 0.030339 0.0303389 5.69499 0.018 Error 139 0.740494 0.0053273 Total 140 0.770833

Regression Analysis: IQR6 versus Median6

The regression equation is log(IQR6) = -12.7473 + 6.78642 log(Median6) S = 0.0695991 R-Sq = 46.9 % R-Sq(adj) = 46.5 % Analysis of Variance Source DF SS MS F P Regression 1 0.59493 0.594930 122.817 0.000 Error 139 0.67332 0.004844 Total 140 1.26825

(27)

Dari hasil regresi antara log median vs log dq, diperoleh kemiringan (slope) atau nilai nisbah untuk setiap variabel yaitu:

1. Variabel Head L, sebesar - 24.6367

2. Variabel Head W, tidak diperoleh

3. Variabel Neck G, sebesar - 15.3559

(28)

5. Variabel Chest G, sebesar - 16.1040

6. Variabel Weight, sebesar + 6.78642

Oleh karena nilai nisbah yang diperoleh sangat besar sehingga menyulitkan kita untuk mengambil transformasi yang tepat, maka permasalahan ini akan diselesaikan dengan menggunakan Box-Cox.

Stat  Control Charts  Box-Cox Transformation

Pada single column masukan variabel yang akan dibuat box-cox-nya Pada subgroup size, masukan variabel obs. No

Tentukan lokasi penyimpanan data yang telah ditransformasi pada kolom tertentu.

(29)
(30)
(31)

Dari hasil Box-Cox, diperoleh nilai-nilai Lamba estimasi dari masing-masing variabel yang selanjutnya menunjukan pangkat transformasi dari masing-masing variabel berikut:

1. Variabel Head L, sebesar 1,012 2. Variabel Head W, sebesar -0,224 3. Variabel Neck G, sebesar 0,787 4. Variabel Length, sebesar 1,910 5. Variabel Chest G, sebesar 0,674

6. Variabel Weight, sebesar 0,337

Setelah diperoleh datya hasil tranformasi, selanjutnya dibuat box plot Dari data hasil transformasi untuk melihat apakah ada perubahan bentuk boxplot setelah data ditransformasi dan mengarah ke bentuk normal (simetris).

(32)

b. Transformasi variabel Head W

c. Transformasi variabel Neck G.

(33)

e. Transformasi variabel Chest G.

(34)

Referensi

Dokumen terkait

Meskipun dalam persepektif sebagian besar pengkaji studi politik global melihat Perang Dingin sebagai perang antara dua visi besar dari bentuk-bentuk

SQL ( Structure Query Language ) adalah sebuah bahasa pemrograman aras tinggi yang menjadi standar untuk pengolahan data pada sebagian besar

masalah yang terkait dengan interpretasi data yang disajikan dalam berbagai bentuk diagram, seperti daftar, tabel, piktogram, diagram batang, dan diagram garis dalam

Secara substansial, salah satu bidang/ topik statistika yang diperkirakan dibutuhkan sebagian besar peneliti kuantitatif pada umumnya dan peneliti lingkungan khususnya,

Sedangkan untuk membaca data hanya diperlukan kemampuan untuk melihat serta memahami apa yang tertulis pada data yang disajikan dalam bentuk tabel tersebut dengan cara

Pada data kedua kelompok dalam grafik di atas,terlihat sebagian besar titik-titik data tidak berada pada satu garis linear (menyebar) sehingga terlihat bahwa sebagian besar

Moving Average merupakan metode peramalan berdasarkan data historis berpola stasioner dengan menghitung rata-rata observasi data aktual secara berturut-turut sesuai dengan

sebagian besar kasus prospek tidak melihat kebutuhan produk perusahaan dalam waktu dekat atau bahkan masa depan. Prospek dengan banyak persyaratan atau persyaratan yang tidak sesuai