ANALISIS DATA EKSPLORATIF
1. Dasar Teori
A. Bentuk Visual Data
Bentuk visual data atau basa disebut angkatan merupakan bentuk
yang dikonstruksikan dari data yang merupakan visualisasi dari data
tersebut, artinya dari bentuk ini dapat dilihat misalnya pengelompokkan
data, pusat data, penyebaran data, sampai bentuk distribusi data.
Bentuk visual dari data dapat dilihat dari daftar tally, dan diagram
batang dan daun. Kedua bentuk visualisasi data ini memiliki kelebihan dan
kekurangan masing-masing.
Daftar tally secra garis besar dapat membantu dalam mengetahui
pemusatan, persebaran dan bentuk distribusi data. Namun, bentuk
visualisai data ini memiliki satu kekurangan, yaitu kita tidak dapat melihat
nilai dari setiap observasi secara lengkap, sebab sebagian besar daftar tally
disajikan dalam bentuk berkelompok (dalam bentuk interval), dan bahkan
jika secara tunggal, kita hanya akan mempunyai beberapa nilai observasi
yang mewakili nilai observasi yang sama.
Kelemahan daftar tally ini dapat kita tutpi dengan bentuk
visualisasi lainnya, yaitu diagram batang dan daun. Selain memiliki fungsi
yang sama dengan daftar tally, bentuk visualisasi ini juga memiliki
beberapa kelebihan seperti dapat digunakan dalam pembuatan array data,
dan membandingan 2 buah angkatan data.
Secara garis besar, bentuk-bentuk angkatan terdiri dari:
Ringkasan numerik terdiri atas dua macam, yaitu:
a. Ukuran pusat yang berfungsi menunjukan letak pusat dari data, dan; b. Ukuran sebaran yang berfungsi menunjukan seberapa besar data
Median adalah observasi yang terletak ditengah setelah data
Kuartil dapat ditentukan dengan terlebih dahulu menentukan nilai
n/4 p, dan selanjutnya diperoleh:
k1 = observasi ke-p dari yang terkecil k3 = observasi ke-p dari yang terbesar.
• Modus
Modus adalah harga yang muncul dengan frekuensi paling
banyak. Suatu data bisa memiliki hanya satu modus, atau lebih
dari 2 modus, bahkan tidak mempunyai modus atau dapat dikatan
semua observasi adalah modus.
Oleh karena itu, nilai modus jarang digunakan dalam
menentukan pemusatan data. • Trirata
Trirata adalah suatu ukuran pusat yang tidak dipengaruhi
oleh harga ekstrim. Trirata dapat dicari dengan menjumlahkan k1, k3, dan 2 kali median dan selanjutnya di bagi 4 (empat). Atau
Rata-rata tengah adalah rata-rata dari observasi yang terletak di
antara kuartil 1 dan kuartil 3 tidak termasuk kuartil 1 dan kuartil
C. Penggunaan Ringkasan Numerik
2. Permasalahan
Adapun permasalahan yang akan dislesaikan pada laporan kali ini, yaitu:
1. Bagaimanakah cara membuat visualisasi data ?
2. Bagaimanakah cara untuk membuat ringkasan numerik ?
3. Bagaimanakah cara untuk melakukan standardisasi dan transformasi ?
Dan untuk menyelesaikan ketiga permasalahan tersebut, terlebih dahulu akan
diselesaikan contoh soal berikut:
a. untuk memutuskan jumlah konter servis dalam sebuah supermarket,
diperlukan data lama waktu antrian. Berikut ini adalah data lama waktu
antrian (dalam menit):
i. buatlah visualisasi data dan ringkasan numeriknya !
ii. berapa proporsi antrian yang kurang atau sama dengan 1 menit ?
b. Ahli lingkungan hidup melakukan survey terhadap 28 ekor lumba-lumba
untuk mengetahui tingkat akumulasi zat mercury pada mamalia laut.
Konsentrasi air raksa (Hg) pada hati lumba-lumba tersebut diukur dalam
microgram per gram berat. Di bawah ini adalah data surveynya :
1.70 183 221 286 101 264 316
1.72 168 406 315 209 85.4 481
8.8 218 252 241 445 314 118
5.9 180 329 397 485 278 318
Dari data-data tersebut divisualisasikan dengan membuat bentuk-bentuk
visulisasi data diantaranya daftar tally, diagram batang dan daun, dan
Buatlah visualisasi data dan ringkasan numeriknya !
c. Empat mahasiswa statistika ingin membandingkan jumlah pengunjung
pada 4 wartel yang ada di suatu kecamatan. Kemudian mereka melakukan
pengamatan selama beberapa hari, dan didapat hasil sebagai berikut:
wartel1 wartel2 wartel3 wartel4
untuk data tersebut, lalu interprestasikan hasilnya !
ii. Lakukan standardisasi terhadap data yang ada dengan pusat mean dan
sebaran standar deviasi !
iii. Untuk perbandingan, lakukan standardisasi terhadap data yang ada
dengan pusat median dan sebaran range !
iv. Ulangi langkah 1 untuk data soal nomor 2 dan 3 !
v. Simpulkan hasilnya !
d. Lakukanlah transformasi data untuk variable head L, head W, Neck G,
length, chest G, dan weight pada file Bears.MTW.
i. Buatlah boxplot untuk tiap-tiap variable tersebut !
ii. Hitunglah nisbah untuk setiap transformasinya !
iii. Lakukan transformaasi data hingga diperoleh data yang dapat dikatan
3. Pembahasan Permasalahan
a. Berikut ini adalah data lama waktu antrian (dalam menit):
Setelah kita menginputkan data yang akan dianalisis, selanjutnya kita akan
membuat visualisasi dan ringkasan numeric dari data tersebut:
a. Visualisasi data:
Visualisasi data akan disajikan dalam bentuk daftar tally dan diagram
batang dan daun.
Kedua bentuk visualisasi ini dapat kita buat secara manual maupun dengan
menggunakan perangkat lunak Minitab. • Daftar tally
Secara Manual
1. data akan dibuat kedalam kelas-kelas interval dengan lebar
interval= { nilai tertinggi(5,2) – nilai terendah (0,2)}/ jumlah
2. setelah diketahui lebar interval, selanjutnya data
4. Kemudian masukan variabel atau kolom tempat data yang akan
dibuat daftar tally-nya kedalam kolom variables dan aktirkan
counts, percents, cumulative counts dan cumulative percents.
Dan outputnya seabagai berikut:
• Diagram Batang dan daun
Secara Manual:
Batang Daun
(satuan) (persepuluhan)
0 2 2 3 3 3 4 4 4 5 5 6 6 6 6 7 7 7 8 8 8 8 9 9
1 0 0 1 1 1 1 1 1 1 2 2 2 3 3 3 4 4 6 6 7 7 8 8 8 8 9 9
2 1 2 3 5 8
3 1 6
4 5
Menggunakan Minitab
Oleh karena ringkasan numeric terdiri dari mean, median, kuartil, standar
deviasi, variansi sdan sebagainya yang cukup menyita waktu jika
diselesaikan dengan cara manual, maka akan diselesaikan dengan
menggunakan minitab.
1. inputkan data, klik calc row statistic (column statistic) atau
jika kita ingin sekaligus menampilkan semua ringkasan numeric
kita bisa klik stat basic statistic store (display) descriptive
2. masukan variable C1 dan klik OK dan muncul outputnya:
• Menghitung proporsi antrian yang kurang dari atau sama dengan 1 menit.
Dengan menggunakan minitab tentu saja terlebih dahulu menginput
data, kita dapat menghitung proprsi tersebut, caranya :
1. Klik calc probability distribution normal , dan muncul
2. oleh karena proporsi yang akan dihitung adalah kurang dari sama
dengan 1 menit, maka aktifkan cumulative probability dan
masukan nilai mean dan standar deviasi yang telah kita peroleh
pada ringkasan numeric, klik OK, dan outputnya:
3. sehingga, proporsi proporsi antrian yang kurang dari atau sama
a. berikut ini adalah data Konsentrasi air raksa (Hg) pada hati 28 ekor
lumba-lumba diukur dalam microgram per gram berat:
1. Daftar tally
setelah data diinputkan kedalam worksheet minitab, selanjutnya klik
Kemudian masukan variabel atau kolom tempat data yang akan dibuat
daftar tally-nya kedalam kolom variables dan aktirkan counts,
percents, cumulative counts dan cumulative percents. Kemudian klik
OK. Dan outputnya
2. Diagram Batang dan Daun
Inputkan data, klik Stat EDA steam and leaf
Masukan variable C1, aktifkan trim outlier, dan masukan increment 0.6,
dan klik OK , dan outputnya sebagai berikut:
3. Ringkasan Numerik
a. inputkan data, klik calc row statistic (column statistic) atau
jika kita ingin sekaligus menampilkan semua ringkasan numeric
kita bisa klik stat basic statistic store (display) descriptive
statistic dan muncul kotak dialog berikut:
b. Berikut ini data perbandingan Jumlah Pengunjung di 4 wartel berbeda:
• Diagran Batang dan Daun
b. Standarisasi
• Pusat mean, sebaran standar deviasi • Pusat median , sebaran range
Output akan sekaligus ditampilkan secara bersamaan, sebagai
berikut:
jumlah ByVar1 Mean1 StDev1 Median1 Range2 mean/stdv med/rang
29 1 20.7333 4.75795 21 17 1.73744 0.470588
19 1 20.7333 4.75795 21 17 -0.36430 -0.117647
24 1 20.7333 4.75795 21 17 0.68657 0.176471
14 1 20.7333 4.75795 21 17 -1.41518 -0.411765
21 1 20.7333 4.75795 21 17 0.05605 0.000000
13 1 20.7333 4.75795 21 17 -1.62535 -0.470588
18 1 20.7333 4.75795 21 17 -0.57448 -0.176471
17 1 20.7333 4.75795 21 17 -0.78465 -0.235294
30 1 20.7333 4.75795 21 17 1.94762 0.529412
23 1 20.7333 4.75795 21 17 0.47640 0.117647
18 1 20.7333 4.75795 21 17 -0.57448 -0.176471
23 1 20.7333 4.75795 21 17 0.47640 0.117647
21 1 20.7333 4.75795 21 17 0.05605 0.000000
22 1 20.7333 4.75795 21 17 0.26622 0.058824
19 1 20.7333 4.75795 21 17 -0.36430 -0.117647
31 2 27.4667 3.87052 28 13 0.91288 0.230769
19 2 27.4667 3.87052 28 13 -2.18747 -0.692308
31 2 27.4667 3.87052 28 13 0.91288 0.230769
26 2 27.4667 3.87052 28 13 -0.37893 -0.153846
30 2 27.4667 3.87052 28 13 0.65452 0.153846
22 2 27.4667 3.87052 28 13 -1.41238 -0.461538
29 2 27.4667 3.87052 28 13 0.39616 0.076923
26 2 27.4667 3.87052 28 13 -0.37893 -0.153846
32 2 27.4667 3.87052 28 13 1.17125 0.307692
30 2 27.4667 3.87052 28 13 0.65452 0.153846
23 2 27.4667 3.87052 28 13 -1.15402 -0.384615
26 2 27.4667 3.87052 28 13 -0.37893 -0.153846
27 2 27.4667 3.87052 28 13 -0.12057 -0.076923
28 2 27.4667 3.87052 28 13 0.13779 0.000000
13 3 16.3333 3.88526 17 13 -0.85794 -0.307692
20 3 16.3333 3.88526 17 13 0.94374 0.230769
15 3 16.3333 3.88526 17 13 -0.34318 -0.153846
12 3 16.3333 3.88526 17 13 -1.11533 -0.384615
18 3 16.3333 3.88526 17 13 0.42897 0.076923
24 3 16.3333 3.88526 17 13 1.97327 0.538462
11 3 16.3333 3.88526 17 13 -1.37271 -0.461538
17 3 16.3333 3.88526 17 13 0.17159 0.000000
12 3 16.3333 3.88526 17 13 -1.11533 -0.384615
18 3 16.3333 3.88526 17 13 0.42897 0.076923
17 3 16.3333 3.88526 17 13 0.17159 0.000000
12 3 16.3333 3.88526 17 13 -1.11533 -0.384615
22 3 16.3333 3.88526 17 13 1.45850 0.384615
18 3 16.3333 3.88526 17 13 0.42897 0.076923
16 3 16.3333 3.88526 17 13 -0.08579 -0.076923
26 4 26.4000 4.06729 27 18 -0.09835 -0.055556
18 4 26.4000 4.06729 27 18 -2.06526 -0.500000
27 4 26.4000 4.06729 27 18 0.14752 0.000000
29 4 26.4000 4.06729 27 18 0.63925 0.111111
24 4 26.4000 4.06729 27 18 -0.59007 -0.166667
25 4 26.4000 4.06729 27 18 -0.34421 -0.111111
23 4 26.4000 4.06729 27 18 -0.83594 -0.222222
27 4 26.4000 4.06729 27 18 0.14752 0.000000
36 4 26.4000 4.06729 27 18 2.36029 0.500000
27 4 26.4000 4.06729 27 18 0.14752 0.000000
25 4 26.4000 4.06729 27 18 -0.34421 -0.111111
29 4 26.4000 4.06729 27 18 0.63925 0.111111
29 4 26.4000 4.06729 27 18 0.63925 0.111111
29 4 26.4000 4.06729 27 18 0.63925 0.111111
22 4 26.4000 4.06729 27 18 -1.08180 -0.277778
c. Boxplot hasil standarisasi
• Pusat mean, sebaran standar deviasi
d. Analisis Data Bears
Berikut ini data Bears yang diperoleh dari Minitab:
Selanjutnya akan dibuat boxplot dari tiap-tiap variable terhadap nomor
observasi
Variabel Head W
Variabel Length
Variabel Weight
Selanjutnya akan dilakukan penghitungan nisbah untuk setiap transformasi
dengan terlebih dahulu menentukan transformasi:
Penentuan Median dan IQR1 setiap variabel:
Stat Basic Statistic Strore Descriptive Statistics
(masukan variabel yang kaan ditransformasi, By variabel Obs. No dan
pada Statistics aktifkan median dan Interquartil range (klik OK, pada
Option aktifkan store a row of output for each row of output (klik OK)
Kemudian plot log median n vs log IQR n (n = 1,2,3,4,5,6 (variabel))
Stat Regression Fitted Line Plot
(pada response [y] : IQR dan pada response [x] : Median, dan type of
regression model : Linear, kemudian pada Option pilih transformation
dan aktifkan logten of Y, logten of X, display logscale foe Y variable,
display logscale foe X variable, (klik OK) klik OK.)
Dari hasil regresi antara log median vs log dq, diperoleh kemiringan
(slope) atau nilai nisbah untuk setiap variabel yaitu:
5. Variabel Chest G, sebesar - 16.1040 6. Variabel Weight, sebesar + 6.78642
Oleh karena nilai nisbah yang diperoleh sangat besar sehingga
menyulitkan kita untuk mengambil transformasi yang tepat, maka
permasalahan ini akan diselesaikan dengan menggunakan Box-Cox.
Stat Control Charts Box-Cox Transformation
Pada single column masukan variabel yang akan dibuat box-cox-nya
Pada subgroup size, masukan variabel obs. No
Tentukan lokasi penyimpanan data yang telah ditransformasi pada kolom
tertentu.
Dari hasil Box-Cox, diperoleh nilai-nilai Lamba estimasi dari
masing-masing variabel yang selanjutnya menunjukan pangkat transformasi dari
masing-masing variabel berikut:
Setelah diperoleh datya hasil tranformasi, selanjutnya dibuat box plot Dari
data hasil transformasi untuk melihat apakah ada perubahan bentuk
boxplot setelah data ditransformasi dan mengarah ke bentuk normal
(simetris).
b. Transformasi variabel Head W
c. Transformasi variabel Neck G.
e. Transformasi variabel Chest G.