Pengantar Analisis Data
(dengan tool: MS Excel)
Tim Penyusun Materi Pengenalan Teknologi Informasi Institut Teknologi Bandung © 2018
Objektif
• Mahasiswa dapat mempraktikkan teknik dalam Descriptive
Analytics dan EDA untuk melakukan analisis data sederhana
dengan menggunakan MS Excel
Klasifikasi Data Analytics
Sumber:
Descriptive Analytics
• Jenis paling sederhana dari Data Analytics
• Analisis terhadap data history untuk mendapatkan profil umum dalam bentuk summary dari data atau hubungan antar data untuk
menjelaskan situasi yang telah terjadi.
• Contoh hasil analisis:
• Banyaknya friend, mention, followers, page views
• Banyaknya page views
• Perbandingan banyaknya mahasiswa antar prodi di ITB
• Rata-rata nilai mahasiswa peserta PTIB
• Hubungan antara banyaknya jam belajar dengan prestasi akademik
• Ada kecenderungan bahwa orang beli roti tawar bersamaan dengan butter/mentega
• dll
Contoh-contoh kegiatan Data Analysis
Descriptive Analytics dan Exploratory DA
• Retrieve Value (Selection)
• Filter
• Compute Derived Value
• Find Extremum
• Sort
• Determine Range
• Characterize Distribution
• Find Anomalies
• Correlation
• Clustering
https://en.wikipedia.org/wiki/Data_analysis
Tipe Data
• Categorical-Nominal
• Nama negara, warna kulit, nama program studi, dll
• Categorical-Ordinal
• Likert scale (“sangat setuju” s.d. “sangat tidak setuju”)
• Indeks nilai A, B, C, D, E
• Categorical-Binary
• Jenis kelamin, status mahasiswa (aktif, tidak aktif), dll
• Quantitative-Discrete
• Banyaknya anak, banyaknya mahasiswa, banyaknya sks lulus
• Quantitative-Continues
• Usia, berat badan, tinggi, suhu
MS Excel
• MS (Microsoft) Excel™ adalah sebuah aplikasi spreadsheet yang dikembangkan oleh Microsoft untuk sistem operasi Windows, macOS, Android, dan iOS
• Merupakan salah satu bagian dari Microsoft Office
• Menyediakan semua kemampuan dasar suatu
spreadsheet, seperti pengelolaan data dalam bentuk tabel; kalkulasi aritmatika; statistik; grafik,
histogram, dan chart/bagan; tabel pivot; sampai kemampuan programming dengan macro
menggunakan bahasa Visual Basic for Applications (VBA)
• File extension: .xlsx
• Asumsi: Materi kuliah ini menggunakan MS Excel 2016; untuk versi yang lain dipersilakan
menyesuaikan
Table
• Struktur data dasar untuk pengelolaan data di Excel adalah table
• Table adalah struktur penyimpanan data berbentuk segiempat dengan fitur dasar sebagai berikut:
• Setiap baris pada tabel setara dengan sebuah record data
• Setiap kolom berisi informasi dengan makna yang spesifik dan memiliki type tertentu
• Baris teratas, sering disebut sebagai header row, terdiri atas nama-nama yang mendeskripsikan informasi yang disimpan dalam tiap kolom
• Setiap nama pada header row disebut sebagai column header (header kolom)
• Table digunakan untuk mengelola dan menganalisis
data dengan lebih mudah
Mendefinisikan Table
• Ketikkan data dalam bentuk tabel seperti biasa
• Buat header row yang berisi column header pada baris pertama tabel
• Select seluruh tabel
• Pilih menu “Insert” “Table”
• Pada text box “Where is the data for your table?”
pastikan bahwa area tabel yang didefinisikan benar
• Cek checkbox “My table has headers” untuk mengidentifikasi header row
• Setelah ditekan OK akan terbentuk table yang siap dimanipulasi
• Table terbentuk dalam format standar tabel Excel
Membuat table dari file csv
• CSV (comma separated values) adalah sebuah format file sederhana untuk menyimpan data tabular
sehingga banyak digunakan pada berbagai aplikasi dan digunakan sebagai salah satu format standar untuk data-sharing
• Data Table pada Excel dapat diekspor ke file CSV dan sebaliknya, Excel dapat mengimpor file CSV.
• Gunakan menu save dan open file
• Cobalah:
• Simpanlah (save as) file data tabel pada slide sebelumnya ke format CSV.
• Menggunakan text editor, misalnya Notepad, bukalah file CSV tersebut. Amati bentuk dasar dari file CSV tersebut (sehingga Anda tahu mengapa disebut comma separated values)
• Bukalah kembali file tersebut CSV tersebut dengan Excel, kemudian formatlah data tabular yang tersedia menjadi Table seperti pada slide sebelumnya
Latihan-1
• Disediakan file: medali.csv
• Berisi data perolehan medali
seluruh negara peserta 2018 Asian Games Jakarta-Palembang
Sumber:
https://en.asiangames2018.id/medals/
• Bukalah file tersebut dalam Excel.
Save sebagai file medali.xlsx
• Buatlah table berdasarkan data yang tersedia.
• Berikan nama pada table tersebut
“MedalTable”
• Select seluruh table; pilih menu
“Design”; ubah nama table pada menu
“Table Name”
Select Data: Cell dan Range
• Nama kolom menggunakan huruf: A, B, C, …
• Nama baris menggunakan bilangan : 1, 2, 3, ….
• Cell reference: <nama_kolom><nama_baris>
• Contoh: A1: kolom A baris 1
• Range: sekelompok sel yang di-select bersama
• Contoh: A3:C9 range dari sel A3 ke C9 berbentuk daerah segiempat
• Memilih sel/range untuk dioperasikan bisa
menggunakan keyboard atau mouse
Select Data: AutoFilter (1)
• Secara default, pada setiap column header dalam suatu Table akan dibuat tombol dengan symbol tanda panah autofilter
• Setiap autofilter memberikan pilihan nilai berdasarkan type data pada
kolom tersebut
• Misalnya: jika datanya terdiri atas angka, maka akan muncul “Number Filters”; jika text, maka akan muncul “Text Filters”
• Data bisa di-filter berdasarkan nilai
yang dipilih atau menggunakan rules
yang tersedia custom filters
Select Data: AutoFilter (2) Latihan-2
• Buka kembali file medali.xlsx
• Buat daftar semua negara yang mendapatkan 1 medali emas
• Klik autofilter pada kolom “gold”
• Uncheck “Select All” check opsi filter “1”
• Mengembalikan ke daftar semula:
• klik tanda autofilter
• pilih “Clear Filter From ….”
Select data: AutoFilter (3) Custom-Filter – Latihan-3
• File: medali.xlsx
• Buat daftar semua negara yang mendapatkan total medali >= 50 buah
• Klik autofilter “total”
• Pilih “Number Filters”
“Greater Than Or Equal To”
• Masukkan angka 50 pada
textbox “is greater than or equal to”
Select Data: Autofilter (4) Latihan-4
• File: medali.xlsx
• Buat daftar semua negara dengan huruf pertama “C” atau “I” dan memiliki total medali kurang dari 5
• Hint: Gunakan Text Filter pada kolom “country” dan Number Filter pada kolom “total”
• Hasil yang diharapkan:
Find Extremum (1a)
Memanfaatkan autofilter
• Autofilter juga dapat digunakan untuk mendapatkan baris dengan nilai
minimum atau maksimum untuk suatu data tertentu
• Contoh: Temukan data dengan jumlah perolehan medali perunggu (bronze) terbanyak
• File: medali.xlsx
• Buka autofilter pada kolom “bronze”
• Klik angka terbesar 74
Find Extremum (1b) Latihan-5
• File: medali.xlsx
• Temukan data negara dengan jumlah perolehan medali perunggu paling sedikit. Jika ada lebih dari 1 data, ambil negara dengan rank yang paling tinggi.
• Hasil yang diharapkan:
Find Extremum (2):
Conditional Formatting
• Bagaimana kalau hanya sekedar meng-highlight nilai tertinggi atau nilai terendah tanpa harus menuliskan di sel berbeda?
• Dapat digunakan conditional formatting
• Contoh: Berikan highlight dengan dasar kuning dan teks dicetak tebal untuk jumlah perolehan perunggu terendah dan dasar hijau dan teks dicetak tebal dan miring untuk jumlah perolehan perunggu tertinggi
• Select seluruh sel pada kolom “bronze”
• Klik menu “Home” “Conditional Formatting” “Highlight Cells Rules” “More Rules”
• Pada box “Select a Rule Type:”, pilih “Format only top or bottom ranked values”
• Pada box “Edit the Rule Description” bagian “Format Values that rank in the:”, pilih
“Bottom” dan isi textbox dengan 1 mengambil nilai terendah
• Pada bagian “Preview” ubah format tampilan menjadi dasar/fill kuning dan teks bold.
• Klik OK.
• Ulangi sekali lagi untuk data tertinggi dengan menggunakan prinsip yang sama.
Find Extremum (3):
Fungsi MAX dan MIN
• Mendapatkan nilai ekstrim dapat menggunakan fungsi MAX/MIN
yang diberlakukan pada range data tertentu
• Parameter fungsi MAX: =MAX(range)
• Parameter fungsi MIN: = MIN(range)
• Contoh: Temukan jumlah medali perunggu tertinggi dan terendah.
• Nilai tertinggi/terendah akan diletakkan di bawah tabel
• Rumus mencari nilai tertinggi:
=MAX(E2:E47) atau =MAX(MedalTable[bronze])
• Rumus mencari nilai terendah:
Sort: Autofilter
• Pada menu autofilter pada column header disediakan
mekanisme untuk sort ascending (menaik) atau descending
(menurun)
• Contoh: Urutkan data perolehan medali terurut menaik
berdasarkan nama negara
• Klik autofilter pada kolom
“country”
• Pilih “Sort A to Z”
Sort: Berdasarkan > 1 kondisi
• Contoh: Sort data perolehan medali terurut menurun
berdasarkan jumlah perolehan medali emas dan terurut
menaik berdasarkan jumlah perolehan medali perak
• Select all table
• Pilih menu “Table Tools” “Data”
“Sort”
• Buat aturan sbb:
• Gunakan tombol “Add level” untuk menambah level pengurutan
Sort:
Berdasarkan > 1 kondisi
• Hasil yang diharapkan:
Perhatikan perbedaan dengan data asli
Menghitung Frekuensi (1)
• Menghitung banyaknya kemunculan suatu data item pada suatu kolom distribusi kemunculan nilai
• Menggunakan fungsi FREQUENCY
• Contoh: Buat daftar frekuensi kemunculan setiap angka perolehan medali emas
• Hasil yang diharapkan:
#Emas Frekuensi
132 1
75 1
49 1
31 1
21 1
20 1
17 1
15 2
12 2
11 1
8 1
7 1
6 1
5 1
4 3
3 2
2 3
1 5
0 8
Menghitung Frekuensi (2a)
Tahap 1. Membuat Daftar Tanpa Duplikat
• Pertama, harus dibuat dulu daftar angka perolehan medali emas tanpa duplikat
• Langkah:
1. Kopi semua nilai pada kolom “gold” ke kolom tujuan, misalnya ke kolom I2:I47 2. Berikan column header misalnya “#Emas”
pada I1
3. Select seluruh range I1:I47
4. Pilih menu “Data” “Remove Duplicates”
5. Pada box “Remove Duplicates” amati apakah semua parameter sudah tepat, lalu tekan OK 6. Akan dihasilkan daftar perolehan medali
emas tanpa duplikat
Menghitung Frekuensi (2b)
Tahap 2. Menghitung Frekuensi
• Parameter fungsi frekuensi: =FREQUENCY(range, bins_range)
• range adalah range sumber data yang akan dihitung frekuensinya
• Contoh sebelumnya: range data pada kolom “gold”
• bins_range adalah range data yang ingin diketahui frekuensinya
• Contoh sebelumnya: bins_range data pada kolom “#Emas”
• Langkah:
• Berikan column header pada kolom di mana hasil perhitungan frekuensi akan diletakkan, misalnya pada J1, dengan nama kolom misalnya “Frekuensi”
• Select sel-sel di mana hasil perhitungan frekuensi akan diletakkan, misalnya J2:J20
• Klik kotak penulisan fungsi di bagian atas spreadsheet, ketikkan:
=FREQUENCY(C2:C47,I2:I20)
• C2:C47 adalah range data kolom “gold”
• I2:I20 adalah range data kolom “#Emas”
• Tekan CTRL-SHIFT-ENTER
Menghitung Frekuensi (2c)
Tekan:
CTRL+SHIFT+ENTER
Menghitung Frekuensi (3) Latihan-6
• Buatlah distribusi frekuensi untuk total perolehan medali.
• Distribusi frekuensi harus di-sort terurut menurun berdasarkan angka total
perolehan medali
• Hasil yang diharapkan:
#Total Frekuensi
289 1
205 1
177 1
98 1
76 1
73 1
70 1
69 1
67 1
62 1
46 1
38 1
37 1
36 1
26 1
25 1
22 1
21 1
20 1
14 1
13 1
12 1
7 1
6 2
5 2
4 3
3 3
Descriptive Statistics (1)
• Descriptive Statistics memberikan ringkasan/summary terhadap beberapa statistik penting, seperti: max, min, count, dll….
• Untuk menghasilkan descriptive statistics di MS Excel dapat dilakukan dengan cara manual:
• Satu per satu dihitung dengan menggunakan berbagai fungsi pada Excel
• Atau lebih cepat dengan menggunakan fitur “Descriptive Statistics” yang merupakan menu “Data Analysis” dari add-ins “Analysis ToolPak”
• Add-ins “Analysis ToolPak” tidak tersedia default, harus diaktifkan:
• Klik menu “File” “Options”
• Pada kotak yang muncul pilih “Add-ins” highlight “Analysis Toolpak”
• Tekan tombol “Go” di sebelah menu “Manage”
• Pada dialog box yang muncul, check “Analysis ToolPak”. Klik OK.
• Akan muncul menu “Data Analysis” di bawah menu “Data”
Descriptive Statistics (2a) Contoh
• Ingin ditampilkan statistik terkait:
• Perolehan medali emas
• Perolehan medali perak
• Perolehan medali perunggu
• Total perolehan medali
• Klik menu “Data” “Data Analysis”
• Pada box yang muncul, pilih “Descriptive
Statistics”
Descriptive Statistics (2b) Contoh
• Pilih “Input Range” dari ujung kiri atas kolom
“gold” sampai kanan bawah kolom “total”:
C1:F38
• Pilih “Output Range” pada sel pertama di mana
statistik akan diletakkan, misalnya di H1
• Check “Summary
Statistics”
Descriptive Statistics (2c) Contoh
• Hasil yang diharapkan:
Rata-rata dan Deviasi Standar (1)
• Menghitung rata-rata (mean) data menggunakan formula AVERAGE
• Menghitung deviasi standar data menggunakan formula STDEV
• Perhitungan rata-rata dan deviasi standar adalah salah satu bagian dalam descriptive statistic
• Contoh: Hitung rata-rata total perolehan medali dan deviasi standarnya:
• Menghasilkan nilai rata-rata:
• Klik sel di mana perhitungan rata-rata akan diletakkan
• Ketikkan: “=AVERAGE(“, lalu select seluruh data pada kolom “total”, tekan enter; maka akan tertulis: =AVERAGE(MedalTable[total]) menggunakan nama table dan nama kolom
• Menghasilkan standar deviasi:
• Klik sel di mana perhitungan rata-rata akan diletakkan
• Ketikkan: =STDEV(MedalTable[total])
Rata-rata dan Deviasi Standar (2) Latihan-7
• Dengan menggunakan fungsi AVERAGE dan STDEV buatlah statistik rata-rata dan standar deviasi untuk data:
• Perolehan medali emas
• Perolehan medali perak
• Perolehan medali perunggu
• Total perolehan medali
• Hasil yang diharapkan:
Correlation (1)
Correlation (korelasi) adalah indikasi hubungan antara dua atau lebih
variable, yang dinyatakan dalam correlation
coefficient (koefisien korelasi)
Sumber:
https://www.mathsisfun.com/data/correlation.html
Correlation (2a) Contoh
• Mencari korelasi antar data di Excel menggunakan menu “Correlation”
pada menu “Data Analysis”
• Contoh: Tentukan hubungan antara perolehan jumlah medali emas dengan total perolehan medali
• Persiapan: pindahkan data kolom “gold” dan “total” di sheet berbeda dan letakkan bersebelahan karena pemrosesan korelasi hanya bisa dilakukan pada data yang terletak berurutan
• Pilih menu “Data Analysis” “Correlation”
• Pilih “Input Range”: dari sel kiri atas kolom “gold” ke sel kanan bawah kolom “total”
• Pilih “Output Range”: sel pertama di mana hasil perhitungan korelasi diletakkan
Correlation (2b) Contoh
• Koefisien korelasi antara data perolehan medali emas “gold” dengan data total perolehan medali “total” = 0.9656…
• Dengan nilai mendekati 1, korelasi antara
“gold” dan “total” adalah cenderung positif (high positive correlation)
• Artinya: semakin banyak perolehan
medali emas, total perolehan medali juga
cenderung semakin banyak
Correlation (3) Latihan-8
• Buatlah tabel korelasi antara data:
• Perolehan medali emas
• Perolehan medali perak
• Perolehan medali perunggu
• Total perolehan medali