Pemrograman Berorientasi Objek <PBO>

(1)

MATERI PERKULIAHAN

MACHINE LEARNING

Kelompok Keilmuan Computer Science

3 Pemrosesan Data

(2)

Tujuan

 Menentukan jenis data masukan yang dapat diproses dengan benar

 Menentukan kebutuhan pemrosesan data masukan

 Mengunakan teknik-teknik

pemrosesan data

(3)

Diskritisasi

(4)

Diskritisasi Data

• Mengkonversi data kontinu menjadi kategori

• Masalah utama:

 Menentukan banyak kategori yang akan dipakai

 Memutuskan berapa lebar interval yang akan

digunakan

(5)

Binning

• Menyederhankan data

• Memilih k sebagai pembagi data

• (Cara sederhana) dengan membagi range

kedalam k interval, masing-masing memuat

jumlah sampel yang hampir sama.

(6)

Contoh binning

• Misalkan diperoleh data sebagai berikut

(sudah diurutkan dari yang terkecil ke yang

terbesar) :45,49,50,61,68,69,75,75,81

(7)

Bin berdasarkan rata-rata

45,49,50,67,68,69,75,75,81

Jika diambil k = 3, maka data akan dibagi menjadi 3 kelompok, kemudian hitung rata-rata tiap kelompok, maka nilai anggota kelompok tersebut akan disamakan menjadi sebesar rata-rata

Kelompok Sebelum bin Rata-rata Setelah disederhanakan

45, 49, 50 48, 48, 48

61, 68, 69 66, 66, 66

75, 75, 81 77, 77, 77

Kelompok Sebelum bin Rata-rata Setelah disederhanakan

45, 49, 50 48, 48, 48

61, 68, 69 66, 66, 66

75, 75, 81 77, 77, 77

(8)

Bin berdasarkan median

45,49,50,67,68,69,75,80,85

Jika diambil k = 3, maka data akan dibagi menjadi 3 kelompok, kemudian pilih median (nilai tengah) dari tiap kelompok, ubah menjadi mediannya

Kelompok Sebelum bin Median Setelah disederhanakan

45, 49, 50 49 49, 49, 49

61, 68, 69 68 68, 68, 68

75, 75, 81 75 75, 75, 75

(9)

Bin berdasarkan batasan

45,49,50,67,68,69,75,80,85

Jika diambil k = 3, maka data akan dibagi menjadi 3 kelompok, kemudian pilih angka terbesar dan terkecil dari masing-masing kelompok kemudian bagi 2. Hanya tinggal dilihat lebih besar atau lebih kecil dari batasan

Kelompok Sebelum bin Batasan Setelah disederhanakan

45, 49, 50 45, 50, 50

61, 68, 69 61, 69, 69

75, 75, 81 75, 75, 81

Kelompok Sebelum bin Batasan Setelah disederhanakan

45, 49, 50 45, 50, 50

61, 68, 69 61, 69, 69

75, 75, 81 75, 75, 81

(10)

Daftar Distribusi Frekuensi (DDF)

• Mengelompokkan data dengan lebar interval yang sama

• Langkah-langkah:

1. Menentukan data terbesar dan data terkecil, kemudian dikurangi untuk mendapatkan range

2. Menentukan banyak kategori yang mau dipakai bisa pilih 5 sampai 10 atau menggunakan aturan sturges: 1+3,3 log N dimana N adalah banyak data (bulatkan ke bawah)

3. Menentukan lebar kategori dengan cara range dibagi banyak kategori (bulatkan ke atas)

4. Tentukan batas kategori pertama

(11)

79 48 81 87 80 90 91 82

70 92 56 74 68 85 65 83

90 83 74 86 92 76 90 67

80 61 97 88 70 99 80 71

63 83 60 89 76 88 66 79

49 74 98 80 84 70 93 89

71 38 81 73 72 51 93 86

35 73 43 68 93 71 72 75

91 72 91 81 74 95 58 77

60 82 67 63 63 70 88 75

Contoh

Misalkan nilai ujian statistika dari 80 orang mahasiswa adalah sebagai

berikut:

(12)

Jumlah data:

Nilai Terbesar:

Nilai Terkecil:

Rentang:

Banyak kelas:

Panjang kelas:

Ujung kelas:

Interval Kelas Batas Kelas Nilai Tengah Tabulasi F

80 99 35 64

7 10 32

32 42 52 62 72 82 92

- 41 - 51 - 61 - 71 - 81 - 91 - 101

31,5- 41,5 41,5- 51,5 51,5- 61,5 61,5- 71,5 71,5- 81,5 81,5- 91,5 91,5- 101,5

36,5 46,5 56,5 66,5 76,5 86,5 96,5

ll llll llll

llll llll llll l llll llll llll llll lll llll llll llll llll l llll llll

2

4

5

16

23

21

9

(13)

Data Terstruktur

• Data diagnose untuk prediksi penyakit, pergerakan nilai saham, data cuaca untuk menentukan pesawat dapat mendarat atau layak terbang

Data Tidak Terstruktur

• Pengenalan suara seseorang, menganalisis sentimen dari komentar teks pada twitter, mengukur kecepatan kendaraan

melalui video, mengetahui kematangan buah dari citra buah yang difoto.

Apa perbedaan antara data terstruktur dan tidak terstruktur?

(14)

Data Tidak Terstruktur & Proses Ekstraksi Feature

• Ekstraksi feature adalah proses yang digunakan untuk mengubah data tidak terstruktur menjadi data terstruktur

Contoh proses ekstraksi feature yang biasa digunakan Data Masukan Contoh Metode Ekstaksi Ciri

Suara Mel Frequency Cepstral Coefficients (MFCC), Linear Prediction Coefficients (LPC), Linear Prediction Cepstral Coefficients (LPCC), Line Spectral Frequencies (LSF), Discrete Wavelet Transform (DWT) and Perceptual Linear Prediction (PLP)

Teks Term Frequent-Inverse Documen frequent (TF-IDF)

Video SURF (Speeded Up Robust Features), BRISK (Binary Robust Invariant Scalable Keypoints), BRISK (Binary Robust Invariant Scalable Keypoints), HOG (histogram of oriented gradients), Spatio- Temporal pyramid and motion features

Citra SURF (Speeded Up Robust Features), HOG (histogram of oriented gradients), Deteksi Tepi Sobel, Feature Geometri dan Topologi, Zoning, Proyeksi Histogram

(15)

S E L E K S I

F I T U R

(16)

Perbedaan Seleksi Feature dan Pengurangan Dimensi

• Seleksi feature bertujuan untuk memilih

feature yang relevan dalam membuat model.

• Pengurangan dimensi bertujuan untuk

mengubah matriks feature menjadi perkalian matriks feature yang berukuran lebih kecil

Metode Seleksi Feature yang dipelajari Korelasi Pearson, Chi Square, dan Information Gain

Metode Pengurangan Dimensi Principle Component Analysis

(17)

Korelasi Pearson

• Korelasi: istilah statistik untuk menyatakan derajat hubungan linear antara dua variabel atau lebih.

• Koefisien Korelasi (r) : Ukuran yang dipakai untuk mengukur derajat hubungan linear disebut

• Korelasi Pearson adalah metode yang digunakan untuk mengukur derajat hubungan linear antara dua variable.

• Jenis data yang diproses adalah data interval dan rasio

• Asumsi data linearitas dan normalitas

(18)

Nilai Koefisien Relasi

• -1 < r < 1

• r = -1 terdapat hubungan (sangat kuat) yang

negatif antara faktor X dan faktor Y (berlawanan)

• r = 0 tidak terdapat hubungan linear antara X dan Y tetapi bisa saja memiliki hubungan

misalnya nonlinear

• r = 1 terdapat hubungan (sangat kuat)yang

linear positif antara X & Y (searah)

(19)

Koefisien Korelasi

Y

X

r = 0 Y

X r = -1

Nilai Koefisien Relasi

(20)

Contoh Variabel Yang Diamati

• Adakah hubungan antara nilai kemampuan karyawan pada saat penerimaan pegawai dengan performanya

• Banyaknya pengujung dengan banyaknya pengunjung yang membeli barang

• Hubungan antara jumlah pelanggaran lalu lintas, jumlah kendaraan roda empat (mobil), kendaraan roda dua

(sepeda motor), jumlah polisi serta jumlah penduduk.

(21)

Korelasi Pearson

r

Atau

(22)

Korelasi Pearson

Orang Usia (tahun) Tinggi Badan (cm) Berat badan (kg) Tekanan Darah Sistolik

A 34 160 45 108

B 43 150 44 129

C 49 155 56 126

D 58 165 60 149

E 64 170 70 168

F 73 168 66 161

G 78 160 55 174

H 60 150 45 108

I 45 175 60 120

J 50 162 55 118

Rata-rata

Hitunglah korelasi masing masing feature usia, tinggi badan, berat badan dengan tekanan darah Sistolik

(23)

r(umur, tekanan darah)

X y

34.00 -21.40 457.96 108.00 -28.10 789.61 601.34

43.00 -12.40 153.76 129.00 -7.10 50.41 88.04

49.00 -6.40 40.96 126.00 -10.10 102.01 64.64

58.00 2.60 6.76 149.00 12.90 166.41 33.54

64.00 8.60 73.96 168.00 31.90 1017.61 274.34

73.00 17.60 309.76 161.00 24.90 620.01 438.24

78.00 22.60 510.76 174.00 37.90 1436.41 856.54

60.00 4.60 21.16 108.00 -28.10 789.61 -129.26

45.00 -10.40 108.16 120.00 -16.10 259.21 167.44

50.00 -5.40 29.16 118.00 -18.10 327.61 97.74

Rata-rata 55.40 136.10

jumlah

1712.40 5558.90 2492.60

X y

34.00 -21.40 457.96 108.00 -28.10 789.61 601.34

43.00 -12.40 153.76 129.00 -7.10 50.41 88.04

49.00 -6.40 40.96 126.00 -10.10 102.01 64.64

58.00 2.60 6.76 149.00 12.90 166.41 33.54

64.00 8.60 73.96 168.00 31.90 1017.61 274.34

73.00 17.60 309.76 161.00 24.90 620.01 438.24

78.00 22.60 510.76 174.00 37.90 1436.41 856.54

60.00 4.60 21.16 108.00 -28.10 789.61 -129.26

45.00 -10.40 108.16 120.00 -16.10 259.21 167.44

50.00 -5.40 29.16 118.00 -18.10 327.61 97.74

Rata-rata

55.40 136.10

jumlah

1712.40 5558.90 2492.60

(24)

Korelasi Pearson

Misalkan diperoleh nilai korelasi

• Usia dengan tekanan darah sistolik 0.807896

• Tinggi badan dengan tekanan darah sistolik 0.380944

• Berat badan dengan tekanan darah sistolik 0.685666 Pemilihan feature didasarkan pada nilai threshold yang ditentukan.

Jika nilai threshold >=0.6 maka feature usia dan berat badan dapat digunakan sebagai feature untuk

menentukan tekanan darah sistolik

(25)

Chi Kuadrat Test

• Digunakan untuk mengukur kebergantungan antar variable

• Khusus data kategori contoh pada analisis sentiment

• Menggunakan table kontingensi

Kelas 1 Kelas 2 Jumlah Baris

Kategori 1 Kategori 2

… … …

Kategori m …

Jumlah Kolom

Kelas 1 Kelas 2 Jumlah Baris

Kategori 1 Kategori 2

… … …

Kategori m …

Jumlah Kolom

Nilai E dari tiap-tiap sel dihitung dengan cara

(26)

Contoh data kategori (sebagian dari 105 data)

Hobi Jenis Kelamin Hobi Jenis Kelamin

Musik Perempuan Musik Laki-laki

Baca Buku Laki-laki Musik Perempuan

Olah raga Laki-laki Baca Buku Perempuan

Olah raga Perempuan Musik Laki-laki

Musik Perempuan Olah raga Laki-laki

Musik Laki-laki Olah raga Laki-laki

Baca Buku Laki-laki Musik Perempuan

Musik Perempuan Baca Buku Perempuan

Baca Buku Laki-laki Baca Buku Laki-laki

Olahraga Perempuan …. ….

(27)

Tabel kontingensi musik dengan jenis kelamin

Hobi

Jenis kelamin

Jumlah Baris Laki Laki Perempuan

Musik 20 30 50

Olah raga 20 15 35

Baca Buku 10 10 20

Jumlah Kolom 50 55 105

+ + + + =2,48

�

₁

=20, �

₂

=30, �

₃

=20, �

₄

= 15, �

₅

= 10, �

₆

=10

=23,81, =26,19, =16,67,

=18,33,

df=(3-1).(2-1)=2

Jika ada beberapa feature maka nilai akan dihitung untuk setiap feature dan dirangking serta dipilih dengan menggunakan nilai threshold yang ditentukan.

Semakin tinggi nilai maka dapat dikatakan semakin tinggi kebergantunga dari variable yang diamati (pada kasus ini adalah hobi dengan jenis kelamin)

(28)

Latihan chi-kuadrat

Tinggi badan Jenis Kelamin Jumlah

Laki-laki Perempuan

15 30 45

35 25 60

Jumlah 50 55

Tinggi badan Jenis Kelamin Jumlah

Laki-laki Perempuan

15 30 45

35 25 60

Jumlah 50 55

Menurut anda yang lebih baik digunakan dalam penentuan jenis kelamin sesorang

apakah hobi atau tinggi badan?

(29)

Information Gain (IG)

• Digunakan untuk mengukur efektivitas suatu atribut dalam mengklasifikasikan data.

�� ( � , � ) = �� ( � ) − ∑

� ∈��(�)

| ^�

�

|

| � | ^{��} ( ^�

�

)

• Dimana:

• A adalah fitur

• V adalah nilai yang mungkin untuk atribut A

• Value(A) adalah himpunan nilai-nilai yang mungkin untuk fitur A

• adalah jumlah sampel untuk nilai v

• adalah jumlah seluruh sampel data

• adalah entropy untuk sampel-sampel yang memiliki nilai v

(30)

Tabel kontingensi musik dengan jenis kelamin

Hobi Laki Laki Perempuan Jumlah Baris

Musik 20 30 50

Olah raga 20 15 35

Baca Buku 10 10 20

Jumlah Kolom 50 55 105

• Atribut jenis kelamin perempuan dimisalkan sebagai sampel positif (+) dan atribut jenis kelamin laki-laki dimisalkan sebagai sampel negative (-)

• Value (Hobi) = Musik, Olahraga, Baca Buku

• S = [ 55+,50-],

(31)

Entropy

Entropy adala suatu parameter untuk mengukur heterogenitas dalam suatu himpunan data.

•

(32)

Nilai IG

�� ( � , �� ) = 0,9984 − ( 105 ⁵⁰ 0,9710 + 35

105 0,9952+ 20

105 1 ) ^=0,0171

• �� ( � , � ) = �� ( � ) − ∑

� ∈��(�)

| ^�

�

|

| � | ^{��} ( ^�

�

)

Jika ada yang lain fitur untuk menentukan seseorang berjenis kelamin

perempuan atau laki-laki, maka tinggal dihitung nilai gainnya, semakin

besar nilai gain, semakin besar nilai efektivitas fitur tersebut dalam

menentukan jenis kelamin seseorang.

(33)

Latihan IG

Tinggi badan Jenis Kelamin Jumlah

Laki-laki Perempuan

15 30 45

35 25 60

Jumlah 50 55

Tinggi badan Jenis Kelamin Jumlah

Laki-laki Perempuan

15 30 45

35 25 60

Jumlah 50 55

Menurut anda yang lebih baik digunakan dalam penentuan jenis kelamin sesorang

apakah hobi atau tinggi badan?

(34)

Principle Componen Analyzis (PCA)

• Salah satu teknik pengurangan dimensi

• Mengubah matrik menjadi perkalian matrik orthogonal

•

^Mahasiswa ^Matematika ^{B Inggris} ^Seni ^Keputusan

1 90 60 90 Lulus

2 90 90 30 Lulus

3 60 60 60 Tidak Lulus

4 60 60 90 Lulus

5 30 30 30 Tidak Lulus

(35)

Langkah –langkah PCA

1. Ambil semua feature tanpa keputusan M=

2. Hitung rata-rata dari setiap feature

•

(36)

Langkah –langkah PCA

3. Hitung matriks covarians dari persamaan

misal

Dihitung untuk semua feature maka diperoleh

•

(37)

Langkah –langkah PCA

4. Hitung nilai eigen dan vector eigen dari matriks covarians

=0

Diperoleh nilai eigen

Dan vektor eigen yang bersesuaian , ,

•

(38)

Langkah-langkah PCA

5. Susun nilai eigen dari tertinggi ke terendah 6. Buat matriks W dengan mengambil vektor eigen yang bersesuaian dengan nilai eigen tertinggi, (2 nilai eigen tertinggi)

•

(39)

Langkah-langkah PCA

• Transpose W dan kalikan dengan matriks M maka diperoleh matriks baru

Maka diperoleh data baru dengan pengurangan 1 dimensi

•

(40)

Langkah-langkah PCA

Setiap data yang berdimensi 3 menjadi berdimensi 2 M=

•

(41)