Pengenalan Konsep Pembelajaran Mesin dan Deep Learning Edisi 1.4

Buku ini dimaksudkan sebagai bahan pengantar (atau pendukung) mata kuliah machine learning bagi mahasiswa di Indonesia, khususnya pada jenjang sarjana (tidak terkecuali penggunaan pada tingkat pascasarjana). Buku ini tergolong karya yang diterbitkan sendiri (atau mungkin lebih tepat dikatakan sebagai draf), namun telah direview oleh beberapa orang.

Kecerdasan Buatan

Jadi Anda perlu benar-benar memahami bahwa memahami teknik machine learning saja tidak cukup. Anda juga perlu mengetahui domain aplikasi yang sesuai karena penggunaan teknik pembelajaran mesin bisa berbeda di domain yang berbeda.

Intelligent Agent

Dalam dimensi ini, agen mampu berpikir seperti manusia dalam arti kognitif (misalnya mampu memahami apa itu kesedihan atau kesenangan). Tentu saja, kita perlu mendefinisikan secara detail, menyeluruh, dan tepat apa yang dimaksud dengan “tindakan yang benar”. Oleh karena itu, lebih baik mengukur kinerja agen menggunakan ukuran kinerja yang obyektif (disebut benchmark).

Konsep Belajar

Secara internal, model harus mengoptimalkan fungsi utilitas, yaitu fungsi mana yang harus dimaksimalkan atau diminimalkan oleh agen, terutama pada fase pelatihan. Namun, dalam beberapa kasus, fungsi utilitas dan ukuran kinerja dapat diukur dengan fungsi yang sama.

Statistical Learning Theory

Dalam hal ini yang berperan sebagai lingkungan adalah data. Ukuran kinerjanya adalah seberapa akurat prediksi agen, atau seberapa mirip “pola” data yang ditemukan dengan data asli. Dari contoh ini didapat 4 kue berbentuk persegi panjang, 3 kue hati, dan 2 kue segitiga.

Training, Validation, Testing Set

Hal ini diulang sebanyak K kali, dimana data digunakan satu kali sebagai set pengujian (bergantian).

Supervised Learning

Ada jenis klasifikasi lain yang disebut klasifikasi multi-label, yaitu ketika kita ingin mengklasifikasikan suatu sampel ke dalam sekumpulan kelas. Artinya label saling eksklusif dalam klasifikasi kelas jamak, sedangkan label tidak saling eksklusif dalam klasifikasi multi-label.12 Perhatikan Gambar 1.1 sebagai ilustrasi, di mana setiap baris mewakili kelas yang sesuai dengan setiap entri, nilai "1" mewakili BENAR dan nilai "0" mewakili FALSE.

Regresi

Semi-supervised Learning

Unsupervised Learning

Kita harus menekankan bahwa pembelajaran tanpa pengawasan6 = pengelompokan Pengelompokan adalah suatu bentuk pembelajaran tanpa pengawasan; yaitu salah satu hasil inferensi Persamaan 1.3.

Proses Belajar

Tips

Contoh Aplikasi

Andrew Lang Saat pertama kali membaca bab ini, Anda mungkin merasa bahwa bab ini tidak masuk akal atau tidak diperlukan. Anda dapat melewatkan bab ini jika Anda sudah familiar dengan materi probabilitas, statistika, dan aljabar linier.

Probability Density Function

Expectation dan Variance

Bayesian Probability

Gaussian Distribution

Apakah Karakteristik Sampel Mencerminkan Populasi?

Semakin banyak sampel data yang kita miliki, semakin baik perkiraan kita terhadap populasi (jumlah kumpulan data menjadi sangat penting). Artinya karakteristik data sampel yang kita miliki hanya dapat mencerminkan data masa depan jika banyak kondisi yang tetap sama, yaitu (1) dan (2) diambil dari distribusi yang sama.

Gambar 2.5: Contoh sampling dari distribusi normal. Titik berwarna merah melambangkan sampel (instance ).

Teori Keputusan

Dalam pembelajaran mesin, dengan sampel data yang kita miliki, kita juga memperkirakan sesuatu yang tidak kita ketahui (populasi). Populasi data yang ada adalah: (1) berita yang dipublikasikan sejauh ini dan (2) berita yang akan datang.

Hypothesis Testing

Jika membuka forum di internet, kebanyakan membahas tentang pembelajaran mesin yang memaksimalkan akurasi (meminimalkan kesalahan). Selain memaksimalkan akurasi (meminimalkan kesalahan penugasan), kita juga harus mampu membuat model yang cukup umum.

Teori Informasi

Dari sisi transmisi informasi dapat diartikan bahwa kita dapat mengirimkan data dalam suatu distribusi dengan jumlah bit yang lebih sedikit agar distribusinya seragam. Distribusi yang mempunyai nilai cukup seragam mempunyai nilai entropi/cross-entropy yang tinggi, sedangkan distribusi yang condong ke arah nilai tertentu (skew) mempunyai nilai yang rendah.

Matriks

Misalnya matriks U berdimensi N × M dan V berdimensi M × O, maka kita dapat mengalikan kedua matriks tersebut sehingga diperoleh matriks C berdimensi N × O (dimensi baris U dan kolom V), dimana setiap elemen dalam matriks tersebut matriks C dihitung menggunakan persamaan 2.19 (operasi antara vektor baris dan vektor kolom). Selain perkalian dua matriks, suatu matriks juga dapat dikalikan dengan skalar yang dilambangkan dengan aU.

Bacaan Lanjutan

Untuk dapat menganalisis data mentah menggunakan teknik pembelajaran mesin, pertama-tama kita perlu mengatur data tersebut ke dalam format yang kita inginkan (dataset). Setelah preprocessing, kami menggunakan teknik yang ada untuk menemukan pola pada data (membangun model).

Nilai Atribut dan Transformasi

Untuk setiap baris pada Tabel 3.1, baris nilai variabel nonkelas disebut vektor fitur. Misalnya pada Tabel 3.1, vektor fitur untuk data dengan id= 4 adalah x4 ={outlook=hujan, suhu=sedang, kelembapan=tinggi, berangin=salah}.

Tabel 3.1: Contoh dataset play tennis (UCI machine learning repository).

Ruang Konsep

Linear Separability

Hidup kita tentu akan lebih mudah jika semua data dapat dipisahkan secara linier, sayangnya sebagian besar data yang ada tidak dapat dipisahkan secara linier. Hal ini penting untuk dipahami karena data yang bersifat linear separable mudah dipisahkan satu sama lain, sehingga mudah untuk melakukan klasifikasi atau clustering.

Seleksi Fitur

Secara geometris, jika kita memproyeksikan sebuah vektor fitur ke dalam suatu ruang berdimensi, maka pemisahan satu kelas dari kelas yang lain dapat dilakukan dengan membuat garis linear - lebih umum lagi, dengan menggunakan hyperplane.3 Ilustrasinya dapat dilihat pada Gambar 3.1. Sedangkan pada Tabel 3.1 jika dilihat dari atribut kelembabannya saja, maka pada kelembaban=tinggi dapat play=yes atau play=no.

Classification, Association, Clustering

Klasifikasi kelas jamak yang telah dijelaskan sebelumnya disebut juga dengan hard classification, artinya jika data diklasifikasi ke dalam kelas tertentu, tidak mungkin data tersebut masuk ke kelas lain (ya atau tidak). Klasifikasi multi-label lebih lembut karena dapat diklasifikasikan ke dalam kelas yang berbeda, misalnya data

Mengukur Kinerja

Evaluasi Model

Kategori Jenis Algoritma

Tahapan Analisis

Algoritma Pembelajaran Mesin 51

K-means

Memilih kembali pusat gravitasi masing-masing kelompok, yaitu dari anggota kelompok tersebut (seperti memilih pemimpin baru). Kami kembali memilih pusat gravitasi untuk setiap kelompok, yang berasal dari anggota kelompok itu sendiri.

K-nearest-neighbor

Estimasi persamaan ini ditampilkan dalam bentuk diskrit pada Persamaan 5.2, dimana (xi, yi) merupakan pasangan data latih (input dan output yang diinginkan). Selain menghitung error kuadrat pada data latih, Persamaan 5.2 juga dapat digunakan untuk menghitung error kuadrat pada data uji.

Tabel 4.8: Perbedaan data baru vs data orang kaya

Binary Classification

Log-linear Binary Classification

Kami ingin model kami menghasilkan output bernilai 1 sebanyak mungkin untuk membedakan semua data yang termasuk dalam kelas pertama dan 0 untuk kelas lainnya. Cross entropy tinggi jika selisih nilai probabilitas masuk kelas yang satu dengan kelas yang lain tidak jauh, misal P(c1) = 0,6 & P(c2) = 0,4.

Multi-class Classification

Misalnya kita menginginkan nilai y = 1 jika data masuk ke kelas pertama dan y = 0 jika masuk ke kelas kedua. Semakin rendah nilai cross entropy maka kita dapat meningkatkan “keyakinan” kita terhadap kemampuan klasifikasi model machine learning, yaitu selisih nilai probabilitas masuk kelas satu dengan kelas lainnya tinggi, misal: P(c1) = 0,8 &P(c2) = 0,2.

Multi-label Classification

Pembelajaran sebagai Permasalahan Optimisasi

Seperti asumsi sebelumnya, Anda juga turun ke titik terendah dengan mengambil jalur yang kemiringannya paling curam, dengan asumsi Anda bisa mencapai titik terendah lebih cepat [9]. Seluruh area pegunungan adalah kemungkinan nilai kesalahan E (dalam soal Anda), dan titik terendah di area tersebut adalah nilai kesalahan E terendah.

Gambar 5.9: Stochastic Gradient Descent.

Batasan Model Linear

Asumsi linier berarti bahwa perubahan suatu karakteristik x mengakibatkan perubahan output yang konstan, tidak peduli seberapa besar/kecil nilai x tersebut. Artinya kita meneruskan setiap fiturxi ke fungsi gi, sehingga deltaxi tidak menyebabkan perubahan konstan pada keluaran.

Overfitting dan Underfitting

Solusi sederhana untuk masalah ini adalah dengan memodelkan fungsi linier sebagai fungsi polinomial dengan orde tertentu (M), diilustrasikan pada persamaan 5.25. Anda harus memeriksa data validasi dan pengujian, dan memastikan karakteristik data yang sama, misalnya. apakah data pelatihan dan pengujian benar-benar diambil dari distribusi yang sama.

Gambar 5.13: Underfitting vs Overfitting. 8

Regularization

Transformasi Data

Kita dapat mengubah data yang tidak dapat dipisahkan secara linier menjadi dapat dipisahkan secara linier sebelum menggunakan model linier untuk mengklasifikasikan data.

Bacaan Lanjutan

Phil McGraw Bab ini akan menjelaskan salah satu versi pohon keputusan yaitu Quinlan's ID3 [33,34] yang terinspirasi dari teori informasi [35]. Di zaman kuno, peneliti menulis ulang aturan eksplisit (jika kemudian) (berdasarkan pengetahuan pakar) untuk menciptakan agen cerdas (sistem pakar).

ID3

Ada dua contoh dengan play=yes dan tiga contoh dengan play=no ketika Outlook=sunny, jadi kami menghitung informasinya. Ada tiga contoh dengan play=yes dan dua contoh dengan play=no ketika Outlook=rainy, jadi kami menghitung informasinya.

Isu pada ID3

Pembagian Ruang Konsep

Bentuk lingkaran dengan batas hitam pada Gambar 7.3 menunjukkan bahwa data terluar pada setiap kelas telah diketahui. Garis putus-putus mewakili garis yang dibentuk oleh masing-masing vektor pendukung untuk setiap kelas (margin).

Support Vector Classifier

Support Vector Machine

Namun, ketika kita memasukkan masukan baru ke dalam persamaan, sebenarnya kita hanya perlu menghitung seberapa dekat (kesamaan) antara vektor masukan dan vektor pendukung.

Klasifikasi lebih dari dua kelas

Tips

Dalam logika matematika (logika orde pertama), ketika kita mempunyai premis “kalau hujan maka Ayu meluncur”. Pada logika tingkat orde pertama, jika "hujan". Dalam kerangka penalaran probabilistik, kita berpikir “karena ada yang terpeleset, mungkin hujan, dan ada juga kecelakaan”. Tapi kalau ada cerita lain kalau ada yang "naik kereta luncur" dan "hujan"; belum tentu “kecelakaan” itu terjadi.

Perhatikan Gambar 8.1! Gambar ini menerangkan hubungan pengkon- pengkon-disian events, disebut Bayesian Network

Generative Model

Part-of-speech Tagging

Persamaan 8.9 dapat disederhanakan berkali-kali dengan menggunakan asumsi Markov, yaitu dengan membuat asumsi-asumsi yang saling eksklusif terhadap barisan tersebut (disebut asumsi independensi). P(wi|ci)P(ci|ci−1) (8.12) Kita dapat membuat perluasan persamaan 8.12 dengan asumsi trigram, asumsi kuadgram, dan seterusnya.

Hidden Markov Model Tagger

Misalnya untuk kalimat “budi menendang bola”, kemungkinan kalimat tersebut memiliki urutan kelas kata “kata benda, kata kerja, kata benda”. Mengingat kalimat "terbang seperti bunga", untuk menghitung urutan kelas kata untuk kalimat tersebut, kita menjelajahi otomat Gambar 8.6.

Algoritma Viterbi

Jika Anda hanya ingin mempelajari HMM tanpa variabel untuk dilatih/diperkirakan, Anda dapat berhenti membaca hingga subbab ini. Jika Anda ingin mengetahui bagaimana HMM dapat memperkirakan parameter, Anda dapat melanjutkan membaca subbab berikutnya.

Proses Training Hidden Markov Model

Namun proses pemilihan fitur secara manual ini cukup beresiko karena rentan terhadap bias yaitu kemampuan seseorang pada domain tertentu. Alangkah baiknya jika kita bisa memilih fitur-fitur yang benar-benar dibutuhkan (sekadar) secara otomatis.

Gambar 8.13: Algoritma forward -backward (EM) [12].

High Dimensional Data

Feature Selection

Untuk mencari model terbaik, kita hanya perlu mencari kombinasi fitur yang memberikan nilai performa terbaik, pilihan lanjutannya ditunjukkan pada Gambar 9.1. Dibandingkan dengan brute force yang bersifat eksponensial, seleksi maju membentuk deret aritmatika dari kombinasi sifat-sifat yang diuji, yaitu F + (F F(F + 1)/2.

Gambar 9.1: Ilustrasi forward selection untuk tiga fitur.

Evaluasi Kinerja Model

Variasi terakhir, F1 mikro, melihat hasil prediksi secara keseluruhan tanpa memisahkan performa setiap kelas. F1-weighted Pisahkan kinerja masing-masing kelas, lalu rata-ratakan nilai kinerja yang mana setiap kelas mempunyai bobot berdasarkan besarnya output yang diinginkan untuk setiap kelas.

Cross Validation

Kapan pun memungkinkan, kami ingin mengevaluasi performa model pada kumpulan data yang berbeda, dan mengevaluasi variasi dalam performa model. Nilai rata-rata kinerja yang diberikan merupakan perkiraan kinerja model berdasarkan data pengujian (yang sebenarnya tidak ada) yang diberikan pada persamaan 9.11.

Gambar 9.7: Model yang stabil (a) memberikan decision boundary (garis hi- hi-tam) yang serupa walaupun input sedikit diubah-ubah (variasi kinerja yang kecil, untuk set input yang berbeda)

Replicability, Overclaiming dan Domain Dependence

Perlu diketahui, ada dua hal penting dalam algoritma K-means, yaitu: (1) memilih pusat dan (2) menghitung kemiripan data. Pada Bab 4 dijelaskan cara menghitung kesamaan data sederhana yaitu dengan menghitung banyaknya nilai atribut yang sama antara dua vektor fitur.

Hierarchical Clustering

Evaluasi

Jika terdapat informasi label/kelas untuk setiap data, kita juga dapat menghitung kualitas algoritma clustering (perhatikan! tujuan pengukurannya adalah kualitas algoritma) dengan Entropy dan Purity. Cara menghitung kualitas algoritma clustering, diberikan informasi label/kelas untuk setiap data menggunakan: (hind, baca [41]).

Artificial Neural Network 141

Single Perceptron

Neuron memproses masukan x dengan menghitung jumlah perkalian antara nilai masukan dan bobot sinapsis, yang diteruskan ke fungsi non-linier. Bentuk ini tidak lain hanyalah persamaan model linier yang ditransformasikan dengan fungsi nonlinier.

Permasalahan XOR

Berbeda dengan ide utama metode model/kernel linier, prinsip ANN adalah meneruskan data ke fungsi non-linier (non-linearitas). ANN dapat mentransformasikan data ke dalam ruang konsep yang berbeda (bisa dalam dimensi yang lebih tinggi atau lebih rendah) dan kemudian mencari batasan keputusan non-linier dengan fungsi non-linier.

Multilayer Perceptron

Seperti yang dinyatakan dalam subbagian sebelumnya, kombinasi banyak fitur nonlinier lebih kuat dibandingkan satu perceptron. 11.7) Perhatikan baik-baik Persamaan 11.6 dan 11.7 untuk menghitung output pada tingkat yang berbeda. u, w adalah parameter pembelajaran. β, γ mewakili kebisingan atau bias. K adalah banyaknya unit masukan dan J adalah banyaknya unit tersembunyi.

Interpretability

Struktur pohon keputusan berupa pohon keputusan mudah dipahami masyarakat dan prediksi (keputusan) dapat dilacak. Seperti yang dijelaskan pada pendahuluan, ANN (MLP) biasanya dianggap sebagai metode black-box atau sulit untuk diinterpretasikan (terutama model interpretabilitas).

Gambar 11.6: Justifikasi penggunaan P pada penurunan dari hidden ke input layer.

Binary Classification

Multi-class Classification

Multi-label Classification

Deep Neural Network

Banyak orang percaya bahwa jaringan saraf dalam lebih baik daripada jaringan saraf yang luas tetapi memiliki sedikit lapisan, karena lebih banyak transformasi yang terjadi. Keunggulan utama deep learning adalah mampu mengubah data dari non-linearly separable menjadi linearly separable melalui serangkaian transformasi (lapisan tersembunyi).

Tips

Regularization and Dropout

Memikirkan ANN secara umum, persamaan 11.13, dimana W adalah bobot sinapsis, x adalah input (dalam pembahasan kali ini dapat mewakili keadaan tersembunyi dalam suatu lapisan), b adalah bias, dan f adalah fungsi aktivasi (nonlinier). Kita membuat mask untuk bobot sinapsis seperti pada persamaan 11.14, dimana vektor dan pi = [0,1] menunjukkan apakah bobot sinapsis disertakan atau tidak.

Vanishing and Exploding Gradients

Rangkuman

Ini merupakan kemewahan yang tidak bisa dirasakan 20-30 tahun lalu. a) Mengurangi perubahan noise/bias untuk pelatihan MLP. Teknik yang dibahas pada bab ini adalah pembelajaran representasi untuk mereduksi dimensi vektor ciri (dimensionality reduction), teknik ini biasanya tergolong dalam unsupervised learning.

Representation Learning

Sayangnya, ketika kita menggunakan metode pemilihan fitur tersebut, tidak jarang terjadi kesalahan informasi yang memuat karakteristik data. Kita dapat menggunakan prinsip analisis komponen utama yang Anda pelajari di Bab 9 untuk mereduksi dimensi data (mengurangi dimensi masukan) sekaligus menjaga karakteristik data. Pembelajaran representasi merupakan salah satu metode pemadatan vektor ciri dengan menggunakan jaringan syaraf tiruan.2 Proses melakukan pemadatan ini disebut dengan pengkodean, hasil vektor ciri dalam bentuk terkompresi disebut dengan pengkodean, proses mengembalikan hasil kompresi ke bentuk semula disebut dengan pengkodean. disebut decoding 3 Jaringan saraf yang mampu melakukan proses pengkodean disebut encoder sedangkan decoder untuk proses decoding.

Gambar 12.1: Contoh autoencoder sederhana.

Singular Value Decomposition

Perlu diperhatikan bahwa matriks V adalah matriks diagonal (elemen-elemennya adalah nilai individual dari

Ide Dasar Autoencoder

12.4) Kita dapat menulis ulang persamaan 12.4 menjadi persamaan 12.5, dimana f mewakili fungsi aktivasi dan θ adalah ANN (kumpulan matriks bobot).5. Representasi ini kemudian dikirim lagi ke lapisan untuk merekonstruksi masukan, kita menyebutnya decoder Decoder diberikan dalam persamaan 12.8 dimana W dan β mewakili matriks bobot dan bias.

Gambar 12.2: Hubungan autoencoder dan singular value decomposition (analogi).

Resisting Perturbation

Representing Context: Word Embedding

12.10) Dengan perhitungan TF-IDF yaitu. Dengan menggunakan T F×IDF untuk mengisi sel dalam matriks Tabel 12.1, kita mempunyai informasi lebih lanjut. Untuk melatih autoencoder rekursif, keluaran suatu lapisan merupakan rekonstruksi masukan, ilustrasinya dapat dilihat pada Gambar 12.11.

Tips

Salah satu cara yang dapat dilakukan adalah dengan membuat mesin pembelajaran (JST) untuk suatu wilayah tertentu seperti pada Gambar 13.2 (biru) kemudian menyalin mesin pembelajaran tersebut untuk dapat mengenali objek di wilayah lain. 13.5 Warna yang sama pada bobot sinapsis menunjukkan bahwa bobot sinapsis yang bersangkutan mempunyai nilai (bobot) yang sama.

Gambar 13.1: Motivasi convolutional neural network.

Recurrent Neural Network

Dalam asumsi Markov diasumsikan bahwa data xt (titik data) hanya dipengaruhi oleh beberapa data sebelumnya (analogi: windowing). Ide utamanya adalah menghafal,6 kita ingin mengingat seluruh sequence (dibandingkan dengan asumsi Markov yang mengingat sequence secara terbatas), implikasinya adalah RNN mampu mengenali dependensi yang panjang (misalnya xt nampaknya bergantung pada x1).