Buku ini dimaksudkan sebagai bahan pengantar (atau pendukung) mata kuliah machine learning bagi mahasiswa di Indonesia, khususnya pada jenjang sarjana (tidak terkecuali penggunaan pada tingkat pascasarjana). Buku ini tergolong karya yang diterbitkan sendiri (atau mungkin lebih tepat dikatakan sebagai draf), namun telah direview oleh beberapa orang.
Kecerdasan Buatan
Jadi Anda perlu benar-benar memahami bahwa memahami teknik machine learning saja tidak cukup. Anda juga perlu mengetahui domain aplikasi yang sesuai karena penggunaan teknik pembelajaran mesin bisa berbeda di domain yang berbeda.
Intelligent Agent
Dalam dimensi ini, agen mampu berpikir seperti manusia dalam arti kognitif (misalnya mampu memahami apa itu kesedihan atau kesenangan). Tentu saja, kita perlu mendefinisikan secara detail, menyeluruh, dan tepat apa yang dimaksud dengan “tindakan yang benar”. Oleh karena itu, lebih baik mengukur kinerja agen menggunakan ukuran kinerja yang obyektif (disebut benchmark).
Konsep Belajar
Secara internal, model harus mengoptimalkan fungsi utilitas, yaitu fungsi mana yang harus dimaksimalkan atau diminimalkan oleh agen, terutama pada fase pelatihan. Namun, dalam beberapa kasus, fungsi utilitas dan ukuran kinerja dapat diukur dengan fungsi yang sama.
Statistical Learning Theory
Dalam hal ini yang berperan sebagai lingkungan adalah data. Ukuran kinerjanya adalah seberapa akurat prediksi agen, atau seberapa mirip “pola” data yang ditemukan dengan data asli. Dari contoh ini didapat 4 kue berbentuk persegi panjang, 3 kue hati, dan 2 kue segitiga.
Training, Validation, Testing Set
Hal ini diulang sebanyak K kali, dimana data digunakan satu kali sebagai set pengujian (bergantian).
Supervised Learning
Ada jenis klasifikasi lain yang disebut klasifikasi multi-label, yaitu ketika kita ingin mengklasifikasikan suatu sampel ke dalam sekumpulan kelas. Artinya label saling eksklusif dalam klasifikasi kelas jamak, sedangkan label tidak saling eksklusif dalam klasifikasi multi-label.12 Perhatikan Gambar 1.1 sebagai ilustrasi, di mana setiap baris mewakili kelas yang sesuai dengan setiap entri, nilai "1" mewakili BENAR dan nilai "0" mewakili FALSE.
Regresi
Semi-supervised Learning
Unsupervised Learning
Kita harus menekankan bahwa pembelajaran tanpa pengawasan6 = pengelompokan Pengelompokan adalah suatu bentuk pembelajaran tanpa pengawasan; yaitu salah satu hasil inferensi Persamaan 1.3.
Proses Belajar
Tips
Contoh Aplikasi
Andrew Lang Saat pertama kali membaca bab ini, Anda mungkin merasa bahwa bab ini tidak masuk akal atau tidak diperlukan. Anda dapat melewatkan bab ini jika Anda sudah familiar dengan materi probabilitas, statistika, dan aljabar linier.
Probability Density Function
Expectation dan Variance
Bayesian Probability
Gaussian Distribution
Apakah Karakteristik Sampel Mencerminkan Populasi?
Semakin banyak sampel data yang kita miliki, semakin baik perkiraan kita terhadap populasi (jumlah kumpulan data menjadi sangat penting). Artinya karakteristik data sampel yang kita miliki hanya dapat mencerminkan data masa depan jika banyak kondisi yang tetap sama, yaitu (1) dan (2) diambil dari distribusi yang sama.
Teori Keputusan
Dalam pembelajaran mesin, dengan sampel data yang kita miliki, kita juga memperkirakan sesuatu yang tidak kita ketahui (populasi). Populasi data yang ada adalah: (1) berita yang dipublikasikan sejauh ini dan (2) berita yang akan datang.
Hypothesis Testing
Jika membuka forum di internet, kebanyakan membahas tentang pembelajaran mesin yang memaksimalkan akurasi (meminimalkan kesalahan). Selain memaksimalkan akurasi (meminimalkan kesalahan penugasan), kita juga harus mampu membuat model yang cukup umum.
Teori Informasi
Dari sisi transmisi informasi dapat diartikan bahwa kita dapat mengirimkan data dalam suatu distribusi dengan jumlah bit yang lebih sedikit agar distribusinya seragam. Distribusi yang mempunyai nilai cukup seragam mempunyai nilai entropi/cross-entropy yang tinggi, sedangkan distribusi yang condong ke arah nilai tertentu (skew) mempunyai nilai yang rendah.
Matriks
Misalnya matriks U berdimensi N × M dan V berdimensi M × O, maka kita dapat mengalikan kedua matriks tersebut sehingga diperoleh matriks C berdimensi N × O (dimensi baris U dan kolom V), dimana setiap elemen dalam matriks tersebut matriks C dihitung menggunakan persamaan 2.19 (operasi antara vektor baris dan vektor kolom). Selain perkalian dua matriks, suatu matriks juga dapat dikalikan dengan skalar yang dilambangkan dengan aU.
Bacaan Lanjutan
Untuk dapat menganalisis data mentah menggunakan teknik pembelajaran mesin, pertama-tama kita perlu mengatur data tersebut ke dalam format yang kita inginkan (dataset). Setelah preprocessing, kami menggunakan teknik yang ada untuk menemukan pola pada data (membangun model).
Nilai Atribut dan Transformasi
Untuk setiap baris pada Tabel 3.1, baris nilai variabel nonkelas disebut vektor fitur. Misalnya pada Tabel 3.1, vektor fitur untuk data dengan id= 4 adalah x4 ={outlook=hujan, suhu=sedang, kelembapan=tinggi, berangin=salah}.
Ruang Konsep
Linear Separability
Hidup kita tentu akan lebih mudah jika semua data dapat dipisahkan secara linier, sayangnya sebagian besar data yang ada tidak dapat dipisahkan secara linier. Hal ini penting untuk dipahami karena data yang bersifat linear separable mudah dipisahkan satu sama lain, sehingga mudah untuk melakukan klasifikasi atau clustering.
Seleksi Fitur
Secara geometris, jika kita memproyeksikan sebuah vektor fitur ke dalam suatu ruang berdimensi, maka pemisahan satu kelas dari kelas yang lain dapat dilakukan dengan membuat garis linear - lebih umum lagi, dengan menggunakan hyperplane.3 Ilustrasinya dapat dilihat pada Gambar 3.1. Sedangkan pada Tabel 3.1 jika dilihat dari atribut kelembabannya saja, maka pada kelembaban=tinggi dapat play=yes atau play=no.
Classification, Association, Clustering
Klasifikasi kelas jamak yang telah dijelaskan sebelumnya disebut juga dengan hard classification, artinya jika data diklasifikasi ke dalam kelas tertentu, tidak mungkin data tersebut masuk ke kelas lain (ya atau tidak). Klasifikasi multi-label lebih lembut karena dapat diklasifikasikan ke dalam kelas yang berbeda, misalnya data
Mengukur Kinerja
Evaluasi Model
Kategori Jenis Algoritma
Tahapan Analisis
Algoritma Pembelajaran Mesin 51
K-means
Memilih kembali pusat gravitasi masing-masing kelompok, yaitu dari anggota kelompok tersebut (seperti memilih pemimpin baru). Kami kembali memilih pusat gravitasi untuk setiap kelompok, yang berasal dari anggota kelompok itu sendiri.
K-nearest-neighbor
Estimasi persamaan ini ditampilkan dalam bentuk diskrit pada Persamaan 5.2, dimana (xi, yi) merupakan pasangan data latih (input dan output yang diinginkan). Selain menghitung error kuadrat pada data latih, Persamaan 5.2 juga dapat digunakan untuk menghitung error kuadrat pada data uji.
Binary Classification
Log-linear Binary Classification
Kami ingin model kami menghasilkan output bernilai 1 sebanyak mungkin untuk membedakan semua data yang termasuk dalam kelas pertama dan 0 untuk kelas lainnya. Cross entropy tinggi jika selisih nilai probabilitas masuk kelas yang satu dengan kelas yang lain tidak jauh, misal P(c1) = 0,6 & P(c2) = 0,4.
Multi-class Classification
Misalnya kita menginginkan nilai y = 1 jika data masuk ke kelas pertama dan y = 0 jika masuk ke kelas kedua. Semakin rendah nilai cross entropy maka kita dapat meningkatkan “keyakinan” kita terhadap kemampuan klasifikasi model machine learning, yaitu selisih nilai probabilitas masuk kelas satu dengan kelas lainnya tinggi, misal: P(c1) = 0,8 &P(c2) = 0,2.
Multi-label Classification
Pembelajaran sebagai Permasalahan Optimisasi
Seperti asumsi sebelumnya, Anda juga turun ke titik terendah dengan mengambil jalur yang kemiringannya paling curam, dengan asumsi Anda bisa mencapai titik terendah lebih cepat [9]. Seluruh area pegunungan adalah kemungkinan nilai kesalahan E (dalam soal Anda), dan titik terendah di area tersebut adalah nilai kesalahan E terendah.
Batasan Model Linear
Asumsi linier berarti bahwa perubahan suatu karakteristik x mengakibatkan perubahan output yang konstan, tidak peduli seberapa besar/kecil nilai x tersebut. Artinya kita meneruskan setiap fiturxi ke fungsi gi, sehingga deltaxi tidak menyebabkan perubahan konstan pada keluaran.
Overfitting dan Underfitting
Solusi sederhana untuk masalah ini adalah dengan memodelkan fungsi linier sebagai fungsi polinomial dengan orde tertentu (M), diilustrasikan pada persamaan 5.25. Anda harus memeriksa data validasi dan pengujian, dan memastikan karakteristik data yang sama, misalnya. apakah data pelatihan dan pengujian benar-benar diambil dari distribusi yang sama.
Regularization
Transformasi Data
Kita dapat mengubah data yang tidak dapat dipisahkan secara linier menjadi dapat dipisahkan secara linier sebelum menggunakan model linier untuk mengklasifikasikan data.
Bacaan Lanjutan
Phil McGraw Bab ini akan menjelaskan salah satu versi pohon keputusan yaitu Quinlan's ID3 [33,34] yang terinspirasi dari teori informasi [35]. Di zaman kuno, peneliti menulis ulang aturan eksplisit (jika kemudian) (berdasarkan pengetahuan pakar) untuk menciptakan agen cerdas (sistem pakar).
ID3
Ada dua contoh dengan play=yes dan tiga contoh dengan play=no ketika Outlook=sunny, jadi kami menghitung informasinya. Ada tiga contoh dengan play=yes dan dua contoh dengan play=no ketika Outlook=rainy, jadi kami menghitung informasinya.
Isu pada ID3
Pembagian Ruang Konsep
Bentuk lingkaran dengan batas hitam pada Gambar 7.3 menunjukkan bahwa data terluar pada setiap kelas telah diketahui. Garis putus-putus mewakili garis yang dibentuk oleh masing-masing vektor pendukung untuk setiap kelas (margin).
Support Vector Classifier
Support Vector Machine
Namun, ketika kita memasukkan masukan baru ke dalam persamaan, sebenarnya kita hanya perlu menghitung seberapa dekat (kesamaan) antara vektor masukan dan vektor pendukung.
Klasifikasi lebih dari dua kelas
Tips
Dalam logika matematika (logika orde pertama), ketika kita mempunyai premis “kalau hujan maka Ayu meluncur”. Pada logika tingkat orde pertama, jika "hujan". Dalam kerangka penalaran probabilistik, kita berpikir “karena ada yang terpeleset, mungkin hujan, dan ada juga kecelakaan”. Tapi kalau ada cerita lain kalau ada yang "naik kereta luncur" dan "hujan"; belum tentu “kecelakaan” itu terjadi.
Generative Model
Part-of-speech Tagging
Persamaan 8.9 dapat disederhanakan berkali-kali dengan menggunakan asumsi Markov, yaitu dengan membuat asumsi-asumsi yang saling eksklusif terhadap barisan tersebut (disebut asumsi independensi). P(wi|ci)P(ci|ci−1) (8.12) Kita dapat membuat perluasan persamaan 8.12 dengan asumsi trigram, asumsi kuadgram, dan seterusnya.
Hidden Markov Model Tagger
Misalnya untuk kalimat “budi menendang bola”, kemungkinan kalimat tersebut memiliki urutan kelas kata “kata benda, kata kerja, kata benda”. Mengingat kalimat "terbang seperti bunga", untuk menghitung urutan kelas kata untuk kalimat tersebut, kita menjelajahi otomat Gambar 8.6.
Algoritma Viterbi
Jika Anda hanya ingin mempelajari HMM tanpa variabel untuk dilatih/diperkirakan, Anda dapat berhenti membaca hingga subbab ini. Jika Anda ingin mengetahui bagaimana HMM dapat memperkirakan parameter, Anda dapat melanjutkan membaca subbab berikutnya.
Proses Training Hidden Markov Model
Namun proses pemilihan fitur secara manual ini cukup beresiko karena rentan terhadap bias yaitu kemampuan seseorang pada domain tertentu. Alangkah baiknya jika kita bisa memilih fitur-fitur yang benar-benar dibutuhkan (sekadar) secara otomatis.
High Dimensional Data
Feature Selection
Untuk mencari model terbaik, kita hanya perlu mencari kombinasi fitur yang memberikan nilai performa terbaik, pilihan lanjutannya ditunjukkan pada Gambar 9.1. Dibandingkan dengan brute force yang bersifat eksponensial, seleksi maju membentuk deret aritmatika dari kombinasi sifat-sifat yang diuji, yaitu F + (F F(F + 1)/2.
Evaluasi Kinerja Model
Variasi terakhir, F1 mikro, melihat hasil prediksi secara keseluruhan tanpa memisahkan performa setiap kelas. F1-weighted Pisahkan kinerja masing-masing kelas, lalu rata-ratakan nilai kinerja yang mana setiap kelas mempunyai bobot berdasarkan besarnya output yang diinginkan untuk setiap kelas.
Cross Validation
Kapan pun memungkinkan, kami ingin mengevaluasi performa model pada kumpulan data yang berbeda, dan mengevaluasi variasi dalam performa model. Nilai rata-rata kinerja yang diberikan merupakan perkiraan kinerja model berdasarkan data pengujian (yang sebenarnya tidak ada) yang diberikan pada persamaan 9.11.
Replicability, Overclaiming dan Domain Dependence
Perlu diketahui, ada dua hal penting dalam algoritma K-means, yaitu: (1) memilih pusat dan (2) menghitung kemiripan data. Pada Bab 4 dijelaskan cara menghitung kesamaan data sederhana yaitu dengan menghitung banyaknya nilai atribut yang sama antara dua vektor fitur.
Hierarchical Clustering
Evaluasi
Jika terdapat informasi label/kelas untuk setiap data, kita juga dapat menghitung kualitas algoritma clustering (perhatikan! tujuan pengukurannya adalah kualitas algoritma) dengan Entropy dan Purity. Cara menghitung kualitas algoritma clustering, diberikan informasi label/kelas untuk setiap data menggunakan: (hind, baca [41]).
Artificial Neural Network 141
Single Perceptron
Neuron memproses masukan x dengan menghitung jumlah perkalian antara nilai masukan dan bobot sinapsis, yang diteruskan ke fungsi non-linier. Bentuk ini tidak lain hanyalah persamaan model linier yang ditransformasikan dengan fungsi nonlinier.
Permasalahan XOR
Berbeda dengan ide utama metode model/kernel linier, prinsip ANN adalah meneruskan data ke fungsi non-linier (non-linearitas). ANN dapat mentransformasikan data ke dalam ruang konsep yang berbeda (bisa dalam dimensi yang lebih tinggi atau lebih rendah) dan kemudian mencari batasan keputusan non-linier dengan fungsi non-linier.
Multilayer Perceptron
Seperti yang dinyatakan dalam subbagian sebelumnya, kombinasi banyak fitur nonlinier lebih kuat dibandingkan satu perceptron. 11.7) Perhatikan baik-baik Persamaan 11.6 dan 11.7 untuk menghitung output pada tingkat yang berbeda. u, w adalah parameter pembelajaran. β, γ mewakili kebisingan atau bias. K adalah banyaknya unit masukan dan J adalah banyaknya unit tersembunyi.
Interpretability
Struktur pohon keputusan berupa pohon keputusan mudah dipahami masyarakat dan prediksi (keputusan) dapat dilacak. Seperti yang dijelaskan pada pendahuluan, ANN (MLP) biasanya dianggap sebagai metode black-box atau sulit untuk diinterpretasikan (terutama model interpretabilitas).
Binary Classification
Multi-class Classification
Multi-label Classification
Deep Neural Network
Banyak orang percaya bahwa jaringan saraf dalam lebih baik daripada jaringan saraf yang luas tetapi memiliki sedikit lapisan, karena lebih banyak transformasi yang terjadi. Keunggulan utama deep learning adalah mampu mengubah data dari non-linearly separable menjadi linearly separable melalui serangkaian transformasi (lapisan tersembunyi).
Tips
Regularization and Dropout
Memikirkan ANN secara umum, persamaan 11.13, dimana W adalah bobot sinapsis, x adalah input (dalam pembahasan kali ini dapat mewakili keadaan tersembunyi dalam suatu lapisan), b adalah bias, dan f adalah fungsi aktivasi (nonlinier). Kita membuat mask untuk bobot sinapsis seperti pada persamaan 11.14, dimana vektor dan pi = [0,1] menunjukkan apakah bobot sinapsis disertakan atau tidak.
Vanishing and Exploding Gradients
Rangkuman
Ini merupakan kemewahan yang tidak bisa dirasakan 20-30 tahun lalu. a) Mengurangi perubahan noise/bias untuk pelatihan MLP. Teknik yang dibahas pada bab ini adalah pembelajaran representasi untuk mereduksi dimensi vektor ciri (dimensionality reduction), teknik ini biasanya tergolong dalam unsupervised learning.
Representation Learning
Sayangnya, ketika kita menggunakan metode pemilihan fitur tersebut, tidak jarang terjadi kesalahan informasi yang memuat karakteristik data. Kita dapat menggunakan prinsip analisis komponen utama yang Anda pelajari di Bab 9 untuk mereduksi dimensi data (mengurangi dimensi masukan) sekaligus menjaga karakteristik data. Pembelajaran representasi merupakan salah satu metode pemadatan vektor ciri dengan menggunakan jaringan syaraf tiruan.2 Proses melakukan pemadatan ini disebut dengan pengkodean, hasil vektor ciri dalam bentuk terkompresi disebut dengan pengkodean, proses mengembalikan hasil kompresi ke bentuk semula disebut dengan pengkodean. disebut decoding 3 Jaringan saraf yang mampu melakukan proses pengkodean disebut encoder sedangkan decoder untuk proses decoding.
Singular Value Decomposition
Perlu diperhatikan bahwa matriks V adalah matriks diagonal (elemen-elemennya adalah nilai individual dari
Ide Dasar Autoencoder
12.4) Kita dapat menulis ulang persamaan 12.4 menjadi persamaan 12.5, dimana f mewakili fungsi aktivasi dan θ adalah ANN (kumpulan matriks bobot).5. Representasi ini kemudian dikirim lagi ke lapisan untuk merekonstruksi masukan, kita menyebutnya decoder Decoder diberikan dalam persamaan 12.8 dimana W dan β mewakili matriks bobot dan bias.
Resisting Perturbation
Representing Context: Word Embedding
12.10) Dengan perhitungan TF-IDF yaitu. Dengan menggunakan T F×IDF untuk mengisi sel dalam matriks Tabel 12.1, kita mempunyai informasi lebih lanjut. Untuk melatih autoencoder rekursif, keluaran suatu lapisan merupakan rekonstruksi masukan, ilustrasinya dapat dilihat pada Gambar 12.11.
Tips
Salah satu cara yang dapat dilakukan adalah dengan membuat mesin pembelajaran (JST) untuk suatu wilayah tertentu seperti pada Gambar 13.2 (biru) kemudian menyalin mesin pembelajaran tersebut untuk dapat mengenali objek di wilayah lain. 13.5 Warna yang sama pada bobot sinapsis menunjukkan bahwa bobot sinapsis yang bersangkutan mempunyai nilai (bobot) yang sama.
Recurrent Neural Network
Dalam asumsi Markov diasumsikan bahwa data xt (titik data) hanya dipengaruhi oleh beberapa data sebelumnya (analogi: windowing). Ide utamanya adalah menghafal,6 kita ingin mengingat seluruh sequence (dibandingkan dengan asumsi Markov yang mengingat sequence secara terbatas), implikasinya adalah RNN mampu mengenali dependensi yang panjang (misalnya xt nampaknya bergantung pada x1).
Part-of-speech Tagging Revisited
Sequence to Sequence
Arsitektur Lainnya
Architecture Ablation
Transfer Learning
Multi-task Learning
Aplikasi dan Topik Tambahan 213
Peringkasan Dokumen
Konklusi
Saran Buku Lanjutan