Apa itu Machine Learning dan Cara Kerjanya A. Apa itu Machine Learning?
Machine learning adalah aplikasi dari disiplin ilmu kecerdasan buatan (Artificial Intelligence) yang menggunakan teknik statistika untuk menghasilkan suatu model otomatis dari sekumpulan data, dengan tujuan memberikan komputer kemampuan untuk "belajar".
Pembelajaran mesin atau machine learning memungkinkan komputer mempelajari sejumlah data (learn from data) sehingga dapat menghasilkan suatu model untuk melakukan proses input- output tanpa menggunakan kode program yang dibuat secara eksplisit. Proses belajar tersebut menggunakan algoritma khusus yang disebut machine learning algorithms. Terdapat banyak algoritma machine learning dengan efisiensi dan spesifikasi kasus yang berbeda-beda.
B. Konsep Dasar dan Cara kerja Machine Learning
Secara fundamental cara kerja machine learning adalah belajar seperti manusia dengan menggunakan contoh-contoh dan setelah itu barulah dapat menjawab suatu pertanyaan terkait.
Proses belajar ini menggunakan data yang disebut train dataset. Berbeda dengan program statis, machine learning diciptakan untuk membentuk program yang dapat belajar sendiri.
Dari data tersebut, komputer akan melakukan proses belajar (training) untuk menghasilkan suatu model. Proses belajar ini menggunakan algoritma machine learning sebagai penerapan teknik statistika. Model inilah yang menghasilkan informasi, kemudian dapat dijadikan pengetahuan untuk memecahkan suatu permasalahan sebagai proses input-output. Model yang dihasilkan dapat melakukan klasifikasi atau pun prediksi kedepan.
Untuk memastikan efisiensi model yang terbentuk, data akan dibagi menjadi data pembelajaran (train dataset) dan data pengujian (test dataset). Pembagian data yang digunakan bervariasi bergantung algoritma yang digunakan. Pada umumnya train dataset lebih banyak dari test dataset, misalnya dengan rasio 3:1. Test dataset digunakan untuk menghitung seberapa efisien model yang dihasilkan untuk melakukan klasifikasi atau prediksi kedepan yang disebut test score. Semakin banyak data yang digunakan, test score yang dihasilkan semakin baik. Nilai test score berada dalam rentang 0-1.
C. Metode Algoritma Machine Learning
1. Supervised machine learning algorithms
Supervised machine learning adalah algoritma machine learning yang dapat menerapkan informasi yang telah ada pada data dengan memberikan label tertentu, misalnya data klasifikasi sebelumnya (terarah). Algoritma ini mampu memberikan target terhadap output yang dilakukan dengan membandingkan pengalaman belajar di masa lalu.
2. Unsupervised machine learning algorithms
Unsupervised machine learning adalah algoritma machine learning yang digunakan pada data yang tidak mempunyai informasi yang dapat diterapkan secara langsung (tidak terarah).
Algoritma ini diharapkan mampu menemukan struktur tersembunyi pada data yang tidak berlabel.
Perbedaan Antara Supervised dan Unsupervised Learning
Dalam dunia data mining atau data science sering kali kita mendengar supervised dan unsupervised learning. Secara garis besar terdapat 2 pendekatan untuk melakukan teknik — teknik data mining. Supervised learning adalah sebuah pendekatan dimana sudah terdapat data yang dilatih, dan terdapat variable yang ditargetkan sehingga tujuan dari pendekatan ini adalah mengkelompokan suatu data ke data yang sudah ada, lain halnya dengan unsupervised learning, unsupervised learning tidak memiliki data latih, sehingga dari data yang ada, kita mengelompokan data tersebut menjadi 2 bagian atau 3 bagian dan seterusnya.
Contoh
Supervised Learning adalah ketika Anda memiliki sejumlah buku yang sudah dilabeli dengan kategori tertentu. Misalnya, kategori buku novel seperti Digital Fortress, Inferno, Deception Point.
Kategori buku akademik, seperti Pengantar Teknologi Informasi, R in Action, Rekayasa Perangkat Lunak. Kategori biografi antara lain Anne Frank, Abraham Lincoln dan Mandela. Selanjutnya, ketika Anda membeli sejumlah buku baru, maka Anda harus mengindentifikasi isi dari buku tersebut, dan memasukannya dalam kategori. Ketika Anda membeli buku Logika fuzzy, Anda pasti akan memasukan buku tersebut ke dalam buku akademik.
Algoritma Supervised Learning
Decision tree
Nearest — Neighbor Classifier
Naive Bayes Classifier
Artificial Neural Network
Support Vector Machine
Fuzzy K-Nearest Neighbor
Lain halnya dengan Unsupervised Learning. Anda tidak memiliki data yang dilatih sebelumnya.
Anggaplah Anda belum pernah membeli buku sama sekali, namun dalam satu hari, Anda membeli banyak tumpukan buku dan ingin membaginya kedalam beberapa kategori agar nantinya mudah dicari. Anda akan mengidentifikasi buku buku mana yang mirip. Dalam hal ini, kita memilih pendekatan buku berdasarkan isinya. Misalnya anda memiliki buku Digital Fortress, Inferno, Deception Point, Pengantar Teknologi Informasi, R in Action, Rekayasa Perangkat Lunak, Anne Frank, Abraham Lincoln dan Mandela. Anda akan mengklasifikasikan buku Pengantar Teknologi Informasi, R in Action, Rekayasa Perangkat Lunak Anda ke dalam buku akademik karena keperluannya untuk kuliah. Untuk melakukan hal itu Anda perlu algoritma yang mendukung untuk pengimplementasian dari metode tersebut.
Pendekatan unsupervised learning tidak menggunakan data latih atau data training untuk melakukan prediksi maupun klasifikasi. Berdasarkan model matematisnya, algoritma ini tidak memiliki target variabel. Salah satu tujuan dari algoritma ini adalah mengelompokkan objek yang hampir sama dalam suatu area tertentu.
Contoh
Dari penerapan metode ini adalah ketika seorang data analyst ingin mengelompokkan customer salah satu provider hosting Indonesia berdasarkan kemiripan sifat dalam hal pendapatan, umur, hobi, dan jenis pekerjaan.
Untuk mengelompokkan customer berdasarkan kemiripan sifat tersebut tidak diperlukan data training. Menggunakan data yang ada, kita bisa secara langsung mengelompokkan customer- customer tersebut. Beberapa algoritma yang dapat digunakan dalam unsupervised learning adalah
Algoritma Unsupervised Learning
K-Means
Hierarchical Clustering
DBSCAN
Fuzzy C-Means
Self-Organizing Map
*Kesimpulannya dari penjelasan di atas adalah jika anda memiliki data data sebelumnya dan memiliki variabel target yang akan diklasifikasikan, maka Anda dapat memakai metode supervised learning. Jika Anda ingin membagi data — data tersebut ke dalam beberapa kelompok maka Anda memakai metode unsupervised learning.
Mengolah Data Dengan WEKA
WEKA merupakan sebuah perangkat lunak yang menerapkan berbagai algoritma machine learning untuk melakukan beberapa proses yang berkaitan dengan sistem temu kembali informasi atau data mining.
Beberapa fitur unggulan yang dimiliki oleh WEKA yaitu:
Classification
Di dalam WEKA terdapat banyak algoritma yang mendukung untuk proses klasifikasi sebuah objek serta pengguna dimudahkan dalam melakukan implementasi secara langsung. User dapat melakukan load dataset, melakukan pemilihan algoritma untuk klasifikasi, kemudian diberikan beberapa representasi data yang mewakili hasil akurasi, tingkat kesalahan dari proses klasifikasi.
Regression
Regression merupakan sebuah proses yang dapat melakukan suatu prediksi terhadap berbagai pola yang sudah terbentuk sebelumnya yang dijadikan sebagai model data.
Tujuan dari regression adalah menciptakan suatu variabel baru yang mewakili suatu representasi perkembangan data pada masa yang akan datang. WEKA mendukung proses regression dan hal tersebut dipermudah dengan user interface/user experience yang sederhana.
Clustering
Clustering merupakan salah satu cabang konsep dari unsupervised method dari machine learning yang bertujuan untuk melakukan pengelompokan data dan juga menjelaskan hubungan/relasi yang ada di antara data tersebut dan memaksimalkan kesamaan antar satu kelas/cluster tetapi meminimumkan kesamaan antar kelas/cluster. Clustering digunakan untuk analisa suatu data dan diharapkan menghasilkan suatu representasi data yang mewakili suatu pola yang terbentuk akibat relasi yang ada antar data.
Di dalam WEKA tersedia beberapa pendekatan algoritma untuk menangani permasalahan clustering dan pada fitur ini juga terdapat bagian kesimpulan dari proses clustering data yang memberikan secara garis besar perhitungan dan hasil yang diberikan dalam implementasi algoritma clustering.
Association Rules
Association Rules merupakan metode yang digunakan untuk menemukan berbagai relasi antara banyaknya variabel yang terdapat di dalam sebuah basis data dengan jumlah yang besar.
Visualization
WEKA memiliki fitur untuk memberikan sebuah representasi data hasil sebuah proses data mining dalam bentuk gambar atau chart yang juga dapat dilakukan pemilihan berbagai parameter yang mendukung dalam membentuk representasi data yang ada dalam aplikasi WEKA.
Gambar 2. Fitur Visualisasi WEKA
Data Preprocessing
WEKA menyediakan fitur dalam hal data preprocessing yaitu stemming dan stopword removal. Proses stemming dan stopword removal yang ada di dalam perangkat
lunak WEKA berbasiskan Bahasa Inggris, sehingga untuk implementasi bahasa diluar bahasa Inggris diharuskan untuk melakukan proses preprocessing data di luar
aplikasi WEKA. Beberapa algoritma stemming yang telah disediakan
oleh WEKA adalah Iterated Lovins Stemmer, Lovins Stemmer dan Snowball Stemmer.
Gambar 3. WEKA: Algoritma Stemming
Data yang digunakan pada Weka adalah dengan format ekstensi .arff. Anda bisa membuka file dengan ekstensi ini dengan berbagai macam text editor, misalnya Notepad.