For the Glory of the Nation
Data Mining
Concepts & Techniques
Mengenal Data dan Data Pre-Processing
DOSEN PENGAMPU:
Dwi Welly Sukma Nirad, M.T.
Aina Hubby Aziira, M.Eng.
MENGENAL DATA
For the Glory of the Nation
• Record
• Relational records
• Data matrix, e.g., numerical matrix, crosstabs
• Document data: text documents: term-frequency vector
• Transaction data
• Graph and network
• Social or information networks
• Molecular Structures
• Transportations network
• Ordered
• Video data: sequence of images
• Temporal data: time-series
• Sequential Data: transaction sequences
• Spatial, image and multimedia:
• Spatial data: maps
• Image data
• Video data
Jenis-Jenis Dataset
Document 1
season
timeout
lost
wingame
score
ballplaycoach
team
Document 2 Document 3
3 0 5 0 2 6 0 2 0 2
0 0
7 0 2 1 0 0 3 0 0
1 0 0 1 2 2 0 3 0
TID Items
1 Bread, Coke, Milk 2 Beer, Bread
3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke, Diaper, Milk
• Data terstruktur
• Merupakan data yang sudah siap untuk diproses karena memiliki format yang tetap.
• Data tidak terstruktur
• Merupakan data yang belum memiliki atau bentuk secara khusus dan formatnya juga beragam, hanya memiliki nilai setelah diproses.
• Data semi terstruktur
• Data yang mengandung data terstruktur dan tidak terstruktur. Walaupun belum diklasifikasi oleh repository tertentu (database), namun
mengandung informasi yang penting.
Jenis-Jenis Dataset
For the Glory of the Nation
Jenis-Jenis Dataset
For the Glory of the Nation
• Dimensionality (dimensionalitas)
• Fenomena dimana semakin banyak dimensi dalam data, semakin sulit dan rumit untuk menganalisis, memahami, dan memproses data tersebut Curse of dimensionality.
• Contohnya, ketika jumlah variabel sangat besar dalam sebuah dataset, maka setiap pengamatan dalam dataset dapat dikatakan sebagai titik dalam ruang yang sangat berdimensi tinggi. Hal ini bisa mengakibatkan ketidakefektifan penggunaan teknik analisis data.
• Oleh karena itu, dalam analisis data, penting untuk mempertimbangkan jumlah dimensi dalam data dan memilih variabel yang paling relevan dan signifikan untuk analisis. Pemilihan variabel yang relevan dan signifikan dapat membantu menghindari curse of dimensionality dan meningkatkan efektivitas analisis.
Sorotan dalam Data Terstruktur
(1)
For the Glory of the Nation
• Sparsity (keterbatasan/jarang)
• Istilah yang digunakan untuk menggambarkan persentase sel dalam tabel database yang tidak diisi atau bernilai NULL atau EMPTY. Sedangkan dalam analisis data, hanya yang berisi yang diperhitungkan.
• Contohnya, jika sebuah dataset terstruktur menyimpan informasi tentang transaksi belanja di sebuah toko online, matriks pembelian pelanggan dapat dihasilkan
dengan produk sebagai kolom dan pelanggan sebagai baris. Namun, karena
sebagian besar pelanggan hanya membeli beberapa produk saja, maka sebagian besar sel dalam matriks pembelian pelanggan akan kosong atau bernilai nol.
• Sparsity akan mempengaruhi keakuratan dan efektivitas teknik analisis data.
Sorotan dalam Data Terstruktur
(2)
For the Glory of the Nation
• Resolution (resolusi)
• Ini berkaitan dengan jumlah informasi yang disimpan dalam setiap record atau baris dalam data.
Semakin tinggi resolusi data, semakin banyak detail yang disimpan dalam setiap record.
• Contohnya, dalam sebuah database pelanggan yang berisi informasi tentang nama, alamat, nomor telepon, dan email pelanggan, jika informasi lebih detail tentang jenis produk atau layanan yang dibeli oleh pelanggan juga disimpan dalam database, maka resolusi data akan lebih tinggi. Namun, jika hanya informasi umum tentang pembelian pelanggan yang disimpan, maka resolusi data akan lebih rendah.
• Namun, semakin rendah resolusi data, semakin mudah untuk menganalisis dan memproses data.
Oleh karena itu, dalam analisis data, penting untuk memilih resolusi data yang sesuai dengan tujuan analisis dan ketersediaan data.
Sorotan dalam Data Terstruktur
(3)
For the Glory of the Nation
• Distribution (distribusi)
• Distribusi data terstruktur merujuk pada pola bagaimana nilai-nilai data tersebar atau terdistribusi dalam sebuah dataset terstruktur. Distribusi ini dapat memberikan informasi tentang karakteristik dan sifat data, seperti rentang nilai, kecenderungan sentral, variabilitas, dan asimetri dalam distribusi nilai.
• Contohnya, jika sebuah dataset terstruktur mengandung informasi tentang gaji karyawan dalam sebuah perusahaan, distribusi data dapat memberikan informasi tentang rentang gaji, gaji rata-rata atau median, serta bagaimana nilai-nilai gaji tersebut terdistribusi di antara karyawan.
• Dalam analisis data, pemahaman tentang distribusi data terstruktur sangat penting karena dapat mempengaruhi hasil analisis dan interpretasi data.
Sorotan dalam Data Terstruktur
(4)
For the Glory of the Nation
• Dataset terdiri dari data object.
• Sebuah data object mewakili sebuah entitas.
• Contoh:
• Database penjualan: pelanggan, produk, penjual
• Database universitas: mahasiswa, dosen, mata kuliah
• Nama lain: samples, examples, instances, data points, objects, tuples.
• Data object dideskripsikan oleh atribut.
• Baris -> data object; kolom ->atribut.
Data Objects
For the Glory of the Nation
• Atribut (dimensi, fitur, variabel): karakteristik atau sifat yang dimiliki oleh suatu data object atau entitas dalam sebuah sistem. Atribut data
digunakan untuk menjelaskan dan membedakan satu data object atau entitas dari data object atau entitas lainnya dalam sebuah koleksi data.
• Contoh: customer_ID, name, address
• Pemilihan dan pengaturan atribut data yang tepat sangat penting dalam pengelolaan data dan analisis data, karena atribut yang tepat dapat
membantu mengidentifikasi dan membedakan data object atau entitas dengan lebih efektif dan akurat.
Atribut Data
Tipe-Tipe Atribut
Kualitatif Kuantitatif
Nominal Ordinal Biner
Simetris Asimetris
Numerik Diskrit Kontinu
For the Glory of the Nation
• Nominal: kategori, pernyataan, atau “nama sesuatu”
• Warna rambut = {hitam, coklat, merah, abu-abu, putih}
• Status perkawinan, pekerjaan, kode pos, nomor identitas
• Ordinal
• Nilai memiliki urutan yang bermakna (peringkat) tetapi besarnya antara nilai yang berurutan tidak diketahui
• Size = {small, medium, large}, grades, army rankings
• Binary
• Hanya bernilai 0 dan 1
• Symmetric binary: kedua nilai sama pentingnya
• Contoh: jenis kelamin
• Asymmetric binary: nilai keduanya tidak sama.
• Contoh: hasil tes medis (positif vs. negatif)
• Yang paling langka biasanya ditulis 1 (misal: positif covid)
Tipe-Tipe Atribut
• Numerik
• Integer, real
• Contoh: angka (56, 990, 65.54)
• Interval
• Perbedaan antar nilai merupakan sesuatu yang berarti, bahkan tidak ada 0 yang benar-benar 0 (tiada)
• Contoh: temperature
• Rasio
• Perbedaan rasio merupakan sesuatu yang berarti, 0 berarti 0/tiada
• Contoh: panjang
Tipe-Tipe Atribut
For the Glory of the Nation
• Diskrit
• Hanya memiliki kumpulan nilai yang terbatas (berhingga) atau tak berhingga tapi dapat dihitung. Atribut diskrit dapat dinyatakan dalam bentuk numerik, namun nilai-nilainya tidak memiliki interpretasi
aritmatik.
• Contoh: usia, nomor KTP, jumlah siswa
• Kontinu
• Memiliki bilangan real sebagai nilai atribut, biasanya direpresentasikan sebagai variabel floating-point (desimal). Nilai-nilai atribut kontinu terdiri dari himpunan bilangan real, dan nilai-nilainya dapat memiliki interpretasi aritmatik.
• Contoh: temperatur, panjang, tinggi, pendapatan
Atribut Diskrit & Kontinu
(Pengelompokan Tipe Data Berdasarkan Jumlah Nilai)
Setelah mengetahui topik-topik tadi, apa yang bisa disimpulkan
atau diterapkan pada aktivitas
data mining?
For the Glory of the Nation
• Pengetahuan tentang tipe-tipe data memainkan peran penting dalam aktivitas data mining, seperti:
• Pemilihan algoritma
• Pemilihan metode preprocessing
• Interpretasi hasil
• Pengembangan model
• Pengambilan keputusan
• Dll.
Refleksi
DATA PREPROCESSING
For the Glory of the Nation
• Data preprocessing atau pra-pemrosesan data adalah suatu tahap awal dalam proses data mining yang bertujuan untuk membersihkan,
mengubah, dan mempersiapkan data mentah (raw data) sebelum dilakukan analisis data.
• Dalam tahap preprocessing ini, data mentah diproses dan dibentuk
sedemikian rupa sehingga siap untuk diolah oleh algoritma data mining.
Data Preprocessing
For the Glory of the Nation
For the Glory of the Nation
21
Kenapa Melakukan Data Preprocessing?
• Data dalam dunia nyata itu kotor
• Tak-lengkap: nilai-nilai atribut kurang, atribut tertentu yang dipentingkan tidak disertakan, atau hanya memuat data agregasi
• Misal, pekerjaan = “”
• Noisy: memuat error atau memuat outliers (data yang secara nyata berbeda dengan data-data yang lain)
• Misal, Salary=“-10”
• Tak-konsisten: memuat perbedaan dalam kode atau nama
• Misal, Age=“42” Birthday=“03/07/1997”
• Misal, rating sebelumnya “1,2,3”, sekarang rating “A, B, C”
• Misal, perbedaan antara duplikasi record
For the Glory of the Nation
Data Kotor?
For the Glory of the Nation
Apa penyebab data kotor?
For the Glory of the Nation
Penyebab Data Kotor
• Ketidaklengkapan data datang dari…
• Nilai data tidak tersedia saat dikumpulkan
• Perbedaan pertimbangan waktu antara saat data dikumpulkan dan saat data dianalisa.
• Masalah manusia, hardware, dan software
• Noisy data datang dari proses data:
• Pengumpulan
• Pemasukan (entry)
• Transmisi
• Ketidakkonsistenan data datang dari …
• Sumber data yang berbeda
• Pelanggaran kebergantungan fungsional
For the Glory of the Nation
25
Data Quality
• Memastikan kualitas data, melalui:
• Accuracy: benar/salah, akurat/tidak, …
• Completeness: data tidak terekam, tidak tersedia, …
• Consistency: pembaruan menyeluruh atau tidak, …
• Timeliness: apakah pembaruannya tepat waktu?
• Believability: seberapa tepercaya kebenaran datanya?
• Interpretability: seberapa mudah data dapat dipahami?
For the Glory of the Nation
Tahapan dalam Data Preprocessing
• Data cleaning
• Mengisi nilai-nilai yang hilang, menghaluskan noisy data, mengenali atau menghilangkan outlier
• Data integration
• Mengintegrasikan banyak database atau banyak file
• Data transformation
• Mengubah format data, struktur, atau nilai data; Normalisasi
• Data reduction
• Mengurangi data dengan merangkum atau memilih representasi data yang sesuai
• Data discretization
• Bagian dari data reduction namun dengan kepentingan khusus, terutama data numerik
For the Glory of the Nation
Tahapan dalam Data Preprocessing
27
For the Glory of the Nation
Contoh Data Kotor
• Data karyawan
Asal Gender Salary Status
Padang P 200 Cuti
Jakarta Laki Izin
Jakarta 300 Izin
Medan P 100 Cuti
Bandung P 100 0
Jakarta L 10000000 Izin
Medan L 100 Izin
For the Glory of the Nation
• Data karyawan
Asal Gender Salary Status
Padang P 200 Cuti
Jakarta Laki Izin
Jakarta 300 Izin
Medan P 100 Cuti
Bandung P 100 0
Jakarta L 10000000 Izin
Medan L 100 Izin
29
Incomplete Noisy
Inconsistent
For the Glory of the Nation
Menangani Missing Data
• Mengabaikan tuple: biasanya dilakukan ketika label kelas tidak ada (saat melakukan klasifikasi)
• Isi nilai yang hilang secara manual
• Isi secara otomatis dengan:
• Konstanta global: e.g., “unknown”
• Menggunakan nilai rata-rata atribut
• Rata-rata atribut untuk seluruh sampel yang masuk ke dalam kelas yang sama
• Nilai yang paling mungkin (berbasis inferensi seperti regresi, rumus Bayesian, atau decision tree)
For the Glory of the Nation
31
Cara 1: Menghapus Record
Asal Gender Salary Status
Padang P 200 Cuti
Jakarta Laki Izin
Jakarta 300 Izin
Medan P 100 Cuti
Bandung P 100 0
Jakarta L 10000000 Izin
Medan L 300 Izin
Asal Gender Salary Status
Padang P 200 Cuti
Medan P 100 Cuti
Jakarta L 10000000 Izin
Medan L 300 Izin
For the Glory of the Nation
Cara 2: Menggunakan Nilai Dominan
Asal Gender Salary Status
Padang P 200 Cuti
Jakarta Laki Izin
Jakarta 300 Izin
Medan P 100 Cuti
Bandung P 100 0
Jakarta L 10000000 Izin
Medan L 300 Izin
Asal Gender Salary Status
Padang P 200 Cuti
Jakarta L 100 Izin
Jakarta L 300 Izin
Medan P 100 Cuti
Bandung P 100 Izin
Jakarta L 100 Izin
Medan L 300 Izin
For the Glory of the Nation
33
Cara 3: Menggunakan Pola
Asal Gender Salary Status
Padang P 200 Cuti
Jakarta Laki Izin
Jakarta 300 Izin
Medan P 100 Cuti
Bandung P 100 0
Jakarta L 10000000 Izin
Medan L 300 Izin
Asal Gender Salary Status
Padang P 200 Cuti
Jakarta L 300 Izin
Jakarta L 300 Izin
Medan P 100 Cuti
Bandung P 100 Cuti
Jakarta L 300 Izin
Medan L 300 Izin
For the Glory of the Nation
Cara 4: Memberikan Semua Variasi Nilai
Asal Gender Salary Status
Padang P 200 Cuti
Jakarta Laki Izin
Jakarta 300 Izin
Medan P 100 Cuti
Bandung P 100 0
Jakarta L 10000000 Izin
Medan L 300 Izin
Asal Gender Salary Status
Padang P 200 Cuti
Jakarta L 100 Izin
Jakarta L 100 Cuti
Jakarta L 200 Izin
Jakarta L 200 Cuti
Jakarta L 300 Izin
Jakarta L 300 Cuti
Jakarta L 300 Izin
Medan P 100 Cuti
Bandung P 100 0
Jakarta L 10000000 Izin
Medan L 300 Izin
For the Glory of the Nation
35
Cara 5: Memberi Nilai Rata-Rata
Asal Gender Salary Status
Padang P 200 Cuti
Jakarta Laki Izin
Jakarta 300 Izin
Medan P 100 Cuti
Bandung P 100 0
Jakarta L 10000000 Izin
Medan L 300 Izin
Asal Gender Salary Status
Padang P 200 Cuti
Jakarta L 143 Izin
Jakarta L 300 Izin
Medan P 100 Cuti
Bandung P 100 Izin
Jakarta L 143 Izin
Medan L 300 Izin
For the Glory of the Nation
36
Data Integration
• Data integration:
• Menggabungkan data dari berbagai sumber ke dalam penyimpanan yang koheren
• Melakukan integrasi data dapat meningkat keuntungan perusahaan karena dapat meminimalisir kesalahan yang disebabkan manusia
• Tantangan data integration
• Identifikasi entitas
• Identifikasi atribut yang berkorelasi
• Duplikasi tupel/redundan
• Konflik data
For the Glory of the Nation
37
Data Integration
Asal Gender Salary Status
Padang P 200 Cuti
Jakarta Laki Izin
Jakarta 300 Izin
Medan P 100 Cuti
Bandung P 100 0
Jakarta L 10000000 Izin
Medan L 300 Izin
IDKota Asal Gender Penempatan
ID0012 Padang P Gedung B
ID0022 Jakarta L Gedung A
ID0022 Jakarta L Gedung A
ID0013 Medan P Gedung B
ID0023 Bandung P Gedung B
ID0022 Jakarta L Gedung A
ID0013 Medan L Gedung A
IDKota Kota ID0012 Padang ID0022 Jakarta ID0013 Medan ID0023 Bandung
Gender Penempatan L Gedung A P Gedung B
Salary Status
200 Cuti
143 Izin
300 Izin
100 Cuti
100 Izin
143 Izin
300 Izin
For the Glory of the Nation
38
Masalah Data Integration
• Problem: integrasi skema heterogen
• Nama-nama atribut berbeda
• Unit berbeda: Sales dalam $, sales dalam Yen, sales dalam Rp
• Atribut turunan: Annual salary versus monthly salary
cid name byear 1 Jones 1960 2 Smith 1974 3 Smith 1950
Customer-ID state
1 NY
2 CA
3 NY
cid monthlySalary
1 5000
2 2400
3 3000
cid Salary 6 50,000 7 100,000 8 40,000
For the Glory of the Nation
39 39
Masalah Data Integration
• Problem: ketidak-konsistenan karena redundansi
• Customer dengan customer-id 150 punya 3 anak dalam relation1 dan 4 anak dalam relation2
• Komputasi annual salary dari monthly salary dalam relation1 tak cocok dengan atribut “annual-salary” dalam relation2
cid numChildren
1 3
cid numChildren
1 4
For the Glory of the Nation
Data Reduction
• Data reduction: mengurangi volume data, namun tetap menghasilkan hasl analilsis yang sama (atau hampir sama).
• Why data reduction? — analisis data yang kompleks
mungkin membutuhkan waktu yang sangat lama untuk
dijalankan pada kumpulan data yang lengkap.
For the Glory of the Nation
41 41
Data Transformation
• Penghalusan: menghilangkan noise dari data
• Agregasi: ringkasan, konstruksi kubus data
• Generalisasi: konsep hierarchy climbing
• Normalisasi: diskalakan agar jatuh didalam suatu range kecil yang tertentu
• Normalisasi min-max
• Normalisasi z-score
• Normalisasi dengan penskalaan desimal
• Konstruksi atribut/fitur
• Atribut-atribut baru dibangun dari atribut-atribut yang ada
Ada Pertanyaan?
For the Glory of the Nation
43 43
Tugas
1. Buatlah ringkasan materi pertemuan hari ini.
2. Diketahui data atribut umur sebagai berikut: 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70. Tentukanlah mean, median, mode, dan midrange dari data
tersebut.
3. Diberikan dua objek yang diwakili oleh tupel (22, 1, 42, 10) dan (20, 0, 36, 8). Hitunglah jarak Euclidean dan jarak Manhattan antara dua
benda tersebut.
4. Jelaskanlah secara detail mengenai data cleaning, data integration,
dan data reduction dalam data mining.
Terima Kasih!
Dwi Welly Sukma Nirad, M.T.
Referensi:
Data Mining Concepts and Techniques 3rd edition, Han, Jiawei; Kamber, Micheline, and Jian Pei, Morgan Kaufmann, 2011