UJIAN TENGAH SEMESTER PRAKTIKUM DATA MINING DAN DATA WAREHOUSE

(1)

UJIAN TENGAH SEMESTER PRAKTIKUM DATA MINING DAN DATA WAREHOUSE

Naufal Rasyad Mohammad 2210511121

PROGRAM STUDI INFORMATIKA FAKULTAS ILMU KOMPUTER

UNIVERSITAS PEMBANGUNAN NASIONAL VETERAN JAKARTA

2023

(2)

1. Pada halaman kerja python anda buatlah dataset diatas dan simpan dengan nama PlayTennis.csv. Hitunglah jumlah record yg mengandung missing value dan isilah record kosong tersebut dengan Mean.

Berikut ini adalah kodenya:

Lalu Berikut ini adalah Outputnya:

Analisis:

Import Pustaka:

Kode dimulai dengan mengimpor dua pustaka utama, yaitu Pandas dan NumPy.

Membuat Dataset:

Data awal diinisialisasi dalam bentuk dictionary dengan beberapa kolom, termasuk 'outlook', 'temperature', 'humidity', 'windy', dan 'play'. Ini adalah data cuaca dan keputusan bermain tenis yang digunakan sebagai contoh.

(3)

Membuat DataFrame:

Dataset diubah menjadi DataFrame Pandas menggunakan pd.DataFrame(data).

Menghitung Jumlah Missing Value:

Menggunakan df.isnull().sum().sum(), kode ini menghitung total nilai-nilai yang hilang (NaN) dalam DataFrame. Hasilnya disimpan dalam missing_values_count.

Mengisi Missing Value:

Kode df['temperature'].fillna(df['temperature'].mean(), inplace=True)

df['humidity'].fillna(df['humidity'].mean(), inplace=True) berfungsi untuk mengisi missing value pada kolom 'temperature' dan 'humidity' dengan nilai rata-rata dari masing-masing kolom

Menyimpan Dataset dalam Format CSV:

Data yang telah diolah disimpan dalam format CSV dengan menggunakan

df.to_csv('PlayTennis.csv', index=False). Nama file CSV adalah 'PlayTennis.csv', dan parameter index=False menghilangkan indeks baris dari output CSV.

Menampilkan Dataset yang Telah Disimpan:

Akhirnya, kode ini mencetak dataset yang telah diolah ke konsol dengan menggunakan print(df)

2. Buatlah dataset berikut ini dan simpan dengan nama Belanja.csv

(4)

Berikut ini adalah Outputnya:

Analisis:

Import Pandas: Pada baris pertama, library Pandas diimpor dengan alias 'pd'. Ini memungkinkan kita untuk menggunakan fungsi dan objek Pandas dengan menyebut 'pd'.

Membuat Dictionary untuk Dataset: sebuah dictionary dengan dua kunci ('id transaksi' dan 'barang yang dibeli') dibuat. Data ini akan digunakan untuk membuat DataFrame.

Membuat DataFrame: DataFrame dibuat menggunakan fungsi pd.DataFrame(data).

Dictionary 'data' yang telah dibuat sebelumnya digunakan sebagai argumen untuk membuat DataFrame.

Menyimpan DataFrame ke dalam File CSV: DataFrame yang telah dibuat disimpan ke dalam file CSV dengan nama 'Belanja.csv' menggunakan fungsi to_csv(). Parameter index=False digunakan untuk menghindari menyertakan indeks baris dalam file CSV yang disimpan.

Mencetak Pesan: pesan "Dataset telah disimpan dalam file 'Belanja.csv'" dicetak ke layar untuk memberi tahu pengguna bahwa operasi penyimpanan telah berhasil.

No 3 dan 4

Lakukan proses mining dengan menerapkan algoritma Apriori dengan ketentuan minimum support = 0.2 dan minimum confidence = 0.8. Tampilkan itemset yang dihasilkan dari setiap kombinasi item yang terbentuk (L1/C1, L2/C2 ….dst) lalu Tampilkan Association rule yang terbentuk dari kegiatan no.3 diatas.

(5)

Lalu berikut ini adalah outputnya:

Analisis:

Import Library:

Kode pertama mengimpor beberapa modul yang diperlukan:

mlxtend.frequent_patterns import apriori dan association_rules: Modul ini digunakan untuk menerapkan algoritma Apriori dan menghasilkan aturan asosiasi.

pandas as pd: Pandas digunakan untuk manipulasi dan analisis data tabular.

Data Transaksi:

Sebuah DataFrame data dibuat untuk menyimpan data transaksi. Data ini mencakup dua kolom: TransactionID (ID transaksi) dan Items (item-item yang dibeli dalam setiap transaksi).

Data transaksi tersebut adalah contoh data dan dapat disesuaikan dengan data yang sesungguhnya.

One-Hot Encoding:

Untuk menerapkan algoritma Apriori, data transaksi perlu diubah menjadi bentuk yang sesuai. Dalam kasus ini, one-hot encoding digunakan untuk mengkonversi data transaksi menjadi representasi biner.

data_encoded adalah hasil dari one-hot encoding yang diterapkan pada kolom Items.

(6)

Algoritma Apriori:

Algoritma Apriori diterapkan pada data_encoded dengan menggunakan apriori.

Dalam contoh ini, parameter min_support ditetapkan sebagai 0.2, yang berarti hanya itemset yang memiliki dukungan (support) lebih dari 20% dari total transaksi yang akan dipertimbangkan.

Hasil dari algoritma Apriori disimpan dalam variabel frequent_itemsets.

Menampilkan Itemset yang Dihasilkan:

Itemset yang dihasilkan oleh algoritma Apriori ditampilkan menggunakan perintah print.

Aturan Asosiasi:

Dengan itemset yang dihasilkan, perintah association_rules digunakan untuk menemukan aturan asosiasi.

Aturan asosiasi dihasilkan dengan parameter min_threshold yang ditetapkan sebagai 0.8 untuk tingkat kepercayaan (confidence) minimal yang harus dipenuhi oleh aturan tersebut.

Hasil aturan asosiasi disimpan dalam variabel association_rules_result.

Menampilkan Aturan Asosiasi yang Dihasilkan:

Aturan asosiasi yang dihasilkan ditampilkan menggunakan perintah print.