Big Data and Clustering Analysis
Analisis Cluster Pola Kebiasaan Penghuni Rumah
Tangga dalam Pengonsumsian Energi Listrik
Dosen Pembimbing : Muhammad Ihsan Zul, S.Pd., M.Eng [[email protected]] Ketua Tim : Okta Riveranda [[email protected]]
Anggota Tim 1 : Muhammad Mahrus Zain [[email protected]] Anggota Tim 2 : Syahmia Gusriani [[email protected]]
1. Latar Belakang
Manusia hidup di dunia dimana jumlah data meningkat setiap hari sebagai akibat dari komputerisasi. Sejumlah besar data disimpan berdasarkan rangkaian waktu (timeseries) dan terus terkumpul selama transaksi berlangsung. Dengan munculnya teknologi penyimpanan data yang murah, memungkinkan untuk menyimpan data secara rinci untuk dilakukan tindakan lebih lanjut. Datadata rinci yang terus bertambah inilah yang melatarbelakangi penelitian Data Mining.
Data Mining digunakan untuk mencari pengetahuan dari basis data yang besar besar sehingga sering disebut Knowledge Discovery in Databases (KDD). Data Mining merupakan salah satu disiplin ilmu dalam Ilmu Komputer yang memadukan antara disiplin ilmu statistika dengan Artificial Intelligence (AI). Konsep statistika diterapkan dengan adanya pengambilan sampel dalam suatu data, yang dikenal dengan istilah sampling. Sementara untuk AI, Data Mining menerapkan beberapa algoritma machine learning, baik dalam analisis suatu data mentah yang ada maupun dalam proses pembentukan model dalam proses klasifikasi data (Han, 2005).
Dalam Data Mining juga dikenal suatu istilah yang disebut dengan big data. Big data merupakan sekumpulan data mentah yang telah disimpan dalam selang waktu tertentu dan belum memiliki arti maupun informasi (Han, 2005). Big data telah menjadi salah satu topik hangat yang sedang menjadi bahan perbincangan para profesional IT di dunia. Salah satu topik utama seputar big data adalah ketersediaan data berbasis waktu ( real time) atau
telemetry data (Rosario & Phil, 2013). Telemetry data dapat diartikan pengukuran jarak jauh terhadap data untuk perekaman dan analisis data di masa yang akan datang. Data telemetri tersebut merupakan kumpulan nilai yang diperoleh dari pengukuran berurutan dari waktu ke waktu (timeseries).
Jenis alat listrik pada data rumah tangga ini dikelompokkan menjadi 3 yakni; peralatan dapur, mesin laundry , serta alat pemanas air dan airconditioner. Meteran (pengukur) untuk tiap jenis alat listrik pada rumah tangga tidak digabung menjadi satu (paralel). Hal itu memberikan keuntungan dalam pengukuran pemakaian alat listrik, dimana, jika salah satu meteran alat listrik terputus, maka hal itu tidak akan mempengaruhi meteran jenis alat listrik lainnya.
Analisis terhadap big data merupakan hal yang perlu dilakukan untuk mendapatkan suatu pola tertentu dari data set rumah tangga itu. Proses analisis yang melibatkan jenis alat listrik menghasilkan 3 cluster sesuai dengan karakteristik atau pola yang akan dihasilkan. Data Mining dapat diterapkan dalam pengolahan big data timeseries. Hasil dari pemrosesan Data Mining dapat menggambarkan visualisasi bentuk pola data. Dengan adanya visualisasi pola data, sangat mungkin untuk memperoleh suatu informasi berharga.
Ketepatan dalam memilih tools untuk data mining adalah hal yang tidak kalah penting. Besarnya jumlah data harus dipertimbangkan sebelum memulai proses mining. Jumlah data pada Data Set yang akan diproses mencapai 2.075.259 baris data. Kecepatan pemrosesan data juga menjadi pertimbangan dalam memilih tools. Semakin banyak jumlah data, maka lamanya waktu pemrosesan juga semakin besar. Mempertimbangkan jumlah data yang ada, KNIME menjadi aplikasi yang tepat untuk pemrosesan big data.
KNIME adalah sebuah aplikasi multiplatform yang open source untuk analisis data, menyediakan grafis area kerja yang userfriendly untuk seluruh proses analisis: data access, data transformation, initial investigation, powerful predictive analytics , visualisasi, dan laporan. Tersedia lebih dari 1000 modul (nodes) di dalamnya. (Rosario & Phil, 2013)
Berdasarkan uraian di atas, melalui makalah ini, dilakukan penelitian terhadap “Individual Household Electric Power Consumption Data Set ” dengan menerapkan konsep Data Mining menggunakan software KNIME, serta visualisasi informasi yang dihasilkan dari data dengan Microsoft Excel 2013. Sehingga, diperoleh informasi berupa pola kebiasaan pemakaian alat listrik pada sebuah rumah tangga.
2. Tujuan dan Manfaat
Tujuan dari penelitian yang dilakukan adalah sebagai berikut:
1. Mendapatkan pola pemakaian alat listrik pada suatu rumah tangga berdasarkan periode musim, bulan, hari dan range waktu tertentu.
2. Dapat mengetahui jenis alat apa saja yang paling sering digunakan dalam periode waktu tertentu.
3. Mengelompokkan pola penggunaan alat listrik menjadi beberapa kategori berdasarkan lama pemakaiannya.
4. Memberikan label tingkat keborosan penggunaan alat listrik berdasarkan total daya listrik yang dihasilkan dengan biaya yang dikeluarkan.
5. Visualisasi informasi dalam bentuk grafik (infographic) sehingga mudah dipahami. Sementara itu, manfaat yang dihasilkan dari tujuan di atas ialah sebagai berikut:
1. Mengetahui kebiasaan anggota rumah tangga dalam menggunakan alat listrik seharihari.
2. Dapat menghasilkan informasi yang akurat dari hasil analisis yang dilakukan. 3. Mengetahui pola penggunaan alat listrik untuk kemudian bisa dijadikan bahan
pertimbangan apabila suatu saat dilakukan analisis untuk data yang lain.
3. Menggunakan algoritma kmeans untuk cluster analysis dan beberapa algoritma klasifikasi sebagai perbandingan akurasi tiap algoritma.
4. Metode
4.1. Software
4.1.1.
KNIME
KNIME atau Konstanz Information Miner merupakan
software analisis data yang bersifat open source. Beberapa tahun terakhir, KNIME semakin banyak di gunakan untuk proses data mining. KNIME memberi kemudahan dalam pengolahan data skala besar. Bahkan untuk mengolah big data, KNIME mampu memroses dengan cepat. Sehingga, sangat menghemat waktu pengerjaan jika dibandingkan dengan software lain.
Pada pemrosesan data digunakan aplikasi KNIME sebagai software pendukung utama. Prosesproses yang dilakukan diantaranya transformasi data, filtering, fungsi operasi matematika, pengondisian, cluster analysis hingga klasifikasi.
Gambar di bawah ini menjelaskan perbandingan antara kecepatan analisis data dengan KNIME versi komunitas dengan KNIME yang ditambah dengan ekstensi komersil berdasarkan ukuran data yang diolah.
Pada gambar di atas, ada tiga bagian pemrosesan kecepatan dengan software KNIME. Bagian berwarna coklat merupakan KNIME standar yang digunakan untuk skala komunitas (community edition ). RushAccelerator menempati urutan kedua lebih cepat 210 kali dibanding versi standar. RushAnalytics menjadi yang tercepat yakni, 10100 kali lipat dibanding versi komunitas. RuschAccelerator dan RushAnalytics merupakan ekstensi KNIME yang bersifat komersil.
4.1.2. Microsoft Excel 2013
Bagian dari Microsoft Office ini memiliki berbagai fiturfitur
spreadsheet. Microsoft Excel 2013 merupakan applikasi dengan kemudahan mengolah data berstruktur tabel. Mendukung operasi perhitungan, pembuatan grafik, tabel pivot dan beberapa fungsi kondisi.
Microsoft Excel digunakan sebagai apikasi pendukung setelah KNIME. Hal ini disebabkan oleh hasil data olahan KNIME yang terdiri dari kolom dan baris data yang sangat banyak. Data hasil tersebut dipindahkan dan divisualisasi dengan menggunakan Microsoft Excel. Lalu, fitur pivot digunakan untuk membantu menampilkan data yang ada dalam suatu tabel dengan cara yang berbeda tanpa merubah data asli. Data yang diolah dapat ditampilkan dalam tampilan grafik ataupun chart. Tampilan ini mempermudah dalam analisis data dalam jumlah banyak yang biasanya sulit dianalisis jika hanya tampil dalam bentuk tabel.
4.2. Data Set
Data set yang digunakan adalah data yang diambil dari sebuah rumah tangga dalam menggunakan alat listrik seharihari setiap menitnya selama 47 bulan (dari Desember 2006 sampai November 2010).
Berikut informasi detil mengenai data set yang digunakan:
1) Data set ini mengandung 2.075.259 baris data dengan 6 atribut/kolom.
Berikut adalah informasi detil mengenai atributatribut yang ada pada data set yang akan dianalisis:
1) date: Tanggal pencatatan data (dd/mm/yyyy). 2) time: Waktu pencatatan data (hh:mm:ss).
3) global_active_power: Merupakan ratarata penggunaan daya aktif untuk tiap alat listrik dalam satuan kilowatt (kw).
4) sub_metering_1: Meteran yang mengukur alatalat listrik dapur seperti; kompor listrik, pencuci tangan, oven dan microwave. 5) sub_metering_2: Meteran yang mengukur alatalat listrik untuk
ruang cuci berupa; mesin cuci, pengering pakaian, kulkas, dan lampu.
6) sub_metering_3: Meteran yang mengukur alatalat listrik yang memakan daya besar berupa; penghangat air elektrik dan Air Conditioner.
4.3. Algoritma
4.3.1.
kMeans
KMeans adalah suatu algoritma unsupervised learning untuk analisis cluster dengan tujuan mengelompokkan data berdasarkan karakteristik tiap data dengan data yang lain tanpa mengetahui target kelas/labelnya. Berbeda halnya dengan
supervised learning yang mengelompokkan data berdasarkan model klasifikasi yang telah dibuat dari pengolahan data sebelumnya, sehingga dapat diketahui kelas dari data yang baru.
Berikut ini adalah algoritma/langkahlangkah yang harus ditempuh untuk melaksanakan clustering dengan kMeans:
1) Tentukan jumlah cluster (berapa buah k yang diinginkan). 2) Kelompokkan data sehingga terbentuk k buah cluster
Dalam menentukan titik centroid menggunakan algoritma
Kelebihan yang dimiliki oleh kMeans diantaranya ialah sebagai berikut:
1) Mudah untuk diimplementasikan.
2) Waktu yang dibutuhkan untuk proses pembelajarannya relatif lebih cepat.
3) Mudah untuk diadaptasi pada data yang dinamis. 4) Umum digunakan.
Sementara itu, kekurangan dari penggunaan kMeans adalah sebagai berikut:
1) Inisialisasi k dilakukan secara random, sehingga pengelompokkan data yang dihasilkan dapat berbedabeda. Jika nilai random yang dilakukan kurang baik, maka hasil yang didapatkan tidak maksimal.
4.3.2.
Naive Bayes
Naive Bayes merupakan algoritma klasifikasi yang menerapkan Bayesion Theorem. Bayesion Theorem adalah suatu rumusan matematika yang sederhana yang digunakan untuk mencari peluang bersyarat. Dalam data mining, Bayesion Theorem
dipakai sebagai salah satu metode kalsifikasi yang dapat menghitung probabilitas keanggotaan dari sekumpulan data terhadap label yang ada tanpa memandang ketergantungan antara satu atribut dengan atribut yang lain (independen).
Pada teorema Bayes, berlaku hukum probabilitas total dengan rumus sebagai berikut:
Neural Network merupakan algoritma klasifikasi dengan meniru cara kerja sistem saraf pada neuron otak manusia. Cara kerjanya ialah dengan mengubah struktur dalam memecahkan masalah berdasarkan informasi yang diperoleh. Teknik jaringan syaraf ini dapat digunakan untuk menentukan klasifikasi clustering,
prediksi dan pola pengenalan terhadap data. Neural Network memodelkan hubungan yang kompleks antar datadata untuk menemukan polapola pada data.
(
x
)
K
(Σ ω
g
(
x
))
Keterangan:
4.3.5.
Decision Tree
5. Desain dan Implementasi
Work Flow di bawah ini menggambarkan nodenode yang digunakan dalam pengimplementasian Knowledge Discovery in Database (KDD). Rincian mengenai tahaptahap KDD akan dijelaskan pada Work Flow dan gambargambar berikutnya.
5.1. Data Set
Berikut ini adalah gambar mengenai proses pembacaan file .txt yang berisi data set:
1) Pilih File .txt yang akan diimpor.
2) Pilih ‘;’ (semicolon) sebagai column delimiternya.
Gambar 5.1.1 Read Data
Di bawah ini adalah hasil dari pembacaan data yang telah diimpor sebelumnya.
Berikut ini adalah gambar mengenai penambahan atribut/kolom ID sebagai pembeda antara satu row data dengan data yang lain. Itu dikarenakan, data set yang ada hanya diambil dari 1 rumah tangga (household) saja.
5.2. Data Selection
Sebelum melakukan preprocessing, dilakukan seleksi data terlebih dahulu. Penyeleksian dilakukan dengan menyeleksi atribut apa saja yang diperlukan. Dalam data set terdapat tiga atribut yang tidak diperlukan yaitu, Global_reactive_power, Voltage, dan Global_intensity. Ketiga atribut ini memiliki nilai yang hampir sama dan tidak mempengaruhi proses selanjutnya. Sementara, untuk atribut yang lain, dijadikan sebagai variabel penentu proses data mining atau dikenal sebagai predictor variable.
Gambar di bawah ini menjelaskan mengenai penyeleksian data, dimana, kolom sebelah kiri adalah atributatribut yang tidak digunakan, dan di sebelah kanan adalah predictor variable.
5.3. Preprocessing
Tahap awal yang dilakukan sebelum proses data mining ialah tahap preprocessing. Tujuannya adalah mentransformasi data ke suatu format tertentu yang prosesnya lebih mudah dan efektif untuk kebutuhan pemakai, dengan indikator sebagai berikut:
1) Sampling, menyeleksi subset representatif dari populasi data yang besar.
2) Transformation, memanipulasi data mentah untuk menghasilkan input tunggal.
3) Denoising, menghilangkan noise pada data.
Gambar di bawah ini menggambarkan nodenode yang digunakan untuk menghitung jumlah watthour penggunaan alat listrik.
Gambar 5.3.1 Work Flow Menghitung W/h penggunaan alat listrik
Work Flow di bawah ini menggambarkan nodenode yang digunakan untuk mengubah data bertipe string menjadi date.
Work Flow di bawah ini menggambarkan nodenode yang digunakan untuk mengekstraksi data bertipe string yang telah dikonversi pada tahap sebelumnya.
Work Flow di bawah ini menggambarkan nodenode yang digunakan untuk menggabungkan kolom kW/h dengan tanggal dan waktu.
Work Flow di bawah ini menggambarkan nodenode yang digunakan untuk menjumlahkan kW/h per range waktu tertentu untuk tiap hari.
Work Flow di bawah menggambarkan nodenode yang digunakan untuk mengekstraksi tanggal ke dalam bulan dan tahun.
Work Flow di bawah ini menggambarkan nodenode yang digunakan untuk menghitung ratarata kW/h per hari.
Gambar 5.3.7 Work Flow Hitung Ratarata
Work Flow di bawah ini menggambarkan nodenode yang digunakan untuk menghitung persentase range waktu yang terdiri dari:
1) Dari pukul 13.00 sampai pukul 17.00. 2) Dari pukul 17.00 sampai pukul 21.00. 3) Dari pukul 21.00 sampai pukul 07.00. 4) Dari pukul 07.00 sampai pukul 09.00. 5) Dari pukul 09.00 sampai pukul 13.00.
Gambar 5.3.9 Work Flow Perhitungan Persentase dalam range waktu tertentu
Work Flow di bawah ini menggambarkan nodenode yang digunakan untuk normalisasi data. Ada 2 langkah yang dilakukan: Mengisi missing values dengan nilai ratarata tiap atribut dan kemudian memilih atributatribut yang akan dianalisis untuk tiap cluster.
5.4. Data Mining
Tabel di bawah ini menjelaskan tentang proses penyeleksian atributatribut yang akan digunakan pada analisis cluster. Jumlah cluster yang ditentukan sebanyak 3 buah cluster. Iterasi maksimum yang dilakukan sebanyak 400 kali iterasi (perulangan).
Gambar 5.4.1 Seleksi Data untuk Cluster Analysis
Tabel di bawah ini adalah hasil analisis cluster dari work flow di atas. Terlihat bahwa, terdapat perbedaan warna antara satu cluster dengan cluster lain berdasarkan warna dari pengaturan Color Manager di atas.
Gambar 5.4.3 Tabel Hasil Cluster Analysis
5.5. Interpretation & Evaluation
Tabel di bawah ini tabel Confusion Matrix dari hasil klasifikasi dengan menggunakan algoritma Naive Bayes . Informasi yang dapat diambil dari tabel di bawah adalah:
1) Akurasi hasil klasifikasi: 93.267% atau 942 baris data. 2) Error Rate: 6.733% atau 68 baris data.
Tabel di bawah ini adalah tabel Confusion Matrix dari hasil klasifikasi dengan menggunakan algoritma Neural Network . Informasi yang dapat diambil dari tabel di bawah adalah:
1) Akurasi hasil klasifikasi: 88.614% atau 895 baris data. 2) Error rate: 11.386% atau 115 baris data.
Gambar 5.5.2 Confusion Matrix hasil klasifikasi dengan Neural Network
Tabel di bawah ini adalah tabel Confusion Matrix dari hasil klasifikasi dengan menggunakan algoritma Neural Network . Informasi yang dapat diambil dari tabel di bawah adalah:
Tabel di bawah ini adalah Confusion Matrix dari hasil klasifikasi dengan menggunakan algoritma Decision Tree . Informasi yang dapat diambil dari tabel di bawah adalah:
1) Akurasi hasil klasifikasi: 85.842% atau 867 baris data. 2) Error Rate: 14.158% atau 143 baris data.
6. Analisis
6.1. Analisis Cluster Pola Penggunaan Alat Listrik
dengan Normalisasi
Terdapat 2 metode normalisasi yang bisa digunakan untuk analisis cluster pola penggunaan alat listrik, yaitu:
A. Normalisasi dengan metode ZScore.
Dari analisis yang telah dilakukan dengan metode normalisasi ZScore, didapat informasi mengenai pola dari tiap cluster. Berikut hasil analisisnya:
1) Cluster 0 menjelaskan karakteristik pengguna yang lebih dominan dalam menggunakan alatalat listrik pada saat sore hingga menuju malam. Puncak pemakaian alatalat listrik ini berada di antara pukul 17.00 hingga 21.00. Kemudian, dari pukul 07.00 hingga pukul 09.00 mengalami kenaikan penggunaan alatalat listrik. Lalu akhirnya, mengalami penurunan mulai dari pukul 09.00 hingga pukul 13.00.
2) Cluster 1 menjelaskan karakteristik pengguna dimana, dari pukul 13.00 hingga pukul 21.00 penggunaan alatalat listrik sangat rendah. Terlepas dari faktor apapun, asumsi yang bisa digunakan ialah bahwa, pada saat itu penghuni rumah tidak sedang berada di rumah. Namun sebaliknya, mulai dari pukul 21.00 hingga pukul 07.00 terjadi peningkatan yang signifikan pada penggunaan alatalat listrik. Asumsi yang bisa digunakan berikutnya ialah bahwa penghuni rumah pada saat itu sedang begadang (The Night Owl).
3) Cluster 2 menjelaskan karakteristik pengguna dimana, di antara pukul 13.00 hingga pukul 17.00 terjadi puncak pemakaian alatalat listrik. Sementara itu, dari pukul 17.00 hingga pukul 09.00, penghuni rumah hampir tidak aktif sama sekali, karena penggunaan alatalat listrik yang jauh lebih rendah daripada ratarata di cluster lain. Kemudian kembali aktif mulai dari pukul 09.00 hingga pukul 13.00.
B. Normalisasi dengan metode MinMax.
Dari analisis yang telah dilakukan dengan metode normalisasi MinMax, didapat informasi mengenai pola dari tiap cluster. Berikut hasil analisisnya:
1) Cluster 0, sebagaimana dengan metode ZScore, menggambarkan karakteristik pengguna paling banyak menggunakan alatalat listrik pada pukul 17.00 hingga pukul 21.00. Hal itu menunjukkan bahwa, aktivitas pemakaian alat listrik mencapai puncaknya. Setelah pukul 21.00, pemakaian alat listrik mengalami penurunan sangat signifikan sampai pukul 07.00. Dilanjutkan sampai pukul 09.00, konsumsi listrik masih sangat rendah. Lalu, penggunaan alat listrik mulai mengalami sedikit kenaikan pada pukul 13.00 dan menurun kembali hingga pukul 17.00.
2) Cluster 1 menunjukkan pemakaian puncaknya pada pukul 21.00 sampai 07.00 pagi. Hal itu juga menandakan bahwa penghuni rumah tangga sedang sangat aktif pada malam hari, sebagaimana hal ini juga bisa dilihat pada Analysis Chart dengan metode ZScore.
3) Cluster 2 menggambarkan pola kebiasaan penghuni rumah tangga yang relatif berbeda dari metode dengan ZScore. Bahkan, bisa dikatakan berbanding terbalik. Pada cluster ini, bisa diasumsikan bahwa, penghuni rumah tangga aktif dari pukul 17.00 hingga pukul 09.00, yang menunjukkan kalau penghuni rumah tangga sedang berada di rumah pada saat itu.
6.2. Analisis Cluster Pola Penggunaan Alat Listrik
berdasarkan total kW/h
Pada bagian ini, dijelaskan tentang analisis pola penggunaan alat listrik berdasarkan total kW/h yang dihasilkan dari pemakaian alat listrik. Ada 4 periode waktu yang menjadi dasar dalam penjumlahan kW/h, yakni sebagai berikut:
A. Per Musim
Chart di bawah ini adalah hasil cluster analysis pola penggunaan alat listrik untuk tiap tahun. Berikut informasi yang dapat diambil dari hasil analisis yang dilakukan berdasarkan musim tiap tahun: penggunaan alat listriknya, maka didapat informasi sebagai berikut:
a) Musim Dingin (22 Desember21 Maret) b) Musim Gugur (24 September21 Desember) c) Musim Semi (22 Maret21 Juni)
Gambar 6.2.1 Analysis Chart Pola Penggunaan Alat Listrik tiap musim pada tiap tahun
B. Per Bulan
Chart di bawah ini menjelaskan tentang penggunaan alat listrik untuk tiap tahun. Berikut informasi yang dapat diambil dari
analysis chart di bawah ini:
1) Tahun 2006 hanya diisi pada bulan Desember, sehingga informasi yang dihasilkan pun tergolong rendah dibanding tahuntahun lainnya.
2) Secara keseluruhan, tiap bulan pada tiap tahun selalu memiliki pola yang sama, yakni penggunaan alat listrik yang bisa dikatakan monoton.
3) Namun, pada bulan Agustus 2008, bisa dilihat bahwa terjadi perubahan/penurunan dalam pemakaian alat listrik berdasarkan total kW/h pada bulan itu dibandingkan pada bulan Agustus di tahuntahun lainnya.
C. Per Hari
Chart di bawah ini menggunakan periode waktu tiap hari (SeninMinggu) untuk tiap tahun. Berikut informasi yang dapat diambil dari chart ini, yakni sebagai berikut:
1) Terlihat bahwa penggunaan alat listrik paling tinggi berada pada hari Minggu, yang kemudian disusul pada hari Sabtu. Kemungkinan besar pada saat itu ( weekend), penghuni rumah sedang berada di rumah, terlepas apakah penghuninya masih lajang atau sudah berkeluarga.
2) Sebaliknya, pada harihari selain weekend, terlihat jelas bahwa penggunaan alat listriknya di bawah dari ratarata
weekend. Sehingga bisa disimpulkan bahwa pada saat itu, penghuni rumah sedang tidak berada di rumah, terlepas dari faktorfaktor eksternal lainnya.
D. Per range waktu tertentu
Chart di bawah ini menggambarkan penggunaan alat listrik berdasarkan total kW/h dalam periode range waktu tertentu. Berikut informasi yang dapat diambil dari hasil analisis ini: dikatakan bahwa penghuni rumah pada rumah tangga yang data dianalisis ini tergolong “aktif pada malam hari” (The Night Owl).
3) Jika melihat aktifitas penghuni rumah dalam penggunaan alat listrik dari range waktu pukul 07.00 sampai 17.00, maka bisa disimpulkan bahwa besar kemungkinan penghuni rumah sedang berada di luar rumah pada saat itu, terlepas dari apakah berada di luar rumah untuk alasan kerja ataupun sekolah.
6.3. Analisis Cluster Pola Penggunaan Alat Listrik
berdasarkan Biaya Penggunaan Listrik di
Indonesia
Tabel di bawah ini adalah referensi biaya untuk pemakaian listrik per kW/h di Indonesia untuk tahun 20022010. Dengan asumsi, apabila pemakaian alat listrik di rumah tangga ini “diindonesiakan”, maka kita bisa melihat biaya yang dikeluarkan oleh penghuni rumah tangga dalam waktu tertentu dalam satuan rupiah.
Gambar 6.3.1 Patokan Harga untuk rumah tangga di Indonesia
http://www.pln.co.id/dataweb/STAT/STAT2010IND.pdf
Gambar 6.3.2 Analysis Chart Berdasarkan Biaya Pemakaian Listrik di Indonesia
6.4. Analisis Cluster Pola Penggunaan Alat Listrik
berdasarkan Jenis Alat Listrik
Pada bagian ini, dijelaskan tentang analisis cluster pola penggunaan alat listrik berdasarkan lamanya pemakaian jenis alat listrik yang ada. Informasi didapat secara langsung di situs https://archive.ics.uci.edu/ mengenai jenis alat listrik apa yang dipergunakan dalam 1 rumah tangga ini. Berdasarkan informasi tersebut, didapatlah pengetahuan bahwa atribut sub_metering_1 mewakili jenis alat listrik untuk dapur, sub_metering_2 mewakili jenis alat listrik untuk ruang
2) Pola Penggunaan Alat Listrik berdasarkan Jenis Alat Listrik dan Total Pemakaiannya selama 47 bulan
Analysis chart di bawah ini menggambarkan total pemakaian secara keseluruhan jenis alat listrik selama 47 bulan (informasi didapat di situs resmi) atau dengan kata lain, total keseluruhan data dari data set yang ada. Hasil analisis ini bisa dikatakan serupa dengan chart sebelumnya yang menginformasikan bahwa, jenis alat listrik terlama yang digunakan adalah jenis alat listrik dengan daya yang besar seperti penghangat air elektrik dan AC, kemudian disusul dengan jenis alat laundry dan lalu alatalat dapur.
3) Pola Penggunaan Alat Listrik Berdasarkan Jenis Alat Listrik dan Total Waktu Pemakaian
Gambar 6.4.3 Analysis Chart Pola Penggunaan Alat Listrik berdasarkan Jenis Alat Listrik dan range waktu tertentu
1) Sub Metering 3 selalu berada pada titik teratas dengan waktu pemakaian paling lama (6.912 jam), sekaligus jenis alat listrik yang paling sering aktif sepanjang hari. Puncak pemakaiannya pada pukul 21.00 hingga 07.00, artinya alat listrik tersebut aktif sepanjang malam. Sedangkan pada pukul 07.00 hingga 09.00 pemakaian menurun secara signifikan. Kemudian, pemakaian kembali meningkat pada pukul 09.00 sampai 13.00.
2) Sub Metering 2 menempati pemakaian tertinggi kedua setelah Sub Metering 3. Jenis alat listrik pada Sub Metering 2 mencapai puncak penggunaannya pada pukul 21.00 hingga 07.00. Pola pemakaian jenis alat listrik Sub Metering 2 tidak jauh berbeda dengan pola pemakaian jenis alat listrik Sub Metering 3.
7. Kesimpulan
Penelitian terhadap data set Individual Household Power Consumption
merupakan kegiatan yang melibatkan proses KDD . Jumlah data dari data set tersebut sebanyak 2.075.259 baris data. Proses KDD yang dilakukan memakan waktu yang cukup lama, mengingat jumlah data yang cukup besar (big data ) dan sifat data yang masih mentah. Aplikasi/tools yang digunakan adalah KNIME versi 2.10. Hasil KDD tersebut dianalisis untuk memperoleh “potensi” informasi tersembunyi yang mungkin ada. Informasi didapat dari analisis terhadap polapola data. Informasi tersebut menunjukkan bagaimana pola kebiasaan penggunaan alatalat listrik dari penghuni suatu rumah tangga selama 47 bulan terakhir (dari tahun 2006 hingga 2010). Polapola tersebut dikategorikan ke dalam beberapa rentang waktu.
1) Berdasarkan musim, penggunaan alat listrik paling banyak berada pada musim dingin dibanding musim lainnya. Pada musim dingin, penghuni lebih banyak menggunakan alatalat listrik. Kondisi udara yang dingin menyebabkan penghuni lebih banyak/sering menggunakan penghangat ruangan, penghangat air, hingga pengering pakaian. Selain itu, karena siang hari lebih pendek, maka pemakaian lampu untuk penerangan juga lebih lama digunakan.
2) Berdasarkan bulan, pola pemakaian alat listrik pada bulanbulan sepanjang musim dingin menunjukkan kecenderungan pemakaian lebih tinggi. Sedangkan pada pertengahan tahun, yakni, sepanjang musim gugur dan musim semi, penggunaan alatalat listrik cenderung menurun. Hingga musim panas, pola pemakaian alatalat listrik tetap mengalami penurunan. Pada bulan September, dimana musim panas mulai berakhir, pemakaian alat listrik mengalami kenaikan hingga musim dingin berlangsung.
3) Berdasarkan hari, pola penggunaan alatalat listrik tidak terlalu tinggi pada hari kerja (SeninJumat). Umumnya, penghuni yang bekerja hanya berada di rumah setelah jam kerja. Sehingga, alatalat listrik yang digunakan cukup terbatas. Sedangkan pada weekend (SabtuMinggu), pemakaian listrik cenderung meningkat. Dimana pada hari itu, penghuni lebih banyak menghabiskan waktu di rumah. Sehingga, alatalat listrik yang digunakan juga lebih banyak.
4) Berdasarkan range waktu, penggunaan alat listrik setiap tahun menunjukkan pola yang hampir sama. Penghuni menunjukkan kebiasaan menggunakan alat listrik paling banyak antara pukul 21.00 hingga pukul 07.00. Dengan kata lain, alatalat listrik yang digunakan memiliki fungsionalitas yang lebih panjang di malam hari.
5) Pola pemakaian alat listrik berdasarkan jenis alat listrik dan lamanya pemakaian, menunjukkan alat listrik dalam kategori Sub Metering 3 merupakan alatalat listrik yang selalu digunakan dalam waktu lama. Sub Metering 3 mewakili alat listrik berupa; penghangat air elektrik dan Air Conditioner. Alat listrik tersebut menempati posisi paling lama penggunaannya setiap hari. Diikuti oleh Sub Metering 2 berupa alat listrik dengan penggunaan paling lama ke2. Sub Metering 3 merupakan alat listrik dengan penggunaan paling singkat sepanjang hari.
6) Berdasarkan pola penggunaan alat listrik berdasarkan jenis alat listrik, dapat ditarik kesimpulan bahwa alat listrik berupa Air Conditioner dan penghangat air elektrik merupakan alat listrik yang paling panjang waktu penggunaannya dibandingkan alat listrik lainnya.
8. Daftar Pustaka
Han, Jiawei., Kamber, Micheline., dan Pei, Jian. (2006). Data Mining:Concepts and Techniques. (ed. 3). USA: MK Publishers