4.1. Analisis
4.1.1. Analisis Dataset Awal
Data awal yang digunakan pada praktikum ini adalah Electric Power Consumption Dataset yang berisi data informasi jumlah konsumsi tenaga listrik pada kipas angin. Adapun informasi yang dimuat pada dataset ini berada pada rentang waktu 1 Januari 2017-30 Desember 2017 dengan banyak data 52391 data dan 9 kolom yaitu:
1. Kolom Date Time
Kolom Date Time menunjukan periode waktu dataset. Kolom ini memiliki data type obeject.
2. Kolom Temperature
Kolom Temperature menunjukan suhu kipas pada saat pencatatan data. Kolom ini memiliki memiliki data type float64.
3. Kolom Humidity
Kolom Humidity menunjukan jumlah uap yang ada pada udara. Kolom ini memiliki data type float64.
4. Kolom Wind Speed
Kolom Wind Speed menunjukan kecepatan angin. Kolom ini memiliki data type float64.
5. Kolom General Diffuse Flows
Kolom General Diffuse Flows menunjukan aliran udara secara umum. Kolom ini memiliki data type float64.
6. Kolom Diffuse Flows
Kolom Diffuse Flows menunjukan aliran udara secara spesifik. Kolom ini memiliki data type float64.
7. Kolom Power Consumption Zone 1
Kolom Power Consumption Zone 1 menunjukan konsumsi energi pada zona pertama. Kolom ini memiliki data type
8. Kolom Power Consumption Zone 2
Kolom Power Consumption Zone 2 menunjukan konsumsi energi pada zona
kedua. Kolom ini memiliki data type float64.
9. Kolom Power Consumption Zone 3
Kolom Power Consumption Zone 3 menunjukan konsumsi energi pada zona ketiga. Kolom ini memiliki data type float64.
4.1.2. Analisis Data Cleansing dan Exploratory Data Analysis
Data Cleansing adalah proses membersihkan data dari kesalahan, inkonsistensi, dan ketidaksempurnaan agar data menjadi lebih dapat dipercaya dan relevan untuk analisis. Exploratory Data Analysis adalah proses analisis awal yang dilakukan untuk memahami struktur dan karakteristik data. Tujuannya adalah untuk menemukan pola, hubungan, anomali, atau tren yang mungkin tersembunyi dalam data. Data Cleansing dan Exploratory Data Analysis yang dilakukan pada praktikum ini berupa membaca info dataset, melakukan pemeriksaan data yang kosong pada dataset, mengisi data yang hilang pada dataset, mengolah serta membaca data dari kolom yang akan diprediksi nantinya, mengurutkan data, mencari nilai maksimal dan minimal dari data, dan yang terakhir menyimpan data yang sudah dibersikan menjadi data baru. Jumlah data yang missing value ada sebanyak delapan komponen yang terdiri dari Temperature, Humidity, Wind Speed, General Diffuse Flows, Diffuse Flows, Power Consumtion Zone 1, Power Consumtion Zone 2, dan Power Consumtion Zone 3. Jumlah data setelah dilakukan data cleansing ada sebanyak 161.917 data dengan 52.390 baris dan 9 kolom.
4.1.3. Analisis Data Visualization
Data Visualization adalah cara untuk menggambarkan data menggunakan grafik dan plot untuk memahami pola dan hubungan dalam data secara visual. Berikut Data Visualization yang digunakan pada praktikum ini:
1. Line Chart
Line Chart menampilkan hubungan perbandingan suhu dalam periode waktu tertentu. Dari analisis Line Chart dapat ditarik kesimpulan bahwa besar suhu kipas relatif turun seiring berjalannya waktu.
2. Bar Chart
Bar Chart menampilkan perbandingan antara suhu dan aliran udara secara umum. Dara analisis Bar Chart dapat ditarik kesimpulan bahwa jumlah aliran udara secara umum relatif naik seiring naiknya suhu kipas.
3. Pie Chart
Pie Chart menampilkan proporsi antara kelembapan dan suhu. Dari analisis Pie Chart dapat ditarik kesimpulan bahwa proporsi presentase kelembapan terhadapat suhu paling banyak adalah data bernilai 77,92 dan data yang paling sendikit bernilai 102,76.
4. Scatter Plot
Scatter Plot menampilkan hubungan antara kecepatan angin dan suhu.
Dari analisis Scatter Plot dapat ditarik kesimpulan bahwa kecepatan angin relatif turun seiring besar suhu kipas juga turun.
4.1.4. Analisis Linear Regression
Fungsi linear regression pada Jupyter Notebook adalah metode statistik yang digunakan untuk memodelkan hubungan linier antara variabel dependen (y) dan satu atau lebih variabel independen (x). Tujuannya adalah untuk memprediksi nilai y berdasarkan nilai x. Linear regression yang dibuat pada praktikum ini adalah memprediksi komponen Temperature yang berperan sebagai sumbu y berdasarkan komponen WindSpeed yang berperan sebagai sumbu x.
4.2. Evaluasi
4.2.1. Evaluasi Dataset Awal
Evaluasi dataset awal merupakan tahap penting dalam memastikan kualitas data sebelum dilakukan analisis lebih lanjut. Penting untuk menilai kesesuaian dataset dengan kebutuhan analisis yang dimaksud. Kemudian, evaluasi terhadap kualitas data menjadi fokus utama, termasuk kebersihan, kelengkapan, dan akurasi data. Selanjutnya, relevansi atribut dataset harus dipertimbangkan sejauh mana hubungannya dengan tujuan praktikum.
Selain itu, ukuran sampel dataset juga menjadi pertimbangan penting untuk memastikan representasi yang memadai dalam analisis. Terakhir, sumber dataset perlu dievaluasi terkait dengan validitas dan kepercayaannya serta proses pengumpulan data.
4.2.2. Evaluasi Data Cleaning and Exploratory Data Analysis
Pembuatan Data Cleaning dan Exploratory Data Analysis (EDA) merupakan tahapan krusial dalam persiapan data sebelum analisis. Evaluasi terhadap proses ini mencakup penilaian terhadap ketepatan, konsistensi, dan efektivitas pembersihan data, serta relevansi visualisasi dan analisis statistik yang dihasilkan. Selanjutnya, relevansi visualisasi yang dihasilkan dari EDA juga menjadi fokus evaluasi, dimana visualisasi haruslah memperhatikan library dan menuliskan coding yang benar, serta sesuai dengan tujuan analisis dan mampu menggambarkan informasi penting dari data dengan jelas.
4.2.3. Evaluasi Data Visualization
Dalam pembuatan data visualization harus dipastikan sesuai dengan tujuan analisis yang ditetapkan. Kemudian, keterbacaan visualisasi menjadi fokus, memastikan informasi dapat dipahami dengan jelas. Penting juga untuk mengevaluasi ketepatan representasi data dan pemilihan metode visualisasi yang sesuai dengan jenis data yang hendak disajikan. Terakhir, efektivitas komunikasi visualisasi harus dievaluasi untuk memastikan pesan
dapat disampaikan dengan baik. Dengan memperhatikan poin-poin tersebut, evaluasi akan membantu memastikan bahwa data visualization yang dibuat memberikan kontribusi maksimal.
4.2.4. Evaluasi Linear Regression
Dalam pembuatan Linear Regression dataset Electric Power Consumption, beberapa komponen penting perlu diperhatikan. Pemilihan variabel independen yang relevan dengan variabel dependen menjadi langkah krusial dalam membangun model yang tepat. Normalisasi atau standarisasi data diperlukan untuk memastikan interpretasi yang benar terhadap koefisien regresi. Proses ini juga melibatkan pemisahan dataset menjadi data pelatihan dan pengujian untuk menguji kinerja model secara objektif. Selama implementasi, penting untuk memeriksa asumsi-asumsi yang mendasari model Linear Regression, seperti distribusi normalitas.
Evaluasi kualitas model dengan menggunakan metrik evaluasi yang tepat seperti R-squared, Mean Squared Error (MSE), atau Mean Absolute Error (MAE) juga penting untuk mengevaluasi kinerja model secara holistik.