Modul Ilmu Data Python

(1)

(2)

MODUL III

PYTHON FOR DATA SCIENCE

Oleh

K E L O M P O K V / G E L O M B A N G B

1. Vita Eliza Balqis 230403059 2. Raja Sion G. M. Gultom 230403088 3. M. Yasyfin Tanjung 230403101 4. Sophia Christy Dita Silalahi 230403130 5. Manelyta Febri Angelina 230403133

L A B O R A T O R I U M P E M O D E L A N D A N S I M U L A S I P R O G R A M S T U D I T E K N I K I N D U S T R I

F A K U L T A S T E K N I K UNIVERSITAS SUMATERA UTARA

M E D A N

2 0 2 4

(3)

MODUL III

PYTHON FOR DATA SCIENCE

Oleh

K E L O M P O K V / G E L O M B A N G B

1. Vita Eliza Balqis 230403059 2. Raja Sion G. M. Gultom 230403088 3. M. Yasyfin Tanjung 230403101 4. Sophia Christy Dita Silalahi 230403130 5. Manelyta Febri Angelina 230403133

Disetujui Oleh

Asisten 2020 Asisten 2021

Laboratorium Pemodelan dan Simulasi Laboratorium Pemodelan dan Simulasi

(Alkent Chenio) (Owen Sebastian)

L A B O R A T O R I U M P E M O D E L A N D A N S I M U L A S I P R O G R A M S T U D I T E K N I K I N D U S T R I

F A K U L T A S T E K N I K UNIVERSITAS SUMATERA UTARA

M E D A N

2 0 2 4

(4)

rahmat dan karunia-Nya, sehingga Praktikum Pemrograman Komputer Laboratorium Pemodelan dan Simulasi dapat diselesaikan dengan tepat waktu.

Laporan praktikum ini disusun sebagai salah satu syarat yang harus dipenuhi agar dapat menyelesaikan Praktikum Pemrograman Komputer. Kami mengucapkan terima kasih kepada pihak-pihak yang telah membantu dalam penyelesaian laporan ini, diantaranya:

1. Orang tua mahasiswa yang selalu memberi dukungan kepada mahasiswa dalam pengerjaan praktikum.

2. Ir. Khalida Syahputri, S.T., M.T. selaku Kepala Laboratorium Pemodelan dan Simulasi Program Studi Teknik Industri Fakultas Teknik Universitas Sumatera Utara.

3. Ir. Mangara M. Tambunan, M.Sc., Prof. Dr. Ir. Humala L. Napitupulu, DEA, Ir.

Indah Rizkya Tarigan, S.T., M.T., dan Ir. Ivo Andika Hasugian, S.T., M.T.

selaku Staf Laboratorium Pemodelan dan Simulasi Program Studi Teknik Industri Fakultas Teknik Universitas Sumatera Utara.

4. Seluruh Asisten Laboratorium Pemodelan dan Simulasi Program Studi Teknik Industri Fakultas Teknik Universitas Sumatera Utara yang telah memberikan arahan dalam menjalankan kegiatan praktikum dan penyusunan laporan.

5. Rekan-rekan Teknik Industri stambuk 2023 yang mengikuti kegiatan di Laboratorium Pemodelan dan Simulasi Teknik Industri Universitas Sumatera Utara.

Kami berharap laporan ini dapat bermanfaat dalam memahami Python for Data Science. Kami mengharapkan kritik dan saran yang bersifat membangun untuk perbaikan kedepannya. Semoga laporan ini bermanfaat bagi pembaca.

UNIVERSITAS SUMATERA UTARA KELOMPOK V / GELOMBANG B

MEDAN, MEI 2024

(5)

LEMBAR JUDUL ... i

LEMBAR PENGESAHAN ... ii

KATA PENGANTAR ... iii

DAFTAR ISI ... iv

DAFTAR TABEL ... vii

DAFTAR GAMBAR ... viii

DAFTAR LAMPIRAN ... xi

I PENDAHULUAN ... I-1 1.1. Latar Belakang ... I-1 1.2. Tujuan Praktikum ... I-2 1.3. Landasan Teori ... I-2 1.3.1. Definisi Python ... I-2 1.3.2. Sejarah Python... I-3 1.3.3. Library Python ... I-4 1.3.3.1. Pandas ... I-4 1.3.3.2. Numpy... I-5 1.3.3.3. Matplotlib ... I-5 1.3.3.3.1. Line Chart ... I-6 1.3.3.3.2. Bar Chart ... I-6 1.3.3.3.3. Pie Chart ... I-7 1.3.3.3.4. Scatter Plot ... I-7 1.3.3.4. Scikit Learn ... I-8 1.3.4. Data Science ... I-9 1.3.4.1. Definisi Data Science ... I-9 1.3.4.2. Perkembangan Data Science ... I-10 1.3.4.3. OSEMN (Obtain, Scrub, Explore,

Model, Interpret) ... I-11

(6)

v

II PENGUMPULAN DATA ... II-1 2.1. Data Awal Dataset Electric Power Consumption ... II-1 2.2. Formulasi Permasalahan Data Awal ... II-2

III PENGOLAHAN DATA ... III-1 3.1. Import Data ... III-1 3.2. Import Library ... III-3 3.3. Data Cleansing dan Exploratory Data Analysis ... III-4 3.4. Data Visualization ... III-9 3.4.1. Line Chart ... III-9 3.4.2. Bar Chart... III-11 3.4.3. Pie Chart ... III-12 3.4.4. Scatter Plot ... III-14 3.5. Linear Regression ... III-15

IV ANALISIS DAN EVALUASI ... IV-1 4.1. Analisis ... IV-1 4.1.1. Analisis Dataset Awal ... IV-1 4.1.2. Analisis Data Cleansing dan Exploratory Data

Analysis ... IV-2 4.1.3. Analisis Data Visualization ... IV-2 4.1.4. Analisis Linear Regression ... IV-3 4.2. Evaluasi... IV-4

4.2.1. Evaluasi Dataset Awal ... IV-4 4.2.2. Evaluasi Data Cleansing dan Exploratory Data

Analysis ... IV-4

(7)

vi

4.2.3. Evaluasi Data Visualization ... IV-4 4.2.4. Evaluasi Linear Regression ... IV-5

V KESIMPULAN DAN SARAN ... V-1 5.1. Kesimpulan ... V-1 5.2. Saran ... V-2

DAFTAR PUSTAKA

(8)

2.1. Keterangan Dataset Electric Power Consumption ... II-1 2.2. Tabel Isi Dataset Electric Power Consumption ... II-1 2.3. Formulasi Permasalahan Data ... II-2

(9)

1.1. Contoh Line Chart ... I-6 1.2. Contoh Bar Chart ... I-6 1.3. Contoh Pie Chart ... I-7 1.4. Contoh Scatter Plot... I-8 2.1. Tampilan Scatter Plot... II-3 3.1. Tampilan Download Dataset Pada Website Kaggle ... III-1 3.2. Tampilan Anaconda Navigator ... III-2 3.3. Tampilan Homepage Jupyter Notebook ... III-2 3.4. Tampilan Dataset pada Homepage Jupyter Notebook ... III-3 3.5. Tampilan Kode Import Library Pandas ... III-3 3.6. Tampilan Import Library Numpy ... III-4 3.7. Tampilan Import Library Scikit-Learn... III-4 3.8. Tampilan Import Library Matplotlib... III-4 3.9. Tampilan Pemanggilan Dataset ... III-5 3.10. Tampilan Pemeriksaan Informasi Dataset ... III-5 3.11. Tampilan Kode Missing Value ... III-6 3.12. Tampilan Menghapus Baris Pada Dataset yang Kosong ... III-6 3.13. Tampilan Pengecekan Missing Value ... III-7 3.14. Tampilan Deskripsi Variabel ... III-7 3.15. Tampilan Urutkan Data ... III-8 3.16. Tampilan Pemeriksaan Waktu ... III-8 3.17. Tampilan Pembuatan CSV Dataset Bersih ... III-8 3.18. Tampilan Pemanggilan Dataset Bersih ... III-9 3.19. Tampilan Grouping dan Pengurutan Variabel ... III-10 3.20. Tampilan Visualisasi Line Chart ... III-10 3.21. Tampilan Grouping dan Pengurutan Variabel ... III-11 3.22. Tampilan Kode Visualisasi Bar Chart ... III-12

(10)

x

3.23. Tampilan Grouping dan Pengurutan Variabel ... III-13 3.24. Tampilan Mencari Nilai Total Temperature... III-13 3.25. Tampilan Visualisasi Pie Chart ... III-14 3.26. Tampilan Grouping dan Pengurutan ... III-14 3.27. Tampilan Visualisasi Scatter Plot ... III-15 3.28. Tampilan Fungsi Linear Regression ... III-16 3.29. Tampilan Cost Function ... III-16 3.30. Tampilan Dataframe yang Dipanggil ... III-16 3.31. Tampilan Dataframe yang Menjadi Array ... III-17 3.32. Tampilan Nilai Jangkauan WindSpeed ... III-17 3.33. Tampilan Visualisasi Windspeed dan Temperature ... III-17 3.34. Tampilan Pendefinisian Z Score ... III-18 3.35. Tampilan Hasil Normalisasi Windspeed ... III-18 3.36. Tampilan Scatter plot Hasil Normalisasi ... III-18 3.37. Tampilan Nilai w dab b ... III-19 3.38. Tampilan Nilai Linear Regression Function ... III-19 3.39. Tampilan Linear Regression ... III-19 3.40. Tampilan Dataframe Prediksi Hasil Linear Regression ... III-20 3.41. Mengubah Dataframe Prediksi Hasil Linear Regression

Menjadi Tampilan CSV ... III-20

(11)

xi

1 Form Case Python for Data Science ... L-1 2 Lampiran Coding ... L-2 3 Form Asistensi ... L-3

(12)

BAB I

PENDAHULUAN

1.1. Latar Belakang

Data Science sendiri adalah ilmu tentang bagaimana mengungkap informasi dan pengetahuan, dari sekumpulan data dengan pendekatan engineering dan science seperti database engineering, programming, statistika, dan matematika. Data science atau yang apabila di-Bahasa Indonesia-kan menjadi Data Science sebenarnya tidak jauh berbeda dengan Data Mining. Apabila kita membaca buku-buku data mining yang sejak tahun 1990-an sudah muncul, kita tidak menemukan perbedaan signifikan antara data mining dengan data science. Yang membuat orang-orang menggeser terminologi data mining menjadi data science adalah keberagaman, dan sumber data yang jauh lebih banyak dibandingkan dengan era data mining.¹

Python adalah bahasa pemrograman dinamis, tingkat tinggi, dimana merupakan bahasa pemrograman interpreter yaitu bahasa yang mengkonversi source code menjadi machine code secara langsung ketika program dijalankan.

Bahasa ini juga mendukung pendekatan pemrograman berorientasi objek untuk pengembangan aplikasi dan mudah dipelajari serta menyediakan banyak struktur data tingkat tinggi. Python adalah bahasa skrip yang mudah dipelajari namun kuat dan serbaguna, yang membuatnya menarik untuk Pengembangan Aplikasi.²

Penggunaan alat elektronik semakin hari semakin mengalami peningkatan karena berkaitan langsung dengan kehidupan manusia. Bahkan, tidak menutup kemungkinan dengan pengguaan kipas angin. Diperlukan segala perhitungan yang mampu menciptakan efisiensi dari sebuah alat elektronik, termasuk kipas angin.

Dengan menggunakan Python dan pendekatan machine learning, para peneliti dan praktisi dapat membangun model prediksi yang dapat memperkirakan konsumsi

1 Irfan Wahyudin, dkk. 2019. Teori dan Panduan Praktis Data Science dan Big Data. Bogor:

.LPPM Universitas Pakuan. Hlm. 2.

2 Agus Suharto. 2023. Fundamental Bahasa Pemrograman Phyton. Jakarta: Eureka Media Aksara. Hlm. 1.

(13)

daya listrik pada kipas angin berdasarkan berbagai faktor. Model ini dapat membantu dalam perencanaan energi, pengaturan otomatis konsumsi daya, dan pengoptimalan efisiensi energi. Dengan demikian, Python menjadi pilihan yang ideal untuk melakukan prediksi data konsumsi daya listrik pada kipas angin karena kemudahan penggunaan, dukungan library yang kuat untuk analisis data dan machine learning, serta fleksibilitasnya dalam mengembangkan model prediksi yang akurat dan dapat diandalkan. Dalam konteks analisis data, Python memiliki peran yang krusial dalam memfasilitasi Exploratory Data Analysis (EDA), yang merupakan proses penjelajahan dan pemahaman awal terhadap dataset sebelum melakukan pemodelan atau pengambilan keputusan lebih lanjut. Exploratory Data Analysis (EDA) sendiri adalah tahap awal dalam analisis data yang bertujuan untuk mengeksplorasi karakteristik, pola dan hubungan dalam dataset.³ Hal ini menjadikan Python sebagai alat pengolahan data yang dapat diaplikasikan dengan mudah.

1.2. Tujuan Praktikum

Tujuan praktikum pada modul Python for Data Science adalah sebagai berikut:

1. Mampu mengetahui penggunaan, bahasa, dan dasar-dasar pemrograman Python.

2. Mampu mengetahui konsep Data Science.

3. Mampu mengetahui kegunaan Python dalam Data Science.

1.3. Landasan Teori 1.3.1. Definisi Python

Python adalah bahasa pemrograman interpreatif yang dianggap mudah dipelajari serta berfokus pada keterbacaan kode. Dengan kata lain Python diklaim sebagai bahasa pemrograman yang memiliki kode-kode pemrograman yang sangat jelas dan mudah dipahami, lengkap, dan mudah. Python secara umum berbentuk

3 Regina Lo, dkk. 2023. Penggunaan Bahasa Pemrograman Python dalam Menganalisis Hubungan Kualitas Kopi dengan Lokasi Pertanian Kopi. JUPTI. Vol. 2 No. 2. Hlm. 102.

(14)

pemrograman berorientasi objek, pemrograman imperetatif, dan pemrograman fungsional. Python juga dapat digunakan untuk berbagai keperluan pengembangan perangkat lunak dan dapat berjalan di berbagai platform sistem operasi. Dan juga Python memiliki lisensi yang dapat diperoleh dan dipergunakan secara bebas oleh siapapun, bahkan untuk para developer yang menggunakan bahasa ini untuk kepentingan komersial.⁴

Python adalah bahasa pemrograman umum yang sering digunakan dalam peran scripting. Biasanya didefinisikan sebagai bahasa scripting berorientasi objek yaitu sebuah definisi yang mencampur dukungan untuk OOP dengan orientasi keseluruhan terhadap peran scripting. Bahkan, orang sering menggunakan kata script daripada program untuk menggambarkan sebuah file kode Python. Istilah script dan program digunakan secara bergantian, dengan sedikit preferensi untuk script untuk menggambarkan file tingkat atas yang lebih sederhana dan program untuk merujuk pada aplikasi multifile yang lebih canggih. Karena istilah bahasa scripting memiliki banyak arti yang berbeda bagi pengamat yang berbeda, beberapa lebih memilih agar istilah tersebut tidak digunakan untuk Python sama sekali.⁵

1.3.2. Sejarah Python

Python dikembangkan oleh Guido van Rossum pada tahun 1990 di CWI, Amsterdam sebagai kelanjutan dari bahasa pemrograman ABC. Versi terakhir yang dikeluarkan CWI adalah 1.2. Tahun 1995, Guido pindah ke CNRI sambil terus melanjutkan pengembangan Python. Versi terakhir yang dikeluarkan adalah 1.6.

Tahun 2000, Guido dan para pengembang inti Python pindah ke BeOpen.com yang merupakan sebuah perusahaan komersial dan membentuk BeOpen PythonLabs.

Python 2.0 dikeluarkan oleh BeOpen. Setelah mengeluarkan Python 2.0, Guido dan beberapa anggota tim PythonLabs pindah ke DigitalCreations. Saat ini pengembangan Python terus dilakukan oleh sekumpulan pemrogram yang dikoordinir Guido dan Python Software Foundation. Python Software Foundation

4 Khotibul Umam. 2021. Algoritma dan Pemrograman Komputer dengan Phyton. Madura:

.Duta Media Publishing. Hlm. 29.

5 .Mark Lutz. 2009. Learning Python, Fourth Edition. Sebastopol: O’Reilly Media. Hlm. 5-6.

(15)

adalah sebuah organisasi nonprofit yang dibentuk sebagai pemegang hak cipta intelektual Python sejak versi 2.1 dan dengan demikian mencegah Python dimiliki oleh perusahaan komersial. Saat ini distribusi Python sudah mencapai versi 3.5.

Nama Python dipilih oleh Guido sebagai nama bahasa ciptaannya karena kecintaan guido pada acara televisi Monty Python's Flying Circus. Oleh karena itu seringkali ungkapan-ungkapan khas dari acara tersebut seringkali muncul dalam korespondensi antar pengguna Python. Perkembangan Python terlihat dari beberapa versi yang yang dirilis yaitu versi 1 sampai dengan 3, yang dimulai pada bulan Januari tahun 1994 yaitu Python versi 1.5. Sedangkan versi yang terakhir saat ini adalah Python versi 3.4 yang dirilis tanggal 16 Maret 2014. Python hadir sebagai solusi dalam mengatasi tantangan perkembangan perangkat lunak (software) yang sangat cepat dan beragam, untuk memenuhi kebutuhan pengguna (user).

Python sebagai alat (tool) yang dapat digunakan untuk mengembangkan program-program aplikasi secara sederhana dan cepat. Selain itu, Python juga dapat dijalankan diberbagai sistem operasi (multiplatform) seperti windows, linux, max OS, android, dan lainnya). Kini Python menjadi salah satu bahasa pemrograman yang populer digunakan oleh pengembangan web, aplikasi web, aplikasi perkantoran, simulasi, dan masih banyak lagi. Hal ini disebabkan karena Python bahasa pemrograman yang dinamis dan mudah dipahami.⁶

1.3.3. Library Python 1.3.3.1. Pandas

Pandas adalah sebuah perpustakaan Python untuk pengelolaan dan analisis data. Ini dibangun di sekitar struktur data yang disebut DataFrame yang dimodelkan setelah DataFrame R. Secara sederhana, DataFrame Pandas adalah tabel, mirip dengan spreadsheet Excel. Pandas menyediakan berbagai metode untuk memodifikasi dan beroperasi pada tabel ini yang memungkinkan query dan penggabungan tabel yang mirip dengan SQL.

6 Ismah. 2017. Dasar-Dasar Phyton. Jakarta Selatan: Fakultas Ilmu Pendidikan UMJ. Hlm. 7-8.

(16)

Berbeda dengan Numpy, yang mensyaratkan bahwa semua entri dalam sebuah array harus memiliki tipe yang sama, Pandas memungkinkan setiap kolom memiliki tipe yang berbeda (misalnya, bilangan bulat, tanggal, bilangan pecahan, dan string). Alat berharga lain yang disediakan oleh pandas adalah kemampuannya untuk meng-import dari berbagai format file dan basis data, seperti SQL, file Excel, dan file nilai yang dipisahkan koma (CSV).⁷

1.3.3.2. Numpy

Numpy adalah salah satu paket fundamental untuk komputasi ilmiah dalam Python. Ini berisi fungsionalitas untuk array multidimensional, fungsi matematika tingkat tinggi seperti operasi aljabar linear dan transformasi Fourier, serta generator bilangan acak pseudo.

Dalam scikit-learn, array Numpy adalah struktur data fundamental. scikit- learn menerima data dalam bentuk array Numpy. Setiap data yang Anda gunakan harus dikonversi menjadi array Numpy. Fungsionalitas inti Numpy adalah kelas ndarray , sebuah array multidimensional (n-dimensional)⁸

1.3.3.3. Matplotlib

Matplotlib adalah library plotting 2D Python yang menghasilkan gambar publikasi bermutu di dalam berbagai format hardcopy dan lingkungan interaktif sepanjang platform. Matplotlib dapat digunakan di dalam script Python, shell Python dan ipython, server aplikasi web, dan enam GUI toolkit. Matplotlib mencoba untuk membuat hal mudah menjadi lebih mudah dan hal sulit menjadi mungkin.

Dalam membuat plot, histogram, power spectra, grafik batang, grafik error, scatterplot, dll, hanya dengan beberapa baris code. Matplotlib adalah salah satu modul python yang berfungsi untuk membuat gambar dua dimensi (plot 2D). Plot yang dibuat menggunakan sistem cartesius, garis horizontal untuk sumbu x dan

7 Andreas C. Müller & Sarah Guido. 2017. Introduction to Machine Learning with Python.

Sebastopol: O’Reilly Media. Hlm. 10.

8 Ibid., Hlm. 7.

(17)

garis vertikal untuk sumbu y. Adapun jenis grafik yang dapat ditampilkan diantaranya yaitu, line chart, bar chart, pie chart, dan scatter plot.⁹

1.3.3.3.1. Line chart

Membentuk garis dari setiap data yang dimasukkan sebagai x dan y.

Untuk membentuk garis dibutuhkan minimal 2 titik, oleh karena itu, dalam plot 2D dibutuhkan dua buah titik pada sumbu x dan y.¹⁰ Adapun contoh gambar line chart dapat dilihat pada Gambar 1.1. sebagai berikut.

Sumber: Junaidai, 2023.

Gambar 1.1. Contoh Line Chart

1.3.3.3.2. Bar Chart

Grafik berbentuk batang, dengan penulisan kode dan struktur program sama dengan pada saat membuat line grafik, yang membedakan hanya pada kode program grafik.¹¹ Adapun contoh gambar bar chart dapat dilihat pada Gambar 1.2.

sebagai berikut.

Sumber: Junaidai, 2023.

Gambar 1.2. Contoh Bar Chart

9 Ismah. 2017. Dasar-Dasar Phyton. Jakarta Selatan: Fakultas Ilmu Pendidikan UMJ.

. Hlm. 176-177.

10 Ibid., Hlm. 179.

11 Ibid., Hlm. 180.

(18)

1.3.3.3.3. Pie Chart

Pie chart atau diagram lingkaran mewakili proporsi numerik, di mana panjang lengkung setiap segmen proporsional terhadap kuantitas yang diwakilinya.

Mereka kompak, bisa terlihat sangat estetis, tetapi mereka telah dikritik karena sulit untuk dibandingkan. Sifat lain dari diagram lingkaran yang tidak menguntungkan mereka adalah bahwa diagram lingkaran disajikan dalam sudut tertentu (perspektif) dan segmen menggunakan warna tertentu yang dapat mempengaruhi persepsi kita dan memengaruhi kesimpulan kita tentang informasi yang disajikan.¹² Adapun contoh gambar pie chart dapat dilihat pada Gambar 1.3. sebagai berikut.

Sumber: Ratna, 2020.

Gambar 1.3. Contoh Pie Chart

1.3.3.3.4. Scatter Plot

Scatter plot atau diagram pencar menampilkan nilai untuk dua set data.

Visualisasi data dilakukan sebagai kumpulan titik yang tidak terhubung oleh garis.

Setiap titik memiliki koordinatnya sendiri yang ditentukan oleh nilai variabel. Satu variabel dikendalikan (variabel independen) sementara variabel lainnya diukur (variabel dependen) dan sering kali di-plot pada sumbu y.¹³ Adapun contoh gambar scatter plot dapat dilihat pada Gambar 1.4. sebagai berikut.

12 Igor Milovanović. 2013. Python Data Visualization Cookbook. Mumbai: Packt Publishing.

.Hlm. 102.

13 Ibid., Hlm. 106.

(19)

Sumber: Quang Vinh Nguyen, 2020.

Gambar 1.4. Contoh Scatter Plot

1.3.3.4. Scikit Learn

Ada beberapa library Python yang menyediakan implementasi yang solid dari berbagai algoritma pembelajaran mesin. Salah satu yang paling terkenal adalah Scikit-Learn, sebuah paket yang menyediakan versi efisien dari sejumlah besar algoritma umum. Scikit-Learn ditandai dengan API yang bersih, seragam, dan sederhana, serta dokumentasi online yang sangat berguna dan lengkap. Salah satu keuntungan dari keseragaman ini adalah bahwa begitu Anda memahami penggunaan dasar dan sintaksis Scikit-Learn untuk satu jenis model, beralih ke model atau algoritma baru menjadi sangat mudah.

Bagian ini memberikan gambaran tentang API Scikit-Learn berupa pemahaman yang solid tentang elemen-elemen API ini akan membentuk dasar untuk memahami diskusi praktis yang lebih dalam tentang algoritma dan pendekatan pembelajaran mesin dalam bab-bab berikutnya. Kita akan memulai dengan membahas representasi data dalam Scikit-Learn, diikuti dengan membahas API Estimator, dan akhirnya melalui contoh yang lebih menarik tentang penggunaan alat-alat ini untuk mengeksplorasi serangkaian gambar digit tulisan tangan.¹⁴

14 Jake Vander Plas. 2017. Python Data science Handbook. Sebastopol: O’Reilly Media. Hlm.

343.

(20)

1.3.4. Data Science

1.3.4.1. Definisi Data Science

Sesuai dengan namanya, data science melibatkan data dan sains atau ilmu (yang dibutuhkan untuk memproses data). Data science mulai didengungkan pada tahun 80-an dan 90-an, namun baru benar-benar dipublikasikan pada tahun 2009 atau 2011. Ada berbagai pendapat tentang definisi data science tapi Profesor Murtaza Haider dari Ryerson University di Kanada memiliki definisi yang cukup mudah dimengerti. Secara sederhana dapatlah dikatakan bahwa data science

“terjadi” ketika kita bekerja dengan data untuk menemukan jawaban atas pertanyaan-pertanyaan (tentunya yang relevan dengan data tersebut).

Penekanannya lebih ke data itu sendiri dan bukan tentang sains atau ilmunya (yang dibutuhkan untuk menganalisisnya). Jika kita memiliki data, lalu kita memiliki curiousity (rasa ingin tahu) tentang “kandungan” atau “isi” data (yang bermanfaat), lalu untuk menjawab rasa ingin tahu tersebut kita mempelajari data, melakukan eksplorasi terhadap data itu, “memanipulasi”-nya, melakukan berbagai hal untuk menganalisis data tersebut dengan memanfaatkan ilmu dan teknologi tertentu untuk mendapatkan jawaban, itulah data science.

Tujuan akhir dari data science adalah untuk menemukan insights dari data.

Data science dapat dipandang sebagai proses untuk mendestilasi atau mengekstraksi atau menggali insights dari data. Data yang diolah dapat berukuran sedang hingga sangat besar. Insights tersebut dapat diibaratkan sebagai emas atau berlian, yang meskipun hanya sedikit atau berukuran kecil, namun tetap berharga.

Insights dapat berupa informasi penting maupun model-model yang dibuat dari data yang akan bermanfaat dalam mengambil keputusan. Insights yang ingin digali dari data perlu dimulai dengan rasa keingin-tahuan yang kuat dari diri sendiri atau dari organisasi tempat dia bekerja (berupa kebutuhan karena ada masalah yang ingin diselesaikan dengan memanfaatkan data). Berbekal ini, seorang data scientist lalu melakukan berbagai aktivitas dengan memanfaatkan ilmu dan teknologi yang sesuai untuk mendapatkan insights yang disasar.¹⁵

15 Veronika S. Murtini dan Mariskha T. Adithia. 2020. Pengantar Data science dan Aplikasinya Bagi Pemula. Bandung: Unpar Press. Hlm. 4-5.

(21)

1.3.4.2. Perkembangan Data Science

Istilah data science dapat ditelusuri kembali ke ilmuwan komputer Peter Naur pada tahun 1960 (Naur, 1992), namun data science juga memiliki akar evolusioner dalam statistika. Pada tahun 1962, ahli statistik terkenal John W. Tukey menuliskan bahwa selama ini saya pikir dia seorang ahli statistik, tertarik pada inferensi dari kasus khusus ke umum. Tetapi saat ia melihat perkembangan statistika matematika, ia mulai merasa bahwa minat intinya adalah dalam analisis data secara intrinsik adalah ilmu empiris.

Bidang manipulasi data telah berkembang pesat melalui metode matematika, statistika, dan ilmu komputer selama periode ini, dengan penelitian dari Peter Naur, yang menerbitkan "Concise Survey of Computer Methods" pada tahun 1974, Gregory Piatetsky-Shapiro yang mengorganisir dan memimpin workshop Knowledge Discovery in Databases (KDD) pertama pada tahun 1989, dan Usama Fayyad, Gregory Piatetsky-Shapiro, dan Padhraic Smyth, yang menerbitkan "From Data Mining to Knowledge Discovery in Databases" pada tahun 1996. Rujukan terhadap istilah data science sebagai disiplin dalam statistika dibuat dalam prosiding Konferensi Kelima Federasi Internasional dari Masyarakat Klasifikasi pada tahun 1996. Pada tahun 1997, selama kuliah pengantar sebagai Ketua Kursi H. C. Carver di Departemen Statistik Universitas Michigan, Jeff Wu benar-benar mengusulkan agar statistika berganti nama menjadi data science dan ahli statistik berganti nama menjadi "ilmuwan data".

Sejak awal abad ke-21, stok data telah berkembang secara eksponensial, terutama karena kemajuan dalam pemrosesan dan penyimpanan yang efisien dan ekonomis dalam skala besar, yang mengarah pada dorongan untuk mengumpulkan, menganalisis, dan menampilkan data dan informasi secara "real time", menawarkan kesempatan yang belum pernah terjadi sebelumnya untuk melakukan bentuk penemuan pengetahuan baru. Contoh-contoh termasuk kecerdasan buatan, pembelajaran mesin, pembelajaran mendalam, alur kerja ilmiah, dan mendefinisikan kembali apa sebenarnya data dengan kemampuan untuk mempelajari jenis data yang direpresentasikan dalam level-level yang lebih rendah

(22)

dari piramida manajemen pengetahuan yang direvisi oleh Jennex (misalnya, suara, gambar, dan teks).

Dengan pergeseran ini juga datang pemikiran ulang dari para sarjana dalam disiplin yang berkontribusi, seperti "Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics" oleh William S. Cleveland dan "Competing on Analytics" oleh Thomas H. Davenport dan Jeanne Harris. Para penulis ini, dan lainnya, melihat disiplin Data Science yang sedang berkembang sebagai bidang ilmu yang telah berubah dan baru yang telah melampaui batas-batas akademi ke industri hingga ke tingkat rasa ingin tahu yang lebih detail yang didorong oleh konektivitas sosial.¹⁶

1.3.4.3. OSEMN (Obtain, Scrub, Explore, Model, Interpret)

Proses OSEMN adalah model standar dan luas yang diterima secara luas dalam pengaturan penelitian di bidang Data Science. Proses OSEMN memecahkan masalah dalam Data Science/Analitik dalam skala besar. Penggunaan proses OSEMN memberikan urutan kegiatan yang jelas, diantaranya sebagai berikut.

1. Obtain Data

Data didapaatkan dari berbagai sumber pengamatan, pendataan, percobaan, dan kegiatn kegiatan lainnya untuk dapat dilakukan proses pebgolahan data selanjutnya.

2. Scrub Data

Fase pemeriksaan harus menjawab sepenuhnya atau sebagian pertanyaan yang memicu proses pemodelan data dan kebutuhan.Proses kerja ini dikembangkan dan diorganisir dengan baik. Ini terdiri dari beberapa kegiatan logis berturut- turut melalui mana tujuan awal tercapai. beberapa contoh yang tindakan perlu dilakukan antara lain, menggabungkan kolom data individu menjadi satu tabel, membersihkan data dari nilai yang tidak valid, normalisasi data, dan memproses nilai-nilai ekstrim.

16 Jennifer Priestly dan Robert J. Mcgrath. 2019. The Evolution of data Science: A New Mode of Knowledge Production. International Journal of Knowledge. Vol. 15 No. 2. Hlm. 2-3.

(23)

3. Explore Data

Jelajahi data (EDA) Menemukan, memperbaiki, dan memperkaya adalah operasi yang sangat berguna untuk menjelajahi data yang terkumpul.

Mengamati set data mentah membantu memilih pendekatan terbaik untuk melakukan penelitian analitis. Ini memungkinkan penemuan dan pemahaman elemen data unik, seperti nilai ekstrim atau tidak biasa yang kemudian dappat diolah untuk melakukan pemodelan data.

4. Model Data

Model data dalam paradigma pembelajaran suatu model, merujuk pada ekspresi matematika dari parameter model, bersama dengan penggantinya untuk setiap prediksi, contohnya seperti kelas, dan tindakan untuk kategori regresi, klasifikasi, dan penguatan masing-masing.

5. Interpretasi Data

Interpretasi data Langkah terakhir dan mungkin yang paling penting dalam model OSEMN adalah interpretasi data. Dalam proses ini, segala pertanyaan yang muncul dari suatu kasus harus terjawab sepenuhnya atau Sebagian pertanyaan yang memicu proses pemodelan data dan kebutuhan yang diminta.¹⁷

17 Kristina Dineva dan Tatiana Atanasova. 2018. OSMN Process for Working Over Data Acquire Devices Mounted In Beehives. Current Trends in Natural Sciences. Vol 7. No 13. Hlm 48-52.

(24)

BAB II

PENGUMPULAN DATA

2.1. Data Awal Dataset Electric Power Consumption

Electric Power Consumption Dataset adalah data informasi jumlah konsumsi tenaga listrik pada kipas angin. Adapun informasi yang dimuat pada dataset ini berada pada rentang waktu 1 Januari 2017-30 Desember 2017 dengan banyak data 52391 data dan 9 kolom yaitu Date Time, Temperature, Humidity, Wind Speed, General Diffuse Flows, Diffuse Flows, Power Consumption Zone 1, Power Consumption Zone 2, dan Power Consumption Zone 3. Informasi lebih lengkap dataset tersebut dapat dilihat pada Tabel 2.1.

Tabel 2.1. Keterangan Dataset Electric Power Consumption

Index Column Non-Null Count Dtype

0 Date Time 52416 Object

1 Temperature 52414 Float64

2 Humidity 52411 Float64

3 Wind Speed 52411 Float64

4 General Diffuse Flows 52405 Float64

5 Diffuse Flows 52411 Float64

6 Power Consumption Zone 1 52407 Float64

Sumber: Pengumpulan Data

Berikut adalah isi dari Electric Power Consumption Dataset yang dapat dilihat pada Tabel 2.2.

Tabel 2.2. Tabel Isi Dataset Electric Power Consumption

Date

Time Temperature Humidity

Wind Speed

General Diffuse Flows

Diffuse Flows

Power Consump- tion Zone 1

Power Consump- tion Zone 2

Power Consump- tion Zone 3 1/1/2017

0:00 6.559 73.8 0.083 0.051 0.119 34055.6962 16128.87538 20240.96

39 1/1/2017

0:10 6.414 74.5 0.083 0.07 0.085 29814.6835 19375.07599 20131.08

43

(25)

Tabel 2.2. Tabel Isi Dataset Electric Power Consumption (Lanjutan)

Date Time Temperature Humidity

Wind Speed

General Diffuse Flows

Diffuse Flows

Power Consump- tion

Zone 1

Power Consump- tion

Zone 2

Power Consum p- tion Zone 3 1/1/2017

0:20

6.313 74.5 0.08 0.062 0.1 29128.1013 19006.68693 19668.43

37 1/1/2017

0:30

6.121 75 0.083 0.091 0.096 28228.8608 18361.09422 18899.27

71 1/1/2017

0:40

5.921 75.7 0.081 0.048 0.085 27335.6962 17872.34043 18442.40

96

… … … …

9/9/2017 9:10

22.87 81.2 0.27 332.9 90.9 31291.3274 18778.37838 13955.79

16 9/9/2017

9:20

23.29 80.6 0.283 329.2 75.6 32750.0885 19279.83368 14297.03

78 9/9/2017

9:30

23.6 78.4 0.277 484.2 74,7 32419.1150 19511.85031 14779.48

93 9/9/2017

9:40

23.88 76 0.313 497 66.65 32724.9558 19788.77339 14920.69

46 9/9/2017

9:50

23.88 76 0.313 497 66.65 32724.95575 19788.77339 14920.69

46

2.2. Formulasi Permasalahan Data Awal

Pada dataset Electric Power Consumption, data ditentukan beberapa sub komponen yang akan dijadikan sebagai variabel X dan variabel Y untuk dianalisis menggunakan diagram. Adapun sub komponen yang menjadi variabel X dan Y pada dataset ini dapat dilihat pada Tabel 2.3.

Tabel 2.3. Formulasi Permasalahan Data

No Variabel X Variabel Y Chart Keterangan

1

General Diffuse

Flows

Temperature Line Chart

Menampilkan perbandingan antara aliran

udara dan suhu.

2 Date Time Temperature Bar Chart

Menampilkan perbandingan antara suhu

dalam periode waktu tertentu 3 Humidity Temperature Pie Chart

Menampilkan proporsi antara suhu dan

kelembapan

(26)

Tabel 2.3. Formulasi Permasalahan Data (Lanjutan)

No Variabel X Variabel Y Chart Keterangan

4 Wind Speed Temperature Scatter Plot

Menampilkan hubungan antara suhu dan kecepatan

angin.

Berikut adalah scatter plot dari Wind Speed dan Temperature untuk menentukan hubungan antara Wind Speed dan Temperature yang dapat dilihat pada Gambar 2.1.

Gambar 2.1 Scatter Plot Wind Speed vs Temperature

Sumber: Anaconda Navigator

Gambar 2.1. Tampilan Scatter Plot Dataset

(27)

3.1. Import Data

Import data ke Jupyter Notebook adalah proses memasukkan atau memuat data dari berbagai sumber ke dalam lingkungan Jupyter Notebook. Data ini bisa berasal dari berbagai sumber seperti file lokal (seperti CSV, Excel, atau JSON), database, API web, atau bahkan data yang dihasilkan secara dinamis. Adapun langkah-langkah untuk meng-import data ke Jupyter Notebook adalah sebagai berikut.

1. Dicari data yang akan diolah melalui website Kaggle, kemudian download dataset tersebut. Tampilan awal download dataset dapat dilihat pada Gambar 3.1.

Sumber: Kaggle

Gambar 3.1. Tampilan Download Dataset Pada Website Kaggle

2. Dibuka Anaconda Navigator dan pilih launch pada Jupyter Notebook seperti pada Gambar 3.2.

(28)

Sumber: Anaconda Navigator

Gambar 3.2. Tampilan Anaconda Navigator

3. Setelah homepage Jupyter Notebook terbuka pilih upload, dan pilih nama CSV yang telah diunduh pada website Kaggle, seperti pada Gambar 3.3.

Sumber: Jupyter Notebook

Gambar 3.3. Tampilan Homepage Jupyter Notebook

4. Setelah terbuka tampilan pada Jupyter Notebook, maka dataset akan tertera ke dalam homepage Jupyter Nootebook Gambar 3.4.

(29)

Gambar 3.4. Tampilan Dataset pada Homepage Jupyter Notebook

3.2. Import Library

Import library dalam Python adalah proses memasukkan kode yang telah ditulis sebelumnya ke dalam program Python yang sedang ditulis. Library yang di- import biasanya disesuaikan dengan proses yang diinginkan. Dalam pengolahan dataset ini digunakan pandas, numpy, scikit-learn dan matplotlib sebagai berikut.

1. Import Library Pandas

Library pandas adalah library pada Python untuk membantu dalam membaca, menulis, dan mengolah data dalam berbagai format, terutama data tabular seperti CSV, Excel, SQL databases, dan lainnya. Langkah-langkah untuk meng-import library pandas dapat dilakukan dengan memasukkan coding seperti pada Gambar 3.5.

Gambar 3.5. Tampilan Kode Import Library Pandas

(30)

2. Import Library Numpy

Library numpy adalah bahasa pemrograman Python yang menyediakan dukungan untuk array dan operasi array. Import library numpy dapat dilakukan dengan memasukkan coding seperti pada Gambar 3.6.

Gambar 3.6. Tampilan Import Library Numpy

3. Import Library Scikit-Learn

Library scikit-learn menyediakan algoritma machine learning dan alat untuk preprocessing data. Import library scikit-learn dapat dilakukan dengan memasukkan coding seperti pada Gambar 3.7.

Gambar 3.7. Tampilan Import Library Scikit-Learn

4. Import Library Matplotlib

Library matplotlib berguna Membuat visualisasi data, seperti grafik garis, histogram, dan scatter plot. Import library matplotlib dapat dilakukan dengan memasukkan coding seperti pada Gambar 3.8.

Gambar 3.8. Tampilan Import Library Matplotlib

3.3. Data Cleansing dan Exploratory Data Analysis

Data Cleansing dan Exploratory Data Analysis (EDA) adalah dua tahapan penting dalam pengolahan data yang sering dilakukan sebelum melakukan analisis lebih lanjut atau membangun model prediktif berupa proses membersihkan data dari kesalahan dan proses menganalisis struktur dan karakteristik data dengan menggunakan teknik visualisasi dan ringkasan statistik. Adapun langkah-langkah

(31)

untuk melakukan proses Data Cleansing dan Exploratory Data Analysis adalah sebagai berikut.

1. Dipanggil dataset awal dari dataset Electric Power Consumption menggunakan perintah seperti pada Gambar 3.9.

Gambar 3.9. Tampilan Pemanggilan Dataset 2. Dilakukan pemeriksaan informasi dataset seperti pada Gambar 3.10.

Gambar 3.10. Tampilan Pemeriksaan Informasi Dataset

(32)

3. Dilakukan pengecekan missing value dari dataset seperti pada Gambar 3.11.

Gambar 3.11. Tampilan Kode Missing Value

4. Dilakukan penghapusan missing value pada dataset seperti pada Gambar 3.12.

Gambar 3.12. Tampilan Menghapus Baris Pada Dataset yang Kosong

(33)

5. Dilakukan pengecekan missing value kembali pada dataset seperti pada Gambar 3.13.

Gambar 3.13. Tampilan Pengecekan Missing Value

6. Dilakukan pengujian nilai statistik Temprature pada dataset tersebut. Cara pengujian statistik dapat dilihat seperti pada Gambar 3.14.

Gambar 3.14. Tampilan Deskripsi Variabel

(34)

7. Diurutkan data variabel yang diinginkan, pada kasus ini sesuai dengan waktu seperti pada Gambar 3.15.

Gambar 3.15. Tampilan Urutkan Data

8. Diperiksa waktu terlama dan terbaru berdasarkan isi dataset tersebut seperti pada Gambar 3.16.

Gambar 3.16. Tampilan Pemeriksaan Waktu 9. Dibuat dataset bersih dari dataset awal seperti pada gambar 3.17.

Gambar 3.17. Tampilan Pembuatan CSV Dataset Bersih

(35)

10. Dipanggil dataset yang telah dibersihkan tadi seperti pada gambar 3.18 .

Gambar 3.18. Tampilan Pemanggilan Dataset Bersih

3.4. Data Visualization

Data visualization pada Python adalah proses menggambarkan data dan informasi dalam bentuk grafis atau visual menggunakan berbagai library dan alat yang tersedia dalam ekosistem Python. Terdapat beberapa jenis visualisasi pada Python yaitu sebagai berikut.

3.4.1. Line Chart

Line chart digunakan untuk menampilkan data dalam bentuk garis yang menghubungkan titik-titik data yang terurut. Adapun langkah-langkah dalam pembuatan line chart adalah sebagai berikut.

1. Ditentukan variabel yang akan dipakai untuk divisualisasikan dengan melakukan grouping dan pengurutan data serta hanya memakai 30 data teratas seperti pada Gambar 3.19.

(36)

Gambar 3.19. Tampilan Grouping dan Pengurutan Variabel

2. Dibuat coding untuk membuat visualisasi line chart dari data yang telah dipilih seperti pada Gambar 3.20.

Gambar 3.20. Tampilan Visualisasi Line Chart

(37)

3.4.2. Bar Chart

Bar chart digunakan untuk menampilkan data dalam bentuk batang vertikal atau horizontal. Adapun langkah-langkah dalam pembuatan bar chart adalah sebagai berikut.

2. Dibuat coding untuk membuat visualisasi bar chart dari data yang telah dipilih seperti pada Gambar 3.22.

(38)

Gambar 3.22. Tampilan Kode Visualisasi Bar Chart

3.4.3. Pie Chart

Pie chart digunakan untuk menampilkan proporsi atau persentase setiap bagian dari keseluruhan data. Adapun langkah-langkah dalam pembuatan piechart adalah sebagai berikut.

(39)

Gambar 3.23. Tampilan Grouping dan Pengurutan Variabel 2. Dicari total temperature seperti pada Gambar 2.24.

Gambar 3.24. Tampilan Mencari Nilai Total Temperature

3. Dibuat coding untuk memvisualisasikan pie chart dari kedua variabel tersebut seperti pada Gambar 3.25 .

(40)

Gambar 3.25. Tampilan Visualisasi Pie Chart

3.4.4. Scatter plot

Scatter plot digunakan untuk menampilkan ketergantungan antara dua variabel dengan menempatkan titik data di koordinat kartesian. Adapun langkah- langkah dalam pembuatan Scatter plot adalah sebagai berikut.

(41)

2. buat coding untuk membuat visualisasi bar chart dari kedua variabel yang telah dipilih seperti pada Gambar 3.27.

Gambar 3.27. Tampilan Visualisasi Scatter Plot

3.5. Linear Regression

Linear regression adalah salah satu teknik dalam machine learning yang digunakan untuk memodelkan hubungan linier antara satu atau lebih fitur (variabel independen) dan variabel target (variabel dependen). Dalam konteks Linear Regression, 𝑓(𝑤,𝑏,𝑥) adalah fungsi yang memprediksi nilai target y berdasarkan fitur 𝑥, dengan menggunakan parameter w (bobot) dan 𝑏 (bias).

fw,b(x) = wx+b Keterangan:

fw,b(x) = Hasil Prediksi

x = WindSpeed

y = Temperature

w dan b = Parameter

Sedangkan cost function (fungsi biaya) adalah metrik yang digunakan untuk mengevaluasi seberapa baik model linear regression memprediksi nilai

(42)

target. Adapun langkah-langkah dalam pembuatan linear regression adalah sebagai berikut.

1. Dibuat fungsi linear regression ke dalam Jupyter Notebook seperti pada Gambar 3.28.

Gambar 3.28. Tampilan Fungsi Linear Regression 2. Selanjutnya, dibuat definisi cost function seperti pada Gambar 3.29.

Gambar 3.29. Tampilan Cost Function

3. Dipanggil dataframe yang akan di-linear regresi seperti pada Gambar 3.30.

Gambar 3.30. Tampilan Dataframe yang Dipanggil

(43)

4. Diubah dataframe menjadi bentuk array seperti pada Gambar 3.31.

Gambar 3.31. Tampilan Dataframe Menjadi Array 5. Cari nilai jangkauan dari Windspeed seperti pada Gambar 3.32.

Gambar 3.32. Tampilan Nilai Jangkauan WindSpeed

6. Divisualisasikan terlebih dahulu data awal dari windspeed dan temperature seperti pada Gambar 3.33.

Gambar 3.33. Tampilan Visualisasi Windspeed dan Temperature

(44)

7. Dilakukan normalisasi menggunakan z score dengan rumus 𝑧 = ^𝑥−𝜇

𝜎 seperti pada Gambar 3.34.

Gambar 3.34. Tampilan Pendefinisian Z Score 8. Hasil normalisasi dari windspeed dapat dilihat pada Gambar 3.35.

Gambar 3.35. Tampilan Hasil Normalisasi Windspeed

9. Divisualisasikan hasil normalisasi dengan scatter plot yang dapat dilihat pada Gambar 3.36.

Gambar 3.36. Tampilan Scatter plot Hasil Normalisasi

(45)

10. Ditentukan parameter w dan b sesuai model linear regression yang dapat dilihat seperti Gambar 3.37.

Gambar 3.37. Tampilan Nilai w dab b

11. Dihitung linear regression menggunakan parameter w dan b seperti pada Gambar 3.38.

Gambar 3.38. Tampilan Nilai Linear Regression Function

12. Divisualisasikan data hasil linear regression menggunakan scatter plot seperti pada Gambar 3.39.

Gambar 3.39. Tampilan Linear Regression

(46)

13. Dibuat dataframe prediksi dari hasil pembuatan linear regression seperti pada Gambar 3.40.

Gambar 3.40. Tampilan Dataframe Prediksi Hasil Linear Regression

14. Dibuat prediksi dataframe tersebut kedalam bentuk CSV seperti pada Gambar 3.41.

Gambar 3.41. Mengubah Dataframe Prediksi Hasil Linear Regression Menjadi Tampilan CSV

(47)

BAB IV

ANALISIS DAN EVALUASI

4.1. Analisis

4.1.1. Analisis Dataset Awal

Data awal yang digunakan pada praktikum ini adalah Electric Power Consumption Dataset yang berisi data informasi jumlah konsumsi tenaga listrik pada kipas angin. Adapun informasi yang dimuat pada dataset ini berada pada rentang waktu 1 Januari 2017-30 Desember 2017 dengan banyak data 52391 data dan 9 kolom yaitu:

1. Kolom Date Time

Kolom Date Time menunjukan periode waktu dataset. Kolom ini memiliki data type obeject.

2. Kolom Temperature

Kolom Temperature menunjukan suhu kipas pada saat pencatatan data. Kolom ini memiliki memiliki data type float64.

3. Kolom Humidity

Kolom Humidity menunjukan jumlah uap yang ada pada udara. Kolom ini memiliki data type float64.

4. Kolom Wind Speed

Kolom Wind Speed menunjukan kecepatan angin. Kolom ini memiliki data type float64.

5. Kolom General Diffuse Flows

Kolom General Diffuse Flows menunjukan aliran udara secara umum. Kolom ini memiliki data type float64.

6. Kolom Diffuse Flows

Kolom Diffuse Flows menunjukan aliran udara secara spesifik. Kolom ini memiliki data type float64.

7. Kolom Power Consumption Zone 1

Kolom Power Consumption Zone 1 menunjukan konsumsi energi pada zona pertama. Kolom ini memiliki data type

Kolom Power Consumption Zone 2 menunjukan konsumsi energi pada zona

(48)

kedua. Kolom ini memiliki data type float64.

Kolom Power Consumption Zone 3 menunjukan konsumsi energi pada zona ketiga. Kolom ini memiliki data type float64.

4.1.2. Analisis Data Cleansing dan Exploratory Data Analysis

Data Cleansing adalah proses membersihkan data dari kesalahan, inkonsistensi, dan ketidaksempurnaan agar data menjadi lebih dapat dipercaya dan relevan untuk analisis. Exploratory Data Analysis adalah proses analisis awal yang dilakukan untuk memahami struktur dan karakteristik data. Tujuannya adalah untuk menemukan pola, hubungan, anomali, atau tren yang mungkin tersembunyi dalam data. Data Cleansing dan Exploratory Data Analysis yang dilakukan pada praktikum ini berupa membaca info dataset, melakukan pemeriksaan data yang kosong pada dataset, mengisi data yang hilang pada dataset, mengolah serta membaca data dari kolom yang akan diprediksi nantinya, mengurutkan data, mencari nilai maksimal dan minimal dari data, dan yang terakhir menyimpan data yang sudah dibersikan menjadi data baru. Jumlah data yang missing value ada sebanyak delapan komponen yang terdiri dari Temperature, Humidity, Wind Speed, General Diffuse Flows, Diffuse Flows, Power Consumtion Zone 1, Power Consumtion Zone 2, dan Power Consumtion Zone 3. Jumlah data setelah dilakukan data cleansing ada sebanyak 161.917 data dengan 52.390 baris dan 9 kolom.

4.1.3. Analisis Data Visualization

Data Visualization adalah cara untuk menggambarkan data menggunakan grafik dan plot untuk memahami pola dan hubungan dalam data secara visual. Berikut Data Visualization yang digunakan pada praktikum ini:

(49)

1. Line Chart

Line Chart menampilkan hubungan perbandingan suhu dalam periode waktu tertentu. Dari analisis Line Chart dapat ditarik kesimpulan bahwa besar suhu kipas relatif turun seiring berjalannya waktu.

2. Bar Chart

Bar Chart menampilkan perbandingan antara suhu dan aliran udara secara umum. Dara analisis Bar Chart dapat ditarik kesimpulan bahwa jumlah aliran udara secara umum relatif naik seiring naiknya suhu kipas.

3. Pie Chart

Pie Chart menampilkan proporsi antara kelembapan dan suhu. Dari analisis Pie Chart dapat ditarik kesimpulan bahwa proporsi presentase kelembapan terhadapat suhu paling banyak adalah data bernilai 77,92 dan data yang paling sendikit bernilai 102,76.

4. Scatter Plot

Scatter Plot menampilkan hubungan antara kecepatan angin dan suhu.

Dari analisis Scatter Plot dapat ditarik kesimpulan bahwa kecepatan angin relatif turun seiring besar suhu kipas juga turun.

4.1.4. Analisis Linear Regression

Fungsi linear regression pada Jupyter Notebook adalah metode statistik yang digunakan untuk memodelkan hubungan linier antara variabel dependen (y) dan satu atau lebih variabel independen (x). Tujuannya adalah untuk memprediksi nilai y berdasarkan nilai x. Linear regression yang dibuat pada praktikum ini adalah memprediksi komponen Temperature yang berperan sebagai sumbu y berdasarkan komponen WindSpeed yang berperan sebagai sumbu x.

(50)

4.2. Evaluasi

4.2.1. Evaluasi Dataset Awal

Evaluasi dataset awal merupakan tahap penting dalam memastikan kualitas data sebelum dilakukan analisis lebih lanjut. Penting untuk menilai kesesuaian dataset dengan kebutuhan analisis yang dimaksud. Kemudian, evaluasi terhadap kualitas data menjadi fokus utama, termasuk kebersihan, kelengkapan, dan akurasi data. Selanjutnya, relevansi atribut dataset harus dipertimbangkan sejauh mana hubungannya dengan tujuan praktikum.

Selain itu, ukuran sampel dataset juga menjadi pertimbangan penting untuk memastikan representasi yang memadai dalam analisis. Terakhir, sumber dataset perlu dievaluasi terkait dengan validitas dan kepercayaannya serta proses pengumpulan data.

4.2.2. Evaluasi Data Cleaning and Exploratory Data Analysis

Pembuatan Data Cleaning dan Exploratory Data Analysis (EDA) merupakan tahapan krusial dalam persiapan data sebelum analisis. Evaluasi terhadap proses ini mencakup penilaian terhadap ketepatan, konsistensi, dan efektivitas pembersihan data, serta relevansi visualisasi dan analisis statistik yang dihasilkan. Selanjutnya, relevansi visualisasi yang dihasilkan dari EDA juga menjadi fokus evaluasi, dimana visualisasi haruslah memperhatikan library dan menuliskan coding yang benar, serta sesuai dengan tujuan analisis dan mampu menggambarkan informasi penting dari data dengan jelas.

4.2.3. Evaluasi Data Visualization

Dalam pembuatan data visualization harus dipastikan sesuai dengan tujuan analisis yang ditetapkan. Kemudian, keterbacaan visualisasi menjadi fokus, memastikan informasi dapat dipahami dengan jelas. Penting juga untuk mengevaluasi ketepatan representasi data dan pemilihan metode visualisasi yang sesuai dengan jenis data yang hendak disajikan. Terakhir, efektivitas komunikasi visualisasi harus dievaluasi untuk memastikan pesan

(51)

dapat disampaikan dengan baik. Dengan memperhatikan poin-poin tersebut, evaluasi akan membantu memastikan bahwa data visualization yang dibuat memberikan kontribusi maksimal.

4.2.4. Evaluasi Linear Regression

Dalam pembuatan Linear Regression dataset Electric Power Consumption, beberapa komponen penting perlu diperhatikan. Pemilihan variabel independen yang relevan dengan variabel dependen menjadi langkah krusial dalam membangun model yang tepat. Normalisasi atau standarisasi data diperlukan untuk memastikan interpretasi yang benar terhadap koefisien regresi. Proses ini juga melibatkan pemisahan dataset menjadi data pelatihan dan pengujian untuk menguji kinerja model secara objektif. Selama implementasi, penting untuk memeriksa asumsi-asumsi yang mendasari model Linear Regression, seperti distribusi normalitas.

Evaluasi kualitas model dengan menggunakan metrik evaluasi yang tepat seperti R-squared, Mean Squared Error (MSE), atau Mean Absolute Error (MAE) juga penting untuk mengevaluasi kinerja model secara holistik.

(52)

BAB V

KESIMPULAN DAN SARAN

5.1. Kesimpulan

Beberapa kesimpulan yang dapat diambil dari Modul Pyhton for Data Science pada Jupyter Notebook setelah mengolah data Electric Power Consumption Dataset adalah sebagai berikut:

1. Programming Python bertujuan untuk mengembangkan keterampilan praktis dalam menulis dan mengeksekusi kode Python guna menyelesaikan beragam masalah komputasi. Hal ini melibatkan pemahaman mendalam terhadap struktur, sintaks, dan fungsi yang disediakan oleh Python, serta penguasaan terhadap prinsip-prinsip dasar pemrograman seperti variabel, tipe data, dan pengaturan aliran kontrol. Memahami library Python seperti NumPy, Pandas, dan Matplotlib adalah hal yang penting untuk analisis data dan visualisasi.

Dengan pemahaman mendalam terhadap dasar pemrograman Python dan penguasaan library yang relevan, pengguna dapat memanfaatkan Python secara maksimal untuk mengembangkan solusi yang efektif dan efisien dalam berbagai konteks komputasi.

2. Praktikum pengolahan data menggunakan Jupyter Notebook dengan dataset Electric Power Consumption membuat konsep Data Science dapat dipahami sebagai pendekatan sistematis dalam eksplorasi, analisis, dan pemahaman data untuk tujuan pengambilan keputusan yang terinformasi. Praktikum ini menekankan pentingnya metodologi OSEMN, yaitu Obtain, Scrub, Explore, Model, dan Interpret yang merupakan tahapan kritis dalam siklus hidup pengolahan data. Berdasarkan praktikum tersebut, data dapat divisualisasikan menggunakan berbagai library seperti Matplotlib, Pandas, dan lain sebagainya.

3. Python merupakan bahasa pemrograman yang sangat berguna dalam ilmu Data Science. Penggunaan Python dalam Data Science didukung oleh ekosistem library yang kuat seperti NumPy, Pandas, dan Matplotlib yang menyediakan

(53)

berbagai alat dan fungsi untuk memproses, menganalisis, dan memvisualisasikan data. Misalnya, Pandas memungkinkan pengguna untuk dengan mudah memuat, membersihkan, dan memanipulasi data, sedangkan Matplotlib menyediakan berbagai pilihan untuk membuat melakukan visualisasi data menggunakan plot dan grafik yang informatif. Selain itu, Python juga menawarkan kemampuan analisis statistik melalui library yang memungkinkan pengguna untuk menerapkan melakukan analisis statistik yang mendalam pada data mereka.

5.2. Saran

Adapun saran yang dapat dijabarkan dalam Electric Power Consumption Dataset adalah sebagai berikut.

1. Sebaiknya Laboratorium Pemodelan dan Simulasi dapat menambah fasilitas seperti meja dan kursi untuk kegiatan praktikum serta menambah aliran listrik untuk menyalakan fasilitas seperti kipas agar mahasiswa lebih nyaman dalam melakukan praktikum.

2. Sebaiknya Modul Pyhton for Data Science dapat menjelaskan secara lebih lengkap dan lebih luas dalam fitur-fitur yang terdapat didalam Jupyter Notebook sehingga para mahasiswa dapat mengetahui kegunaan dari masing- masing fitur Jupyter Notebook secara baik.

3. Sebaiknya Asisten Laboratorium Pemodelan dan Simulasi dapat menjelaskan materi dengan tidak terlalu terburu-buru dan memberi tenggat waktu pengerjaan tugas lebih lama sehingga para mahasiswa dapat lebih memahami aplikasi yang sedang digunakan.

4. Sebaiknya mahasiswa mencatat hasil dan perbaikan dari praktikum untuk referensi praktikum selanjutnya agar dapat berjalan dengan lebih baik.