Desain Dataset - HASIL DAN PEMBAHASAN - CLUSTERING DATA SISWA SMPN-6 PALANGKA RAYA UNTUK MENENT

BAB IV HASIL DAN PEMBAHASAN

3.1 Desain Dataset

Desain Dataset yang diolah menggunakan aplikasi Microsoft Excel sebelum dilakukannya pengolahan program Clsutering K-Means.

Berikut tabel data siswa yang digunakan untuk perhitungan algoritma K-Means Clustering.

Tabel 4. Desain Dataset Siswa

No Nama Pekerjaan Orang Tua

1. Abi Abas Ifnul Mulkan

2. Adetia Setiawan 2

3. Adhelia Kirana 2

4. Adinda Desya Safira 10

Adapun Tabel 4 merupakan contoh bentuk dataset yang akan diolah kedalam program Clustering K-Means. Sebelum diolah dataset tersebut diimplementasikan kedalam aplikasi Microsoft Excel. Dataset diatas memiliki 2 Variabel yaitu Nama Siswa dan Pekerjaan Orang Tua.

Tabel 5. Desain Dataset Siswa

Penghasilan Orang Tua Usia Orang Tua Nilai rata-rata

3 50 80

3 52 76

3 45 90

3 40 95

Adapun Tabel 5 merupakan contoh bentuk dataset yang akan diolah kedalam program Clustering K-Means. Sebelum diolah dataset tersebut diimplementasikan kedalam aplikasi Microsoft Excel. Dataset diatas memiliki 3 Variabel yaitu Penghasilan Orang Tua, Usia Orang Tua dan Nilai rata – rata.

30 Implementasi

Dalam pengolahan program Clustering Data Siswa SMPN-6 Palangka Raya Untuk Menentukan Kelayakan Bantuan Siswa Miskin dan Berprestasi, penulis menggunakan software atau aplikasi bantu yaitu aplikasi Anaconda Navigator dan aplikasi didalamnya yaitu Jupyter Notebook menggunakan Bahasa pemograman Python. Program tersebut dibuat untuk mengelompokkan data siswa yang berprestasi dan layak untuk mendapatkan Bantuan Siswa Miskin (BSM). Hal pertama yang dilakukan pengguna dalam mengolah program Clustering K-Means yaitu menyiapkan dataset yang dibuat menggunakan Microsoft Office Excel dengan format .csv.

File output Microsoft Excel dengan format .csv akan terlihat seperti pada Gambar 2. Dataset diatas merupakan data asli dari tempat penelitian yaitu SMPN-6 Kota Palangka Raya dengan jumlah data siswa keseluruhan sebanyak 260 data. Dataset tersebut berisikan 4 field dan memiliki 219 record

Gambar 2. Dataset pada tampilan Microsoft Excel

disetiap masing-masing fieldnya. Data tersebut yang akan dilakukan pengklasteran atau pengelompokkan data siswa yang berprestasi dan layak mendapat Bantuan Siswa Miskin (BSM). Setelah itu menjalankan aplikasi Anaconda Navigator dan memilih aplikasi didalam nya yaitu Jupyter Notebook dengan menggunakan Bahasa pemograman Python. Seperti pada Gambar 3 :

Jupyter Notebook merupakan tool yang populer untuk mengolah data di Python. Jupyter Notebook memungkinkan untuk mengintegrasikan antara kode dengan output di dalam satu dokumen secara interaktif. Setelah menjalankan Jupyter Notebook, pengguna akan diarahkan ke tampilan browser untuk mengolah data atau tahap pemograman.

Gambar 4. Tampilan Jupyter Notebook Gambar 3. Tampilan Anaconda Navigator

Setelah memilih directory atau tempat penyimpanan, pengguna ke menu new disebelah kanan pojok atas dan pilih Python3. Setelah itu akan diarahkan ke tampilan Jupyter Notebook yaitu tempat untuk mengolah program.

Dengan menggunakan beberapa library, module, package untuk mendukung pengolahan program Clustering K-Means dan berbagai perintah/coding yang banyak disediakan sesuai kebutuhan dan program apa yang pengguna ingin diolah.

Setelah tampilan Jupyter Notebook terbuka tahap pertama yang dilakukan yaitu memasukan beberapa library. Adapun contoh source code untuk menambahkan library yang digunakan dalam pengolahan program Clustering K-Means seperti pada lampiran 10.

Ada 6 library yang digunakan contohnya seperti numpy untuk memudahkan operasi komputasi data numerik, pandas digunakan untuk membuat tabel, mengubah dimensi data, mengecek data, dan lain sebagainya, seaborn digunakan untuk membuat grafik dan statistik, serta library untuk perhitungan Clustering K-Means dan membuat area plot secara visualisasi.

Gambar 5. Tampilan Workspace Jupyter Notebook

Setelah itu tekan shift+enter untuk lanjut ke cell baru. Langkah selanjutnya mengimport dataset yang sebelumnya sudah diolah pada Microsoft Office Excel. Adapun source code untuk mengimport dataset dapat dilihat pada lampiran 10

Dengan menggunakan perintah seperti pada lampiran tersebut untuk memanggil file dataset sesuaikan dengan nama file lengkap beserta format nya. Untuk menampilkan dataset tersebut pengguna menggunakan perintah seperti pada Gambar 6 :

Perintah pada Gambar 6 untuk menampilkan dibagian awal atau kepala dari dataset. Perintah diatas hanya menampilkan 5 data teratas dari 260 data. Setelah itu dikarenakan pengguna berfokus pada 4 variabel yaitu

“Pekerjaan Orang Tua”, “Penghasilan Orang Tua”, “Usia Orang Tua” dan

“Nilai Rata-Rata” untuk menentukan siswa berprestasi yang layak menerima Bantuan Siswa Miskin (BSM), maka pengguna menggunakan perintah seperti pada lampiran 10.

Perintah tersebut untuk mengambil variabel yang pengguna tentukan.

Dari 5 variabel diatas pengguna hanya mengambil 4 variabel yaitu “Pekerjaan Orang Tua”, “Penghasilan Orang Tua”, “Usia Orang Tua” dan “Nilai

Rata-Gambar 6. Bentuk Dataframe dari Dataset

Rata”. Untuk menampilkan hasil dari perintah tersebut pengguna menggunakan perintah seperti pada Gambar 7 :

Perintah pada Gambar 7 menampilkan 5 dataset teratas dari 260 dataset. Untuk variabel yang digunakan juga sudah sesuai dengan yang pengguna tentukan sebelumnya yaitu variabel “Pekerjaan Orang Tua”,

“Penghasilan Orang Tua”, “Usia Orang Tua” dan “Nilai Rata-Rata”. Setelah itu pengguna ingin melihat maupun mengolah kesimpulan data statistika nya dengan melakukan describe dataset dengan menggunakan perintah seperti pada lampiran 10 :

Dari Gambar 8 kita dapat melihat nilai Count, mean, std (standar deviasi), min, 25%, 50%, 75% dan max dari masing – masing variabel.

Penulis juga dapat mengambil kesimpulan statistika nya dengan melihat letak standar deviasi terbesar berada divariabel “Nilai Rata-Rata” dan letak standar

Gambar 7. Tampilan Dataframe

Gambar 8. Describing Data

deviasi terkecil berada divariabel “Penghasilan Orang Tua” serta kesimpulan statistika lainnya. Kemudian penulis ingin melihat nomor index beserta tipe datanya dari dataset tersebut dapat menggunakan perintah seperti pada lampiran 10.

Setelah tampil info dari setiap variabel beserta type datanya penulis dapat melihat columns yang terdapat pada dataframe dan banyak nya data dari masing – masing variabel. Setelah itu penulis ingin melihat frekuensi dari 4 variabel tersebut yaitu “Pekerjaan Orang Tua”, “Penghasilan Orang Tua”,

“Usia Orang Tua” dan “Nilai Rata-Rata” dengan dituangkan kedalam bentuk histogram agar terlihat jelas dan nampak secara visualisasi. Maka dari itu penulis dapat menggunakan perintah seperti pada lampiran 10 untuk melihat frekuensi dari variabel “Pekerjaan Orang Tua”.

Gambar 9. Tampilan info dari Dataset

Dapat dilihat bahwa hasil dari histogram pada variabel “Pekerjaan Orang Tua” frekuensi tertinggi berada pada angka 2 atau hasil dari inisialisasi wiraswasta, maka dari itu penulis dapat menarik kesimpulan bahwa dari 260 data siswa tersebut lebih banyak orang tua bekerja sebagai wiraswasta.

Setelah itu penulis ingin melihat frekuensi dari variabel selanjutnya yaitu variabel “Penghasilan Orang Tua”. Penulis menggunakan perintah seperti pada lampiran 10

Dapat dilihat bahwa hasil dari histogram pada variabel “Penghasilan Orang Tua” frekuensi tertinggi berada pada angka 3 atau hasil dari inisialisasi penghasilan orang tua diantara Rp. 1,000,000 - Rp. 1,999,999, maka dari itu

Gambar 10. Tampilan Histogram

Gambar 11. Tampilan Histogram

penulis dapat menarik kesimpulan bahwa dari 260 data siswa tersebut lebih banyak orang tua berpenghasilan diantara Rp. 1,000,000 - Rp. 1,999,999.

Setelah itu penulis ingin melihat frekuensi dari variabel selanjutnya yaitu variabel “Usia Orang Tua”. Penulis menggunakan perintah seperti pada lampiran 10.

Dapat dilihat bahwa hasil dari histogram pada variabel “Usia Orang Tua” frekuensi tertinggi berada pada usia 40 tahun, maka dari itu penulis dapat menarik kesimpulan bahwa dari 260 data siswa tersebut lebih banyak orang tua berusia 40 tahun. 40 tahun merupakan usia yang memasuki kategori cukup tua. Setelah itu penulis ingin melihat frekuensi dari variabel selanjutnya yaitu variabel “Nilai Rata-Rata” agar terlihat nilai rata-rata tertinggi pada 260 data siswa dengan begitu penulis dapat menarik kesimpulan antara 2 variabel dengan logika semakin banyak frekuensi berpenghasilan rendah dan semakin tinggi frekuensi untuk nilai rata -rata diantara 85-90 ke atas maka penulis dapat melihat kemungkinan berapa banyak siswa berprestasi yang mendapat Bantuan Siswa Miskin (BSM).

Gambar 12. Tampilan Histogram

Untuk menampilkan histogram variabel “Nilai Rata-Rata” Penulis menggunakan perintah seperti pada lampiran 10.

Dapat dilihat bahwa hasil dari histogram pada variabel “Nilai Rata-Rata” frekuensi tertinggi berada pada nilai 90, maka dari itu penulis dapat menarik kesimpulan bahwa dari 260 data siswa tersebut lebih banyak siswa yang memiliki nilai rata-rata 90. Setelah itu penulis ingin menganalisa keempat variabel tersebut menggunakan Multivariate Analysis dengan Pairplot agar mengetahui korelasi atau hubungan antar 2 buah variabel.

Dengan begitu pengguna lebih mudah melihat korelasi atau hubungan antar variabel. Untuk menampilkan analisa tersebut penulis menggunakan perintah seperti pada lampiran 10.

Pada lampiran tersebut merupakan perintah untuk menganalisa 4 variabel secara bersamaan menggunakan Multivariate Analysis dengan Pairplot, hasil dari Multivariate Analysis dapat dilihat pada Gambar 14.

Gambar 13. Tampilan Histogram

Pada Gambar 14 terlihat hasil dari Multivariate Analysis dengan menggunakan Pairplot, maka dari itu penulis dapat melihat secara visualisasi hubungan antar keempat variabel tersebut. Setelah itu penulis ingin melihat data yang kosong atau missing value pada kolom keempat variabel tersebut pada dataset dengan menggunakan perintah seperti pada lampiran 10.

Adapun perintah untuk menampilkan data yang kosong atau missing value pada kolom di masing – masing variabel dapat menggunakan perintah pada lampiran 8 bagian L , setelah itu ditampilkan hasil dari perintah tersebut seperti pada Gambar 15.

Gambar 14. Tampilan Pairplot dari Multivariate Analysis

Gambar 15. Menampilkan Data Kosong pada Variabel

Dari Gambar 15 dapat dilihat bahwa terdapat data yang kosong sebanyak 25 pada variabel “Pekerjaan Orang Tua”, terdapat data kosong sebanyak 25 pada variabel “Penghasilan Orang Tua”, terdapat data kosong sebanyak 18 pada variabel “Usia Orang Tua”, dan terdapat data kosong sebanyak 0 pada variabel “Nilai Rata-Rata” atau tidak ada data kosong. Maka penulis ingin menghapus data kosong tersebut agar pengklasteran menjadi lebih mudah dan sempurna. Penulis dapat menggunakan perintah seperti pada lampiran 10.

Pada Gambar 16 terlihat data kosong atau missing value pada masing-masing variabel telah dihapus atau bernilai 0 maka dari itu proses pengklasteran nanti menjadi lebih sempurna dan dapat dilanjutkan ke tahap selanjutnya. Setelah itu penulis ingin melakukan pencarian data yang outlier atau data pencilan, maka penulis dapat menggunakan perintah seperti pada lampiran 10.

Dengan menggunakan perintah tersebut untuk mencari data yang outlier atau data pencilan seperti pada lampiran maka selanjutnya penulis akan menampilkan data frame dengan perintah “df” . Maka data frame ditampilkan seperti pada Gambar 17.

Gambar 16. Tampilan menghapus data kosong

Pada Gambar 17 terlihat Data Frame yang telah dilakukan pencarian data outlier sebelumnya dengan jumlah baris sebanyak 219 dan 4 kolom, setelah itu pada tahap selanjutnya penulis ingin menampilkan hasil dari pencarian data outlier pada masing-masing variabel dengan menggunakan perintah seperti pada lampiran 10.

Pada lampiran tersebut merupakan perintah yang digunakan dalam menampilkan data outlier atau data yang pencilan dari masing – masing variabel, setelah itu ditampilkan data-data outlier tersebut seperti pada Gambar 18 :

Gambar 18. Data outlier pada masing-masing variabel Gambar 17. Tampilan Data Frame

Pada Gambar 18 menampilkan data – data yang outlier pada masing – masing variabel, data outlier paling banyak terdapat pada variabel

“Pekerjaan Orang Tua” dan terdapat 3 data outlier pada variabel “Usia Orang Tua”.

Setelah itu penulis ingin menghapus data outlier tersebut agar pengklasteran nanti menjadi lebih mudah dan sempurna. Adapun perintah yang penulis gunakan untuk menghapus data outlier tersebut dapat dilihat pada lampiran 10.

lampiran tersebut merupakan perintah untuk menghapus data outlier pada variabel yang terdapat data outlier sekaligus mengolah data frame baru atau data frame yang sudah tidak memiliki data outlier. Setelah itu penulis menampilkan data frame yang baru dengan menggunakan perintah pada lampiran 10.

Pada Gambar 19 dengan menampilkan data frame yang baru atau data frame setelah dilakukannya penghapusan data outlier pada masing – masing.

variabel memiliki perbedaan dengan data frame sebelumnya. Adapun perbedaan yang dimaksud yaitu jumlah baris pada data frame sebelumnya

Gambar 19. Tampilan Data frame yang baru

dengan jumlah 219 menjadi 171 pada data frame baru, maka dari itu tahap treatment outlier berhasil dilakukan. Setelah itu penulis ingin menampilkan data frame tersebut menjadi ke bentuk array guna melihat rentang atau jarak nilai antar variabel dengan menggunakan perintah seperti pada lampiran 10.

Dengan mengubah data frame ke bentuk array seperti pada Gambar 20, maka akan menjadi lebih mudah melihat rentang atau jarak nilai antar variabel. Dikarenakan penulis ingin mempunyai rentang nilai antara 0 dan 1 agar pengklasteran menjadi lebih sempurna dan mudah dilakukan, maka penulis menggunakan perintah untuk scalling data seperti pada lampiran 10.

Gambar 20. Bentuk Array

Dapat dilihat pada Gambar 21 rentang atau jarak nilai antar variabel berubah menjadi antara 0 sampai 1 sehingga proses pengklasteran menjadi lebih mudah dilakukan. Setelah itu pengguna mulai memasuki tahap Clustering K-Means diawali dengan menentukan jumlah cluster dengan menggunakan perintah seperti pada lampiran 10.

Perintah pada lampiran tersebut adalah untuk menentukan dan mengkonfigurasi fungsi K-Means nya. Seperti menentukan jumlah cluster dan random state nya. Menentukan jumlah cluster diambil dari data sebelumnya yaitu data x_scaled. Setelah itu penulis mencari nilai pusat dari masing-masing cluster dengan menggunakan perintah seperti pada lampiran 10.

Maka pada Gambar 22 didapat nilai pusat dari masing-masing cluster yaitu nilai pusat cluster 1 dan cluster 2 pada variabel “Pekerjaan Orang Tua”,

Gambar 21. Tampilan scalling data

Gambar 22. Menampilkan nilai Centroid

“Penghasilan Orang Tua”, “Usia Orang Tua” dan “Nilai Rata-Rata”. Setelah itu pengguna dapat mencetak hasil cluster dari 171 data tersebut dengan menggunakan perintah pada lampiran 8 bagian U

Dari Gambar 23 maka kita dapat melihat 171 data dengan masing-masing cluster nya diantara cluster 0 atau cluster 1. Dari hasil cluster tersebut pengguna akan menampilkan kedalam bentuk data frame dengan mengolah kolom baru untuk cluster nya. Adapun perintah untuk mengolah nya yaitu seperti pada lampiran 10.

Pada Gambar 22 kolom cluster pun sudah ditambahkan dengan mengambil dari data K-Means Labels sebelumnya. Agar dapat terlihat secara visualisasi hasil cluster yang telah diolah dengan hasil yang nampak dan jelas

Gambar 23. Menampilkan Cluster

Gambar 22. Source code menambahkan kolom Cluster

maka penulis mengolah grafik Scatterplot menggunakan perintah seperti pada lampiran 10

Hasil grafik scatterplot yang telah dibuat pada Gambar 23 kita dapat melihat secara nampak dan jelas kedua cluster beserta anggota - anggota nya.

Maka dapat pula diolah kesimpulan dengan menampilkan tabel 5 data nilai rata-rata tertinggi dan 5 data penghasilan orang tua terendah dengan menggunakan perintah seperti pada Gambar 24 :

Gambar 23. Grafik Scatter plot hasil akhir

Gambar 24. Tampilan Data frame hasil akhir

Pada Gambar 24 maka dapat dilihat nomor urut atau siswa yang ke- 21 merupakan siswa yang berprestasi dan pantas menerima Bantuan Siswa Miskin (BSM).

Pengujian

Pengujian system yang telah dirancangkan ditunjuk untuk melihat dan menganalisa mengenai kesesuaian system terhadap rancangan yang telah dibuat. Dengan memfokuskan terhadap source code pada program. Pada pengujian menggunakan White Box Testing lebih dominan terhadap alur dari logika source code yang dibuat dalam suatu program

Adapun metode yang digunakan dalam uji coba program ini menggunakan metode pendekatan white box testing. Setelah melakukan uji coba program secara keseluruhan maka hasil diperoleh bahwa program dapat berjalan sesuai dengan yang diharapkan. Adapun pengujian yang digunakan oleh penulis untuk topik tugas akhir dalam menentukan kelayakan Bantuan Siswa Miskin (BSM) pada siswa yang berprestasi yaitu menggunakan Pengujian white box.

Pengujian white box testing lebih menitik beratkan pada struktur internal (source code) program, setiap coding atau perintah yang akan di compile atau dicek satu persatu untuk mengetahui apakah masih terjadi error atau tidak dan didapat bahwa white box testing menggunakan petunjuk untuk menghasilkan program yang diharapkan dan efisien. Maka dari itu penulis menggunakan Analisis Grafik Alur (Flowgraph) Analisis. Berikut Gambar Grafik Alir (Flowgraph) Analisis.

Adapun Gambar 25 merupakan contoh Flowgraph yang penulis gunakan pada bagian pengujian program Clustering K-Means. Alur flowgraph digunakan untuk menghitung ukuran kompleksitas logik dari suatu kode program dan V(G) maka penguji melakukan basis path testing.

Nilai V(G), menyatakan jumlah maksimum kasus uji yang harus didesain dengan mengidentifikasi sekumpulan basis ekseskusi paths untuk menjamin semua pernyataan dieksekusi paling tidak satu kali.

1. Listing Program Clustering K-Means Analisis

Tabel 6. Listing Program Clustering K-Means Analisis

Node Source Code Keterangan

import pandas as pd import numpy as np import seaborn as sns

import matplotlib.pyplot as plt from sklearn.cluster import KMeans from sklearn.preprocessing import MinMaxScaler

Mengimport beberapa Library agar pengetikan source code atau perintah yang ingin pengguna oleh menjadi lebih singkat dan mudah.

#Mengimport File Dataset df = pd.read_csv("dataset.csv") df.head()

Mengimport dataset kedalam jupyter notebook Gambar 25. Flowgraph

Node Source code Keterangan

#Mengambil Variabel Tertentu df= df[['Pekerjaan Orang

tua','Penghasilan Orang Tua','Usia Orang Tua','Nilai Rata-Rata']]

#Univariate Analysis pada Variabel Pekerjaan Orang Tua

plt.figure(figsize=(12,8))

plt.hist(df['Pekerjaan Orang tua']) plt.title('Frekuensi Pekerjaan Orang Tua')

plt.ylabel('Frequency')

plt.xlabel('Pekerjaan Orang Tua') plt.show()

#Univariate Analysis pada Variabel Penghasilan Orang Tua

plt.figure(figsize=(12,8))

plt.hist(df['Penghasilan Orang tua']) plt.title('Frekuensi Penghasilan Orang Tua')

plt.ylabel('Frequency')

plt.xlabel('Penghasilan Orang Tua') plt.show()

#Univariate Analysis pada Variabel UsiaOrang Tua

plt.figure(figsize=(12,8)) plt.hist(df['Usia Orang tua'])

plt.title('Frekuensi Usia Orang Tua')

Tahap ini nya ada source code untuk melihat info dataset, menampilkan variabel kedalam bentuk histogram, dan sebagainya.

Node Source Code Keterangan plt.ylabel('Frequency')

plt.xlabel('Usia Orang Tua') plt.show()

#Univariate Analysis plt.figure(figsize=(12,8)) plt.hist(df['Nilai Rata-Rata']) plt.title('Frekuensi Nilai Rata-Rata') plt.ylabel('Frequency')

plt.xlabel('Nilai Rata-Rata') plt.show()

#Multivariate Analysis sns.set_style("white")

sns.pairplot(df, vars=['Pekerjaan Orang tua', 'Penghasilan Orang Tua','Usia Orang Tua','Nilai Rata-Rata'], diag_kind='hist')

#Melihat dan menghapus data kosong df.isna().sum()

#df.dropna(inplace=True)

#Mencari data Outlier def finding_outlier(df):

Q1 = df.quantile(0.25) Q3 = df.quantile(0.75) IQR = Q3 - Q1

df_final=df[(df<(Q1-(1.5*IQR)))|(df>(Q3+(1.5*IQR)))]

return df_final df

#Mencetak Data Outlier

print(finding_outlier(df['Pekerjaan Orang tua']))

print(finding_outlier(df['Penghasilan Orang Tua']))

print(finding_outlier(df['Usia Orang Tua']))

print(finding_outlier(df['Nilai Rata-Rata']))

Node Source Code Keterangan

#Remove Data Outlier def remove_outlier(df):

Q1 = df.quantile(0.25) Q3 = df.quantile(0.75) IQR = Q3 - Q1

df_final = df[~((df<(Q1-(1.5*IQR)))|(df>(Q3+(1.5*IQR))))]

#Mengubah Data menjadi bentuk Array

df = np.array(df) print(df)

#Scalling Data

scaler = MinMaxScaler()

x_scaled = scaler.fit_transform(df) x_scaled

#Menentukan Jumlah Cluster dan Random State

kmeans = KMeans(n_clusters = 2, random_state=7)

#Mencetak atau menampilkan nilai pusat dari masing – masing cluster print(kmeans.cluster_centers_)

#Mencetak atau menampilkan cluster atau labels dari masing – masing data print(kmeans.labels_)

Source Code pada tahap ini berfungsi untuk menentukan jumlah Cluster dan Random State. Dari Source Code pada tahap ini juga digunakan untuk menentukan nilai pusat dari masing – masing cluster dan mencetak cluster atau labels dari masing -masing data.

Node Source Code Keterangan

#Menambahkan Kolom Cluster new_df = pd.DataFrame(data=df2, columns=['Pekerjaan Orang tua', 'Penghasilan Orang Tua','Usia Orang Tua','Nilai Rata-Rata'])

new_df['kluster'] = kmeans.labels_

new_df

#Membuat Grafik Scatterplot output = plt.scatter(x_scaled[:,0], x_scaled[:,1], s = 100, c =

new_df.kluster, marker = "o", alpha = 1, )

centers = kmeans.cluster_centers_

plt.scatter(centers[:,0], centers[:,1], c='red', s=200, alpha=1 , marker="s");

plt.title("Hasil Klustering K-Means") plt.colorbar (output)

plt.show()

Source code pada tahap ini

merupakan tahap hasil dalam Clustering K-Means. Pada tahap ini hasil cluster telah ditemukan lalu hasil dari cluster tersebut ditambahkan kedalam kolom cluster pada data frame dan diolah kedalam bentuk grafik scatterplot agar dapat dilihat dengan jelas dan nampak hasil akhir dari Clustering K-Means.

2. Kompleksitas Siklomatik

Dalam menentukan pengukuran kompleksitas logika dalam suatu program Clustering K-Means maka diperoleh dengan perhitungan sebagai berikut :

V(G) = E-N+2 Keterangan :

E = Jumlah edge pada flowgraph N = Jumlah node pada flowgraph R = Jumlah region pada flowgraph

Sehingga kompleksitas siklomatis yang diperoleh adalah :

a) Flowgraph mempunyai : Region (R) : 2 Node (N) : 5 Edge (E) : 4

b) V(G) = E – N + 2

= 4 – 5 + 2

= 1

Jadi jumlah cyclopmatic complexity untuk flowgraph ini adalah 1.

3. Pengujian Basis Path

Tabel 7. Pengujian Basis Path

Pembahasan

Dalam pembahasan proses mengolah Clustering K-Means akan dijelaskan mengenai perhitungan secara manual yang digunakan dalam mengolah Clustering K-Means pada data siswa SMPN-6 Kota Palangka Raya.

Pada bagian proses perhitungan Clustering K-Means secara manual menggunakan aplikasi Micrososft Excel pada data SMPN-6 Kota Palangka Raya tentunya memiliki beberapa perhitungan dan juga menggunakan

Jalur Input Proses Keterangan

Jalur 1

Dataset berhasil diolah ke program Clustering K-Means

1-2-3-4-5

Dataset berhasil diolah ke program Clustering K-Means dengan system sesuai rule yang terbentuk.

beberapa persamaan. Adapun Langkah – Langkah dalam melakukan perhitungan Clustering K-Means adalah sebagai berikut :

1) Memiliki studi kasus atau data yang ingin dilakukan Clustering.

Gambar 26. Data awal

Pada Gambar 26 menjelaskan bahwa yang harus dipersiapkan pada pengklasteran tentunya memiliki data awal atau data yang ingin di lakukan pengklasteran. Penulis menggunakan data SMPN-6 Kota Palangka Raya sebanyak 261 data siswa untuk dilakukan Clustering K-Means dan memiliki

Dalam dokumen CLUSTERING DATA SISWA SMPN-6 PALANGKA RAYA UNTUK MENENTUKAN KELAYAKAN BANTUAN SISWA MISKIN DAN BERPRESTASI TUGAS AKHIR (Halaman 44-76)