Bab ini berisi tentang kesimpulan dari penelitian yang telah dilakukan dan saran dari sistem yang nantinya akan dikembangkan.
DAFTAR PUSTAKA
6 BAB II
LANDASAN TEORI
BAB II LANDASAN TEORI
Pada bab ini akan menjelaskan landasan teori yang digunakan dalam penelitian ini. Agar sebuah penelitian dapat berhasil maka diperlukan refrensi sebagai landasan teorinya. Landasan teori tersebut berisi tentang pengertian data mining, tahapan data mining atau tahapan dalam proses Knowledge Discovery In Databases, hierarchical clustering sebagai algorima yang digunakan untuk pengelompokan obyek data dari variabel yang telah dipilih dan bagian terakhir dalam bab ini akan dipaparkan tentang uji akurasi data.
2.1.Data Mining
Data mining adalah serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual. Data mining adalah proses yang menggunakan teknik statistik, perhitungan, kecerdasan buatan dan machine learning untuk mengekstrasi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai basis data besar (Hanif, 2007).
Data mining sering juga disebut knowledge discovery in database (KDD), adalah kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar. Keluaran dari data mining ini bisa dipakai untuk memperbaiki pengambilan keputusan di masa depan (Santosa, 2007). Data mining adalah kegiatan
7
menemukan pola yang menarik dari data dalam jumlah besar, data dapat disimpan dalam database, data warehouse, atau penyimpanan informasi lainnya.
Berdasarkan beberapa pengertian tersebut dapat ditarik kesimpulan bahwa data mining adalah suatu teknik menggali informasi berharga yang terpendam atau tersembunyi pada suatu database yang sangat besar sehingga ditemukan suatu pola yang menarik yang sebelumnya tidak diketahui. Beberapa metode yang sering disebut-sebut dalam literatur data mining antara lain clustering, classification, association rules mining, neural network, genetic algorithm dan lain-lain (Pramudiono, 2006). Data mining sering digunakan untuk membangun model prediksi/inferensi yang bertujuan untuk memprediksi tren masa depan atau perilaku berdasarkan analisis data terstruktur.
2.2.Tahapan Data Mining
Data tidak dapat langsung diolah dengan menggunakan sistem data mining. Data tersebut harus dipersiapkan terlebih dahulu agar hasil yang diperoleh dapat lebih maksimal. Dan tahapan dalam proses Knowledge Discovery In Databases (KDD) dapat dilihat pada Gambar 2.1 terdiri dari tahapan-tahapan sebagai berikut (J. Han & Kamber, 2006):
8
Gam bar 1
Gambar 2.1. Data Mining Sebagai Tahapan Dalam Proses KDD (Sumber : J. Han & Kamber 2006)
1. Cleaning and Integration
Langkah pertama adalah dengan melakukan pembersihan terhadap data dan penggabungan data. Proses data cleaning bertujuan untuk menghilangkan noise dan data yang tidak konsisten dan proses data integration bertujuan untuk menggabungkan sumber data dari berbagai tempat menjadi satu penyimpanan.
9 2. Selection and Transformation
Pada tahap selection dan transformation, data dan atribut yang akan digunakan diambil dari database untuk dianalisis. Selanjutnya data tersebut diubah menjadi bentuk yang tepat untuk di-mining.
3. Data Mining
Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan
4. Evaluation and Presentation
Pada tahap ini, dilakukan identifikasi pola-pola yang benar-benar menarik dari hasil data mining. Setelah didapatkan pola yang dihasilkan dari proses data mining perlu divisualisasikan atau ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan.
2.3.Clustering
Clustering atau klasterisasi adalah suatu alat bantu pada data mining yang bertujuan untuk mengelompokan obyek-obyek ke dalam klaster-klaster. Klaster adalah sekelompok atau sekumpulan obyek-obyek data yang similar satu sama lain dalam kalaster yang sama dan dissimiliar terhadap obyek-obyek yang berbeda klaster. Obyek akan dikelompokan ke dalam satu atau lebih klaster sehingga obyek-obyek yang berbeda dalam satu klaster akan mempunyai kesamaan yang tinggi antara satu dengan yang lainya. Obyek-obyek dikelompokan berdasarkan
10
prinsip memaksimalkan kesamaan obyek pada klaster yang sama dan meminimalkan ketidaksamaan pada klaster yang berbeda. Kesamaan obyek bisanya diperoleh dari nilai-nilai atribut yang menjelaskan obyek data, sedangkan obyek-obyek data biasanya direpresentasikan sebagai sebuah titik dalam ruang multidimensi.
Dengan menggunakan klasterisasi, metode ini dapat mengidentifikasi daerah yang padat, menemukan pola-pola distribusi secara keseluruhan, dan menemukan keterkaitan yang menarik antar atribut-atribut data. Dalam data mining, usaha difokuskan pada metode-metode penemuan untuk klaster pada basisdata berukuran besar secara efektif dan efesien. Kebutuhan klasterisasi dalam data mining meliputi skalabilitas, kemampuan untuk menangani tipe atribut yang berbeda, mampu menagani dimensionalitas yang tinggi, menangani data yang mempunyai noise, dan dapat diterjemahkan dengan mudah.
Secara garis besar, terdapat beberapa metode klasterisasi data. Pemilihan metode klasterisasi tergantung pada tipe data dan tujuan klasterisasi itu sendiri. Metode-metode berserta algoritmanya termasuk didalamnya meliputi:
1. Partitioning Method : Membuat berbagai partisi dan kemudian mengevaluasi partidi tersebut dengan beberapa kriteria. Yang termasik ke dalam metode ini meliputi algoritma K-Means, K-Medoid, PROCLUS, CLARA, CLARANS, dana PAM
2. Hierarchical Method : Membuat suatu penguraian secara hierarikal dari himpunan data dengan menggunakan beberapa kriteria. Metode ini terdiri
11
atas dua macam, yaitu Agglomerative yang menggunakan stratedi bottom-up dan Divisive yang menggunakan strategi top-down. Metode ini meliputi algoritma BIRCH, AGNES, DIANA, CURE, dan CHAMALEON.
3. Density-based Method : Metode ini berdasarkan konektivitas dan fungsi densitas. Metode ini meliputi algoritma DBSCAN, OPTICS, dan DENCLU.
4. Grid-base Method : Metode ini berdasarkan suatu struktur granularitas multi-level. Metode klasterisasi ini meliputi algoritma STING, WaveCluster, dan CLIQUE.
5. Model-base Method : Suatu model dihipotesiskan untuk masing-masing klaster dan ide untuk mencari best fit dari model tersebut untuk masing-masing yang lain. Metode klasterisasi ini meliputi pendekatan statistic, yaitu algoritma COBWEB dan jaringan syaraf tiruan, yaitu SOM.
2.4.Hierarchical Clustering
Metode hierarchical clustering mengelmpokan objek kedalam sebuah pohon klaster. Hierarchical clustering dapat diklasifikasikan sebagai agglomerative atau divisive, tergantung pada komposisi hirarki yang di tampilkan dalam pendekatan bottom-up atau top down (split). (Han & Kamber, 2006). Pada umumya terdapat dua metode hierarchical clustering:
1. Agglomerative, metode ini dimulai dari menempatkan objek ke dalam satu cluster dan selanjutnya digabungkan ke dalam cluster yang lebih besar
12
hingga sebua objek terhubung dalam satu buah cluster atau hingga mencapai jumlah cluster yang diinginkan.
2. Divisive, kebalikan dari metode agglomerative. Metode ini dimulai dari satu cluster dengan seluruh objek data di dalamnya, selanjutnya cluster tersebut dipecah kedalam cluster yang lebih kecil hingga setiap cluster memiliki dua atau satu buah objek atau hingga mencapai jumlah cluster yang diinginkan.
Sebelum pembentukan sebuah cluster perlu dihitung jarak kemiripan antara obyek data. Ada beberapa cara untuk mengetahui kemiripan data. Satu di antara cara yang ada adalah similarity matrix dengan perhitungan euclidean distance. Euclidean distance didefinisikan sebagai berikut:
√ | | | | | | | | (2.1)
Atau dapat disingkat dengan:
√∑ (2.2) Keterangan:
adalah jumlah atribut atau dimensi dan adalah data
13 2.5.Definisi Metode Divisive
Teknik divisive clustering termasuk kedalam analisis hierarchical clustering. Pada setiap langkahnya, metode divisive terjadi penambahan kelompok kedalam dua nilai terkecil. Sampai akhirnya semua element terkelompokan.
Teknik divisive merupakan proses pengklasteran yang didasarkan pada persamaan nilai rata-rata antar objek. Jika sebuah objek memiliki persamaan nilai rata-rata terbesar maka objek tersebut akan terpisah dan berubah menjadi splinter group. Pada teknik divisive ini perhitungan juga di lihat dari perbedaan atau selisih anatara persamaan nilai rata-rata dengan nilai elemen matrik yang telah menjadi splinter group. Jika selisih nilai antara persamaan nilai rata-rata dengan nilai elemen matrik splinter group bernilai negatif, maka perhitungan terhenti sehingga harus dibuat matrik baru untuk mendapatkan klaster yang lain. Perhitungan ini terus dilakukan sedemikian sehingga semua objek terpisah.
2.6.Algoritma Metode Divisive
Misalkan diberikan data X matriks berukuran n x p (n = jumlah sampel data, p = variabel setiap data). Xij= data sampel ke-j (j = 1, 2, …, n) dan variabel ke-i (i = 1, 2, …, p).
1. Bentuk suatu matriks jarak dengan menggunakan jarak euclidean. Rumusnya berikut :
14
Asumsikan setiap data dianggap sebagai klaster. Jika diberikan n data dan c klaster maka n = c, maka diperoleh matriks jaraknya, yaitu:
[ ] (2.4)
2. Hitung nilai rata-rata setiap obyek dengan obyek lainnya
3. Tentukan objek yang memiliki nilai rata-rata yang terbesar, objek yang memiliki nilai rata-rata yang terbesar akan dipisah dan berubah menjadi splinter group.
4. Hitung selisih nilai antara elemen matriks splinter group dengan nilai rata-rata setiap objek yang tersisa.
5. Tentukan objek yang memiliki nilai selisih terbesar antara elemen matriks splinter group dengan nilai rata-rata. Jika nilai selisih tersebut bernilai positif, maka objek yang memiliki nilai selisih terbesar bergabung dengan splinter group.
6. Ulangi langkah satu sampai lima sedemikian sehingga semua nilai selisih antara nelemen matriks splinter group dengan nilai rata-rata bernilai negatif dan klaster terbagi menjadi dua klaster baru.
15 CONTOH ALGORITMA DIVISIVE :
Untuk memperjelas metode tersebut dapat diperhatikan contoh berikut. Diketahui distance matriks D dengan 5 sample a, b, c, d, e seperti dibawah ini.
[ ]
Data yang terdapat dalam matrik memiliki nilai yang berbeda antara objek a, b, c, d, dan e. Dari matrik diatas kemudian akan dihitung nilai rata-rata setiap obyek dengan obyek lainnya seperti dalam Tabel 2.1:
Tabel 2.1 Average dissimilarity to the other objects tahap 1
Objects Average dissimilarity to the other objects
a (2+6+10+9)/4=6.75
b (2+5+9+8)/4=6.00
c (6+5+4+5)/4=5.00
d (10+9+4+3)/4=6.50
e (9+8+5+3)/4=6.25
Dari tabel 2.1 objek a disebut splinter group. Sampai pada langkah ini menghasilkan dua grup yaitu grup {a} dan grup {b,c,d,e}, tetapi perhitungan tidak berhenti sampai disini. Untuk setiap objek dari group yang besar harus di hitung average dissimilarity dengan objek yang tersisa, dan membandingkan itu dengan average dissimilarity dengan objek dari splinter group. Pada Tabel 2.2
16
menghitung selisih dari nilai rata-rata obyek yang tersisa dengan nilai rata-rata dari splinter group:
Tabel 2.2 Difference tahap 1
Objects Average dissimilarity to the other objects
Average dissimilarity to
objects of splinter group Difference
b (5.0+9.0+8.0)/3 = 7.33 2.00 5.33
c (5.0+4.0+5.0)/3 = 4.67 6.00 -1.33
d (9.0+4.0+3.0)/3 = 5.33 10.00 -4.67
e (8.0+5.0+3.0)/3 = 5.33 9.00 -3.67
Hasil perhitungan nilai selisih dalam Tabel 2.2 terlihat bahwa perbedaan terbesar terdapat pada objek b. Oleh sebab itu, objek b berpindah bagian menjadi splinter group. Jadi, splinter group yang satu {a,b} dan group sisanya {c,d,e}. Pada Tabel 2.3 dilakukan perhitungan ulang masing-masing group dengan obyek yang ada dan tersisa didalamnya, maka didapat:
Tabel 2.3 Difference tahap 2
Objects Average dissimilarity to the other objects
Average dissimilarity to
objects of splinter group Difference
c (5.0+4.0)/2 = 4.50 (5.0+3.0)/2 = 4.00 -1.00 d (4.0+3.0)/2 = 3.50 (10.0+9.0)/2 = 9.50 -6.00 e (5.0+3.0)/2 = 4.00 (9.0+8.0)/2 = 8.50 -6.00 Pada Tabel 2.3 terlihat, untuk semua difference bernilai negatif. Oleh sebab itu tidak terjadi perpindahan. Proses dihentikan dan langkah divisive pertama selesai. Dimana data dibagi dalam dua klaster, yaitu {a,b}, dan {c,d,e}.
17
Dalam langkah berikutnya akan dilakukan pembagian klaster. Pembagian klaster dilakukan pada klaster yang memiliki rata-rata terbesar. Rata-rata dari klaster {a,b} adalah 2, dan untuk klaster {c,d,e} adalah 5. Oleh sebab itu, akan terjadi pembagian klaster {c,d,e}, dengan matrik sebagai berikut :
[ ]
Tabel 2.4 Average dissimilarity to the other objects tahap 2
Objects Average dissimilarity to the other objects
c (4.0+5.0)/2 = 4.50
d (4.0+3.0)/2 = 3.50
e (5.0+3.0)/2 = 4.00
Pada Tabel 2.4 adalah hasil perhitungan nilai rata-rata dengan objek yang tersisa. Ternyata objek c yang memiliki nilai positif terbesar, maka objek c masuk dalam splinter group. Jadi, terdapat dua grup yaitu {c} dan {d,e}, selanjutnya akan dihitung nilai selisih dari nilai rata obyek yang tersisa dengan nilai rata-rata dari splinter group seperti dalam Tabel 2.5:
Tabel 2.5 Difference tahap 3
Objects Average dissimilarity to the other objects
Average dissimilarity to
objects of splinter group Difference
d 3.0 4.00 -1.00
18
Dari Tabel 2.5 memperlihatkan proses pembentukan dihentikan karena semua difference bernilai negatif. Karena itu, pembagian pada langkah dua {c,d,e} adalah {c} dan {d,e}. Jadi, klaster yang didapat {a,b}, {c}, dan {d,e}. klaster {c} disebut singleton karena hanya mengandung satu objek. Hasil dari hierarikal digambarkan seperti pada Gambar 2.2 :
a,b,c,d,e a,b c,d,e c d,e a b Gam bar 2
19 2.7.Uji Akurasi Data
Setelah didapatkan hasil olahan dengan divisive perlu diuji akurasinya supaya diketahui validitas data tersebut. Ada beberapa teknik untuk uji akurasi data tersebut. Karena metode yang digunakan adalah metode clustering maka dapat digunakan dua jenis akurasi, yaitu Internal Evaluation dan External Evaluation (Prasetyo, 2014).
1. Internal Evaluation
Internal Evaluation merupakan pengujian data cluster demi validitasnya tanpa informasi dari luar. Validasi ini contohnya adalah cohesion, separation, silhouette coefficient, dan sum of square error(SSE).
2. External Evaluation
Dengan menggunakan external evaluation akan diketahui kedekatan antara label cluster terbentuk dengan class yang disediakan. External evaluation ini dapat dilakukan dengan confusion matrix, entropy, dan purity.
Pada penelitian ini yang akan digunakan untuk uji akurasi adalah internal evaluation, secara khusus dengan menggunkan teknik sum of square error (SEE). Pada setiap pembentukan cluster akan dihitung nilai SSE-nya. Semakin kecil nilai SSE menunjuakan bahwa cluster yang dibentuk semakin baik pula. Berukut formula SSE yang akan digunakan (Lior Rokach):
20 Keterangan
adalah jarak data x di indeks i
adalah rata-rata semua jarak data di cluster k Berikut adalah algoritma SSE:
1. Tentukan matriks K yang akan dihitung menggunakan SSE adalah data set dari cluster k
Cluster k adalah anggota dari matriks K 2. Jika k=1
3. Hitung rata-rata cluster k ( ) … a
4. Lakukan langkah 5 dan 7 untuk setiap data x
5. Kurangkan a dengan data x di indek i ‖ ‖ … b 6. Hitung … c
7. c dijumlahkan untuk setiap cluster k … d 8. Jumlahkan total d di matriks K
21 BAB III
METODOLOGI PENELITIAN
BAB III METO DO LOG I PENELITIAN
Berdasarkan pada landasan teori yang telah disampaikan pada bab kedua. Pada bab ini akan dibahas mengenai metodologi yang digunakan dalam penelitian ini. Bab ketiga ini akan dipaparkan tentang sumber data yang diperoleh dan teknik analisis data.
3.1.Sumber data
Data yang digunakan adalah data penjualan tahun 2014 pada perusahaan XYZ. Data yang digunakan merupakan hasil eksport dari database perusahaan berjenis file csv. Total data transaksi penjualan bejumlah 933 record.
3.2.Teknik Analisis Data
Data yang telah diperoleh selanjutnya mulai dianalisis. Berkaitan dengan tahap-tahap teknik analisis dan jalannya program digambarkan dengan block diagram sebagai berikut
Data Preprocessing Perhitungan
Jarak Divisive Output Jtree
Akurasi
Gam bar 3 Gambar 3.1. Block diagram proses program
1. Data
Data yang digunakan dalam penelitian ini adalah data yang diperoleh dari perusahaan XYZ. Data ini merupakan data transaksi penjualan produk helm. Data penjualan ini bersifat penting karena mengandung informasi penjualan secara
22
detail. Data yag digunakan adalah data penjualan tahun 2014 selama kurun waktu satu tahun.
2. Preprocessing
Data yang sudah didapat selanjutnya diolah dengan tahap preprocessing. Pada tahap ini akan dilakukan data cleaning, data integration, data selection, dan data transformation.
3. Perhitungan Jarak
Setalah melalui tahap preprocessing, tahap selanjutnya adalah mengukur jarak setiap data. Perhitungan jarak menggunakan euclidean distance, seperti yang telah dipaparkan pada bab kedua dalam penelitina ini. Dengan menggunakan perhitungan euclidean distance akan didapatkan jarak antar obyek data dalam sebuah matriks. Matriks tersebut nantinya akan digunakan untuk tahap selanjutnya, yaitu clustering menggunakan metode divisive. Tabel 3.1 adalah contoh data yang akan digunakan untuk perhitungan euclidean distance:
Tabel 1 Tabel 3.1. Data contoh perhitungan jarak
Data x y a 87.0 89.0 b 84.0 76.0 c 83.0 70.0 d 80.0 74.0 e 82.0 83.0 f 81.0 92.0
23
Dengan menggunakan rumus perhitungan euclidean distance, didapatkan matriks jarak seperti pada Tabel 3.2:
Tabel 2 Tabel 3.2. Hasil euclidean distance
a b c d e f a 0.0 13.342 19.417 16.553 7.811 6.709 b 13.342 0.0 6.083 4.473 7.281 16.279 c 19.417 6.083 0.0 5.0 13.039 22.091 d 16.553 4.473 5.0 0.0 9.22 18.028 e 7.811 7.281 13.039 9.22 0.0 9.056 f 6.709 16.279 22.091 18.028 9.056 0.0 4. Divisive
Dalam tahap ini hasil dari matriks jarak akan digunakan untuk pembentukan cluster. Masing-masing obyek data akan dikelompokan berdsarkan jarak kemiripannya. Proses pengelompokan menggunakan perhitungan divisive. Langkah-langkah perhitungannya seperti yang dapat dilihat dalam bab kedua dalam penelitian ini. Berikut ini penerapan algoritma divisive:
Tahap 1
Langkah pertama: Dari matriks jarak pada Tabel 3.2 asumsikan setiap data dianggap sebagai klaster.
Langkah kedua : Hitung nilai rata-rata setiap objek dengan objek lainnya. Rata-rata objek a = 10.63866667
Rata-rata objek b = 7.909666667 Rata-rata objek c = 10.93833333 Rata-rata objek d = 8.879
24 Rata-rata objek e = 7.7345 Rata-rata objek f = 12.02716667
Langkah ketiga: Tentukan objek yang memiliki nilai rata-rata yang terbesar, objek yang memiliki nilai rata-rata yang terbesar akan terpisah dan berubah menjadi splinter group. Diperoleh objek f memiliki rata-rata terbesar, maka objek f keluar dan menjadi splinter group.
Tahap 2
Diperoleh matrik jarak yang baru, seperti pada Tabel 3.3:
Tabel 3 Tabel 3.3. Matrik jarak tahap 1
a b c d e a 0.0 13.342 19.417 16.553 7.811 b 13.342 0.0 6.083 4.473 7.281 c 19.417 6.083 0.0 5.0 13.039 d 16.553 4.473 5.0 0.0 9.22 e 7.811 7.281 13.039 9.22 0.0
Ulangi langkah kedua : Dari matriks jarak yang baru, kemudian pilih rata-rata antar antar objek dengan objek lainnya.
Rata-rata objek a = 11.4246 Rata-rata objek b = 6.2358 Rata-rata objek c = 8.7078 Rata-rata objek d = 7.0492 Rata-rata objek e = 7.4702
25
Kemudian selisihkan setiap nilai rata-rata tersebut dengan elemen matrik splinter group. Rata-rata objek a = 11.4246 - 6.709 = 4.7156 Rata-rata objek b = 6.2358 - 16.279 = -10.0432 Rata-rata objek c = 8.7078 - 22.091 = -13.3832 Rata-rata objek d = 7.0492 - 18.028 = -10.9788 Rata-rata objek e = 7.4702 - 9.056 = -1.5858
Langkah ketiga : tentukan objek yang memiliki nilai selisih terbesar, objek yang memiliki nilai selisih terbesar akan terpisah dan bergabung dengan splinter group. Objek a memiliki nilai selisih terbesar, maka objek a bergabung dengan objek f ke dalam splinter group.
Tahap 3
Diperoleh matrik jarak yang baru, , seperti pada Tabel 3.4:
4 Tabel 3.4. Matrik jarak tahap 3
b c d e
b 0.0 6.083 4.473 7.281
c 6.083 0.0 5.0 13.039
d 4.473 5.0 0.0 9.22
e 7.281 13.039 9.22 0.0
Ulangi langkah kedua : Dari matriks jarak yang baru, kemudian pilih rata-rata antar antar objek dengan objek lainnya.
Rata-rata objek b = 4.45925 Rata-rata objek c = 6.0305
26 Rata-rata objek d = 4.67325 Rata-rata objek e = 7.385
Kemudian selisihkan setiap nilai rata-rata tersebut dengan elemen matrik splinter group.
Rata-rata objek b = 4.45925 - 14.8105 = -10.35125 Rata-rata objek c = 6.0305 - 20.754 = -14.7235 Rata-rata objek d = 4.67325 - 17.2905 =-12.61725 Rata-rata objek e = 7.385 - 8.4335 = -1.0485
Karena semua nilai selisih bernilai negatif, maka algoritma kembali ke awal. Rata-rata objek terbesar pada matriks tersebut dimiliki oleh objek e, maka objek e keluar dan membentuk klaster baru.
Tahap 4
Diperoleh matrik jarak yang baru, , seperti pada Tabel 3.5:
5 Tabel 3.5. Matrik jarak tahap 4
b c d
b 0.0 6.083 4.473
c 6.083 0.0 5.0
d 4.473 5.0 0.0
Ulangi langkah kedua : Dari matriks jarak yang baru, kemudian pilih rata-rata antar antar objek dengan objek lainnya.
Rata-rata objek b = 3.518666667 Rata-rata objek c = 3.694333333
27 Rata-rata objek d = 3.157666667
Kemudian selisihkan setiap nilai rata-rata tersebut dengan elemen matrik splinter group.
Rata-rata objek b = 3.518666667 - 7.281 = -3.762333333 Rata-rata objek c = 3.694333333 - 13.039 = -9.344666667 Rata-rata objek d = 3.157666667 - 9.22 = -6.062333333
Karena semua nilai selisih bernilai negatif, maka algoritma berhenti sampai disini. Maka objek b, c,dan d keluar dan membentuk klaster baru.
Dengan mengimplementasikan algoritma divisive menggunakan java, data sampel yang digunakan pada Tabel 3.1 menghasilhan skruktur tree cluster seperti pada Gambar 3.2:
Gam bar 4
28 5. Cluster
Proses Divisive menghasilkan jumlah cluster maksimum sesuai dengan proses iterasi pada algoritma divisive. Hasil pembentukan cluster ditampilkan pula kedalam struktur tree. Dari hasil Jtree tersubut juga dapat ditentukan cluster yang diinginkan seperti pada Tabel 3.6.
Tabel 6 Tabel 3.6. Contoh pembentukan 3 cluster oleh sistem
Cluster 1 Cluster 2 Cluster 3
a e c
f b
d 6. Perhitungan Akurasi
Pada penelitian ini akan dilakukan uji akurasi pada setiap pembentukan cluster dan mengevaluasi pola yang ditemukan dari hasil pengelompokan. Sebelum sistem menyimpan cluster yang sudah terbentuk, masing-masing cluster akan di hitung menggunakan sum of square error (SSE). Setelah semua cluster terbentuk akan ditotal jumlah SSE-nya. Dengan demikian ada sejumlah percobaan pembentukan cluster yang akan dihitung SSE-nya. SSE dengan nilai terendah mengindikasikan bahwa cluster yang tebentuk adalah yang paling baik. Pada penelitian ini dilakukan 2 sampai 7 percobaan pembentukan cluster sesuai dengan jumlah obyek data, namun tidak menutup kemungkinan jika percobaan yang dilakukan bisa lebih atau kurang atau lebih dari 7. Hal ini tergantung jumlah obyek data dan kebutuhan yang ada.
29 BAB IV
ANALISIS DAN PERANCANGAN SISTEM
BAB IV ANALISI S DAN P ERANCANG AN SI STEM
Pada bab ini akan dijelaskan mengenai perancangan sistem yang akan diimplementasikan. Meliputi identifikasi sistem, perancangnan umum sistem, perancangan system, perancangan struktur data dan perancangan antar muka. 4.1. Identifikasi Sistem
4.1.1. Diagram Use Case
Diagram use case adalah sebuah gambaran fungsi/pekerjaan yang dapat dilakukan oleh sistem tersebut. diagram use case yang digunakan dapat dilihat pada bagian lampiran 1 untuk melihat definisi use case tersebut.
4.1.2. Narasi Use Case
Pada bagian ini setiap use case akan dirinci dalam sebuah narasi yang merupakan diskripsi tekstual dari kejadian bisnis dan bagaimana pengguna berinteraksi dengan sistem untuk menyelesaikan tugas tersebut. untuk mengetahui secara keseluruhan narasi use case dapat dilihat pada lampiran 2.
4.2. Perancangan Umum Sistem
4.2.1. Masukan Sistem
Masukan yang digunakan dalam sistem ini berasal dari tabel database yang kemudian di ekspor kedalam file jenis *.csv file. Ketentuan eksport juga
30
perlu diperhatikan. Pilihan untuk menyertakan nama kolom harus dipilih, pemisah kolom mengunakan tanda koma, dan tidak boleh ada nilai null.
4.2.2. Proses Sistem
Proses dari sistem yang menghasilkan cluster yang berfungsi untuk mempediksi ini terdiri dari beberapa langkah:
a. Memasukan nilai range harga kelompok, kelompok 1 sampai dengan 5. b. Penginputan file data penjualan yang akan digunakan untuk proses data