PENUTUP - Implementasi data mining menggunakan metode clustering untuk prediksi penjualan di PT

Bab ini berisi tentang kesimpulan dari penelitian yang telah dilakukan dan saran dari sistem yang nantinya akan dikembangkan.

DAFTAR PUSTAKA

6 BAB II

LANDASAN TEORI

BAB II LANDASAN TEORI

Pada bab ini akan menjelaskan landasan teori yang digunakan dalam penelitian ini. Agar sebuah penelitian dapat berhasil maka diperlukan refrensi sebagai landasan teorinya. Landasan teori tersebut berisi tentang pengertian data mining, tahapan data mining atau tahapan dalam proses Knowledge Discovery In Databases, hierarchical clustering sebagai algorima yang digunakan untuk pengelompokan obyek data dari variabel yang telah dipilih dan bagian terakhir dalam bab ini akan dipaparkan tentang uji akurasi data.

2.1.Data Mining

Data mining adalah serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual. Data mining adalah proses yang menggunakan teknik statistik, perhitungan, kecerdasan buatan dan machine learning untuk mengekstrasi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai basis data besar (Hanif, 2007).

Data mining sering juga disebut knowledge discovery in database (KDD), adalah kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar. Keluaran dari data mining ini bisa dipakai untuk memperbaiki pengambilan keputusan di masa depan (Santosa, 2007). Data mining adalah kegiatan

menemukan pola yang menarik dari data dalam jumlah besar, data dapat disimpan dalam database, data warehouse, atau penyimpanan informasi lainnya.

Berdasarkan beberapa pengertian tersebut dapat ditarik kesimpulan bahwa data mining adalah suatu teknik menggali informasi berharga yang terpendam atau tersembunyi pada suatu database yang sangat besar sehingga ditemukan suatu pola yang menarik yang sebelumnya tidak diketahui. Beberapa metode yang sering disebut-sebut dalam literatur data mining antara lain clustering, classification, association rules mining, neural network, genetic algorithm dan lain-lain (Pramudiono, 2006). Data mining sering digunakan untuk membangun model prediksi/inferensi yang bertujuan untuk memprediksi tren masa depan atau perilaku berdasarkan analisis data terstruktur.

2.2.Tahapan Data Mining

Data tidak dapat langsung diolah dengan menggunakan sistem data mining. Data tersebut harus dipersiapkan terlebih dahulu agar hasil yang diperoleh dapat lebih maksimal. Dan tahapan dalam proses Knowledge Discovery In Databases (KDD) dapat dilihat pada Gambar 2.1 terdiri dari tahapan-tahapan sebagai berikut (J. Han & Kamber, 2006):

Gam bar 1

Gambar 2.1. Data Mining Sebagai Tahapan Dalam Proses KDD (Sumber : J. Han & Kamber 2006)

1. Cleaning and Integration

Langkah pertama adalah dengan melakukan pembersihan terhadap data dan penggabungan data. Proses data cleaning bertujuan untuk menghilangkan noise dan data yang tidak konsisten dan proses data integration bertujuan untuk menggabungkan sumber data dari berbagai tempat menjadi satu penyimpanan.

9 2. Selection and Transformation

Pada tahap selection dan transformation, data dan atribut yang akan digunakan diambil dari database untuk dianalisis. Selanjutnya data tersebut diubah menjadi bentuk yang tepat untuk di-mining.

3. Data Mining

Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan

4. Evaluation and Presentation

Pada tahap ini, dilakukan identifikasi pola-pola yang benar-benar menarik dari hasil data mining. Setelah didapatkan pola yang dihasilkan dari proses data mining perlu divisualisasikan atau ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan.

2.3.Clustering

Clustering atau klasterisasi adalah suatu alat bantu pada data mining yang bertujuan untuk mengelompokan obyek-obyek ke dalam klaster-klaster. Klaster adalah sekelompok atau sekumpulan obyek-obyek data yang similar satu sama lain dalam kalaster yang sama dan dissimiliar terhadap obyek-obyek yang berbeda klaster. Obyek akan dikelompokan ke dalam satu atau lebih klaster sehingga obyek-obyek yang berbeda dalam satu klaster akan mempunyai kesamaan yang tinggi antara satu dengan yang lainya. Obyek-obyek dikelompokan berdasarkan

prinsip memaksimalkan kesamaan obyek pada klaster yang sama dan meminimalkan ketidaksamaan pada klaster yang berbeda. Kesamaan obyek bisanya diperoleh dari nilai-nilai atribut yang menjelaskan obyek data, sedangkan obyek-obyek data biasanya direpresentasikan sebagai sebuah titik dalam ruang multidimensi.

Dengan menggunakan klasterisasi, metode ini dapat mengidentifikasi daerah yang padat, menemukan pola-pola distribusi secara keseluruhan, dan menemukan keterkaitan yang menarik antar atribut-atribut data. Dalam data mining, usaha difokuskan pada metode-metode penemuan untuk klaster pada basisdata berukuran besar secara efektif dan efesien. Kebutuhan klasterisasi dalam data mining meliputi skalabilitas, kemampuan untuk menangani tipe atribut yang berbeda, mampu menagani dimensionalitas yang tinggi, menangani data yang mempunyai noise, dan dapat diterjemahkan dengan mudah.

Secara garis besar, terdapat beberapa metode klasterisasi data. Pemilihan metode klasterisasi tergantung pada tipe data dan tujuan klasterisasi itu sendiri. Metode-metode berserta algoritmanya termasuk didalamnya meliputi:

1. Partitioning Method : Membuat berbagai partisi dan kemudian mengevaluasi partidi tersebut dengan beberapa kriteria. Yang termasik ke dalam metode ini meliputi algoritma K-Means, K-Medoid, PROCLUS, CLARA, CLARANS, dana PAM

2. Hierarchical Method : Membuat suatu penguraian secara hierarikal dari himpunan data dengan menggunakan beberapa kriteria. Metode ini terdiri

atas dua macam, yaitu Agglomerative yang menggunakan stratedi bottom-up dan Divisive yang menggunakan strategi top-down. Metode ini meliputi algoritma BIRCH, AGNES, DIANA, CURE, dan CHAMALEON.

3. Density-based Method : Metode ini berdasarkan konektivitas dan fungsi densitas. Metode ini meliputi algoritma DBSCAN, OPTICS, dan DENCLU.

4. Grid-base Method : Metode ini berdasarkan suatu struktur granularitas multi-level. Metode klasterisasi ini meliputi algoritma STING, WaveCluster, dan CLIQUE.

5. Model-base Method : Suatu model dihipotesiskan untuk masing-masing klaster dan ide untuk mencari best fit dari model tersebut untuk masing-masing yang lain. Metode klasterisasi ini meliputi pendekatan statistic, yaitu algoritma COBWEB dan jaringan syaraf tiruan, yaitu SOM.

2.4.Hierarchical Clustering

Metode hierarchical clustering mengelmpokan objek kedalam sebuah pohon klaster. Hierarchical clustering dapat diklasifikasikan sebagai agglomerative atau divisive, tergantung pada komposisi hirarki yang di tampilkan dalam pendekatan bottom-up atau top down (split). (Han & Kamber, 2006). Pada umumya terdapat dua metode hierarchical clustering:

1. Agglomerative, metode ini dimulai dari menempatkan objek ke dalam satu cluster dan selanjutnya digabungkan ke dalam cluster yang lebih besar

hingga sebua objek terhubung dalam satu buah cluster atau hingga mencapai jumlah cluster yang diinginkan.

2. Divisive, kebalikan dari metode agglomerative. Metode ini dimulai dari satu cluster dengan seluruh objek data di dalamnya, selanjutnya cluster tersebut dipecah kedalam cluster yang lebih kecil hingga setiap cluster memiliki dua atau satu buah objek atau hingga mencapai jumlah cluster yang diinginkan.

Sebelum pembentukan sebuah cluster perlu dihitung jarak kemiripan antara obyek data. Ada beberapa cara untuk mengetahui kemiripan data. Satu di antara cara yang ada adalah similarity matrix dengan perhitungan euclidean distance. Euclidean distance didefinisikan sebagai berikut:

√ | | | | | | | | (2.1)

Atau dapat disingkat dengan:

√∑ (2.2) Keterangan:

 adalah jumlah atribut atau dimensi  dan adalah data

13 2.5.Definisi Metode Divisive

Teknik divisive clustering termasuk kedalam analisis hierarchical clustering. Pada setiap langkahnya, metode divisive terjadi penambahan kelompok kedalam dua nilai terkecil. Sampai akhirnya semua element terkelompokan.

Teknik divisive merupakan proses pengklasteran yang didasarkan pada persamaan nilai rata-rata antar objek. Jika sebuah objek memiliki persamaan nilai rata-rata terbesar maka objek tersebut akan terpisah dan berubah menjadi splinter group. Pada teknik divisive ini perhitungan juga di lihat dari perbedaan atau selisih anatara persamaan nilai rata-rata dengan nilai elemen matrik yang telah menjadi splinter group. Jika selisih nilai antara persamaan nilai rata-rata dengan nilai elemen matrik splinter group bernilai negatif, maka perhitungan terhenti sehingga harus dibuat matrik baru untuk mendapatkan klaster yang lain. Perhitungan ini terus dilakukan sedemikian sehingga semua objek terpisah.

2.6.Algoritma Metode Divisive

Misalkan diberikan data X matriks berukuran n x p (n = jumlah sampel data, p = variabel setiap data). Xij= data sampel ke-j (j = 1, 2, …, n) dan variabel ke-i (i = 1, 2, …, p).

1. Bentuk suatu matriks jarak dengan menggunakan jarak euclidean. Rumusnya berikut :

Asumsikan setiap data dianggap sebagai klaster. Jika diberikan n data dan c klaster maka n = c, maka diperoleh matriks jaraknya, yaitu:

[ ] (2.4)

2. Hitung nilai rata-rata setiap obyek dengan obyek lainnya

3. Tentukan objek yang memiliki nilai rata-rata yang terbesar, objek yang memiliki nilai rata-rata yang terbesar akan dipisah dan berubah menjadi splinter group.

4. Hitung selisih nilai antara elemen matriks splinter group dengan nilai rata-rata setiap objek yang tersisa.

5. Tentukan objek yang memiliki nilai selisih terbesar antara elemen matriks splinter group dengan nilai rata-rata. Jika nilai selisih tersebut bernilai positif, maka objek yang memiliki nilai selisih terbesar bergabung dengan splinter group.

6. Ulangi langkah satu sampai lima sedemikian sehingga semua nilai selisih antara nelemen matriks splinter group dengan nilai rata-rata bernilai negatif dan klaster terbagi menjadi dua klaster baru.

15 CONTOH ALGORITMA DIVISIVE :

Untuk memperjelas metode tersebut dapat diperhatikan contoh berikut. Diketahui distance matriks D dengan 5 sample a, b, c, d, e seperti dibawah ini.

[ ]

Data yang terdapat dalam matrik memiliki nilai yang berbeda antara objek a, b, c, d, dan e. Dari matrik diatas kemudian akan dihitung nilai rata-rata setiap obyek dengan obyek lainnya seperti dalam Tabel 2.1:

Tabel 2.1 Average dissimilarity to the other objects tahap 1

Objects Average dissimilarity to the other objects

a (2+6+10+9)/4=6.75

b (2+5+9+8)/4=6.00

c (6+5+4+5)/4=5.00

d (10+9+4+3)/4=6.50

e (9+8+5+3)/4=6.25

Dari tabel 2.1 objek a disebut splinter group. Sampai pada langkah ini menghasilkan dua grup yaitu grup {a} dan grup {b,c,d,e}, tetapi perhitungan tidak berhenti sampai disini. Untuk setiap objek dari group yang besar harus di hitung average dissimilarity dengan objek yang tersisa, dan membandingkan itu dengan average dissimilarity dengan objek dari splinter group. Pada Tabel 2.2

menghitung selisih dari nilai rata-rata obyek yang tersisa dengan nilai rata-rata dari splinter group:

Tabel 2.2 Difference tahap 1

Objects ^{Average dissimilarity} to the other objects

Average dissimilarity to

objects of splinter group ^Difference

b (5.0+9.0+8.0)/3 = 7.33 2.00 5.33

c (5.0+4.0+5.0)/3 = 4.67 6.00 -1.33

d (9.0+4.0+3.0)/3 = 5.33 10.00 -4.67

e (8.0+5.0+3.0)/3 = 5.33 9.00 -3.67

Hasil perhitungan nilai selisih dalam Tabel 2.2 terlihat bahwa perbedaan terbesar terdapat pada objek b. Oleh sebab itu, objek b berpindah bagian menjadi splinter group. Jadi, splinter group yang satu {a,b} dan group sisanya {c,d,e}. Pada Tabel 2.3 dilakukan perhitungan ulang masing-masing group dengan obyek yang ada dan tersisa didalamnya, maka didapat:

Tabel 2.3 Difference tahap 2

Objects ^{Average dissimilarity} to the other objects

Average dissimilarity to

objects of splinter group ^Difference

c (5.0+4.0)/2 = 4.50 (5.0+3.0)/2 = 4.00 -1.00 d (4.0+3.0)/2 = 3.50 (10.0+9.0)/2 = 9.50 -6.00 e (5.0+3.0)/2 = 4.00 (9.0+8.0)/2 = 8.50 -6.00 Pada Tabel 2.3 terlihat, untuk semua difference bernilai negatif. Oleh sebab itu tidak terjadi perpindahan. Proses dihentikan dan langkah divisive pertama selesai. Dimana data dibagi dalam dua klaster, yaitu {a,b}, dan {c,d,e}.

Dalam langkah berikutnya akan dilakukan pembagian klaster. Pembagian klaster dilakukan pada klaster yang memiliki rata-rata terbesar. Rata-rata dari klaster {a,b} adalah 2, dan untuk klaster {c,d,e} adalah 5. Oleh sebab itu, akan terjadi pembagian klaster {c,d,e}, dengan matrik sebagai berikut :

[ ]

Tabel 2.4 Average dissimilarity to the other objects tahap 2

Objects Average dissimilarity to the other objects

c (4.0+5.0)/2 = 4.50

d (4.0+3.0)/2 = 3.50

e (5.0+3.0)/2 = 4.00

Pada Tabel 2.4 adalah hasil perhitungan nilai rata-rata dengan objek yang tersisa. Ternyata objek c yang memiliki nilai positif terbesar, maka objek c masuk dalam splinter group. Jadi, terdapat dua grup yaitu {c} dan {d,e}, selanjutnya akan dihitung nilai selisih dari nilai rata obyek yang tersisa dengan nilai rata-rata dari splinter group seperti dalam Tabel 2.5:

Tabel 2.5 Difference tahap 3

Objects ^{Average dissimilarity} to the other objects

Average dissimilarity to

objects of splinter group ^Difference

d 3.0 4.00 -1.00

Dari Tabel 2.5 memperlihatkan proses pembentukan dihentikan karena semua difference bernilai negatif. Karena itu, pembagian pada langkah dua {c,d,e} adalah {c} dan {d,e}. Jadi, klaster yang didapat {a,b}, {c}, dan {d,e}. klaster {c} disebut singleton karena hanya mengandung satu objek. Hasil dari hierarikal digambarkan seperti pada Gambar 2.2 :

a,b,c,d,e a,b c,d,e c d,e a b Gam bar 2

19 2.7.Uji Akurasi Data

Setelah didapatkan hasil olahan dengan divisive perlu diuji akurasinya supaya diketahui validitas data tersebut. Ada beberapa teknik untuk uji akurasi data tersebut. Karena metode yang digunakan adalah metode clustering maka dapat digunakan dua jenis akurasi, yaitu Internal Evaluation dan External Evaluation (Prasetyo, 2014).

1. Internal Evaluation

Internal Evaluation merupakan pengujian data cluster demi validitasnya tanpa informasi dari luar. Validasi ini contohnya adalah cohesion, separation, silhouette coefficient, dan sum of square error(SSE).

2. External Evaluation

Dengan menggunakan external evaluation akan diketahui kedekatan antara label cluster terbentuk dengan class yang disediakan. External evaluation ini dapat dilakukan dengan confusion matrix, entropy, dan purity.

Pada penelitian ini yang akan digunakan untuk uji akurasi adalah internal evaluation, secara khusus dengan menggunkan teknik sum of square error (SEE). Pada setiap pembentukan cluster akan dihitung nilai SSE-nya. Semakin kecil nilai SSE menunjuakan bahwa cluster yang dibentuk semakin baik pula. Berukut formula SSE yang akan digunakan (Lior Rokach):

20 Keterangan

 adalah jarak data x di indeks i

 adalah rata-rata semua jarak data di cluster k Berikut adalah algoritma SSE:

1. Tentukan matriks K yang akan dihitung menggunakan SSE  adalah data set dari cluster k

 Cluster k adalah anggota dari matriks K 2. Jika k=1

3. Hitung rata-rata cluster k ( ) … a

4. Lakukan langkah 5 dan 7 untuk setiap data x

5. Kurangkan a dengan data x di indek i ‖ ‖ … b 6. Hitung … c

7. c dijumlahkan untuk setiap cluster k … d 8. Jumlahkan total d di matriks K

21 BAB III

METODOLOGI PENELITIAN

BAB III METO DO LOG I PENELITIAN

Berdasarkan pada landasan teori yang telah disampaikan pada bab kedua. Pada bab ini akan dibahas mengenai metodologi yang digunakan dalam penelitian ini. Bab ketiga ini akan dipaparkan tentang sumber data yang diperoleh dan teknik analisis data.

3.1.Sumber data

Data yang digunakan adalah data penjualan tahun 2014 pada perusahaan XYZ. Data yang digunakan merupakan hasil eksport dari database perusahaan berjenis file csv. Total data transaksi penjualan bejumlah 933 record.

3.2.Teknik Analisis Data

Data yang telah diperoleh selanjutnya mulai dianalisis. Berkaitan dengan tahap-tahap teknik analisis dan jalannya program digambarkan dengan block diagram sebagai berikut

Data Preprocessing ^Perhitungan

Jarak ^Divisive ^Output ^Jtree

Akurasi

Gam bar 3 Gambar 3.1. Block diagram proses program

1. Data

Data yang digunakan dalam penelitian ini adalah data yang diperoleh dari perusahaan XYZ. Data ini merupakan data transaksi penjualan produk helm. Data penjualan ini bersifat penting karena mengandung informasi penjualan secara

detail. Data yag digunakan adalah data penjualan tahun 2014 selama kurun waktu satu tahun.

2. Preprocessing

Data yang sudah didapat selanjutnya diolah dengan tahap preprocessing. Pada tahap ini akan dilakukan data cleaning, data integration, data selection, dan data transformation.

3. Perhitungan Jarak

Setalah melalui tahap preprocessing, tahap selanjutnya adalah mengukur jarak setiap data. Perhitungan jarak menggunakan euclidean distance, seperti yang telah dipaparkan pada bab kedua dalam penelitina ini. Dengan menggunakan perhitungan euclidean distance akan didapatkan jarak antar obyek data dalam sebuah matriks. Matriks tersebut nantinya akan digunakan untuk tahap selanjutnya, yaitu clustering menggunakan metode divisive. Tabel 3.1 adalah contoh data yang akan digunakan untuk perhitungan euclidean distance:

Tabel 1 Tabel 3.1. Data contoh perhitungan jarak

Data x y a 87.0 89.0 b 84.0 76.0 c 83.0 70.0 d 80.0 74.0 e 82.0 83.0 f 81.0 92.0

Dengan menggunakan rumus perhitungan euclidean distance, didapatkan matriks jarak seperti pada Tabel 3.2:

Tabel 2 Tabel 3.2. Hasil euclidean distance

a b c d e f a 0.0 13.342 19.417 16.553 7.811 6.709 b 13.342 0.0 6.083 4.473 7.281 16.279 c 19.417 6.083 0.0 5.0 13.039 22.091 d 16.553 4.473 5.0 0.0 9.22 18.028 e 7.811 7.281 13.039 9.22 0.0 9.056 f 6.709 16.279 22.091 18.028 9.056 0.0 4. Divisive

Dalam tahap ini hasil dari matriks jarak akan digunakan untuk pembentukan cluster. Masing-masing obyek data akan dikelompokan berdsarkan jarak kemiripannya. Proses pengelompokan menggunakan perhitungan divisive. Langkah-langkah perhitungannya seperti yang dapat dilihat dalam bab kedua dalam penelitian ini. Berikut ini penerapan algoritma divisive:

Tahap 1

 Langkah pertama: Dari matriks jarak pada Tabel 3.2 asumsikan setiap data dianggap sebagai klaster.

 Langkah kedua : Hitung nilai rata-rata setiap objek dengan objek lainnya.  Rata-rata objek a = 10.63866667

 Rata-rata objek b = 7.909666667  Rata-rata objek c = 10.93833333  Rata-rata objek d = 8.879

24  Rata-rata objek e = 7.7345  Rata-rata objek f = 12.02716667

 Langkah ketiga: Tentukan objek yang memiliki nilai rata-rata yang terbesar, objek yang memiliki nilai rata-rata yang terbesar akan terpisah dan berubah menjadi splinter group. Diperoleh objek f memiliki rata-rata terbesar, maka objek f keluar dan menjadi splinter group.

Tahap 2

Diperoleh matrik jarak yang baru, seperti pada Tabel 3.3:

Tabel 3 Tabel 3.3. Matrik jarak tahap 1

a b c d e a 0.0 13.342 19.417 16.553 7.811 b 13.342 0.0 6.083 4.473 7.281 c 19.417 6.083 0.0 5.0 13.039 d 16.553 4.473 5.0 0.0 9.22 e 7.811 7.281 13.039 9.22 0.0

 Ulangi langkah kedua : Dari matriks jarak yang baru, kemudian pilih rata-rata antar antar objek dengan objek lainnya.

 Rata-rata objek a = 11.4246  Rata-rata objek b = 6.2358  Rata-rata objek c = 8.7078  Rata-rata objek d = 7.0492  Rata-rata objek e = 7.4702

Kemudian selisihkan setiap nilai rata-rata tersebut dengan elemen matrik splinter group.  Rata-rata objek a = 11.4246 - 6.709 = 4.7156  Rata-rata objek b = 6.2358 - 16.279 = -10.0432  Rata-rata objek c = 8.7078 - 22.091 = -13.3832  Rata-rata objek d = 7.0492 - 18.028 = -10.9788  Rata-rata objek e = 7.4702 - 9.056 = -1.5858

 Langkah ketiga : tentukan objek yang memiliki nilai selisih terbesar, objek yang memiliki nilai selisih terbesar akan terpisah dan bergabung dengan splinter group. Objek a memiliki nilai selisih terbesar, maka objek a bergabung dengan objek f ke dalam splinter group.

Tahap 3

Diperoleh matrik jarak yang baru, , seperti pada Tabel 3.4:

4 Tabel 3.4. Matrik jarak tahap 3

b c d e

b 0.0 6.083 4.473 7.281

c 6.083 0.0 5.0 13.039

d 4.473 5.0 0.0 9.22

e 7.281 13.039 9.22 0.0

 Ulangi langkah kedua : Dari matriks jarak yang baru, kemudian pilih rata-rata antar antar objek dengan objek lainnya.

 Rata-rata objek b = 4.45925  Rata-rata objek c = 6.0305

26  Rata-rata objek d = 4.67325  Rata-rata objek e = 7.385

Kemudian selisihkan setiap nilai rata-rata tersebut dengan elemen matrik splinter group.

 Rata-rata objek b = 4.45925 - 14.8105 = -10.35125  Rata-rata objek c = 6.0305 - 20.754 = -14.7235  Rata-rata objek d = 4.67325 - 17.2905 =-12.61725  Rata-rata objek e = 7.385 - 8.4335 = -1.0485

Karena semua nilai selisih bernilai negatif, maka algoritma kembali ke awal. Rata-rata objek terbesar pada matriks tersebut dimiliki oleh objek e, maka objek e keluar dan membentuk klaster baru.

Tahap 4

Diperoleh matrik jarak yang baru, , seperti pada Tabel 3.5:

5 Tabel 3.5. Matrik jarak tahap 4

b c d

b 0.0 6.083 4.473

c 6.083 0.0 5.0

d 4.473 5.0 0.0

 Ulangi langkah kedua : Dari matriks jarak yang baru, kemudian pilih rata-rata antar antar objek dengan objek lainnya.

 Rata-rata objek b = 3.518666667  Rata-rata objek c = 3.694333333

27  Rata-rata objek d = 3.157666667

Kemudian selisihkan setiap nilai rata-rata tersebut dengan elemen matrik splinter group.

 Rata-rata objek b = 3.518666667 - 7.281 = -3.762333333  Rata-rata objek c = 3.694333333 - 13.039 = -9.344666667  Rata-rata objek d = 3.157666667 - 9.22 = -6.062333333

Karena semua nilai selisih bernilai negatif, maka algoritma berhenti sampai disini. Maka objek b, c,dan d keluar dan membentuk klaster baru.

Dengan mengimplementasikan algoritma divisive menggunakan java, data sampel yang digunakan pada Tabel 3.1 menghasilhan skruktur tree cluster seperti pada Gambar 3.2:

Gam bar 4

28 5. Cluster

Proses Divisive menghasilkan jumlah cluster maksimum sesuai dengan proses iterasi pada algoritma divisive. Hasil pembentukan cluster ditampilkan pula kedalam struktur tree. Dari hasil Jtree tersubut juga dapat ditentukan cluster yang diinginkan seperti pada Tabel 3.6.

Tabel 6 Tabel 3.6. Contoh pembentukan 3 cluster oleh sistem

Cluster 1 Cluster 2 Cluster 3

a e c

f b

d 6. Perhitungan Akurasi

Pada penelitian ini akan dilakukan uji akurasi pada setiap pembentukan cluster dan mengevaluasi pola yang ditemukan dari hasil pengelompokan. Sebelum sistem menyimpan cluster yang sudah terbentuk, masing-masing cluster akan di hitung menggunakan sum of square error (SSE). Setelah semua cluster terbentuk akan ditotal jumlah SSE-nya. Dengan demikian ada sejumlah percobaan pembentukan cluster yang akan dihitung SSE-nya. SSE dengan nilai terendah mengindikasikan bahwa cluster yang tebentuk adalah yang paling baik. Pada penelitian ini dilakukan 2 sampai 7 percobaan pembentukan cluster sesuai dengan jumlah obyek data, namun tidak menutup kemungkinan jika percobaan yang dilakukan bisa lebih atau kurang atau lebih dari 7. Hal ini tergantung jumlah obyek data dan kebutuhan yang ada.

29 BAB IV

ANALISIS DAN PERANCANGAN SISTEM

BAB IV ANALISI S DAN P ERANCANG AN SI STEM

Pada bab ini akan dijelaskan mengenai perancangan sistem yang akan diimplementasikan. Meliputi identifikasi sistem, perancangnan umum sistem, perancangan system, perancangan struktur data dan perancangan antar muka. 4.1. Identifikasi Sistem

4.1.1. Diagram Use Case

Diagram use case adalah sebuah gambaran fungsi/pekerjaan yang dapat dilakukan oleh sistem tersebut. diagram use case yang digunakan dapat dilihat pada bagian lampiran 1 untuk melihat definisi use case tersebut.

4.1.2. Narasi Use Case

Pada bagian ini setiap use case akan dirinci dalam sebuah narasi yang merupakan diskripsi tekstual dari kejadian bisnis dan bagaimana pengguna berinteraksi dengan sistem untuk menyelesaikan tugas tersebut. untuk mengetahui secara keseluruhan narasi use case dapat dilihat pada lampiran 2.

4.2. Perancangan Umum Sistem

4.2.1. Masukan Sistem

Masukan yang digunakan dalam sistem ini berasal dari tabel database yang kemudian di ekspor kedalam file jenis *.csv file. Ketentuan eksport juga

perlu diperhatikan. Pilihan untuk menyertakan nama kolom harus dipilih, pemisah kolom mengunakan tanda koma, dan tidak boleh ada nilai null.

4.2.2. Proses Sistem

Proses dari sistem yang menghasilkan cluster yang berfungsi untuk mempediksi ini terdiri dari beberapa langkah:

a. Memasukan nilai range harga kelompok, kelompok 1 sampai dengan 5. b. Penginputan file data penjualan yang akan digunakan untuk proses data

Dalam dokumen Implementasi data mining menggunakan metode clustering untuk prediksi penjualan di PT. XYZ. (Halaman 24-200)