ANALISIS DATA TRANSAKSI PENJUALAN UNTUK KLASIFIKASI JENIS BARANG DAN RELASI DAYA BELI RELATIF MASYARAKAT MENGGUNAKAN ALGORITMA K-MEANS SERTA ASOSIASI APRIORI - UDiNus Repository LILIS D BAB II

(1)

8 BAB II

TINJAUAN PUSTAKA

2.1 Penelitian Terkait

Penelitian yang dilakukan oleh Dinda Setiawati Devi dengan menggunakan metode Apriori untuk analisa keranjang pasar untuk 100 data transaksi dan 55 jenis barang menghasilkan 8 asosiasi data dengan parameter confidence >- 10% dan min-support >- 5% [7].

Penelitian yang dilakukan oleh S.Moertini Veronica dan Yulita Marsela dengan algoritma hash-based pada data transaksi penjualan obat di apotik menyimpulkan kinerja hash-based ternyata bergantung kepada bilangan prima yang digunakan pada fungsi hashing. Semakin besar bilangan ini ( hingga di atas dan paling dekat dengan jumlah item ), semakin cepat waktu komputasinya [19].

Penelitian yang dilakukan oleh Afif Syaifullah Muhammad, melakukan implementasi data mining algoritma Apriori pada system penjualan menyimpulkan teknik data mining dengan algoritma Apriori dapat diimplementasikan pada system penjualan [1].

Penelitian yang dilakukan Erwin, melakukan analisis market basket dengan algoritma Apriori dan FP-Growth menyimpulkan bahwa algoritma Apriori membutuhkan waktu komputasi yang lama untuk mendapatkan frequent itemsets, karena berulang kali melakukan pemindahan data dan membutuhkan memori yang besar sedangkan FP-Growth hanya membutuhkan dua kali scanning database dalam mencari frequent itemsets sehingga waktu yang dbutuhkan menjadi relatif singkat dan efisien [8].

(2)

9

– rata nilai confidence yang lebih tinggi dibandingkan dengan Fuzzy C-Means (83%) pada nilai minimum support 20 dan 40 [20].

Penelitian yang dilakukan oleh Andreas, Gregorius Satia Budhi, Hendra Rusly , meneliti asosiasi pembelian barang di supermarket dengan metode market basket analysis menyimpulkan [11] :

x Menemukan frequent itemset dan association rule yang memenuhi syarat minimum support, berdasarkan item yang ada dalam transaksi.

x Dapat mengetahui asosiasi barang apa saja yang sering dibeli bersamaan oleh konsumen.

x Semakin kecil minimum support dan confidence yang ditentukan maka semakin banyak rules yang dapat dihasilkan.

x Pada proses pembuatan 2 – itemset candidate membutuhkan waktu yang paling lama, semakin banyak jumlah 1-itemset candidate yang memenuhi minimum support, maka semakin banyak pula jumlah 2-itemset yang harus dihasilkan.

Dalam aturan asosiasi pertambangan tinjauan terbaru dari Sotiris Kotsiantis, Dimitris Kanellopoulos , menyimpulkan algoritma konvensional aturan asosiasi penemuan berlangsung dalam dua langkah. Semua itemset sering ditemukan pada langkah pertama. The Frequent itemset adalah itemset yang disertakan dalam setidaknya transaksi minimum support. Asosiasi aturan dengan kepercayaan pada minimum confidence setidaknya dihasilkan pada langkah kedua [14].

Penelitian Christian Borgelt , menyimpulkan pada tahap preprocessing dilakukan penghapusan item transaksi yang tidak sering muncul sehingga waktu lebih efisien. Implementasi algoritma FP-pertumbuhan melebihi algoritma Apriori dan algoritma Eclat [4].

(3)

10

Penelitian Mohammad El-Hajj dan Osmar R.Zaiane , menyimpulkan pendekatan lompatan traversal secara signifikan mengurangi jumlah calon itemsets dan cocok sebagai kerangka kerja yang baik untuk pertambangan dan pemrosesan parallel, serta menunjukkan penghematan drastis dalam penggunaan memori [9].

Penelitian Xun Zhu, Hongtao Deng, Zheng Chen , menyimpulkan aturan asosiasi pertambangan pola yang sering muncul mengalami perkembangan yang cukup pesat yang telah diterapkan untuk berbagai aplikasi domain, seperti pengindeksan dan pencarian kesamaan kompleks data terstruktur, pertambangan multimedia, dan pertambangan web [2].

Tabel 2.1 . Rangkuman penelitian terkait analisis data transaksi penjualan barang No Nama Peneliti dan

Tahun

Masalah Metode Hasil

1 Dinda Setiawati Devi, 2009

Penggalian asosiasi data transaksi penjualan.

Algoritma Asosiasi Apriori, dengan 100 data transaksi penjualan.

Ada 8 Asosiasi, dengan min-support 5% dan min-confidence 10%

2 S.Moertini

Veronica dan Yulita Marsela, 2004

Algoritma Hash-Based

Bilangan prima yang paling efektif untuk digunakan dalam fungsi

hashing adalah yang terdekat dan lebih besar dari jumlah seluruh produk.

3 Afif Syaifullah Muhammad. 2009

Algoritma Apriori

Teknik data mining

dengan algoritma Apriori dapat

(4)

11

Tabel 2.1 Rangkuman penelitian terkait analisis data transaksi penjualan barang (lanjutan)

No Nama Peneliti dan Tahun

4 Erwin,2009 Penggalian

asosiasi data transaksi penjualan.

Algoritma Apriori dan FP-Growth

algoritma Apriori membutuhkan waktu komputasi yang lama untuk mendapatkan

frequent itemsets, karena berulang kali melakukan pemindahan data dan membutuhkan memori yang besar sedangkan FP-Growth hanya membutuhkan dua kali scanning database dalam mencari

frequent itemsets

sehingga waktu yang dibutuhkan menjadi lebih singkat dan efisien.

5 Santi Wahyuni

Febriana, 2010

Algoritma K-Means dan Fuzzy C Means

Data yang di-cluster

mempunyai rata – rata nilai confidence lebih tinggi yaitu 85% pada nilai min-support 20 dan 40, dari pada data yang tidak melalui proses clustering. Data yang melalui proses

clustering dengan K-Means menghasilkan rata – rata nilai

(5)

12

Tabel 2.1 . Rangkuman penelitian terkait analisis data transaksi penjualan barang (lanjutan)

6 Andreas Handojo,

Gregorius Satia Budhi, Hendra Rusli, 2004.

Menggali asosiasi item barang

Metode Market Basket Analysis

- Menemukan

frequent itemset

dan association rule yang memenuhi syarat minimum support, berdasarkan item yang ada dalam transaksi.

- Dapat

mengetahui asosiasi barang apa saja yang sering dibeli bersamaan oleh konsumen.

- Semakin kecil

minimum support dan

confidence yang ditentukan maka semakin banyak rules

yang dapat dihasilkan. waktu yang paling lama, semakin banyak jumlah

1-itemset

candidate yang memenuhi

(6)

13

7 Sotiris Kotsiantis, Dimitris

Kanellopoulos,2006

Aturan Asosiasi Pertambangan

Algoritma konvensional aturan asosiasi.

Algoritma

konvensional aturan asosiasi penemuan berlangsung dalam dua langkah. Semua

itemset sering ditemukan pada langkah pertama.

The Frequent itemset adalah

itemset yang disertakan dalam setidaknya transaksi

minimum support. Asosiasi aturan dengan kepercayaan pada minimum confidence

setidaknya dihasilkan pada langkah kedua. 8 Christian Borgelt,

2005

Penambangan

itemset yang sering muncul dari database

transaksi.

Algoritma Fp-Growth, algoritma Apriori dan algoritma Eclat.

Pada tahap

preprocessing

dilakukan penghapusan item

transaksi yang tidak sering muncul sehingga waktu lebih efisien. Implementasi algoritma FP-Growth melebihi algoritma Apriori dan algoritma Eclat. 9 Christian Borgelt,

Thorsten Meini, Michael Berthold, 2005

Pertambangan sub struktur molekul yang paling sering muncul dalam satu set molekul.

Search Tree Traversal

(7)

14

10 El-Hajj Mohammad

dan Osmar R.Zaiane, 2005

Menemukan maksimal pola dengan

memperkenalkan metode baru menghitung dukungan kandidat berdasarkan dukungan dari pola kandidat lainnya.

Leap Traversal

dengan dua pendekatan, pertama

mengurangi pola pohon yang tidak sering muncul , yang kedua partisi ruang transaksi menggunakan Cofi-pohon.

Pendekatan lompatan traversal secara signifikan mengurangi jumlah calon itemsets dan cocok sebagai kerangka kerja yang baik untuk

pertambangan dan pemrosesan parallel, serta menunjukkan penghematan drastis dalam penggunaan memori.

11 XunZhu, Hongtao

Deng , Zheng Chen .2011

Asosiasi aturan pertambangan pola yang sering muncul.

Algoritma Apriori, Fp-Growth, Eclat.

Aturan asosiasi pertambangan pola yang sering muncul mengalami

perkembangan yang cukup pesat yang telah diterapkan untuk berbagai aplikasi domain, seperti

pengindeksan dan pencarian kesamaan kompleks data terstruktur, pertambangan multimedia, dan pertambangan web

2.2. Landasan Teori

2.2.1. Konsep Dasar Aturan Asosiasi Algoritma.

(8)

15

adalah proses dua bagian. Pertama identifikasi set item atau itemsets dalam dataset. Kedua derivasi selanjutnya dari kesimpulan dari itemsets tersebut. Sebagian besar penelitian terkait sampai saat ini difokuskan pada penemuan efisiensi itemsets sebagai tingkat kompleksitas jauh lebih besar dibandingkan generasi inferensi.[6] Selama satu dekade terakhir berbagai algoritma telah dikembangkan melalui penyempurnaan strategi pencarian, teknik pemangkasan, struktur data dan penggunaan organisasi dataset alternatif. Sementara sebagian besar algoritma fokus pada penemuan eksplisit dari semua kesimpulan untuk dataset tertentu, pertimbangan peningkatan sedang diberikan kepada algoritma khusus yang berusaha untuk meningkatkan waktu pemrosesan. Untuk mengurangi waktu pengolahan bisa dilakukan dengan teknik pemangkasan dinamis mengurangi dataset selama pengolahan, membuang item yang tidak perlu.[6]

Kendala yang paling umum digunakan untuk mengurangi eksplorasi selama identifikasi itemsets adalah spesifikasi dari minsup ambang batas dukungan, dimana dukungan berkaitan dengan berapa kali itemsets akan muncul. Ini secara efektif mengurangi identifikasi itemsets dengan penemuan hanya itemsets yang melebihi minsup kemunculan dianggap sebagai itemsets yang valid.[6]

Meningkatkan Apriori[6] :

x Mengurangi melewati scan database transaksi. x Kecilkan jumlah calon / itemsets.

x Memfasilitasi dukungan menghitung calon.

x Menghapus transaksi yang jarang muncul dari k-itemset dari database untuk scan lebih lanjut.

(9)

16

dari item adalah 0.1%, itu berarti hanya 0,1 persen dari transaksi mengandung pembelian item ini [14].

Keyakinan atau kepercayaan adanya aturan asosiasi didefinisikan sebagai prosentasi ber transaksi yang mengandung X U Y dengan jumlah total transaksi yang mengandung X. Keyakinan adalah ukuran kekuatan aturan asosiasi, misalnya keyakinan dari aturan asosiasi X Y adalah 80%, itu berarti bahwa 80% dari transaksi yang mengandung X juga mengandung Y bersama-sama [14].

Umumnya sebuah asosiasi aturan algoritma pertambangan berisi langkah-langkah sebagai berikut [14] :

x Himpunan kandidat k-itemset yang dihasilkan oleh 1-ekstensi besar (k-1) – itemsets dihasilkan dalam iterasi sebelumnya.

x Mendukung untuk calon k-itemsets yang dihasilkan dari database.

x Itemsets yang tidak memiliki dukungan minimal dibuang dan sisanya disebut k-itemsets.

Algoritma konvensional aturan asosiasi menemukan dua langkah pertambangan asosiasi, langkah pertama menemukan semua itemset. The frequent itemset adalah itemset yang disertakan dalam setidaknya transaksi minsupport. Asosiasi aturan dengan kepercayaan pada minconfidence setidaknya dihasilkan pada langkah kedua [14].

2.2.2. Teknik Clustering

Teknik cluster termasuk teknik yang sudah cukup dikenal dan banyak dipakai dalam data mining. Usaha – usaha untuk menghitung jumlah cluster yang optimal dan peng-cluster-an yang paling baik masih terus dilakukan. Dengan demikian menggunakan metode yang sekarang, kita tidak bisa menjamin hasil peng-cluster-an sudah merupakan hasil yang optimal. Namun hasil yang dicapai biasanya sudah cukup bagus dari segi praktis. [22]

(10)

17

jaraknya dekat ) dalam satu cluster dan membuat jarak antar cluster sejauh mungkin. Ini berarti obyek dalam satu cluster sangat mirip satu sama lain dan berbeda dengan obyek dalam cluster _– cluster yang lain.[22]

2.2.3. Algoritma Klasifikasi K-Means.

Algoritma klasifikasi K-Means merupakan metode clustering berbasis jarak yang mempartisi data ke sejumlah kelompok dan bekerja pada atribut numerik Algoritma ini dimulai dengan pemilihan jumlah kelompok ( k ) secara acak serta pengambilan sebagian populasi sejumlah ( k ) untuk dijadikan sebagai titik pusat awal. Salah satu metode perhitungan jarak yang bisa digunakan adalah Euclidean Distance. Perhitungan jarak menggunakan metode Euclidean dinyatakan sebagai berikut :

d ( x,y ) =

∑ (

−

)

………..(1)

Dimana : x ; obyek ke – 1 y ; obyek ke – 2

n ; banyaknya atribut obyek ke – 1, obyek ke – 2.

Prosedur dasar clustering K-Means adalah sebagai berikut : 1. Menentukan k sebagai jumlah cluster yang ingin dibentuk.

2. Membangkitkan k centroid ( titik pusat cluster ) awal secara random. 3. Menghitung jarak setiap data ke masing – masing centroids.

4. Setiap data memilih centroid yang terdekat.

5. Menentukan posisi centroid baru dengan cara menghitung nilai rata – rata dari data – data yang berada pada centroid yang sama.

(11)

18

Ada dua pendekatan dalam clustering yaitu partisioning dan hirarki. Dalam partisioning kita mengelompokkan obyek ke dalam k cluster. Ini bisa dilakukan dengan menentukan pusat cluster awal, lalu dilakukan realokasi obyek berdasarkan kriteria tertentu sampai dicapai pengelompokkan yang optimum. Dalam cluster hirarki, kita mulai dengan membuat m cluster dimana setiap cluster beranggotakan satu obyek dan berakhir dengan satu cluster dimana anggotanya adalah m obyek. Dalam clutering hirarki kita hitung jarak masing – masing obyek dengan setiap obyek yang lain. Selanjutnya kita temukan pasangan obyek yang jaraknya terdekat. Sehingga tiap obyek akan berpasangan dengan satu obyek atau kelompok obyek yang lain yang paling dekat jaraknya. Langkah – langkah yang perlu dilakukan untuk melakukan clustering hirarki adalah [ 21 ] :

1. Kelompokkan setiap obyek ke dalam kelompok / clusternya sendiri.

2. Temukan pasangan paling mirip untuk dimasukkan ke dalam cluster yang sama dengan melihat data dalam matriks kemiripan.

3. Gabungkan kedua obyek dalam satu cluster. 4. Ulangi sampai tersisa hanya satu cluster.

2.2.4. Algoritma Apriori

Analisis asosiasi atau association rule mining adalah teknik data mining untuk menemukan aturan asosiatif antara suatu kombinasi item. Biasanya digunakan untuk analisis pembelian barang di pasar swalayan dengan maksud untuk mengetahui berapa besar kemungkinan seorang konsumen membeli satu jenis barang bersamaan dengan jenis barang yang lainnya. Sehingga perusahaan dapat mengatur strategi promosi dengan penempatan barang yang saling berhubungan ditempatkan secara berdekatan dan menetapkan strategi harga promosi untuk barang – barang tertentu yang saling berhubungan.

(12)

19

Tahap ini mencari kombinasi item yang memenuhi syarat minimum dari nilai support dalam database. Nilai support sebuah item diperoleh dengan rumus berikut :

Support A =

………( 2 )

Sementara itu, nilai support dari 2 item diperoleh dari rumus 2 berikut : Support ( A,B ) = P ( A ∩ B )

Support ( A,B ) = …………...………( 3 )

2. Pembentukan Aturan Asosiasi

Setelah semua pola frekuensi tinggi dtemukan, barulah dicari aturan asosiasi yang memenuhi syarat minimum untuk confidence dengan menghitung confidence aturan asosiatif A→B.

Nilai confidence dari aturan A→B diperoleh dari rumus berikut :

Confidence = P ( B | A ) =

……….( 4 )

2.2.5. Confusion Matrix

(13)

20

Confusion Matrix Tar get

Positive Negative

Model Positive a b

Positive Predictive

Value a/(a+b)

Negative c d

Negative Predictive

Value d/(c+d)

sensitivity Specificity

a/(a+c) d/(b+d) Accuracy = (a+d)/(a+b+c+d)

Akurasi : proporsi jumlah prediksi yang benar.[12]

- Positif presisi nilai prediktif atau proporsi kasus positif yang diidentifikasi dengan benar.

- Negatif prediktif value : proporsi kasus negatif yang diidentifikasi dengan benar. - Sensitivitas : proporsi kasus positif sebenarnya yang diidentifikasi dengan benar. - Kekhususan : proporsi kasus negatif yang sebenarnya yang diidentifikasi dengan

(14)

21 2.3.Kerangka Pemikirian

Bagan 2.1. Kerangka Pemikiran RUMUSAN MASALAH

Data Transaksi Penjualan Data Transaksi Penjualan 1.Banyaknya jumlah transaksi dengan item

barang yang sangat bervariasi.

2.Daya beli masyarakat setiap transaksi sangat bervariasi.

3. Belum mengetahui adanya asosiasi barang yang dijual secara umum maupun berdasarkan kemampuan daya beli.

4. Belum mengetahui nilai support

dan confidence untuk masing –

masing asosiasi barang

TUJUAN & MANFAAT

MANFAAT TUJUAN

Perusahaan bisa menyediakan persediaan barang di gudang sesuai permintaan konsumen, melakukan penjualan barang secara paket dengan harga lebih murah.

Evaluasi cluster jenis barang, memetakan daya beli konsumen, memetakan asosiasi barang secara umum maupun sesuai cluster daya beli, mengukur nilai

support dan confidence untuk masing-masing asosiasi barang dan mengukur waktu asosiasi.

PENDEKATAN

Cluster jenis barang dan daya beli masyarakat dengan Algoritma

K-Means

Asosiasi jenis barang menggunakan Algoritma

Asosiasi

Tools

Untuk cluster jenis barang dan cluster daya beli masyarakat dengan Rapidminer sedangkan untuk Asosiasi dengan Java

EVALUASI

Mengevaluasi hasil eksperimen, untuk asosiasi dievaluasi nilai support dan