Laporan Praktikum Data Mining

(1)

LAPORAN RESMI

PRAKTIKUM DATA MINING

CLUSTERING

DISUSUN OLEH: KELOMPOK C.23

ARIF RAKHMANTO (08 522 200) CATUR HERMAWANTO (08 522 210)

LABORATORIUM DATA MINING

JURUSAN TEKNIK INDUSTRI

FAKULTAS TEKNOLOGI INDUSTRI

UNIVERSITAS ISLAM INDONESIA

2010

(2)

ABSTRAKS

Analisis cluster merupakan salah satu teknik multivariat dalam data mining yang bertujuan untuk mengidentifikasi sekelompok obyek dengan kemiripan karakteristik tertentu yang dapat dipisahkan dengan kelompok obyek lainnya, sehingga obyek yang berada dalam kelompok yang sama relatif lebih homogen (sama) daripada obyek yang berada pada kelompok yang berbeda. Metode yang digunakan dalam peneliatian ini adalah metode hirarki. Dan dari hasil penelitian yang dilakukan terbentuk 3 cluster dan 1 outlier.

(3)

BAB I

PENDAHULUAN

1.1 Latar Belakang masalah

Laboratorium Data Mining merupakan salah satu lab. yang dibuat oleh UII yang ditujukan kepada mahasiswa jurusan teknik industri. Namun mahasiswa biasanya datang ke laboratorium hanya untuk melaksanakan praktikum saja. Padahal laboratorium tersebut dibuat tidak hanya untuk keperluan praktikum. Maka dengan penelitian yang dilakukan akan diketahui profilisasi mahasiswa yang berkunjung ke laboratorium data mining. Profilisasi tersebut berisi jenis kelamin, usia, angkatan, intensitas, dan durasi atau berapa lama biasanya responden tersebut berada di laboratorium.

1.2 Rumusan Masalah

1. Berapa cluster yang terbentuk dari penelitian yang dilakukan ? 2. Bagaimana hasil profilisasi customer berdasarkan penelitian ?

1.3 Batasan Masalah

1. Penelitian dikhususkan pada mahasiswa Teknik Industri. 2. Obyek lokasi penelitian adalah Laboratorium Data Mining.

1.4 Tujuan penelitian

1. Untuk mengetahui berapa banyak cluster yang akan terbentuk dari penelitian yang dilakukan.

2. Untuk mengetahui hasil profilisasi customer berdasarkan penelitian.

1.5 Manfaat Penelitian

Penelitian ini bermafaat untuk mengetahui apakah laboratorium data mining perlu meningkatkan pelayanan, mengatur ulang tata letak dan menambah fasilitas atau tidak. Manfaat lainnya adalah untuk mengetahui presentase angkatan berapa yang rata – rata mengambil praktikum data mining.

(4)

BAB II

LANDASAN TEORI

Analisis cluster merupakan salah satu teknik multivariat yang digunakan dalam data mining yang bertujuan untuk mengidentifikasi sekelompok obyek yang mempunyai kemiripan karakteristik tertentu yang dapat dipisahkan dengan kelompok obyek lainnya, sehingga obyek yang berada dalam kelompok yang sama relatif lebih homogen (sama) daripada obyek yang berada pada kelompok yang berbeda.

Jumlah kelompok yang dapat diidentifikasi tergantung pada banyak dan variasi data obyek. Tujuan dari pembentukan cluster ini adalah untuk analisis dan interpretasi lebih lanjut sesuai dengan tujuan penelitian yang dilakukan. Solusi cluster secara keseluruhan bergantung pada variabel-variabel yang digunakan sebagai dasar untuk menilai kesamaan. Penambahan atau pengurangan variabel-variabel yang relevan dapat mempengaruhi substansi hasil analisis cluster.

Analisis cluster dapat diterapkan pada bidang apa saja. Namun pemakaian teknik ini lebih familiar pada bidang pemasaran karena memang salah satu kegiatan yang dilakukan dalam pemasaran adalah pengelompokan, yang disebut segmentasi pasar. Penerapan analisis cluster di dalam pemasaran adalah sebagai berikut :

1. Membuat segmen pasar (segmenting the market)

Pelanggan atau pembeli sering diklasterkan berdasarkan manfaat atau keuntungan yang diperoleh dari pembelian barang. Setiap cluster akan terdiri dari pelanggan/pembeli yang relatif homogen, dinyatakan dalam manfaat yang dicari. 2. Memahami perilaku pembeli

Analisis cluster digunakan untuk mengenali/mengidentifikasi kelompok pembeli yang homogen/relatif homogen. Kemudian perilaku dalam untuk setiap kelompok perlu dikaji secara terpisah. Responden (pembeli) dikelompokkan didasarkan pada self-reported importance yang terkait pada setiap faktor pilihan yang digunakan untuk memilih toko atau mall di mana para pembeli membeli barang yang dibutuhkan.

3. Mengenali peluang produk baru

Dengan mengklasterkan merk dan produk, competitive set di dalam pasar bisa ditentukan. Merek di dalam klaster yang sama bersaing sengit satu sama lain, daripada merek dari klaster lain.

(5)

BAB III

METODOLOGI PENELITIAN

3.1 Lokasi Penelitian

Laboratorium Data Mining Teknik Industri FTI UII

3.2 Objek Penelitian

Mahasiswa teknik industri UII

3.3 Metode Pengumpulan Data

1. Data Primer

Data primer merupakan data yang didapatkan oleh peneliti langsung dari objeknya. Yang menjadi data primer dalam penelitian ini adalah data yang berasal dari kuisioner yang diisi langsung oleh para responden.

2. Data Sekunder

Data sekunder adalah data yang didapatkan setelah dilakukan proses analisa dan interpretasi terhadap data – data primer atau data – data yang telah ada sebelumnya sesuai dengan tujuan penelitian.. Yang merupakan data sekunder pada penelitian ini adalah data – data yang telah diclustering menggunakan metode hirarki dan memakai software SPSS.

(6)

3.4. Flowchart Penelitian

Mulai

Rumusan Masalah

Input Data

Clustering – Metode Hirarki

Profilisasi Customer

Selesai

(7)

3.5. Langkah Software

Kuisioner Tingkat Kepuasan

1. Input data yang diperoleh ke software

2. Pilih analyze klik Clasify lalu pilih Hirarchical Cluster 3. Variabel : Letakkan semua Variabel X yang valid 4. Label case by : Letakkan nama responden

5. Cluster : Case

6. Display : statistic, plot

7. Statistik : agglomeration schedule 8. Plots : klik Dendogram

9. I ccicle : none

10. Method : Cluster Method Pilih nearest neighbor measure Interval pilih Squared Euqliden Distance

11. Klik save

Cluster membership : none

Kuisioner Profilisasi Customer

2. Pilih analyze klik Descriptive Statistics lalu pilih Crosstabs 3. Row : Letakkan semua variable Y yang valid

4. Column : Letakkan Cluster Member 5. Exact : Asymptotic only

6. Statistics : Correlations

7. Cells : Counts klik observed, Noninteger Weights klik Round Cells Counts

8. Format : Row Order klik Ascending 9. Klik OK

(8)

BAB IV

PENGUMPULAN DAN PENGOLAHAN DATA

4.1. Pengumpulan Data

Hasil Rekapitulasi Kuesioner Profilisasi Customer

Tabel 4.1 Rekapitulasi Kuesioner Profilisasi Customer

No. Nama Jenis

Kelamin Usia Angkatan Intensitas Durasi

1 Sekar 2 3 2 3 4 2 Hendia V. R 2 3 2 2 3 3 Huda 1 2 2 4 3 4 Annisa 2 3 2 4 2 5 Fitra 1 3 2 4 2 6 Fandi 1 2 2 3 2 7 Maro 2 2 2 3 2 8 Ikhsan 1 3 2 3 3 9 Aya' 2 3 2 4 1 10 Mabok 1 3 2 3 4 11 Richo 1 3 3 4 1 12 Atlit 2 3 2 3 3 13 Digdoyo 1 2 3 4 1 14 Sigit 1 3 2 2 4 15 Anestia 2 3 2 2 4 16 Ayu 2 3 2 1 4 17 Ryan 1 3 2 1 4 18 Fauzi 1 3 2 1 4 19 Dika Oki 1 3 1 2 1 20 Hendi 1 3 2 2 1 21 Kristin 2 3 2 1 4 22 Farikh 1 2 3 4 1 23 Adit 1 3 1 1 4 24 Nunuk 1 3 1 4 1

(9)

No. Nama Jenis

Kelamin Usia Angkatan Intensitas Durasi

25 Wanda 1 3 1 4 1 26 Trisno 1 3 2 4 1 27 Rizki D.K. 1 3 1 1 3 28 Himawan 1 3 1 2 4 29 Omiyabi 1 3 1 2 3 30 Laskar Kesatria 1 3 1 2 3 31 Ibnu Herlino 1 3 2 3 4 32 Chanifa Yunani 2 2 3 4 3 33 Tomy 1 3 2 2 2 34 Safri Halimi 1 3 2 4 1 35 Rozaq 1 3 2 1 4 36 Lenny Octaviani 2 2 2 3 3 37 Nurul Luklu 2 3 2 3 4 38 Abdul Hafith 1 3 2 1 4 39 Syarif 1 3 2 2 3 40 Novi 2 2 2 3 3 41 Kidhut 1 3 2 1 4 42 Vivialita 2 3 2 3 3 43 Arfiana 2 3 2 4 3 44 Maya 2 3 2 2 2 45 Karen 2 3 2 4 1 46 Didit 1 3 2 3 3 47 Tasya 2 3 2 3 1 48 Tyas 2 3 2 4 2 49 Jusman Bieber 1 3 1 2 4 50 Galih 1 3 2 3 2

(10)

Hasil Rekapitulasi Kuesioner Tingkat Kepuasan

Tabel 4.2 Rekapitulasi Kuesioner Tingkat Kepuasan

No Nama Fasilitas Pelayanan Tata Letak Kenyamanan

1 Sekar 3 3 4 3 2 Hendia V. R 3 2 3 4 3 Huda 3 3 4 4 4 Annisa 2 3 3 3 5 Fitra 3 3 3 2 6 Fandi 2 2 2 1 7 Maro 2 2 2 2 8 Ikhsan 2 2 3 2 9 Aya' 2 3 3 2 10 Mabok 2 2 2 2 11 Richo 2 3 2 2 12 Atlit 3 3 4 4 13 Digdoyo 2 3 2 2 14 Sigit 2 2 3 3 15 Anestia 2 3 3 2 16 Ayu 1 2 1 3 17 Ryan 2 2 3 3 18 Fauzi 2 2 1 3 19 Dika Oki 1 2 2 3 20 Hendi 2 2 3 3 21 Kristin 1 2 1 3 22 Farikh 2 1 2 3 23 Adit 2 2 2 1 24 Nunuk 2 2 3 2 25 Wanda 2 3 3 3 26 Trisno 1 2 2 1 27 Rizki D.K. 2 3 2 3 28 Himawan 2 3 2 2 29 Omiyabi 2 3 2 1

(11)

No Nama Fasilitas Pelayanan Tata Letak Kenyamanan 30 Laskar Kesatria 2 3 2 2 31 Ibnu Herlino 2 2 2 2 32 Chanifa Yunani 2 2 2 2 33 Tomy 2 2 3 2 34 Safri Halimi 2 2 2 2 35 Rozaq 1 2 3 1 36 Lenny Octaviani 3 2 3 2 37 Nurul Luklu 2 2 2 2 38 Abdul Hafith 2 3 1 1 39 Syarif 2 2 2 2 40 Novi 2 2 2 2 41 Kidhut 1 1 1 1 42 Vivialita 3 4 3 3 43 Arfiana 3 3 3 3 44 Maya 3 2 3 2 45 Karen 3 3 3 3 46 Didit 3 3 3 2 47 Tasya 2 2 4 4 48 Tyas 3 2 2 2 49 Jusman Bieber 2 3 3 3 50 Galih 2 2 2 1

(12)

4.2. Pengolahan Data

4.2.1. Metode Hirarki a. Stage

Tabel 4.3 Agglomeration Schedule

Stage

Cluster Combined

Coefficients

Stage Cluster First Appears

Next Stage Cluster 1 Cluster 2 Cluster 1 Cluster 2

1 23 50 .000 0 0 17 2 25 49 .000 0 0 15 3 5 46 .000 0 0 42 4 43 45 .000 0 0 26 5 36 44 .000 0 0 25 6 39 40 .000 0 0 7 7 37 39 .000 0 6 8 8 34 37 .000 0 7 9 9 32 34 .000 0 8 11 10 24 33 .000 0 0 16 11 31 32 .000 0 9 12 12 10 31 .000 0 11 24 13 28 30 .000 0 0 14 14 13 28 .000 0 13 22 15 4 25 .000 0 2 32 16 8 24 .000 0 10 29 17 6 23 .000 0 1 33 18 16 21 .000 0 0 34 19 17 20 .000 0 0 20 20 14 17 .000 0 19 36 21 9 15 .000 0 0 38 22 11 13 .000 0 14 31

(13)

Stage

Cluster Combined

Coefficients

23 3 12 .000 0 0 44 24 7 10 .000 0 12 37 25 36 48 1.000 5 0 29 26 42 43 1.000 0 4 27 27 1 42 1.000 0 26 42 28 29 38 1.000 0 0 31 29 8 36 1.000 16 25 36 30 26 35 1.000 0 0 33 31 11 29 1.000 22 28 37 32 4 27 1.000 15 0 41 33 6 26 1.000 17 30 40 34 16 19 1.000 18 0 35 35 16 18 1.000 34 0 48 36 8 14 1.000 29 20 38 37 7 11 1.000 24 31 39 38 8 9 1.000 36 21 39 39 7 8 1.000 37 38 40 40 6 7 1.000 33 39 41 41 4 6 1.000 32 40 43 42 1 5 1.000 27 3 43 43 1 4 1.000 42 41 44 44 1 3 1.000 43 23 45 45 1 47 2.000 44 0 46 46 1 41 2.000 45 0 47 47 1 22 2.000 46 0 48

(14)

Stage

Cluster Combined

Coefficients

48 1 16 2.000 47 35 49

(15)

b. Dendogram

Dendrogram using Single Linkage

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25 Label Num +---+---+---+---+---+ Adit 23 ─┐ Galih 50 ─┼───────────────────────┐ Fandi 6 ─┘ │ Trisno 26 ─────────────────────────┤ Rozaq 35 ─────────────────────────┤ Syarif 39 ─┐ │ Novi 40 ─┤ │ Nurul Lu 37 ─┤ │ Safri Ha 34 ─┤ │ Chanifa 32 ─┤ │ Ibnu Her 31 ─┤ │ Mabok 10 ─┼───────────────────────┤ Maro 7 ─┘ │ Himawan 28 ─┐ │ Laskar K 30 ─┤ │ Digdoyo 13 ─┼───────────────────────┤ Richo 11 ─┘ │ Omiyabi 29 ─────────────────────────┤ Abdul Ha 38 ─────────────────────────┤ Aya' 9 ─┬───────────────────────┤ Anestia 15 ─┘ │ Ryan 17 ─┐ │ Hendi 20 ─┼───────────────────────┤ Sigit 14 ─┘ │ Nunuk 24 ─┐ │ Tomy 33 ─┼───────────────────────┤ Ikhsan 8 ─┘ │ Lenny Oc 36 ─┬───────────────────────┤ Maya 44 ─┘ │ Tyas 48 ─────────────────────────┤ Wanda 25 ─┐ │ Jusman B 49 ─┼───────────────────────┤ Annisa 4 ─┘ │ Rizki D. 27 ─────────────────────────┤ Fitra 5 ─┬───────────────────────┼───────────────────────┐ Didit 46 ─┘ │ │ Arfiana 43 ─┬───────────────────────┤ │ Karen 45 ─┘ │ │ Vivialit 42 ─────────────────────────┤ │ Sekar 1 ─────────────────────────┤ │ Huda 3 ─┬───────────────────────┘ │ Atlit 12 ─┘ │ Tasya 47 ─────────────────────────────────────────────────┤ Kidhut 41 ─────────────────────────────────────────────────┤ Farikh 22 ─────────────────────────────────────────────────┤ Ayu 16 ─┬───────────────────────┐ │ Kristin 21 ─┘ │ │ Dika Oki 19 ─────────────────────────┼───────────────────────┤ Fauzi 18 ─────────────────────────┘ │ Hendia V 2 ─────────────────────────────────────────────────┘ Gambar 4.1 Dendogram

(16)

c. Cluster

Tabel 4.4 Cluster

Cluster 1 Cluster 2 Cluster 3 Cluster 4 (outlier)

Adit Tasya Ayu Hendia V.

Galih Kidhut Kristin Fandi Farikh Dika Oki

Trisno Fauzi Rozaq Syarif Novi Nurul Luklu Safri Halimi Chanifa Ibnu Herlino Mabok Maro Himawan Laskar Kesatria Digdiyo Richo Omiyabi Abdul Hafit Aya’ Anestia Ryan Hendi Sigit Nunuk Tomy Ikhsan Lenny Oktaviani Maya

(17)

Cluster 1 Cluster 2 Cluster 3 Cluster 4 (outlier) Tyas Wanda Jusman Beiber Annisa Rizki D Didit Arfiana Karen Vivialita Sekar Huda Atlit

(18)

4.2.2. Profilisasi Customer

Tabel 4.5 Jenis Kelamin * Cluster Member Cluster Member

Total

1 2 3 4

Jenis Kelamin Laki - laki Count 27 2 2 0 31

% of Total 54.0% 4.0% 4.0% .0% 62.0%

Perempuan Count 15 1 2 1 19

% of Total 30.0% 2.0% 4.0% 2.0% 38.0%

Total Count 42 3 4 1 50

% of Total 84.0% 6.0% 8.0% 2.0% 100.0%

Tabel 4.6 Usia * Cluster Member Cluster Member

Total

1 2 3 4

Usia 17 - 19 tahun Count 7 1 0 0 8

% of Total 14.0% 2.0% .0% .0% 16.0%

20 -22 tahun Count 35 2 4 1 42

% of Total 70.0% 4.0% 8.0% 2.0% 84.0%

Total Count 42 3 4 1 50

% of Total 84.0% 6.0% 8.0% 2.0% 100.0%

Tabel 4.7 Angkatan * Cluster Member Cluster Member Total 1 2 3 4 Angkatan <= 2007 Count 8 0 1 0 9 % of Total 16.0% .0% 2.0% .0% 18.0% 2008 Count 31 2 3 1 37 % of Total 62.0% 4.0% 6.0% 2.0% 74.0% 2009 Count 3 1 0 0 4 % of Total 6.0% 2.0% .0% .0% 8.0% Total Count 42 3 4 1 50 % of Total 84.0% 6.0% 8.0% 2.0% 100.0%

(19)

Tabel 4.8 Intensitas * Cluster Member Cluster Member

Total

1 2 3 4

Intensitas Sangat Sering Count 5 1 3 0 9

% of Total 10.0% 2.0% 6.0% .0% 18.0% Sering Count 10 0 1 1 12 % of Total 20.0% .0% 2.0% 2.0% 24.0% Sedang Count 13 1 0 0 14 % of Total 26.0% 2.0% .0% .0% 28.0% Jarang Count 14 1 0 0 15 % of Total 28.0% 2.0% .0% .0% 30.0% Total Count 42 3 4 1 50 % of Total 84.0% 6.0% 8.0% 2.0% 100.0%

Tabel 4.9 Durasi * Cluster Member Cluster Member

Total

1 2 3 4

Durasi <= 15 menit Count 9 2 1 0 12

% of Total 18.0% 4.0% 2.0% .0% 24.0% 16 - 30 menit Count 8 0 0 0 8 % of Total 16.0% .0% .0% .0% 16.0% 30 - 60 menit Count 13 0 0 1 14 % of Total 26.0% .0% .0% 2.0% 28.0% >= 60 menit Count 12 1 3 0 16 % of Total 24.0% 2.0% 6.0% .0% 32.0% Total Count 42 3 4 1 50 % of Total 84.0% 6.0% 8.0% 2.0% 100.0%

(20)

BAB V

PEMBAHASAN

5.1. Clustering

Teknik yang digunakan dalam penelitian in adalah Teknik hirarki (hierarchical methods) adalah teknik clustering membentuk kontruksi hirarki atau berdasarkan tingkatan tertentu seperti struktur pohon (struktur pertandingan).

Dengan demikian proses pengelompokkannya dilakukan secara bertingkat atau bertahap. Hasil dari pengelompokan ini dapat disajikan dalam bentuk dendogram. Metode dalam teknik hirarki yang digunakan dalam penelitian ini adalah Agglomerative Methods.

Dari pengolahan data dengan menggunakan metode herarki maka terbentuklah 4 cluster yang dimana cluster 1 terdiri dari 42 responden, cluster 2 terdiri dari 3 responden, dan cluster 3 terdiri dari 4 responden. Cluster 4 tidak memiliki kelompok yang relative homogen, sehingga cluster 4 dikatakan outlier. Cluster 4 terdiri dari 1 responden.

5.2. Profilisasi Customer

Kuisioner 1 merupakan profilisasi dari customer. Ada 5 variabel yang terdapat pada kuisioner 1, yaitu Jenis Kelamin, Usia, Angkatan, Intensitas, dan Durasi. Berikut penjabaran dari crosstab masing – masing variable.

Jenis Kelamin Cluster 1 Laki – laki : 27 Perempuan : 15 Total : 42 Cluster 2 Laki – laki : 2 Perempuan : 1 Total : 3 Cluster 3 Laki – laki : 2 Perempuan : 2 Total : 4 Cluster 4 Laki – laki : 0 Perempuan : 1 Total : 1

(21)

Usia Cluster 1 17 – 19 tahun : 7 20 – 22 tahun : 35 Total : 42 Cluster 2 17 – 19 tahun : 1 20 – 22 tahun : 2 Total : 3 Cluster 3 17 – 19 tahun : 0 20 – 22 tahun : 4 Total : 4 Cluster 4 17 – 19 tahun : 0 20 – 22 tahun : 1 Total : 1 Angkatan Cluster 1 ≤ 2007 : 8 2008 : 31 2009 : 3 Total : 42 Cluster 2 ≤ 2007 : 0 2008 : 2 2009 : 1 Total : 3 Cluster 3 ≤ 2007 : 1 2008 : 3 2009 : 0 Total : 4 Cluster 4 ≤ 2007 : 0 2008 : 1 2009 : 0 Total : 1 Intensitas Cluster 1 Sangat Sering : 5 Sering : 10 Sedang : 13 Jarang : 14 Total : 42 Cluster 2 Sangat Sering : 1 Sering : 0 Sedang : 1 Jarang : 1 Total : 3 Cluster 3 Sangat Sering : 3 Sering : 1 Sedang : 0 Jarang : 0 Total : 4

(22)

Cluster 4 Sangat Sering : 0 Sering : 1 Sedang : 0 Jarang : 0 Total : 1 Durasi Cluster 1 ≤ 15 menit : 9 16 – 30 menit : 8 30 – 60 menit : 13 ≥ 60 menit : 12 Total : 42 Cluster 2 ≤ 15 menit : 2 16 – 30 menit : 0 30 – 60 menit : 0 ≥ 60 menit : 1 Total : 3 Cluster 3 ≤ 15 menit : 1 16 – 30 menit : 0 30 – 60 menit : 0 ≥ 60 menit : 3 Total : 4 Cluster 4 ≤ 15 menit : 0 16 – 30 menit : 0 30 – 60 menit : 1 ≥ 60 menit : 0 Total : 1

(23)

BAB VI

KESIMPULAN DAN SARAN

6.1. Kesimpulan

Berdasarkan hasil dari pembahasan pada bab V, maka didapatkan beberapa kesimpulan :

1. Cluster yang terbentuk sebanyak 3 cluster dan 1 outlier. Cluster 1 terdiri dari 42 responden, cluster 2 terdiri dari 3 responden, dan cluster 3 terdiri dari 4 responden. Cluster 4 tidak memiliki kelompok yang relative homogen, sehingga cluster 4 dikatakan outlier. Cluster 4 terdiri dari 1 responden.

2. Mahasiswa Teknik Industri yang berkunjung ke laboratorium Data Mining dominan berjenis kelamin laki-laki dengan rata-rata usia 20 – 22 tahun dan merupakan angkatan 2008 dengan intensitas kunjungan yang jarang dan durasi atau lama berkunjung responden ≥ 60 menit.

6.2. Saran

Berdasarkan kesimpulan diatas maka disarankan kepada Laboratorium Data Mining agar lebih gencar dalam mempromosikan kepada mahasiswa Teknik Industri dan mengadakan kegiatan yang bersifat rutin selain praktikum agar intensitas kunjungan mahasiswa ke Laboratorium dapat bertambah.

(24)

DAFTAR PUSTAKA

Modul II Analisis Cluster Praktikum Data Mining

Han, Jiawei. ”Data Mining Concept and Technique”. Presentation. http://www.cse.msu.edu/~cse980

Bertalya, ”Konsep Data Mining”. Universitas Gunadarma, 2009.

(25)

LAMPIRAN

Cluster

Case Processing Summarya,b Cases

Valid Missing Total

N Percent N Percent N Percent

50 100.0 0 .0 50 100.0

a. Squared Euclidean Distance used

b. Single Linkage Single Linkage Agglomeration Schedule Stage Cluster Combined Coefficients

Next Stage

Cluster 1 Cluster 2 Cluster 1 Cluster 2

1 23 50 .000 0 0 17 2 25 49 .000 0 0 15 3 5 46 .000 0 0 42 4 43 45 .000 0 0 26 5 36 44 .000 0 0 25 6 39 40 .000 0 0 7 7 37 39 .000 0 6 8 8 34 37 .000 0 7 9 9 32 34 .000 0 8 11 10 24 33 .000 0 0 16 11 31 32 .000 0 9 12 12 10 31 .000 0 11 24 13 28 30 .000 0 0 14 14 13 28 .000 0 13 22 15 4 25 .000 0 2 32 16 8 24 .000 0 10 29

(26)

Stage

Cluster Combined

Coefficients

Next Stage

Cluster 1 Cluster 2 Cluster 1 Cluster 2

17 6 23 .000 0 1 33 18 16 21 .000 0 0 34 19 17 20 .000 0 0 20 20 14 17 .000 0 19 36 21 9 15 .000 0 0 38 22 11 13 .000 0 14 31 23 3 12 .000 0 0 44 24 7 10 .000 0 12 37 25 36 48 1.000 5 0 29 26 42 43 1.000 0 4 27 27 1 42 1.000 0 26 42 28 29 38 1.000 0 0 31 29 8 36 1.000 16 25 36 30 26 35 1.000 0 0 33 31 11 29 1.000 22 28 37 32 4 27 1.000 15 0 41 33 6 26 1.000 17 30 40 34 16 19 1.000 18 0 35 35 16 18 1.000 34 0 48 36 8 14 1.000 29 20 38 37 7 11 1.000 24 31 39 38 8 9 1.000 36 21 39 39 7 8 1.000 37 38 40 40 6 7 1.000 33 39 41 41 4 6 1.000 32 40 43 42 1 5 1.000 27 3 43 43 1 4 1.000 42 41 44 44 1 3 1.000 43 23 45 45 1 47 2.000 44 0 46 46 1 41 2.000 45 0 47 47 1 22 2.000 46 0 48 48 1 16 2.000 47 35 49 49 1 2 2.000 48 0 0

(27)

Dendrogram

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * Dendrogram using Single Linkage

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25 Label Num +---+---+---+---+---+ Adit 23 ─┐ Galih 50 ─┼───────────────────────┐ Fandi 6 ─┘ │ Trisno 26 ─────────────────────────┤ Rozaq 35 ─────────────────────────┤ Syarif 39 ─┐ │ Novi 40 ─┤ │ Nurul Lu 37 ─┤ │ Safri Ha 34 ─┤ │ Chanifa 32 ─┤ │ Ibnu Her 31 ─┤ │ Mabok 10 ─┼───────────────────────┤ Maro 7 ─┘ │ Himawan 28 ─┐ │ Laskar K 30 ─┤ │ Digdoyo 13 ─┼───────────────────────┤ Richo 11 ─┘ │ Omiyabi 29 ─────────────────────────┤ Abdul Ha 38 ─────────────────────────┤ Aya' 9 ─┬───────────────────────┤ Anestia 15 ─┘ │ Ryan 17 ─┐ │ Hendi 20 ─┼───────────────────────┤ Sigit 14 ─┘ │ Nunuk 24 ─┐ │ Tomy 33 ─┼───────────────────────┤ Ikhsan 8 ─┘ │ Lenny Oc 36 ─┬───────────────────────┤ Maya 44 ─┘ │ Tyas 48 ─────────────────────────┤ Wanda 25 ─┐ │ Jusman B 49 ─┼───────────────────────┤ Annisa 4 ─┘ │ Rizki D. 27 ─────────────────────────┤ Fitra 5 ─┬───────────────────────┼───────────────────────┐ Didit 46 ─┘ │ │ Arfiana 43 ─┬───────────────────────┤ │ Karen 45 ─┘ │ │ Vivialit 42 ─────────────────────────┤ │ Sekar 1 ─────────────────────────┤ │ Huda 3 ─┬───────────────────────┘ │ Atlit 12 ─┘ │ Tasya 47 ─────────────────────────────────────────────────┤ Kidhut 41 ─────────────────────────────────────────────────┤ Farikh 22 ─────────────────────────────────────────────────┤ Ayu 16 ─┬───────────────────────┐ │ Kristin 21 ─┘ │ │ Dika Oki 19 ─────────────────────────┼───────────────────────┤ Fauzi 18 ─────────────────────────┘ │ Hendia V 2 ─────────────────────────────────────────────────┘

(28)

Crosstabs

Case Processing Summary Cases

Valid Missing Total

N Percent N Percent N Percent

Jenis Kelamin * Cluster

Member 50 100.0% 0 .0% 50 100.0%

Usia * Cluster Member 50 100.0% 0 .0% 50 100.0%

Angkatan * Cluster Member 50 100.0% 0 .0% 50 100.0%

Intensitas * Cluster Member 50 100.0% 0 .0% 50 100.0%

Durasi * Cluster Member 50 100.0% 0 .0% 50 100.0%

Jenis Kelamin * Cluster Member

Crosstab

Cluster Member

Total

1 2 3 4

Jenis Kelamin Laki - laki Count 27 2 2 0 31

% of Total 54.0% 4.0% 4.0% .0% 62.0% Perempuan Count 15 1 2 1 19 % of Total 30.0% 2.0% 4.0% 2.0% 38.0% Total Count 42 3 4 1 50 % of Total 84.0% 6.0% 8.0% 2.0% 100.0% Symmetric Measures Value Asymp. Std.

Errora Approx. Tb Approx. Sig.

Interval by Interval Pearson's R .159 .141 1.117 .270c

Ordinal by Ordinal Spearman Correlation .121 .146 .844 .403c

N of Valid Cases 50

a. Not assuming the null hypothesis.

b. Using the asymptotic standard error assuming the null hypothesis.

(29)

Usia * Cluster Member

Crosstab

Cluster Member

Total

1 2 3 4

Usia 17 - 19 tahun Count 7 1 0 0 8

% of Total 14.0% 2.0% .0% .0% 16.0% 20 -22 tahun Count 35 2 4 1 42 % of Total 70.0% 4.0% 8.0% 2.0% 84.0% Total Count 42 3 4 1 50 % of Total 84.0% 6.0% 8.0% 2.0% 100.0% Symmetric Measures Value Asymp. Std. Errora Approx. Tb Approx. Sig.

Interval by Interval Pearson's R .097 .078 .679 .501c

N of Valid Cases 50

c. Based on normal approximation.

Angkatan * Cluster Member

Crosstab Cluster Member Total 1 2 3 4 Angkatan <= 2007 Count 8 0 1 0 9 % of Total 16.0% .0% 2.0% .0% 18.0% 2008 Count 31 2 3 1 37 % of Total 62.0% 4.0% 6.0% 2.0% 74.0% 2009 Count 3 1 0 0 4 % of Total 6.0% 2.0% .0% .0% 8.0% Total Count 42 3 4 1 50 % of Total 84.0% 6.0% 8.0% 2.0% 100.0%

(30)

Symmetric Measures

Value

Asymp. Std.

N of Valid Cases 50

c. Based on normal approximation.

Intensitas * Cluster Member

Crosstab

Cluster Member

Total

1 2 3 4

Intensitas Sangat Sering Count 5 1 3 0 9

% of Total 10.0% 2.0% 6.0% .0% 18.0% Sering Count 10 0 1 1 12 % of Total 20.0% .0% 2.0% 2.0% 24.0% Sedang Count 13 1 0 0 14 % of Total 26.0% 2.0% .0% .0% 28.0% Jarang Count 14 1 0 0 15 % of Total 28.0% 2.0% .0% .0% 30.0% Total Count 42 3 4 1 50 % of Total 84.0% 6.0% 8.0% 2.0% 100.0% Symmetric Measures Value Asymp. Std.

Interval by Interval Pearson's R -.368 .107 -2.739 .009c

Ordinal by Ordinal Spearman Correlation -.334 .129 -2.459 .018c

N of Valid Cases 50

(31)

Durasi * Cluster Member

Crosstab

Cluster Member

Total

1 2 3 4

Durasi <= 15 menit Count 9 2 1 0 12

% of Total 18.0% 4.0% 2.0% .0% 24.0% 16 - 30 menit Count 8 0 0 0 8 % of Total 16.0% .0% .0% .0% 16.0% 30 - 60 menit Count 13 0 0 1 14 % of Total 26.0% .0% .0% 2.0% 28.0% >= 60 menit Count 12 1 3 0 16 % of Total 24.0% 2.0% 6.0% .0% 32.0% Total Count 42 3 4 1 50 % of Total 84.0% 6.0% 8.0% 2.0% 100.0% Symmetric Measures Value Asymp. Std. Errora Approx. Tb Approx. Sig.

N of Valid Cases 50

(32)

LAPORAN RESMI

PRAKTIKUM DATA MINING

REGRESI

DISUSUN OLEH: KELOMPOK C.23

ARIF RAKHMANTO (08 522 200) CATUR HERMAWANTO (08 522 210)

LABORATORIUM DATA MINING

JURUSAN TEKNIK INDUSTRI

FAKULTAS TEKNOLOGI INDUSTRI

UNIVERSITAS ISLAM INDONESIA

2010

(33)

ABSTRAKS

Regresi merupakan salah satu metode yang dapat digunakan untuk memprediksi penjualan pada suatu perusahaan. Dalam penelitian ini, analisis regresi berganda digunakan untuk memprediksi total penjualan dari butik THE UNIQUE CULTURE. Metode yang digunakan dalam penelitian ini adalah Analisis Linier Berganda yang merupakan suatu metode statistik umum yang digunakan untuk meneliti hubungan antara sebuah variable dependent dengan beberapa variable independent. Tujuan analisis regresi linier berganda adalah menggunakan variable independent yang diketahui, untuk meramalkan variable dependent.

(34)

BAB I

PENDAHULUAN

1.4 Latar Belakang masalah

THE UNIQUE CULTURE merupakan sebuah butik Batik dengan etnik modern yang sedang berkembang di kalangan menengah atas masyarakat Indonesia. Dalam beberapa bulan terakhir, THE UNIQUE CULTURE gencar mempromosikan batik dengan segala jenis varian barunya yang dijualnya dengan membuka outlet-outlet di 50 daerah. Dalam rangka memperluas jaringan pasar, THE UNIQUE CULTURE menambah 5 kota untuk membuka outletnya, yakni Purworejo, Purwodadi, Waykambas, Musi dan Tarakan. Oleh sebab itu, THE UNIQUE CULTURE membutuhkan prediksi penjualan pada lima kota tersebut.

1. Bagaimana hasil uji normalitas?

2. Bagaimana hasil uji signifikansi persamaan regresi? 3. Bagaimana persamaan regresi yang terbentuk? 4. Bagaimana hasil uji multikolineritas?

5. Bagaimana korelasi antara variable dependent dengan variabel independentnya?

6. Bagaimana hasil prediksi penjualan pada lima kota?

1.6 Tujuan penelitian

3. Untuk mengetahui hasil uji normalitas.

4. Untuk mengetahui hasil uji signifikansi persamaan regresi. 5. Untuk mengetahui persamaan regresi yang terbentuk. 6. Untuk mengetahui uji multikolineritas.

7. Untuk mengetahui hubungan antara variable dependent dengan variable independentnya.

(35)

Penelitian ini bermafaat untuk mengetahui persamaan regresi yang didapatkan dari data historis butik THE UNIQUE CULTURE untuk memprediksi total penjualan yang didapatkan pada 5 kota.

(36)

1.5 Flowchart Gambar 1.1 Flowchart Mulai Pengumpulan Data MasaPengumpulal ah

Menentukan Persamaan Regresi

Selesai Uji Normalitas

Uji Linearitas Sig ≤ 0.05 atau Fhitung > Ftabel

ya

Uji MultiKolinearitas VIF < 2 ya

Menentukan Nilai R Square

Menentukan Koefisien Korelasi TIDAK

TIDAK TIDAK

(37)

3.5. Langkah Software

13. Pilih analyze klik Regression lalu pilih Linear

14. Dependent : Letakkan

Variabel dependent (Y) yang valid

15. Independent(s) : Letakkan semua Variabel

independent(X) yang valid

16. Case labels : Letakkan nama daerah

17. Statistik : Regression

Coefficient lalu klik estimates, model fit, descriptives,

collinearity diagnostics lalu klik continue

(38)

18. Plots : Y = dependent, X = *adjpred, klik histogram dan probability plot, klik continue

19. Save : predicted values, klik unstandardized, include the convariance matrix, continue.

20. Option : klik Probability of F, include constant in equation, exclude cases listwise, continue.

(39)

(40)

BAB II

LANDASAN TEORI

Banyak penelitian yang bertujuan mencari dasar-dasar untuk mengadakan prediksi suatu variabel dari informasi-informasi yang diperoleh dari variabel tersebut. Misalnya, apakah keadaan cuaca dapat diramalkan dari suhu, tekanan udara, kelembaban udara, dan kecepatan angin; Apakah prestasi belajar anak dapat diprediksikan dari angka kecerdasan dan perbendaharaan bahasa (kosa kata); Apakah prestasi pemain sepak bola dapat dipresiksi dari keahliannya dan umur pemain tersebut; dan sebagainya. Maka diperlukan metoda untuk dapat memecahkan semua masalah yang ada untuk memudahkan dalam pengambilan keputusan. Salah satu tool atau metoda untuk memprediksi adalah Regresi.

Dalam kehidupan sehari-hari kita sering melihat suatu peristiwa atau keadaan yang terjadi akibat peristiwa yang lain. Untuk mengetahui hubungan antara kejadian tersebut, terutama untuk menelusuri pola hubungan yang modelnya belum diketahui maka analisis regresi dapat dijadikan alat untuk membantu menganalisis hubungan tersebut. Analisis regresi memiliki 3 kegunaan yaitu, deskripsi, kendali, dan prediksi (peramalan). Tetapi manfaat utama dari kebanyakan penyelidikan statistik dalam dunia bisnis dan ekonomi adalah mengadakan prediksi atau peramalan.

Dalam analisis regresi dikenal dua macam variabel atau peubah yaitu variabel bebas (independent variabel) adalah dan variabel tidak bebas (dependent variabel). Variabel bebas (independent variabel) adalah suatau variabel yang nilainya telah diketahui, sedangkan variabel tidak bebas (dependent variabel) adalah variabel yang nialainya belum diketahui dan yang akan diramalkan. Suatu variabel dapat diramalkan dari variabel lain apabila antara variabel yang diramalakan (dependent variabel) dengan variabel yang nilainya diketahui (independent variabel) terdapat hubungan atau korelasi yang signifikan. Misalnya, jika antara tinggi badan dan berat badan pada umur-umur tertentu terdapat korelasi yang signifikan, maka berat badan orang pada umur tersebut akan dapat diramalkan dari tinggi badannya. Korelasi antara independent variable dengan dependent variabel dapat dilukiskan dalam suatu garis. Garis ini disebut garis regresi. Garis regresi mungkin merupakan garis lurus (linier) disebut regresi linier, mungkin juga merupakan garis lengkung (parabolik, hiperbolik,

(41)

Ŷ = a + b1X1 + b2X2 + b3X3 + … + bnXn

dan sebagainya) yang disebut regresi non linier. Namun berdasarkan dari data yang ada, maka analisis yang akan digunakan adalah analisis regresi linear berganda.

Regresi linier berganda mengamati pengaruh lebih dari satu variabel bebas (independent variable) terhadap variabel tidak bebas (dependent variable), minimal ada dua buah variabel bebas (independent variable).

Analisis Linier Berganda adalah suatu metode statistik umum yang digunakan untuk meneliti hubungan antara sebuah variable dependent dengan beberapa variable independent. Tujuan analisis regresi linier berganda adalah menggunakan variable independent yang diketahui, untuk meramalkan variable dependent. Misalnya : penjualan sebuah produk dapat dipengaruhi oleh biaya promosi, biaya produksi, biaya transportasi, gaji karyawan dan lain-lain. Jumlah pengeluaran rumah tangga dipengaruhi oleh pendapatan, jumlah keluarga.

Secara matematis regresi linier berganda dapat dituliskan dalam persamaan berikut :

dimana :

Y = variabel yang diramalkan (dependent variable)

X1, X2, X3, …, Xn = variabel yang diketahui (independent variable) b1, b2, b3,…, bn = koefisien regresi

(42)

BAB III

PENGUMPULAN DAN PENGOLAHAN DATA

3.1 Pengumpulan Data

3.1.1 Data Historis butik THE UNIQUE CULTURE

Tabel 3.1 Data historis butik THE UNIQUE CULTURE

No. Daerah Penjualan Biaya Periklanan Laju Pertumbuhan Penduduk Luas Outlet Jumlah Pesaing 1 Jakarta Pusat 231 50 2.55 55 35 2 Jakarta Barat 135 17 2.15 46 30 3 Jakarta Selatan 187 18 1.99 53 25 4 Bandung 276 25 1.76 45 33 5 Bogor 233 15 2.3 64 14 6 Cirebon 345 35 2.69 54 5 7 Aceh 267 21 2.56 76 10 8 Medan 163 40 3 56 7 9 Riau 321 34 1.65 67 12 10 Batam 337 44 1.9 68 9 11 Bengkulu 333 24 1.46 40 5 12 Jambi 235 26 1.57 61 4 13 Banten 234 15 1.87 65 7 14 Cilegon 169 26 1.76 55 9 15 Purwakarta 179 11 1.98 41 12 16 Yogyakarta 245 44 1.28 59 53 17 Semarang 100 29 1.76 41 27 18 Pekalongan 256 23 2.23 65 40 19 Solo 139 29 2.21 52 25 20 Bekasi 157 35 2.66 53 12 21 Tangerang 212 23 1.69 54 11 22 Denpasar 365 45 2.56 65 9

(43)

No. Daerah Penjualan Biaya Periklanan Laju Pertumbuhan Penduduk Luas Outlet Jumlah Pesaing 23 Dumai 250 24 2.39 61 17 24 Bontang 198 19 1.54 51 19 25 Surabaya 284 24 2.88 75 7 26 Kediri 247 29 1.99 58 6 27 Malang 210 22 1.79 64 19 28 Banjarmasin 290 23 2.89 68 6 29 Padang 342 33 2.68 60 8 30 Pekanbaru 214 13 1.79 78 7 31 Manado 320 31 1.78 45 3 32 Jayapura 300 26 1.46 51 5 33 Martapura 349 32 2.7 49 2 34 Sorong 209 21 1.65 54 4 35 Makasar 217 18 1.9 65 9 36 Ambon 89 21 1 40 4 37 Bukit Tinggi 225 22 2.76 50 9 38 Purwokerto 135 21 2.14 47 8 39 Tuban 218 21 2.01 87 6 40 Jombang 175 23 1.87 43 9 41 Bangka 211 15 1.67 53 5 42 Belitung 374 40 2.24 74 4 43 Lampung 256 19 2.58 64 8 44 Mataram 234 27 1.65 70 8 45 Depok 223 18 2.34 45 9 46 Gorontalo 264 39 2.21 88 8 47 Metro 319 39 2.24 65 9 48 Madiun 126 16 1.98 43 5 49 Magelang 110 9 1.22 46 7 50 Palangka Raya 390 39 2.54 90 9

(44)

3.1.2 Data yang Akan Diprediksi

Tabel 3.2 Data yang akan diprediksi dari butik THE UNIQUE CULTURE

NO Daerah Biaya Periklanan (juta) Laju pertumbuhan penduduk (%) Luas outlet (m2) Jumlah pesaing 1 Purworejo 22 2.12 39 5 2 Purwodadi 27 1.91 78 3 3 Waykambas 17 1.88 37 6 4 Musi 19 1.69 49 3 5 Tarakan 23 2.23 72 4

(45)

3.2 Pengolahan Data 3.2.1 Uji Normalitas

Gambar 3.1

(46)

3.2.2 Tabel Model Summary

Tabel 3.3 Model Summaryb Model R R Square Adjusted R

Square Std. Error of the Estimate 1 .663a .440 .390 58.90304 3.2.3 Uji Linearitas Tabel 3.4 ANOVAb

Model Sum of Squares df Mean Square F Sig. 1 Regression 122477.380 4 30619.345 8.825 .000a

Residual 156130.540 45 3469.568

Total 278607.920 49

3.2.4 Uji Multikolinieritas dan Persamaan Regresi

Tabel 3.5 Coefficientsa Model Unstandardized Coefficients Standardized Coefficients t Sig. Collinearity Statistics B Std.

Error Beta Tolerance VIF

1 (Constant) 36.481 50.393 .724 .473 Biaya Periklanan 3.520 .959 .451 3.670 .001 .826 1.211 Laju Pertumbuhan Penduduk 12.587 19.314 .079 .652 .518 .844 1.185 Luas Outlet 1.765 .718 .296 2.458 .018 .858 1.165 Jumlah Pesaing -1.631 .824 -.230 -1.979 .054 .925 1.081

(47)

3.2.5 Nilai Korelasi antara Variable Dependent dengan Variable Independent Tabel 3.6 Correlations Penjualan Biaya Periklanan Laju Pertumbuhan Penduduk Luas Outlet Jumlah Pesaing Pearson Correlation Penjualan 1.000 .513 .326 .467 -.193 Biaya Periklanan .513 1.000 .299 .266 .176 Laju Pertumbuhan Penduduk .326 .299 1.000 .301 -.101 Luas Outlet .467 .266 .301 1.000 -.118 Jumlah Pesaing -.193 .176 -.101 -.118 1.000

Sig. (1-tailed) Penjualan . .000 .010 .000 .089

Biaya Periklanan .000 . .017 .031 .111 Laju Pertumbuhan Penduduk .010 .017 . .017 .242 Luas Outlet .000 .031 .017 . .208 Jumlah Pesaing .089 .111 .242 .208 . N Penjualan 50 50 50 50 50 Biaya Periklanan 50 50 50 50 50 Laju Pertumbuhan Penduduk 50 50 50 50 50 Luas Outlet 50 50 50 50 50 Jumlah Pesaing 50 50 50 50 50

(48)

3.2.6 Prediksi

Berdasarkan table koefisien, maka dapat diperoleh informasi bahwa nilai : a = 36,481

b1 = 3,52 b2 = 12,587 b3 = 1,765 b4 = -1,631

sehingga dapat diperoleh persamaan regresi sebagai berikut :

Y = 36,481 + 3,52 X1 + 12,587 X2 + 1,765 X3 - 1,631 X4

Maka prediksi penjualan pada lima kota adalah sebagai berikut :

YPurworejo = 36,481 + 3,52 (22) + 12,587 (2,12) + 1,765 (39) - 1,631 (5) = 201,29 YPurwodadi = 36,481 + 3,52 (27) + 12,587 (1,91) + 1,765 (78) - 1,631 (3) = 288,34 YWaykambas = 36,481 + 3,52 (17) + 12,587 (1,88) + 1,765 (37) - 1,631 (6) = 175,5 YMusi = 36,481 + 3,52 (19) + 12,587 (1,69) + 1,765 (49) - 1,631 (3) = 206,23 YTarakan = 36,481 + 3,52 (23) + 12,587 (2,23) + 1,765 (72) - 1,631 (4) = 266,07

(49)

BAB IV

PEMBAHASAN

4.1 Uji Normalitas

Berdasarkan histogram yang diperoleh dari output SPSS, maka dapat dilihat bahwa pola histogram relatif membentuk lonceng terbalik. Hal tersebut menunjukkan bahwa data bersifat normal. Selain itu, berdasarkan scater plot juga dapa terlihat bahwa pola distribusi data relatif membentuk linier.

4.2 Tabel Model Summary

Dari hasil pengolahan data diperoleh nilai R-square yaitu sebesar 0.440, yang artinya besarnya keragaman antara variabel dependent dengan variabel independent yang terdapat pada persamaan regresi sebesar 0.440, semakin besar nilai R-square semakin baik persamaan regresi tersebut dalam menjelaskan keragaman data.

4.3 Uji Linearitas

Hipotesis:

Ho: Biaya periklanan, laju pertumbuhan penduduk, luas outlet, dan jumlah pesaing tidak berpengaruh pada penjualan.

H1: Biaya periklanan, laju pertumbuhan penduduk, luas outlet, dan jumlah pesaing berpengaruh pada penjualan.

Tingkat signifikansi

Level signifikansi = 0.000 df1 = k = 4 df2 = n – k – 1 = 45 Ftabel = 5,56

Fhitung = 8,825 Daerah kritis

Jika Fhitung ≥ Ftabel maka Ho ditolak Jika Fhitung ≤ Ftabel maka Ho diterima

F hitung > F table maka H0 ditolak sehingga persamaan signifikan (ada pengauh yang signifikan antara variable independent terhadap variable dependent.

(50)

4.4 Uji Multikolinieritas dan Persamaan Regresi 4.4.1 Uji Multikolinieritas

Dengan uji multikolinieritas maka didapat hasil VIF sebagai berikut: VIF Nilai biaya periklanan = 1.211

VIF Nilai laju pertumbuhan penduduk = 1.185

VIF Nilai luas outlet = 1.165

VIF Nilai jumlah pesaing = 1.081

Karena 4 nilai VIF < 2, maka artinya variabel biaya periklanan, laju pertumbuhan penduduk, luas outlet dan jumlah pesaing tidak saling berkorelasi atau tidak terjadi multikolinieritas.

4.4.2 Persamaan Regresi

Dari hasil pengolahan data didapat hasil sebagai berikut; a = 36,481 b1 = 3,52 b2 = 12,587 b3 = 1,765 b4 = -1,631 dengan; Y1 = penjualan X1 = biaya periklanan

X2 = laju pertumbuhan penduduk X3 = luas outlet

X4 = jumlah pesaing

sehingga dapat diperoleh persamaan regresi sebagai berikut : Y = 36,481 + 3,52 X1 + 12,587 X2 + 1,765 X3 - 1,631 X4

(51)

4.5 Nilai Korelasi antara Variable Dependent dengan Variable Independent

Dari hasil pengolahan data diperoleh hubungan korelasi sebagai berikut: 1. Hubungan korelasi antara Y – X1 = 0.513 berarti positif kuat. 2. Hubungan korelasi antara Y – X2 = 0.326 berarti positif lemah 3. Hubungan korelasi antara Y – X3 = 0.467 berarti positif lemah. 4. Hubungan korelasi antara Y – X4 = - 0.193 berarti negatif lemah. 5. Hubungan korelasi antara X1 – X2 = 0.299 berarti positif lemah. 6. Hubungan korelasi antara X1 – X3 = 0.266 berarti positif lemah. 7. Hubungan korelasi antara X1 – X4 = 0.176 berarti positif lemah. 8. Hubungan korelasi antara X2 – X3 = 0.301 berarti positif lemah. 9. Hubungan korelasi antara X2 – X4 = - 0.101 berarti negatif lemah. 10. Hubungan korelasi antara X3 – X4 = - 0.118 berarti negatif lemah.

4.6 Prediksi

Dari hasil penghitungan dengan menggunakan persamaaan regeresi dapat diketahui prediksi besar insentif karyawan yang akan diterima sebagai berikut:

1. Di kota Purworejo besar penjualan adalah 201.29 2. Di kota Purwodadi besar penjualan adalah 288.34 3. Di kota Waykambas besar penjualan adalah 175.5 4. Di kota Musi besar penjualan adalah 206.23 5. Di kota Tarakan besar penjualan adalah 266.07

(52)

BAB V

KESIMPULAN DAN SARAN

6.1. Kesimpulan

1. Berdasarkan hasil uji normalitas diketahui bahwa data bersifat normal 2. Berdasarkan hasil uji signifikansi persamaan regresi, maka :

Ftabel = 5,56 Fhitung = 8,825

F hitung > F table maka H0 ditolak sehingga persamaan signifikan (ada pengauh yang signifikan antara variable independent terhadap variable dependent.

3. Persamaan regresi yang terbentuk adalah sebagai berikut : Y = 36,481 + 3,52 X1 + 12,587 X2 + 1,765 X3 - 1,631 X4

4. Berdasarkan uji multikolineritas, maka dapat disimpulkan bahwa variabel biaya periklanan, laju pertumbuhan penduduk, luas outlet dan jumlah pesaing tidak saling berkorelasi atau tidak terjadi multikolinieritas karena 4 nilai VIF < 2.

5. Yang memiliki hubungan positif kuat adalah : Y – X1

Yang memiliki hubungan positif lemah adalah : Y – X2, Y – X3, X1 – X2, X1 – X3, X1 – X4, X2 – X3

Yang memiliki hubungan negatif lemah : Y – X4, X2 – X4, X3 – X4 6. Hasil prediksi penjualan pada lima kota :

1. Di kota Purworejo besar penjualan adalah 201.29 2. Di kota Purwodadi besar penjualan adalah 288.34 3. Di kota Waykambas besar penjualan adalah 175.5 4. Di kota Musi besar penjualan adalah 206.23 5. Di kota Tarakan besar penjualan adalah 266.07

(53)

6.2. Saran

1. Jumlah variabel independent hendaknya lebih banyak lagi untuk mendapatkan hasil prediksi yang lebih akurat.

2. Berdasarkan dari hasil prediksi, maka disarankan pada Butik THE UNIQUE CULTURE agar membuka outlet baru dengan prioritas sebagai berikut : Di kota Purwodadi besar penjualan adalah 288.34

Di kota Tarakan besar penjualan adalah 266.07 Di kota Musi besar penjualan adalah 206.23 Di kota Purworejo besar penjualan adalah 201.29 Di kota Waykambas besar penjualan adalah 175.5

(54)

DAFTAR PUSTAKA

Modul III PREDIKSI Praktikum Data Mining

1. Han, Jiawei. ”Data Mining Concept and Technique”. Presentation. http://www.cse.msu.edu/~cse980

2. Bertalya, ”Konsep Data Mining”. Universitas Gunadarma, 2009.

3. Walpole, Ronald E. Probability and Statistics for Engineers and Scientists.

(55)

LAMPIRAN

Regression

Descriptive Statistics Mean Std. Deviation N Penjualan 237,9600 75,40475 50 Biaya Periklanan 26,2600 9,65488 50 Laju Pertumbuhan Penduduk 2,0694 ,47433 50 Luas Outlet 58,3800 12,65216 50 Jumlah Pesaing 12,2800 10,61966 50 Correlations Penjualan Biaya Periklanan Laju Pertumbuhan

Penduduk Luas Outlet

Jumlah Pesaing Pearson Correlation Penjualan _1,000 _,513 _,326 _,467 _-,193 Biaya Periklanan ,513 1,000 ,299 ,266 ,176 Laju Pertumbuhan Penduduk ,326 ,299 1,000 ,301 -,101 Luas Outlet ,467 ,266 ,301 1,000 -,118 Jumlah Pesaing -,193 ,176 -,101 -,118 1,000

Sig. (1-tailed) Penjualan . ,000 ,010 ,000 ,089

Biaya Periklanan ,000 . ,017 ,031 ,111 Laju Pertumbuhan Penduduk ,010 ,017 . ,017 ,242 Luas Outlet ,000 ,031 ,017 . ,208 Jumlah Pesaing ,089 ,111 ,242 ,208 . N Penjualan 50 50 50 50 50 Biaya Periklanan 50 50 50 50 50 Laju Pertumbuhan Penduduk 50 50 50 50 50 Luas Outlet 50 50 50 50 50 Jumlah Pesaing 50 50 50 50 50

(56)

Variables Entered/Removed(b) Model Variables Entered Variables Removed Method 1 _Jumlah Pesaing, Laju Pertumbuha n Penduduk, Luas Outlet, Biaya Periklanan( a) . Enter

a All requested variables entered.

b Dependent Variable: Penjualan

Model Summary(b) Model R R Square Adjusted R Square Std. Error of the Estimate 1 ,663(a) ,440 ,390 58,90304

a Predictors: (Constant), Jumlah Pesaing, Laju Pertumbuhan Penduduk, Luas Outlet, Biaya Periklanan

b Dependent Variable: Penjualan

ANOVA(b)

Model

Sum of

Squares df Mean Square F Sig.

1 Regression 122477,38 0 4 30619,345 8,825 ,000(a) Residual 156130,54 0 45 3469,568 Total 278607,92 0 49

a Predictors: (Constant), Jumlah Pesaing, Laju Pertumbuhan Penduduk, Luas Outlet, Biaya Periklanan

(57)

Coefficients(a) Model Unstandardized Coefficients Standardized Coefficients t Sig. Collinearity Statistics B Std.

Error Beta Tolerance VIF B

Std. Error 1 (Constant) 36,481 50,393 ,724 ,473 Biaya Periklanan 3,520 ,959 ,451 3,670 ,001 ,826 1,211 Laju Pertumbuhan Penduduk 12,587 19,314 ,079 ,652 ,518 ,844 1,185 Luas Outlet 1,765 ,718 ,296 2,458 ,018 ,858 1,165 Jumlah Pesaing -1,631 ,824 -,230 -1,979 ,054 ,925 1,081

a Dependent Variable: Penjualan

Collinearity Diagnostics(a)

Model Dimension

Eigenvalue

Condition

Index Variance Proportions-

(Constant) Biaya Periklanan Laju Pertumbuhan Penduduk Luas Outlet Jumlah Pesaing (Constant) Biaya Periklan an 1 1 4,497 1,000 ,00 ,00 ,00 ,00 ,01 2 ,375 3,464 ,00 ,00 ,01 ,01 ,88 3 ,077 7,664 ,04 ,98 ,03 ,04 ,02 4 ,033 11,745 ,00 ,00 ,72 ,50 ,00 5 ,019 15,522 ,96 ,01 ,25 ,46 ,09

(58)

Residuals Statistics(a)

Minimum Maximum Mean Std. Deviation N

Predicted Value 152,9086 349,8795 237,9600 49,99538 50

Std. Predicted Value -1,701 2,239 ,000 1,000 50

Standard Error of

Predicted Value 10,798 38,091 17,972 4,947 50

Adjusted Predicted Value 150,0846 358,2657 237,9812 51,31624 50

Residual -139,44339 131,23038 ,00000 56,44765 50 Std. Residual -2,367 2,228 ,000 ,958 50 Stud. Residual -2,558 2,354 ,000 1,018 50 Deleted Residual -162,80220 146,55676 -,02123 63,74182 50

Stud. Deleted Residual -2,736 2,486 -,004 1,043 50

Mahal. Distance ,667 19,511 3,920 3,089 50

Cook's Distance ,000 ,219 ,027 ,043 50

Centered Leverage Value ,014 ,398 ,080 ,063 50

a Dependent Variable: Penjualan

Regression Standardized Residual

3 2 1 0 -1 -2 -3 Frequency 20 15 10 5 0 Histogram

Dependent Variable: Penjualan

Mean =-1.63E-16 Std. Dev. =0.958

(59)

Observed Cum Prob 1.0 0.8 0.6 0.4 0.2 0.0 Ex pecte d C um Prob 1.0 0.8 0.6 0.4 0.2 0.0 Bengkulu Bandung Martapura Manado Jayapura Cirebon Padang Pekalongan Riau Belitung Palangka Raya Denpasar Depok Purwakarta Banjarmasin Bogor Lampung Yogyakarta Dumai Banten MetroBatam Bontang Bangka Jakarta Selatan Aceh Surabaya Bukit Tinggi Tangerang Makasar Malang Kediri Sorong Jambi Pekanbaru Jakarta Barat Jombang Mataram Magelang Jakarta Pusat Madiun Tuban CilegonPurwokerto Solo GorontaloSemarang Ambon Bekasi Medan

Normal P-P Plot of Regression Standardized Residual

Dependent Variable: Penjualan

Regression Adjusted (Press) Predicted Value

400 350 300 250 200 150 Regre ssi on D el ete d ( Pre ss) R esi dual 200 100 0 -100 -200 Palangka Raya Magelang Madiun Metro Gorontalo Depok Mataram Lampung Belitung Bangka Jombang Tuban Purwokerto Ambon Makasar Sorong Martapura Jayapura Manado Pekanbaru Padang Banjarmasin Malang Kediri Surabaya Bontang Dumai Denpasar Tangerang Bekasi Solo Pekalongan Semarang Yogyakarta Purwakarta Cilegon Banten Jambi Bengkulu Batam Riau Medan Aceh Cirebon Bogor Bandung Jakarta Selatan Jakarta Barat Jakarta Pusat Scatterplot

(60)

LAPORAN RESMI

PRAKTIKUM DATA MINING

ASSOCIATION RULE - MARKET BASKET ANALYSIS

DISUSUN OLEH: KELOMPOK C.23

ARIF RAKHMANTO (08 522 200)

CATUR HERMAWANTO (08 522 210)

LABORATORIUM DATA MINING

JURUSAN TEKNIK INDUSTRI

FAKULTAS TEKNOLOGI INDUSTRI

UNIVERSITAS ISLAM INDONESIA

2010

(61)

ABSTRAK

Association Rule merupakan salah satu metode dalam Market Basket Analysis yang dapat digunakan untuk mengetahui aturan asosiasi antara himpunan item dalam suatu basisdata transaksi. Aturan asosiasi tersebut sangat bermanfaat bagi perencanaan promosi dan penjualan, strategi pemasaran serta tata letak toko. Dalam penelitian ini, studi Market Basket Analysis dilakukan terhadap toko Indomart Cabang Nogotirto/ 004 untuk menganalisa Association Rule yang terbentuk sehingga dapat diperoleh usulan tata letak toko yang lebih baik. Hasil penelitian menunjukkan bahwa departemen satu memiliki hubungan yang sangat kuat dengan departemen tiga. Sedangkan departemen 2, 4, 5, 6 memiliki hubungan yang sedang dengan departemen 3.

(62)

BAB I

PENDAHULUAN

1.1 Latar Belakang

Indomart merupakan salah satu toko retail di Indonesia yang berkembang dengan cara franchise, sehingga banyak investor yang membuka cabang di berbagai daerah, salah satunya adalah di daerah Nogotirto, Kecamatan Gamping, Kabupaten Sleman, DIY. Dalam mencatat setiap transaksi pembelian, Indomart menggunakan sistem basis data transaksi yang dapat mencatat setiap transaksi penjualan yang nantinya dapat digunakan untuk kepentingan perencanaan promosi, penjualan, strategi pemasaran dan perencanaan tata letak toko. Transaksi yang tercatat tersebut dapat dipelajari melalui sebuah studi Market Basket Analysis dengan metode Association Rule untuk mengetahui aturan asosiasi diantara himpunan besar data item dalam basisdata transaksi.

Tingkat kedatangan dan transaksi konsumen yang relatif tinggi merupakan salah satu faktor pendorong untuk melakukan analisa kelayakan tata letak toko terkait efektifitas dan efisiensi. Oleh sebab itu maka dilakukan analisa terkait perencanaan tata letak toko menggunakan studi Market Basket Analysis dengan metode Association Rule.

1. Bagaimanakah Association Rule yang terbentuk berdasarkan hasil penelitian? 2. Bagaimanakah Activity Relationship Chart (ARC) yang diperoleh?

3. Bagaimanakah usulan alternatif tata letak toko yang baru?

1.3 Batasan Masalah

1. Jumlah struk yang digunakan sebagai bahan penelitian dibatasi sejumlah 50 buah struk.

2. Association Rule dan ARC yang diperoleh dari penelitian sebatas dipergunakan untuk merencanakan usulan tata letak toko yang lebih baik.

(63)

1.4 Tujuan Penelitian

1. Untuk mengetahui Association Rule yang terbentuk.

2. Untuk mengetahui Activity Relationship Chart (ARC) yang terbentuk.

3. Untuk mendapatkan alternatif tata letak toko yang lebih menunjang proses transaksi.

Penelitian ini bermanfaat untuk mengetahui tingkat efektifitas tata letak toko dalam mengakomodir aktivitas belanja konsumen melalui analisa Association Rule yang nantinya akan digunakan sebagai pertimbangan dalam merencanakan tata letak toko yang lebih baik.

(64)

BAB II

LANDASAN TEORI

Asociation dalam data mining adalah pekerjaan untuk menentukan mana atribut yang akan didapatkan bersamaan. Dalam dunia bisnis lazim dikenal istilah affinity analysis. Tugas dari asociation rule adalah mencari aturan yang tidak mengcover untuk mengukur hubungan antara dua atau lebih atribut.

Association Rule adalah bentuk jika “kejadian sebelumnya” kemudian “konsekuensinya”. (IF antecedent, THEN consequent). Bersamaan dengan perhitungan aturan support dan confidence. Pola asosiasi menjadi salah satu fungsionalitas yang paling menarik dalam penggalian data (Kumar dan Wahidabanu, 2007). Association Rule adalah teknik data mining untuk menemukan aturan assosiatif antara suatu kombinasi item. Contoh dari Association Rule dari analisa pembelian di suatu pasar swalayan adalah bisa diketahui berapa besar kemungkinan seorang pembeli membeli roti bersamaan dengan susu. Dengan pengetahuan tersebut Pemilik pasar swalayan dapat mengatur penempatan barangnya atau merancang kampanye pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu (Wiwin, 2008).

Menurut Leo Susanto (2003) penggalian kaidah asosiasi mempunyai peranan penting dalam proses pengambilan keputusan. Salah satu contoh penerapan Association Rule adalah Market Basket Analysis. Association Rule menjadi terkenal karena aplikasinya untuk menganalisa isi keranjang belanja di pasar swalayan, sehingga Association Rule juga sering disebut dengan istilah Market Basket Analysis. Association Rule juga dikenal sebagai salah satu teknik data mining yang menjadi dasar dari berbagai teknik data mining lainnya.

Market Basket Analysis merupakan salah satu contoh penerapan Association Rule. Untuk menyampaikan ide mendasar dari Market Basket Analysis, dimulai dengan melihat gambar keranjangan belanjaan pada gambar 3.1 yang berisi bermacam-macam barang-barang yang dibeli oleh seseorang disebuah supermarket. Keranjang ini berisi bermacam-macam barang-barang seperti roti, susu, sereal, telur, mentega, gula, dan sebagainya. Sebuah keranjang memberitahukan kepada kita tentang apa saja yang dibeli oleh seorang konsumen dalam satu waktu. Sebuah daftar

(65)

belanjaan yang lengkap yang diperoleh dari semua konsumen memberikan kita informasi yang sangat banyak, dan ini dapat menjelaskan barang-barang apa saja yang paling penting dari bisnis penjualan yaitu ”apa barang yang dibeli oleh konsumen dan kapan”.

Setiap konsumen membeli seperangkat barang-barang yang berbeda, dalam jumlah yang berbeda, dan dalam waktu yang berbeda. Market Basket Analysis menggunakan informasi apa yang dibeli oleh konsumen-konsumen untuk menyediakan tanda/informasi yaitu siapa mereka dan mengapa mereka melakukan pembelian tersebut?. Market Basket Analysis menyediakan pengertian tentang barang dagangan dengan memberitahukan kepada kita produk-produk mana yang memungkinkan untuk dibeli secara bersamaan dan produk mana yang lebih disetujui untuk di promosikan. Karena dalam Market Basket Analysis tidak hanya memahami kuantitas dari item yang dibeli dalam keranjang itu, tapi bagaimana item yang dibeli dalam hubungannya satu dengan yang lain.

(66)

BAB III

METODOLOGI PENELITIAN

3.1 Lokasi Penelitian

Indomart Cabang Nogotirto/ 004 Jalan Godean km. 4

Nogotirto, Gamping, Sleman, Daerah Istimewa Yogyakarta

3.2 Objek Penelitian

Outlet Indomart Cabang Nogotirto/ 004 beserta pelanggan dan struk transaksi pembeliannya.

3.3 Metode Pengumpulan Data

3.3.1 Data Primer

Data primer dalam penelitian ini berupa struk belanja konsumen yang dikumpulkan melalui proses kolektif di lapangan.

3.3.2 Data Sekunder

Data sekunder dalam penelitian ini merupakan data yang telah diproses dari data primer menjadi data yang siap untuk diolah lebih lanjut. Data sekunder dalam penelitian ini meliputi data pembelian, data transformasi, dan data tabulasi yang selanjutnya siap diolah menggunakan software.

(67)

1.4 Flow Chart Penelitian

Mulai

Input Data

Pre processing data 1. Data integrasi 2. Data transformasi Data Tabulasi Association Rule Activity Relationship Chart Selesai Gambar 1.1 Flowchart

(68)

1.6 Langkah Software 1.6.1 Input Data

1. Pre Processing Data a. Data Integrasi

a.1 Edit click Find

a.2 Find click name of item

(69)

a.3 Replace click Name of department

(70)

b. Data Transformasi

Change data department to matrix binary 1 = item dibeli, 0 = item tidak dibeli

1.6.2 Association Rule

a. Open sheet binary

(71)

c. Data Range: Block matrix binary click enter (name of department enclosed).

(72)

d. Check list: first row contains header

(73)

f. Parameter:

Min support ……….(in total) Min Confidence ……(in %)

(74)

BAB IV

PENGUMPULAN DAN PENGOLAHAN DATA

4.1 Pengumpulan Data

a. Data Transaksi

Tabel 4.1 Data Transaksi

No. Item Yang Dibeli

1 Clear Dettol Nescafe Uticon

Stk 2 Indomie NU Green Tea 3 Buavita Nescafe 4 Susu

Ultra Fruit Tea

Glade Fresh Kacang Iyes Teh Sosro Kacang Mayasi 5 Clear Paseo Sosro Teh Kotak Susu Bendera

(75)

No. Item Yang Dibeli 6 Keripik Jagung Tong Tji Jasmine Aneka Sagon 7 Paseo Susu Ultra Koko Crunch 8 Sunlight Spons Sabut Lem ALL Sikat Gigi Susu Ultra Susu Ultra 9 Kiwi Black Vitalis

Blossom Attack Paramex

Enervon C 10 Attack Enzim Pasta Gigi

Buavita Indomie Indomie

11 Indomie Indomie Buavita Yakult

NU Green Tea Susu Ultra Susu Ultra Shampo o Dove 12 Shampo

(76)

No Item Yang Dibeli

13 Paseo Sunlight Dettol Vaseline

Enzim Pasta Gigi Cap Lang Kayu Putih Pon ds Whit e Kacang Garuda Walls Magnu m 14 Sensitif Strip Nice Yoghurt Indomil k Coklat 15 Susu Bendera NU Green

Tea Paseo Aqua

Roti Lumbu ng Straw Roti Lumbun g Nanas Stre psil Vit C Gilette Razor Neozep Forte Sikat Gigi Clear Walls Almond Walls Royal

16 Attack Hemaviton Gery

Salute

17 Philips

Tornado Pop Corn

Sabut Stainles s Sabut Spons 18 Koko Crunch Indomilk Vanilla