• Tidak ada hasil yang ditemukan

PENERAPAN ALGORITMA K-MEANS UNTUK MEMETAKAN GARIS KEMISKINAN MENURUT PROVINSI DI INDONESIA

N/A
N/A
Protected

Academic year: 2021

Membagikan "PENERAPAN ALGORITMA K-MEANS UNTUK MEMETAKAN GARIS KEMISKINAN MENURUT PROVINSI DI INDONESIA"

Copied!
65
0
0

Teks penuh

(1)

PROVINSI DI INDONESIA

SKRIPSI

Oleh:

BAGAS PRAYOGO HARYAJI

311410430

TEKNIK INFORMATIKA

SEKOLAH TINGGI TEKNOLOGI PELITA BANGSA

BEKASI

(2)

PENERAPAN ALGORITMA K-MEANS UNTUK

MEMETAKAN GARIS KEMISKINAN MENURUT

PROVINSI DI INDONESIA

SKRIPSI

Diajukan Sebagai Salah Satu Syarat Untuk Menyelesaikan Program Strata Satu (S1) pada Program Studi Teknik Informatika

Oleh:

BAGAS PRAYOGO HARYAJI

311410430

TEKNIK INFORMATIKA

SEKOLAH TINGGI TEKNOLOGI PELITA BANGSA

BEKASI

(3)
(4)
(5)
(6)

iv

KATA PENGANTAR

Puji syukur penulis panjatkan ke hadiran Allah SWT. yang telah melimpahkan segala rahmat dan hidayah-Nya, sehingga tersusunlah Skripsi yang berjudul “PENERAPAN ALGORITMA K-MEANS UNTUK MEMETAKAN GARIS KEMISKINAN MENURUT PROVINSI DI INDONESIA”.

Skripsi tersusun dalam rangka melengkapi salah satu persyaratan dalam rangka menempuh ujian akhir untuk memperoleh gelar Sarjana Komputer (S.Kom.) pada Program Studi Teknik Informatika di Sekolah Tinggi Teknologi Pelita Bangsa.

Penulis sungguh sangat menyadari, bahwa penulisan Skripsi ini tidak akan terwujud tanpa adanya dukungan dan bantuan dari berbagai pihak. Sudah selayaknya, dalam kesempatan ini penulis menghaturkan penghargaan dan ucapan terima kasih yang sebesar-besarnya kepada:

a. Bapak Dr. Ir. Suprianto, M.P selaku Ketua STT Pelita Bangsa

b. Bapak Aswan Sunge, S.E., M.Kom. selaku Ketua Program Studi Teknik Informatika STT Pelita Bangsa.

c. Bapak Asep Muhidin, S.Kom, M.Kom selaku Pembimbing Utama yang telah banyak memberikan arahan dan bimbingan kepada penulis dalam penyusunan Skripsi ini.

d. Seluruh Dosen STT Pelita Bangsa yang telah membekali penulis dengan wawasan dan ilmu di bidang teknik informatika.

e. Seluruh staf STT Pelita Bangsa yang telah memberikan pelayanan terbaiknya kepada penulis selama perjalanan studi jenjang Strata 1.

f. Rekan-rekan mahasiswa STT Pelita Bangsa, khususnya angkatan 2014, yang telah banyak memberikan inspirasi dan semangat kepada penulis untuk dapat menyelesaikan studi jenjang Strata 1.

g. Ibu dan Ayah tercinta yang senantiasa mendo’akan dan memberikan semangat dalam perjalanan studi Strata 1 maupun dalam kehidupan penulis.

(7)

Akhir kata, penulis mohon maaf atas kekeliruan dan kesalahan yang terdapat dalam Skripsi ini dan berharap semoga Skripsi ini dapat memberikan manfaat bagi khasanah pengetahuan Teknologi Informasi di lingkungan STT Pelita Bangsa khususnya dan Indonesia pada umumnya.

Bekasi, Oktober 2018

(8)

vi

DAFTAR ISI

PERSETUJUAN ... i

PENGESAHAN ... ii

PERNYATAAN KEASLIAN PENELITIAN ... iii

KATA PENGANTAR ... iv DAFTAR ISI ... vi DAFTAR TABEL ... ix DAFTAR GAMBAR ... x ABSTRACT ... xii ABSTRAK ... xiii BAB I ... 1 1.1 Latar belakang ... 1

1.2 Identifikasi masalah dan batasan masalah ... 2

1.1.4 Identifikasi masalah ... 2

1.2.2 Batasan masalah ... 3

1.2 Rumusan masalah ... 3

1.3 Tujuan penelitian ... 3

1.5 Manfaat penelitian ... 4

1.6 Metode pengumpulan data ... 4

1.7 Sistematika penulisan ... 5

(9)

2.1 Penelitian terkait... 7 2.2 Definisi judul ... 9 2.2.1 Algoritma ... 9 2.2.2 K-means ... 9 2.2.3 Clustering ... 10 2.2.4 Garis kemiskinan ... 10 2.3 Data mining ... 11

2.3.1 Pengertian data mining ... 11

2.3.2 Fungsi data mining ... 13

2.3.3 Teknik pembelajaran data mining ... 15

2.3.4 Proses data mining ... 16

2.3.5 Pengelompokan teknik data mining ... 17

2.4 K-means ... 18

2.4.1 Pengertian k-means ... 18

2.4.2 Keuntungan dan kekurangan k-means ... 21

2.5 Rapidminer ... 22

BAB III ... 24

3.1 Tahap penelitian ... 24

3.1.1 Gambaran penelitian ... 24

(10)

viii 3.3 Preprocessing data ... 25 3.3.1 Data cleaning ... 25 BAB IV ... 29 4.1 Proses clustering ... 29 4.2 Pengujian rapidminer ... 29

4.3 Pembahasan hasil clustering k-means ... 37

BAB V ... 45

5.1 Kesimpulan ... 45

5.2 Saran ... 45

DAFTAR PUSTAKA ... 46

LAMPIRAN ... 48

Lampiran 1. Tabel dataset penelitian ... 48

Lampiran 2. Tabel dataset daerah perkotaan... 49

(11)

DAFTAR TABEL

Tabel 4. 1 Dataset penelitian pendapatan/kapita/bulan dalam satuan rupiah... 38

Tabel 4. 2 Dataset yang telah distandarkan z score ... 39

Tabel 4. 3 Anggota cluster 0 ... 40

Tabel 4. 4 Anggota cluster 1 ... 40

Tabel 4. 5 Anggota cluster 2 ... 41

Tabel 4. 6 Deskripsi (linguistik) dan domain nilai tiap atribut ... 42

Tabel 4. 7 Deskripsi data berdasarkan dengan cluster ... 43

(12)

x

DAFTAR GAMBAR

Gambar 2. 1 Penemuan ilmu baru ... 13

Gambar 2. 2 Fungsi data mining ... 14

Gambar 3. 1 Gambaran penelitian ... 24

Gambar 3. 2 Implementasi data pada rapidminer ... 26

Gambar 3. 3 Penggantian data yang hilang pada data perdesaan DKI Jakarta ... 27

Gambar 3. 4 Penggantian data yang hilang pada data perdesaan Kalimantan Utara ... 27

Gambar 3. 5 Penggantian data yang hilang pada data perkotaan Kalimantan Utara ... 28

Gambar 4. 1 Design process ... 30

Gambar 4. 2 Example set result ... 31

Gambar 4. 3 Cluster model ... 32

Gambar 4. 4 Centroid table ... 33

Gambar 4. 5 Anggota cluster 0 ... 33

Gambar 4. 6 Anggota cluster 1 ... 34

Gambar 4. 7 Anggota cluster 2 ... 34

Gambar 4. 8 Example set statistic ... 35

Gambar 4. 9 Graph result ... 35

Gambar 4. 10 Plot result ... 36

Gambar 4. 11 Chart clustering... 37

Gambar 4. 12 Perfomance vector... 37

(13)

Gambar 4. 14 Discretize data ... 42 Gambar 4. 15 Perfomace vector... 43

(14)

xii

ABSTRACT

BAGAS PRAYOGO HARYAJI. 311410430. Implementaion of K-means Algorithm to Map Poverty Line by Province in Indonesia.

Indonesia has a sizeable population, the Central Bureau of Statistics in 2012 recorded that there were 250.000.000 more people scattered throughout the Indonesian provinces. In addition, Indonesia also has a variety of social problems, one of which is poverty. The poverty line number in Indonesia needs to be improved. Data utilization techniques become a new information called data mining. One of the most popular data mining methods is clustering using the k-means algorithm. K-k-means can process data without being notified in advance of the class label. This study will produce three provincial groups according to very low, low and sufficient income figures. Data processing of poverty line numbers in Indonesia using the k-means algorithm to get the results of the davies bouldin index of 0,288. These results are considered good enough because the closer the results obtained with zeros, the better the data similarity between members of the cluster.

(15)

ABSTRAK

BAGAS PRAYOGO HARYAJI. 311410430. Penerapan Algoritma K-means Untuk Memetakan Garis Kemiskinan Menurut Provinsi Di Indonesia. Indonesia memiliki jumlah penduduk yang cukup besar, Badan Pusat Statistik di tahun 2012 mencatat ada 250.000.000 lebih penduduk yang tersebar di seluruh provinsi Indonesia. Selain itu, Indonesia juga memiliki beragam masalah sosial, salah satunya kemiskinan. Angka garis kemiskinan di Indonesia perlu diperbaiki. Teknik pemanfaatan data menjadi sebuah informasi baru disebut juga sebagai data mining. Salah satu metode data mining yang cukup populer yaitu clustering dengan menggunakan algoritma k-means. K-means dapat mengolah data tanpa diberitahu lebih dahulu label kelasnya. Penelitian ini akan menghasilkan tiga kelompok provinsi sesuai dengan angka pendapatan sangat rendah, rendah dan cukup. Pengolahan data angka garis kemiskinan di Indonesia menggunakan algoritma k-means mendapatkan hasil davies bouldin index sebesar 0,288. Hasil tersebut dinilai cukup baik sebab semakin dekat hasil yang diperoleh dengan angka nol, maka kemiripan data anggota antar cluster semakin baik.

(16)

1 BAB I

PENDAHULUAN

1.1 Latar belakang

Indonesia merupakan negara yang mempunyai lebih dari 230.000.000 penduduk yang tersebar di beberapa provinsi berdasarkan data yang dihimpun oleh Badan Pusat Statistik tahun 2012. Selain memiliki jumlah penduduk yang cukup besar tersebut, Indonesia memilki beragam masalah sosial antara lain tingkat kejahatan yang tinggi, swasembada pangan, masalah ekonomi dan lain lain. Salah satu masalah sosial yang diakibatkan oleh faktor ekonomi, yaitu kemiskinan. Kemiskinan adalah suatu keadaan dimana terjadi ketidakmampuan untuk memenuhi kebutuhan dasar seperti makanan, pakaian, tempat berlindung, pendidikan, dan kesehatan. Kemiskinan dapat disebabkan oleh kelangkaan alat pemenuh kebutuhan dasar, ataupun sulitnya akses terhadap pendidikan dan pekerjaan. Banyak orang saat ini menerjemahkan kemiskinan sebagai pangkal penyebab masalah sosial dan ekonomi.

Angka garis kemiskinan di Indonesia dinilai perlu untuk diperbaiki. Menurut lembaga Pembangunan PBB bersama ASEAN dan China tahun 2016, Indonesia berada pada posisi sembilan dari sepuluh Negara di Asia Tenggara. Parameter yang digunakan untuk menentukan sebuah daerah disebut miskin yaitu angka pendapatan per kapita per bulan tiap penduduknya. Kepala Badan Pusat Statistik pada tahun 2018 menetapkan batas garis kemiskinan yakni Rp 401.220 per kapita per bulan. Seperti di DKI Jakarta nilai garis kemiskinan Rp 593.000 per kapita maka pengeluaran keluarga miskin dengan 4-5 orang mencapai sekira

(17)

Rp3.100.000 juta (sedikit di bawah UMR DKI JAKARTA Rp3.600.000). Diperlukan sebuah langkah pemetaan bagi tiap provinsi sesuai dengan tingkat garis kemiskinan sehingga dapat diambil sebuah solusi yang tepat sesuai dengan kelompoknya. Salah satu teknik yang dikenal dalam data mining yaitu teknik clustering.

Teknik clustering mengelompokan data secara otomatis tanpa perlu diberitahu label kelasnya. Banyak metode clustering yang telah diusulkan oleh para ahli, salah satunya adalah k-means. Metode k-means merupakan algoritma klasterisasi yang paling banyak digunakan dalam berbagai aplikasi kecil hingga menengah karena kemudahan mengaplikasikannya.

Menyikapi hal tersebut, pada penelitian ini penulis mencoba untuk menerapkan teknik clustering dengan menggunakan algoritma k-means sebagai metode penyelasian masalah tersebut. Sehingga penulis menjadikannya sebuah judul ”PENERAPAN ALGORITMA K-MEANS UNTUK MEMETAKAN

GARIS KEMISKINAN MENURUT PROVINSI DI INDONESIA”.

Diharapkan penelitian ini dapat membantu pemerintah dalam mengambil langkah yang tepat sebagai upaya menurunkan angka kemiskinan pada setiap provinsi yang ada di Indonesia.

1.2 Identifikasi masalah dan batasan masalah 1.1.4 Identifikasi masalah

Berdasarkan latar belakang tersebut maka didapat identifikasi masalah sebagai berikut :

(18)

3

1. Banyaknya data yang telah dihimpun belum diolah menjadi sebuah informasi lebih lanjut.

2. Belum adanya pemetaan daerah yang berada dalam angka garis kemiskinan sangat rendah, rendah maupun cukup.

1.2.2 Batasan masalah

Pada penulisan tugas akhir ini, penulis membatasi dalam implementasi data mining untuk pemetaan angka garis kemiskinan di Indonesia yang meliputi : 1. Tidak membahas sistem pendukung keputusan maupun sistem informasi. 2. Metode yang digunakan adalah clustering dengan algoritma k-means. 3. Data yang digunakan diambil dari empat tahun terakhir.

1.2 Rumusan masalah

Berdasarkan latar belakang masalah tersebut maka perumusan masalah yang diambil dalam penelitian ini adalah “Bagaimana menerapkan algoritma k-means untuk pemetaan angka garis kemiskinan di Indonesia dari data yang sudah dihimpun selama empat tahun terakhir”.

1.3 Tujuan penelitian

Penelitian ini dimaksudkan mengolah data angka garis kemiskinan di Indonesia yang bersumber dari website Badan Pusat Statistik menggunakan metode clustering sebagai sebuah bidang ilmu yaitu data mining. Selain itu untuk mendapatkan hasil pemetaan angka garis kemiskinan dengan menerapkan algoritma k-means, sehingga dapat diambil solusi yang tepat untuk tiap daerah berbeda di Indonesia.

(19)

Adapun tujuan yang dalam penelitian ini adalah :

1. Melakukan tinjauan lebih lanjut terkait angka garis kemiskinan di Indonesia yang dihimpun oleh Badan Pusat Statistik selama empat tahun terakhir.

2. Mengelompokkan provinsi di Indonesia menjadi tiga kelompok sesuai dengan angka pendapatan tiap daerah menggunakan algoritma k-means.

1.5 Manfaat penelitian

Manfaat dari penelitian tugas akhir ini adalah hasil pemetaan angka garis kemiskinan yang diharapkan dapat diambil langkah solusi yang tepat menurut tingkat daerah masing-masing. Adapun manfaat lain dari penelitian ini adalah : 2. Bagi Penulis

Dapat menambah pengetahuan dan wawasan serta dapat mengaplikasikan teori yang telah diperoleh selama masa perkuliahan.

3. Bagi Akademik

Dapat menjadi referensi bagi mahasiswa yang melakukan kajian terhadap algoritma k-means di masa yang akan datang.

1.6 Metode pengumpulan data

Dalam melakukan penelitian ini penulis menerapkan beberapa metode antara lain :

1. Studi Pustaka

Penulis mempelajari dan mengumpulkan data dari buku–buku serta mencari informasi yang diperlukan terkait penyusunan laporan.

(20)

5

2. Sumber Data

Data yang digunakan dalam penelitian ini diperoleh secara online melalui website https://www.bps.go.id/dynamictable/2016/01/18/1120/garis-kemiskinan-menurut-provinsi-2013---2017.html sebagai sumber data yang digunakan untuk penelitian.

1.7 Sistematika penulisan

Penelitian ini terbagi menjadi lima bab, dimana masing–masing bab terdiri dari beberapa sub–sub bab untuk menghasilkan pembahasan secara sistematis. Adapun lima bab tersebut ialah :

BAB I : PENDAHULUAN

Pada bab ini penulis ingin mengemukakan gambaran tentang latar belakang, maksud dan tujuan, rumusan masalah, batasan masalah, metode pengumpulan data dan sistematika penulisan.

BAB II : LANDASAN TEORI

Pada bab ini penulis ingin menjelaskan tentang teori-teori yang didapat dari sumber-sumber yang relevan untuk digunakan sebagai panduan dalam penelitian serta penyusunan skripsi.

BAB III : METODOLOGI PENELITIAN

Pada bab ini penulis akan menjelaskan tentang tahap penelitian, data yang digunakan dan 5las an5n5ing data.

BAB IV : HASIL DAN PEMBAHASAN

Pada bab ini penulis akan menjelaskan tentang implementasi algoritma serta pembahasan dari penelitian yang dilakukan.

(21)

BAB V : PENUTUP

Pada bab ini penulis akan memberikan kesimpulan dan saran dari keseluruhan penelitian yang telah di bahas.

(22)

7 BAB II

LANDASAN TEORI

2.1 Penelitian terkait

1. Clustering penentuan potensi kejahatan daerah di kota Banjarbaru dengan metode k-means (Rahayu, S., Nugrahadi, D.T., Indriani, F. 2014).

Penelitian tersebut membahas tentang penerapan algoritma k-means dalam penentuan potensi kejahatan berdasarkan data kejahatan yang dimiliki oleh Kepolisian Negara Republik Indonesia daerah Kalimantan Selatan Resort Banjarbaru. Variabel-variabel yang digunakan dalam clustering penentuan potensi kejahatan daerah di kota Banjarbaru adalah hukuman, bulan dan laporan.

Setelah mendapatkan data langkah selanjutnya adalah melakukan persiapan data yaitu data selection, preprocessing data, transformation hingga diterapkan metode k-means.

Kesimpulan dari penelitian ini clustering potensi kejahatan daerah di kota Banjarbaru diproses berdasarkan perjajaran. Hal ini dilakukan agar hasil dari pengelompokan potensi kejahatan daerah di kota Banjarbaru menjadi lebih spesifik.

2. Analisa metode hierarchical clustering dan k-means dengan model LRFMP pada segmentasi pelanggan (Muhidin,A. 2017).

Penelitian tersebut membahas tentang penerapan algoritma k-means dalam menentukan segmentasi konsumen yang potensial. Variabel yang digunakan dalam clustering pelanggan berdasarkan model LRFMP (Length, Recency, Frequency, Monetary, Payment).

(23)

Pada penelitian ini proses segmentasi pelanggan dimulai dengan melakukan proses preprocessing, analytic hierarchy process (AHP), pencarian nilai K terbaik dari semua metode hierarchical clustering dengan membandingkan nilai bouldien index. Selanjutnya nilai k terpilih dijadikan nilai awal pada k-means clustering. Hasil clustering tersebut digunakan untuk melakukan segmentasi menggunakan model RFM untuk mendapatkan kelas konsumen. Hasil clustering dapat dijadikan acuan marketing dalam menentukan perlakuan terhadap pelanggan.

3. Pemanfaatan metode k-means clustering dalam penentuan penjurusan siswa SMA (Aziz, A., Purmaningsih, C., Saptono, R. 2014).

Penelitian tersebut membahas tentang penerapan algoritma k-means dalam kasus penentuan penjurusan siswa SMA. Variabel yang digunakan dalam penelitian ini adalah kriteria nilai akademik, nilai IQ dan minat siswa.

Data minat siswa dan nilai IQ belum dapat digunakan dalam proses clustering maka perlu adanya proses konversi data non numerik minat siswa dan nilai IQ siswa menjadi data numerik, oleh karena itu kriteria minat dan IQ siswa dikategorikan terlebih dahulu.

Kesimpulan penelitian algoritma k-means dapat digunakan untuk mengelompokkan data siswa sebagai pendukung keputusan penentuan penjurusan siswa SMA. Hasil penelitian menunjukkan bahwa tidak ada siswa yang diterima di dua jurusan IPA/IPS atau siswa ditolak di keduanya.

(24)

9

4. Penerapan metode k-means clustering untuk mengelompokan potensi produksi buah-buahan di provinsi Daerah Istimewa Yogyakarta (Murti, M.A.W.K. 2017).

Penelitian tersebut membahas tentang penerapan algoritma k-means dalam pengelompokan daerah penghasil buah. Variabel yang digunakan berdasarkan luas panen (Ha), produksi (ton) dan tahun panen.

Setelah mendapatkan data langkah selanjutnya adalah melakukan persiapan data yaitu cleaning data, transformation hingga diterapkan metode k-means.

Kesimpulan penelitian memberikan pemetaan daerah dengan hasil produksi buah banyak, sedang dan rendah.

2.2 Definisi judul 2.2.1 Algoritma

Menurut Munir (2012:176) algoritma adalah urutan logis langkah-langkah penyelesaian masalah yang disusun secara sistematis. Metode pengurutan digambarkan dalam sejumlah langkah terbatas yang mengarah pada solusi permasalahan.

2.2.2 K-means

Menurut Vulandari (2017:54) k-means merupakan algoritma yang menetapkan nilai-nilai cluster (k) secara random, untuk sementara nilai tersebut menjadi pusat dari cluster yang biasa disebut centroid. Kemudian menghitung jarak setiap data yang ada terhadap masing-masing centroid menggunakan rumus 9las an9n hingga ditemukan jarak yang paling dekat dari setiap data dengan centroid hingga nilai centroid tidak berubah (stabil).

(25)

Menurut Suyanto (2017:262) k-means merupakan algoritma klasterisasi yang memiliki ide dasar sederhana dengan cara meminimalkan Sum of Squared Error (SSE) antara objek-objek data dengan sejumlah k centroid.

2.2.3 Clustering

Menurut Suyanto (2017:260) Clustering adalah proses pengelompokan satu set objek data (into multiple groups) atau cluster sehingga benda-benda dalam suatu kelompok memiliki kesamaan yang tinggi, tetapi sangat berbeda dengan objek di kelompok lain.

Menurut Han,dkk (2012:445) clustering adalah proses mempartisi sekumpulan objek data (pengamatan) kedalam himpunan bagian yang dapat digunakan untuk mengatur hasil pencarian ke dalam kelompok dan menyajikan hasil dengan cara yang ringkas dan mudah diakses.

Clustering banyak digunakan dalam berbagai bidang dengan beragam aplikasi yang sangat penting diantaranya riset pasar, sistem perekomendasi, sistem keamanan dan mesin pencarian.

2.2.4 Garis kemiskinan

Menurut Hamzah,dkk (2013:68) garis kemiskinan atau batas kemiskinan ditetapkan dengan 10las an logis dengan berdasarkan konsep kebutuhan pokok (basic needs). Terdapat dua hal yang harus terlebih dahulu ditentukan, yaitu pengukuran kebutuhan hidup minimum (standard of living) dan penentuan garis kemiskinan.

Sajogyo dalam Hamzah,dkk (2013:68) menetapkan garis kemiskinan berdasarkan penghasilan rumah tangga senilai 360 Kg beras per tahun di

(26)

11

perkotaan dan 240 Kg beras per tahun di perdesaan. Pengukuran garis kemiskinan ini dapat dipakai untuk memperbandingkan tingkat hidup antar zaman dan antar ragam nilai rupiah.

2.3 Data mining

2.3.1 Pengertian data mining

Perkembangan teknologi informasi telah memberikan kontribusi pada cepatnya pertumbuhan jumlah data yang dikumpulkan dan disimpan dalam basis data berukuran besar (big data). Big data adalah istilah yang menggambarkan volume data yang besar, baik data yang terstruktur maupun data yang tidak terstruktur. Big data memiliki potensi tinggi untuk mengumpulkan wawasan kunci dari informasi bisnis. Big data dapat dianalisis untuk wawasan yang mengarah pada pengambilan keputusan dan strategi bisnis yang lebih baik.

Sebuah metode atau teknik diperlukan untuk dapat merubah data tersebut menjadi sebuah informasi berharga atau pengetahuan yang bermanfaat untuk mendukung pengambilan keputusan. Suatu teknologi yang dapat digunakan untuk mewujudkannya adalah data mining. Belakangan ini data mining telah diimplementasikan kedalam berbagai bidang, diantaranya dalam bidang bisnis atau perdangangan, bidang pendidikan, dan telekomunikasi.

Menurut Stanton (2013:173) data mining adalah bidang penelitian dan praktik yang berfokus pada penemuan pola-pola baru dalam data yang mengacu pada penggunaan algoritma dan komputer untuk menemukan pola baru dan menarik dalam data.

(27)

Menurut Pramudiono dalam Baskoro,dkk (2013:42) data mining adalah analisis otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaanya.

Menurut Suyatno (2017:2) data mining ditujukan untuk mengekstrak pengetahuan dari sekumpulan data sehingga didapatkan struktur yang dapat dimengerti manusia serta meliputi basis data dan manajemen data, prapemrosesan data, pertimbangan model dan inferensi, ukuran ketertarikan, pertimbangan kompleksitas, pascapemrosesan terhadap struktur yang ditemukan, visualisasi dan online updating.

Sebagai teknologi umum, data mining dapat diterapkan ke semua jenis data selama data bermakna untuk aplikasi target. Bentuk data paling dasar untuk penambangan aplikasi adalah database, data warehouse dan data transaksional. Data mining juga dapat diterapkan ke bentuk data lain (misalnya, aliran data, data urutan / urutan, grafik atau data jaringan, data spasial, data teks, data multimedia).

(28)

13

Sumber : Han,dkk, 2012.

2.3.2 Fungsi data mining

Secara umum, kegunaan data mining terbagi menjadi dua yaitu deskriptif dan prediktif. Deskriptif memiliki arti untuk mencari pola-pola yang dapat dipahami manusia yang menjelaskan karakteristik data sedangkan prediktif digunakan untuk membentuk sebuah model pengetahuan guna melakukan prediksi. Berdasarkan fungsionalitasnya, tugas-tugas data mining bisa dikelompokan menjadi enam kelompok yaitu :

(29)

Adapun penjelasan rinci dari enam kelompok tersebut sebagai berikut: 1. Klasifikasi (classification)

Proses generalisasi struktur yang diketahui untuk diaplikasikan pada data-data baru.

2. Klasterisasi (clustering)

Mengelompokan data yang belum diketahui label kelasnya ke dalam sejumlah kelompok tertentu sesuai dengan ukuran kemiripannya.

3. Regresi (regression)

Menemukan suatu fungsi yang memodelkan data dengan kesalahan prediksi seminimal mungkin.

(30)

15

4. Deteksi anomali (anomaly detection)

Mengidentifikasi data yang tidak umum, berupa outlier (pencilan), perubahan atau deviasi yang mungkin sangat penting dan perlu investigasi lebih lanjut. 5. Pemodelan kebergantungan (Depedency modeling)

Mencari relasi antar tabel. 6. Perangkuman (summarization)

Menyediakan representasi data yang lebih sederhana, meliputi visualisasi dan pembuatan laporan.

2.3.3 Teknik pembelajaran data mining

Teknik yang digunakan dalam data mining erat kaitannya dengan penemuan dan pembelajaran yang terbagi dalam tiga metode utama pembelajaran yaitu :

1. Supervised learning

Teknik yang melibatkan fase pelatihan dimana data pelatihan historis yang karakter-karakternya dipetakan ke hasil-hasil yang telah diketahui dan diolah dalam algoritma data mining. Proses ini melatih algoritma untuk mengenali variabel-variabel dan nilai-nilai kunci yang nantinya akan digunakan sebagai dasar dalam membuat perkiraan-perkiraan ketika diberikan data baru.

2. Unsupervised learning

Teknik pembelajaran yang tidak melibatkan fase pelatihan seperti supervised learning yakni bergantung pada penggunaan algoritma yang mendeteksi semua pola yang muncul dari kriteria penting yang spesifik dalam data masukan. Pendekatan ini mengarah pada pembuatan banyak aturan yang

(31)

mengkarakteristikan penemuan associations, clusters dan segment yang kemudian dianalisis untuk menemukan hal-hal yang penting.

3. Reinforcement learning

Teknik yang memiliki penerapan-penerapan yang terus dioptimalkan dari waktu ke waktu dan memiliki kontrol adaptif. Menyerupai kehidupan nyata yaitu seperti “on job training” dimana seorang pekerja diberikan sekumpulan tugas yang membutuhkan keputusan-keputusan. Reinforcement leraning sangat tepat digunakan untuk menyelesaikan masalah-masalah sulit yang bergantung pada waktu.

2.3.4 Proses data mining

Data mining biasanya terdiri dari empat proses (Stanton 2013:173) : 1. Persiapan data

Melibatkan memastikan bahwa data diatur dengan cara yang benar, bahwa bidang data yang hilang terisi, bahwa data yang tidak akurat berada dan diperbaiki atau dihapus, dan data tersebut "didaur ulang" seperlunya.

2. Analisis data eksploratori

Proses eksplorasi juga melibatkan mencari keluar nilai-nilai yang tepat untuk parameter kunci.

3. Pengembangan model

Yaitu menguji pilihan penambangan data yang paling sesuai teknik. Tergantung pada struktur dataset dan memilih yang paling menjanjikan di dalamnya sebagai sains.

(32)

17

4. Interpretasi hasil.

Berfokus untuk memahami dari apa algoritma data mining telah dihasilkan yang merupakan langkah penting dari perspektif pengguna data, karena ini adalah tempat kesimpulan yang dapat ditindaklanjuti terbentuk.

Beberapa tahun terakhir data tumbuh menjadi semakin heterogen dan kompleks dengan volume yang meningkat cepat secara eksponensial. Selain itu, beberapa faktor pendorong kemajuan yang berlanjut dalam bidang data mining ialah:

1. Pertumbuhan yang cepat dalam pertumbuhan data.

2. Penyimpanan data dalam data warehouse, sehingga seluruh perusahaan memiliki akses ke dalam database yang handal.

3. Adanya peningkatan akses data melalui navigasi web dan internet.

4. Perkembangan teknologi perangkat lunak untuk data mining (ketersediaan teknologi).

5. Perkembangan yang hebat dalam kemampuan komputasi dan pengembangan kapasitas media penyimpanan.

2.3.5 Pengelompokan teknik data mining

Menurut Baskoro,dkk (2013:43) data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu:

1. Classification

Suatu teknik dengan melihat pada kelakuan dan atribut dari kelompok yang telah didefinisikan. Teknik ini dapat memberikan klasifikasi pada data baru

(33)

dengan memanipulasi data yang ada yang telah diklasifikasi dan dengan menggunakan hasilnya untuk memberikan sejumlah aturan.

2. Association

Digunakan untuk mengenali kelakuan dari kejadian-kejadian khusus atau proses dimana hubungan asosiasi muncul pada setiap kejadian.

3. Clustering

Digunakan untuk menganalisis pengelompokkan berbeda terhadap data, mirip dengan klasifikasi, namun pengelompokkan belum didefinisikan sebelum dijalankannya tool data mining.

4. Forecasting

Teknik forecasting sebagai input kemudian akan mengambil sederetan angka yang menunjukkan nilai yang berjalan seiring waktu dan kemudian Teknik forecasting ini akan menghubungkan nilai masa depan dengan menggunakan bermacam-macam teknik machine learning dan teknik statistik yang berhubungan dengan musim, trend, dan noise pada data.

5. Prediction

Prediction (prediksi), untuk memperkirakan nilai masa mendatang, misalnya memprediksi stok barang satu tahun ke depan.

2.4 K-means

2.4.1 Pengertian k-means

K-means merupakan algoritma klasterisasi yang paling tua dan paling banyak digunakan dalam berbagai aplikasi kecil hingga menengah karena

(34)

19

kemudahan implementasinya. Menurut Suyanto (2017:262) Algoritma k-means bekerja dengan empat langkah, yaitu :

1. Himpunan data yang akan diklasterisasi, dipilih sejumlah k objek secara acak sebagai centroid awal.

2. Setiap objek yang bukan centroid dimasukkan ke cluster terdekat berdasarkan ukuran jarak tertentu.

3. Setiap centroid diperbarui berdasarkan rata-rata dari objek yang ada di dalam setiap cluster.

4. Langkah kedua dan ketiga dilakukan secara diulang-ulang (diiterasi) sampai semua centroid stabil dalam arti semua centroid yang dihasilkan dalam iterasi saat ini sama dengan semua centroid yang dihasilkan pada iterasi sebelumnya. Berikut ini adalah langkah-langkah algoritma k-means :

1. Penentuan cluster awal

Dalam menentukan n buah pusat cluster awal dilakukan pembangkitan bilangan random yang merepresentasikan urutan data input. Pusat awal cluster didapatkan dari data sendiri bukan dengan menentukan titik baru, yaitu dengan random pusat awal dari data.

2. Perhitungan jarak dengan pusat cluster

Untuk mengukur jarak antar data dengan pusat dengan cluster digunakan euclidian distance, algoritma perhitungan jarak data dengan pusat cluster : a. Pilih nilai data dan nilai pusat cluster

b. Hitung euclidian distance data dengan tiap pusat cluster 𝑑(𝑥𝑖 , 𝜇𝑗) = √(𝑥𝑖 − 𝜇𝑗) 2 …..(1)

(35)

Penjelasan : xi : Data kriteria

µi : Centroid pada cluster ke j 3. Pengelompokan data

Jarak hasil perhitungan akan dilakukan perbandingan dan dipilih jarak terdekat antara data dengan pusat cluster, jarak ini menunjukan bahwa data tersebut berada dalam satu kelompok dengan pusat cluster terdekat.

Adapun cara pengelompokan data tersebut adalah : a. Pilih nilai jarak tiap pusat cluster dengan data. b. Cari nilai jarak terkecil.

c. Kelompokkan data dengan pusat cluster yang memiliki jarak terkecil. 4. Penentuan pusat cluster baru

Untuk mendapatkan pusat cluster baru bisa dihitung dari rata-rata nilai anggota cluster dan pusat cluster. Pusat cluster yang baru digunakan untuk melakukan iterasi selanjutnya, jika hasil yang didapatkan belum konvergen. Proses iterasi akan berhenti jika telah memenuhi maksimum iterasi yang dimasukkan oleh user atau hasil yang dicapai sudah konvergen (pusat cluster baru sama dengan pusat cluster lama).

Algoritma penentuan pusat cluster : a. Cari jumlah anggota tiap cluster b. Hitung pusat baru dengan rumus 𝜇𝑗 (𝑡 + 1) = 1

(36)

21

Penjelasan :

µj (t+1) : Centroid baru pada iterasi ke 1 Nsj : Banyak data pada cluster sj

Hasil dari operasi clustering yang terbentuk selanjutnya akan di evaluasi menggunakan Davies bouldin index yang dihitung dengan persamaan :

𝐷𝐵𝐼 = 1 𝐾∑ 𝑅𝑖 𝑘 𝑖=1 𝑅𝑖 = max 𝑅𝑖𝑗 j=1…k,i≠j 𝑅𝑖𝑗 𝑖≠𝑗 =var(𝐶𝑖) + var(C𝑗) ||𝑐𝑖− 𝑐𝑗|| Dimana:

Cᵢ = Cluster i dan cluster ci adalah centroid dari cluster i

2.4.2 Keuntungan dan kekurangan k-means

Sebagai fungsi penambangan data, analisis cluster dapat digunakan sebagai alat yang berdiri sendiri untuk memperoleh wawasan ke dalam distribusi data. Adapun keuntungan lain dari metode ini (Han,dkk , 2012:445) antara lain : 1. K-means juga disebut segmentasi data di beberapa aplikasi karena

pengelompokan mempartisi set data besar ke dalam grup sesuai dengan kemiripannya.

2. K-means bisa juga digunakan untuk deteksi outlier (nilai yang "jauh" dari mana pun cluster).

3. K-means mempartisi sekumpulan objek data (atau pengamatan) ke dalam himpunan bagian, sehingga banyak digunakan dalam banyak aplikasi seperti

(37)

intelijen bisnis, pengenalan pola gambar, pencarian web, biologi, dan keamanan.

Selain itu, metode clustering memiliki beberapa kekurangan (Suyanto, 2017:262) antara lain :

1. K-means tidak dapat menjamin konvergen pada optimum global.

2. K-means sering terjebak pada optimum lokal, dimana centroid akhir yang dihasilkan tidak benar-benar menjadi pusat cluster yang sesungguhnya.

3. Keluaran dari k-means bergantung pada centroid awal yang ditentukan secara acak.

2.5 Rapidminer

Menurut Baskoro,dkk (2013:8) Rapidminer merupakan perangkat lunak yang bersifat terbuka (open source). Rapidminer adalah sebuah solusi untuk melakukan analisis terhadap data mining, text mining dan analisis prediksi. Rapidminer menggunakan berbagai teknik deskriptif dan prediksi dalam memberikan wawasan kepada pengguna sehingga dapat membuat keputusan yang paling baik.

Rapidminer memiliki beberapa sifat sebagai berikut:

1. Ditulis dengan bahasa pemrograman java sehingga dapat dijalankan di berbagai sistem operasi.

2. Proses penemuan pengetahuan dimodelkan sebagai operator trees.

3. Representasi XML internal untuk memastikan format standar pertukaran data. 4. Bahasa scripting memungkinkan untuk eksperimen skala besar dan otomatisasi

(38)

23

5. Konsep multi-layer untuk menjamin tampilan data yang efisien dan menjamin penanganan data.

6. Memiliki GUI, command line mode, dan java API yang dapat dipanggil dari program lain.

(39)

24

BAB III

METODOLOGI PENELITIAN

3.1 Tahap penelitian

Dalam tahapan ini akan membahas tentang penelitian yang dilakukan dengan dataset yang sudah di dapatkan yaitu :

1. Tahap pencarian data. Pada tahap ini dilakukan pencarian terhadap dataset angka garis kemiskinan di Indonesia yang di didapatkan melalui website

https://www.bps.go.id/dynamictable/2016/01/18/1120/garis-kemiskinan-menurut-provinsi-2013---2017.html.

2. Tahap analisa. Pada tahap ini dilakukan analisa tentang algoritma yang cocok digunakan untuk dataset yang ada yaitu k-means.

3. Tahap implementasi. Pada tahap ini dilakukan pengujian terhadap dataset yang didapat dengan algortima k-means dengan cara menghitung centroid pada setiap satuan data.

4. Tahap dokumentasi. Pada tahap ini semua hasil hitung dilampirkan kedalam laporan serta grafik yang dihasilkan ditampilkan sebagai representasi tiap data.

3.1.1 Gambaran penelitian

(40)

25

Proses pertama yaitu pencarian data mentah berupa dataset angka garis kemiskinan yang berekstensi .xlsx yang merupakan representasi dari data. Proses kedua yaitu pembersihan data untuk mengambil data yang akan digunakan. Dalam penelitian ini data dari tahun 2013 hingga 2017 dilakukan pembersihan data yang tidak bagus dengan cara replace missing value. Proses ketiga yaitu data yang sudah bisa digunakan untuk penelitian. Proses keempat yaitu k-means clustering yaitu mengelompokan data menjadi tiga kelompok yaitu sangat rendah, rendah dan cukup.

3.2 Data

Data yang digunakan untuk penelitian adalah data angka garis kemiskinan

yang diperoleh secara online melalui website

https://www.bps.go.id/dynamictable/2016/01/18/1120/garis-kemiskinan-menurut-provinsi-2013---2017.html sebanyak 34 data sesuai dengan jumlah provinsi yang ada di Indonesia. Data yang digunakan yaitu data yang terkumpul selama tahun 2013 sampai 2017 yang berekstensi .xlsx.

3.3 Preprocessing data

Sebelum mengolah data, perlu dilakukan proses preprocessing data untuk memudahkan penggalian informasi dari hasil penambangan data. Prepocessing data yang digunakan adalah data cleaning.

3.3.1 Data cleaning

Dalam tahap ini, akan dilakukan penggantian nilai yang hilang (replace missing value). Terdapat dua dataset yang tidak lengkap yaitu data perdesaan di DKI Jakarta dan Kalimantan Utara pada daerah perdesaan dan perkotaan. Dalam

(41)

kedua data tersebut tidak ada nilai pendapatan rupiah/kapita/bulan. Pada data DKI Jakarta tahun 2013 semester 1 sampai tahun 2017 tidak terdapat angka pada daerah perdesaan selama lima tahun tersebut. Sedangkan tidak terdapat data di daerah Kalimantan Utara pada tahun 2014 baik di perkotaan maupun perdesaan.

Penggantian nilai yang hilang dari ketiga data tersebut memberikan hasil baru pada data penelitian. Penggantian tersebut menggunakan nilai maksimal dari data yang ada pada tiap provinsi kemudian memasukan nilai maksimal tersebut pada atribut yang hilang.

Proses penggantian data yang hilang menggunakan tool rapidminer dengan cara memasukan file dataset penelitian lalu mengabungkan dengan operator Replace missing value kemudian melakukan run sehingga didapatkan dataset yang dibutuhkan.

(42)

27

Gambar 3. 3 Penggantian data yang hilang pada data perdesaan DKI Jakarta

Gambar 3. 4 Penggantian data yang hilang pada data perdesaan Kalimantan Utara

(43)

Gambar 3. 5 Penggantian data yang hilang pada data perkotaan Kalimantan Utara

(44)

29 BAB IV

HASIL DAN PEMBAHASAN

4.1 Proses clustering

Pada tahap ini akan dilakukan proses utama yaitu segmentasi atau pengelompokan data angka garis kemiskinan. Berikut ini merupakan penerapan algoritma k-means dengan asumsi bahwa parameter input adalah jumlah dataset sebanyak n data dan jumlah inisialisasi centroid k = 3 sesuai dengan penelitian. Data yang diambil untuk penelitian berjumlah 34 untuk dijadikan contoh penerapan algoritma k-means. Percobaan dilakukan dengan menggunakan parameter-parameter berikut :

Jumlah cluster : 3 Jumlah data : 34 Jumlah atribut : 2

4.2 Pengujian rapidminer

Pada penelitian ini penulis menggunakan tool rapidminer sebagai alat pengujian dataset. Adapun tahapan pengujian yang dilakukan yaitu sebagai berikut :

(45)

Gambar 4. 1 Design process

Pada tahapan ini dilakukan 8 proses yaitu : a. Read excel

Tahapan ini dilakukan operasi penginputan dataset berupa file berekstensi .xls angka garis kemiskinan di Indonesia.

b. Replace missing value

Tahapan ini dilakukan operasi pengisian nilai yang hilang dengan nilai maksimal.

c. Select attributes

Tahapan ini dilakukan operasi pemilihan atribut yang akan dihitung yaitu data perdesaan dan data perkotaan pada bulan September 2017.

d. Normalize

Tahapan ini dilakukan operasi normalisasi data menggunakan metode z score dihasilkan nilai-nilai yang sudah distandarkan.

(46)

31

e. Clustering

Tahapan ini dilakukan operasi clustering sebagai algortima yang digunakan pada penelitian ini.

f. Performance

Tahapan ini dilakukan operasi pencarian nilai davies bouldin index. g. Sort

Tahapan ini dilakukan operasi pengurutan anggota cluster 0 sampai dengan cluster 2.

h. Discretize

Tahapan ini dilakukan operasi mengubah atribut numerik yang dipilih menjadi atribut nominal dengan mendiskritasikan atribut numerik.

(47)

Pada tahapan ini ditampilkan hasil dari klasterisasi data. Label cluster terbagi menjadi tiga kelompok yaitu cluster 0, cluster 1, cluster 2. Pembagian ini berdasarkan hasil kedekatan tiap masing-masing data dengan jarak terdekat (k).

Gambar 4. 3 Cluster model

Pada tahapan ini ditampilkan hasil pembagian data terhadap tiap cluster. Cluster 0 memiliki 17 anggota, Cluster 1 memiliki 6 anggota, Cluster 2 memiliki 11 anggota dari total 34 dataset yang di uji.

(48)

33

Gambar 4. 4 Centroid table

Pada tahapan ini ditampilkan nilai titik pusat pada tiap cluster. Nilai tersebut menjadikan acuan perhitungan pada tiap-tiap dataset dengan cara mengukur kedekatan nilai dengan masing-masing titik pusat cluster.

(49)

Gambar 4. 6 Anggota cluster 1

(50)

35

Gambar 4. 8 Example set statistic

Pada tahapan ini ditampilkan hasil statistik dari data yang sudah di uji. Pada tabel K dan U terdapat 3 atribut yaitu min sebagai nilai terendah pada tabel dataset, max sebagai nilai tertinggi pada tabel dataset dan average sebagai nilai rata-rata dari penjumlahan tabel dataset tersebut.

(51)

Pada tahapan ini ditampilkan hasil pembagian dari tiga kelompok berupa lingkaran. Ukuran tiap lingkaran mendeskripsikan jumlah banyaknya anggota tiap cluster.

Gambar 4. 10 Plot result

Pada tahapan ini ditampilkan hasil plot dari hasil pengujian. Pada bagian sebelah kiri menunjukan angka pedapatan dan bagian sebelah kanan ditampilkan garis sebagai gambaran rataan nilai anggota.

(52)

37

Gambar 4. 11 Chart clustering

Pada tahapan ini ditampilkan hasil pengelompokan data dalam bentuk grafik titik dengan warna. Warna biru mengartikan cluster 0, warna hijau mengartikan cluster 1 dan warna merah mengartikan cluster 2.

Gambar 4. 12 Perfomance vector 4.3 Pembahasan hasil clustering k-means

Setelah dilakukan pengujian dengan tool rapidminer, maka didapatkan kesimpulan sebagai berikut :

(53)

Tabel 4. 1 Dataset penelitian pendapatan/kapita/bulan dalam satuan rupiah PROVINSI 2017 PERKOTAAN PERDESAAN Aceh 479872 442869 Sumatera Utara 438894 407157 Sumatera Barat 475365 441415 Riau 474626 457368 Jambi 465233 366036 Sumatera Selatan 417828 356020 Bengkulu 490475 449857 Lampung 427072 377049

Kep. Bangka Belitung 595031 623111

Kep. Riau 540062 507795 DKI Jakarta 578247 623111 Jawa Barat 354866 353103 Jawa Tengah 339692 337657 DI Yogyakarta 413631 352861 Jawa Timur 372585 347997 Banten 421137 373039 Bali 371118 350826

Nusa Tenggara Barat 363697 343387

Nusa Tenggara Timur 409382 329136

Kalimantan Barat 401588 394313 Kalimantan Tengah 378311 418861 Kalimantan Selatan 434791 407382 Kalimantan Timur 564801 554497 Kalimantan Utara 595802 554548 Sulawesi Utara 331931 340146 Sulawesi Tengah 430728 400639 Sulawesi Selatan 303834 287788 Sulawesi Tenggara 308624 295456 Gorontalo 312931 304353 Sulawesi Barat 318376 315137 Maluku 461552 443565 Maluku Utara 413797 390914 Papua Barat 523381 499086 Papua 508403 446994

(54)

39

Tabel 4. 2 Dataset yang telah distandarkan z score

PROVINSI 2017 PERKOTAAN PERDESAAN Aceh 0,563 0,394 Sumatera Utara 0,072 -0,017 Sumatera Barat 0,509 0,377 Riau 0,500 0,560 Jambi 0,387 -0,490 Sumatera Selatan -0,180 -0,605 Bengkulu 0,690 0,474 Lampung -0,069 -0,363

Kep. Bangka Belitung 1,942 2,466

Kep. Riau 1,283 1,140 DKI Jakarta 1,741 2,466 Jawa Barat -0,934 -0,638 Jawa Tengah -1,116 -0,816 DI Yogyakarta -0,230 -0,641 Jawa Timur -0,722 -0,697 Banten -0,141 -0,409 Bali -0,739 -0,665

Nusa Tenggara Barat -0,282 -0,750

Nusa Tenggara Timur -0,281 -0,914

Kalimantan Barat -0,375 -0,165 Kalimantan Tengah -0,653 0,118 Kalimantan Selatan 0,023 -0,014 Kalimantan Timur 1,580 1,677 Kalimantan Utara 1,951 1,678 Sulawesi Utara -1,209 -0,787 Sulawesi Tengah -0,026 -0,092 Sulawesi Selatan -1,545 -1,389 Sulawesi Tenggara -1,436 -1,301 Gorontalo -1,436 -1,199 Sulawesi Barat -1,371 -1,075 Maluku 0,343 0,402 Maluku Utara -0,228 -0,204 Papua Barat 1,084 1,040 Papua 0,904 0,441

Kemudian dilakukan operasi clustering untuk mendapatkan nilai klasterisasi data berdasarkan tiap kelompoknya.

(55)

Tabel 4. 3 Anggota cluster 0

No Provinsi Perkotaan Perdesaan Cluster

1 Aceh 479872 442869 0 2 Sumatera Utara 438894 407157 0 3 Sumatera Barat 475365 441415 0 4 Riau 474626 457368 0 5 Jambi 465233 366036 0 6 Sumatera Selatan 417828 356020 0 7 Bengkulu 490475 449857 0 8 Lampung 427072 377049 0 9 DI Yogyakarta 413631 352861 0 10 Banten 421137 373039 0 11 Kalimantan Barat 401588 394313 0 12 Kalimantan Tengah 378311 418861 0 13 Kalimantan Selatan 434791 407382 0 14 Sulawesi Tengah 430728 400639 0 15 Maluku 461552 443565 0 16 Maluku Utara 413797 390914 0 17 Papua 508403 446994 0

Tabel 4. 4 Anggota cluster 1

No Provinsi Perkotaan Perdesaan Cluster 1 Kep. Bangka Belitung 595031 623111 1

2 Kep. Riau 540062 507795 1

3 DKI Jakarta 578247 623111 1

4 Kalimantan Timur 564801 554497 1

5 Kalimantan Utara 595802 554548 1

(56)

41

Tabel 4. 5 Anggota cluster 2

No Provinsi Perkotaan Perdesaan Cluster

1 Jawa Barat 354866 353103 2

2 Jawa Tengah 339692 337657 2

3 Jawa Timur 372585 347997 2

4 Bali 371118 350826 2

5 Nusa Tenggara Barat 363697 343387 2 6 Nusa Tenggara Timur 409382 329136 2

7 Sulawesi Selatan 303834 287788 2

8 Sulawesi Tenggara 308624 295496 2

9 Gorontalo 312931 304353 2

10 Sulawesi Barat 318376 315137 2

11 Sulawesi Utara 331931 340146 2

(57)

Tanda panah biru adalah data pada provinsi Nusa Tenggara Timur yang memiliki kedekatan jarak secara sekilas dekat dengan cluster 0 yang diartikan dengan titik berwarna biru. Peneliti berpendapat bahwa data tersebut tidak dapat bergabung dengan cluster 0 dikarenakan nilai z score menunjukan hasil yang lebih dekat dengan titik pusat cluster 2 sehingga data tersebut dinyatakan sebagai anggota cluster 2.

Selanjutnya dibuat himpunan dan domain untuk masing-masing variabel untuk memudahkan mendeskripsikan tiap provinsi :

Tabel 4. 6 Deskripsi (linguistik) dan domain nilai tiap atribut

Attribute Deskripsi Domain nilai

Cluster 0 Perkotaan 413714 – 515892 Perdesaan 369537 – 478227 Cluster 1 Perkotaan 515892 - ∞ Perdesaan 478227 - ∞ Cluster 2 Perkotaan ∞ - 413714 Perdesaan ∞ - 369537

(58)

43

Setelah cluster terbentuk, maka dapat diperoleh kesimpulan sebagai berikut:

Tabel 4. 7 Deskripsi data berdasarkan dengan cluster

Cluster Deskripsi

0 Anggota cluster dengan rataan penghasilan rendah 1 Anggota cluster dengan rataan penghasilan cukup

2 Anggota cluster dengan rataan penghasilan sangat rendah

Setelah proses clustering selesai selanjutnya dilakukan operasi performance untuk mengetahui nilai dari Davies bouldin index yang bertujuan untuk memaksimalkan pengukuran jarak antar cluster dan meminimalkan jarak antar anggota dalam suatu cluster .

Gambar 4. 15 Perfomace vector

Hasil yang diperoleh dari operasi performance vector adalah sebagai berikut:

(59)

Tabel 4. 8 Hasil operasi perfomance vector

Perfomance Vector Value Avg. within centroid distance 0.151 Avg. within centroid distance cluster 0 0.161 Avg. within centroid distance cluster 1 0.212 Avg. within centroid distance cluster 2 0.104

Davies Bouldin 0.288

Evaluasi hasil dari average within centroid distance mendekati angka 0 mengartikan bahwa masing-masing anggota didalam cluster berada dalam jarak yang berdekatan. Evaluasi menggunakan davies bouldin index memiliki skema internal cluster yang dilihat dari kuantitas dan kedekatan antar hasil cluster. Semakin kecil nilai davies bouldin index yang diperoleh (non-negatif >= 0), maka semakin baik cluster yang diperoleh dari pengelompokan menggunakan metode clustering. Hasil perhitungan menggunakan algoritma k-means menunjukan nilai 0,288. Angka tersebut memiliki arti masing-masing objek dalam cluster tersebut memiliki kesamaan yang cukup baik karena mendekati angka 0.

(60)

45

BAB V

PENUTUP

5.1 Kesimpulan

Berdasarkan hasil penelitian yang dilakukan oleh penulis, dapat diambil kesimpulan sebagai berikut:

1. Penerapan algortima k-means membagi dataset menjadi tiga kelompok yaitu sangat rendah, rendah dan cukup sesuai dengan kemiripan tingkat pendapatan/kapita/bulan.

2. Hasil pengujian mendapatkan nilai davies bouldin index sebesar 0,288 yang memiliki arti kesamaan antar anggota cluster yang cukup baik.

5.2 Saran

Mengingat masih banyaknya hal-hal yang belum dapat diimplemetasikan dari penelitian ini, maka penulis mempertimbangkan beberapa saran yaitu :

1. Hasil clustering yang terbentuk dapat dikembangkan menjadi basis pengetahuan untuk sistem pendukung keputusan pemetaan provinsi dengan rataan pendapatan tiap daerah sesuai dengan kemiripannya.

2. Melakukan kombinasi dengan metode atau pendekatan yang lain guna mendapatkan hasil penelitian yang lebih baik.

(61)

DAFTAR PUSTAKA

Aprilla, D., Ambarwati, L., Baskoro, D. A., Wicaksana, I. W. S. 2013. Belajar Data Mining dengan RapidMiner. Jakarta: Open Content Model

Aziz, A., Purmaningsih, C., Saptono, R. 2014. Pemanfaatan Metode K-means Clustering Dalam Penentuan Penjurursan Siswa SMA. Jurnal ITSMART. Vol 3 (1): 27-33

Hamzah, A., Syechalad, M. N., Takdir, A. 2013. Analisis Kemiskinan Rumah Tangga Berdasarkan Karakteristik Sosial Ekonomi Di Kabupaten Aceh Barat Daya. Vol. 1. Page 67-75

Han, J., Kamber, M., Pei, J. 2012. Data Mining Concepts and Techniques. Waltham: Elsevier.

Jumadi, B.D.S. 2018. Peningkatan Hasil Evaluasi Clustering Davies Bouldin Index Dengan Penentuan Titik Pusat Cluster Awal Algoritma K-means [skripsi]. Medan. Universitas Sumatera Utara

Muhidin ,A. 2017. Analisa Metode Hierarchical dan K-means Dengan Model LRFMP Pada Segmentasi Pelanggan. SIGMA. Vol 7 (1): 81-88

Munir, R. 2012. Matematika Diskrit. Bandung: Informatika

Murti, M.A.W.K. 2017. Penerapan Metode K-means Clustering Untuk Mengelompokan Potensi Produksi Buah-buahan Di Provinsi Daerah Istimewa Yogyakarta [skripsi]. Yogyakarta. Universitas Sanata Dharma

Rahayu, S., Nugrahadi, D.T., Indriani, F. 2014. Clustering Penentuan Potensi Kejahatan Daerah Di Kota Banjarbaru Dengan Metode K-means. Kumpulan Jurnal Ilmu Komputer. Vol 1 (1): 33-45

Stanton, J. 2013. Inroduction to Data Science. Syracuse: Syracuse University’s School of Information Studies

(62)

47

Suyanto. 2017. Data Mining Untuk Klasifikasi dan Klasterisasi Data. Bandung: Informatika

Vulandari, R. T. 2017. Data Mining Teori dan Aplikasi Rapidminer. Yogyakarta: Gavamedia

(63)

LAMPIRAN

(64)

49

(65)

Gambar

Gambar 2. 1 Penemuan ilmu baru
Gambar 2. 2 Fungsi data mining
Gambar 3. 1 Gambaran penelitian
Gambar 3. 2 Implementasi data pada rapidminer
+7

Referensi

Dokumen terkait

Penelitian dilakukan dengan menggunakan analisis data sekunder, yaitu dengan mengolah data yang dikumpulkan dari Badan Pusat Statistik Provinsi Banten yang

1. Pada penelitian ini peneliti akan menggunakan metode Clustering dengan algoritma Fuzzy C-Means untuk mengelompokan daerah-daerah penghasil tanaman kedelai di

Penelitian ini mempunyai keterkaitan beberapa peneliti sebelumnya yaitu penelitian yang berjudulImplementasi Algoritma Clustering dengan Singuler Vector Decomposition

Menurut perhitungan Pemerintah yang diolah dari Survei Sosial Ekonomi Nasional - Badan Pusat Statistik (SUSENAS - BPS), angka kemiskinan justru mengalami penurunan dari 35 juta

Langkah awal K- Medoids adalah mencari titik yang paling representatif (medoids) dalam sebuah dataset dengan menghitung jarak dalam kelompok dari semua kemungkinan

2 Rima Dias Ramadhani dari Jurusan Sistem Informasi, Fakultas Ilmu Komputer, Universitas Dian Nuswantoro Data Mining Menggunakan Algoritma K-Means Clustering Untuk Menentukan

Dan hasil pengujian clustering dengan data penduduk miskin menunjukkan bahwa pada algoritma K-means didapatkan tingkatan kemiskinan dengan kategori Sangat Miskin berada pada cluster

Pada umumnya data yang ada pada badan pusat statistik produksi perikanan budidaya laut berdasarkan provinsi di Indonesia hanya menerapkan data produksi yang hanya menghasilkan data