• Tidak ada hasil yang ditemukan

BAB II TINJ AUAN PUSTAKA

2.3 Algoritma K-Means

2.3.1 Tahapan Algoritma K-Means

Widyawati (2010) dalam skripsi Nango Dwi (2012), menyatakan proses algoritma K-Means adalah sebagai berikut :

a. Pilih secara acak objek sebanyak k, objek – objek tersebut akan direpresentasikan sebagai mean pada cluster.

b. Untuk setiap objek dimasukan kedalam cluster yang tingkat kemiripan objek terhadap cluster tersebut tinggi. Tingkat kemiripan ditentukan dengan jarak objek terhadap mean atau centroid cluster tersebut.

c. Hitung nilai centroid yang baru pada masing-masing cluster.

d. Proses tersebut diulang hingga anggota pada kumpulan cluster tersebut tidak berubah.

Sedangkan menurut Adiningsih (2007) dalam skripsi Nango Dwi (2012) tahap penyelesaian algoritma K-Means adalah sebagai berikut :

a. Menentukan K buah titik yang merepresentasikan obyek pada setiap

cluster (centroid awal).

b. Menetapkan setiap obyek pada cluster dengan posisi centroid terdekat. c. Jika semua obyek sudah dikelompokkan maka dilakukan perhitungan

ulang dalam menentukan centroid yang baru.

d. Ulangi langkah ke-2 dan ke-3 sampai centroid tidak berubah.

Menurut Kurniawan dkk (2010) dalam skripsi Nango Dwi (2012), menyatakan langkah-langkah dari algoritma K-Means yaitu :

Gambar 2.5 Cara Kerja Algoritma K-Means (Kurniawan dkk 2010)

Berikut penjelasan dari gambar, dengan algoritma K-means dilakukan cara berikut hingga ditemukan hasil iterasi yang stabil :

a. Menentukan data centroid, pada sistem ini, ditentukan bahwa centroid pertama adalah n data pertama dari data-data yang akan di-cluster.

b. Menghitung jarak antara centroid dengan masing-masing data.

c. Mengelompokkan data berdasarkan jarak minimum.

d. Jika penempatan data sudah sama dengan sebelumnya, maka stop. Jika tidak, kembali ke cara yang ke-2.

2.3.2 Euclidean Distance

Euclidean distance merupakan salah satu metode penghitungan jarak yang

paling sederhana. Jika terdapat n buah variabel maka perhitungan jarak menggunakan metode Euclidean dinyatakan sebagai berikut:

Dimana x dan y merupakan dua objek yang dihitung jaraknya, x1, x2, ... , xn dan y1, y2, ... , yn merupakan atribut-atribut sebanyak n buah dari objek x dan y. 2.3.3 Beberapa Per masalah yang Ter kait dengan K-Means

Beberapa permasalahan yang sering muncul pada saat menggunakan metode K-Means untuk melakukan pengelompokkan data adalah :

1. Ditemukannya beberapa model clustering yang berbeda.

2. Pemilihan jumlah clustering yang paling tepat.

3. Kegagalan untuk converge.

4. Pendeteksian outliers.

5. Bentuk masing – masing cluster.

6. Masalah overlapping.

Hal – hal diatas perlu diperhatikan pada saat penggunaan K-Means. Permasalah pertama umumnya disebabkan oleh perbedaan proses inisialisasi anggota masing – masing cluster. Proses inisialisasi yang sering digunakan adalah proses inisialisasi secara random.

2.3.4 Kelemahan dan Kelebihan Algoritma K-Means

Dalam penggunaan algoritma K-Means memiliki beberapa kelemahan dan kelebihan, yaitu :

A. Kelebihan K-Means :

1. Selalu konvergen atau mampu melakukan klusterisasi.

2. Tidak membutuhkan operasi matematis yang rumit, bisa dibilang operasinya sederhana.

3. Beban komputasi relatif lebih ringan, sehingga klusterisasi bisa dilakukan dengan cepat walaupun relatif tergantung pada banyak jumlah data dan jumlah cluster yang ingin dicapai.

B. Kekurangan K-Means

K-means memiliki banyak kelemahan, antara lain:

1. Jumlah cluster sebanyak K, harus ditentukan sebelum dilakukan

perhitungan.

2. Nilai centroids yang diberikan di awal bisa mempengaruhi hasil klusterisasi apabila nilainya berbeda (sensitif terhadap nilai centroids awal).

3. Solusi cluster yang dihasilkan hanya bersifat local optima, sehingga kita tidak tahu apakah itu sudah merupakan konfigurasi optimal atau belum. 4. Tergantung pada mean ( rata – rata).

5. Algoritma K-Means hanya bisa digunakan untuk data yang atributnya bernilai numerik.

6. Tidak pernah mengetahui real cluster dengan menggunakan data yang sama, namun jika dimasukkan dengan cara yang berbeda mungkin dapat memproduksi cluster yang berbeda jika jumlah datanya sedikit.

7. Tidak tahu kontribusi dari atribut dalam proses pengelompokan karena dianggap bahwa setiap atribut memiliki bobot yang sama.

Salah satu cara untuk mengatasi kelemahan itu adalah dengan menggunakan K-means clustering namun hanya jika tersedia banyak data.

2.4 Penelitian Terdahulu

Berikut adalah tiga penelitian lain mengenai algoritma K-Means yang terkait dengan penelitian ini adalah :

a. Analisa Pr ofil Data Mahasiswa Baru Univer sitas Stikubank

(UNISBANK) Semarang Tahun 2005-2010 Dengan Teknik Data Mining

Universitas Stikubank (Unisbank) merupakan salah satu perguruan tinggi yang sudah cukup lama berkembang dengan jumlah mahasiswa baru yang diterima setiap tahun cukup banyak. Namun demikian ternyata data mengenai mahasiswa baru belum banyak dimanfaatkan untuk kepentingan yang saling berkait, diantaranya adalah mengenai objek dan wilayah tujuan promosi.

Dengan adanya teknik data mining, salah satunya adalah metode klustering dengan K-means, diharapkan data mahasiswa baru dapat diolah menjadi suatu informasi yang lebih bermanfaat dan dapat dijadikan sebagai salah

satu dasar dalam pengambilan keputusan, yaitu menentukan wilayah promosi yang tepat.

Berikut adalah tabel hasil kluster program studi berdasarkan jumlah mahasiswa baru :

Tabel 2.1 Hasil Kluster Program Studi Berdasarkan Jumlah Mahasiswa Baru

Berikut juga ditunjukkan tabel hasil kluster kota asal mahasiswa baru : Tabel 2.2 Hasil Kluster Kota Asal Mahasiswa Baru

Dari sejumlah 173 kota asal mahasiswa baru, setelah melalui proses klustering diperoleh tiga buah kluster dengan jumlah mahasiswa terbanyak dan pada 12 kota. Hal ini tentunya akan sangat bermanfaat dalam membantu tim

penerimaan mahasiswa baru dan promosi dalam menentukan kota tujuan promosi. (J ur nal : Wahyudi, Eko Nur.Dkk. 2011.)

b. Penggunaan Metode Pengklasteran Untuk Menentukan Bidang Tugas

Akhir Mahasiswa Teknik Infor matika PENS Berdasar kan Nilai Tugas Akhir merupakan salah satu kewajiban mahasiswa, khususnya di PENS-ITS, yang harus dikerjakan sebagai syarat kelulusan. Namun tidak jarang mahasiswa mengalami kesulitan dalam penyelesaian tugas akhir tersebut. Salah satu penyebabnya adalah faktor kemampuan mahasiswa dalam bidang Tugas Akhir yang dikerjakannya.

Penelitian ini membahas penggunaan metode clustering dan inner product untuk menentukan bidang Tugas Akhir mahasiswa Teknik Informatika PENS-ITS berdasarkan nilai yang didapat mulai dari semester pertama sampai dengan semester sebeum penentuan judul TA. Tiap bidang disusun oleh mata kuliah-mata kuliah tertentu. Nilai mata kuliah-mata kuliah tersebutlah yang digunakan sebagai atribut data dalam sistem ini.

Metode clustering yang digunakan adalah Single Linkage Hierarchical,

Centroid Linkage Hierarchical, dan K-Means. Metode-metode clustering tersebut

digunakan untuk melakukan training data sehingga terbentuk cluster-cluster.

Cluster-cluster yang terbentuk kemudian dilabelkan dengan Inner Product. Inner Product dilakukan dengan mengalikan centroid tiap cluster dengan nilai minimum

(dari data training) untuk atribut centroid (mata kuliah) yang tidak mempengaruhi bidang TA dan mengalikan dengan nilai maximum (dari data training) untuk atribut centroid (mata kuliah) yang mempengaruhi bidang TA yang sedang

diproses. Hasil Inner Product yang paling besar menunjukkan bahwa cluster tersebut memiliki label bidang TA yang sedang diproses.

Pengujian dilakukan dengan data baru (data uji) yang memiliki atribut (mata kuliah) yang sama dengan data training. Data uji tersebut dihitung jaraknya menggunakan Euclidean Distance dengan masing-masing cluster yang telah berlabel (bidang TA). Jarak yang terdekat menujukkan data tersebut merupakan anggota cluster yang dimaksud yang berarti data baru tersebut termasuk ke bidang yang diwakili cluster yang berjarak paling dekat tersebut. Dan berikut adalah hasil uji coba penelitian dengan metode yang berbeda :

Gambar 2.6 Hasil Uji Coba Penelitian

Hasil percobaan menunjukkan bahwa metode centroid linkage memiliki nilai variance (Vw/ Vb) paling kecil yang menandakan bahwa metode tersebut menghasilkan cluster paling baik dibanding dengan metode single linkage dan

K-Means pada kasus ini. (J urnal : Entin Martiana S.Kom, M.Kom, Nur Rosyid

Mubtada’i S. Kom, Edi Pur nomo.2009.)

c. Implementasi Algoritma K-Means Clustering Untuk Menentukan

Strategi Marketing President University

President University merupakan salah satu Universitas swasta yang cukup

terkenal di Indonesia. President University berlokasi di Kawasan Industri Jababeka yang didalamnya beroperasi lebih dari 1000 perusahaan nasional dan internasional. President University tumbuh sangat pesat setiap tahunnya. Mahasiswa President University sangat banyak yang berasal dari berbagai daerah di Indonesia. Tidak hanya berasal dari Indonesia, mahasiswa President University pun banyak yang berasal dari luar Indonseia, seperti Vietnam, China, Korea dan beberapa negara lainnya.

Oleh karena mahasiswa President University berasal dari berbagai daerah bahkan hingga berbagai negara, maka dibutuhkan strategi khusus oleh bagian

marketing dalam melakukan pemasaran untuk mencari calon mahasiswa agar

promosi yang dilakukan lebih efektif dan effisien. Untuk dapat melakukan promosi promosi yang lebih efektif dan effisien, maka dalam penelitian ini dilakukan dengan cara mengolahan data-data yang telah didapatkan dari mahasiswa yang telah lulus seperti nama mahasiswa, kota asal, jurusan yang diambil dan yang terkahir adalah nilai IPK. Data-data yang telah didapatkan tadi kemudian diolah untuk mengetahui pola dari data-data tersebut sehingga kita dapat mengambil informasi-informasi yang tersembunyi dari data-data tersebut. Metode pengolahan data seperti ini sering disebut sebagai data mining. Pada

penelitian ini analisa data mining dilakukan dengan menggunakan metode

K-Means clustering. Dengan menggunakan metode ini, data – data yang telah

didapatkan dapat dikelompokan kedalam beberapa cluster berdasarkan kemiripan dari data-data tersebut, sehingga data-data yang memiliki karakteristik yang sama dikelompokan dalam satu cluster dan yang memliki karakteristik yang berbeda dikelompokan dalam cluster yang lain yang memiliki karakteristik yang sama.

Berdasarkan hasil pengelompokan data menggunakan metode k-means

clustering, di dapatkan hasil clustering hingga iterasi ke-7, dimana titik pusat

tidak lagi berubah dan tidak ada data yang berpindah antar cluster. Hasil dari

clustering tersebut seperti pada tabel berikut :

Gambar 2.7 Hasil Clustering Menggunakan Algoritma K-Means

Dari hasil cluster 1, terlihat bahwa karakteristik mahasiswa pada cluster 1 didominasi oleh mahasiswa yang berasal dari jurusan Information Technology dan

Marketing. Sedangkan, berdasarkan kota asal didominasi oleh mahasiswa yang

disimpulkan bahwa rata-rata mahasiswa pada cluster 1 yang berasal dari wilayah kota asal DKI Jakarta dan Jawa Barat mengambil jurusan Infromation Technology dan Marketing.

Kemudian, dari hasil cluster 2 di atas dapat dilihat bahwa karakteristik mahasiswa pada cluster 2 didominasi oleh mahasiswa yang berasal dari jurusan

Accounting dan International Business. Sedangkan, berdasarkan kota asal

didominasi oleh mahasiswa yang berasal dari wilayah kota asal DKI Jakarta dan Jawa Barat, sehingga dapat disimpulkan bahwa rata-rata mahasiswa pada cluster 2 yang berasal dari wilayah kota asal DKI Jakarta dan Jawa Barat mengambil jurusan Infromation Technology dan Marketing.

Sedangkan, dari hasil cluster 3 di atas dapat dilihat bahwa karakteristik mahasiswa pada cluster 3 didominasi oleh mahasiswa yang berasal dari jurusan

Public Relation, Accounting dan International Business. Sedangkan, berdasarkan

kota asal didominasi oleh mahasiswa yang berasal dari wilayah kota asal Sulawesi, Jawa Timur dan Sumatera Selatan, sehingga dapat disimpulkan bahwa rata-rata mahasiswa pada cluster 3 yang berasal dari wilayah kota asal Sulawesi, Jawa Timur dan Sumatera Selatan mengambil jurusan Public Relation,

BAB III

METODE PENELITIAN

Perencanaan penelitian yang baik dan sistematis akan memudahkan meningkatkan efektifitas penelitian dalam mencapai tujuan secara efisien. Langkah-langkah dalam penelitian ini dapat dijelaskan secara urut sebagai berikut:

Dokumen terkait