• Tidak ada hasil yang ditemukan

BAB II LANDASAN TEORI

E. K-Mean

CLUSTERING DAN EUCLIDEAN DISTANCE

SKRIPSI

Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer

Program Studi Teknik Informatika

Oleh : Unggul Prasetya

095314043

JURUSAN TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

ii

DOCTORE RECOMMENDED APPLICATIONS FOR

ANDROID ON SALES OF DRUEG USING K-MEANS

CLUSTERING AND EUCLIDEAN DISTANCE

THESIS

Presented as Partial Fullfilment of the Requirements To Obtain the Computer Bachelor Degree

In Informatics Engineering

By: Unggul Prasetya

095314043

INFORMATICS ENGINEERING STUDY PROGRAM

DEPARTMENT OF INFORMATICS ENGINEERING

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2013

v

HALAMAN PERSEMBAHAN

Teruslah mencoba meski selalu gagal.

Teruslah berusaha meski sering menjadi bahan olok-olok. Teruslah belajar dari semua hal yang didapat

Teruslah bertekun, fokus pada tujuan Kesuksesan adalah pilihan

Skripsi ini saya persembahkan untuk Ayah dan Ibu dan keluarga tercinta

vi

vii

ABSTRAK

Aplikasi mobile sangat cocok untuk mendukung kerja marketing yang bersifat mobile atau selalu berpindah. Tenaga marketing selalu berpindah-pindah karena pembeli berada ditempat yang jauh dan berbeda. Salah satu tenaga penjual tersebut adalah sales obat kerena mereka selalu mengunjungi dokter di klinik atau rumah sakit tempat yang jauh dan berbeda.

Dalam menjalankan bisnis yang bersifat mobile, sales obat memerlukan informasi yang real time dan akurat. Hal ini dikemukakan oleh beberapa sales obat di sebuah rumah sakit swasta di Yogyakata, bahwa sales obat memerlukan aplikasi mobile yang mampu memberikan informasi secara real time dan akurat terkait dokter yang akan dikunjungi.

Aplikasi rekomendasi dokter dibangun untuk menyelesaikan permasalahan yang dialami marketing obat. Aplikasi ini dibangun menggunakan pendekatan k-mean clustering dan Euclidean distance. Input yang dibutuhkan adalah profil dokter yaitu rekaman rekomendasi obat untuk pasien , input profil sales yaitu obat-obat yang akan ditawarkan kepada dokter input obat ini didasarkan pada kandungan zat active dari obat tersebut.

Data dokter yang telah diinputkan akan diproses sehingga membentuk custer dokter. Proses ini dilakukan karena diasumsikan bahwa dokter dengan spesialis yang sama cenderung memberikan rekomendasi obat yang sama. Cluster dan profil sales yang diproses untuk mendapatkan cluster dokter jarak terdekat. Setelah didapat cluster dokter dengan jarak terdekat anggota cluster tersebut diurutkan berdasarkan jarak similarity dengan profil sales kemudian direkomendasikan.

Dengan menggunakan pendekatan tersebut aplikasi ini dapat menghasilkan informasi berupa rekomendasi dokter yang dapat dikunjungi oleh sales obat. Setelah dilakukan pengujian menghasilkan nilai precision 0.8 - 1 dan recall 0 - 7. Dapat disimpulkan bahwa Information retrival menggunakan pendekatan k-mean

dan Euclidean distance menghasilkan rekomendasi dokter yang sesuai dengan yang diharapkan sales obat.

ix

ABSTRACT

Mobile application is suitableto support a mobile marketing work or always on the move. Marketing personnel are always moving because buyers are far away and different. One of the sales reps are drugs because they are always visit the doctor at the clinicor hospital where the distant an different.

In running a bussines that is mobile, require drug sales information real time and accurate. This was stated by some drug sales at a private hospital in Yogyakarta, that requires drug sales moble application that is able to provide information in real time and accurately related to doctors who would visit.

Applications of doctor’s recommendation was built to resolve problems experienced by marketing the drug. This application was built using k-mean clustering approach and Euclidean distance. The required input is the propfile of the recording physician medication recommendations for patients, input sales profile is drugs that will be offered to doctors drug input based on active substances of the drug.

Physicians who have entered the data will be processed to form cluster doctor. This process is done because it is assumed that the same physicians with specialists tend to give the same medication recommendation. Cluster and sales profiles are processed to obtain nearest cluster distances doctor. Once the cluster obtained with the doctor closest cluster members are sorted by the distance similarity with sales profile is then recommended.

By using the approach of these applications cangenerate information in the form of a doctor’s recommendation can be visited by drug sales. After testing produces precision value 0,8- 1 and recall 0-7. It can be concluded that the information retrival using k-mean approach and the ecuclidean distance produce a doctor’s recommendation in accordance with the expected drug sales.

xi

KATA PENGANTAR

Puji syukur kepada Yesus Kristus yang telah memberikan karunia, rahmat, dan kesempatan, sehingga penulis dapat menyelesaikan skripsi dengan judul “Aplikasi Rekomendasi Dokter Untuk Sales Obat Pada Android Menggunakan Metode K-Mean Clustering Dan Euclidean Distance”. Penyusunan skripsi ini tidak lepas dari semua pihak yang turut memberikan dukungan, doa, semangat, dan bantuan yang sangat bermanfaat bagi penulis. Pada kesempatan ini penulis mengucapkan terima kasih sebesar besarnya kepada :

1. Tuhan Yesus yang selalu melindungi.

2. Bapak Puspaningtyas Sanjoyo Adi,S.T.,M.T., selaku dosen pembimbing yang senantiasa memberikan masukkan dan bantuan dalam membimbing penulis untuk menyelesaikan skripsi ini.

3. Sri Hartati Wijono, S.Si.,M.Kom , Ridowati Gunawan, S.Kom.,M.T. , Paulina Heruningsih Prima Rosa, S.Si., M.Sc , Bapak Puspaningtyas Sanjoyo Adi,S.T.,M.T. Beliau-beliau telah membantu saya dalam belajar sehingga saya dapat berkembang.

4. Segenap dosen Universitas Sana Dharma yang telah membantu memberikan bekal pengethauan kepada penulis.

5. Mamah CH.Supinah, S.Pd dan bapak Suradi, S.Pd yang selalu menyayangi ku dann tidak pernah berhenti semangat, doa, dan dukungan.

6. Kakak (Trisna Sundari,S.E dan AMZ Yuli Susandar, S.E ) yang telah memberikan semangat dan dukungan.

7. Bapak, Ibu dan keluarga besar Margareta Sri Pinilih yang dengan tulus memberikan perhatian, doa, dan dukungan.

8. Audris Evan utomo,S.Kom dan seluruh sahabat TI yang tidak dapat penulis sebutkan atas kesediaannya dalam memberi masukkan, menemani, dan mendengarkan keluh kelas dari penulis.

xv

DAFTAR ISI

SKRIPSI ... i

THESIS ... ii

HALAMAN PERSEMBAHAN ... v

PERNYATAAN KEASLIAN KARYA ... vi

ABSTRAK ... vii

ABSTRACT ... ix

KATA PENGANTAR ... xi

DAFTAR ISI ... xv

DAFTAR GAMBAR ... xx

DAFTAR TABEL ... xxi

DAFTAR GRAFIK ... xxii

BAB I PENDAHULUAN ... 1

A. Latar Belakang Masalah ... 1

B. Rumusan Masalah ... 2 C. Tujuan Penelitian ... 2 D. Manfaat Penelitian ... 2 E. Batasan Masalah ... 2 F. Metodologi Penelitian ... 3 G. Sistematika Penulisan ... 4

BAB II LANDASAN TEORI ... 5

A. Sistem Rekomendasi ... 5

B. Content Based Filtering ... 5

D. Uclidean Distance ... 7

E. K-Mean ... 7

1. Pengertian ... 7

2. Teknik Metode K-Mean... 8

F. Pengujian sistem ... 9 G. Android ... 9 1. Pengertian ... 9 2. Arsitektur Android ... 10 3. Application ... 10 4. Application Framework ... 10

BAB III METODOLOGI PENELITIAN DAN ANALISIS SISTEM ... 12

A. Pengumpulan Data dan Informasi ... 12

1. Wawancara... 12

2. Pemerolehan Data ... 12

B. Analisis Sistem... 13

C. Software Requirement Analysis ... 14

1. Analisis perangkat lunak yang dibutukan ... 14

2. Analisis perangkat keras yang dibutuhkan ... 14

3. Arsitektur Aplikasi ... 14

4. Membuat Rekomendasi Dokter ... 15

D. Metode Pengujian Recall dan Precision ... 30

1. Contoh Perhitungan Recall dan Precision ... 30

BAB IV PERANCANGAN SISTEM DAN IMPLEMENTASI ... 32

A. Diagram Use case ... 32

B. Diagram Sekenario... 33

2. Hapus Profil Item ... 33

3. Cari Rekomendasi ... 33

4. Melihat Profil Dokter ... 34

5. Manajemen File Dokter (Sales) ... 34

6. Login Admin ... 35

7. Management File Dokter ( Admin ) ... 35

C. Diagram Aktivitas ... 36

1. Saat Aplikasi Dijalankan ... 36

2. Cari rekomendasi ... 37

3. Input Profile Sales ... 37

4. Hapus Item Profile ... 38

5. Melihat Profil MedRep ... 38

6. Download File Rekomendasi Dokter ... 39

7. Merubah File List Dokter Yang Diakses ... 39

8. Tambah File ... 40

9. Edit Deskripsi File ... 40

10. Hapus File ... 41

D. Diagram Model View Controler (MVC) ... 41

1. Struktur MVC Kelas Boundary, Contorl dan Entity... 41

2. Diagram Analisis Kelas (Model View Controler) ... 42

3. Diagram Kelas (Aplikasi Android) ... 43

4. Diagram Kelas (Web Admin) ... 43

5. Diagram Kelas Detail... 44

E. Diagram Sequence ... 50

1. Saat Plikasi Dijalankan ... 50

3. Input Profile Medrep ... 52

4. Lihat Profile Sales ... 53

5. Hapus Item Profile ... 53

6. Download File Rekomendasi Dokter ... 54

7. Merubah File List Dokter Yang Diakses ... 54

8. Tambah File ... 55

9. Edit Deskripsi File ... 55

10. Hapus File ... 56

F. Model Penyimpanan Data ... 56

G. Algoritma Method Dalam Kelas Yang Memuat Proses Custering dan Euclidean Similarity... 59

1. RekomendasiDokterActivity.java ... 59

2. UpdateData(Strting): Boolean ... 64

3. Relasi_Kontroler.Java ... 67

4. Similarity controller_avtivity.java ... 81

BAB V HASIL DAN PENGUJIAN ... 90

A. Hasil Pengujian Sistem ... 90

1. Item Query Yang Tersedia ... 90

B. Sampel profil ... 91

C. Perhitungan Recall Dan Precision ... 100

1. Tabel Relevansi Dokumen ... 100

2. Perhitungan Recall Dan Precision Setiap Query ... 101

3. Perhitungan Average Precision Terhadap 11 Titik Recall ... 104

4. Kelemahan ... 106

BAB VI KESIMPULAN DAN SARAN ... 107

B. Saran ... 107 Daftar Pustaka ... 108

xx

DAFTAR GAMBAR

Gambar 1. Proses dari clustering ... 9 Gambar 2. Arsitektur Android ... 10 Gambar 3. Arsitektur Sistem ... 15 Gambar 4. Diagram Usecase ... 32 Gambar 5. Diagram Aktivitas Saat Aplikasi dijalankan ... 36 Gambar 6. Diagram Aktivitas saat Proses Cari Rekomendasi ... 37 Gambar 7. Diagram Aktivitas Input Profil Sales ... 37 Gambar 8. Diagram Aktivitas Hapus Item Profile ... 38 Gambar 9. Diagram Aktivitas Melihat Profil MedRep ... 38 Gambar 10. Diagram Aktivitas Download File Dokter ... 39 Gambar 11. Diagram Aktivitas Meribah file list dokter yang diakses ... 39 Gambar 12. Diagram Aktivitas Tambah File ... 40 Gambar 13. Diagram Aktivitas Edit Deskripsi File ... 40 Gambar 14. Diagram Aktivitas Hapus File ... 41 Gambar 15. Diagram Analisis Kelas ... 42 Gambar 16. Diagram Kelas ... 43 Gambar 17. Diagram Kelas (Web Admin) ... 43 Gambar 18. Diagram Sequence Saat Aplikasi Dijalankan... 50 Gambar 19. Diagaram Sequence Cari Rekomendasi ... 51 Gambar 20. Diagram Sequence Input Profile Medrep ... 52 Gambar 21. Diagram Sequence Lihat Profil Sales... 53 Gambar 22. Diagram Sequence hapus Item Profile ... 53 Gambar 23. Diagram Sequence Download File Rekomendasi Dokter ... 54 Gambar 24. Diagram Sequence Merubah File ListDokter Yang Diakses ... 54 Gambar 25. Diagram Sequence Tambah File ... 55 Gambar 26. Diagram Sequence Edit Deskripsi... 55 Gambar 27. Diagram Sequence Hapus File ... 56

xxi

DAFTAR TABEL

Tabel 1. Contoh Data Rekomendasi Obat Dokter ... 12 Tabel 2. Rekomendasi Obat ... 16 Tabel 3. Hasil Penggabungan obat berdasarkan Generic ... 17 Tabel 4. Normalisasi Bobot Generic ... 18 Tabel 5. Centroid Awal ... 20 Tabel 6. Iterasi Pertama... 20 Tabel 7. Anggota Cluster Iiterasi Pertama ... 22 Tabel 8. Centroid Kedua ... 24 Tabel 9. Iterasi Kedua ... 24 Tabel 10. Anggota Cluster Iterasi Kedua ... 25 Tabel 11. Centroid Ketiga ... 26 Tabel 12. Iterasi Ketiga ... 26 Tabel 13. Pusat cluster ... 28 Tabel 14. Contoh Profil Pengguna (Query) ... 28 Tabel 15. Jarak Query Dengan Cluster (contoh) ... 29 Tabel 16 Anggota dari cluster yang terdekat ... 29 Tabel 17. Pengurutan Dokter Berdasarkan Jarak Similarity ... 30 Tabel 18 Tabel Relevansi Hasil Pencarian... 30 Tabel 19 Perhitungan Recal Dan Precission (contoh)... 31 Tabel 20 Perhitungan Averge Precision (contoh) ... 31 Tabel 21. Item Query Yang Tersedia ... 90 Tabel 22. Sampel Query Yang Digunakan Untuk Pengujian ... 91 Tabel 23. Relevansi Dokumen ... 100 Tabel 24. Menghitung Recall dan Precision ... 101 Tabel 25. Average Precision Terhadap 11 Titik Recall ... 104

xxii

DAFTAR GRAFIK

Grafik 1. Contoh Recall Precision ... 31 Grafik.2 Diagram Average Precision 11 Titik Recall ... 106

BAB I PENDAHULUAN A. Latar Belakang Masalah

Saat ini aplikasi mobile terus berkembang dengan pesat seiring meningkatnya penjualan smartphone. Seperti yang dikemukakan Junifer Network Inc dalam penelitiannya pada triwulan kedua tahun 2012, angka penjualan Samsung mampu meraih meraih total pengiriman 52 juta unit, iPhone 26 juta unit , Nokia 10.2 juta unit, dan RIM 7.4 juta unit [www.teknoup.com, 2012]. Perusahaan pengembang software terus mengembangkan aplikasi mobile untuk menarik minat konsumen. Perusahaan pengembang software mengedepankan inovasi-inovasi baru untuk pemerolehan informasi dibidang bisnis dan hiburan. Seperti yang dikemukakan Presiden SAP Asia Tenggara “SAP akan menekankan solusi bisnis dengan meluncurkan SAP mobility" [Okezone.com, 2012].

Aplikasi mobile sangat cocok untuk mendukung kerja marketing yang bersifat mobile atau selalu berpindah. Tenaga marketing selalu berpindah-pindah karena pembeli berada ditempat yang jauh dan berbeda. Salah satu tenaga penjual tersebut adalah sales obat kerena mereka selu mengunjungi dokter di klinik atau rumah sakit tempat yang jauh dan berbeda.

Dalam menjalankan bisnis yang bersifat mobile, sales obat memerlukan informasi yang real time dan akurat. Hal ini dikemukakan oleh beberapa sales obat di sebuah rumah sakit swasta di Yogyakata, bahwa sales obat memerlukan aplikasi mobile yang mampu memberikan informasi secara real time dan akurat terkait dokter yang akan dikunjungi.

Penelitian ini mencoba untuk menyelesaikan permasalahan sales obat dengan pendekatan data mining dan information retrival. Metode data mining dan information retrival ini akan diterapkan dalam aplikasi moible. Dengan demikian diharpkan dengan pendekatan ini dapat menghasilkan rekomendasi dokter yang akurat dan real time.

B. Rumusan Masalah

Berdasarkan latar belakang di atas, rumusan masalah penelitin ini adalah: 1. Bagaimana membuat rekomendasi dokter yang akan dikunjungi oleh sales

obat?

2. Mengukur sejauh mana informasi rekomendasi dokter yang dihasilkan aplikasi dengan pendekatan k-mean clustering dan eculidean distance dapat memberikan informasi yang akurat.

C. Tujuan Penelitian

Penelitian ini bertujuan untuk mengetahui, sejauh mana rekomendasi dokter yang dihasilkan dari pendekatan k-mean clustering dan eculidean distance dapat memberikan informasi yang akurat.

D. Manfaat Penelitian

1. Penelitian ini diharapkan dapat menjadi bahan rujukan bagi penelitian sejenis daalam ranah information retrival dan data mining.

2. memberikan sebuah analisa yang dapat memberikan rekomendasi dokter yang tepat untuk dikunjungi.

3. Manfaat dari hasil penelitian diharapkan dapat membantu sales obat dalam pemasaran produk sehingga lebih efisien dan tepat sasaran .

E. Batasan Masalah

Adapun batasan-batasan masalah dalam penulisan tugas akhir ini adalah sebagai berikut :

1. Dalam penelitian ini metode clustering dan Euclidean similarity akan diimplementasikan dalam aplikasi rekomendasi dokter untuk sales berbasis mobile.

2. Aplikasi dibangun menggunakan bahasa pemrograman java untuk android 3. Aplikasi akan berjalan minimal pada sistem operasi Android 2.3

5. Untuk melakukan pencarian dokter yang bisa dikunjungi, peneliti menggunakan metode Euclidean Distance untuk mengukur jarak profil dokter berupa rekomendasi obat(generic) dengan profil sales obat berupa list dari obat(generic).

6. Peneliti menggunakan algoritma K-Mean untuk mengelompokan data dokter yang memiliki kemiripan pola rekomendasi obat.

7. Hasil pencarian dokter akan hitung tingkat akurasinya menggunakan perhitungan information retrival dengan Recall dan Precision.

8. Karena sulitnya mendapatkan data rekomendasi dokter peneliti hanya akan menggunakan rekomendasi dari 67 dokter di Yogyakarta.

9. Banyaknya jenis obat yang direkomendasikan oleh dokter maka peneliti hanya akan menggunakan rekomendasi obat cari/injeksi sebanyk 109 merek.

10.Demi menjaga kode etik dokter dan rumah sakit maka dalam penelitian ini nama rumah sakit dan nama dokter akan disamarkan.

11.Aplikasi yang dibuat hanya untuk pentingan penelitian tidak untuk dikomersilkan.

F. Metodologi Penelitian

Langkah-langkah yang digunkan dalam penelitian ini adalah: 1. Referensi (Literatur)

Pengumpulan informasi dengan cara membaca buku , jurnal dan mencari informasi di internet dan wawancara langsung pada sales obat untuk menunjang latarbelakang dalam pembuatan tugas akhir.

2. Pembuatan perangkat lunak.

Peneliti memfokuskan pada proses pemerolehan informasi agar informasi yang didapatkan menjawab masalah yang ada.

3. Pengujian unjuk kerja.

Pengujian ini dilakukan secara manual dengan mengukur tingkat presisi dari hasil pencarian.

G. Sistematika Penulisan

Secara umum dalam penelitian ini, sistematika penulisan yang akan digunakan adalah sebagai berikut :

BAB I : PENDAHULUAN

Bab ini membahas latar belakang masalah, rumusan masalah, tujuan penelitian, batasan masalah, metodologi penelitian, dan sistematika penulisan. BAB II : LANDASAN TEORI

Bab ini membahas teori-teori yang digunakan dalam pembuatan sistem. BAB III : METODELOGI PENELITIAN DAN ANALISIS SISTEM

Bab ini membahas bagaimana data diperoleh dan diproses menggunakan metode tertentu. Bab ini juga akan membahas analisis sistem yang akan dibuat secara umum

BAB IV : PERANCANGAN SISTEM DAN IMPLEMENTASI SISTEM Bab ini membahas implementasi dalam bentuk aplikasi berdasarkan analisa dan perancangan yang telah dilakukan.

BAB V : HASIL DAN PENGUJIAN

Bab ini membahas analisa hasil implementasi dan pengujian sistem. BAB VI : KESIMPULAN DAN SARAN

Bab ini membahas kesimpulan dan saran dari hasil analisa sistem, implementasi sistem dan pengujian.

5

BAB II LANDASAN TEORI A. Sistem Rekomendasi

Sistem Rekomendasi atau disebut juga Recommender system merupakan sebuah sistem yang memberikan satu atau lebih informasi yang dibutuhkan untuk menentukan pilihan. Nilai dari Recommender system terletak pada kemampuannya untuk mencocokkan dua hal yaitu bagian yang memproses data untuk menghasilkan informasi-informasi yang dibutuhkan sebagai pertimbangan untuk menentukan pilihan [Burke, 2007].

Tugas inti dari recommender system adalah untuk memprediksikan evaluasi subyektif yang akan diberikan pengguna terhadap item. Prediksi ini dihitung menggunakan sejumlah model prediktif yang memiliki karakteristik umum, yaitu mengeksploitasi evaluasi atau penilaian yang diberikan oleh pengguna untuk transaksi yang sebelumnya. [Burke, 2007].

Recommender system telah diklasifikasikan ke dalam empat kategori utama collaborative-based, content-based, knowledge-based, hybrid [Burke, 2007]. Sistem dengan pendekatan content-based hanya menggunakan preferensi dari pengguna saat ini, memprediksi peringkat untuk item yang tak terlihat berdasarkan seberapa banyak deskripsinya atau isinya mirip dengan pengguna [Pazzani dan Billsus, 2007].

B. Content Based Filtering

Satu aspek yang membedakan antara information filtering dan information retrieval adalah mengenai kepentingan pengguna. Pada information retrival pengguna menggunakan ad-hoc queries, sedangkan pada information filtering pengguna sudah mempunyai profil yang merepresentasikan kepentingan jangka panjang, dan sistem mencoba memberikan kepada setiap pengguna item yang relevan [Dai dan Mobasher, 2001].

Berdasarkan pada ukuran kesamaan antara masing-masing profil, sistem memilih dan membuat peringkat pada item yang relevan, kemudian diberikan kepada pengguna. Terdapat dua pendekatan pada information filtering, yaitu collaborative filtering dan content-based filtering [Dai dan Mobasher, 2001].

Keuntungan dari pendekatan content-based filtering adalah pengguna mendapatkan wawasan tentang mengapa suatu item dianggap relevan untuk pengguna, karena konten di setiap itemnya diketahui dari representasinya. Namun pendekatan ini juga mempunyai kelemahan, misalnya kenyataan bahwa pendekatan ini berfokus pada kemiripan kata kunci. Pendekatan ini tidak mampu menangkap hubungan yang lebih kompleks pada level semantik yang lebih dalam, berdasarkan pada berbagai jenis atribut yang berhubungan dengan obyek terstruktur dari teks [Dai dan Mobasher, 2001].

Kesamaan antara representasi dari pengguna dan representasi dari item akan didasarkan pada prinsip kedekatan. Perinsip kedekatan ini menyatakan bahwa jarak dari dua deskripsi item secara langsung berkaitan dengan kesamaan mereka [Knappe, 2005].

C. Normalisasi

Faktor normalisasi digunakan untuk menormalkan vektor dokumen sehingga proses retrieval tidak terpengaruh oleh panjang dari dokumen. Normalisasi ini diperlukan karena dokumen panjang biasanya mengandung perulangan term yang sama sehingga menaikkan frekuensi term (tf).

Dokumen panjang juga mengandung banyak term yang berbeda sehingga menaikkan ukuran kemiripan antara query dengan dokumen tersebut, meningkatkan peluang di-retrievenya dokumen yang lebih panjang. Beberapa pendekatan normalisasi adalah normalisasi cosinus, penjumlahan bobot, normalisasi ke- 4, normalisasi bobot maksimal dan normalisasi pivoted unique . Dalam penelitian ini akan digunakan normalisasi bobot maksimal [Husni, 2010].

Normalisasi bobot maksimal suatu term i di dalam dokumen j (tfij) dapat didefinisikan sebagai berikut:

ntf = tf Max tf Diketahui:

• Tfik merupakan frekuensi dari istilah k dalam dokumen i. • n adalah jumlah dokumen dalam kumpulan dokumen.

• Maxj tfik adalah frekuensi istilah terbesar pada satu dokumen.

D. Uclidean Distance

Dalam matematika, euclidean distance atau adalah jarak antara dua titik dapat diukur menggunakan formula pytagoras. Euclidean sering disebut dengan vector obyek geometri yang memiliki panjang (magnitude) dan arah (direction). Sedangkan ruang vektor adalah sebuah struktur matematika yang dibentuk oleh sekumpulan vektor. Vektor-vektor tersebut dapat ditambahkan, dikalikan dengan bilangan real dan lain-lain. [Sandi, 2010].

Berikut merupakan penyelesaian dalam menghitung jarak antara vektor A dan vektor B. Panjang vektor A dan B dapat didefinisikan sebagai berikut:

Dengan demikian, untuk menghitung jarak antara kedua vektor tersebut menggunakan persamaan sebagai berikut :

E. K-Mean

1. Pengertian

Jika diberikan sekumpulan data X = {x1, x2, …, xn} dimana xi = (xi1, xi2, …, xin) adalah vector dalam ruang real Rn, maka algoritma k-means akan mempartisi X dalam k buah cluster. Setiap cluster memiliki centroid (titik

tengah) atau mean dari data-data dalam cluster tersebut. Pada tahap awal, algoritma k-means memilih secara acak k buah data sebagai centroid. Kemudian, jarak antara data dan centroid dihitung menggunakan Euclidian distance. Data ditempatkan dalam cluster yang terdekat, dihitung dari titik tengah cluster. Centroid baru akan ditentukan bila semua data telah ditempatkan dalam cluster terdekat. Proses penentuan centroid dan penempatan data dalam cluster diulangi sampai nilai centroid konvergen (centroid dari semua cluster tidak berubah lagi) [Munzir dan Taufik , 2009].

2. Teknik Metode K-Mean

K-means memilih secara acak k buah data sebagai centroid. Kemudian menempatkan data dalam cluster yang terdekat, dihitung dari titik tengah cluster (centroid). Centroid baru akan ditentukan bila semua data telah ditempatkan dalam cluster terdekat. Proses penentuan centroid dan nempatan data dalam cluster diulangi sampai nilai centroid konvergen. Gambar 1 memperlihatkan cara kerja k-means dan algoritma 1 memperlihatkan langkah-langkah proses k-means [Munzir dan Taufik , 2009].

Algoritma 1 Proses K-Means Input: vektor dokumen D, k Output: k cluster dokumen

1. Pilih secara acak k vektor sebagai centroid 2. repeat

3. tempatkan data (vektor) dalam cluster atau centroid terdekat 4. hitung centroid baru dari cluster yang terbentuk

Gambar 1. Proses dari clustering

Dokumen terkait