• Tidak ada hasil yang ditemukan

Prediksi Bidang Kerja dan Asal Fakultas untuk Alumni Melalui Klusterisasi dan Klasifikasi Kemunculan Kata.

N/A
N/A
Protected

Academic year: 2017

Membagikan "Prediksi Bidang Kerja dan Asal Fakultas untuk Alumni Melalui Klusterisasi dan Klasifikasi Kemunculan Kata."

Copied!
25
0
0

Teks penuh

(1)

ABSTRAK

Kelengkapan basis data alumni adalah hal yang penting bagi universitas. Hubungan timbal balik alumni dengan instansi adalah salah satu butir penting akreditasi universitas maupun akreditasi program studi. Namun, basis data alumni cenderung tidak relevan atau cacat, karena kemungkinan perubahan nomor telepon, alamat rumah, alamat email, dan lain-lain. Padahal informasi tersebut sangat menunjang komunikasi dengan instansi. Dan lagi, tingkat keberhasilan pengajaran suatu universitas juga ditentukan oleh sejalannya bidang kerja alumni dengan bidang ilmu yang telah ditempuh. Oleh karena itu, perlu ditemukan cara untuk dapat melengkapi basis data alumni dan mengetahui pekerjaan alumni dengan tepat. Pertama-tama mengumpulkan informasi yang tersebar di internet. Hal itu dilakukan dengan scraping, yakni mengekstrak dari mesin temu balik, seperti: Google. Tidak hanya itu, perlu dilakukan data filtering. Namun permasalahan muncul karena perkembangan dunia (hingga saat ini populasi dunia 2015 mencapai 7.3 miliar) dan perkembangan teknologi, mengakibatkan banyak orang yang mengacu pada nama yang sama. Dengan demikian, perlu dipikirkan cara untuk membedakan individu yang dicari dari milyaran individu hasil pencarian. Cara yang dilakukan adalah melalui metode klusterisasi (penerapan algoritma Unsupervised Person Name Disambiguator). Algoritma ini mencoba untuk membedakan individu yang dicari dari individu-individu lainnya. Tidak cukup puas dengan performansi algoritma UPND, maka dikembangkan pula algoritma Reduce-UPND. Tidak hanya itu, berbagai tahap data preprocessing perlu dilakukan demi meningkatkan performansi aplikasi ini. Terlebih untuk melihat seberapa besar pengaruh kelas kata terhadap hasil penebakan bidang kerja, maka hasil kluster diklasifikasikan menjadi 2 kelompok; kata benda dan kata kerja (acuan: KBBI). Tidak hanya data mengenai individu yang diolah, tetapi juga perlu didefinisikan pekerjaan. Setelah itu, dilakukan penebakan profesi. Penebakan yang dilakukan berdasarkan informasi individu non-social media. Eksperimen yang dilakukan dalam penelitian ini adalah cross-validation (5-fold) dan hold training-test (3 kombinasi 80%:20%, 70%:30%, dan 60%:40% antara

training dan testing). Akurasi dari penebakan bidang kerja dan asal fakultas

sebesar 90.91% (pada komposisi 80%:20%). Tidak cukup puas dengan akurasi tinggi dari prediksi bidang kerja dan asal fakultas, aplikasi ini juga membandingkan hasil dari kluster sosial media. Sosial media yang dipilih adalah LinkedIn, mengingat LinkedIn adalah sosial media untuk para profesional dan informasi dalam LinkedIn diisi sendiri oleh individu yang bersangkutan. Aplikasi ini pada akhirnya mengkombinasikan prediksi bidang kerja dan asal fakultas alumni serta ekstraksi informasi dari kluster sosial media LinkedIn, yaitu: pekerjaan sekarang, informasi pendidikan, dan informasi pekerjaan yang lampau.

(2)

ABSTRACT

Completeness of alumni database is important for the university. Alumnus reciprocal relationship with the agency is one of the important points university and the study program accreditation. However, the database of alumni tends to be flawed, because the possibility of changing phone numbers, home address, email address, and others. Though the information is very supportive communication with agencies. Moreover, the success of a university is also determined by field of alumni profession in the field of science that has been taken. Therefore, it is necessary to find a way to be able to complete the database of alumni and know alumni profession appropriately. First collect the scattered information on the Internet. This was done by scraping, which is extracted from the retrieval engine, such as Google. Not only that, there should be a data filtering. However, problems arise because the development of the world (to this day the world population reached 7.3 billion in 2015) and the development of technology, resulting in a lot of people who refer to the same name. Thus, it should be considered a way to distinguish individuals who sought billions of individual search results. How that is done is through the clustering (Unsupervised Person Name Disambiguator algorithms). These algorithms try to distinguish individuals who sought from other individuals. Not quite satisfied with the performance of the algorithm UPND, the algorithm also developed by the Reduce-UPND. Not only that, stages of data preprocessing needs to be done to improve the performance of this application. Especially to see how big class influence the outcome word guessing areas of work, then the cluster results are classified into two groups; noun and verb (reference: KBBI). Not only data about the individual that is processed, but also need to be defined job. After that, guessing professions. Guessing that based on the non-social media information. Experiments were performed in this study is cross-validation (5-fold) and hold training-test (3 combination, such as 80%:20%, 70%:30%, and 60%:40% between training and testing). Accuracy of guessing the field work and origin of the faculty reached 90.91% (on a composition of 80%:20%). Not quite satisfied with the high accuracy of prediction of the field work and the origin of the faculty, this application also compares the results of social media cluster. Social media chosen is LinkedIn, considering that LinkedIn is a social media and information for professionals in the LinkedIn filled solely by the individual concerned. These applications in turn combines the prediction field of work and the origin of alumni and faculty of extracting information from social media LinkedIn clusters, namely: highlight job, educational information, and information about past jobs.

(3)

DAFTAR ISI

LEMBAR PENGESAHAN ... i

PRAKATA ... ii

PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH ... iv

PERNYATAAN PERSETUJUAN ORISINALITAS KARYA ... v

ABSTRAK ... vi

ABSTRACT ... vii

DAFTAR ISI ... viii

DAFTAR GAMBAR ... xiii

DAFTAR TABEL ... xv

DAFTAR SIMBOL ... xvi

BAB I PENDAHULUAN ... 1

1.1. Latar Belakang ... 1

1.2.Rumusan Masalah ... 5

1.3.Tujuan ... 6

1.4.Ruang Lingkup ... 6

1.5.Sistematika Penulisan ... 7

BAB II LANDASAN TEORI ... 9

2.1.Web Search Engine ... 9

2.1.1. Crawling dan Indexing ... 9

2.1.2. Mesin Pencari sebagai Pemberi Jawaban ... 10

2.2.Relevansi Tautan ... 11

2.3.Media Sosial ... 11

2.4.Ekspansi Kueri ... 13

(4)

2.6.Algoritma Unsupervised Person Name Disambiguator (UPND)... 16

BAB III ANALISIS DAN DESAIN ... 19

3.1.Analisis ... 19

3.1.1. Pengumpulan Data ... 25

3.1.2. Pengambilan Data dari Mesin Temu Balik ... 25

3.1.3. Supervisi Kueri ... 27

3.1.4. Data Preprocessing ... 27

3.1.5. Pembobotan Term ... 29

3.1.6. Unsupervised Person Name Disambiguator ... 30

3.1.7. Reduksi Halaman Temu Balik ... 31

3.1.8. Pembentukan Model Naïve Bayes ... 33

3.1.9. Pembentukan Model Naïve Bayes dan Klasifikasi Berdasarkan Kelas Kata ... 38

3.1.10.Kata-Kata Profesi dalam Hasil Kluster UPND ... 39

3.1.11.Peta Penelitian ... 39

3.2.Gambaran Keseluruhan... 46

3.2.1. Persyaratan Antarmuka Eksternal ... 46

3.2.2. Antarmuka Perangkat Keras ... 46

3.2.3. Antarmuka Perangkat Lunak... 47

3.2.4. Fitur-Fitur Perangkat Lunak ... 47

3.3.Desain Perangkat Lunak ... 60

3.3.1. Pemodelan Perangkat Lunak ... 60

3.3.2. Desain Penyimpanan Data ... 65

3.3.3. Rancangan Antarmuka ... 65

BAB IV PENGEMBANGAN PERANGKAT LUNAK ... 68

(5)

4.2.Implementasi Class ... 68

4.2.1. Implementasi Class ClassProbability ... 68

4.2.2. Implementasi Class Cluster ... 68

4.2.3. Implementasi Class CompleteClustering ... 69

4.2.4. Implementasi Class DetailPredictingTuple ... 69

4.2.5. Implementasi Class IndonesianStemmer ... 70

4.2.6. Implementasi Class JobPredictingTuple ... 71

4.2.7. Implementasi Class JobPredictionHoldTrainTest ... 72

4.2.8. Implementasi Class KebiReader ... 72

4.2.9. Implementasi Class ModelTuple ... 73

4.2.10.Implementasi Class NameEmbedder ... 73

4.2.11.Implementasi Class NBTuple ... 73

4.2.12.Implementasi Class NGramResult ... 74

4.2.13.Implementasi Class SearchResultTuple ... 74

4.2.14.Implementasi Class TermTuple ... 75

4.2.15.Implementasi Class TrainingTuple ... 75

4.2.16. Implementasi Class Alumni ... 76

4.2.17. Implementasi Class AlumniDAO ... 76

4.2.18. Implementasi Interface IAlumni ... 77

4.2.19.Implementasi Interface ILinkedInEntity ... 77

4.2.20.Implementasi Class InfoEntity ... 77

4.2.21.Implementasi Interface IPrediksi ... 78

4.2.22.Implementasi Class LinkedInEntity ... 78

4.2.23. Implementasi Class LinkedInEntityDAO... 79

4.2.24. Implementasi Class Prediksi ... 80

(6)

4.2.26. Implementasi Class Utility ... 81

4.3.Implementasi Simpanan Data ... 81

4.3.1.Implementasi Tabel Alumni ... 81

4.3.2.Implementasi Tabel Prediksi ... 82

4.3.3. Implementasi Tabel LinkedIn ... 82

4.4.Implementasi Antar Muka ... 83

4.4.1.Implementasi Antar Muka Form Job Predicting ... 83

4.4.2. Implementasi Antar Muka Web Halaman Utama ... 83

4.4.3. Implementasi Antar Muka Web Informasi Alumni ... 84

4.4.4. Implementasi Antar Muka Web Informasi Alumni Retrieved dari LinkedIn ... 85

4.4.5.Implementasi Antar Muka Web Rekomendasi Alumni ... 85

BAB V TESTING DAN EVALUASI SISTEM ... 86

5.1.Korelasi Jumlah Halaman Temu Balik dan Kluster ... 86

5.2.Pengaruh Kluster terhadap Basis Data Alumni ... 88

5.3.Identifikasi Halaman Media Sosial ... 89

5.4.Reduksi Halaman Temu Balik ... 90

5.5.Pembentukan Model Naïve Bayes ... 92

5.6.First Step Job Prediction ... 94

5.7.Eksperimen Cross-Validation ... 94

5.8.Eksperimen Hold Training-Test ... 96

5.9.Pengaruh Teknik Penebakan dan Asal Fakultas ... 101

5.10.Pengujian Penebakan Bidang Kerja dan Asal Fakultas ... 102

BAB VI SIMPULAN DAN SARAN ... 104

6.1.Simpulan ... 104

(7)

LAMPIRAN A HASIL SCRAPING ... xviii

LAMPIRAN B HASIL CRAWLING ... xix

LAMPIRAN C HASIL CLUSTERING ... xix

LAMPIRAN D HASIL CO-OCCURRENCE ... xx

DAFTAR PUSTAKA ... xxiv

(8)

DAFTAR GAMBAR

Gambar 2.1 Algoritma UPND (Delgado et al., 2014). ... 18

Gambar 3.1 Algoritma Calculate The Most Suitable Cluster ... 22

Gambar 3.2 Algoritma Calculate The Co-Occurrence ... 22

Gambar 3.3 Visualisasi Hasil Analisis Penelitian ... 23

Gambar 3.4 Visualisasi Hasil Analisis Penelitian (cont’d) ... 24

Gambar 3.5 Contoh Data... 27

Gambar 3.6 Contoh Data Setelah Konversi Tahap I ... 28

Gambar 3.7 Contoh Data Setelah Konversi Tahap II ... 28

Gambar 3.8 Contoh Data Setelah Konversi Tahap III ... 29

Gambar 3.9 Algoritma Red-UPND ... 32

Gambar 3.10 Contoh Reduksi Algoritma Red-UPND ... 33

Gambar 3.11 Flowchart Peta Penelitian ... 44

Gambar 3.12 Flowchart Peta Penelitian (cont’d) ... 45

Gambar 3.13 Use Case Diagram Prediksi Bidang Kerja dan Asal Fakultas untuk Alumni ... 62

Gambar 3.14 Class Diagram Prediksi Bidang Kerja dan Asal Fakultas untuk Alumni ... 63

Gambar 3.15 Sequence Diagram Keseluruhan Sistem Prediksi Bidang Kerja dan Asal Fakultas untuk Alumni ... 64

Gambar 3.16 Desain Penyimpanan Data Prediksi Bidang Kerja dan Asal Fakultas untuk Alumni ... 65

Gambar 3.17 Rancangan Form Utama... 66

Gambar 3.18 Rancangan Web Halaman Utama ... 66

Gambar 3.19 Rancangan Web Informasi Alumni ... 67

Gambar 4.1 Class ClassProbability ... 68

Gambar 4.2 Class Cluster ... 69

Gambar 4.3 Class CompleteClustering ... 69

Gambar 4.4 Class DetailPredictingTuple ... 70

Gambar 4.5 Class IndonesianStemmer ... 71

Gambar 4.6 Class JobPredictingTuple ... 72

(9)

Gambar 4.8 Class KebiReader ... 72

Gambar 4.9 Class ModelTuple ... 73

Gambar 4.10 Class NameEmbedder ... 73

Gambar 4.11 Class NBTuple ... 74

Gambar 4.12 Class NGramResult ... 74

Gambar 4.13 Class SearchResultTuple ... 75

Gambar 4.14 Class TermTuple ... 75

Gambar 4.15 Class TrainingTuple ... 76

Gambar 4.16 Class Alumni ... 76

Gambar 4.17 Class AlumniDAO ... 77

Gambar 4.18 Interface IAlumni ... 77

Gambar 4.19 Interface ILinkedInEntity ... 77

Gambar 4.20 Class InfoEntity ... 78

Gambar 4.21 Interface IPrediksi ... 78

Gambar 4.22 Class LinkedInEntity ... 79

Gambar 4.23 Class LinkedInEntityDAO ... 80

Gambar 4.24 Class Prediksi ... 80

Gambar 4.25 Class PrediksiDAO ... 81

Gambar 4.26 Class Utility ... 81

Gambar 4.27 Implementasi Penyimpanan Data ... 81

Gambar 4.28 Antar Muka Form Job Predicting ... 83

Gambar 4.29 Antar Muka Web Halaman Utama ... 84

Gambar 4.30 Antar Muka Web Informasi Alumni... 84

Gambar 4.31 Antar Muka Web Informasi Alumni Retrieved dari LinkedIn ... 85

Gambar 4.32 Antar Muka Web Rekomendasi Alumni ... 85

Gambar 5.1 Korelasi Pearson untuk Jumlah Rata-Rata dan Kluster ... 87

Gambar 5.2 Komposisi 5-Fold Cross-Validation ... 95

Gambar 5.3 Performansi Eksperimen Cross-Validation ... 96

Gambar 5.4 Komposisi Keseluruhan Data Koleksi ... 97

Gambar 5.5 Komposisi Eksperimen Hold Training-Test (80%:20%) ... 98

Gambar 5.6 Komposisi Eksperimen Hold Training-Test (70%:30%) ... 99

(10)

DAFTAR TABEL

Tabel 3.1 Contoh Data Alumni ... 26

Tabel 3.2 Kueri yang Diujicobakan ... 26

Tabel 3.3 Metode I Pengelompokan Profesi berdasarkan Fakultas-Fakultas UKM ... 34

Tabel 3.4 Tabel Top-15 Sekolah Tinggi Indonesia ... 35

Tabel 3.5 Metode II Penentuan Jenis Profesi Umum (Utama) dari Top-15 Sekolah Tinggi ... 35

Tabel 3.6 Metode III Penentuan Jenis Profesi Umum dari Top-15 Sekolah Tinggi dan Pengetahuan Penulis ... 36

Tabel 3.7 Kelas Profesi Bidang Kerja ... 37

Tabel 4.1 Tabel Alumni ... 82

Tabel 4.2 Tabel Prediksi ... 82

Tabel 4.3 Tabel LinkedIn ... 82

Tabel 5.1 Korelasi Jumlah Halaman dan Kluster untuk Setiap Supervisi Kueri .. 86

Tabel 5.2 Pengaruh Kluster UPND terhadap Basis Data Alumni ... 88

Tabel 5.3 Sebaran Sosial Media Pada Tautan di Dalam Kluster ... 89

Tabel 5.4 Perbandingan Lama Waktu Eksekusi UPND dan Red-UPND ... 90

Tabel 5.5 Selisih Akurasi Red-UPND dan UPND ... 91

Tabel 5.6 Performansi Eksperimen Cross-Validation ... 95

Tabel 5.7 Akurasi Eksperimen Hold Training-Test ... 97

Tabel 5.8 Tabel Perbandingan Komposisi Data Testing 30% dan 40% ... 100

Tabel 5.9 Selisih Data Testing dan Data Training dari Hold Train-Test 60%:40% ... 101

Tabel 5.10 Pengaruh Metode Penebakan dan Asal Fakultas ... 101

(11)

DAFTAR SIMBOL

1. Flowchart

No. Gambar Nama Gambar Deskripsi

1. Start/End state Menandai dimulai dan

diakhirinya sebuah flowchart

2. Kegiatan manual Menunjukkan pekerjaan yang dilakukan dengan manual

3. Dokumen Menunjukkan dokumen

4. Decision Menyatakan kondisi dalam

sebuah flowchart

5. Simpanan offline

File non komputer yang diarsip

baik terurut angka (numerical),

huruf (alphabetical), dan

tanggal (cronological)

6. Proses Menunjukkan kegiatan proses

dari operasi program komputer

2. Usecase

No. Gambar Nama Gambar Deskripsi

1. System Boundary

Untuk menggambarkan

jangkauan sistem dan

memberikan alternatif

(12)

No. Gambar Nama Gambar Deskripsi

No. Gambar Nama Gambar Deskripsi

1. Entity Menyatakan sebuah obyek dalam

sebuah ERD

2. Attribute Menyatakan elemen yang dimiliki

obyek dalam sebuah ERD

3. Relationship

connector

Penghubung antar obyek, atribut,

dan relasi dalam sebuah ERD

4. Relationship Menyatakan hubungan antar obyek

(13)

BAB 1

BAB I

PENDAHULUAN

1.1.Latar Belakang

Seiring bertambahnya umur seseorang, maka jumlah relasi orang tersebut akan semakin meningkat. Pada umumnya, keterbatasan ingatan manusia dapat menyebabkan hilangnya sebagian informasi relasi. Hal ini tentu sangat menyulitkan apabila ingin mengetahui semua informasi relasi. Karena itu, beberapa upaya diusahakan manusia untuk melengkapi informasi relasinya. Upaya-upaya tersebut adalah mencatat informasi relasi ke dalam bentuk hardcopy maupun softcopy. Pencatatan informasi relasi yang diupayakan manusia dapat berupa pencatatan informasi seangkatan di buku tahunan SMA X tahun akademik 2012 atau database mahasiswa IT 2015. Namun masalah lain ditemukan yakni informasi individu yang telah diarsip belum tentu relevan sesuai dengan perkembangan zaman. Hal ini bisa saja terjadi karena pindahan tempat tinggal, ganti nomor handphone, atau perubahan lainnya. Akibatnya informasi yang telah disimpan menjadi tidak valid. Akhirnya buku tahunan dan database tidak relevan dengan informasi individu saat ini. Dengan begitu, manusia tidak akan dapat menemukan informasi relasi yang relevan.

Maka manusia berusaha mencari informasi individu dengan mengontak almamater atau kerabat untuk mendapatkan informasi yang valid. Adapun informasi yang didapatkan dari almamater dan kerabat belum tentu valid karena perubahan informasi bisa jadi terjadi kapan saja.

Masalah ini akan semakin serius ketika diadakan acara reuni alumni suatu kelompok. Informasi relasi alumni suatu kelompok tertentu sulit ditemukan. Hal ini disebabkan oleh rentang reuni dengan tahun lulus tergolong cukup lama, yakni + 10 tahun. Akhirnya tidak semua alumni dapat mengikuti reuni karena pesan yang gagal tersampaikan.

(14)

2

membuat banyak web page di dunia maya. Keanekaragaman web page yang tersebar di internet membuat pencarian menjadi lebih sulit. Salah satu penyebabnya adalah pesatnya perkembangan dunia, hingga saat ini populasi dunia mencapi 7.3 miliar jiwa1.

Permasalahan yang lain yang dapat muncul ialah mesin temu balik informasi tidak memberikan solusi optimal. Misalnya kita ingin mengetahui nomor kontak pribadi dari Evelyn tapi hasil pencarian dari mesin temu balik adalah alamat kuburan dari Evelyn Larissa. Hal inilah yang membuat pencarian dengan mesin temu balik bukan merupakan solusi optimal. Hasil pencarian mesin temu balik akan menjadi optimal jika subjek yang dicari adalah seorang yang terkenal di dunia maya atau public figure. Jika subjek adalah orang yang cukup populer di internet, maka top-10 ranking search result akan mengarah pada informasi individu yang valid. Hal ini tidak menutup kemungkinan bahwa akan terdapat hasil pencarian yang tidak diharapkan (tidak mengandung kontak pribadi subjek) masuk dalam top-10. Kemungkinan hasil pencarian akan lebih meleset untuk subjek yang kurang atau tidak terkenal (unknown person). Misalnya saat mencari kontak Ibu Atun, pembantu Agnes Monica. Hasil pencarian mesin temu balik untuk Ibu Atun yang dihasilkan adalah informasi tentang Agnes Monica, bukan informasi Ibu Atun. Hal ini dikarenakan entitas subjek terkait dengan

popular person dan mesin temu balik akan cenderung menampilkan informasi

individu yang lebih terkenal. Tentunya akan sulit menemukan informasi individu menggunakan mesin temu balik terutama dalam kasus pencarian unknown person. Adapun permasalahan sulitnya ditemukan informasi unknown person bila nama tersebut di-share oleh selebriti atau figur historis, karena hasil pencarian mesin temu balik akan didominasi oleh individu tersebut, hal ini membuat pencarian informasi individu menjadi sulit (Delgado, 2014).

Berdasarkan fakta di lapangan, muncul pula permasalahan ambiguitas nama. Pencarian informasi individu akan semakin sulit mengingat banyaknya populasi manusia di dunia dan sulit menghasilkan hasil pencarian yang relevan, yakni mengarah kepada subjek yang benar-benar diinginkan. Perkembangan dunia yang teramat pesat dan akan bertambah pesat terus-menerus. Perkiraan populasi

(15)

3

dunia pada tahun 2100 adalah 11.2 miliar jiwa2. Bertambah maraknya penggunaan media sosial, seperti: Facebook, Twitter, Google+, LinkedIn, mengakibatkan mesin temu balik memberikan hasil pencarian dari beberapa profile yang dimiliki oleh individu berbeda namun memiliki kesamaan nama, dan berpotensi untuk dimanfaatkan dalam proses penyaringan nama yang lebih relevan.

Menindaklanjuti persoalan-persoalan yang ditemukan dan potensi yang disediakan oleh berbagai media sosial, maka diusulkanlah sebuah perangkat lunak untuk mempermudah pencarian individu. Perangkat lunak ini akan mengkombinasikan hasil dari mesin temu balik, analisis data, filtering, dan penentuan probabilitas tingkat kepuasan pengguna terhadap berbagai metode ekspansi kueri. Selain itu, diterapkan algoritma klusterisasi Unsupervised Person

Name Disambiguator (UPND) guna membentuk kluster-kluster orang yang

berbeda dari satu nama yang ingin dicari.

Penelitian ini juga dibuat dengan latar belakang bahwa database alumni Universitas Kristen Maranatha yang kurang lengkap. Akibatnya, banyak data alumni yang belum diketahui pekerjaannya, nomor telepon valid, masa tunggu sebelum bekerja setelah lulus, dan lain-lain. Karena ketidaklengkapan database alumni ini, maka akan sulit terjalin hubungan timbal balik antar universitas dengan alumni.

Permasalahan yang lain yang dapat muncul ialah database alumni mungkin lengkap, tapi informasinya tidak valid. Akibatnya ketika disebar survei, tidak akan didapatkan hasilnya. Hasil survei bagi suatu institusi adalah hal yang sangat penting. Survei tersebut dianalisis kemudian dapat dilakukan evaluasi terhadap suatu universitas atau program studi. Berdasarkan hasil dari tracer study antara tahun 2009-2013, respons balik yang didapatkan oleh UKM berada pada kisaran 4% dari total mahasiswa yang dikirimkan survei (diuraikan dalam Pertemuan PPE 29 Januari 2015). Salah satu permasalahan utama yang teramati adalah banyaknya surel yang bounching (tidak terkirim karena sudah tidak aktif) dan kalaupun survei diterima ada semacam keenganan untuk mengirimkan kembali kepada UKM. Padahal kegiatan tracer study merupakan salah satu butir penting yang dinilai dalam proses akreditasi institusi ataupun program studi.

(16)

4

Terlebih informasi mengenai pekerjaan merupakan informasi yang bersifat pribadi. Beberapa orang tidak ingin memberitahukan kepada UKM mengenai riwayat pekerjaannya. Oleh karena itu, perlu dipikirkan cara bagaimana mendapatkan informasi alumni, terutama pekerjaan dan kapan bekerja tanpa menunggu hasil survei dari alumni.

Sepengetahuan peneliti, jurnal-jurnal yang membahas mengenai pelacakan data orang dan penanganan disambiguasi nama, yaitu sebagai berikut.

1) Jurnal “A Data Driven Approach for Person Name Disambiguation in Web Search Results” yang ditulis Delgado, Martinez, Fresno, dan Montalvo membahas tentang disambiguasi nama di hasil pencarian.

2) Jurnal “Result Disambiguation in Web People Search” yang ditulis oleh

Berendsen, Kovachec, Nastou, Rijke, dan Weerkamp membahas tentang hasil disambiguasi nama.

3) Jurnal “On The Modeling of Entities for Ad-Hoc Entity Search in The Web of Data” yang ditulis Neumayer, Balog, dan Nørvåg membahas tentang model entitas hasil pencarian.

4) Jurnal “A Review of The Technologies and Methods in Profiling and Profile Classification” yang ditulis Pampapathi, Mirkin, dan Levene membahas tentang metode klasifikasi profil seseorang.

Diharapkan penelitian dan pembahasan “Prediksi Bidang Kerja dan Asal Fakultas untuk Alumni Melalui Klusterisasi dan Klasifikasi Kemunculan Kata” dapat menghasilkan konsep, model, alur proses, prinsip, atau skema yang dapat diaplikasikan oleh pengguna penelitian. Ditinjau dari segi praktikal diharapkan penelitian ini dapat membantu dalam proses tracer study agar dapat respons timbal balik dari pihak universitas maupun alumni. Dalam konteks penelitian ini,

user yang dapat memanfaatkannya adalah semua orang yang ingin mencari data

alumni maupun pihak perusahaan yang sedang mencari pegawai. Ditinjau dari segi teoretis, diharapkan hasil penelitian ini memiliki bobot dan relevansi untuk digunakan sebagai acuan, literatur, atau referensi oleh kalangan akademis, khususnya pemerhati dan pembelajar ilmu teknik informatika.

(17)

5

untuk Alumni Melalui Klusterisasi dan Klasifikasi Kemunculan Kata” yang dilakukan peneliti memiliki kekhasan, kemuktahiran, dan perspektif yang berbeda dengan penelitian sejenis sebelumnya, yaitu penelitian ini mencoba menebak jenis bidang kerja, dan melacak informasi-informasi dari orang tersebut, sperti nomor telepon, email, instansi pekerjaan, domisili, dan lain-lain. Tidak hanya menebak informasi individu, namun peneitian ini juga menyandingkan informasi individu yang didapat dalam media sosial. Ditinjau dari data yang digunakan sumber-sumber di atas, peneliti mempergunakan data yang khas, yaitu data-data alumni Universitas Kristen Maranatha.

Jika permasalahan cacatnya basis data alumni tidak dicarikan solusinya dan dibiarkan berlarut-larut, apakah kita rela menyaksikan kegiatan tracer study tidak berjalan dengan baik? Bagaimana tanggung jawab moral kita sebagai kalangan akademis yang memiliki kompetensi di bidang teknologi informasi jika permasalahan survei yang sedikit direspons tidak kunjung terselesaikan? Apa yang akan kita lakukan jika akreditasi universitas maupun program studi menurun hanya karena cacatnya basis data alumni? Dengan demikian, penelitian dan pembahasan “Prediksi Bidang Kerja dan Asal Fakultas untuk Alumni Melalui Klusterisasi dan Klasifikasi Kemunculan Kata” menjadi penting dan mutlak dilakukan.

1.2.Rumusan Masalah

Berdasarkan latar belakang yang telah diuraikan diatas, diketahui bahwa pencarian informasi individu memerlukan pendekatan yang lebih dalam dari sekedar merangkumkan hasil dari mesin temu balik. Selain itu Oleh karena itu, akan dibatasi dan dirumuskan pokok-pokok persoalan yang akan dibahas, dianalisis, diuji, dan dijawab dalam penelitian, yaitu sebagai berikut.

1. Bagaimana menentukan relevansi sebuah tautan terkait dengan nama individu?

2. Bagaimana mengatasi ambiguitas nama dari individu yang berbeda?

(18)

6

4. Bagaimana menyertakan informasi individu yang terambil dari media sosial yang valid pada sebuah aplikasi web?

1.3.Tujuan

Sesuai dengan pokok-pokok permasalahan yang telah dibatasi dan telah dirumuskan dalam rumusan masalah di atas, berikut ini akan dijabarkan garis-garis besar hasil pokok yang ingin diperoleh setelah permasalahan dibahas dan diuji yang dapat terkategori sebagai luaran penelitian yaitu sebagai berikut:

1. Pengembangan perangkat lunak dapat mengidentifikasikan suatu tautan yang dianggap relevan dengan suatu nama individu;

2. Pengembangan perangkat lunak yang mampu mengatasi ambiguitas nama dari individu yang berbeda dengan memanfaatkan teknik ekspansi kueri melalui kata-kata yang sudah terdefinisi, seperti: email, nomor telepon atau dengan menggunakan kemunculan kata-kata yang dominan dalam kandidat tautan yang berkualitas baik.

3. Pengembangan perangkat lunak yang dapat menebak bidang kerja dan asal fakultas individu dengan mengidentifikasikan metode terbaik yang memanfaatkan klasifikasi, pembentukan model, maupun kemunculan kata-kata yang dianggap relevan dengan bidang kerja tertentu.

4. Pengembangan perangkat lunak yang dapat menyertakan informasi individu yang terambil dari kluster media sosial link yang valid dan menampilkannya pada sebuah aplikasi web.

1.4. Ruang Lingkup

Menimbang bahwa permasalahan ini cukup kompleks dan tergolong ilmu baru, maka terdapat ruang lingkup pengembangan, antara lain sebagai berikut: 1. Perangkat lunak tidak menghasilkan hasil pencarian yang bersumber pada situs

media sosial. Hal ini dikarenakan untuk mengambil informasi ini mengharuskan login ke media sosial tersebut.

(19)

7

3. Dalam laporan ini memuat hasil data extraction dari search engine Google, yang diakses mulai bulan Juli-Oktober 2015.

1.5. Sistematika Penulisan

Dalam tulisan akademik ini dimuat bab demi bab, subab demi subab, dan pasal demi pasal yang memiliki keterkaitan, keterpaduan (kohesi), dan kesinambungan (koherensi).

BAB I PENDAHULUAN

Bab ini menjelaskan latar belakang, rumusan masalah, tujuan, batasan masalah, dan sistematika pembahasan. Dalam bab ini pembaca dapat mengetahui gambaran kasar mengenai isi laporan ini.

BAB II LANDASAN TEORI

Bab ini berisi seluruh teori yang dipakai dan relevan dengan pengembangan aplikasi yang dibahas dalam laporan ini.

BAB III ANALISIS DAN DESAIN

Dalam bab III dijabarkan secara terperinci dan mendetail tentang cara kerja dan alat kerja penelitian serta deskripsi data baik secara kualitas, kuantitas, dan dasar atau prinsip pemilihan data yang digunakan. Bab ini terdiri atas Analisis, Gambaran Keseluruhan dan Perancangan Desain Perangkat Lunak. Bab ini memuat diagram alir sistem dari aplikasi, meliputi Flowchart, Use Case, Class

Diagram, Sequence Diagram, Rancangan User Interface, dan penjelasan aplikasi.

BAB IV PENGEMBANGAN PERANGKAT LUNAK

Dalam bab ini menjelaskan secara lengkap implementasi seluruh hasil rancangan di Bab III, mulai dari implementasi class, simpanan data sampai dengan antar muka.

(20)

8

Bab ini berisi testcase dan pelaksanaan pengujian akurasi penebakan bidang kerja dan asal fakultas.

BAB VI KESIMPULAN DAN SARAN

(21)

BAB 6

BAB VI

SIMPULAN DAN SARAN

6.1. Simpulan

Dari pembahasan, penelitian, dan berbagai eksperimen yang telah dilakukan, dapat ditarik beberapa hasil pokok yang diperoleh, yaitu:

1) Indentifikasi suatu tautan yang dianggap relevan dengan individu adalah supervisi kueri, yakni melibatkan nama jurusan dan nama universitas. Adapun nama universitas dan nama lengkap harus berupa frasa, yakni

memakai tanda petik (“). Untuk nama jurusan tidak berupa frasa karena

nama jurusan akan lebih mengarah ke berbagai hal, tidak hanya mewakili jurusan namun bidang kerja (lihat Tabel 3.2).

2) Pengembangan perangkat lunak yang mampun mengatasi ambiguitas nama dengan penerapan algoritma UPND (lihat pembahasan pada pasal 3.1.6)

3) Perbaikan proses pembentukan kluster UPND dengan melakukan reduksi jumlah halaman hasil temu balik mesin pencarian Google melalui penerapan algoritma Red-UPND. Penerapan algoritma tersebut berhasil menekan sekitar 67% kompleksitas UPND dengan akurasi kluster yang tidak berbeda secara signifikan (lihat Tabel 5.4).

4) Telah dikembangkan pengelompokan bidang kerja dari 134 jenis pekerjaan menjadi 14 bidang kerja umum (lihat Tabel 3.7).

5) Berbagai teknik penebakan bidang kerja dan asal fakultas yang dilakukan yakni first step job predicting dan pembentukan model (semua kata, kata benda, kata kerja, dan agregasi). Mekanisme agregasi yang dimaksud adalah pendekatan hirarkis melalui voting dan nilai probabilitas terbesar. 6) Penebakan setiap alumni dipengaruhi oleh asal fakultas dan data koleksi.

Semakin banyak koleksi, maka akan semakin akurat penebakannya (telah diungkapkan dalam pasal 5.8). Namun terdapat pengecualian bila terjadi ketimpangan data training (lihat pembahasan pada pasal 5.8)

(22)

105

Eksperimen hold training-test dengan komposisi Train-Test : 80-20 terbukti lebih besar tingkat akurasi dibandingkan eksperimen hold

training-test lainnya dan eksperimen cross-validation. Oleh karena itu,

seluruh koleksi dapat dijadikan model untuk penebakan selanjutnya. 8) Tidak hanya dapat memprediksi bidang kerja dan asal fakultas dari kluster

non-sosial media, tapi perangkat lunak ini mampu menyandingkan pemanfaatan kluster sosial media (dalam hal ini LinkedIn, karena hasil paling banyak dari kluster sosial media alumni adalah LinkedIn lihat Tabel 5.3) untuk mendapatkan informasi alumni (telah diimplementasikan dalam pasal 3.2.4.14 dan pasal 4.4.4).

9) Guna menjawab kebutuhan umum suatu tracer study, yaitu untuk mencari informasi tentang pekerjaan seorang alumni, dan kapan seorang alumni mendapat pekerjaan pertamanya, maka melalui aplikasi yang telah dikembangkan ini, diusulkan pendekatan sebagai berikut:

a. Melakukan penjaringan informasi, berupa halaman-halaman hasil temu balik dari Internet, kemudian dengan memanfaatkan kemunculan kata-kata dalam halaman-halaman tersebut (butir kesimpulan 1,2 dan 3), dapat dilakukan prediksi bidang kerja (butir kesimpulan 4, 6, dan 7). b. Menyandingkan hasil prediksi bidang kerja dengan melakukan temu

balik secara deep web, pada halaman media sosial, seperti LinkedIn yang di dalamnya tersimpan informasi mengenai: pekerjaan sekarang, informasi pendidikan, dan informasi pekerjaan yang pernah dilakukan (butir kesimpulan 8).

10)Dari hasil implementasi perangkat lunak terdapat beberapa tantangan yang perlu untuk diantisipasi melalui pemanfaatan media sosial, khususnya untuk tracer study, yaitu:

(23)

106

b. Kelengkapan informasi yang tersedia atau diberikan oleh alumni dalam halaman media sosial seringkali terbatas, terutama untuk data-data pribadi yang penting seperti email dan nomor telepon.

6.2. Saran

Langkah-langkah yang dapat ditempuh pengguna penelitian sebagai konsekuensi atau implikasi dari simpulan adalah sebagai berikut:

1) Pengembangan muktahir dalam hal reduksi kompleksitas eksekusi algoritma UPND. Pengembangan yang dimaksud yakni reduksi yang lebih efisien dibanding yang sudah dilakukan (lihat Tabel 5.4) atau dengan kata lain reduksi yang lebih tinggi dari 67%.

2) Pengembangan dalam penambahan koleksi data. Hal ini disebabkan oleh semakin banyak volum data (lihat pembahasan dalam pasal 5.8), maka diharapkan akan semakin akurat penebakan bidang kerja dan asal fakultas. 3) Perlu membentuk mesin scraper secara lebih generik untuk dapat

mengantisipasi perubahan struktur halaman web ataupun jika API dari media sosial mengalami perubahan.

4) Dikarenakan ekstraksi informasi secara scraping dari halaman web ataupun media sosial tidak selalu menjamin terpenuhinya informasi yang diperlukan, maka metoda yang ditawarkan melalui penelitian ini perlu dilengkapi dengan pendekatan personal sebagaimana tracer study pada umumnya.

5) Melakukan evaluasi yang mendalam terhadap perbedaan hasil prediksi pekerjaan melalui model, dibandingkan dengan realita yang diambil secara otomatis melalui halaman media sosial, seperti LinkedIn.

6) Melengkapi portal web dengan fungsionalitas yang bermanfaat bagi alumni untuk mempromosikan diri, seperti misalnya: halaman untuk memberikan resume (CV) diri, dan fasilitas untuk memasukkan iklan lowongan pekerjaan bagi pihak perusahaan.

(24)

DAFTAR PUSTAKA

Adams, A. A., & McCrindle, R. (2008). Pandora's box: social and professional issues of the information age. John Wiley & Sons.

Aiello, L. M., Barrat, A., Schifanella, R., Cattuto, C., Markines, B., & Menczer, F. (2012). Friendship prediction and homophily in social media. ACM

Transactions on the Web (TWEB), 6(2), 9.

Berendsen, R. K. (2012). Result disambiguation in web people search. Advances

in Information Retrieval, (pp. 146-157). Springer Berlin Heidelberg.

Berry, M. W. (2004). Survey of text mining. Computing Reviews, (p. 548).

Bron, M., Balog, K., & De Rijke, M. (2013). Example based entity search in the

web of data. Advances in Information Retrieval (pp. 392-403). Springer

Berlim Heidelberg.

Case, T. G. (2013). A linkedin analysis of career paths of information systems alumni. Journal of the Southern Association for Information Systems, 1. Delgado, A. D. (2014). A Data Driven Approach for Person Name

Disambiguation in Web Search. 301-310.

Diva, L. M. (2012). Ekspansi Kueri pada Sistem Temu Kembali Informasi

Berbahasa Indonesia. Bandung: Institut Pertanian Bogor.

Fishkin, H. (2015, March 20). Moz.com. Dipetik March 21, 2015, dari How Search Engine Operate: http://www.moz.com

Frei, H. S. (1991). Determining the Effectiveness of Retrieval Algorithms.

Information Processing & Management , 153-164.

Harman, D. (1992). Relevance Feedback. SIGIR'92, 15th Int. ACM/SIGIR Conf.

on R&D in Information Retrieval , 1-10.

Karnalim, O. & Mandala, R. (2014, November). Java Archives Search Engine using Byte Code as Information Source. International Conference of Data

and Software Engineering (ICODSE). Bandung: Bandung Institute of

Technology.

Kobayashi, M., & Takeda, K. (2000). Information retrieval on the web. ACM

Computing Surveys (CSUR), (pp. 144-173).

(25)

xxv

Neumayer, R., Balog, K., & Nørvåg, K. (2012). On the modeling of entities for ad-hoc entity search in the web of data. Advances in Information Retrieval (pp. 133-145). Springer Heidelberg.

Pampapathi, R., Mirkin, B., & Levene, M. (2005). A review of the technologies and methods in profiling and profile classification. EPALS Technical

Report.

Pampapathi, R., Mirkin, B., & Levene, M. (2006). A suffix tree approach to anti-spam email filtering. Machine Learning, 309-338.

Papadopoulos, S. K. (2012). Community detection in social media. Data Mining

and Knowledge Discovery, 515-554.

Qiu, Y. (1999). Concept Based Query Expansion. Zurich: Department of Computer Science, Swiss Federal Institute of Technology.

Schrenk, M. (2012). Webbots, spiders, and screen scrapers: a guide to developing

Internet agents with PHP/CURL. No Starch Press.

Sentor Managed Security Services . (2014, April 04). Dipetik February 19, 2015,

dari ScrapeSentry Scraping Threat Report 2014.

Tang, L., & Liu, H. (2010). Community detection and mining in social media.

Synthesis Lectures on Data Mining and Knowledge Discovery, 1-137.

Toba, H. M. (2014). Discovering high quality answers in community question answering archives using a hierarchy of classifiers. Information Sciences, (pp. 101-115).

Xu, J. a. (2008). Amherst, MA 01003-4610, USAQuery Expansion Using Local

and Global. Amherst: University of Massachusetts.

Zhang, S., Wu, J., Zheng, D., Meng, Y., & Yu, H. (2012, November). An adaptive method for organization name disambiguation with feature reinforcing.

Proceedings of the 26th Pacific Asia Conference on Language, Information, and Computation, (pp. 237-245).

Zhao, W. X., Jiang, J., Weng, J., He, J., Lim, E. P., Yan, H., & Li, X. (2011). Comparing twitter and traditional media using topic models. Advances in

Gambar

Gambar Nama Gambar
Gambar Nama Gambar
gambaran kasar mengenai isi laporan ini.

Referensi

Dokumen terkait

Uji ANOVA digunakan untuk menguji apakah terdapat signifikansi antara faktor-faktor demografis pengguna BRT (domisili, pekerjaan, dan umur) dan faktor pengalaman pengguna BRT

Rumah Sakit Immanuel mempunyai 2 (dua) saranan pelayanan yaitu rawat jalan dan rawat inap. Salah satu unit pelayanan kesehatan di Rumah Sakit Immanuel adalah ruang

Dengan ini menyatakan bahwa proposal penelitian pemula saya dengan judul: Evaluasi Ketersediaan Koleksi Dengan Analisis Sitiran Terhadap Skripsi Mahasiswa FSRD ISI

Perekonomian Kalimantan Timur sangat didominasi oleh sektor-sektor berbasis sumber daya alam. Oleh karena itu, Provinsi Kalimantan Timur mengalami pertumbuhan yang pesat dan

Keunggulan mesin ini ialah mampu menghasilkan waktu pemerasan yang cepat dan efisiensi yang tinggi dibandingkan pemerasan yang dilakukan dengan cara manual menggunakan kain

Metode yang digunakan penulis dalam perhitungan analisis variansi biaya produksi untuk tahun 2010 adalah metode deskriptif karena penelitian ini hanya mengelola

Turbin Darrieus memiliki torsi rotor yang rendah tetapi putarannya lebih tinggi dibanding dengan turbin angin Savonius sehingga lebih diutamakan untuk menghasilkan.

Setelah para peserta peserta didik kelas XI Agribisnis Tanaman Pangan dan Hortikultura SMKN 1 sakra mengikuti proses pembelajaran dengan penerapan model pembelajaran