PERANCANGAN EMAIL CLIENT DENGAN
PENGKLASIFIKASIAN EMAIL MENGGUNAKAN
ALGORITMA VECTOR SPACE MODEL
SKRIPSI
MOSES CHRISTIAN
081402050
PROGRAM STUDI TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
PERANCANGAN EMAIL CLIENT DENGAN
PENGKLASIFIKASIAN EMAIL MENGGUNAKAN ALGORITMA
VECTOR SPACE MODEL
SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat mencapai gelar Sarjana Teknologi Informasi
MOSES CHRISTIAN 081402050
PROGRAM STUDI TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
PERSETUJUAN
Judul : PERANCANGAN EMAIL CLIENT DENGAN
PENGKLASIFIKASIAN EMAIL MENGGUNAKAN
ALGORITMA VECTOR SPACE MODEL Kategori : SKRIPSI
Nama : MOSES CHRISTIAN Nomor Induk Mahasiswa : 081402050
Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI Departemen : TEKNOLOGI INFORMASI
Fakultas : ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
Diluluskan di Medan,
Komisi Pembimbing :
Pembimbing 2 Pembimbing 1
M. Umar S Tjkroaminoto, ST M.Fadly Syahputra Bsc, M.Sc.IT NIP.196206242006041015 NIP. 198301292009121003
Diketahui/Disetujui oleh
Program Studi S1 Teknologi Informasi Ketua,
PERNYATAAN
PERANCANGAN EMAIL CLIENT DENGAN PENGKLASIFIKASIAN EMAIL MENGGUNAKAN ALGORITMA VECTOR SPACE MODEL
SKRIPSI
Saya mengakui bahwa skripsi ini adalah hasil kerja saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing masing disebutkan sumbernya.
Medan,
PENGHARGAAN
Puji dan syukur hanya bagi Tuhan Yang Maha Esa yang mengizinkan penulis dapat
menyelesaikan skripsi ini. Sebab kasihNya yang besar dan kesetiaanNya yang tak
pernah padam.
Ucapan terima kasih penulis sampaikan kepada Bapak M. Fadly
Putra,B.Sc.M.Sc.IT dan Bapak M. Umar S Tjokroaminoto, ST selaku pembimbing
pada penyelesaian skripsi ini yang telah memberikan panduan dan penuh kepercayaan
kepada penulis untuk menyempurnakan kajian ini. Ucapan terima kasih juga penulis
sampaikan kepada Bapak Baihaqi Siregar, Ssi.,MT. dan Bapak Romi Fadillah
Rahmat, B.Comp.Sc,M.Sc selaku dosen penguji. Panduan ringkas, padat, dan
profesional telah diberikan kepada penulis agar dapat menyelesaikan tugas ini.
Ucapan terima kasih juga ditujukan kepada Ketua dan Sekretaris Program Studi
Teknologi Informasi, Prof. Dr. Opim Salim Sitompul, M.Sc dan Drs. Sawaluddin,
M.IT, Dekan dan Pembantu Dekan Fakultas Ilmu Komputer dan Teknologi Informasi
Sumatera Utara, semua dosen dan pegawai pada Program Studi Teknologi Informasi .
Tidak terlupakan penulis mengucapkan terima kasih kepada Ayahanda Drs.
Persadaan Ginting, Ibunda Dra. Krisnpenti Sembiring, adik-adik tercinta Dody dan
Dea yang selalu memberikan cinta kasihnya dan dukungannya baik material dan
spiritual dan yang berjasa memberikan dorongan kepada penulis selama
menyelesaikan skripsi ini. Sahabat-sahabat saya Ilham Akbar, Shugy Sitepu ,
Pangeran David, Andryan , Harigo yang selalu memberi semangat dan terima kasih
untuk doa-doa kalian. Semoga Tuhan Yang Maha Esa memberikan karunia kepada
semua pihak yang telah memberikan bantuan, perhatian dan dukungan kepada penulis
ABSTRAK
Pada zaman teknologi sekarang ini, email banyak digunakan untuk mengirim
informasi keseluruh dunia ini. Selama ini pengklasifikasian pada email masih
dilakukan secara manual dan kurang objektif. Maka dalam penelitian ini, penulis
menerapkan Metode Vector Space Model (VSM) untuk membuat suatu
pengklasifikasian email secara otomatis dan lebih objektif. Dengan metode ini
pengklasifikasian email dapat dilakukan secara otomatis berdasarkan address, subject,
dan body dari sebuah email sehingga memudahkan pengguna email dalam
pengorganisasian setiap email yang masuk kedalam inbox pengguna fasilitas email.
Sehingga aplikasi ini nantinya akan memberi kemudahan bagi user pengguna email
dalam mengklasifikasikan email sesuai dengan kata kunci dan jenis field yang ada.
DESIGN EMAIL CLIENT CLASSIFICATION USING VECTOR SPACE MODEL
ALGORITHM
ABSTRACT
On today's age of technology, widely used email to send information throughout the
world. During the classification of the email is still done manually and less objective.
So in this study, the authors apply the method of Vector Space Model (VSM) to make
an automatic email classification and more objective. With this method of email
classification can be done automatically based on address, subject, and body of an
email that allows users to email in the organization of every incoming email into a
user's inbox email facility. So this application will provide convenience for the user
email users in the email classify according to keyword and type of existing fields.
DAFTAR TABEL
Halaman
Tabel 2.1 Kelebihan dan Kekurangan Surat, Telepon, dan Email 9
Tabel 2.2 Perbedaan POP dan Web Based Email 12
Tabel 2.3 Penelitian Sebelumnya 25
Tabel 3.1 Tabel Dokumentasi Naratif Usecase Klasifikasi Email 37
Tabel 3.2 Tabel Dokumentasi Naratif Usecase View List Email 38
Tabel 3.3 Tabel Dokumentasi Naratif Usecase Klasifikasi 39
Tabel 3.4 Tabel Dokumentasi Naratif Usecase Send Email 40
Tabel 4.1 Tabel Download 50
Tabel 4.2 Tabel Classified 51
Tabel 4.3 Tabel Perhitungan TF/IDF 58
DAFTAR GAMBAR
ABSTRAK
Pada zaman teknologi sekarang ini, email banyak digunakan untuk mengirim
informasi keseluruh dunia ini. Selama ini pengklasifikasian pada email masih
dilakukan secara manual dan kurang objektif. Maka dalam penelitian ini, penulis
menerapkan Metode Vector Space Model (VSM) untuk membuat suatu
pengklasifikasian email secara otomatis dan lebih objektif. Dengan metode ini
pengklasifikasian email dapat dilakukan secara otomatis berdasarkan address, subject,
dan body dari sebuah email sehingga memudahkan pengguna email dalam
pengorganisasian setiap email yang masuk kedalam inbox pengguna fasilitas email.
Sehingga aplikasi ini nantinya akan memberi kemudahan bagi user pengguna email
dalam mengklasifikasikan email sesuai dengan kata kunci dan jenis field yang ada.
DESIGN EMAIL CLIENT CLASSIFICATION USING VECTOR SPACE MODEL
ALGORITHM
ABSTRACT
On today's age of technology, widely used email to send information throughout the
world. During the classification of the email is still done manually and less objective.
So in this study, the authors apply the method of Vector Space Model (VSM) to make
an automatic email classification and more objective. With this method of email
classification can be done automatically based on address, subject, and body of an
email that allows users to email in the organization of every incoming email into a
user's inbox email facility. So this application will provide convenience for the user
email users in the email classify according to keyword and type of existing fields.
BAB 1
PENDAHULUAN
1.1 Latar Belakang
Banyak kemudahan yang kita dapat dari teknologi informasi. Penggunaan internet
sebagai media komunikasi, penyebaran informasi dan banyaknya layanan penyedia
email membuat semua menjadi ringkas dan mudah. Kita dapat mengirim informasi
dalam hitungan menit dan bahkan detik ke seluruh dunia ini. Begitupun penerima
informasi dapat dengan mudah dan cepat membalas informasi tersebut. Teknologi itu
disebut internet dan email.
Semakin banyaknya orang yang terhubung ke internet, menjadikan electronic
mail (email) sebagai salah satu bentuk komunikasi yang paling cepat dan ekonomis.
Banyaknya informasi digital dalam email sebagai akibat dari perkembangan teknologi
informasi membutuhkan suatu cara pengorganisasian dan pengelompokan informasi
dalam inbox email untuk kemudahan penggunanya. Pengelompokan informasi tak
terstruktur ini dikenal dengan pengklasifikasian dokumen.
Bila kita berkunjung ke perpustakaan atau toko buku, biasanya kita akan
melihat buku-buku diletakkan di rak-rak dalam kelompoknya masing-masing.
Misalnya rak komputer, berisi segala judul buku yang membahas mengenai komputer,
program, software, hardware, teknik informatika, dan lain-lain. Buku-buku yang
membahas tema tertentu umumnya dikelompokkan menurut tema bahasannya
masing-masing. Pengelompokan atau klasifikasi ini memudahkan kita menemukan buku yang
kita cari. Oleh sebab itu maka penulis ingin membuat suatu sistem yang dapat
mengklasifikasikan email sesuai dengan keyword yang didasarkan pada sender,subject
Mengkategorikan dokumen teks pada email secara otomatis sangatlah
membantu, karena pengorganisasian dokumen yang dilakukan secara manual akan
sangat mahal, atau tidak flexible mengingat keterbatasan waktu dari aplikasi atau
jumlah dokumen yang digunakan. Oleh karenanya, kebutuhan akan klasifikasi
otomatis semakin diperlukan.
Ada beberapa teknik yang dapat digunakan untuk mengatasi klasifikasi email
ini, seperti SVM, ANN, Naïve Bayes, dan Vector Space Model. Berdasarkan penelitian
yang dilakukan oleh Srivinas Mukkamala dan Andrew H.Sung (2003) menyatakan
bahwa kinerja algortima SVM lebih baik jika dibandingkan dengan ANN dalam hal
solusi yang dicapai untuk kasus pengklasifikasian IDS. Dari penelitian yang dilakukan
Mruntujaya Panda dan Mana R. Prata (2007) menyatakan algortima Bayesian lebih
efisien dalam mengklasifikasikan Network IDS dibanding SVM. Vektor Space Model
merupakan metode dengan proses perhitungan intensif sehingga membutuhkan waktu
komputasi lebih banyak (Santosa 2007). Penerapan VSM sebagai model dasar dalam
Sistem Temu Kembali Informasi memilki keunggulan pada perhitungan yang
mendetail dan meyeluruh untuk mengetahui jarak dokumen.
Berdasarkan uraian diatas, peneliti akan mencoba melakukan klasifikasi pada
sisi klien dengan menggunakan algortima Vector space model yang memproses
berdasarkan dari sender,subject,body email yang dijalankan pada sisi klien. Email
yang digunakan adalah email berbasis teks, email yang telah disimpan didalam
1.2 Rumusan Masalah
Klasifikasi pada sisi klien lebih mudah diterapkan dan lebih besar kemungkinan
memberikan hasil yang diharapkan. Oleh karena itu peneliti akan melakukan
penelitian bagaimana mengaplikasikan metode Vector Space Model untuk
memanagement inbox email sehinggga memudahkan pengguna email dalam
pengorganisasian setiap email yang masuk kedalam inbox pengguna fasilitas email.
1.3. Batasan Masalah
Dalam pengklasifikasian email menggunakan algoritma Vector Space Model
dilakukan beberapa batasan sebagai berikut :
1. Pengklasifikasian hanya dilakukan pada sisi klien.
2. Vector Space Model digunakan untuk pengukuran kemiripan suatu
dokumen dalam pengklasifikasiannya.
3. Email server adalah menggunakan Google Mail Server untuk mengunduh
dan mengirim email
4. Bahasa pemograman yang digunakan untuk membuat aplikasinya
menggunakan bahasa vb.net
5. Hak akses terhadap email yang diunduh masih terbatas
6. Dalam proses Text Mining hanya melibatkan tokenizing dan analizing
7. Keyword hanya meggunakan satu kata
1.4. Tujuan Penelitian
Adapun tujuan penelitian ini adalah mengimplementasi algoritma Vector Space Model
pada sistem mail klien untuk memklasifikasi inbox email sesuai dengan kata kunci
dan jenis field yang dipilih dengan tingkat akurasi yang tinggi dan juga menampilkan
1.5 Manfaat Penelitian
Adapun manfaat penelitian ini adalah sebagai berikut:
1. Memberikan kemudahan dalam pengklasifikasian email oleh pengguna
fasilitas email karena setiap email yang masuk dapat terklasifikasikan
sesuai kata kunci dan sesuai dengan jenis field yang ada .
2. Mendapatkan hasil yang optimal dalam pengukuran tingkat similiaritas
dokumen sehingga didapatkan filtering klasifikasi email yang signifikan.
1.6 Metodologi Penelitian
Tahapan yang akan dilakukan pada pelaksanaan penelitian ini adalah sebagai berikut:
1. Studi Literatur
Studi literatur yang dilakukan dalam penelitian ini adalah mengumpulkan
bahan referensi mengenai konsep mail server, pengambilan data melalui
POP3, algoritma vector space model,dan implementasinya dalam dokumen .
2. Analisa Permasalahan
Pada tahap ini dilakukan analisis terhadap hasil studi literatur untuk
mengetahui dan mendapatkan pemahaman mengenai algoritma Vector Space
Model untuk mengklasifikasi email
3. Perancangan Sistem
Pada tahap perancangan sistem dilakukan perancangan arsitektur,
pengumpulan data pelatihan, merancang antarmuka. Proses perancangan
4. Implementasi Sistem
Pada tahap implementasi sistem ini akan dilakukan pengkodean program
dalam sistem komputer dengan menggunakan Bahasa VB.NET
5. Pengujian
Pada tahap ini memastikan aplikasi klasifikasi mail klien yang telah dibuat
sudah berjalan sesuai diharapkan, dan kemudian dianalisis kinerja dan
penerapan algoritma tersebut.
6. Dokumentasi dan Penyusunan Laporan
Pada tahap ini dilakukan dokumentasi hasil penerapan algoritma Vector
Space Model untuk mengklasifikasi email.
1.7 Sistematika Penulisan
Adapun langkah langkah dalam menyelesaikan penelitian ini adalah sebagai berikut:
BAB 1: PENDAHULUAN
Bab ini menjelaskan mengenai latar belakang pemilihan judul skripsi “Klasifikasi Email Client menggunakan algoritma VSM”, rumusan masalah, batasan masalah,
tujuan penelitian, manfaat penelitian, metode penelitian, dan sistematika penulisan.
BAB 2: LANDASAN TEORI
Bab ini membahas mengenai teori teori yang berkaitan dengan perancangan aplikasi
klasifikasi mail client menggunakan algoritma vector space model dan teori lainnnya
BAB 3: ANALISIS DAN PERANCANGAN SISTEM
Bab ini terdiri dari analisis sistem dan perancangan aplikasi untuk klasifikasi email.
Pada bagian analisis sistem dimuat uraian tentang analisis data sistem dan komponen
sistem. Pada bagian perancangan aplikasi, membahas tentang algoritma vector space
model dalam pengklasifikasian email dan perancangan form yang akan
diimplementasikan ke aplikasi.
BAB 4: IMPLEMENTASI DAN PENGUJIAN
Bab ini membahas bagaimana mengimplementasikan aplikasi yang telah dirancang
kedalam bahasa pemprograman dan menguji aplikasi yang telah dibangun.
BAB 5: KESIMPULAN DAN SARAN
Bab ini memuat kesimpulan dari keseluruhan uraian uraian bab-bab sebelumnya dan
BAB 2
LANDASAN TEORI
2.1 Email
Email adalah singkatan dari Electronic Mail . Email berfungsi sebagai sarana untuk
mengirim surat atau pesan melalui jaringan Intenet (Nello.et all, 2000), Dengan email
kita hanya membutuhkan beberapa menit agar surat/pesan kita sampai tujuan tidak
perlu menunggu berhari-hari seperti mengirim surat/pesan biasa (pos) dan dengan
email isi surat/pesan dapat kita isi dengan konten gambar/suara dan video, Email
bukan hanya untuk mengirim surat/pesan, jaman sekarang apa-apa yang berhubungan
internet seperti mendaftar facebook, twitter, blogger dan lain-lain pasti memerlukan
email utuk mendaftar. Sebuah pesan elektronis terdiri dari isi, alamat pengirim, dan
alamat-alamat yang dituju. Sistem email yang beroperasi diatas jaringan berbasis pada
model store and forward. Sistem ini mengaplikasikan sebuah system server email
yang menerima, meneruskan, mengirimkan, serta menyimpan pesan pesan user,
dimana user hanya perlu untuk mengkoneksikan pc mereka kedalam jaringan. Email
dapat dianalogikan dengan kotak surat yang ada di kantor POS sedangkan server
email dapat diibaratkan sebagai kantor POS. Dengan analog ini sebuah mail server
dapat memiliki banyak account email yang ada didalamnya.
Cara kerja email yang dapat dilihat pada gambar 2.1 menunjukkan bahwa email yang
dikirim belum tentu akan diteruskan ke computer penerima (end user), tetapi
disimpan/dikumpulkan dahulu dalam sebuah computer server (host) yang akan online
secara terus menerus (continue) dengan media peyimpanan (storange) yang relative
besar dibanding computer biasa. Hal ini bisa diibaratkan dengan sebuah kantor pos,
jika seseorang mempunyai alamat (mailbox), maka dia dapat memeriksa secara
berkala jika dia mendapatkan surat. Komputer yang melayani penerimaan email
secara terus menerus tersebut biasa disebut dengan mailserver atau mailhost.
2.1.1 Latar Belakang Digunakannya Email
Dalam dunia nyata pada umumnya, kita sering menggunakan surat untuk
menggambarkan suatu berita. Namun kekurangan media surat adalah lamanya waktu
yang dibutuhkan dari pengirim ke penerima. Masalah ini dapat dipecahkan dengan
menggunakan media telepon. Namun sayangnya jika menggunakan telepon untuk
jarak penelepon dan penerima telepon yang cukup jauh, biasanya memerlukan biaya
yang tidak murah, karena menggunakan SLJJ atau SLI (Sambungan Langsung
Internasional). Oleh karena itu diperlukan media lain yang dapat membantu mengatasi
kendala waktu, jarak dan biaya ini. Salah satu solusi yang dapat digunakan adalah
dengan menggunakan email (electronic mail). Email merupakan suatu solusi yang
cukup murah, dapat diakses dari mana saja, dan jarang mengalami keterlambatan
pengiriman, karena secara umum (jika tidak ada masalah) biasanya email dapat
dikirimkan paling lama dalam waktu 5 menit saja. Namun bukan berarti dengan
menggunakan email tidak akan ada masalah yang terjadi. Tabel 2.1 menyajikan
2.1.2 Sejarah Penggunaan Email
Email yang pertama kali dikirim dilakukan oleh seorang engineer bernama Ray
Tomlinson. pada tahun 1971. Sebelumnya, orang hanya dapat mengirimkan pesan
kepada orang lain pada mesin yang sama. Dengan menggunakan teknologi baru ini,
Tomlinson berhasil mengirimkan pesan ke mesin komputer yang lain dengan
menggunakan tanda @ sebagai tujuan mesin penerima email. Email tidaklah lebih dari
pesan teks sederhana (text message). Pesan dikirimkan dari sebuah mesin (misalnya
A) ke mesin lainnya (misalnya B), dan orang lain membaca pesan yang dikirim dari
komputer A di komputer B. Walaupun sekarang ini email dapat ditambahkan
attachment, pada dasarnya email juga tetap merupakan sebuah pesan teks sederhana
(Nello, 2000).
Komponen Surat Telepon Email
Biaya investasi awal
Murah Tidak Terlalu Mahal Murah jika hanya
mengandalkan warnet,
Bisa dilakukan Tidak bisa dilakukan Hanya bisa dilakukan jika barang yang dimaksud berbentuk digital.
2.1.3 Mail Client
E-Mail client adalah software yang digunakan untuk mengirim dan menerima e-mail
melalui komputer Anda tanpa browser (Agung, 2007). Cukup dengan menjalankan
software e-mail client secara otomatis e-mail akan terdownload ke komputer Anda.
Saat Anda tidak terkoneksi dengan internet, Anda dapat membaca e-mail – e-mail
yang telah di download tersebut.
Beberapa pilihan software e-mail client :
OutlookExpress
Review : software ini secara otomatis terinstall pada Windows XP pada full
install. Penggunaannya praktis, hanya saja tidak memiliki fitur perlindungan
SPAM yang efektif.
MicrosoftOutlook
Review : software yang masuk dalam Microsoft Office ini kaya fitur,
diantaranya sudah terintegrasi dengan calendar, todo list, dan memiliki
mekanisme perlindungan SPAM yang baik.
Thunderbird
Review : software free ini dikembangkan oleh Mozilla dengan dilengkapi fitur
perlindungan SPAM yang sangat fleksibel karena dapat kita konfigurasikan
secara detail. Selain itu software ini juga dilengkapi dengan e-mail tagging
yang cara kerjanya mirip dengan label pada Gmail. Sayangnya software ini
tidak memiliki integrasi langsung dengan calendar meskipun tersedia add-on
untuk calendar.
Mail Pada Mac OS X
Review : kerap disebut Apple Mail, secara default software Mail ini sudah
terinstall pada Mac OS X. Sebagai software mail client default pada Mac OS
X, software ini memiliki mekanisme perlindungan SPAM yang cukup baik.
Windows Mail
Review : Windows Mail adalah pengganti Outlook Express pada Windows
Vista. Sebagai versi baru dari Outlook Express, Windows Mail kaya dengan
2.1.4 Sistem Penerimaan Email
Sistem penerimaan email dapat digambarkan seperti diagram di bawah ini.
Gambar 2.2 Sistem Penerimaan Email
Cara Penerimaan Email
Ada dua jenis cara penerimaan email, yaitu dengan POP (Post Office Protocol)
ataupun dengan Web Based Email (Email yang dapat dilihat dari website,
menggunakan tekonologi IMAP (Internet_Message_Access_Protocol). POP saat ini
sudah memasuki versi 3, sehingga lebih dikenal dengan nama POP3 (Post Office
Protocol version 3). Dengan menggunakan POP3, maka email dapat diambil dari
server dan disimpan di email client (seperti Outlook Expres, Eudora, dan The Bat),
sedangkan dengan menggunakan Web Based Email (seperti Yahoo dan Gmail),
pemakai dapat membaca email yang diterimanya dan melakukan interaksi dengan
email tersebut (membaca, menulis, membalas, menghapus, dll) secara user friendly.
Sekarang ini hampir sebagian besar layanan email, baik yang gratis maupun yang
menarik bayaran, sudah menyediakan keduanya, POP dan web-based email. Berikut
ini diberikan tabel berupa kelebihan dan kekurangan penggunaan email berbasiskan
(a) Contoh Web-based Email (b) Contoh
Email Client
Gambar 2.3 Contoh Web-Based Email dan Email Client
Komponen POP3 Web Based Email
Fleksibilitas Hanya dapat dibuka dari komputer
pemakai saja.
Proses Penerimaan Email
Pada penerimaan email dengan menggunakan POP3, digunakan suatu program yang
dinamakan email client. Email client berfungsi untuk menerima email-email yang
masuk ke komputer pengguna. Beberapa contoh email client adalah Outlook Express,
Microsoft Outlook, The Bat, Eudora, dan masih banyak lagi yang lainnya.
POP3 biasanya selalu disandingkan dengan SMTP (Simple Mail Transfer Protocol).
Fungsi dari keduanya saling mendukung, di mana POP3 digunakan untuk mengambil
email dari komputer server ke komputer client (pengguna), dan SMTP digunakan
untuk mengirimkan email dari komputer client yang dititipkan ke pada komputer
server untuk dikirimkan ke komputer server tujuan. Perhatikan gambar 2.4 di bawah
ini:
Gambar 2.4 Email Server
Terlihat pada gambar di atas bahwa POP3 menggunakan port 110 dan SMTP
menggunakan port 25. Perbedaan Web Based Email dengan POP3 email adalah
bahwa pada Web based email tidak diperlukan komunikasi pada port 110 dan port 25
untuk menerima dan mengirim email, karena semuanya sudah dilakukan oleh email
server.
A. SMTP Server
Perhatikan gambar 2.5 di bawah ini. Pada dasarnya email yang dikirim oleh SMTP
server akan ditampung sementara oleh komputer server untuk dikirim ke komputer
server tujuan. Komputer server pengirim dan komputer server penerima berinteraksi
Gambar 2.5 SMTP Server
Logika serah-terima email tersebut adalah sebagai berikut:
Misalnya ada pengguna dengan alamat email [email protected] ingin mengirimkan email
ke [email protected] dari email client. Ketika [email protected] mengirimkan email ke
[email protected] terjadi hal-hal berikut ini:
1. Email client melakukan komunikasi dengan aku.com menggunakan port 25.
2. Email client berkomunikasi dengan SMTP server, memberitahukan kepada
SMTP server mengenai alamat pengirim dan penerima sekaligus dengan isi
pesan yang dikirimkan.
3. SMTP server mengambil alamat tujuan dan membaginya menjadi dua bagian
Bagian pertama : kamu
Bagian kedua : kamu.com
4. SMTP server melakukan komunikasi dengan DNS (Domain Name Server) dan
meminta alamat IP dari kamu.com.
5. Setelah IP didapatkan, SMTP server aku.com berkomunikasi dengan STMP
server kamu.com menggunakan port 25, dengan cara yang persisi sama yang
dilakukan antara email client dengan SMTP server aku.com.
6. Setelah pesan masuk ke mesin server kamu.com, pengguna
[email protected] melihat pesan email, entah dengan POP3 maupun
B. POP3 Server
Hal yang terjadi pada POP3 Server sebenarnya sangatlah sederhana, yaitu hanya
mengumpulkan email yang masuk saja, dan mengirimkannya melewati port 110 ke
komputer client jika client meminta email-email tersebut. Untuk melihat maupun
mengambil email dengan menggunakan POP3 maupun web based email, diperlukan
username dan password agar tidak sembarang orang dapat melihat email tersebut.
2.2 Klasifikasi
Kategorisasi teks (atau klasifikasi teks) adalah suatu proses yang mengelompokkan
suatu teks ke dalam suatu kategori tertentu (Sebastiani, 2002) .Kategorisasi teks
merupakan solusi yang tepat untuk mengelola informasi yang saat ini berkembang
dengan sangat cepat dan melimpah. Kategorisasi teks membuat pengelolaan informasi
tersebut menjadi efektif dan efisien (Chenometh, 2009).Lebih mudah kalau dokumen
dikelompokkan menjadi beberapa bagian misalnya dua kelas, yaitu dokumen tentang
multicore computer chips dan dokumen bukan tentang multicore computer chips.
Kelas biasanya merujuk ke topic dokumen. Prosesnya sering disebut sebagai text
classification, text categorization, topic classification, topic spotting.
Dokumen yang digunakan untuk pembelajaran dinamakan contoh (sample atau
trainingdata set) yang dideskripsikan oleh himpunan atribut atau variabel. Salah satu
atribut mendeskripsikan kelas yang diikuti oleh suatu contoh, hingga disebut atribut
kelas.Atribut lain dinamakan atribut independen atau predictor. Klasifikasi termasuk
pembelajaran jenis supervised learning. Jenis lain adalah unsupervised learning atau
dikenal sebagai clustering. Pada supervised learning, data latihan mengandung
pasangan data input (biasanya vektor) dan output yang diharapkan, sedangkan pada
unsupervised learning belum ditentukan target output yang harus diperoleh.
Proses klasifikasi teks dapat dibagi ke dalam dua fase, yaitu (Mahinovs, 2007) :
Langkah pertama yang dilakukan pada fase ini adalah feature extraction. Pendekatan
yang umum digunakan adalah distribusi frekuensi kata. Nilai numerik yang diperoleh
dapat berupa berapa kali suatu kata muncul di dalam dokumen, 1 jika kata ada di
dalam dokumen atau 0 jika tdak ada (biner), atau jumlah kemunculan kata pada awal
dokumen. Fitur yang diperoleh dapat direduksi agar dimensi vektor menjadi lebih
kecil. Beberapa pendakatan feature reduction dapat diterapkan seperti menghapus
stop-words, stemming, dan statistical filtering. Teknik lebih lanjut seperti SVD dan
genetic algorithm akan menghasilkan vector berdimensi lebih rendah.
2. Fase klasifikasi utama.
Suatu algoritma memproses data numerik di atas untuk memutuskan ke kategori mana
teks baru (bukan contoh) ditempatkan. Terdapat beberapa algoritma klasifikasi yang
merupakan kajian di bidang statistika dan machine learning yang dapat diterapkan
pada fase ini, di antaranya adalah naïve Bayesian, Rocchio, Decision Tree, k-Nearest
Neighbor (k-NN), Neural Network (NN), dan Support Vector Machines (SVM).
Teknik-teknik tersebut berbeda dalam mekanisme pembelajaran dan representasi
model yang dipelajari . K-NN dan SVM merupakan algoritma yang memberikan hasil
klasifikasi terbaik dengan presisi di atas 85% (Kaiser,et all, 2005).
2.3 Text Mining
Text mining adalah salah satu bidang khusus dari data mining. Sesuai dengan buku
The Text mining Handbook, Text Mining dapat didefinisikan sebagai suatu proses
menggali informasi dimana seorang user berinteraksi dengan sekumpulan dokumen
menggunakan tools analisis yang merupakan komponen komponen dalam data
mining yang salah satunya adalah peringkatan dokumen (Ali, 2006). Tujuan dari Text
mining adalah untuk mendapatkan informasi yang berguna dari sekumpulan
dokumen. Jadi sumber data yang digunakan pada Text mining adalah kumpulan teks
yang memiliki format yang tidak terstruktur atau minimal semi terstruktur. Adapun
tugas khusus dari Text mining antara lain yaitu pengkategorisasian teks (text
categorization) dan pengelompokan teks (text clustering). Text mining biasa
dianggap subjek riset yang tergolong baru. Text mining dapat memberikan solusi
menganalisa unstructured text dalam jumlah besar. Dalam memberikan solusi, text
mining mengadopsi dan mengembangkan banyak teknik dari bidang lain, seperti Data
mining, Information retrieval, Statistik dan Matematik, Machine Learning,
Linguistic, Natural Languange Processing, dan Visualization. Kegiatan riset untuk
text mining antara lain ekstraksi dan penyimpanan text, preprocessing akan konten
text, pengumpulan data statistic dan indexing dan analisa konten.
2.4 Ekstrasi Dokumen
Teks yang akan dilakukan proses text mining, pada umumnya memiliki beberapa
karakteristik diantaranya adalah memiliki dimensi yang tinggi, terdapat noise pada
data, dan terdapat struktur teks yang tidak baik. Cara yang digunakan dalam
mempelajari suatu data teks, adalah dengan terlebih dahulu menentukan fitur fitur
yang mewakili setiap kata untuk setiap fitur yang ada pada dokumen. Sebelum
menentukan fitur-fitur yang mewakili, diperlukan tahap pre-procecing yang
dilakukan secara umum dalam text mining pada dokumen,yaitu case folding,
tokenizing, filtering, stemming, analyzing ( Manning, 2008 ) seperti yang ditunjukkan
pada gambar 2.6
Gambar 2.6 Proses Pre-Proccecing Text
Case Folding
Tokenizing
a. Case Folding dan Tokenizing
Case folding adalah mengubah semua huruf dalam dokumen menjadi huruf kecil.
Hanya huruf „a‟ sampai dengan „z‟ yang diterima. Karakter selain huruf dihilangkan
dan dianggap delimiter. Tahap tokenizing / parsing adlah tahap pemotongan string
input berdasarkan tiap kata yang menyusunnya. Contoh dari tahap ini adalah sebagai
berikut dapat dilihat pada gambar 2.7
Teks input
Teks output
Gambar 2.7 Proses Case folding dan tokenizing
b. Filtering
Tahap filtering adalah tahap mengambil kata-kata penting dari hasil token. Bisa
menggunakan algoritma stoplist (membuang kata yang kurang penting) atau wordlist
(menyimpan kata yang penting). Stoplist / stopword adalah katakata yang tidak
deskriptif yang dapat dibuang dalam pendekatan bag-of-words ( Porter,et all, 1980).
Contoh stopwords adalah “yang”, “dan”, “di”, “dari” dan seterusnya. Contoh dari
tahapan ini dapat dilihat pada Gambar 2.8.
c. Stemming
Tahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering (Cios,
2007). Pada tahap ini dilakukan proses pengembalian berbagai bentukan kata ke
dalam suatu representasi yang sama. Tahap ini kebanyakan dipakai untuk teks
berbahasa inggris dan lebih sulit diterapkan pada teks berbahasa Indonesia . Hal ini
dikarenakan bahasa Indonesia tidak memiliki rumus bentuk baku yang permanen.
Contoh dari tahap ini dapat dilihat pada Gambar 2.9
Hasil Filtering Gambar 2.9 Proses Stemming Hasil Stemming
Dalam bahasa Indonesia, afiks/imbuhan terdiri dari sufiks (akhiran), infiks (sisipan),
dan prefiks (awalan). Karena proses penambahan infiks dalam bahasa Indonesia
jarang terjadi maka proses stemming yang akan dibangun hanya mengenai kata yang
megalami penambahan prefiks dan sufiks.
d. Analyzing
Tahap analisa merupakan tahap penentuan seberapa jauh keterhubungan antar
kata-kata antar dokumen yang ada. Dalam tahap analisa ini adalah proses pembobotan
dokumen terhadap kata kunci yang dimasukkan. Banyak aplikasi menerapkan
pembobotan kombinasi berupa perkalian bobot local term frequency dan global
inverse document frequency, ditulis tf.id,f
2.5 Model Ruang Vector
Proses system IR, kemiripan antar dokumen didefinisikan berdasarkan representasi
direpresentasikan oleh suatu vector multi dimensi ( Polettiny, 2004). Dimensi sesuai
dengan jumlah term dalam dokumen yang terlibat. Pada model ini:
~ Vocabulary merupakan kumpulan semua term berbeda yang tersisa dari dokumen
setelah preprocessing dan mengandung t term index. Term-term ini membentuk
suatu ruang vector.
~ Setiap term i di dalam dokumen atau query j, diberikan suatu bobot (weight) bernilai
real Wij
~ Dokomen dan query diekpresikan sebagai vector t dimensi dj = (w1, w2, ..., wtj) dan
terdapat n dokumen di dalam koleksi, yaitu j = 1, 2,…n
Contoh dari model ruang vektor tiga dimensi untuk dua dokumen D1 dan D2, satu query pengguna Q1, dan tiga term T1, T2 dan T3 ( Cios, 2007) diperlihatkan pada gambar 2.10.
Dalam model ruang vektor, koleksi dokumen direpresentasikan oleh matriks
term-document (atau matriks term-frequency). Setiap sel dalam matriks bersesuaian dengan
bobot yang diberikan dari suatu term dalam dokumen yang ditentukan. Nilai nol
berarti bahwa term tersebut tidak hadir di dalam dokumen (Cios, 2007). Gambar 2.11
mempertegas penjelasan ini .
Gambar 2.10 Contoh model ruang vektor dengan dua dokumen D1 dan D2, serta
T1 T2 … Tt
D1 W11 W21 … wt1
D2 W12 W22 … wt2
… … … … …
Dn W1n W2n … Wtn
Gambar 2.11 Contoh matriks term-document untuk database dengan n dokumen
dan t term
Keberhasilan dari model VSM ini ditentukan oleh skema pembobotan terhadap suatu
term baik untuk cakupan lokal maupun global, dan faktor normalisasi (Poletinny,
2004) . Pembobotan lokal hanya berpedoman pada frekuensi munculnya term dalam
suatu dokumen dan tidak melihat frekuensi kemunculan term tersebut di dalam
dokumen lainnya. Pendekatan dalam pembobotan lokal yang paling banyak diterapkan
adalah term-frequency (tf) meskipun terdapat skema lain seperti pembobotan biner,
augmented normalized tf, logaritmik tf dan logaritmik alternatif.
Pembobotan global digunakan untuk memberikan tekanan terhadap term yang
mengakibatkan perbedaan dan berdasarkan pada penyebaran dari term tertentu di
seluruh dokumen. Banyak skema didasarkan pada pertimbangan bahwa semakin
jarang suatu term muncul di dalam total koleksi maka term tersebut menjadi semakin
berbeda. Pemanfaatan pembobotan ini dapat menghilangkan kebutuhan stop word
removal karena stop word mempunyai bobot global yang sangat kecil. Namun pada
prakteknya lebih baik menghilangkan stop word di dalam fase pre-processing
sehingga semakin sedikit term yang harus ditangani. Pendekatan terhadap pembobotan
global mencakup inverse document frequency (idf), squared idf, probabilistic idf,
saat ini. Beberapa aplikasi tidak melibatkan bobot global, hanya memperhatikan tf,
yaitu ketika tf sangat kecil atau saat diperlukan penekanan terhadap frekuensi term di
dalam suatu dokumen .
Faktor normalisasi digunakan untuk menormalkan vektor dokumen sehingga proses
retrieval tidak terpengaruh oleh panjang dari dokumen. Normalisasi ini diperlukan
karena dokumen panjang biasanya mengandung perulangan term yang sama sehingga
menaikkan frekuensi term (tf). Dokumen panjang juga mengandung banyak term yang
berbeda sehingga menaikkan ukuran kemiripan antara query dengan dokumen
tersebut, meningkatkan peluang di-retrievenya dokumen yang lebih panjang.
Beberapa pendekatan normalisasi adalah normalisasi cosinus, penjumlahan bobot,
normalisasi ke-4, normalisasi bobot maksimal dan normalisasi pivoted unique.
Bobot local suatu term i didalam dokumen j (tfij) dapat didefinisikan sebagai:
Dimana fij adalah jumlah berapa kali term i muncul di dalam dokumen j. Frekuensi
tersebut dinormalisasi dengan frekuensi dari most common term di dalam dokumen
tersebut.
Bobot global dari suatu term i pada pendekatan inverse document frequency (idfi)
dapat didefinisikan sebagai
Dimana dfi adalah frekuensi dokumen dari term i dan sama dengan jumlah dokumen
yang mengandung term i. Log2 digunakan untuk memperkecil pengaruhnya relative terhadap tfij.
Bobot dari term i di dalam sistem IR (wij) dihitung menggunakan ukuran tf-idf yang didefinisikan sebagai berikut :
Bobot tertinggi diberikan kepada term yang muncul sering kali dalam dokumen j
tetapi jarang dalam dokumen lain. Gambar 2.12 memperlihatkan proses perhitungan
bobot tfidf bagi suatu dokumen yang menyertakan kalimat “data cube contains x data
dimension, y data dimension, and z data dimension” (Cios, 2007).
Gambar 2.12 Contoh perhitungan bobot tf-idf
2.6 Ukuran Kemiripan
Model ruang vektor dan pembobotan tf-idf digunakan untuk merepresentasikan nilai
numerik dokumen sehingga kemudian dapat dihitung kedekatan antar dokumen.
Semakin dekat dua vektor di dalam suatu VSM maka semakin mirip dua dokumen
yang diwakili oleh vektor tersebut. Kemiripan antar dokumen dihitung menggunakan
suatu fungsi ukuran kemiripan (similarity measure). Ukuran ini memungkinkan
perankingan dokumen sesuai dengan kemiripan (relevansi)nya terhadap query. Setelah
dokumen diranking, sejumlah tetap dokumen top-scoring dikembalikan kepada
pengguna . Pada algoritma vector space model gunakan rumus untuk mencari nilai
cosines sudut antara dua vector dari setiap bobot dokumen (WD) dan bobot kata kunci
CosSim(d
j.q) =
2.7 Pemrograman Visual Basic
Visual Basic adalah salah satu bahasa pemrograman komputer. Bahasa pemrograman
adalah perintah perintah yang dimengerti oleh komputer untuk melakukan tugas-tugas
tertentu. Bahasa pemrograman Visual Basic, yang dikembangkan oleh Microsoft sejak
tahun 1991, merupakan pengembangan dari pendahulunya yaitu bahasa pemrograman
BASIC (Beginner’s All-purpose Symbolic Instruction Code) yang dikembangkan pada
era 1950-an. Visual Basic merupakan salah satu Development Tool yaitu alat bantu
untuk membuat berbagai macam program komputer, khususnya yang menggunakan
sistem operasi Windows. Visual Basic merupakan salah satu bahasa pemrograman
2.7 Penelitian sebelumnya
Proses filtering email sudah ada dilakukan sebelumnya untuk penelitian antara lain :
Tabel 2.3 Penelitian sebelumnya
No Nama Tahun Judul Penelitian Kelebihan Kelemahan
BAB III
ANALISIS DAN PERANCANGAN
3.1. Analisis Aplikasi
Analisis aplikasi bertujuan untuk mengidentifikasi permasalahan-permasalahan yang
ada pada sistem dimana aplikasi yang dibangun yang meliputi perangkat lunak
(software), serta hasil analisis terhadap aplikasi dan elemen elemen yang terkait.
Analisis ini diperlukan sebagai dasar bagi tahapan perancangan aplikasi. Analisis
aplikasi desain dan implementasi ini meliputi desain data, deskripsi sistem, desain
proses dan implementasi desain dan semua yang diperlukan dalam page rank
(peringkatan dokumen ).
3.1.1 Analisis Data
Data pengujian yang digunakan dalam penelitian ini adalah email yang ada pada inbox
sebuah aplikasi email. Data ini diambil dari semua email inbox yang pada aplikasi
email.
3.1.2. Spesifikasi Aplikasi
Aplikasi yang dibangun memiliki kemampuan sebagai berikut :
a. Melakukan tokenizing dalam data dan key pada inbox email.
b.Melakukan pembobotan kata terhadap kata kunci yang dimasukkan dan
pembobotan pada tiap dokumen
c . Memberikan peringkatan sesuai bobot terhadap kata kunci
3.1.3. Spesifikasi pengguna
Aplikasi ini ditujukan untuk digunakan oleh semua pihak yang membutuhkan
pengklasifikasian pada sebuah email. Khususnya bagi seseorang yang setiap harinya
3.1.4. Lingkungan operasi
Perangkat lunak yang dibangun ini membutuhkan perangkat lunak lain sebagai
penunjang agar aplikasi ini berjalan sesuai dengan fungsinya.
Kebutuhan tersebut diantaranya:
a. Antar muka pemakai
Sebagai penunjang antarmuka pemakai dari perangkat lunak, diperlukan visual
basic 2010
b. Aplikasi database
Untuk database menggunakan Microsoft access.
3.1.5. Deskripsi aplikasi
Aplikasi yang dibangun ini adalah pengklasifikasian email yang didalamnya
diimplementasikan metode text mining yang digunakan untuk optimasi pencarian.
Tujuannya adalah untuk membuat peringkatan dokumen terhadap kata kunci yang
dimasukkan. Tahapan dalam pembuatan peringkatan dokumen ini ada 2, yaitu
preprocessing dan analisa.
Tahapan preprocessing yang diterapkan pada aplikasi ini yaitu case folding dan
tokenizing. Case folding adalah mengubah semua huruf dalam dokumen menjadi
huruf kecil. hanya huruf „a‟ sampai dengan „z‟ yang diterima. Karakter selain huruf
dihilangkan dan dianggap delimiter. Tahap tokenizing / parsing adlah tahap
pemotongan string input berdasarkan tiap kata yang menyusunnya.
Seperti digambar pada Gambar 3.1dalam tahap preprocessing, proses yang dilakukan
- User mengunduh ” inbox email” dari mail server.
- Hasil proses unduh tersebut kemudian disimpan dalam database.
- Sistem akan melakukan pemrosesan terhadap email tersebut, yaitu case folding dan
tokenizing
Gambar 3.1 Proses Preprocessing
START
Unduh inbox email
Proses pre-processing (case folding dan tokenizing )
STOP Menyimpan data asli (inbox email) kedalam
Kemudian dalam tahap analisa, proses yang dilakukan sebagaimana dijelaskan pada
Gambar 3.2 adalah:
- User memasukkan kata kunci
- Kata kunci diproses ke dalam preprocessing
- Sistem akan mengambil email hasil preprocessing yang mengandung kata
kunci
- Sistem akan menghitung bobot email terhadap kata kunci
- Hasil pembobotan akan dilakukan peringkatan dokumen
- Sistem akan menampilkan email asli sesuai peringkat dokumen
Gambar 3.2 Diagram alir analisa konten
Start
Masukkan kata kunci
Kata kunci dimasukkan ke proses Pre processing
Ambil data hasil pre processing sesuai kata kunci
Hitung pembobotan dokumen terhadap kata kunci
Ambil email asli dari database dan diperingkatkan sesuai bobot
Tampilkan peringkat email
3.2 Perancangan Aplikasi
Pada perancangan aplikasi peringkatan dan pengklasifikasian email ini akan
dijelaskan mengenai rancangan aplikasi yang akan dikerjakan serta fitur-fitur yang
akan dipakai pada aplikasi tersebut. Objek dari penelitian ini yaitu inbox email yang
ada. Hal ini digunakan untuk pemberian hasil peringkatan email terhadap kata kunci
yang dimasukkan.
Kegiatan riset untuk text mining antara lain ekstraksi dan penyimpanan text,
preprocessing akan konten email, pengumpulan data statistic dan analisa konten.
3.2.1 Ekstraksi dokumen
Teks yang akan dilakukan proses text mining, pada umumnya memiliki beberapa
karakteristik diantaranya adalah memiliki dimensi yang tinggi, terdapat noise pada
data, dan terdapat struktur teks yang tidak baik. Cara yang digunakan dalam
mempelajari suatu data teks, adalah dengan terlebih dahulu menentukan fitur-fitur
yang mewakili setiap kata untuk fitur yang ada pada dokumen. Sebelum menentukan
fitur-fitur yang mewakili, diperlukan tahap preprocessing yang akan dilakukan secara
umum dalam text mining pada dokumen, yaitu case folding, tokenizing.
3.2.1.1 Case Folding
Dalam tahap ini dokumen yang masuk akan dirubah menjadi huruf kecil. Hanya huruf
„a‟ sampai dengan „z‟ yang hanya diterima. Karakter selain huruf itu, baik angka maupun simbol-simbol lain akan dihilangkan dan dianggap sebagai delimiter.
3.2.1.2 Tokenizing
Tahap tokenizing disebut juga sebagai parsing, yaitu pemotongan tahap pemotongan
string input berdasarkan tiap kata yang menyusunnya. Karena dalam tahap
sebelumnya semua karakter dan symbol telah dihilangkan kecuali huruf „a‟ sampai „z‟
maka tahap parsing ini delimiter yang dipakai sebagai pemotongan adalah spasi.
Gambar 3.3 Proses Case folding dan Tokenizing
3.2.2. Analisa
Tahap analyzing merupakan tahap penentuan seberapa jauh keterhubungan antar kata
kata antar dokumen yang ada. Dalam tahap ini, dicari bobot tiap tiap dokumen
terhadap kata kunci yang dimasukkan. Tahap analisa ini algoritma yang digunakan
adalah Algoritma TF/IDF dan Vector Space Model Start
Input dokumen
Ubah semua karakter dalam huruf kecil
Hapus Karakter dan symbol selain a-z
Potong dokumen menjadi kata berdasarkan spasi
Hasil Kata
3.2.2.1. Algoritma TF/IDF ( Term Frequency – Inversed Document Frequency )
Metode TF/IDF ini merupakan metode pembobotan dalam bentuk sebuah metode
yang merupakan integrasi antar term frequency (tf), dan inverse document frequency
(idf). Dari formula yang dijelaskan bab sebelumnya dapat digambar dalam diagram
alir pada Gambar 3.4 dan Gambar 3.5
ya
tidak
Gambar 3.4 Diagram Alir Pembobotan TF/IDF
START
Kata hasil prepocessing
Hitung term frequency (tf)
Hitung document frequency(df)
Cek df==0
df=1
Hitung D/df = jumlah dokumen / df
ya
tidak
Gambar 3.5 Diagram Alir Pembobotan TF/IDF
Selain bobot (W) masing masing dokumen diketahui, maka dilakukan proses sorting /
pengurutan dimana semakin besar nilai W, semakin besar tingkat similaritas dokumen
tersebut terhadap kata yang dicari, demikian sebaliknya. Jika hasil pembobotan
memiliki bobot yang sama, maka algoritma ini dilanjutkan dengan menggunakan
algoritma vector space model. Berikut diagram analisa algoritma TF/IDF dapat dilihat
pada Gambar 3.6
Cek
D/df=10
Hitung IDF = log (D/df)
Hitung bobot = tf * idf
Pengurutan bobot secara descending
Bobot terurut
bobot sama
Gambar 3.6 Analisa TF/IDF
3.2.2.2 Cosine Similarity
Seperti dijelaskan pada pembahasan sebelumnya bahwa ide dari metode ini adalah
dengan menghitung cosinus sudut dari dua vector , yaitu W dari tiap dokumen dan W
dari kata kunci . Dari perhitungan tersebut dapat dibuat diagram alir sebagaimana
Gambar 3.7
Start
Input kata kunci
Analyzing dengan data dokumen yang sudah
Cek hasil bobot
Wi=Wn
Sorting
Stop
For 1=0;i<jmlh W;i++
back
Next
Gambar 3.7 Vector Space Model
Start
Input W hasil tf/idf
Hitung Sqrt kata kunci
Hitung Sqrt Di
Hitung Sum (kk dot Di)
Urutkan Cosine secara desc
Wcosine dalam urutan desc
3.2.3. Use case diagram
Usecase Diagram merupakan gambaran fungsionalitas yang diharapkan dari sebuah
sistem dan digunakan untuk merepresentasikan interaksi antara aktor dengan sistem.
Pembuatan usecase menekankan pada apa yang dibuat sistem, bukan bagaimana yang
dibuat sistem.
Berikut ini adalah use diagram untuk aplikasi klasifikasi pada email dalam Gambar
3.8
User
System
Download email
Tampil list email
*
* clasification email
Send email *
*
*
*
*
*
Berdasarkan usecase diagram pada gambar tersebut , dokomentasi naratif pada proses
klasifikasi email yang terdapat dalam usecase diagram diatas dapat dilihat dalam
Tabel 3.1 berikut ini
Tabel 3.1 Tabel Dokumentasi Naratif Usecase klasifikasi email
Nama Usecase Download email
Aktor Pengguna
Brief Description Usecase ini menggambarkan pengguna dapat melakukan
download terhadap email
Pre-condition Pengguna menginput ID ( server,account,password,port)
Basic Flow Kegiatan Aktor Respon Sistem
1. Membuka menu email
pada aplikasi
3. Menginput ID pada
kotak dialog Receive
Email lalu tekan
download
5. Melihat tampilan list
email yang ada
2. Mengklik submenu download
yang berisi Receive Email berupa
(server,account,password,port,total)
4. Sistem akan melakukan
autentifikasi terhadap inputan ID,
jika salah maka akan kembali lagi
ke kotak dialog dan jika benar
maka sistem akan mendownload
inbox email .
Alternate Flow -
Post-condition Email sudah terdownload dan ditampilkan pada halaman
Dokumen naratif pada klasifikasi email pada download email, untuk usecase pilih
view list email terdapat pada tabel 3.2 berikut ini
Tabel 3.2 Tabel Dokumentasi Naratif Usecase View List Email
Nama Usecase View list email / full email
Aktor Pengguna
Brief
Description
Usecase ini menampikan inbox email ( No, Form, Subject, Date
Time)
Pre-condition Pengguna masuk ke menu utama tampilan list email
Basic Flow Kegiatan Aktor Respon Sistem
1. Mengklik email yang
ingin dilihat
3. Memilih tombol exit jika
ingin kluar dari aplikasi
tersebut
2. Menampilkan keseluruhan isi
dari email yang ingin dlihat
4. Sistem akan otomatis keluar
Alternate Flow -
Post-condition View list sudah dilhat secara detail dan melakukan penyimpanan
Sedangkan untuk dokumentasi naratif pada aplikasi klasifikasi email dengan
algoritma vector space model untuk usecase pilih menu filtering terdapat pada tabel
3..3 berikut ini
Tabel 3..3 Tabel Dokumentasi Naratif Usecase Klasifikasi
Nama Usecase Clasification
Aktor Pengguna
Brief
Description
Usecase ini akan melakukan klasifikasi dan perangkingan
terhadap email yang sudah di save sebelumnya.
Pre-condition Pengguna masuk ke menu utama clasification
Basic Flow Kegiatan Aktor Respon Sistem
1. Membuka menu
berdasarkan sender, subject, date
time, full email(body)
4. Sistem akan memberikan
pilihan klasifikasi berdasarkan
sender ,subject, date time, body
6. Menampilkan folder klasifikasi
berdasarkan sender
14.sistem akan lansung keluar
otomatis
Alternate Flow -
Sedangkan untuk dokumentasi naratif pada aplikasi klasifikasi email untuk mengirim
email untuk usecase pilih menu send email terdapat pada tabel 3..4 berikut ini
Tabel 3.4 Tabel Dokumentasi Naratif Usecase send email
Nama Usecase Send email
Aktor Pengguna
Brief
Description
Usecase ini akan melakukan pengiriman email (send email)
Pre-condition Pengguna masuk ke menu utama email
Basic Flow Kegiatan Aktor Respon Sistem
1. Membuka menu email
3. Mengisi form smtp send
email yakni (account,
password, to, subject,
messages, attach file) lalu
tekan send
2. Menampilkan smtp send email
berisi (server, port, account,
password, to, subject, messages,
attach file, send)
4. Sistem akan mengirim email
tersebut
Alternate Flow -
Post-condition Sistem akan menampilkan script success jika email telah
3.2.4. Activity Diagram
Activity diagram menggambarkan berbagai alir aktivitas dalam sistem yang dirancang,
bagaimana masing-masing alir berawal, decision yang mungkin terjadi, dan
bagaimana mereka berakhir.
Sebuah aktivitas dapat direalisasikan oleh satu usecase atau lebih. Aktivitas
menggambarkan proses yang berjalan, sementara usecase menggambarkan bagaimana
aktor menggunakan sistem untuk melakukan aktivitas. Gambar 3.9 berikut ini akan
mengilustrasikan activity diagram menggunakan menu utama.
sistem
Pengguna
Membuka Aplikasi Menampilkan main menu
Email Clasification
Tampilan menu dipilih
Activity diagram untuk pilihan menu dapat dilihat pada Gambar 3.10
berikut.
Sistem Pengguna
Menampilkan menu email
Pilih download
Menampilkan form receive mail
Menginput ID ( server,user,pass,port)
Proses download
Menampilkan hasil download
Untuk pilihan filtering, activity diagramnya dapat dilihat pada Gambar 3.11
berikut
Sistem Pengguna
Menampilkan menu klasifikasi
Memasukkan kata kunci
Menampilkan klasifikasi berdasarkan sender,subject,body
Memilih pengklasifikasian berdasarkan fieldnya
Proses klasifikasi
Menampilkan hasil klasifikasi
Untuk pengiriman email, activity diagramnya dapat dilihat pada Gambar 3.12
berikut
Sistem Pengguna
Menampilkan menu email
Menglik send email
Menampilkan form smtp send email
Mengisi form smtp send email
Proses pengiriman (send)
Menampilkan (email sent)
3.3. Perancangan antar muka
Perancangan antarmuka dibuat agar tampilan aplikasi lebih user friendly sehingga
mudah dipahami dan digunakan oleh pengguna. Perancangan antarmuka aplikasi
klasifikasi email ini terdiri dari beberapa tampilan, yaitu menu utama, halaman untuk
mendownload email dan mensend email, halaman untuk menklasifikasi email. Berikut
ini adalah rancangan antarmuka aplikasi.
3.3.1. Menu Utama
Rancangan menu utama merupakan tampilan pertama yang muncul saat aplikasi
dijalankan. Pada rancangan menu utama terdiri dari lima sub menu :
a. Sub menu Email
b. Sub menu klasifikasi
Rancangan menu utama dapat dilihat pada Gambar 3.13 berikut ini.
__
x
Klasifikasi
Aplikasi pengklasifikasian email
1 2
Classification No
3
4 6
Subject Date Time
Form
Keterangan :
1. Menu email untuk masuk ke form download dan send email.
2. Menu klasifikasi merupakan menu untuk masuk ke form klasifikasi.
3. No,From,Subject,Date Time adalah berisi email email yang nantinya di
download.
3.3.2. Menu email
Rancangan menu email merupakan halaman untuk melakukan proses download email
Rancangan menu email dapat dilihat pada Gambar 3.14 berikut ini.
x
Aplikasi Klasifikasi email dengan Vector Space Model
1 Login
Server : Account
Password
Port
Login_Form
pop.gmail.com
995
Download
2
3
Gambar 3.14 Rancangan Antarmuka Menu Email
Keterangan
1. Download untuk masuk ke form pengisian (receive email)
2. Receive email adalah form halaman untuk pengisian account dan password
3.3.3. Menu sub email
Rancangan menu email merupakan halaman untuk melakukan proses send email .
Rancangan menu email dapat dilihat pada Gambar 3.18 berikut ini.
x
Aplikasi Klasifikasi email dengan Vector Space Model
1 Send Email
Server
Port
Account
Password
To
Subject
Message
Attach Send
Smtp & Send email 2
Smtp.gmail.com 587
Gambar 3.15 Rancangan Antarmuka Send Email
Keterangan
1. Send email untuk masuk ke form pengisian (smtp & send email)
2. Send email adalah form halaman untuk pengisian account dan password .
3.3.4. Menu klasifikasi
Rancangan menu klasifikasi merupakan halaman untuk melakukan klasifikasi pada
email. Rancangan menu filter dapat dilihat pada Gambar 3.19 berikut ini
x
Aplikasi Klasifikasi email dengan Vector Space Model
Go Filter 1
Field
Form Address
Subject
Klasifikasi berdasarkan
Form Address
3
Date Time
Full Email
2
Gambar 3.16 Rancangan antarmuka menu filter
Keterangan:
1. Menu Filter untuk masuk ke form pengisian kata kunci
2. Text box pengisian kata kunci
BAB 4
IMPLEMENTASI DAN PENGUJIAN
4.1 Implementasi
Implementasi merupakan tahapan untuk meletakkan aplikasi untuk dapat dioperasikan
Dengan kata lain, tahapan ini merupakan kelanjutan dari tahapan perancangan dimana
rancangan aplikasi yang telah dibuat diwujudnyatakan dalam bahasa pemrograman.
Dalam bab ini akan dibahas form- form hasil implementasi aplikasi. Program ini dapat
dijalankan dengan konfigurasi computer sebagai berikut:
1. Processor Intel® Core ™ i3 CPU
2. RAM 1 Gb
3. Operating Sistem Windows 7
4. VGA Card ATI Mobility Radeon ™ HD 5470
5. Mouse
6. Keyboard
7. Hard Disk 320 GB
Dalam pembuatan sistem, perangkat lunak yang digunakan adalah visual basic 2010
dan access 2007 sebagai databasenya.
4.2 Pengujian
Pengujian yang dilakukan dalam sistem ini adalah jalannya algoritma vector space
model dalam menentukan peringkat sesuai dengan kata kunci yang diinput. Dalam
pengklasifikasian inbox email berdasarkan form address, subject, date/time, full email
sistem akan menampilkan ranking dan urutan sesuai dengan keyword yang ingin
4.2.1 Tabel Pada Acesss
Terdapat dua tabel yang peneliti buat pada Acesss Database. Terdiri dari tabel
download dan tabel classified. Adapun penjelasannya akan dipaparkan satu persatu
1.Tabel download
Tabel download terdiri dari enam kolom dengan no, from, subject, date time, content,
rank. Hasil pengunduhan email akan otomatis tersimpan dalam database sistem.
Seperti terlihat pada tabel 4.1 berikut.
2.Tabel classified
Tabel classified terdiri dua kolom dengan kata kunci (keyword) dan jenis klasifikasi
seperti terlihat pada tabel 4.2 berikut.
Gambar 4.2 Tabel Classified
4.2.2 Tampilan Awal Sistem
Adapun hasil implementasi form yang telah dirancang pada sistem sebagai berikut
1.Tampilan utama (Home)
Home adalah form yang pertama kali muncul pada saat aplikasi mulai dijalankan.
Pada form ini terdapat dua form menu yaitu:
1. Menu email
Gambar 4.1 Tampilan Awal Sistem
Pada form utama terdapat 2 menu pilihan utama, yaitu sebagai berikut:
1.Email
Pengguna yang ingin masuk ke login_form untuk melakukan pengisian dan
pengunduhan email dan melakukan pengiriman email dapat menggunakan menu
email. Ketika pengguna mengklik menu email maka submenu email akan ditampilkan.
Tampilan submenu pada menu email dapat dilihat seperti pada gambar 4.2
Pada menu email ini terdapat 2 buah submenu yaitu sebagai berikut:
Download
Ketika submenu download diklik maka akan muncul tampilan email_form seperti
pada gambar 4.3. Pada email_form, pengguna lebih dahulu mengisi data untuk
medownload email. Pengguna perlu mengisi account dan password. Setelah
mengisi form tersebut pengguna dapat mengklik download untuk mengunduh
email. Data yang akan diisi terdapat dalam login_form, seperti pada tampilan
gambar 4.3 berikut
Gambar 4.3 Login_Form
Pada login_form ini terdapat beberapa data yang perlu diisi, yang berguna sebagai
autentifikasi untuk memproses pengunduhan email. Setelah mengisi account dan
password maka pengguna dapat mengklik button download untuk mengunduh
inbox email yang ada pada account gmail pengguna.
Jika pengguna salah mengisi account dan passwordnya maka aplikasi akan
memunculkan sebuah form yang menandakan account dan password yang
Gambar 4.4 Tampilan form not accepted
Jika pengguna tidak mengisi account dan passwordnya maka aplikasi akan
memunculkan form yang menandakan pengguna harus mengisinya terlebih
dahulu. Seperti pada gambar 4.5 berikut
Gambar 4.5 Tampilan complete input
Jika pengguna sudah benar dalam pengisian account maupun passwordnya maka
akan muncul form yang menandakan welcome pada pengguna. Seperti pada
gambar 4.6 berikut
Send Email
Submenu kedua pada menu login adalah submenu send email. Submenu ini dapat
digunakan oleh pengguna untuk mengirim email seperti gambar 4.7 berikut
Gambar 4.7 Tampilan Send_Email
Pada send_email ini terdapat beberapa data yang perlu diisi, yang berguna sebagai
autentifikasi untuk memproses pengiriman email. Hal yang dilakukan adalah
mengisi account dan password pengguna kemudian mengisi nama account yang
mau dituju lalu mengisi subject dan pesan serta dapat mengattach file yang ingin
dilampirkan . Setelah itu mengklik button send untuk mengirim email.
2. Clasification.
Pengguna yang ingin mengklasifikasi email yang sudah diunduh dapat menggunakan
menu ini. Ketika pengguna mengklik menu ini maka akan tampil submenu filter.
Gambar 4.8 Tampilan submenu classification
Pada menu classification terdapat sebuah submenu yaitu submenu filter.
Filter
Ketika pengguna mengklik filter maka akan muncul form_filtering yang nantinya
akan mengklasifikasikan email sesuai dengan keyword yang diketik oleh
pengguna. Tampilan form_filtering adalah sebagai berikut.
Gambar 4.9 Tampilan Filtering_Form
Pada filtering_form ini pengguna dapat mengklasifikan email yang sudah diunduh
berdasarkan kata kunci dan berdasarkan field yang ada. Dalam aplikasi ini field