• Tidak ada hasil yang ditemukan

KLASIFIKASI PENGGUNAAN PROTOKOL KOMUNIKASI PADA TRAFIK JARINGAN MENGGUNAKAN ALGORITMA K- NEAREST NEIGHBOR.

N/A
N/A
Protected

Academic year: 2017

Membagikan "KLASIFIKASI PENGGUNAAN PROTOKOL KOMUNIKASI PADA TRAFIK JARINGAN MENGGUNAKAN ALGORITMA K- NEAREST NEIGHBOR."

Copied!
37
0
0

Teks penuh

(1)

SKRIPSI

KLASIFIKASI PENGGUNAAN PROTOKOL KOMUNIKASI

PADA TRAFIK JARINGAN MENGGUNAKAN ALGORITMA

K-NEAREST NEIGHBOR

I KOMANG KOMPYANG AGUS SUBRATA

JURUSAN TEKNIK ELEKTRO

FAKULTAS TEKNIK UNIVERSITAS UDAYANA

▸ Baca selengkapnya: sebutkan 5 komunikasi data melalui jaringan internet pada ponsel

(2)

i

SKRIPSI

KLASIFIKASI PENGGUNAAN PROTOKOL KOMUNIKASI

PADA TRAFIK JARINGAN MENGGUNAKAN ALGORITMA

K-NEAREST NEIGHBOR

I KOMANG KOMPYANG AGUS SUBRATA (1104405026)

JURUSAN TEKNIK ELEKTRO

FAKULTAS TEKNIK UNIVERSITAS UDAYANA

JIMBARAN-BALI

(3)

KLASIFIKASI PENGGUNAAN PROTOKOL KOMUNIKASI PADA

TRAFIK JARINGAN MENGGUNAKAN ALGORITMAK-NEAREST

NEIGHBOR

Skripsi Ini Diajukan Sebagai Persyaratan Memperoleh Gelar Sarjana S1 (Starata1)

Pada Jurusan Teknik Elektro Fakultas Teknik Universitas Udayana

I KOMANG KOMPYANG AGUS SUBRATA NIM 1104405026

(4)

i

LEMBAR PERNYATAAN ORISINALITAS

Tugas Akhir / Skripsi ini adalah hasil karya saya sendiri, dan semua sumber baik yang dikutip maupun dirujuk telah saya nyatakan dengan benar.

Nama : I Komang Kompyang Agus Subrata

NIM : 1104405026

TandaTangan :

(5)
(6)

i

KATA PENGANTAR

Om Swastyastu puji syukur kehadapan Ida SangHyang Widhi Wasa/Tuhan

Yang Maha Esa, karena atas segala limpahan berkat dan Rahmat-Nya, sehingga

proposal yang berjudul ʻʻKLASIFIKASI PENGGUNAAN PROTOKOL

KOMUNIKASI PADA TRAFIK JARINGAN MENGGUNAKAN

ALGORITMA K-NEAREST NEIGHBORini dapat diselesaikan dengan tepat

waktu. Tugas akhir ini disusun untuk memenuhi salah satu syarat dalam

menyelesaikan pendidikan sarjana strata satu (S1) pada Jurusan Teknik Elektro

Fakultas Teknik Universitas Udayana.

Terwujudnya Tugas akhir ini tidak lepas dari bantuan berbagai pihak yang telah

mendorong dan membimbing penulis, baik tenaga, ide-ide, maupun pemikiran.

Oleh karena itu dalam kesempatan ini penulis ingin mengucapkan terimakasih

yang sebesar-besarnya kepada :.

1. Bapak Prof. Ir. Ngakan Putu Gede Suardana, MT.,.Ph. selaku Dekan Fakultas Teknik Universitas Udayana.

2. Bapak Wayan Gede Ariastina, ST.M.Engsc.Ph.D selaku Ketua Jurusan Teknik Elektro Fakultas Teknik Universitas Udayana.

3. BapakDr. I Made Oka Widyantara, ST., MT.selaku dosen pembimbing I yang telah banyak memberikan arahan, waktu, semangat serta saran-saran

selama penyusunan tugas akhir.

4. Ibu Ir.Linawati. MEngSc.PhD. selaku dosen pembingbing II yang telah banyak memberikan arahan, waktu, semangat, serta saran-saran selama

penyusunan tugas akhir.

5. Bapak Ir. I Made Mataram, M.Erg.,MT selaku pembimbing akademik yang telah membimbing dari semester 1, memberikan semangat dan

dukungan dalam menjalani perkuliahan.

6. Bapak Dandy Permana Hostiadi yang telah membimbing penulis, memberikan motivasi dan dukungan dalam pembuatan tugas akhir.

7. Bapak dan Ibu beserta keluarga besar atas motivasi, dukungan, serta

(7)

8. Rekan - rekan mahasiswa angkatan 2011 Fakultas Teknik Elektro

Universitas Udayana.

Penulis menyadari bahwa tugas akhir ini masih jauh dari kesempurnaan, oleh karena itu kritik saran yang membangun dari berbagai pihak sangat penulis harapkan demi perbaikan-perbaikan ke depan.

Akhir kata, Saya mohon maaf yang sebesar-besarnya apabila dalam penyusunan tugas akhir ini terdapat banyak kesalahan. Semoga tugas akhir ini dapat bermanfaat khususnya bagi penulis tugas akhir ini dan pada umumnya bagi para pembaca.

(8)

i ABSTRAK

Trafik jaringan internet adalah lalu lintas komunikasi data dalam jaringan yang ditandai dengan satu set aliran statistik dengan penerapan pola terstruktur. Pola terstruktur yang dimaksud adalah informasi dari header paket data. Klasifikasi yang tepat terhadap sebuah trafik internet sangat penting dilakukan terutama dalam hal disain perancangan arsitektur jaringan, manajemen jaringan dan keamanan jaringan. Analisa terhadap suatu trafik jaringan komputer merupakan salah satu cara mengetahui penggunaan protokol komunikasi jaringan komputer, sehingga dapat menjadi dasar penentuan prioritas Quality of Service (QoS). Dasar pemberian prioritasQoSadalah dengan penganalisaan terhadap data trafik jaringan. Pada penelitian ini melakukan klasifikasi terhadap data capture Trafik Jaringan yang di olah menggunakan Algoritma K-Neaerest Neighbor (K-NN). Tools yang digunakan untuk capture Trafik Jaringan yaitu aplikasi wireshark. Dari hasil observasi terhadap dataset trafik jaringan dan melalui proses perhitungan menggunakan Algoritma K-NN didapatkan sebuah hasil bahwa nilai yang dihasilkan oleh klasifikasi K-NN memiliki tingkat keakuratan yang sangat tinggi. Hal ini dibuktikan dengan hasil perhitungan yang mencapai nilai 99,14 % yaitu dengan perhitungan k = 3.

(9)

ABSTRACT

Network traffic internet traffic is data communication in a network characterized by a set of statistical flow with the application of a structured pattern. Structured pattern in question is the information from the packet header data. Proper classification to an Internet traffic is very important to do, especially in terms of the design of the design of the network architecture, network management and network security. The analysis of computer network traffic is one way to know the use of the computer network communication protocol, so it can be the basis for determining the priority of Quality of Service (QoS). QoS is the basis for giving priority to analyzing the network traffic data. In this study the classification of the data capture network traffic that though the use of K-Neaerest Neighbor algorithm (K-NN). Tools used to capture network traffic that wireshark application. From the observation of the dataset and the network traffic through the calculation process using K-NN algorithm obtained a result that the value generated by the K-NN classification has a very high level of accuracy. This is evidenced by the results of calculations which reached 99.14%, ie by calculating k = 3.

(10)

i DAFTAR ISI

Halaman

JUDUL. ... i

LEMBAR PERSYARATAN GELAR... ii

LEMBAR PERNYATAAN ORISINALITAS. ... iii

LEMBAR PENGESAHAN ... iv 1.1. Latar Belakang ... 1

1.2 Rumusan Masalah ... 2

1.3 Tujuan Penulisan ... 3

1.4 Manfaat Penulisan ... 3

1.5 Ruang Lingkup Dan Batasasn Masalah ... 3

1.6 Sistematika Penulisan ... 4

BAB II : TINJAUAN PUSTAKA 2.1 Tinjauan Mutakhir... ... 5

2.2 Tinjauan Pustaka ... 7

2.2.1 Data Mining ... 7

2.2.2 Klasifikasi... 11

2.2.3 Protokol Jaringan………... 11

2.2.4 AlgoritmaK-NN ... 16

2.2.4.1 ProsesK-NN... 17

2.2.4.2 Penerapan AlgoritmaK-NN………... 17

(11)

2.2.5 Topologi Jaringan... 18

2.2.6 Wireshark ... 19

2.2.7 Pentaho DataIntegration (PDI)... 20

BAB III : METODE PENELITIAN 3.1 Lokasi dan Waktu Penelitian ... 23

3.2 Sumber dan Jenis Data Penelitian... 23

3.2.1 Sumber Data... 23

3.2.2 Metode Pengumpulan Data... 24

3.2.3 Jenis Data Penelitian ... 24

3.3 Alat Penelitian... 24

3.4 Tahapan Penelitian... 25

3.4.1 Pengembangan Model Data Mining. ... 25

3.4.1.1 Pembentukan Data Latih... 25

3.4.1.2 KlasifikasiK-NN... 28

3.4.1.3 Implementasi denganMATLAB ... 30

3.4.1.4 Implementasi ModelAgoritmaPadaMATLAB ... 32

3.4.2 Metode Analisis ... 33

BAB IV HASIL DAN PEMBAHASAN 4.1 Pengolahan Data Mentah ... 35

4.1.1 Transformasi Data... 37

4.2 Perhitungan Data Mining ... 39

4.3 Perhitungan Akurasi... 42

4.5 Evaluasi... 44

4.5.1 Hasil Klasifikasi Algoritma K-NN ... 44

4.5.2 Hasil Akurasi ... 47

BAB V KESIMPULAN DAN SARAN 5.1 Simpulan ... 49

(12)

i

DAFTAR TABEL

Halaman

Tabel 2.1Tinjauan mutakhir (state of the art)... 5

Tabel 2.2Tinjauan Mutahir (State of the art ) Lanjutan ... 6

Tabel 2.3Perbedaan data mining dengan yang bukan data mining. ... 8

Table 2.4Confusion matrix... 18

Tabel 3.1Model label kelas ... 32

Tabel 4.1Model klas label ... 37

Tabel 4.2Data yang telah dilakukan inisialisasi ... 38

Tabel 4.3Data Sampel (training) ... 39

Tabel 4.4DataTesting(uji)... 39

Tabel 4.5Data Hasil Perhitungan Perbandingan Jarak ... 40

Tabel 4.6Data yang telah diurutkan ... 41

Tabel 4.7Data Hasil Klasifikasi ... 41

Tabel 4.8hasil klasifikasiK-NN... 41

Tabel 4.9Confusion matrix ... 42

(13)

DAFTAR GAMBAR

Halaman

Gambar 2.1Gambar Tahapan Data Mining ... 9

Gambar 2.2Topologi Jaringan Universitas Udayana... 19

Gambar 2.3Gambar aplikasi wireshark... 18

Gambar 2.4Pengolahan data pada pentaho... 21

Gambar 3.1Gambaran umum sistem ... 26

Gambar 3.2Datacapture tools wireshark... 27

Gambar 3.3Penempatan capturing data ... 27

Gambar 3.4flowchart Algoritma K-NN... 29

Gambar 4.1Input File .csv ... 35

Gambar 4.2Filter format atribut menggunakan pentaho ... 35

Gambar 4.3HasilOutputfilter format atribut... 36

Gambar 4.4Banyak protokol berdasarkan prioritas... 45

Gambar 4.5Banyak length range berdasarkan prioritas ... 46

Gambar 4.6Banyak counting range berdasarkan prioritas ... 46

(14)

DAFTAR SINGKATAN

K-NN = K-Nearest Neighbor

SVM = Support Vector Machine

JST = Jaring Saraf Tiruan

WWW = World Wide Web

HTTP = Hypertext Transfer Protocol

DNS = Domain Name System

UDP = User Datagram Protokol

MAD = Mean Absolute Difference

TCP = Transmission Control Protocol

IMAP = Internet Message Access Protocol

SSH = Secure Shell Hosting

FTP = File Transfer Protocol

SSL = Secure Socket Layer

Qos = Quality Of Service

GUI =Graphical User Interface

TCP = Transmission Control Protocol

SNMP = Simple Network Management Protocol

RARP = Reverse Address Resolution Protocol

(15)

1

BAB I PENDAHULUAN

1.1 Latar Belakang

Pada saat ini komunikasi data pada jaringan internet telah mencapai

kemajuan yang sangat pesat, ditandai oleh pemakaiannya yang lebih beragam dan

teknologi yang digunakan sudah sangat jauh berbeda. Hingga sudah begitu banyak

variasi data yang disebarkan melalui internet, yang dulunya hanya melewati

paket-paket data biasa, kini sesuai dengan kebutuhan trafik internet sudah dilewati

paket-paket multimedia seperti audio dan video. Hal ini akan berakibat pada

meningkatnya trafik data yang dapat menyebabkan penurunan performansi

jaringan terutama pada jaringan yang memilikibandwidthterbatas (Azhari, 2006).

Trafik jaringan internet adalah lalu lintas komunikasi data dalam jaringan

yang ditandai dengan satu set aliran statistik dengan penerapan pola terstruktur.

Pola terstruktur yang dimaksud adalah informasi dari header paket data.

Klasifikasi yang tepat terhadap sebuah trafik internet sangat penting dilakukan

terutama dalam hal disain perancangan arsitektur jaringan, manajemen jaringan

dan keamanan jaringan. Klasifikasi yang dilakukan adalah berdasarkan atas

banyaknya tipe aktifitas komunikasi. Aktifitas komunikasi dalam jaringan

komputer diatur dalam proses komunikasi menggunakan protokol jaringan.

Analisa terhadap suatu trafik jaringan komputer merupakan salah satu cara

mengetahui penggunaan protokol komunikasi jaringan komputer, sehingga dapat

menjadi dasar penentuan prioritas Quality of Service (QoS). Banyaknya

penggunaan protokol jaringan dalam suatu komunikasi terkadang menuntut

adanya penggunaan prioritas layanan komunikasi seperti kualitias troughput,

waktu tunda, kehandalan dan keamanan komunikasi. Penggunaan pioritas layanan

sering disebut dengan istilah QoS. Dasar pemberian prioritas QoSadalah dengan

(16)

2

Network Traffic Classification Using Correlation Information dilakukan oleh Jun

Zhang, dkk (2011) adalah klasifikasi yang menggunakan metode K-Neaerest

Neighbor (K-NN) pada trafik jaringan. Dimana pengklasifikasian ini mampu

meningkatkan kinerja klasifikasi yang efektif dengan memasukkan informasi ke

dalam pengklasifikasian.

Penerapan teknik klasifikasi K-NN, juga dilakukan oleh (Kim dkk, 2008)

dan (Tom dkk, 2001), pada klasifikasi tersebut memerlukan prosedur pelatihan

intensif untuk parameter klasifikasi. Analisis terhadap algoritma K-NN juga

dilakukan oleh Duda, dkk (2001), dimana K-NN mampu menangani klasifikasi

dalam jumlah kelas yang besar. Dalam sudut pandang ini, maka K-NN dapat

diterapkan untuk klasifikasi lalu lintas di lingkungan jaringan yang kompleks.

Duda, dkk (2001), juga menjelaskan bahwa klasifikasi K-NN dapat mencapai

kinerja hampir sama dengan pengklasifikasi parameter Support Vector Machine

(SVM) dan Jaring Saraf Tiruan (JST).

Berdasarkan hasil-hasil penelitian diatas, maka penelitian ini mengusulkan

teknik klasifikasi trafik jaringan komputer Universitas Udayana menggunakan

algoritma K-NN. Sasarannya adalah untuk memperoleh parameter atau klasifikasi

Qos yang tepat untuk trafik jaringan Universitas Udayana. Informasi data trafik

internet Universitas Udayana diambil atau diperoleh melalui mekanisme Capture

data menggunakan aplikasi perangkat lunak wireshar. Hasil data trafik capture

akan diolah dengan proses data maining dengan menggunakan algoritma K-NN.

Algoritma K-NN mengklasifikasi Qos berdasarkan tingkat kemiripan data uji

dengan data pelatihan.

1.2 Rumusan Masalah

Berdasarkan latar belakang yang telah diuraikan, maka rumusan

permasalahan yang akan dibahas lebih lanjut dalam penelitian ini adalah sebagai

berikut:

1. Bagaimanakah menerapkan teknik K-NN untuk klasifikasi trafik jaringan di

(17)

3

2. Bagaimanakah Akurasi trafik jaringan internet Universitas Udayana

didasarkan pada label kelas yang sudah ditetapkan ?

1.3 Tujuan

Menghasilkan system pengklasifikasian dalam jaringan komputer dengan

penggunaan data capture trafik jaringan yang diolah menggunakan algoritma

K-NN.

1.4 Manfaat

Adapun manfaat yang dapat diambil dari penyusunan tugas akhir ini adalah

sebagai berikut:

1. Bagi penulis, dapat memperkaya pengetahuan di bidang Pengklassifikasi

trafik jaringan menggunakan metode K-NN.

2. Terbentuknya klasifikasi penentu Qos jaringan komputer dengan proses

klasifikasi yang didapat dari datacapturetrafik jaringan sehingga dalam hal

pembacaan tidak secara manual yang mengharuskan membaca dari record

dalam jumlah besar.

1.5 Ruang Lingkup Dan Batasan Masalah

Dengan luasnya cakupan yang dapat terkait dengan tugas akhir ini dan

untuk keseragaman pemahaman dalam penelitian, maka terdapat batasan-batasan

yang perlu diberlakukan pada tugas akhir ini. Adaupun batasan permasalahan

yang penulis angkat pada penelitian ini adalah :

a. Penggunaan data input yang digunakan adalah dari capture trafik jaringan

dalam bentuk .csv yang di dapat dari penggunaan tool wireshark.

b. Algoritma pengklasifikasian yang digunakan adalah K-NN.

c. Data set yang digunakan untuk proses klasifikasi adalah dengan

membangun dataset tersendiri.

d. Waktu pengambilan trafik jaringan yang dilakukan adalah selama 4 menit.

(18)

4

1.6 Sistematika Penulisan

Sistematika penulisan dalam penyusunan tugas akhir ini terdiri dari pokok

pembahasan yang saling berkaitan antara satu dengan lainnya, yaitu :

BAB I PENDAHULUAN

Bab ini membahas mengenai gambaran umum penelitian mulai dari

latar belakang, rumusan masalah, tujuan penulisan, manfaat penelitian,

batasan masalah dan sistematika penulisan.

BAB II TINJAUAN PUSTAKA

Bab ini berisikan teori-teori dasar yang digunakan dalam

pengklasifikasian penggunaan protocol komunikasi pada trafik jaringan

menggunakan algoritma K-NN sebagai penentuQos.

BAB III METODE PERANCANGAN SISTEM

Bab ini menjelaskan mengenai lokasi dilakukan penelitian, waktu

penelitian dimulai, sumber dan jenis data yang akan diolah dalam penelitian,

alat-alat penunjang dalam penelitian, dan tahapan penelitian yang dimulai

dari alur analisis penelitian, hingga simulasi sistem pengklasifikasian

menggunakan algoritma K-NN.

BAB IV HASIL DAN PEMBAHASAN

Pada bab ini akan dibahas mengenai penerapan algoritma k-nearest

neighborke dalam sistem serta pengujiannya.

BAB V PENUTUP

Dalam bab ini akan dijelaskan mengenai kesimpulan yang didapatkan

dari pembahasan tentang sistem pengklasifikasian Trafik Jaringan dengan

menggunakan algoritmak-nearest neighbor, disertai beberapa saran sebagai

(19)
(20)

5

BAB II

KAJIAN PUSTAKA

2.1 Tinjauan Mutakhir

Penelitian “Klasifikasi Penggunaan Protokol Komunikasi Pada Trafik

JaringanMenggunakan Algoritma K-Nearest Neighbor" disusun menggunakan

acuan beberapa referensi yang membahas topik berkaitan dengan klasifikasi trafik

jaringan. Beberapa referensi yang akan digunakan sebagai acuan pengembangan

penelitian ditentukan berdasarkan topik terkait penelitian, metode yang

digunakan, dan algoritma simulasi yang diterapkan dalam penelitian tersebut. Hal

ini bertujuan untuk menentukan batasan-batasan masalah yang akan dibahas lebih

lanjut dalam penelitian ini. Dalam hal ini penulis memilih beberapa referensi

sebagai acuan penelitian serupa dengan metode yang digunakan, dan alur

pengembangan yang berbeda satu sama lain. Uraian singkat referensi tersebut

adalah sebagai berikut.

Tabel 2.1Tinjauan Mutakhir (State of the art)

No Nama

Pada penelitian ini

melakukan sebuah

Pada penelitian ini

algoritma K-NN telah

menunjukkan kinerja

klasifikasi yang unggul

dan juga memiliki

beberapa keuntungan

penting, seperti tidak

ada persyaratan

prosedur pelatihan, dan

secara alami mampu

menangani sejumlah

(21)

6

Tabel 2.2Tinjauan Mutakhir (State of the art ) Lanjutan

N

Pada penelitian tersebut

Pengklasifikasitidak

Pada penelitian tersebut menggunakan datapelatihandengankategoriyang berasal dariisi paket, pelatihandan pengujianyangdilakukan dengan menggunakanfituryang berasal darialiran paketyang terdiridari satu atau lebihheader paket

Dalam bukunya menjelaskan bahwa klasifikasiK-NNdapatmencapai kinerja hampir sama denganpengklasifikasiparameter Support Vector Machine (SVM)dan JaringSaraf Tiruan (JST).

2.2 Tinjauan Pustaka 2.2.1 Data Mining

(22)

7

berjumlah besar. Sedangkan menurut Daniel T. Laroes (2005) ada beberapa

definisi dari Data Miring yang diambil dari beberapa sumber. Secara umum data

mining dapat didefinisikan sebagai berikut:

a. Data mining adalah proses menemukan sesuatu yang bermakna dari suatu

korelasi baru, pola dan tren yang ada dengan cara memilah-memilah data

berukuran besar yang disimpan dalam repository, menggunakan teknologi

pengenalan pola serta teknik matematika dan statistic.

b. Data mining adalah analisis pengamatan data set untuk menemukan

hubungan yang tidak berduga dan untuk meringkas data dengan cara atau

metode baru yang dapat dimengerti dan bermanfaat kepada pemilik data.

c. Data mining merupakan bidang ilmu interdisipliner yang menyatakan teknik

pembelajaran dari mesin ( machine learning), pengenalan pola (pattern

recognation), statistic, database, dan visualisasi untuk mengatasi masalah

ekstraksi informasi dari basis data yang benar.

d. Data mining diartikan sebagai suatu proses ekstraksi informasi berguna dan

potensial dari sekumpulan data yang terdapat secara implicit dalam suatu

basis data.

Pada dasarnya data mining berhubungan erat dengan analisis data dan

penggunaan perangkat lunak untuk mencari pola dan kesamaan dalam

sekumpulan data. Ide dasarnya adalah menggali sumber yang berharga dari suatu

tempat yang sama sekali tidak diduga, seperti perangkat lunak data mining

mengekstrasi pola yang sebelumnya tidak terlihat atau tidak begitu jelas sehingga

tidak seorang pun yang memperhatikan sebelumnya. Analisa data mining berjalan

pada data yang cenderung terus membesar dan teknik terbaik yang digunakan

kemudian berorientasi kepada data berukuran sangat besar untuk mendapatkan

kesimpulan dan keputusan paling layak. Data mining memiliki beberapa sebutan

atau nama lain yaitu : knowledge discovery in database (KDD), ekstraksi

pengetahuan (knowledge extraction), analisa data / pola (data / pattern analysis),

kecerdasan bisnis (business intelligence), data archaeology dan data dredging

(23)

8

Terdapat perbedaan antara pengertian data mining dengan bukan data

mining yang diilustrasikan terhadap beberapa situasi sehingga dapat

menggambarkan perbedaan antara data mining dengan yang bukan data mining

yaitu :

Tabel 2.3Perbedaan data mining dengan yang bukan data mining

Bukan Data Mining Data Mining

Mencari ip address dalam log server Menemukan pola ip address yang sering muncul dalamlog server ( pola waktu) Melakukan Query pada database untuk

mencari ip address yang sedang download

Mengelompokkan keterhubungan antara penggunaan bandwidth dengan ip address Memberikan informasi jumlah bandwidth

yang diperlukan dari sejumlah user

Mengelompokkan kategori bandwidth (Contoh : bandwidth SOHOenterprise, coorporate )

Mencari email yang bersifat spam Melakukan pengklasifikasian terhadap email apakah termasuk spam atau bukan

Pada table 2.1 terlihat bahwa data mining tidak hanya melakukan proses

query untuk mendapatkan suatu informasi, melainkan melakukan proses

penggalian dari data yang ada untuk mendapatkan suatu informasi yang berguna

dimana informasi ini sebelumnya tidak diketahui sebelumnya (tersembunyi ).

Dalam teknik data mining terdapat beberapa tahapan dalam prosesnya.

(24)

9

Tahapan yang di representasikan dalam gambar 2.1 mengilustrasikan

bagaimana tiap proses bersifat interaktif dimana pemakaian terlibat langsung atau

dengan perantara knowledge base. Tahapan-tahapan tersebut diantaranya :

a. Pembersihan data (selection)

Pada umumnya data yang diperoleh, baik dari database suatu perusahaan

maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti

data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik.

Selain itu,ada juga atribut-atribut data yang tidak relevan dengan hipotesis

data mining yang kita miliki. Data-data yang tidak relevan itu juga lebih

baik dibuang karena keberadaannya bisa mengurangi mutu atau akurasi dari

hasil data mining nantinya. Garbage in garbage out (hanya sampah yang

akan dihasilkan bila yang dimasukkan juga sampah ) merupakan istilah

yang sering dipakai untuk menggambarkan tahap ini. Pembersihan data juga

akan mempengaruhi performasi dari system data mining karena data yang

ditangani akan berkurang jumlah dan kompleksituasinya.

b. Pra pemrosesan (Preproccessing)

Tidak jarang data yang diperlukan untuk data mining tidak hanya berasal

dari satu database tetapi juga berasal dari beberapa database atau file teks.

Preproccessing data dilakukan pada atribut-atribut yang

mengidentifikasikan entinitas-entinitas yang unik seperti atribut IP address

source, IP address destination, Source Port, Destination Port, Protocoldsb.

Preprocessing data perlu dilakukan secara cermat karena kesalahan pada

integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan

menyesatkan pengambilan aksi nantinya.

c. Transformasi data (Transformation)

Beberapa teknik data mining membutuhkan format data yang khusus

sebelum bisa diaplikasikan. Sebagai contoh beberapa teknik standar seperti

analisis asosiasi dan klastering hanya bisa menerima input data kategorikal.

Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi

(25)

10

pemilihan data yang diperlukan oleh teknik data mining yang dipakai.

Transformasi dan pemilihan data ini juga menentukan kualitas dari hasil

data mining nantinya karena ada beberapa karakteristik dari teknik-teknik

data mining tertentu yang tergantung pada tahap ini.

d. Aplikasi teknik data mining (Data Mining)

Aplikasi teknik data mining sendiri hanya merupakan salah satu bagian dari

proses data mining. Ada beberapa teknik data mining yang sudah umum

dipakai. Kita akan membahas lebih jauh mengenai teknik-teknik yang ada di

seksi berikutnya. Perlu diperhatikan bahwa ada kalanya teknik-teknik data

mining umum yang tersedia di pasar tidak mencukupi untuk melaksanakan

data mining di bidang tertentu atau untuk data tertentu.

e. Evaluasi pola (Interpretation / Evaluation)

Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas

maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada

memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai dengan

hipotesa ada beberapa alternatif yang dapat diambil seperti : menjadikannya

umpan balik untuk memperbaiki proses data mining, mencoba teknik data

mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil

yang di luar dugaan yang mungkin bermanfat.

2.2.2 Klasifikasi

Klasifikasi merupakan proses menemukan sebuah model atau fungsi yang

mendeskripsikan dan membedakan data kedalam kelas-kelas. Klasifikasi

melibatkan proses pemeriksaan karakteristik dari objek dan memasukan objek

kedalam salah satu kelas yang sudah didefinisikan sebelumnya (Han dan kamber,

(26)

11

Umumnya, pengukuran kinerja klasifikasi dapat dilakukan dengan menggunakan

matriks konfusi (confusion matrix).

Dalam klasifikasi ada dua pekerjaan utama yang dilakukan, yaitu

pembangunan model sebagai prototipe dan penggunaan model tersebut untuk

melakukan klasifikasi pada suatu bjek data. Semua algoritma klasifikasi berusaha

membuat model dengan tingkat akurasi tinggi (laju error yang rendah).

Umumnya, model yang dibangun dapat memprediksi data latih dengan benar,

tetapi ketika model berhadapan dengan data uji, barulah kinerja model dari sebuah

algoritma klasifikasi ditentukan. Kerangka kerja klasifikasi meliputi dua langkah

proses yaitu induksi yang merupakan langkah untuk membangun model

klasifikasi dari data latih yang diberikan dan deduksi merupakan proses untuk

menerapkan model tersebut pada data uji sehingga kelas yang sesungguhnya dari

data uji dapat diketahui atau biasa disebut proses prediksi. Gambar 2 merupakan

kerangka kerja klasifikasi yang meliputi dua langkah proses, yaitu induksi yang

merupakan langkah untuk membangun model klasifikasi dari data latih yang

diberikan dan deduksi merupakan proses untuk menerapkan model tersebut pada

data uji sehingga kelas yang sesungguhnya dari data uji dapat diketahui atau biasa

disebut proses prediksi.

2.2.3 Protokol Jaringan

Protocol jaringan merupakan sebuah aturan atau standar yang mengatur

atau mengijinkan terjadinya hubungan, komunikasi dan perpindahan data antara

dua atau lebih titik komputer. protocol dapat diterapkan pada perangkat keras

ataupun perangkat lunak dari keduanya.Protocol digunakan untuk menentukan

jenis layanan yang akan dilakukan pada internet. Protocol dapat di ilustrasikan

sebagai suatu seperangkat aturan perusahaan-perusahaan dan produk software

yang harus melekat. Berikut beberapa macam jenis–jenis protokol komunikasi.

A. HTTP (Hypertext Transfer Protocol)

Suatu protokol yang digunakan oleh WWW (World Wide Web). HTTP

(27)

12

server ke client. HTTP juga mengatur aksi-aksi apa saja yang harus dilakukan

oleh web server dan juga web browser sebagai respon atas perintah-perintah

yang ada pada protokol HTTP ini.

B. HTTPS (HyperText Transport Protocol Secure)

HTTPS (HyperText Transport Protocol Secure) memiliki pengertian sama

dengan HTTP tetapi dengan alasan keamanan (security), HTTPS memberi

tambahan Secure Socket Layer(SSL). Umumnya website yang menggunakan

HTTPS ini adalah website yang memiliki tingkat kerawanan tinggi yang

berhubungan dengan masalah keuangan dan privacy dari pelanggannya

seperti website perbankan dan investasi.

C. DNS (Domain Name System )

DNS (Domain Name System, bahasa Indonesia: Sistem Penamaan

Domain) adalah sebuah sistem yang menyimpan informasi tentang nama host

maupun nama domain dalam bentuk basis data tersebar (distributed database)

di dalam jaringan komputer, misalkan: Internet. DNS menyediakan alamat IP

untuk setiap nama host dan mendata setiap server transmisi surat (mail

exchange server) yang menerima surat elektronik (email) untuk setiap

domain.

file:///C:/Users/User/Downloads/377-814-1-PB.pdf

D. UDP ( User Datagram Protokol)

Adalah salah satu protokol lapisan transpor TCP/IP yang mendukung

komunikasi yang tidak andal (unreliable), tanpa koneksi (connectionless)

antara host-host dalam jaringan yang menggunakan TCP/IP. Protokol ini

didefinisikan dalam RFC 768.

E. TCP (Transmission Control Protocol)

Adalah standar komunikasi data yang digunakan oleh komunitas internet

dalam proses tukar-menukar data dari satu komputer ke komputer lain di

(28)

13

versi rilis p (port) di-manage oleh team porting ke sistem operasi lainnya,

termasuk sistem operasi Linux. Fungsi utama aplikasi ini adalah untuk

mengakses mesin secara remote. Bentuk akses remote yang bisa diperoleh

adalah akses pada mode teks maupun mode grafis/X apabila konfigurasinya

mengijinkan. SCP yang merupakan anggota keluarga SSH adalah aplikasi

pengganti RCP yang aman, keluarga lainnya adalah SFTP yang dapat

digunakan sebagai pengganti FTP.

G. FTP ( File Transfer Protocol )

Adalah sebuah protocol internet yang berjalan di dalam lapisan aplikasi yang

merupakan standar untuk pentransferan berkas (file) computer antar

mesin-mesin dalam sebuah internetwork. FTP atau protocol Transmission Control

Protocol (TCP) untuk komunikasi data antara klien dan server, sehingga di

antara kedua komponen tersebut akan dibuatlah sebuah sesi komunikasi

sebelum transfer data dimulai. FTP hanya menggunakan metode autentikasi

standar, yakni menggunakan User name dan paswordnya yang dikirim dalam

bentuk tidak terenkripsi.

H. SNMP (Simple Network Management Protocol)

SNMP adalah sebuah protokol yang dirancang untuk memberikan

kemampuan kepada pengguna untuk memantau dan mengatur jaringan

komputernya secara sistematis dari jarak jauh atau dalam satu pusat kontrol

saja. Pengolahan ini dijalankan dengan menggumpulkan data dan melakukan

penetapan terhadap variabel-variabel dalam elemen jaringan yang dikelola.

I. ICMP (Internet Control Massage Protocol)

ICMP (Internet Control Message Protocol) adalah salah satu protokol inti dari

keluarga protokol internet. ICMP utamanya digunakan oleh sistem operasi

komputer jaringan untuk mengirim pesan kesalahan yang menyatakan,

sebagai contoh, bahwa komputer tujuan tidak bisa dijangkau. ICMP berbeda

tujuan dengan TCP dan UDP dalam hal ICMP tidak digunakan secara

langsung oleh aplikasi jaringan milik pengguna. salah satu pengecualian

(29)

14

menerima Echo Reply) untuk menentukan apakah komputer tujuan dapat

dijangkau dan berapa lama paket yang dikirimkan dibalas oleh komputer

tujuan.

J. ARP(Address Resolution Protocol).

Suatu data biasanya dikirim melalui ethernet card pada jaringan lokal.

Supaya bisa saling berkomunikasi, ethernet card menggunakan MAC

Address yang besarnya 48 bit, dan setiap ethernet card memiliki MAC

Address yang berbeda. Pada saat hendak mengirimkan data

ke komputerdengan IP tertentu, suatu host pada jaringan ethernet perlu

mengetahui, diatas ethernet address yang manakah tempat IP tsb terletak.

Untuk keperluan pemetaan IP address dengan ethernet address ini, digunakan

protocol ARP (Address Resolution Protocol).

ARP bekerja dengan mengirimkan paket berisi IP address yang ingin

diketahui alamat ethernetnya ke alamat broadcast ethernet, dan semua

ethernet card akan mendengar paket ini. Host yang merasa

memiliki IP address ini akan membalas paket tsb. dengan memgirimkan paket

yang berisi pasangan IP address dan ethternet address. Untuk menghindari

seringnya permintaan seperti ini, jawaban ini disimpan di memori (ARP

cache) untuk sementara waktu.

K. DHCP (Dynamic Host Configuration Protocol)

DHCP (Dynamic Host Configuration Protocol) adalah protokol yang berbasis

arsitektur client/server yang dipakai untuk memudahkan

pengalokasian alamat IP dalam satu jaringan. Sebuah jaringan lokal yang

tidak menggunakan DHCP harus memberikan alamat IP kepada

(30)

15

jaringan yang dapat diberikan oleh DHCP, seperti default

gateway dan DNS server.

L. (SSDP)Protokol Simple Service Discovery Protocol

Protokol Simple Service Discovery Protocol (SSDP) merupakan sebuah

protokol Universal Plug and Play, yang digunakan di dalam sistem

operasi Windows XP dan beberapa merek perangkat jaringan. SSDP

menggunakan notifikasi pengumuman yang ditawarkan oleh

protokolHypertext Transfer Protocol (HTTP) yang memberikan Universal

Resource Identifier (URI) untuk tipe layanan dan juga Unique Service

Name (USN). Tipe-tipe layanan diatur oleh Universal Plug and Play Steering

Committee.

SSDP didukung oleh banyak perangkat firewall Small Office Home

Office (SOHO), di mana host komputer yang berada di belakangnya bisa

membukakan lubang untuk beberapa aplikasi. SSDP juga terdapat di dalam

sistem-sistem pusat media digital (digital media center), di mana pertukaran

media antara komputer dan media center difasilitasi dengan menggunakan

SSDP.

M. Multicast DNS (MDNS)

Multicast DNS (mDNS) merupakan sebuah protokol yang menggunakan

antarmuka pemrograman aplikasi yang mirip dengan sistem DNS unicast tapi

diimplementasikan secara berbeda. Setiap komputer dalam jaringan

menyimpan daftar catatan DNS-nya masing-masing (sebagai contoh: A

record, MX record, PTR record, SRV record dan lain sebagainya) dan saat

klien mDNS hendak mengetahui alamat IP dari sebuah PC dengan

menggunakan namanya, PC yang memiliki catatan A yang bersangkutan akan

menjawabnya dengan menggunakan alamat IP-nya sendiri. Alamat multicast

yang digunakan oleh protokol mDNS ini adalah 224.0.0.251.

(31)

16

Telnet (Telecommunication network)Adalah sebuah protokol jaringan yang

digunakan di koneksi Internet atau Local Area Network. TELNET

dikembangkan pada 1969 dan distandarisasi sebagai IETF STD 8, salah satu

standar Internet pertama. TELNET memiliki beberapa keterbatasan yang

dianggap sebagai risiko keamanan.

O. Netbios Name Service (NBNS)

Netbios Name Service (NBNS) adalah protokol Netbios yang digunakan oleh

aplikasi di OS Windows untuk digunakan pada protokol TCP/IP, sehingga

ketika OS Windows tersebut melakukan koneksi internet maka akan kelihatan

di Wireshark.

2.2.4 AlgoritmaK-NN

Algoritma K-NN adalah suatu metode yang menggunakan algoritma

supervised (Nugroho, 2011). Perbedaan antara supervised learning dengan

unsupervised learning yaitu pada supervised learning bertujuan untuk menemukan

pola baru dalam data dengan menghubungkan pola data yang sudah ada dengan

data yang baru. Sedangkan unsupervised learning, data belum memiliki pola

apapun, dan tujuan unsupervised learning untuk menemukan pola dalam data.

Tujuan dari algoritma K-NN adalah untuk mengklasifikasi objek baru

berdasarkan atribut dan training samples (Larose D, 2005). Dimana hasil dari

sampel uji yang baru diklasifikasikan berdasarkan mayoritas dari kategori pada

K-NN.

2.2.4.1 ProsesK-NN

Prinsip kerja K-Nearest Neighbor adalah mencari jarak antara dua titik yaitu

titik training dan titik testing, yang kemudian dilakukan evaluasi dengan k

(32)

17

Rumus menghitung jarak Euclidean sebagai berikut : dengan mengunakan rumus

euclidean :

( , ) =

(Xi Yi)

...

(2.1)

Dimana, d adalah jarak antara titik pada data training x dan titik datatesting

y yang akan diklasifikasikan, dimana x = x1, x2, …., xi dan y = y1,y2,…., yidan

merepresentasikan nilai atribut serta n merupakan dimensidata atribut (Hans &

Kamber, 2006).

2.2.4.2 Penerapan AlgoritmaK-NN

Sebelum melakukan penerapan algoritma k-nearest neighbor, ada hal yang

harus diperhatikan terlebih dahulu yaitu data training (sampel) dan data testing

(uji) sudah terlebih dahulu ditentukan sebelum dilakukannya proses perhitungan

dengan eclidean distance. Kemudian baru dilakukan tahapan atau langkah dalam

melakukan penerapan algoritma K-Nearest Neighbor.

Langkah-langkah dalam penerapan algoritmaK-NN :

1. Menentukan parameter K (jumlah tetangga paling dekat).

2. Menghitung kuadrat jarak euclid (query instance) masing–masin

obyek terhadap data sampel yang diberikan.

3. Kemudian mengurutkan objek–bjck tersebut kedalam kelompok

yangmempunyai jarakeuclidterkecil.

4. Mengumpulkan kategori Y (Klasifikasinearest neighbor)

5. Dengan menggunakan kategori nearest neighboryang paling mayoritasmaka

dapat dipredisikan nilai query instance yang telah dihitung

2.2.4.3 Pengujian AlgoritmaK-NN

Pengujian kinerja sistem klasifikasi pada algoritma K-NN ini dapat

dilakukan dengan menggunakan confusion matrix. Confusion matrix ini alat yang

berguna untuk menganalisis seberapa baiknya klasifikasi yang kita pakai dapat

(33)

18

Table 2.4Confusion matrix

Kelas hasil prediksi Kelas = 1 Kelas = 0 Kelas asli

(i)

Kelas =1 Kelas = 0

Informasi dalam confusion matrix diperlukan untuk menentukan kinerja

model kalsifikasi yang meliputi akurasi dan laju eror.

Akuras = ……… (2.2)

= 11+ 10

11+ 10+ 01+ 00

Laju eror = ………..(2.3)

= 10+ 01

11+ 10+ 01+ 00

2.2.5 Topologi Jaringan

Topologi jaringan adalah suatu bentuk struktur jaringan yang dibangun

atau diinstalasi sesuai dengan kebutuhan, dan digunakan untuk menghubungkan

antara komputer satu dengan komputer yang lainnya menggunakan media kabel

(34)

19

Gambar 2.2Topologi Jaringan Universitas Udayana

2.2.6 Wireshark

Wiresharkadalah salah satu dari sekian banyak tool Network Analyzer yang

banyak digunakan oleh Network Administrator untuk menganalisa kinerja

jaringannya dan mengontrol lalu lintas data di jaringan yang di kelola.Wireshark

menggunakan interface yang menggunakan Graphical User Interface (GUI).

Wireshark digunakan untuk keperluan analisis, troubleshooting, pengembangan

software dan protokol, serta digunakan untuk tujuan edukasi. Wireshark mampu

menangkap paket-paket data yang ada pada jaringan. Semua jenis paket informasi

dalam berbagai format protokol dapat ditangkap dan dianalisa. Manfaat dari

penggunaan aplikasiwiresharkini yaitu sebagai berikut :

A. Menangkap informasi atau data paket yang dikirim dan diterima dalam

jaringan komputer

(35)

20

C. Mengetahui dan menganalisa kinerja jaringan komputer yang kita miliki

seperti kecepatan akses/share data koneksi jaringan ke internet

Beberapa informasi yang dapat di capture oleh tool wireshark sebagai

informasi network traffic antara lain time elapse (waktu yang dicatat dalam

periode tertentu), source address (berupa IP address ataupun mac address),

protocol (layanan atau service yang berjalan dalam jaringan komputer), length

(ukuran data yang dikirimkan), daninfo (informasi tambahan dari tiap layanan

yang berjalan dalam jaringan komputer). Contoh tampilan dari aplikasi wireshark

adalah pada Gambar 2.2

Gambar 2.3Gambar aplikasiwireshark

2.2.7 Pentaho Data Integration (PDI)

Pentaho Data Integration (PDI) atau Kettle adalah software dari Pentaho

yang dapat digunakan untuk proses ETL (Extraction, Transformation dan

Loading). PDI dapat digunakan untuk migrasi data, membersihkan data, loading

(36)

21

Transformation adalah sekumpulan instruksi untuk merubah input

menjadi output yang diinginkan (input-proses-output). Sedangkan Job adalah

kumpulan instruksi untuk menjalankan transformasi. Ada tiga komponen dalam

PDI: Spoon, Pan dan Kitchen. Spoon adalah user interface untuk membuat Job

dan Transformation. Pan adalah tools yang berfungsi membaca, merubah dan

menulis data. Sedangkan Kitchen adalah program yang mengeksekusi job. Berikut

merupakan pengolahan data pada pentaho.

Gambar 2.4Pengolahan data pada pentaho

Berdasarkan pada Gambar 2.4, dapat dijabarkan sebagai berikut :

1. CSV file input, proses input data berupa file .csv

2. Sort rows, proses memberikan size maksimal pada tabel

3. Sorted marge, proses menyatukan keseluruhan data

4. Group by, proses pengolahan data mentah (preprocessing data)

(37)

22

6. Sorted marge 2, proses menyatukan keseluruhan data setelah dilakukan

preprocessing

7. Modified java script value, proses memberikan batas length range dan

count range dengan menggunakan java script

Gambar

Tabel 2.1 Tinjauan Mutakhir (State of the art)
Tabel 2.2 Tinjauan Mutakhir (State of the art ) Lanjutan
Tabel 2.3 Perbedaan data mining dengan yang bukan data mining
Table 2.4 Confusion matrix
+4

Referensi

Dokumen terkait

Seiring dengan meningkatnya komunikasi data dan kurang terkontrolnya penggunaan Internet di sekolah maka sudah seharusnya sekolah melakukan monitoring trafik Internet untuk

Tujuan penulisan ini adalah menganalisis lalu lintas jaringan pada protokol keamanan jaringan wireless-LAN (WLAN) dengan menggunakan otentikasi Wired

Term Frequency Inverse Document Frequency (TF-IDF) ... Cosine Similarity

[r]

[r]

Untuk mendapatkan data yang nantinya akan digunakan dalam penelitian.. ini, penulis mendapatkannya dari peneliti terdahulu yang

Untuk mengetahui nilai akurasi dari penerapan metode k-nn ini, penulis mencoba melakukan beberapa uji coba dengan enam skenario, yaitu dengan menggunakan data uji

Nilai k yang besar akan memperbesar jumlah kebenaran pada proses klasifikasi, dan setiap skenario pengguna twitter lebih banyak berpendapat bahwa berita vaksinasi di