BAB II LANDASAN TEORI

(1)

1

BAB II

LANDASAN TEORI

2.1 Tinjauan Pustaka

Teori yang digunakan sebagai landasan mengenai pembahasan pada penelitian ini maka diperlukan penjelasan secara teoritis berkaitan dengan pengertian mengenai Website Phising, data mining dan proses Algoritma J48 menggunakan Aplikasi WEKA 3.8. Referensi diambil dari jurnal dan buku yang berhubungan dengan penelitian terkait sebagai berikut:

A. Website Phising

Phising adalah tindakan penipuan yang dilakukan untuk mencoba mendapatkan informasi penting dari user yang menggunakan internet dengan mengirim sejumlah e-mail palsu kepada para user (Parthasarathy & Praisy, 2016). Bahaya dari Phising adalah target dihubungi melalui email, telepon atau pesan teks oleh seseorang yang menyamar sebagai lembaga yang sah untuk memikat individu agar memberikan data sensitif seperti informasi yang dapat diidentifikasi secara pribadi, rincian kartu kredit dan perbankan, serta kata sandi. Di dalam email tersebut biasanya akan terdapat sebuah tautan ke halaman palsu yang tampilannya dibuat persis seperti website yang asli untuk menjebak seseorang.

B. Data Mining

Data Mining merupakan suatu proses menggali sekumpulan data dan mengubahnya dalam bentuk informasi yang bermanfaat bagi pengguna. Data mining memilki beberapa teknik yang terkenal dan sering digunakan oleh peneliti, diantaranya seperti clustering, classification, association, dan beberapa perkembangan teknik sesuai dengan perubahan kecendrungan data pada saat ini.

(2)

2

Data mining merupakan bagian dari Knowledge Discovery Data (KDD) yang merupakan proses ekstraksi informasi yang berguna, tidak diketahui sebelumnya dan tersembunyi dari data (Wajhillah & Yulianti, 2017).

Menurut Fayyad et al. (1996) di dalam buku yang ditulis Suyanto (2017), tugas-tugas data mining dapat dikelompokkan ke dalam enam kelompok berikut ini:

1. Klasifikasi (classification): men-generalisasi struktur yang diketahui untuk diaplikasikan pada data-data baru. Misalkan, klasifikasi penyakit ke dalam sejumlah jenis, klasifikasi email ke dalam spam atau bukan.

2. Klasterisasi (clustering): mengelompokkan data, yang tidak diketahui label kelasnya, ke dalam sejumlah kelompok tertentu sesuai dengan ukuran kemiripannya.

3. Regresi (regression): menemukan suatu fungsi yang memodelkan data dengan galat (kesalahan prediksi) seminimal mungkin.

4. Deteksi anomali (anomaly detection): mengidentifikasi data yang tidak umum, bisa berupa outlier, perubahan atau deviasi yang mungkin sangat penting dan perlu investigasi lebih lanjut.

5. Pembelajaran aturan asosiasi (association rule mining) atau pemodelan kebergantungan (dependency modeling): mencari relasi antar variabel.

6. Perangkuman (summarization): menyediakan representasi data yang lebih sederhana, meliputi visualisasi dan pembuatan laporan.

(3)

3 C. Algoritma J48

Algoritma yang merupakan pengembangan dari ID3 ini dapat mengklasifikasikan data dengan metode pohon keputusan yang memiliki kelebihan dapat mengolah data numerik (kontinyu) dan diskret, dapat menangani nilai atribut yang hilang, menghasilkan aturan-aturan yang mudah diinterpretasikan, dan tercepat diantara algoritma-algoritma yang menggunakan memori utama di komputer. Pada penerapan beberapa kasus teknik klasifikasi, algoritma ini mampu menghasilkan performansi yang bagus. Dengan kelebihan inilah diharapkan algoritma ini bisa menangani studi kasus secara optimal dan diharapkan juga tentunya bagi algoritma ini untuk menghasilkan akurasi dan performansi yang baik (Kaunang, 2018)

Kelebihannya algoritma J48 yaitu:

1. Daerah pengambilan keputusannya sangat kompleks, dapat diubah menjadi lebih spesifik.

2. Tidak diperlukan eliminasi pada proses perhitungan, karena penggunakan pohon keputusan maka pada data uji hanya berdasarkan atau kelas tertentu.

3. Fleksibel dalam memilih fitur dari internal node yang berbeda, pada salah satu kelebihan pada Algoritma j48 ini meningkatkan kualitas keputusan yang dihasilkan.

Sedangkan kekurangan pada metode pohon keputusan J48 yaitu:

1. Terjadi overlap jika kelasnya terlalu banyak.

2. Pengakumulasian jumlah error dari setiap tingkat dalam pohon keputusan yang besar.

3. Kesulitan mendesain pohon keputusan.

4. Hasil keputusan bergantung pada bagaimana pohon tersebut didesain.

Terdapat tiga proses utama pada algoritma J48 sebagai berikut:

(4)

4 1. Mengubah bentuk tabel menjadi tree.

Pada tahap ini, hal yang perlu dilakukan yaitu menentukan atribut mulai dari akar, cabang hingga menuju keputusan. Pendekatan yang digunakan untuk menentukan atribut terpilih menggunakan perhitungan gain ratio dari setiap criteria data sampel, berikut adalah persamaannya:

𝐺𝑎𝑖𝑛𝑟𝑎𝑡𝑖𝑜 𝑆, 𝐴 = 𝐺𝑎𝑖𝑛 (𝑆,𝐴)

𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛 (𝑆,𝐴)

Dimana nilai information gain bermakna seberapa banyak informasi yang diperoleh dengan mengetahui nilai suatu atribut sedangkan nilai split information digunakan untuk suatu atribut yang memiliki banyak instance (lebih dari dua dan beragam).

2. Mengubah model tree menjadi rule

Formula untuk membangkitkan rule didefinisikan sebagai berikut:

𝐼𝐹 𝑝𝑟𝑒𝑚𝑖𝑠 𝑇𝐻𝐸𝑁 𝑘𝑜𝑛𝑘𝑙𝑢𝑠𝑖 (3)

Simpul akar dan cabang akan menjadi premis dari aturan, sedangkan simpul daun akan menjadi bagian dari konklusinya (solusi). Tiap premis yang terdapat dalam satu atribut akan dihubungkan dengan hubungan disjungsi, sedangkan premis yang memiliki lanjutan premis pada cabang selanjutnya akan dihubungkan dengan konjungsi.

3. Menyederhanakan rule

Pada proses penyederhanaan rule, tahapan-tahapan dilakukan sebagai berikut:

A. Membuat tabel distibusi terpadu dengan menyatakan semua nilai kejadian pada setiap rule

………. (2.1)

(5)

5

B. Menghitung tingkat independensi antara kriteria pada suatu rule, yaitu antara atribut dengan target atribut (perhitungan tingkat independensi menggunakan test of independency Chi-Square).

C. Mengeliminasi kriteria yang dianggap tidak perlu, yaitu yang memiliki tingkat independensi tinggi.

D. Unified Modeling Language (UML)

Unified Modeling Language (UML) adalah bahasa pemodelan perangkat

lunak atau system yang terdiri dari sejumlah diagram. Menggambarkan dan memvisualisasikan desain dan aliran program suatu system dari sudut pandang yang berbeda pada tingkat abstraksi yang berbeda. UML dioperasikan untuk tujuan tertentu, biasanya antara lain untuk: merancang perangkat lunak, media komunikasi antara perangkat lunak dengan proses bisnis, mendeskripsikan system secara rinci untuk analisis dan mempelajari apa yang diperlukan system, mendokumentasi system yang ada, proses-proses dan organisasinya (Muslihudin & Oktafianto, 2016).

Diagram yang termasuk dalam Unified Modeling Language (UML) yang akan digunakan dalam penelitian:

1. Activity Diagram; menggambarkan aliran susunan dari aktivitas yang digunakan untuk menjelaskan aktifitas yang dibentuk dalam suatu operasi (Prihandoyo, 2018).

2. Class Diagram; sebuah diagram yang digunakan untuk menggambarkan bagaimana sistem dapat bekerja dalam mengelola data (Algorithm & Unggul, 2019).

(6)

6

3. Use Case Diagram; merupakan gambaran hubungan usecase dan aktor dari sudut pandang pengguna pada proses kebutuhan system. Urutan hubungan transaksi yang dilakukan satu actor (Algorithm & Unggul, 2019).

4. Sequence Diagram; menggambarkan interaksi antara sejumlah objek dengan menunjukan rangkaian pesan dan interaksi antar objek terjadi pada titik tertentu dalam eksekusi sistem(Prihandoyo, 2018).

5. Deployment Diagram; menggambarkan desain fisik dari perangkat keras dan perangkat lunak pada sistem (Muslihudin & Oktafianto, 2016).

E. XAMPP

XAMPP merupakan singkatan X (empat system operasi apapun), Apache, MySQL, PHP, Perl. XAMPP merupakan alat yang menyediakan paket perangkat lunak ke dalam satu buah paket. Dalam paketnya sudah terdapat Apache (web server), MySQL (database), PHP (serverside scripting), Perl, FTP server, phpMyAdmin dan beragam skrip bantu lainnya (Sari et al., 2019).

F. MySQL

MySQL adalah salah satu Database Management System (DBMS) yang multithread, multi-user yang bersifat gratis dan berfungsi untuk mengolah database menggunakan bahasa SQL (Destiningrum & Adrian, 2017).

G. Hypertext Markup Language (HTML)

(7)

7

HTML adalah Bahasa struktur untuk menandai bagian dari sebuah halaman dan mengatur tampilan sebuah website dan bagaimana kita menyajikan informasi di internet (Jubilee Enterprise, 2017).

H. Hypertext Preprocessor (PHP)

Menurut Diar Puji Oktavian dalam (Kostaman & Sumaryana, 2018) PHP adalah singkatan dari Hypertext Preprocessor, yaitu suatu bahasa pemrograman berbasiskan kode-kode (script) yang digunakan untuk memproses suatu data dan mengirimkannya kembali ke web browser menjadi kode HTML.

I. WEKA 3.8

Weka merupakan sebuah aplikasi data mining open source berbasis Java GUI Chooser yang dikembangkan pertama kalinya oleh Universitas Waikato di Selandia

Baru. Aplikasi ini terdiri dari beberapa Algoritma Machine Learning yang dapat digunakan untuk men-generalisasikan ataupun memformulasikan sekumpulan data sample. Aplikasi Weka ini memiliki kekuatan yang terletak pada algoritma yang lengkap dan juga canggih. Akan tetapi kesuksesan terbesar data mining terdapat pada faktor manusia yang mengimplementornya, (Alfarisi, 2017).

2.2 Penelitian Terkait

Berikut merupakan beberapa penilitian terkait yang telah dilakukan peninjauan kembali berdasarkan jurnal dan berbagai penelitian yang sebelumnya telah dilakukan. Hal ini diperlukan sebagai perbandingan dari hasil penelitian yang telah dicapai dari tiap-tiap penelitian, antara lain sebagai berikut:

(8)

8

Penelitian dari (Hayat, Prasetijo, & Septiana, 2019) ANALISIS KINERJA ALGORITMA J48 DECISION TREE UNTUK PENGAMBILAN KEPUTUSAN BELI/JUAL PADA SAHAM PT HARUM ENERGI TBK.(HRUM).

Masalah yang sering dihadapi oleh para investor dalam melakukan jual/beli saham adalah kesulitan dalam menganalisis suatu dataset harga saham yang jumlahnya sangat banyak. Analisis ini bertujuan untuk memprediksi naik atau turunnya harga saham berdasarkan data yang diperoleh. Untuk membantu investor dalam menentukan keputusan beli/jual pada saham berdasarkan analisis teknikal dan dikombinasikan dengan teknik klasifikasi pada data mining. Penelitian ini menganalisis kinerja dari Algoritma J48 Decision Tree pada perangkat lunak Waikato Environment for Knowledge Analysis (WEKA) versi 3.8.2 untuk data harga saham PT. Harum Energi Tbk. (HRUM). Algoritma J48 Decision Tree dipilih berdasarkan hasil penelitian terdahulu yang menunjukkan persentase akurasi diatas 75%. Hasil penelitian menunjukkan bahwa pada pengujian data test, persentase akurasi pada data tanpa dinormalisasi lebih tinggi sebesar 87,3 (non agresif) dan 88,8 (agresif) dibandingkan dengan data yang dinormalisasi 84,2(non agresif) dan 85%

(agresif). Keuntungan saham yang dihasilkan paling besar yaitu pada data tipe non agresif tanpa dinormalisasi sebesar 48,75 atau Rp 48.750,00.

Penelitian dari (Sunaryono, 2017) PENELITIAN KOMPARASI ALGORITMA KLASIFIKASI DALAM MENENTUKAN WEBSITE PALSU. Dalam penelitian ini mengambil phishing kumpulan data situs web dari Repositori UCI sebanyak 2546 data dengan 30 variabel yang digunakan untuk situs web adalah situs web phising atau tidak. memiliki memperoleh data tersebut, para peneliti melakukan studi untuk menentukan Algoritma yang paling tepat. Penentuan Algoritma dengan perbandingan

(9)

9

antara teknik klasifikasi Algoritma. Penelitian ini mengambil lima Algoritma yang akan diuji, Algoritma Decission Tree (C4.5), Naive Bayes, KNN, Support Vector Mesin dan Jaringan Saraf. Penelitian ini menggunakan keakuratan dan AUC serta tes yang berbeda tes-T parametrik. Di setiap model, penulis membagi data utama menjadi lima bagian, dan setiap validasi data pelatihan dilakukan menggunakan Validasi Silang K-Fold. Hasil dari ini studi menunjukkan bahwa Algoritma Neural Network dan SVM ke dalam Algoritma yang paling tepat yang digunakan dengan nilai rata-rata akurasi adalah 94 dan nilai AUC 0.9.

Penelitian dari (Kaunang, 2018) PENERAPAN ALGORITMA J48 DECISION TREE UNTUK ANALISIS TINGKAT KEMISKINAN DI INDONESIA.

Kemiskinan telah menjadi masalah sosial dan tantangan bagi masyarakat di seluruh dunia yang terus dicari penyelesaiannya. Berdasarkan identifikasi dari Badan Program Pembangunan PBB (UNDP) yang bekerjasama dengan Oxford Poverty and Human Development Initiative (OPHI), 1.3 miliar penduduk dunia teridentifikasi sebagai penduduk miskin pada bulan September tahun 2018. Di tingkat nasional, Indonesia, tingkat kemiskinan tertinggi terjadi pada tahun 1999 dengan persentase sebesar 23.43%. Berdasarkan data dari Badan Pusat Statistik Indonesia (BPS), penduduk miskin di Indonesia mencapai 25.95 juta orang dengan persentase 9.82%

pada tahun Maret 2018. Oleh karena itu penelitian ini bertujuan untuk menganalisis tingkat kemiskinan menggunakan dimensi dasar dari indeks pembangunan manusia (IPM) menggunakan metode data mining dan machine learning yakni algoritma J48 Decision Tree. Akurasi dari model prediksi yang telah dibuat menunjukan hasil yang baik yakni sebesar 88.6% dimana dengan kata lain model prediksi yang dikembangkan dapat digunakan untuk membantu para pembuat kebijakan maupun para pemangku kepentingan untuk mengambil keputusan.

(10)

10

Penelitian dari (Salim & Giap, 2017) DATA MINING IDENTIFIKASI WEBSITE PHISING MENGGUNAKAN ALGORITMA C4.5. Penelitian ini adalah untuk membantu pengguna internet di seluruh dunia untuk lebih berhati-hati dan menghindari situs web phishing saat berselancar di dunia maya. Semakin cepat perkembangan teknologi informasi dan jumlah situs web besar meningkat setiap hari, semakin besar kemungkinan pengguna internet untuk secara tidak sengaja membuka situs web phishing. Dengan alasan itu, penelitian di situs web phishing yang sangat berbahaya bagi pengguna internet tampaknya perlu. ke menyelesaikan masalah ini, penulis menggunakan model penambangan data untuk mencari pola yang berisi informasi tentang sejumlah besar data situs web sampel.

Metode penambangan data yang digunakan dalam penelitian ini adalah Decision Tree karena hasilnya cocok dan memuaskan. Dalam penelitian ini, penulis menggunakan data sampel dari situs web bernama UCI dataset.

Berdasarkan beberapa penelitian tersebut maka dilakukanlah implementasi atau pengujian terhadap data yang sudah diambil dari UCI dengan menggunakan metode Algoritma J48 atau Decision Tree, karena diharapkan penerapan metode ini proses yang dilakukan jauh lebih baik dan hasil yang diperoleh lebih tinggi akurasinya dibandingkan metode Algoritma sebelumnya yang lebih banyak di;pakai menggunakan Algoritma Naïve Bayes dan bertujuan untuk membantu mengevaluasi masalah Website Phising yang sudah merajarela didunia maya ini.

Tabel II.1 Tabel Penelitian Terkait.

No. Nama Judul Penelitian Hasil Penelian

1. (Hayat, Prasetijo,

& Septiana, 2019)

ANALISIS KINERJA

ALGORITMA J48 DECISION TREE UNTUK PENGAMBILAN KEPUTUSAN BELI/JUAL PADA SAHAM PT HARUM ENERGI

Penelitian ini menganalisis kinerja dari Algoritma J48 Decision Tree.

(11)

11

TBK.(HRUM). Hasil penelitian

menunjukkan bahwa pada pengujian data test, persentase akurasi pada data tanpa

dinormalisasi lebih tinggi sebesar 87,3 (non agresif) dan 88,8 (agresif) dibandingkan dengan data yang dinormalisasi 84,2(non agresif) dan 85% (agresif).

2. (Sunaryono, 2017)

PENELITIAN KOMPARASI ALGORITMA KLASIFIKASI DALAM MENENTUKAN WEBSITE PALSU

Dalam penelitian ini mengambil phishing

kumpulan data situs web dari Repositori UCI sebanyak 2546 data dengan 30 variabel. rata-rata akurasi adalah 94 dan nilai AUC 0.9.

3. (Kaunang, 2018) PENERAPAN ALGORITMA J48 DECISION TREE UNTUK ANALISIS TINGKAT

KEMISKINAN DI INDONESIA

penelitian ini bertujuan untuk menganalisis tingkat kemiskinan menggunakan dimensi dasar dari indeks

pembangunan manusia (IPM) menggunakan metode data mining dan machine learning yakni algoritma J48 Decision Tree.

Akurasi dari model prediksi yang telah dibuat menunjukan hasil yang baik yakni sebesar 88.6%

(12)

12 4. (Salim & Giap,

2017)

DATA MINING IDENTIFIKASI WEBSITE PHISING

MENGGUNAKAN ALGORITMA C4.5

implementasi atau pengujian terhadap data yang sudah diambil dari UCI dengan

menggunakan metode Algoritma J48 atau Decision Tree, karena diharapkan

penerapan metode ini proses yang dilakukan jauh lebih baik dan hasil yang diperoleh lebih tinggi akurasinya dibandingkan metode Algoritma sebelumnya yang lebih banyak di;pakai menggunakan Algoritma Naïve Bayes dan bertujuan untuk membantu mengevaluasi masalah Website Phising yang sudah merajarela didunia maya ini.