• Tidak ada hasil yang ditemukan

Klasifikasi Hoaks Menggunakan Metode Maximum Entropy Dengan Seleksi Fitur Information Gain

N/A
N/A
Protected

Academic year: 2021

Membagikan "Klasifikasi Hoaks Menggunakan Metode Maximum Entropy Dengan Seleksi Fitur Information Gain"

Copied!
8
0
0

Teks penuh

(1)

Fakultas Ilmu Komputer

Universitas Brawijaya

9291

Klasifikasi Hoaks Menggunakan Metode Maximum Entropy Dengan Seleksi

Fitur Information Gain

Albert Bill Alroy1, Putra Pandu Adikara2, Sigit Adinugroho3

Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya Email: 1[email protected], 2[email protected], 3[email protected]

Abstrak

Di Indonesia ada 132 juta pengguna internet pada tahun 2016 dan meningkat pada tahun 2017 menjadi 143 juta pengguna. Pengguna internet dapat mengakses banyak hal seperti layanan chatting, media sosial dan jual beli barang. Terdapat beberapa oknum yang sengaja membuat informasi palsu atau biasa yang kita kenal dengan istilah hoaks.

Hoaks adalah berita yang belum pasti kebenarannya

. Masalah penyebaran hoaks dapat dikurangi dengan dibuatnya sistem yang dapat melakukan klasifikasi apakah suatu berita termasuk hoaks atau bukan. Metode yang digunakan dalam penelitian adalah

Maximum Entropy dengan Seleksi Fitur Information Gain. Data yang digunakan berjumlah 600 artikel

berbahasa Indonesia. Data yang tergolong fakta berjumlah 372 artikel berita. Data yang tergolong hoaks berjumlah 228 artikel berita. Penelitian ini menghasilkan akurasi tertinggi sebesar 0,8 dengan seleksi fitur information gain (threshold = 50%), nilai precision 1, recall 0,8, dan f-measure 0.8. Kata kunci: hoaks, fakta, maximum entropy, information gain, akurasi

Abstract

In 2016, Indonesia has 132 million internet users. This number increase to 143 million users in 2017. Internet user can access many things such as chatting services, social media, and e-commerce. There are many people who intentionally make false information known as Hoax. Hoax are information or news that contains uncertain facts or events that have not occured. The problem of spreading Hoax can be reduced by making a system that can classify whether a news is a Hoax or not. The method used in this research is Maximum Entropy with Information Gain Fiture Selection. The amount of data used in this research is 600 articles in Indonesian. There are 372 news articles classified as facts and 228 news articles classifed as Hoax. The amount of best results accuracy in this research is 0,8 with information information gain fiture selection (threshold = 50%), 1 precision, 0,8 recall, and 0,89 f-measure.

Keywords: hoax, facts, maximum entropy, information gain, accuracy

1. PENDAHULUAN

Terjadi peningkatan jumlah pengguna internet di Indonesia. Hal ini dibuktikan dari survey Asosiasi Penyelenggara Jasa Internet Indonesia (2017) bahwa di Indonesia tahun 2016 terdapat 132 juta pengguna kemudian pada tahun 2017 membengkak menjadi 143 juta pengguna. Layanan yang paling banyak diakses di Internet adalah layanan chatting disusul oleh media sosial, mesin pencari, artikel, email dan jual beli barang.

Layanan chatting dan media sosial merupakan tempat berkomunikasi dan bertukarnya informasi antar sesama pengguna

internet. Terdapat beberapa oknum yang tidak bertanggung jawab sengaja membuat informasi palsu atau hoaks lalu menyebarkan informasi tersebut di layanan chatting dan media sosial. Hoaks adalah berita yang belum pasti kebenarannya (Juditha, 2018). Menurut survey Mastel (2017) media sosial merupakan saluran penyebaran berita hoaks terbesar disusul oleh aplikasi chatting dan situs web. Bentuk berita hoaks yang paling sering diterima adalah tulisan, gambar dan video. Jenis berita hoaks yang sering disebarkan adalah sosial politik dan SARA.

Masalah penyebaran berita hoaks dapat dikurangi dengan dibuatnya program yang

(2)

Fakultas Ilmu Komputer, Universitas Brawijaya

dapat mendeteksi atau dapat melakukan klasifikasi apakah suatu berita termasuk hoaks atau bukan. Klasifikasi berita hoaks termasuk dalam klasifikasi teks. Proses memisahkan sebuah dokumen ke dalam satu satu kelas disebut klasifikasi (Purohit, 2015). Klasifikasi teks biasa digunakan dalam bidang informasi dan ilmu komputer.

Penelitian tentang klasifikasi teks sudah pernah dilakukan. Contoh penelitian klasifikasi adalah penelitian (Cuong et al., 2006) yang menggunakan metode Maximum Entropy.

Dataset pada penelitian ini sebanyak 6400

artikel berbahasa Vietnam. Penelitian ini menghasilkan akurasi di atas 92%. Sementara itu untuk klasifikasi teks khususnya klasifikasi hoaks sudah pernah dilakukan mengingat makin maraknya hoaks yang tersebar di masyarakat saat ini.

Penelitian tentang klasifikasi hoaks dilakukan oleh Pratiwi (2017) menggunakan metode Naïve Bayes. Penelitian ini membahas berita hoaks dengan artikel berbahasa Indonesia. Dataset yang digunakan berjumlah sebanyak 250 buah yang terdiri dari artikel berlabel hoaks dan Fakta. Penelitian ini melakukan tiga kali percobaan, kemudian menghasilkan hasil terbaik pada persentase data latih dan uji 70%-30% mendapatkan akurasi 78.6%.

Penelitian (Masithoh, 2016) mengenai klasifikasi topik pada artikel berita dengan membandingkan metode algoritme klasifikasi

Maximum Entropy, Naïve Bayes Classifier, dan Naïve Bayes Multinomial Classifier.

Masing-masing metode mendapat akurasi 99,31%, 98,82%, dan 98,82%. Dataset pada penelitian ini berjumlah 1440 artikel dengan 87 kali percobaan.

Penelitian-penelitian yang disampaikan di atas banyak yang menggunakan metode klasifikasi Naïve Bayes tetapi hanya satu penelitian yang menggunakan seleksi fitur sedangkan penelitian ini akan menggunakan metode klasifikasi Maximum Entropy tetapi ditambah dengan seleksi fitur Information

Gain. Menurut penelitian (Rogati & Yang,

2002) Information Gain adalah lebih efektif untuk meningkatkan akurasi dari suatu klasifikasi. Penelitian (Sari & Arwan, 2018) tentang klasifikasi penyakit jantung memakai

Naïve Bayes dan K-Nearest Neighbor

menghasilkan akurasi sebesar 80,77% ketika tidak menggunakan Information Gain dan

menghasilkan akurasi sebesar 88,46% ketika menggunakan Information Gain.

Berlandaskan penelitian di atas, metode

Maximum Entropy lebih baik dibandingkan

metode klasifikasi Naïve Bayes Classifier oleh karena itu penelitian ini menggunakan metode

Maximum Entropy dengan ditambah seleksi

fitur Information Gain. Salah satu teknik yang penting dan banyak dipakai dalam

pre-processing teks adalah seleksi fitur (Kira &

Rendel, 1992).

2. KAJIAN PUSTAKA

2.1 Hoaks

Hoaks adalah berita yang belum pasti kebenarannya (Juditha, 2018). Menurut survey Mastel (2017) media sosial merupakan saluran penyebaran berita hoaks terbesar disusul oleh aplikasi chatting dan situs web. Jenis berita hoaks yang sering disebarkan adalah sosial politik dan SARA.

2.2 Pre-processing Teks

Banyak dokumen teks atau berita tidak punya struktur yang jelas. Pre-processing teks merupakan langkah mengganti data yang punya struktur menjadi data yang terstruktur. Data terstruktur ini yang nantinya bisa diolah sesuai dengan kebutuhan. Pre-processing sangat penting untuk dokumen teks media sosial yang berisi data tidak terstruktur (Mujilahwati, 2016). Case folding, tokenisasi, stopword

removal, dan stemming adalah langkah-langkah

dalam pre-processing teks.

2.2.1 Case Folding & Tokenisasi

Case folding adalah proses membarui

huruf-huruf yang ada dalam suatu teks menjadi huruf kecil (Rustiana & Rahayu, 2017). Contoh dari prosedur case folding adalah mengubah kata “Nilai” menjadi kata “nilai” yang memiliki huruf kecil semua. Proses tokenisasi adalah pemecahan kata-kata yang ada di suatu kalimat (Robinson, 2014). Tokenisasi dilakukan dengan memisahkan setiap kata dengan spasi. Contoh dari tokenisasi adalah memecah kalimat “saya pergi ke kantor polisi” menjadi kumpulan kata-kata “saya”, “pergi”, “ke”, “kantor”, “polisi”. 2.2.2 Stopword Removal

Stopword merupakan kumpulan kata

umum. Stopword harus dibuang untuk memudahkan pengolahan teks (Raulji & Saini,

(3)

2016). Pada penelitian ini digunakan stopword milik Talla F. Z. yang tersedia di https://github.com/masdevid/ID-Stopwords. Contoh dari proses stopword removal adalah menghapus kata-kata “saya” dan “ke” dari kalimat “saya pergi ke kantor polisi”.

2.2.3 Stemming

Langkah membarui kata dalam teks sebagai kata dasar disebut dengan stemming.

Stemming mampu menaikkan 10 sampai 50 kali

jumlah dokumen yang ingin didapat (Sandhya et al, 2011). Pada penelitian ini peneliti menggunakan stemmer Bahasa Indonesia milik

Sastrawi yang tersedia di

https://github.com/sastrawi/sastrawi. Contoh dari stemmer milik Sastrawi adalah kata “seekor” menjadi “ekor” dan “menginap” menjadi “inap”.

2.3 Pembobotan Kata

Proses menghitung kemunculan kata yang didapat dari hasil pre-processing. Term ini dijadikan indeks dan menjadi perwakilan suatu dokumen. Indeks ini menjadi dasar untuk pemrosesan selanjutnya. Indeks ini nantinya akan diberi nilai nilai atau bobot.

2.3.1 Term Frequency (TF)

Term frequency (TF) adalah banyak

munculnya suatu term pada satu dokumen.

Term frequency memperhatikan frekuensi

banyak munculnya suatu term. Suatu term yang muncul 5 kali akan mempunyai nilai lebih besar dari term yang hanya muncul 2 kali. Rumus untuk mendapatkan bobot TF pada Persamaan 1. 𝑡𝑓𝑡,𝑑= { 1 + 𝑙𝑜𝑔10 𝑡𝑓𝑡,𝑑 , 0 𝑖𝑓 𝑡𝑓𝑡,𝑑> 0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 (1) Keterangan:

 Tf = banyak munculnya suatu term  t = term

 d = dokumen d 2.4 Seleksi Fitur

Seleksi fitur dalam klasifikasi teks bertujuan menambah efektivitas dan efisiensi komputasi. Information Gain, Mutual Information, dan Chi-Square adalah contoh

teknik yang bisa digunakan untuk seleksi fitur. Seleksi fitur yang digunakan adalah

Information Gain karena terbukti lebih efektif

untuk mengoptimalkan hasil klasifikasi dan

frekuensi dokumen pilihan lebih baik untuk efisiensi dan skalabilitas apabila pengurangan skala kecil untuk efektivitas bisa diperoleh (Rogati & Yang, 2002).

2.4.1 Information Gain

Information Gain dalam klasifikasi

digunakan untuk mengukur sering muncul suatu fitur dalam kelas tertentu dibandingkan dengan seberapa sering fitur tersebut muncul dalam seluruh kelas yang ada. Information Gain menghitung banyak term yang dipakai , untuk mengetahui pengaruh lexical teks dalam proses klasifikasi (Lei, 2002). Persamaan Information

Gain pada Persamaan (2). 𝐺(𝐷, 𝑡) = −∑𝑃(𝐶𝑖)𝑙𝑜𝑔𝑃(𝐶𝑖) +

𝑃(𝑡)∑𝑃(𝐶𝑖|𝑡)𝑙𝑜𝑔𝑃(𝐶𝑖|𝑡) + 𝑃(𝑡̅)∑𝑃(𝐶𝑖|𝑡̅)𝑙𝑜𝑔𝑃(𝐶𝑖|𝑡̅) (2)

Keterangan:

 C = Himpunan informasi dari suatu kejadian C.

 P(Ci) = Probabilitas kemunculan kategori i pada artikel.

 P(t) = Probabilitas munculnya kata t pada teks.

 P(𝑡̅) = Probabilitas tidak munculnya kata t pada aritkel.

 P(Ci|t) = Probabilitas munculnya kata t pada kelas i

P(Ci|𝑡̅) = Probabilitas tidak munculnya kata t pada kelas i

2.5 Metode Klasifikasi

Terdapat berbagai macam jenis algoritme klasifikasi antara lain Naïve Bayes dan

Maximum Entropy. Pada penelitian ini dipilih

algoritme pembelajaran mesin Maximum Entropy. Algoritme Maximum Entopy dipilih

karena memiliki akurasi lebih tinggi daripada

Naïve Bayes pada penelitian (Masithoh, 2016).

2.5.1 Maximum Entropy

Teknik yang dipakai guna mencari kemungkinan dengan nilai entropy paling tinggi (Ahmad, 2011) disebut dengan Maximum

Entropy. Nilai entropy dipakai untuk

mendapatkan nilai Maximum Entropy. Rumus

Maximum Entropy pada Persamaan(3).

𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑋) = −∑𝑖=1𝑛 𝑃(𝑋𝑖) log2𝑃(𝑋𝑖) (3) Keterangan:

(4)

Fakultas Ilmu Komputer, Universitas Brawijaya

 Entropy(X) = Himpunan informasi dari suatu kejadian x

 P(X) = Probabilitas dari kemunculan kejadian x

Proses klasifikasi pada metode Maximum

Entropy hanya menggunakan informasi

kemunculan dari suatu fitur dalam sebuah dokumen (Anggraeni, 2008). Secara garis besar, metode Maximum Entropy mencari distriusi probabilitas yang paling sama dengan menggunakan asumsi minimal. Pada kasus klasifikasi teks, Maximum Entropy

menggunakan rumus pada Persamaan(4). 𝑃(𝑐|𝑑) = 1

𝑍(𝑑)exp (Σ𝜆𝑖𝑓𝑖(𝑑, 𝑐)) (4)

Keterangan:

 P(c|d) = Probabilitas kemunculan

term d di kelas c

 Z(d) = Derajat kepangkatan term d  𝜆 = Parameter

 𝑓𝑖(𝑑, 𝑐) = Probabilitas kemunculan

term d di kelas c

2. 6 Confusion Matrix, Precision, Recall, F-Measure dan Akurasi

Teknik yang dipakai untuk mencari nilai akurasi disebut Confusion Matrix. Confusion

Matrix menggunakan tabel untuk menjelaskan

jumlah data uji benar dan salah. Tabel

Confusion Matrix ditampilkan pada Tabel1.

Tabel 1. Tabel Confusion Matrix

Nilai Prediksi Nilai Sebenarnya

True False

True TP FP

False FP TN

Precision menunjukkan nilai benar positif

dibagi seluruh nilai yang diperkirakan positif (Powers, 2011). Rumus precision pada Persamaan (5).

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑡𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒

true positive+𝑓𝑎𝑙𝑠𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒 (5)

Recall menunjukkan perbandingan antara

nilai benar positif dengan seluruh data yang sebenarnya (Powers, 2011). Rumus Recall pada

Persamaan (6).

𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑡𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒

𝑡𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒+𝑓𝑎𝑙𝑠𝑒 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒 (6)

Masing-masing Precision dan Recall

memiliki nilai rata-rata yang akan dibandingkan kemudian menghasilkan nilai F-Measure

(Powers, 2011). Rumus F-Measure ditampilkan pada Persamaan(7).

𝐹 − 𝑀𝑒𝑎𝑠𝑢𝑟𝑒 = 2 𝑥 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑥 𝑟𝑒𝑐𝑎𝑙𝑙

𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛+𝑟𝑒𝑐𝑎𝑙𝑙 (7)

Nilai predeksi benar dibandingkan dengan seluruh data akan menghasilkan nilai akurasi (Powers, 2011). Rumus Accuracy ditampilkan pada Persamaan (8). Akurasi = 𝑇𝑃+𝑇𝑁 𝑇𝑃+𝐹𝑃+𝑇𝑃+𝐹𝑁 (7) Keterangan:  TP = True Positive  TN = True Negative  FP = False Positive  FN = False Negative 3. METODOLOGI PENELITIAN

Bagian ini berisi tentang tipe, metode, dan teknik pengambilan data penelitian. Nonimplementatif (analitik) adalah tipe penelitian yang dipakai pada penelitian ini. Metode yang dipaparkan pada penelitian ini ada pada bagian pengolahan data latih dan pengolahan data uji. Teknik pengambilan data dengan cara studi dokumen dari penelitian terdahulu.

3.1. Tipe Penelitian

Analitik adalah tipe yang penelitian yang digunakan. Metode ini bertujuan menjelaskan pengaruh antar komponen dalam objek penelitian tentang suatu permasalahan yang sedang diteliti. Pada penelitian ini metode penelitian analitik digunakan untuk menjelaskan pengaruh antara dua buah metode algoritme yang digunakan terhadap klasifikasi berita hoaks. Tahapan pada penelitian ini meliputi pengambilan data, pengolahan data, pembuatan model training, klasifikasi, membuat kesimpulan dan laporan.

3.2. Metode Penelitian

Langkah pengolahan data latih pada Gambar 1 Pengolahan data latih dibagi menjadi

(5)

beberapa bagian. Bagian pertama adalah masukkan berupa data training. Bagian kedua adalah tahap proses. Tahap proses ini terdiri dari 5 tahap antara lain pre-processing, seleksi fitur, ekstraksi fitur kemudian menghasilkan model training.

Gambar 1. Pengolahan Data Latih

Model training digunakan pada tahap proses testing data yang ditunjukkan oleh gambar 3.2 kemudian dilakukan proses klasifikasi menggunakan algoritme Maximum

Entropy. Setelah proses klasifikasi maka akan

masuk proses evaluasi. Khusus untuk tahap pelatihan hanya dilakukan sekali karena model hasil pelatihan bisa digunakan berulang-ulang tanpa melakukan proses pelatihan lagi.

Gambar 2. Pengolahan Data Uji 3.3 Teknik Pengumpulan Data

Penelitian memakai data berjumlah 600

artikel berbahasa Indonesia. Data ini pernah digunakan untuk penelitian penelitian (Rahutomo et al) tahun 2017. 600 artikel terdiri dari 372 artikel berlabel Fakta dan 228 artikel berlabel hoaks.

4 PENGUJIAN DAN ANALISIS

Bab ini menguraikan hasil uji analisis Klasifikasi Hoaks Menggunakan Metode Klasifikasi Maximum Entropy dengan Seleksi Fitur Information Gain. Bagian ini berisi impak penggunaan variasi rasio data latih-uji dan variasi seleksi fitur Information Gain pada metode klasifikasi Maximum Entropy.

4.1 Pengujian Variasi Rasio Data Latih dan Data Uji

Data yang diolah berjumlah 600 artikel. Uji dilakukan memakai 3 macam rasio. Tujuan dibalik variasi dari setiap rasio adalah untuk mengetahui rasio mana yang menghasilkan akurasi paling tinggi. Uji ini memakai persentase data latih dan uji sebesar 400-200, 500-100, dan 550-50. Persentase menunjukkan banyak data yang digunakan.

4.1.1 Skenario Pengujian Variasi Rasio Data Latih dan Data Uji

Skenario uji memakai 3 macam rasio. Rasio yang digunakan yaitu sebesar 400-200, 500-100, dan 550-50. Persentase data latih dan ditampilkan di Tabel 1. Nilai evaluasi ditampilkan pada Tabel 2.

Tabel 1. Data Latih dan Uji

Dataset Percobaan ke-

Jumlah Berita

Data Latih Data Uji

600

1 400 200

2 500 100

3 550 50

Tabel 2. Hasil Pengujian Variasi Persentase Data

Latih dan Uji Evaluasi

Persentase Data Latih dan Uji

400-200 500-100 550-50

Akurasi 0,43 0,75 0,78

Precision 0,38 0,95 0,95

Recall 0,9 0,76 0,81

(6)

Fakultas Ilmu Komputer, Universitas Brawijaya

4.1.2 Perbandingan Nilai Evaluasi Variasi Rasio Data Latih dan Data Uji

Gambar 3 menyajikan nilai evaluasi klasifikasi hoaks dengan tiga variasi persentase data latih dan uji. Nilai akurasi tertinggi oleh rasio 550-50 dengan nilai 0,78. Hasil di atas mengatakan bahwa hasil akurasi semakin baik apabila banyak menggunakan data latih.

Gambar 3. Grafik Hasil Pengujian Variasi

Persentase Data Latih dan Uji

4.2 Analisis Hasil Pengujian Variasi Rasio Data Latih dan Data Uji

Nilai precision di Tabel 2 menunjukkan adanya peningkatan dari rasio 400-200, 500-100, 550-50. Hasil klasifikasi dipengaruhi oleh banyaknya data latih. Data latih yang banyak memungkinkan hasil akurasi klasifikasi menjadi lebih besar. Oleh karena itu, nilai

precision mengalami peningkatan karena ada

data latih yang digunakan semakin banyak dari rasio 400-200, 500-100, 550-50 Nilai precision sendiri menggambarkan kualitas dari program itu sendiri.

Nilai recall pada Tabel 2 menunjukkan mengalami peningkatan dari rasio 400-200, 500-100, 550-50. Data latih yang banyak membuat sistem lebih mengenal banyak

term-term yang ada. Term yang sudah dilatih ini

banyak yang relevan dengan data uji sehingga nilai recall menjadi meningkat. Nilai recall menggambarkan seberapa banyak nilai relevan yang dihasilkan oleh program.

Nilai f-measure pada Tabel 2 menunjukkan adanya peningkatan. Peningkatan ini menunjukkan performa yang ada untuk klasifikasi ini. Nilai f-measure bisa menurun disebabkan karena meningkatnya nilai precision dan meningkatnya nilai recall dari rasio 400-200, 500-100, 550-50.

4.3 Pengujian Variasi Seleksi Fitur

Information Gain

Uji memakai 4 macam threshold.

Persentase data latih dan uji 550-50 yang dipakai karena menghasilkan akurasi terbaik dibanding 2 rasio data latih dan uji lainnya. Tujuan dibalik variasi dari setiap threshold adalah untuk mengetahui threshold dengan akurasi paling tinggi. Uji ini menggunakan

threshold sebesar 50%, 80%, 90%, dan tidak

menggunakan Information Gain. Persentase

threshold menunjukkan banyak term yang

diambil dari total term yang ada.

4.3.1 Skenario Pengujian Variasi Seleksi Fitur Information Gain

Skenario uji memakai 4 macam threshold.

Threshold yang digunakan yaitu sebesar 50%,

80%, 90% dan tidak menggunakan Information

Gain. Hasil evaluasi ditampilkan di Tabel 3 dan

4.

Tabel 3 Hasil Pengujian Variasi Seleksi Fitur

Information Gain

Evaluasi Nilai Threshold (%)

50% 80% 90%

Akurasi 0,8 0,78 0,78

Precision 1 0,95 0,95

Recall 0,8 0,81 0,81

F-Measure 0,89 0,88 0,88

Tabel 4. Hasil Pengujian Variasi Seleksi Fitur

Tanpa Information Gain Evaluasi

Nilai Threshold (%) Tanpa Seleksi Fitur

Akurasi 0,78

Precision 0,95

Recall 0,81

F-Measure 0,88

4.3.2 Perbandingan Nilai Evaluasi Variasi Seleksi Fitur Information Gain

Nilai akurasi tertinggi oleh threshold 50% dengan nilai 0,8. Hasil di atas mengatakan bahwa semakin sedikit fitur yang diambil dari seleksi fitur semakin besar hasil akurasi yang didapat. Nilai evaluasi di Gambar 4.

0, 43 0, 38 0, 9 0, 53 0, 75 0, 95 0, 76 0,85 0, 78 0, 95 0, 81 0,88 0 0,2 0,4 0,6 0,8 1 A k u r a s i P r e c i s i o n R e c a l l F - M e a s u r e Ti n gk at Ki n er ja 400-200 500-100 550-50

(7)

Gambar 4. Grafik Hasil Pengujian Variasi Seleksi

Fitur Information Gain

Gambar 5 melakukan perbandingan hasil klasifikasi memakai seleksi fitur dan tanpa memakai seleksi fitur. Gambar memperlihatkan hasil seleksi fitur (threshold 50%) lebih tinggi dibanding tanpa menggunakan seleksi fitur.

Gambar 5. Grafik Perbandingan Nilai Evaluasi

Seleksi Fitur Information Gain dengan Threshold 50% dan Tanpa Seleksi Fitur Information Gain

Berdasarkan Gambar 4 dan Gambar 5 hasil akurasi terbaik sebesar 0,8 didapatkan melalui penggunaan seleksi fitur dengan threshold 50%. Akurasi terbaik diperoleh dengan persentase data latih dan uji 550-50.

4.4 Analisis Hasil Pengujian Variasi Seleksi Fitur Information Gain

Pada algoritme Maximum Entropy,

dokumen yang berisi fitur kata dengan kemunculan kata yang tinggi pada satu kelas sangat memengaruhi hasil klasifikasinya. Apabila ada dokumen label fakta berisi fitur dengan kemunculan kata yang tinggi menjadi data latih dan ada dokumen uji berlabel hoaks maka kecenderungan algoritme Maximum

Entropy menghasilkan klasifikasi dokumen uji

tersebut sebagai fakta, dan begitu pula sebaliknya.

Nilai precision pada Tabel 4 menunjukkan adanya peningkatan dari threshold 50%, 80% hingga 90%. Hal ini dipengaruhi oleh term-term yang mempengaruhi masing-masing data uji.

Term-term yang memengaruhi data uji. Saat term tersebut tidak diambil untuk proses

pelatihan maka akan membuat hasil klasifikasi menjadi benar. Oleh karena itu nilai precision

mengalami penuruan karena ada data latih yang digunakan pada threshold 80% dan lebih banyak dibandingkan threshold 50%. Nilai

precision sendiri menggambarkan kualitas dari

program itu sendiri.

Nilai recall pada Tabel 4 menunjukkan kebalikan dari nilai precision, yaitu mengalami peningkatan dari threshold 50%, 80% hingga 90%. Hal ini juga merupakan efek dari

term-term yang mempengaruhi masing-masing data

uji. Term yang tidak diambil untuk proses pelatihan maka akan membuat hasil klasifikasi menjadi benar, tetapi term-term yang diambil ini relevan dengan data uji yang ada sehingga nilai recall menjadi meningkat. Nilai recall menggambarkan seberapa banyak nilai relevan yang dihasilkan oleh program.

Nilai f-measure pada Tabel 4 menunjukkan adanya penurunan. Penurunan ini menunjukkan performa yang ada untuk klasifikasi ini. Nilai

f-measure bisa menurun disebabkan karena

menurunnya nilai precision dan meningkatnya nilai recall dari threshold 50%, 80% hingga 90%.

Nilai recall pada Tabel 4 menunjukkan kebalikan dari nilai precision, yaitu mengalami peningkatan dari threshold 50%, 80% hingga 90%. Hal ini juga merupakan efek dari

term-term yang mempengaruhi masing-masing data

uji. Term-term yang memengaruhi data uji 2 dan data uji 35 disajikan di Tabel 6 dan Tabel 8.

Term tersebut tidak diambil untuk proses

pelatihan maka akan membuat hasil klasifikasi menjadi benar, tetapi term-term yang diambil ini relevan dengan data uji yang ada sehingga nilai recall menjadi meningkat. Nilai recall menggambarkan seberapa banyak nilai relevan yang dihasilkan oleh program.

Nilai f-measure pada Tabel 4 menunjukkan adanya penurunan. Penurunan ini menunjukkan performa yang ada untuk klasifikasi ini. Nilai

f-measure bisa menurun disebabkan karena

menurunnya nilai precision dan meningkatnya nilai recall dari threshold 50%, 80% hingga 90%.

5 KESIMPULAN

Seleksi fitur Information Gain memiliki pengaruh dalam klasifikasi hoaks dengan menerapkan Maximum Entropy. Hal ini dibuktikan dengan meningkatnya hasil akurasi klasifikasi hoaks dengan Maximum Entropy

0, 8 1 0, 8 0,89 0, 78 0,95 0, 81 0,88 0, 78 0,95 0, 81 0,88 0 0,5 1 A k u r a s i P r e c i s i o n R e c a l l F - M e a s u r e Ti n gk at k in er ja T=50% T=80% T=90% 0, 8 1 0,8 0, 89 0, 78 0,95 0, 81 0,88 0 0,5 1 A k u r a s i P r e c i s i o n R e c a l l F - M e a s u r e Ti n gk at Ki n er ja

(8)

Fakultas Ilmu Komputer, Universitas Brawijaya

memakai seleksi fitur Information Gain (threshold = 50%) dengan akurasi sebesar 0,8 dibandingkan jika tidak menggunakan seleksi fitur menghasilkan akurasi sebesar 0,78.

Klasifikasi hoaks memakai metode

Maximum Entropy dengan seleksi fitur

Information Gain (threshold = 50%)

mendapatkan akurasi 0,8, precision 1, recall 0,8, dan f-measure 0,89.

6 DAFTAR REFERENSI

Ahmad, Tahir., 2011. Identifikasi Pelanggaran Pengguna Listrik Rumah Tangga pada PT PLN Distribusi Jawa Barat dan Banten UPJ Bandung Utara Menggunakan Metode Naïve Bayes dan Metode Maximum Entropy.

Anggraini, Dyta., 2008. Klasifikasi Topik Menggunakan Metode Naïve Bayes dan Maximum Entropy pada Artikel Media Massa dan Abstrak Tulisan.

Cuong, N. V., Linh, N. T. T., & Thuy, H. Q., 2006. A Maximum Entropy Model for Text Classification.

Graauwmans, V.C.J., 2016. Fake News in the Online World: An Experimental Study on Credibility Evaluations of Fake News depending on Information Processing.

Juditha, Christiany., 2018. Interaksi Komunikasi Hoaks di Media Sosial serta Antisipasinya.

Kira, K. dan Rendell, L. A., 1992. The Feature Selection Problem: Traditional Methods and a New Algorithm.

Mahmudy, Wayan Firdaus. dan Widodo, Agus Wahyu., 2014. Klasifikasi Artikel Berita Secara Otomatis Menggunakan Metode Naïve Bayes Classifier yang dimodifikasi.

Masithoh, Nurul., 2016. Analisis Klasifikasi Topik Menggunakan Metode Naïve

Bayes Classifier, Naïve Bayes

Multinomial Classifier, dan Maximum Entropy pada Artikel Berita.

Nigam, K., Lafferty, J., McCallum, A., 1999. Using Maximum Entropy for Text Classification.

Rahutomo, Fasial., Pratiwi, I. Y. R., Ramadhani, Diana Mayangsari., 2019. Eksperimen

Naive Bayes Pada Deteksi Hoax

Berbahasa Indonesia.

Sari, Yuita Arum. dan Arwan, Achmad., 2018.

Seleksi Fitur Information Gain untuk Klasifikasi Penyakit Jantung Menggunakan Kombinasi Metode

K-Nearest Neighbor dan Naïve Bayes.

Wijanto, Maresha Caroline., 2015. Sistem Pendeteksi Pengirim Tweet dengan Metode Klasifikasi Naive Bayes. Yong-Feng, S. dan Yan-Ping, Z., 2004.

Comparison of Text Categorization Algorithms.

Zheng, Songtao., 2014. Naïve Bayes Classifier: A Mapreduce Approach.

Gambar

Tabel 2. Hasil Pengujian Variasi Persentase Data  Latih dan Uji
Gambar 3. Grafik Hasil Pengujian Variasi  Persentase Data Latih dan Uji  4.2 Analisis Hasil Pengujian Variasi Rasio  Data Latih dan Data Uji
Gambar 4. Grafik Hasil Pengujian Variasi Seleksi  Fitur Information Gain

Referensi

Dokumen terkait

Seleksi fitur ini bertujuan agar akurasi yang dihasilkan dari proses klasifikasi email dapat meningkat, serta yang terpenting adalah untuk efisiensi dari token

Pada penelitian ini penulis mengusulkan melakukan klasifikasi citra makanan menggunakan KNN dengan penggunaan Information Gain pada HSV dan GLCM untuk mendapatkan

Tingkat akurasi hasil klasifikasi dapat ditingkatkan dengan teknik penambahan nilai peluang dari kata-kata dokumen uji yang tidak terdapat pada data pelatihan. Combining

Kombinasi fitur dari hasil seleksi menggunakan information gain mengahasilkan rata-rata fitness tertinggi yaitu sebesar 0,22 pada data tidak seimbang dan 0,39 pada data

Berikut pada tabel 4 adalah hasil klasifikasi sentiment dari 50 tweet data uji yang diambil dari Twitter dengan tagar ( hashtag ) #2019GantiPresiden

Berdasarkan perhitungan nilai gain dari setiap fitur pada masing-masing pengujian data set kelas seimbang dan kelas tidak seimbang menggunakan metode Information Gain,

Dari uji coba yang dilakukan, perbandingan pada masing-masing skenario uji coba dapat disimpulkan bahwa peningkatan klasifikasi menggunakan seleksi fitur PFRS dengan

Sedangkan pada ukuran matriks data uji sebesar 137 × 1309 yaitu data uji dengan pemilihan fitur chi-square, setiap kernel pada metode klasifikasi SVM memiliki hasil akurasi yang