Fakultas Ilmu Komputer
Universitas Brawijaya
9291
Klasifikasi Hoaks Menggunakan Metode Maximum Entropy Dengan Seleksi
Fitur Information Gain
Albert Bill Alroy1, Putra Pandu Adikara2, Sigit Adinugroho3
Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya Email: 1[email protected], 2[email protected], 3[email protected]
Abstrak
Di Indonesia ada 132 juta pengguna internet pada tahun 2016 dan meningkat pada tahun 2017 menjadi 143 juta pengguna. Pengguna internet dapat mengakses banyak hal seperti layanan chatting, media sosial dan jual beli barang. Terdapat beberapa oknum yang sengaja membuat informasi palsu atau biasa yang kita kenal dengan istilah hoaks.
Hoaks adalah berita yang belum pasti kebenarannya
. Masalah penyebaran hoaks dapat dikurangi dengan dibuatnya sistem yang dapat melakukan klasifikasi apakah suatu berita termasuk hoaks atau bukan. Metode yang digunakan dalam penelitian adalahMaximum Entropy dengan Seleksi Fitur Information Gain. Data yang digunakan berjumlah 600 artikel
berbahasa Indonesia. Data yang tergolong fakta berjumlah 372 artikel berita. Data yang tergolong hoaks berjumlah 228 artikel berita. Penelitian ini menghasilkan akurasi tertinggi sebesar 0,8 dengan seleksi fitur information gain (threshold = 50%), nilai precision 1, recall 0,8, dan f-measure 0.8. Kata kunci: hoaks, fakta, maximum entropy, information gain, akurasi
Abstract
In 2016, Indonesia has 132 million internet users. This number increase to 143 million users in 2017. Internet user can access many things such as chatting services, social media, and e-commerce. There are many people who intentionally make false information known as Hoax. Hoax are information or news that contains uncertain facts or events that have not occured. The problem of spreading Hoax can be reduced by making a system that can classify whether a news is a Hoax or not. The method used in this research is Maximum Entropy with Information Gain Fiture Selection. The amount of data used in this research is 600 articles in Indonesian. There are 372 news articles classified as facts and 228 news articles classifed as Hoax. The amount of best results accuracy in this research is 0,8 with information information gain fiture selection (threshold = 50%), 1 precision, 0,8 recall, and 0,89 f-measure.
Keywords: hoax, facts, maximum entropy, information gain, accuracy
1. PENDAHULUAN
Terjadi peningkatan jumlah pengguna internet di Indonesia. Hal ini dibuktikan dari survey Asosiasi Penyelenggara Jasa Internet Indonesia (2017) bahwa di Indonesia tahun 2016 terdapat 132 juta pengguna kemudian pada tahun 2017 membengkak menjadi 143 juta pengguna. Layanan yang paling banyak diakses di Internet adalah layanan chatting disusul oleh media sosial, mesin pencari, artikel, email dan jual beli barang.
Layanan chatting dan media sosial merupakan tempat berkomunikasi dan bertukarnya informasi antar sesama pengguna
internet. Terdapat beberapa oknum yang tidak bertanggung jawab sengaja membuat informasi palsu atau hoaks lalu menyebarkan informasi tersebut di layanan chatting dan media sosial. Hoaks adalah berita yang belum pasti kebenarannya (Juditha, 2018). Menurut survey Mastel (2017) media sosial merupakan saluran penyebaran berita hoaks terbesar disusul oleh aplikasi chatting dan situs web. Bentuk berita hoaks yang paling sering diterima adalah tulisan, gambar dan video. Jenis berita hoaks yang sering disebarkan adalah sosial politik dan SARA.
Masalah penyebaran berita hoaks dapat dikurangi dengan dibuatnya program yang
Fakultas Ilmu Komputer, Universitas Brawijaya
dapat mendeteksi atau dapat melakukan klasifikasi apakah suatu berita termasuk hoaks atau bukan. Klasifikasi berita hoaks termasuk dalam klasifikasi teks. Proses memisahkan sebuah dokumen ke dalam satu satu kelas disebut klasifikasi (Purohit, 2015). Klasifikasi teks biasa digunakan dalam bidang informasi dan ilmu komputer.
Penelitian tentang klasifikasi teks sudah pernah dilakukan. Contoh penelitian klasifikasi adalah penelitian (Cuong et al., 2006) yang menggunakan metode Maximum Entropy.
Dataset pada penelitian ini sebanyak 6400
artikel berbahasa Vietnam. Penelitian ini menghasilkan akurasi di atas 92%. Sementara itu untuk klasifikasi teks khususnya klasifikasi hoaks sudah pernah dilakukan mengingat makin maraknya hoaks yang tersebar di masyarakat saat ini.
Penelitian tentang klasifikasi hoaks dilakukan oleh Pratiwi (2017) menggunakan metode Naïve Bayes. Penelitian ini membahas berita hoaks dengan artikel berbahasa Indonesia. Dataset yang digunakan berjumlah sebanyak 250 buah yang terdiri dari artikel berlabel hoaks dan Fakta. Penelitian ini melakukan tiga kali percobaan, kemudian menghasilkan hasil terbaik pada persentase data latih dan uji 70%-30% mendapatkan akurasi 78.6%.
Penelitian (Masithoh, 2016) mengenai klasifikasi topik pada artikel berita dengan membandingkan metode algoritme klasifikasi
Maximum Entropy, Naïve Bayes Classifier, dan Naïve Bayes Multinomial Classifier.
Masing-masing metode mendapat akurasi 99,31%, 98,82%, dan 98,82%. Dataset pada penelitian ini berjumlah 1440 artikel dengan 87 kali percobaan.
Penelitian-penelitian yang disampaikan di atas banyak yang menggunakan metode klasifikasi Naïve Bayes tetapi hanya satu penelitian yang menggunakan seleksi fitur sedangkan penelitian ini akan menggunakan metode klasifikasi Maximum Entropy tetapi ditambah dengan seleksi fitur Information
Gain. Menurut penelitian (Rogati & Yang,
2002) Information Gain adalah lebih efektif untuk meningkatkan akurasi dari suatu klasifikasi. Penelitian (Sari & Arwan, 2018) tentang klasifikasi penyakit jantung memakai
Naïve Bayes dan K-Nearest Neighbor
menghasilkan akurasi sebesar 80,77% ketika tidak menggunakan Information Gain dan
menghasilkan akurasi sebesar 88,46% ketika menggunakan Information Gain.
Berlandaskan penelitian di atas, metode
Maximum Entropy lebih baik dibandingkan
metode klasifikasi Naïve Bayes Classifier oleh karena itu penelitian ini menggunakan metode
Maximum Entropy dengan ditambah seleksi
fitur Information Gain. Salah satu teknik yang penting dan banyak dipakai dalam
pre-processing teks adalah seleksi fitur (Kira &
Rendel, 1992).
2. KAJIAN PUSTAKA
2.1 Hoaks
Hoaks adalah berita yang belum pasti kebenarannya (Juditha, 2018). Menurut survey Mastel (2017) media sosial merupakan saluran penyebaran berita hoaks terbesar disusul oleh aplikasi chatting dan situs web. Jenis berita hoaks yang sering disebarkan adalah sosial politik dan SARA.
2.2 Pre-processing Teks
Banyak dokumen teks atau berita tidak punya struktur yang jelas. Pre-processing teks merupakan langkah mengganti data yang punya struktur menjadi data yang terstruktur. Data terstruktur ini yang nantinya bisa diolah sesuai dengan kebutuhan. Pre-processing sangat penting untuk dokumen teks media sosial yang berisi data tidak terstruktur (Mujilahwati, 2016). Case folding, tokenisasi, stopword
removal, dan stemming adalah langkah-langkah
dalam pre-processing teks.
2.2.1 Case Folding & Tokenisasi
Case folding adalah proses membarui
huruf-huruf yang ada dalam suatu teks menjadi huruf kecil (Rustiana & Rahayu, 2017). Contoh dari prosedur case folding adalah mengubah kata “Nilai” menjadi kata “nilai” yang memiliki huruf kecil semua. Proses tokenisasi adalah pemecahan kata-kata yang ada di suatu kalimat (Robinson, 2014). Tokenisasi dilakukan dengan memisahkan setiap kata dengan spasi. Contoh dari tokenisasi adalah memecah kalimat “saya pergi ke kantor polisi” menjadi kumpulan kata-kata “saya”, “pergi”, “ke”, “kantor”, “polisi”. 2.2.2 Stopword Removal
Stopword merupakan kumpulan kata
umum. Stopword harus dibuang untuk memudahkan pengolahan teks (Raulji & Saini,
2016). Pada penelitian ini digunakan stopword milik Talla F. Z. yang tersedia di https://github.com/masdevid/ID-Stopwords. Contoh dari proses stopword removal adalah menghapus kata-kata “saya” dan “ke” dari kalimat “saya pergi ke kantor polisi”.
2.2.3 Stemming
Langkah membarui kata dalam teks sebagai kata dasar disebut dengan stemming.
Stemming mampu menaikkan 10 sampai 50 kali
jumlah dokumen yang ingin didapat (Sandhya et al, 2011). Pada penelitian ini peneliti menggunakan stemmer Bahasa Indonesia milik
Sastrawi yang tersedia di
https://github.com/sastrawi/sastrawi. Contoh dari stemmer milik Sastrawi adalah kata “seekor” menjadi “ekor” dan “menginap” menjadi “inap”.
2.3 Pembobotan Kata
Proses menghitung kemunculan kata yang didapat dari hasil pre-processing. Term ini dijadikan indeks dan menjadi perwakilan suatu dokumen. Indeks ini menjadi dasar untuk pemrosesan selanjutnya. Indeks ini nantinya akan diberi nilai nilai atau bobot.
2.3.1 Term Frequency (TF)
Term frequency (TF) adalah banyak
munculnya suatu term pada satu dokumen.
Term frequency memperhatikan frekuensi
banyak munculnya suatu term. Suatu term yang muncul 5 kali akan mempunyai nilai lebih besar dari term yang hanya muncul 2 kali. Rumus untuk mendapatkan bobot TF pada Persamaan 1. 𝑡𝑓𝑡,𝑑= { 1 + 𝑙𝑜𝑔10 𝑡𝑓𝑡,𝑑 , 0 𝑖𝑓 𝑡𝑓𝑡,𝑑> 0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 (1) Keterangan:
Tf = banyak munculnya suatu term t = term
d = dokumen d 2.4 Seleksi Fitur
Seleksi fitur dalam klasifikasi teks bertujuan menambah efektivitas dan efisiensi komputasi. Information Gain, Mutual Information, dan Chi-Square adalah contoh
teknik yang bisa digunakan untuk seleksi fitur. Seleksi fitur yang digunakan adalah
Information Gain karena terbukti lebih efektif
untuk mengoptimalkan hasil klasifikasi dan
frekuensi dokumen pilihan lebih baik untuk efisiensi dan skalabilitas apabila pengurangan skala kecil untuk efektivitas bisa diperoleh (Rogati & Yang, 2002).
2.4.1 Information Gain
Information Gain dalam klasifikasi
digunakan untuk mengukur sering muncul suatu fitur dalam kelas tertentu dibandingkan dengan seberapa sering fitur tersebut muncul dalam seluruh kelas yang ada. Information Gain menghitung banyak term yang dipakai , untuk mengetahui pengaruh lexical teks dalam proses klasifikasi (Lei, 2002). Persamaan Information
Gain pada Persamaan (2). 𝐺(𝐷, 𝑡) = −∑𝑃(𝐶𝑖)𝑙𝑜𝑔𝑃(𝐶𝑖) +
𝑃(𝑡)∑𝑃(𝐶𝑖|𝑡)𝑙𝑜𝑔𝑃(𝐶𝑖|𝑡) + 𝑃(𝑡̅)∑𝑃(𝐶𝑖|𝑡̅)𝑙𝑜𝑔𝑃(𝐶𝑖|𝑡̅) (2)
Keterangan:
C = Himpunan informasi dari suatu kejadian C.
P(Ci) = Probabilitas kemunculan kategori i pada artikel.
P(t) = Probabilitas munculnya kata t pada teks.
P(𝑡̅) = Probabilitas tidak munculnya kata t pada aritkel.
P(Ci|t) = Probabilitas munculnya kata t pada kelas i
P(Ci|𝑡̅) = Probabilitas tidak munculnya kata t pada kelas i2.5 Metode Klasifikasi
Terdapat berbagai macam jenis algoritme klasifikasi antara lain Naïve Bayes dan
Maximum Entropy. Pada penelitian ini dipilih
algoritme pembelajaran mesin Maximum Entropy. Algoritme Maximum Entopy dipilih
karena memiliki akurasi lebih tinggi daripada
Naïve Bayes pada penelitian (Masithoh, 2016).
2.5.1 Maximum Entropy
Teknik yang dipakai guna mencari kemungkinan dengan nilai entropy paling tinggi (Ahmad, 2011) disebut dengan Maximum
Entropy. Nilai entropy dipakai untuk
mendapatkan nilai Maximum Entropy. Rumus
Maximum Entropy pada Persamaan(3).
𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑋) = −∑𝑖=1𝑛 𝑃(𝑋𝑖) log2𝑃(𝑋𝑖) (3) Keterangan:
Fakultas Ilmu Komputer, Universitas Brawijaya
Entropy(X) = Himpunan informasi dari suatu kejadian x
P(X) = Probabilitas dari kemunculan kejadian x
Proses klasifikasi pada metode Maximum
Entropy hanya menggunakan informasi
kemunculan dari suatu fitur dalam sebuah dokumen (Anggraeni, 2008). Secara garis besar, metode Maximum Entropy mencari distriusi probabilitas yang paling sama dengan menggunakan asumsi minimal. Pada kasus klasifikasi teks, Maximum Entropy
menggunakan rumus pada Persamaan(4). 𝑃(𝑐|𝑑) = 1
𝑍(𝑑)exp (Σ𝜆𝑖𝑓𝑖(𝑑, 𝑐)) (4)
Keterangan:
P(c|d) = Probabilitas kemunculan
term d di kelas c
Z(d) = Derajat kepangkatan term d 𝜆 = Parameter
𝑓𝑖(𝑑, 𝑐) = Probabilitas kemunculan
term d di kelas c
2. 6 Confusion Matrix, Precision, Recall, F-Measure dan Akurasi
Teknik yang dipakai untuk mencari nilai akurasi disebut Confusion Matrix. Confusion
Matrix menggunakan tabel untuk menjelaskan
jumlah data uji benar dan salah. Tabel
Confusion Matrix ditampilkan pada Tabel1.
Tabel 1. Tabel Confusion Matrix
Nilai Prediksi Nilai Sebenarnya
True False
True TP FP
False FP TN
Precision menunjukkan nilai benar positif
dibagi seluruh nilai yang diperkirakan positif (Powers, 2011). Rumus precision pada Persamaan (5).
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑡𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒
true positive+𝑓𝑎𝑙𝑠𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒 (5)
Recall menunjukkan perbandingan antara
nilai benar positif dengan seluruh data yang sebenarnya (Powers, 2011). Rumus Recall pada
Persamaan (6).
𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑡𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒
𝑡𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒+𝑓𝑎𝑙𝑠𝑒 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒 (6)
Masing-masing Precision dan Recall
memiliki nilai rata-rata yang akan dibandingkan kemudian menghasilkan nilai F-Measure
(Powers, 2011). Rumus F-Measure ditampilkan pada Persamaan(7).
𝐹 − 𝑀𝑒𝑎𝑠𝑢𝑟𝑒 = 2 𝑥 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑥 𝑟𝑒𝑐𝑎𝑙𝑙
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛+𝑟𝑒𝑐𝑎𝑙𝑙 (7)
Nilai predeksi benar dibandingkan dengan seluruh data akan menghasilkan nilai akurasi (Powers, 2011). Rumus Accuracy ditampilkan pada Persamaan (8). Akurasi = 𝑇𝑃+𝑇𝑁 𝑇𝑃+𝐹𝑃+𝑇𝑃+𝐹𝑁 (7) Keterangan: TP = True Positive TN = True Negative FP = False Positive FN = False Negative 3. METODOLOGI PENELITIAN
Bagian ini berisi tentang tipe, metode, dan teknik pengambilan data penelitian. Nonimplementatif (analitik) adalah tipe penelitian yang dipakai pada penelitian ini. Metode yang dipaparkan pada penelitian ini ada pada bagian pengolahan data latih dan pengolahan data uji. Teknik pengambilan data dengan cara studi dokumen dari penelitian terdahulu.
3.1. Tipe Penelitian
Analitik adalah tipe yang penelitian yang digunakan. Metode ini bertujuan menjelaskan pengaruh antar komponen dalam objek penelitian tentang suatu permasalahan yang sedang diteliti. Pada penelitian ini metode penelitian analitik digunakan untuk menjelaskan pengaruh antara dua buah metode algoritme yang digunakan terhadap klasifikasi berita hoaks. Tahapan pada penelitian ini meliputi pengambilan data, pengolahan data, pembuatan model training, klasifikasi, membuat kesimpulan dan laporan.
3.2. Metode Penelitian
Langkah pengolahan data latih pada Gambar 1 Pengolahan data latih dibagi menjadi
beberapa bagian. Bagian pertama adalah masukkan berupa data training. Bagian kedua adalah tahap proses. Tahap proses ini terdiri dari 5 tahap antara lain pre-processing, seleksi fitur, ekstraksi fitur kemudian menghasilkan model training.
Gambar 1. Pengolahan Data Latih
Model training digunakan pada tahap proses testing data yang ditunjukkan oleh gambar 3.2 kemudian dilakukan proses klasifikasi menggunakan algoritme Maximum
Entropy. Setelah proses klasifikasi maka akan
masuk proses evaluasi. Khusus untuk tahap pelatihan hanya dilakukan sekali karena model hasil pelatihan bisa digunakan berulang-ulang tanpa melakukan proses pelatihan lagi.
Gambar 2. Pengolahan Data Uji 3.3 Teknik Pengumpulan Data
Penelitian memakai data berjumlah 600
artikel berbahasa Indonesia. Data ini pernah digunakan untuk penelitian penelitian (Rahutomo et al) tahun 2017. 600 artikel terdiri dari 372 artikel berlabel Fakta dan 228 artikel berlabel hoaks.
4 PENGUJIAN DAN ANALISIS
Bab ini menguraikan hasil uji analisis Klasifikasi Hoaks Menggunakan Metode Klasifikasi Maximum Entropy dengan Seleksi Fitur Information Gain. Bagian ini berisi impak penggunaan variasi rasio data latih-uji dan variasi seleksi fitur Information Gain pada metode klasifikasi Maximum Entropy.
4.1 Pengujian Variasi Rasio Data Latih dan Data Uji
Data yang diolah berjumlah 600 artikel. Uji dilakukan memakai 3 macam rasio. Tujuan dibalik variasi dari setiap rasio adalah untuk mengetahui rasio mana yang menghasilkan akurasi paling tinggi. Uji ini memakai persentase data latih dan uji sebesar 400-200, 500-100, dan 550-50. Persentase menunjukkan banyak data yang digunakan.
4.1.1 Skenario Pengujian Variasi Rasio Data Latih dan Data Uji
Skenario uji memakai 3 macam rasio. Rasio yang digunakan yaitu sebesar 400-200, 500-100, dan 550-50. Persentase data latih dan ditampilkan di Tabel 1. Nilai evaluasi ditampilkan pada Tabel 2.
Tabel 1. Data Latih dan Uji
Dataset Percobaan ke-
Jumlah Berita
Data Latih Data Uji
600
1 400 200
2 500 100
3 550 50
Tabel 2. Hasil Pengujian Variasi Persentase Data
Latih dan Uji Evaluasi
Persentase Data Latih dan Uji
400-200 500-100 550-50
Akurasi 0,43 0,75 0,78
Precision 0,38 0,95 0,95
Recall 0,9 0,76 0,81
Fakultas Ilmu Komputer, Universitas Brawijaya
4.1.2 Perbandingan Nilai Evaluasi Variasi Rasio Data Latih dan Data Uji
Gambar 3 menyajikan nilai evaluasi klasifikasi hoaks dengan tiga variasi persentase data latih dan uji. Nilai akurasi tertinggi oleh rasio 550-50 dengan nilai 0,78. Hasil di atas mengatakan bahwa hasil akurasi semakin baik apabila banyak menggunakan data latih.
Gambar 3. Grafik Hasil Pengujian Variasi
Persentase Data Latih dan Uji
4.2 Analisis Hasil Pengujian Variasi Rasio Data Latih dan Data Uji
Nilai precision di Tabel 2 menunjukkan adanya peningkatan dari rasio 400-200, 500-100, 550-50. Hasil klasifikasi dipengaruhi oleh banyaknya data latih. Data latih yang banyak memungkinkan hasil akurasi klasifikasi menjadi lebih besar. Oleh karena itu, nilai
precision mengalami peningkatan karena ada
data latih yang digunakan semakin banyak dari rasio 400-200, 500-100, 550-50 Nilai precision sendiri menggambarkan kualitas dari program itu sendiri.
Nilai recall pada Tabel 2 menunjukkan mengalami peningkatan dari rasio 400-200, 500-100, 550-50. Data latih yang banyak membuat sistem lebih mengenal banyak
term-term yang ada. Term yang sudah dilatih ini
banyak yang relevan dengan data uji sehingga nilai recall menjadi meningkat. Nilai recall menggambarkan seberapa banyak nilai relevan yang dihasilkan oleh program.
Nilai f-measure pada Tabel 2 menunjukkan adanya peningkatan. Peningkatan ini menunjukkan performa yang ada untuk klasifikasi ini. Nilai f-measure bisa menurun disebabkan karena meningkatnya nilai precision dan meningkatnya nilai recall dari rasio 400-200, 500-100, 550-50.
4.3 Pengujian Variasi Seleksi Fitur
Information Gain
Uji memakai 4 macam threshold.
Persentase data latih dan uji 550-50 yang dipakai karena menghasilkan akurasi terbaik dibanding 2 rasio data latih dan uji lainnya. Tujuan dibalik variasi dari setiap threshold adalah untuk mengetahui threshold dengan akurasi paling tinggi. Uji ini menggunakan
threshold sebesar 50%, 80%, 90%, dan tidak
menggunakan Information Gain. Persentase
threshold menunjukkan banyak term yang
diambil dari total term yang ada.
4.3.1 Skenario Pengujian Variasi Seleksi Fitur Information Gain
Skenario uji memakai 4 macam threshold.
Threshold yang digunakan yaitu sebesar 50%,
80%, 90% dan tidak menggunakan Information
Gain. Hasil evaluasi ditampilkan di Tabel 3 dan
4.
Tabel 3 Hasil Pengujian Variasi Seleksi Fitur
Information Gain
Evaluasi Nilai Threshold (%)
50% 80% 90%
Akurasi 0,8 0,78 0,78
Precision 1 0,95 0,95
Recall 0,8 0,81 0,81
F-Measure 0,89 0,88 0,88
Tabel 4. Hasil Pengujian Variasi Seleksi Fitur
Tanpa Information Gain Evaluasi
Nilai Threshold (%) Tanpa Seleksi Fitur
Akurasi 0,78
Precision 0,95
Recall 0,81
F-Measure 0,88
4.3.2 Perbandingan Nilai Evaluasi Variasi Seleksi Fitur Information Gain
Nilai akurasi tertinggi oleh threshold 50% dengan nilai 0,8. Hasil di atas mengatakan bahwa semakin sedikit fitur yang diambil dari seleksi fitur semakin besar hasil akurasi yang didapat. Nilai evaluasi di Gambar 4.
0, 43 0, 38 0, 9 0, 53 0, 75 0, 95 0, 76 0,85 0, 78 0, 95 0, 81 0,88 0 0,2 0,4 0,6 0,8 1 A k u r a s i P r e c i s i o n R e c a l l F - M e a s u r e Ti n gk at Ki n er ja 400-200 500-100 550-50
Gambar 4. Grafik Hasil Pengujian Variasi Seleksi
Fitur Information Gain
Gambar 5 melakukan perbandingan hasil klasifikasi memakai seleksi fitur dan tanpa memakai seleksi fitur. Gambar memperlihatkan hasil seleksi fitur (threshold 50%) lebih tinggi dibanding tanpa menggunakan seleksi fitur.
Gambar 5. Grafik Perbandingan Nilai Evaluasi
Seleksi Fitur Information Gain dengan Threshold 50% dan Tanpa Seleksi Fitur Information Gain
Berdasarkan Gambar 4 dan Gambar 5 hasil akurasi terbaik sebesar 0,8 didapatkan melalui penggunaan seleksi fitur dengan threshold 50%. Akurasi terbaik diperoleh dengan persentase data latih dan uji 550-50.
4.4 Analisis Hasil Pengujian Variasi Seleksi Fitur Information Gain
Pada algoritme Maximum Entropy,
dokumen yang berisi fitur kata dengan kemunculan kata yang tinggi pada satu kelas sangat memengaruhi hasil klasifikasinya. Apabila ada dokumen label fakta berisi fitur dengan kemunculan kata yang tinggi menjadi data latih dan ada dokumen uji berlabel hoaks maka kecenderungan algoritme Maximum
Entropy menghasilkan klasifikasi dokumen uji
tersebut sebagai fakta, dan begitu pula sebaliknya.
Nilai precision pada Tabel 4 menunjukkan adanya peningkatan dari threshold 50%, 80% hingga 90%. Hal ini dipengaruhi oleh term-term yang mempengaruhi masing-masing data uji.
Term-term yang memengaruhi data uji. Saat term tersebut tidak diambil untuk proses
pelatihan maka akan membuat hasil klasifikasi menjadi benar. Oleh karena itu nilai precision
mengalami penuruan karena ada data latih yang digunakan pada threshold 80% dan lebih banyak dibandingkan threshold 50%. Nilai
precision sendiri menggambarkan kualitas dari
program itu sendiri.
Nilai recall pada Tabel 4 menunjukkan kebalikan dari nilai precision, yaitu mengalami peningkatan dari threshold 50%, 80% hingga 90%. Hal ini juga merupakan efek dari
term-term yang mempengaruhi masing-masing data
uji. Term yang tidak diambil untuk proses pelatihan maka akan membuat hasil klasifikasi menjadi benar, tetapi term-term yang diambil ini relevan dengan data uji yang ada sehingga nilai recall menjadi meningkat. Nilai recall menggambarkan seberapa banyak nilai relevan yang dihasilkan oleh program.
Nilai f-measure pada Tabel 4 menunjukkan adanya penurunan. Penurunan ini menunjukkan performa yang ada untuk klasifikasi ini. Nilai
f-measure bisa menurun disebabkan karena
menurunnya nilai precision dan meningkatnya nilai recall dari threshold 50%, 80% hingga 90%.
Nilai recall pada Tabel 4 menunjukkan kebalikan dari nilai precision, yaitu mengalami peningkatan dari threshold 50%, 80% hingga 90%. Hal ini juga merupakan efek dari
term-term yang mempengaruhi masing-masing data
uji. Term-term yang memengaruhi data uji 2 dan data uji 35 disajikan di Tabel 6 dan Tabel 8.
Term tersebut tidak diambil untuk proses
pelatihan maka akan membuat hasil klasifikasi menjadi benar, tetapi term-term yang diambil ini relevan dengan data uji yang ada sehingga nilai recall menjadi meningkat. Nilai recall menggambarkan seberapa banyak nilai relevan yang dihasilkan oleh program.
Nilai f-measure pada Tabel 4 menunjukkan adanya penurunan. Penurunan ini menunjukkan performa yang ada untuk klasifikasi ini. Nilai
f-measure bisa menurun disebabkan karena
menurunnya nilai precision dan meningkatnya nilai recall dari threshold 50%, 80% hingga 90%.
5 KESIMPULAN
Seleksi fitur Information Gain memiliki pengaruh dalam klasifikasi hoaks dengan menerapkan Maximum Entropy. Hal ini dibuktikan dengan meningkatnya hasil akurasi klasifikasi hoaks dengan Maximum Entropy
0, 8 1 0, 8 0,89 0, 78 0,95 0, 81 0,88 0, 78 0,95 0, 81 0,88 0 0,5 1 A k u r a s i P r e c i s i o n R e c a l l F - M e a s u r e Ti n gk at k in er ja T=50% T=80% T=90% 0, 8 1 0,8 0, 89 0, 78 0,95 0, 81 0,88 0 0,5 1 A k u r a s i P r e c i s i o n R e c a l l F - M e a s u r e Ti n gk at Ki n er ja
Fakultas Ilmu Komputer, Universitas Brawijaya
memakai seleksi fitur Information Gain (threshold = 50%) dengan akurasi sebesar 0,8 dibandingkan jika tidak menggunakan seleksi fitur menghasilkan akurasi sebesar 0,78.
Klasifikasi hoaks memakai metode
Maximum Entropy dengan seleksi fitur
Information Gain (threshold = 50%)
mendapatkan akurasi 0,8, precision 1, recall 0,8, dan f-measure 0,89.
6 DAFTAR REFERENSI
Ahmad, Tahir., 2011. Identifikasi Pelanggaran Pengguna Listrik Rumah Tangga pada PT PLN Distribusi Jawa Barat dan Banten UPJ Bandung Utara Menggunakan Metode Naïve Bayes dan Metode Maximum Entropy.
Anggraini, Dyta., 2008. Klasifikasi Topik Menggunakan Metode Naïve Bayes dan Maximum Entropy pada Artikel Media Massa dan Abstrak Tulisan.
Cuong, N. V., Linh, N. T. T., & Thuy, H. Q., 2006. A Maximum Entropy Model for Text Classification.
Graauwmans, V.C.J., 2016. Fake News in the Online World: An Experimental Study on Credibility Evaluations of Fake News depending on Information Processing.
Juditha, Christiany., 2018. Interaksi Komunikasi Hoaks di Media Sosial serta Antisipasinya.
Kira, K. dan Rendell, L. A., 1992. The Feature Selection Problem: Traditional Methods and a New Algorithm.
Mahmudy, Wayan Firdaus. dan Widodo, Agus Wahyu., 2014. Klasifikasi Artikel Berita Secara Otomatis Menggunakan Metode Naïve Bayes Classifier yang dimodifikasi.
Masithoh, Nurul., 2016. Analisis Klasifikasi Topik Menggunakan Metode Naïve
Bayes Classifier, Naïve Bayes
Multinomial Classifier, dan Maximum Entropy pada Artikel Berita.
Nigam, K., Lafferty, J., McCallum, A., 1999. Using Maximum Entropy for Text Classification.
Rahutomo, Fasial., Pratiwi, I. Y. R., Ramadhani, Diana Mayangsari., 2019. Eksperimen
Naive Bayes Pada Deteksi Hoax
Berbahasa Indonesia.
Sari, Yuita Arum. dan Arwan, Achmad., 2018.
Seleksi Fitur Information Gain untuk Klasifikasi Penyakit Jantung Menggunakan Kombinasi Metode
K-Nearest Neighbor dan Naïve Bayes.
Wijanto, Maresha Caroline., 2015. Sistem Pendeteksi Pengirim Tweet dengan Metode Klasifikasi Naive Bayes. Yong-Feng, S. dan Yan-Ping, Z., 2004.
Comparison of Text Categorization Algorithms.
Zheng, Songtao., 2014. Naïve Bayes Classifier: A Mapreduce Approach.