Labeled Latent Dirichlet Allocation (LLDA) adalah model grafis probabilistik yang menjelaskan proses untuk menghasilkan dokumen berlabel (Ramage et al., 2009).
Labeled LDA memodelkan setiap dokumen sebagai campuran topik yang mendasari dan menghasilkan setiap kata dari satu topik. Proses pemodelan LLDA terlebih dahulu dimulai dengan membuat dokumen pelabelan untuk menghimpun topik yang akan digunakan sebagai langkah pengelompokan/klasifikasi. Setiap label berhubungan langsung dengan satu topik, sehingga setiap topik digambarkan sebagai satu label (Ramage et al., 2009). Tidak seperti LDA, LLDA menggabungkan pengawasan dengan membatasi model topik untuk menggunakan topik yang sesuai dengan kumpulan label dokumen yang akan diamati (Blei et al., 2003).
Model LLDA dapat digambarkan dalam sebuah diagram yang dapat digambarkan sebagai berikut:
Gambar 2.2 Diagram Model LLDA (Ramage et al., 2009) Proses generatif untuk Labeled LDA dapat dilihat sebagai berikut:
1. Untuk setiap topik k ∈ {1,…. , K}:
a. Menghasilkan βk = (βk, 1,.., Βk, V)T ∼ Dir (· | η) 2. Untuk setiap dokumen d:
a. Untuk setiap topik k ∈ {1,…., K}
i. Menghasilkan Λ(𝑑𝑘) ∈ {0, 1} ∼ Bernoulli (· | Φk)
b. Menghasilkan α(d) = L(d) . α, dimana L(d) adalah M(d) × matriks K [𝑙(𝑑)𝑖𝑗], M(d) = | λ(d)|
λ(d) = {k | Λ(𝑑𝑘) = 1}, 𝑙(𝑑)𝑖𝑗 = {1, 𝑗𝑖𝑘𝑎 λ(𝑑𝑖)= 𝑗
0, 𝑗𝑖𝑘𝑎 𝑡𝑖𝑑𝑎𝑘
c. Menghasilkan θ(d) = (θl1,. . . , θlMd)T ∼ Dir (· | α(d)) d. Untuk setiap i di {1,. . . , Nd}:
i. Menghasilkan zi ∈ {λ(d)1,. . . , λ (d)Md} ∼ Mult (· | θ(d)) ii. Menghasilkan wi ∈ {1,. . . , V} ∼ Mult (· | βzi)
Keterangan:
βk = Vektor yang berisi parameter distribusi multinomial yang sesuai dengan kth topik
α = Parameter topik η = Parameter dari kata Φk = Label untuk topik k 2.5.1 Gibbs Sampling pada LLDA
Gibbs Sampling merupakan pendekatan simulasi untuk mengkonstruk distribusi bersama berdasarkan distribusi marginal, pada proses estimasi parameter LLDA, Gibbs sampling memerlukan nilai peluang dari topik z yang diasosiasikan untuk sebuah kata
(term). Proses Gibbs Sampling untuk setiap dokumen (dm) dapat dilakukan sebagai berikut:
a. Untuk setiap topik (k), 𝑘 𝜖 {1, … , 𝐾}:
Menghasilkan label indikator binary topik 𝐴(𝑑𝑚) ∈ {0, 1} ~ 𝐵𝑒𝑟(. |Φ𝑘) b. Generate dimensi vektor yang lebih rendah untuk memproyeksikan parameter
vektor dari distribusi Dirichlet 𝛼(𝑑𝑚) = 𝐿(𝑑𝑚)𝑥 𝛼
c. Menghasilkan distribusi multinomial campuran 𝜃(𝑑𝑚) = (𝜃𝑙1, . . . , 𝜃𝑙𝑀𝑑𝑚)𝑇 ~ 𝐷𝑖𝑟(.
|𝛼(𝑑𝑚))
d. Untuk setiap iterasi sejumlah panjang kata dalam dokumen {1, ..., 𝑁𝑑}:
Menghasilkan topik baru z𝑖 ∈ {𝜆1(𝑑), … , 𝜆(𝑑)𝑀𝑑} ~ 𝑀𝑢𝑙𝑡(. |𝜃𝑧𝑖)
Menghasilkan list kata baru 𝑤𝑖 ∈ {1, … , 𝑉} ~ 𝑀𝑢𝑙𝑡(. |𝛽𝑧𝑖)
Persamaan Gibbs Sampling yang digunakan pada LLDA mengacu pada (Griffiths dan Steyvers, 2004) dapat dilihat pada persamaan (2.2).
P(Zi = j | Z-i) = 𝑛−𝑖,𝑗
(𝑤𝑖)+𝜂𝑤𝑖
𝑛−𝑖,𝑗(⋅) +𝜂𝑇1х𝑛−𝑖,𝑗
(𝑑)+ 𝛼𝑗
𝑛−𝑖,.(𝑑)+ 𝛼𝑇1 (2.2)
Keterangan:
Zi = Proses kata ke topik j = Topik
Z-i = ηwi yang mengacu pada jumlah kata wi dalam topik 𝑛−𝑖,𝑗(𝑤𝑖) = Jumlah kata yang tidak terdapat dalam proses saat ini
𝑛−𝑖,𝑗(⋅) = Jumlah dari semua perhitungan kata yang tidak ada dalam proses ηT1 = Jumlah dokumen
αT1 = Parameter alpha
Dengan pelatihan model mengunakan LLDA, setiap dokumen terlebih dahulu diberi label dengan benar atau sudah diberi topik terlebih dahulu. Distribusi topik kata di setiap loop diperbarui dalam Gibbs sampling (Griffiths, T.L et al., 2004) yang lebih fleksibel dibandingkan dengan kemungkinan maksimum metode estimasi. Pertama, setiap dokumen diproses sebelumnya melalui cleaning, case folding, stopword removal dan stemming; kedua, matriks nomor sampling dari topik-topik SN dihasilkan oleh Gibbs sampler.
Perplexity adalah ukuran seberapa baik distribusi probabilitas atau model probabilitas memprediksi sampel. Ini dapat digunakan untuk membandingkan model probabilitas. perplexity yang rendah menunjukkan distribusi probabilitas bagus untuk memprediksi sampel (Perplexity-Wikipedia, 2021). Untuk kumpulan data D, perplexity ditentukan dengan persamaan (2,3) berikut:
𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝐷) = exp { −∑𝑀𝑑=1𝑙𝑜𝑔𝑝(𝑤𝑑)
∑𝑀𝑑=1𝑁𝑑 } (2.3)
Keterangan:
M = Jumlah dokumen dalam kumpulan data Wd = Total jumlah kata
Nd = Jumlah kata dalam dokumen d
Pada saat nilai perplexity menurun dan berangsur-angsur menjadi stabil, maka model pelatihan topik yang dihasilkan sudah benar. Proses pelatihan model tersebut akan menghasilkan nilai probabilitas dari tiap-tiap kata dari masing-masing kategori.
Rumus untuk mencari nilai probabilitas (prob) tersebut dapat dilihat pada persamaan (2.4).
𝑃𝑟𝑜𝑏 =
N𝑘𝑣+βN𝑘+𝐿𝑣∗𝛽 (2.4)
Keterangan:
Nkv = Banyaknya kata V yang ditetapkan untuk topik K Nk =Jumlah Topik K
β
= Nilai parameter betaLv = Jumlah total keseluruhan kata 2.7 Metode Evaluasi
Metode evaluasi merupakan perhitungan nilai evaluasi yang digunakan untuk menilai seberapa baik hasil dari sistem yang dibuat dengan membandingan hasil dari sistem dengan hasil sebenarnya. Metode evaluasi dari sistem yang dibuat dapat dilihat dari recall, precision, f-score, akurasi dan lain-lain. Pada penelitian ini metode evaluasi yang digunakan adalah recall, precision, f-score, dan akurasi. Hasil evaluasi dari sistem pada setiap kategori dapat d itunjukkan pada tabel 2.1
Tabel 2.1 Tabel Confussion Matrix
Hasil dari tabel 2.1 dapat digunakan untuk menghitung nilai recall, f-score, precision dan akurasi. Adapun rumus dari perhitungan nilai recall, precision, f-score, dan akurasi dapat dilihat pada persamaan (2.5), (2.6), (2.7), dan (2.8)
𝑅𝑒𝑐𝑎𝑙𝑙 = TP
Jumlah seluruh dokumen х100% (2.8)
Keterangan:
TP = Dokumen berlabel benar yang terklasifikasi sebagai label benar oleh sistem TN = Dokumen berlabel salah yang terklasifikasi sebagai label benar oleh sistem FP = Dokumen berlabel benar namun terklasifikasi salah oleh sistem
FN = Dokumen berlabel salah namun terklasifikasi salah oleh sistem 2.8 Penelitian Terdahulu
Pada penelitian terdahulu, dengan menggunakan clustering appearance patterns peneliti mendeteksi cyberbullying secara otomatis dan membuktikan bahwa metode yang digunakan dapat mengklasifikasikan pesan kasar dari frekuensi kalimat dengan menggunakan skor statistik dan sumber data partisi, dan mampu mengklasifikasi model ke dalam delapan sub kategori yakni pendekatan kegiatan, komunikatif, desensitisasi, pujian, isolasi, informasi pribadi, reframing, dan hubungan (Romsaiyud, 2017).
Alami (2015) melakukan penelitian untuk mendeteksi dan memprediksi aktivitas kriminal di postingan microblog menggunakan Latent Dirichlet Allocation yang menghasilkan sistem otomatis untuk mendeteksi profil mencurigakan di media social
dengan menggunakan semantik sebagai pertukaran informasi dan mengidentifikasi profil yang mencurigakan.
Pada penelitian pengklasifikasian jurnal dengan menggunakan Latent Dirichlet Allocation untuk mengklasifikasi topik dari jurnal. Data yang digunakan adalah abstrak dari enam jurnal akuntansi top dari Web of Science, dan jumlah topik yang diidentifikasi dalam model penelitian ini adalah 32 yang memperoleh tujuh topik hangat dan enam topik dingin pada tingkat signifikansi 0,001 (Yang et al., 2018).
Pada tahun 2016, Saputra et al., melakukan penelitian berupa Pencarian Pasal Pada UU ITE Berdasarkan Kasus Cyber Crime Dengan Metode Latent Semantic Indexing (LSI) dengan menggunakan metode Latent Semantic Indexing (LSI), text processing, TF-IDF, SVD dan Cosine Similarity. Penelitian ini menghasilkan tingkat keberhasilan dengan nilai 83.33% untuk recall, 50% untuk precission dan 62.5% untuk f-measure, dengan nilai output sistem 10.
Penelitian mengenai klasifikasi dokumen seperti berita telah dilakukan oleh Widodo et al., (2016) dengan menggunakan metode multi-label berbasis domain specific ontology memberikan hasil akurasi masing-masing sebesar 93,85% untuk kategori olahraga dan 96,32% untuk kategori teknologi. Selain itu, pada penelitian tersebut juga melakukan pengukuran nilai f-measure dengan hasil masing-masing sebesar 74,74% untuk kategori olahraga dan 78,96% untuk kategori teknologi.
Pada tahun 2018 Nanayakkara P & Ranathunga melakukan penelitian yaitu Clustering artikel berita Sinhala berdasarkan corpus dan Similarity Measures yang menghasilkan akurasi 77% dari 9 penyedia berita. Penelitian lainnya juga dilakukan oleh Kusumaningrum et al., pada tahun 2016 yaitu mengklasifikasi Artikel Berita Indonesia menggunakan Latent Dirichlet Allocation dan hasil yang didapatkan menunjukkan bahwa akurasi keseluruhan terbaik adalah sekitar 70% sebagai akurasi rata-rata semua kelas. Bai, Y., & Wang, J. (2015) melakukan penelitian klasifikasi berita menggunakan Labeled LDA. Lalu, Wang, X et al., (2017) melakukan penelitian klasifikasi teks China pendek berdasarkan Sina Weibo menggunakan Labeled LDA dan Kernel SVM. Untuk lebih jelasnya, ringkasan mengenai penelitian terdahulu dapat dilihat pada Tabel 2.2.
Tabel 2.2 Penelitian Terdahulu
No. Peneliti Judul Keterangan
1 Romsaiyud et
Berdasarkan penelitian ini, peneliti menunjukkan bahwa metode yang digunakan dapat mengklasifikasikan pesan kasar dari frekuensi kalimat dengan menggunakan skor statistik dan sumber data partisi, dan mampu mengklasifikasi model ke dalam delapan sub kategori yakni
Penelitian ini menyajikan sistem otomatis untuk mendeteksi profil mencurigakan di media social dengan menggunakan semantik sebagai pertukaran informasi untuk dapat mengidentifikasi profil yang
Berdasarkan penelitian ini, peneliti memperoleh tujuh topik positif dan enam topik negatif pada tingkat
Penelitian ini menggunakan LLDA untuk mendapatkan model dan menggunakan SVM untuk proses klasifikasi.
Tabel 2.3 Penelitian Terdahulu (Lanjutan)
No. Peneliti Judul Keterangan
5 Bai, Y., & LLDA lebih baik daripada SVM.
6 Kusumaningrum, keseluruhan terbaik adalah sekitar 70% sebagai akurasi rata-rata semua kelas. dokumen seperti berita telah dilakukan oleh dengan menggunakan metode multi-label berbasis domain specific ontology memberikan hasil akurasi masing-masing sebesar 93,85% untuk kategori olahraga dan 96,32%
Penelitian yang akan saya lakukan memiliki perbedaan dengan penelitian terdahulu dalam berbagai hal. Pada penelitian yang dilakukan oleh Alami, S., &
Elbeqqali, O. (2015) menyajikan sistem otomatis untuk mendeteksi profil mencurigakan di media sosial dengan menggunakan semantik sementara penelitian ini melakukan klasifikasi pasal UU ITE terhadap kasus pelanggarannya. Pada penelitian yang dilakukan Saputra et al., (2018) dalam menentukan pasal-pasal UU ITE menggunakan metode latent semantic indexing (lsi) sedangkan penelitian ini menggunakan Algoritma Labeled Latent Dirichlet Allocation (LLDA) untuk mengklasifikasi pasal UU ITE terhadap kasus pelanggarannya. Pada penelitian yang dilakukan Wang, X et al., (2017) dalam mengklasifikasi teks pendek menggunakan Algoritma Labeled Latent Dirichlet Allocation (LLDA) yang digunakan untuk
menghasilkan model dan diklasifikasi menggunakan algoritma Support Vector Machine (SVM) sedangkan penelitian ini menggunakan Algoritma Labeled Latent Dirichlet Allocation (LLDA) sebagai algoritma pembuatan model dan pengklasifikasian. Secara keseluruhan dapat penulis sampaikan bahwa perbedaan penelitian ini saya adalah menggunakan algoritma Labeled Latent Dirichlet Allocation (LLDA) dengan menggunakan dataset berupa kronologi kejadian dari kasus pelanggaran UU ITE, dan output yang akan dihasilkan adalah pasal yang terkait terhadap kasus pelanggaran UU ITE dalam hal ini pasal tersebut adalah pasal 27 ayat (1), (3), (4), pasal 28 ayat (1) dan (2), serta pasal lainnya (diluar daripada adalah pasal 27 ayat (1), (3), (4), pasal 28 ayat (1) dan (2)).
BAB 3