ANALISIS DAN PERANCANGAN SISTEM
3.2. Arsitektur Umum
Terdapat tiga bagian utama pada tahapan pemodelan topik dengan menggunakan algoritma latent dirichlet allocation yaitu, input, proses, dan output. Tahapan input pada sistem ini adalah mengambil artikel berita (web crawling) yang terdapat pada index halaman portal berita untuk dilakukan pembersihan data (data cleaning), dan kemudian dilanjutkan dengan tahap pre-processing. Pada tahap pre-processing ini dilakukan proses tokenization, stopword removal dan stemming, kemudian dilanjutkan pada proses pemodelan topik dengan algoritma latend dirichlet allocation. Pemodelan yang dihasilkan kemudian dianalisis oleh algoritma Gibss Sampling untuk menghasilkan output berupa beberapa topik yang yang terdiri dari beberapa kata yang dapat dipahami dalam satu topik tersebut. Topik-topik inilah yang nantinya mewakili informasi yang didapat dari sekumpulan file yang telah dijadikan input sebelumnya.
Pada gambar 3.1. terdapat arsitektur umum yang dapat menjelaskan setiap tahapan pada metode penelitian ini.
3.2.1 Input
Tahapan pertama pada penelitian ini ialah mengambil beberapa artikel berita online berbahasa Indonesia dari halaman index berita Detik Finence, pada kasus ini penulis memilih sejumlah 393 artikel yang diterbitkan pada seminggu pertama di tahun 2019. Pada gambar 3.2 terdapat teks artikel berita yang dipilih itulah yang nantinya akan dijadikan data penelitian.
Setelah corpus atau kumpulan artikel dari hasil web crawling didapatkan, maka selanjutnya proses pembersihan (data cleaning) dilakukan untuk membuat data tersebut layak untuk dijadikan sebagai data penelitian. Pembersihan dilakukan dengan cara menghapus html tags, double quotes, newline, dan multiple space pada artikel berita, biasanya hal tersebut banyak digunakan untuk merujuk pada artikel pendahulu sebelumnya dan penulisan pada kutipan kata dari narasumber. Pada gambar 3.3 terdapat contoh artikel yang layak dijadikan data penelitian setelah melewati proses data cleaning.
18
Gambar 3.1. Arsitektur Umum Sistem
3.2.2 Proses
Tahapan utama pada penelitian ini ialah pre-processing data dan implementasi algoritma, yaitu melakukan beberapa tahapan pre-processing pada data teks berita yang telah di-input ke dalam basis data untuk selanjutnya dilakukan pengaplikasian algoritma pada data tersebut. Untuk penjelasan lebih lanjut tahapan proses tersebut akan diterangkan sebagai berikut :
1. Pre-processing
Tahapan pre-processing adalah tahapan pertama dalam melakukan pemodelan topik. Tujuan dari tahap ini ialah untuk menghasilkan artikel yang siap di proses lebih lanjut dari artikel mentah yang telah didapat sebelumnya. Pada tahap ini kalimat-kalimat berita yang sudah dipilih dibersihkan sehingga memudahkan proses pemodelan. Terdapat beberapa tahapan dalam pre-processing yaitu tokenization, stopword removal dan stemming.
Gambar 3.2. Contoh Artikel Berita A. Tokenization
Tokenization (tokenisasi) ialah istilah yang digunakan dalam proses pemecahan atau pemisahan kata yang menjadi penyusun string setelah di-input. Lebih jelasnya proses ini ialah pemisah setiap rangkaian kata, rangkaian angka, dan rangkaian huruf dengan angka yang memiliki makna tertentu sebagai penyusun dari suatu dokumen. Tokenisasi diaplikasikan dengan menghilangan karakter lain selain alfabet seperti angka dan tanda baca, karena karakter-karakter tersebut bertujuan sebagai
20
Jakarta - Tahun 2018 kemarin pemerintah tidak mengajukan perubahan pada anggaran dan pendapatan belanja negara (APBN). Hal ini merupakan capaian positif bagi
pemerintah. Menteri Keuangan Sri Mulyani Indrawati menyebut tak diajukannya perubahan tersebut mendorong kementerian/lembaga fokus menjalankan rencana anggaran secara penuh. Hal ini merupakan pertama kalinya dalam 15 tahun terakhir. Untuk pertama kali dalam 15 tahun, pemerintah tidak mengajukan perubahan UU APBN 2018, kata Sri Mulyani dikutip dari laman Facebook resminya, Selasa (1/1/2019). Mantan direktur pelaksana Bank Dunia ini menyampaikan terima kasih atas kerja sama dan capaian seluruh lembaga dan kementerian. Menurut dia kementerian keuangan juga terus memperbaiki kualitas pengelolaan dan pemanfaatan aset negara, diantaranya melalui revaluasi aset. Dia menyebut sebagai otoritas fiskal Kemenkeu terus bekerja sama dengan Bank Indonesia, Otoritas Jasa Keuangan (OJK) dan Lembaga Penjamin Simpanan (LPS) untuk menjaga stabilitas sektor keuangan termasuk mencegah terjadinya krisis keuangan. Ini adalah pilar penting dalam menjaga kepercayaan, jelasnya. Penerimaan negara baik pajak, bea cukai dan penerimaan negara bukan pajak tumbuh tinggi dan sehat. Kemudian belanja negara juga terealisir dengan baik di pusat maupun daerah. Memang pembiayaan mengalami kontraksi, dengan defisit APBN sebesar 1,72% dari produk domestik bruto (PDB). Angka ini lebih rendah dibandingkan angka UU APBN 2018 sebesar 2,19%. Ini adalah defisit terkecil sejak 2012. Selanjutnya untuk keseimbangan primer sebesar Rp 4,1 triliun. Dan ini adalah surplus keseimbangan primer sejak 2011. Prestasi! imbuh dia. (kil/fdl)
Gambar 3.3. Hasil Data Cleaning
Penulisan artikel berita pada umumnya bersifat resmi dan sesuai EYD, salah satunya dengan mengaplikasikan huruf kapital pada setiap awal kalimat dan awal kata pada istilah tertentu. Untuk itu, pada tahapan ini juga dilakukan proses case folding, yaitu mengubah semua huruf kapital pada dokumen menjadi huruf kecil, agar jenis huruf yang akan diproses menjadi seragam. Proses case folding diperlukan agar pemrosesan kalimat menjadi lebih mudah. Setiap kata yang menyusun dokumen inilah yang nantinya dijadikan token. Gambar 3.4 memperlihatkan contoh dari proses filtering.
B. Stopword Removal
Stopword removal (pembuangan stopword) atau yang disebut juga dengan filtering. Pada tahapan ini dilakukan penyaringan kata penting dari hasil tokenisasi, yaitu memilih kata yang ditetapkan untuk mewakili dokumen dan menghapus kata yang tidak bermakna atau tidak relevan pada dokumen. Tahapan ini dimaksudkan untuk membuang token yang tidak terlalu berpengaruh di dalam kalimat, sehingga pemrosesan bisa lebih cepat. Proses ini dilakukan dengan cara membuang token berupa kelas kata penghubung seperti “yang”, “di”, “ke”, “dari”, “adalah”, “dan”,
“atau”, dan sejenisnya yang termasuk di dalam daftar stopword. Pada penelitian ini penulis menggunakan daftar stopword yang didapat dari hasil penelitian Tala. Sistem
akan mengakses daftar kata stopword yang telah disimpan ke dalam sebuah file txt untuk membandingkan token dengan stopword yang ada pada daftar, jika terdapat kesamaan maka token akan dibuang atau dihapus. Pada gambar 3.5 terdapat contoh dari proses filtering.
jakarta tahun kemarin pemerintah tidak mengajukan perubahan pada anggaran dan pendapatan belanja negara apbn hal ini merupakan capaian positif bagi pemerintah menteri keuangan menyebut tak diajukannya perubahan tersebut mendorong kementerianlembaga fokus menjalankan rencana anggaran secara penuh hal ini merupakan pertama kalinya dalam tahun terakhir untuk pertama kali dalam tahun pemerintah tidak mengajukan perubahan uu apbn kata sri mulyani dikutip dari
laman facebook resminya selasa mantan direktur pelaksana bank dunia ini menyampaikan terima kasih atas kerja sama dan capaian seluruh lembaga dan kementerian menurut dia kementerian keuangan juga terus memperbaiki kualitas pengelolaan dan pemanfaatan aset negara diantaranya melalui revaluasi aset dia menyebut sebagai otoritas fiskal kemenkeu terus bekerja sama dengan bank indonesia otoritas jasa keuangan ojk dan lembaga penjamin simpanan lps untuk menjaga stabilitas sektor keuangan termasuk mencegah terjadinya krisis keuangan ini adalah pilar penting dalam menjaga kepercayaan jelasnya penerimaan negara baik pajak bea cukai dan penerimaan negara bukan pajak tumbuh tinggi dan sehat kemudian belanja negara juga terealisir dengan baik di pusat maupun daerah memang pembiayaan mengalami kontraksi dengan defisit apbn sebesar dari produk domestik bruto pbd angka ini lebih rendah dibandingkan angka uu apbn sebesar ini adalah defisit terkecil sejak selanjutnya untuk keseimbangan primer sebesar rp triliun dan ini adalah surplus keseimbangan primer sejak prestasi imbuh dia kilfdl
Gambar 3.4. Hasil Tokenization
jakarta kemarin pemerintah mengajukan perubahan anggaran pendapatan belanja negara apbn capaian positif pemerintah menteri keuangan menyebut diajukannya perubahan mendorong kementerianlembaga fokus menjalankan rencana anggaran penuh kalinya kali pemerintah mengajukan perubahan uu apbn sri mulyani dikutip laman facebook resminya selasa mantan direktur pelaksana bank dunia terima kasih kerja capaian lembaga
kementerian kementerian keuangan memperbaiki kualitas pengelolaan pemanfaatan aset negara revaluasi aset menyebut otoritas fiskal kemenkeu bekerja bank indonesia otoritas jasa keuangan ojk lembaga penjamin simpanan lps menjaga stabilitas sektor keuangan mencegah krisis keuangan pilar menjaga kepercayaan penerimaan negara pajak bea cukai penerimaan negara pajak tumbuh sehat belanja negara terealisir pusat daerah
pembiayaan mengalami kontraksi defisit apbn produk domestik bruto pbd angka rendah dibandingkan angka uu apbn defisit terkecil keseimbangan primer rp triliun surplus keseimbangan primer prestasi imbuh kilfdl
Gambar 3.5. Hasil Filtering C. Stemming
Stemming adalah istilah yang digunakan untuk proses pencarian root atau akar dari kata yang dihasilkan dari proses filtering, untuk menghasilkan bentuk dasar dari
22
bentuk kata dasar dari setiap kata berimbuhan yang terdapat pada artikel berita.
Pencarian root pada kata dapat memperkecil hasil indeks tanpa harus menghilangkan makna. Pada penelitian ini penulis memanfaatkan stemmer sastrawi dengan menggunakan algoritma stemming Nazief Andriani, yaitu algoritma yang dikembangkan untuk proses stemming dokumen Bahasa Indonesia. Terdapat dua pendekatan pada proses stemming, yaitu pendekatan kamus dan pendekatan aturan.
Sistem akan membandingkan setiap kata dengan daftar kata dasar yang terdapat dalam kamus terlebih dahulu, jika terdapat perbedaan maka kata akan melalui seleksi untuk menghapus imbuhan awalan, akhiran, atau kombinasi awalan dan akhiran pada kata tersebut. Pada gambar 3.6 terdapat contoh dari proses stemming.
jakarta kemarin pemerintah aju perubahan anggar dapat belanja negara apbn capai positif pemerintah menteri uang sebut aju perubahan dorong kementerianlembaga fokus jalan rencana anggar penuh kali kali pemerintah aju perubahan uu apbn sri mulyani kutip laman facebook resmi selasa mantan direktur laksana bank dunia terima kasih kerja capai lembaga menteri menteri uang memperbaiki kualitas pengelolaan manfaat aset negara revaluasi aset sebut otoritas fiskal kemenkeu kerja bank indonesia otoritas jasa uang ojk lembaga jamin simpan lps jaga stabilitas sektor uang cegah krisis uang pilar jaga percaya terima negara pajak bea cukai terima negara pajak tumbuh sehat belanja negara terealisir pusat daerah biaya alami kontraksi defisit apbn produk domestik bruto pbd angka rendah banding angka uu apbn defisit kecil keseimbangan primer rp triliun surplus keseimbangan primer prestasi imbuh kilfdl
Gambar 3.6. Hasil Stemming 2. Implementasi Algoritma
Corpus atau kumpulan dokumen yang telah melewati tahapan preprocessing sebelumnya akan dijadikan dataset input pada proses menerapkan algoritma Latent Dirichlet Allocation. Algoritma ini adalah algoritma yang umumnya digunakan untuk proses pemodelan topik. Proses generatif untuk setiap artikel berita yang terkumpul di dalam dataset adalah sebagai berikut:
▪ Topik dideskripsikan dengan notasi β1:K , dimana tiap βK merupakan distribusi atas kata.
▪ Proporsi topik untuk dokumen ke d adalah θd , dimana θd,k adalah proporsi topik k pada dokumen d.
▪ Pemilihan topik untuk dokumen ke d digambarkan pada zd , dimana zd adalah pemilihan topik untuk kata ke n pada dokumen d.
▪ Akhirnya, kata-kata yang terobservasi pada dokumen d adalah wd , dimana wd,n
adalah kata ke n pada dokumen d, dan merupakan bagian dari kosakata tetap.
Dengan notasi tersebut, proses generatif pada LDA berkorespondensi pada joint distribution dari variabel tersembunyi dan terobservasi pada persamaan 2.1.
Secara sederhana proses yang dilakukan menggunakan LDA dan Gibbs Sampling terbagi menjadi tahapan utama yaitu inisialisasi dan estimasi model sebagai berikut:
1. Inisialisasi nilai parameter-parameter dasar, yaitu: jumlah topik, jumlah kata dan iterasi. Penentuan iterasi pada penelitian ini menggunakan proses hyperparameter optimasi yang terbagi atas number of interval dan number of burn-in. Selanjutnya pendistribusian nilai ‘0’ atau ‘1’ secara acak untuk setiap kata di dalam dataset. Jika bernilai ‘1’ maka kata dianggap sebagai kata topik, maka tentukan nomor topik kata tersebut secara acak sesuai dengan rentang jumlah topik yang ditentukan. Sedangkan jika bernilai ‘0’ maka kata akan diinisialisasi sebagai kata background.
2. Estimasi Model menggunakan algoritma Gibbs sampling yang sudah dijelaskan pada bagian 2.6, terhadap model dengan perulangan sebanyak nilai iterasi yang sudah ditentukan atau sampai tercapai kondisi konfergensi, dengan menjalankan proses-proses sampling terhadap masing-masing artikel di dalam dataset. Untuk mengestimasikan probabilitas dalam menentukan setiap kata pada suatu topik, maka setiap token kata pada kumpulan dokumen memiliki gilirannya untuk diproses berdasarkan prosedur Gibbs Sampling. Berdasarkan distribusi kondisional ini maka sebuah topik dijadikan sample dan disimpan sebagai penetapan topik yang baru untuk sebuah token kata. Index wi
merepresentasikan koleksi kata, index di merepresentasikan dokumen, dab index i merepresentasikan setiap token kata pada sekumpulan dokumen.
Distribusi kondisional ini ditulis dengan P(zi = j|z_i,wi,di,.), dimana Zi = j merepresentasikan penetapan topik dari token dn ke topik j, Z_dn
merepresentasikan penetapan topik untuk semua token kata, dan merupakan semua informasi yang sudah terobservasi seperti kata wi dan dokumen di. Variabel CWT dan CDT merupakan matrix jumlah dengan dimensi WXT dan DXT, dimana CWT wj berisi berapa kali kata w ditetapkan ke topik j dan CDT dj berisi
24
dan Griffths (2005) menjelaskan algoritma Gibbs Sampling dimulai dengan menetapkan setiap token kata ke sebuah topik [1..T] secara random. Untuk setiap token kata, jumlah dari CWT dan CDT dikurangi satu untuk tiap entri yang berkorespondensi ke topik yang ditetapkan saat ini. Lalu, topik baru ditetapkan sesuai dengan rumus dan jumlah dari CWT dan CDT dinaikkan satu sesuai dengan topik yang baru. Setiap Gibbs sample terdapat penetapan topik untuk semua token kata dalam kumpulan dokumen yang didapat dengan melakukan iterasi ke semua kata dalam dokumen.