SKRIPSI
KANIA ARFIANTI 121402025
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
MEDAN 2019
IDENTIFIKASI TOPIK ARTIKEL BERITA MENGGUNAKAN TOPIC MODELLING DENGAN METODE LATENT DIRICHLET ALLOCATION
SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi
KANIA ARFIANTI 121402025
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
MEDAN 2019
.ludul
Kategori FJan:a
Nonror lnduk h,lahasiswa Prograrm Studi
Departenruen Fakultas
K*misi P*mbirebing
Fembimbing 2
Siketatiui/Dis*tuj ui *leh
I tltlNTtFI'KASi l'Otl tK AftT't KEt. tSERiTA
MANCCIJNAKAN lO I} I { : M{} I}' I i !, I,{ NI ; DENG AN MET0DE t,AT' {,; Nl', D t ttt {: H t, tit' A t. t.{}{: A"t' { t' ) N
(
: SKRIFSI
: KAN{A ARFTIAN'II
: 1214fr2*23
: SAfiJANA (SU TEKNOI-OGI INFORIv{AS{
: XEKII{CILOG{ INFORMASI
: FAKULTAS TLMU KOMPUTER DAN TEK}IOLOGI INFC}RMAST
@w
Pembi*:bing I
Dr. Er*a Budhiarti Nababan M.iT NrP. 1952 1 {i252S1?$4200 I
iXk*m-TI {JSU
Comp Sc, M.Sc Romi Fadillah Rairnrar.
N{P i986*3*3201*!:1
ilt
PERNYATAAN
TDENTTFIKASI TOPTK
AR-TIKEL
BE,RITA I\{ENGGIJNAKAN TOPIC,WODELLTNG DENGAN METODE LATENT DIRICHLET ALI,OC,4TTOX'
SKRIPST
Saya nrengakui bahtva skripsi ini adalah hasil karya saya sen<lir:i, kecuali beberapa kutitrran dan ringkasan }'ang masing-masing telah disebutkan sumberaya.
Mcdan, Desember 2i119
Kania Arllanti
1214A2025
UCAPAN TERIMA KASIH
Puji dan syukur kehadirat Allah Subhanahu wa Ta’ala, karena rahmat dan izin-Nya penulis dapat menyelesaikan penyusunan skripsi ini, sebagai syarat untuk memperoleh gelar Sarjana Komputer, pada program studi S1 Teknologi Informasi Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.
Pertama, penulis ingin mengucapkan terima kasih kepada Ibu Dr. Erna Budhiarti Nababan M.IT selaku dosen pembimbing pertama dan Bapak Dani Gunawan ST., M.T selaku dosen pembimbing kedua yang telah meluangkan waktu dan tenaganya untuk membimbing penulis dalam penelitian serta penulisan skripsi ini. Tanpa inspirasi serta motivasi yang diberikan dari kedua dosen pembimbing, tentunya penulis tidak akan dapat menyelesaikan skripsi ini.
Kedua, penulis juga ingin mengucapkan terima kasih kepada Ibu Sarah Purnamawati, ST., MSc. selaku dosen pembanding pertama dan Bapak Ivan Jaya, S.Si., M.Kom. selaku dosen pembanding kedua yang telah meluangkan waktu dan tenaganya untuk memberikan kritik dan saran yang bermanfaat sehingga skripsi ini menjadi lebih baik dalam hal system dan penulisannya.
Ucapan terima kasih juga ditujukan kepada Ketua dan Sekretaris Program Studi Teknologi Informasi USU, Dekan dan Wakil Dekan Fakultas Ilmu Komputer dan Teknologi Informasi USU, dan semua dosen serta pegawai di lingkungan program studi Teknologi Informasi USU, yang telah membantu serta membimbing penulis selama proses perkuliahan.
Penulis tentunya tidak lupa berterima kasih kepada keluarga khususnya kedua orang tua Ibunda Tati Iriani dan Ayahanda Ir. Erwin Pane MS. yang telah memberikan nasehat serta doa yang selalu menyertai selama ini, dan penulis juga berterima kasih kepada Abangda Dhany Setia Purnama, Kakanda Meutia Raftika Pane dan Abangda M.
Husein Aditya Pane yang telah memberikan dukungan penuh selama proses pengerjaan skripsi ini.
Selanjutnya penulis juga ingin berterima kasih kepada teman-teman penulis yaitu teman-teman kesebelasan Ainul, Hasna, Ida, Mayya, Misbah, Nani, Siti, Ulfa, Wudda, Zahara serta senior dan junior penulis yang telah membantu penulis. Selain itu, penulis juga ingin berterima kasih kepada teman-teman Teknologi Informasi USU
v
Teknologi Informasi USU yang tidak dapat disebutkan satu persatu, yang telah memberikan banyak masukan dan pembelajaran kepada penulis.
Selain itu penulis juga ingin mengucapkan terima kasih kepada teman sepermainan yaitu Della, Frieda, Lusia dan Tika dan selalu menyemangati dan memotivasi penulis, dan terakhir penulis ingin mengucapkan terima kasih kepada saudara Park Chanyeol (LOEY) yang secara tidak langsung menjadi salah satu penyemangat penulis.
Semoga Allah SWT melimpahkan berkah kepada semua pihak yang telah memberikan bantuan secara langsung maupun tidak, serta perhatian, dukungan dan motivasinya kepada penulis dalam menyelesaikan skripsi ini.
Portal berita memberikan nilai lebih dengan memberikan informasi yang lebih cepat dengan berbagai jenis topik yang dibahas. Namun, Dengan banyaknya topik yang dibahas dan disajikan oleh penyedia berita, diperlukan waktu lebih untuk menentukan apa saja informasi yang menjadi trend dan sering diterima oleh masyarakat. Untuk itu pada penelitian ini dikembangkan system yang mengidentifikasi topik artikel berita tersebut menggunakan topic modelling dengan metode Latent Dirichlet Allocation untuk mengetahui trend topik-topik tersebut. Tahapan keseluruhan metode yang digunakan pada penelitian ini adalah diawali dengan input artikel berita dari index berita, kemudian tahap preprocessing berupa tokenization, stopword removal, dan stemming, lalu tahap proses topic modelling dengan algoritma LDA dan terakhir hasil output berupa grafik topik artikel dalam kurun waktu tertentu. Algoritma Latent Dirichlet Allocation mampu dengan cukup baik dalam mengidentifikasi topik berita pada artikel berita. Hal ini dilihat dari nilai akurasi sebesar 89,1% dari 339 artikel yang digunakan. Tingkat akurasi dari topik dengan artikel bergantung pada bobot distribusi topik pada artikel.
Kata Kunci : Topic Modelling, Latent Dirichlet Allocation, Artikel Berita
IDENTIFICATION OF NEWS ARTICLES TOPIC USING TOPIC MODELING WITH LATENT DIRICHLET ALLOCATION METHOD
ABSTRACT
News portals provide more value by providing faster information on various types of topics provided. However, with many topics presented and provided by news providers, more time is needed to determine what information is trending and often accepted by the public. For this reason, this research develops a system that addresses the topic of this news article using topic modeling using the Latent Dirichlet Allocation method to determine trends in these topics. The overall stages of the method used in this study were preceded by input of news articles from the news index, then the preprocessing application of tokenization, stopword removal, and stemming, then the process of topic modelling with the LDA algorithm, and the final results is chart of topic articles in certain news periods. The Latent Dirichlet Allocation Algorithm is quite good at identify news topics in news articles. This is seen from the verification value of 89.1%
of the 339 articles used. The accuracy of the topic with the article is determined by the weight of the topic distribution in the article.
Keywords: Topic Modeling, Latent Dirichlet Allocation, News Articles
DAFTAR ISI
Hal.
PERSETUJUAN ii
PERNYATAN iii
UCAPAN TERIMA KASIH iv
ABSTRAK viii
DAFTAR ISI viii
DAFTAR TABEL x
DAFTAR GAMBAR xi
BAB 1 PENDAHULUAN 1
1.1. Latar Belakang 1
1.2. Rumusan Masalah 3
1.3. Tujuan Penelitian 3
1.4. Batasan Masalah 3
1.5. Manfaat Penelitian 3
1.6. Metodologi Penelitian 4
1.7. Sistematika Penulisan 5
BAB 2 TINJAUAN PUSTAKA 6
2.1. Tokenization 6
2.2. Stopword Removal 6
2.3. Stemming 7
2.4. Topic Modelling 7
2.5. Latent Dirichlet Allocation (LDA) 9
2.6. Gibbs Sampling 12
2.7. Penelitian Terdahulu 13
BAB 3 ANALISIS DAN PERANCANGAN SISTEM 16
ix
3.2. Arsitektur Umum 17
3.2.1. Input 17
3.2.2. Proses 18
1. Pre-processing 18
A. Tokenization 19
B. Stopword Removal 20
C. Stemming 21
2. Implementasi Algoritma 22
3.3. Perancangan Sistem 24
3.3.1. Diagram Aktifitas 24
3.3.2. Perancangan Antarmuka 25
3.4. Evaluasi 31
BAB 4 IMPLEMENTASI DAN HASIL PENGUJIAN SISTEM 33
4.1. Implementasi Sistem 33
4.1.1. Kebutuhan Perangkat Keras dan Perangkat Lunak 33 4.1.2. Implementasi Perancangan Antarmuka 33
1. Halaman Source Configuration 34
2. Halaman Collection & Retrieval 34
3. Halaman Data Processing 35
4. Halaman Evaluation 36
5. Halaman Visualization 37
4.2. Pengujian Sistem 37
BAB 5 KESIMPULAN DAN SARAN 43
5.1. Kesimpulan 43
5.2. Saran 43
DAFTAR PUSTAKA 44
DAFTAR TABEL
Hal.
Tabel 2.1 Tabel Contoh Tokenization 6
Tabel 2.2 Tabel Contoh Stopword Removal 7
Tabel 2.3 Penelitian Terdahulu 14
Tabel 3.1 Ranking traffic situs berita online di Indonesia 16
Tabel 4.1 Percobaan dengan iterasi 10 40
Tabel 4.2 Percobaan dengan iterasi 20 40
Tabel 4.3 Percobaan dengan iterasi 30 41
Tabel 4.4 Distribusi topik pada percobaan 41
Tabel 4.5 Validasi topik dan artikel 42
xi
DAFTAR GAMBAR
Hal.
Gambar 2.1 Ilustrasi generate dokumen 8
Gambar 2.2 Konsep Topic Modelling 9
Gambar 2.3 Latent Dirichlet Allocation 10
Gambar 2.4 Contoh Hasil Generate Dokumen 11
Gambar 3.1 Arsitektur Umum Sistem 18
Gambar 3.2 Contoh Artikel Berita 19
Gambar 3.3 Hasil Data Cleaning 20
Gambar 3.4 Hasil Tokenization 21
Gambar 3.5 Hasil Filtering 21
Gambar 3.6 Hasil Stemming 22
Gambar 3.7 Diagram Aktivitas Sistem 25
Gambar 3.8 Tampilan Halaman Source Configuration 26
Gambar 3.9 Tampilan Halaman Collection & Retrieval 27
Gambar 3.10 Tampilan Halaman Data Processing 28
Gambar 3.11 Tampilan Halaman Evaluation 30
Gambar 3.12 Tampilan Halaman Visualization 30
Gambar 4.1 Tampilan Halaman Source Configuration 34
Gambar 4.2 Tampilan Halaman Collection & Retrieval 35
Gambar 4.3 Tampilan Halaman Data Processing Single 36
Gambar 4.4 Tampilan Halaman Data Processing Batch 37
Gambar 4.5 Tampilan Halaman Evaluation 38
Gambar 4.6 Tampilan Halaman Visualization 39
Gambar 4.7 Diagram distribusi topik dalam seminggu 42
BAB 1
PENDAHULUAN
1.1. Latar Belakang
Kemajuan dan peningkatan teknologi informasi saat ini tentu mempengaruhi peningkatan kesadaran dan kebutuhan masyarakat akan informasi. Hal ini secara tidak langsung membuat para peneliti terdorong untuk mengembangkan teknologi terbaru agar pengolahan dan penyampaian informasi dapat dilakukan dengan lebih cepat, salah satunya yaitu teknologi informasi. Peningkatan kemajuan teknologi informasi juga bersamaan dengan kemajuan perangkat mobile yang digunakan, akibatnya informasi yang disampaikan, proses komunikasi dan aktifitas lainnya menjadi lebih efisien, cepat dan hemat. Kegiatan masyarakat yang umum memanfaatkan teknologi informasi salah satunya adalah mengakses situs portal berita untuk mendapatkan informasi terkini.
Portal berita adalah media penyedia layanan informasi berupa berita secara online. Hampir setiap media nasional maupun internasional menyajikan layanan online disamping layanan konvensional yang disediakannya. Portal berita memiliki keunggulan yaitu dengan lebih cepat dalam menyediakan informasi daripada media konvensional seperti koran dan majalah. Pada portal berita terdapat informasi yang berasal dari daerah, dalam negeri dan juga luar negari dengan banyak berbagai jenis topik yang diulas.
Dengan banyaknya topik yang diulas, diperlukan waktu lebih untuk menentukan apa saja topik yang paling sering muncul dan menjadi trend pada berita.
Oleh karena itu, penelitian ini akan memberikan solusi dalam melakukan identifikasi topik artikel berita yang diterbitkan oleh situs portal berita online. Topic modelling merupakan model statistik untuk menentukan inti dari topik pada sekumpulan dokumen. Penggunaan identifikasi topic modelling untuk mengetahui trend topik yang
2
menjadi perhatian masyarakat saat ini, sehingga menghasilkan informasi yang lebih ringkas dengan cakupan yang lebih luas untuk kebutuhan informasi masyarakat.
Pada penelitian sebelumnya tentang pengklasifikasian teks berita dengan menggunkan metode Support Vector Machine (SVM) dan TF-IDF untuk ektraksi fitur. Peneliti menggunakan data BBC dan 5 kelompok dari 20 kelompok berita.
Akurasi yang didapatkan dari penelitian ini yaitu 94.84% untuk BBC dan 94.93% dari 20 kelompok berita (Dadgar et al., 2016). Dan pada penelitian analisis trending topic dengan menggunakan model pendeteksian topic sub-topik, peneliti menggunakan metode Foreground Dynamic Topic Modelling (VF-DTM) untuk merangkum trending topic berdasarkan data tweet dalam struktur yang lebih baik. (Banu S. Halima., 2016).
Selanjutnya pada penelitian generalisasi dan visualisasi hierarki topic dari microblog dengan menggunakan pendekatan Latent Dirichlet Allocation (LDA). Peneliti menggunakan data tweet dari brand nation #MadeInIndia untuk menemukan topik- topik apa saja yang menjadi bahasan yang berkaitan dengan hal tersebut dan memvisualisasikannya untuk menghasilkan informasi yang lebih mudah untuk dimengerti. (Anoop V.S et al., 2015).
Penelitian ini menggunakan metode Latent Dirichlet Allocation atau yang selanjutnya disebut dengan LDA. Latent Dirichlet Allocation (LDA) adalah salah satu algoritma topic modeling dengan model probabilitas generatif pada koleksi dokumen.
Tujuannya yaitu agar pemrosesan dokumen dalam koleksi data besar menjadi efisien (Blei, 2012). Metode LDA merupakan sebuah metode yang tergolong sebagai salah satu bentuk dari text mining untuk menemukan pola tertentu pada sebuah dokumen.
LDA membuat dokumen menghasilkan output berupa berbagai jenis topik yang berbeda, sehingga tidak secara spesifik mengelompokkan dokumen kedalam sebuah topik tertentu.
Berdasarkan penjelasan tersebut maka penulis melakukan sebuah pendekatan untuk memperoleh metode yang paling baik dalam melakukan identifikasi topik pada artikel berita yang diterbitkan oleh situs portal berita online. Untuk itu, penulis mengajukan penelitian dengan judul “IDENTIFIKASI TOPIK ARTIKEL BERITA
MENGGUNAKAN TOPIC MODELLING DENGAN METODE LATENT
DIRICHLET ALLOCATION”. Hasil penelitian penulis ini diharapkan mampu menghasilkan sistem identifikasi artikel berita online dengan tingkat akurasi yang tinggi.
1.2. Rumusan Masalah
Rumusan permasalahan yang akan diselesaikan dalam penelitian kali ini ialah bagaimana cara mengidentifikasi topik-topik berita yang menjadi trend di masyarakat.
Sebab dengan banyaknya topik yang dibahas dan disajikan oleh penyedia berita, diperlukan waktu lebih untuk menentukan apa saja topik yang paling sering muncul dan menjadi trend. Penggunaan identifikasi topik untuk mengetahui trend topik yang menjadi perhatian masyarakat saat ini, sehingga menghasilkan informasi yang lebih ringkas dengan cakupan yang lebih luas untuk kebutuhan informasi masyarakat.
1.3. Tujuan Penelitian
Tujuan dari penelitian kali ini ialah melakukan identifikasi topic modelling untuk mengetahui topik yang sedang trend dan sering diulas, hingga menjadi konsumsi masyarakat umum pada artikel situs berita online menggunakan metode Latent Dirichlet Allocation.
1.4. Batasan Masalah
Batasan masalah yang menjadi ruang lingkup permasalahan pada penelitian kali ini adalah sebagai berikut:
1. Data yang digunakan berupa beberapa artikel dari situs berita online yang berbahasa Indonesia.
2. Dataset yang digunakan berupa file dokumen berekstensi txt.
3. Dataset yang digunakan adalah artikel berita pada kurun waktu tertentu.
4. Artikel berita yang dijadikan data adalah berita seputar ekonomi dan keuangan (finance).
5. Output dari penelitian ini adalah sistem identifikasi topik berita berbasis desktop beserta visualisasinya, yang digunakan untuk menemukan topik yang sedang trend.
1.5. Manfaat Penelitian
Penelitian ini tentunya diharapkan untuk dapat memberikan banyak manfaat, diantaranya sebagai berikut:
4
1. Mempermudah menemukan topik berita yang sedang menjadi trend dimasyarakat.
2. Mempermudah masyarakat dalam menerima informasi yang lebih ringkas dengan cakupan yang luas.
3. Mengetahui kemampuan algoritma Latent Dirichlet Allocation dalam melakukan identifikasi pada pendekatan topic modelling.
1.6. Metodologi Penelitian
Tahapan yang dilakukan dalam penelitian ini adalah:
1. Studi Literatur
Pada tahap ini dilakukan pencarian dan penggalian serta pembelajaran terhadap informasi yang berhubungan dengan skripsi ini. Informasi dapat ditemukan pada buku-buku referensi atau sumber-sumber yang berkaitan dengan skripsi ini, baik dari text book maupun internet.
2. Analisis dan Perancangan Sistem
Pada tahap ini dilakukan analisis terhadap masalah, proses, dan cara kerja, dan juga dimulain proses perancangan terhadap data, interface, dan sistem secara keseluruhan.
3. Implementasi Program (Coding)
Pada tahap ini dilakukan pengkodean program perangkat lunak pengidentifikasian topik pada artikel berita menggunakan bahasa pemrograman Java dan PHP.
4. Pengujian
Pada tahap ini dilakukan pengujian pada sintaksis pemrograman. Selain itu, hal ini juga dilakukan untuk memastikan proses identifikasi topik pada artikel berita yang dilakukan sistem mendapatkan hasil yang terbaik.
5. Pembuatan Laporan
Pada tahap akhir ini pembuatan laporan dalam bentuk skripsi dilakukan untuk dijadikan sebagai dokumentasi hasil penelitian ini.
1.7. Sistematika Penulisan
Sistematika penulisan dari skripsi ini terdiri dari beberapa bagian sebagai berikut:
BAB 1: PENDAHULUAN
Bab ini akan membahas tentang latar belakang pemilihan judul skripsi “Identifikasi Topic Modelling Artikel Berita Menggunakan Latent Dirichlet Allocation”, perumusan masalah, pembatasan masalah, tujuan penelitian, manfaat penelitian, metodologi, dan sistematika penulisan.
BAB 2: TINJAUAN PUSTAKA
Bab ini akan membahas tentang berbagai teori yang berkaitan dengan Topic Modelling dan algoritma Latent Dirichlet Alloction serta informasi tambahan yang berhubungan dengan penelitian ini.
BAB 3: ANALISIS DAN PERANCANGAN SISTEM
Bab ini akan membahas metode yang digunakan, arsitektur umum, tiap langkah preprocessing yang dilakukan, penerapan algoritma Latent Dirichlet Allocation, kebutuhan perangkat lunak, serta perancangan aplikasi untuk melakukan pegidentifikasian topik artikel berita.
BAB 4: IMPLEMENTASI DAN HASIL PENGUJIAN SISTEM
Bab ini akan membahas tentang implementasi dari perancangan sistem, serta hasil pengujian yang diperoleh dari implementasi yang telah dijabarkan pada bab 3.
BAB 5: KESIMPULAN DAN SARAN
Bab ini akan membahas kesimpulan dari keseluruhan uraian bab-bab sebelumnya serta saran-saran dari hasil yang diperoleh, yang nantinya diharapkan dapat bermanfaat dalam pengembangan penelitian selanjutnya.
BAB 2
TINJAUAN PUSTAKA
2.1. Tokenization
Tokenization (tokenisasi) merupakan istilah yang digunakan dalam proses pemecahan atau pemisahan kata yang menjadi penyusun string setelah di-input. Sederhananya proses ini merupakan proses pemisahan kata penyusun sebuah dokumen. Tokenisasi diaplikasikan dengan menghilangan karakter lain selain alfabet seperti angka dan tanda baca, karena karakter-karakter tersebut bertujuan sebagai pelengkap kata atau kalimat serta tidak mempengaruhi pemrosesan teks. Istilah case folding atau pengubahan semua huruf kapital menjadi huruf kecil juga diterapkan pada tahap ini.
Contoh : PT Pindad (Persero) tengah menjajaki peluang bisnis non senjata. Salah satu peluang bisnis yang saat ini tengah dikerjakan adalah pembuatan alat atau mesin untuk pertanian.
Tabel 2.1. Tabel Contoh Tokenization
pt pindad persero tengah menjajaki peluang bisnis non senjata salah
satu peluang bisnis yang saat
ini tengah dikerjakan adalah pembuatan
alat atau mesin untuk pertanian
2.2. Stopword Removal
Pembuangan Stopword (stopword removal) atau yang sering disebut juga dengan filtering merupakan proses dalam memilih kata-kata yang nantinya digunakan untuk mewakili dokumen dari kata-kata penting dari hasil tokenisasi. Proses stopword removal adalah penghapusan term tidak relevan atau memiliki arti, dengan cara menghapus beberapa kelas kata penghubung dan kelas kata yang berjumlah banyak namun tidak berpengaruh terhadap isi dari konten dokumen.
Contoh stopwords :
Tabel 2.2. Tabel Contoh Stopword Removal
yang di dengan itu untuk
ini dari dalam pada juga
2.3. Stemming
Stemming merupakan istilah untuk proses pencarian root atau akar dari kata yang dihasilkan oleh proses filtering. Hasil indeks dapat diperkecil dengan mencari kata dasar atau root kata tanpa harus kehilangan arti atau makna dari kata tersebut.
Pendekatan kamus dan pendekatan aturan diterapkan pada proses stemming. Stemming dimanfaatkan untuk menghasilkan kata dasar dari sebuah kata atau term. Kata yang dihasilkan dari proses pembuangan stopword akan dijadikan input dalam proses ini selanjutnya diproses dengan melakukan penghapusan awalan yang mengalami perubahan bentuk. Kemudian proses dilanjutkan dengan penghapusan derivation suffix dan memeriksa kata, proses berhenti jika kata telah diasumsikan sebagai kata dasar. Tahapan ini dimanfaatkan untuk mengurangi banyaknya kumpulan teks yang dihasilkan, lebih jelasnya menghapus kata yang tidak berkaitan dengan konten dokumen, dan mengubah kata berimbuhan menjadi bentuk kata dasar.
2.4.Topic Modelling
Pemodelan topik (topic modeling) melingkupi proses pemodelan data tekstual yang dimanfaatkan untuk menemukan variabel tersembunyi, yaitu sebuah topik. Data tekstual pada penelitian ini berupa kumpulan artikel berita yang kemudian diolah menggunakan pemodelan topik. Berdasarkan Penelitian Blei dkk. dan Griffiths dan Steyvers, penelitian ini akan mengunakan model LDA dan algoritma dari MCMC (Markov Chain Monte Carlo) yaitu Gibbs Sampling untuk estimasi parameter dari model LDA. Topic Modelling merupakan model pengenalan kata untuk menemukan pola pengenalan topik, pada model ini serangkain kata-kata pada dokumen selalu dianggap mengandung topik. Dalam men-generate sebuah dokumen, biasanya tahap yang dilakukan adalah seperti yang diperlihatkan pada gambar 2.1.
8
Gambar 2.1. Ilustrasi generate dokumen
Kata dikelompokkan dengan topik tertentu, kemudian dari masing-masing dari kelompok kata dirumuskan hingga setiap topik memiliki komposisi atau proporsi pada dokumen yang akan dibuat. Contohnya, jika terdapat kumpulan kata-kata yang merepresentasikan 3 topik, yaitu topik Fashion, Sport, dan Food. Kemudian, dari masing-masing topik diberi proporsi yaitu Fashion 50%, Sport 30% dan Food 20%.
Dari komposisi atau proporsi tersebut, selanjutnya dibuat sebuah dokumen yang mengikuti aturan dari proporsi yang telah didefinisikan.
Salah satu metode untuk menemukan kumpulan topik dari dokumen adalah dengan penerapan Topic Modelling, yaitu sekumpulan algoritma yang dimanfaatkan untuk menemukan struktur yang tersembunyi dari tema yang terdapat dalam sebuah dokumen. Metode ini dimanfaatkan dalam perkembangan proses pencarian dan peringkasan teks yang terdapat pada dokumen. Kumpulan kata dapat diatur berdasarkan tema yang ditemukan oleh Topic Modelling. Topic modelling dapat diterapkan pada berbagai jenis data, seperti mencari pola pada social media, data genetik, maupun gambar. Sebagai salah satu bentuk dari proses text-mining, metode Topic modelling dapat melacak dan menemukan kelompok pada sekumpulan dokumen. Konsep topic modelling menurut Blei, diperlihatkan pada gambar 2.2.
Gambar 2.2 Konsep Topic Modelling
Blei menjelaskan bahwa terdapat proporsi tersendiri pada beberapa topik yang dibahas pada sebuah dokumen. Dari contoh tersebut, maka topic model adalah sekumpulan kata yang memiliki kesamaan makna atau konteks yang terdapat dalam berbagai dokumen. Model seperti ini adalah hasil perkembangan dari beberapa metode sebelumnya, seperti Document Clustering dan Latent Semantic Analysis..
Metode-metode ini adalah metode statistik probabilitas yang diaplikasikan pada bahasa. Metode ini beranggapan bahwa kemunculan setiap kata dalam sebuah dokumen memiliki nilai, dan penghitungan kemungkinan (probabilitas) atas persamaan atau perbedaan antar kata didasarkan pada nilai tersebut.
Dikemukakan bahwa secara umum topic modeling dapat dilihat sebagai proses dengan dua langkah yaitu pertama identifikasi topik yang relevan dengan penilaian skor dan pengaturan terhadap language model berdasarkan topik yang relevan.
2.5. Latent Dirichlet Allocation (LDA)
Latent Dirichlet Allocation (LDA) merupakan salah satu teknik yang terdapat dalam metode topic modelling. Intuisi dasar dari LDA ialah bahwa setiap dokumen mengandung berbagai topik (Blei, 2012). LDA adalah model statistik dari sekumpulan dokumen untuk menemukan intuisi ini. Blei (2012) mendefinisikan topik sebagai
10
model untuk menganalisis dokumen dengan menggunakan metode statistika. Untuk menemukan set topik yang telah dikoleksi, LDA mengurut dokumen secara mundur.
Berdasarkan probabilitasya LDA mewakilkan topik yang terkandung dalam sebuah dokumen. Probabilitas topik tersebut mewakilkan makna dan bahasan dari suatu dokumen. Pada gambar 2.3 Blei menjelaskan bahwa dalam setiap dokumen terdapat beberapa komponen penyusun.
Gambar 2.3. Latent Dirichlet Allocation
Alpha (α) merepresentasikan parameter untuk menghitung distribusi topik dalam suatu dokumen. Sedikit dan banyaknya campuran topik yang dibahas oleh suatu dokumen diperoleh dari nilai alpha yang dimilikinya. Semakin besar nilai alpha-nya maka semakin banyak campuran topik yang dibahas, sebaliknya semakin kecil nilai alpha-nya semakin sedikit pula topik yang dibahas pada dokumen tersebut. θ merepresentasikan distibusi topik dalam suatu dokumen. Z merepresentasikan topik dari kata tertentu yang terkandung dalam suatu dokumen. w merepresentasikan setiap kata dalam suatu dokumen. Sedangkan Beta (β) merepresentasikan parameter untuk mengkalkulasikan distribusi setiap kata dalam topik. Hampir sama seperti alpha nilai beta juga mempengaruhi sedikit dan banyaknya kata-kata yang terkandung pada topik.
Semakin besar nilai beta-nya maka semakin banyak kata yang terkandung di dalam topik, sebaliknya semakin kecil nilai beta-nya maka semakin spesifik pula topik yang dibahas karena mengandung sedikit kata di dalam topik.
Konsep dasar LDA ialah suatu dokumen dapat mewakili campuran dan kumpulan topik secara acak, dan setiap topik tersebut dikelompokkan berdasarkan
distribusi antar katanya. Pada gambar 2.4 Blei memperlihatkan contoh distribusi topik yang ditampilkan dengan kumpulan kata-kata pada dokumen.
Gambar 2.4. Contoh Hasil Generate Dokumen
LDA dideskripsikan dalam beberapa jumlah notasi. Notasi β1:K
mendeskripsikan topik, dimana setiap βK adalah distribusi atas kata. Proporsi topik untuk dokumen ke d adalah θd , dimana θd,k adalah proporsi topik k pada dokumen d.
Pemilihan topik untuk dokumen ke d digambarkan pada zd , dimana zd adalah pemilihan topik untuk kata ke n pada dokumen d. Kata-kata yang terobservasi pada dokumen d adalah wd , dimana wd,n adalah kata ke n pada dokumen d, dan merupakan bagian dari kosakata tetap. Dengan notasi tersebut, proses generatif pada LDA berkorespondensi pada joint distribution dari variabel tersembunyi dan terobservasi pada persamaan 2.1 berikut:
K D N
p ( β
1:k,θ1 : D, z
1:D, w
1:D) = Π p ( β
i) Π p ( θ
i)( Π p ( z
d.n|θ
d) p ( w
d,n|β
1:K,z
d,n))
i =1 d =1 n =1
(2.1)
12
Latent Dirichlet Allocation (LDA) adalah model umum probabilitas untuk sekumpulan data diskret seperti kumpulan dokumen. Dalam model probabilitas tersebut variabel laten (tersembunyi) dapat menjelaskan variable observasi (teramati).
Variabel observasi adalah dokumen, sementara topik yang ditentukan dari tiap kata pada dokumen adalah variabel laten. Variabel laten tersebut adalah parameter yang harus diestimasi dari model LDA yang didapatkan. Salah satu metode estimasi yang dapat diaplikasikan dalam model tersebut adalah metode Bayesian. Metode Bayesian adalah suatu metode analisis yang didasarkan pada informasi prior dan informasi sampel. Gabungan dari informasi prior dan sampel itulah yang disebut dengan distribusi posterior. Dalam menghitung estimasi dari distribusi posterior untuk model LDA sangat sulit dilakukan secara manual karena distribusinya sangat kompleks. Oleh sebab itu dalam penelitian ini akan digunakan algoritma dari MCMC (Markov Chain Monte Carlo) yaitu Gibbs sampling untuk estimasi parameter dari model LDA.
Ada tiga term yang dipakai pada Latent dirichlet allocation (LDA) diantaranya word, document dan corpus. Word atau kata merupakan bentuk unit diskrit dasar yang terdefinisi dan terindeks pada kamus. Susunan word disebut dengan document dan kemudian corpus merupakan sekumpulan dokumen pada satu koleksi. Pada situs portal berita, word mewakili kata pada artikel atau document dan corpus mewakili sekumpulan artikel dalam satu koleksi.
Beberapa kelebihan LDA ialah LDA merupakan salah satu model statistik yang dapat diaplikasikan pada pemodelan topik dalam suatu kumpulan data tekstual yang sangat besar. Model Latent Dirichlet Allocation dibentuk melalui generative process dan dapat diestimasi menggunakan metode Bayesian. Estimasi parameter dalam model Latent Dirichlet Allocation dengan metode Bayesian dapat dilakukan dengan menggunakan Gibbs sampling. Model ini juga dapat mengelompokkan kata- kata yang memiliki kemiripan pada setiap topik yang terbentuk sehingga dapat diinterpretasikan menjadi suatu kalimat yang lebih bermakna dan informatif bila dibandingkan dengan perhitungan frekuensi kemunculan kata.
2.6. Gibss Sampling
Dalam prakteknya model generative LDA tidak dapat menemukan variabel yang tersembunyi secara langsung. Pemanfaatan metode inference dilakukan untuk menemukan variable tersembunyi tersebut dengan menggunakn Collapsed Gibbs
Sampling (Griffths dan Stevyers, 2004). Index wi merepresentasikan koleksi kata, index di merepresentasikan dokumen, dab index i merepresentasikan setiap token kata pada sekumpulan dokumen. Untuk mengestimasikan probabilitas dalam menentukan setiap kata pada suatu topik, maka setiap token kata pada kumpulan dokumen memiliki gilirannya untuk diproses berdasarkan prosedur Gibbs Sampling.
Berdasarkan distribusi kondisional ini maka sebuah topik dijadikan sample dan disimpan sebagai penetapan topik yang baru untuk sebuah token kata. Distribusi kondisional ini ditulis dengan P(zi = j|z_i,wi,di,.), dimana Zi = j merepresentasikan penetapan topik dari token dn ke topik j, Z_dn merepresentasikan penetapan topik untuk semua token kata, dan merupakan semua informasi yang sudah terobservasi seperti kata wi dan dokumen di. Griffths dan Stevyers (2004) menuliskan perhitungan ini pada persamaan 2.2 sebagai berikut:
𝑃(𝑧𝑖 = 𝑗|𝑧
𝑖, 𝑤𝑖, 𝑑𝑖, . ) =
𝐶𝑤𝑖,𝑗𝑊𝑇 + 𝛽 𝛴𝑤=1𝑊 𝐶𝑤𝑗𝑊𝑇 + 𝑊𝛽
𝐶𝑑𝑖𝑗𝐷𝑇 + α
𝛴𝑡=1𝑇 𝐶𝑑𝑖𝑡𝐷𝑇 + Tα (2.2)
Variabel CWT dan CDT merupakan matrix jumlah dengan dimensi WXT dan DXT, dimana CWT wj berisi berapa kali kata w ditetapkan ke topik j dan CDT dj berisi berapa kali topik j ditetapkan ke sebuah token kata pada dokumen d. Menurut Stevyers dan Griffths (2005) algoritma Gibbs Sampling dimulai dengan menetapkan setiap token kata pada sebuah topik [1..T] secara random. Untuk setiap token kata, jumlah dari CWT dan CDT dikurangi satu untuk tiap entri yang berkorespondensi ke topik yang ditetapkan saat ini. Kemudian topik baru ditetapkan sesuai dengan rumus dan jumlah dari CWT dan CDT dinaikkan satu sesuai dengan topik yang baru. Setiap Gibbs sample terdapat penetapan topik untuk semua token kata dalam kumpulan dokumen, yang didapat dengan melakukan iterasi ke semua kata dalam dokumen.
2.7. Penelitian Terdahulu
Pada penelitian sebelumnya, dengan memanfaatkan metode K-Nearest Neighbour klasifikasi dokumen temu kembali informasi. Peneliti mengklasifikasikan 160 dokumen dengan kategori seperti Ilmu Fisika dan Teknik, Life Science, Ilmu
14
pengujian 20 dokumen yang digunakan dapat diklasifikasikan sesuai dengan kategori yang sebenarnya (Purwanti, 2015).
Pada penelitian pengklasifikasian berita dengan menggunakan Support Vector Machine (SVM) untuk klasifikasi teks berita dan TF-IDF untuk ektraksi fitur. Data yang digunakan ialah data BBC dan 5 kelompok dari 20 kelompok berita. Akurasi yang didapatkan dari penelitian ini yaitu 94.84% untuk BBC dan 94.93% dari 20 kelompok berita (Dadgar, 2016).
Pada penelitian analisis trending topic dengan menggunakan model pendeteksian topic sub-topik, peneliti menggunakan pendekatan Foreground Dynamic Topic Modelling (VF-DTM) untuk merangkum trending topic berdasarkan data tweet dalam struktur yang lebih baik. (Banu, 2016).
Selanjutnya pada penelitian generalisasi dan visualisasi hierarki topic dari microblog dengan menggunakan pendekatan Latent Dirichlet Allocation (LDA).
Peneliti menggunakan data tweet dari brand nation #MadeInIndia untuk menemukan topik-topik apa saja yang menjadi bahasan yang berkaitan dengan hal tersebut dan memvisualisasikannya untuk menghasilkan informasi yang lebih mudah untuk dimengerti. (Anoop, 2015)
Tabel 2.3. Penelitian Terdahulu
No. Peneliti Judul Metode
1 Purwanti Endah.
2015
Information Retrieval Document Classification with K-Nearest Neighbor
K-Nearest Neighbor, Cosine Similarity, 20 dokumen dapat diklasifikasikan sesuai dengan kategori yang sebenarnya 2 Dadgar, et
al. 2016
A novel text mining approach based on TF-IDF and Support Vector
Machine for news classification
SVM (Support Vector Machine), TF- IDF (Term Frequency Inverse Document Frequenzy), akurasi 94.
84 %
3 Banu S.
Halima.
2016
Trending Topic Analysis using novel sub topic detection model
Foreground Dynamic Topic
Modelling (VF-DTM), analisis topik trend dengan melakukan klasifikasi
sentiment dan menghasilkan ringkasan sub ringkasan topik 4 Anoop
V.S et al.
2015
Generating and Visualizing Topic Hierarchies from
Microblogs : An Iterative Latent Dirichlet Allocation Approach
Latent Dirichlet Allocation (LDA), visualisasi topik bahasan seputar brand nation #MadeInIndia
BAB 3
ANALISIS DAN PERANCANGAN SISTEM
Pada bab ini memuat penjelasan tentang analisis dan perancangan yang diaplikasikan pada sistem, serta implementasi metode yang dimanfaatkan pada proses identifikasi topik artikel berita online dengan menggunakan algoritma latent dirichlet allocation.
Adapun yang menjadi pokok bahasan pada bab ini adalah metode yang diterapkan dan data yang digunakan pada setiap langkah pemrosesan data serta perancangan tampilan antarmuka sistem.
3.1. Data Penelitian
Adapun data yang dipakai pada proses topic modelling adalah sekumpulan artikel berita online seputar finansial sejumlah 393 artikel, yang disimpan pada database. Kumpulan artikel ini merupakan hasil dari web crawling secara real-time atau langsung pada situs indeks pemberitaan berbahasa Indonesia yang paling sering diakses. Pada table 3.1 terdapat penjelasan tentang alasan pemilihan data artikel mengacu pada ranking Alexa Rank situs berita terpopuler di Indonesia saat ini.
Tabel 3.1. Ranking traffic situs berita online di Indonesia Nama Website Rata-rata rentang waktu
akses pengunjung perhari
Rata-rata jumlah artikel yang diakses pengunjung perhari
Detik.com 7 menit 49 detik 4,42 halaman
Tribunnews.com 5 menit 10 detik 3,83 halaman
Tempo.co 4 menit 29 detik 2,43 halaman
Secara spesifik data yang digunakan adalah artikel berita seputar ekonomi yang dimuat pada halaman website Detik Finace. Artikel berita tersebut terdiri dari beberapa kategori, yaitu berita ekonomi bisnis, bursa dan valas, energi, fintech,
industri, infrastuktur, lowongan kerja, market research, moneter, perencanaan keuangan dan properti.
3.2. Arsitektur Umum
Terdapat tiga bagian utama pada tahapan pemodelan topik dengan menggunakan algoritma latent dirichlet allocation yaitu, input, proses, dan output. Tahapan input pada sistem ini adalah mengambil artikel berita (web crawling) yang terdapat pada index halaman portal berita untuk dilakukan pembersihan data (data cleaning), dan kemudian dilanjutkan dengan tahap pre-processing. Pada tahap pre-processing ini dilakukan proses tokenization, stopword removal dan stemming, kemudian dilanjutkan pada proses pemodelan topik dengan algoritma latend dirichlet allocation. Pemodelan yang dihasilkan kemudian dianalisis oleh algoritma Gibss Sampling untuk menghasilkan output berupa beberapa topik yang yang terdiri dari beberapa kata yang dapat dipahami dalam satu topik tersebut. Topik-topik inilah yang nantinya mewakili informasi yang didapat dari sekumpulan file yang telah dijadikan input sebelumnya.
Pada gambar 3.1. terdapat arsitektur umum yang dapat menjelaskan setiap tahapan pada metode penelitian ini.
3.2.1 Input
Tahapan pertama pada penelitian ini ialah mengambil beberapa artikel berita online berbahasa Indonesia dari halaman index berita Detik Finence, pada kasus ini penulis memilih sejumlah 393 artikel yang diterbitkan pada seminggu pertama di tahun 2019. Pada gambar 3.2 terdapat teks artikel berita yang dipilih itulah yang nantinya akan dijadikan data penelitian.
Setelah corpus atau kumpulan artikel dari hasil web crawling didapatkan, maka selanjutnya proses pembersihan (data cleaning) dilakukan untuk membuat data tersebut layak untuk dijadikan sebagai data penelitian. Pembersihan dilakukan dengan cara menghapus html tags, double quotes, newline, dan multiple space pada artikel berita, biasanya hal tersebut banyak digunakan untuk merujuk pada artikel pendahulu sebelumnya dan penulisan pada kutipan kata dari narasumber. Pada gambar 3.3 terdapat contoh artikel yang layak dijadikan data penelitian setelah melewati proses data cleaning.
18
Gambar 3.1. Arsitektur Umum Sistem
3.2.2 Proses
Tahapan utama pada penelitian ini ialah pre-processing data dan implementasi algoritma, yaitu melakukan beberapa tahapan pre-processing pada data teks berita yang telah di-input ke dalam basis data untuk selanjutnya dilakukan pengaplikasian algoritma pada data tersebut. Untuk penjelasan lebih lanjut tahapan proses tersebut akan diterangkan sebagai berikut :
1. Pre-processing
Tahapan pre-processing adalah tahapan pertama dalam melakukan pemodelan topik. Tujuan dari tahap ini ialah untuk menghasilkan artikel yang siap di proses lebih lanjut dari artikel mentah yang telah didapat sebelumnya. Pada tahap ini kalimat- kalimat berita yang sudah dipilih dibersihkan sehingga memudahkan proses pemodelan. Terdapat beberapa tahapan dalam pre-processing yaitu tokenization, stopword removal dan stemming.
Gambar 3.2. Contoh Artikel Berita A. Tokenization
Tokenization (tokenisasi) ialah istilah yang digunakan dalam proses pemecahan atau pemisahan kata yang menjadi penyusun string setelah di-input. Lebih jelasnya proses ini ialah pemisah setiap rangkaian kata, rangkaian angka, dan rangkaian huruf dengan angka yang memiliki makna tertentu sebagai penyusun dari suatu dokumen. Tokenisasi diaplikasikan dengan menghilangan karakter lain selain alfabet seperti angka dan tanda baca, karena karakter-karakter tersebut bertujuan sebagai
20
Jakarta - Tahun 2018 kemarin pemerintah tidak mengajukan perubahan pada anggaran dan pendapatan belanja negara (APBN). Hal ini merupakan capaian positif bagi
pemerintah. Menteri Keuangan Sri Mulyani Indrawati menyebut tak diajukannya perubahan tersebut mendorong kementerian/lembaga fokus menjalankan rencana anggaran secara penuh. Hal ini merupakan pertama kalinya dalam 15 tahun terakhir. Untuk pertama kali dalam 15 tahun, pemerintah tidak mengajukan perubahan UU APBN 2018, kata Sri Mulyani dikutip dari laman Facebook resminya, Selasa (1/1/2019). Mantan direktur pelaksana Bank Dunia ini menyampaikan terima kasih atas kerja sama dan capaian seluruh lembaga dan kementerian. Menurut dia kementerian keuangan juga terus memperbaiki kualitas pengelolaan dan pemanfaatan aset negara, diantaranya melalui revaluasi aset. Dia menyebut sebagai otoritas fiskal Kemenkeu terus bekerja sama dengan Bank Indonesia, Otoritas Jasa Keuangan (OJK) dan Lembaga Penjamin Simpanan (LPS) untuk menjaga stabilitas sektor keuangan termasuk mencegah terjadinya krisis keuangan. Ini adalah pilar penting dalam menjaga kepercayaan, jelasnya. Penerimaan negara baik pajak, bea cukai dan penerimaan negara bukan pajak tumbuh tinggi dan sehat. Kemudian belanja negara juga terealisir dengan baik di pusat maupun daerah. Memang pembiayaan mengalami kontraksi, dengan defisit APBN sebesar 1,72% dari produk domestik bruto (PDB). Angka ini lebih rendah dibandingkan angka UU APBN 2018 sebesar 2,19%. Ini adalah defisit terkecil sejak 2012. Selanjutnya untuk keseimbangan primer sebesar Rp 4,1 triliun. Dan ini adalah surplus keseimbangan primer sejak 2011. Prestasi! imbuh dia. (kil/fdl)
Gambar 3.3. Hasil Data Cleaning
Penulisan artikel berita pada umumnya bersifat resmi dan sesuai EYD, salah satunya dengan mengaplikasikan huruf kapital pada setiap awal kalimat dan awal kata pada istilah tertentu. Untuk itu, pada tahapan ini juga dilakukan proses case folding, yaitu mengubah semua huruf kapital pada dokumen menjadi huruf kecil, agar jenis huruf yang akan diproses menjadi seragam. Proses case folding diperlukan agar pemrosesan kalimat menjadi lebih mudah. Setiap kata yang menyusun dokumen inilah yang nantinya dijadikan token. Gambar 3.4 memperlihatkan contoh dari proses filtering.
B. Stopword Removal
Stopword removal (pembuangan stopword) atau yang disebut juga dengan filtering. Pada tahapan ini dilakukan penyaringan kata penting dari hasil tokenisasi, yaitu memilih kata yang ditetapkan untuk mewakili dokumen dan menghapus kata yang tidak bermakna atau tidak relevan pada dokumen. Tahapan ini dimaksudkan untuk membuang token yang tidak terlalu berpengaruh di dalam kalimat, sehingga pemrosesan bisa lebih cepat. Proses ini dilakukan dengan cara membuang token berupa kelas kata penghubung seperti “yang”, “di”, “ke”, “dari”, “adalah”, “dan”,
“atau”, dan sejenisnya yang termasuk di dalam daftar stopword. Pada penelitian ini penulis menggunakan daftar stopword yang didapat dari hasil penelitian Tala. Sistem
akan mengakses daftar kata stopword yang telah disimpan ke dalam sebuah file txt untuk membandingkan token dengan stopword yang ada pada daftar, jika terdapat kesamaan maka token akan dibuang atau dihapus. Pada gambar 3.5 terdapat contoh dari proses filtering.
jakarta tahun kemarin pemerintah tidak mengajukan perubahan pada anggaran dan pendapatan belanja negara apbn hal ini merupakan capaian positif bagi pemerintah menteri keuangan menyebut tak diajukannya perubahan tersebut mendorong kementerianlembaga fokus menjalankan rencana anggaran secara penuh hal ini merupakan pertama kalinya dalam tahun terakhir untuk pertama kali dalam tahun pemerintah tidak mengajukan perubahan uu apbn kata sri mulyani dikutip dari
laman facebook resminya selasa mantan direktur pelaksana bank dunia ini menyampaikan terima kasih atas kerja sama dan capaian seluruh lembaga dan kementerian menurut dia kementerian keuangan juga terus memperbaiki kualitas pengelolaan dan pemanfaatan aset negara diantaranya melalui revaluasi aset dia menyebut sebagai otoritas fiskal kemenkeu terus bekerja sama dengan bank indonesia otoritas jasa keuangan ojk dan lembaga penjamin simpanan lps untuk menjaga stabilitas sektor keuangan termasuk mencegah terjadinya krisis keuangan ini adalah pilar penting dalam menjaga kepercayaan jelasnya penerimaan negara baik pajak bea cukai dan penerimaan negara bukan pajak tumbuh tinggi dan sehat kemudian belanja negara juga terealisir dengan baik di pusat maupun daerah memang pembiayaan mengalami kontraksi dengan defisit apbn sebesar dari produk domestik bruto pbd angka ini lebih rendah dibandingkan angka uu apbn sebesar ini adalah defisit terkecil sejak selanjutnya untuk keseimbangan primer sebesar rp triliun dan ini adalah surplus keseimbangan primer sejak prestasi imbuh dia kilfdl
Gambar 3.4. Hasil Tokenization
jakarta kemarin pemerintah mengajukan perubahan anggaran pendapatan belanja negara apbn capaian positif pemerintah menteri keuangan menyebut diajukannya perubahan mendorong kementerianlembaga fokus menjalankan rencana anggaran penuh kalinya kali pemerintah mengajukan perubahan uu apbn sri mulyani dikutip laman facebook resminya selasa mantan direktur pelaksana bank dunia terima kasih kerja capaian lembaga
kementerian kementerian keuangan memperbaiki kualitas pengelolaan pemanfaatan aset negara revaluasi aset menyebut otoritas fiskal kemenkeu bekerja bank indonesia otoritas jasa keuangan ojk lembaga penjamin simpanan lps menjaga stabilitas sektor keuangan mencegah krisis keuangan pilar menjaga kepercayaan penerimaan negara pajak bea cukai penerimaan negara pajak tumbuh sehat belanja negara terealisir pusat daerah
pembiayaan mengalami kontraksi defisit apbn produk domestik bruto pbd angka rendah dibandingkan angka uu apbn defisit terkecil keseimbangan primer rp triliun surplus keseimbangan primer prestasi imbuh kilfdl
Gambar 3.5. Hasil Filtering C. Stemming
Stemming adalah istilah yang digunakan untuk proses pencarian root atau akar dari kata yang dihasilkan dari proses filtering, untuk menghasilkan bentuk dasar dari
22
bentuk kata dasar dari setiap kata berimbuhan yang terdapat pada artikel berita.
Pencarian root pada kata dapat memperkecil hasil indeks tanpa harus menghilangkan makna. Pada penelitian ini penulis memanfaatkan stemmer sastrawi dengan menggunakan algoritma stemming Nazief Andriani, yaitu algoritma yang dikembangkan untuk proses stemming dokumen Bahasa Indonesia. Terdapat dua pendekatan pada proses stemming, yaitu pendekatan kamus dan pendekatan aturan.
Sistem akan membandingkan setiap kata dengan daftar kata dasar yang terdapat dalam kamus terlebih dahulu, jika terdapat perbedaan maka kata akan melalui seleksi untuk menghapus imbuhan awalan, akhiran, atau kombinasi awalan dan akhiran pada kata tersebut. Pada gambar 3.6 terdapat contoh dari proses stemming.
jakarta kemarin pemerintah aju perubahan anggar dapat belanja negara apbn capai positif pemerintah menteri uang sebut aju perubahan dorong kementerianlembaga fokus jalan rencana anggar penuh kali kali pemerintah aju perubahan uu apbn sri mulyani kutip laman facebook resmi selasa mantan direktur laksana bank dunia terima kasih kerja capai lembaga menteri menteri uang memperbaiki kualitas pengelolaan manfaat aset negara revaluasi aset sebut otoritas fiskal kemenkeu kerja bank indonesia otoritas jasa uang ojk lembaga jamin simpan lps jaga stabilitas sektor uang cegah krisis uang pilar jaga percaya terima negara pajak bea cukai terima negara pajak tumbuh sehat belanja negara terealisir pusat daerah biaya alami kontraksi defisit apbn produk domestik bruto pbd angka rendah banding angka uu apbn defisit kecil keseimbangan primer rp triliun surplus keseimbangan primer prestasi imbuh kilfdl
Gambar 3.6. Hasil Stemming 2. Implementasi Algoritma
Corpus atau kumpulan dokumen yang telah melewati tahapan preprocessing sebelumnya akan dijadikan dataset input pada proses menerapkan algoritma Latent Dirichlet Allocation. Algoritma ini adalah algoritma yang umumnya digunakan untuk proses pemodelan topik. Proses generatif untuk setiap artikel berita yang terkumpul di dalam dataset adalah sebagai berikut:
▪ Topik dideskripsikan dengan notasi β1:K , dimana tiap βK merupakan distribusi atas kata.
▪ Proporsi topik untuk dokumen ke d adalah θd , dimana θd,k adalah proporsi topik k pada dokumen d.
▪ Pemilihan topik untuk dokumen ke d digambarkan pada zd , dimana zd adalah pemilihan topik untuk kata ke n pada dokumen d.
▪ Akhirnya, kata-kata yang terobservasi pada dokumen d adalah wd , dimana wd,n
adalah kata ke n pada dokumen d, dan merupakan bagian dari kosakata tetap.
Dengan notasi tersebut, proses generatif pada LDA berkorespondensi pada joint distribution dari variabel tersembunyi dan terobservasi pada persamaan 2.1.
Secara sederhana proses yang dilakukan menggunakan LDA dan Gibbs Sampling terbagi menjadi tahapan utama yaitu inisialisasi dan estimasi model sebagai berikut:
1. Inisialisasi nilai parameter-parameter dasar, yaitu: jumlah topik, jumlah kata dan iterasi. Penentuan iterasi pada penelitian ini menggunakan proses hyperparameter optimasi yang terbagi atas number of interval dan number of burn-in. Selanjutnya pendistribusian nilai ‘0’ atau ‘1’ secara acak untuk setiap kata di dalam dataset. Jika bernilai ‘1’ maka kata dianggap sebagai kata topik, maka tentukan nomor topik kata tersebut secara acak sesuai dengan rentang jumlah topik yang ditentukan. Sedangkan jika bernilai ‘0’ maka kata akan diinisialisasi sebagai kata background.
2. Estimasi Model menggunakan algoritma Gibbs sampling yang sudah dijelaskan pada bagian 2.6, terhadap model dengan perulangan sebanyak nilai iterasi yang sudah ditentukan atau sampai tercapai kondisi konfergensi, dengan menjalankan proses-proses sampling terhadap masing-masing artikel di dalam dataset. Untuk mengestimasikan probabilitas dalam menentukan setiap kata pada suatu topik, maka setiap token kata pada kumpulan dokumen memiliki gilirannya untuk diproses berdasarkan prosedur Gibbs Sampling. Berdasarkan distribusi kondisional ini maka sebuah topik dijadikan sample dan disimpan sebagai penetapan topik yang baru untuk sebuah token kata. Index wi
merepresentasikan koleksi kata, index di merepresentasikan dokumen, dab index i merepresentasikan setiap token kata pada sekumpulan dokumen.
Distribusi kondisional ini ditulis dengan P(zi = j|z_i,wi,di,.), dimana Zi = j merepresentasikan penetapan topik dari token dn ke topik j, Z_dn
merepresentasikan penetapan topik untuk semua token kata, dan merupakan semua informasi yang sudah terobservasi seperti kata wi dan dokumen di. Variabel CWT dan CDT merupakan matrix jumlah dengan dimensi WXT dan DXT, dimana CWT wj berisi berapa kali kata w ditetapkan ke topik j dan CDT dj berisi
24
dan Griffths (2005) menjelaskan algoritma Gibbs Sampling dimulai dengan menetapkan setiap token kata ke sebuah topik [1..T] secara random. Untuk setiap token kata, jumlah dari CWT dan CDT dikurangi satu untuk tiap entri yang berkorespondensi ke topik yang ditetapkan saat ini. Lalu, topik baru ditetapkan sesuai dengan rumus dan jumlah dari CWT dan CDT dinaikkan satu sesuai dengan topik yang baru. Setiap Gibbs sample terdapat penetapan topik untuk semua token kata dalam kumpulan dokumen yang didapat dengan melakukan iterasi ke semua kata dalam dokumen.
3.3. Perancangan Sistem
Sistem yang dihasilkan merupakan program identifikasi topik berita berbasis desktop, pada sejumlah artikel berita online yang telah dipilih. Proses perancangan sistem tersusun atas beberapa tahap, yaitu perancangan diagram aktivitas dan perancangan antar muka. Proses perancangan antar muka pada sistem pada penelitian ini dibagi menjadi dua bagian yakni perancangan sistem bagian belakang (back-end) yang ditujukan untuk melakukan kegiatan seperti meng-input daftar index situs berita, mengakses database, dan melakukan proses penghitungan perplexity. Sementara perancangan sistem bagian depan (front-end) ditujukan untuk mengimplementasikan proses back-end dan menjalankan setiap proses pada penelitian ini, serta memvisualisasikan hasil dari proses identifikasi topik berita tersebut.
3.3.1 Diagram Aktifitas
Alur pertukaran informasi antara user, system dan database dapat dilihat dalam diagram aktivitas pada gambar 3.7. Proses identifikasi topik berita dimulai pada saat sistem menampilkan halaman program. Selanjutnya user meng-input artikel berita dari index situs berita. Kemudian sistem melakukan proses data cleaning dan menyimpan hasilnya pada database. Setelah itu, user memilih sejumlah artikel berita dari hasil proses data cleaning yang telah ditampilkan oleh sistem untuk dilakukan proses topic modelling. Setelah proses selesai dilakukan, selanjutnya sistem akan menyimpan hasil pemrosesan tersebut pada database, untuk kemudian ditampilkan pada halaman tampilan. Dan akhirnya user dapat melihat tampilan visualisasi dari hasil proses identifikasi artikel berita tersebut.
User System Database
Gambar 3.7. Diagram Aktivitas Sistem 3.3.2 Perancangan Antarmuka
Pada bagian ini terdapat penjelasan rancangan antar muka yang akan dibuat sebagai sarana untuk menjalankan sistem, dengan tujuan untuk memudahkan user dalam penggunaan sistem secara keseluruhan nantinya. Sistem front-end pada penelitian ini mempresentasikan setiap tahapan pada proses identifikasi topik berita dari sejumlah artikel yang dijadikan data. Hasil dari proses topic modelling yang telah dilakukan akan divisualisasikan ke dalam sebuah grafik yang dapat menampilkan topik-topik apa saya yang muncul dan jumlah representasinya pada setiap dataset,
Menampilkan Halaman Program Meng-input artikel
dari index
Melakukan proses data cleaning
Menyimpan hasil data cleaning
Menampilkan hasil data cleaning Memilih sejumlah
artikel untuk diproses
Melakukan proses topic modelling
Menyimpan hasil topic modelling
Menampilkan hasil topic modelling Melihat visualisasi
topic modelling
26
sehingga akan lebih mudah untuk dipahami. Rancangan ini terdiri dari beberapa bagian tab halaman utama, diantaranya,
- Halaman Source Configuration, untuk menambahkan daftar sumber index berita.
- Halaman Collection & Retrieval, untuk menambahkan koleksi artikel berita ke dalam database.
- Halaman Data Processing (Single & Batch), untuk melakukan input dan pemrosesan terhadap artikel berita, baik secara tunggal atau jamak.
- Halaman Result (Evaluation & Visualization), untuk mengevaluasi dan memvisualisasikan hasil identifikasi topik berita pada setiap datasetnya.
Adapun penjelasan rancangan antar muka yang akan diterapkan tersebut pada sistem adalah sebagai berikut:
Gambar 3.8. Tampilan Halaman Source Configuration
Keterangan dari Gambar 3.8. adalah sebagai berikut :
1) Di setiap halaman tampilan terdapat beberapa menu halaman pada sidebar, terdiri dari halaman home, source configuration, collection & retrieval, data processing, dan result.
2) Pada bagian Source List terdapat daftar website berita online yang dijadikan data pada penelitian ini.
3) Pada bagian Add New Data Source terdapat form untuk mengisi daftar website berita, yang terdiri dari:
▪ Name, untuk menginput nama website yang dipilih.
▪ Index URL, untuk menginput URL dari website index berita yang dipilih.
▪ Category, untuk menginput kategori dari index berita yang dipilih, pada penelitian ini penulis mengkhususkan untuk menginput index berita seputar finasial.
▪ Index Container, untuk menginput sintaks website pada index berita yang dipilih.
▪ Document Container, untuk menginput sintaks content pada website index berita yang dipilih.
▪ Container to Ignore, untuk menginput sintaks lain seperti, foto, video atau slideshow yang terdapat pada bagian content, untuk nantinya tidak dimasukkan sebagai bagian dari data.
4) Tombol Add Source, untuk mengeksekusi proses input daftar index berita yang dipilih.
Gambar 3.9. Tampilan Halaman Collection & Retrieval
28
Keterangan dari Gambar 3.9. adalah sebagai berikut :
1) Di setiap halaman tampilan terdapat beberapa menu halaman pada sidebar, terdiri dari halaman home, source configuration, collection & retrieval, data processing, dan result.
2) Pada bagian Document Collection, terdapat daftar artikel berita yang telah melalui proses data cleaning dan disimpan pada database, Daftar koleksi artikel tersebut terdiri dari URL berita, kategori berita, dan tanggal pada saat artikel tersebut di-input pada sistem.
3) Pada bagian Retrieve Data from URL terdapat form untuk mengisi daftar koleksi artikel berita, yang terdiri dari:
▪ Web Source, terdapat select box yang memuat kategori dan sumber artikel berita yang akan diinput pada sistem.
▪ Doc Date, untuk menginput tanggal artikel berita yang dipilih.
4) Tombol Add Source, untuk mengeksekusi proses input artikel berita yang dipilih.
5) Pada bagian Process Steps, terdapat tampilan uraian proses yang berjalan pada system back-end pada saat menginput artikel berita yang dipilih.
Gambar 3.10. Tampilan Halaman Data Processing
Keterangan dari Gambar 3.10. adalah sebagai berikut :
1) Di setiap halaman tampilan terdapat beberapa menu halaman pada sidebar, terdiri dari halaman home, source configuration, collection & retrieval, data processing, dan result.
2) Pada bagian Select Document, terdapat check box yang memuat daftar artikel berita yang nantinya akan diproses. Daftar artikel ini terdiri dari judul artikel, kategori, dan tanggal artikel.
3) Pada bagian Set Parameter, terdapat form untuk mengisi parameter untuk memproses dataset koleksi artikel berita yang dipilih, yang terdiri dari:
▪ No. of Topics, untuk menginput jumlah topik artikel berita yang dijadikan dataset.
▪ No. of Topic Words, untuk menginput jumlah kata untuk setiap satu topik pada dataset.
▪ No. of Interval, untuk menginput jumlah optimasi hyperparameter pada pemrosesan dataset.
▪ No. of Burn In, untuk menginput jumlah iterasi pada pemrosesan dataset.
▪ Insert Name, untuk menginput nama dataset.
▪ Description, untuk menginput deskripsi dataset.
4) Tombol Create Dataset, untuk mengeksekusi proses input dataset dari koleksi artikel berita yang dipilih.
5) Pada bagian Process Steps, terdapat tampilan uraian proses yang berjalan pada system back-end pada memproses setiap dataset.
Keterangan dari Gambar 3.11 adalah sebagai berikut :
1) Di setiap halaman tampilan terdapat beberapa menu halaman pada sidebar, terdiri dari halaman home, source configuration, collection & retrieval, data processing, dan result.
2) Pada bagian atas terdapat radio button yang memuat sejumlah dataset yang telah diproses dan disimpan pada database, serta tombol Use Dataset untuk mengeksekusi dataset terpilih yang akan dievaluasi.
30
3) Pada bagian Dataset Selected, terdapat tampilan daftar topik yang muncul dari dataset terpilih. Daftar topik tersebut terdiri dari id topik, probabilitas distribusi dan topiknya.
4) Pada bagian kanan bawah terdapat opsi untuk mengevaluasi setiap artikel berita pada dataset.
Gambar 3.11 Tampilan Halaman Evaluation
Gambar 3.12. Tampilan Halaman Visualization