1 BAB 1 PENDAHULUAN
1.1 Latar Belakang
Twitter bagian dari Social Networking website yang memperbolehkan pengguna untuk mengirim dan membaca 140 karakter, atau sering disebut tweets[1]. Berdasarkan survey yang telah dilakukan terdapat 304 juta pengguna tiap bulannya yang aktif menggunakan Twitter. Sekitar 500 juta tweet tiap harinya yang dikirim melalui Twitter. Dengan banyaknya tweet yang pengguna posting tiap harinya, terdapat banyak pula data-data yang didapat dari tweet-tweet tersebut. Data-data tersebut dapat berupa opini-opini publik mengenai politik, tokoh publik, makanan, dan lainnya. Pada penelitian ini, data yang diambil tentang opini atau postingan pengguna tentang tokoh publik khusunya tokoh publik yang bergelut dalam dunia politik. Data tersebut akan diolah dengan teknik Topic Detection untuk menghasilkan suatu topik yang sedang marak dibicarakan masyarakat tentang tokoh publik politik.
Topic Detection atau Deteksi Topik merupakan sebuah metode statistika yang digunakan sebagai model untuk menganalisis suatu dokumen.
Dalam tugas akhir ini, untuk mengolah data yang dapat menghasilkan topik- topik yang sesuai dilakukan beberapa tahapan yaitu tahapan preprocessing, tahapan klastering, tahapan pemodelan topik LDA, serta tahapan TF-IDF.
Dimana pengertian clustering itu sendiri ialah merupakan teknik untuk mengelompokkan beberapa objek kedalam kelompok-kelompok yang memiliki nilai yang sejenis antar anggota kelompok, setiap objek dalam kelompok memiliki nilai yang berbeda antar anggota dalam kelompok lain.
Secara garis besar ada beberapa kategori dalam clustering, seperti metode hirarki dimana pada metode hirarki terdapat dua jenis algoritma, salah satu algoritmanya yaitu, Agglomerative Hierarchical Clustering (AHC) [2].
Tahapan preprocessing dalam tugas akhir ini dilakukan untuk pembersihan data tweet yang telah diperoleh, tahapan selanjutnya merupakan
2
tahapan klastering menggunakan metode Agglomerative Hierarchical Clustering yang digunakan dalam tugas akhir ini dengan tujuan untuk membagi tweets kedalam K-cluster sehingga akan terbentuk kelompok- kelompok utuh yang nantinya jumlah kelompok atau klaster tersebut dijadikan sebagai jumlah topik acuan pada tahapan LDA selanjutnya, serta cluster yang telah terbentuk ditafsirkan sebagai topik tweets [3]. Setelah mendapatkan jumlah klaster pada masing-masing tokoh politik dilakukan tahapan pemodelan topik LDA yang bertujuan untuk mengetahui topik-topik apasaja yang telah dihasilkan pada masing-masing tokoh politik yang sesuai berdasarkan data. Selanjutnya dilakukan tahapan TF-IDF pada tugas akhir ini dengan tujuan untuk menghitung bobot dari setiap kata-kata dan kalimat pada tweets [3]. Serta dikarenakan data pada tugas akhir ini menggunakan kata tidak baku yang bersumber dari media sosial Twitter maka ditemukan solusi menggunakan metode TF-IDF pada tahap selanjutnya untuk menghitung bobot rata-rata tf-idf masing-masing tweet dan mengambil tweet yang mengandung kata-kata terbanyak dalam output LDA sebagai topik akhir, dengan demikian user dapat dengan mudah memahami makna dari output topik yang telah dihasilkan dalam tahapan LDA.
Permasalahan dalam penulisan ini yaitu, bagaimana mengekstraksi suatu tweet tentang tokoh publik politik dari pengguna Twitter. Data tweet yang diambil tentang tokoh publik politik diantaranya yaitu mengenai Joko Widodo, Basuki Tjahaja Purnama (Ahok), Anies Baswedan, Sandiaga Uno, dan Habib Rizieq. Deteksi topik yang diangkat dalam permasalahan tugas akhir ini yaitu mendeteksi topik tentang tokoh publik politik, dimana data- data yang digunakan untuk deteksi topik bukan mendeteksi topik yang sedang marak diperbincangkan pada hari itu seperti Trending Topic. Sedangkan pada Trending Topic yaitu mendeteksi topik apa yang sedang marak diperbincangkan saat itu juga dan pada hari itu.
Berbeda dengan penelitian-penelitian sebelumnya, peneliti mendistribusikan beberapa topik mengenai calon presiden AS, seperti topik tentang Iran, ISIS, Imigrasi, dan sebagainya. Dari topik-topik tersebut akan
3
dideteksi trending topik dari komentar publik mengenai calon presiden AS yang menggunakan metode LDA dan juga menganalisa sentimen dari topik calon presiden AS [4]. Serta pada penelitian[5], menggunakan metode BNgram untuk melakukan deteksi topik dari sosial media, Twitter. Dimana pada metode BNgram untuk mengcluster data menggunakan perhitungan “df- idft”, berdasarkan nilai df-idft yang telah dihitung untuk setiap n-gram maka peringkat n-gram akan dibuat dan dibentuk menjadi cluster. Proses clustering diulang sampai kesamaan antar cluster terdekat turun dibawah nilai ambang batas yang telah ditentukan. Semua cluster dibentuk dengan merangking berdasarkan nilai df-idft tertinggi. Dan setiap cluster merupakan satu topik.
Dari penelitian-penelitian sebelumnya dan juga permasalahan yang ada.
Pada tugas akhir ini akan membangun sebuah perangkat lunak Deteksi Topik Tentang Tokoh Publik Politik Menggunakan Latent Dirichlet Allocation (LDA). Dengan demikian, pengguna akan lebih mudah untuk membaca topik apakah yang sedang dibicarakan mengenai tokoh publik politik.
1.2 Rumusan Masalah
Terdapat beberapa rumusan masalah dalam tugas akhir ini yang dapat dijabarkan sebagai berikut :
a. Bagaimana mengumpulkan tweet tentang tokoh politik?
b. Bagaimana tahapan pre-processing dari tweet yang telah terkumpul?
c. Bagaimana mengimplementasikan algoritma agglomerative hierarcial untuk mengcluster topik?
d. Bagaimana mengimplementasikan metode LDA untuk menghasilkan suatu pemodelan topik?
e. Bagaimana pengujian terhadap deteksi topik pada data yang telah terkumpul?
1.3 Batasan Masalah
Terdapat beberapa batasan masalah pada tugas akhir ini yaitu :
a. Dataset yang digunakan berupa opini-opini publik tentang tokoh politik yang diambil dari Twitter
4 b. Data diambil setiap hari selama 1 bulan.
c. Jumlah dataset yang diambil berjumlah 1000 tweet.
d. Data untuk deteksi topik berbeda dengan Trending Topic pada Twitter.
e. Tidak menghilangkan kata-kata singkatan.
f. Tidak mengolah emoticon pada data tweet
g. Menggunakan algoritma agglomerative hierarcial untuk cluster topik.
h. Data yang diolah pada tugas akhir ini hanya menggunakan data mengenai tokoh politik yang telah diperoleh.
1.4 Tujuan Penelitian
Tujuan dalam penelitian ini untuk membangun perangkat lunak Deteksi Topik Tentang Tokoh Publik Politik Menggunakan Latent Dirichlet Allocation (LDA). Hal tersebut bertujuan untuk memudahkan pengguna dalam membaca suatu topik yang sedang terjadi tentang tokoh politik.
1.5 Metodologi
Metodologi pada tugas akhir ini merupakan tahapan yang dilakukan peneliti yaitu dimulai dengan perumusan masalah, batasan masalah, tujuan penelitian, serta kesimpulan dan saran, yang membentuk sebuah alur sistematis sebagai pedoman pada tugas akhir ini dengan harapan hasil yang diperoleh tidak menyimpang dari tujuan yang telah ditetapkan sebelumnya.
Dalam penyusunan tugas akhir ini, metodelogi penelitian yang di gunakan adalah:
Studi Pustaka
Studi pustaka merupakan tahapan untuk mengetahui bagaimana konsep dari agglomerative hierarchical clustering, deteksi topik menggunakan LDA, pengujian klastering dengan Silhouette Coefficient, serta pengujian LDA dengan probability. Pemahaman konsep didapatkan dari berbagai literature review dari berbagai paper penelitian yang berhubungan dengan deteksi topik.
Pengumpulan Data
Tahapan selanjutnya yaitu melakukan pengumpulan data yang digunakan untuk tahapan preprocessing, clustering, deteksi topik LDA, serta
5
TF-IDF. Data yang dikumpulkan berupa opini-opini yang didapatkan dari tweet pengguna Twitter, pengumpulan data dikumpulkan setiap hari selama 1 bulan.
Analisa Data dan Desain Sistem
Pada tahap ini dilakukan analisa mengenai proses yang dilakukan pada tugas akhir yang akan dijalankan oleh sistem serta digambarkan dengan menggunakan diagram, agar alur proses dapat lebih mudah dipahami.
Implementasi Sistem
Pada tahap ini melakukan perancangan sistem serta implementasi sistem perangkat lunak tentang Deteksi Topik Tentang Tokoh Publik Politik Menggunakan Latent Dirichlet Allocation (LDA). Dimana perangkat lunak tersebut dapat menghasilkan sebuah topik mengenai tokoh politik.
Pengujian dan Evaluasi
Pada tahap ini, rancangan program yang telah direalisasikan akan diuji menggunakan silhouette coefficient untuk pengujian terhadap hasil algoritma klaster, serta probability terhadap hasil dari algoritma Latent Dirichlet Allocation (LDA). Sehingga dapat disimpulkan hasil dari evaluasi sistem tersebut.
Penyusunan Laporan
Tahapan akhir dalam penelitian tugas akhir ini yaitu penyusunan laporan yang terdiri dari pendahuluan penelitian, landasan teori yang diperoleh dari berbagai literatur review yang sesuai dengan tugas akhir ini, analisa dan desain sistem pada tugas akhir, implementasi dan pengujian sistem pada tugas akhir, serta kesimpulan dan saran dari sistem pada tugas akhir ini.
1.6 Sistematika Penulisan
Penelitian tugas akhir ini terdiri atas lima bagian pembahasan yaitu Pendahuluan, Landasan Teori, Analisa dan Perancangan Sistem, Impelementasi dan Pengujian serta Penutup. Kelima bagian pembahasan tersebut yaitu :
6 BAB I PENDAHULUAN
Pada bab pendahuluan ini terdiri dari latar belakang dari tugas akhir yang akan dibangun, perumusan masalah dalam tugas akhir, batasan masalah, tujuan penelitian pada tugas akhir, metodologi penelitian, serta sistematika penulisan pada tugas akhir ini.
BAB II LANDASAN TEORI
Pada bab landasan teori merupakan tinjauan pustaka yang didapatkan dari berbagai literatur review terdahulu, teori–teori, definisi, konsep dasar, serta komponen–kompenen penyusun tugas akhir yang menjadi dasar acuan atas pembahasan dalam tugas akhir.
BAB III ANALISA DAN PERANCANGAN SISTEM
Pada bab analisa dan perancangan sistem berisi hasil analisa kebutuhan sistem, desain sistem yang akan dibuat, dan juga perancangan sistem.
BAB IV IMPLEMENTASI DAN PENGUJIAN
Pada bab implementasi dan pengujian merupakan hasil dari implementasi sistem yang telah dilakukan, serta menganalisa hasil pengujian yang telah diperoleh pada tugas akhir ini.
BAB V PENUTUP
Pada bab penutup berisikan penjelasan mengenai kesimpulan yang telah diperoleh berdasarkan hasil implementasi sistem, serta saran untuk pengembangan sistem lebih lanjut.