Tahap validasi topik bertujuan untuk memastikan model topik yang dihasilkan dari hasil Topic modeling yang dilakukan pada dokumen adalah benar, baik luaran berupa topik maupun kata-kata dalam topik. Dalam hal ini, tingkat kebenaran topik disesuaikan dengan dua metode, secara otomatis dengan Perplexity dan berdasarkan tingkat koherensi atau tingkat kemudahaannya dalam diinterpretasi manusia.
Ide dasar Perplexity adalah membagi secara acak dokumen menjadi data training dan data uji, kemudian menghitung rata-rata probabilitas log setiap kata dari data uji pada model yang dihasilkan dari data training [24], atau secara sederhana, perplexity dilakukan dengan mengambil n sampel dari N populasi data untuk diuji, apakah n sampel tersebut memiliki kesesuaian topik dengan kelompok topik dalam N populasi. Secara otomatis, penghitungan Perplexity sudah termasuk dalam package gensim untuk bahasa python, cara kerjanya adalah dengan menghitung rata-rata jarak geometris dari matriks data yang mewakili setiap kata menggunakan potongan dokumen evaluasi corpus. Apabila nilai Perplexity dirasa sudah mencapai titik optimal, maka akan dilakukan validasi model topik berdasarkan tingkat koherensinya sementara apabila model topik belum mencapai nilai perplexity yang optimal, maka akan kembali ke tahap membentuk topik model untuk kembali dilakukan eksperimen pada input parameter.
Uji Koherensi Topik
Untuk validasi topik berdasarkan tingkat koherensi atau tingkat kemudahaannya dalam diinterpretasi manusia, validasi topik dilakukan dengan metode Topic Intrusion task dan validasi kata-kata dalam topik dilakukan dengan Word Intrusion Task. Word Intrusion task dilakukan dengan menyisipkan sebuah kata dengan probabilitas rendah dalam kata-kata hasil proses Topic modeling pada suatu topik tertentu, kemudian meminta beberapa responden untuk menebak manakah kata yang bukan hasil proses Topic modeling. Topic
Intrusion task dilakukan dengan menyajikan cuplikan dokumen yang disertai beberapa pilihan topik kepada beberapa responden, yang mana salah satu dari beberapa topik tersebut merupakan topik yang memiliki probabilitas rendah dalam dokumen.
Mengingat tahap validasi topik ini bertujuan untuk memastikan luaran dari hasil Topic modeling yang dilakukan pada dokumen memiliki koherensi yang baik, maka apabila topik belum memiliki tingkat koherensi yang optimal, maka akan kembali ke tahap membentuk topik model untuk kembali dilakukan eksperimen pada input parameter.
Menganalisis Topik Model
Tahap menganalisis topik model bertujuan untuk mendapatkan kesimpulan terkait hasil uji koherensi topik secara lebih spesifik. Menganalisis topik model dilakukan dengan melakukan uji hipotesis dan uji ANOVA. Uji hipotesis merupakan pengujian yang dilakukan pada tingkat metode dan pengaruh perlakuan. Uji hipotesis dilakukan dengan melakukan pembuktian terhadap hipotesis yang telah ditentukan sebelumnya dengan metode statistika sehingga didapatkan kesimpulan terkait hasil perbandingan antara word intrusion task dengan topic intrusion task dan perbandingan hasil pengaruh perlakuan stem. Uji ANOVA bertujuan untuk mengetahui derajat kemudahan interpretasi atau pemahaman responden pada tingkat topik yang dihasilkan. Uji ANOVA dilakukan dengan melakukan perbandingan secara berpasangan sehingga didapatkan kelompok topik sesuai kemudahannya untuk diinterpretasi oleh manusia untuk setiap task pada uji koherensi topik
BAB IV PERANCANGAN
Pada bab ini akan dijelaskan bagaimana rancangan dari penelitian tugas akhir yang meliputi subyek dan obyek dari penelitian, pemilihan subyek dan obyek penelitian dan bagaimana penelitian akan dilakukan.
Pengambilan Data
Dalam pelaksanaan analisis informasi topik informasi publik media sosial di Surabaya, data merupakan objek utama analisis. Data yang dibutuhkan merupakan data tipe teks hasil crawling dari akun media sosial resmi Radio Suara Surabaya. Adapun data yang akan diolah adalah post FB akun E100 termasuk komentar-komentarnya, dan tweet akun @e100ss dan tweet yang me-mention akun @e100ss.
Pengambilan data dilakukan dengan melakukan crawling data pada post FB akun E100 termasuk komentar-komentarnya, dan tweet akun @e100ss dan tweet yang me-mention akun @e100ss. Proses crawling menghasilkan data pesan informasi publik yang dipublikasi via media sosial dari bulan September 2016 hingga bulan Januari 2017. Adapun data pesan informasi publik tersebut disimpan dalam tiga tabel dalam format .sql dengan database management syStem (DBMS) MySQL yang diuraikan pada Tabel 4.1:
Tabel 4.1 Tabel Sumber Data Masukan
Nama Tabel Keterangan
fb_test5
merupakan tabel yang menyimpan data pesan informasi publik yang di-post melalui akun Facebook resmi Radio Suara Surabaya fb_comments merupakan tabel yang menyimpan data komentar pada pesan informasi publik yang
di-post melalui akun Facebook resmi Radio Suara Surabaya
tw_test2
merupakan tabel yang menyimpan data pesan informasi publik yang di-tweet melalui akun Twitter resmi Radio Suara Surabaya dan tweet dari masyarakat yang me-mention akun e100ss
Atribut pada tabel fb_test5 dijelaskan pada Tabel 4.2 Tabel 4.2 Tabel Atribut pada Tabel fb_test5
Nama Attribut Tipe Data Keterangan
fb_id text
merupakan kode unik untuk megidentifikasi akun pengguna Facebook yang megirim pesan
message text merupakan pesan yang dikirim
created_time datetime merupakan catatan waktu kapan pesan dikirim
user text merupakan akun yang mengirim pesan terkait Contoh data pada tabel fb_test5 dapat dilihat pada Gambar 4.1
Gambar 4.1 Contoh data pada tabel fb_test5
Sementara atribut pada data komentar pada tabel fb_comments dijelaskan pada Tabel 4.3
Tabel 4.3 Tabel Atribut pada Tabel fb_comments
id_comment text
merupakan kode unik untuk megidentifikasi komentar yang dikirim
id_post text
merupakan kode unik untuk megidentifikasi pesan (posting) yang dikirim message text merupakan komentar yang
dikirim pada pesan terkait account text merupakan akun yang
mengirim komentar account_id text
merupakan kode unik untuk megidentifikasi akun yang mengirim komentar
created_time text merupakan catatan waktu komentar dikirim
Contoh data pada tabel fb_comments dapat dilihat pada Gambar 4.2
Gambar 4.2 Contoh data pada tabel fb_comments
Sedangkan atribut pada data tabel tw_test2 dijelaskan pada Tabel 4.4
Tabel 4.4 Tabel Atribut pada Tabel tw_test2
Nama Attribut Tipe Data Keterangan
id text
merupakan kode unik untuk megidentifikasi tweet yang dikirim
message text merupakan tweet yang dikirim
account text merupakan akun yang mengirim tweet terkait latitude text merupakan lokasi dimana
akun mengirim tweet terkait longitude text
created_time datetime merupakan catatan waktu tweet dikirim
Contoh data pada tabel tw_test2 dapat dilihat pada Gambar 4.3
Gambar 4.3 Contoh data pada tabel tw_test2
Observasi Data Mentah
Observasi data mentah merupakan tahapan yang dilakukan untuk memahami data yang digunakan sebagai objek analisis. Berdasarkan pengamatan yang dilakukan, data pesan media sosial memiliki sifat yang sangat beragam dari kandungan informasinya, sehingga perlu dilakukan justifikasi manakah data yang bersifat informatif dan manakah data yang non-informatif atau casual communication. Adapun hasil observasi data dan justifikasi yang dilakukan tercantum pada Tabel 4.5
Tabel 4.5 Justifikasi data masukan
Jenis Data Sifat Data Justifikasi Keterangan Post berita dari akun Facebook informatif merupakan pesan terkait berita-berita yang sedang Digunakan untuk tahap selanjutnya. Pesan berita
terjadi di masyarakat melalui akun Facebook dipilih karena mampu mengakomodasi lebih banyak karakter sehingga berita yang dikirim lebih lengkap komentar dari pesan yang dikirim akun Facebook E100 non-informatif merupakan komentar yang disampaikan masyarakat pada pesan yang dikirim akun Facebook E100 Tidak digunakan karena tidak memiliki dasaran yang jelas Tweet berita dari akun e100ss informatif merupakan tweet terkait berita-berita yang sedang terjadi di masyarakat. Pesan berita ini juga disampaikan pada akun Facebook E100 tidak digunakan karena redundan dengan pesan berita yang dikirim melalui akun Facebook. Tweet masyarakat yang me-mention e100ss campuran antara data informatif dan non-informatif merupakan pesan dari masyarakat yang diperuntukkan yang digunakan adalah pesan dari masyarakat yang di-tweet kembali oleh
kepada Radio Suara Surabaya. Sangat beragam dari tingkat informasi yang disampaikan sehingga perlu disaring agar didapatkan pesan dengan tingkat informasi yang tinggi. akun e100ss, karena merupakan pesan yang dengan pertimbangan tertentu dianggap informatif oleh gatekeeper e100ss sehingga dirasa perlu untuk diretweet
Berdasarkan justifikasi tersebut, data yang akan digunakan pada penelitian ini adalah pesan yang dinilai memiliki kandungan informasi yang baik, yaitu pesan berita yang dikirim melalui akun Facebook E100 dan tweet dari masyarakat yang di-tweet kembali oleh akun e100ss.
Metodologi Implementasi Penelitian
Metodologi implementasi penelitian merupakan tahapan yang dilakukan untuk mencapai tujuan penelitian yang disesuaikan dengan komputasi secara otomatis. Ada 5 tahapan utama dalam melakukan implementasi penelitian yaitu mempersiapkan data, pra-proses data, Topic modeling dengan LDA, uji koherensi topik, dan menganalisis topik model