Validasi Model Topik - DIRICHLET ALLOCATION (LDA) TOPIC ANALYSIS OF PUBLIC INFORMATION IN SOCIA

Tahap validasi topik bertujuan untuk memastikan model topik yang dihasilkan dari hasil Topic modeling yang dilakukan pada dokumen adalah benar, baik luaran berupa topik maupun kata-kata dalam topik. Dalam hal ini, tingkat kebenaran topik disesuaikan dengan dua metode, secara otomatis dengan Perplexity dan berdasarkan tingkat koherensi atau tingkat kemudahaannya dalam diinterpretasi manusia.

Ide dasar Perplexity adalah membagi secara acak dokumen menjadi data training dan data uji, kemudian menghitung rata-rata probabilitas log setiap kata dari data uji pada model yang dihasilkan dari data training [24], atau secara sederhana, perplexity dilakukan dengan mengambil n sampel dari N populasi data untuk diuji, apakah n sampel tersebut memiliki kesesuaian topik dengan kelompok topik dalam N populasi. Secara otomatis, penghitungan Perplexity sudah termasuk dalam package gensim untuk bahasa python, cara kerjanya adalah dengan menghitung rata-rata jarak geometris dari matriks data yang mewakili setiap kata menggunakan potongan dokumen evaluasi corpus. Apabila nilai Perplexity dirasa sudah mencapai titik optimal, maka akan dilakukan validasi model topik berdasarkan tingkat koherensinya sementara apabila model topik belum mencapai nilai perplexity yang optimal, maka akan kembali ke tahap membentuk topik model untuk kembali dilakukan eksperimen pada input parameter.

Uji Koherensi Topik

Untuk validasi topik berdasarkan tingkat koherensi atau tingkat kemudahaannya dalam diinterpretasi manusia, validasi topik dilakukan dengan metode Topic Intrusion task dan validasi kata-kata dalam topik dilakukan dengan Word Intrusion Task. Word Intrusion task dilakukan dengan menyisipkan sebuah kata dengan probabilitas rendah dalam kata-kata hasil proses Topic modeling pada suatu topik tertentu, kemudian meminta beberapa responden untuk menebak manakah kata yang bukan hasil proses Topic modeling. Topic

Intrusion task dilakukan dengan menyajikan cuplikan dokumen yang disertai beberapa pilihan topik kepada beberapa responden, yang mana salah satu dari beberapa topik tersebut merupakan topik yang memiliki probabilitas rendah dalam dokumen.

Mengingat tahap validasi topik ini bertujuan untuk memastikan luaran dari hasil Topic modeling yang dilakukan pada dokumen memiliki koherensi yang baik, maka apabila topik belum memiliki tingkat koherensi yang optimal, maka akan kembali ke tahap membentuk topik model untuk kembali dilakukan eksperimen pada input parameter.

Menganalisis Topik Model

Tahap menganalisis topik model bertujuan untuk mendapatkan kesimpulan terkait hasil uji koherensi topik secara lebih spesifik. Menganalisis topik model dilakukan dengan melakukan uji hipotesis dan uji ANOVA. Uji hipotesis merupakan pengujian yang dilakukan pada tingkat metode dan pengaruh perlakuan. Uji hipotesis dilakukan dengan melakukan pembuktian terhadap hipotesis yang telah ditentukan sebelumnya dengan metode statistika sehingga didapatkan kesimpulan terkait hasil perbandingan antara word intrusion task dengan topic intrusion task dan perbandingan hasil pengaruh perlakuan stem. Uji ANOVA bertujuan untuk mengetahui derajat kemudahan interpretasi atau pemahaman responden pada tingkat topik yang dihasilkan. Uji ANOVA dilakukan dengan melakukan perbandingan secara berpasangan sehingga didapatkan kelompok topik sesuai kemudahannya untuk diinterpretasi oleh manusia untuk setiap task pada uji koherensi topik

BAB IV PERANCANGAN

Pada bab ini akan dijelaskan bagaimana rancangan dari penelitian tugas akhir yang meliputi subyek dan obyek dari penelitian, pemilihan subyek dan obyek penelitian dan bagaimana penelitian akan dilakukan.

Pengambilan Data

Dalam pelaksanaan analisis informasi topik informasi publik media sosial di Surabaya, data merupakan objek utama analisis. Data yang dibutuhkan merupakan data tipe teks hasil crawling dari akun media sosial resmi Radio Suara Surabaya. Adapun data yang akan diolah adalah post FB akun E100 termasuk komentar-komentarnya, dan tweet akun @e100ss dan tweet yang me-mention akun @e100ss.

Pengambilan data dilakukan dengan melakukan crawling data pada post FB akun E100 termasuk komentar-komentarnya, dan tweet akun @e100ss dan tweet yang me-mention akun @e100ss. Proses crawling menghasilkan data pesan informasi publik yang dipublikasi via media sosial dari bulan September 2016 hingga bulan Januari 2017. Adapun data pesan informasi publik tersebut disimpan dalam tiga tabel dalam format .sql dengan database management syStem (DBMS) MySQL yang diuraikan pada Tabel 4.1:

Tabel 4.1 Tabel Sumber Data Masukan

Nama Tabel Keterangan

fb_test5

merupakan tabel yang menyimpan data pesan informasi publik yang di-post melalui akun Facebook resmi Radio Suara Surabaya fb_comments ^{merupakan tabel yang menyimpan data} komentar pada pesan informasi publik yang

di-post melalui akun Facebook resmi Radio Suara Surabaya

tw_test2

merupakan tabel yang menyimpan data pesan informasi publik yang di-tweet melalui akun Twitter resmi Radio Suara Surabaya dan tweet dari masyarakat yang me-mention akun e100ss

Atribut pada tabel fb_test5 dijelaskan pada Tabel 4.2 Tabel 4.2 Tabel Atribut pada Tabel fb_test5

Nama Attribut Tipe Data Keterangan

fb_id text

merupakan kode unik untuk megidentifikasi akun pengguna Facebook yang megirim pesan

message text ^merupakan ^pesan ^yang dikirim

created_time datetime ^{merupakan catatan waktu} kapan pesan dikirim

user text ^merupakan ^akun ^yang mengirim pesan terkait Contoh data pada tabel fb_test5 dapat dilihat pada Gambar 4.1

Gambar 4.1 Contoh data pada tabel fb_test5

Sementara atribut pada data komentar pada tabel fb_comments dijelaskan pada Tabel 4.3

Tabel 4.3 Tabel Atribut pada Tabel fb_comments

id_comment text

merupakan kode unik untuk megidentifikasi komentar yang dikirim

id_post text

merupakan kode unik untuk megidentifikasi pesan (posting) yang dikirim message text ^{merupakan komentar yang}

dikirim pada pesan terkait account text ^merupakan ^akun ^yang

mengirim komentar account_id text

merupakan kode unik untuk megidentifikasi akun yang mengirim komentar

created_time text ^{merupakan catatan waktu} komentar dikirim

Contoh data pada tabel fb_comments dapat dilihat pada Gambar 4.2

Gambar 4.2 Contoh data pada tabel fb_comments

Sedangkan atribut pada data tabel tw_test2 dijelaskan pada Tabel 4.4

Tabel 4.4 Tabel Atribut pada Tabel tw_test2

Nama Attribut Tipe Data Keterangan

id text

merupakan kode unik untuk megidentifikasi tweet yang dikirim

message text ^merupakan ^tweet ^yang dikirim

account text ^merupakan ^akun ^yang mengirim tweet terkait latitude text merupakan lokasi dimana

akun mengirim tweet terkait longitude text

created_time datetime ^{merupakan catatan waktu} tweet dikirim

Contoh data pada tabel tw_test2 dapat dilihat pada Gambar 4.3

Gambar 4.3 Contoh data pada tabel tw_test2

Observasi Data Mentah

Observasi data mentah merupakan tahapan yang dilakukan untuk memahami data yang digunakan sebagai objek analisis. Berdasarkan pengamatan yang dilakukan, data pesan media sosial memiliki sifat yang sangat beragam dari kandungan informasinya, sehingga perlu dilakukan justifikasi manakah data yang bersifat informatif dan manakah data yang non-informatif atau casual communication. Adapun hasil observasi data dan justifikasi yang dilakukan tercantum pada Tabel 4.5

Tabel 4.5 Justifikasi data masukan

Jenis Data Sifat Data Justifikasi Keterangan Post berita dari akun Facebook informatif merupakan pesan terkait berita-berita yang sedang Digunakan untuk tahap selanjutnya. Pesan berita

terjadi di masyarakat melalui akun Facebook dipilih karena mampu mengakomodasi lebih banyak karakter sehingga berita yang dikirim lebih lengkap komentar dari pesan yang dikirim akun Facebook E100 non-informatif merupakan komentar yang disampaikan masyarakat pada pesan yang dikirim akun Facebook E100 Tidak digunakan karena tidak memiliki dasaran yang jelas Tweet berita dari akun e100ss informatif merupakan tweet terkait berita-berita yang sedang terjadi di masyarakat. Pesan berita ini juga disampaikan pada akun Facebook E100 tidak digunakan karena redundan dengan pesan berita yang dikirim melalui akun Facebook. Tweet masyarakat yang me-mention e100ss campuran antara data informatif dan non-informatif merupakan pesan dari masyarakat yang diperuntukkan yang digunakan adalah pesan dari masyarakat yang di-tweet kembali oleh

kepada Radio Suara Surabaya. Sangat beragam dari tingkat informasi yang disampaikan sehingga perlu disaring agar didapatkan pesan dengan tingkat informasi yang tinggi. akun e100ss, karena merupakan pesan yang dengan pertimbangan tertentu dianggap informatif oleh gatekeeper e100ss sehingga dirasa perlu untuk diretweet

Berdasarkan justifikasi tersebut, data yang akan digunakan pada penelitian ini adalah pesan yang dinilai memiliki kandungan informasi yang baik, yaitu pesan berita yang dikirim melalui akun Facebook E100 dan tweet dari masyarakat yang di-tweet kembali oleh akun e100ss.

Metodologi Implementasi Penelitian

Metodologi implementasi penelitian merupakan tahapan yang dilakukan untuk mencapai tujuan penelitian yang disesuaikan dengan komputasi secara otomatis. Ada 5 tahapan utama dalam melakukan implementasi penelitian yaitu mempersiapkan data, pra-proses data, Topic modeling dengan LDA, uji koherensi topik, dan menganalisis topik model

Dalam dokumen DIRICHLET ALLOCATION (LDA) TOPIC ANALYSIS OF PUBLIC INFORMATION IN SOCIAL MEDIA IN SURABAYA BASED ON LATENT DIRICHLET ALLOCATION (LDA) TOPIC MODELLING (Halaman 63-70)