View of PEMODELAN TOPIK TERKAIT BANJIR PADA TWITTER DENGAN MENGGUNAKAN LATENT DIRICHLET ALLOCATION

(1)

PEMODELAN TOPIK TERKAIT BANJIR PADA TWITTER DENGAN MENGGUNAKAN LATENT DIRICHLET ALLOCATION

Muhammad Sutan Irwansyah*¹, Muhammad Habibi², Fajar Syahruddin³

1,2,3Sistem Informasi, FTTI UNJAYA, Yogyakarta, Indonesia

e-mail: *¹[email protected], ²[email protected], ³[email protected] Abstract – In this background discusses the topic of tweet

about Flooding on Twitter using the keyword "Flood".

Tweet data was taken from June 1, 2021 to June 2, 2021 with the number of tweet data obtained, which was 2000 tweets. The number of tweets related to flooding has not been analyzed so that the topics contained in it are not yet known. Research . Modeling topics related to floods in Indonesia on Twitter social media with the LDA method. Research. This study uses experimental methods with several variables to test hypotheses. Then the data is processed with stages, namely web data extraction, preprocessing, feature extraction, topic modeling using latent dirichlet allocation algorithms, visualization, and analysis. Research. The results of the topic coherence stage were carried out a search for the most optimal topic from the 20 topics that had been determined at the beginning. The results of topic coherence for 20 topics concluded that for topic 10 it has a total topic value of 0.41 and has an ideal topic modeling result and is in accordance with the provisions.

Conclusion : Based on the results of the discussion of topic coherence, it can be concluded that the most ideal number of topics is topic 10 because it has the highest value compared to other topics. The advice here is to be able to display or get flood information in Indonesia in real time and accurately.

Keywords - Flood, LDA, Topic Modelling, Text Mining, Latent Dirichlet Allocation

Abstrak - Pada latar belakang ini membahas mengenai topik dari tweet yang mengenai Banjir pada Twitter dengan menggunakan kata kunci “Banjir”. Data tweet diambil dari rentang tanggal 1 Juni 2021 sampai dengan tanggal 2 Juni 2021 dengan jumlah data tweet yang diperoleh yaitu sebanyak 2000 tweet. Banyaknya tweet yang terkait dengan dengan banjir yang belum dilakukan analisis sehingga belum diketahui topik-topik yang terkandung di dalamnya. Membuat pemodelan topik terkait banjir di wilayah Indonesia pada nedia sosial Twitter dengan metode LDA. Penelitian ini menggunakan metode eksperimen dengan beberapa variabel untuk menguji hipotesis. Kemudian data diolah dengan tahap yaitu web data extraction, preprocessing, feature extraction, topic modelling menggunakan algoritma latent dirichlet allocation, visualisasi, dan analisis.

Hasil tahap topic coherence dilakukan pencarian topik yang paling optimal dari 20 topik yang sudah di tentukan diawal. Hasil topic coherence untuk 20 topik disimpulkan bahwa untuk topik 10 memiliki jumlah nilai topik sebesar 0,41 dan memiliki hasil topic modelling yang ideal dan sesuai dengan ketentuan.

Berdasarkan dari hasil pembahasan topic coherence, dapat disimpulkan bahwa jumlah topik yang paling ideal adalah topik 10 dikarenakan memiliki nilai yang paling tinggi dibanding topik lainnya. Saran disini adalah dapat menampilkan atau mendapatkan informasi banjir di Indonesia secara realtime dan akurat.

Kata kunci - Banjir, LDA, Topic Modelling, Text Mining, Latent Dirichlet Allocation

I.PENDAHULUAN

Banjir merupakan kejadian alam di mana suatu daerah atau daratan yang biasanya kering menjadi terendam air. Banjir terjadi karena banyak hal seperti hujan yang berlebihan, meluapnya aliran sungai, danau atau lautan. Banjir yang terjadi wilayah Indonesia pada tahun ini merupakan yang sangat parah dampaknya di suatu daerah, dikarenakan hampir di pulau Sumatera, pulau Jawa, pulau Kalimantan, pulau Sulawesi mengalami banjir hampir di berbagai daerah[1].

Penyebab terjadinya banjir yang utama yaitu adalah hujan yang terjadi secara terus menerus. Faktor terjadinya banjir yang sangat penting adalah penyumbatan drainase saluran air yang dipenuhi oleh sampah bisa menyebabkan banjir. Terkadang hujan lebat dalam waktu relatif singkat dapat menyebabkan banjir. Di lain waktu, hujan gerimis selama berhari- hari atau berminggu-minggu dapat mengakibatkan banjir. Selain itu, banjir dapat mengganggu keseimbangan alam ekosistem. Pasokan air dan listrik juga terganggu sehingga berdampak pada aktivitas manusia. Selain itu, banjir dapat membawa banyak penyakit dan infeksi termasuk demam, kulit gatal- gatal, dermatopathia dan disentri. Adapun hewan seperti ular dan serangga dapat terbawa banjir dan menyebabkan kekacauan bila melewati pemukiman warga. Twitter merupakan salah satu contoh media sosial yang popular di kalangan masyarakat dan merupakan sumber informasi yang sering digunakan sebagai rujukan dalam memberikan informasi.

Adapun banjir ini dijadikan sebagai salah satu bencana alam terbesar di Indonesia selain gempa bumi.

Tahun 2013, Badan Nasional Penanggulangan Bencana mencatat banjir sebagai bencana yang paling sering terjadi di Indonesia dengan jumlah sebanyak 4261 bencana. Oleh sebab itu peneliti di sini ingin mengangkat topik terkait banjir ini yang terjadi di Indonesia agar dapat mencegah terjadinya banjir sehingga dapat mengurangi kasus banjir yang terjadi di Indonesia. Selanjutnya adalah menganalisis topik- topik yang ada di dalam tweet di twitter berkaitan

(2)

dengan banjir di wilayah Indonesia dengan

menggunakan metode LDA untuk pemodelan topik.

LDA merupakan salah satu metode dalam text mining yang memiliki kelebihan yaitu mampu mengolah data dalam jumlah yang sangat besar serta dapat menemukan pola tertentu dari sebuah dokumen dengan hasil beberapa macam topik yang berbeda.

Penulis di sini nantinya akan melakukan pengambilan data tweet tentang banjir, kemudian data tweet tersebut diolah dan di analisis untuk menghasilkan data yang sesuai, setelah itu data tersebut dianalisis kembali menggunakan Latent Dirichlet Allocation untuk menghasilkan data tweet tersebut yang akurat[2].

II.METODE PENELITIAN

Penelitian ini merupakan penelitian experimental.

Penelitian metode eksperimen merupakan salah satu penelitian yang apabila ada di kondisi-kondisi tertentu yang dikendalikan sehingga satu atau beberapa variabel dapat dikontrol untuk menguji dalam suatu hipotesis.

A. Bahan Penelitian

Bahan penelitian ini akan menggali data dan informasi dari tweet yang ada di dalam website Twitter terkait dengan banjir di wilayah Indonesia tanpa garis bawah.

B. Alat Penelitian

Alat yang digunakan dalam penelitian ini adalah komputer dengan spesifikasi cukup untuk menjalankan sistem operasi dan perangkat lunak pengembangan serta koneksitas internet. Sistem operasi dan program-program aplikasi yang digunakan dalam pengembangan aplikasi ini adalah:

1. Sistem operasi Windows 10 64-bit 2. Microsoft Office Excel 2007 3. Anaconda versi 3 2021. 02 64 bi 4. Python versi 3. 7. 3

5. Jupyter Notebook 6. Library Python

Berikut adalah library python yang digunakan dalam menjalankan proses text mining:

1. Pandas adalah library Python yang menyediakan struktur data yang cepat, fleksibel, dan ekspresif yang dirancang untuk membuat pekerjaan lebih terstruktur dan deretan data dalam bentuk yang mudah dan intuitif

2. Numpy adalah library dasar Python untuk array computing. Numpy menyediakan fitur yang salah satunya yaitu dapat membentuk objek Ndimensional array.

3. Matplotlib adalah library Python yang komprehensif untuk membuat visualisasi statis, animasi, dan interaktif di Python. Pada penelitian ini menggunakan modul matplotlib.pyplot.

4. Sklearn atau scikit-learn adalah modul Python untuk machine learning yang dibangun di atas SciPy.

5. Re atau regular expression adalah modul Python yang digunakan untuk mencari string atau teks dengan menggunakan pola dari rentetan karakter.

6. NLTK atau Natural Language Toolkit adalah libraryPython yang digunakan untuk permodelan teks dan analisa teks. Pada penelitian ini menggunakan modul nltk.tokenize dengan sub modul regexp tokenizer dan twee ttokenizer dan modul nltk.corpus dengan sub modul stopwords.

7. Emoji adalah library Python yang digunakan untuk membaca rangkaiankode emoji yang didefinisikan sebagai konsorsi umum nikode.

8. Gensim adalah library Python untuk topic modelling, pengindeksan dokumen dan pencarian kesamaan dengan corpus yang besar. Pada penelitian ini menggunakan modul corpora dan modul gensim.models

9. Pickle adalah library Python yang digunakan untuk menyimpan data ke dalam file dan membaca data dari file.

10. Os adalah library Python yang menyediakan cara portable dalam menggunakan fungsionalitas yang tergantung pada system operasi. Pada penelitian ini menggunakan modul path.

11. PIL adalah library Python yang digunakan untuk menam bahkan kemampuan pemrosesan gambar di Python. Pada penelitian ini menggunakan modul Image.

12. Wordcloud adalah library Python yang digunakan untuk visualisasi data yang mewakili data teks dimana ukuran setiap kata menunjukkan frekuensi atau pentingnya sebuah kata dalam data tekstersebut. Pada penelitian ini menggunakan modul WordCloud, STOPWORDS, Image Color Generator

13. Pyldavis adalah library Python untuk visualisasi topic model yang interaktif. Pada penelitian ini menggunakan modul pyLDAvis.gensim.

C. Jalan Penelitian

Pada jalan penelitian ini menggunakan software Anaconda versi 3, python dan Jupyter Notebook untuk melakukan pengambilan data yang akan ditampilkan di Microsoft Office Excel dan diolah data tersebut, kemudian setelah itu dimodelkan data tweet yang berkaitan dengan banjir di wilayah Indonesia dari data tweet yang telah diambil. Adapun tahapan alur penelitian ini yaitu:

(3)

Gambar 1.Alur Penelitian

D. Web Data Extraction

1.

Pengumpulan Data

Mengambil dan mengumpulkan data dari tweet di website Twitter yang terkait dengan Banjir dengan kata kunci “banjir Indonesia” menggunakan twitterscraper. Data tweet diambil dari rentang tanggal 1 juni 2021 sampai dengan tanggal 2 Juni 2021 dengan jumlah data tweet yang diperoleh yaitu sebanyak 2000[2].

2. Import Data

Sebelum melakukan import data, memasukkan library untuk melihat proses pengolahan struktur data dapat dilihat pada Gambar 2:

Gambar 2.Library proses pengolah data

Berdasarkan gambar diatas dapat diketahui bahwa beberapa library yang dibutuhkan dalam import data yaitu pandas, numpy, matplotlib.pyplot, seaborn, sklearn, dan RE untuk proses pengolahan data.

Untuk langkah selanjutnya adalah melakukan mengimpor data pada yang dapat dilihat pada Gambar 3:

Gambar 3.Perintah import data

Kode diatas adalah kode yang digunakan untuk membuka file berekstensi excel, kemudian memuat data dari file excel, dan memberikan struktur pada data yang di-load.

E. Preprocessing

Setelah melakukan tahap web data extraction, kemudian data yang sudah ada diproses terlebih dahulu sebelum melakukan text mining. Berikut adalah tahapan yang dilakukan dalam proses preprocessing. Selanjutnya adalah masukkan library yang sudah di install dan dapat dilihat pada gambar 4:

Gambar 4.Library preprocessing

1.Cleaning

Cleaning di sini adalah menghilangkan atribut yang tidak penting seperti tag dan url dari data tweet menggunakan perintah yang bisa dilihat pada Gambar 5:

Gambar 5.Tahapan Cleaning

Pada baris def remove_links sampai dengan baris return caption fungsinya untuk menghilangkan link dan url, pada baris def remove_users sampai dengan baris return caption fungsinya untuk menghilangkan tweeted dan retweet, dan pada baris def give_emoji_free_text sampai dengan return clean_text fungsinya untuk menghilangkan emoji.

2.Casefolding dan Stopwords

Casefolding serta stopwords di sini kegunaannya untuk menghilangkan kata dan atribut yang sering muncul seperti kata dan, yang, di, ini, dari, dengan, dan sebagainya serta mengubah semua huruf menjadi huruf kecil menggunakan perintah pada gambar 3.6 dan daftar kata yang digunakan dapat dilihat pada gambar Tabel 1.

(4)

Tabel 1.Daftar kata stopwords

Kata

"…","”","“","‘","’","x","a","d","di","yg","oi","le","

ke","es","mu","ya","rb","lu

","ga","pd","ka","gk","dg","jg","va","dan","ini","it u","ayo","loh","ada","com"

,"kwh","pic","ada","spt","loh","kwh","mis","ada","

apa","akn","kok","dlm","k

an","tak","nya","dgn","klu","tau","yaa","aja","lah"

,"was","tdk","kalo","atau","

kita","gitu","atau","yang","dari","saya","tidak","le bih","dengan","hmmm","bts

hanzt","dybala","xysfquwy","xklnraulqv","jnoxtij"

,"rowkxk","nfptgegajz","os

qddqkuqn","ogjlwenigg","fhacvubxr","\u2066","\u 2069","\u2063","avhsnhvm t"," ما

ني'","opxrvgb","fcguuggjf","lajwise","xhbcv","skfj evnaq","apnmfkcb","o

dtjfwy","euimwubt","jfpuijov","nictizits","qniqcjn ble","rowkxk","trxtnokah","

usiiagvxi","yxnocztyg","uhkkazep","btshanzt","rlf wtdjyn","nfptgegajz","sdszc

jpz","odtjfwytak","pidie","anda","amin","baik","ca ra","sdh","klo","lg","jgn","

bark","aam","kepada","hrs","jga","bisa","lagi","tp"

,"blm","mer","adalah","sud

ah","sih","kenapa","gak","qvbwxswxl","si","eqfmf cus","trs","aam","aku","iii"

,"cuma","kau","qpixhjtm","agavsbzmx","icncpjlfk

","frans","ane","ttg","ifgwd

nfg","luxrqu","ezboaqmwg","hs","jkn","yfrlkbe","

pgnv","gw","eh","fobxesf",

"guooooooobloooooook","na","afc","twzbxavbdo"

,"xqrdsmnz","elzxadcfef","

utk","fadilah","supari","siti","ygeuecm","pada","u ntuk","ني ما","'akan","krdy",

"juga","kpd","mau","krn","t","ia","ngga","knp","s"

,"nich","—",

“banget”,”gue”,”gua”,”nang”,”neng”,”konte”,”kon ten”,”bgt”,”aaa”,”rindu

awakseparuhnyawa”,”aa”,”aaa”

Gambar 6.Tahapan Casefolding serta Stopwords

3.Tokenizing

Pada tahapan tokenizing di sini berfungsi untuk memisahkan kata-kata dari sebuah kalimat sehingga menjadi sebuah kata tunggal agar kata tersebut dapat berdiri sendiri dengan menggunakan libary dan perintah yang dapat dilihat pada Gambar 7, Gambar 8, Gambar 9, dan Gambar 10.

Gambar 7.Library Tokenizing

Pada gambar 7 di atas adalah digunakan untuk memasukkan modul di library Tweet Tokenizer dan dari def tokenize sampai dengan return lda_tokens fungsinya adalah untuk memisahkan kata dari sebuah kalimat.

Gambar 8.Fungsi dari token Tokenizing

Pada gambar kode diatas adalah kode yang digunakan untuk fungsi dan membuat kata agar bisa berdiri sendiri.

Gambar 9.Perulangan data dari range variabel df Pada gambar kode diatas adalah kode yang digunakan untuk membuat perulangan dari token.

(5)

Gambar 10.Perulangan dan menambahkan data tokens Pada gambar kode diatas adalah kode yang digunakan untuk membuat perulangan dengan menambahkan token ke urutan belakang.

F. Feature Extraction menggunakan TF-IDF Setelah selesai dalam melakukan tahap preprocessing, kemudian kumpulan kata dari data tweet diberi nilai atau bobot untuk mengetahui pentingnya dari kata tersebut dengan menggunakan library dan perintah pada Gambar 11, dan Gambar 12.

Gambar 11.Membuat kamus dari kumpulan beberapa tulisan

Pada gambar 11 diatas adalah digunakan untuk memasukkan modul library corpora, models, dan pickle. Setelah itu kumpulan kata disimpan kedalam file corpus.pkl dan kamus kata disimpan ke dalam file dictionary.gensim.

Gambar 12. Perhitungan TF-IDF

Pada gambar 12 diatas adalah digunakan untuk memasukkan modul library pprint, setelah itu membuat variabel tf-idf untuk melakukan perhitungan dari frekuensi data yang bsering muncul, dan terakhir membuat perulangan untuk menampilkan nilai dari variabel tf-idf.

G. Topic Modelling Menggunakan LDA

Setelah tahapan feature extraction selesai, kemudian yang akan dilakukan adalah dengan membuat pemodelan topik menggunakan algoritma LDA dengan menggunakan library dan perintah yang terdapat pada gambar 13 dan gambar 14.

Gambar 13. Library gensim dan menjalankan LDA

Pada gambar 13 diatas adalah digunakan untuk memasukkan library gensim, setelah itu menyimpan model LDA kedalam file model_tfidf20.gensim, dan terakhir menampilkan model LDA.

Gambar 14.Memasukkan kata-kata pertopik kedalam list Pada gambar 3.14 diatas adalah digunakan untuk menampilkan data topik yang didapatkan dari perulangan for topic,words in topic_words sampai dengan print(str(topic)+ “::”+ str(words)).

H. Visualisasi

Setelah melakukan dari tahapan topic modelling, kemudian dari topiktopik tersebut, selanjutnya adalah memvisualisasikan dengan menggunakan library, dan file yang tersimpan, dan perintah yang bisa dilihat pada Gambar 15.

Gambar 15. Diagram LDA

Pada gambar 15 diatas adalah digunakan untuk memasukkan modul library pyLDAvis.gensim, memuat file yaitu dictionary.gensim, corpus.pkl, dan model_tfidf20.gensim, dan terakhir menampilkan topic modelling dari file yang sudah dimuat.

Selain itu, ada beberapa kumpulan topik-topik yang bisa divisualisasikan ke dalam melalui kata dalam topik dimana ukuran dari ukuran setiap kata menunjukkan frekuensi atau akan pentingnya sebuah kata dari topik tersebut.

Sebelum itu masukkan terlebih dahulu library dan perintah yang dapat dilihat pada Gambar 16, Gambar 17, dan Gambar 18.

Gambar 16. Library untuk modul wordcloud Pada Gambar 16 diatas adalah digunakan untuk memasukkan modul library path, Image, wordCloud, STOPWORDS, ImageColorGenerator, dan matplotlib.pyplot.

(6)

Gambar 17.Wordcloud keseluruhan topik Pada Gambar 17 diatas adalah digunakan untuk menampilkan wordcloud dari keseluruhan topik,

kemudian menyimpannya dengan nama

your_file_name.png.

Gambar 18. Wordcloud pertopik

Pada gambar 18 diatas adalah digunakan untuk menampilkan wordcloud dari masing-masing topik, setelah itu menyimpannya dengan nama your_file_name.png

I. Topic Analysis

Pada tahapan dari topik analisis disini adalah untuk menguji kualitas topik yang dihasilkan dari topic modelling dengan menggunakan hasil dari topic coherence yang ditampilkan dalam bentuk grafik diagram. Berikut ini adalah perintah dan library yang digunakan yang dapat dilihat pada Gambar 19, Gambar 20, dan Gambar 21.

Gambar 19.Memanggil topik LDA yang sudah ada Pada gambar diatas adalah bertujuan untuk membuat variabel ldatopics untuk memanggil topik dari proses topic modelling.

Gambar 20. Memasukkan library gensim dan fungsi dari evaluate_graph

Pada Gambar 20 diatas adalah digunakan untuk memasukkan modul library CoherenceModel, LsiModel, LdaModel, HdpModel dan setelah itu membuat fungsi dalam pemrosesan Topic Coherence dari baris def evaluate_graph sampai dengan baris return lm_list, c_v.

Gambar 21. Menampilkan diagram Topic Coherence

III.HASIL DAN PEMBAHASAN A. Ringkasan Hasil Penelitian

Hasil penelitian dari penerapan topic modelling dengan menggunakan metode algoritma LDA. Dalam menganalisis sebuah topik mengenai banjir dari media sosial seperti Twitter untuk kata kunci yang digunakan dalam pengambilan data yaitu kata kunci “Banjir” di Indonesia. Setelah itu data yang diambil adalah sebanyak 2000 tweet yang diperoleh dari tanggal 1 Juni 2021 sampai dengan 2 Juni 2021.

B. Pembahasan Hasil Topic Coherence

Pada tahapan topic coherence dilakukan pencarian topik yang paling optimal dari 20 topik yang sudah di tentukan di awal. Hasil topic coherence untuk 20 topik dapat dilihat pada gambar diagram grafik dibawah ini.

Dapat disimpulkan bahwa untuk topik 10 memiliki jumlah nilai topik sebesar 0,41 dan memiliki hasil topic modelling yang ideal dan sesuai dengan ketentuan, dikarenakan dikarenakan topik 10 memiliki bobot nilai paling besar dibandingkan topik lainnya.

Gambar 22. Diagram grafik nilai coherence Pada gambar diagram grafik diatas dapat disimpulkan bahwa untuk topik 10 memiliki jumlah nilai topik sebesar 0,41 dan memiliki hasil topic modelling yang ideal dan sesuai dengan ketentuan, dikarenakan topik 10 memiliki bobot nilai paling besar dibandingkan topik lainnya. Adapun jumlah topik dapat dibedakan berdasarkan nilai coherence yang terdapat dalam Tabel 2.

Tabel 2.Nilai Coherence

Topik Nilai Coherence

1 0,25

2 0,21

3 0,24

4 0,22

(7)

5 0,27

6 0,29

7 0,26

8 0,31

9 0,34

10 0,41

11 0,38

12 0,39

13 0,32

14 0,28

15 0,35

16 0,28

17 0,23

18 0,29

19 0,33

C.Hasil Wordcloud Pertopik

Dari topik-topik yang sudah diperoleh setelah ditentukan dari jumlah topik melalui metode topic coherence dengan setiap kata-kata di dalam topik tersebut, kemudian divisualisasikan ke dalam

wordcloud untuk menampilkan susunan kata yang memiliki frekuensi kata yang sering muncul bisa kita dilihat pada Gambar 23.

Gambar 23.Wordcloud Topik ke 1

Berdasarkan yang didapat dari topik 1, diketahui bahwa kata “moment”, ”banget”, ”mata”, ”air”, dan

”sedih” merupakan kata yang sering muncul. Hal ini dapat disimpulkan bahwa, inti pokok dari keseluruhan kata yang sering muncul adalah mengenai kesedihan masyarakat yang dialami saat terjadi banjir. Untuk contoh tweet yang terkait dengan topik 1 dapat dilihat pada Tabel 3.

Tabel 3.Contoh tweet terkait Topik

No Pengguna Tweet

1 @dinnnishtt iseng nonton Sejadah Panjang sampe episode 2 aja udah banjir air mata fak https://t.co/fXbutpI0rQ

2 @rabihahrazak Apani mata banjir sebab rindu my fwens :’(

semua sebab video tiktok ni lah haih

3 @jaonanarin RT @yuhengge: congrats starfish akhirnyaa berhasil juga banjia

nyaasemoga dengan berhasil nya banjia ini karir patrick kedepan nya makin sukses, makin banjir job buat patrick dan juga congrats buat claus smaa kiwis

Patrick New Home

4 @penjordroid RT @KompasData: Hujan lebat di sejumlah wilayah di Indonesia berpotensi terjadi dalam sepekan ke depan. Bahkan, beberapa wilayah perlu waspada kemungkinan terjadinya banjir.

#Iptek #AdadiKompas #BMKG https://t.co/KkfC1PftHd

E.

Hasil Analisis Pertopik

Berdasarkan hasil yang saya dapatkan dari penelitian ini, mengenai penggunaan metode topic

modelling dalam menganalisis topik yang terdapat mengenai Banjir yang datanya diambil dari tanggal 1 Juni 2021 sampai dengan tanggal 2 Juni 2021, diperoleh topik yang dapat kita lihat pada Tabel 4 dengan menggunakan sepuluh jumlah topik.

(8)

Tabel 4. Kata-kata Pertopik

No Topik Kata-kata Pembahasan

1 ‘banget’, ‘air’, ‘mata’,

‘tahun’, ‘air’, ‘gue’,

‘beneran’, ‘moment’,

‘kek’, ‘udah’, ‘ntar’,

‘part’, ‘langsung’,

‘spoiler’, ‘banyangin’

masyarakat sangat merasakan kesedihan dikarenakan banjir di wilayahnya terjadi setiap tahun

2 ‘barang’, ‘banyak’,

‘rusak’, ‘banget’,

‘bantal’, ‘biar’, ‘udah’,

‘tanda’, ‘nih’, ‘rumah’,

‘habis’, ‘ending’, ‘hadeh’

barang perabotan banyak yang rusak dikarenakan terendam banjir.

3 ‘sangat’, ‘air’, ‘mata’,

‘tahun’, ‘liat’, ‘pas’,

‘gemeter, ‘oke’,

‘konten’, ‘ganggu’, ‘air’,

‘deras’, ‘mancing’,

‘angin’

masyarakat sangat merasakan kesedihan dikarenakan banjir di wilayahnya terjadi setiap tahun.

4 ‘update’, ‘klo’, ‘ujan’,

‘gangis’, ‘kek’,

‘gampang’, ‘bekas’,

‘mata’, ‘gue’, ‘bener’, ‘part’,

‘mumet’, ‘good’,

‘benar’, ‘banyangin’

masyarakat merasakan pusing dikarenakan hujan terjadi sangat deras dan wilayahnya terendam banjir.

5 ‘meh’, ‘aku’, ‘rumah’,

‘kena’, ‘banjir’, ‘ambek’,

‘mulu’, ‘mata’,

‘gedung’, ‘aer’, ‘balas’,

‘langsung’, ‘muka’,

‘argumen’

argumen dari masyarakat terkait banjir di wilayah perumahan, gedung, pertokoan, dan lain-lain.

6 ‘banjir’, ‘bandang’,

‘minggu’, ‘woy’, ‘atuh’,

‘mancur’, ‘nang’,

‘pantang’, ‘tinggi’,

‘tanda’, ‘pas’, ‘air’,

‘bgt’, ‘langsung’,

‘moment’

banjir bandang yang terjadi di suatu wilayah dan setelah beberapa hari kemudian banjir telah surut.

7 ‘banjir’, ‘bandang’, banjir bandang yang terjadi di

suatu wilayah dan setelah

(9)

‘minggu’, ‘ooh’, ‘air’,

‘wkw’, ‘udahan’, ‘bgt’, ‘bikin’,

‘jalan’, ‘lupa’, ‘donk’, ‘detik’,

‘mata’,

‘seruu’, ‘isi’, ‘kota’

beberapa hari kemudian banjir telah surut.

8 ‘sedih’, ‘pagi’, ‘banget’,

‘macet’, ‘bgt’, ‘air’,

‘hujan’, ‘ku’, ‘nang’,

‘mata’, ‘banget’, ‘mesti’,

‘langsung’, ‘sampe’

banjir yang terjadi di jalan raya yang mengakibatkan macet dan banyak kendaraan yang mogok.

9 ‘potensi’, ‘hujan’,

‘banjir’, ‘wilayah’,

‘genang’, ‘jalan’, ‘udah’,

‘akibat’, ‘tolong’,

‘bener’, ‘dah’

mengenai potensi curah hujan tinggi yang terjadi di beberapa wilayah dan menyebabkan banjir.

10 ‘hujan’, ‘banjir’, ‘takut’,

‘banget’, ‘liat’, ‘sampe’,

‘deres’, ‘udah’, ‘video’,

‘ujan’, ‘kek’, ‘rusak’,

‘sedih’

hujan deres terjadi secara terus- menerus dan mengakibatkan dampak yang ditimbulkan adalah banjir.

Dari 10 topik diatas pada Tabel 4 terdapat

beberapa topik yang memiliki hubungan serta ada juga topik yang mempunyai pembahasan yang sama yaitu sebagai berikut:

1. Topik 1 dan 3 yaitu membahas tentang masyarakat sangat merasakan kesedihan dikarenakan banjir di wilayahnya terjadi setiap tahun

2. Topik 6 dan 7 yaitu membahas tentang banjir bandang yang terjadi di suatu wilayah dan setelah beberapa hari kemudian telah surut.

F.

H

ASIL

W

ORDCLOUD

K

ESELURUHAN

T

OPIC

Dari berbagai topik yang sudah ada, setiap kata- kata di topik tersebut dikumpulkan menjadi satu keutuhan kemudian divisualisasikan ke dalam bentuk wordcloud agar dapat menampilkan berbagai susunan kata yang memiliki frekuensi kata yang sering muncul seperti Gambar 24.

Gambar 24.Wordcloud keseluruhan topik Berdasarkan pada gambar wordcloud diatas, dapat diketahui bahwa kata

“air”, “hujan”, ”rumah”, ”bikin”, ”sampe”,

”sedih”, dan”bener” merupakan kata yang paling banyak dan sering muncul pada topik diatas. Dapat disimpulkan bahwa , inti dari keseluruhan kata yang muncul di atas adalah membahas tentang kesedihan masyarakat yang mengalami dampak banjir terjadi setiap tahun dikarenakan resapan air yang kurang.

Berikut adalah contoh tweet yang terkait dengan kata yang paling banyak muncul dapat dilihat pada Tabel 5.

(10)

Tabel 5. Contoh tweet terkait kata yang paling banyak muncul

No Pengguna Tweet

1 TvElshinta RT @ElshintaBandung: 09.34 :

RT

@BPBDKabBandung Situasi dan kondisi di depan kantor Desa Panyadap pukul 07.15 WIB, ketinggian air 10-40 cm, Rabu (2/6/2021), menyusul banjir akibat jebolnya tanggul. Lalin ramai

& banyak kendaraan menerobos air, tetap berhati-hati.

#ElshintaEdisiPagi https://t.co/VVatgRDI1R

2 petabencana @kurmakeju Untuk melaporkan

banjir di sekitarmu, silakan balas dengan #banjir.

https://t.co/JD4n6A3BOB

3 KemensosRI #InfoSosial Terancam Banjir dan

Puting

Beliung, Kemensos Bentuk Kampung Siaga

Bencana (KSB) di Kabupaten Tulang Bawang Barat (Tubaba), Provinsi Lampung Baca selengkapnya:

https://t.co/m8DHHVe9LM https://t.co/zuhtDfq32R

5 kompascom Meski Jakarta tidak menjadi ibu

kota Indonesia lagi, pembangunan infrastruktur pengendali banjir di wilayah ini terus dikebut.

https://t.co/IwPru8cwef

IV. Kesimpulan

Kesimpulan yang dapat ditarik dari hasil penelitian ini yang telah dilakukan yaitu Penelitian ini telah berhasil mengimplementasikan pemodelan topik tentang banjir di media sosial Twitter dengan menggunakan metode LDA Berdasarkan dari hasil pembahasan Topic Coherence, dapat disimpulkan bahwa jumlah topik yang paling ideal adalah topik 10 dikarenakan memiliki nilai coherence yang paling tinggi dibandingkan topik lainnya.

DAFTAR PUSTAKA

[1] M. Sekarwinahyu dan U. Rahayu, “PENANAMAN KONSEP PEMELIHARAAN LINGKUNGAN DI

DAERAH RAWAN BANJIR MELALUI

PEMBELAJARAN KREATIF PRODUKTIF BERBASIS KEARIFAN LOKAL,” hlm. 18, 2011,

[Daring]. Tersedia pada:

http://repository.ut.ac.id/2476/1/fmipa201139.pdf [2] K. B. Putra dan R. P. Kusumawardani, “Analisis topik

informasi publik media sosial di surabaya menggunakan pemodelan latent dirichlet allocation (LDA),” Jurnal Teknik ITS, vol. 6, no. 2, hlm. A446–

A450, 2017.

[3] A. I. Alfanzar, K. Khalid, dan I. S. Rozas, “Topic modelling skripsi menggunakan metode latent

(11)

diriclhet allocation,” JSiI (Jurnal Sistem Informasi), vol. 7, no. 1, hlm. 7–13, 2020.

[4] B. W. Arianto dan G. Anuraga, “Topic Modeling for Twitter Users Regarding the" Ruanggguru"

Application,” Jurnal Ilmu Dasar, vol. 21, no. 2, hlm.

149–154, 2020.

[5] I. D. Susanti, R. D. Astuti, F. A. Sariasih, dan J. L.

Putra, “PENGARUH BIAYA PROMOSI TERHADAP PENJUALAN PT. TEJA SEKAWAN JAKARTA UTARA,” Jurnal Mitra Manajemen, vol.

2, no. 4, hlm. 273–285, 2018.

[6] L. H. Pramono dan C. Subiyantoro, “Pengaruh Stemming Terhadap Ekstraksi Topik Menggunakan Metode Tf* Idf* Df Pada Aplikasi Pds,” JIKO (Jurnal Informatika dan Komputer), vol. 2, no. 1, 2017.

[7] Y. U. Al-khairi, Y. Wibisono, dan B. L. Putro,

“Deteksi topik fashion pada twitter dengan latent dirichlet allocation,” 2017.

[8] R. Melita, V. Amrizal, H. B. Suseno, T. Dirjam, T.

Informatika, dan F. Sains, “Penerapan Metode Term Frequency Inverse Document Frequency (Tf-Idf) Dan Cosine Similarity Pada Sistem Temu Kembali Informasi Untuk Mengetahui Syarah Hadits Berbasis Web (Studi Kasus: Syarah Umdatil Ahkam),” J. Tek.

Inform, vol. 11, no. 2, hlm. 149–164, 2018.

[9] A. Rafiqi, “Penerapan Algoritma Fuzzy,” ADLN Univ. Airlangga,[Online]. Available: repository.

unair. ac. id/29371/3/15 BAB II. pdf.

[10] K. E. Dewi, N. I. Widiastuti, dan E. Rainarli,

“Evaluasi Sentence Extraction pada Peringkasan Dokumen Otomatis,” dipresentasikan pada SNIA (Seminar Nasional Informatika dan Aplikasinya), 2019, hlm. 8–12.