KLASIFIKASI PERSEPSI PENGGUNA TWITTER TERHADAP KASUS COVID-19 MENGGUNAKAN METODE LOGISTIC REGRESSION

(1)

234

KLASIFIKASI PERSEPSI PENGGUNA TWITTER TERHADAP KASUS COVID-19 MENGGUNAKAN METODE LOGISTIC REGRESSION

Aloysius Kurniawan Santoso¹⁾, Astrid Noviriandini²⁾, Aliyah Kurniasih³⁾, Bagus Dwi Wicaksono⁴⁾

,

Ahmad Nuryanto⁵⁾

1345Universitas Nusa Mandiri Jl. Kramat Raya No. 18, Senen, Jakarta Pusat

2Universitas Bina Sarana Informatika Jl. Kramat Raya No. 98, Senen, Jakarta Pusat

Email : [email protected]¹, [email protected], [email protected], [email protected], [email protected]

ABSTRACT

The world is hit by the coronavirus disease (COVID-19) which attacks the respiratory system in humans. The virus originated in Wuhan, China. And now it has been declared a pandemic because it has spread to almost all countries. This triggered the ideas and opinions of the United States public on Twitter social media. The tweets are used to find out a person's emotions by grouping them into 5 labels including extreme positive, positive, neutral, negative and extreme negative. In this case the authors grouped the labels into 3 class labels, including positive, neutral and negative. The author tested using the Logistic Regression method by giving hyperparameter variations L2 and None. In the L2 hyperparameter, an accuracy value of 77% and an F1 score of 74% is obtained. And the hyperparameter variation None obtained an accuracy value of 74% and an F1 score of 70%. Thus, the L2 hyperparameter value is the best variation in the Logistic Regression method.

Keywords: Text Mining, Logistic Regression, Covid-19, Analisis Sentiment

ABSTRAK

Dunia dilanda penyakit coronavirus (COVID-19) yang menyerang sistem pernafasan pada manusia. Virus tersebut berasal dari Wuhan, China. Dan saat ini sudah ditetapkan sebagai pandemi karena sudah menyebar hampir di seluruh Negara. Hal tersebut memicu gagasan dan opini masyarakat Amerika Serikat di media sosial twitter. Cuitan tersebut dimanfaatkan untuk mengetahui emosi seseorang dengan mengelompokan dalam 5 label diantaranya, extreme positive, positive, neutral, negative dan extreme negative. Pada hal ini penulis mengelompokan label menjadi 3 label kelas, diantaranya positive, neutral dan negative. Penulis menguji menggunakan metode Logistic Regression dengan memberi variasi hyperparameter L2 dan None. Pada hyperparameter L2 diperoleh nilai akurasi 77% dan F1 score sebesar 74%. Dan pada variasi hyperparameter None diperoleh nilai akurasi 74% dan F1 Score 70%. Dalam demikian, pada nilai hyperparameter L2 merupakan variasi terbaik pada metode Logistic Regression.

Kata Kunci: Text Mining, Logistic Regression, Covid-19, Analisis Sentimen

(2)

235 1. PENDAHULUAN

Dunia dilanda bencana penyakit yang menyerang sistem pernafasan pada manusia, penyakit tersebut dikenal dengan Covid-19 [1]. Virus ini berasal dari Kota Wuhan, China [2]. Covid-19 kemudian ditetapkan sebagai wabah dari pandemi 2019-nCoV yang terjadi dengan melibatkan manusia dan juga melibatkan makhluk hidup vertebrata [3], karena penyebarannya telah mencapai sebagian besar negara di dunia yang selanjutnya ditetapkan sebagai pandemi global pada Maret 2020 [4]. Kemudian perihal tersebut sebagai pemicu berbagai lapisan masyarakat melakukan komentar ataupun mengemukakan pendapat secara masif terkait covid-19 khususnya pada sosial media twitter, buah pikiran masyarakat tersebut perlu dipahami yang seharusnya dapat membantu dalam membuat kebijakan suatu negara dalam menghadapi pandemi penyakit ini. [5].

Beberapa penelitian terdahulu mengenai text mining diantaranya yaitu menganalisis komentar pada twitter dengan tujuan membangun model untuk analysis tweet menggunakan teknik machine learning dengan algoritma regresi logistik. Dataset didapatkan langsung dari server Twitter menggunakan API Twitter (Application Programming Interface). Hasil dari penelitian dengan metode klasifikasi regresi logistik mendapatkan akurasi terbaik pada 91%. [6].

Penelitian oleh Xinyi Guo, dan Jinfeng Li [7] memodelkan analisis sentimen twitter untuk mendapatkan informasi sebagai acuan dalam pengambilan keputusan yang cepat dalam pasar saham FTSE 100, mendapatkan akurasi tertinggi pada model logistic regression dan linear discriminant analysis untuk memprediksi akurasi tren kenaikan di pasar mendatang dengan akurasi mencapai 97,87%. Kemudian Penelitian Symeon Symeonidis et al [8] yaitu membandingkan 16 teknik preprocessing yang umum digunakan dalam penelitian yang

diberlakukan untuk dua kumpulan dataset sentimen twitter menggunakan empat algoritma machine learning yaitu Linear SVC, Bernoulli Naïve Bayes, Logistic Regression, dan Convolutional Neural Networks, menghasilkan bahwa pentingnya teknik untuk mengganti angka dan tanda baca yang berulang, sehingga dengan demikian akan didapatkan hasil peforma atau akurasi yang lebih baik. Lalu penelitian Akrivi Krouska et al [9] melakukan komparasi algoritma untuk mengevaluasi analisa sentimen pada Social Networking Services (twitter), dengan tujuan memberikan pedoman pada pemilihan algoritma untuk menganalisa sentimen, menggunakan lima algoritma machine learning classifier yaitu Na¨ıve Bayes,Support Vector Machine, k- Nearest Neighbor, Logistic Regression dan C4.5, dengan hasil yang menunjukan bahwa pada kasus ini keunggulan Naıve Bayes dan Support Vector Machine.

Pada penelitian ini dilakukan klasifikasi sentiment terkait wabah Covid-19 yang melanda dunia yang bersumber pada halaman twitter dengan teknik data mining menggunakan fine tunning pada algoritma Machine Learning Logistic Regeression untuk klasifikasi emosi sebanyak 5 label target yaitu Extremely Positive, Positive, Neutral, Negative dan Extremely Negative yang kemudian target kelas tersebut dikelompokan kembali menjadi 3 target untuk memudahkan analisis data. Akurasi dan F1 Score digunakan untuk mengetahui seberapa akurat model yang akan dibangun.

Metode tersebut dilakukan untuk mengetahui pandangan masyarakat terkait pandemi Covid-19 berdasarkan pada sisi tingkat emosinya serta untuk mengetahui hyperparameter terbaik untuk algoritma logistic regreesion dalam mengklasifikasikan data text ke dalam kelas target.

(3)

236 2. METODOLOGI PENELITIAN

Penelitian terbaru pada tahun 2020 yang berkaitan dengan sentimen analisis komentar twitter berbahasa inggris mengenai coronavirus yaitu menggunakan model logistic regression mendapatkan akurasi sebesar 78.57% dengan berorientasi pada 2 label kelas masing-masing adalah positive tweets dan negative tweet [10]. Sedangkan pada penelitian ini dari label target 5 kelas yang ada pada dataset akan kami distribusikan atau gabungkan menjadi 3 target kelas yaitu Positive, Neutral dan Negative sehingga dapat memudahkan dalam menganalisis data serta pemahaman statistik yang lebih baik dibandingkan dengan target kelas 5 label. Metode Logistic Regression yang dibangunpun dengan mentunning beberapa hyperparameter menggunakan L2 dan None. Secara garis besar alur penelitian ini digambarkan seperti pada Gambar 1.

Gambar 1. Flowchart Penelitian

2.1. Text Mining

Text mining merupakan sebuah proses menambang teks untuk menemukan suatu informasi yang berguna dalam koleksi dokumen teks sehingga diperoleh pola, tren, atau keterhubungan antar teks. [11]. Text mining dapat digunakan juga untuk mengekstrak informasi yang dapat berguna dari sebuah sumber data dengan cara mengidentifikasi serta mengeksplorasi pola yang menarik. Text mining juga mengarah pada bidang penelitian data mining[12].

2.2. Analisis Sentiment

Analisis Sentimen merupakan proses dalam menentukan sentimen atau sebuah gagasan seseorang dalam sebuah teks yang dapat dikategorikan sentimen positif atau negarif [13]. Analisis sentimen dapat disebut juga dengan suatu proses memahami, mengekstrasi, dan secara otomatis memproses data tekstual untuk mendapatkan informasi yang dibahas dan terkandung didalam text [14].

2.3. Preprocessing

Preprocessing merupakan sebuah proses pembersihan data raw dengan tujuan agar hasil yang didapatkan tidak menimbulkan data dan hasil yang tidak konsisten pada saat menganalisis hasil [15].

Preprocessing juga sering disebut sebuah tahapan awal dari suatu Text Mining, tahapan tersebut meliputi sebuah proses untuk mempersiapkan data tekstual yang akan digunakan untuk diproses pada tahapan berikutnya [16].

2.4. Logistic Regression

Logistic Regression sangat cocok digunakan untuk memprediksi ketika variabel dependen atau output suatu data bersifat biner. Sedangkan untuk memprediksi data yang memiliki lebih dari dua kemungkinan maka akan digunakan multinomial logistic regression[11]. Logistik

(4)

237 Regresi telah banyak digunakan dalam

berbagai data masalah sentimen analisis, seperti prediksi hasil positif, negatif, atau netral [17].

3. HASIL DAN PEMBAHASAN 3.1. Dataset

Dataset yang digunakan dalam penelitian ini merupakan dataset public tahun 2020 bersumber dari situs web Kaggle dengan nama Coronavirus tweets NLP - Text Classification, dimana data tersebut diambil dari kicauan twitter yang kemudian dilakukan manual tagging. Dataset memiliki enam features yaitu UserName, ScreenName, Location, TweetAt, OriginalTweet, dan Sentiment. Atribut yang digunakan hanya OriginalTweet karena berisi data kicauan para pengguna twitter yang menjadi dasar dari pengklasifikasikan data text terkait komentar mengenai Covid- 19 yang dapat dicirikan sebagai suatu klasifikasi emosi seseorang (Pahlawan, Tanjung, & Fauzi, 2017). Feature Sentiment dijadikan sebagai target kelas yang dibagi ke dalam 5 label spesifik diantaranya Extremely Positive, Positive, Neutral, Negative, dan Extremely Negative. Dataset tersebut sudah terbagi menjadi dua data yaitu data train terdiri dari 41.157 instances yang akan digunakan sebagai data training dalam membangun model dan data testing sebanyak 3.798 instances digunakan untuk menguji performance dari model. Dari kedua data tersebut memiliki features dan jumlah features yang sama.

3.2. Data Preprocessing

Pada penelitian ini kami menggunakan pustaka python untuk mengimport file data, menganalisis data, memvisualisasikan data, melakukan persiapan data dan sampai pembuatan model Logistic Regression. Preprocessing dilakukan untuk menyiapkan data input dan target sebelum memasukannya ke dalam

model machine learning yang tujuannnya untuk menghilangkan noise dan membuat data mentah menjadi data yang siap untuk dimodelkan.

Feature Location yang berisi data lokasi terkait sentimen seseorang terdapat bias representatif yang cukup besar, karena untuk distorsi global, sebagian besar data yang terkumpul berada dalam beberpa zona geopolitik dengan Afrika yang hanya sedikit.

faktor-faktor yang mungkin dapat mempengaruhi sentimen seseorang tersebut diantara cita-cita yang berbeda, kebijakan pemerintah, keyakinan agama, dan lain-lain.

Sehingga pada penelitian ini data Location pada masing-masing data train dan data test kami pecah kemudian digabungkan kembali dengan membagi lokasi menjadi pasangan kata karena banyak lokasi yang berada di geolokasi yang sama. Data Location sebelum dan sesudah dipecah terlihat pada Tabel 1.

Tabel 1. Feature Location Location Location

London London

England, United

Kingdom England

Toronto, Ontario United Kingdom United States Toronto

India Ontario

Sebelum dilakukannya preprocessing untuk memudahkan langkah preprocessing pada data train dan data test digabungkan menjadi satu variabel data dengan nama variabel covid dengan menset feature baru yaitu indentity, 0 untuk data train dan 1 untuk data test sebagai ciri untuk membedakan sumber data antara data train dan data test.

Kemudian 5 kategori sentimen dikelompokan kembali menjadi 3 target untuk memudahkan analisis data serta pemahaman statistik yang lebih baik, yaitu label Extremely Positive dikelompokan menjadi Positive dan Extremely Negative

(5)

238 menjadi Negative. Features ScreenName dan

UserName dihilangkan karena tidak akan berpengaruh pada keakuratan model.

Distribusi data setelah digabungkan terlihat pada Gambar 2.

Gambar 2. Distribusi Data

Feature target Sentiment dipetakan dari data yang bersifat kategorikal menjadi data yang bersifat numerik agar pengklasifikasian menjadi lebih akurat yaitu label Neutral=0, Positive=1 dan Negative=2.

3.3. Remove Mention dan Hashtag

Analisa data selanjutnya yaitu dilakukan pemprosesan pada feature OriginalTweet dengan mengekstraksi dan menganalisis data untuk kemudian dihapus pada bagian mention dan hashtag. Hasil ekstraksi dan analisis sebagian besar tweet berkaitan dengan covid-19. Kami menggunakan fungsi python regex untuk membersihkan tweet dengan menghapus hashtag, mention, url, digit, dan . data tersebut dibersihkan untuk membantu model lebih memahai hubungan statistik antara detail yang relevan.

3.4. Remove Stopwords

Dengan melakukan penghapusan stopwords hal ini dapat meningkatkan akurasi dalam menganalisa sentimen dalam suatu bahasa, meskipun tidak terlalu signifikan, karena setiap kata memiliki arti yang berbeda di tiap bahasa yang digunakan [18]. Kata-kata stopwords seperti kata ganti, preposisi, dan konjungsi, dimana kata tersebut tidak membantu dan sering terjadi [19]. Kami menghapus kata umum karena kata-kata tersebut biasanya memiliki sedikit kandungan leksikal dan tidak memiliki banyak makna. kemudian features yang digunakan pada tahap preprocessing selanjutnya yaitu hanya OriginalTweet, Sentiment, dan Identity. sedangkan features Location dan TweetAt dihilangkan.

3.5. Tokenize

Model machine learning memainkan perannya dengan menemukan hubungan statistik, oleh karena itu data di tokenized dan djadikan vektor. kemudian dilakukan Lemmatisasi dimana pada proses ini algoritmik untuk menentukan lemma sebuah kata dasar berdasarkan makna yang dimaksudkan. lalu di Tokenisasi yang merupakan pemisahan teks atau paragraf menjadi kata atau kalimat[19]. Tokenization merupakan proses mengisolasi kalimat dan menjadikannya ke dalam unit (token), bisa berupa kata, angka, maupun stempel penekanan serta untuk mengupayakan menemukan batasan suatu kata [20].

Kemudian Vektoriasi yang berkaitan dengan langkah pertama menganalisa bahasa alami yaitu dengan mengkonversi dokumen menjadi representasi vektor yang kemudian akan diterapkan pada numerical machine learning, sehingga akan memungkinkan algoritma machine learning dapat bekerja dan menganalisisnya [21]. Hasil dari proses ini djadikan feature baru dengan nama Corpus.

(6)

239 3.6. Building Model

Sebelum model machine learning dibangun, data yang sudah selesai di preprocessing dibagi kembali menjadi data train dan data test, untuk selanjutnya data train yang akan digunakan dalam membuat model Logistic Regression, sedangkan data test akan digunakan untuk menguji performance dari model. Kemudian feature Identity pada data train dan data test dihapus.

Pada data train tersebut feature Corpus yang akan digunakan untuk data X sebagai input dari model dan feature Sentiment digunakan untuk kelas target klasifikasi. Data train displit menjadi data training 80% sebanyak 32.925 data dan data validasi 20% sebanyak 8.232 data dengan random state 42. Sedangkan pada data test feature Corpus akan digunakan sebagai data input dari data testing model sebanyak 3.798 data dan feature Sentiment digunakan sebagai target prediksi dari model sebanyak 3.798 data. Kemudian input pada data training, data validasi dan data testing dilakukan normalisasi data menggunakan CountVectorizer dengan ngram_range=(1,2) dan min_df=5.

Model Logistic Regeression dibangun dengan menggunakan random state 42. Model tersebut di validasi dengan cross validation 10, verbose=1, n_jobs=-1 dengan solver=lbfgs yang hanya mendukung fungsi penalty L2 dan None. Dalam menguji performance dari model kami menggunakan matriks akurasi dan F1 Score dengan mentunning atau mencari hyperparameter terbaik dari logistic regeression menggunakan GridSearchCV pada Scikit- Learn untuk menghasilkan nilai hyperparameter terbaikyang kami gunakan yaitu penalty L2 dan None dan nilai C = np.logspace(0, 4, 10), cross validation 5 dan verbose=0 untuk masing-masing penalty.

3.7. Evaluation Model

Model Logistic Regression yang dibangun mendapatkan hasil akurasi dari validasi model yaitu nilai akurasi sebesar 80% dan nilai F1 Score sebesar 78%.

Kemudian hasil pengujian pada model dengan mentunning hyperparameter, dihasilkan pada hyperparameter penalty L2 dengan nilai C terbaik yaitu 1.0 dengan akurasi yang didapatkan sebesar 77% serta F1 Score sebesar 74%. Pada hyperparameter penalty None dihasilkan nilai C terbaik yaitu 1.0 dengan akurasi 74% dan F1 Score sebesar 70% seperti terlihat pada Tabel 2 dibawah.

Hasil uji performance precision dan recall pun dihasilkan seperti pada Tabel 3, nilai precision menggambarkan akurasi antara data yang diminta dengan hasil prediksi yang diberikan oleh model, sedangkan recall menggambarkan keberhasilan suatu model dalam menemukan kembali sebuah informasi.

Tabel 2. Hasil Uji Performance Akurasi dan F1 Score

Hyperparameter Akurasi F1 Score

L2 77% 74%

None 74% 70%

Tabel 3. Hasil Uji Performance Precision dan Recall

Hyperparam eter

Label Kelas

Precissi on

Reca ll

L2 Neutra

l [0] 64% 64%

Positiv

e [1] 78% 80%

Negati

ve [2] 80% 78%

None Neutra

l [0] 59% 56%

Positiv

e [1] 75% 79%

(7)

240 Negati

ve [2] 78% 75%

4. KESIMPULAN

Berdasarkan dari nilai performance yang dihasilkan pada precision dan recall setiap label class dari masing-masing hyperparameter, sehingga hal tersebut dapat menyimpulkan bahwa nilai akurasi pada masing-masing dari kedua hyperparameter tersebut dapat dipertanggung jawabkan keakuratannya. Dimana pengujian menggunakan hyperparameter L2 mendapatkan akurasi sebesar 77% dan mendapatkan nilai F1-score sebesar 74%, sedangkan pengujian menggunakan hyperparameter None mendapatkan akurasi sebesar 74% dan mendapatkan nilai F1-score sebesar 70%. Dengan demikian, pengujian dengan hyperparameter L2 merupakan pengujian yang dapat menghasilkan model logistic regression yang lebih baik dalam menentukan klasifikasi terkait komentar pada twitter mengenai virus corona atau Covid-19 masuk dalam kategori positif, negatif, atau netral.

5. SARAN

Untuk penelitian lanjutan, peneliti memberikan saran untuk menambahkan metode probabilistic yang lainnya misalnya algoritma klasifikasi Naive Bayes lain seperti Gaussian, Bernaulli, Multinomial dan complement, ataupun dengan melakukan teknik-teknik preprocessing yang lainnya sehingga dapat memungkinkan untuk mendapatkan hasil yang lebih baik dari Logistic Regression

DAFTAR PUSTAKA.

[1] E. Windhiyana, “Dampak Covid-19 Terhadap Kegiatan Pembelajaran Online Di Perguruan Tinggi Kristen Di Indonesia,” Perspekt. Ilmu Pendidik.,

vol. 34, no. 1, pp. 1–8, 2020, doi:

10.21009/pip.341.1.

[2] A. K. Singh, A. Singh, A. Shaikh, R.

Singh, and A. Misra, “Chloroquine and hydroxychloroquine in the treatment of COVID-19 with or without diabetes: A systematic search and a narrative review with a special reference to India and other developing countries,”

Diabetes Metab. Syndr. Clin. Res. Rev., vol. 14, no. 3, pp. 241–246, 2020, doi:

10.1016/j.dsx.2020.03.011.

[3] L. Mousavizadeh and S. Ghasemi,

“Genotype and phenotype of COVID- 19: Their roles in pathogenesis,” J.

Microbiol. Immunol. Infect., no. xxxx,

pp. 0–4, 2020, doi:

10.1016/j.jmii.2020.03.022.

[4] W. Wei et al., “Radiotherapy workflow and protection procedures during the Coronavirus Disease 2019 (COVID- 19) outbreak: Experience of the Hubei Cancer Hospital in Wuhan, China,”

Radiother. Oncol., vol. 148, pp. 203–

210, 2020, doi:

10.1016/j.radonc.2020.03.029.

[5] A. Mathur, P. Kubde, and S. Vaidya,

“Emotional analysis using twitter data during pandemic situation: Covid-19,”

Proc. 5th Int. Conf. Commun. Electron.

Syst. ICCES 2020, no. Icces, pp. 845–

848, 2020, doi:

10.1109/ICCES48766.2020.09138079.

[6] O. M. Aborisade and M. Anwar,

“Classification for authorship of tweets by comparing logistic regression and naive bayes classifiers,” Proc. - 2018 IEEE 19th Int. Conf. Inf. Reuse Integr.

Data Sci. IRI 2018, pp. 269–276, 2018, doi: 10.1109/IRI.2018.00049.

[7] X. Guo and J. Li, “08931720,” 2019 Sixth Int. Conf. Soc. Networks Anal.

Manag. Secur., no. 1, pp. 472–477, 2019.

[8] S. Symeonidis, D. Effrosynidis, and A.

Arampatzis, “A comparative

(8)

241 evaluation of pre-processing

techniques and their interactions for twitter sentiment analysis,” Expert Syst. Appl., vol. 110, pp. 298–310,

2018, doi:

10.1016/j.eswa.2018.06.022.

[9] A. Krouska, C. Troussas, and M.

Virvou, “Comparative evaluation of algorithms for sentiment analysis over social networking services,” J.

Univers. Comput. Sci., vol. 23, no. 8, pp. 755–768, 2017.

[10] C. R. Machuca, C. Gallardo, and R. M.

Toasa, “Twitter sentiment analysis on coronavirus: Machine learning approach,” J. Phys. Conf. Ser., vol.

1828, no. 1, 2021, doi: 10.1088/1742- 6596/1828/1/012104.

[11] F. Sodik and I. Kharisudin, “Analisis Sentimen dengan SVM , NAIVE BAYES dan KNN untuk Studi Tanggapan Masyarakat Indonesia Terhadap Pandemi Covid-19 pada Media Sosial Twitter,” vol. 4, pp. 628–

634, 2021.

[12] M. P. Simatupang and D. P. Utomo,

“Analisa Testimonial Dengan Menggunakan Algoritma Text Mining Dan Term Frequency- Inverse Document Frequence (Tf-Idf) Pada Toko Allmeeart,” KOMIK (Konferensi Nas. Teknol. Inf. dan Komputer), vol. 3, no. 1, pp. 808–814, 2019, doi:

10.30865/komik.v3i1.1697.

[13] H. Hermanto and A. Noviriandini,

“Analisa Sentimen Terhadap Belajar Online Pada Masa Covid-19 Menggunakan Algoritma Support Vector Machine Berbasis Particle Sarm Optimization,” J. Inform. Kaputama, vol. 5, no. 1, pp. 129–136, 2021.

[14] M. Cindo, “Studi Komparatif Metode Ekstraksi Fitur pada Analisis Sentimen,” vol. 1, no. 10, pp. 9–12, 2021.

[15] G. G. Gunadi, S. Rostianingsih, A.

Gunawan, and J. S. Surabaya, “Prediksi Retensi Customer Berdasarkan Support Vector Machine dengan Preprocessing Menggunakan Hadoop,” pp. 1–4.

[16] D. S. Indraloka and B. Santosa,

“Penerapan Text Mining untuk Melakukan Clustering Data Tweet Shopee Indonesia,” J. Sains dan Seni ITS, vol. 6, no. 2, pp. 6–11, 2017, doi:

10.12962/j23373520.v6i2.24419.

[17] U. Salamah and D. Ramayanti,

“Implementation of Logistic Regression Algorithm for Complaint Text Classification in Indonesian Ministry of Marine and Fisheries Abstract :,” Int. J. Comput. Tech., vol.

5, no. 5, pp. 74–78, 2018.

[18] A. W. Pradana and M. Hayaty, “The Effect of Stemming and Removal of Stopwords on the Accuracy of Sentiment Analysis on Indonesian- language Texts,” Kinet. Game Technol.

Inf. Syst. Comput. Network, Comput.

Electron. Control, vol. 4, no. 3, pp.

375–380, 2019, doi:

10.22219/kinetik.v4i4.912.

[19] S. Elbagir and J. Yang, “Sentiment analysis of twitter data using machine learning techniques and scikit-learn,”

ACM Int. Conf. Proceeding Ser., 2018, doi: 10.1145/3302425.3302492.

[20] M. M. Kumari, “The impact of News information on the Stock Recommendation System : A Survey,”

pp. 64–68, 2018.

[21] T. H. E. Effect et al., “Impact Factor : International Scientific Journal Theoretical & Applied Science THE EFFECT OF DIVERSITY OF THE

NATIONALITY, BOARD OF

DIRECTOR, INVESTMENT

DECISION, FINANCING