KLASIFIKASI SENTIMEN PADA VIDEO YOUTUBE BERBAHASA INDONESIA DENGAN MENGGUNAKAN SUPPORT VECTOR MACHINE
Laporan Tugas Akhir
Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Sarjana Informatika Universitas Muhammadiyah Malang
Muhammad Radivan Ikramullah 201710370311158
Data Science
PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK
UNIVERSITAS MUHAMMADIYAH MALANG 2022
LEMBAR PERSETUJUAN
KLASIFIKASI SENTIMEN PADA VIDEO YOUTUBE BERBAHASA INDONESIA DENGAN MENGGUNAKAN
SUPPORT VECTOR MACHINE
TUGAS AKHIR
Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Informatika Universitas Muhammadiyah Malang
Menyetujui,
Malang, 10 November 2021
Pembimbing I
Nur Hayatin, S.T., M.Ko Pembimbing I
Nur Hayatin, S.ST, M.Kom NIDN. 0726038402
Pembimbing II
Didih Rizki Chandranegara, S.Kom., M.Kom NIDN. 0702109201
viii
KATA PENGANTAR
Dengan memanjatkan puji syukur kehadirat Allah SWT. Atas limpahan rahmat dan hidayah-NYA sehingga peneliti dapat menyelesaikan tugas akhir yang berjudul :
“KLASIFIKASI SENTIMEN PADA VIDEO YOUTUBE BERBAHASA INDONESIA DENGAN MENGGUNAKAN SUPPORT VECTOR MACHINE”
Di dalam tulisan ini disajikan pokok-pokok bahasan yang meliputi latar belakang, metode penelitian, dan hasil dan pembahasan yang telah diperoleh dari penelitian yang dilakukan dan telah disimpulkan berdasarkan hasil yang telah diperoleh oleh peneliti.
Peneliti menyadari sepenuhnya bahwa dalam penelitian tugas akhir ini masih banyak kekurangan dan keterbatasan. Oleh karena itu peneliti mengharapkan saran yang membangun agar tulisan ini bermanfaat bagi perkembangan ilmu pengetahuan.
Malang, 09 November 2021
Muhammad Radivan Ikramullah
ix DAFTAR ISI
LEMBAR PERSETUJUAN ... i
LEMBAR PENGESAHAN ... ii
LEMBAR PERNYATAAN ...iii
ABSTRAK ... iv
ABSTRACT ... v
LEMBAR PERSEMBAHAN ... vi
KATA PENGANTAR... viii
DAFTAR ISI ... ix
DAFTAR GAMBAR ... xi
DAFTAR TABEL ... xii
BAB I ... 1
1.1 Latar Belakang ... 1
1.2 Rumusan Masalah ... 3
1.3 Tujuan Penelitian ... 3
1.4 Batasan Masalah ... 3
BAB II ... 4
2.1 Penelitian Terdahulu ... 4
2.2 YouTube ... 5
2.3 Speech-to-Text ... 5
2.4 Text Mining ... 5
2.5 Analisis Sentimen ... 6
2.6 Preprocessing ... 6
2.6.1 Case Folding ... 6
2.6.2 Cleansing ... 7
2.6.3 Tokenization ... 7
2.6.4 Stopword Removal ... 7
2.6.5 Stemming ... 7
2.6.6 Algoritma Nazief dan Adriani ... 7
2.7 Term Frequency – Inverse Document Frequency ... 8
2.8 Support Vector Machine ... 8
x
2.9 Confusion Matrix ... 8
BAB III ... 10
3.1 Pengumpulan Dataset ... 10
3.1.1 Data Video ... 11
3.1.2 Metadata ... 11
3.2 Ekstraksi Audio ... 12
3.3 Konversi ke Teks ... 12
3.4 Pelabelan Data ... 13
3.5 Preprocessing ... 14
3.5.1 Case Folding ... 14
3.5.2 Cleansing ... 14
3.5.3 Tokenization ... 15
3.5.4 Stopword Removal ... 15
3.5.5 Stemming ... 16
3.6 Term Weighting ... 16
3.6.1 TF-IDF ... 16
3.7 Klasifikasi ... 17
3.7.1 Support Vector Machine (SVM) ... 18
3.8 Evaluasi ... 18
3.9 Skenario Pengujian ... 18
BAB IV ... 19
4.1 Kebutuhan Sistem ... 19
4.2 Pengumpulan Dataset ... 19
4.3 Preprocessing ... 24
4.4 TF – IDF ... 26
4.5 Support Vector Machine ... 26
4.6 Evaluasi ... 27
4.6.1 Perbandingan Hasil Performa Tiap Skenario... 34
BAB V ... 37
5.1 Kesimpulan ... 37
5.2 Saran ... 37
DAFTAR PUSTAKA ... 38
xi
DAFTAR GAMBAR
Gambar 3. 1. Alur Penelitian... 10
Gambar 3. 2. Alur Data Video ... 11
Gambar 3. 3. Alur Metadata ... 12
Gambar 3. 4. Alur Klasifikasi ... 17
Gambar 4. 1. Tampilan Halaman API keys dan Service Accounts... 20
Gambar 4. 2. Source Code Download Video ... 20
Gambar 4. 3. Source Code Convert Video ke Audio ... 21
Gambar 4. 4. Source Code Mengunggah File Audio ke Bucket ... 21
Gambar 4. 5. Source Code Merubah File Audio Menjadi Teks ... 22
Gambar 4. 6. Source Code Menyimpan File Teks ... 22
Gambar 4. 7. Source Code Crawling Metadata Video ... 23
Gambar 4. 8. Source Code Crawling Komentar Video ... 23
Gambar 4. 9. Source Code Case Folding ... 24
Gambar 4. 10. Source Code Cleansing ... 24
Gambar 4. 11. Source Code Tokenization ... 25
Gambar 4. 12. Source Code Stopword Removal ... 25
Gambar 4. 13. Source Code Stemming ... 26
Gambar 4. 14. Source Code TF - IDF ... 26
Gambar 4. 15. Source Code Merubah Label Sentimen ... 27
Gambar 4. 16. Source Code Model SVM ... 27
Gambar 4. 17. Source Code Classification Report ... 27
Gambar 4. 18. Source Code Confusion Matrix ... 28
Gambar 4. 19. Confusion Matrix Skenario Pertama ... 28
Gambar 4. 20. Confusion Matrix Skenario Kedua ... 29
Gambar 4. 21. Confusion Matrix Skenario Ketiga ... 30
Gambar 4. 22. Confusion Matrix Skenario Keempat ... 31
Gambar 4. 23. Confusion Matrix Skenario Kelima... 32
Gambar 4. 24. Confusion Matrix Skenario Keenam ... 33
Gambar 4. 25. Confusion Matrix Skenario Ketujuh ... 34
xii
DAFTAR TABEL
Tabel 1. Penelitian Terdahulu ... 4
Tabel 2. Contoh confusion matrix ... 9
Tabel 3. Hasil konversi file audio ke teks ... 13
Tabel 4. Contoh pelabelan data ... 14
Tabel 5. Contoh proses case folding ... 14
Tabel 6. Contoh proses cleansing ... 15
Tabel 7. Contoh proses tokenization ... 15
Tabel 8. Contoh proses stopword removal ... 15
Tabel 9. Contoh proses stemming ... 16
Tabel 10. Perbandingan Hasil Performa ... 35
38
DAFTAR PUSTAKA
[1] M. Kurniati and N. Nuryani, “Pengaruh Sosial Media Youtube Terhadap Pemerolehan Bahasa Anak Usia 3-4 Tahun (Studi Pada Anak Speech Delay),”
Fon J. Pendidik. Bhs. dan …, vol. 16, pp. 29–38, 2020, [Online]. Available:
https://journal.uniku.ac.id/index.php/FON/article/view/2494.
[2] R. Mastanora, “Dampak Tontonan Video Youtube Pada Perkembangan
Kreativitas Anak Usia Dini,” J. Pendidik. dan Perkemb. Anak, vol. I, no. 2, pp.
47–57, 2018.
[3] A. D. Choiroh et al., “FAKTOR – FAKTOR YANG MEMPENGARUHI PERUBAHAN PERILAKU ANAK AKIBAT PENGGUNAAN YOUTUBE,”
2019.
[4] E. R. (Eribka) David, M. (Mariam) Sondakh, and S. (Stefi) Harilama,
“Pengaruh Konten Vlog Dalam Youtube Terhadap Pembentukan Sikap Mahasiswa Ilmu Komunikasi Fakultas Ilmu Sosial Dan Politik Universitas Sam Ratulangi,” Acta Diurna, vol. 6, no. 1, p. 93363, 2017, [Online].
Available: https://www.neliti.com/publications/93363/pengaruh-konten-vlog- dalam-youtube-terhadap-pembentukan-sikap-mahasiswa-ilmu-kom.
[5] lucia maria aversa Villela, “PERLINDUNGAN HUKUM BAGI ANAK AKIBAT KONTEN KEKERASAN YANG TERDAPAT DALAM SITUS YOUTUBE,” J. Chem. Inf. Model., vol. 53, no. 9, pp. 1689–1699, 2013.
[6] A. C. Najib, A. Irsyad, G. A. Qandi, and N. A. Rakhmawati, “Perbandingan Metode Lexicon-based dan SVM untuk Analisis Sentimen Berbasis Ontologi pada Kampanye Pilpres Indonesia Tahun 2019 di Twitter,” Fountain
Informatics J., vol. 4, no. 2, p. 41, 2019, doi: 10.21111/fij.v4i2.3573.
[7] F. Alvianda and P. P. Adikara, “Analisis Sentimen Konten Radikal Di Media Sosial Twitter Menggunakan Metode Support Vector Machine ( SVM ),” J.
Pengemb. Teknol. Inf. dan Ilmu Komput. Univ. Brawijaya, vol. 3, no. 1, pp.
241–246, 2019.
39
[8] T. S. et al Stefanus, “Restricted Content Classification Based on Videa,” J. Ilm.
kursor, vol. 7, no. 4, pp. 165–172, 2014.
[9] R. Kandakatla, “Identifying Offensive Videos on YouTube A thesis submitted in partial fulfillment,” 2016.
[10] F. I. Tanesab, I. Sembiring, and H. D. Purnomo, “Sentiment Analysis Model Based On Youtube Comment Using Support Vector Machine,” Int. J. Comput.
Sci. Softw. Eng., vol. 6, no. 8, pp. 180–185, 2017, [Online]. Available:
http://ijcsse.org/published/volume6/issue8/p2-V6I8.pdf.
[11] P. Y. Saputra, D. H. Subhi, and F. Z. A. Winatama, “Implementasi Sentimen Analisis Komentar Channel Video Pelayanan Pemerintah Di Youtube
Menggunakan Algoritma Naïve Bayes,” J. Inform. Polinema, vol. 5, no. 4, pp.
209–213, 2019, doi: 10.33795/jip.v5i4.259.
[12] I. N. Kiftiyah, S. Sagita, and A. B. Ashar, “Peran Media Youtube Sebagai Sarana Optimalisasi Perkembangan Kognitif Pada Anak Usia Dini,” Pros.
SEMNAS Penguatan Individu di Era Revolusi Inf., no. 1998, pp. 199–208, 2017.
[13] N. Shakhovska, O. Basystiuk, and K. Shakhovska, “Development of the
speech-to-text chatbot interface based on google API,” CEUR Workshop Proc., vol. 2386, pp. 212–221, 2019.
[14] A.-H. Tan, “Text Mining: The state of the art and the challenges,” Proc.
PAKDD 1999 Work. Knowl. Disocovery from Adv. Databases, vol. 8, pp. 65–
70, 1999, doi: 10.1.1.38.7672.
[15] V. Gupta and G. S. Lehal, “A Survey of Text Mining Techniques and Applications - Volume 1, No. 1, August 2009 - JETWI,” J. Emerg. Technol.
Web Intell., vol. 1, no. 1, pp. 60–76, 2009, [Online]. Available:
http://www.jetwi.us/index.php?m=content&c=index&a=show&catid=165&id=
969.
40
[16] B. Liu, “Sentiment analysis: Mining opinions, sentiments, and emotions,”
Sentim. Anal. Min. Opin. Sentim. Emot., no. May, pp. 1–367, 2015, doi:
10.1017/CBO9781139084789.
[17] W. Medhat, A. Hassan, and H. Korashy, “Sentiment analysis algorithms and applications: A survey,” Ain Shams Eng. J., vol. 5, no. 4, pp. 1093–1113, 2014, doi: 10.1016/j.asej.2014.04.011.
[18] S. Kannan and V. Gurusamy, “Preprocessing Techniques for Text Mining (PDF Download Available),” 2014, [Online]. Available:
https://www.researchgate.net/publication/273127322_Preprocessing_Techniqu es_for_Text_Mining.
[19] D. Wahyudi, T. Susyanto, and D. Nugroho, “Implementasi Dan Analisis Algoritma Stemming Nazief & Adriani Dan Porter Pada Dokumen Berbahasa Indonesia,” J. Ilm. SINUS, vol. 15, no. 2, pp. 49–56, 2017, doi:
10.30646/sinus.v15i2.305.
[20] S. Vijayarani, M. J. Ilamathi, M. Nithya, A. Professor, and M. P. Research Scholar, “Preprocessing Techniques for Text Mining -An Overview,” Int. J.
Comput. Sci. Commun. Networks, vol. 5, no. 1, pp. 7–16, 2015.
[21] Y. T. Zhang, L. Gong, and Y. C. Wang, “Improved TF-IDF approach for text classification,” J. Zhejiang Univ. Sci., vol. 6 A, no. 1, pp. 49–55, 2005, doi:
10.1631/jzus.2005.A0049.
[22] A. H. Al Kabir, S. Basuki, and G. W. Wicaksono, “Analisis sentimen kritik dan saran pelatihan aplikasi teknologi informasi (PATI) menggunakan
algoritma support vector machine (SVM),” J. Repos., vol. 1, no. 1, p. 39, 2019, doi: 10.22219/repositor.v1i1.11.
[23] B. Gunawan, H. S. Pratiwi, and E. E. Pratama, “Sistem Analisis Sentimen pada Ulasan Produk Menggunakan Metode Naive Bayes,” J. Edukasi dan Penelit.
Inform., vol. 4, no. 2, p. 113, 2018, doi: 10.26418/jp.v4i2.27526.
41
[24] M. E. Al Rivan, N. Rachmat, and M. R. Ayustin, “Klasifikasi Jenis Kacang- Kacangan Berdasarkan Tekstur Menggunakan Jaringan Syaraf Tiruan,” vol.
Vol 6 No 1, no. 1, pp. 89–98, 2020.
[25] L. Afuan, “Stemming Dokumen Teks Bahasa Indonesia,” J. Telemat., vol. 6, no. 2, pp. 34–40, 2013.
[26] G. S. and C. Bucklet, “TERM-WEIGHTING APPROACHES IN AUTOMATIC TEXT RETRIEVAL.” 1987.
TA-010
UNIVERSITAS MUHAMMADIYAH MALANG
FAKULTAS TEKNIK
PROGRAM STUDI TEKNIK INFORMATIKA
Jl. Raya Tlogomas 246 Malang 65144 Telp. 0341 - 464318 Ext. 247, Fax. 0341 - 460782
FORM CEK PLAGIARISME LAPORAN TUGAS AKHIR
Nama : Muhammad Radivan Ikramullah NIM : 201710370311158
Judul TA : Klasifikasi Sentimen Pada Video YouTube Berbahasa Indonesia Dengan Menggunakan Support Vector Machine
Hasil Cek Plagiarisme dengan Turnitin
No. Komponen Pengecekan Nilai Maksimal Plagiarisme (%)
Hasil Cek Plagiarisme (%) *
1. Bab 1 – Pendahuluan 10 % 10%
2. Bab 2 – Daftar Pustaka 25 % 21%
3. Bab 3 – Analisis dan Perancangan 25 % 17%
4. Bab 4 – Implementasi dan Pengujian 15 % 10%
5. Bab 5 – Kesimpulan dan Saran 5 % 0%
6. Makalah Tugas Akhir 20% 18%
Mengetahui,
Dosen Pembimbing
Nur Hayatin, S.ST, M.Kom NIDN.0726038402
*) Hasil cek plagiarism bisa diisikkan oleh salah satu pembimbing