Klasifikasi Kategori Rating Film Berdasarkan Sinopsis Menggunakan Metode Ekstraksi Fitur Principle Component Analysis dan Naïve Bayes

(1)

Klasifikasi Kategori Rating Film Berdasarkan Sinopsis Menggunakan Metode Ekstraksi Fitur Principle Component Analysis dan Naïve Bayes

LAPORAN TUGAS AKHIR

Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Strata 1 Informatika Universitas Muhammadiyah Malang

NENENG APRIANTI 201610370311262

Data Science

PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK

UNIVERSITAS MUHAMMADIYAH MALANG

2021

(2)

1

(3)

(4)

(5)

(6)

KATA PENGANTAR

Puji syukur Alhamdulillah kehadirat Allah SWT atas segala limpahan rahmat serta hidayah-Nya sehingga penulis dapat menyelasaikan Tugas Akhir yang berjudul “ Klasifikasi Kategori Rating film Berdasarkan Sinopsis Menggunakan Metode Ekstarksi Fitur Principle Component Analysis dan Naïve Bayes

“ ini dengan baik. Tugas Akhir disusun

guna memenuhi persyaratan dalam meraih gelar Strata-1 di Universitas Muhammadiyah Malang.

Penulis menyadari sepenuhnya bahwa penulisan Tugas Akhir ini masih terdapat banyak kekurangan, oleh sebab itu penulis ingin mengharapkan saran agar tulisan ini dapat tersusun dengan baik serta dapat memberi manfaat bagi siapapun yang membacanya.

Malang, 5 Februari 2021

Neneng Aprianti

(7)

DAFTAR ISI

LEMBAR PERSETUJUAN ... 1

LEMBAR PENGESAHAN ... 2

LEMBAR PERNYATAAN ... 3

KATA PENGANTAR ... 4

DAFTAR ISI ... 5

BAB I ... 6

PENDAHULUAN ... 6

1.1 Latar Belakang ... 6

1.2 Rumusan Masalah ... 8

1.3 Tujuan Penelitian ... 8

1.4 Batasan Masalah ... 8

BAB II ... 10

LANDASAN TEORI ... 10

2.1 Film ... 10

2.2 Klasifikasi Teks ... 10

2.3 Data Mining ... 10

2.4 Text Preprocessing ... 12

2.5 Pembobotan TF-IDF ... 13

2.6 Principal Component Analysis (PCA) ... 13

2.7 Naïve Bayes Classifier ... 14

2.8 Confusion Matrix ... 15

Tabel 2.1. Rumus confusion matrix ... 15

2.9 Sastrawi ... 15

2.10 Python ... 15

BAB III ... 17

METODE PENELITIAN ... 17

Gambar 3.1 Alur Penelitian ... 17

3.1 Pengumpulan Data ... 18

3.2 Preprocessing ... 18

Gambar 3.2 Tahap Preprocessing ... 18

1. Case Folding ... 18

(8)

Tabel 3.1 Contoh Case Folding ... 18

2. Filtering 19 Tabel 3.2 Contoh Filtering ... 19

3. Tokenizing ... 19

Tabel 3.3 Contoh Tokenizing ... 19

4. Stemming ... 19

Tabel 3.4 Contoh Stemming ... 19

3.3 Pembobotan TF-IDF ... 20

3.4 Principle Component Analysis (PCA) ... 20

3.4.1 Contoh Perhitungan manual PCA ... 21

Tabel 3.5 Covarian Matrix ... 21

3.5 Naïve Bayes Classifier ... 23

Tabel 3.6 Confusion Matrix ... 24

3.7 Skenario Pengujian ... 24

BAB IV ... 25

HASIL DAN PEMBAHASAN ... 25

4.1 Implementasi Algoritma ... 25

4.2 Pengumpulan Data ... 25

4.3 Preprocessing ... 25

4.3.1 Case Folding ... 25

Gambar 4.1 . Syntax Case Folding... 26

Gambar 4.2 Hasil Proses Case Folding ... 26

4.3.2 Filtering ... 26

Gambar 4.3 Source Code Filtering ... 26

Gambar 4.4 Hasil Proses Filtering ... 26

4.3.3 Tokenizing ... 26

Gambar 4.5 Source Code Tokenizing ... 26

Gambar 4.6 Hasil Proses Tokenizing ... 27

4.3.4 Stop words removal ... 27

4.7 daftar kata StopWords ... 27

Gambar 4.8 Source Code StopWords ... 27

Gambar 4.9 Hasil Proses StopWords ... 28

4.3.5 Stemming ... 28

Gambar 4.10 Source Code Stemming ... 28

Gambar 4.11 Hasil Proses Stemming ... 28

(9)

4.4 TF-IDF (Term Frequency-Inverse Document Frequency)... 28

Gambar 4.12 Syntax class TfidfVectorizer ... 29

Gambar 4.13 Hasil dari proses TF – IDF ... 29

4.5 Principle Component Analysis (PCA) ... 29

Gambar 4.14 Syntax Library PCA ... 29

Gambar 4.15 Syntax perhitungan Covarian Matrix Transpose ... 30

Gambar 4.16 Syntax eigen values dan eigen vector ... 30

Gambar 4.17 Syntax Feature Extraction ... 30

Gambar 4.18 Hasil dari feature extraction PCA ... 31

4.6 Klasifikasi Naïve Bayes ... 31

Gambar 4.19 Syntax untuk mengambil data dari pca ... 31

Gambar 4.20 Syntax pembagian data Naïve Bayes ... 31

Gambar 4.21 Syntax fungsi klasifikasi Naïve Bayes ... 31

Gambar 4.22 Syntax evaluasi confusion matrix ... 32

4.7 Pengujian... 32

4.7.1 Pengujian Varians Pada PCA ... 32

Tabel 4.1 Tabel Varians Fitur Hasil PCA ... 33

4.7.2 Klasifikasi Metode Naïve Bayes Menggunakan Feature Extraction PCA ... 33

Tabel 4.1 Confusion Matrix Skenario 1 ... 33

Tabel 4.4 Hasil Evaluasi Skenario 1-3 ... 35

4.7.3 Klasifikasi Metode Naïve Bayes Tanpa Menggunakan PCA ... 35

Tabel 4.5 Confusion Matrix skenario 4... 35

Tabel 4.6 Hasil klasifikasi dengan dan tanpa PCA ... 36

BAB V ... 37

KESIMPULAN DAN SARAN ... 37

(10)

DAFTAR GAMBAR

Gambar 4.1 Source Code Case Folding ... 30

Gambar 4.2 Hasil Proses Case Folding ... 30

Gambar 4.3 Source Code Filtering ... 30

Gambar 4.4 Hasil Proses Filtering ... 30

Gambar 4.6 Hasil Proses Tokenizing ... 31

Gambar 4.7 daftar kata StopWords ... 31

Gambar 4.8 Source Code StopWords ... 31

Gambar 4.9 Hasil Proses StopWords ... 32

Gambar 4.11 Hasil Proses Stemming ... 32

Gambar 4.14 Syntax Library PCASyntax Library PCA ... 33

Gambar 4.18 Hasil dari feature extraction PCA ... 35

Gambar 4.19 Syntax untuk mengambil data dari pca ... 35

Gambar 4.20 Syntax pembagian data Naïve Bayes ... 35

Gambar 4.21 Syntax fungsi klasifikasi Naïve Bayes ... 35

(11)

DAFTAR GAMBAR

Gambar 4.1 Source Code Case Folding ... 30

Gambar 4.2 Hasil Proses Case Folding ... 30

Gambar 4.3 Source Code Filtering ... 30

Gambar 4.4 Hasil Proses Filtering ... 30

Gambar 4.6 Hasil Proses Tokenizing ... 31

Gambar 4.7 daftar kata StopWords ... 31

Gambar 4.8 Source Code StopWords ... 31

Gambar 4.9 Hasil Proses StopWords ... 32

Gambar 4.11 Hasil Proses Stemming ... 32

Gambar 4.14 Syntax Library PCASyntax Library PCA ... 33

Gambar 4.18 Hasil dari feature extraction PCA ... 35

Gambar 4.19 Syntax untuk mengambil data dari pca ... 35

Gambar 4.20 Syntax pembagian data Naïve Bayes ... 35

Gambar 4.21 Syntax fungsi klasifikasi Naïve Bayes ... 35

(12)

DAFTAR TABEL

Table 2.1 Rumus confusion matrix ... 19

Table 3.2 Contoh Filtering ... 23

Table 3.3 Contoh Tokenizing ... 23

Table 3.4 Contoh Stemming ... 24

Table 3.5 Covarian Matrix ... 25

Table 3.6 Confusion Matrix ... 28

Table 4.17 Tabel Varians Fitur Hasil PCA ... 37

Table 4.18Confusion Matrix Skenario 1 ... 37

Table4.29Confusion Matrix Skenario 2 ... 38

Table4.310Confusion Matrix Skenario 3 ... 38

Table 4.411Hasil Evaluasi Skenario 1-3 ... 39

Table 4.512Confusion Matrix skenario 4 ... 39

Table 4.613Hasil klasifikasi dengan dan tanpa PCA ... 40

(13)

DAFTAR PUSTAKA

[1] A. C. Saputra and A. T. Classification, “The Classification of the Movie Genre based on Synopsis of the Indonesian Film,” 2019 Int. Conf. Artif. Intell. Inf. Technol., pp. 201–204, 2019.

[2] F. Ratnawati, “Implementasi Algoritma Naive Bayes Terhadap Analisis Sentimen Opini Film Pada Twitter,” 2018.

[3] P. T. Informatika, F. Teknik, and U. M. Jember, “Pengaruh Seleksi Fitur Pada Skema Klasifikasi Naive Bayes Berbasis Gaussian dan Kernel Density,” vol. 01, no. 2005, pp. 26–

30, 2016.

[4] F. P. Shah, “A Review on Feature Selection and Feature Extraction for Text Classification,”

pp. 2264–2268, 2016.

[5] W. Astuti, “Principal Component Analysis Sebagai Ekstraksi Fitur Data Microarray Untuk Deteksi Kanker Berbasis Linear Discriminant Analysis,” vol. 3, no. 2, pp. 72–77, 2019.

[6] J. F. Pinto and H. Alonso, “A Weighted Principal Component Analysis and Its Application to Gene Expression Data,” vol. 8, no. 1, pp. 246–252, 2011.

[7] X. Vol et al., “ILMU KOMPUTER Universitas Udayana PREDIKSI KESUBURAN ( FERTILITY ) DENGAN MENGGUNAKAN PRINCIPAL COMPONENT ANALYSIS DAN KLASIFIKASI NAIVE BAYES,” vol. X, no. 2, pp. 10–14, 2017.

[8] V. Rahmayanti, S. Nastiti, and S. Basuki, “Klasifikasi Sinopsis Novel Menggunakan Metode Naïve Bayes Classifier,” pp. 1–6, 2020.

[9] Y. N. Dewi and T. Mantoro, “Improving Naïve Bayes Performance in Single Image Pap Smear Using Weighted Principal Component Analysis ( WPCA ),” 2012.

[10] I. Metode, S. Bootstrapping, and D. A. N. Weighted, “Inti nusa mandiri,” vol. 14, no. 2, pp.

111–118, 2020.

[11] Y. S. N. Pratiwi, R.Wijayatun, “Prediksi Rating Film Menggunakan Metode Naïve Bayes,”

vol. 12, no. April, pp. 91–108, 2017.

[12] N. Muslimah and R. C. Wihandika, “Klasifikasi Film Berdasarkan Sinopsis dengan Menggunakan Improved K-Nearest Neighbor ( K-NN ),” vol. 3, no. 1, pp. 196–204, 2019.

[13] A. Setiawan, I. F. Astuti, and A. H. Kridalaksana, “KLASIFIKASI DAN PENCARIAN BUKU REFERENSI AKADEMIK MENGGUNAKAN METODE NAÏVE BAYES CLASSIFIER ( NBC ) ( STUDI KASUS : PERPUSTAKAAN DAERAH PROVINSI KALIMANTAN TIMUR ),” vol. 10, no. 1, 2015.

[14] S. A. A. Megantara Gema, Kurniati Prima Angelina, “Jurnal Nasional Teknologi dan Sistem Informasi Klasifikasi Dokumen Berita Menggunakan Algoritma Enhanced Confix Stripping Stemmer dan Naïve Bayes Classifier,” vol. 02, pp. 90–99, 2010.

[15] M. Ridwan, H. Suyono, and M. Sarosa, “Penerapan Data Mining Untuk Evaluasi Kinerja

(14)

Akademik Mahasiswa Menggunakan Algoritma Naive Bayes Classifier,” vol. 7, no. 1, pp.

59–64, 2013.

[16] C. F. Suharno, M. A. Fauzi, and R. S. Perdana, “Klasifikasi Teks Bahasa Indonesia pada Dokumen Pengaduan Sambat Online menggunakan Metode K-Nearest Neighbors ( K-NN ) dan Chi- Square,” vol. 1, no. 10, pp. 1000–1007, 2017.

[17] R. Melita et al., “PENERAPAN METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) DAN COSINE SIMILARITY PADA SISTEM TEMU KEMBALI INFORMASI UNTUK MENGETAHUI SYARAH HADITS BERBASIS WEB (STUDI KASUS: SYARAH UMDATIL AHKAM),” vol. 11, no. 2, 2018.

[18] A. Riyani, M. Zidny, and A. Burhanuddin, “Penerapan Cosine Similarity dan Pembobotan TF-IDF untuk Mendeteksi Kemiripan Dokumen,” vol. 2, no. 1, pp. 23–27, 2019.

[19] K. A. Nugraha and D. Sebastian, “Pembentukan Dataset Topik Kata Bahasa Indonesia pada Twitter Menggunakan TF-IDF & Cosine Similarity,” vol. 4, pp. 376–386, 2018.

[20] M. B. I. Karmayasa Oka, “IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI,” 2012.

[21] R. Pujianto and A. A. Rahmawati, “Analisis Ekstraksi Fitur Principle Component Analysis pada Klasifikasi Microarray Data Menggunakan Classification And Regression Trees,” vol.

6, no. 1, pp. 2368–2379, 2019.

[22] D. H. Kalokasari, I. M. Shofi, and A. H. Setyaningrum, “IMPLEMENTASI ALGORITMA MULTINOMIAL NAIVE BAYES CLASSIFIER PADA SISTEM KLASIFIKASI SURAT KELUAR ( Studi Kasus : DISKOMINFO Kabupaten Tangerang ),” vol. 10, no. 2, 2017.

[23] N. Saputra, A. B. Teguh, and A. Permanasari Erna, “ANALISIS SENTIMEN DATA PRESIDEN JOKOWI DENGAN PREPROCESSING NORMALISASI DAN STEMMING MENGGUNAKAN METODE NAIVE BAYES DAN SVM,” vol. 5, no. November, 2015.

[24] I. Agastya Artha Made, “PENGARUH STEMMER BAHASA INDONESIA TERHADAP PEFORMA ANALISIS SENTIMEN TERJEMAHAN ULASAN FILM,” vol. 12, no. 1, pp.

18–23, 2018.

[25] A. Karno Bayangkari Satyo, “Analisis Data Time Series Menggunakan LSTM (Long Short Term Memory) dan ARIMA (Autocorrelation Integrated Moving Average) dalam Bahasa Python,” vol. 2, no. 1, pp. 237–245, 2018.

[26] P. Umar Rusydi, Riadi Imam, “Klasifikasi Kinerja Programmer pada Aktivitas Media Sosial

dengan Metode Stochastic Gradient Descent,” vol. 3, no. 28, pp. 4–5, 2020.

(15)

Klasifikasi Kategori Rating Film Berdasarkan Sinopsis Menggunakan Metode Ekstraksi Fitur Principle Component Analysis dan Naïve Bayes