Klasifikasi Kategori Rating Film Berdasarkan Sinopsis Menggunakan Metode Ekstraksi Fitur Principle Component Analysis dan Naïve Bayes
LAPORAN TUGAS AKHIR
Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Strata 1 Informatika Universitas Muhammadiyah Malang
NENENG APRIANTI 201610370311262
Data Science
PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK
UNIVERSITAS MUHAMMADIYAH MALANG
2021
1
KATA PENGANTAR
Puji syukur Alhamdulillah kehadirat Allah SWT atas segala limpahan rahmat serta hidayah-Nya sehingga penulis dapat menyelasaikan Tugas Akhir yang berjudul “ Klasifikasi Kategori Rating film Berdasarkan Sinopsis Menggunakan Metode Ekstarksi Fitur Principle Component Analysis dan Naïve Bayes “ ini dengan baik. Tugas Akhir disusun
guna memenuhi persyaratan dalam meraih gelar Strata-1 di Universitas Muhammadiyah Malang.
Penulis menyadari sepenuhnya bahwa penulisan Tugas Akhir ini masih terdapat banyak kekurangan, oleh sebab itu penulis ingin mengharapkan saran agar tulisan ini dapat tersusun dengan baik serta dapat memberi manfaat bagi siapapun yang membacanya.
Malang, 5 Februari 2021
Neneng Aprianti
DAFTAR ISI
LEMBAR PERSETUJUAN ... 1
LEMBAR PENGESAHAN ... 2
LEMBAR PERNYATAAN ... 3
KATA PENGANTAR ... 4
DAFTAR ISI ... 5
BAB I ... 6
PENDAHULUAN ... 6
1.1 Latar Belakang ... 6
1.2 Rumusan Masalah ... 8
1.3 Tujuan Penelitian ... 8
1.4 Batasan Masalah ... 8
BAB II ... 10
LANDASAN TEORI ... 10
2.1 Film ... 10
2.2 Klasifikasi Teks ... 10
2.3 Data Mining ... 10
2.4 Text Preprocessing ... 12
2.5 Pembobotan TF-IDF ... 13
2.6 Principal Component Analysis (PCA) ... 13
2.7 Naïve Bayes Classifier ... 14
2.8 Confusion Matrix ... 15
Tabel 2.1. Rumus confusion matrix ... 15
2.9 Sastrawi ... 15
2.10 Python ... 15
BAB III ... 17
METODE PENELITIAN ... 17
Gambar 3.1 Alur Penelitian ... 17
3.1 Pengumpulan Data ... 18
3.2 Preprocessing ... 18
Gambar 3.2 Tahap Preprocessing ... 18
1. Case Folding ... 18
Tabel 3.1 Contoh Case Folding ... 18
2. Filtering 19 Tabel 3.2 Contoh Filtering ... 19
3. Tokenizing ... 19
Tabel 3.3 Contoh Tokenizing ... 19
4. Stemming ... 19
Tabel 3.4 Contoh Stemming ... 19
3.3 Pembobotan TF-IDF ... 20
3.4 Principle Component Analysis (PCA) ... 20
3.4.1 Contoh Perhitungan manual PCA ... 21
Tabel 3.5 Covarian Matrix ... 21
3.5 Naïve Bayes Classifier ... 23
Tabel 3.6 Confusion Matrix ... 24
3.7 Skenario Pengujian ... 24
BAB IV ... 25
HASIL DAN PEMBAHASAN ... 25
4.1 Implementasi Algoritma ... 25
4.2 Pengumpulan Data ... 25
4.3 Preprocessing ... 25
4.3.1 Case Folding ... 25
Gambar 4.1 . Syntax Case Folding... 26
Gambar 4.2 Hasil Proses Case Folding ... 26
4.3.2 Filtering ... 26
Gambar 4.3 Source Code Filtering ... 26
Gambar 4.4 Hasil Proses Filtering ... 26
4.3.3 Tokenizing ... 26
Gambar 4.5 Source Code Tokenizing ... 26
Gambar 4.6 Hasil Proses Tokenizing ... 27
4.3.4 Stop words removal ... 27
4.7 daftar kata StopWords ... 27
Gambar 4.8 Source Code StopWords ... 27
Gambar 4.9 Hasil Proses StopWords ... 28
4.3.5 Stemming ... 28
Gambar 4.10 Source Code Stemming ... 28
Gambar 4.11 Hasil Proses Stemming ... 28
4.4 TF-IDF (Term Frequency-Inverse Document Frequency)... 28
Gambar 4.12 Syntax class TfidfVectorizer ... 29
Gambar 4.13 Hasil dari proses TF – IDF ... 29
4.5 Principle Component Analysis (PCA) ... 29
Gambar 4.14 Syntax Library PCA ... 29
Gambar 4.15 Syntax perhitungan Covarian Matrix Transpose ... 30
Gambar 4.16 Syntax eigen values dan eigen vector ... 30
Gambar 4.17 Syntax Feature Extraction ... 30
Gambar 4.18 Hasil dari feature extraction PCA ... 31
4.6 Klasifikasi Naïve Bayes ... 31
Gambar 4.19 Syntax untuk mengambil data dari pca ... 31
Gambar 4.20 Syntax pembagian data Naïve Bayes ... 31
Gambar 4.21 Syntax fungsi klasifikasi Naïve Bayes ... 31
Gambar 4.22 Syntax evaluasi confusion matrix ... 32
4.7 Pengujian... 32
4.7.1 Pengujian Varians Pada PCA ... 32
Tabel 4.1 Tabel Varians Fitur Hasil PCA ... 33
4.7.2 Klasifikasi Metode Naïve Bayes Menggunakan Feature Extraction PCA ... 33
Tabel 4.1 Confusion Matrix Skenario 1 ... 33
Tabel 4.2 Confusion Matrix Skenario 2 ... 34
Tabel 4.3 Confusion Matrix Skenario 3 ... 34
Tabel 4.4 Hasil Evaluasi Skenario 1-3 ... 35
4.7.3 Klasifikasi Metode Naïve Bayes Tanpa Menggunakan PCA ... 35
Tabel 4.5 Confusion Matrix skenario 4... 35
Tabel 4.6 Hasil klasifikasi dengan dan tanpa PCA ... 36
BAB V ... 37
KESIMPULAN DAN SARAN ... 37
DAFTAR GAMBAR
Gambar 4.1 Source Code Case Folding ... 30
Gambar 4.2 Hasil Proses Case Folding ... 30
Gambar 4.3 Source Code Filtering ... 30
Gambar 4.4 Hasil Proses Filtering ... 30
Gambar 4.5 Source Code Tokenizing ... 30
Gambar 4.6 Hasil Proses Tokenizing ... 31
Gambar 4.7 daftar kata StopWords ... 31
Gambar 4.8 Source Code StopWords ... 31
Gambar 4.9 Hasil Proses StopWords ... 32
Gambar 4.10 Source Code Stemming ... 32
Gambar 4.11 Hasil Proses Stemming ... 32
Gambar 4.12 Syntax class TfidfVectorizer ... 33
Gambar 4.13 Hasil dari proses TF – IDF ... 33
Gambar 4.14 Syntax Library PCASyntax Library PCA ... 33
Gambar 4.15 Syntax perhitungan Covarian Matrix Transpose ... 34
Gambar 4.16 Syntax eigen values dan eigen vector ... 34
Gambar 4.17 Syntax Feature Extraction ... 34
Gambar 4.18 Hasil dari feature extraction PCA ... 35
Gambar 4.19 Syntax untuk mengambil data dari pca ... 35
Gambar 4.20 Syntax pembagian data Naïve Bayes ... 35
Gambar 4.21 Syntax fungsi klasifikasi Naïve Bayes ... 35
Gambar 4.22 Syntax evaluasi confusion matrix ... 36
DAFTAR GAMBAR
Gambar 4.1 Source Code Case Folding ... 30
Gambar 4.2 Hasil Proses Case Folding ... 30
Gambar 4.3 Source Code Filtering ... 30
Gambar 4.4 Hasil Proses Filtering ... 30
Gambar 4.5 Source Code Tokenizing ... 30
Gambar 4.6 Hasil Proses Tokenizing ... 31
Gambar 4.7 daftar kata StopWords ... 31
Gambar 4.8 Source Code StopWords ... 31
Gambar 4.9 Hasil Proses StopWords ... 32
Gambar 4.10 Source Code Stemming ... 32
Gambar 4.11 Hasil Proses Stemming ... 32
Gambar 4.12 Syntax class TfidfVectorizer ... 33
Gambar 4.13 Hasil dari proses TF – IDF ... 33
Gambar 4.14 Syntax Library PCASyntax Library PCA ... 33
Gambar 4.15 Syntax perhitungan Covarian Matrix Transpose ... 34
Gambar 4.16 Syntax eigen values dan eigen vector ... 34
Gambar 4.17 Syntax Feature Extraction ... 34
Gambar 4.18 Hasil dari feature extraction PCA ... 35
Gambar 4.19 Syntax untuk mengambil data dari pca ... 35
Gambar 4.20 Syntax pembagian data Naïve Bayes ... 35
Gambar 4.21 Syntax fungsi klasifikasi Naïve Bayes ... 35
Gambar 4.22 Syntax evaluasi confusion matrix ... 36
DAFTAR TABEL
Table 2.1 Rumus confusion matrix ... 19
Table 3.2 Contoh Filtering ... 23
Table 3.3 Contoh Tokenizing ... 23
Table 3.4 Contoh Stemming ... 24
Table 3.5 Covarian Matrix ... 25
Table 3.6 Confusion Matrix ... 28
Table 4.17 Tabel Varians Fitur Hasil PCA ... 37
Table 4.18Confusion Matrix Skenario 1 ... 37
Table4.29Confusion Matrix Skenario 2 ... 38
Table4.310Confusion Matrix Skenario 3 ... 38
Table 4.411Hasil Evaluasi Skenario 1-3 ... 39
Table 4.512Confusion Matrix skenario 4 ... 39
Table 4.613Hasil klasifikasi dengan dan tanpa PCA ... 40