ANALISIS SENTIMEN PADA ACARA TELEVISI MENGGUNAKAN IMPROVED K-NEAREST NEIGHBOR

Pertama-tama penulis mengucapkan terima kasih kepada Ibu Amalia, S.T., M.T selaku pembimbing pertama dan Bapak. Romi Fadillah Rahmat, B.Comp.Sc., M.Si selaku pembimbing kedua yang telah membimbing penulis dalam penelitian dan penulisan skripsi ini. Penulis juga mengucapkan terima kasih kepada Dr. Sawaluddin, M.IT sebagai dosen pembanding pertama dan Bapak. Indra Aulia, S.TI., M.com selaku dosen pembanding kedua yang telah memberikan masukan dan kritik bermanfaat dalam penulisan skripsi ini. Ucapan terima kasih juga kami sampaikan kepada seluruh dosen dan pegawai program sarjana teknologi informasi yang telah membantu dan membimbing penulis selama menjalani perkuliahan.

Penulis juga mengucapkan terima kasih kepada seluruh teman-teman angkatan 2012 yang telah bersama penulis melalui perkuliahan di program studi Sarjana Teknologi Informasi, khususnya teman-teman penulis yaitu Rosi, Tika, Oan dan Ipat. Selain itu penulis juga mengucapkan terima kasih kepada Hasna, Mayya, Misbah, Ain, Zahara, Ulfa dan Wudda yang telah berbagi ilmu dan memberikan motivasi. Tahap terakhir adalah proses pengklasifikasian sentimen ke dalam 3 kategori yaitu sentimen positif, negatif dan netral dengan menggunakan metode K-nearest Neighbor yang ditingkatkan.

Hasil yang diperoleh dari pengujian analisis sentimen dalam bahasa Indonesia menggunakan metode K-Nearest Neighbor yang ditingkatkan memberikan akurasi tertinggi dengan nilai k=10 sebesar 90%. Kemudian langkah terakhir adalah proses klasifikasi sentimen yang terbagi menjadi 3 kategori sentimen yaitu positif, negatif dan netral, proses ini dilakukan dengan menggunakan metode K-nearest Neighbor yang ditingkatkan.

PENDAHULUAN

Latar Belakang

Analisis sentimen akan mengelompokkan polaritas teks dalam sebuah kalimat atau dokumen untuk menentukan apakah pendapat yang diungkapkan dalam kalimat atau dokumen tersebut positif, negatif, atau netral (Pang & Lee, 2008). Penelitian mengenai analisis sentimen Twitter telah dilakukan oleh beberapa peneliti sebelumnya, seperti penelitian yang dilakukan oleh Stylios dkk. 2010) tentang opini masyarakat terhadap kebijakan pemerintah dengan perbandingan metode k-Nearest Neighbor, Naïve Bayes dan Support Vector Machine. Hasil penelitian ini menunjukkan bahwa kinerja metode Support Vector Machine lebih baik dibandingkan metode lainnya dengan akurasi rata-rata dalam melakukan penelitian analisis sentimen pada pemilu presiden Amerika Serikat tahun 2012 menggunakan metode Naïve Bayes dan fitur Unigram.

Penelitian yang dilakukan oleh Go dkk. 2009), yaitu penentuan kepuasan pelanggan terhadap suatu produk berbasis emoticon dengan membandingkan tiga metode pembelajaran yaitu Naïve Bayes, Support Vector machine dan Maximum Entropy dengan menggunakan fitur Unigram dan Bigram. Hasil penelitian menunjukkan adanya peningkatan akurasi dengan fitur Bigram untuk Naïve Bayes dan Maximum Entropy. Penelitian ini menggabungkan dua pendekatan yaitu Machine Learning dan Lexicon Based. Pendekatan yang digunakan adalah Naïve Bayes, Hidden Markov Model dan SentiWordNet.

Juga penelitian yang dilakukan oleh Yazdavar dkk (2016) analisis sentimen review obat menggunakan metode fuzzy. Berdasarkan latar belakang di atas, maka pada penelitian ini akan dilakukan penelitian yang bertajuk analisis sentimen pada acara televisi dengan menggunakan metode Enhanced k-Nearest Neighbor.

Rumusan Masalah

Variasi nilai k pada setiap kategori sebanding dengan besar kecilnya jumlah dokumen pelatihan pada kategori tersebut.

Tujuan Penelitian

Batasan Masalah

Metodologi Penelitian

Sistematika Penulisan

Pendahuluan

Landasan Teori

Analisis dan Perancangan Sistem

Implementasi dan Pengujian Sistem

Kesimpulan dan Saran

Analisis Sentimen
Algoritma Nazief & Adriani
Term Frequency-Inverse Document Frequency (TF-IDF)
Penelitian Terdahulu
Analisis Sistem

Kunci dari proses text mining adalah kombinasi informasi yang berhasil diekstraksi dari berbagai sumber (Hearst, 2003). Sedangkan menurut (Harlian, 2006) text mining diartikan sebagai data yang berupa teks yang biasanya sumber datanya diperoleh dari dokumen, guna menemukan kata-kata yang dapat mewakili isi dokumen yang nantinya dapat diolah. dianalisis untuk hubungan antar dokumen. Penambangan teks adalah bidang interdisipliner yang mengacu pada pengambilan informasi, penambangan data, pembelajaran mesin, statistik, dan linguistik komputasi.

Banyak paket perangkat lunak penambangan teks yang dipasarkan untuk aplikasi keamanan, khususnya analisis teks biasa seperti berita Internet. Salah satu contohnya adalah PubGene, yang menggabungkan penambangan teks biomedis dengan visualisasi jaringan sebagai layanan Internet. Berbagai perusahaan pencarian dan pengindeksan pada umumnya juga meneliti perangkat lunak text mining untuk meningkatkan kinerjanya.

Penambangan teks juga mulai digunakan dalam pemasaran, khususnya dalam analisis manajemen hubungan pelanggan, yang menggunakan model analisis prediktif untuk pengurangan pelanggan. Masalah text mining penting bagi penerbit yang memiliki database besar untuk mengambil informasi yang memerlukan pengindeksan untuk pencarian. Pada penelitian ini fitur yang digunakan untuk parsing teks adalah unigram yaitu token yang hanya terdiri dari satu kata.

Langkah-langkah yang digunakan algoritma Nazief dan Adriani adalah sebagai berikut: (Nazief & Adriani, 1996). Metode TF-IDF merupakan metode perhitungan bobot kata yang digunakan dalam pengambilan informasi. Inverse document frekuensi (IDF) merupakan pembobotan kata yang didasarkan pada jumlah dokumen yang mengandung kata tertentu.

Hasil dari penelitian ini menunjukkan bahwa kinerja metode support vector machine lebih baik dibandingkan metode lainnya dengan rata-rata akurasi sebesar 86%, sedangkan untuk k-nearest neighbours sebesar 84% dan Naive Bayes sama dengan penelitian analisis sentimen. pada pemilihan presiden Amerika tahun 2012 menggunakan metode tersebut. Naive Bayes dan Unigram berfungsi untuk menentukan sentimen positif, negatif dan netral. Hasil penelitian menunjukkan bahwa metode yang digunakan memiliki rata-rata akurasi sebesar 59%. Analisis data yang digunakan dan analisis metode yang digunakan pada setiap langkah pengolahan data akan dibahas pada tahap analisis. Data yang digunakan dalam penelitian ini ada dua jenis yaitu data latih dan data uji.

Kata-kata yang dihapus adalah hastag (#), nama pengguna (@namapengguna), url (http://situs.com), ikon emosi, dan alamat email (nama@ situs.com). Kamus Stop Words Tala banyak digunakan para peneliti untuk menghilangkan kata-kata yang tidak penting dalam bahasa Indonesia.

Tabel 2.1. Daftar Perfiks yang Meluluh (Nazief & Andriani, 1996)

Daftar Kata yang Tidak Termasuk Stopword Daftar Kata yang Tidak Termasuk Stopword

Perancangan Sistem
Implementasi Sistem
Pengujian Sistem
Kesimpulan
Saran

Menu data latih berfungsi untuk menampilkan data latih yang telah direview dan disimpan dalam database. Menu data uji berfungsi untuk menampilkan data uji yang dirayapi yang tersimpan di database. Tombol “Global TV” berfungsi untuk mengambil data pelatihan Global TV yang telah direview dari database.

Halaman ini berfungsi untuk menampilkan data uji yang telah direview dari tweet mention yang ditujukan kepada masing-masing penyiar. Tombol “Global TV” berfungsi untuk mengambil data pengujian Global TV yang telah di-crawl dari database. Perancangan halaman ini berfungsi untuk menampilkan penyajian kualitas acara berdasarkan feeling yang diperoleh pada masing-masing stasiun televisi.

Menu visualisasi berfungsi untuk menampilkan presentasi kualitas acara pada setiap stasiun televisi dalam bentuk grafik. Halaman ini berfungsi untuk menampilkan keakuratan yang dicapai sistem dengan menggunakan metode k-nearest neighbour yang ditingkatkan.