• Tidak ada hasil yang ditemukan

Deteksi Speech Hate di Twitter Menggunakan Algoritma BERT

N/A
N/A
Alah Siahboy

Academic year: 2024

Membagikan "Deteksi Speech Hate di Twitter Menggunakan Algoritma BERT"

Copied!
9
0
0

Teks penuh

(1)

BAB II

TINJAUAN PUSTAKA

2.1 Penelitian Terkait

Perlu adanya subjek penelitian terdahulu yang relevan sebagai paparan untuk mendukung kajian yang diteliti. Berikut beberapa penelitian yang mempunyai relevansi dengan penelitian ini, yaitu penelitian yang berkaitan dengan produk boikot dan Algoritma BERT, diantaranya adalah terdapat pada Tabel 2.1 berikut :

Tabel 2.1 Penelitian Terkait

No : 1

Authors : Adine Nayla, Casi Setianingsih & Burhanuddin Dirgantoro

Judul Penelitian : Deteksi Hate Speech Pada Twitter Menggunakan Algoritma BERT

Tahun Penerbitan : 2023

Ringkasan Penelitian : Pada penelitian ini, pengujian dilakukan dengan cara pengguna akan melakukan input kalimat pada website hate speech, lalu website akan melakukan preprocessing dan menganalisa kalimat tersebut menggunakan Algoritma BERT untuk mengklasifikasikan apakah kalimat tersebut termasuk hate speech atau tidak. Dari hasil pengujian diperoleh bahwa pendeteksian hate speech pada akun pengguna Twitter menggunakan Algoritma BERT mendapatkan akurasi sebesar 78.69%, presisi sebesar 78.90%, recall sebesar 78.69%, dan F1 score sebesar 78.77% terhadap pengklasifikasian golongan hate speech.

No : 2

Authors : Ade Tiara Susilawati, Nur Anjeni Lestari &

Puput Alpria Nina

Judul Penelitian : Analisis Sentimen Publik Pada Twitter Terhadap

(2)

Boikot Produk Israel Menggunakan Metode Naïve Bayes

Tahun Penerbitan : 2024

Ringkasan Penelitian : Penelitian ini menggunakan Orange dan klasifikasi Naive Bayes untuk menganalisis lebih dari 300 dataset tweet yang diambil melalui proses scraping. Dengan tujuan memahami nuansa, tren, dan variasi sentimen di kalangan pengguna Twitter terkait isu boikot produk tersebut. Hasilnya menunjukkan bahwa mayoritas masyarakat cenderung mendukung boikot produk Israel, dengan tingkat akurasi klasifikasi Naive Bayes mencapai 95%, Precission 96%, Recall 95%, dan F1 Score 95%.

No : 3

Authors : Haiqal Ramanizar Al Fajri, Roy Binsar Sinaga, Hasan Mubarok, Albet Dwi Pangestu & Desta Sandya Prasvita

Judul Penelitian : Analisis Sentimen Pengguna Twitter terhadap Konflik antara Palestina dan Israel Menggunakan Metode Naïve Bayesian Classification dan Support Vector Machine

Tahun Penerbitan : 2021

Ringkasan Penelitian : Pada penelitian ini yaitu berupa data tweet pengguna yang memuat #israel dan #palestina.

Dimana setelah dilakukan preprocessing, pembobotan, dan resampling terkumpul 508 data tweet dengan 453 data training dan 55 data testing. Metode klasifikasi yang digunakan dalam penelitian ini yaitu metode Naïve Bayes dan Support Vector Machine. Setelah diklasifikasi, dilakukan evaluasi terhadap dua model klasifikasi tadi. Hasil penelitian menunjukkan bahwa penggunaan metode Naïve Bayes

(3)

menghasilkan akurasi, precision, dan recall masing-masing sebesar 74%, 74%, 56%

sedangkan dari metode Support Vector Machine didapatkan akurasi, precision, dan recall sebesar 80%, 79%, 72%.

Tabel 2.1 Penelitian terkait

Penelitian pertama mampu menghasilkan hasil yang memuaskan dalam mendeteksi hate speech kedalam website hate speech terhadap pengklasifikasian golongan hate speech. Pada penelitian kedua masyarakat menunjukkan respons yang sangat positif dimana masyarakat menunjukkan dukungannya terhadap pemboikotan produk Israel, Sementara penelitian ketiga menunjukkan perbandingan antara metode klasifikasi Naïve Bayes dan Support Vector Machine dalam konteks konflik Israel-Palestina, dengan SVM memiliki kinerja yang lebih baik dalam mengklasifikasikan tweet dan mendapatkan pemahaman yang lebih baik tentang opini publik.

Penelitian ini fokus pada analisis opini publik terhadap produk yang mengalami boikot di akun Official platform Media Sosial Instagram, sementara penelitian sebelumnya lebih berfokus pada deteksi hate speech, boikot produk di Indonesia, dan isu-isu politik sosial yang berasal dari plaform Media Sosial Twitter.

Penelitian ini menggunakan komentar Instagram dari berbagai toko makanan cepat saji terkenal, sedangkan penelitian sebelumnya menggunakan data dari tweet Twitter yang memfokuskan pada topik-topik yang berbeda.

2.2 Landasan Teori

Dalam Bab 2, landasan teori mencakup berbagai konsep dan metode yang relevan dengan penelitian ini. Data Mining dan Text Mining digunakan untuk mengekstraksi informasi dari data komentar Instagram terkait boikot produk.

Analisis Sentimen membantu dalam memahami sikap dan opini publik terhadap produk yang mengalami boikot. Media Sosial Instagram menjadi sumber utama data untuk penelitian ini. Fenomena Boikot Produk memperkenalkan konteks

(4)

penting dalam memahami perilaku dan respons terhadap merek produk. Proses Pre-processing diperlukan untuk membersihkan dan menormalkan data sebelum dilakukan analisis lebih lanjut. Algoritma BERT digunakan untuk menganalisis data teks dengan memperhitungkan konteks kalimat secara menyeluruh.

2.2.1 Data Mining

Data mining adalah proses mengekstrak informasi yang berguna dari data dalam jumlah besar. Data mining adalah proses pengumpulan dan pengolahan data yang bertujuan untuk mengekstrak informasi penting pada data. Proses pengumpulan dan ekstraksi informasi tersebut dapat dilakukan menggunakan perangkat lunak dengan bantuan perhitungan statistika, matematika, ataupun teknologi Artificial Intelligence (AI). Data mining sering disebut juga Knowledge Discovery in Database (KDD) [7].

Data mining adalah proses pengumpulan dan pengolahan data yang bertujuan untuk mengekstrak informasi penting pada data. Data mining memiliki tiga tujuan yaitu sebagai sarana untuk menjelaskan atau explanatory, untuk konfirmasi atau confirmatory, dan untuk eksplorasi atau exploratory. Ia juga memiliki beberapa metode seperti Association, Classification, Regression, dan Clustering [7].

2.2.2 Text Mining

Text mining merupakan ilmu yanng bertujuan untuk memproses teks agar menjadi informasi, menambang suatu data yang berupa teks yang bersumber dari data tersebut. Data yang biasanya diperoleh dari dokumen dan digunakan untuk mencari kata-kata yang dapat mewakili isi dari dokumen tersebut. [8]. Dengan menggunakan text mining, informasi yang berharga dapat ditemukan, dianalisis, dan dimanfaatkan untuk pengambilan keputusan.

Proses text mining sendiri mirip dengan proses data mining yang telah diketahui, namun fokusnya adalah pada analisis teks. Text mining sebagai ilmu pengetahuan cabang dari data mining, dipercaya memiliki nilai komersial yang jau lebih tinggi dibandingkan data mining itu sendiri, karena 80% pada setiap perusahaan terdapat dokumen informasi dalam bentuk teks [9].

Text mining sering digunakan untuk menganalisis sentimen atau opini yang terkandung dalam teks, misalnya dalam ulasan produk atau layanan. Dengan

(5)

menganalisis teks dari berbagai sumber, perusahaan dapat memahami perasaan pelanggan terhadap produk atau merek mereka. Text mining memiliki tujuan untuk menganalisis pendapat, sentimen, evaluasi, sikap, penilaian, dan emosi seseorang.

2.2.3 Analisis Sentimen

Analisis sentimen merupakan suatu metode dalam pengolahan kata yang bertujuan untuk menganalisis opini atau penilaian publik mengenai suatu peristiwa, aktivitas, kegiatan, organisasi, dan hal lainnya yang diketahui masyarakat secara umum [10]. Hal ini sering dilakukan dalam konteks ulasan produk, layanan, atau bahkan dalam media sosial.

Analisis sentimen merupakan salah satu cabang ilmu dari text mining, natural language program, dan artificial intelegence. Proses yang dilakukan oleh analisis sentimen untuk memahami, mengekstrak, dan mengolah data teks secara otomatis sehingga menjadi suatu informasi yang bermanfaat. Selain itu analisis sentimen merupakan bidang ilmu yang menganalisis pendapat, sikap, evaluasi, dan penilaian terhadap suatu peristiwa, topik, organisasi, maupun perseorangan [11].

Analisis sentimen berfokus dalam mengklasifikasi atau mengelompokan suatu opini publik pada sebuah kalimat atau dokumen sehingga diketahui opini tersebut apakah masuk kedalam opini yang bersifat negatif, positif, atau netral [10]. Tujuannya adalah untuk memberikan pemahaman yang lebih dalam tentang persepsi atau pandangan masyarakat terhadap suatu topik tertentu.

2.2.4 Media Sosial Instagram

Instagram adalah platform media sosial yang populer, khususnya untuk berbagi foto dan video. Sama seperti media sosial lainnya, Instagram tentu memiliki fitur komentar, Fitur ini memungkinkan pengguna untuk memberikan tanggapan atau opini terhadap konten yang dibagikan oleh pengguna lain. Dengan menganalisis komentar-komentar yang diberikan oleh pengguna, baik pada postingan individu maupun dalam diskusi yang lebih luas, kita dapat memahami sentimen atau perasaan yang terkandung dalam teks. Misalnya, komentar yang positif menunjukkan respon yang baik terhadap suatu topik, produk, atau layanan, sementara komentar yang negatif menunjukkan ketidakpuasan atau kekecewaan.

(6)

Dengan proses analisis sentimen di Instagram bertujuan untuk memahami pandangan, persepsi, atau reaksi masyarakat terhadap suatu topik, produk, layanan, atau suatu peristiwa. Hal ini dapat membantu dalam mengukur tingkat kepuasan pelanggan, mengidentifikasi isu-isu yang mungkin mempengaruhi reputasi merek, mengetahui popularitas produk, serta membimbing pengambilan keputusan strategis dalam pemasaran, layanan pelanggan, atau pengembangan produk.

2.2.5 Boikot Produk

Boikot berasal dari bahasa Inggris “boycott” yang terinspirasi dari seorang agen tanah bernama Captain Charles Cunningham Boycott. Secara umum, boikot merupakan tindakan tidak memakai, membeli, atau bekerjasama dengan seseorang, organisasi, atau suatu negara sebagai bentuk protes atau pemaksaan.

Salah satu alat melawan penindasan dan kekuasaan adalah memboikot bisnis produk atau jasa [12]. Boikot produk merupakan bentuk protes yang dilakukan oleh konsumen atau masyarakat terhadap suatu produk atau perusahaan. Boikot adalah tindakan untuk tidak menggunakan, membeli, atau berurusan dengan seseorang, organisasi atau suatu negara sebagai wujud protes atau sebagai suatu bentuk pemaksaan [2].

Pada dasarnya sebuah pemboikotan akan dilakukan sebagai bentuk protes atau wujud dari ketidakpuasan dari satu pihak kepada pihak lain yang dianggap melakukan tindakan yang tidak seharusya, dimana hal ini dapat ditunjukkan dalam tindakan penolakan [13]. Boikot dapat muncul sebagai respons terhadap tindakan atau kebijakan yang dianggap merugikan, tidak etis, atau tidak sesuai dengan nilai-nilai yang diyakini oleh masyarakat.

Boikot dilakukan dengan harapan dapat memengaruhi kebijkan negara sasaran dengan cara menekan perekonomian mereka melalui penurunan ekspor dan investasi salah satu contoh terbaru adalah boikot produk Israel yang dilakukan secara global sebagai bentuk dukungan kepada Palestina [13].

Gerakan boikot umumnya menargetkan negara-negara yang melakukan penyimpangan. Israel merupakan negara yang melakukan penyimpangan berupa aksi agresi militer kepada Palestina. Hal tersebut menimbulkan upaya dukungan kepada Palestina dengan cara aksi boikot produk Israel [12]. Pemboikotan berasal

(7)

dari gerakan social dan tokoh masyarakat yang ingin mengekspresikan ketidaksetujuan mereka terhadap tindakan Israel dalam konflik tersebut.

Boikot produk Amerika ini dilakukan karena adanya indikasi, bahwa sebagian pendapatan nasional Amerika digunakan untuk membantu Israel baik secara langsung maupun tidak langsung. Secara langsung berupa bantuan dana yang digunakan untuk membantu pembangunan insfrastruktur dan pengembangan senjata guna mempertegas eksistensi Israel ditanah Palestina. Bantuan yang tidak diberikan langsung adalah dukungan Amerika terhadap kebijakan-kebijakan Israel terhadap Palestina. Oleh karena itu, boikot produk Amerika sebagai dukungan moral atas perjuangan rakyat Palestina sekaligus protes atas tindakan Amerika yang mendukung Israel menyerang Palestina [3].

2.2.6 Preprocessing

Preprocessing merupakan sebuah tahapan pembersihan data atau menyiapkan dataset agar dapat digunakan untuk melakukan proses training data.

Preprocessing ini memudahkan data yang dimasukan dikenali oleh komputer [14]. Preprocessing secara umum bertujuan untuk mengubah informasi dari tiap – tiap sumber data ke dalam bentuk atau format yang baku sebelum menerapkan berbagai metode – metode pengambilan data terhadap dokumen yang akan diproses [8]. Preprocessing ini dibagi menjadi beberapa bagian, diantaranya Case Folding, Cleaning, Stemming, Stopword, dan Tokenizing. Dalam tahap ini ada beberapa proses diantaranya :

Gambar 2.1 Preprocessing 2.2.6.1 Case Folding

Case Folding adalah tahap untuk konversi text menjadi suatu bentuk yang standar. Pada tahap ini biasanya dipilih lowercase untuk membuat huruf kapital

(8)

menjadi lowercase [15]. Proses ini penting dalam pengolahan teks karena memastikan konsistensi dalam representasi huruf dan mempermudah dalam proses analisis, Contoh proses Case Folding sebagai berikut :

Gambar 2.2 Case Folding 2.2.6.2 Cleaning

Cleaning adalah proses menghilangkan beberapa komponen seperti tanda baca, username, angka, hastag, link dan lainnya yang kurang penting. Yang bertujuan untuk mengurangi noise pada dataset, sehingga memudahkan analisis dan pemrosesan selanjutnya.

2.2.6.3 Stemming

Stemming yaitu sebuah proses untuk mendapatkan kata dasar dengan menghilangkan imbuhan pada kata [9]. Stemming merupakan salah satu teknik yang digunakan dalam pengolahan bahasa alami (NLP) untuk meningkatkan efisiensi dalam pencarian informasi, analisis teks, dan pemrosesan bahasa lainnya.

Proses ini dilakukan untuk mengembalikan arti konteks pada kalimat kepada inti dari konteks aslinya [1].

2.2.6.4 Stopword

Menghapus kata yang tidak penting ini merupakan sebuah istilah yang dikenal dengan stopword. Stopword ini adalah kata-kata umum yang tidak memiliki arti penting akan dihilangkan atau dihapus agar mengurangi komplek dan memfokuskan pada kata yang lebih informatif atau berarti [14]. Kata-kata yang dihilangkan yaitu: - penghubung antar kata, seperti: dan, atau, serta - preposisi, seperti: di, ke, pada - kata-kata yang tidak diinginkan [16].

2.2.6.5 Tokenizing

Proses ini dilakukan untuk memisahkan setiap kata pada kalimat sehingga tidak lagi membentuk suatu kalimat [1]. Dalam konteks pengolahan bahasa alami,

(9)

pemisahan kata ini memungkinkan komputer untuk lebih mudah memahami struktur dan makna dari teks yang diberikan. Tujuan tahapan ini adalah memisahkan setiap kata, dimana biasanya setiap kata dipisahkan oleh spasi [10].

2.2.6.5 Algoritma BERT

Bidirectional Encoder Representations from Transformers atau biasa disebut BERT adalah sebuah algoritma deep learning keluaran Google yang masih berkaitan dengan NLP (Natural Language Processing). Algoritma ini adalah invasi dari model Transformer dimana model tersebut memproses sebuah kata pada kalimat berdasarkan ada atau tidaknya kaitan antara kata tersebut dengan kalimat secara keseluruhan. Cara kerja algoritma BERT ini tidak seperti algoritma pemrosesan bahasa lainnya. BERT akan memproses sebuah kata dengan mempelajari konteks daripada kata tersebut berdasarkan kata-kata yang ada.

Algoritma BERT memproses konteks penuh dengan cara melihat pola yang muncul pada sebelum atau sesudah kata [1].

BERT menghasilkan representasi untuk setiap kata dalam kalimat sebagai output dan dapat meningkatkan kinerja model pada tugas-tugas berurutan kompleks dalam NLP. Transformer diperkenalkan dalam paper “Attention Is All You Need” [6]. Paper tersebut mengusulkan pendekatan yang revolusioner dalam pemrosesan bahasa alami dengan mengenalkan arsitektur Transformer yang berbasis pada mekanisme perhatian (attention). Penggunaan BERT telah melahirkan kemajuan signifikan dalam berbagai aplikasi NLP, termasuk pemahaman bahasa, terjemahan mesin, dan penghasilan teks otomatis.

Keunggulan utama BERT terletak pada kemampuannya untuk memahami hubungan antar kata dalam suatu kalimat, menghasilkan representasi yang lebih kaya dan akurat dari teks. BERT adalah model representasi berbasis fine-tuning pertama yang mencapai kinerja canggih pada rangkaian besar tugas sentence- level, dan mengungguli banyak arsitektur task-specific [6].

Referensi

Dokumen terkait

Peneliti menggunakan algoritma deteksi kemacetan lalu lintas berdasarkan algoritma Monte Carlo untuk menghitung luas foreground dari citra biner. Hasil dari algoritma ini berupa

Dalam SE tersebut, penanganan tentang hate speech dianggap perlu dengan mempertimbangkan lima aspek berikut: Pertama, Persoalan mengenai ujaran kebencian (hate

Dalam studi literatur ini akan membahas tentang algoritma yang digunakan pada deteksi tepi dan perbedaan hasil citra dengan menggunakan enam buah metode pada

The Juridical Formulation of Hate Speech Cyber Crime and Its Law Enforcement Implementation Hadi Ismanto 711 Hate speech is defined as3 1 hate speech has the effect of degrading

Furthermore, based on the results of user validation, the hate speech content detection system developed has an accuracy of 77 percent, with 77 of the 100 tweets used for testing

Freedom of speech and hate speech from the perspective of maqāṣid al-sharī’ah Perspectives Characteristics Freedom of Speech Hate Speech Implication In line with the protection of

SE Polri tentang Hate Speech • Penghinaan, pencemaran nama baik, penistaan, perbuatan tidak menyenangkan, memprovokasi, menghasut, menyebarkan berita bohong adalah perbuatan yang

The selection of this Muslims as Terrorists: Hate speech against Muslims Hate speech acts against Muslims are highly diplomatic Socio-political rhetoric behind abusive titles for