Hasil & Analisis Hasil - Analisis sentimen pada Twitter menggunakan pendekatan agglomerativ

Setelah melakukan implementasi maka selanjutnya menganalisa hasil terhadap pengelompokkan tweet. Analisa dilakukan terhadap seluruh data tweet, sehingga dengan demikian dapat diketahui kelompok emosi pada seluruh data tweet. Tahapan yang telah dilakukan mulai dari preprocessing yang terdiri dari tokenizing untuk memisahkan kalimat tweet menjadi tiap - tiap kata dan menghilangkan tanda baca, stopword untuk menghapus kata yang tidak memiliki arti, stemming untuk menghilangkan kata berimbuhan menjadi kata dasar lalu

mencocokkan kembali dengan kamus stopword. Tahap selanjutnya ialah proses pembobotan kata yaitu untuk menghitung frekuensi kemunculan kata pada tiap data tweet, sehingga kata yang lebih sering muncul pada suatu tweet dianggap lebih penting. Frekuensi kemunculan kata unik perlu dibatasi. Kemudian melakukan proses normalisasi data, pada penelitian ini menggunakan normalisasi min - max dan normalisasi z-score. Hal ini dilakukan agar dapat mengetahui normalisasi yang paling optimal. Setelah melakukan normalisasi data, kemudian masuk pada proses Agglomerative Hierarchical Clustering (AHC) dalam tiga metode(single linkage, complete linkage, average linkage). Masing – masing metode menggunakan euclidean distance dan cosine similarity untuk perhitungan jarak. Sejalan dengan proses AHC, setiap pengelompokkan diuji dengan Confusion Matrix, dimana data prediksi dibandingkan dengan data actual kemudian dikalikan dengan 100%.

Berikut langkah – langkah percobaan yang dilakukan :

1. Menentukan jumlah cluster=5. Sesuai dengan emosi yang telah ditentukan. 2. Data tweet=500

3. Menginputkan batas atas dan batas bawah yang pada akhirnya sangat menentukan tingkat akurasi

4. Memilih normalisasi (min – max atau z-score)

5. Memilih perhitungan jarak (euclidean distance atau cosine similarity) 6. Memilih metode AHC (single linkage, complete linkage, average linkage)

Sebelum masuk pada tahap normalisasi, frekuensi kemunculan kata perlu dibatasi. Frekuensi kemunculan kata dengan batas atas = 85 dan batas bawah = 2 menghasilkan pengelompokkan yang baik sehingga batas atas = 85 dan batas bawah = 2 digunakan untuk percobaan ini. Hasil dari percobaan dapat dilihat pada tabel dan gambar berikut :

Tabel 4. 1 Tabel Percobaan tanpa normalisasi dengan batas atas = 85 dan batas bawah =2

No Perhitungan Jarak AHC Akurasi

1. Euclidean Distance Average Linkage 34.4 2. Euclidean Distance Single Linkage 34.4 3. Euclidean Distance Complete Linkage 34.4 4. Cosine Similarity Average Linkage 21.4 5. Cosine Similarity Single Linkage 20.2 6. Cosine Similarity Complete Linkage 21.8

Gambar 4. 19 Grafik percobaan tanpa normalisasi

Tabel 4.1 menunjukkan hasil percobaan tanpa menggunakan normalisasi. Percobaan dilakukan dengan memasukkan batas atas = 85 dan batas bawah = 2, serta mengubah-ubah perhitungan jarak dan metode AHC. Batas atas dan batas bawah merupakan batas yang digunakan untuk membatasi total hasil term frequency yang terdapat pada kata unik. Batas atas = 85 berarti kata unik yang digunakan hanyalah kata yang mempunyai jumlah kemunculan kurang dari 85, maka sistem akan membatasi maksimal term frequency = 85. Batas bawah = 2

15 19 23 27 31 35 euclidean - average euclidean - single euclidean - complete cosine - average

cosine -single cosine - complete

Akur

asi

Perhitungan jarak - Metode AHC

Percobaan Tanpa Normalisasi dengan batas atas = 85 dan batas bawah = 2

berarti kata unik yang digunakan hanyalah kata yang mempunyai jumlah kemunculan lebih dari 2, maka sistem akan membatasi minimal term frequency = 2. Akurasi tertinggi ditandai dengan warna biru yaitu sebesar 34.4 % dengan menggunakan perhitungan jarak euclidean distance dan metode AHC average linkage, complete linkage, single linkage. Berikut dendrogram dan confusion matrix dari akurasi tertinggi :

a. Dendrogram

- Average linkage

Gambar 4. 20 Dendrogram data tanpa normalisasi average linkage

b. Confusion Matrix - Average linkage

Tabel 4. 2 Confusion matrix data tanpa normalisasi average linkage

Cluster tweet 1 2 3 4 5

1 100 0 0 0 0

2 100 0 0 0 0

3 100 0 0 0 0

5 0 0 10 18 72 Akurasi == + + + + x % = . %

2. Percobaan menggunakan normalisasi min – max

Tabel 4. 3 Tabel Percobaan normalisasi min - max dengan batas atas = 85 dan batas bawah =2

No Perhitungan Jarak AHC Akurasi

1. Euclidean Distance Average Linkage 20,2 2. Euclidean Distance Single Linkage 20,2 3. Euclidean Distance Complete Linkage 22,8 4. Cosine Similarity Average Linkage 21,2 5. Cosine Similarity Single Linkage 20,2 6. Cosine Similarity Complete Linkage 21,4

Gambar 4. 21 Grafik percobaan normalisasi min – max

Tabel 4.3 menunjukkan hasil percobaan menggunakan normalisasi min-max. Percobaan dilakukan dengan memasukkan batas atas = 85 dan batas bawah = 2, serta mengubah-ubah perhitungan jarak dan metode AHC. Batas atas dan batas bawah merupakan batas yang digunakan untuk membatasi total hasil term frequency yang terdapat pada kata unik. Batas atas = 85 berarti kata unik yang digunakan hanyalah kata yang mempunyai jumlah kemunculan kurang dari 85, maka sistem akan membatasi maksimal term frequency = 85. Batas bawah = 2 berarti kata unik yang digunakan hanyalah kata yang mempunyai jumlah kemunculan lebih dari 2, maka sistem akan membatasi minimal term frequency = 2. Akurasi tertinggi ditandai dengan warna biru yaitu sebesar 22,8 % dengan menggunakan perhitungan jarak euclidean distance dan metode AHC complete linkage. Berikut dendrogram dan confusion matrix dari akurasi tertinggi :

a. Dendrogram - Complete linkage 19 21 23 25 Euclidean - Average Euclidean - Single Euclidean - Complete Cosine - Average Cosine - Single Cosine - Complete Akur asi

Perhitungan Jarak - Metode AHC

Percobaan Normalisasi Min-Max dengan batas atas = 85 dan batas akhir = 2

Gambar 4. 22 Dendrogram data normalisasi min – max complete linkage

b. Confusion Matrix - Complete linkage

Tabel 4. 4 Confusion matrix data normalisasi min – max complete linkage Cluster tweet 1 2 3 4 5 1 100 0 0 0 0 2 100 0 0 0 0 3 100 0 0 0 0 4 100 0 0 0 0 5 41 8 3 34 14 Akurasi == + + + + x % = , %

Tabel 4. 5Tabel Percobaan normalisasi z-score dengan batas atas = 85 dan batas bawah =2

No Perhitungan Jarak AHC Akurasi

1. Euclidean Distance Average Linkage 34.4 2. Euclidean Distance Single Linkage 34.4 3. Euclidean Distance Complete Linkage 34.4 4. Cosine Similarity Average Linkage 81.6 5. Cosine Similarity Single Linkage 20.2 6. Cosine Similarity Complete Linkage 54

Gambar 4. 23 Grafik percobaan normalisasi z-score

Tabel 4.5 menunjukkan hasil percobaan menggunakan normalisasi z-score. Percobaan dilakukan dengan memasukkan batas atas = 85 dan batas bawah = 2, serta mengubah-ubah perhitungan jarak dan metode AHC. Batas atas dan batas bawah merupakan batas yang digunakan untuk membatasi total hasil term frequency yang terdapat pada kata unik. Batas atas = 85 berarti kata unik yang digunakan hanyalah kata yang mempunyai jumlah kemunculan kurang dari 85, maka sistem akan membatasi maksimal term frequency = 85. Batas bawah = 2 berarti kata unik yang digunakan hanyalah kata yang mempunyai jumlah kemunculan lebih dari 2, maka sistem akan membatasi minimal term frequency =

0 20 40 60 80 100 Euclidean - Average Euclidean - Single Euclidean - Complete Cosine - Average Cosine - Single Cosine - Complete Akur asi

Perhitungan Jarak - Metode AHC Percobaan Normalisasi ZScore dengan menggunakan

batas atas= 85 dan batas akhir = 2

2. Akurasi tertinggi ditandai dengan warna biru yaitu sebesar 81.6 % dengan menggunakan perhitungan jarak cosine similarity dan metode AHC average linkage. Berikut dendrogram dan confusion matrix dari akurasi tertinggi :

b. Dendrogram

- Average linkage

Gambar 4. 24 Dendrogram data normalisasi z-score average linkage

c. Confusion Matrix - Average linkage

Tabel 4. 6 Confusion matrix data normalisasi z-score average linkage Cluster tweet 1 2 3 4 5 1 81 19 0 0 0 2 0 100 0 0 0 3 0 24 76 0 0 4 0 0 30 51 19

5 0 0 0 0 100

Akurasi == + + + + x % = . %

Berikut grafik keseluruhan percobaan dengan menggunakan batas atas = 85 dan batas bawah = 2 :

Gambar 4. 25 Grafik percobaan menggunakan batas atas=85 dan batas bawah =2

Melalui Gambar 4.25 dapat disimpulkan bahwa pengelompokkan paling optimal berada pada percobaan menggunakan batas atas = 85 dan batas bawah = 2 dengan normalisasi z-score, perhitungan jarak cosine similarity dan metode AHC average linkage. Euclidean - Average Euclidean - Single Euclidean - Complete Cosine - Average Cosine - Single Cosine - Complete Tanpa Normalisasi 34,4 34,4 34,4 21,4 20,2 21,8 Normalisasi Z-Score 34,4 34,4 34,4 81,6 20,2 54

Normalisasi Min - Max 34,8 34,4 35,6 50,6 20,2 36,8 0 10 20 30 40 50 60 70 80 90 Akur asi

Perhitungan jarak & metode AHC Percobaan menggunakan batas atas = 85 dan batas bawah = 2

Dalam dokumen Analisis sentimen pada Twitter menggunakan pendekatan agglomerative Hierarchical Clustering (Halaman 100-110)