BAB I PENDAHULUAN 1.1 Latar Belakang

(1)

1

BAB I

PENDAHULUAN

1.1 Latar Belakang

Perkembangan teknologi internet bagi organisasi penyedia berita mempunyai dampak positif, yaitu munculnya situs-situs microbloging yang dimanfaatkan secara optimal pada kegiatan jurnalisme.Pemanfaatan Twitter oleh organisasi penyedia berita dalam penyampaian penggalan-penggalan global berita terbarunya melalui media jejaring sosial sepertiTwitter, dirasakan mampu menyebarkan informasi secara cepat kepada khalayak umum dibandingkan melalui media cetak dan website standar yang telah dimilikinya bahkan media elektronik seperti televisi. Keuntungan lain pemanfaatan Twitter bagi organisasi penyedia berita, adalah semakin banyak follower pada akun Twitter yang dimilikinya, maka organisasi ini diyakini akan memainkan peran sentral dalam menyebarkan informasi.

Karakteristik utama Twitter sebagai situs microbloging dapat diketahui pada jumlah huruf yang terbatas maksimal 140 karakter pada setiap konten status, mengindikasikan frekuensi penambahan konten pada situs ini tinggi karena mampu dilakukan dalam hitungan detik. Keterbatasan jumlah karakter yang ada, mampu disiasati oleh organisasi penyedia berita dalam menyebarkan informasi terbarunya ke khalayak umum dengan cara memilih kata-kata global terbaiknya sebagai penggalan berita terbaru, bahkan konten berisi tambahan link penunjuk halaman web pemuat berita secara lengkap.

Banyaknya jumlah tweet perhari pada akun Twitter milik organisasi penyedia berita, dapat menambah panjang halaman web. Salah satu pemecahan permasalahan ini adalah dengan cara melakukan pengelompokkan terhadap konten tweet yang ada. Kedinamisan konten tweet berita yang disebarkan di Twitter dikaitkan dengan proses pengelompokkan, maka mengharuskan penggunaan sistem pengelompokkan yang tepat, yaitu pengklasteran (Clustering).

(2)

2

Berdasarkan penelitian yang dilakukan oleh Zamir dan Etzioni (1998), algoritma yang digunakan untuk melakukan pengklastran dokumenweb kali pertama adalah Suffix

Tree Clustering (STC),algoritma klasterisasi ini memiliki waktu linear dalam

mengelompokkan dokumen hasil pencarian ke dalam bentuk group-group atau klaster berdasarkan kata atau frase yang terdapat di dalam dokumen yang ada. Kemudian Osiński dan Weiss (2004), mengembangkan Open Source Framework dengan nama

Carrot2. Kesuksesan dan popularitas aplikasi Carrot2 adalah mengorganisir hasil dari pencaraian di internet agar lebih mudah dalam menjelajah dalam bentuk pengelompokkan secara tematik hasil pencarian pada saat menggunakan browser internet, yang dikenal dengan proses klasterisasi. Algoritma yang digunakan dalam proses pengelompokkan ini, diantaranya adalah menggunakan algoritma Suffix Tree

Clustering. Selanjutnya, penelitian yang telah dilakukan oleh Arifin dkk. (2008),

dengan menggunakan Algoritma Suffix Tree Clustering dalam pengelompokkan berita dalam Bahasa Indonesia, memiliki tingkat precision yang sangat tinggi, yaitu 80%. Hal ini dikarenakan dalam Algoritma ini, menggunkaan phrase sebagai dasar pembentukan

cluster.

Tetapi, kinerja algoritma STC yang dikembangkan oleh Carrot2 masih memiliki kekurangan. Hasil proses pengklasteran dengan algoritma ini, sering dijumpai hasil pengklasteran dengan dokumen anggota klaster other topics dalam jumlah banyak dibandingkan dengan klaster yang ada. Dengan memperhatikan kata-kata yang membentuk dokumen teks anggota klaster Other Topics, terdapat kemiripan dengan kata-kata teks pada klaster-klaster yang ada.Sehingga memungkinkan dokumen teks anggota klaster Other Topics untuk dipindahkan ke salah satu dari klaster-klaster yang ada berdasarkan kemiripan yang dimiliki oleh dokumen teks tersebut.

Mengacu pada konsep yang dibahas oleh Liao (2002), untuk mengatasi permasalahan ini perlu adanya proses klasifikasi dokumen teks Twitter, yang berada di klaster Other Topics. Hal utama yang dilakukan adalah menghitung kemiripan dokumen anggota klaster Other Topics dengan dokumen anggota klaster yang ada, sehingga dokumen tersebut dapat diklasifikasikan ke dalam klaster tertentu. Perhitungan kemiripan antar dokumen dengan fungsi cosine similarity berdasarkan frekuensi term dan frekuensi dokumen yang ada, sesuai dengan konsep algoritma Vector Space

(3)

3

Model(VSM). Hasil dari perhitungan ini, kemudian digunakan oleh metode Nearest Neighbor untuk menentukan klaster dengan jumlah anggota terbanyak yang memiliki

kemiripan. Klaster tersebut merupakan klaster baru bagi dokumen teks anggota Other

Topics yang akan dipindahkan. Dengan demikian anggota klaster Other Topics akan

berkurang bahkan habis sehingga klaster ini pun dapat dihilangkan.

1.2 Perumusan Masalah

Berdasarkan pada uraian latar belakang, maka rumusan masalah pada penelitian ini adalah bagaimana memindahkan dokumen teks anggota klaster Other Topics yang terbentuk oleh algoritma Suffix Tree Clustering (STC) dengan memperhatikan kemiripan dokumen yang ada, menggunakan metode Nearest Neighbor (NN).

1.3 Tujuan Penelitian

Tujuan dari penelitian ini adalah

1. Mengelompokkan teks berita yang terdapat pada Twitter.

2. Melakukan proses stemming pada teks Twitter berita berbahasa Indonesia

dengan menggunakan algoritma Porter Stemmer.

3. Melakukan pengklasteran konten tweet berita dengan menggunakan algoritma Suffix Tree Clustering (STC)

4. Melakukan pengklasifikasian konten tweet berita yang berada pada klaster Other Topics ke dalam klaster yang terbentuk oleh algoritma STC pada Carrot2 framework, dengan menggunakan metode Nearest Neigbor (NN).

1.4 Batasan Masalah

Batasan masalah dalam penelitian ini, antara lain:

1. Dokumen teks berasal dari kumpulan tweet informasi berita yang terdapat pada akun Twitter dalam format data Java Script Object Notation (JSON)

2. Pengambilan teks tweet informasi berita pada Twitter dengan menggunakan

pustaka LinqToTwitter

3. Proses clustering dengan menggunakan metode Suffix Tree Clustering (STC) dengan memanfaatkan pustaka milik Carrot2

(4)

4

4. Proses klasifikasi konten tweet berita yang berada pada klaster Other Topics ke dalam klaster yang terbentuk oleh algoritma STC, dengan menggunakan metode

Nearest Neighbor (NN)

1.5 Manfaat Penelitian

Manfaat dari penelitian ini adalah

1. Pengelompokkan teks tweet pada Twitter sebagai media penyebar berita, untuk memudahkan pembaca dalam membaca konten teks tweet berita yang saling berkaitan secara tematik.

2. Penggunaan metode Nearest Neighbor pada proses klasifikasi anggota klaster

Other Topics hasil algoritma STC, berdasarkan pada kemiripan dokumen.

Sehingga dapat megoptimalkan jumlah anggota klaster yang ada.

1.6 Metode Penelitian

Metode yang digunakan pada penelitian ini meliputi: 1. Objek penelitian

Pengelompokkan teks secara tematik pada status tweet atau retweet berita pada

twitter yang didapat dari akun atau dengan kata kunci tertentu, menggunakan

algoritma suffix tree clustering (STC) dalam proses klasterisasi, sedangkan klasifikasi anggota klaster other topics hasil dari algoritma STC agar terklasifikasi ke klaster lainnya menggunakan algoritma Nearest Neighbor. 2. Data yang diperlukan

a. Data primer

Praproses mendapatkan inputan data berupa teks yang berasal dari teks tweet dan retweet penggalan berita pada status di Twitter. Proses pengambilan data ini menggunakan pustaka LinqtoTwitter. Data status ini berisi konten teks, waktu penebitan teks, screen name dan image profile pengguna.

b. Data sekunder

Algoritma Suffix Tree Clustering memproses masukan teks tweet dari

Twitter dan menghasilkan nama-nama klaster beserta nama-nama dokumen

(5)

5

metode Nearest Neighbor anggota klaster ini akan diubah ke klaster yang ada.

3. Teknik pengumpulan data a. Observasi

Penelitian ini menitikberatkan pada proses pengubahan status keanggotaan anggota Other Topics yang dihasilkan oleh algoritma Suffix Tree Clustering menggunakan metode Nearest Neighbor. Dokumen teks berita ini berasal dari teks tweet pada Twitter.

b. Studi Pustaka

Mempelajari hasil penelitian sebelumnya yang melibatkan algoritma Suffix

Tree Clustering dan Nearest Neighbor dalam pengelompokkan teks.

c. Metode pengembangan sistem

1) Pengambilan dokumen teks tweet atau retweet menggunakan pustaka

LinqtoTwitter untuk mendapatkan teks, image profile url, dan waktu

serta user screen name.

2) Pra-proses, meliputi penghapusan stopword, tokenizing dan stemming pada Bahasa Indonesia

3) Pembentukan klaster menggunakan pustaka Carrot2 dengan algortima

Suffix Tree Clustering (STC).

4) Pengklasifikasian anggota klaster Other Topics hasil dari proses algoritma STC, menggunakan metode Nearest Neighbor (NN)

5) Proses perhitungan kemiripan antar dokumen teks, menggunakan fungsi

cosine similarity

6) Visualisasi hasil pengklasteran dan klasifikasi, ditampilkan dalam aplikasi bebasis web dan konsul (console)

1.7 Sistematika Penulisan BAB I PENDAHULUAN

Paparan mengenai hal yang menjadi motivasi utama dalam melakukan penelitian pada Algoritma Suffix Tree Clustering (STC) dan Nearest

(6)

6

pada dokumen teks hasil proses dari algoritma Suffix Tree Clustering

(STC). Ruang lingkup penelitian ini, dibatasi pada pengolahan data teks

berita yang diambil dari Twitter berdasarkan pada nama akun atau kata kunci dalam pencarian teks tweet maupun retweet.

BAB II TINJAUAN PUSTAKA

Tinjauan pustaka membahas keterkaitan penelitian-penelitian yang berhubungan dengan proses pengelompokkan hasil pencarian dokumen dan konstribusi yang ada dalam peningkatan kinerja algoritma pengelompokkan dokumen teks. Tinjauan pustaka ini memuat uraian sistematis tentang informasi hasil penelitian yang berkaitan dengan algoritma pengelompokkan dokumen teks yang disajikan dalam pustaka dan menghubungkannya dengan masalah penelitian yang sedang diteliti, yaitu proses pengklasteran pada dokumen teks dengan algoritma Suffix

Tree Clustering (STC) dan pengklasifikasian teks dengan metode Nearest Neighbor.

BAB III LANDASAN TEORI

Memuat teori dasar yang diperlukan untuk pembahasan pada tahap analisis, perancangan, implementasi, dan pengujian sistem. Teori dasar yang ada meliputi; teori tentang praproses dokumen teks Bahasa Indonesia, metode pengklasteran dengan algoritma Suffix Tree Clustering

(STC) dan metode klasifikasi dengan menggunakan algoritma Nearest Neighbor.

BAB IV ANALISIS DAN RANCANGAN SISTEM

Memaparkan data, alat, kebutuhan sistem, deskripsi, ruang lingkup, pemodelan proses dan data, arsitektur sistem, alur kerja sistem, perancangan antar muka sistem, perancangan algoritma pada modul-modul, dan perancangan basisdata.

(7)

7 BAB V IMPLEMENTASI

Memuat implementasi arsitektur sistem dan modul-modul, algoritma

Suffix Tree Clustering (STC) dan algoritma Nearest Neighbor.

BAB VI HASIL PENELITIAN DAN PEMBAHASAN

Memberikan informasi tentang hasil pengolahan dokumen teks berita pada Twitter. Proses pengolahan dokumen teks meliputi praposes yang terdiri dari proses penghapusan stopword dan stoplist serta proses

stemming pada Bahasa Indonesia. Proses pengklasteran dokumen teks

dengan menggunakan algoritma Suffix Tree Clustering dan proses klasifikasi dengan menggunakan algoritma Nearest Neighbor. Sedangkan pengujian hasil klasifikasi dilakukan dengan cara mencocokkan hasil klasifikasi yang dihasilkan oleh sistem dengan hasil klasifikasi yang dilakukan secara manual.

BAB VII KESIMPULAN DAN SARAN

Memberikan kesimpulan penelitian yang dilakukan oleh peneliti dan memberikan saran untuk mendukung keberlanjutan penelitian di bidang pengelompokkan dokumen teks, yang terdiri dari proses pengklasteran dan klasifikasi hasil pencarian.