• Tidak ada hasil yang ditemukan

ANALISIS KECENDERUNGAN INFORMASI DENGAN MENGGUNAKAN METODE TEXT MINING (Studi Kasus: Akun twitter detikcom) - Diponegoro University | Institutional Repository (UNDIP-IR)

N/A
N/A
Protected

Academic year: 2017

Membagikan "ANALISIS KECENDERUNGAN INFORMASI DENGAN MENGGUNAKAN METODE TEXT MINING (Studi Kasus: Akun twitter detikcom) - Diponegoro University | Institutional Repository (UNDIP-IR)"

Copied!
17
0
0

Teks penuh

(1)

ANALISIS KECENDERUNGAN INFORMASI DENGAN

MENGGUNAKAN METODE

TEXT MINING

(Studi Kasus: Akuntwitter@detikcom)

SKRIPSI

Oleh:

SYAIFUDIN KARYADI NIM. 24010212130030

DEPARTEMEN STATISTIKA FAKULTAS SAINS DAN MATEMATIKA

UNIVERSITAS DIPONEGORO SEMARANG

(2)

E

DE

G

F

DE

G

E

GG

E

E

TEXT MINING

( tuda u twitteret c )

e

yaifudin Karyadi 24010212130030

Tugas Akhir sebagai salah satu syarat untuk memperoleh gelar Sarjana Sains pada Departemen Statistika

DEPARTEMEN STATISTIKA FAKULTAS SAINS DAN MATEMATIKA

UNIVERSITAS DIPONEGORO SEMARANG

(3)

HALAMAN PENGESAHAN I

Judul Skripsi : Analisis Kecenderungan Informasi dengan Menggunakan MetodeText Mining

(Studi Kasus: Akuntwitter@detikcom) Nama : Syaifudin Karyadi

NIM : 24010212130030

Departemen : Statistika

Telah diujikan pada sidang Tugas Akhir dan dinyatakan lulus pada tanggal 16 Agustus 2016

Semarang, 16 Agustus 2016

Mengetahui,

Ketua Departemen Statistika Fakultas Sains dan Matematika Undip

Dra. Dwi Ispriyanti, M.Si. NIP. 195709141986032001

Panitia Penguji Ujian Tugas Akhir Ketua,

(4)

HALAMAN PENGESAHAN II

Judul Skripsi : Analisis Kecenderungan Informasi dengan Menggunakan MetodeText Mining

(Studi Kasus: Akuntwitter@detikcom) Nama : Syaifudin Karyadi

NIM : 24010212130030

Departemen : Statistika

Telah diujikan pada sidang Tugas Akhir dan dinyatakan lulus pada tanggal 16 Agustus 2016

Semarang, 16 Agustus 2016

Dosen Pembimbing I

Hasbi Yasin, S.Si, M.Si NIP. 198212172006041003

Dosen Pembimbing II

(5)

KATA PENGANTAR

Puji Syukur penulis ucapkan kehadirat Allah SWT yang telah memberikan rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan penulisan Tugas Akhir dengan judul Analisis Kecenderungan Informasi dengan Menggunakan MetodeText Mining .

Penulis menyadari bahwa dalam penulisan Tugas Akhir ini tidak lepas dari bimbingan dan dukungan yang diberikan beberapa pihak. Oleh karena itu, penulis ingin menyampaikan terima kasih kepada:

1. Ibu Dra. Dwi Ispriyanti, M.Si. sebagai Ketua Departemen Statistika Fakultas Sains dan Matematika Universitas Diponegoro.

2. Bapak Hasbi Yasin, S.Si., M.Si. selaku dosen pembimbing I dan Bapak Moch. Abdul Mukid, S.Si, M.Si. selaku dosen pembimbing II.

3. Bapak dan Ibu dosen Departemen Statistika Fakultas Sains dan Matematika Universitas Diponegoro

4. Semua pihak yang tidak dapat disebutkan satu per satu yang telah membantu penulis dalam penulisan Tugas Akhir ini.

Penulis menyadari bahwa penulisan Tugas Akhir ini masih jauh dari sempurna. Oleh karena itu, penulis mengharapkan kritik dan saran yang membangun demi kesempurnaan penulisan selanjutnya.

Semarang, 16 Agustus 2016

(6)

ABSTRAK

Internet merupakan suatu fenomena yang luar biasa. Berawal dari sebuah eksperimen militer di Amerika Serikat, internet telah berkembang menjadi kebutuhan bagi lebih dari puluhan juta orang di seluruh dunia. Jumlah pengguna internet yang besar dan semakin berkembang, telah mewujudkan budaya internet. Salah satu yang berkembang pesat yaitu media sosial twitter. Twitter merupakan layananmicroblogging yang menyimpantext database yang disebut tweet.Untuk memudahkan memperoleh informasi yang dominan dibicarakan, maka dicarilah topik dari tweet twitter dengan menggunakan clustering. Pada penelitian ini, dilakukan pengelompokkan 500 tweetdari akuntwitter@detikcom menggunakan k-means clustering. Hasil dari penelitian ini menunjukkan bahwa Dunn index yang maksimum, pengelompokan terbaik k-means Clustering untuk memperoleh topik yang dominan yaitu sebanyak tiga cluster, yaitu mengenai pemerintah, Jakarta, dan politik.

(7)

ABSTRACT

The Internet is an extraordinary phenomenon. Starting from a military experiment in the United States, the Internet has evolved into a 'need' for more than tens of millions of people worldwide. The number of internet users is large and growing, has been creating internet culture. One of the fast growing social media twitter. Twitter is a microblogging service that stores text database called tweets. To make it easier to obtain information that is dominant discussed, then sought the topic of twitter tweet using clustering. In this research, grouping 500 tweets from twitter account @detikcom using k-means clustering. The results of this study indicate that the maximum index Dunn, the best grouping K-means clustering to obtain the dominant topic as many as three clusters, namely the government, Jakarta, and politics.

(8)

DAF

I

!"

2.3.3 Ukuran Kedekatan Kontinyu ... 12

(9)

2.5 Validasi;lust<r ... 16

BAB III=E> ?D?@ ?GI AEBE@I>IAB 3.1 Sumber Data ... 19

3.2 Metode Pengumpulan Data ... 19

3.3 Metode Analisis ... 19

3.4 Diagram Alir Analisis ... 21

BAB ICHADI@ DABAE =BAHADAB 4.1 Profil Akun @detikcom ... 22

4.2 Aplication Programing Interface(API)... 23

4.3 Term-document Matrixdari 5tweet@detikcom ... 24

4.3.1 Text Pre-Process... 25

4.3.3 Frequent Termsdari 5tweet@detikcom... 31

4.3.4 Wordclouddari 5tweet@detikcom... 33

4.3.5 ValidasiClusterdari 5tweet@detikcom ... 34

4.4 Term-document Matrixdari 500tweet@detikcom ... 37

4.4.1 Frequent Termsdari 500tweet@detikcom... 38

4.4.2 Wordclouddari 500tweet@detikcom... 39

4.5 K-Means Clustering... 40

4.6 ValidasiClusterdari 500tweet @detikcom ... 43

BABCAEBF>FA 5.1 Kesimpulan ... 45

(10)

DAFGAHIJKGALA ... 47

(11)

DAF

PQRPQ

BE

S

Halaman

TUVel W X Yrm -Z[\umYnt ]^_rix ... 10

TUVel ` Tipe Fitur ... 11

TUVela X Yrm -Z[\umYnt ]^_rix dengan pembobotan tf untuk 5twYYt ... 29

TUVelb X Yrm -Z[\umYnt ]^_rix dengan pembobotan TF-IDF untuk 5twYYt . 30 TUVelc Jumlah kemunculan seluruhtYrms pada masing-masing dokumen... 31

TUVeld Output Dunn index K-means Clustering5Tweetdari akun @detikcom... 34

TUVeleKeanggotaan 2cluster5tweet dari akun @detikcom dengan K-means Clustering... 35

TUVelfPerhitungan jarak antar data untuk cluster1... 35

TUVel 9Perhitungan jarakcluster1 dengancluster2 ... 36

TUVelW gTerm-document Matrixdengan pembobotan tf untuk 500tweet... 37

TUVelWWTerm-document Matrixdengan pembobotan TF-IDF untuk 500tweet... 38

TUVelW`Keanggotaan 3cluster500tweet dari akun @detikcom denganK-means Clustering... 43

(12)

DAF

h ij

GA

k

BA

j

Halaman

Gl mnlop Diagram Alir Analisis ... 21 Gl mnloqTampilan akuntwittrr @detikcom ... 22 Gl mnlosTampilan API... 24 Gl mnlot Ilustrasi daritokrnizing untuk 5tweetdari akuntwitter

@detikcom ... 26

Gl mnlou Ilustrasi dariremove numberuntuk 5tweetdari akun

twitter @detikcom... 26

Gl mnlov Ilustrasi dariremove urluntuk 5tweetdari akuntwitter

@detikcom ... 27

Gl mnlow Ilustrasi dariremove punctuationuntuk 5tweetdari akun

twitter @detikcom... 27

Gl mnlox Ilustrasi daristopworduntuk 5tweetdari akuntwitter

@detikcom ... 28

Gl mnlo9 Diagram Batang KemunculanTerm untuk5tweetdari akun

twitter @detikcom... 32

Gl mnlopy Wordcloud 5tweetdari akun @detikcom ... 33 Gl mnlopp Diagram Batang KemunculanTermdari 500tweet

@detikcom (Frekuensi >=6) ... 38

(13)

DAF

z{| }{ ~

I

|

A

€

Halaman

‚ƒp„ …‚†‡ Syntax softwareR untukretrievedata 5tweetmedia sosial

twitterdari akuntwitter @detikcom... 50

‚ƒp„ …‚†ˆ Syntax softwareR untuk membuatTerm-document Matrix

dengan Pembobotan TF-IDF,wordcloud,validasicluster, dank-means clusteringdari 5tweetmedia sosialtwitter

dari akuntwitter @detikcom... 55

‚ƒp„ …‚†‰ Syntax softwareR untukretrievedata 500tweetmedia

sosialtwitterdari akuntwitter @detikcom ... 57

‚ƒp„ …‚†Š Syntax softwareR untuk membuatTerm-document Matrix

dengan Pembobotan TF-IDF,wordcloud,validasicluster, dank-means clusteringdari 500tweetmedia sosialtwitter

(14)

Ž ‘Œ ’“” “Œ 

•– • — ˜™˜š› œ ˜ž˜Ÿ  

¡¢£¤ ¥¢¤ £ ¦¤¥§¨ ©ª© ¢ «§© £§ ¬¤¢­¦ ¤¢© y©¢ ® ¯§© ¥ °±©« ©² ³¤ ¥©´ ©¯ µ©¥± «¤ °§©¶

¤ ª«¨¤¥ ±¦¤ ¢ ¦±¯±£¤¥ µ± ·¦¤¥ ±ª© ¸¤¥ ±ª© £, ±¢£ ¤¥ ¢¤ £ £¤¯ ©¶ °¤ ¥ ª¤¦°©¢ ® ¦ ¤ ¢¹© µ± ºª¤°§ £§¶© ¢» °©®± ¯ ¤°±¶ µ©¥ ± ¨§¯§¶© ¢ ¹§ £© ­¥© ¢ ® µ± « ¤¯§¥§¶ µ§ ¢±©. ¼§¦¯ ©¶ ¨¤ ¢®®§ ¢© ±¢£¤¥ ¢¤ £½©¢ ®°¤«©¥µ© ¢«¤¦ ©ª± ¢°¤¥ ª¤¦°© ¢ ®, £¤¯ © ¶¦¤´§¹§ µª© ¢°§µ©½©±¢ £¤¥ ¢¤£.

¾¤¢§¥§ £ ·«­«±©« ± ¿ ¤ ¢½¤¯ ¤¢®®©¥ © ¼©« © ¡¢£¤ ¥ ¢¤£ ¡¢µ­¢¤«±©(·¿ ¼¡¡) (ÀÁ ÂÃ), ¨¤ ¢®®§ ¢© ± ¢£¤¥¢¤ £ µ± ¡¢µ­¢¤« ±© « ¤¯ ©¯ § °¤¥ £©¦°©¶ µ©¥± £©¶ § ¢ ª¤ £ ©¶ § ¢² ¼§¦ ¯©¶

¨¤ ¢®®§ ¢©±¢£¤¥ ¢¤£µ± ¡¢µ ­¢¤«±©¦¤ ¢Ä©¨©± 88 ¹ § £©­¥© ¢ ®¶ ±¢®®© © ª¶ ±¥ £©¶§ ¢ À ÁÂé £©§ ¦¤ ¢®©¯©¦ ±ª¤ ¢© ±ªª© ¢«¤°¤«©¥Å ÃÆÇȹ ± ª©µ± °© ¢µ±¢®ª© ¢µ¤¢ ®© ¢£©¶§ ¢ÀÁ Å.

É©«±¯ ¥ ±« ¤ £ £©¶§ ¢ À Á à « ¤ Ä©¥© «± ®¢±¬±ª© ¢ ¦ ¤¢§ ¢¹ §ªª© ¢ ¨¤ ¢®®§ ¢© ¹ ¤¹ ©¥± ¢®

«­« ±©¯ («­«±©¯¦¤ µ±©) ¦ ¤¢ µ§ µ§ ª±¨¤¥ ±¢®ª© ££¤¥ £± ¢ ®®± ½© ¢ ®µ±¦ ©¢ ¬©©£ ª© ¢Æ¦¤¢®©¯ ©¶ ª©¢ ¨¤ ¢Ä©¥ ±© ¢ ±¢¬­¥¦©« ± (bÊËÌ Í ÎÏÐ/ÍeaÊcÑ ÎÏÐ) di posisi kedua. Posisi ke-3 ÒÑÓÔ ÔÎÏÐ (Õ ÖÍÍÓÐ ÎÏÐ), pencarian berita (ke-4), video (ke-5), ÖÕ ÓÎ× (ke-6). Pencarian berita dan penggunaanÖÕÓÎ×saat ini anjlok tak populer (APJII, 2014).

(15)

2

Û ÜÝÞßàáÞ ßâ ãßäã átwåtteæ çßÝèßÜéêÞë Üß Üë ìÞ äê ìÜíê ßàáÞä îìÜß ààã ßÞ twåtteæ äÜíï ÜéÞ í

Ýê Ýã ßêÞ ð ñ è éê éê çßÝè ßÜ éêÞ òÞßyÞ áÞóÞò ÝÞíê ô Ûõâ ö íÞzil, Jepang dan Inggris. Penggunatwåtteæ di Indonesia berdasarkan data PT Bakrie Telecom sebesar 19,5 juta pengguna dari total 500 juta pengguna global. ÷wåtteæ menjadi salah satu jejaring sosial paling besar di dunia sehingga mampu meraup keuntungan mencapai USD 145 juta.

Menurut Francis dan Flynn (2010), text ø åùåùú adalah teknologi baru yang digunakan untuk data perusahaan yang selalu bertambah sehingga data teks yang tidak terstruktur tersebut dapat dianalisis. Salah satu inovasi û üýtwaæe yang dapat meringankan biaya bagi penambang teks adalah û ü ýtwaæe yang bersifat ü þÿù û ü æce. Dua jenis û üýwaæe ü þÿù ûü æce yang sangat populer dan diunggulkan adalah R dan Perl. R adalah bahasa pemrograman yang mendukung hal-hal yang berkaitan dengan statistik dan digunakan pada hal-hal yang berhubungan dengan ilmu pasti, matematis.

Menurut Zhao (2012), metode text ø åù åùú telah digunakan untuk menganalisa data pada twåtteæ. Metode ini dimulai dengan mengambil text yang ada pada twåtteæ, text yang sudah diambil kemudian diubah menjadidü øeù-teæøø æ åx. Setelah itu,

ýæÿ ÿù üæû dan ûûüûååüù yang diperoleh dari ø æ å. üæ ü digunakan untuk menunjukkan kata-kata penting yang ada pada dokumen. Terakhir untuk mendapatkan topik dari ÿÿ, kata-kata dalam ÿÿ atau biasa disebut ÿæø akan dikelompokkan dengan metode-øÿùû û ÿæ.

(16)

3

y

CRAN per 5 Maret 2016. Untuk melakukan

analisa dengan metode ! " # # pada sebuah akun $ dibutuhkan beberapa packages, seperti $ dan " diperlukan untuk membantu mendapatkan data pada akun tersebut serta menjelmakan teks. Ada juga $ %&' % yang digunakan untuk merepresentasikan visual untuk data teks, biasanya untuk menggambarkan metadata kata kunci ( ) di situs$(. ) biasanya satu kata, dan pentingnya setiapditunjukan dengan ukuran*#atau warna (Zhao, 2012).

Beberapa informasi penting yang dapat diperoleh dari twitter antara lain seperti melihat sejarah perkembangan manusia, sejarah obama terpilih menjadi presiden, dll. Tersedia dalam $- $ yang bisa dirunut di $ . Penelitian ini dilakukan pengelompokkan 500 $ dari akun $ +detikcom menggunakan metode -"# &' # yang bertujuan untuk untuk mengetahui kecenderungan topik pemberitaan dan mengetahui topik yang paling sering muncul. Hasil analisis pada akun $ berita tersebut akan memberikan gambaran pemberitaan akhir-akhir ini. Penelitian ini menjadi penting mengingat akun @detikcom merupakan akun berita #& # dengan *& & $ terbanyak, sehingga berita yang disampaikan juga akan mempengaruhi pengetahuan dan presepsi publik terhadap suatu masalah.

Berdasarkan uraian diatas maka peneliti tertarik untuk menganalisa kecenderungan topik informasi pemberitaan yang disampaikan melalui akun $ @detikcom dengan menggunakan metode !" # #,

-./ 01 21 34564 3474 8

(17)

4

9: ;< =<>? <@ < ABCB @DBEF@ =<@ G HI>A > @JHE?<K> y<@ = D>K<? I<>A <@ ?BL <L F> <A F@ tw

MtteN ODBG >A CH??

2. P QuRteN tweet apa saja yang terbentuk dari akuntwMtteN @detikcom?

STU V WXWY WZ[WYW\ W]

Dalam penelitian ini, masalah dibatasi hanya pada 500 tweetR teratas yang diambil dari tM ^ _QM ` _ akun twMtteN @detikcom pada hari Jum at, 3 Juni 2016 jam 18.30 WIB.

STa b c dc WZef Zf\g Xg WZ

Berdasarkan rumusan masalah, maka tujuan yang ingin dicapai dalam penelitian ini adalah sebagai berikut :

1. Untuk mengetahui kecenderungan topik informasi yang disampaikan melalui akuntwMtteN @detikcom?

Referensi

Dokumen terkait

mengetahui kesiapan siswa dalam proses pembelajaran.. 4) Guru membagi siswa menjadi tujuh kelompok yang tiap kelompok beranggotakan enam siswa. 5) Guru membimbing siswa

Salain itu akan dianalisis juga tanggapan dari pengguna layanan BPJS (masyarakat). Kedua , merumuskan prefensi masing- masing aktor mengenai pilihan kebijakan Penerapan

Inisiatif Pemerintah Daerah Kabupaten Sleman untuk melakukan penataan organisasi pada tahun 2014 ini juga, didorong oleh Peraturan Presiden Nomor 97 tahun 2014

bermasyarakat suatu bangsa. Namun juga ada suatu cara yang lebih praktis yaitu melalui media film, hal itu dikarenakan film merupakan suatu pencitraan dari suatu budaya

- Program peningkatan pengembangan sistem pelaporan capaian kinerja dan keuangan Kegiatan : 2.00.03.01.005.0001. - Penyusunan Perencanaan dan

PEMERINTAH PROVINSI SUMATERA BARAT 2018.. RKA - OPD 2.2.1 ORGANISASI

[r]

- Penyediaan Makanan dan Minuman Lokasi Kegiatan : Padang dan Bukittinggi. Jumlah Tahun n-1