Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

(1)

Hak cipta dan penggunaan kembali:

Lisensi ini mengizinkan setiap orang untuk menggubah, memperbaiki, dan membuat ciptaan turunan bukan untuk kepentingan komersial, selama anda mencantumkan nama penulis dan melisensikan ciptaan turunan dengan syarat yang serupa dengan ciptaan asli.

Copyright and reuse:

This license lets you remix, tweak, and build upon work

non-commercially, as long as you credit the origin creator

and license it on your new creations under the identical

terms.

(2)

BAB III

PELAKSANAAN KERJA MAGANG

3.1 Kedudukan dan Koordinasi

Praktek kerja magang ini dilaksanakan di Universitas Multimedia Nusantara pada lab Big Data sebagai Text Data Mining dengan dibimbing langsung oleh Bapak Yustinus Eko selaku sekretaris prodi sistem informasi. Selama praktek kerja magang di Universitas Multimedia Nusantara berjalan, dilakukan koordinasi langsung dengan tim dari prodi ilmu komunikasi mengenai penentuan keyword, fact checking yang ada pada debat pilpres 2019 disaat siaran live berlangsung.

3.2 Tugas yang dilakukan

Berikut merupakan tugas yang dilakukan selama melaksanakan praktek kerja magang di Universitas Multimedia Nusantara:

1. Pengenalan team fact checking dari prodi Ilkom dan pengenalan bahasa pemrograman Python serta R. Melakukan percobaan pada data sampel dengan bahasa pemrograman tersebut.

2. Melakukan convert artikel kompas yang diberikan yang berbentuk rss xml file menjadi csv menggunakan bahasa Python.

3. Membuat analisis Twitter dengan menggunakan bahasa pemrograman R yaitu analisis penggunaan hashtag, user yang sering melakukan tweet, dan analisis kata terbanyak yang sering diperbicarakan di Twitter.

(3)

4. Mencoba melakukan word count pada artikel Kompas berdasarkan keyword yang ditentukan. Hasilnya akan memunculkan link artikel Kompas yang relevan dengan keyword beserta tanggal dari artikel tersebut.

5. Melakukan fact checking terhadap debat capres secara live bersama dengan tim Ilkom.

6. Scraping website dari Kompas.com untuk mendapatkan artikel Kompas yang terbaru guna memperbanyak data, diconvert menjadi csv.

3.3 Uraian Pelaksanaan Kerja Magang

Tabel 2.1 Tabel Uraian Pelaksanaan Kerja Magang

Minggu Ke- Uraian

1

1. Pengenalan tim Ilkom.

2. Briefing magang.

3. Pengenalan bahasa Python dan R.

4. Latihan menggunakan data sampel yang diberikan.

2

1. Membuat script Python convert data rss xml Kompas menjadi csv.

2. Data rss xml berjumlah 667 yang diconvert menjadi 667 data csv.

3. Menggabungkan 667 csv menjadi 1 file dengan membuat script Python lagi.

3

1. Mempelajari script R yang diberikan Pak Yustinus Eko untuk menganalisis data Twitter.

2. Mencoba menerapkan analisis pada sampel data Twitter.

3. Melakukan analisis pada data Twitter yang membahas debat capres yaitu analisis penggunaan hashtag, user yang sering melakukan tweet, dan analisis kata terbanyak yang sering diperbicarakan di Twitter.

4. Membuat wordcloud yang merupakan gambar visual untuk menjelaskan kata yang sering digunakan oleh pengguna Twitter tiap harinya mengenai debat capres.

5. Membuat laporan pada analisis yang telah dibuat.

(4)

6. Membuat script Python untuk menghasilkan link dan tanggal dari suatu artikel yang memiliki keyword yang sudah ditentukan.

4

1. Simulasi live bersama tim dari Ilkom melakukan fact checking terhadap debat capres pertama untuk mempersiapkan diri pada debat capres kedua.

2. Tim Ilkom akan memberikan keyword tiap sesi dari debat capres, apabila sudah akan dikabarkan oleh Mario selaku representatif dari Tim Ilkom melewati Whatsapp yang dapat dilihat pada Google Drive.

3. Menggunakan script Python yang telah dibuat untuk tiap sesi.

4. Terdapat 5 sesi pada debat capres, tim dari SI akan memberikan kembali pada tim Ilkom link yang relevan dengan keyword” yang diberikan beserta tanggal dari link artikel tersebut.

5

1. Evaluasi kinerja saat debat capres ke-2 bersama tim Ilkom mengenai kualitas keyword dan kualitas link artikel.

2. Melakukan scraping website Kompas.com, untuk mengambil data artikel terbaru serta dari artikel dari tahun 2017 untuk memperbesar kemungkinan mendapatkan artikel yang relevan.

3. Menconvert data scraping menjadi csv dengan format yang sama seperti yang digunakan sebelumnya.

6

1. Simulasi live bersama tim dari Ilkom melakukan fact checking terhadap debat capres kedua untuk mempersiapkan diri pada debat capres ketiga.

2. Tim Ilkom akan memberikan keyword tiap sesi dari debat capres, apabila sudah akan dikabarkan oleh Mario selaku representatif dari Tim Ilkom melewati Whatsapp yang dapat dilihat pada Google Drive.

3. Menggunakan script Python yang telah dibuat untuk tiap sesi.

4. Terdapat 5 sesi pada debat capres, tim dari SI akan memberikan kembali pada tim Ilkom link yang relevan dengan keyword” yang diberikan beserta tanggal dari link artikel tersebut.

7

1. Evaluasi kinerja saat debat capres ke-3 bersama tim Ilkom mengenai kualitas keyword dan kualitas link artikel.

2. Melakukan scraping website Kompas.com

(5)

8 1. Pembuatan laporan dokumentasi

Berdasarkan tabel uraian pelaksanaan kerja magang pada tabel 2.1, job desc selama melakukan praktek kerja antara lain pengenalan tim Ilkom, pembelajaran bahasa Python dan R, convert data rss xml Kompas menjadi csv, membuat analisis twitter, membuat script untuk mensupport tim Ilkom melakukan fact checking dengan memberikan link artikel yang relevan dengan keyword, dan membuat script untuk tiap job desc yang telah disebutkan.

3.3.1 Minggu Pertama

Pada minggu pertama kerja magang, dilakukan perkenalan dengan rekan- rekan pada tim dari Ilkom. Terdapat Pak Bintang, selaku dosen dari tim Ilkom dan sekaligus yang menjadi pemimpin antara tim SI dan Ilkom. Kemudian Mario selaku representatif dari tim Ilkom dikarenakan jumlah tim Ilkom yang cukup banyak yaitu 13 orang untuk memudahkan komunikasi antar tim. Lalu juga dilakukan briefing magang, dan pengenalan mengenai bahasa Python dan R. Tugas pertama pada kerja magang ini adalah mempelajari bahasa Python dan R tersebut dengan menggunakan data” sampel yang disediakan Pak Yustinus Eko.

Minggu pertama ini masih belum terlalu banyak pekerjaan yang dilakukan, hanya seperti masa percobaan untuk lebih terbiasa dengan bahasa pemrograman Python dan R. Pembelajaran dilakukan dengan menggunakan ruangan Lab Big Data yang berada pada gedung C 503, disana terdapat komputer yang mempunyai sistem operasi Linux.

(6)

Yang dipelajari adalah bagaimana cara menjalankan script pada terminal di Linux seperti pada gambar 3.1 dibawah.

Gambar 3.1 Terminal Linux

Hal pertama yang dilakukan adalah menuju ke directory dimana letak script berada. Hal ini dapat dilakukan dengan menggunakan perintah “cd” (change directory) sebagai contoh “cd Desktop” akan mengarahkan directory ke arah desktop. Kemudian dengan menggunakan perintah “python namascript.py” akan mengeksekusi script “namascript.py”. Sedangkan untuk R dapat menggunakan perintah “Rscript namascript.r”. Apabila ingin langsung mengetik coding pada terminal Linux, bisa dengan menggunakan perintah “python / Rscript” maka perbaris coding dapat ditulis di terminal. Untuk keluar dapat menggunakan perintah

“quit()”.

(7)

Kemudian Pak Yustinus Eko mengajarkan pengambilan data sampel yang telah dimasukkan pada server SI. Diberikan kepada kami username dan password untuk dapat mengakses server tersebut. Dengan menggunakan Linux, masih di terminal, dapat dilakukan dengan perintah “ssh”. Sedangkan untuk melakukan download bisa dilakukan dengan perintah “scp –r” yang akan mendownload satu folder yang dipilih.

3.3.2 Minggu Kedua

Pada minggu kedua, Pak Yustinus Eko memberikan tugas untuk mendownload semua rss file yang diberikan Kompas sebagai file pendukung dalam kegiatan fact checking ini. Rss file masih berupa link yaitu http://rss.kompas.com/umn/(0sampai667)?apikey=3f2f8f5be5d853b7f1c776d4134 be02b3cbf2df0. Untuk mendownload secara otomatis, dibuatlah script bernama

“websucker.py” yang isinya seperti gambar 3.2 dibawah.

Gambar 2.2 Isi websucker.py

(8)

Maksud dari coding pada gambar 3.2 diatas adalah melakukan perintah wget yang akan mendownload secara looping dari 0 sampai 666 link rss Kompas dan akan menyimpan file dalam bentuk xml secara otomatis sehingga terdapat 667 file xml. Hasilnya berupa gambar 3.3 dan isi salah satunya seperti pada gambar 3.4 dibawah.

Gambar 3.3 Hasil dari websucker.py

(9)

Gambar 3.4 Isi dalam 0.xml

Setelah itu file” xml ini akan diconvert menjadi bentuk yang lebih mudah dibaca yaitu csv (Comma Separated Value). Format csv ini dapat dibuka sebagai spreadsheet yang membuat mudah dibaca, maka dari itu dibuat script Python bernama “convert.py” yang berisi seperti gambar 3.5 dibawah.

Gambar 3.5 Isi convert.py

(10)

Maksud dari coding pada gambar 3.5 diatas adalah melakukan perintah mengambil dari data xml yang berada pada tag “item” karena didalam tag tersebut terdapat semua yang dibutuhkan yaitu id, title, link, photo, thumb, description, content, date, site_name, section_name, editor, dan author. Kemudian mengeluarkan hasilnya dalam bentuk “Artikel(0 sampai 666).csv”.

Gambar 3.6 Isi dalam Artikel0.csv

Setelah itu semua 667 file csv tersebut digabung menjadi 1 dengan nama

“ArtikelAll.csv” menggunakan script Python dari internet.

3.3.3 Minggu Ketiga

Pada minggu ketiga Pak Yustinus Eko memberikan tugas untuk memantau dan membuat laporan analisa pada data Twitter yang membahas tentang debat capres. Pak Yustinus Eko memberikan Rscript buatannya untuk dapat melakukan analisis penggunaan hashtag, user yang sering melakukan tweet, dan analisis kata terbanyak yang sering diperbicarakan di Twitter.

(11)

Gambar 3.7 Isi dalam freqCount_4.r

Gambar 3.7 merupakan isi dari freqCount_4.r. Cara menggunakannya pada variabel “raw_data” berisikan file json yang berisikan data Twitter, dan pada bagian paling bawah akan memunculkan file png berupa gambar wordcloud yang menjelaskan kata-kata yang sering muncul. Setelah itu barulah dijalankan Rscript tersebut pada tiap file json yang telah dikelompokkan terlebih dahulu dari tanggal tweet tersebut. Pada bagian removeWords, berguna untuk membuang kata” yang memang sering digunakan tapi tidak berguna seperti kata sambung ini, itu, dan, dll.

Gambar 3.8, merupakan hasil pembagian tiap hari sedangkan gambar 3.9 dan gambar 3.10 merupakan hasil dari run freqCount_4.r.

(12)

Gambar 3.8 Pengelompokkan data tweet berdasarkan hari

Gambar 3.9 Hasil output dari kompas_all_170119_1.json

(13)

Gambar 3.10 Hasil wordcloud dari kompas_all_170119_1.json

Setelah melakukan seluruh eksekusi script pada setiap file json yang dibagi atas perhari tersebut, dibuatlah laporan untuk merangkum hasil dari tiap eksekusi script untuk mempermudah pengambilan data seperti pada gambar 3.11.

Gambar 3.11 Potongan laporan data tweet

(14)

Setelah itu dibuat juga script Python untuk menghasilkan link dan tanggal dari suatu artikel yang memiliki keyword yang sudah ditentukan pada file csv yang dibuat pada minggu kedua sebelumnya. Nama script tersebut adalah

“linkkeyword.py” yang berisikan sesuai gambar 3.12 dibawah.

Gambar 3.12 Isi dari linkkeyword.py

Maksud dari coding pada gambar 3.12 diatas adalah membaca data tiap baris yang ada pada “Artikel_all.csv” untuk digunakan dalam proses pencarian.

Variabel “keyword1” sampai dengan “keyword7” digunakan untuk mengisi kata kunci dari tim Ilkom. Dengan hasil output “hasil.csv” yang nantinya akan berisikan link dan tanggal dari artikel yang memenuhi kriteria if apabila di kolom bagian content yang ada pada Artikel_all.csv memiliki kriteria tersebut. Berikut adalah contoh hasil apabila menggunakan 1 keyword yaitu “inkubasi” pada

“Artikel_all.csv” pada gambar 3.13 dan gambar 3.14.

(15)

Gambar 3.13 Hasil linkkeyword.py di terminal

Gambar 3.14 Hasil output hasil.csv

3.3.4 Minggu Keempat

Pada minggu keempat akan dimulai debat capres kedua yang jatuh pada tanggal 17 Februari 2019. Untuk itu, dilakukan simulasi live bersama dengan tim dari Ilkom untuk mengetahui dengan benar job desc masing” dan komunikasi antar

(16)

tim yang lancar. Bersama dengan Pak Bintang dan anggota” tim Ilkom lainnya menjelaskan tentang rundown yang akan dilakukan disaat live berlangsung.

Pak Bintang menjelaskan bahwa tim Ilkom akan berada di ruangan B6 yaitu News Room dan tim dari SI tetap pada Lab Big Data pada C503. Tim Ilkom akan memberikan keyword tiap sesi dari debat capres, apabila sudah akan dikabarkan oleh Mario selaku representatif dari Tim Ilkom melewati Whatsapp yang dapat dilihat pada Google Drive.

Tugas dari tim SI adalah menggunakan script Python yang telah dibuat sebelumnya untuk tiap keyword yang diberikan oleh tim Ilkom. Terdapat 5 sesi pada debat capres, tim dari SI akan memberikan kembali pada tim Ilkom hasil dari script yang berupa link yang relevan dengan keyword” yang diberikan beserta tanggal dari link artikel tersebut. Barulah tim dari Ilkom dapat membaca link artikel tersebut dan menentukan fact checking apakah pernyataan dari calon presiden sesuai fakta atau tidak.

Simulasi pun berjalan lancar dan akhirnya hari debat capres tiba. Mario membagikan 2 link Google Drive, yang pertama untuk tim Ilkom memberikan

keyword kepada tim SI

https://docs.google.com/spreadsheets/d/1tqURlBS238cP8ycHucKfniC8IwvMlucKFg57m TYqxNY/edit#gid=1100111308 dengan tampilan seperti gambar 3.15.

(17)

Gambar 3.15 Link keyword tiap segmen debat ke-2

Link satu lagi digunakan oleh tim SI untuk memasukkan data link beserta tanggal dari artikel https://docs.google.com/spreadsheets/d/1qhZh4vQpBqoH4ZHao- W3oMIthXl4gurndlXtl0xjpPI/edit#gid=0 dengan tampilan seperti gambar 3.16.

Gambar 3.16 Hasil link berita debat ke-2

(18)

Setelah debat selesai keesokan harinya Mario share link berita team fact checking UMN yang masuk pada artikel Kompas sebagai hasil dari proses tersebut seperti gambar 3.17.

Gambar 3.17 Hasil fact checking dipublikasi di Kompas.com

3.3.5 Minggu Kelima

Pada minggu kelima bersama dengan tim Ilkom dilakukan evaluasi kinerja saat debat capres ke-2. Pak Bintang mengatakan bahwa link yang diberikan oleh tim SI terlalu banyak dan ternyata tidak relevan untuk tiap keywordnya sehingga beberapa ada yang di search secara manual oleh tim Ilkom sendiri. Sedangkan kendala dari tim SI adalah data yang terbatas hanya dari 667 rss xml file dan keyword yang diberikan oleh tim Ilkom terlalu banyak mengandung kata sambung,

(19)

menggunakan angka, dan menggunakan bahasa dengan makna sama misalnya

“izin” dengan “ijin” sehingga tim SI harus melakukan keduanya.

Pak Yustinus Eko pun menyarankan untuk melakukan scraping website Kompas.com, untuk mengambil data artikel terbaru sampai sekarang serta dari artikel dari tahun sebelumnya untuk memperbesar kemungkinan mendapatkan artikel yang relevan. Dengan menggunakan wget salah satu perintah untuk mendownload satu website secara lengkap, kami mendownload website Kompas.com dengan perintah “wget –recursive https://nasional.kompas.com”.

Karena Kompas terdiri atas beberapa website maka kami mendownload beberapa yaitu edukasi.kompas.com, ekonomi.kompas.com, megapolitan.kompas.com, nasional.kompas.com, regional.kompas.com, sains.kompas.com, dan tekno.kompas.com. Hasilnya akan memunculkan folder “read” yang merupakan isi semua artikel yang disimpan pada website tersebut.

Didalam folder “read” tersebut terdapat beberapa folder lagi yang dimulai dari tahun 2013 – 2019, diikuti dengan folder bulan 1 sampai 12, dan terakhir hari dari bulan tersebut 1 sampai 30. Namun sangat disayangkan website Kompas hanya memiliki data lengkap hanya sampai 2017 sehingga kami memutuskan untuk mengambil dari tahun 2017 saja, karena tahun sebelumnya ada beberapa bulan yang hilang dan harinya tidak lengkap. Setelah mengetahui kondisi folder, dibuatlah script bernama ”scrap.py” untuk menconvert tiap data html tersebut menjadi csv yang lebih mudah dibaca.

(20)

Gambar 3.18 Isi dari scrap.py

Maksud dari coding pada gambar 3.18 diatas adalah dengan menaruh lokasi directory pada folder “read” saja maka secara otomatis dia akan menelusuri setiap folder yang ada didalam folder “read” tersebut dengan menggunakan os.walk.

Untuk setiap file directory yang ditemukan os.walk akan melakukan perintah BeautifulSoup. BeautifulSoup berguna untuk mempermudah pengambilan tag pada sebuah html karena bentuk html lebih berantakan tidak seperti xml yang terletak pada tag item semua. Dicarilah tag title, link, photo, thumb, description, content, date, site_name, section_name, editor, dan author satu persatu. Setelah itu, membuat file output bernama “ekonomikompastes.csv” dengan format “a” yang berfungsi file output akan terus dilanjutkan ke baris selanjutnya tanpa menimpa file tersebut dan dimasukkan lah tag yang telah dicari kedalam 1 baris per 1 html dengan hasil seperti gambar 3.19.

(21)

Gambar 3.19 Hasil dari ekonomi.kompas.com

Setelah menggunakan script pada semua website Kompas, barulah digabung menjadi 1 file csv secara manual copy paste karena hanya ada 7 total file csv. File csv ini pun akan digunakan untuk debat capres selanjutnya.

3.3.6 Minggu Keenam

Pada minggu keenam akan dimulai debat capres ketiga yang jatuh pada tanggal 17 Maret 2019. Untuk itu, dilakukan simulasi live lagi bersama dengan tim dari Ilkom untuk mengetahui dengan benar job desc masing” dan komunikasi antar tim yang lancar.

Simulasi pun berjalan lancar dan akhirnya hari debat capres tiba. Mario membagikan 2 link Google Drive yang baru untuk menandakan debat ke-3, yang pertama untuk tim Ilkom memberikan keyword kepada tim SI

(22)

https://docs.google.com/spreadsheets/d/1C9v_wonsfKr6aspBdEcjl34chBmNiDL5Qxt8a mvC4qA/edit#gid=0 dengan tampilan seperti gambar 3.20.

Gambar 3.20 Link keyword tiap segmen debat ke-3

Link satu lagi digunakan oleh tim SI untuk memasukkan data link beserta

tanggal dari artikel

https://docs.google.com/spreadsheets/d/1r3QlkX6TCLR8q0mReAnDNOAffauU0-VV8- Ch6K7tnu0/edit#gid=0 dengan tampilan seperti gambar 3.21.

Gambar 3.21 Hasil link berita debat ke-3

(23)

3.3.7 Minggu Ketujuh

Reevaluasi kinerja saat debat capres ke-3 bersama tim Ilkom mengenai kualitas keyword dan kualitas link artikel. Dari tim Ilkom menyatakan bahwa data yang diberikan oleh tim SI telah mencapai kriteria meskipun masih ada beberapa artikel yang tidak relevan namun tidak sesering yang sebelumnya. Kedepannya nanti tim Ilkom ingin mengambil artikel dari website selain Kompas.com untuk memperluas hasil pencarian.

Pada minggu ini pun masih melakukan scraping data terbaru pada Kompas.com agar data lebih banyak sehingga keyword yang spesifik diharapkan dapat ditemukan artikelnya dengan jumlah data yang bertambah.

3.3.8 Minggu Kedelapan

Pada minggu kedelapan dibuat laporan dokumentasi atas hasil kerja magang yaitu script-script yang telah dibuat untuk melakukan fact checking. Setiap script akan dirangkum kegunaannya, cara pakainya, hasilnya, directory, apa saja yang harus di edit untuk dipakai, dan penjelasan parameter yang penting.

3.4 Kendala

Selama melakukan kegiatan kerja magang di Universitas Multimedia Nusantara tepatnya di Lab Big Data sebagai Text Data Mining, terdapat beberapa kendala yang dialami diantaranya:

(24)

1. Masih pemula dalam bahasa pemrograman Python dan R serta penggunaan sistem operasi Linux sehingga memperlambat pengerjaan karena harus belajar terlebih dahulu.

2. Pemberian keyword oleh tim Ilkom terkadang tidak mendapatkan hasil karena terlalu spesifik, namun jika diambil beberapa saja keyword artikel malah menjadi tidak relevan.

3.5 Solusi

Solusi dari kendala yang dialami ketika melakukan kegiatan kerja magang di Universitas Multimedia Nusantara di Lab Big Data sebagai Text Data Mining, yaitu:

1. Menanyakan yang tidak dimengerti kepada Pak Yustinus Eko selaku pembimbing kerja magang yang lebih mengetahui akan materi Python, R, dan sistem operasi Linux.

2. Memperbanyak jumlah data dengan melakukan scraping website Kompas.com untuk mendapatkan data terbaru.