View of Web Scraping Implementation on Google Scholar for Lecturer Research Profiling

(1)

SCIENCE TECH

Jurnal Ilmu Pengetahuan dan Teknologi https://jurnal.ustjogja.ac.id/index.php/sciencetech/

Implementasi Web Scraping pada Google Cendekia sebagai Sarana Profiling Penelitian Dosen

Muhammad Koprawi^1(*), Wahyu Sukestyastama Putra²

Teknik Komputer, Universitas Amikom Yogyakarta, Jl. Ring Road Utara, Ngringin, Condongcatur, Kec. Depok, Kabupaten Sleman, Daerah Istimewa Yogyakarta, 55281^1,2

E-mail: [email protected]^1(*), [email protected]² Profil Korenspondensi

Muhammad Koprawi, Teknik Komputer, Universitas Amikom Yogyakarta, Indonesia.

Submission Revision Accepted

26/01/2023 08/02/2023 10/02/2023

Abstract

Google Scholar is an online platform that provides access to scholarly literature such as articles, theses, books and conference proceedings from various scientific publishers. As educators or lecturers, they should have scientific research works that can be accessed by anyone at any time. To measure achievement and access to publication of scientific papers quickly and to profiling educators, lecturers or researchers, universities must have a centralized database that comes from a Google Scholar account and can be updated periodically or automatically based on a specified period. To solve this problem, the researcher implements a web scraping technique combined with a cron job as a command that will run a task on a scheduled basis. The method used is the RAD (Rapid Application Development) method which focuses on a fast system development process. This study succeeded in scraping data for 2983 documents, displaying document citation data globally and successfully carrying out an automatic scheduling synchronization process that is set with scheduling configurations every week, every month, every quarter, every semester and every year, and scripts on cron jobs are run every 5 minutes on the server to check if any scheduling is active.

Keywords: Cron job; Google scholar; Web scraping.

Abstrak

Google Scholar adalah platform daring yang menyediakan akses ke literatur ilmiah seperti artikel, tesis, buku, dan prosiding konferensi dari berbagai penerbit ilmiah. Sebagai tenaga pendidik ataupun dosen sudah seharusnya memiliki karya ilmiah penelitan yang bisa diakses oleh siapa saja dan kapan saja.

Untuk mengukur ketercapaian dan akses publikasi karya ilmiah secara cepat serta profiling terhadap tenaga pendidik, dosen ataupun peneliti maka perguruan tinggi harus memiliki basis data terpusat yang berasal dari akun google cendekia dan bisa diperbaharui secara berkala ataupun secara otomatis berdasarkan periode yang ditentukan. Untuk menyelesaikan permasalahan tersebut, peneliti mengimplementasikan teknik web scraping yang digabungkan dengan cron job sebagai perintah yang akan menjalankan sebuah tugas secara terjadwal. Metode yang digunakan adalah metode RAD (Rapid Application Development) yang berfokus kepada proses pengembangan sistem yang cepat. Penelitian ini berhasil melakukan scraping data sebanyak 2983 dokumen, menampilkan data citasi dokumen secara global dan berhasil melakukan proses sinkronisasi penjadwalan otomatis yang diatur dengan konfigurasi penjadwalan every week, every month, every quarter, every semester dan every year, serta script pada cron job dijalankan setiap 5 menit pada server untuk memeriksa apakah ada penjadwalan yang sedang aktif.

Kata Kunci: Cron job; Google scholar; Web scraping.

▸ Baca selengkapnya: apa keluaran web scraping yang berupa tabel data?

(2)

Pendahuluan

Salah satu kewajiban dari tri dharma perguruan tinggi adalah melaksanakan kegiatan penelitan dan pengembangan. Kegiatan tersebut dilakukan untuk mencapai tujuan perguruan tinggi yang memiliki sumber daya manusia yang cerdas, kreatif dan kritis. Dalam hal ini tenaga pendidik ataupun dosen merupakan bagian dari ekosistem perguruan tinggi yang dituntut untuk berkontribusi dalam kegiatan penelitian dan pengembangan tersebut. Sebagai tenaga pendidik ataupun dosen sudah seharusnya memiliki karya ilmiah penelitan yang bisa diakses oleh siapa saja dan kapan saja. Salah satu platform daring yang dijadikan sebagai tempat rujukan dan tempat menyimpan history karya ilmiah adalah Google Scholar.

Google Scholar atau Google Cendekia adalah platform daring yang menyediakan akses ke literatur ilmiah seperti artikel, tesis, buku, dan prosiding konferensi dari berbagai penerbit ilmiah dan asosiasi professional secara gratis. Platform ini menjadi salah satu sumber yang berharga bagi para tenaga pendidik, dosen ataupun peneliti karena secara mudah dapat mencari, menemukan, dan mengakses literatur ilmiah yang luas dan cepat di satu tempat. Selain itu, Google Cendekia memberi tenaga pendidik, dosen ataupun peneliti platform yang dapat melacak dan menganalisis dampak penelitian mereka sendiri, termasuk jumlah kutipan dan metrik seperti h-index. Hal ini menjadikan tenaga pendidik, dosen ataupun peneliti bisa menilai kinerja sendiri dan membandingkannya dengan orang lain di bidangnya (Anam, 2022; Sulistiyo et al., 2020).

Untuk mengukur ketercapaian dan akses publikasi karya ilmiah secara cepat serta profiling terhadap tenaga pendidik, dosen ataupun peneliti maka perguruan tinggi harus memiliki basis data terpusat yang berasal dari akun Google Cendekia dan bisa diperbaharui secara berkala ataupun secara otomatis berdasarkan periode yang ditentukan. Hal tersebut bisa diselesaikan dengan memanfaatkan teknik web scraping dan penjadwalan otomatis yang bisa diatur untuk melakukan sinkronisasi kapan saja.

Web scraping adalah teknik mengekstrak data dalam jumlah besar secara cepat dan otomatis dari halaman web. Teknik ini dilakukan dengan mengirimkan permintaan HTTP ke situs web, kemudian memuat kode halaman HTML, dan mem-parsing kode HTML tersebut untuk mendapatkan informasi yang dibutuhkan (Devi et al., 2015; Glez-Peña et al., 2014; Haddaway, 2015; Mitchell, 2015; Singh & Goyal, 2017).

Setelah data diekstraksi, data tersebut dapat digunakan untuk analisis lebih lanjut atau untuk keperluan lain, data tersebut dapat disimpan dalam file atau disimpan pada sebuah basis data lokal. Lebih lanjut, penelitian yang dilakukan (Rahmatulloh &

Gunawan, 2020), web scraping diterapkan menggunakan HTML DOM yang mengambil data dari Google Scholar. Penelitian ini berhasil melakukan scraping data dan menampilkan datanya dalam bentuk website. Data yang ditampilkan seperti daftar profil peneliti, daftar afiliasi, daftar citasi serta daftar artikel yang dimiliki oleh masing-masing peneliti yang bisa dijadikan dalam bentuk output dokumen dengan format .pdf dan xlsx.

Tetapi pada penelitian ini belum membahas tentang penjadwalan secara otomatis ketika melakukan scraping data. Penelitian selanjutnya(Adila, 2022), membahas tentang scraping data pada website SINTA menggunakan pemrograman python dan pustaka Beautiful Soup. Penelitian ini berhasil melakukan web scraping data profil jurnal-jurnal

https://doi.org/10.30738/st.vol9.

no1.a14160

(3)

yang ada pada website SINTA yang tersimpan pada basis data lokal serta berhasil menerapkan penjadwalan otomatis menggunakan tool task scheduler yang ada di sistem operasi windows. Tetapi pada penelitian ini penjadwalan otomatis belum fleksibel, hanya diterapkan pada satu periode waktu saja. Penelitian selanjutnya (Putri et al., 2021), web scrapping diterapkan menggunakan HTML DOM yang mengambil data dari Google Scholar. Penelitian ini berhasil melakukan scraping data dan menampilkan datanya dalam bentuk website serta dapat difilter berdasarkan data fakultas. Tetapi pada penelitian ini belum menerapkan penjadwalan otomatis serta informasi yang ditampilkan belum disajikan dalam bentuk grafik.

Berdasarkan penelitian sebelumnya, peneliti bermaksud untuk mengimplementasikan web scraping pada Google Scholar sebagai profiling cepat para peneliti serta bisa dijadwalkan secara otomatis dan fleksibel dengan bantuan pemrograman python dan pustaka Beautiful Soup dalam bentuk website. Beautiful Soup sendiri merupakan pustaka pemrograman python yang bisa digunakan untuk menarik data dari file HTML dan XML (Zheng et al., n.d.).

Metode

Metode yang digunakan pada penelitian ini adalah menggunakan metode eksperimental dengan cara membuktikan output yang dihasilkan dengan output yang diinginkan. Pada tahapan data yang berhasil dikumpulkan berdasarkan id Google Scholar yang dimiliki peneliti kemudian akan dibandingkan dengan halaman web Google Scholar yang sebernarya. Adapun diagram alur pada tahapan ini adalah sebagai berikut:

Gambar 1. Diagram Alur Penelitian

(4)

Adapun penjelasan dari diagram alur penelitian di atas sebagai berikut:

1. Akses web Google Scholar peneliti: merupakan tahapan awal untuk mendapatkan informasi profil pada Google Scholar peneliti. Akses profil Google Scholar dilakukan dengan memanfaatkan ID Google Scholar yang sebelumnya sudah dimasukkan ke dalam basis data.

2. Baca tag HTML: merupakan tahapan lanjutan setelah proses akses web Google Scholar peneliti berdasarkan ID Google Scholar berhasil dilakukan kemudian akan dibaca semua tag HTML dari halaman web yang muncul.

3. Scraping data: setelah proses baca tag HTML dilakukan, selanjutnya adalah proses scraping data atau proses mengambil semua data pada halaman web kemudian menyimpannya dalam format tertentu yang bisa diolah kembali.

4. Ekstrak data: tahapan ini merupakan tahapan pemilihan informasi berdasarkan proses scraping data yang sebelumnya dilakukan. Tahapan ini bisa memilih informasi apa saja yang akan disimpan pada basis data lokal.

5. Simpan data: proses menyimpan semua informasi yang sebelumnya sudah dipilih melalui proses ekstrak data ke dalam basis data lokal sehingga data-data tersebut bisa dimanfaatkan kembali untuk keperluan profiling.

Kemudian untuk metode pengembangan sistem pada penelitian ini menggunakan metode RAD (Rapid Application Development). Metode ini bisa mempercepat proses pengembangan sistem dan meningkatkan mutu dari pengembangan sistem yang menggunakan pendekatan purwarupa sistem seperti pada gambar 2 (Aplikasi Pelaporan Kerusakan Jalan Suyanto et al., 2020; Dennis et al., 2012; Puteri & Effendi, 2018;

Trimahardhika & Sutinah, 2017).

Gambar 2. Purwarupa Sistem (Dennis et al., 2012)

Berdasarkan metode pengembangan di atas dapat dijelaskan sebagai berikut:

1. Planning: Merupakan fase awal dalam metode RAD, tim pengembang merencanakan dan memastikan bahwa semua sumber daya yang dibutuhkan tersedia.

2. Analysis: Fase ini melibatkan analisis secara menyeluruh dan pemahaman tentang kebutuhan pengguna dan spesifikasi sistem. Fase ini membantu menentukan bagaimana produk nantinya harus dirancang dan dibuat.

3. Design: Fase ini meliputi desain dan prototyping produk akhir. Prototype atau purwarupa ini kemudian akan diterima dan diuji oleh pengguna untuk memastikan bahwa produk tersebut memenuhi kebutuhan dan harapan pengguna. Jika belum sesuai dengan harapan maka pada fase ini akan terus diulang sampai memenuhi kebutuhan dan harapan pengguna.

4. Implementation: Fase ini meliputi pengembangan dan implementasi produk akhir.

Pada fase ini termasuk proses pemrograman sistem, pengujian sistem dan pemeliharaan sistem.

(5)

Selanjutnya merupakan diagram alur untuk perancangan penjadwalan otomatis menggunakan cron job. Cron job adalah sebuah perintah yang digunakan untuk menjalankan sebuah tugas secara terjadwal di masa yang akan datang dan penggunaan cron job biasanya digunakan untuk penjadwalan yang sifatnya berulang (Alipour & Liu, 2017) ditunjukkan pada gambar 3.

Gambar 3. Diagram Alur Penjadwalan Otomatis

Adapun penjelasan dari diagram alur di atas sebagai berikut:

1. Cron job every 5 minutes: Tahapan ini dilakukan pada server yang mana pada bagian crontab diberikan konfigurasi cron job setiap 5 menit. Ini berarti setiap 5 menit cron job akan jalan dan mengakses script tertentu.

2. Status = Aktif: Tahapan di mana setiap 5 menit cron job menjalankan sebuah script yang mana script tersebut akan melakukan query ke basis data untuk memeriksa apakah ada status penjadwalan yang sedang aktif.

3. Timediff = last_run+time_periode: Tahapan ini akan melakukan proses pengecekan antara proses terakhir dijalankannya penjadwalan dengan periode penjadwalan yang sudah diatur. Jika ada status penjadwalan yang aktif maka akan dilakukan pengecekan kembali apakah proses sinkronisasi perlu dilakukan.

4. Date_now == timediff: pada tahapan ini jika waktu sekarang sama dengan waktu penjadwalan yang sudah ditetapkan maka proses secara otomatis akan melakukan update pada field last_run dengan tanggal sekarang, hal ini bertujuan untuk memberi tahu jika proses sinkronisasi sudah pernah dilakukan sebelumya kemudian proses sinkronisasi dijalankan jika tidak maka proses sinkronisasi tidak perlu dijalankan.

(6)

Hasil dan Pembahasan

Berdasarkan proses penelitian yang telah dilakukan metode pengembangan yang digunakan adalah metode RAD (Rapid Application Development) yang dapat dijelaskan sebagai berikut:

Fase Planning dan Analysis

Pada fase ini akan dilakukan proses perencanaan, proses identifikasi serta menganalisis semua kebutuhan informasi yang muncul dan dibutuhkan. Fase ini menghasilkan spesifikasi kebutuhan sistem yang akan dikelola oleh administrator sebagai berikut:

Tabel 1. Analisis Kebutuhan Administrator

No Kebutuhan

1 Admin dapat login

2 Admin dapat mengelola data master dosen scholar 3 Admin dapat mengelola data master scholar data

4 Admin dapat mengelola data master dosen scholar data profil 5 Admin dapat mengelola data schedule

Fase Design

Pada fase ini akan dirancang sebuah desain prototyping sesuai dengan fase yang sudah ditentukan sebelumnya. Fase ini meliputi perancangan basis data serta activity diagram.

Perancangan Basis Data

Berikut adalah rancangan tabel yang digunakan:

1. Tabel Master Dosen Scholar

Tabel ini berisi nidn, nama, afiliasi, departemen, scholar_id, status, created_at, updated_at, deleted_at. Tabel ini digunakan untuk menyimpan data master dosen.

Berikut struktur dari tabel master dosen scholar (tbl_master_dosen_scholar):

Tabel 2. Atribut pada Tabel tbl_master_dosen_scholar

Column Name Data Type Description

id_master_dosen_scholar int(11) Primary Key

nidn varchar(100) NIDN dosen

nama varchar(100) Nama dosen

afiliasi varchar(100) Afiliasi dosen

departemen varchar(100) Departemen dosen

scholar_id varchar(100) Id google scholar dosen

status tinyint(1) Status/flag

created_at timestamp timestamp

updated_at timestamp timestamp

deleted_at timestamp timestamp

(7)

2. Tabel Master Dosen Scholar Data

Tabel ini berisi title, author, venue, citation, year, scholar_id, created_at, updated_at, deleted_at. Tabel ini digunakan untuk menyimpan data artikel dosen yang diambilkan dari google scholar. Berikut struktur dari tabel master dosen scholar data (tbl_master_dosen_scholar_data):

Tabel 3. Atribut pada Tabel tbl_master_dosen_scholar_data

id_master_dosen_scholar_data int(11) Primary Key

title text Judul artikel

author text Nama author

venue text Jurnal/tempat publikasi

citation text Jumlah citasi

year Year(4) Tahun terbit

deleted_at timestamp Timestamp

3. Tabel Master Dosen Scholar Data Profil

Tabel ini berisi hindeks, i10indeks, researcher, pict, affiliation, interest, citation_years, scholar_id, created_at, updated_at, deleted_at. Tabel ini digunakan untuk menyimpan data profil dosen yang diambilkan dari google scholar. Berikut struktur dari tabel master dosen scholar data profil (tbl_master_dosen_scholar_data profil):

Tabel 4. Atribut pada Tabel tbl_master_dosen_scholar_data_profil

id_master_dosen_scholar_data_profil int(11) Primary Key

hindeks text Hindeks

i10indeks text I10indeks

researcher text Nama dosen/peneliti

pict text Foto

affiliation text Afiliasi

interest longtext Bidang ilmu

citation_years longtext Jumlah Citasi

deleted_at timestamp timestamp

4. Tabel Schedule

Tabel ini berisi schedule_name, status, last_run. Tabel ini digunakan untuk menyimpan data konfigurasi penjadwalan otomatis. Berikut struktur dari tabel schedule (tbl_schedule):

Tabel 5. Atribut pada Tabel tbl_schedule

id_schedule int(11) Primary Key

schedule_name tinyint(1) Nama Skedul

status tinyint(1) Status/flag

last_run date Tanggal terakhir dijalankan

(8)

Pada kolom schedule_name berisi konfigurasi penjadwalan yang akan dijalankan secara otomatis pada tabel 6:

Tabel 6. Atribut schedule_name

No. Schedule Name Description

1 Every week Dijalankan setiap minggu dari tanggal terakhir dijalankan 2 Every month Dijalankan Setiap bulan dari tanggal terakhir dijalankan 3 Every quarter Dijalankan Setiap per tiga bulan dari tanggal terakhir dijalankan 4 Every semester Dijalankan Setiap per enam bulan dari tanggal terakhir dijalankan 5 Every year Dijalankan Setiap tahun dari tanggal terakhir dijalankan

Activity Diagram

Berikut activity diagram yang dibuat pada penelitian ini:

1. Activity Diagram Input Data Dosen

Pada activity diagram input data dosen ini dijelaskan bahwa jika menambahkan data dosen baru maka dimulai dari memilih menu dosen kemudian pilih input data dosen.

Gambar 4. Activity Diagram Input Data Dosen

2. Activity Diagram Scraping Data Profil Tunggal

Pada activity diagram scraping data profil tunggal ini dijelaskan bahwa jika ingin melakukan scraping data manual untuk masing-masing dosen maka dimulai dari memilih menu profil dosen kemudian pilih button synchronization.

Gambar 5. Activity Diagram Scraping Data Profil Tunggal

(9)

3. Activity Diagram Scraping Data Profil Semua Dosen

Pada activity diagram scraping data profil semua dosen ini dijelaskan bahwa jika ingin melakukan scraping data manual untuk semua dosen maka dimulai dari memilih menu GSDocuments kemudian pilih button synchronization.

Gambar 6. Activity Diagram Scraping Data Profil Semua Dosen

4. Activity Diagram Konfigurasi Penjadwalan Otomatis

Pada activity diagram konfigurasi penjadwalan otomatis ini dijelaskan bahwa jika ingin melakukan konfigurasi penjadwalan otomatis maka dimulai dari memilih menu Schedule, input konfigurasi penjadwalan otomatis kemudian simpan.

Gambar 7. Activity Diagram Konfigurasi Penjadwalan Otomatis

(10)

Fase Implementation

Fase ini dilakukan setelah rancangan pada fase design sudah dibuat, Adapun implementasinya sebagai berikut:

Implementasi Antarmuka Program

Rancangan antarmuka program digambarkan dan dijelaskan sebagai berikut:

1. Data Peneliti

Data peneliti digunakan untuk mengelola data-data dosen seperti nidn, nama, afiliasi, departemen, scholar_id, status, yang dimiliki oleh dosen ataupun peneliti.

Data ini hanya bisa dikelola oleh pengguna yang memiliki hak akses paling tinggi yaitu administrator. Pada menu ini yang menjadi atribut penting yaitu scholar_id, ketika scholar_id yang diinputkan salah maka proses scraping data profil dan penelitian pada google scholar akan gagal.

Gambar 8. Halaman List Data Peneliti

Pada menu ini juga disediakan fungsi untuk import data peneliti secara bulk menggunakan template excel yang sudah disediakan kemudian ketika ada yang duplikat maka akan diganti dengan data terbaru. Tampilan form input data secara bulk dapat dilihat pada gambar 9.

Gambar 9. Import Data Peneliti Secara Bulk

(11)

2. Profil Detail Karya Ilmiah Peneliti

Pada menu ini pengguna dapat melihat secara cepat detail profil karya ilmiah yang dimiliki oleh peneliti secara cepat dengan cara memilih nama peneliti yang muncul pada menu data peneliti. Menu ini menyajikan informasi-informasi yang sebelumnya didapatkan dari google scholar dengan beberapa tambahan fitur seperti chart total dokumen, chart dokumen yang memiliki citasi, chart dokumen yang belum memiliki citasi, chart citasi dokumen tiap tahun serta chart citasi dokumen yang diambilkan selama periode 5 tahun terakhir.

Gambar 10. Profil Detail Karya Ilmiah Peneliti

Kemudian pada menu ini juga tersedia button synchronization yang bisa digunakan untuk melakukan sinkronisasi data secara langsung ketika ada artikel atau karya ilmiah baru yang masuk ke dalam Google Schoolar. Serta sudah tersedia button export data karya ilmiah dalam bentuk format pdf dan excel.

3. Google Scholar Documents

Pada menu ini pengguna dapat melihat secara cepat detail semua jumlah dokumen yang dimiliki oleh peneliti. Pengguna juga dapat melakukan sorting data citasi dokumen dari citasi yang terbanyak ataupun melakukan sorting berdasarkan tahun terbit, total dokumen yang ada di dalam basis data aplikasi, total dokumen yang dicitasi ataupun yang belum mempunyai citasi.

Gambar 11. Google Scholar Documents

(12)

Kemudian pada menu ini juga terdapat export data-data peneliti dalam bentuk format pdf dan excel selain itu menu ini juga dilengkapi dengan button synchronization yang dapat digunakan untuk melakukan sinkronisasi dokumen yang ada di basis data dengan dokumen yang ada di google schoolar. Tetapi cara langsung seperti ini sebaiknya dihindari karena proses sinkronisasi akan melakukan pengecekan dan pengambilan semua data-data peneliti yang ada di basis data aplikasi, tentunya proses ini akan menghabiskan waktu yang lama dan mungkin saja akan terjadi time out pada aplikasi ketika tidak ditangani dengan baik. Untuk mengatasi kemungkinan time out dibuatlah satu menu penjadwalan otomatis yang akan dijalankan melalui background menggunakan cron job, pengaturan penjadwalan diatur secara dinamis melalui aplikasi, cron job hanya bertugas untuk melakukan pengecakan apakah ada proses sinkronisasi yang harus dijalankan melalui background atau tidak, sementara periode penjadwalan ditentukan sendiri secara dinamis oleh pengguna.

4. Schedule

Menu ini digunakan untuk mengatur proses sinkronisasi dokumen Google Scholar yang akan dijadwalkan secara otomatis atau periodik. Periode waktu yang disediakan untuk penjadwalan adalah setiap minggu sekali, setiap bulan sekali, setiap tiga bulan sekali, setiap enam bulan sekali, dan setiap tahun sekali. Pengguna bisa mengatur sendiri kapan proses sinkronisasi akan dilakukan, tentunya cara ini lebih baik dibandingkan melakukan sinkronisasi langsung melalui proses foreground.

Gambar 12. Halaman Pengaturan Schedule

5. Cron Job

Cron job dirancang dengan menjalankan sebuah script setiap 5 menit. Script akan melakukan query ke tabel penjadwalan untuk memeriksa apakah ada penjadwalan yang sedang aktif. Konfigurasi cron job diletakkan pada server dengan sistem operasi Linux ubuntu seperti pada gambar 13.

Gambar 13. Implementasi Cron Job

(13)

Pengujian Sistem

Pengujian sistem dilakukan dengan menggunakan metode black box testing. Hasil pengujian dapat dilihat pada tabel 7 berikut:

Tabel 7. Hasil Pengujian Black Box Testing

No Skenario Pengujian Hasil yang diharapkan Hasil

Pengujian Kesimpulan 1 Melakukan input id google

scholar yang salah

Sistem menggagalkan atau membatalkan proses

sinkronisasi

Sesuai

harapan Valid 2 Melakukan sinkronisasi tunggal

data profil google scholar manual melalui button synchronization

Sistem sukses melakukan

sinkronisasi Sesuai

harapan Valid 3 Melakukan sinkronisasi secara

masal data profil google scholar Sistem sukses melakukan

sinkronisasi Sesuai

harapan Valid 4 Melakukan input penjadwalan

otomatis dengan periode every week, every month, every quarter,

every semester, every year

Sistem melakukan sinkronisasi otomatis berdasarkan periode

Sesuai

harapan Valid 5 Melakukan pengaturan interval

waktu ketika menjalankan cron job

Sistem melakukan eksekusi script berdasarkan interval

waktu cron job

Sesuai

harapan Valid

Kesimpulan

Berdasarkan pembahasan dan hasil yang sudah dilakukan, maka dapat disimpulkan bahwa implementasi web scraping pada Google Scholar berhasil dilakukan dengan menggunakan pemrograman python serta pustaka Beautiful Soup. Proses sinkronisasi berhasil mengambil sebanyak 2983 dokumen yang berasal dari profil Google Scholar dan dapat mengkategorikan jumlah dokumen yang tercitasi ataupun yang belum tercitasi.

Selain itu data dokumen dapat diekspor ke dalam format .pdf ataupun .xlsx. Kemudian fitur penjadwalan sinkronisasi data Google Scholar berhasil dibuat dengan memanfaatkan cron job yang ada pada server. Penjadwalan sinkronisasi data Google Scholar menjadi lebih fleksibel dan dinamis karena langsung bisa diatur melalui menu schedule pada aplikasi. Untuk pengembangan selanjutnya bisa menambahkan fitur deteksi akreditasi jurnal yang terindeks di Google Scholar sehingga proses profiling artikel atau karya ilmiah bisa lebih detail lagi serta bisa menambahkan fitur indexing lain seperti Scopus dan Web of Science (WoS) sehingga profiling menjadi semakin lengkap.

Daftar Pustaka

Adila, N. (2022). Implementation of Web Scraping for Journal Data Collection on the

SINTA Website. Sinkron, 7, 2478–2485.

https://doi.org/10.33395/sinkron.v7i4.11576.

Alipour, H., & Liu, Y. (2017). Online machine learning for cloud resource provisioning of microservice backend systems. Proceedings - 2017 IEEE International Conference on Big Data, Big Data 2017, 2018-January, 2433–2441.

https://doi.org/10.1109/BIGDATA.2017.8258201.

Anam, S. (2022). Easy to Use Mendeley: Cara Mudah Menggunakan Mendeley dalam Penulisan Karya Ilmiah. Academia Publication.

(14)

Aplikasi Pelaporan Kerusakan Jalan Suyanto, P., Studi Sistem Informasi, P., Bina Darma Jl Jendral Ahmad Yani Nomor, U., & Ulu Palembang, S. I. (2020). Implementasi Rapid Application Development Dalam Pengembangan Aplikasi Pelaporan Kerusakan Jalan. JIPI (Jurnal Ilmiah Penelitian Dan Pembelajaran Informatika), 5(2), 89–97. https://doi.org/10.29100/JIPI.V5I2.1758.G820.

Dennis, A., Hallex Wixom, B., & M.Roth, R. (2012). Systems Analysis & Design (Fifth Edition). John Wiley & Sons, Inc.

Devi, R. S., Manjula, D., & Siddharth, R. K. (2015). An efficient approach for web indexing of big data through hyperlinks in web crawling. Scientific World Journal, 2015. https://doi.org/10.1155/2015/739286.

Glez-Peña, D., Lourenço, A., López-Fernández, H., Reboiro-Jato, M., & Fdez-Riverola, F. (2014). Web scraping technologies in an API world. Briefings in Bioinformatics, 15(5), 788–797. https://doi.org/10.1093/bib/bbt026.

Haddaway, N. (2015). The Use of Web-scraping Software in Searching for Grey Literature. Grey Journal, 11, 186–190.

Mitchell, R. (2015). Web Scraping with Python: Collecting Data from the Modern Web (1st ed.). O’Reilly Media, Inc.

Puteri, M. P., & Effendi, H. (2018). Implementasi Metode RAD Pada Website Service Guide “Tour Waterfall South Sumatera.” Jurnal Sisfokom (Sistem Informasi Dan Komputer), 7(2), 130–136.

Putri, A. F., Manik, G., Nabila, F., & Chamidah, N. (2021). Implementasi Scraping Google Scholar Menggunakan HTML DOM Untuk Pengumpulan Data Artikel Dosen UPN Veteran Jakarta Berbasis Web. Prosiding Seminar Nasional Mahasiswa Bidang Ilmu Komputer Dan Aplikasinya, 2(1), 668–678.

Rahmatulloh, A., & Gunawan, R. (2020). Web Scraping with HTML DOM Method for Data Collection of Scientific Articles from Google Scholar. Indonesian Journal of Information Systems, 2(2), 95–104. https://doi.org/10.24002/ijis.v2i2.3029.

Singh, A. K., & Goyal, N. (2017). Malcrawler: A crawler for seeking and crawling malicious websites. Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 10109 LNCS, 210–223. https://doi.org/10.1007/978-3-319-50472-8_17/COVER.

Sulistiyo, H., Hasanuh, N., & Manda, G. S. (2020). Teknik Menelusuri dan Memahami Artikel Ilmiah di Jurnal Nasional dan Internasional. Absolute Media.

Trimahardhika, R., & Sutinah, E. (2017). Penggunaan Metode Rapid Application Development Dalam Perancangan Sistem Informasi Perpustakaan. Jurnal Informatika, 4(2). https://doi.org/10.31294/JI.V4I2.2226.

Zheng, C., He, G., & Peng, Z. (n.d.). A Study of Web Information Extraction Technology Based on Beautiful Soup. https://doi.org/10.17706/jcp.10.6.381-387.