1 BAB I PENDAHULUAN
1.1 Latar Belakang
Seiring dengan perkembangan teknologi informasi yang maju seperti sekarang ini membuat orang semakin cepat dalam mengakses informasi. Informasi bisa didapatkan lewat internet atau online. Informasi yang paling sering di akses adalah berita. Hal tersebut diimbangi dengan penyedia layanan situs berita online di Indonesia yang semakin banyak. Banyak media cetak maupun televisi sekarang sudah mempunyai situs berita online sendiri.
Situs berita online memudahkan pengguna dalam membaca berita dimanapun dan kapanpun. Kebanyakan informasi yang ada di internet banyak yang bertele–tele dan banyak informasi yang tidak penting masuk di dalam berita tersebut (Putra, 2014). Sedangkan konten yang bagus dan unik dapat menarik banyak pengunjung website, itu merupakan kunci utama website atau situs online tersebut populer (Hardiono, 2010). Dengan banyaknya penyedia layanan situs berita online membuat pembaca harus berpindah–pindah situs berita untuk melihat berita yang bagus dan berbobot. Apalagi sekarang penyedia situs berita online tersebut mempunyai aplikasi mobile pembaca berita sendiri–sendiri. Dengan keadaan tersebut membuat pembaca berita harus memasang aplikasi lebih dari satu kalau ingin membaca berita dari berbagai sumber. Saat ini dibutuhkan aplikasi khusus untuk menggabungkan beberapa situs tersebut menjadi satu. Teknik web scraping tersebut yang cocok
1.1 Latar Belakangng
Seiring ddengan perkembangan tekeknologi informasi
yang maju seperti seekarang ini membuat oorang semakin
cepat dalam memengn aksesess infoinf rmrmasasi. Inforrmam si bisa
didaappatkan lewwatat iinternet atau onnlilinen . Informaasi yang
paalling ssererini g didi akses adalah beberita.. HaHal tersr ebut
d
diimmbaangngii deenngan penyedia layanan sittusu bbereritita a onlil ne di IIndndonesesia yang semakin banyak. Banyakk medediaia cettaka
maauupun ttelevisi sekarang sudah mempunyai siti uss bberitaa
on
onlil nee sendiri.
S
Situs berita online memudahkan penggunna ddala amm
membaaca berita dimanapun dan kapanpun. Keebanyakakann
informasi yang ada di internet banyak yang berteele–ttelee
dann banyak informasi yang tidak ppenting masuk ddii dalaamm
berita terseebubutt ((PuPutrtra,a, 201014)4). SSeddanggkakan konten yyanangg
b
bagus dan unik dapat menarariki banyak pengunjung webssititee,
it
itu mem rupakan kunci utama website atau situuss ononlilinne te
terssebebutut ppopopululere ((HaHardrdioionoo,, 20201010).. DDenengagann babanynyakaknya
peenynyedediaia llayayanananan sititusu beberitaa onlilinen mmemembubuatat pemembaca
harus beberrpindah–pindahh sittus berita ununtutukk melihat
berita yang bagus ddan berrbobot. Apalagi sekarang
penyedia situs beritita onlline tersebut mempunyai aplikasi mobile pembacaa beriita sendiri–sendiri. Dengan
keadaan tersebut membuatt peembaca berita harus memasang
2
digunakan untuk mengambil berita dari berbagai situs tersebut.
Web scraping merupakan teknik untuk mengambil informasi dalam suatu situs website secara otomatis (Riyadi, 2013). Fokus dari aplikasi web scraping adalah mengambil informasi dan mengekstrak informasi. Pengindeksan website mempunyai hubungan dengan web scraping, tetapi web scraping fokus pada transformasi website tidak terstruktur menjadi format data terstruktur (Zaira, 2010). Format data terstruktur tersebut dapat disimpan dan dapat dianalisa di database. Berita dari berbagai situs dapat diambil informasinya dengan teknik web scraping dan disimpan dalam database. Selain aplikasi pengambil informasi dari berbagai situs, dibutuhkan juga summarize berita untuk mendapatkan hasil summary beberapa berita menjadi satu.
Summarize berita berfungsi untuk meringkas beberapa berita menjadi satu paragraf. Paragraf yang didapatkan merupakan inti dari beberapa berita. Ringkasan berita bisa dari sumber yang sama dan bisa dari sumber yang berbeda. Peringkas Berita dari berbagai sumber merupakan proses penyaringan informasi penting dalam satu set dokumen untuk menghasilkan informasi yang relevan bagi pengguna (Evan, et al., 2014). Pengguna akan lebih cepat mengetahui inti berita yang dicari dengan fitur summarize berita ini. Summarize berita pada penelitian ini menggunakan metode TF-IDF (Term Frequency-Inverse Document Frequency). Peringkasan berita ini akan mengambil data yang dikumpulkan oleh web scraper di database.
informasi dalam susuatatu situs wewebsb ite secara otomatis
(Riyadi, 2013)). Fokus dari aplikasi wwebe scraping adalahg mengambil informasii dan mengekstrakak informasi.
Pengindedeksan weebsbsite mmemempupunynyaiai hhubungan ded ngan web
scraapping, tetaapipi web scraping fokg kusus paddaa trannsfs ormasi
weebbsitee ttiidak terstruktur t menenjaj di fforormat data t
tersstrrukukttur (Zaira, 2010). Format ddata a tetersrstrukktur
terssebebut dapat disimpan dan dapat ddiananalilisa ddi
daattabasee. Berita dari berbagai situs dappat ddiiambill
in
infof rmmasinya dengan teknik web scraping dang n disi imimpan
da
dalamm database. Selain aplikasi pengambil ini foormrmasii
dari berbagai situs, dibutuhkan juga summarizee berititaa
un
u tuk mendapatkan hasil summary beberapa berita menjy jadii
satutu.
Summarizize bbererititaa beerfrfununggsii ununtutuk meringgkakass b
beberapa berita menjadi sas tu paragraf. Paragraf yayanng
di
didadapapatkan merupakan inti dari beberapa beberiritata.
Ri
Ringngkakasasann beberiritata bbisisaa dadarii ssumumbeberr yayangng ssamamaa dadann bibisa
da
dariri ssumumbeberr yayang bberbebedda. Periringngkakass BeBeriritata dari
berbaggaiai ssumber merupakkan prroses penyariingnganan iinformasi
penting dalam satu set dokkumen untuk menghasilkan
informasi yang relevann bagi pengguna (Evan, et al.,
2014). Pengguna akan lebib h ceepat mengetahui inti berita
yang dicari dengan ffituur summarize berita ini.
3
Aplikasi yang dibangun memanfaatkan teknologi web scraping untuk mengambil data pada berbagai situs berita. Data berita yang diambil tersebut langsung masuk ke dalam database untuk disimpan. Data berita dalam database dapat ditampilkan pada aplikasi. Selain ditampilkan, data berita dapat diolah untuk di ringkas menjadi lebih mudah mengetahui inti yang dicari. Aplikasi untuk meringkas berita memanfaatkan metode TF-IDF. TF-IDF digunakan karena dapat memberikan nilai pada kalimat yang sebagai inti pada sebuah berita. Aplikasi untuk meringkas dan menampilkan berita dari berbagai sumber berjalan pada mobile device. Aplikasi mobile tersebut digunakan oleh pengguna secara umum. Pada sisi administrator akan mengatur scraping website yang berisi pengaturan URL(Uniform Resource Locator) dan rules.
Dengan adanya aplikasi ini memudahkan pengguna dalam membaca berita. Pengguna tidak harus melihat berita per situs atau mengunduh semua aplikasi berita, hanya dengan satu aplikasi dapat melihat semua berita dari berbagai sumber. Selain dapat melihat berita dari berbagai sumber, ada fitur peringkas berita yang akan memudahkan pengguna dalam mengetahui inti berita yang dicari.
masuk ke dalam daatatabase untukk ddisimpan. Data berita dalam databasee dapat ditampilkan paddaa aplikasi. Selain
ditampilkaann, data beririta dapat diolah untut k di ringkas
menjadii lebihh mumudahh memengngetetahahuii inti yangng dicari.
Apliikkasi untuk mmereringkas berita meemaanfn aatkt an metetode
TF-IDDFF. TF-F-IDIDFF digugunnakan karena ddapapata memembeberir kan nilai
p
padaa kkalalimatt yang sebagai inti pada a sebubuahah beriti a.
Apliikakasi uuntuk meringkas dan menampilkann bereritita daarir
beerrbagaii sumber berjalan pada mobile devicece. ApApllikasii
mo
mobib lee tersebut digunakan oleh pengguna seccaraa uumumum.
Pa
Pada sisi administrator akan mengatur r scrapingg webebsis tee
yang berisi pengaturan URL(Uniform Resource Locatoror))
dan rules.
Dengan adanyya aplikasi ini memudahkan pepenngguunana
dalam membbacaca bberiritata.. Pengnggugunana ttididakak hharus melihhatat
b
berita per situs atau mengngunduh semua aplikasi berrititaa,
ha
hanyyaa dengan satu aplikasi dapat melihat semuaua bbereritita
da
dariri bbererbabagagaii susumbmberer. SSelelaiinn dadapapatt memelilihahatt beberiritata ddari
be
berbrbagagaiai ssumumbeber,r, adada fitturur pereriingkgkasas bbererititaa yayangng akan
memudadahkhkanan pengguna dallam memengetahui inttii beberita yang
4 1.2 Rumusan Masalah
Berdasarkan dari latar belakang di atas, maka dapat di rumuskan permasalahannya sebagai berikut:
Bagaimana membangun aplikasi web scraper situs berita untuk mengumpulkan berita dari berbagai situs dan meringkas berita sesuai kriteria pengguna?
1.3 Batasan Masalah
Batasan masalah dalam aplikasi web scraper situs berita ini adalah :
1. Aplikasi terbagi menjadi 2 yaitu aplikasi untuk admin berbasis website dan aplikasi user pembaca berita berbasis mobile android.
2. Admin harus mengetahui struktur halaman website yang akan di scrap atau diambil datanya.
3. Sumber berita untuk sementara hanya bisa diambil dari kompas.com, tempo.co, okezone.com, sindonews.com, liputan6.com, dan detik.com.
1.4 Tujuan Penelitian
Berdasarkan rumusan masalah di atas maka ada beberapa tujuan yang ingin dicapai yakni:
Membangun aplikasi web scraper situs berita untuk mengumpulkan berita dari berbagai situs dan meringkas berita sesuai dengan kriteria pengguna. Bagaimana memmbabangun aplikkasasi web scraper situs r
berita ununtuk mengumpulkan beritita dari berbagai
situss dan merringkas berita sesusuai kriteria
penengguna??
1..3 Baatatasasan n Masaalalah B
Batatasa ann masalah dalam aplikasi weweb b scscrarapeper sitr i us
beriitata inii adalah :
1.AAplikasi terbagi menjadi 2 yaitu apllikasasii untukk
admin berbasis website dan aplikkasii usu err
pembaca berita berbasis mobile android.
2. Admin harus mengetahui struktur halaman websititee
yang akan di scrap atau diambil datanya.
3.Sumber berita untuk sementara hanyyaa bisasa
diammbibill ddariri kkomompap s..cocomm, ttempo.ccoo, okezone.comom,,
sindonews.com, lippututan6.com, dan detik.com.m.
1.
1.44 TuTujujuanan PPenenelelititiaian n
Be
Berdrdasasararkakann rumumusann masaallah didi aatatass mamakaka ada
beberaapapa ttujuan yang ingngin ddiicapai yakni:
Membangun aplikassi web sscraper situs berita untukr
mengumpulkan berrita daari berbagai situs dan
5 1.5 Metodologi Penelitian
Metode yang digunakan dalam pembangunan aplikasi ini yakni :
1. Kepustakaan
Metode ini dilakukan dengan cara mengumpulkan dan mempelajari berbagai sumber referensi yang ada, seperti buku-buku dan artikel-artikel di internet yang mendukung dalam perancangan dan implementasi aplikasi yang dibuat.
2. Pembangunan Perangkat Lunak
Metode pembangunan perangkat lunak mencangkup proses spesifikasi kebutuhan perangkat lunak, seperti antarmuka dengan pengguna (user interface) maupun kinerja (performance) perangkat lunak pada berbagai fungsi yang dirancang untuk dapat dilaksanakan oleh sistem. Dalam metode ini ada 4 sub metode, yaitu:
2.1 Analisis
Analisis kebutuhan merupakan bagian yang tidak bisa dipisahkan dari pengembangan perangkat lunak, dimana perangkat lunak yang akan dibuat nantinya akan disesuaikan dengan spesifikasi dan sistem-sistem pendukung lainya, baik itu perangkat keras maupun perangkat lunak. Hasilnya berupa spesifikasi kebutuhan perangkat lunak (SKPL).
2.2 Perancangan
Perancangan dilakukan untuk mendiskripsikan bagaimana perangkat lunak akan
dibangun. Perancangan yang dilakukan mulai dari perancangan arsitektur, perancangan antarmuka, 1. Kepustakaann
Metoodede ini dilakukan dengan n cara mengumpulkan
dan mmempelajari berbagai sumber rereferensi yang
addaa, sepperrtiti bukuku-u-bubukuku ddanan artikel-ara tikel di
internet yyanang mendukung daalaam m peerancanngag n dan
immplplememene tasii aplikasi yang ddibibuau t.
2.
2.PePembanangunan Perangkat Lunak
M
Metode pembangunan perangkat lunnaka mmenencac ngkukup
prooses spesifikasi kebutuhan perangkgkat llunakk,,
se
seperti antarmuka dengan pengguna (user iintere faface)
m
maupun kinerja (performance) perangkat luunak k papadaa
berbagai fungsi yang dirancang untukk dappatat
dilaksanakan oleh sistem. Dalam metode inni adada 44
sub metode, yay itu:
2.11 AAnalalisisisis
Analisis kkebebutuhan merupakan bagian yayanng
tidak bisa dipisahkan dari pengegembmbanangagan
pe
perarangngkakat lulunanak,k, ddimimananaa peperarangngkakatt lulunanak k yyang
ak
akanan dibibuat nan nttininya akan a didisesesusuaiaikakann dedengan
sp
spesifikasi dan sisteem-sistem pendudukukunng lainya,
baik itu perrangkat keras maupun perangkat
lunak. Hasilnyya beruupa spesifikasi kebutuhan
perangkat lunak (SKPLL).
2.2 Perancangaan
6
dan perancangan basis data. Hasilnya berupa Deskripsi Perancangan Perangkat Lunak (DPPL). 2.3 Pengkodean
Pengkodean adalah menyalin alur data dan alur sistem kedalam bahasa pemrograman. Dalam penelitian ini bahasa pemrograman yang digunakan adalah PHP (PHP:Hypertext Preprocessor) framework CodeIgniter, HTML5 (HyperText Markup Language 5), CSS3 (Casading Style Sheet 3), dan Javascript. Pengkodean yang dilakukan pertama adalah pengkodean alur data, kemudian dilanjutkan dengan pengkodean alur sistem.
2.4 Pengujian
Pengujian akan dilakukan dengan cara menguji fungsionalitas program yang dibangun. Pengujian dibagi menjadi 2 macam yaitu pengujian oleh ahli yaitu programmer dan pengujian oleh user. Hasil pengujian berupa Perancangan, Deskripsi dan Hasil Uji Perangkat Lunak (PDHUPL).
1.6 Sistematika Penulisan
Laporan ini ditulis dengan sistematika sebagai berikut :
BAB 1 : Pendahuluan
Bab ini berisi latar belakang masalah, rumusan masalah, batasan masalah, tujuan, metodologi penelitian, dan sistematika penulisan laporan.
Pengngkokodean adalahh mem nyalin alur data dan
alur ssiistem kedalam bahasa ppeme rograman. Dalam
peennelitian iini bahasa pemrogograman yang
digunaakaan n adadalalahah PPHPH (PHHP:P Hypertext Preproccesessosor) framework CCodo eIgng iter, HTML5
(
(HyHypep rTexxtt Markup Languaggee 5), CSCSS3S3 (Casas ding S
Stylee Sheet 3), dan Javascript. Pengngkokodedean yyang
diillakukan pertama adalah pengkodeaan alalurur datta,a
kemudian dilanjutkan dengan pengkokodeeanan alurr
sistem.
2.4 Pengujian
Pengujian akan dilakukan denggan cararaa
menguji fungsionalitas program yang diibangngun.
Pengujian dibagi menjaj di 2 macamm yaitutu
penggujujiian ololeheh ahhlili yyaititu pprogrammer dadann
pengujian oleh ussere . Hasil pengujian bererupupa
Perancangan, Deskripsi dan Hasil Uji PPereranangkgkaat
Lu
Lunanak k (P(PDHHUPUPL)L).
1.6 SiSiststemematika Penuliisas n
Laporan ini dituulis deengan sistematika sebagai
berikut :
BAB 1 : Pendahuluaann
Bab ini beriisii latar belakang masalah,
7 BAB 2 : Tinjauan Pustaka
Bab ini berisi penjelasan mengenai penelitian yang pernah dilakukan sebelumnya yang berkaitan dengan topik yang dibahas, dan penjelasan mengenai perbandingan antara penelitian yang sudah dilakukan sebelumnya dengan penelitian yang akan dilakukan.
BAB 3 : Landasan Teori
Berisi penjelasan mengenai dasar teori yang berkaitan dengan permasalahan yang dibahas.
BAB 4 : Analisis dan Perancangan Perangkat Lunak
Bab ini berisi penjelasan mengenai analisis permasalahan yang akan diatasi serta membahas mengenai perancangan perangkat lunak yang dibuat. BAB 5 : Implementasi dan Pengujian Perangkat Lunak Bab ini berisi penjelasan mengenai implementasi perangkat lunak yang dibuat dan gambaran umum sistem.
BAB 6 : Kesimpulan dan Saran
Bab ini berisi kesimpulan dari pembahasan secara keseluruhan beserta saran-saran yang bermanfaat untuk pengembangan lebih lanjut.
DAFTAR PUSTAKA LAMPIRAN
dengan topik yyaang dibahas, ddana penjelasan mengenai
perbandingngan antara penelititiana yang sudah
dilakukukan sebeluumnya dengan penelititian yang akan
diillakukan.n
BAB 3 : Laandndasa an Teori
Be
Berisi ppenjelasan mengenenaia dasasarar teorii yang
be
berkrkaitatan dengan permasalahan yangg dibbahahasas..
BA
BAB 44 : Analisis dan Perancangan Peranangkkatat LLunakk
Bab ini berisi penjelasan mengenaai ananaalisiss
p
permasalahan yang akan diatasi serta meme babahas
mengenai perancangan perangkat lunak yang dibubuatat.
BAB 5 : Implementasi dan Pengujian Perangkkata Lunakak
Bab ini berisi penjelasan mmenggeenaii
implementasi pperangkat lunak yang dibuuatat ddanan
gambaranan umum sisiststeem.
BAB 6 : Kesimpulan ddanan Saran
Bab ini berisi kesimpulan dari pepembmbahahasasaan
se
secacarara kkese elelururuhuhanan besbeserertata ssararanan-sasararann yyang
be
bermrmananfafaatat uuntukuk penngegembanangan lelebiihh lalanjnjutut..
DA