• Tidak ada hasil yang ditemukan

Ekstraksi Informasi Utama Halaman Web Be

N/A
N/A
Protected

Academic year: 2018

Membagikan "Ekstraksi Informasi Utama Halaman Web Be"

Copied!
9
0
0

Teks penuh

(1)

EKSTRAKSI INFORMASI UTAMA HALAMAN

WEB

BERITA

MENGGUNAKAN METODE

HYBRID

Septian Devid F.1, Yanuar Firdaus A. W.2, Z. K. Abdurahman Baizal3

1,2

Fakultas Informatika, Institut Teknologi Telkom 3Program Studi Ilmu Komputasi, Institut Teknologi Telkom

1[email protected], 2[email protected], 3[email protected]

Abstrak

Web di internet telah menjadi repository data yang luar biasa besarnya. Telah banyak upaya yang dilakukan untuk menyediakan akses yang efisien terhadap informasi yang relevan di dalam repository data yang sangat besar ini. Salah satu cara untuk menyediakan akses yang efisien ini adalah dengan cara web news content extraction yang memiliki fokus utama mengambil informasi dalam web berita. Pada penelitian ini diimplementasikan metode hybrid untuk mengekstrak informasi utama pada halaman web berita. Teknik ini berusaha mengambil keuntungan dari teknik sequence matching dan tree matching. Struktur data yang digunakan adalah TSReC, yang merupakan salah satu representasi tag sequence yang sesuai untuk kedua teknik sequence matching dan tree matching. Tahap analisis dan pengujian memberikan hasil bahwa metode hybrid yang dibangun terbukti bisa mendapatkan news content pada halaman web berita meskipun pada beberapa dataset masih terdapat noise.

Kata Kunci: web news content extraction, sequence matching, tree matching, TSReC, metode hybrid

Abstract

Web on the internet has become an enormous repository of data. Many efforts to provide efficient access to the relevant information in the very large of data repository. One method to provide efficient access is by web news content extraction with primary focus to take the information in the web news. In this research implemented a method to extract key information on news web pages by using the Hybrid method. This technique is trying to take advantage of the sequence matching techniques and tree matching. The data structure used is TSReC, a variant of tag sequences representation suitable for both sequences matching techniques and tree matching. From analysis and test results stage shown that that Hybrid method is built proved to can get news content on news web pages, although in some datasets, there are still noise.

Keywords: web news content extraction, sequence matching, tree matching, TSReC, hybrid method

1. Pendahuluan

Sejak lahirnya internet, informasi dalam web berkembang secara pesat. Masyarakat yang sebelumnya menggunakan media konvensional sebagai sarana publikasi informasi seperti surat kabar, majalah, tabloid, pamflet, dan sebagainya, mulai beralih memanfaatkan internet karena dirasa lebih efisien dalam mempublikasikan informasi yang mereka hasilkan ataupun untuk mencari informasi yang mereka kehendaki. Akibatnya, informasi yang beredar di internet terus meningkat secara eksponensial.

Informasi yang ditampilkan dalam internet biasanya berupa halaman web yang berformat HTML. Dalam suatu halaman web terdapat berbagai macam informasi yang dapat ditampilkan, walaupun sebenarnya hanya sebagian kecil dari halaman tersebut inti informasi yang ingin disampaikan. Ada berbagai informasi tambahan dari suatu halaman web yang tidak ada hubungannya dengan konten utama dari web tersebut yang disebut dengan noise. Informasi tambahan tersebut diantaranya adalah panel navigasi, event, rela ted links, copyright, sinopsis suatu berita, berbagai macam iklan, dan

lain-lain yang secara keseluruhan bertujuan untuk mempermudah pengguna dalam mengakses informasi dalam halaman web tersebut.

Saat ini para pengguna internet yang akan mengakses informasi lebih dimudahkan dengan adanya layanan mesin pencari yang beragam jenisnya, salah satunya adalah mesin pencari berita yang memiliki fokus utama pada halaman web berita. Dalam sistem mesin pencari ada yang dinamakan dengan proses indexing yang berfungsi untuk untuk mengoptimalkan kecepatan dan kinerja dalam menemukan dokumen yang relevan untuk permintaan pencarian. Tanpa index, mesin pencari akan memeriksa setiap dokumen dalam koleksi dokumen, yang akan memerlukan banyak waktu dan daya komputasi. Secara logika hasil dari suatu query dari mesin pencari akan lebih baik jika proses indexing dilakukan dengan content indexing saja dari suatu halaman website. Oleh sebab itu, diperlukan suatu proses yang dapat memisahkan content utama halaman web dari noise, proses ini disebut dengan ekstraksi web yang menjadi fokus utama dalam penelitian ini.

(2)

Wide Web Consortium), hal ini dapat dilihat dari hasil validasi menggunakan markup validator [11]. Masih banyak halaman web memiliki struktur tag yang belum valid. Oleh sebab itu, nantinya sistem ekstraksi web yang dibangun akan diujikan pada dua jenis dataset yaitu mentah dan valid untuk mengetahui pengaruhnya pada performansi sistem. Adapun dalam penelitian ini metode ekstraksi web yang digunakan untuk mengambil informasi utama dari halaman web berita adalah dengan metode hybrid yang merupakan kombinasi atau penggabungan dari konsep tree dan konsep tag sequence.

Tujuan penelitian ini adalah untuk melakukan implementasi ekstraksi informasi utama halaman web berita dengan menggunakan metode hybrid serta melakukan analisis pengaruh penggunaan jumlah dataset yang digunakan dengan kinerja yang ditunjukkan. Selain itu juga akan dilakukan analisis dari perbedaan kinerja dataset mentah dengan dataset yang telah divalidasi dengan validator W3C berdasarkan parameter uji.

Sistematika penulisan hasil penelitian ini meliputi pendahuluan, dasar teori, implementasi, pengujian, dan kesimpulan. Dasar teori yang membahas teori dan teknik yang berkaitan dengan algoritma yang digunakan dalam penelitian ini, sedangkan implementasi meliputi meliputi proses desain template untuk pengenalan pola halaman web berita, melakukan sequence dan tree matching. Bagian pengujian berisi hasil pengujian dan analisis performansi berdasarkan data set yang digunakan. Bagian terakhir yaitu kesimpulan menyatakan resume akhir dari hasil pengujian dan analisis yang telah dilakukan.

2. Web Mining

Web mining dapat dibagi menjadi tiga kategori utama, yaitu content mining, usage mining, dan structure mining

.

Web content mining yaitu merupakan aplikasi untuk menggali, mengekstrak, dan menggabungkan data, informasi dan pengetahuan yang bermanfaat dari isi halaman web [8]. Data web content terdiri dari:

a. unstructured data (teks bebas),

b. semi structured data (dokumen HTML), dan c. more structured data (data pada tabel, DB yang

dihasilkan halaman HTML).

Pada penelitian ini memfokuskan kepada web content mining. Web content mining terkadang disebut juga web text mining karena isi teks lebih sering digunakan sebagai penelitian. Teknologi yang biasanya digunakan web content mining adalah NLP dan IR [5,9], tetapi pada penelitian ini memfokuskan kepada IR. Kegunaan web content mining pada World Wide Web antara lain menemukan informasi yang relevan dan menciptakan pengetahuan dari informasi yang ada, sehingga informasi dalam jumlah yang banyak di situs web tetapi mudah untuk

mengaksesnya. Informasi tersebut berupa semi-structured dengan kode HTML, yang mana biasanya halaman web berisi campuran informasi seperti isi utama, iklan, panel navigasi, copyright notice, logo, dan lain-lain.

3. Konsep Metode Hybrid

Metode yang digunakan dalam penelitian ini mencoba untuk mengkombinasikan keuntungan dari teknik berbasis tag sequence dan tree, sehingga disebut sebagai solusi metode hybrid yang diharapkan lebih efisien dan efektif. Gambaran umum dari teknik ini adalah:

a. Menggunakan struktur data representasi halaman web yang diberi nama TSREC (Tag Sequence with Region Code) [7], yang dapat menyimpan informasi struktur pohon yang dibutuhkan. Representasi ini dibangun dari satu kali penindaian HTML dan prose pengkodean region code, sangat cocok sekali untuk tag sequence based dan tree based extraction.

b. Menggunakan algoritma yang efektif berdasarkan TSReC yang berisi dua prosedur yaitu Sequence Matching dan Tree Matching[7]. Prosedur pertama dapat mendeteksi dan menghilangkan bagian yang identik dari halaman web berita, seperti navigation bars, copyright notes. Prosedur yang kedua dapat melakukan matching dan menghilangkan struktur yang sama dari web news pages, seperti advertisement dan activities. Sebagai hasilnya, algoritma ini bisa membedakan web news content dari bagian yang lainnya.

(3)

3.1 Definisi Template

Template adalah merupakan halaman web yang belum lengkap yang dijadikan dasar dan dapat di-generate menjadi halaman web yang lengkap dengan mengisi reserved field dengan nilai tertentu (Gambar 1). Template biasanya terdiri atas common part, regular part, dan content part [7]:

a. Common part merupakan reserved teks yang tidak dapat diganti

b. Regular part merupakan reserved rigid structure yang berisi field yang belum terisi yang disiapkan untuk diisi dengan nilai tertentu. c. Content part merupakan reserved area yang

dapat diisi dengan html fragment yang acak/random.

3.2 Tag Sequence with Region Code (TSReC)

Ide dasar dari tag sequence region code adalah memperluas fungsionalitas dari teknik tag sequence yang telah ada dengan menambahkan informasi struktural. Informasi struktural ini mengadopsi konsep region code pada XML processing[6] yang telah terbukti merupakan cara yang ideal menambahkan informasi struktural pada penyimpanan berbasis element. Dengan region code ini, semua relasi struktural seperti parent-child, ascent-decedent dan sibling dapat disimpan.

Algoritma buildTSReC(w) /* w merupakan input 04 int count, level, parent

05 while t = readNextTerm(w) do

Algoritma 1. Build TSReC [7]

Definisi TSReC adalah sequence dari tag-tag element HTML yang memiliki struktur sebagai berikut [7]:

TS = < N,RCb,RCe,RCp,RCl,C>

dengan:

a. N merupakan nama dari TS, biasanya memiliki nama yang sama dengan tag HTML-nya. b. RCb, RCe, RCp, dan RCl adalah region code,

yang equivalent dengan tag begin, tag end, parent, dan level.

c. C merupakan content dari TS, yang bisa saja berisi inner HTML dan teks, ataupun kosong.

TSReC dapat dengan mudah dibangun dengan satu kali scan Web page. Algoritma untuk membangun TSReC merupakan modifikasi dari algoritma konvensional untuk membangun tag tree. Algoritma 1 menunjukkan algoritma untuk membangun TSReC

3.3 Sequence Matching untuk Common Part

Tujuan dari sequence matching adalah untuk mencari common part dari halaman web yang akan diekstrak. Untuk melakukan proses ini, metode hybrid mencoba untuk mengadopsi teknik penghitungan string edit distance atau biasa juga disebut Levenshtein Distance[4]. Operasi yang dilakukan dalam string edit distance di antaranya adalah insert, delete dan substitute[1]. Maksud dari edit distance ini sendiri adalah menghitung jumlah minimum dari operasi insert, delete dan substitution yang dilakukan untuk mengganti string S1 menjadi S2 [2]. Sebagai contoh, edit distance antara “kitten”

dan “sitting” adalah 3, nilai tersebut berasal dari 3

operasi yang dilakukan, yaitu:

a. kitten → sitten (substitution 's' untuk 'k') b. sitten → sittin (substitution 'i' untuk 'e') c. sittin → sitting (insert 'g' diakhir string)[4].

Sehingga pemetaannya adalah:

K i t t e N -

S i t t i N g

Algorithm sequenceMatch(t1,t2)

01 int t1size = sizeof(t1) 02 int t2size = sizeof(t2) 03 int M[t1size+1][t2size+1] and content text then

12 match = 0

(4)

Algoritma 2, sequence matching ini menggunakan input berupa dua halaman web yang telah direpresentasikan dalam TSReC. Seperti perhitungan konvensional string edit distance, algoritma ini juga menggunakan teknik dynamic programming (baris 03-19). Dynamic programming digunakan karena efisien dalam pencarian solusi optimal untuk problem yang memiliki banyak overlapping sub-problem [10

].

Berbeda dengan string edit distance yang membandingkan karakter di dalam string, algoritma ini membandingkan TS di dalam TSReC (baris 11). Jika kedua TS yang dibandingkan memiliki nama tag dan konten teks yang sama, maka kedua TS tersebut dianggap sama (cocok).

3.4 Tree Matching untuk Regular Part

Pada metode hybrid, sebelum proses tree matching, terlebih dahulu dilakukan proses grouping. Tujuan dari proses grouping adalah untuk mencari tag-tag didalam TSReC yang berada dalam satu sub tree.. Metode grouping ini cukup sederhana yaitu dengan mengecek parent dan tree level TS yang sibling. Jika TS yang sibling memiliki parent dan level tree yang sama, maka TS tersebut berada dalam subtree yang sama sehingga dimasukkan dalam group yang sama dengan cara memperluas jangkauan group region. Sebaliknya jika tidak memiliki parent dan level tree yang sama maka group yang baru akan diciptakan..

Hasil dari proses grouping ini berupa sub tree yang kemungkinan regular atau content parts. Sehingga proses selanjutnya yang akan dilakukan adalah proses untuk membedakan regular part dari bagian yang lainnya. Penentuan apakah suatu sub tree di dalam Web page adalah regular part dihitung dengan membandingkannya dengan sub tree di Web page lain yang sharing rigid pattern.

Fungsi lain yang perlu diperhatikan pada algoritma tree matching adalah fungsi compact Group. Fungsi ini didesign untuk menangani field yang berulang pada regular parts. Pada algoritma compactGroup, dilakukan pengecekan apakah node sibling memiliki patten sequence yang sama.

Setelah proses tree matching, sistem telah dapat mengidentifikasi baik common parts (dengan sequence matching) dan regular parts. Maka sisa bagian dari halaman web merupakan bagian content parts yang dibutuhkan. Dengan mengembalikan bagian ini akan didapatkan content halaman berita yang dibutuhkan.

4. Pengukuran Performansi

Dalam penelitian ini ada tiga parameter yang digunakan untuk mengetahui tingkat keberhasilan sistem yang dibangun, yaitu precision, recall, dan F-Measure.

4.1 Precision, Recall, dan F-Measure

Precision merupakan perbandingan dari pengembalian dokumen yang relevan. Bisa

dikata-kan bahwa precision merupadikata-kan pecahan atau fraction dari dokumen yang didapatkan yang relevan dari informasi yang diinginkan [3].

Precision =

R’: Retrieved Document

Recall merupakan perbandingan dari dokumen relevan yang sudah dikembalikan. Atau bisa dikatakan bahwa recall merupakan fraction dari dokumen yang relevan berdasarkan query atau permintaan yang sukses dijawab atau dikembalikan [3]. Gambar 2 menyajikan illustrasi dari P recision

R’: Retrieved Document

F-Measure didefinisikan sebagai kombinasi dari recall dan precision dengan bobot yang seimbang, rumusan dari F-Measure adalah sebagai berikut [3]:

5. Deskripsi Sistem

Objektivitas yang ingin dicapai dari hasil penelitian ini yakni diharapkan pengguna dapat mengekstrak informasi dari konten beberapa web berita secara otomatis dan mendapatkan nilai akurasi yang dicapai dengan metode hybrid.

Sistem dibangun menggunakan PHP dengan user interface yang user fiendly sehingga hasil dari sistem akan mudah untuk dioperasikan. Data mentah yang masih dalam bentuk halaman web dan masih mengandung common parts dan regular parts akan diletakkan dalam direktori sesuai nama situs dengan sebelumnya dilakukan proses crawling suatu website dengan menggunakan tools Teleport ataupun secara manual. Setelah dilakukan proses pengekstrakan, content berita yang didapatkan disimpan di database untuk dihitung akurasinya dan selanjutnya disimpan dalam bentuk file txt. Deskripsi sistem ditunjukkan pada Gambar 3.

(5)

6. Pengujian dan Analisis

6.1 Skenario Pengujian

Secara garis besar pengujian yang dilakukan dibagi dalam dua tahap. Pada tahap pertama (skenario 1) pengujian dilakukan untuk mengetahui pengaruh jumlah dataset terhadap performansi sistem yang sudah dibangun. Pada tahap kedua (skenario 2,3) dilakukan perbandingan performansi antara dataset mentah dan dataset yang telah di validasi oleh validator W3C.

Adapun rincian skenario pengujian yang dilakukan terhadap sistem ini adalah sebagai berikut: a. Pengujian terhadap pengaruh banyaknya jumlah

dataset yang digunakan terhadap performansi sistem.

b. Pengujian terhadap performansi sistem Web News Content Extraction TSReC yang telah dibangun pada dataset halaman web berita yang masih belum memenuhi standar W3C.

c. Pengujian terhadap performansi sistem Web News Content Extraction TSReC yang telah dibangun pada dataset halaman web berita yang telah divalidasi dengan HTML validator standar W3C.

6.2 Data Uji yang Digunakan

Data uji yang digunakan adalah beberapa halaman web dari berbagai situs berita, dengan 5 kriteria halaman web yang telah memuat content berita secara utuh, bukan cuma headline saja.

Saving

Gambar 3. Deskripsi Sistem

Halaman web yang digunakan sebagai dataset dari berbagai kategori seperti olah raga, politik, budaya, internasional, hiburan dan kategori lainnya (tidak ada ketentuan dalam hal ini). Secara detil website yang digunakan sebagai dataset sejumlah sepuluh website, yaitu:

i. www.pikiran-rakyat.com, dan j. www.vivanews.com

yang masing-masing diambil 51 halaman, dengan komposisi 1 halaman sebagai page reference dan 50 halaman sebagai halaman yang diekstrak. Tidak ada ketentuan khusus dalam penentuan jumlah dataset ini. Jumlah dataset ini diambil dengan pertimbangan untuk mengakomodasi keragaman pola layout dari beragam situs dan untuk mencoba mengetahui adanya perbedaan layout pada beberapa halaman yang berasal dari situs yang sama.

6.3 Analisis Hasil Pengujian

6.3.1 Analisis Pengaruh Jumlah Data terhadap Performansi Sistem

Pengujian ini dilakukan untuk mengetahui keterkaitan antara jumlah da taset yang digunakan dengan performansi yang dihasilkan oleh sistem. Berdasarkan Gambar L-1 dan L-2 pada Lampiran dapat diketahui bahwa pada situs Antara News, Berita Jakarta, BBC Indonesia, Detik, Kompas, Liputan 6, Okezone, dan Viva News jumlah dari dataset yang digunakan tidak terlalu berpengaruh terhadap performansi sistem, hal tersebut terlihat dari grafik yang cenderung stabil walaupun jumlah dataset terus bertambah. Selisih nilai minimum dan maksimum F-Measure dari kedelapan situs tersebut juga sangat kecil, yaitu:

a. Antara News : 0,0763

(6)

atau dengan kata lain berapapun jumlah dataset yang digunakan, performansi system akan cenderung stabil.

Untuk dua situs yang tersisa, yaitu Media Indonesia dan Pikiran Rakyat, cenderung tidak memiliki pola tertentu. Pada situs Media Indonesia ketika dataset berjumlah antara 2 sampai 21, nilainya cenderung turun naik dengan angka yang cukup signifikan, tercatat nilai minimum sebesar 0,4457 dan nilai maksimum sebesar 0,7596 sehingga nilai selisihnya yaitu 0,3139. Akan tetapi ketika interval dataset berjumlah 22 keatas performansi yang didapat cenderung stabil dengan selisih nilai minimum dan maksimum sebesar 0,0914.

Sama halnya dengan Media Indonesia, situs Pikiran Rakyat pun memiliki pola yang sama. Interval 2-19 performansi yang ditunjukkan cenderung turun naik dengan nilai yang cukup signifikan dengan nilai minimum 0.0618, nilai maksimum 0,2170 dan selisih sebesar 0,1552. Sedangkan interval 20 – 51 performansi cenderung stabil dengan selisih nilai minimum dan maksimum sebesar 0,0558.

Setelah diperiksa, tidak stabilnya performansi tersebut ternyata terjadi karena walaupun halaman website yang dijadikan dataset saling berhubungan namun terdapat perbedaan yang cukup besar pada layoutnya yaitu pada bagian content part. Sehingga performansi yang ditunjukkan cenderung tidak stabil.

Dari sini dapat diambil kesimpulan bahwa dengan dataset yang cocok dan sesuai dengan metode yang digunakan (seperti pada situs Antara News, Berita Jakarta, BBC Indonesia, Detik, Kompas, Liputan 6, Okezone, dan Viva News), maka pertambahan jumlah dataset tidak akan mempengaruhi performansi sistem.

6.3.2 Analisis Perbandingan Penggunaan Data Mentah dan Valid terhadap Performansi Sistem

Tabel 1 menyajikan hasil analisis performansi system dengan menggunakan dataset mentah dan valid.

Tabel 1. Hasil Pengukuran Performans Tabel dengan Dataset Mentah

No Situs Jumlah Dataset Precision Recall F -Measure 1 Antara News 50 0,6898 0,0751 0,1192 2 BBC Indonesia 50 0,9053 0,9809 0,9397 3 Berita Jakarta 50 0,8735 0,9886 0,9272

4 Detik 50 0,3270 0,9289 0,4759

5 Kompas 50 0,8377 0,9734 0,8947

6 Liputan 6 50 0,8297 0,9837 0,8902

7 Media Indonesia 50 0,7059 0,7069 0,6486

8 Okezone 50 0,8837 0,9492 0,9101

9 Pikiran Rakyat 50 0,6060 0,2125 0,2459

10 Vivanews 50 0,7197 0,9550 0,8178

RATA-RATA 0,7378 0,7754 0,6869

Tabel 2. Hasil Pengukuran Performansi Tabel dengan Dataset Valid

No. Situs Jumlah Dataset Precision Recall F-Measure 1 Antara News 50 0.6898 0.0751 0.1192 2 BBC Indonesia 50 0.9052 0.9809 0.9396 3 Berita Jakarta 50 0.8764 0.9886 0.9288

4 Detik 50 0.3264 0.9343 0.4760

5 Kompas 50 0.8377 0.9734 0.8947 6 Liputan 6 50 0.8270 0.9838 0.8887 7 Media Indonesia 50 0.7052 0.7077 0.6492 8 Okezone 50 0.8862 0.9559 0.9149 9 Pikiran Rakyat 50 0.5603 0.2004 0.2255 10 Vivanews 50 0.7198 0.9550 0.8178

RATA-RATA 0,7295 0,7755 0,7295

Gambar 4. Grafik Perbandingan F-Measure Dataset Mentah dan Valid

Dari Tabel 1 dan 2 serta Gambar 4 dapat diketahui bahwa, hasil yang diperoleh dari dataset valid cenderung sama dengan dataset mentah, Situs-situs yang mendapatkan nilai tinggi (memiliki kecocokan dengan metode hybrid) pada dataset mentah, juga mendapatkan nilai tinggi pada dataset valid, begitu pula dengan situs-situs yang mendapatkan nilai F-Measure rendah pada dataset mentah juga mendapatkan nilai rendah pada dataset valid, Nilai F-Measure ini bisa sama, karena dalam preprocessing, term-term yang dihilangkan mungkin bukan informasi yang penting dari dataset tersebut.

6.3.3 Analisis Tambahan Peningkatan Performansi

Tujuan dari pengujian ini memperbaiki performansi yang didapatkan oleh situs Antara News dan Pikiran Rakyat, pengujian ini dilakukan dengan cara memberikan batasan jumlah term dari suatu content, sehingga apabila jumlah term suatu group melebihi batas yang telah ditentukan, maka proses compact group akan dibatalkan, Hal ini dapat meminimalisir terjadinya proses kesalahan compact group.

(7)

Gambar 5. Grafik Penentuan Batasan Jumlah Term Antara News

Gambar 6. Grafik Perbandingan Nilai F-Measure Dataset Antara News Tanpa Batasan

dan Dengan Batasan Jumlah Term

Gambar 7. Grafik Penentuan Batasan Jumlah Term Pikiran Rakyat

Gambar 8. Grafik Perbandingan Nilai F-Measure Dataset Pikiran Rakyat Tanpa Batasan dan

Dengan Batasan Jumlah Term

Dari Gambar 5 dapat diketahui bahwa performansi sistem di antara interval 10 – 250 memiliki pola naik sampai nilai tertentu dan kemudian turun teratur secara stabil, Nilai performansi tertinggi didapatkan saat batasan jumlah term berada antara interval 80 – 100 yaitu sebesar 0,9610.

Dari Gambar 6 dapat diketahui bahwa nilai F-Measure yang diperoleh tanpa batasan jumlah term sebesar 0,1192 dan nilai F-Measure dengan menggunakan batasan jumlah term sebesar 0,9610. Dari nilai tersebut dapat diperoleh kenaikan performansi yang cukup signifikan sebesar 0,8418.

Sama seperti dataset Antara News, kenaikan performansi dataset Pikiran Rakyat juga cukup signifikan yaitu sebesar 0,7139 yang diperoleh dengan mengambil nilai tertinggi F -Measure yaitu sebesar 0,9598 (Gambar 7 dan 8).

Dari kedua pengujian yang telah dilakukan, dapat disimpulkan penggunaan batasan jumlah term merupakan cara yang cukup efektif untuk menaikkan performansi sistem jika ternyata proses ekstraksi yang dilakukan menghasilkan performansi kurang baik akibat kesalahan proses compact group dalam melaksanakan fungsinya.

7. Kesimpulan dan Saran

7.1 Kesimpulan

Berdasarkan analisis dan pengujian terhadap sistem yang telah dilakukan maka dapat diambil beberapa poin kesimpulan sebagai berikut:

1. Penggunaan jumlah dataset yang berbeda memiliki pengaruh yang bervariasi terhadap performansi parameter precission, recall, dan F-measure yang ditunjukkan, hal ini tergantung dari tingkat similarity page reference dengan page extracted, Semakin similar maka performansi yang ditunjukkan semakin stabil. 2. Penggunaan dataset mentah maupun valid juga

memiliki pengaruh yang bervariasi terhadap performansi precision, recall dan F-measure, tergantung dari proses validasi yang dilakukan oleh validator.

3. Penggunaan batasan term terhadap suatu group (TS yang berada dalam subtree yang sama / sibling ), dapat digunakan sebagai solusi yang sangat efektif untuk meningkatkan performansi sistem jika terjadi kesalahan fungsi proses compact group.

7.2 Saran

Beberapa saran untuk penelitian lebih lanjut, yaitu: 1. Sistem ini akan lebih baik jika

diimplementasikan secara online (misal sebagai plugin browser).

(8)

Daftar Pustaka

[1] Bille, Philip, "String Edit Distance and Alignment", Tutorial, 2005.

www.itu.dk/courses/AVA/E2005/StringEditDi stance.pdf, diakses pada 20 Oktober 2009. [2] Dynamic Programming Algorithm for Edit

Distance, http://www.csse.monash.edu.au/ ~lloyd/tildeAlgDS/Dynamic/Edit/ , diakses tanggal 15 Juli 2009.

[3] IR Evaluation, Lecture 9, Lecture Notes of Information Retrieval, Computer Science and Electrical Engineering, University of Maryland,

URL:http://www.cs.umbc.edu/~ian/irF02/lectu res/09Evaluation.pdf

[4] Gonzalo, Navarro, "A guided tour to approximate string matching", ACM

Computing Surveys, 33(1): 31 – 88, 2001. [5] Kosala, Raymond, Hendrik Blockeel, "Web

Mining Research: A Survey", ACM SIGKDD Conference on Knowledge Discovery and Data Mining, July 2000.

[6] Li, Quanzhong, Bongki Moon, "Indexing and Querying XML Data for Regular Path Expressions", In Proceedings of the 27th VLDB Conference, Roma, Italy, 2001.

[7] Li, Y, X. Meng, Q. Li, L. Wang, "Hybrid Method for Automated News Content Extraction from the Web", In Proceedings of 7th Conference on Web Information System Engineering , 327 – 338, 2006.

[8] Liu, Bing, "Web Content Mining", University of Illinois at Chicago, Tutorial, 2005.

http://www.frenchlane.com/WebContent-Mining-4.pdf, diakses tanggal 17 Januari 2009.

[9] Madria, Sanjay Kumar, "Web Mining: A

Bird’s Eye View", University of Missouri-Rolla, Tutorial, 2007.

http://mandolin,cais,ntu,edu,sg/wise2002/web-mining-WISE-30,ppt, diakses tanggal 24 Juli 2009.

[10] McCallum, Andrew, "String Edit Distance (and Intro to Dynamic Programming)", Tutorial, 2006.

www.cs.umass.edu/~mccallum/courses/cl2006 /lect4-stredit.pdf, diakses tanggal 12 Juni 2009 [11] W3C Opensource, "Markup Validation

(9)

Lampiran

Gambar L-1. Grafik Pengaruh Jumlah

Dataset

Mentah Terhadap Akurasi Sistem

Gambar L-2. Grafik Pengaruh Jumlah

Dataset

Mentah Terhadap Akurasi Sistem

0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49

F

-M

e

a

s

u

r

e

Jumlah Dataset

Grafik Pengaruh Jumlah Datasetterhadap F-Measure

BBC Indonesia

Berita Jakarta

Kompas

Liputan 6

Okezone

Vivanews

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

1 3 5 7 9 1113151719212325272931333537394143454749

F

-M

e

a

s

u

r

e

Jumlah Dataset

Grafik Pengaruh Jumlah Datasetterhadap F-Measure

Antara News

Detik

Media Indonesia

Gambar

Gambar 1. Contoh Template Web Situs http://www.detik.com
Gambar 2. Ilustrasi Precision dan Recall
Gambar 3. Deskripsi Sistem
Tabel 2. Hasil Pengukuran Performansi Tabel  dengan Dataset Valid
+3

Referensi

Dokumen terkait

Berkaitan dengan hal tersebut, penulis bermaksud membuat suatu sistem yang khusus menyediakan layanan jasa untuk pemilik usaha mikro, kecil, dan menengah di Kabupaten

Sesuai dengan judul yang diambil maka penulis mengajukan masalah pokok yang akan dibahas dalam Tugas Akhir ini yaitu sejauh mana peran sistem informasi akuntansi persedian baik

Jumlah komputer yang diperlukan seharusnya adalah 2 unit dengan spesifikasi hardware pentium 4 (sesuai dengan identifikasi hardware dan software) dan

Dalam hal ini, SMA YPI Tunas Bangsa Palembang penulis jadikan sebagai tempat penelitian, karena sistem informasi akademik yang ada di sekolah tersebut belum terkelola dengan

Dari hasil penelitian didapatkan bah- wa jumlah operator di puskesmas percon- tohan e-Puskesmas dikategorikan kurang, hal ini disebabkan di salah satu unit pelaya- nannya

Pengamatan dilakukan pada organisasi pemuda/i di gereja HKBP Kutabumi, penulis memperhatikan sistem penyampaian informasi masih dilakukan sederhana, seperti dalam hal

perpustakaan.uns.ac.iddigilib.uns.ac.idcommit to user86.Sawi Monumen Sawi monumen tubuhnya amat tegak dan berdaun kompak. Penampilan sawi jenis ini sekilas mirip dengan petsai. Tangkai daun berwarna putih berukuran agak lebar dengan tulang daun yang juga berwarna putih. Daunnya sendiri berwarna hijau segar. Jenis sawi ini tegolong terbesar dan terberat di antara jenis sawi lainnya. D.Syarat Tumbuh Tanaman Sawi Syarat tumbuh tanaman sawi dalam budidaya tanaman sawi adalah sebagai berikut : 1.Iklim Tanaman sawi tidak cocok dengan hawa panas, yang dikehendaki ialah hawa yang dingin dengan suhu antara 150 C - 200 C. Pada suhu di bawah 150 C cepat berbunga, sedangkan pada suhu di atas 200 C tidak akan berbunga. 2.Ketinggian Tempat Di daerah pegunungan yang tingginya lebih dari 1000 m dpl tanaman sawi bisa bertelur, tetapi di daerah rendah tak bisa bertelur. 3.Tanah Tanaman sawi tumbuh dengan baik pada tanah lempung yang subur dan cukup menahan air. (AAK, 1992). Syarat-syarat penting untuk bertanam sawi ialah tanahnya gembur, banyak mengandung humus (subur), dan keadaan pembuangan airnya (drainase) baik. Derajat keasaman tanah (pH) antara 6–7 (Sunaryono dan Rismunandar, 1984). perpustakaan.uns.ac.iddigilib.uns.ac.idcommit to user9E.Teknik Budidaya Tanaman Sawi 1.Pengadaan benih Benih merupakan salah satu faktor penentu keberhasilan usaha tani. Kebutuhan benih sawi untuk setiap hektar lahan tanam sebesar 750 gram. Benih sawi berbentuk bulat, kecil-kecil. Permukaannya licin mengkilap dan agak keras. Warna kulit benih coklat kehitaman. Benih yang akan kita gunakan harus mempunyai kualitas yang baik, seandainya beli harus kita perhatikan lama penyimpanan, varietas, kadar air, suhu dan tempat menyimpannya. Selain itu juga harus memperhatikan kemasan benih harus utuh. kemasan yang baik adalah dengan alumunium foil. Apabila benih yang kita gunakan dari hasil pananaman kita harus memperhatikan kualitas benih itu, misalnya tanaman yang akan diambil sebagai benih harus berumur lebih dari 70 hari. Penanaman sawi memperhatikan proses yang akan dilakukan misalnya dengan dianginkan, disimpan di tempat penyimpanan dan diharapkan lama penyimpanan benih tidak lebih dari 3 tahun.( Eko Margiyanto, 2007) Pengadaan benih dapat dilakukan dengan cara membuat sendiri atau membeli benih yang telah siap tanam. Pengadaan benih dengan cara membeli akan lebih praktis, petani tinggal menggunakan tanpa jerih payah. Sedangkan pengadaan benih dengan cara membuat sendiri cukup rumit. Di samping itu, mutunya belum tentu terjamin baik (Cahyono, 2003). Sawi diperbanyak dengan benih. Benih yang akan diusahakan harus dipilih yang berdaya tumbuh baik. Benih sawi sudah banyak dijual di toko-toko pertanian. Sebelum ditanam di lapang, sebaiknya benih sawi disemaikan terlebih dahulu. Persemaian dapat dilakukan di bedengan atau di kotak persemaian (Anonim, 2007). 2.Pengolahan tanah Sebelum menanam sawi hendaknya tanah digarap lebih dahulu, supaya tanah-tanah yang padat bisa menjadi longgar, sehingga pertukaran perpustakaan.uns.ac.iddigilib.uns.ac.idcommit to user10udara di dalam tanah menjadi baik, gas-gas oksigen dapat masuk ke dalam tanah, gas-gas yang meracuni akar tanaman dapat teroksidasi, dan asam-asam dapat keluar dari tanah. Selain itu, dengan longgarnya tanah maka akar tanaman dapat bergerak dengan bebas meyerap zat-zat makanan di dalamnya (AAK, 1992). Untuk tanaman sayuran dibutuhkan tanah yang mempunyai syarat-syarat di bawah ini : a.Tanah harus gembur sampai cukup dalam. b.Di dalam tanah tidak boleh banyak batu. c.Air dalam tanah mudah meresap ke bawah. Ini berarti tanah tersebut tidak boleh mudah menjadi padat. d.Dalam musim hujan, air harus mudah meresap ke dalam tanah. Ini berarti pembuangan air harus cukup baik. Tujuan pembuatan bedengan dalam budidaya tanaman sayuran adalah : a.Memudahkan pembuangan air hujan, melalui selokan. b.Memudahkan meresapnya air hujan maupun air penyiraman ke dalam tanah. c.Memudahkan pemeliharaan, karena kita dapat berjalan antar bedengan dengan bedengan. d.Menghindarkan terinjak-injaknya tanah antara tanaman hingga menjadi padat. ( Rismunandar, 1983 ). 3.Penanaman Pada penanaman yang benihnya langsung disebarkan di tempat penanaman, yang perlu dijalankan adalah : a.Supaya keadaan tanah tetap lembab dan untuk mempercepat berkecambahnya benih, sehari sebelum tanam, tanah harus diairi terlebih dahulu. perpustakaan.uns.ac.iddigilib.uns.ac.idcommit to user11b.Tanah diaduk (dihaluskan), rumput-rumput dihilangkan, kemudian benih disebarkan menurut deretan secara merata. c.Setelah disebarkan, benih tersebut ditutup dengan tanah, pasir, atau pupuk kandang yang halus. d.Kemudian disiram sampai merata, dan waktu yang baik dalam meyebarkan benih adalah pagi atau sore hari. (AAK, 1992). Penanaman dapat dilakukan setelah tanaman sawi berumur 3 - 4 Minggu sejak benih disemaikan. Jarak tanam yang digunakan umumnya 20 x 20 cm. Kegiatan penanaman ini sebaiknya dilakukan pada sore hari agar air siraman tidak menguap dan tanah menjadi lembab (Anonim, 2007). Waktu bertanam yang baik adalah pada akhir musim hujan (Maret). Walaupun demikian dapat pula ditanam pada musim kemarau, asalkan diberi air secukupnya (Sunaryono dan Rismunandar, 1984). 4.Pemeliharaan tanaman Pemeliharaan dalam budidaya tanaman sawi meliputi tahapan penjarangan tanaman, penyiangan dan pembumbunan, serta pemupukan susulan. a.Penjarangan tanaman Penanaman sawi tanpa melalui tahap pembibitan biasanya tumbuh kurang teratur. Di sana-sini sering terlihat tanaman-tanaman yang terlalu pendek/dekat. Jika hal ini dibiarkan akan menyebabkan pertumbuhan tanaman tersebut kurang begitu baik. Jarak yang terlalu rapat menyebabkan adanya persaingan dalam menyerap unsur-unsur hara di dalam tanah. Dalam hal ini penjarangan dilakukan untuk mendapatkan kualitas hasil yang baik. Penjarangan umumnya dilakukan 2 minggu setelah penanaman. Caranya dengan mencabut tanaman yang tumbuh terlalu rapat. Sisakan tanaman yang tumbuh baik dengan jarak antar tanaman yang teratur (Haryanto et al., 1995). perpustakaan.uns.ac.iddigilib.uns.ac.idcommit to user12b.Penyiangan dan pembumbunan Biasanya setelah turun hujan, tanah di sekitar tanaman menjadi padat sehingga perlu digemburkan. Sambil menggemburkan tanah, kita juga dapat melakukan pencabutan rumput-rumput liar yang tumbuh. Penggemburan tanah ini jangan sampai merusak perakaran tanaman. Kegiatan ini biasanya dilakukan 2 minggu sekali (Anonim, 2007). Untuk membersihkan tanaman liar berupa rerumputan seperti alang-alang hampir sama dengan tanaman perdu, mula-mula rumput dicabut kemudian tanah dikorek dengan gancu. Akar-akar yang terangkat diambil, dikumpulkan, lalu dikeringkan di bawah sinar matahari, setelah kering, rumput kemudian dibakar (Duljapar dan Khoirudin, 2000). Ketika tanaman berumur satu bulan perlu dilakukan penyiangan dan pembumbunan. Tujuannya agar tanaman tidak terganggu oleh gulma dan menjaga agar akar tanaman tidak terkena sinar matahari secara langsung (Tim Penulis PS, 1995 ). c.Pemupukan Setelah tanaman tumbuh baik, kira-kira 10 hari setelah tanam, pemupukan perlu dilakukan. Oleh karena yang akan dikonsumsi adalah daunnya yang tentunya diinginkan penampilan daun yang baik, maka pupuk yang diberikan sebaiknya mengandung Nitrogen (Anonim, 2007). Pemberian Urea sebagai pupuk tambahan bisa dilakukan dengan cara penaburan dalam larikan yang lantas ditutupi tanah kembali. Dapat juga dengan melarutkan dalam air, lalu disiramkan pada bedeng penanaman. Satu sendok urea, sekitar 25 g, dilarutkan dalam 25 l air dapat disiramkan untuk 5 m bedengan. Pada saat penyiraman, tanah dalam bedengan sebaiknya tidak dalam keadaan kering. Waktu penyiraman pupuk tambahan dapat dilakukan pagi atau sore hari (Haryanto et al., 1995). perpustakaan.uns.ac.iddigilib.uns.ac.idcommit to user13Jenis-jenis unsur yag diperlukan tanaman sudah kita ketahui bersama. Kini kita beralih membicarakan pupuk atau rabuk, yang merupakan kunci dari kesuburan tanah kita. Karena pupuk tak lain dari zat yang berisisi satu unsur atau lebih yang dimaksudkan untuk menggantikan unsur yang habis diserap tanaman dari tanah. Jadi kalau kita memupuk berarti menambah unsur hara bagi tanah (pupuk akar) dan tanaman (pupuk daun). Sama dengan unsur hara tanah yang mengenal unsur hara makro dan mikro, pupuk juga demikian. Jadi meskipun jumlah pupuk belakangan cenderung makin beragam dengan merek yang bermacam-macam, kita tidak akan terkecoh. Sebab pupuk apapun namanya, entah itu buatan manca negara, dari segi unsur yang dikandungnya ia tak lain dari pupuk makro atau pupuk mikro. Jadi patokan kita dalam membeli pupuk adalah unsur yang dikandungnya (Lingga, 1997). Pemupukan membantu tanaman memperoleh hara yang dibutuhkanya. Unsur hara yang pokok dibutuhkan tanaman adalah unsur Nitrogen (N), Fosfor (P), dan Kalium (K). Itulah sebabnya ketiga unsur ini (NPK) merupakan pupuk utama yang dibutuhkan oleh tanaman. Pupuk organik juga dibutuhkan oleh tanaman, memang kandungan haranya jauh dibawah pupuk kimia, tetapi pupuk organik memiliki kelebihan membantu menggemburkan tanah dan menyatu secara alami menambah unsur hara dan memperbaiki struktur tanah (Nazarudin, 1998). 5.Pengendalian hama dan penyakit Hama yang sering menyerang tanaman sawi adalah ulat daun. Apabila tanaman telah diserangnya, maka tanaman perlu disemprot dengan insektisida. Yang perlu diperhatikan adalah waktu penyemprotannya. Untuk tanaman sayur-sayuran, penyemprotan dilakukan minimal 20 hari sebelum dipanen agar keracunan pada konsumen dapat terhindar (Anonim, 2007). perpustakaan.uns.ac.iddigilib.uns.ac.idcommit to user14OPT yang menyerang pada tanaman sawi yaitu kumbang daun (Phyllotreta vitata), ulat daun (Plutella xylostella), ulat titik tumbuh (Crocidolomia binotalis), dan lalat pengerek daun (Lyriomiza sp.). Berdasarkan tingkat populasi dan kerusakan tanaman yang ditimbulkan, maka peringkat OPT yang menyerang tanaman sawi berturut-turut adalah P. vitata, Lyriomiza sp., P. xylostella, dan C. binotalis. Hama P. vitatamerupakan hama utama, dan hama P. xylostella serta Lyriomiza sp. merupakan hama potensial pada tanaman sawi, sedangkan hamaC. binotalis perlu diwaspadai keberadaanya (Mukasan et al., 2005). Beberapa jenis penyakit yang diketahui menyerang tanaman sawi antara lain: penyakit akar pekuk/akar gada, bercak daun altermaria, busuk basah, embun tepung, rebah semai, busuk daun, busuk Rhizoctonia, bercak daun, dan virus mosaik (Haryanto et al., 1995). 6.Pemanenan Tanaman sawi dapat dipetik hasilnya setelah berumur 2 bulan. Banyak cara yang dilakukan untuk memanen sawi, yaitu: ada yang mencabut seluruh tanaman, ada yang memotong bagian batangnya tepat di atas permukaan tanah, dan ada juga yang memetik daunnya satu per satu. Cara yang terakhir ini dimaksudkan agar tanaman bisa tahan lama (Edy margiyanto,

Sesuai dengan judul laporan ini, penulis hanya membahas tentang pemodelan data sistem informasi keuangan lazismu Yogyakarta serta hal yang berhubungan dengan topik tersebut.. Dalam