• Tidak ada hasil yang ditemukan

Prediksi Produk Domestik Bruto pada Linked Open Government Data (LOGD) menggunakan Metode Linear Regression

N/A
N/A
Protected

Academic year: 2022

Membagikan "Prediksi Produk Domestik Bruto pada Linked Open Government Data (LOGD) menggunakan Metode Linear Regression"

Copied!
10
0
0

Teks penuh

(1)

1

Abstract Gross Domestic Product (GDP) is an indicator used to measure the economic growth rate of a country. By knowing the GDP of a country, national income and economic conditions can be known. However, it is still rare to find predictions of GDP because of the difficulty to collect the data. Therefore, this research used the Linked Open Government Data (LOGD) as knowledge base. Linked Open Government Data (LOGD) is a structured data available on the web and can be used by general public. Linked Open Government Data (LOGD) using semantic technologies so information from different sources can be explored online and integrated in a single unit. The data is reliable because it comes directly from the government. This research used the Linear Regression method of data mining, because the data is a time series data and a linear data. Before processed by the da ta mining process, data is transformed to 2, 4, 8, and 10 window. From the research, the best prediction results shown by the window with n = 2.

Index Terms—LOGD, linear regression, data mining, semantik web

I. PENDAHULUAN1

Menurut McEachern [1], PDB (Produk Domestik Bruto) atau GDP (Gross Domestic Product) artinya mengukur nilai pasar dari barang dan jasa akhir yang diproduksi oleh sumber daya yang berada dalam suatu negara selama jangka waktu tertentu, biasanya satu tahun. PDB dapat digunakan untuk mempelajari perekonomian suatu negara dari waktu ke waktu atau hanya untuk membandingkan beberapa perekonomian pada saat tertentu. PDB juga indikator yang digunakan untuk mengukur tingkat pertumbuhan ekonomi suatu negara. Maka dari itu, perlu adanya prediksi PDB namun, salah satu masalah pada prediksi PDB adalah sulitnya pengumpulan data apabila harus dilakukan secara offline. Masalah lain yang umumnya dihadapi adalah masih banyak basis data yang tersembunyi karena banyak orang yang tidak ingin datanya disentuh pihak lain. Selain itu, banyak data yang disimpan dalam aplikasi tertentu sehingga datanya tidak dapat dengan mudah digunakan kembali[2].

Seiring dengan perkembangan teknologi, pengumpulan data secara online menjadi semakin mudah dan dalam beberapa tahun terakhir penggunaan OGD (Open Government Data) semakin marak di seluruh dunia[3]. OGD

Footnote (boleh dikosongkan)

(Open Government Data) diresmikan melalui ―The Memorandum on Transparency and Open Government ‖ yang ditandatangani oleh Presiden Amerika Serikat, Barack Obama pada Januari 2009. Ide dasar dari OGD (Open Government Data) adalah untuk menciptakan sebuah kerjasama modern diantara politisi, administrasi pemerintahan, industri, dan masyarakat dengan memberikan transparansi, demokrasi, dan kolaborasi yang lebih baik.

OGD (Open Government Data) memungkinkan informasi dan data dapat diakses dan digunakan secara bebas.

Informasi dan data yang diperoleh juga dapat dipertanggungjawabkan karena bersumber dari pemerintah.

Dalam OGD (Open Government Data) interoperabilitas dan standar adalah kuncinya disinilah LOD (Link ed Open Data) berperan[2]. LOD (Link ed Open Data) memfasilitasi inovasi dan penciptaan suatu pengetahuan dari hal tersebut dengan mengelola data-data tradisional. Tanpa LOD (Link ed Open Data) sulit untuk menghubungkan OGD (Open Government Data) yang ada.

Link ed Data pada dasarnya adalah tentang penggunaan web untuk menghubungkan data dari sumber berbeda sehingga orang-orang dapat berbagi data-data terstruktur yang ada di web dengan mudah seperti berbagai dokumen biasa. Data-data ini dapat berasal dari database dari dua atau lebih organisasi berbeda ataupun sistem- sistem berbeda dalam satu organisasi. Pada umumnya, data

Prediksi Produk Domestik Bruto pada Linked Open Government Data (LOGD) menggunakan

Metode Linear Regression

Melati Ayu Anjari, Member, IEEE

(2)

yang diambil dari web menyajikan akses ke datanya melalui Web API. Web API diakses menggunakan mekanisme yang berbeda dengan cakupan yang luas dan data yang didapatkan dari setiap API disajikan dalam berbagai format berbeda. Sehingga untuk mengambil data dari sumber berbeda diperlukan akses ke setiap API satu per satu.

Berbeda dengan Link ed Data yang menggunakan sebuah standar teknologi seperti URI untuk mengidentifikasi dan RDF sebagai format kontennya. Link ed Data menggunakan satu set teknologi tunggal yang dapat langsung menarik data dari sumber yang berbeda, sehingga memudahkan dalam pengambilan data dari banyak sumber berbeda.

Teknologi Link ed Data dapat digunakan untuk menghubungkan data-data yang berbeda dan tersembunyi ke dalam ruang informasi global yang tunggal[4]. LOD (Link ed Open Data) sendiri menurut Tim Berners -Lee[5]

merupakan data terstruktur yang tersedia di web dengan lisensi terbuka menggunakan standar terbuka dari W3C (RDF dan SPARQL) untuk mengidentifikasi berbagai macam hal sehingga, disebut web dari data atau semantik web.

Dengan teknologi semantik ini, selain melaksanakan fungsi dasarnya sebagai tempat untuk mencari sesuatu, web juga berkembang menjadi tempat untuk melakukan sesuatu [6].

Web berbasis semantik adalah suatu jaringan yang mampu memahami tidak hanya makna dari sebuah kata dan konsep, namun juga hubungan logis diantara keduanya, sehingga suatu web dapat menghasilkan informasi yang sesuai dan diinginkan oleh pengunjung website tersebut. Kelebihannya adalah untuk menggali sumber ilmu pengetahuan secara online, sehingga tidak perlu membuka halaman web satu per satu, namun dapat memanfaatkan agen untuk menjelajahi ribuan situs-situs web. Agen-agen cerdas ini akan secara logis memilih hasil-hasil yang relevan sesuai kebutuhan pengguna, kemudian menyajikannya dalam format yang diinginkan. Teknologi ini memungkinkan mesin memahami arti dari sebuah informasi berdasarkan metadata, yaitu informasi mengenai isi informasi. Dengan adanya metadata, mesin diharapkan mampu mengartikan hasil masukan informasi sehingga hasil pencarian menjadi lebih detail dan tepat. W3C mendefinisikan format metadata tersebut adalah RDF (Resource Description Framework ). Tiap unit dari RDF terdiri dari tiga komposisi yaitu, subjek, predikat, dan objek[6]. RDF merupakan standar dalam semantik web yang mampu merepresentasikan data di web sehingga dapat diproses oleh mesin. Selain RDF, arsitektur lainnya adalah URI (Uniform Resource Identifiers) yang merupakan sekumpulan karakter yang digunakan untuk mengidentifikasi obyek. Jenis URI yang paling terkenal adalah URL (Uniform Resource Locator) yang digunakan untuk memberitahu letak suatu sumber tertentu. Ada juga ontologi, yang menjadi konsep utama penentuan domain di dalam semantik web.

Ontologi adalah sebuah spesifikasi dari sebuah konseptual, yang menjelaskan konsep dan keterhubungannya dengan sebuah ilmu tertentu. Bahasa ontologi sendiri adalah sebuah

bahasa formal dari suatu pengembangan ontologi. Bahasa pendukung teknologi semantik web yang digunakan dan menjadi struktur ontologi diantaranya XML, OWL, dan RDF.

RDF inilah yamg digunakan pada LOD (Link ed Open Data).

Bahasa query untuk RDF adalah SPARQL (SPARQL Protocol and RDF Query Language). SPARQL dapat dijalankan melalui SPARQL endpoint. Contoh dari LOD (Link ed Open Data) dalam bidang pemerintahan dapat diakses dengan mudah di TWC LOGD.

TWC LOGD merupakan semantik web yang digunakan untuk mempublikasikan Link ed Data dari OGD. Pengguna dapat mengakses, mengarsipkan, menyatukan, dan menggunakan data-data yang berkaitan dengan pemerintahan. Dataset yang tersedia di TWC LOGD sebagian besar berasal dari data-gov.

Menurut Heiko Paulheim[7] LOD (Link ed Open Data) dapat digunakan sebagai basis pengetahuan pada data mining dengan dua strategi dasar yaitu, mengembangkan metode mining khusus untuk LOD (Link ed Open Data) atau melakukan pre-processing pada LOD (Link ed Open Data) sehingga dapat diakses dengan metode data mining tradisional.

Data mining sendiri dapat didefinisikan sebagai disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan atau menemukan pola dari suatu data.

Metodenyapun bermacam-macam diantaranya regresi untuk memprediksi suatu pola.

Penelitian ini mengusulkan untuk melakukan prediksi terhadap Produk Domestik Bruto dengan menggunakan LOGD (Link ed Open Government Data) sebagai basis pengetahuannya dengan metode linear regression. Prediksi Produk Domestik Bruto dengan metode linear regression telah umum. Namun, yang membedakan penelitian ini dengan peneliian lainnya adalah pada penggunaan Link ed Open Government Data (LOGD) sebagai basis pengetahuannya. Diharapkan penelitian ini dapat membuktikan bahwa Link ed Open Government Data (LOGD) dapat digunakan sebagai basis pengetahuan dalam prediksi Produk Domestik Bruto.

Selanjutnya akan dijelaskan mengenai metode yang diusulkan, tinjauan studi, dan tahapan-tahapan metode di bab 2. Bab 3 menjelaskan implementasi. Bab 4 memaparkan hasil penelitian, dan bab 5 memberi kesimpulan dan saran untuk penelitian mendatang.

II. MET ODE YANG DIUSULKAN

Metode analisa data yang digunakan pada penelitian ini mengacu pada metode analisa data yang telah digunakan pada penelitian sebelumnya[8], yaitu

:

(3)

3

Fig. 1. Metode Analisa data [8]

A. Link ed Open Government Data (LOGD)

Menurut Guruh[8] LOGD merupakan kemajuan dari konsep LOD (Link ed Open Data) yang diterapkan di bidang pemerintahan. LOGD pada dasarnya adalah sejumlah RDF yang dapat dinavigasikan melewati server dengan mengikuti link -link pada graph layaknya HTML pada web.

Ide dasar LOD (Link ed Open Data) adalah semantik web.

Semantik web bukan hanya web yang digunakan untuk meletakkan data tetapi, dapat membuat link sehingga manusia dan mesin dapat menjelajahinya[2]. Semantik web adalah sekumpulan teknologi yang menawarkan cara baru yang efisien dalam membantu komputer mengorganisasi dan menarik kesimpulan dari data online. Pada dasarnya, semantik web adalah perkembangan dari World Wide Web (WWW), dimana konten web ditampilkan tidak hanya dengan format bahasa manusia yang umum tetapi, juga dapat dibaca dan dimengerti oleh bahasa mesin.

Link ed Open Data (LOD) untuk pemerintahan dapat dengan mudah diakses di TWC LOGD. Menurut DiFranzo [3]

TWC LOGD menggunakan ekosistem berbasis semantik web dimana pengguna dapat secara aktif mengkonversi, mempublikasikan, mengakses, mengarsipkan, menyatukan, dan menggunakan data yang berhubungan dengan pemerintahan. Akhir September 2010 tercatat bahwa TWC LOGD memiliki lebih dari 8,5 milyar RDF triples dari 436 dataset yang dipublikasikan oleh 11 sumber data berbeda, dimana mayoritasnya adalah data-gov. Fig. 2. menunjukkan alur publikasi data oleh TWC LOGD[3], yaitu :

Fig. 1. Alur publikasi data oleh T WC LOGD[3]

a. Konversi Data atau Pembuatan Data

Sebagian besar dataset pemerintahan masih berada dalam bentuk yang tidak terstruktur. TWC LOGD mengkonversi data-data mentah yang tidak terstruktur tersebut menjadi RDF dengan TWC LOGD converter. Selama proses konversi, konvertor juga menangkap metadata dan asal informasi serta menjaga versi-versi dari dataset (versi baru tidak menghilangkan versi lama sebuah dataset).

b. Peningkatan Data

TWC LOGD menggunakan teknologi semantik web dan pembelajaran mesin untuk meningkatkan data- datanya dengan memperbanyak link -link . TWC LOGD telah meningkatkan 54 dataset yang telah dikonversi menggunakan 119 atribut objek, 65 kelas dan 7.051 link .

c. Query Data atau Akses Data

Dataset yang telah dikonversi dapat diakses dengan TWC LOGD dalam berbagai cara. Setiap dataset memiliki manually-contributed metadata (judul, deskripsi, dsb) dan automatically-generated metadata (triple, link, dsb). Metadata dari dataset ini dapat diakses melalui URI dan SPARQL endpoint.

Menurut Ding[9] LOGD memiliki tiga tahap dalam pemrosesan data, yaitu :

a. Open Stage, petugas pemerintahan memainkan peran kunci dengan memasukkan dataset pemerintahan (OGD) secara online dengan format yang dapat digunakan kembali untuk membantu masyarakat menemukan dataset yang relevan.

b. Link Stage, Komunitas seperti, industri dan akademisi membantu meningkatkan kualitas OGD yang dirilis. Tenaga manusia dan mesin dapat

(4)

digunakan untuk menghasilkan link -link keterangan tambahan (contohnya : kosa kata standar, konsep pemetaan, dan referensi lain yang relevan) dan layanan bernilai tambah lainnya.

c. Reuse Stage, pengembang menarik dataset-dataset OGD yang telah terpublikasi untuk membangun aplikasi bernilai tinggi.

B. SPARQL dan RDF

SPARQL adalah singkatan dari SPARQL Protocol and RDF Query Language, merupakan bahasa query untuk RDF, yang memungkinkan data yang disimpan dalam format RDF untuk diakses. SPARQL terdiri atas, prefix declaration (untuk menyingkat URI), dataset definition (untuk menyatakan RDF apa yang akan diquery), result clause (untuk mengidentifikasi informasi apa yang akan dihasilkan dari query), query pattern (untuk menetapkan apa yang akan diquery dalam suatu dataset, berbentuk triple), dan query modifiers (untuk menyusun hasil query saat ditampilkan). Menurut Ristiani[10] keuntungan dari SPARQL adalah sintaksnya yang tidak ambigu. SPARQL dapat dijalankan melalui SPARQL endpoint. SPARQL endpoint inilah yang digunakan pada penelitian ini untuk melakukan query untuk data Produk Domestik Bruto pada Link ed Open Government Data (LOGD) sehingga menjadi bentuk baris dan kolom. Hasil dari SPARQL dapat berupa set atau graph RDF.

Menurut Kurniawan[11] RDF (Resource Description Framework ) adalah suatu metadata yang digunakan untuk mendeskripsikan resource atau sumber pada web. RDF menggunakan konsep yang dinamakan triple (terdiri dari subjek,predikat, dan objek). Subjek pada RDF merupakan sumber (resource) atau sesuatu yang dideskripsikan yang biasanya merupakan alamat URI, sedangkan predikat merupakan property atau karakteristik dari sumber (resource) yang menjadi penghubung antara subjek dengan objek, dan objek merupakan nilai dari sebuah predikat.

Fokus pada penelitian ini adalah pada data tahun dan jumlah Produk Domestik Bruto (PDB) yang sesuai dengan dollar pada masa sekarang. Untuk menampilkan baris dan kolom dengan dua data tersebut saja adalah sebagai berikut:

PREFIX conversion:

<http://purl.org/twc/vocab/conversion/>

SELECT ?year ?gdp_us_current WHERE {

GRAPH <http://logd.tw.rpi.edu/source/bea- gov/dataset/nipa-gdp-real/version/2010-Nov-08> {

?s <http://logd.tw.rpi.edu/source/bea-gov/dataset/nipa- gdp-real/vocab/raw/gdp_in_billions_of_current_dollars>

?gdp_us_current .

?s <http://logd.tw.rpi.edu/source/bea-gov/dataset/nipa- gdp-real/vocab/raw/year> ?year .

?s <http://open.vocab.org/terms/subjectDiscriminator>

<http://logd.tw.rpi.edu/source/bea-gov/dataset/nipa-gdp- real/discriminator/us -gdplev-yearly>

} }

order by ?year

C. Data Mining

Pada penelitian ini, data Produk Domestik Bruto pada Link ed Open Government Data (LOGD) tidak dapat langsung diolah dengan data mining, melainkan harus diakses terlebih dahulu melalui SPARQL endpoint. Setelah mendapat instance data, barulah data dapat diolah dengan metode data mining.

Menurut Witten et al[12] data mining adalah melakukan ekstraksi untuk mendapatkan informasi penting yang sifatnya implisit dan sebelumnya tidak diketahui, dari suatu data. Selain itu, data mining juga berguna untuk menemukan pola dan aturan yang bermanfaat. Data mining merupakan salah satu tahapan dalam proses KDD (Knowledge Discovery in Database).

Fig. 3. Proses KDD[13]

Fig. 3. menjelaskan proses KDD menurut Fayyad[13], yaitu :

a. Data Selection

Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data tersebut akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.

b. Pre-processing (Cleaning)

Sebelum proses data mining dilaksanakan, perlu dilakukan proses pembersihan pada data. Proses pembersihan ini diantaranya, membuang duplikasi data, memeriksa data yang inkonsisten, memperbaiki

(5)

5

kesalahan pada data, dan memperkaya data yang sudah ada dengan informasi lain yang relevan.

c. Transformation

Proses ini merupakan proses mengubah data yang telah dipilih sehingga, data tersebut sesuai untuk proses data mining. Menurut Han[14] transformasi data meliputi, smoothing (menghilangkan noise data, tekniknya diantaranya binning, regresi, dan clustering), agregasi (dimana perangkuman atau agregasi diterapkan pada data misal, data hasil produksi harian diagregasi sehingga dihitung total per bulan atau per tahun), generalisasi (dimana data level rendah atau primitif digantikan dengan konsep pada level yang lebih tinggi dengan menggunakan konsep hirarki misal, pada atribut katerogikal seperti

―jalan‖ dapat digeneralisasi menjadi ―kota‖ atau

―negara‖ atau pada atribut numerik seperti ―umur‖

dapat digeneralisasi menjadi ―muda‖, ―paruh baya‖, dan ―lanjut usia‖), normalisasi (dimana atribut data dikelompokkan sesuai skala tertentu dalam sebuah range data), dan konstruksi atribut (dimana atribut baru ditambahkan untuk membantu proses mining).

d. Data Mining

Proses ini adalah proses inti, dimana proses pencarian pola atau informasi menarik dalam data terpilih ini menggunakan metode atau teknik tertentu.

Metode atau teknik pada data mining sangat bervariasi diantaranya, prediksi, klasifikasi, klastering, dan asosiasi.

e. Interpretation (Evaluation)

Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.

D. Windowing Time Series

Pada tahap data mining di atas, setelah data di pre- processing dari duplikasi dan inkonsistensi maka, data ditransformasi. Windowing pada prediksi data rentet waktu digunakan untuk mentransformasikan data agar memiliki lebih banyak atribut[8]. Semakin banyak window yang ada berarti semakin banyak informasi tentang data rentet waktu yang dapat diperhitungkan. Dengan kata lain, semakin banyak atribut semakin baik prediksi. Namun, jumlah window harus disesuaikan dengan jumlah data yang dimiliki.

Jumlah window yang terlalu sedikit ataupun terlalu banyak tidak baik dalam prediksi[15]. Contoh windowing dalam data rentet waktu dapat dilihat pada Fig. 4. berikut ini:

(a)

(b)

Fig. 4. (a) Contoh Windowing (b) Windowing dengan jumlah window 2

E. Metode Predik si

Setelah data ditransformasikan menjadi beberapa window, langkah selanjutnya adalah mengolah data tersebut dengan metode data mining. Metode yang digunakan dalam penelitian ini adalah metode prediksi. Apabila pada metode klasifikasi data yang digunakan ialah data kategorikal, pada metode prediksi datanya berupa numerik dan data yang digunakan biasanya adalah data rentet waktu. Menurut Han[14] Analisis regresi adalah metode statistik yang paling sering digunakan untuk prediksi numerik, meskipun ada banyak metode lainnya. Pada model analisis regresi linier sederhana (linear regression) hanya ada satu variabel pemberi pengaruh yang terlibat. Model ini mencari garis yang mendekati titik-titik sehingga garis tersebut dapat dijadikan acuan untuk prediksi titik berikutnya. Secara umum persamaannya sebagai berikut :

(6)

Dimana Y adalah variabel terpengaruh (terikat), a adalah konstanta (nilai Y apabila X=0), badalah gradient garis (nilai peningkatan atau penurunan), dan X adalah variabel pemberi pengaruh (bebas).

F. Evaluasi dengan MSE dan RMSE

Setelah hasil prediksi didapat maka, langkah terakhir adalah menguji keakuratan hasil prediksi tersebut.

MSE (Mean Square Error) dan RMSE (Root Mean Square Error) adalah standar untuk menguji metode atau model yang digunakan dan menghitung kesalahan hasil prediksi[22] . RMSE merupakan akar dari MSE. Semakin kecil nilai RMSE maka, semakin kecil kesalahan pada hasil prediksi begitu pula sebaliknya. Rumusnya adalah sebagai berikut :

III. IMPLEMENT ASI

Untuk melakukan prediksi Produk Domestik Bruto pada Linked Open Government Data (LOGD) berdasarkan metode yang diusulkan pada bab sebelumnya, peneliti melakukan desain proses dengan tools RapidMiner. Data terdiri atas, training dan testing. Untuk data training diawali dengan mengambil data dari LOGD melalui operator SPARQL Data Importer. Kemudian, mengatur peran ‗year‘ sebagai id.

Setelah itu, data yang ada diurutkan berdasarkan tahunnya.

Apabila data telah terurut maka, data dibagi menjadi beberapa window. Setelah data terbagi menjadi beberapa window, data tersebut dimodelkan dengan linear regression dan kemudian dihitung MSE dan RMSEnya.

Sedangkan, langkah-langkah dalam proses data testing sama dengan dalam proses data training, hanya saja setelah dilakukan windowing, data yang tidak terlabel langsung dievaluasi dengan cara menghitung MSE dan RMSEnya.

Desain prosesnya dapat dilihat pada Fig. 5.

Fig. 5. Desain Proses

Pada penelitian ini, peneliti juga mengintegrasikan RapidMiner dengan NetBeans. Proses pada RapidMiner dipanggil dalam bentuk xml melalui NetBeans. Integrasi RapidMiner dan Netbeans membutuhkan penggunaan library pada RapidMiner, diantaranya : rapidminer.jar dan launcher.jar untuk inisialisasi RapidMiner melalui NetBeans, plugin.jar agar NetBeans dapat mengenali fitur- fitur tambahan yang ada di RapidMiner seperti extension, selain itu perlu penambahan library dari extension yang digunakan dalam proses yang ada (seperti dalam proses di atas perlu adanya library dari link ed open data extension, agar dapat mengakses data dari SPARQL endpoint dan perlu juga library dari series extension, agar dapat mengenali operator windowing).

Berikut adalah hasil implementasi dari program yang telah dibuat :

1. Halaman Awal

Fig. 6. T ampilan Halaman Awal

Fig. 6. adalah tampilan halaman awal ketika program dijalankan. Terdapat tiga menu yaitu, parameter, result, dan graph, yang masing-masing akan menampilkan feedback sesuai fungsinya.

(7)

7

2. Halaman Parameter

Fig. 7. T ampilan Halaman Prameter

Fig. 7. adalah tampilan halaman parameter, halaman ini ditampilkan ketika user memilih menu parameter pada halaman awal. Halaman ini menampilkan parameter data dalam bentuk xml seperti yang terlihat pada gambar di atas.

Halaman ini memungkinkan user untuk mengubah parameter yang ada.

Setelah user selesai melakukan perubahan pada parameter, maka data dapat tersimpan apabila user memilih save data. Seperti pada Fig. 8. berikut ini :

Fig. 8. T ampilan ketika Menyimpan Data

3. Halaman Hasil

Fig. 9. T ampilan Halaman Hasil

Fig. 9. adalah tampilan halaman hasil prediksi ketika user memilih result pada halaman awal. User menampilkan hasil prediksi dengan memilih jumlah window yaitu, window 2, window 4, window 8, atau window 10.

4. Halaman Grafik

Fig. 10. T ampilan Halaman Grafik

Fig. 10. adalah tampilan halaman grafik ketika user memilih graph pada halaman awal. Grafik menampilkan label dan prediction berdasarkan data yang ada. Pada halaman ini, terdapat dua tombol untuk memudahkan user berpindah ke dua menu yang lainnya (menu parameter dan menu result).

(8)

IV. HASIL&PEMBAHASAN A. Hasil Penelitian

Hasil pada penelitian ini menunjukkan bahwa metode linear regression dapat digunakan untuk memprediksi Produk Domestik Bruto dan Link ed Open Government Data (LOGD) dapat menjadi bas is pengetahuan dalam memprediksi Poduk Domestik Bruto. Karena Link ed Open Government Data (LOGD) memberikan kemudahan dalam mengakses data-data terpercaya yang berasal dari pemerintah melalui SPARQL endpoint.

Hasil prediksi dari Produk Domestik Bruto pada Link ed Open Government Data (LOGD) dengan menggunakan data rentet waktu dapat dilihat pada tabel 1. Tabel tersebut menunjukkan MSE dan RMSE prediksi Produk Domestik Bruto menggunakan metode linear regression dengan jumlah window 2, 4, 8, dan 10.

T ABLEI

HASILPREDIKSIPDBDENGANMET ODELINEARREGRESSION

Jumlah

Window MSE RMSE

2 17673,631 132,942

4 54605,153 233,677

8 118139,178 343,714

10 163947,338 404,904

Pada penelitian ini, untuk menguji hasil prediksi dihitung nilai MSE dan RMSEnya. Semakin kecil nilai MSE dan RMSE maka, semakin kecil kesalahan pada hasil prediksi begitu pula sebaliknya. Tabel di atas menunjukkan bahwa hasil prediksi paling baik adalah menggunakan metode linear regression dengan jumlah window 2, karena nilai MSE dan RMSE pada window 2 adalah yang terkecil dibandingkan nilai MSE dan RMSE window lainnya.

B. Pembahasan

Prediksi Produk Domestik Bruto pada penelitian ini memanfaatkan Link ed Open Government Data (LOGD) sebagai basis pengetahuan. Link ed Open Government Data (LOGD) merupakan semantik web yang digunakan untuk mempublikasikan LOD (Link ed Open Data) dari pemerintah.

Semantik web merupakan perkembangan dari World Wide Web (WWW), yang bukan hanya digunakan untuk meletakkan data tetapi, dapat membuat link sehingga manusia dan mesin dapat menjelajahinya. Semantik web memberikan cara yang lebih mudah dan efisien untuk berbagi, mencari, dan mengkombinasikan data dan informasi dari sumber yang berbeda sehingga nantinya dapat

digunakan kembali. Sehingga, dengan Link ed Open Government Data (LOGD) pengguna dapat menarik data dari berbagai sumber yang berbeda ke dalam ruang informasi global yang tunggal. Berbeda apabila diakses melalui Web API karena, untuk mengambil data dari sumber berbeda diperlukan akses ke setiap API satu per satu. Sedangkan, pada Link ed Open Data sumber-sumber data berbeda dapat ditelusuri melalui suatu link RDF.

Pada penelitian ini, data yang didapat untuk memprediksi Produk Domestik Bruto merupakan data rentet waktu yang bersifat numerik sehingga, metode yang digunakan adalah linear regression. Karena linear regression sendiri adalah metode yang paling umum digunakan dalam prediksi numerik. Selain itu, data yang ada juga bersifat linier sehingga, apabila menggunakan metode linear regression dapat menghasilkan prediksi yang baik. Prediksi Produk Domestik Bruto menggunakan metode linear regression telah umum dan sering dijumpai. Namun, yang ditekankan pada penelitian ini adalah penggunaan Link ed Open Government Data (LOGD) sebagai basis pengetahuan dalam prediksi Produk Domestik Bruto. Selain mempermudah untuk melakukan prediksi Produk Domestik Bruto, Link ed Open Government Data (LOGD) juga merupakan teknologi yang masih dapat dibilang baru.

Data Produk Domestik Bruto yang telah didapat melalui pengaksesan SPARQL sebelum diolah dengan metode data mining tradisional (dalam hal ini metode linear regression), data terlebih dahulu ditransformasi menjadi beberapa window. Windowing ini dilakukan untuk memaksimalkan hasil prediksi. Namun, jumlah window juga harus disesuaikan dengan data yang ada, karena sangat berpengaruh terhadap baik tidaknya hasil prediksi.

Misalnya, pada window dengan jumlah 10 artinya dilakukan windowing dengan menggunakan data dari 10 tahun yang lalu yang mungkin sudah tidak sesuai dengan keadaan pada masa sekarang. Sehingga, hasil prediksi yang didapat kurang maksimal karena range data yang terlalu luas.

Pada gambar di bawah ini ditampilkan perbandingan grafik hasil prediksi Produk Domestik Bruto menggunakan metode linear regression dengan jumlah window 2, 4, 8, dan 10. Semakin banyak jumlah window, hasil prediksi semakin kurang akurat. Gambar di bawah ini menunjukkan selisih antara hasil prediksi dengan data sebenarnya.

(9)

9

Fig. 11. Prediksi PDB pada LOGD menggunakan Linear Regression dengan jumlah window 2

Fig. 12. Prediksi PDB pada LOGD menggunakan Linear Regression dengan jumlah window 4

Fig. 13. Prediksi PDB pada LOGD menggunakan Linear Regression dengan jumlah window 8

Fig. 14. Prediksi PDB pada LOGD menggunakan Linear Regression dengan jumlah window 10

(10)

V. PENUTUP

Dari hasil penelitian ini, dapat disimpulkan bahwa Link ed Open Government Data (LOGD) dapat digunakan sebagai basis pengetahuan dalam melakukan prediksi dengan data rentet waktu. Setelah ditransformasi, data yang didapat dari Link ed Open Government Data (LOGD) dapat diolah menggunakan metode data mining tradisional dalam hal ini menggunakan metode linear regression. Berdasarkan hasil prediksi yang didapat, hasil prediksi Produk Domestik Bruto menggunakan metode linear regression dengan jumlah window 2 adalah yang paling baik. Dengan jumlah MSE 17673,631 dan RMSE 132,942.

Untuk penelitian selanjutnya, dapat digunakan metode—

metode data mining lain untuk meningkatkan hasil prediksi yang ada. Misalnya, menggabungkan atau membandingkan beberapa metode data mining tradisional atau dapat juga menciptakan metode data mining khusus sehingga data dari Link ed Open Government Data (LOGD) dapat langsung diolah, tanpa perlu ditransformasi agar sesuai dengan metode-metode data mining tradis ional. Selain itu, Link ed Open Government Data (LOGD) juga dapat digunakan sebagai basis pengetahuan pada studi kasus lainnya dalam data mining.

REFERENCES

[1] W. A. McEachern, ― US Productivity and Growth,‖ Econ. A Contem p. Introd. 5th ed., Cincinnati, OH Southwest. Coll.

Publ. Thom son Learn., pp. 111–133, 2000.

[2] F. Bauer and M. Kaltenböck, Linked open data: The essentials: A quick start guide for decision m akers. Ed.

Mono/Monochrom, 2012.

[3] D. Difranzo, L. Ding, J. S. Erickson, X. Li, T . Lebo, J.

Michaelis, A. Graves, G. T . Williams, J. G. Zheng, J. Flores, Z. Shangguan, G. Gervasio, D. L. Mcguinness, and J.

Hendler, ―T WC LOGD : A Portal for Linking Open Government Data,‖ 2011.

[4] C. Bizer, T . Heath, and T . Berners-Lee, ― Linked data-the story so far.‖ 2009.

[5] T . Berners-Lee, ― Design Issues: Linked Data,‖ 2009.

[Online]. Available:

http://www.w3.org/DesignIssues/LinkedData. [Accessed: 06 - Oct -2014].

[6] E. K. Nurnawati, ― RESOURCE DESCRIPT ION FRAMEWORK ( RDF ),‖ no. November, pp. 300–307, 2012.

[7] H. Paulheim, ― Exploiting Linked Open Data as

Background Knowledge in Data Mining,‖ pp. 1–10, 2013.

[8] G. F. Shidik and A. Ashari, ― LINKED OPEN

GOVERNMENT DAT A AS BACKGROUND,‖ vol. 62, no.

3, pp. 570–581, 2014.

[9] L. Ding, V. Peristeras, and M. Hausenblas, ― Linked Open Government Data [Guest editors‘ introduction],‖ Intell.

Syst. IEEE, vol. 27, no. 3, pp. 11–15, 2012.

[10] F. Ristiani, ― Analisis Metode Ontologi Methontology untuk Membangun Model Data Electronic Medical Record ( EMR ),‖ pp. 1–7, 2012.

[11] H. Kurniawan, ― PENYIMPANAN DAT A RDF DENGAN MENGGUNAKAN DAT ABASE RELASIONAL,‖ vol.

2007, no. Snati, 2007.

[12] I. H. Witten Frank, Eibe., Hall, Mark A.,, Data m ining : practical m achine learning tools and techniques (Third Edition). Burlington, MA: Morgan Kaufmann, 2011.

[13] U. Fayyad, G. Piatetsky-shapiro, and P. Smyth, ― From Data Mining to Knowledge Discovery in,‖ vol. 17, no. 3, pp. 37–54, 1996.

[14] J. and M. K. Han, Data Mining Concepts and Techniques 2nd Edition, vol. 40, no. 6. 2001, p. 9823.

[15] R. J. Frank, N. Davey, and S. P. Hunt, ― Input window size and neural network predictors,‖ in Neural Networks, 2000.

IJCNN 2000, Proceedings of the IEEE-INNS-ENNS International Joint Conference on, 2000, vol. 2, pp. 237–

242 vol.2.

[16] A. Yusuf and H. Ginardi, ― Pengembangan Perangkat Lunak Prediktor Nilai Mahasiswa Menggunakan Metode Spectral Clustering dan Bagging Regresi Linier,‖ vol. 1, 2012.

First A. Author (M‘76–SM‘81–F‘87) and the other authors may include biographies at the end of regular papers. Biographies are often not included in conference-related papers. T his author became a Member (M) of IEEE in 1976, a Senior Member (SM) in 1981, and a Fellow (F) in 1987. T he first paragraph may contain a place and/or date of birth (list place, then date). Next, the author‘s educational background is listed. T he degrees should be listed with type of degree in what field, which institution, city, state, and country , and year degree was earned. T he author‘s major field of study should be lower- cased.

T he second paragraph uses the pronoun of the person (he or she) and not the author‘s last name. It lists military and work experience, including summer and fellowship jobs. Job titles are capitalized. T he current job must have a location; previous positions may be listed without one. Information concerning previous publications may be included. T ry not to list more than three books or published articles.

T he format for listing publishers of a book within the biography is:

title of book (city, state: publisher name, year) similar to a reference.

Current and previous research interests end the paragraph.

T he third paragraph begins with the author‘s title and last name (e.g., Dr. Smith, Prof. Jones, Mr. Kajor, Ms. Hunter). List any memberships in professional societies other than the IEEE. Finally, list any awards and work for IEEE committees and publications. If a photograph is provided, the biography will be indented around it. T he photograph is placed at the top left of the biography. Personal hobbies will be deleted from the biography.

Gambar

Fig. 1.  Metode Analisa data [8]
Fig. 3. Proses KDD[13]
Fig. 4. (a) Contoh Windowing (b) Windowing dengan jumlah  window 2
Fig. 5. Desain Proses
+2

Referensi

Dokumen terkait

Dalam penelitian ini dapat dijelaskan bagaimana persepsi konsumen terhadap periklanan pada media cetak dalam bentuk brosur, majalah dan tabloid yang dilakukan oleh

tentang konsumsi pangan di Kelurahan Pekan Tanjung Pura Kecamatan Tanjung Pura menunjukkan bahwa umumnya lanjut usia yang pengetahuannya berada dalam kategori sedang

Hasil dari konfirmasi pengaduan masyarakat berupa kesimpulan tentang keyakinan mengenai keberadaan masalah yang teridentifikasi dalam pengaduan masyarakat, dan kesimpulan

Hasil wawancara terhadap empat informan mengenai nilai responsibilitas dapat dilihat dari pernyataan-pernyataan informan melalui kata kunci “menjadikan agama

Perbedaan tersebut adalah pada penelitian sebelumnya merupakan case report pada dua pasien anak yang memiliki koinfeksi leptospirosis dan hepatitis A virus

Percepatan oksidasi lemak pindang dengan asap cair pada hari ke-2 yakni 0,20 lebih rendah dibandingkan dengan pindang tanpa asap cair yakni 1.62 Produksi angka peroksida pada

Jenis penelitian ini adalah penelitian tindakan kelas, dimana kegiatan penelitian menekankan pada pemecahan masalah-masalah yang berkonteks kelas dan diharapkan mampu

Dari hasil perhitungan secara manual dan menggunakan fungsi yang telah dibuat dari macro visual basic akan mendapat hasil penulangan.. Perbandingan antar