1 1.1 Latar Belakang
Sumber daya informasi digital terutama data ilmiah, terus berkembang seiring dengan perkembangan teknologi. Data besar ini berupa sekumpulan data dengan ukuran yang melebihi kemampuan perangkat lunak sebuah database untuk menyimpan, menangkap, menyimpan, mengelola dan menganalisisnya (The McKinsey Global Institute, 2011). Data besar ini diidentikkan dengan Volume, Velocity, dan Variety (3V) yang berasal dari transaksi data, interaksi data dan observasi data.
Informasi dari data yang cukup besar membutuhkan penyimpanan dalam jangka waktu yang panjang. Kemudahan dalam mengakses data dalam jangka waktu yang panjang menjadi salah satu parameter yang menetukan valuable sebuah data. Data yang memiliki kemampuan untuk mempertahankan kelengkapan metadata dan tipe data nya memberikan kepastian bahwa data tersebut dapat di akses dimasa depan ketika dibutuhkan (Riasetiawan, 2011). Data digital memiliki metadata yang mampu memberikan informasi mengenai data itu sendiri. Berawal dari pengelolaan metadata, bisa diperoleh banyak informasi yang dapat disajikan dan dikembangkan. Salah satunya adalah pengembangan metadata sebagai cara pengelolaan data di era Big Data sekarang ini. Data akan diekstraksi hingga memunculkan metadata dan selanjutnya dianalisis kembali untuk dapat dipetakan ke dalam 5 karakteristik Big Data. Informasi mengenai parameter Big data yang terkandung dalam sebuah file dapat menjadi tahap awal pengembangan sistem pengelolaan data yang cocok untuk infrastruktur Big Data.
Penyimpanan data dalam skala besar juga memerlukan bentuk pengelolaan yang tepat, seperti pengelolaan data warehouse. Untuk mencapai suatu tingkatan data warehouse, diperlukan pendekatan yang lebih sederhana dalam bentuk datamart. Datamart yang dikenal sebagai bentuk kecil dari data warehouse, memiliki memiliki kemampuan penyimpanan data yang lebih mudah dimengerti
dan dijalankan dibandingkan warehouse , akses yang lebih mudah ke data yang sering digunakan, dan menciptakan pandangan kolektif untuk sekelompok pengguna (Asihin, 2013). Data Mart ini dapat menampilkan rekomendasi data ilmiah yang berhubungan antara data penelitian pengguna dengan data penelitian yang sudah ada, berdasarkan attribute metadata yang dikestraksi dari data tersebut dan juga berdasarkan karakteristik Big Data yang terdeteksi pada data
Oleh karena hal – hal yang disebutkan diatas, diperlukan sebuah Data Mart yang mampu merangkai pengolahan manajemen data berbasis automatic metadata generation dan menyajikan data tersebut berdasarkan parameter Big Data. Parameter Big Data ini di dapat dari hasil pemetaan dari hasil ekstraksi metadata ke dalam karakteristik metadata yang dilakukan dengan metode by Big Data definition.
Penelitian ini berfokus pada pemetaan parameter big data dari hasil ekstraksi metdata dengan memanfaatkan metode aggregation pipeline yang diimplementasikan pada basis data MongoDB. Hasil pemetaan kemudian ditampilkan dalam model data mart yang mampu menampilkan kumpulan data yang berisikan informasi mengenai elemen big data dalam setiap file. Datamart ini juga mampu melakukan pengelolaan data seperti pencarian, manipulasi data(edit, hapus), serta mampu menampilkan statistics jumlah data yang ditampung dalam basis data. Sistem ini diharap dapat membantu proses penelitian dengan adanya layanan Cataloging Data Mart yang menampilkan Repositori data ilmiah secara terstruktur berdasarkan kategori tertentu serta sistem pencarian sederhana.
1.2 Rumusan Masalah
Dari uraian latar belakang dan permasalahan diatas maka perumusan masalah yang utama untuk dibahas adalah sebagai berikut :
1. Bagaimana memetakan objek parameter metadata ke dalam karakteristik atau parameter Big Data(Volume, Value, Velocity, Variety, Veracity, Value) berdasarkan kesesuaian definisi dan implementasi aggregation pipeline pada basis data non-relasional MongoDB.
2. Bagaimana cara mengimplementasikan metode aggregation pipeline agar dapat menghasilkan informasi mengenai parameter big data dari hasil pemetaan dan ekstraksi metadata based on Big Data Definition, yang kemudian disajikan dalam bentuk Data Mart.
1.3 Batasan Masalah
Batasan masalah dari penelitian ini adalah :
1. Lingkup Data Mart yang diteliti, terbatas pada proses cataloging.
2. Pengelompokan data (cataloging) di dasarkan pada karakteristik 5 Big data (volume, variety, velocity, variety, veracity, value).
3. File yang diuji untuk penelitian adalah data data yang lazim digunakan dalam penelitian, yang dikategorisasikan berdasarkan 4 jenis file sebagai berikut :
File Text Document, yang terdiri dari jenis ekstensi sebagai berikut, .pdf, .docx, .doc, .xls, xlsx, .ppt, .pptx, dan .odt
File Image, yang terdiri dari ekstensi file sebagai berikut, . gif, .tif, .png, .jpg, .jpeg, dan .bmp
File audio, yang terdiri dari jenis ekstensi file sebagai berikut, .mpeg, .mp3, .m4A, .wav, .mp4, .wave, .wma dan .cca
File Video, yang terdiri dari jenis ekstensi file sebagai berikut, .mp4, .3gp, .flv, .wmv, .webm, dan .matroska
4. Metode yang digunakan dalam pemetaan parameter Big Data ini adalah metode pemetaan berdasarkan definisi dari 5 karakteristik Big Data dengan menggunakan aggregation pipeline.
5. Metadata preservasi yang didapat bergantung pada ekstraksi file yang diproses oleh tool automatic metadata generation, yaitu FITS(File Information Tool Set ).
6. Penelitian ini hanya memberikan informasi mengenai objek parameter Big Data yang terkandung dalam sebuah file, tidak memberikan keputusan bahwa sebuah file termasuk kedalam Big Data atau tidak.
1.4 Tujuan Penelitian
Penelitian bertujuan untuk mengimplementasikan metode yang dapat memetakan objek parameter metadata ke dalam paramatere bigdata (variety, volume, velocity, veracity, dan value) dengan menggunakan aggregation pipeline pada MongoDB. Penelitian ini menghasilkan suatu manajemen data yang menyimpan, mengelola , mengelompokan dan menampilkan hasil ekstraksi metadata serta parameter Big data dalam bentuk Data Mart. Data Mart ini mengklasifikasikan file berdasarkan parameter Big data yang dimiliki file tersebut.
1.5 Manfaat Penelitian
Secara ilmiah penelitian ini memberikan manfaat untuk menyediakan tools yang memberikan knowledge atau informasi mengenai parameter big data dan metadata yang terkandung dalam sebuah data. Serta, dapat memberikan referensi untuk penelitian selanjutnya.
1.6 Metode Penelitian 1.6.1 Studi Literatur
Pengumpulan data, teori-teori, dan informasi tentang aplikasi cataloging metadata, manajemen preservasi digital, metadata, metadata preservasi serta data mapping yang berasal dari buku, karya tulis ilmiah, jurnal dan juga artikel-artikel di internet
1.6.2 Analisis
Untuk dapat memahami sistem yang akan dibangun perlu melakukan identifikasi terhadap kebutuhan spesifikasi sistem. Mengidentifikasi tipe data dan tool apa saja yang akan digunakan untuk pengujian.
1.6.3 Perancangan
Berdasarkan hasil analisis, dilakukan perancangan dengan memodelkan sistem. Dengan pemodelan ini akan diperoleh gambaran mengenai penyelesaian masalah yang telah diidentifikasi sebelumnya.
1.6.4 Implementasi
Sistem diimplementasikan sesuai dengan rancangan yang telah dibuat dan berdasarkan analisa yang dilakukan terhadap data yang diuji, menggunakan Database dibuat berdasarkan hasil proses pendapatan metadata serta tools untuk membuat cataloging pada Data Mart.
1.6.5 Pengujian
Pada tahap ini dilakukan pengujian terhadap data sampel yang disiapkan berdasarkan jenis-jenis tipe file yang ada. Pengujian dilakukan dengan menggunakan query-query searching, yang dikategorikan berdasarkan parameter big data, untuk proses pencarian data, pengelompokan data serta berapa waktu yang dibutuhkan.
1.6.6 Kesimpulan
Kesimpulan yang diharapkan dari penelitan ini adalah metode aggregration pipeline pada MongoDB dapat digunakan untuk pemetaan parameter Big Data based on definition, yang kemudian dibuktikan dengan sebuah Sistem Repositori data ilmiah dalam bentuk Data Mart. Sistem ini nantinya dilengkapi dengan aplikasi automatic metadata generation yang mampu menyimpan, mengelola, mengelompokan dan menampilkan metadata deskriptif serta metadata preservasi dari data ilmiah, yang kemudian diklasifikasikan berdasarkan 5 Parameter Big Data yaitu Volume, Variety, Veracity, Velocity dan Value proses pencarian data pada metadata preservasi, sehingga dapat mempercepat dan mempermudah proses pencarian data pada sistem manajemen data yang dibuat.
1.7 Sistematika Penulisan
Sistematika dalam penulisan tugas akhir ini akan terdiri atas lima bab, yaitu: 1. BAB I PENDAHULUAN
Berisi mengenai latar belakang penelitian, rumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, dan sistematika penulisan.
2. BAB II TINJAUAN PUSTAKA
Bab ini memuat pembahasan mengenai penelitian terdahulu yang digunakan sebagai bahan referensi dalam penulisan penelitian ini. Selain itu juga memuat penjelasan yang membedakan penelitian ini dengan penelitian sejenis yang pernah ada sebelumnya.
3. BAB III LANDASAN TEORI
Bab ini berisi teori-teori yang menjadi landasan dalam penulisan penelitian ini yaitu mengenai data ilmiah, metadata, Big Data, aplikasi web, data mart dan Aggregation Pipeline Framework MongoDB.
4. BAB IV ANALISIS DAN PERANCANGAN SISTEM
Bab ini berisi analisis terhadap sistem yang akan dikembangkan, serta penjelasan mengenai perancangan sistem berdasarkan hasil analisa yang telah dilakukan.
5. BAB V HASIL IMPLEMENTASI DAN PEMBAHASAN
Pada bab ini akan dijelaskan hasil implementasi dari sistem yang telah dibangun berdasarkan perancangan yang telah dilakukan sebelumnya. Disertai pula pembahasan dari hasil pengujian sistem.
6. BAB VI KESIMPULAN DAN SARAN
Bab ini berisi mengenai kesimpulan dari penelitian yang telah dilakukan dan saran untuk pengembangan penelitian selanjutnya. Pengambilan kesimpulan berdasarkan hasil analisa dan pembahasan dari pengujian data berdasarkan parameter. Hasil yang diharapkan yaitu dihasilkannya sebuah Datamart yang mampu menyimpan, mengelola , mengelompokan dan menampilkan hasil ekstraksi metadata serta parameter Big data yang terkandung dalam suatu file.