INTEGRASI DATA SEMITERSTRUKTUR SECARA SKEMATIK BERBASIS XML (EXTENSIBLE MARKUP LANGUAGE)
TITIN PRAMIYATI K.
SEKOLAH PASCASARJANA
PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI
Dengan ini saya menyatakan bahwa Tesis Integrasi Data Semiterstruktur Secara Skematik Berbasis XML (Extensible Markup Language), adalah karya sendiri dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal dari atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.
Bogor, Januari 2008
Titin Pramiyati K.
NIM G651030054
ABSTRACT
TITIN PRAMIYATI K. Schematically Integration Semistructured Data Base on Extensible Markup Language. Under the supervision of FAHREN BUKHARI and KUDANG B. SEMINAR.
The recent emergence of eXtensible Markup Language (XML) as a new standard for data representation on the world-wide-web has drawn attention. Beside that, the similarity between semistructured data models and XML makes it favor to represent semistructured data models. The goals of this study are to analize and design integrating semistructured data base on XML. The other goal is to develop a step as an alternate to maintenance and develops integration semistructured data.
This study used a schematic approach to integrate the semistructured data. The integration can occur in two steps, which are schema translation and schema integration.
In the first step, the component semistructured data schemas are translated to XML’s schema. In the second step, each individual schema document as the source schema is mapped into the global conceptual schema or target schema thereby achieving data integration for XML documents.
Key word: Semistructured data models, Global Conceptual Schema, XML.
RINGKASAN
TITIN PRAMIYATI K. Integrasi Data Semiterstruktur Secara Skematik Berbasis XML (Extensible Markup Language), Dibimbing oleh FAHREN BUKHARI dan KUDANG B.
SEMINAR.
World-Wide-Web yang dikenal sebagai web adalah sistem standar yang diterima secara universal untuk penyimpanan, pengambilan, format dan penyajian informasi melalui sebuah jaringan internet yang berfungsi sebagai media transportasi informasi.
Seperti diketahui, saat ini beragam informasi dapat ditempatkan pada web, baik dari bidang pendidikan, usaha, pemerintahan, sosial, budaya, sampai pada hiburan. Pada bidang pendidikan, khususnya pendidikan tinggi, web dapat dimanfaatkan untuk mempublikasikan lulusan dan alumni dari berbagai perguruan tinggi dengan mengumpulkan data lulusan dan alumni tersebut menjadi satu sumberdata.
Saat ini data yang akan ditempatkan pada web dapat menggunakan model data semiterstruktur yang menggunakan struktur pohon sebagai skema datanya. Representasi data semiterstruktur dapat dilakukan dengan menggunakan extensible markup language (XML), yang digunakan sebagai format baku dalam merepresentasi data semiterstruktur.
Untuk mengumpulkan data lulusan dan alumni yang berasal dari berbagai sumberdata dan ditempatkan pada web, dapat dilakukan dengan mengintegrasikan data semiterstruktur berbasis XML secara skematik, yaitu mengintegrasikan data dengan menggabungkan semua skema sumberdata yang ekivalen untuk menghasilkan sebuah skema konseptual global.
Integrasi data terdiri dari 2 (dua) proses, yaitu proses schema translation dan proses integrasi (integration) itu sendiri. Proses schema translation yang akan dilakukan pada penelitian ini adalah merubah model data basisdata relasi (relational) yang dijadikan sebagai basisdata lokal ke bentuk model data XML yang kemudian disebut sebagai skema lokal, translasi dilakukan dengan membentuk metadata basisdata lokal tersebut dengan membangun skema dokumen XML dan DTD (document type definition). Selain translasi model data, pada proses ini juga dibangun dokumen XML berdasarkan dari skema dokumen XML dan DTD untuk menyimpan data yang dikenal sebagai XML instance.
Pengecekan kebenaran terhadap skema yang dibentuk dilakukan dengan mengevaluasi struktur skema dokumen dengan DTD sehingga skema dokumen memenuhi kondisi well-formed dan valid-formed, serta dilakukan evaluasi terhadap dokumen XML yang telah berisi data, apakah sudah memenuhi kebutuhan informasi yang ingin dihasilkan atau tidak.
Proses berikut yang dilakukan adalah integrasi, pada proses ini integrasi dilakukan secara skematik dengan menggabungkan semua skema lokal yang telah dibuat sampai didapatkan sebuah skema yang mengandung seluruh elemen dari skema lokal yang diintegrasikan yang kemudian disebut sebagai skema konseptual global. Untuk mengetahui kebenaran dari skema konseptual global yang dihasilkan, dilakukan pemetaan (mapping) antara skema lokal yang dijadikan sebagai skema source dengan skema konseptual global sebagai skema target. Jika seluruh elemen pada skema source terpetakan pada skema target maka skema konseptual global dapat digunakan sebagai media integrasi data. Kebenaran keluaran yang dihasilkan dari pemetaan ini yang
menunjukkan bahwa skema konseptual global yang digunakan dapat dijadikan media integrasi data semiterstruktur sehingga data alumni dan lulusan yang tersebar pada berbagai sumberdata dapat dilihat sebagai sebuah sumberdata.
Kata kunci : model data semiterstruktur, skema konseptual global, XML
© Hak cipta milik IPB, tahun 2008 Hak cipta dilindungi
Dilarang mengutip dan memperbanyak tanpa izin tertulis dari Institut Pertanian Bogor, sebagian atau seluruhnya dalam bentuk apa pun, baik cetak, fotocopi, mikrofilm, dan sebagainya
INTEGRASI DATA SEMITERSTRUKTUR SECARA SKEMATIK BERBASIS XML (EXTENSIBLE MARKUP LANGUAGE)
TITIN PRAMIYATI K.
Tesis
Sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada
Departemen Ilmu Komputer
SEKOLAH PASCASARJANA
Judul Tesis : Integrasi Data Semiterstruktur Secara Skematik Berbasis XML (Extensible Markup Language)
Nama : TITIN PRAMIYATI K.
NIM : G651030054
Disetujui, Komisi Pembimbing
Ir. Fahren Bukhari, M.Sc. Prof. Dr. Ir. Kudang B. Seminar, M.Sc.
Ketua Anggota
Diketahui, Ketua Program Studi
Ilmu Komputer Dekan Sekolah Pascasarjana IPB
Dr. Sugi Guritman, MSc. Prof. Dr. Ir. Khairil Anwar Notodiputro, MS
Tanggal ujian: 5 Januari 2008 Tanggal Lulus: 23 Januari 2008
Penguji Luar Komisi pada Ujian Tesis : Drs. Prapto Tri Supriyo, M.Kom.
PRAKATA
Syukur Alhamdulillah, penulis panjatkan kepada illahi robbi Allah SWT, atas rahmat dan hidayahnya sehingga akhirnya karya ilmiah ini dapat diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak Maret 2006 ini adalah integrasi data semiterstruktur, dengan judul Integrasi Data Semiterstruktur Secara Skematik Berbasis XML (Extensible Markup Language).
Pada kesempatan ini, penulis menyampaikan ucapan terima kasih dan penghargaan yang setinggi – tingginya kepada bapak Ir. Fahren Bukhari, M.Sc, , dan bapak Prof. Dr.
Ir. Kudang Boro Seminar, M.Sc., atas kesediaanya meluangkan waktu untuk membimbing sejak awal pemilihan tema penelitian hingga selesainya karya ilmiah ini.
Penghargaan yang tulus penulis sampaikan pula, kepada para dosen Program Studi Ilmu Komputer, Sekolah Pascasarjana, Institut Pertanian Bogor, yang telah memberi wawasan pengetahuan bagi penulis.
Atas do’a, pengorbanan, kesabaran serta dukungan moril, penulis ucapkan terima kasih dan rasa hormat yang tulus pada ibu dan suami tercinta, serta seluruh keluarga.
Semoga, hasil karya ilmiah yang jauh dari sempurna ini dapat bermanfaat.
Bogor, Januari 2008
Titin Pramiyati K.
RIWAYAT HIDUP
Penulis dilahirkan di Jakarta pada tanggal 8 April 1969 dari ayah Saleh Harsono K.
dan ibu Suzana Tellusa. Penulis adalah putri kelima dari lima bersaudara.
Pada tahun 1988 penulis lulus dari SMA Negeri 52 Jakarta. Pendidikan sarjana ditempuh pada tahun 1997 di Universitas Pembangunan Nasional ”Veteran” Jakarta, jurusan Manajemen Informatika, lulus pada tahun 1999. Pada tahun 2003 penulis mendapat kesempatan untuk melanjut pendidikan ke program magister pada program Studi Ilmu Komputer, Sekolah Pascasarjana IPB.
Penulis bekerja di Universitas Pembangunan Nasional ”Veteran” Jakarta, pada Fakultas Ilmu Komputer sejak tahun 1992 hingga sekarang. Pada tahun 2005 penulis dipercaya sebagai Ketua Program Studi Manajemen Informatika, dan pada tahun 2006 penulis dipercaya sebagai Ketua Jurusan Sistem Informasi pada Fakultas Ilmu Komputer UPN ”Veteran” Jakarta.
DAFTAR ISI
Halaman
DAFTAR TABEL ……….. iii
DAFTAR GAMBAR ………. iv
DAFTAR LAMPIRAN ……….……….. v
PENDAHULUAN 1 Latar Belakang ..………... 1
Tujuan Penulisan ………. 3
Manfaat Penulisan ………... 3
Ruang Lingkup ……… 3
TINJAUAN PUSTAKA Data Semi Terstruktur ………. 4
Metadata …………..………... 7
Integrasi ………..………... 9
Extensible Markup Language (XML) ……… 12
Validasi XML ….………. 14
METODOLOGI PENELITIAN Kerangka Berpikir………. 16
Bahan dan Alat Penelitian……….…… 18
PEMBAHASAN DAN HASIL Translasi Skema ………. 22
Penentuan Model Data ……… 25
Pembentukan Skema Data Semiterstruktur Berbasis XML 25 Pembentukan Skema Dokumen XML ... 31
Pembentukan Dokumen XML ... 40
Integrasi Skema ... 42
Pembentukan Skema ... 42
Mapping ... 45
Tahapan Integrasi Skema Data Semi Terstruktur ... 48
i
SIMPULAN DAN SARAN
Simpulan ……… 51
Saran ……… 51
DAFTAR PUSTAKA 52
DAFTAR TABEL
Halaman
1. Contoh Basisdata Relasional ... 6
2. Struktur data File Mahasiswa ... 18
3. Stuktur data File Program Studi ... 18
4. Struktur data File Yudisium ... 19
5. Struktur data File Mh_Siswa ... 19
6. Stuktur data File Program_Studi ... 19
7. Struktur data File Alamat ... 20
8. Struktur data File MHS ... 20
9. Stuktur data File ProgramStudi ... 20
10. Struktur data File Yudisium ... 20
11. Struktur data File Alamat ... 21
12. Elemen Mahasiswa ... 26
13. Elemen Prodi ... 28
14. Elemen Yudisium ... 29
iii
DAFTAR GAMBAR
Halaman
1. Contoh edge-labeled tree ... 4
2. Contoh penggunaan tipe data sebagai Label ... 5
3. Struktur pohon data semi terstruktur ... 6
4. Contoh dokumen XML ... 13
5. Contoh skema dokumen XML ... 14
6. Bagan kerangka pikir penelitian ... 16
7. Relationship data model Alumni ... 22
8. Relationship data model Yudisium ... 23
9. Relationship data model Lulusan ... 24
10. Relationship data model Target Skema ... 24
11. Struktur pohon elemen Mahasiswa ... 27
12. Struktur pohon elemen Prodi ... 28
13. Struktur pohon elemen Yudisium ... 30
14. Struktur pohon elemen Alumni ... 31
15. Skema dokumen Mhs.xsd ... 33
16. Skema dokumen MhsAll.xsd ... 35
17. Mapping antar skema dokumen source dengan skema dokumen target ... 46
18. Tahapan Integrasi Skema Konseptual Global ... 48
19. Skema Dokumen Alumni.xsd ... 49
20. Skema Dokumen AlumniAll.xsd ... 49
21. Mapping Skema ... 50
DAFTAR LAMPIRAN
Halaman
1. Skema Dokumen Mhs.xsd ... 53
2. Skema Dokumen MhsAll.xsd ... 54
3. Skema Dokumen Prodi.xsd ... 55
4. Skema Dokumen ProdiAll.xsd ... 56
5. Skema Dokumen Yudisium.xsd ... 57
6. Skema Dokumen Alumni.xsd ... 58
7. Skema Dokumen AlumniAll.xsd ... 59
8. Skema Dokumen AlumniLkp.xsd ... 60
9. Skema Dokumen AlumniLkpAll.xsd ... 61
10. DTD MhsAll.dtd ... 62
11. DTD ProdiAll.dtd ... 64
12. DTD AlumniAll.dtd ... 65
13. DTD AlumniLengkap.dtd ... 66
v
BAB I PENDAHULUAN
1.1 LATAR BELAKANG
Ketika komputer digunakan sebagai media penyimpanan informasi, berbagai usaha dilakukan untuk membuat struktur data yang dapat menentukan format, tipe, panjang, relasi antar data, dan bagaimana data tersebut ditempatkan pada media simpanan agar mudah diproses untuk menghasilkan informasi yang dibutuhkan. Selain struktur data, untuk menghasilkan informasi dibutuhkan juga satu sistem yang merupakan kumpulan data yang dapat digunakan terus menerus oleh beberapa pengguna, sistem yang kemudian dikenal sebagai basisdata (database). Basisdata adalah kumpulan data yang terhubung secara logik, yang dirancang untuk memenuhi kebutuhan informasi organisasi. Basisdata yang banyak digunakan saat ini adalah basisdata relasional (relational database), memiliki kemudahan dalam melakukan simpanan dan pengambilan data.
Basisdata relasional merupakan basisdata yang mengijinkan tingkat kebebasan data yang tinggi, menyediakan aturan substansial yang sesuai dengan semantik data, konsistensi data, kerangkapan data, serta memungkinkan adanya perluasan manipulasi data yang berorientasi pada set (set-oriented). Setiap tabel pada basisdata relasional direpresentasikan dalam bentuk tabel dua-dimensi yang terdiri dari baris dan kolom, baris pada tabel akan berkorespondensi dengan record dan kolom berkorespondensi dengan atribut.
World-Wide-Web yang dikenal sebagai web adalah sistem standar yang diterima secara universal untuk penyimpanan, pengambilan, format dan penyajian informasi melalui sebuah jaringan internet yang berfungsi sebagai media transportasi informasi.
Semua tipe informasi digital termasuk teks, grafik dan suara dapat ditempatkan dan diolah pada web (Turban, 2003). Dengan kemampuan tersebut, web menjadi sebuah sumberdaya informasi yang sangat luas dan dapat menjadi tujuan pencarian informasi.
Sebagai sumberdaya informasi, data yang ditempatkan pada web adalah data yang tersebar dan terkoneksi pada jaringan yang luas.
terstruktur sudah mulai digunakan pada web dengan menggunakan database gateways sebagai penyelaras. Meskipun bentuk data yang terdapat pada web sangat beragam, akan tetapi bentuk data dengan format tidak terstruktur sangat mendominasi dibanding data dengan format terstruktur, seperti HTML (HyperText Mark-up Language) data dan SGML (Standard Generalized Mark-up Language) data, yang kemudian dikenal sebagai data semi terstruktur (semi-structured).
Data semi tertruktur adalah data yang menggunakan struktur pohon sebagai skema, penggunaan struktur pohon ini memungkinkan data semi terstruktur direpresentasikan dalam berbagai bentuk skema. Alasan digunakannya data semi terstruktur adalah adanya keinginan untuk mengolah sumberdaya web sebagai sebuah basisdata yang tidak dibatasi oleh skema tertentu, keinginan untuk memiliki sebuah format data yang fleksibel untuk kebutuhan pertukaran data antar basisdata yang berbeda (Connolly, 2003).
Seperti diketahui, saat ini beragam informasi dapat ditempatkan pada web, baik dari bidang pendidikan, usaha, pemerintahan, sosial, budaya, sampai pada hiburan. Pada bidang pendidikan, khususnya pendidikan tinggi, web dapat dimanfaatkan untuk mempublikasikan lulusan dan alumni suatu perguruan tinggi. Publikasi ini dapat digunakan oleh pemerintah untuk mendapatkan data tenaga kerja potensial dan ahli, selain itu dapat dimanfaatkan oleh perusahaan yang membutuhkan tenaga kerja yang profesional dan bermutu sesuai bidang usaha, bahkan dapat dimanfaatkan oleh perguruan tinggi tersebut untuk memberikan informasi mutu pendidikan yang mereka lakukan yang tercermin pada data lulusan dan alumninya.
Hal tersebut di atas dapat diwujudkan dengan mengumpulkan semua data lulusan atau alumni dari berbagai perguruan tinggi untuk ditempatkan pada web, pengumpulan data yang berasal dari sumberdata yang berbeda memiliki kemungkinan adanya perbedaan format, skema, bahkan struktur diantara sumberdata tersebut. Untuk mengatasi perbedaan yang ada dapat dilakukan dengan melakukan integrasi data, dengan membangun format standard atau lebih dikenal sebagai skema konseptual global, yang digunakan sebagai acuan dalam merepresentasikan data yang akan ditempatkan pada web. Skema konseptual global ini yang nantinya akan digunakan oleh perguruan tinggi lain jika akan menempatkan data lulusan mereka kedalam web, sehingga dengan adanya
2
skema konseptual global ini data lulusan yang berasal dari sumberdata yang berbeda terlihat sebagai satu sumberdata.
Integrasi data tidak hanya dapat dilakukan pada sumberdata yang bersifat heterogen, akan tetapi dapat juga dilakukan pada sumberdata yang homogen dengan skema yang berbeda, misal saja beberapa sumberdata yang menggunakan relasional basisdata dalam merepresentasikan data lulusan, menggunakan tabel (file), atribut, dan relationship yang berbeda, karena dapat terjadi adanya nama atribut yang sama tetapi memiliki arti yang berbeda atau sebaliknya. Demikian juga dengan sumberdata yang menggunakan data semi terstruktur, dimana model data ini dapat menggunakan bentuk struktur pohon yang berbeda dalam merepresentasikan datanya tentunya perlu untuk diintegrasikan.
1.2 TUJUAN PENULISAN
Tujuan penelitian ini adalah merancang skema konseptual global data semi terstruktur berbasis XML, yang dapat digunakan sebagai media integrasi data dari beberapa sumberdata untuk ditempatkan data pada web.
1.3 MANFAAT PENULISAN
Manfaat penelitian ini adalah menghasilkan rancangan skema konseptual global untuk integrasi data secara skematik pada data semi terstruktur berbasis XML, dan memberikan solusi atau alternatif untuk mengembangkan dan perawatan data yang berkelanjutan.
1.4 RUANG LINGKUP
Lingkup kajian dalam penelitian ini adalah:
1. Analisis terhadap sumber data yang digunakan yaitu sumber data yang terkait dengan informasi alumni pada Perguruan Tinggi dengan sumber data adalah basisdata Alumni yang menggunakan model data relasional.
2. Perancangan skema konseptual global dilakukan dengan mengintegrasikan skema dari sumber data dengan tidak memperhatikan unsur semantik dari skema tersebut.
BAB II
TINJAUAN PUSTAKA
2.1 DATA SEMI TERSTRUKTUR (SEMISTRUCTURED DATA)
Keberadaan data semi terstruktur dikarenakan adanya kebutuhan akan format data baru yang kemudian ditempatkan kedalam teknologi basisdata yang telah ada, terdapat 3 (tiga) motivasi yang dijadikan sebagai dasar dikembangkannya data semi terstruktur, pertama, adanya sumberdata yang ditempatkan pada web, yang ingin diperlakukan sebagai basisdata akan tetapi tidak mengikuti aturan skema basisdata yang telah ada seperti relasional basisdata.
Ke-dua, adanya keinginan untuk memiliki format data yang lebih fleksibel dengan tidak adanya aturan yang menentukan tipe, panjang pada elemen datanya, dan yang ke- tiga adalah memungkinkan kemudahan pada proses pencarian data (browsing) tanpa memperhatikan skema dari sumberdata yang dicari, meskipun sumberdata tersebut memiliki skema. Motivasi nyata yang sangat penting terhadap keberadaan data semi terstruktur adalah adanya keinginan untuk membawa format baru ini kedalam teknologi basisdata yang telah ada. Pada data semi terstruktur, informasi yang biasanya diasosiasikan dengan skema ditempatkan di dalam data itu sendiri, hal ini dikenal dengan istilah “self-describing”. Pada beberapa bentuk data semi terstruktur tidak terdapat skema yang terpisah, kalaupun terdapat skema yag terpisah biasanya yang ditempatkan pada skema hanya batasan yang terlepas dari data (Buneman, 1997).
Pendekatan yang digunakan dalam merepresentasikan data semi terstruktur menggunakan model yang disebut sebagai ‘labeled tree’, yaitu struktur pohon dengan edge berlabel. Untuk membangun struktur edge-labeled tree seperti pada Gambar 1.
menggunakan sintaks sebagai berikut:
{A
⇒
{B⇒
{}, C⇒
{}}, D⇒
{}}A D
B C
Gambar 1. Contoh edge-labeled tree
Untuk memahami struktur edge-labeled tree seperti pada contoh, terlebih dahulu harus dipahami sintaks dasar yang digunakan yaitu:
{ }, merupakan sintaks untuk representasi empty tree
{l
⇒
t}, sintaks yang menyatakan adanya root tree dengan satu edge-labeled l yang terpasang pada subtree tt1
∪
t2, sintaks yang digunakan untuk melakukan penggabungan antara tree t1dengan tree t2, penggabungan dilakukan dengan menyatukan root dari kedua tree.
Dengan demikian sintaks {A
⇒
{B⇒
{}, C⇒
{}}, D⇒
{}}, menyatakan bahwa sebuah tree terbentuk dari dua edge-labeled A dan D, pada edge-labeled A terpasang subtree yang terdiri dari edge-labeled B dan edge-labeled C. Karena pada edge-labeled B, C dan D subtree yang dituju merupakan empty tree, maka sintaks dapat disederhanakan menjadi {A⇒
{B, C}, D} (Buneman, 1996).Label ditempatkan pada edge tidak hanya berfungsi sebagai nama edge, tetapi dapat berfungsi sebagai data dengan tipe Integer, String, atau tipe lain yang sudah dikenal. Pada model data semiterstruktur digunakan juga tipe data simbol (Symbol), tipe data ini dipakai jika label pada edge berfungsi sama seperti atribut pada basisdata relasional atau nama class pada object oriented. Formulasi untuk menentukan label sebagai berikut:
type label = int | string | … | symbol type tree = set(label x tree)
Formula yang pertama dapat dijelaskan bahwa tipe label dapat berupa integer, string atau symbol, sedangkan formula yang ke-dua dapat dijelaskan bahwa sebuah pohon (tree) adalah kumpulan dari label atau pasangan pohon.
A D
B C
1 “a”
“b”
Gambar 2. Contoh penggunaan tipe data sebagai Label
Penulisan label yang berfungsi sebagai data dengan tipe data string menggunakan tanda kutip, seperti contoh “a”, sedangkan penulisan angka tanpa menggunakan tanda kutip. Untuk label yang berfungsi sebagai atribut, hanya dapat menggunakan tipe data simbol walaupun tetap menggunakan huruf dan angka dalam penamaan label tersebut.
Penulisan nama label dengan tipe data simbol dilakukan tanpa tanda kutip dan biasanya menggunakan huruf kapital, contoh label A, B, C dan D, seperti pada Gambar 2.
Struktur pohon dapat juga digunakan untuk merepresentasikan basisdata relasional, Tabel 1 dan Gambar 3 adalah contoh basisdata relasional dalam struktur pohon (Suciu, 1996).
m n m p q
r1: a b r2: b c c
b c a a c c b
Tabel 1. Contoh Basisdata Relasional
r1
r2
tup
tup
tup tup tup
m
n m
m
n n
a c b c c b b c c a a c
m p q
m p
q
Gambar 3. Struktur pohon data semi terstruktur.
Representasi basisdata dalam bentuk pohon di atas yang memiliki sintaks sebagai berikut:
Tree ::= {}|{Label
⇒
Tree} | Tree∪
TreeYang memberi penjelasan bahwa, setiap pohon tidak memiliki pohon atau disebut sebagai empty tree yang disimbolkan dengan {}, atau setiap pohon merupakan kumpulan dari label yang membentuk pohon yang disimbolkan dengan {Label
⇒
Tree}, atau merupakan gabungan antara pohon dengan pohon lainnya yang disimbolkan dengan Tree6
∪
Tree. Yang dimaksud dengan label adalah setiap edge yang mempunyai label seperti edge tup, edge m edge n dan sebagainya, beberapa label ini dapat membentuk pohon seperti terlihat pada edge r1. Sedangkan pohon yang dihasilkan oleh gabungan dari pohon r1 dan r2 akan membentuk pohon yang lebih besar.Gambar 3. juga memperlihatkan adanya perbedaan skema pohon antara r1 dan r2, pada r1 terdapat 3 (tiga) edge-labeled tup dengan 2 (dua) edge-labeled dibawahnya yaitu m dan n, sementara pada r2 hanya ada 2(dua) edge-labeled tup dengan 3 (tiga) edge- labeled m, p dan q. Perbedaan ini menjelaskan karakteristik dari data semi terstruktur yang tidak terpaku pada satu skema saja.
2.2 METADATA
Metadata adalah informasi terstruktur sebuah basisdata yang sering disebut sebagai
‘data tentang data’ atau ‘informasi tentang informasi’. Data atau informasi yang ditempatkan pada metadata merupakan data yang dapat mendeskripsikan elemen yang terkandung pada basisdata, baik informasi berupa nama dari elemen, konten, dan aturan yang diberlakukan pada elemen tersebut. Deskripsi basisdata ini dimaksudkan agar dalam penggunaan dan pengelolaan basisdata tidak mengalami kesulitan, informasi yang terkandung pada basisdata dapat diakses dengan mudah dan tidak rusak. Selain deskripsi elemen basisdata, informasi tentang lokasi dimana informasi ditempatkan juga dapat ditempatkan pada metadata, sehingga temu kembali informasi dapat dilakukan dengan mudah.
Terdapat 3 (tiga) jenis utama metadata, yaitu; Descriptive metadata, Structural metadata, dan Administrative metadata. Descriptive metadata adalah metadata yang mendeskripsikan sebuah sumberdata untuk kebutuhan identifikasi data, termasuk didalamnya identifikasi terhadap elemen seperti judul buku, abstrak, pengarang dan kata kunci pada sebuah dokumen di web. Structural metadata merupakan metadata yang menjelaskan proses penggabungan beberapa objek, seperti penggabungan beberapa halaman web yang diurutkan ke dalam bentuk bab pembahasan pada sebuah buku elektronik. Administrative metadata adalah metadata yang menyediakan informasi untuk membantu dalam mengelola sebuah sumberdaya, seperti dokumentasi atas pembuatan sebuah file, tipe, teknik dan hak akses yang diberikan untuk sebuah file.
Descriptive metadata merupakan metadata yang umum digunakan untuk mendeskripsikan suatu basisdata, fungsi dari metadata ini adalah sebagai resource discovery. Fungsi ini memiliki kesamaan tugas dengan sebuah katalog, yaitu menemukan sumberdata berdasarkan pada kriteria yang diinginkan, mengidentifikasi sumberdata, memberikan informasi sumberdata yang sejenis, memisahkan sumberdata yang tidak sejenis, dan memberikan lokasi penempatan informasi yang diinginkan. Fungsi lain yang dimiliki oleh descriptive metadata adalah meningkatkan kemampuan interoperability, yaitu kemampuan dari multi sistem yang memiliki perbedaan pada hardware, software platforms, struktur data dan antarmuka dalam melakukan pertukaran data (NISO, 2004).
Struktur metadata yang juga disebut sebagai skema adalah satu set elemen metadata yang berisi nama elemen beserta definisi dari elemen (semantik), nilai yang ditempatkan pada elemen metadata disebut sebagai konten, dan aturan-aturan yang diberlakukan pada konten. Contoh aturan yang terdapat pada metadata adalah aturan cara untuk merepresentasikan konten, misalnya penggunaan huruf kapital pada konten, bahkan dapat juga ditentukan value dari konten yang diperbolehkan, misal penggunaan value L dan P pada elemen Jenis_Kelamin. Selain aturan dalam menentukan value elemen, terdapat pula aturan pada sintak yang menentukan bagaimana elemen dan kandungan elemen seharusnya ditulis (encode). Metadata dapat ditulis dalam berbagai sintaks, beberapa skema menggunakan SGML (Standard Generalized Mark-up Language) atau XML (Extensible Mark-up Language).
Metadata Encoding and transmission Standard (METS) adalah descriptive dan administrative metadata yang dibangun untuk memenuhi kebutuhan struktur data baku untuk mendeskripsikan perpustakaan digital. METS adalah sebuah skema XML untuk membentuk instance dokumen XML yang berisi struktur dari perpustakaan objek digital.
Sebagai metadata yang bersifat descriptive dan administrative, METS diharapkan memberi pengelolaan dan penggunaan perpustakaan objek digital berbeda dan meningkat dibandingkan metadata yang digunakan untuk mengelola objek fisik seperti hasil cetakan dan objek fisik lainnya. Contoh penggunaan METS sebagai administrative metadata digunakan untuk memastikan ketersediaan halaman sebuah buku digital yang berada pada file digital yang berbeda.
8
Dublin Core Metadata Element (DCME) adalah satu contoh skema metadata yang dibangun dengan tujuan awal untuk mendefinisikan satu himpunan elemen yang dapat digunakan untuk menjelaskan sumberdaya web yang menyediakan informasi perpustakaan digital. Berhubungan dengan perkembangan sumberdaya elektronik dan ketidakmampuan perpustakaan dalam penyediaan katalog bagi semua sumberdaya tersebut, maka tujuan dari skema ini adalah mendefinisikan beberapa elemen dan aturan sederhana yang dapat diterapkan oleh mereka yang bukan sebagai pembuat katalog.
Terdapat 15 elemen pada DCME, yaitu: Title, Creator, Subject, Description, Publisher, Contributor, Date, Type, Format, Identifier, Source, Language, Relation, Coverage, dan Rights (NISO, 2004).
2.3 INTEGRASI
Peningkatan apresiasi pengguna (user) terhadap web yang berfungsi sebagai alat utama dalam pertukaran data menyebabkan peningkatan kebutuhan untuk mengintegrasikan data yang berasal dari berbagai sumber yang memiliki kemungkinan perbedaan pada skema dan model data. Keberagaman sumberdata ini dapat terjadi pada sumberdata konvensional maupun sumberdata semi terstruktur.
Integrasi basisdata dapat dilakukan dalam 2 (dua) langkah, yaitu; translasi skema (schema translation) dan integrasi skema (schema integration). Pada tahap translasi, komponen skema basisdata akan ditranslasi menjadi intermediate schema kedalam bentuk yang biasa digunakan dalam merepresentasi skema basisdata (canonical), misalnya model E-R (entity relationship), penggunaan representasi yang canonical dimaksudkan agar dapat mengurangi penggunaan translator yang beragam. Tahap translasi skema perlu dilakukan hanya jika komponen basisdata bersifat heterogen atau skema pada basisdata lokal didefinisikan menggunakan model data yang berbeda. Hal lain yang juga dilakukan pada tahap translasi skema ini adalah menentukan spesifikasi model data untuk mendefinisikan skema konseptual global yang akan digunakan pada tahap integrasi data (Özsu et.al, 1999). Tahap selanjutnya adalah tahap integrasi skema, setiap skema antara (intermediate schema) diintegrasikan ke dalam skema konseptual global yang telah didefinisikan sebelumnya, dengan mengidentifikasi komponen dari basisdata yang saling berkaitan antara yang satu dengan yang lain.
Hasil dari integrasi yang dilakukan harus memenuhi tiga hal yaitu; kelengkapan, minimal, dan dimengerti. Kelengkapan yang harus dipenuhi pada integrasi adalah jika semua informasi yang berasal dari semua skema dapat diintegrasikan ke dalam skema konseptual global yang telah ditentukan. Kondisi minimal dari hasil integrasi data dapat dilihat dari banyaknya kerangkapan informasi yang terdapat pada skema hasil integrasi, hal ini dapat terjadi karena kegagalan dalam mendeteksi kerangkapan informasi pada intermediate schema. Mudah dimengerti adalah hal terakhir yang harus dicapai dari integrasi, hal ini dapat peroleh dengan terbentuknya skema terbaik dari hasil integrasi.
Berbagai bentuk pemecahan integrasi data telah dibuat, yang dapat dimasukkan kedalam 2 (dua) kategori utama, yaitu integrasi data dengan pendekatan struktural dan integrasi data dengan pendekatan semantik. Integrasi data dengan pendekatan struktural menggunakan skema global dari sumberdata yang akan diintegrasikan, sedangkan integrasi data dengan pendekatan semantik menggunakan konseptual model atau
‘ontologies’ setiap basisdata lokal sebagai integratornya.
Pada beberapa sistem integrasi data yang menggunakan pendekatan struktural, selain menggunakan skema global, sistem juga menggunakan skema lokal. Kedua skema dibutuhkan karena integrasi data dilakukan dengan memetakan skema global dan skema lokal, untuk menghasilkan view definition. Contoh dari pendekatan struktural adalah Tsimmis, model data yang digunakan dalam integrasi data ini adalah OEM (Object Exchange Model), sementara pada MIX, model data yang digunakan adalah XML.
Sedangkan untuk membangun pendekatan semantik, beberapa usaha telah dilakukan untuk membiarkan pengguna melakukan integrasi data pada tingkat konseptual, seperti RDF (Resource Description Framework).
Pendekatan untuk masalah integrasi data biasanya mengadopsi pendekatan integrasi skema tradisional untuk basisdata terstruktur yang heterogen, atau pendekatan integrasi data semi terstruktur. Kunci keberhasilan integrasi data terdapat pada hubungan antar skema (interschema relationships), identifikasi hubungan antar skema akan memberikan kemudahan dalam integrasi data. Identifikasi hubungan antar skema pada sistem integrasi data untuk data semi terstruktur dapat dilakukan dengan cara yang berbeda, pada proyek TSIMMIS, identifikasi antar skema dilakukan menggunakan pendekatan dengan membangun mediator hanya untuk memahami sumberdata dimana mediator tersebut
10
digunakan. Pada proyek ini tidak digunakan skema basisdata global (Chawate et. al, 1994).
Integrasi data dengan menggunakan pendekatan skema konseptual tidak dapat diterapkan pada data semi terstruktur, hal ini dikarenakan model data semi terstruktur hanya menggunakan labeled-graph untuk menangkap semantik dari data, oleh karenanya agar data semi terstruktur dapat menggunakan skema konseptual untuk integrasi data, digunakan suatu model data yang dapat mengekploitasi informasi skematik (schematic information) dan sekaligus dapat merepresentasikan data semi tertruktur dengan baik.
Untuk memenuhi kebutuhan tersebut dapat digunakan XML sebagai model data, dimana DTD (document type definition) untuk menangkap informasi skematik, dan dokumen XML sebagai representasi data semi terstruktur(Gianolli et. al, 2000).
Penggunaan model data semantik pada integrasi data yang berbasis pada model data XML memungkinkan dibentuknya skema target, dan memetakan informasi yang terdapat pada beberapa fragmen XML ke dalam model konseptual tujuannya. Mengkombinasikan definisi skema konseptual dan membuat pemetaan (mapping) dalam satu langkah mendukung timbulnya ide untuk menggabungkan user-defined, intradocument dan interdocument menjadi satu mata rantai yang berperan melakukan identifikasi dan peleburan objek selama tahap data integrasi berjalan.
Konseptual skema dapat dibentuk berdasarkan pada beberapa input data model yang menawarkan beberapa konsep seperti entity, attribute dan mapping. Proses pembentukan konseptual skema dapat dilakukan dengan mengambil DTD sebagai input, kemudian dipetakan sesuai dengan elemen yang terdapat pada kedua skema. Pembentukan skema konseptual dapat dilakukan secara manual, dimana manusia akan berperan sebagai integrator (human integrator). Kebutuhan informasi yang akan disajikan dan kebenaran skema input serta semantik data merupakan parameter pada pembentukan skema konseptual.
Kebenaran integrasi skema sumberdata terhadap skema konseptual global dapat dilihat berdasarkan dari terpetakan semua elemen data sumberdata pada elemen data skema konseptual global, yang diikuti dengan dihasilkan output yang benar. Jika terdapat elemen sumberdata yang tidak terpetakan maka skema konseptual global yang dirancang belum dapat mengintegrasikan data.
2.4 EXTENSIBLE MARKUP LANGUAGE (XML)
XML merupakan bentuk baku untuk merepresentasikan struktur dokumen teks dan data pada web, yang memberikan kemudahan dalam publikasi dan pertukaran data.
Kemudahan tersebut terdapat pada sintak sederhana yang digunakan XML, tidak seperti pada HTML, XML diharapkan dapat memenuhi kebutuhan manusia dalam pencarian informasi dan memenuhi kebutuhan komputer dalam pengolahan data. XML memisahkan secara tegas antara kandungan informasi dan struktur informasi tersebut. Kelebihan dari XML dibanding HTML adalah penggunaan tag yang berfungsi sebagai user-defined yang digunakan untuk mendeskripsikan arti dari data dan tidak mendefinisikan bagaimana data akan terlihat. Dokumen XML dapat divalidasi sesuai dengan spesifikasi yang terdapat pada Document Type Declarations (DTDs) yang mendeskripsikan struktur dari dokumen XML, yang harus ditekankan adalah bahwa XML digunakan sebagai bahasa untuk mendeskripsikan struktur sintak sebuah dokumen (Gianolli et. Al, 2000).
XML digunakan untuk ‘markup documents’ bagi tujuan presentasi dan pemrosesan data lebih lanjut. Marked-up documents disebut sebagai XML documents (dokumen XML). Komponen dasar dari dokumen XML adalah elemen, yaitu kata yang dibatasi dengan sepasang tag, seperti <Nrp> dan </Nrp>, kandungan dari elemen dapat berupa teks, elemen lain atau kombinasi dari dan elemen. Selanjutnya, elemen dapat berisi atribut (attributes), dimana atribut ini merupakan pasangan ‘name-value’ yang dispesifikasikan dalam tag elemen, seperti pada contoh penulisan atribut dibawah ini (Gianolli et. al, 2000) :
<kodeps id = ‘502’ > Manajemen Informatika</kodeps>
Penggunaan XML dikarenakan XML merupakan perluasan bentuk dari HTML yang memungkinkan untuk mendefinisikan tag secara lokal dan mudah dalam pertukaran informasi terstruktur, sedangkan SGML adalah superset dari HTML dan XML yang memungkinkan peningkatan pembesaran dokumen. Kegunaan XML sebagai tools menjadi sangat luas, karena XML dapat memainkan peranan yang semakin rumit pada pertukaran berbagai bentuk data pada web (NISO, 2004).
Terdapat 2 (dua) kebutuhan dalam membentuk XML yaitu; well-formed dan validate-formed. Well-formalization merupakan kebutuhan dokumen XML agar dapat
12
mengikuti beberapa sintaks, seperti, adanya satu elemen yang berisi elemen lain, atau elemen dapat berupa elemen yang tersarang (nest) akan tetapi tidak tumpang tindih (overlap), dan sebagainya. Kebutuhan atas validation-formed, dikarenakan XML berisi elemen dan atribut yang telah ditentukan tipe data dan hubungan (relationship) antar elemen. Document Type Definition (DTD) dan skema XML adalah dua bentuk mekanisme validasi utama yang digunakan pada XML. Sebagai sebuah well-formed, dokumen XML memiliki struktur bertingkat, dimana terdapat beberapa bahasa dapat digunakan untuk menempatkan elemen pada dokumen XML. Aspek penting lain dari XML adalah perubahan struktur, ketika sebuah instance dokumen dapat dibuat dari banyak sumber untuk dapat dipakai pada aplikasi dengan struktur yang berbeda, teknologi untuk mentranslasi suatu struktur ke struktur lain memungkinkan untuk dilakukan.
Dokumen XML tidak hanya memperlihatkan konten dari data, juga memperlihatkan constraint dan relationship antar data, berikut adalah contoh dari dokumen XML:
<?xml version="1.0" encoding="UTF-8"?>
<!-- edited with XML Spy v4.2 U (http://www.xmlspy.com) by Ba-k (ZonaWarez.com) -->
<!--Sample XML file generated by XML Spy v4.2 U (http://www.xmlspy.com)-->
<!DOCTYPE ProgramStudi SYSTEM "C:\Documents and Settings\Irematara\My Documents\TesisTitin\Prodi.dtd">
<ProgramStudi>
<KodeProdi>511</KodeProdi>
<NamaProdi>Teknik Informatika</NamaProdi>
<JenjangProdi>Strata-1 (S1)</JenjangProdi>
<Akreditasi>B</Akreditasi>
</ProgramStudi
Gambar 4. Contoh dokumen XML
Pada Gambar 4. terlihat elemen “ProgramStudi” ditampilkan bersama beberapa sub-elemen yang dapat berupa simple type atau complex type. Sub-elemen yang complex type adalah sub-elemen yang memiliki sub-elemen. Setiap dokumen XML memiliki skema XML, pada Gambar 5. di bawah adalah skema XML dari dokumen XML pada Gambar 4.
<?xml version="1.0" encoding="UTF-8"?>
<!-- edited with XML Spy v4.2 U (http://www.xmlspy.com) by Ba-k (ZonaWarez.com) -->
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema"
elementFormDefault="qualified" attributeFormDefault="unqualified">
<xs:element name="ProgramStudi">
<xs:annotation>
<xs:documentation>Comment describing your root
element</xs:documentation>
<xs:complexType>
<xs:sequence>
<xs:element name="KodeProdi"/>
<xs:element name="NamaProdi"/>
<xs:element name="JenjangProdi"/>
<xs:element name="Akreditasi"/>
</xs:sequence>
</xs:complexType>
</xs:element>
</xs:schema>
Gambar 5. Contoh dokumen XML
2.4.1 VALIDASI XML
Pengecekan kebenaran skema dokumen XML yang dirancang dapat dilakukan dengan memenuhi kondisi well-formed dan validate-form, untuk dapat memenuhi 2 (dua) kondisi tersebut maka DTD dari dokumen XML harus sesuai dengan skema dokumen XML yang dirancang. Jika skema dokumen XML yang dirancang tidak sesuai dengan DTD skema dokumen, maka skema tersebut hanya memenuhi kondisi well-formed, dengan kondisi yang seperti ini akan memberi akibat dokumen XML tidak dapat dibentuk. Sebaliknya, jika hanya terdapat DTD saja untuk memenuhi kondisi validate- form tanpa adanya pemenuhan kondisi well-formed pembentukan dokumen XML juga tidak dapat dilakukan.
Pengecekan kebenaran skema dokumen XML yang bergantung pada skema dan DTD disebabkan karena DTD adalah bahasa pertama yang digunakan untuk mendefinisikan struktur dan konten dari dokumen XML, akan tetapi terdapat beberapa keterbatasan yang kritis jika DTD digunakan untuk dokumen yang tersebar. Beberapa keterbatasan tersebut antara lain :
a. File DTD bukan merupakan dokumen XML yang well-formed dan valid, DTD bukan merupakan metadata, akan tetapi merupakan suatu bentuk khusus untuk memperlihatkan urutan dari elemen. Permasalahan dengan kondisi ini adalah dibutuhkannya proses khusus oleh XML parser untuk mengurai konten pada DTD.
b. Kesulitan dalam menentukan batasan pada struktur dan konten dari XML instance dengan DTD, pada kenyataannya DTD hanya menentukan urutan dari elemen, sub- elemen dan atribut yang akan ditampilkan, tetapi tidak dapat mendefinisikan relasionship dan batasan.
14
c. DTD tidak dapat mendefinisikan tipe data, sehingga menyulitkan dalam reusable, extensible dan modular. Definisi suatu DTD tidak dapat dilakukan dengan menggunakan DTD lain, dan aturan pada DTD tidak dapat digunakan kembali dan diperluas menggunakan aturan lain baik yang berada didalam maupun luar dari DTD tersebut.
Semua keterbatasan ini mencegah DTD untuk dapat diterapkan secara luas pada sistem yang tersebar, pada sisi lain, skema XML merupakan satu alternatif pada lingkungan perusahaan modern, dimana XML memiliki fitur-fitur (features) sebagai berikut:
a. XML skema adalah dokumen XML itu sendiri, dimana parser XML dapat menangani seperti XML instance.
b. Tipe data kompleks untuk user-defined dapat dibuat pada skema XML.
c. Deskripsi dan relasi dari skema dan komponen dapat diekspresikan, hirarki dapat dijelaskan berdasarkan pada relasi ini, sehingga membuat skema dapat digunakan kembali dan dapat diperluas.
d. Pembentukan Namespace yang didukung pada skema XML untuk mengatasi benturan nama, hal ini dapat membantu penyebaran modular dari administrasi keamanan pada model.
Dengan alasan di atas, semua spesifikasi XML modern saat ini berdasarkan pada skema, dengan peningkatan penggunaan skema pada XML akan menghasilkan kendali akses yang berbasis skema. Kendali akses pada instance dokumen XML dan DTD dapat diimplementasikan secara terpisah, selama DTD bukan merupakan XML yang well- formed dan valid-formed.
Pengecekan kebenaran terhadap skema dokumen XML dapat juga dilakukan berdasarkan dari kemampuan dokumen dalam menampung data, meskipun skema dokumen XML dapat dibentuk dengan benar akan tetapi dokumen yang terbentuk tidak dapat menampung data baik dalam jumlah data maupun representasi data, yang sesuai dengan kebutuhan pengguna, maka skema dokumen perlu dirancang ulang sampai dokumen dapat menampung data sesuai dengan kebutuhan penggunanya.
BAB III
METODOLOGI PENELITIAN
3.1 KERANGKA BERPIKIR
Berdasarkan pada penelitian yang telah dilakukan sebelumnya dan teori yang menjadi dasar pada penelitian yang bertujuan untuk membangun rancangan skema konseptual global untuk mengintegrasikan beberapa sumberdata berbasis XML memiliki kerangka berpikir sebagai berikut:
Gambar 6. Bagan kerangka pikir penelitian
Integrasi adalah proses yang menggabungkan beberapa intermediate skema, yang kemudian gabungan skema ini akan dilakukan strukturisasi ulang untuk menghasilkan integrasi skema. Penggabungan akan sempurna jika semua informasi dari semua skema diintegrasikan menjadi bentuk skema yang baru.
Penelitian ini akan menggunakan model data XML atau dikenal sebagai dokumen XML sebagai model basisdata yang akan digunakan, alasan penggunaan model data ini adalah karena XML masih tetap menggunakan skema meskipun skema yang digunakan bukan merupakan skema yang tetap tetapi skema yang bersifat bebas (arbitrary), skema yang digunakan untuk membentuk struktur model data yang dibangun. Selain skema, model data XML juga menggunakan document type definition (DTD) yang bersama dengan skema digunakan untuk melakukan validasi model data.
Proses integrasi yang akan dilakukan terdiri dari 2 (dua) proses, yaitu proses schema translation dan proses integrasi (integration) itu sendiri. Proses schema translation yang akan dilakukan pada penelitian ini adalah merubah model data basisdata relasi (relational) yang dijadikan sebagai basisdata lokal ke bentuk model data XML yang kemudian disebut sebagai skema lokal, translasi dilakukan dengan membentuk metadata basisdata lokal tersebut dengan membangun skema dan DTD. Selain translasi model data, pada proses ini juga dibangun dokumen XML yang akan digunakan untuk menyimpan data yang dikenal sebagai XML instance. Pembentukan metadata ini menggunakan perangkat lunak XML Spy.
Setelah proses translasi skema ini berhasil dilakukan dengan terbentuknya skema dan DTD skema lokal, kemudian dilakukan proses integrasi data dengan membangun skema konseptual global. Skema konseptual global yang dibangun menggunakan XML sebagai model data, sehingga untuk kebutuhan pembuatan skema konseptual global dibentuk skema dan DTD.
Selain pembangunan skema dan DTD untuk skema konseptual global, pada proses integrasi juga dilakukan pemetaan (mapping) antara skema lokal hasil proses translasi terhadap skema konseptual global. Selama proses pemetaan, ditentukan pula beberapa semantik yang dipakai untuk tetap menjaga hubungan (relationship) antar skema lokal, sehingga keberhasilan integrasi data melalui pemetaan terhadap skema konseptual global dapat terlihat. Proses pemetaan yang dilakukan pada penelitian ini menggunakan perangkat lunak MapForce, yang di produksi oleh Altova, Inc.
Pemetaan pada proses integrasi dapat dilakukan dengan memetakan seluruh elemen data pada skema basisdata lokal terpetakan pada skema konseptual global, jika terdapat
elemen pada skema basisdata lokal tidak terpetakan pada skema konseptual global maka skema konseptual global belum dapat dipakai untuk integrasi data.
3.2 BAHAN dan ALAT PENELITIAN
Basisdata yang digunakan sebagai bahan penelitian adalah basisdata relasional (relational database) pada Sistem Informasi Akademik di UPN “Veteran” Jakarta.
Basisdata relational yang digunakan terdiri dari 3 (tiga) basisdata yang memiliki skema yang berbeda satu dengan yang lain yang kemudian disebut sebagai basisdata Alumni, Yudisium dan Lulusan. Berikut ini adalah basisdata Alumni yang terdiri dari file Mahasiswa, ProgramStudi dan Yudisium, adapun elemen data dapat dilihat pada tabel di bawah ini:
Field Nama Field Tipe Panjang Desimal
1. Mh_NRP Character 9
2. Mh_Nama Character 35
3. Mh_Alamat Character 90
4. Mh_Kdpos Character 5
5. Mh_Telp Character 7
6. Mh_TmLhr Character 20
7. Mh_TgLhr Date
8. Mh_JnKelamin Character 1
9. Mh_ThMasuk Date
10. Mh_AsalSMU Character 3
11. Mh_ThnLulusSMU Date
12. Mh_NmOrtu Character 35
13. Mh_Yudis Date
14. Mh_Ps Character 3
Tabel 2. Struktur data File Mahasiswa
Field Nama Field Tipe Panjang Desimal
1. Ps_Kode Character 3
2. Ps_Nama Character 20
3. Ps_Jenjang Character 7
4. Ps_Akreditasi Character 1
5. Ps_SkepBAN Character 15
6. Ps_IjinOps Date
Tabel 3. Stuktur data File ProgramStudi
18
Field Nama Feld Tipe Panjang Desimal
1. Yudis_NRP Character 9
2. Yudis_TglSkep Date
3. Yudis_IPK Numerik 4 2
4. Yudis_SKS Numerik 3
5. Yudis_Peringkat Character 1
Tabel 4. Struktur data File Yudisium
Sedangkan untuk basisdata Yudisium, yang memiliki 3 (tiga) file yaitu Mh_Siswa, Program_Studi dan file Alamat. Hal yang membedakan kedua Basisdata adalah pada file Yudisium dan file Alamat, pada basisdata Alumni tidak terdapat file Alamat sebaliknya pada basisdata Yudisium tidak terdapat file Yudisium.
Field Nama Field Tipe Panjang Desimal
1. NRP Character 9
2. Nama Character 35
3. TmLhr Character 20
4. TgLhr Date
5. JnKelamin Character 1
6. ThMasuk Date
7. AsalSMU Character 3
8. ThnLulusSMU Date
9. Nama_Ortu Character 35
10. TglYudis Date
11. IPKYudis Numerik 4 2
12. SKSYudis Numerik 3
13. KodePs Character 3
Tabel 5. Struktur data File Mh_Siswa
Field Nama Field Tipe Panjang Desimal
1. Kode Character 3
2. Nama Character 20
3. Jenjang Character 7
4. Akreditasi Character 1
5. SkepBAN Character 15
6. IjinOps Date
Tabel 6. Stuktur data File Program_Studi
Field Nama Feld Tipe Panjang Desimal
1. NRP Character 9
2. NmJalan Character 20
3. Kabupaten Character 20
4. Kodepos Character 5
5. Telepon Character 12
Tabel 7. Struktur data File Alamat
Sebagai basisdata terakhir yang digunakan pada penelitian ini adalah basisdata Lulusan, yang dapat dilihat pada table berikut ini:
Field Nama Field Tipe Panjang Desimal
1. Mhs_NRP Character 9
2. Mhs_Nama Character 35
3. Mhs_TmLhr Character 20
4. Mhs_TgLhr Date
5. Mhs_JnKelamin Character 1
6. Mhs_ThMasuk Date
7. Mhs_AsalSMU Character 3
8. Mhs_ThnLulusSMU Date
9. Mhs_NmOrtu Character 35
10. Mhs_Yudis Date
11. Mhs_PS Character 3
Tabel 8. Struktur data File MHS
Field Nama Field Tipe Panjang Desimal
1. Kode Character 3
2. Nama Character 20
3. Jenjang Character 7
4. Akreditasi Character 1
5. SkepBAN Character 15
6. IjinOps Date
Tabel 9. Stuktur data File ProgramStudi
Field Nama Feld Tipe Panjang Desimal
1. Yudis_NRP Character 9
2. Yudis_TglSkep Date
3. Yudis_IPK Numerik 4 2
4. Yudis_SKS Numerik 3
5. Yudis_Peringkat Character 1
Tabel 10. Struktur data File Yudisium
20
Field Nama Feld Tipe Panjang Desimal
1. Alamat_NRP Character 9
2. Alamat_NmJalan Character 20
3. Alamat_Kabupaten Character 20
4. Alamat_Kodepos Character 5
5. Alamat_Telepon Character 12
Tabel 11. Struktur data File Alamat
Pemilihan basisdata tersebut di atas sebagai bahan penelitian ini didasarkan pada ketentuan yang berlaku dalam penentuan mahasiswa yang menjadi alumni pada fakultas ini, yaitu seseorang dapat dikatakan sebagai alumni apabila orang tersebut adalah mahasiswa pada satu program studi yang telah menyelesaikan studi berdasarkan hasil yudisium.
Alat penelitian yang digunakan adalah perangkat lunak aplikasi XML Spy, perangkat lunak ini digunakan sebagai tools pada pembuatan skema dan Document Type Definitions (DTD) sebuah dokumen XML. Perangkat lunak ini menyediakan juga fasilitas untuk memasukkan isi daripada elemen pada dokumen XML. Hal lain yang dapat dilakukan dengan perangkat lunak ini adalah menulis kode program (coding) untuk menghasilkan keluaran (output) berupa dokumen dengan format HTML. Perangkat lunak ini digunakan pada penelitian pada proses translasi.
Perangkat lain yang digunakan adalah perangkat lunak MapForce, yang berfungsi sebagai tools pada proses pemetaan (mapping) antara skema basisdata lokal dengan skema basisdata global. Hasil yang diperoleh dari proses pemetaan dengan menggunakan perangkat lunak ini adalah keluaran yang sesuai diantara kedua skema, dimana setia elemen pada skema basisdata lokal yang dipetakan ke elemen pada skema basisdata global akan menampilkan isi yang benar dari elemen tersebut. Dengan menggunakan perangkat lunak ini, hubungan antar skema basisdata lokal tetap dapat terjaga seperti pada basisdata relasional melalui penggunaan beberapa fungsi yang telah disediakan, penggunaan fungsi-fungsi ini dapat melengkapi kebutuhan semantik dari skema basisdata yang bersifat semi terstuktur.
BAB IV
PEMBAHASAN dan HASIL
4.1 TRANSLASI SKEMA
Penelitian ini menggunakan 3 (tiga) basisdata yaitu Alumni, Yudisium dan Lulusan, ketiga basisdata ini dijadikan sebagai source basisdata atau basisdata lokal yang akan diintegrasikan. Seperti telah diungkapkan sebelumnya bahwa proses integrasi basisdata terdiri dari 2 (dua) proses yaitu proses translasi skema dan proses integrasi skema. Pada proses translasi, skema dari basisdata Alumni, Yudisium dan Lulusan dituangkan kedalam bentuk relationship model, pemilihan relationship data model pada proses translasi untuk merepresentasikan basisdata lokal karena model ini merupakan salah satu model yang umum digunakan dalam pembahasan basisdata relasional.
Penulisan skema ini dilakukan sebagai langkah awal untuk mendapatkan suatu skema intermediate dari basisdata lokal tersebut.
Pada relationship model, setiap file disebut sebagai entitas (entity), yaitu kumpulan dari objek yang dinyatakan oleh sejumlah elemen data yang sama. Setiap entitas dinyatakan dalam bentuk segiempat yang diberi nama sesuai dengan objeknya, seperti entitas Mahasiswa, Yudisium dan sebagainya. Selain entitas, pada relationship model dinyatakan pula relasionship, yang merupakan fungsi asosiasi antara satu entitas dengan entitas lain, yang dinyatakan dengan simbol diamond, setiap relationship memiliki nama yang ditempatkan pada simbol diamond.
Gambar 7. Relationship data model Alumni
Gambar di atas memperlihatkan relationship basisdata Alumni yang memiliki 3 (tiga) entitas yaitu, entitas Mahasiswa, entitas Yudisium dan entitas ProgramStudi, sedangkan relationship yang dimiliki adalah relationship Mhs_Yudisium dan Prog_Yudisium.
Hubungan yang diperlihatkan pada relationship Mhs_Yudisium adalah hubungan antara entitas Mahasiswa dengan entitas Yudisium yang memberi pengertian bahwa setiap objek pada entitas Mahasiswa dapat diasosiasikan dengan satu objek pada entitas Yudisium, melalui fungsi Mhs_Yudisium. Jika satu objek pada entitas Mahasiswa hanya dapat diasosiasikan tepat satu objek entitas Yudisium, maka relationship Mhs_Yudisium merupakan One-to-One (1:1) relationship.
Berbeda dengan relationship Mhs_Yudisium, pada relationship pada Prog_Yudisium adalah One-to-Many (1:*) relationship. Hal ini terjadi karena satu objek pada entitas ProgramStudi dapat diasosiasikan dengan satu atau lebih objek pada entitas Yudisium.
Gambar 8. Relationship data model Yudisium
Seperti terlihat pada gambar relationship di atas, terdapat 2 (dua) relationship yaitu Mhs_Alamat dan Mhs_prog. Relationship Mhs_Alamat digunakan untuk memperlihatkan hubungan antara entitas Mahasiswa dengan entitas Alamat, yang menyatakan bahwa setiap objek pada entitas Mahasiswa hanya dapat diasosiasikan dengan tepat satu objek pada entitas Alamat.
Gambar 9. Relationship data model Lulusan
Relationship data model di atas adalah relationship data model basisdata Lulusan, yang memiliki 4 (empat) entitas yaitu entitas Mahasiswa, Yudisium, Alamat dan ProgramStudi. Relationship yang digunakan sebagai fungsi asosiasi dari data model ini adalah Mhs_Yudisium, yang mengasosiasikan entitas Mahasiswa dengan entitas Yudisium, Mhs_Alamat adalah relationship yang digunakan pada entitas Mahasiswa dan entitas Alamat, serta relationship Mhs_Prog yang digunakan untuk mengasosiasikan entitas Mahasiswa dengan entitas ProgramStudi.
Ketiga relationship data model di atas merupakan equivalent relationship, sehingga untuk membuat skema intermediate dilakukan dengan memetakan (mapping) dari satu skema ke skema yang lain, Berikut ini adalah relationship data model hasil pemetaan,
Gambar 10. Relationship data model Target Skema
24
Target skema yang dihasilkan dari proses pemetaan ini adalah skema yang nantinya akan digunakan untuk menampung data yang akan ditempatkan di web, dalam hal ini adalah data yang menggunakan skema data semiterstruktur. Untuk menghasilkan skema yang dapat digunakan pada lingkungan web, maka pemetaan dan strukturisasi ulang dituangkan ke dalam bentuk skema data semiterstruktur.
4.1.1 PENENTUAN MODEL DATA
Sesuai dengan tujuan dari penelitian ini untuk menghasilkan suatu skema konseptual global yang dapat digunakan bersama oleh perguruan tinggi dalam mempublikasi data alumni atau lulusan dari perguruan tinggi tersebut pada web. Skema konseptual global ini kemudian dijadikan sebagai media untuk mengintegrasikan sumberdata yang dimiliki oleh perguruan tinggi tersebut.
Umumnya sumberdata yang dimiliki oleh perguruan tinggi menggunakan model data yang terstruktur, dalam hal ini menggunakan relasional sebagai model data, sementara sumberdata yang umum digunakan pada web adalah sumberdata dengan model data tidak terstruktur. Untuk menjembatani kedua model data tersebut, maka digunakan data semi terstruktur yang telah dikembangkan dan telah banyak digunakan sebagai representasi data pada web. Berdasarkan pada kebutuhan akan data semi terstruktur sebagai sumber data alumni yang digunakan pada web, ditentukan XML sebagai representasi dari data semi terstruktur tersebut.
Penentuan penggunaan XML sebagai representasi data semi terstruktur dilakukan dengan beberapa pertimbangan yaitu, saat ini XML merupakan sebuah model data yang dipakai dalam merepresentasikan data semi terstruktur. Pemilihan XML juga didasarkan pada tujuan dari integrasi data yaitu membentuk skema konseptual global bagi data semi terstruktur yang akan ditempatkan pada web, sehingga jika ada beberapa organisasi ingin menempatkan data alumnipada web maka sumber data yang mereka miliki harus sesuai dengan skema konseptual global yang telah dibangun.
4.1.2 PEMBENTUKAN SKEMA DATA SEMITERSTRUKTUR BERBASIS XML Langkah pertama yang dilakukan pada proses pemetaan dari bentuk data terstruktur menjadi data semi terstruktur adalah membangun skema data semiterstruktur dari setiap entitas pada target skema yang telah dihasilkan. Skema dokumen XML yang
Consorsium), dimana skema memiliki root elemen, elemen dan tipe elemen. Elemen yang dipakai pada pembentukan skema data semiterstruktur merupakan entitas dan atribut yang dipilih dari target skema.
Pada pembentukan skema dokumen XML, harus ditentukan nama elemen yang dijadikan sebagai root, untuk kebutuhan penelitian ini nama elemen yang dijadikan sebagai root adalah elemen Mahasiswa, elemen Yudisium dan elemen Prodi. Jika masing-masing root elemen telah ditentukan, berikutnya adalah menentukan elemen- elemen yang akan dikandung oleh masing-masing root elemen tersebut.
Pada penelitian ini, pertama kali yang dibangun adalah root elemen Mahasiswa, sesuai dengan nama yang diambil, skema ini akan berisi elemen-elemen yang menjadi anggota dari root elemen seperti pada tabel di bawah ini.
Root Elemen Nama Elemen Deskripsi
Mahasiswa NRP ID dari Mahasiswa
Nama Nama Mahasiswa
TmpLahir Tempat Lahir Mahasiswa TgLahir Tanggal Lahir Mahasiswa NamaOrtu Nama Orang Tua
JnKelamin Jenis Kelamin
ThMasuk Tahun Masuk Perguruan Tinggi
Alamat : Elemen complextype
Jalan Nama jalan dari Alamat Mahasiswa Kabupaten Kabupaten dari Alamat Mahasiswa Kodepos Kodepos dari Alamat Mahasiswa NoTelp Nomor telepon Mahasiswa
SMU Elemen complextype
ThLulusSMU Tahun lulus dari SMU Mahasiswa NamaSMU Nama Asal SMU Mahasiswa Tabel 12. Elemen Mahasiswa
Jika diperhatikan, anggota elemen Mahasiswa menggunakan entitas Alamat beserta atribut yang dikandung entitas tersebut sebagai bagian dari elemen Mahasiswa.
Hal ini dapat dilakukan pada skema data semiterstruktur, karena pada model data ini tidak ada ketentuan bahwa skema yang dibangun harus sesuai dengan target skema yang digunakan. Selain itu pembuatan skema seperti ini dimaksudkan untuk memudahkan dalam penyajian informasi yang memerlukan adanya kategori sesuai dengan Kabupaten dan Kodepos. Bahkan penyajian informasi dapat dipilah sesuai dengan kebutuhan,
26
misalnya informasi yang dibutuhkan hanya elemen NoTelp, maka elemen lain tidak diambil untuk disajikan.
Penentuan penguraian elemen Alamat menjadi elemen Jalan, Kabupaten, Kodepos dan NoTelp berdasarkan pada alasan basisdata alumni ini selain memberi informasi tentang alumni atau lulusan dari sebuah perguruan tinggi tetapi juga dapat menjadi sumber informasi bagi instansi yang ingin mencari tenaga kerja. Untuk memenuhi kebutuhan tersebut, maka elemen yang dapat digunakan untuk menghubungi alumni cukup terwakili pada elemen Jalan, Kabupaten, Kodepos dan NoTelp.
Demikian pula dengan elemen SMU yang mengandung 2 (dua) elemen lain yaitu elemen ThLulusSMU dan NamaSMU. Penguraian elemen ini dilakukan karena selain dapat memenuhi aturan baku informasi yang harus dipenuhi oleh perguruan tinggi, elemen ThLulusSMU dan NamaSMU dapat memberi informasi karakteristik alumni berdasarkan dari asal sekolah dan tahun lulus sekolah.
Jika elemen Mahasiswa diatas ditampilkan dalam struktur pohon, maka akan terlihat seperti berikut:
Gambar. 11. Struktur pohon elemen Mahasiswa
Elemen Alamat dan elemen SMU pada gambar diatas, merupakan bentuk elemen yang tersarang, dari gambar terlihat juga struktur dari model data semi terstruktur yang fleksibel dan tidak kaku.
Sementara bentuk skema dari elemen Prodi yang merupakan translasi dari entitas ProgramStudi dari relationship data model Target Skema, dapat terlihat pada tabel di bawah ini;
Root Elemen Nama Elemen Deskripsi
Prodi KodeProdi Kode Program Studi
NamaProdi Nama program studi sesuai kode JenjangProdi Jenjang pendidikan dari program studi
Akreditasi Peringkat akreditasi
Tabel 13. Elemen Prodi
Pada entitas ProgramStudi hanya dipilih 4 (empat) atribut yang langsung dapat digunakan pada elemen Prodi hanya 4 elemen saja yang digunakan seperti terlihat pada tabel 13, yaitu elemen KodeProdi, NamaProdi, JenjangProdi dan Akreditasi. Alasan hanya digunakan 4 (empat) atribut untuk dijadikan elemen karena, 2 (dua) atribut merupakan atribut yang disiapkan untuk kepentingan internal organisasi saja. Jika root elemen Prodi ditranslasi ke dalam struktur pohon, maka akan menghasilkan bentuk sebagai berikut:
Gambar 12. Struktur pohon elemen Prodi
Sesuai dengan gambar di atas, pada elemen Prodi semua elemen yang dikandung merupakan elemen simpletype, tidak terdapat elemen complextype seperti pada elemen Mahasiswa. Pada skema elemen Prodi dengan skema elemen Mahasiswa pada Gambar 11. terdapat perbedaan bentuk skema, hal ini sangat mungkin terjadi karena pembentukan skema data semi terstruktur tidak tergantung pada bentuk skema tertentu.
Elemen yang terkandung pada elemen Prodi adalah elemen KodeProdi, yang digunakan sebagai kode dari program studi dari alumni atau lulusan. Elemen KodeProdi selain memberi kode unik suatu program studi, elemen ini nantinya akan digunakan untuk membentuk relationship antara elemen Prodi dengan elemen Alumni, melalui elemen KodeProdi ini akan dibangun semantik yang membentuk relationship tersebut. Elemen NamaProdi adalah elemen yang berisi nama program studi yang sesuai dengan elemen
28
KodeProdi, elemen JenjangProdi adalah elemen yang akan mengandung informasi tentang jenjang pendidikan dari program studi, dan yang terakhir adalah elemen Akreditasi, elemen ini nantinya akan digunakan untuk menampung informasi peringkat akreditasi yang dicapai oleh masing-masing program studi. Penentuan digunakannya elemen-elemen tersebut diatas didasarkan atas pemikiran bahwa dalam pencarian tenaga kerja biasanya organisasi akan melihat dari bidang ilmu yang sesuai dengan bidang pekerjaan, dan bidang ilmu ini dapat diwakili pada informasi program studi. Perolehan peringkat akreditasi program studi, saat ini juga menjadi persyaratan dalam pencarian tenaga kerja, oleh karenanya informasi peringkat akreditasi ini perlu untuk disajikan.
Skema berikut yang harus dibangun adalah skema elemen Yudisium, untuk membuat struktur pohon elemen Yudisium, digunakan entitas Yudisium sebagai dasar penentuan elemen-elemen yang terkandung pada elemen Yudisium. Berikut adalah elemen yang akan digunakan pada elemen Yudisium;
Root Elemen Nama Elemen Deskripsi
Yudisium KodeProdi Kode Program Studi
MhsYudisium: Elemen complextype
NrpMhs Nrp mahasiswa yang sudah yudisium IPK IPK dari mahasiswa sesuai NRP TotalSKS Total SKS yang telah diselesaikan Tabel 14. Elemen Yudisium
Berdasarkan analisis yang dilakukan terhadap kebutuhan informasi alumni, diperoleh hasil bahwa kebutuhan informasi alumni bersifat hirarki, dengan hirarki paling utama adalah tahun akademik dilakukannya yudisium alumni, hirarki berikutnya adalah program studi dari alumni. Langkah pertama yang dilakukan untuk membangun hirarki alumni suatu program studi yaitu dengan membangun elemen Yudisium.
Elemen Yudisium ini merupakan skema terdalam dari skema alumni yang seharusnya, pada elemen ini akan didapatkan data mahasiswa yang sudah di yudisium sesuai program studi program studi. Elemen Yudisium mengandung 2 (dua) elemen yaitu, KodeProdi dan MhsYudisium. Elemen KodeProdi yang digunakan untuk menunjukkan program studi alumni, sedangkan elemen MhsYudisium digunakan untuk menampung
data mahasiswa yang diyudisium melalui elemen NrpMhs, IPK dan TotalSKS. Berikut adalah struktur pohon dari elemen Yudisium.
Gambar 13. Struktur pohon elemen Yudisium
Elemen KodeProdi pada elemen Yudisium selain sebagai parameter dalam penentuan hirarki juga digunakan untuk membangun semantik yang membentuk relasionship antar elemen. Elemen MhsYudisium yang merupakan elemen complextype mengandung elemen-elemen yang memberi informasi mahasiswa yang diyudisium melalui elemen NrpMhs. Elemen NrpMhs ini juga nantinya digunakan untuk membangun semantik dalam pembentukan relationship dengan elemen Mahasiswa. Elemen IPK adalah elemen yang digunakan untuk menampung informasi indeks prestasi kumulatif yang dicapai oleh mahasiswa, elemen ini sangat penting untuk diinformasikan kepada publik sebagai informasi keberhasilan program studi dalam menghasilkan lulusan, memberi informasi tentang prestasi dari mahasiswa selama pendidikan, indeks prestasi kumulatif ini juga dijadikan dasar dalam pencarian tenaga kerja. Informasi yang ditampung oleh elemen TotalSKS adalah jumlah SKS (sistem kredit semester) yang telah ditempuh untuk dapat diyudisium. Elemen TotalSKS ini digunakan sebagai alat kendali atas informasi mahasiswa yang diyudisium, karena jika seorang mahasiswa sudah diyudisium, mahasiswa tersebut harus telah menempuh sejumlah SKS sesuai dengan aturan, jika terdapat kejanggalan pada informasi ini maka ada kemungkinan informasi tidak benar.
Setelah hirarki data alumni berdasarkan program studi terbentuk melalui elemen Yudisium, untuk membentuk hirarki data alumni berdasarkan tahun akademik, yang
30